JPH0246957B2

JPH0246957B2 -

Info

Publication number: JPH0246957B2
Application number: JP59017263A
Authority: JP
Inventors: Mitsuhiko Kano; Yasuhiro Matsuda; Tsudoi Tezuka
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1984-02-03
Filing date: 1984-02-03
Publication date: 1990-10-17
Also published as: JPS60164798A

Description

【発明の詳細な説明】

［産業上の利用分野］この発明は単音節音声認識方法に関し、とくに
簡易な構成でありながら認識率をも向上させるこ
とができるようにしたものである。［従来技術］近年コンピユータや各種制御装置等における入
力装置として音声認識装置が実用期を向えるにい
たつている。人間の話す言葉をそのまま認識でき
る音声認識装置では利用のための特別な教育もい
らず、視線や手足の拘束もない等種々の利点を有
する。しかしながら現在実用されている多くの音
声認識装置は単語単位で認識を行う単語音声認識
装置であり、上述の利点の反面語数に限界を持つ
という欠点があつた。以上のこともあつて最近では音節単位で音声を
認識する単音節音声認識システムが注目されるよ
うになつてきている。周知のとおり日本語におい
ては表音文字により言語体系が構成されているの
で、すなわち各音節がカナの各々にほぼ１対１で
対応するので単音節音声認識システムが各種入力
装置として利用可能である。とくに日本語ワー
ド・プロセツサやワークステーシヨンの普及にと
もなつて、この単音節音声認識システムをこれら
の機器の入力手段に用いる試みが多々なされるよ
うになつている。ところで単音節音声認識システムでは、通常、
音節の特徴パラメータ時系列（以下単にパターン
という）のうち子音部分を全音節部分から切り出
して、子音部分どうしのマツチングを行うように
している。音節のパターンは単語のパターンに較
べパターン間の特徴に乏しく、さらに一般に母音
部分の時間長が子音部分に較べて極めて長く、子
音部分間の類似度の微少な差が後続母音部分のパ
ターンのゆらぎによつてマスクされてしまうから
である。吉田氏等の論文「日本語単音節音声認識実験」
（日本音響学会講演論文集、３−２−16、1979年）
はこのような子音部分の切り出しの一例を示して
いる。この例では音節の特徴ベクトルが大きく変
化する点のうちの所定の位置を子音・母音境界と
するアルゴリズムを用いて子音部分を切り出し、
この子音部分を標準登録子音パターンにつき端点
自由のダイナミツクプログラミングマツチング法
（以下DPマツチングとする）を実行して子音情報
を得るようにしている。また、古井氏の論文「単音節認識とその大語い
単語音音声認識への適用」（電子通信学会論文集
Ａ、65−Ａ；２、pp175−182、1982年）は子音
部分の切り出しの他の手法を示している。この例
では音節全長に対する所定の比率で語頭部を切り
出し、これを同様の登録語頭部と比較して子音情
報を得るようにしている。たとえば線形マツチン
グを実行している。さらに、中川氏等の論文「不特定話者の単音節
単位入力による大語彙単語音声認識」（電子通信
学会論文集Ｄ、65−Ｄ、12、pp1558−1565、
1982年）も他の切り出し手法を開示している。こ
の例では対象が不特定話者であるので登録パター
ンを固定とすることができ、このため予め目視に
より登録パターンの各々につき子音、母音の境界
点ｊを決定するのである。この決定点はたとえば
音声信号の波形やホルマント等を勘案して推定さ
れる。未知入力パターンについては音節全域の登
録パターンとこの未知入力パターンとについて
DPマツチングを行い、その最適パスが上述境界
点ｊを通過する点ｉを未知入力パターンの子音、
母音境界点としている。子音情報を得る手法とし
ては端点自由のDPマツチングを含め種々の提案
がなされている。また、この例では上述古井氏の
論文と同様のアルゴリズムにより子音切り出しに
ついても開示がある。母音情報の特定については上述論文ともDPマ
ツチングより簡易な方法を採用している。そして
この母音情報と上述子音情報とを総合して音節に
ついての識別を行なつている。しかしながら、上述のような従来の構成では子
音部分と母音部分とを分離するために複雑なアル
ゴリズムを採用する必要があつた。またそうでな
い場合では予め固定の登録パターンについて目視
を行い煩雑な作業と深い経験を要請することとな
つてしまつていた。また、このように子音および
母音の分離点の識別におけるエラーによつて音
節、とくにその子音情報の認識ミスが増大するお
それもあつた。古井氏の例では音節全長に対する
比率で定形的に子音部分の切り出しを行うので上
述のような問題はないけれども、各音節ごとの子
音・母音境界点のバラツキを無視しているため自
ずと各音節ごとに認識率が異なると考えられる。なお、最終的に音節を認識する段階としては、
子音情報と母音情報とを個別に求め、その組み合
わせから音節を決定する手法がある。たとえば
「ｉ」の母音情報と「ｋ」の子音情報から音節
「キ」を特定するのである。他の手法としては、
母音情報を予め求め、それを後続母音とする音節
を認識候補とし、この候補の音節につきDPマツ
チングなどを行うものが知られている。後者で
は、最終のマツチングにおいて子音と母音との調
音結合要素をも十分考慮できるので良好な判別を
行える。このような２段階の評価については特開
昭54−145409号、特開昭58−52694号および特開
昭58−59498号に記載がある。ただ、この場合、
２段階の評価を行うのが煩雑である。後述のよう
にこの発明の一実現態様ではこのような問題を解
消できる。［発明が解決しようとする問題点］この発明は以上の事情を考慮してなされたもの
であり、子音を母音から区別することなく簡易か
つ確実に子音情報を得ることのできる単音節音声
認識方法を提供することを目的としている。［問題点を解決するための手段］この発明では以上の目的を達成するために未知
入力パターンと登録標準パターンとについてDP
マツチングを距離演算を実行していき、これら未
知入力パターンまたは登録標準パターンの語頭か
ら語尾の間の所定の中間点での最小累積距離に基
づいて未知入力パターンの子音情報を識別するよ
うにしている。この発明の一態様では、子音情報を得る中間点
より語尾がわ、すなわち母音情報源をより多く含
む第２の中間点についても最小累積距離を求め、
これに基づいて母音情報を識別し、こののち識別
母音を後続母音とする候補標準パターンについて
子音情報の識別を行つてもよい。すなわち２段階
のマツチングを行つてもよい。この場合、母音情
報判別時の距離演算の副次物として子音用中間点
の最小累積距離を得ることができ、距離演算を１
回の処理で済ませることができる。またこの発明の他の態様では、母音情報を得る
際に語尾がわから所定の中間点までDPマツチン
グの演算を行うようにしてもよい。この場合、５
つの母音の標準パターンで確実に未知入力パター
ンの母音を識別できるので、音節すべてにつき参
照を行う場合に比して計算量が極めて減少する。［実施例］以下この発明の特定話者用の音声認識装置に適
用した一実施例について図面を参照しながら説明
しよう。第１図はこの実施例を全体として示すものであ
り、この第１図において、マイクロホン１には話
者の音声が供給され、この音声がオーデイオ信号
に変換されてＡ／Ｄ変換器２に供給される。この
Ａ／Ｄ変換器は例えばサンプル周波数が20KHz、
データのビツト長が12ビツトのものである。Ａ／
Ｄ変換器２からのデータは特徴パラメータ抽出部
３に供給され、ここで上述データに基づいて特徴
パラメータ時系列（パターン）が形成される。本
例ではこの特徴パラメータとして後に詳述するよ
うに対数化スペクトルを用いている。本例は特定話者を対象とするものであるので、
音声認識に先だつてトレーニングが行われる。す
なわち、識別すべき所定個数たとえば68個の音節
を話者がマイクロホン１に向つて発声し、これを
順次Ａ／Ｄ変換器２および特徴パラメータ抽出部
３で演算し、認識部４に各音節の標準パターンを
供給していく。この場合認識部４の切換回路５は
ａがわに切り換えられており認識部４のストア部
６に登録されるようになつている。このような準
備段階ののち話者が音節を区切つてたとえば100
音節／分の速度で音声を入力していくと、各音節
は特徴パラメータ抽出部３を介して未知入力パタ
ーンとして導出され、認識部４のストア部６に記
憶されていく。この際は切換回路５はｂがわに切
り換えられている。そして未知入力パターンは順
次68個の標準パターンに参照させられ、この参照
結果のうち一番最適なものが出力回路７を介して
プリンタやモニタ等の出力装置８に出力されてい
く。もちろん、一番最適なものの他に、第２、第
３の候補等をも出力する様にしてもよい。第１図の特徴パラメータ抽出部３は第２図〜第
６図に示すようにして対数化スペクトルの時系列
を形成する。すなわち、Ａ／Ｄ変換器２からのデ
ジタルデータはプリエンフアシスされ、このプリ
エンフアシスされたデータに基づいて時間フレー
ムｉ、この例では10ｍsecごとのエネルギEiが求
められる。ただし、 Ei＝10log₁₀（振幅の二乗値の平均）である。こののち最大エネルギEmaxおよび最小
エネルギEminから正規化エネルギEinを求め、Ei
をたとえば０から32までの値に正規化する。ただ
し、 Ein＝32（Ei−Emin）／Emax−Emin である。そしてこうして得た正規化エネルギEin
の時間分布から適切な閾値を設定して音節間の境
界を判別する。他方、プリエンフアシスされたデジタルデータ
には短時間スペクトル分析も実行される。すなわ
ちデジタルデータを１フレーム10ｍsecごとに移
動させながら20ｍsec（400点）の範囲でハミング
窓の時関関数を用いたウイノグラードの高速フー
リエ変換実行するのである。こうして得たパワー
スペクトルは対数化され、さらに10Hz〜7900Hzま
でのスペクトルが19の周波数バンドに分割され
る。具体的には、100Hzおよび200Hzが１つのバン
ドを形成し、同様に300Hzおよび400Hz、……、
700Hz〜7900Hzがそれぞれバンドを形成する。こののち無声部分のパワースペクトルの平均値
をバツク・グラウンド・ノイズとして有声部分
（各音節）のパワースペクトルから差し引く。このようにしてバツク・グラウンド・ノイズが
差し引かれたパワースペクトル、すなわち特徴パ
ターンは時間方向に正規化され、更に周波数成分
の非線形変換を受ける。すなわち、第３図に示す
ような時間１〜n_F、周波数バンド１〜ｍの特徴パ
ターンを考える。ここでn_Fは各音節ごとのフレー
ム数であり、ｍはバンド数、本例ではｍ＝19であ
る。各時間および各バンドにおける対数化パワー
スペクトルは簡略化して単に丸印で示してある。
時間方向の正規化を行うには、第４図に示すよう
に標準パターン（語長T_R）および未知入力パタ
ーン（語長T_I）の両者を所定のパターン長（Tn）
に線形補間により変換する。パターン長Tnは別
途実験により定める。たとえば標準パターン音節
長の平均の1.2倍に選定してよい。周波数成分の非線形変換は第５図および第６図
に示すようにして行う。すなわち第５図に示すよ
うに時間正規化後の特徴パターンをVijで表わし、
その最大エネルギを Vi_MAX＝ MAX^j （Vij）で表わす。そしてVijを第６図に示すように下の
式にしたがつて０から255までの値Vijに変換する
のである。 VijVi_MAX−Vbの場合、Vij＝０ Vij＞Vi_MAX−Vbの場合、 Vij＝255／Vb（Vij−Vi_MAX＋Vb）なおVbは別途実験により定める。Vb＝30、
40、50と変化させた場合、最適値はVb＝40であ
つた。 Vbの最適値はノイズパワーに対する音声ピー
ク信号の比に関係していると考えられる。この非
線形変換によりノイズパワーの悪影響を緩和する
ことができる。つぎに第１図の認識部４について第７図および
第８図をも参照しながら説明しよう。認識部４は
ストア部６、累積距離演算部９等からなつてい
る。ストア部６には、入力パターンP_Iおよび標準
パターンP_Rｉが蓄えられており、これら入力パ
ターンP_Iと標準パターンP_Rｉとの間のDPマツチ
ングの演算が累積距離演算部９で実行される。た
だし、この累積距離演算部９ではパターン全体に
わたるマツチング用の演算は必要とされない。少
なくとも入力パターンの時間軸上の時刻t_I＝t_V（第
７図）までの演算が行われていればよい。ここで
第７図の時点tcは子音情報を得るための中間点で
あり、時点t_Vは母音情報を得るための中間点であ
る。これについては以下で詳述される。まず所定の未知入力パターンP_Iについて68個の
標準パターンP_Rｉがマツチングされる。すなわ
ち第８図に示すように未知入力パターンP_Iと第１
の標準パターンP_RｉとのDPマツチング演算が実
行されていき、その際t_I＝tcにおける最小累積距
離Dcが求められる。始点（第７図、語頭がわ）
からt_I＝tc上の格子（マツチング窓に制限される
のでWcで示される範囲内の格子）までのパスは
種々あるけれども、それらのパスの各々の累積距
離のうち最小のものを求めるのである。こののち
さらにDPマツチングの演算を継続してt_I＝t_Vにお
いても同様の最小累積距離Dvを求める。これら
最小累積距離Dc、Dvはストア部６に蓄えられ
る。以下同様にして未知入力パターンと残りの67
個の標準パターンP_Rｉ（ｉ＝２〜68）との間でDP
マツチング演算が実行されてそれぞれの最小累積
距離Dc、Dvが求められる。すべての標準パターンP_Rｉについて最小累積
距離Dc、Dvが求められると、つぎにt_I＝t_Vにお
ける68個の最小累積距離Dvから母音を決定する。
すなわち最小累積距離Dvを最小とする音節を求
め、この音節の母音を検出母音情報とする。この
のち検出結果の母音を後続母音とする音節（たと
えば母音が「あ」であれば「あ」、「か」、「さ」…
…）についてのt_I＝tcでの最小累積距離Dcを候補
音節用データとして選び出し、このうち最小の最
小累積距離Dcを持つものを音節検出結果として
出力する。以上の動作は第１図の母音検出部１
０、選択回路１１および音節検出部１２によつて
実行される。上述の中間点t_I＝tc、t_Vは実験によつて定める。
たとえばtcTn×１／３程度、tv＝Tn×0.7程度で良好な結果が得られた。本例を68音節につき適用した実検結果は表１の
とおりである。１音節あたりの標準パターンの数
は１つである（単一テンプレート方式）。この表
で第２候補とは第１図の音節検出部１２において
２番目に小さな最小累積距離を持つ音節のことで
ある。

【表】表２から明らかなように本例は先に述べた従前
のものに較べてすぐれた認識結果をもたらすもの
であることがわかる。

【表】以上述べたようにこの実施例では子音・母音の
セグメンテーシヨンが不要なので極めて簡易な構
成で単音節の認識を行うことができる。さらに母
音情報を得る際のDPマツチング演算の副次物を
利用して子音情報を得ることができ、演算量を少
なくすることができる。またハードウエア実現態
様に極めて適した構成となつている。この実施例では認識率を向上させることもでき
る。これはつぎのように考えられる。上述のとお
り音節の特徴ベクトルは語頭に子音情報が含ま
れ、語の半ばから語尾にかけての広い範囲にわた
つては母音情報が含まれている。これを模式的に
示すと第９図に示すとおりである。そして目視や
経験により両者の境界は破線で示されるように配
置される。しかしながら、子音は後続母音に影響
を与え、とくに遷移領域には子音決定上重要な要
素が含まれていると考えられる。したがつて、子
音および母音の境界を検出して子音の切り出しを
行うことはかえつて子音情報を不確かなものとし
てしまう。本例では子音・母音境界にこだわるこ
となく、子音情報を得るための中間点tcを実験に
より定め、たとえば第９図に示すように定めてい
るのでより好ましい認識を行うことができる。ま
た子音決定上実現し得るパスの終点は第７図に
Wcで示す格子群であるのでこの範囲で標準パタ
ーンの対応する終点を選び得、入力パターンと標
準パターンとの子音領域での微妙なマツチングを
より自由度高く実行することができ、このため認
識率が向上すると考えられる。なお、この発明は上述実施例に限定されるもの
ではなくその趣旨を逸脱しない範囲で種々変更が
可能である。たとえば拗音を含む101単音節にこ
の発明を適用してもよく複数テンプレートを用い
ることもできる。上述実施例と同様の構成での
101単音節認識結果は表３のとおりであり、複数
テンプレートでの従前との比較結果は表４に示す
とおりである。

【表】

【表】また、上述の実施例では母音情報を得る場合に
も語頭からDPマツチングを行つたけれども母音
情報を得る場合に語尾がわからDPマツチングを
行つてもよい。この場合、語長の20〜30％を中間
点とすれば十分に母音を決定できる。母音の標準
パターンとしては「ア」「イ」「ウ」「エ」「オ」の
５つのみでよい。子音の影響により認識エラーが
生じることが少なく、また上述実施例と異つて母
音情報用の演算から副次的に68個または101個の
子音情報を得る必要がないからである。したがつ
て計算量を極めて少なくさせることができる。も
ちろん、母音に関する認識結果から対応する候補
の音節が絞り込まれる。子音情報識別用には別途
68個または101個の標準パターンが用意されてお
り、候補の音節についてこの発明にしたがつて子
音情報に関する参照が行われて最終的に入力音節
の識別が完了する。また、子音情報を得る際のDPマツチング演算
において、その始点および中間点tcを可変にする
ように構成してもよく、また複数組の始点および
中間点についてそれぞれ音節認識を行つて多数決
で最終決に音節を決定するようにすることもでき
る。もちろん、登録標準パターンの時間軸上に中間
点を選定し、この中間点での最小累積距離に基づ
いて子音情報を得るようにすることもできる。［発明の効果］以上説明したように、この発明によれば未知入
力パターンと登録標準パターンとについてDPマ
ツチングで距離演算を実行していき、これら未知
入力パターンまたは登録標準パターンの語頭から
語尾の間の所定の中間点での最小累積距離に基づ
いて未知入力パターンの子音情報を得るようにし
ている。したがつて子音・母音境界点を判別する
必要がなく構成を簡略化でき、しかも境界点の決
定にともなうエラーをなくすことができる。しか
も子音情報を得るためのマツチングに自由度をも
たせることができるので認識率を向上させること
ができる。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロツク
図、第２図、第３図、第４図、第５図および第６
図は第１図実施例の特徴パラメータ抽出部３を説
明するための図、第７図および第８図は第１図実
施例の認識部４を説明するための図、第９図は第
１図実施例の効果を説明するための図である。１……マイクロホン、２……Ａ／Ｄ変換器、３
……特徴パラメータ抽出部、４……認識部、８…
…出力装置。

Claims

【特許請求の範囲】

１未知入力単音節の音声信号を分析して、この
音声信号から抽出された入力特徴パラメータ時系
列を予め登録されている登録特徴パラメータ時系
列に照合して上記未知入力単音節の認識を行う単
音節音声認識方法において、上記入力特徴パラメ
ータ時系列と登録特徴パラメータ時系列の各々と
について語頭部分がわからダイナミツクプログラ
ミングマツチング法にしたがつて距離演算を実行
していき、上記入力特徴パラメータ時系列または
登録特徴パラメータ時系列の各々の語頭から語尾
の間の予めすべての音節に対し画一的に定められ
た異なる２つの中間点での最小累積距離を求め、
上記語尾がわの中間点の最小累積距離に基づいて
上記未知入力音節の母音を決定し、この母音によ
り候補音節を絞りこみ、絞り込まれた音節のうち
上記語尾がわの中間点の最小累積距離を最小とす
るものを認識結果の音節とすることを特徴とする
単音節音声認識方法。