JPH11175085A

JPH11175085A - 単語音声認識方法及び音声認識用単語辞書

Info

Publication number: JPH11175085A
Application number: JP9339584A
Authority: JP
Inventors: Yoshitake Suzuki; 義武鈴木; Yoshio Nakadai; 芳夫中台; Tetsutada Sakurai; 哲真桜井; Shunei Kurokawa; 俊英黒川; Yamato Sato; 大和佐藤
Original assignee: NTT Advanced Technology Corp; Nippon Telegraph and Telephone Corp
Current assignee: NTT Advanced Technology Corp; NTT Inc
Priority date: 1997-12-10
Filing date: 1997-12-10
Publication date: 1999-07-02

Abstract

(57)【要約】【課題】少ない計算量、記憶容量で高い認識率を得
る。【解決手段】入力音声を、母音、摩擦音、無音部の入
力音韻系列（図２Ａ）とし、その語頭、語尾の無音部＊
を除去し、不連続音韻を直前の音韻で置換し（図２
Ｂ）、かつ連続する同一音韻を１つのその音韻で置き換
え（図２Ｃ）、所定値（各音韻に固有な値）以上連続す
る長い音韻は別の記号にする。図２では＊を＋に置換す
る。単語辞書にも長く続くもの（促音、長母音など）は
同一の短いものとは別の記号として単語音韻列を表記し
ておく。図２Ｃ又は図２Ｄとされた記号列と辞書の単語
とマッチングを行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、コンピュータあ
るいは同等の処理をするより小さなシステム上で単語音
声を認識させる方法に関するものであり、特に不特定話
者対応少数語彙音声認識システムに適する方法に関す
る。

【０００２】

【従来の技術】音素情報を用いた音声認識、即ち音素系
列の辞書を備え、音声入力信号を一定フレーム毎に分析
し、フレーム毎の音声音素系列の各記号と辞書の単語音
素系列の記号との類似度を求める認識手法がある。ま
た、ＳＰＬＩＴ法と呼ばれる音素標準パターンの数を、
スペクトルの変動を表現するのに十分な数に増加した認
識手法がある。

【０００３】先にあげた音素情報を用いた音声認識法で
は、スペクトルを基にした音素の標準パターンが必要に
なる。入力音声と標準パターンの類似度を求める際に、
スペクトル同士の距離計算を行うため、計算量が多くな
る。さらに、こうして得られた類似度と単語辞書とを比
較した類似度和によって単語音声の認識を行う。そのた
め、取りこぼしが少なく認識率が高いが、認識に必要な
記憶容量と計算量も著しく増加する。この方法で用いら
れる単語辞書は音素について知っていないと、辞書自体
が音素の並びとなっているので新たに作ることが難し
い。

【０００４】ＳＰＬＩＴ法は、従来の音素単位の認識
系、単語単位の認識系、音声符号化におけるベクトル量
子化法の３手法の融合されたものといえる。ここで、Ｓ
ＰＬＩＴ法の標準パターンを擬音韻標準パターンとい
い、各話者毎に、多数の音声サンプルの短時間スペクト
ルパターンのクラスタ化によって得られるものであり、
スペクトルパターンの分布のみに基づいているため音素
との明確な対応付けはない。それゆえ、単語辞書の生成
に正書法を用いることはできない。また、認識に必要な
記憶容量と計算量は単語単位の標準パターンを用いる際
の１／１０程度である。

【０００５】ＳＰＬＩＴ法は、通常特定話者の音声認識
を行う際に使用されるため、ここでは音素単位の単語音
声認識法における母音系列と単語辞書とのマッチングに
ついて図４を参照して説明する。入力端子１からの入力
音声は、Ａ／Ｄ変換部２を通り、ディジタル信号に変換
される。その後、分析部３によって、スペクトル分析さ
れる。この分析されたスペクトルは類似度算出部４で各
音素の標準パターン５（スペクトル）との比較により、
各音素との類似度を得る。各音素と時間経過の類似度を
類似度行列６に格納する。類似度和算出部７で単語辞書
８の各単語の音素系列とのＤＰマッチングを行うことに
より類似度和を得る。

【０００６】この類似度和をもとにして、単語判定部９
でもっとも類似度和の高いものをその単語であると判定
する。その結果を出力端子１０に渡す。

【０００７】

【発明が解決しようとする課題】以上に述べた従来の方
法では、音素数だけでもざっと４０程度あり、それを用
いた文字系列とＤＰマッチングを施すと、かなりの計算
量になる。また、母音系列だけで見たとしても文字列が
単語辞書に書いてあるものに近ければ、その単語に認識
されてしまう。

【０００８】

【課題を解決するための手段】この発明によれば、同じ
文字が長く続いた時（促音、長母音等）にその部分を別
の文字で置き換える。更に好ましくは母音（５種類）
と、摩擦音（１種類）と、無音部（１種類）のみで単語
を表記する。この場合は１４種類の文字（記号）で文字
列を作ることになりマッチングに際してもたいした計算
量にならない。また、先にあげた同じ文字が長く続いた
時に別の文字で置き換えるという操作によって他の単語
との距離をかせぎ、認識率があがる。

【０００９】

【発明の実施の形態】この発明の実施例を適用した認識
装置の処理手順を図１Ａに示す。図４と処理内容は違っ
ても、全体の流れから見て同等の処理をしている箇所に
は、同一符号をつけてある。入力端子１からの入力音声
は、Ａ／Ｄ変換部２を通り、ディジタル信号に変換され
る。その後分析部３によってＬＰＣ分析され、例えばケ
プストラムが抽出される。

【００１０】系列生成部（フレーム毎）１２で標準パタ
ーン（ケプストラムのベクトル）５との比較により、音
韻の時間系列を得る。この実施例は、各単語を母音と摩
擦音と無音とにより表現するようにした場合であり、入
力音声に対しても系列生成部１２で、母音と摩擦音と無
音よりなる系列とする。例えば単語「カップ」の音声が
入力されると、図２Ａに示す音韻の時間系列が得られ
る。＊は無音を示し、ａは「カ」の母音を示し、「ッ」
は無音として検出され、ｕは「プ」の母音である。語頭
と語尾に無音＊があり、「ァ」と「ッ」の間に不連続な
母音ｏが、「ッ」「プ」の間に不連続な母音ｉが検出さ
れている。

【００１１】系列処理（Ａ）１３で先に出てきた音韻の
時間系列中、語頭および語尾に出てくる無音部＊を削除
し、また不連続な音韻記号を直前の音韻記号を使って置
き換える。図２Ａの例では、図２Ｂに示すように、語頭
の無音＊と語尾の無音＊とが削除され、不連続な音韻記
号ｏがその直前の記号ａに置き換えられ、また不連続な
音韻記号ｉがその直前の記号＊に置き換えられる。

【００１２】更にこの例では、系列中の同一音韻記号が
連続する部分を、その連続した音韻記号の一文字で置き
換える。図２に示した例では、図２Ｃに示すように連続
した８個の音韻記号ａは１つのａとして、連続した１８
個の無音記号＊は１個の＊で、連続した８個のｕは１個
のｕに置き換えられる。この系列処理（Ａ）１３から出
てきた系列は後述する系列処理（Ｂ）１７を経た後、単
語辞書８とのマッチングを類似度和算出部７で行う。こ
こで、求めた類似度和をもとにして単語判定部９で正解
と思われる単語を求め、出力端子１０より出力する。

【００１３】ここで、類似度和算出部７、つまりマッチ
ング部についてくわしい説明をつけておく。まず、単語
辞書８はその単語の母音部分のみを強調して書かれてい
る。つまり、単語辞書内で使われている記号中の“ａ”
は“あ”、“ｉ”は“い”、“ｕ”は“う”、“ｅ”は
“え”、“ｏ”は“お”、“＊”は“無音部”、“Ｓ”
は“摩擦音”をそれぞれ表している。単語辞書に書かれ
ている例をあげると、図３Ａに示すようにアタックなら
『ａ＊ａ＊ｕ』、ガードなら『ａＣｏ』のような文字列
に書いてある。また、“ｂ、ｄ、ｇ”や“ｍ、ｎ”は実
際の認識の際には使用していないが、ここでは便宜上一
般的に子音を表す“Ｃ”で記す。例えば、レシーブなら
『ＣｅＳｉＣｕ』なる文字列という具合である。

【００１４】単語辞書８には多くの人が発声する場合こ
ういう文字列がとれるであろう、というものを考えて登
録する。この発明では同一文字でも長く続いたもの（促
音、長母音等）を、その文字の短いものとは別の文字
（記号）に置きかえる。この処理を行うに当り、この実
施例では入力音韻系列の音韻数が所定値（しきい値Ｔｈ
１）以上のもののみを分岐ポイント１４で分岐して、長
音を利用したアルゴリズム１５により前記置き換え処理
を実行する。このようにして、無駄な処理を、つまりも
ともと前記置き換えがなされない入力音韻系列について
も長音を利用したアルゴリズム１５による処理をしない
ようにする。このしきい値Ｔｈ１の値は、認識対象単語
の種類によっても異なるが、例えば類似度算出部４から
例えば１５ｍＳに１回、検出された音韻が出力される場
合、しきい値Ｔｈ１は例えば３０とし、検出音韻が１０
ｍＳごとに出力される場合は、しきい値Ｔｈ１は４５と
する。

【００１５】図２Ｂに示した例では記号（文字）“ａ”
の数が８、“＊”の数が１８、“ｕ”の数が８であり合
計数は３４となる。従って各音韻が１５ｍＳごとであれ
ば、この入力音韻系列の長さ３４はしきい値Ｔｈ１＝３
０より大であるから、入力音韻系列を長音を利用したア
ルゴリズム１５により処理させる。なお入力音韻系列に
おける各音韻（文字）の連続個数、前記例では“ａ”が
８、“＊”が１８、“ｕ”が８は系列処理（Ａ）１３に
おける処理の際に、それぞれ記憶部（図示せず）に記憶
しておく。

【００１６】長音を利用したアルゴリズム１５において
は、その入力音韻系列（単語）中における各音韻が占め
る割合がしきい値Ｔｈ２以上で、かつその入力音韻系列
（単語）中でその音韻が連続している個数がしきい値Ｔ
ｈ３以上であるかを調べる。しきい値Ｔｈ２，Ｔｈ３は
それぞれａ，ｉ，ｕ，ｅ，ｏ，Ｓ，＊に固有の値であ
り、各種の単語の音声について、同一音韻について長い
もの（促音、長母音など）と短いものの各長さを測定
し、平均的に長いと判定されるものと短かいと判定され
るものとの境界値を実験的に決める。各音韻の長さが例
えば１５ｍＳの場合、“＊”のしきい値Ｔｈ２は例えば
５０（％）、しきい値Ｔｈ３は例えば１５個である。

【００１７】図２に示した例について、入力音韻系列に
占める割合は“ａ”が８／３４、“＊”が１８／３４≒
５０．３（％）、“ｕ”が８／３４であり、その入力音
韻系列中でその音韻が連続している個数は“ａ”が８、
“＊”が１８、“ｕ”が８である。この例では“＊”が
そのしきい値Ｔｈ２＝５０より大であり、かつしきい値
Ｔｈ３＝１５より大である。従って、この入力音韻系列
における音韻“＊”は長く続くものと判定して、この
“＊”をこれと異なる記号（予め決めてある）、この例
では“＋”に変更する。従って、入力音韻系列は系列処
理（Ｂ）１７から図２Ｄに示すようにａ＋ｕとして出力
される。

【００１８】このように長音を考慮した時、単語辞書８
もそのように表記され、長音を考慮しない辞書図３Ａに
対し、長音を考慮した辞書は図３Ｂに示すようになる。
つまりアタックの“ａ＊ａ＊ｕ”が“ａ＊ａ＋ｕ”とな
り、ガードの“ＣａＣｏ”が“ＣＡＣｏ”となる。この
例では母音については長音である場合、短音表示の小文
字を大文字に置きかえている。

【００１９】分岐ポイント１４で入力音韻系列で長音置
換処理の必要がないと判定された、つまり全長がしきい
値Ｔｈ１以下のものは、長音を利用しないアルゴリズム
１６で処理される。つまり、従来と同様の処理がなさ
れ、例えば図２Ｃの記号系列として出力される。この実
施例では系列処理（Ａ）１３で既に図２Ｃに示した系列
まで処理されているので長音を利用しないアルゴリズム
１６はここを単に通過させるだけである。しかし、系列
処理（Ａ）１３では図２Ｂまで行い、図２Ｃへの処理を
長音利用しないアルゴリズム１６で行ってもよい。アル
ゴリズム１５，１６の何れかで処理された系列、つまり
系列処理（Ｂ）１７の出力は単語辞書８の各単語とのマ
ッチング処理が類似度和算出部７で行われ、その最も類
似度が高い単語が単語判定部９で判定されて認識結果と
して出力される。

【００２０】類似度和算出部７でのマッチング処理は、
要は単語辞書８中から入力記号列と一致する記号列の単
語を探せばよく、どのような手法を用いてもよい。例え
ば図１Ｂに示すように単語辞書８よりの辞書系列が“ａ
＊ｕａｅｉ”、入力音韻系列が“ａ＊ｕ＊ａｅｉ”であ
ったとする。両者の語頭から１音韻づつ順次比較し、同
じであれば両方とも一文字分進め、違っていればペナル
ティを＋１し、入力音韻系列のみ１文字進める。図１Ｂ
では４番目で不一致が生じ、辞書系列の４番目と入力音
韻系列の５番目との比較に移る。このようなことをどち
らかの系列の最後がくるまで行い、もう片方の系列にま
だ比較していない音韻が残っていればその数分をペナル
ティに加える。このような手法でペナルティが最も小さ
い単語を認識結果とする。

【００２１】上述において、分岐ポイント１４における
選別を行うことなく、またしきい値Ｔｈ２も用いず、し
きい値Ｔｈ３のみで長音置換をするか否かを決定しても
よい。またしきい値Ｔｈ２とＴｈ３の組合せ、あるいは
しきい値Ｔｈ１とＴｈ３の組合わせのみで長音置換する
か否かの決定をしてもよい。

【００２２】

【発明の効果】以上説明したように、この発明によれば
単語辞書に書かれている音韻記号が最大１４種類に限ら
れているため、辞書の更新が比較的容易にできる。また
単語の特徴のでやすいところ（長母音、促音等）には、
“Ａ”や“＋”といった特別な記号を使っているため、
他の単語に認識されるのをある程度防ぐことができる。
単語辞書には、その単語の特徴をよく表したものを用い
ればより少ない記憶容量ですむ。

【００２３】この音声認識方法を１チップのＤＳＰに載
せ、３０名（男性１５名、女性１５名）、被験者による
認識実験をおこなった。長い母音と短かい母音を区別し
ない場合の認識率を以下に記す。男性：９０．３％女性：９４．２％総合：９２．３
％また長い母音と短い母音を区別した場合の認識率は以下
のようになった。

【００２４】男性：９８．２％女性：１００％総合：９９．１％このことから、この発明の方法は特定の単語認識に際し
て極めて有効であることがわかる。

【図面の簡単な説明】

【図１】Ａはこの発明方法を適用した単語音声認識装置
の機能構成例を示すブロック図、Ｂはその類似度和算出
部７のマッチング処理例を示す図である。

【図２】入力音韻系列の処理例を示す図。

【図３】単語辞書８の内容の例を示す図。

【図４】従来の単語音声認識装置の機能構成例を示すブ
ロック図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中台芳夫東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者桜井哲真東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者黒川俊英東京都武蔵野市御殿山一丁目１番３号エヌ・ティ・ティ・アドバンステクノロジ株式会社内 (72)発明者佐藤大和東京都武蔵野市御殿山一丁目１番３号エヌ・ティ・ティ・アドバンステクノロジ株式会社内

Claims

【特許請求の範囲】

【請求項１】音韻記号の系列で表現された単語辞書
と、入力音声の短時間分析で得られる音韻の時間系列と
の照合によって認識を行う単語音声認識方法において、同一音声記号であっても、持続時間の長い音韻を、短い
音韻とは別種の音韻記号を割り当てることを特徴とする
単語音声認識方法。
【請求項２】上記入力音声の音韻系列、上記単語辞書
の単語音韻系列は、それぞれ、母音、摩擦音、無音部の
１乃至複数の配列により構成されていることを特徴とす
る請求項１記載の単語音声認識方法。
【請求項３】上記持続時間の長い音韻記号の割り当て
は、その音韻記号が連続する個数が所定値以上、かつそ
の単語中に占める割合が所定値以上の場合に行うことを
特徴とする請求項１又は２記載の単語音声認識方法。
【請求項４】入力音韻系列の総音韻数が所定値以上の
場合にのみ、上記長い音韻記号割当てを行うことを特徴
とする請求項３記載の単語音声認識方法。
【請求項５】各単語が母音、摩擦音、無音部の１乃至
複数のみ配列で表記され、持続時間の長い音韻と短い音韻とは別の音韻記号が割当
てられていることを特徴とする音声認識用単語辞書。