JPS6033599A

JPS6033599A - 音声認識装置

Info

Publication number: JPS6033599A
Application number: JP58143181A
Authority: JP
Inventors: 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-08-04
Filing date: 1983-08-04
Publication date: 1985-02-20
Also published as: JPH0585918B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置、特に単音節音声を認識すること
により、任意の文章の入力が可能な音声認識装置に関す
る。

従来例の構成とその問題点人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。

従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前記単語辞書中のどの
単語に最も近いかを予め定められた規則によって計算し
、最も類似している単語を認識結果とするものである。

ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。

（１）登録時における話者の負担が著しく増大する。

（２）認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。

（３）前記単語辞書のために要するメモリが非常に大き
くなる。

以上の欠点を回避するための方法として認識の単位を子
音＋母音および母音の単音節（以後それぞれＣＶ、Ｖで
表す。Ｃは子音、■は母音を意味する。）とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマッチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか１０１種
類であり、単音節は仮名文字に対応しているから、この
方法によれば、日本語の任意の単語あるいは交信を単音
節列に変換する（認識する）ことができ、前記（１）〜
（３）の問題はすべて解決されることになる。しかし、
この場合の問題として調音結合とセグメンテーションが
ある。調音結合は、音節を連続して発声すると各音節は
前後の音節の影響を受け、スペクトル構造が前後に接続
される音節によって変化する現象である。セグメンテー
ションは、連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行うのは現在の技術では
困難である。この２つの問題を解決するために、現在の
ところ各単音節を区切って、発声することが行われてお
り、実用化されている装置もある。

第１図は単音節音声認識をパターンマッチングで行う装
置の一般的な構成である。１は音声信号の入力端子であ
る。２は特徴抽出部であって、入力音声信号を、フィル
タバンクやＦＥＴ、ＬＰＣなどにより分析し、数ミリ秒
毎に特徴ベクトルの系列Ａ＝ａ１．ａ２・・・・・・ａ
ｉ・・・・・・ａＩに変換する。３は標準パターン記憶
部であって予め認識すべき単音節音声を同様な手段によ
って特徴ベクトルの系列に変換したものを各音節に対す
る標準パターンＲｎ＝ｂｎ１ｂｎ２・・・・・・ｂｎｊ
・・・・・・ｂｎＪｎ（ただし、ｎ＝１、２、・・・・
・・、Ｎ；Ｎは標準パターンの数として記憶する部分で
ある。４はパターン比較部であって、特徴抽出部２の出
力である入力パターンＡと、標準パターン記憶部３に記
憶されている夫々の標準パターンＲｎを比較し．両者の
距離Ｄ（Ａ、Ｒｎ）を算出する。６は判定部であって、
ｎ＝ｍｉｎｎ［Ｄ（Ａ、Ｒｎ）］により、入力パターンに最も近い標
準パターンＲｎを判定する。６は判定結果を単音節認識
結果として出力する出力端子である。パターン比較部４
におけるパターン比較は、動的計画法を用いた所謂ＤＰ
マッチングや線形シフトマッチング等がよく用いられる
。また、先ず母音を認識して候補刊音段を決定してから
、その母音段に属する標準パターンを用いて子音部を認
識することにより、認識率とマッチングの速度を向上さ
せているので一般的である。

しかし、単音節音声は、持続時間が短かく、「シ」、「
チ」等子音部の微妙な差によって区別しなけれけならな
いものが多く、単語音声のように高い認識率を得るのが
困難である。

この問題を解決するために、単語辞書を用いる方法が考
えられている。第２図はその例である。

同図において、第１図と同一の番号を付したブロックは
、第１図と同一の動作を行う。７は単語辞書で、認識す
べき単語Ｗｌ（ｌ＝１．２、・・・・・・、Ｌ；Ｌは登
録単語数）が単音節に対応する記号列Ｗｌ＝Ｃｌ１Ｃｌ
２・・・・・・ＣｌＫ・・・・・・ＣｌＫｌ（ＣｌＫは
単語Ｗｌのｋ番目の音節）として記憶されている。８は
単語比較部であって、入力単音節列Ｔ＝Ａ１Ａ２・・・
・・・Ａｍ・・・・・・ＡＭ（Ｍは入力単語の音節数）
であるとき、入力単語の音節数に等しい音節数の単語辞
書７に記憶されている単語Ｗｌ′＝Ｃｌ′＝Ｃｌ′１Ｃ
ｌ′２・・・・・・Ｃｌ′Ｍ（Ｗｌ′は音節数Ｍの単語
）に対し、パターン比較部４で算出された距離Ｄ（Ａｍ
、Ｃｌ′ｍ）から各ｌ′についてＤＷ（Ｔ、Ｗｌ′）＝
ΣＭｍ＝１Ｄ（Ａｍ、Ｃｌ′ｍ）を算出する。９は判定
部であって、ｌ′＝ｍｉｎｌ′（Ｔ（Ｓ、Ｗｌ′））なるｌ′をめ、
Ｗｌ′を認識単語と判定する。１０は認識された単語を
出力する出力端子である。

以上のように、単語辞書の知識を用いれば認識率は向上
する。またワードプロセサへの入力を考えるとき、前記
単語辞書は仮名漢字変換を行うための辞書を共用するこ
とができ、単語辞書は音声認識用として特別に準備する
必要はない。

しかし、即語辞書の単語数は通常３万以上にもおよび、
単語比較部８における計算量が無視できなくなる。

発明の目的本発明は、単語辞書を用いて、単音節の認識率の向上を
図った単音節音声認識装置に関し、より詳細には、単語
辞書とのマッチングの速度を向上せしめたことを特徴と
する音声認識装置に関する。

発明の構成本発明は、入力音声信号を特徴ベクトルの系列に変換す
る手段と、入力音声信号を音節毎に区切る手段と、前記
特徴ベクトルの系列から前記各音節の後続母音を認識す
る手段と、前記後続母音列と同じ後続母音列を有する単
語あるいは文節の音節列を記号列として得る手段と、前
記記号列と前記入力音声信号から得られた音節列とをマ
ッチングする手段と、このマッチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記入力音
声に対応する認識結果と判定する判定手段とを備えた音
声認識装置である。

本発明の基本的な考え方について、以下、説明する。

単音節音声の認識において、母音の認識はほぼ確実に行
われる。従って、入力単音節ＣＶまたは■１（Ｃは子音
、■は母音）の後続母音の系列が■１Ｖ２・・・・・・
ＶＭであったとき、照合すべき単語辞書の単語として、
その単語を構成する単音節の後続母音の系列が■１Ｖ２
・・・・・・ＶＭとなる単語のみを選べばよいことにな
る。例えば、入方単音節列の後続母音が｜ｏ｜｜ｏ｜｜
ａ｜｜ａ｜であったとすれば、照合すべき単語としては
「ｏｏｓａｋａ」「ｔｏｙｏｎａｋａ」・・・・・・等
が選ばれることになる。

このようにすると、例えば、４音節の単語の場合、母音
の出現確率が等しいとすれば、ある特定の母音列の生す
る確率は（１／５）４＝１／６２５となり４音節の単語
が１万語あるとすれば、ある特定の母音列に対応する４
音節語は１６語となり、実際に比較計算をしなければな
らない単語は激減する。

余裕をみて、第２候補の母音も勘定に入れるとしても（
２／５）４≒１／３９となり、同様に４音節の単語が１
万語あるとすれば、比較計算をすべき４音節語は２６６
語となり、大幅に減少する。さらに促音や撥音も上記母
音同様に処理することにすれば、さらに比較計算を減少
させることができる。

これら母音や促音、撥音等の認識はほぼ完全に行われる
ので、計算量の減少のみでなく認識率自体も向上する。

実施例の説明第３図は本発明の一実施例の音声認識装置の構成を示す
ブロック図である。１１は音声信号の入力端子で、単音
節の連鎖として単語が入力される。

１２は従来例において説明したと同様の特徴抽出部であ
って、前記の如く入力音声を特徴ベクトルの系列に変換
する。１３はパワー計算部であって、特徴抽出部１２の
出力ベクトル系列をａ１ａ２・・・・・ａｉ・・・・・
・ａＩとするとき、第ｉフレームのパワーＰｉは、例え
ばａｉ＝（ａｉ１、ａｉ２・・・・・・、ａｉμ）とす
れば、Ｐｉ＝■ａｉ１２＋ａｉ２２＋・・・・・・＋ａｉ
μ２としてめられ得る。１４は音節区間検出部であって
、パワー計算部１３の出力から、入力音声を音節毎に区
切り各音節の開始フレームと終了フレームとを検出する
。第４図はその例であって、パワーが閾値２９を越える
時点を音節の開始フレーム、閾値２９以下になる時点を
音節の終了フレームとし、閾値２９以上の区間を音節の
存在区間とする。また閾値２９以下の区間が一定値ｔｃ
以上あるときは、その区間を促音とみなす。同図は「ｓ
ａｐｐｏｒｏ」と発声したときの様子を示すもので、Ｑ
は促音を意味する。１５は音節数計数部であって、促音
も一音節とみなして音節数（従ってモーラ数）を計数す
る。１６は母音標準パターン記憶部であって、母音｜ａ
｜、｜ｉ｜、｜ｖ｜、｜ｅ｜、｜ｏ｜および撥音｜Ｎ｜
の標準パターンが予め登録されている。

１７は母音フレーム検出部であって、音節区間検出部１
４で検出された各音節の開始、終了フレームと特徴抽出
部１２で抽出された特徴ベクトルの系列から母音に相当
するフレーム位置を検出する。

母音部は定常であるから請求めるべきフレームは、第ｉ
−ｒフレームから第ｉ＋ｒフレーム（ｒは定数）までの
特徴ベクトルの各成分の分散の総和が極小となるフレー
ムｉとして検出することができる。即ち、第ｉフレーム
の入力の特徴ベクトルをａｉ＝（ａｉ１、ａｉ２、・・
・・・・、ａｉｊ、・・・・・・、ａｉμ）とするときｍｉｊ＝１／２ｒ＋１Σｉ＋ｒｋ＝ｉ−ｒ（ａｎｊ−ｍ
ｉｊ）２において、各単音節の最終フレームから逆にｖ
ｉをめてゆき、ｖｉが極小になったフレームを母音定常
部中心フレームとすることができる。１８はバッファメ
モリであって、単音節毎に特徴抽出部１２で抽出された
特徴ベクトルの系列を音声区間検出部１４で検出された
単音節開始フレームから終了フレームまでにわたって記
憶する。１９は母音パターン比較部であって、母音フレ
ーム検出部１７で検出されたフレームに対応する特徴ベ
クトルをバッファメモリ１８から読み出し、母音標準パ
ターン記憶部１６の各母音標準パターンと比較を行いそ
れぞれに対する距離を算出する。例えば、ａｉ＝（ａｉ
１、ａｉ２、・・・・・・ａｉμ）が入力単音節の母音
フレームに対応する特徴ベクトルであるとき、ν番目の
母音標準パターン（撥音も含む）ｖν＝（ｖν１、ｖν
２、・・・・・・、ｖνμ）（ただし、ν＝１，２、・
・・・・・、）との距離はｄｉν＝■ΣμＫ＝１（ａｉｋ−ｖνｋ）２とすること
ができる。２０は母音判定部であって、ν＝ｍｉｎ［ｄ
ｉν〕 ν をめｖνに対応する母音を母音認識結果とする。

２１は母音・促音判定結果記憶部であって、母音判定部
２０で判定された母音と音節区間検出部１４で検出され
た促音とを発生順序に従って記憶する。

２２は単音節標準パターン記憶部であって、特徴ベクト
ルの系列に変換された、それぞれの単音節に対応する標
準パターンが記憶されている。２３は単音節パターン比
較部であって、バッファメモリ１８に蓄えられている入
カパターンと単音節標準パターン記憶部２２に蓄えられ
ている単音節標準パターンとを比較し、前記入カバターンのそれぞれの単音節標準パターンに対
する距離を計算するものである。このとき、照合すべき
単音節標準パターンは、母音判定部２０で判定された母
音を後続母音としてもつ単音節に限られる。また、各単
音節に対し比較する範囲はその単音節の開始フレームか
ら母音の定常部までとする。これは、丁度、子音の情報
が含まれている部分である。比較照合の方法は線形シフ
トマッチングやＤＰマッチング等周知の方法が用いられ
得る。ＤＰマッチングを用いることにすれば次のように
なる。ｎ番目の単音節標準パターンをＲｎ＝ｂｎ１ｂｎ
２・・・・・・ｂｎｉ・・・・・ｂｎＪｎ、単音節入カ
パターンをＡ＝ａ１ａ２・・・・・・ａｉ・・・・・・
ａＩ（ただしＩ、Ｊｎはそれぞれ入カパターン、標準パ
ターンの母音定常部中心フレーム）、ｄｎ（ｉ、ｊ）を
ａｉとｂｎｊのベクトル間距離とするときなる漸化式をｇ（１，１）＝２ｄｎ（１，１）として解
けば、ＡとＲｎの距離Ｄ（Ａ、Ｒｎ）はＤ（Ａ、Ｒｎ）＝ｇ（Ｉ、Ｊ）となる。ここでｄｎ（ｉ、ｊ）はａｉ＝（ａｉ１、ａｊ
２、・・・・・・ａｉμ）ｂｎｊ＝（ｂｎｊ１、ｂｎｉ
２．・・・・・・ｂｎｊμ）とするときｄｎ（ｉ，ｊ）
＝Σμｋ＝１｜ａｉｋ−ｂｎｊｋ｜とするのが、一般的
である。また上記漸化式も種々の形が提案されておりこ
こではその一例を示したにすぎない。２４は距離記憶部
であって、単音節パターン比較部２３で計算された距離
を記憶するものである。単音節列Ａ１Ａ２・・・・・・
Ａｍ・・・・・・ＡＭからなる単語が入力されたときは
、距離記憶部２４はＤ（Ａｍ、Ｒｎ）を１≦ｍ≦Ｍ、Ｒ
ｎ■ＳＡｍのすべてについて記憶する。ただしＡｍと同
じ後続母音をもつ単音節標準パターンの集合をＳＡｍと
する。

２５は単語辞書であって、認識すべき単語が音節記号列
で表現された形で記憶されている。２６は単語間距離計
算部であって、単音節列として入力された単語と単語辞
書２５の単語との距離を距離記憶部２４に記憶されてい
る距離から計算する。

単語辞書２５に対し、比較照合されるべき単語は音節数
計数部１５における値、即ち、入力単語の音節数と、母
音・促音判定結果記憶部２１で示される後続母音（撥音
・促音を含む）列と同じ後続母音列をもつ単語に限定さ
れる。いま、この限定された単語の集合をＳｗとし、Ｗ
ｌ■ＳＷなる単語ＷｌがＣｌ１Ｃｌ２・・・・・・Ｃｌ
ｍ・・・・・・ＣｌＭなる音節列からなっているとすれ
ば、前記説明によって単音節ＡｍとＣｌｍとの単音節間
距離Ｄ（Ａｍ、Ｃｌｍ）は距離記憶部２４に記憶されて
いるので、入力単語Ｔ＝Ａ１Ａ２・・・・・・Ａｍ・・
・・・・ＡＭと単語辞書の単語ＷｌＣｌ１Ｃｌ２・・・
・・・Ｃｌｍ・・・・・・ＣｌＭとの距離ＤＷ（Ｔ，Ｗ
ｌ）はＤＷ（Ｔ、Ｗｌ）＝ΣＭｍ＝１Ｄ（Ａｍ，Ｃｌｍ
）としてめることができる。２７は単語判定部であってｌ＝ｍｉｎ［ＤＷ（Ｔ，Ｗｌ）］Ｗｌ■ＳＷなるｌをめ、Ｗｌを認識単語と判定する。２８は認識結
果の出力端子である。

なお、本実施例においては、単語単位で認識するとして
説明したが、これは勿論、文節単位で行うこともできる
。その場合は、名詞に付属語を付加したものや動詞、形
容詞、形容動詞等の活用形までも含めて前記単語とみな
して単語辞書に登録しておく方法も考えられるが、この
方法では、単語辞書のメモリ量が大幅に増えるので、単
語辞書には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部２６で比較照合を行うとき、
種々の文節を規則で作り出すようにすることもできる。

特に、仮名漢字変換機能付のワードプロセッサの入力と
して本発明装置を用いるときは、単語辞書は仮名漢字変
換用のものが共用でき、前記付属語を作る機能ももとも
と備わっているのですこぶる好都合である。

また、本実施例では促音を無音区間長から検出するとし
たが、「つ」と発声することにより、促音を入力するよ
うにもできる。このときは、単語辞書において促音を「
つ」に置き換えておけばよく、実際は「つ」であるのか
促音であるのかの区別は言語処理の問題として簡単に行
い得る。

さらに、本発明は発声を単音節毎に区切って発声する場
合について述べたが、単音節の区切りが行えれば良いの
であって、連続的に発声してもこの区切りが行える場合
は、本発明の原理はそのまま適用可能である。

発明の効果本発明によれば、単音節のみの認識でなく、単語全体と
しての認識を行っており、また、比較照合すべき単語を
母音列で限定することにより、認識率、照合速度におい
て大幅な改善が得られたものである。

【図面の簡単な説明】

第１図は従来の単音節音声認識装置を示すブロック図、
第２図は前記従来例を改良した例を示すブロック図、第
３図は本発明の一実施例における音声認識装置を示すブ
ロック図、第４図は本発明装置の一部の動体を説明する
波形図である。１１・・・・・・音声信号入力端子、１２・・・・・・
特徴抽出部、１３・・・・・・パワー計算部、１４・・
・・・・音声区間検出部、１５・・・・・・音節数計数
部、１６・・・・・・母音標準パターン記憶部、１７・
・・・・・母音フレーム検出部、１８・・・・・・バッ
ファメモリ、１９・・・・・・母音パターン比較部、２
０・・・・・・母・音判定部、２１・・・・・・母音・
促音判定結果記憶部、２２・・・・・・単音節標準パタ
ーン記憶部、２３・・・・・・単音節パターン比較部、
２４・・・・・・距離記憶部、２５・・・・・・単語辞
書、２６・・・・・・単語間距離計算部、２７・・・・
・・単語判定部、２８・・・・・・認識結果出力端子。

Claims

【特許請求の範囲】

入力音声信号を特徴ベクトルの系列に変換する手段と、
入力音声信号を音節毎に区切る手段と、前記特徴ベクト
ルの系列から前記各音節の後続母音を認識する手段と、
前記後続母音列と同じ後続母音列と同じ後続母音列を有
する単語あるいは文節の音節列を記号列として得る手段
と、前記記号列と前記入力音声信号から得られた音節列
とをマッチングする手段と、このマッチングの結果、前
記入力音声信号に最も近い前記単語あるいは文節を前記
入力音声に対応する認識結果と判定する判定手段とを有
することを特徴とする音声認識装置。