JPH02212899A

JPH02212899A - 音声認識方式

Info

Publication number: JPH02212899A
Application number: JP1034768A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-02-13
Filing date: 1989-02-13
Publication date: 1990-08-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】致宜光互本発明は、音声認識方式に関するものである。

良東技延使用者があらかじめ音声を登録してから使う、いわゆる
特定話者方式の音声認識装置では、トレニングによって
作る標準パターンの質によって装置の認識能力は左右さ
れる０発声違いがないか。

正常なパターンとして登録されているかが重要である。

例えば特開昭５９−２０１１４ｉ号公報に示されている
ように、登録時に自分が発声した音声を聞きながら行な
う方法もある。しかし１例えば「ムスティスラフ・ロス
トロボーヴイッチＪのような長い単語を「ムスティス」
と略して登録したり「ロスドロ」と略して登録した場合
、後日、何と登録したかを忘れてしまい登録しなおさな
ければならないことになる。そのために特開昭５７−８
６９７９号公報のように音声を録音しておく方法もある
が、そのために別の大きなメモリーと録音再生装置が必
要となってくる。これらの問題を解決するためには音声
認識用の辞書から登録時に発声した音を再生できれば良
い、しかしながら、標準パターンデータのデータ量を圧
縮するために２値化した標準パターンを作る方法（第１
０回。

情報理論とその応用シンポジウム、Ｎｏ、１９−２１．
１９８７．ｐｐ、４７５−４８０）では再生するための
音声の十分な情報が得られないという欠点があった。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声認識で登録時の発声を示し。

利用者に登録時の発声を思い出させることにより、認識
精度を向上させることを目的としてなされたものである
。

墾成本発明は、上記目的を達成するために、音声を周波数分
析してそれを２値化処理して標準パターンとし、更に周
波数分析結果の高、低域の分布のしかたにより種類分け
した結果をも前記標準パターンに併せて登録しておいて
認識する音声認識方式において、パルス音源と雑音源と
を持ち、その音源の出力を前記標準パターンの特徴的な
周波数で変調するようにし、更にその時の周波数分布を
表わすデー、夕に従って前記２音源のどちらかを選択す
るようにし、該被変調波を可聴波にして出力する部分を
備えたことを特徴としたものである。

以下、本発明の実施例に基づいて説明する。

第１図は９本発明の詳細な説明するための構成図で１図
中、１は音響／電気信号変換器、２は音声分析部、３は
スイッチ、４は辞書部、５は認識部、６は再生部、７は
出力、８は電気信号／音響変換器で、スイッチ３によっ
て辞書登録（ａ側）と認ｍ（ｂ側）が選択できるように
なっている。

而して、この図は特定話者方式を想定しているが。

不特定話者方式ではこのようなスイッチが不要であるこ
とはいうまでもない。

第２図は、第１図に示した音響／電気信号変換器１と音
響分枦部２の詳細図で、周知のように。

音響／電気信号変換器１としてマイクを用い、その出力
をマイクアンプＡで増幅してフィルタＦ１〜Ｆ１．に入
力する。このフィルタはバンドパスフィルタで１５個並
べであるが、その数や特性に意味はない０通常１５０−
１．　ＯＯＯＯＨｚが全て、又は重要な部分だけカバー
されていれば良い、その出力を整流ｍＲ□〜Ｒ□で整流
し、各々のデータを使って最小自乗直線部９で最小自乗
直線を求めたあと、２値化部１０で２値化する。

第３図は、その過程を示す図で、フィルタ出力後、ＷＩ
流されたデータを周波数の低いものから並べると、（ａ
）のようになる、ただし、（ａ）は正しくは１５個の点
が並ぶべきであるがこれを連続線で表わしている。これ
に最小自装置ＡＬＬを引いである。各出力値からＬの各
値を引いていくと、（ｂ）のような結果が得られる。こ
の中から正側への山のピークを中心にして「１」、他を
「Ｏ」として２値化することによって（Ｑ）のような２
値化パターンができる。この時、（ａ）の最小自乗直線
の傾斜が負の時は１．正の時はＯを（ｃ）の１５個のデ
ータの次に加えて１６個−組のデータとする。このよう
にして得られたデータで標準パターンを作って辞書部へ
登録する。標準パターンの作成に関しては前述の文献中
に述べられているが、複数回発声して作った各々の２＠
化パターンを加算するような方法がある。しかしこれに
限ることはない、認識の場合はこの２＋ｆｉ化したデー
タを認識部へ転送し、辞書中のパターンと照合して最も
類似した標準パターンを認識結果として出力する。この
場合の照合の仕方は特に限定するものではなく、どのよ
うな方法であっても良いが、前述の文献に示されている
ような入力と辞書のパターンの重なり具合から類似性を
求めるのが適している。

第４図は、再生部の詳細を示す図で、辞書部４から、１
６個ずつならんだデータが一定間隔で送られてくる。こ
の間隔は短い程、再生音としては良質になるが、データ
が増加するので通常の音声認識に用いる程度の間隔、つ
まり５〜１０ｒｎｓ位が良い、１６番目のデータも他と
一緒にして１〜１６ｃｈとして扱う、スイッチ８１〜Ｓ
１５はＯＮ。

ＯＦＦのスイッチで１〜１５ｃｈのデータがＯかどうか
でＯＮ又はＯＦＦになる。スイッチＳ□はＬ６ｃｈのデ
ータが０かどうかで音源を切りかえる。つまり、１６ｃ
ｈ目のデータが０であれば、雑音源１３．そうでなけれ
ばパルス音源１２がスインチＳ１〜ＳｔＳに連結される
。ただし１以上には、０と他の値でスイッチの動作を分
けたが標準パターンの平均した数によりこの値を変化さ
せる方が良い０例えば３つのパターンを加算して標準パ
ターンを作成した場合は０〜１と２〜３でスイッチの動
作を変えるのが好ましい、スイッチ８１〜Ｓ工、を通過
したデータはフィルタＦ！〜Ｆ１．に印加される。この
場合、第２図において分析したフィルタと同じであるこ
とが望ましく、分析された時のフィルタと同じフィルタ
にデータが入力されるように配慮する必要がある。フィ
ルターを、番号の若い順に中心周波数が高くなり１分析
結果も周波数の低い方からｌｃｈ〜１５ｃｈとすると、
フィルタｎで分析されたデータはｎ　　ｃｈのデータと
なり、再生する時にはフィルタｎへ入力されることにな
る。こうして得られた出力の和を加算器１１によって求
め、アンプＡによって増幅後、スピーカを駆動するデー
タとなる。パルス音源１２の周期は人間のピッチ周期に
近いものが良く。

２００−３００　Ｈｚ位が適当である。

以上のような構成により、２値化処理された音声認識用
のデータから音声の再生が可能で、何がどのように発声
されていたかを聞くことができるようになる。

卑果以」二の説明から明らかなように、本発明によると、辞
書内の標準パターンが可聴になり、登録時の発声を思い
出すことができるようになっただけでなく、標準パター
ンに不要な音がついて登録されていたりすると、それを
聞きとることができるようになる。この結果、装置の認
識精度を向上させることができる。

【図面の簡単な説明】

第１図は、本発明の詳細な説明するための構成図、第２
図は、第１図に示した音響／電気信号変換器１及び音声
分析部２の詳ｍ同、第３図は、２値化の一例を説明する
ための図、第４図は、第１図に示した再生部６の詳細図
である。１・・・音響／電気信号変換器、２・・・音声分析部、
３・・・スイッチ、４・・・辞書部、５・・・認識部、
６・・・再生部、７・・・出力、８・・・電気信号／音
響変換器、９・・・最小２乗直線部、１０・・・２値化
部、１１・・・加算部。１２・・・パルス音源、１３・・・雑音源。第１図第２図

Claims

【特許請求の範囲】

１、音声を周波数分析し、それを２値化処理して標準パ
ターンとし、更に周波数分析結果の高、低域の分布のし
かたにより種類分けした結果をも前記標準パターンに併
せて登録しておいて認識する音声認識方式において、パ
ルス音源と雑音源とを持ち、その音源の出力を前記標準
パターンの特徴的な周波数で変調するようにし、更にそ
の時の周波数分布を表わすデータに従って前記２音源の
どちらかを選択するようにし、該被変調波を可聴波にし
て出力する部分を備えたことを特徴とする音声認識方式
。