JPH02212900A

JPH02212900A - 音声認識方式

Info

Publication number: JPH02212900A
Application number: JP1034769A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-02-13
Filing date: 1989-02-13
Publication date: 1990-08-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】韮」すＬ黙本発明は、音声認識方式、より詳細には、音声認識装置
における音声の再生に関するものである。

豆１１権利用者があらかじめ音声を登録してから使う、いわゆる
特定話者音声認識装置ではトレーニングによって、でき
た標準パターンの質が認識能力を左右する。標準パター
ンの作成時と認識時では発声の違いがないか、標準パタ
ーンにノイズ等がついて異常なパターンとして登録され
ているのではないかということが非常に重要である。

例えば、特開昭５９−２０１１４１号公報に示されるよ
うに、登録する時に、自分が登録の為に発声した声を聞
返しながら正常かどうかを判断するものもある。この方
法は正常な標準パターンを登録するのには有効である。

しかし、長い単語をそのまま登録する場合や、それを短
く省略して登録しておく場合がある０例えば、「ムステ
ィスラフ・ロストロボーヴイッチ」という単語を「ムス
ティス」とかｒロスドロ」のように登録した場合。

何日か後にはどのような登録の仕方をしたのが分からな
くなってしまうことが多い、仮に、「ムスティスラフ・
ロストロボーヴイッチ」と言ってみて、正確に認識しな
い時は標準パターンとしての登録の仕方が違っているの
か、それとも、登録の仕方は台っているが誤認識したも
のかの判断がつかず、利用者が正確に認識させる為には
どのようにしたらよいのかがわからなくなってしまう。

そこで特開昭５７−８６９７９号公報のように音声を録
音しておく方法もあるが、音声認識の目的以外に大きな
メモリーや再生の為の装置が必要となってくる。

また、次に考えられることは、音声認識用の標準パター
ンを使って登録時の音を再現することであるが、＃ｓ準
パターンのデータ量を少なくする為に２値化処理したデ
ータを使う方法（第１０回。

情報理論とその応用シンポジウム、Ｎｏ、１９−２１．
１９８７．ｐｐ、４７５−４８０）で認識するような場
合、このパターンから音声を再現するにはデータ量が少
なすぎるという欠点があった。

ｌ−一匁本発明は、上述のごとき実情に鑑みてなされたもので、
音声認識装置において登録時の音声を示し、利用者に登
録時の発声を思い出させることにより認識精度を向上さ
せることを目的とするものであり、特に、音声認識方式
として、２値化処理したデータを使う方法が使われてい
る場合に、登録されているデータに音声の情籟量を付加
するような方法を提供することを目的とするものである
。

祷成本発明は、上記目的を達成するために、音声を周波数分
析して、それを２値化し、標準パターンを作成し、さら
に、２値化する前のデータから周波数の高域、低域の成
分の分布情報を付加して特徴パターンとして用いる音声
認識方式において、パルス音源と雑音性の音源を持ち、
前記周波数の高域、低域の成分の分布情報に従ってこれ
らの音源を選択して使用するようにしたうえで、パター
ン（標準パターンまたは特徴パターン）の周波数軸上の
１組のデータ中でそれぞれの隣接するデータ間の変化を
小さくするように修正した後に音源の信号をこのパター
ンで変調して可聴音を合成するようにした部分を備えた
ことを特徴としたものであり、更には、周波数軸上の１組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、低域通過の周波数フィルタを使用すること。

周波数軸上の１組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、周波数軸上の山と谷を結ぶ線分によって変化を小
さくするようにしたこと、或いは、周波数軸上の山と谷
を結ぶ線分によって変化を小さくする際に山または谷で
同じ値が続く場合には同じ値の中点を山または谷とみな
すようにしたこと。

周波数軸上の１組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、隣接するデータの平均または和によってあらたに
データをつくって変化を小さくするようにしたことを特
徴としたものである。

以下、本発明の実施例に基づいて説明する。

第１図は１本発明の詳細な説明するための構成図で、図
中、１は音響／電気信号変換器、２は音声分析部、３は
スイッチ、４は辞書部、５は認識部、６は再生部、７は
出力、８は電気信号／音響変換器で、スイッチ３によっ
て辞書の登録モード（ａ側）と認識モード（ｂ側）が選
択できるようになっている。この方式は特定話者方式と
呼ばれている認識装置の利用者があらかじめ自分の音声
で装置をトレーニングしてから使うものを想定しており
、トレーニングが不用な不特定話者認識装置では辞書の
登録モードはいらない、どちらの方式であっても、本発
明は使えるが、ここでは先に述べたように特定話者音声
認識方式で話を進める。

第２図は、第１図に示した音響／電気信号変換器１と音
声分析部２の詳細図で、本発明の中心は再生部６にある
が、まず、第２図を参照して音響／電気信号変換器と音
声分析部を詳しく説明する。音響／電気信号変換器１と
して一般的なのはマイクロフォンである。その出力をマ
イクアンプＡにて増幅し、フィルタ群−Ｆ、〜Ｆ□へ印
加せしめる、このフィルタ群は共振先鋭度のゆるやかな
バンドパスフィルタが１５個並入られているが。

その共振先鋭度や個数、特性には大した意味はない１通
常１５０〜１５０００Ｈｚがカバーされる程度の帯域を
持つように配置しておくことが望ましい、各フィルター
の出力を整流器Ｒ工〜ＲＸｓにて整流して周波数順にレ
ベルの大きさとして記録パターンを作っていく。

次に、第３図を参照しながらこのパターンから周波数の
高域、低域の成分の分布情報をとって２値化するやり方
について説明する。整流して周波数順に並べたパターン
は、第３図（ａ）のようになっている、ただし、第３図
（、）では１５個のデータがディスクリートに並ぶべき
であるが、ここでは便宜上１５個を連続量として表しで
ある。

このデータで最小２乗直線部９にて最小２乗直線を引い
て直線部を各データから差引くことで第３図（ｂ）が得
られる。音声データに音源特性を補正する為に最小２乗
直線を引くやり方は、三輪、城戸著音響学会音声研究会
資料５７９−２４（１９７９）その他に詳しく述べられ
ている。第３図（ｂ）の中の正側の山のピークを中心に
してｒｌＪとし、他を［ｏ」として２値化部１ｏにて２
値化パターンを作ると、第３図（ｃ）が得られる。つま
り、２値化した１５個のデータとなるわけであるにの時
の最小２乗直線の傾きが正であるか負であるかをそれぞ
れ「Ｏ」、ｒｌＪで表現して１５個のデータのつぎに１
６番、目のデータとしてつける。

まず、周波数軸上の１組のデータでそれぞれ隣接するデ
ータ間の変化を小さくする手段として周波数軸上の変動
に対して、低域通過の周波数フィルタを使用する方法を
述べる。

第４図は、第１図に示した再生部の詳細図で、１５個の
データを周波数の低い方から順に１チヤンネル（ｌｃｈ
）、２チヤンネル（２ｃｈ）、−ｎチャンネル（ｎ　　
ａｈ）のデータと呼ぶことにする。汗源はパルスが３〜
５ミリ秒間隔で発生されるパルス音源１２と白色雑音に
近い雑音を発生する雑音源１３を用い、スイッチＳＸＳ
によってどちらかの音源が選択され、その音源からの信
号がスイッチＳ、〜Ｓ工、を通過後フィルタＦ□〜Ｆ１
．に印加される。この１５個のフィルタは第２図に示し
た音声の分析時に使ったものをそのまま使うか。

あるいは同等のものを別に用意しておいてもよい。

フィルタの後段には各チャンネルに掛は算器Ｍ１〜Ｍ□
をつけ、標準パターンの各チャンネルの値が積算される
。これはパターンが［１」またはｒＱＪのものを使う時
には掛は算器ではなくスイッチでもよい、これらの出力
は加算器１１で加え合わせられて音声再生出力信号とし
て出力される。

掛は算器Ｍ１〜Ｍ　１５にはそれぞれ１〜１５チヤンネ
ルのデータが入れられるがここに入れる前に、第５図に
示すように元のデータの１〜１５ｃｈをスキャンしてデ
ータを時系列に並ベローパスフィルタ１４に加えた出力
を再度１〜１５ｃｈに戻し、その値を各掛は算器に入れ
る。この時、ローパスフィルタの入力では第６図（ａ）
のようなパターンが（ｂ）に示すように中間値を持つよ
うに変化させられ元の波形、第３図（ａ）、（ｂ）にち
かくなり、失った情報が回復される。あるいは第７図に
示すフローチャートに従ってパターンのデータの変化点
を求めて補正することもできる。第８図によってこれを
説明すると、（ａ）のようなデータの隣接する差を求め
ていくと、２ｃｈから３ｃｈにかけて符号が変る０次に
５ｃｈと６ｃｈで再び変るので符号が変ったチャンネル
間の１／２つまり３ｃｈと５ｃｈの１／２で４ｃｈを山
の頂上と考え、初期値として記憶しておいたｌｃｈが０
．５ｃｈが１として直線を引き、その間のチャンネルは
その直線上の値に書換えられる。これを全チャンネルで
行なって第８図（ｂ）のような（ａ）に較べて元の波形
に近いものを得る。さらに第９図のように第５図に於け
るフィルタの代りに隣接するチャンネル間の平均または
和をとってもよい０図では隣同士の和をとっているが、
隣り合う２つだけでなく３つ、４つ°でも差し支えない
。

その結果、第１０図（ａ）のようなデータが（１））の
ように修正され簡単な方法で元の波形に近づけることが
できる。このように以上に述べた方法を使うと、２値化
する際に失われていた音源の特性を元に近い状態に戻す
ことができる。

このほか認識部、出力部はとくに本発明では限定するも
のではなく、例えば認識にはＤＰマツチングのようなも
のでもよい、しかし、２値化データの情報付加に有効で
あることから、先にあげた第１０回、情報理論とその応
用シンポジウム、Ｎｏ、１９−２１．１９８７．ｐｐ、
４７５−４８０に述べられている方法に従うと、さらに
有効である。出力部は信号増幅の為のアンプとスピーカ
等を用いるのが普通である。

幼果以」二の説明から明らかなように、本発明によると、−
度失った音源の情報を近似的に付加して音声を再生でき
るため、音声認識用の辞書に登録された声を聞き直すこ
とができるようになった。このため音声の登録時の自分
の発声のしかたや登録内容を思いだすことができ、認識
させやすい認識装置を実現することができるようになっ
た。

なお、ここでは認識精度を向上させる為に登録時の発声
を思いだすことを例にして説明したが。

これは発声を思いだす為だけではなく、認識装置が認識
した結果を可聴な信号として出力させて。

利用者に提供する為にも使える。

【図面の簡単な説明】

第１図は、本発明の詳細な説明するための構成図、第２
図は、第１図に示した音響／電気信号変換部１及び音声
分析部２の詳細図、第３図は、２値化の一例を説明する
ための図、第４図は、第１図に示した再生部６の詳細図
、第５図及び第６図は、掛は算器への前処理の一例を説
明するための図、第７図及び第８図は、データの補正例
を説明するための図、第９図及び第１０ｒｊ４は、隣接
チャンネル間の平均又は和をとる場合の例を説明するた
めの図である。１・・・音響／電気信号変換器、２・・・音声分析部、
３・・・スイッチ、４・・・辞書部、５・・・認識部、
６・・・再生部、７・・・出力、８・・・電気信号／音
響変換器、９・・・最小２乗直線部、１０・・・２値化
部、１１・・・加算部、１２・・・パルス音源、１３・
・・雑音＊、１４・・・ローパスフィルタ。第１図第２図第図篤図６ｃｈｃｈｃｈノ５ｃｈ第図１５ｃｈ→ 仁１５（ｈ第図第図Ｅ＝口

Claims

【特許請求の範囲】

１、音声を周波数分析し、２値化して標準パターンを作
成し、さらに、２値化する前のデータから周波数の高域
、低域の成分の分布情報を付加して特徴パターンとして
用いる音声認識方式において、パルス音源と雑音性の音
源を持ち、前記周波数の高域、低域の成分の分布情報に
従ってこれらの音源を選択して使用するようにしたうえ
で、パターンの周波数軸上の１組のデータ中でそれぞれ
の隣接するデータ間の変化を小さくするように修正した
後に音源の信号をこのパターンで変調して可聴音を合成
するようにした部分を備えたことを特徴とする音声認識
方式。