JPH02212898A

JPH02212898A - 音声認識方式

Info

Publication number: JPH02212898A
Application number: JP1034767A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-02-13
Filing date: 1989-02-13
Publication date: 1990-08-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】伎亙ｊ更本発明は、音声認識、より詳細には、音声Ｌ’ｌ識装置
における音声の再生に関するものである。

従且−胤利用者があらかじめ、音声を登録してから使う、いわゆ
る特定話者音、ｉ７認識装置ではトレーニングによって
、できた標準パターンの質が認識能力を左右する。標準
パターンの作成時と認識時では発声の違いがないか、標
準パターンにノイズ等がついて異常なパターンとして登
録されているのではないかということが非常に重要であ
る。

例えば、特開昭５９−２０１１４１号公報に示されるよ
うに、登録する時に、自分が登録の為に発声した声を聞
返しながら正常かどうかを判断するものもある。この方
法は正常な標準パターンを登録するのには有効である。

しかし、長い単語をそのまま登録する場合や、それを短
く省略して登録しておく場合がある６例えば、「ムステ
ィスラフ・ロストロボーヴイッチ」という単語を「ムス
ティスＪとかｒロストＤＪのように登録した場合。

何日か後にはどのような登録の仕方をしたのか分からな
くなってしまうことが多い、仮に、「ムスティスラフ・
ロストロボーヴイッチ」と言ってみて、正確に認識しな
い時は標準パターンとしての登録の仕方が違っているの
か、それとも、登録の仕方は合っているがＭ認識したも
のかの判断がつかず、利ｙｊ′：？ｔが正確に認識させ
る為にはどのようにしたらよいのかがわからなくなって
しまう。

そこで特開昭５７−８６９７９号公報のように音声を録
音しておく方法もあるが、音声認識の目的以外に大きな
メモリーや再生の為の装置が必要となってくる。

また２次に考えられることは、音声認識用の標準パター
ンを使って登録時の音を再現することであるが、標準パ
ターンのデータ量を少なくする為に２値化処理したデー
タを使う方法（第１０回。

情報理論とその応用シンポジウム、Ｎｏ、１．９−２１
．１９８７．ｐｐ、４７５−４８０）でご識するような
場合、このパターンから音声を再現するにはデータ量が
少なすぎるという欠点があった。

且−一首本発明は、上述のごとき実情に鑑みてなさＪｚたもので
、音声認識装置において登録時の音声を示し、利用者に
登録時の発声を思い出させることにより認識精度を向上
させることを目的とするものであり、特に、音声認識方
式として、２値化処理したデータを使う方法が使われて
いる場合に、登録されているデータに音声の情報量を付
加するような方法を提供することを目的とするものであ
る。

構−一」又本発明は、上記目的を達成するために、ｇ声を周波数分
析して、それを２値化し、標準パターンを作成し、さら
に、２値化する前のデータから周波数の高域、低域の成
分の分布情報を付加して特徴パターンとして用いる音声
認識方式において。

パルス肝源と雑音性の音源を持ち、ｍ２局波数の高域、
低域の成分の分布情報に従って特徴パターンの各周波数
成分のレベルを補正した後、音源の出力を、補正後の特
徴パターンの周波数特性で変調して可聴音を合成する部
分を備えたこと、或いは、パルス音源と雑音性の音源を
持ち、前記周波数の高域、低域の成分の分布情報に従っ
て再生音声の増幅特性を変化させ、音源の出力を、特徴
パターンの周波数特性で変調して可聴音を合成する部分
を備えたことを特徴としたものである。以下。

本発明の実施例に基づいて説明する。

第１図は９本発明の詳細な説明するための構成図で１図
中、ｌはｆ響／雷気信号変換器、２は音声分析部、３は
スイッチ、４は辞書部、５は認識部、６は再生部、７は
出力、８は電気信号／音響変換器で、スイッチ３によっ
て辞書の登録モード（ａ側）と認識モード（ｂ側）が選
択できるようになっている。この方式は特定話者方式と
呼ばれている！！識表装置利用者があらかじめ自分の音
声で装置をトレーニングしてから使うものを想定してお
り、トレーニングが不用な不特定話者認識装置では辞書
の５２８モードはいらない、どちらの方式であっても１
本発明は使えるが、ここでは先に述べたように特定Ｓｓ
者音声認識方式で話を進める。

第２図は、第１ＷＩに示した音ＩＰ／ｆｔｆ気信号変換
器ｌとｆ声分析部２の詳＃１図で１本発明の中心は再生
部６にあるが、まず、第２図を参照して音響／ｆｉ！気
信号変換器と音声分析部を詳しく説明する。

音響／電気信号変換器１として一般的なのはマイクロフ
ォンである。その出力をマイクアンプＡにて増幅し、フ
ィルタ群Ｆ工〜Ｆ１．へ印加せしめる。

このフィルタ群は共振先鋭度のゆるやかなバンドパスフ
ィルタが１５ｇ１並べられているが、その共振先鋭度や
個数、特性には大した意味はない。通常１５０〜１５０
００Ｈｚがカバーされる程度の帯域を持つように配置し
ておくことが望ましい。

各フィルターの出力を整流器Ｒ１〜Ｒ１，にて整流して
周波数頭にレベルの大きさとして記録パターンを作って
いく。

次に、第３図を参照しながらこのパターンから周波数の
高域、低域の成分の分布情報をとって２値化するやり方
について説明する。整流して周波数順に並べたパターン
は、第３図（ａ）のようになっている、ただし、第３１
ｉ！！ｊ　（ａ）では１５個のデータがディスクリート
に並ぶべきであるが、ここでは便宜上１５ｇ１を連続量
として表しである。

このデータで最小２乗直線部９にて最小２乗直線を引い
て直線部を各データから差引くことで第３図（ｂ）が得
られる。音声データに音源特性を補正する為に最小２乗
直線を引くやり方は、三輪。

城戸著音響学会音声研究会資料Ｓ　７９−２４（１９７
９）その他に詳しく述べられている。第３図（ｂ）の中
の正側の山のピークを中心にしてｒｌＪとし、他を「０
」として２値化部１０にて２値化パターンを作ると、第
３図（Ｑ）が得られる。つまり、２値化した１５ｉｌｉ
のデータとなるわけである。この時の最小２乗直線の傾
きが正であるか負であるかをそれぞれ「Ｏ」、「１」で
表現して１５個のデータのつぎに１６番目のデータとし
てつける。

第４図は、第１図に示した再生部の詳Ｍ図で。

スイッチＳ□〜ＳＸＳは２値化したデータの１〜１５の
エレメントに対応し、それぞれのデータがｒｌＪの時ス
イッチはＯＮ、ｒＯＪの時ＯＦＦとなる。また、１５個
のデータを周波数の低い方から順に１チヤンネル（ｌｃ
ｈ）、２チヤンネル（２ｃｈ）、・・・　ｎチャンネル
（ｎｃｈ）のデータと呼ぶことにする。音源はパルスが
３〜５ミリ秒間隔で発生されるパルス音源１２と白色雑
音に近い雑音を発生する雑音源１３からなり、スイッチ
Ｓ０によってどちらかの音源が選択さオｔ、その音源か
らの信号がスイッチＳ□〜ＳＸＳを通過後フィルタＦ□
〜Ｆ１．に印加される。この１５個のフィルタは第２図
に示した音声の分析時に使ったものをそのまま使うか、
あるいは同等のものを別に用意しておいてもよい、フィ
ルタＦ１〜Ｆ□、の後段には各チャンネルにアンプＡ□
〜Ａ□、かつけられており、これらのアンプは夫々増幅
率が違えられるだけでなく、それぞれのアンプ固有の増
幅率か増幅率が１、つまり、信号を全く増幅しない状態
が外から選択できる。これらのアンプの出力は加算器１
１で加え合わせられて音声再生出力信号として出力され
る。

各アンプに固有の増幅率の与え方は１人間の音声の音源
特性や声道特性の補正を行なう為のものであるから、第
５図に示すごとく、−６〜１２ｄ　Ｂ　／　ｏ　ｃ　ｔ
　、程度の傾斜の直線上に各チャンネルのアンプの増幅
率が乗るようにすればよい、ただし１周波数の低いチャ
ンネルはど増幅率が高くしておく必要がある。これはも
とのパターンで説明するなら第６図（ａ）のような２値
化されたものから（ｂ）のようなもとに近い波形を作り
だすことになる。また、このアンプの増幅率はスイッチ
Ｓｉ、によって１ｔｉ１１御しており、スイッチＳ□は
先に述べたように１６チヤンネノシ目のデータによって
制御する。１６チヤンネル目のデータがｒｌＪの場合は
アンプの増幅率を第５図に従った特性とし、「Ｏ」の場
合には増幅率を１にする。つまり、パルス音源１２は声
帯に音源がある有声音をシュミレートするため、信号は
アンプを通過させて音源特性を加える。一方、雑音ｇ１
３は子音等の。

音源が声道にあるものシュミレートであるからアンプを
通過させずに直接加算器に加える。このようなアンプの
巾を通過させるかバイパスさせるかをスイッチＳ□で制
御する訳である。これによって２値化する際に失われて
いた音源の特性を元に近い状態に戻すことができる。

このほか認識部、出力部はとくに本発明では限定するも
のではなく５例えば認識にはＤＰマツチングのようなも
のでもよい。しかし、２値化データの情報付加に有効で
あることから、先にあげた第１０回、情報理論とその応
用シンポジウム。

Ｎｏ、１９−２１，１９８７．ｐｐ、４７５−４８０に
述べられている方法に従うと、さらに有効である。出力
部は信号増幅の為のアンプとスピーカ等で構成されるの
が普通である。

夏−一来以上の説明から明らかなように、本発明によると、−度
失った音源の情報を近似的に付加して音声を再生できる
ため、音声認識用の辞書に登録された声を聞直すことが
できるようになった。このため音声の登録時の自分の発
声のしかたや登録内容を思いだすことができ、認識させ
やすい認識装置を実現することができるようになった。

なお、ここでは認識精度を向上させる為に登録時の発声
を思いだすことを例にして述べてきたが。

これは発声を思いだす為だけではなく、認識装置が認識
した結果を可聴な信号として出力させて、利用者に提供
する為にも使える。

【図面の簡単な説明】

第１図は１本発明の詳細な説明するための構成図、第２
図は、第１図に示した音９１／電気信号変換部１及び音
声分析部２の詳細図、第３図は、２値化の一例を説明す
るための図、第４図は、第１図に示した再生部６の詳細
図、第５図は、各アンプに固有の増＃率を与える与え方
を説明するための図、第６図は、２値化信号の再生の仕
方の例を説明するための図である。１・・・音響／電気信号変換器、２・・・音声分析部、
３・・・スイッチ、４・・・辞書部、５・・・！！識部
、６・・・再生部、７・・・出力、８・・・電気信号／
音響変換器、９・・・最小２乗置Ｍ部、１０・・・２値
化部、１１・・・加算部、１２・・・パルス音源、１３
・・・雑音源。第１図第３図第２図

Claims

【特許請求の範囲】１、音声を周波数分析し、２値化して標準パターンを作
成し、さらに、２値化する前のデータから周波数の高域
、低域の成分の分布情報を付加して特徴パターンとして
用いる音声認識方式において、パルス音源と雑音性の音
源を持ち、前記周波数の高域、低域の成分の分布情報に
従って特徴パターンの各周波数成分のレベルを補正した
後、音源の出力を、補正後の特徴パターンの周波数特性
で変調して可聴音を合成する部分を備えたことを特徴と
する音声認識方式。２、音声を周波数分析し、２値化して標準パターンを作
成し、さらに、２値化する前のデータから周波数の高域
、低域の成分の分布情報を付加して特徴パターンとして
用いる音声認識方式において、パルス音源と雑音性の音
源を持ち、前記周波数の高域、低域の成分の分布情報に
従って再生音声の増幅特性を変化させ、音源の出力を、
特徴パターンの周波数特性で変調して可聴音を合成する
部分を備えたことを特徴とする音声認識方式。