JPS58145999A

JPS58145999A - 音声認識方法

Info

Publication number: JPS58145999A
Application number: JP57029472A
Authority: JP
Inventors: 雅男渡; 誠赤羽; 俊彦和久; 久雄西岡
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1982-02-25
Filing date: 1982-02-25
Publication date: 1983-08-31
Also published as: JPH0441357B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声認識に関し、ｆ＃蜆な方法を提案するもの
である。

音声認識においては、特定話者に対する単語認識による
ものがすでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発声させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶（登録）しておく。そして特定話者が発声し
たときその音響パラメータを検出し、登録された各単語
の音物パラメータと比較し、これらが一致したときその
単語であるとのｇ誠を行う。

この上うな装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間（５〜ｇＱｍ８ａｉ
）毎に抽出される音響パラメータの時系列を伸縮し１時
間軸を整合させる。これによって発声速度の変動に対処
させるよさにしている。

ところがとの装置の場合、認識対象とする全ての単ＩＮ
Ｋついてその単語の全体の音響パラメータをあらかじめ
登母格納しておかなければならず、膨大な記憶容量と演
算を必要とする。このため認識語い数に限界があった。

これに対して音韻（日本飴でいえばロー！字表記したと
きのＡ、　Ｉ　、Ｕ、　Ｅ、０．に、　８．Ｔ等）ある
いは音＠　（ＫＡ　、　ＫＩ　、　Ｋ１等）単位での認
識を行うことが提案されている。しかしこの場合Ｋ、母
音岬の準定常部を有する音韻の認識は容易であっても、
破裂音（Ｋ、Ｔ、Ｐ尋）のように音韻的特徴が非常に短
いものを音響パラメータのみで一つの音韻に特定するこ
とは極めて困難である。

そこで従来は、各音節ごとに離散的に発音された音声を
登帰し、離散的に発声された音声を単語ｗｔＩｍ！と同
様に時間軸整合させてｌｊｇ鐵を行っており、特殊な発
声を行うために限定された用途でしか利用できなかった
。

さらに不特定話者をｓ１ｗＩｔ対象とした場合には、音
響パラメータに個人差による大きな分散があり、上述の
ように時間軸の整合だけでは認識を行うことができない
。そこで例えば一つの単語について複数の音響パラメー
タを登録して近似の青畳パラメータを＠緻する方法や、
単語全体を同定次元のパラメータに変換し、識別函数に
よって判別する方法が提案されているが、いづれも膨大
な記憶容量な必費としたり、演算量が多く、ｉ＆ｉｌｉ
織飴い数が伽めて少くなってしまう。

本発明はこのような点にかんがみ、不特定話者に対して
も、容易かつ確実に音声認識を行えるようにした、新規
な音声認識方法を提案するものである。以下に図面を参
照しながら、本発明の一実施例について説明しよう。

ところで音韻の発声現象を観察すると、母音や摩擦音（
８，Ｈ勢）等の音韻は長く伸して発声することができる
３２例えば１はいゝという発声を考えた場合に、この音
韻は第１図Ａに示すようＫ、「無音→Ｈ→Ａ→Ｉ→無音
」に変化する。これに対して同じ１はい１０発声を第１
図Ｂのように行うこともできる。ここでＨ，Ａ、Ｉの準
定ｆ部の長さは発声ととに変化し、これＫよって時間軸
の変動を生じる。ところがこの場合に１各音韻間の過渡
部［１線で示す）は比較的時間軸の変動が少いことが判
明した。

本願発明者はこの点に着目したものである。

第２図において、マイクーフオン（１）に供給された音
声信号がマイクアンプ（２）、５．５ｋＨＫ以下のロー
パスフィルタ（３）を通じてＡ、Ｄ変換回路（４）Ｋ供
給される。またり謬ツク発生器（５）からのＩＬ５ｋＨ
１（８０声（６）間隔）のす／プリンダク四ツクがＡＤ
変換回路（４）に供給され、このタイ書ングで音声信号
がそれぞれ所定ビット数（＝１ワード）のデジタル信号
に変換される。この変、換された音声信号が５×６４ワ
ードのレジスタ（６）Ｋ供給される。またクロツタ発生
器（５）からの５．１２輌器間隔のフレームクロックが
５進カウンタ（７）Ｋ供給され、このカウント値がレジ
スタ（６）に供給されて音声信号が６４ワードずつシフ
トされ、シフトされた４Ｘ６４ワードの信号がレジスタ
（６）から取り出される。

このレジスタ（６）から取り出された４　Ｘ　６４　＝
　２５４！ワードの信号が高速フーリエ変換（）’ＦＴ
）回路（８）Ｋ供給される。ここでこのＦＦ７回路（８
）において、例えはＴの時間長に含まれるｎ１個のす／
プリングデータによつ【表される波形函数をＵ　ｎ　ｆＴ（ｔ）　　　　　　　　　　　　　　−（
Ｉｔとしたとき、これなフーリエ変換して、〒＝Ｕ　ｌｎ　ｆＴ（ｆ）　十ｊ　Ｕ　ｚｎ　ｆＴ（ｆ）
　　　　＝−（２１の信号が得られる。

さらにこのＦＦ７回路（８）からの信号がノ（ワースベ
クトルの検出回路（９）Ｋ供給され、１０”　ｌ　＝Ｕ”ｓ　ｎ　ｆＴ（ｆ）　＋ｕｉｎｆｔ
（ｔ）　　　　　Ｈ４＋４４Ｈ（ａ）のパワースペクト
ル信号が取り出される。ここでフーリエ変換された信号
は周波数軸上で対称になつ【いるので、フーリエ変換に
よって取り出されるＩＩｆ個のデータの半分は冗長デー
タである。そとで半分のデータを排除してｉｎｆ個のデ
ータが取り出される。すなわち上述０ＦＦＴ囲路（８）
に供給された２ｓ６ワードの信号が変換されてＨ８ワー
ドの／（ワースベクトル信号が取り出される。

このパワースペクトル信号がエンファシス回路−に供給
されて聴感上の補正を行うための重み付けが行われる。

ここで重み付けとしては、例えば周波数の高域成分を増
強する補正が行われる。

この重み付けされた信号が帯域分割−路収りに供給され
、聴感特性に合せた周波数メルスケールに応じて例えば
３２の帯域に分割される。ここで）（ワースベクトルの
分割点と異なる場合にはその信号が各帯域に按分され【
それぞれの帯域の信号の量に応じた信号が取り出される
。これによって上述の１２８ワードのパワースペクトル
信号が、青畳的特徴を保存したま京３２ワードに圧縮さ
れる。

この信号で対数囲路ａのに供給され、各信号の対数値に
変換される。これによって上述のエンファシス回路ａ呻
での重み付は等による冗長度が排除される。ここでこの
対数パワースペクトルｔｏｇ　Ｉ　ｌ４ｔ（ｆ）Ｉ　　
　　　　　　　　　　　　　　　　　・・−・・（４）
をスペクトルパラメータＸ（１）（ム二〇、１・叩・３
１）と称する。

このスペクトルパラメータｘ（１）が離散的フーリエ変
換（ＤＦＴ）回路（１３に供給される。ここでこのＤＦ
Ｔ−絡ＱＩにおいて、例えば分割された帯域の数をＭと
すると、このＭ次元スペクトルパラメータＸ山（ｉ＝０
，１・・・・・・Ｍ−１）−を２Ｍ点の実数対称パラメ
ータとみなしＣＤＦＴを行う。従って１Ｍへ− 満＝０，１・・・・・・２Ｍ−１となる。さらＫこのＤＦＴを行う函数は偶画数とみなさ
れるためｇｏｉ＊ｗ＊＝顛　□− 輩となり、これらよりとなる。このＤＦＴによりスペクトルの包絡特性を表構
する音響パラメータが抽出される。

このよ５ＫＬ、てＤＦＴされたスベタトツムバラメｆｉ
　Ｘ＜ｉ＞　Ｋツイテ、０−Ｐ−１（ｆｉえばｒ＝８）
次までのＶ次元の値を取り出し、これをローカルパラメ
ータＬ　（ｐ）　（ｐ＝０．　１・・−・・Ｐ−１）と
すると・・・（７）となり、ここでスペクトルパラメータが対称であること
を考慮してＸ（轟）　”　Ｘ（ｘｌｉ−ｉ−ｘ　）　　　　　　　
　　　−−−−（８）とおくと、ローカルパラメータＬ
　（ｐ）は・・・・・・（９）但し、ｐ工０，１・・・・・・Ｐ−１となる。このよ５ＫＬ、て３２ワードの信号がｒ（例え
ば８）ワードに正編される。

このローカルパラメータＬ　（ｐ）がメモリ装置Ｉに供
給される。このメモリ装置Ｉは１行ｒワードの記憶部が
例えば１６行マトリクス状に配されたもので、ローカル
パラメータＬ（ｐ）か各次元ととＫＪＩ１１次記憶され
ると共に、上述のクロック発生器（５）からの５．１２
輌１間隔のフレームクロックが供給されて、各行のパラ
メータが順次横方向ヘシフトされる。

これにより【メモリ装置Ｉには５．１２ｍ５ｃ間隔のｒ
次元のローカルパラメータ、Ｌ（ｐ）が１６７レーム（
８１，９２ｍ５ｅｃ）分記憶され、フレームクロックご
とに順次新しいパラメータに更新されるさらにエンファシス１路ａ匈からの重み付けされた信号
が帯域分割−路Ｃ１１）に供給され、上述と同様にメル
スケールに応じてＮ（例えば２０　）の帯域に分割され
、それぞれの帯域の信号の量に応じた信号■佃）（ｌｌ
＝ｏ、１・・−・・Ｎ−１）が取り出される。この信号
がバイアス付き対数回路５（至）ｋ供給されてＶ’（ｎ
）　＝　”ｇ（Ｖ（ｎ）　＋　Ｂ　）　　　　　　　　
　・・＝　Ｈが形成される。また信号ＶＯＩ）が累算回
路（２）に供給されててｖ−＝ｊｏｇ（Ｖ１十Ｂ）　　　　　　　　　　　　　
　　　　　　−・・・・・Ｑυが形成される。そしてこ
れらの信号が演算回路（財）に供給されてＶ（ｎ）＝マ蟲−ｖ色）　　　　　　　　　　−ａ邊が
形成される。

ここで上述のような信号Ｖ（ｎ）を用いることにより、
この信号は音韻から音韻への変化に対して各次（ｎ＝ｏ
、１・・・・−・Ｎ−１）の変化か同程度となり、音韻
の種類による変化量のばらつきを回避できる。

また対数をとり演算を行って正規化パラメータＶ（ＩＩ
）を形成したことにより、入力音声のレベルの変化によ
るパラメータＶ（ｎ）の変動が排除される。さらにバイ
アスＢを加算して演算を行ったことにより、仮りに［３
−＊　ｏｏとするとバフメータｖ０１）→０となること
から明らかなように、入力音声の微少成分（ノイズ勢）
に対する感度を下げることができる。

このパラメータＶ（Ａ”）がメモリ装置（ハ）に供給さ
れ′Ｃ２Ｗ＋１（例えば９）フレーム分が記憶される。

この記憶された信号が演算回路（ホ）に供給されてＹｎ
、ｔ−１，：′ｆｆＦＮ（ｖＱｌ）（■））・・・・・
・（Ｂ）但し、ＧＦＮ＝（Ｉ；−實＋重≦■≦ｗ−）−
１）が形成され、この信号とバフメータｙ＜ｔ＞が演算
回路（財）Ｋ供給されて・・・・・・ａ荀が形成される　このＴ（ｔ）が過渡点検出パラメータで
あって、とのＴ（ｔ）がビータ判別回路（至）に供給さ
れて、入力音声信号の音韻の過渡点が検出される。

ここでパラメータＴ（ｔ）が、フレー五ｔを挾んで前後
Ｗ７レームずつで定義されているので、不要な凹凸やｆ
ＩｋＩＬを生じるおそれがない。なお第３ｗＪは例えば
０ゼー“とい５発音を、サンプリング周波数ＩＬｉｋＨ
ｉ、ｌ冨ビットデジタルデータとし、５．１ハｌフレ一
ム周期で２６藝点のＦＦＴを行い、帯域数ｈ＝鵞Ｏ，バ
イアｘＢｍ６．検出７レーム数２Ｗ＋１ｗ−１で上述の
検出を行った場合を示している。図中Ａは音声波形、Ｂ
は音韻、Ｃは検出信号であって、「無音−４Ｚ　Ｊ　　
ｌ”　Ｚ−４Ｋ　Ｊ　　「ｇ　−４ＲＪ「Ｒ→０」　「
０→無音」の各過渡部で顕著なピークを発生する。ここ
で無音部にノイズによる多少の凹凸が形成されるかこれ
はバイアスＢを太き（することにより破ｌｉＡ図示のよ
うに略ＯＫなる。

この過液点検出信号Ｔ（ｔ）がメ毫す装置Ｉに供給され
、この検出信号のタイ櫂ンダに相白する一一カルバツメ
ータＬ（Ｐ）が８誉目の行にシフトされた時点でメ毫す
装置１の読み出しが行われる。ここでメモリ鋏＊ａｉの
読み出しは、各次元Ｐごとに１６フレ一五分の信号が横
方向に読み出される。そして読み出された信号がＤＦＴ
回路Ｑ５に供給される。

この回路（ｌｓｔｍおいて上述と同様にＤＦＴが行われ
、音響パラメータの時系列変化の包絡特性が抽出される
。とのＤＦＴされた信号の内から０〜Ｑ−１（例えばＱ
＝３）次までのＱ次元の値を取り出す。

このＤＦＴを各次元Ｐごとに行い、全体でＰｘＱ（＝２
４）ワードの過渡点パラメータＫ（ｐ、　Ｑ）（ｐ＝ｏ
、１・・・・・・ｐ−１）　（Ｑ＝０．１・叩・Ｑ−１
）が形成される。ここで、Ｋ（０，０）は定数なので、
ｐ＝ｏのときＫｑ＝１−Ｑとしてもよい。

すなわち第４図において、Ａのような入力音声信号（Ｈ
ＡＩ）に対してＢのような過渡点が検出されている場合
は、この信号の全体のパワースペクトルはＣのようにな
っている。そして例えば［Ｈ→Ａ］の過渡点のパワース
ペクトルがＤのようであったとすると、この信号がエン
ファシスされてＥのようになり、メルスケールで圧縮さ
れてＦのようになる。この信号がＤＦＴされてＧのよう
になり、Ｈのよさに前後の１６フレ一五分がマトリクス
され、この信号が順次時間軸を方向Ｋ　ＤＦＴされて過
渡点パラメータＫ（ｐｓｑ）が形成される。

この過渡点パラメータＫ（ｐ、ｑ）がマハラノビス距離
算出回路ＱＩＫ供給されると共に、メモリ装置ａηから
のクラスタ系数が回路（１Ｇに供給され【各クラスタ系
数とのマハラノビス距離が算出される。

ここでクラスタ系数は複数の話者の発音が上述と同様に
過渡点パラメータを抽出し、これを音韻の自答に応じて
分類し統計解析して得られたものである。

そしてこの算出されたマハッノビス距離が判定回路０に
供給され、検出された過渡点が、何の音韻から何の音韻
への過渡点であるかが判定され、出力端子ａ鐘に取り出
される。

すなわち例えば１はい”１いいえ”０（ゼロ）１〜＠９
（キエウ）１０１２単語について、あらかじめ多数（百
Å以上）の話者の音声を前述の装置に供給し、過渡点を
検出し過渡点パラメータを抽出する。この過渡点パラメ
ータを例えば第５図に示すようなテーブルに分類し、こ
の分＃（クラスタ）ととに統計解析する。図中＊は無音
を示す。

これらの過渡点パラメータについて、任意のす（１）／プルをＲｙ、　Ｂ　（ｒ　：＝　１１２”＝・２４　
）　（”はクラスタ指標で例えば―＝１は＊→Ｈ，ａ＝
２はＨ→Ａに対応する。―は話者番号）として、共分散
マトリクス・・−・ａｅ但し、Ｒ？）−Ｅ（Ｒシ５）Ｅはアンナンブル平均を針数し、この逆マトリクス（１）　　　　（ａ）−１Ｂｒ、　ｓ”　（Ａｔ、　ｕ）ｒ、　ｓ　　　　　　　
　　　−−−Ｑｉを求める。

ここで任意の過渡点パラメータに、とクラスタ１との距
離が、マハラノビスの１ｎ（Ｋ・″″ＲＲソ゛　　　　　・・・・・・Ｑ７）で求
められる。

従ってメ％す装置Ｑηに上述のＢ、、　ｓ及びｌを求０めて記憶しておくことにより、マハラノビス距離算出回
路（ＩＱにて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。

これによつ″′Ｃ回路収Ｑから入力音声の過渡点ごとに
各クラスタとの最小距離と過渡点の順位が堆り出される
。とれらが判定囲路（ＩＩＫ供給され、入力音声が無音
になった時点において認識判定を行う。

例えば各単語ととに、各過渡点パラメータとクラスタと
の最小距離の平方根の平均値による単語距離を求める。

？ｊお過渡点の一部脱落を考慮し【各単語は脱落を想定
した複数のタイプについて単語距離を求める。ただし過
渡点の順位関係がテーブルと異なっているものはリジェ
クトする。そしてこの単語距離が最小になる単語を認識
判定する。

こうして音声認識が行われるわけであるが、本発明によ
れば音声の過一点の音韻の変化を検出しているので、時
間軸の変動がなく、不特定話者について良好なｇ繊を行
５ことができる。

また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば２４次元でｗ識
することができ、ｇｌｌｔｌ−極めて容易かつ正確に行
うことができる。

なお上述の装置において１２０名の話者にて学習を行い
、この１２０名以外の話者にて上述の１２単語について
実験を行った結果、９６．５％の平均ｗｌ識率が得られ
た。

さらに上述の例では１はい１の「Ｈ→ＡＪど８（ハチ）
０の「Ｈ−＊ＡＪは同じクラスタに分類可能である。従
って認識すべき言語の音韻数をαとして・１ｏＬＣ１個
のクラスタをあらかじめ計算してクラスタ係数をメモリ
装ｆＩＬ拳？）Ｋ記憶させておけば、種薯の単一の認識
に適用でき、多くの語いの認識を容易に行５ことができ
る。

【図面の簡単な説明】菖１１Ｑは音声のａ明のための図、第２図は本発明の一
例の系統卸、縞３図〜謔５図はその説明のための図であ
る。（１）ハマイタロフォン、＋３１はローパスフィルタ、
（４）はＡＤ変換回路、（５）はクロック発生器、（６
）はレジネタ、（７）はカクンタ、（８）は高速フーリ
エ変換囲路、（９）はパワースペクトル検出回路、ａｅ
はエンファシス回路、ａｅは帯域分割回路、ａ４は対Ｉ
Ｉ［回路、０３．６勺は離散的７−リエ変換閏路、軸、
＠りはメモリ装置、軸はマハツノビス距離算出回路、錦
は判定回路、０は出力端子、なυ〜（至）は過渡点検出
のための回路である。第５　ｉ”１手続補正書昭和ｓ８年　５月　２５日１′１′−件の表示昭和ｓ７年特許願第　！−４１２号２、発明の名称　音声−織方法３、補正、をする者事件との関係　　特許出願人住所　東京部品用区北品用６丁目７番３５号名称（２１
８）　　ソニー株式会社代表取締役　大　賀　典　雄６、補止により増加する発明の数（１）明細書中、嬉７１１９行Ｆ２Ｍ４点」とあるな「
２Ｍ−１点」と訂正する。（２）同、同］１１０行１ＤＦＴ＆行５」とあるな「２
Ｍ−２点のＤｒｉを行なう」と訂正する。（３）同、同真１１〜１４行［ｘ（、、、）−７玄１）／” ｉ−Ｏ謹＝Ｓ二Ｘ（ｉ）Ｗ［ｆ）’　ｄｉ　　　・・・・・（５
）諺ｍｍｍ０．１・・・・−２Ｍ−ＩＪとあるなｍｍｏ、１．
・・・・・２ト３」と訂正する。（４）岡、菖８勇１行〜２行ｉ［Ｗ　　　ｍｍ（悲士匹）１Ｍ４　　　　　　２Ｍ−雪＝偏（五」二！−）と訂正する。 −１（５）　　岡、同１１４行［Ｘ（ｍ）　＝　”ｆｆ’Ｘ（ｔ）ａｉｍす１Ｊとある
をｉ＝＠　　　　　　菖（６）同、同負１ｌ−Ｉｓ行 π・１−ｐｒ　Ｌ＜ｐ＞−五、ｘＯ）鴎］「」とあるな＋７）　　ｒｌｌｊ、第９３Ｎ２行ｒ　Ｘ（ｉ）　＝　Ｘ　（ｓＭ−ｉ−ｔ）・・・・・・
・（８）」とあるな「Ｘ（ｉ）　＝−Ｘ　（−一息−り
」と訂正する・（８）同、同ｊ１４行とあるな（９）同、第１０貴１０行ａＯ同、Ｍｌｌｌｋｌ！ｉ行ｒｙ＜ｔｈ＞Ｊとあるをｒ
Ｙｃｎ）　Ｊと訂正する。ａυ　同、同ｊｌｌ　１７行ａｇ　　同、第１３１１１１行「定数なので」とあるを
「音声鼓形のパワーを表現しているので、パワー正規化
のため」と訂正する。ａｓ　　同、菖１４１１６　、７　、８行にソｔＬソｔ
Ｌ　ｒ／ｊスタ系数」とあるＶ「クラスタ係数」と訂正
する。Ｑ４　　同、菖１７１１６行「９６．５％」とあるをｒ
９ｓ、ｚう」と訂正する。ａｓ　　同、同ｊａｌ１行ｒｃＬＣｍ個」とあるなｒｃ
ｉＰｓ個程度」と訂正する。以上

Claims

【特許請求の範囲】

無音を含む音韻間の過渡部を検出する手段を有し、この
検出された過渡部の音声を所定長抽出してパラメータに
変換し、このパラメータな認識基本単位とするようにし
た音声ｇ敵方法。