JPH0115078B2

JPH0115078B2 -

Info

Publication number: JPH0115078B2
Application number: JP56150369A
Authority: JP
Inventors: Yasuo Sato; Takayuki Ooyama; Tadayasu Sugita; Hidekazu Shiratori
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-09-22
Filing date: 1981-09-22
Publication date: 1989-03-15
Also published as: JPS5852693A

Description

【発明の詳細な説明】本発明は、単音節音声認識方式、特に音声信号
の周波数分析結果にもとづいて特徴量を抽出して
認識処理を行なう音声認識方式において、入力音
声の特徴量の定常性を利用して抽出された標本点
に対応した母音特徴量によつて認識対象候補単音
節を選び出し、未知入力音声との二次照合をとる
にあたつて半母音を認識対象に含めることによつ
て、認識率を向上させるようにした単音節音声認
識方式に関するものである。

音声認識方式においては、音声信号の周波数分
析結果を利用して各音素の特徴を有効に表わして
いるパラメータを抽出し、該抽出されたパラメー
タと登録単語（単音節を含む）に対応した予め登
録されている音素のパラメータと照合して未知入
力音声の認識を行なうようにされる。即ち上記パ
ラメータとして例えば第１ホルマント周波数およ
び第２ホルマント周波数などをサンプリングし
て、このパラメータを使用するようにされる。し
かし、上記照合にあたつてサンプリング点を大に
とり、より精密な照合を行なおうとすると、上記
照合処理に要する時間が大となる。

このため、上記パラメータが時間的に急変する
区間となだらかに変化する区間とが存在すること
に着目し、前者区間において密にサンプリング
し、後者区間において粗にサンプリングすること
によつて、即ち不均一なサンプリング点でサンプ
リングすることによつて、より少ない標本数のも
とで認識率を高める方式が考慮されている（特願
昭52−43972号）。

この方式に対し、上記パラメータが時間的にな
だらかに変化する点即ち定常性をもつ点がいわば
母音に対応する音節に対応していることを利用
し、予め認識対象候補をしぼつた上で、より詳細
な照合処理を行なうようにして処理速度を向上さ
せるようにした方式が提案されている（特願昭53
−53967号）。

しかし、後者の方式を採用した場合、多くの実
験・試行を繰返して考察した結果、「ヤ」、「ユ」、
「ヨ」、「ワ」などの半母音については、母音基準
特徴量の抽出誤りが生じやすいことが判明した。
第１図は半母音についての特徴量の特性を説明す
るための説明図を示す。図中、Ｆ１は第１ホルマ
ント周波数についての特徴量、Ｆ２は第２ホルマ
ント周波数についての特徴量を表わす。例えば、
半母音「ヤ」について、これを長く伸ばして発音
した場合には、第１図図示の如く、通常の母音と
同様特徴量の定常部が表われ問題とならないが、
短く発音した場合、定常部が表われる以前に音声
が打切られることとなり、例えば第１図図示のt_A
時点とt_B時点とでは特徴量が異なるので、抽出す
べき特徴量が一定せず、そのため認識誤りを生じ
させることがある。換言すれば、半母音には明確
な母音定常部がない場合があり、安定した母音基
準特徴量の抽出が困難であるという問題が存す
る。

本発明はこの点を解決し、上記後者の方式を改
良発展させて、音声認識率を向上させることを目
的としている。そのため、本発明の単音節音声認
識方式は、音声信号の周波数分析結果を利用して
当該音声信号の特徴量を抽出し、該特徴量に対応
して未知入力音声の認識を行なう単音節音声認識
方式において、認識対象候補単音節を決定する第
一次照合部と、該第一次照合部が決定した上記認
識対象候補単音節に対して上記未知入力音声との
二次照合をとる第二次照合部とをそなえ、上記第
一次照合部は、上記抽出される特徴量の定常性を
利用して単音節中の母音部分に対応した標本点を
抽出し、該標本点に対応した母音特徴量と、あら
かじめ単音節毎に登録されている母音基準特徴量
とを照合することにより、半母音を除く母音部分
が近似する候補を一次照合結果として選定し、該
一次照合結果に基づく認識対象候補単音節を、上
記第二次照合部へ送るよう構成され、上記第二次
照合部における二次照合において半母音を認識対
象に含めるようにしたことを特徴としている。以
下図面を参照しつつ説明する。

第２図は本発明の一実施例構成を示す。図中、
１は抽出された特徴量、２は帯域フイルタ群であ
つて入力音声をＮチヤンネル例えば15チヤンネル
の周波数信号P₁（ｔ），P₂（ｔ），…P_N（ｔ）に分解
するもの、３はパラメータ抽出回路であつて入力
音声即ち単音節音声の特徴量（パラメータ）例え
ば第１ホルマント周波数に相当するモーメント
M₁や第２ホルマント周波数に相当するモーメン
トM₂や更には低域電力や高域電力などを抽出す
るもの、４はサンプリング時刻決定回路であつて
図示特徴量１に関連して示される不均一サンプリ
ング点T₀，T₁，…を決定するものを表わす。ま
た５は不均一サンプリング回路であつて上記特徴
量１に示すサンプリング点T₀，T₁，…Tα，…に
対応して特徴量をサンプリングして時系列情報を
得るもの、６は一次照合を行なう第一次照合部、
７は母音定常部抽出回路であつて上記特徴量１に
示すタイミングTαに対応した標本点とそれに対
応した母音特徴量を抽出するもの、８および９は
夫々切換回路であつて登録音声に対応した情報を
登録する登録モードと未知入力音声を認識する認
識モードとを切換えるもの、１０は母音定常部パ
ラメータ登録部であつて半母音を除く各登録単音
節に対応した母音基準特徴量を格納するもの、１
１は母音定常部照合・候補選定部であつて認識モ
ード時に上述の母音特徴量にもとづいて認識対象
候補単音節を選定するものを表わす。更に１２は
二次照合を行なう第二次照合部、１３はパラメー
タ時系列登録部であつて各登録単音節毎に上述の
サンプリング点T₀，T₁，…，Tα…に対応した特
徴量を時系列に格納するもの、１４は候補選択回
路であつて上述の候補選定部１１によつて選ばれ
た候補単音節（複数個）に対応している基準特徴
量（パラメータ）時系列情報を以下のパラメータ
時系列照合判定部１７に導くもの、１５は半母音
パラメータ登録部であつて半母音に関する単音節
毎に各サンプリング点に対応した特徴量を時系列
に格納しているもの、１６は半母音選択回路であ
つて半母音に関するパラメータ時系列情報を次の
パラメータ時系列照合判定部１７に導くもの、１
７はパラメータ時系列照合判定部であつて認識モ
ード時に未知入力音声の特徴量（パラメータ）時
系列情報と上記候補単音節または半母音のそれと
の照合をとるもの、１８は出力回路であつて認識
されたカテゴリ名を出力するものを表わす。

パラメータ抽出回路３は、公知の如く、一定周
期のクロツク・パルスが発生する毎に Mj（tn）＝_N 〓ⁱ⁼¹ Pi（tn）WijFi／_N 〓ⁱ⁼¹ Pi（tn）Wij （ｊ＝１、２） (1) に示す演算に対応して第１ホルマント周波数およ
び第２ホルマント周波数などに対応した特徴量を
計算し、その結果を図示しないレジスタに記憶す
る。なお、上記第(1)式において、Pi（tn）は例え
ば10ｍsec毎の時点tnにおいてサンプリングされ
た第ｉ番目のフイルタの出力、Wijはその荷重、
Fiはその中心周波数を表わしている。そして上記
荷重Wijは上記量M₁，M₂が第１および第２ホル
マント周波数に一致するよう実験的に決定される
ものと考えてよい。

サンプリング時刻決定回路４は、 AV（tn）_o 〓ｊ＝n_k-1＋１Ｖ（tl） (2) で定義される累積変動量AV（tn）の演算を、上
記第(1)式に示す特徴量M₁，M₂を演算する周期で
実行してゆき、上記不均一サンプリング点tnkを
決定する。即ち、上記累積変動量AV（tn）が予
め定められた閾値を超えたか否かを監視し、該閾
値を超えた時点tnkを第ｋ番目の不均一サンプリ
ング点として決定する。

なお上記第(2)式において、Ｖ（tn）はフイルタ
の出力変動量であり、次式で定義される。

上記によつて、累積変動量AV（tn）は或る不
均一サンプリング点が発生した以後においてパラ
メータの変化を累積していつたものであることが
判る。そして該累積変動量AV（tn）が或る閾値
を超えると次の不均一なサンプリング点が決定さ
れその時点で先の累積変動量AV（tn）はリセツ
トされることが判る。この結果上記不均一サンプ
リング点T₀，T₁，…，Tα，…はパラメータの変
化が急激である区間で密に現われ、変化が定常的
である区間で粗に現われることが判る。

不均一サンプリング回路５は、上記不均一サン
プリング点毎に上記抽出された特徴量M₁，M₂を
サンプリングして、登録モード時には第１図図示
のパラメータ時系列登録部１３に格納し、また認
識モード時にはパラメータ時系列照合判定部１７
に入力する。

母音定常部抽出回路部７は、(i)不均一サンプリ
ング点T₀，T₁，…が決定されてゆく間における
上記累積回数をカウントしてゆき、(ii)該カウント
値を重みＷとしたとき該重みＷの最大の不均一サ
ンプリング点（特徴量１の場合、サンプリング点
Tα）を決定する。即ち標本点を決定する。そし
て当該標本点に対応して得られた母音特徴量を、
登録モード時には母音定常部パラメータ登録部１
０に、また認識モード時には母音定常部照合・候
補選定部１１に供給する。

未知入力音声である単音節音声を認識する認識
モードにおいては、次のように処理される。なお
この時においては、例えば半母音を除く登録単音
節に対応した特徴量時系列情報が第２図図示の登
録部１３に格納されており、また半母音を除く登
録単音節に対応した母音特徴量が第２図図示の登
録部１０に格納されている。そして半母音に関す
る単音節に対応した特徴量時系列情報は、第２図
図示の半母音パラメータ登録部１５に格納されて
いる。

(1) 入力された未知入力音声に対応して、帯域フ
イルタ群２、パラメータ抽出回路３、サンプリ
ング時刻決定回路４、不均一サンプリング回路
部５を介して、上述の如く、不均一サンプリン
グ点T₀，T₁，…に対応した特徴量がパラメー
タ時系列照合判定部１７に供給される。

(2) 一方、母音定常部抽出回路部７によつて、上
述の如く、抽出された標本点Tαに対応した母
音特徴量が母音定常部照合・候補選定部１１に
供給される。

(3) このとき、図示省略した制御部の制御のもと
に、登録単音節に対応した母音基準特徴量が図
示登録部１０から、各登録単音節毎に図示照
合・候補選定部１１に順次読出される。

(4) 該照合・候補選定部１１は、上記読出された
母音基準特徴量と上記母音定常部抽出回路部７
から供給された母音特徴量とを順次照合してゆ
く。そして照合がとれた複数の単音節を候補単
音節として選定し、候補選択回路１４に通知す
る。

(5) 次いで、上記選択された候補単音節にしぼら
れた上での詳細な即ち２次照合処理に入つてゆ
く。即ち、図示省略した制御部はパラメータ時
系列登録部１３に対して読出しをかける。該読
出しによつて登録部１３から各登録単音節毎に
時系列情報が出力されてくるが、このとき候補
選択回路１４は上記処理(4)において選択された
候補単音節に対応する基準時系列情報のみを選
別した上でパラメータ時系列照合判定部１７に
伝送する。

(6) 続いて制御部（図示省略）は、半母音パラメ
ータ登録部１５に対して読出しをかけるように
制御し、該読出しによつて出力された半母音に
関する単音節に対応する基準時系列情報を、半
母音選択回路１６を介してパラメータ時系列照
合判定部１７に伝送する。

(7) 判定部１７では、先に不均一サンプリング回
路部５から未知入力音声に対応した特徴量時系
列情報が入力されている。そして該情報と上記
処理(5)および(6)において伝送された上記基準時
系列情報との照合をとる。該照合処理に当つて
は、例えば公知のダイナミツク・プログラミン
グを用いた処理をとるようにされる。

(8) そして、もつともよく照合のとれた登録単音
節をもつて上記未知入力音声が当該登録単音節
に属するものとされて、出力回路１８に認識結
果としてセツトされる。

上記の如く処理すれば、半母音単音節について
は第二次照合部１２において常に詳細な照合処理
が行なわれることとなり、半母音が明確な母音定
常部を持たないことによる認識誤りを防止するこ
とができる。

第３図は本発明の他の一実施例構成を示す。図
中、符号２ないし１２，１４，１７，１８は第２
図に対応し、１９は半母音候補設定部であつて第
一次照合部６における照合結果に無関係に半母音
に関する単音節を強制的に認識対象候補とするも
の、また１３′は半母音に関する単音節を含む登
録単音節毎にその特徴量を時系列に格納したパラ
メータ時系列登録部を表わす。

第３図図示の実施例においては、第２図図示の
実施例の場合と異なり、第二次照合部１２におい
て通常の母音を含む単音節と半母音に関する単音
節との基準時系列情報が区別されることなく、パ
ラメータ時系列登録部１３′に登録され格納され
る。第一次照合部６において、第２図を用いて説
明した実施例の場合と同様、認識モード時には、
母音定常部照合・候補選定部１１は、母音定常部
パラメータ登録部１０から順次読出された半母音
を除く登録単音節に対応した母音基準特徴量と、
母音定常部抽出回路７から供給された母音特徴量
とを順次照合し、照合がとれた複数の単音節を候
補単音節として選定する。そして、本実施例にお
いては上記選定結果を第二次照合部１２に通知す
る前に、半母音候補設定部１９に通知する。半母
音候補設定部１９は、上記母音定常部照合・候補
選定部１１によつて選定された候補単音節に、新
たに無条件に「ヤ」、「ユ」、「ヨ」、「ワ」などの半
母音に関する単音節を追加して、全体を認識対象
候補として第二次照合部１２の候補選択回路１４
に通知する。このようにすれば、候補選択回路１
４は通常の母音を含む単音節と半母音に関する単
音節とを意識して区別することなく、しかも半母
音単音節に関しては必ず詳細な照合処理を行なう
よう選択することとなる。

以上説明した如く、本発明によれば、明確な母
音定常部が存在しないことのある半母音について
は、必ず詳細な二次照合の対象とされることにな
るので、音声認識率を一段と向上させることが可
能となる。

【図面の簡単な説明】

第１図は半母音についての特徴量の特性を説明
するための説明図、第２図は本発明の一実施例構
成、第３図は本発明の他の一実施例構成を表わ
す。図中、１は抽出された特徴量、６は第一次照合
部、７は母音定常部抽出回路、１０は母音定常部
パラメータ登録部、１１は母音定常部照合・候補
選定部、１２は第二次照合部、１３はパラメータ
時系列登録部、１４は候補選択回路、１５は半母
音パラメータ登録部、１６は半母音選択回路、１
７はパラメータ時系列照合判定部、１９は半母音
候補設定部を表わす。

Claims

【特許請求の範囲】１音声信号の周波数分析結果を利用して当該音
声信号の特徴量を抽出し、該特徴量に対応して未
知入力音声の認識を行なう単音節音声認識方式に
おいて、認識対象候補単音節を決定する第一次照合部
と、該第一次照合部が決定した上記認識対象候補単
音節に対して上記未知入力音声との二次照合をと
る第二次照合部とをそなえ、上記第一次照合部は、上記抽出される特徴量の
定常性を利用して単音節中の母音部分に対応した
標本点を抽出し、該標本点に対応した母音特徴量
と、あらかじめ単音節毎に登録されている母音基
準特徴量とを照合することにより、半母音を除く
母音部分が近似する候補を一次照合結果として選
定し、該一次照合結果に基づく認識対象候補単音
節を、上記第二次照合部へ送るよう構成され、上記第二次照合部における二次照合において半
母音を認識対象に含めるようにしたことを特徴と
する単音節音声認識方式。２上記第一次照合部は、上記一次照合結果につ
いて半母音に関する単音節を含めないものを認識
対象候補単音節とし、上記第二次照合部は、上記
第一次照合部が決定した認識対象候補単音節と半
母音とに対して上記未知入力音声との二次照合を
とるようにしたことを特徴とする特許請求の範囲
第１項記載の単音節音声認識方式。３上記第一次照合部は、上記一次照合結果に対
して無条件に半母音に関する単音節を追加したも
のを認識対象候補単音節とするようにしたことを
特徴とする特許請求の範囲第１項記載の単音節音
声認識方式。