JPS5852693A

JPS5852693A - 単音節音声認識方式

Info

Publication number: JPS5852693A
Application number: JP56150369A
Authority: JP
Inventors: 佐藤　泰雄; 大山　隆之; 杉田　忠靖; 白鳥　英一
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-09-22
Filing date: 1981-09-22
Publication date: 1983-03-28
Also published as: JPH0115078B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は、単音節音声認識方式、特に音声信号の周波数
分析結果にもとづいて特徴音を抽出して認識処理を行な
う音声認識方式において、入力音声の特徴蓋の定常性を
利用して抽出された標本点に対応した母音特徴量によっ
て認識対象候補単音節を選び出し、未知入力音声との二
次照合をとるにあたって半母音を認識対象に含めること
によって、認識率全向上させるようにした単音節音声認
識方式に関するものである。

音声認識方式においては、音声信号の周波数分析結果を
利用して各音素の特徴を有効に表わしているパラメータ
を抽出し、該抽出されたパラメータと登録単語（単音節
を含む）に対応した予め登録されている音素のパラメー
タと照合して未知入力音声の認識を行なうようにされる
。即ち上記パラメータとして例えば第１ホルマント周波
数および第２ホルマント周波数などをサンプリングして
、このパラメータを使用するようにされる。しかし、上
記照合にあたってサンプリング点を犬にとり、より精密
な照合を行なおうとすると、上記照合処理に要する時間
が犬となる。

このため、上記パラメータが時間的に急変する区間とな
だらかに変化する区間とが存在することに着目し、前者
区間において密にサンプリングし、後者区間において粗
にサンプリングすることによって、即ち不均一なサンプ
リング点でサンプリングすることによって、より少ない
標本数のもとて認識率を高める方式が考慮されている（
特願昭５２−４３９７２号）。

この方式に対し、上記パラメータが時間的になだらかに
変化する点即ち定常性をもつ点がいわば母音に対応する
音節に対応していることを利用し、予め認識対象候補を
しぼった上で、より詳細な照合処理を行なうようにして
処理速度を向上させるようにした方式が提案されている
（特願昭５３−５３９６７号）。

しかし、後者の方式を採用した場合、多くの実験・試行
を繰返１〜で考察した結果、「ヤ」、「ユ」、「ヨ」、
「ワ」などの半母音については、母音基準特徴量の抽出
誤シが生じやすいことが判明した。第１図は半母音につ
いての特徴音の特性を説明するだめの説明図を示す。図
中、Ｆｌは第１ホルマント周波数についての特徴音、Ｆ
２は第２ホルマント周波数についての特徴音を表わす。

例えば、半母音「ヤ」について、これを長く伸ばして発
音した場合にば、第１図図示の如く、通常の母音と同様
特徴量の定常部が表われ問題とならないが、短く発音し
た場合、定常部が表われる以前に音声が打切られること
となり、例えば第１図図示の１Ａ時点とｔＢ時点とでは
特徴音が異なるので、抽出すべき特徴音が一定せず、そ
のため認識誤シを生じさせることがある。換言すれば、
半母音には明確な母音定常部がない場合があシ、安定し
た母音基準特徴量の抽出が困難であるという問題が存す
る。

本発明はこの点を解決し、上記後者の方式を改良発展さ
せて、音声認識率を向上させることを目的としている。

そのため、本発明の単音節音声認識方式は、音声信号の
周波数分析結果を利用して当該音声信号の特徴量全抽出
し該特徴音に対応して未知入力音声の認Ｒを行なう単音
節音声認識方式において、認識対象候補単音節を決定す
る第−次照合部と、該第−次照合部が決定した上記認識
対象候補単音節に対して上記未知入力音声との二次照合
をとる第二次照合部と全そなえ、上記第−次照合部は上
記抽出される特徴音の定常性を利用して単音節中の母音
部分に対応した標本点を抽出し、該標本点に対応した母
音特徴量をもってあらかじめ単音節毎に登録されている
母音基準特徴量と照合するよう構成され、上記第−次照
合部における一次照合においては照合対象から半母音を
除き、上記第二次照合部における二次照合において半母
音を認識対象に含めるようにしたことを特徴としている
。以下図面を参照しつつ説明する。

第２図は本発明の一実施例構成を示す。図中、１は抽出
された特徴音、２は帯域フィルタ群であって入力音声ｔ
Ｎチャンネル例えば１５チヤンネルの周波数信号Ｐｉ（
ｔ）１．　Ｆ２（’）　＋・・・・・・＋　ＰＮ（’）
に分解するもの、３はパラメータ抽出回路であって入力
音声即ち単音節音声の特徴音（パラメータ）例えば第１
ホルマント周波数に相当するモーメン）　Ｍｌや第２ホ
ルマント周波数に相当するモーメントＭ２や更には低域
電力や高域電力などを抽出するもの、４はサンプリング
時刻決定回路であって図示特徴量１に関連して示される
如き不均一サンプリング点Ｔｏ　＋　’ｒｉ　＋・・・
を決定するものを表わす。また５は不均一サンプリング
回路であって上記特徴量１に示すサンプリング点Ｔｏｌ
Ｔ１＋・・・、Ｔａ、・・・に対応して特徴量をサンプ
リングして時系列情報を得るもの、６は一次照合を行な
う第−次照合部、７は母音定常部抽出回路であって上記
特徴量１に示すタイミングＴαに対応した標本点とそれ
に対応した母音特徴量を抽出するもの、８および９は夫
々切換回路であって登録音声に対応した情報を登録する
登録モードと未知入力音声を認識する認識モードと全切
換えるもの、１０は母音定常部パラメータ登録部であっ
て半母音を除く各登録単音節に対応した母音基準特徴量
を格納するもの、１１は母音定常部照合・候補選定部で
あって認識モード時に上述の母音特徴量にもとづいて認
識対象候補単音節を選定するものを表わす。更に１２は
二次照合を行なう第二次照合部、１３はパラメータ時系
列登録部であって各登録単音節毎に上述のサンプリング
点ＴＯＩＴＩＩ・・・、Ｔａ・・・に対応した特徴量を
時系列に格納するもの、１４は候補選択回路であって上
述の候補選定部１１によって選ばれた候補単音節（複数
個）に対応している基準特徴量（パラメータ）時系列情
報を以下のパラメータ時系列照合判定部１７に導くもの
、１５は半母音パラメータ登録部であって半母音に関す
る単音節毎に各サンプリング点に対応した特徴量を時系
列に格納しているもの、１６は半母音選択回路であって
半母音に関するパラメータ時系列情報を次のパラメータ
時系列照合判定部１７に導くもの、１７はパラメータ時
系列照合判定部であって認識モード時に未知入力音声の
特徴量（パラメータ）時系列情報と上記候補単音節また
は半母音のそれとの照合をとるもの、１８は出力回路で
あって認識されたカテゴリ名を出力するものを表わす。

パラメータ抽出回Ｎ３は、公知の如く、一定周期のクロ
ック令パルスが発生する毎に（）°＝１．２）　　　　　　　　　　　　　　　　（
１）に示す演算に対応して第１ホルマント周波数および
第２ホルマント周波数などに対応した特徴量を計算し、
その結果を図示しないレジスタに記憶する。なお、上記
第（１）式において、ＰＬ（ｔル）は例えばｌＱｍｓｅ
ｃ毎の時点ｔｎにおいてサンプリングされた第を番目の
フィルタの出力、Ｗりはその荷重、Ｆｔはその中心周波
数を表わしている。そして上記荷重Ｗｉｊは上記ｉ　Ｍ
、　、　Ｍ２が第１および第２ホルマント周波数に一致
するよう実験的に決定されるものと考えてよい。

ザンブリング時刻決定回路４は、で定義される累積変動量ＡＶ（ｔｒＬ）の演算を、上記
第（１）式に示す特＊量Ｍ１．Ｍ２　’ｆ７演算する周
期で実行してゆき、上記不均一サンプリング点ｔｎｋを
決定する。即ち、上記累積変動ｆｔＡＶＩｔｔＬ）が予
め定められた閾値を超えたか否かを監視し、該閾値を超
えた時点ｉｎｋを第に番目の不均一サンプリング点とし
て決定する。

匁お上記第（２）式において、Ｖ　（ｔル）はフィルタ
の出力変動量であ）、次式で定義される。

（３）上記によって、累積変動量ＡＶ（ｆ！Ｗ）は成る不均一
サンプリング点が発生した以後においてパラメータの変
化を累積していったものであることが判る。そして該累
積変動量ＡＶ（ｔ１′Ｌ）が成る閾値を超えると次の不
均一なサンプリング点が決定されその時点で先の累積変
動量ＡＶ（ｔｒＬ）はリセットされることが判る。この
結果上記不均一サンプリング点Ｔｏ　、Ｔｘ　＋・・・
、Ｔａ、・・・はパラメータの変化が急激である区間で
密に現われ、変化が定常的である区間で粗に現われるこ
とが判る。

不均一サンプリング回路５は、上記不均一サンプリング
点毎に上記抽出された特徴量Ｍ１．Ｍ２をサンプリング
して、登録モード時には第１図図示のパラメータ時系列
登録部１３に格納し、また認識モード時にはパラメータ
時系列照合判定部１７に入力する。

母音定常部抽出回路部７は、（ｉ）不均一サンプリング
点Ｔｏ　、’ｒｌ　＋・・・が決定されてゆく間におけ
る上記累積回数全カウントしてゆき、（ｉｉ）該カウン
ト値を重みＷとしたとき該重みＷの最大の不均一サンプ
リング点（特徴Ｉ：１の場合、サンプリング点Ｔ。

）を決定する。即ち標本点を決定する。そして当該標本
点に対応して得られた母音特徴量を、登録モード時には
母音定常部パラメータ登録部１０に、また認識モード時
には母音定常部照合・候補選定部】１に供給する。

）・　未知入力音声である単音節音Ｐを認識する認識モ
ードにおいては、次のように処理される。なおこの時に
」夕いては、例えば半母音全除く登録単音節に対応した
特徴を時系列情報が第２図図示の登録部１３に格納され
ており、また半母音を除く登録・単音節に対応した母音
詩歌１【が第２図図示の登録部１０に格納されている。

そして半母音に関する単音節に対応した特徴門時系列情
報は、第２図図示の半母音パラメータ登録部１５に格納
されている。

（１）入力された未知入力音声に対応して、帯域フィル
タ群２、パラメータ抽出回路３、ザンブリング時刻決定
回路４、不均一サンプリング回路部５を介して、上述の
如く、不均一サンプリング点Ｔｏ　＋Ｔ１１・・・に対
応した特徴量がパラメータ時系列照合判定部１７に供給
される。

（２）一方、母音定常部抽出回路部７によって、上述の
如く、抽出された標本点Ｔαに対応した母音特徴量が母
音定常部照合・候補選定部１１に供給される。

（３）　　このとき、図示省略した制御部の制御のもと
に、登録単音節に対応した母音基準特徴量が図示登録部
１０から、各登録単音節毎に図示照合・候補選定部１１
に順次読出される。

（４）該照合・候補選定部１１は、上記読出された母音
基準特徴量と上記母音定常部抽出回路部７から供給され
た母音特徴量とを順次照合してゆく。そして照合がとれ
た複数の単音節を候補単音節として選定し、候補選択回
路１４に通知する。

（５）次いで、上記選択された候補単音節に１−ぼられ
た上での詳細な即ち２次照合処理に入ってゆく。即ち、
図示省略した制御部はパラメータ時系列登録部１３に対
して続出しをかける。該読出しによって登録部１３から
各登録単音節毎に時系列情報が出力されてくるが、この
とき候補選択回路部１４は上記処理（４）において選択
された候補単音節に対応する基準時系列情報のみを選別
した上でパラメータ時系列照合判定部］７に伝送する。

（６）続いて制御部（図示省略）は、半母音パラメータ
登録部１５に対して読出しをかけるように制御し、該読
出１−によって出力された半母音に関する単音節に対応
する基準時系列情報を、牛Ｉｔｌ音選択回路］６を介し
てパラメータ時系列照合判定部１７に伝送する。

（７）判定部１７では、先に不均一サンプリング回路部
５から未知入力音声に対応した特？Ｉ！１．量時系列情
報が人力されている。そして該情報と上記処理（５）お
よび（６）において伝送された上記基準時系列情報との
照合をとる。該照合処理に当っては、例えば公知のダイ
ナミック・プログラミングを用いた処理をとるようにさ
れる。

（８）そして、もつともよく照合のとれた登録単音節を
もって上記未知入力音声が当該登録単音節１に属するも
のとされて、出力回路１８に認識結果としてセットされ
る。

上記の如く処理すれば、半母音単音節については第二次
亜合部１２において常に詳細な照合処理が行なわれるこ
ととなり、半母音が明確な母音定常部を持たないことに
よる認Ｒ誤シを防止することができる。

第３図は本発明の他の一実施例構成を示す。図中、符号
２ないし１２．１４．１７．１８は第２図に対応し、１
９は半母音候補設定部であって第−火照合部６における
照合結果に無関係に半母音に関する単音節を強制的に認
識対象候補とするもの、また１３′は半母音に関する単
音節を含む登録単音節毎にその特徴ｆｉｔを時系列に格
納したパラメータ時系列登録部を表わす。

第３図図示の実施例においては、第２図図示の実施例の
場合と異なり、第二次照合部」２において通常の母音を
含む単音節と半母音に関する単音節との基準時系列情報
が区別されることなく、パラメータ時系列登録部１３′
に登録され格納され不。

第−次亜合部６において、第２図を用いて説明した実施
例の場合と同様、認識モード時には、母音定常部照合・
候補選定部１１は、母音定常部パラメータ登録部１０か
ら順次読出されノこ半母音を除く登録単音節に対応した
母音基準特徴量と、母音定常部抽出回路７から供給され
た母音性微量とを順次照合１７、照合がとれた複数の畦
音節を候補単音節として選定する。そして、本実施例に
おいては上記選定結果′ｆ、第二次照次亜１２に通知す
る前に、半母音候補設定部１９に通知する。半母音候補
設定部１９は、上記母音定常部照合・候補選定部１１に
よって選定された候補η１音節ＩＣ１”ｔｊ？だに無条
件に「ヤ」、「ユ」、「ヨ」、「ワ」なとの半母音に関
する単音節を追加して、全体を認識対象候補として第二
次照合部１２の候補選択回路１４に通知する。このよう
にすわば、候補選択回路１４は通常の母音を含む単音節
と半母音に関する単音節とを意識して区別することなく
、シかも半母音単音節に関しては必ず詳細な照合処理を
行ｉうよう選択することとなる。

、１以上説明した如く、本発明によれば、明確な母音定
常部が存在しないことのある半母音については、必ず詳
細な二次照合の対象とされることになるので、音声認識
率を一段と向上させることが可能となるＣ

【図面の簡単な説明】

第１図は半母音についての特徴値の特性全説明するため
の説明図、第２図は本発明の一実施例構成、第３図は本
発明の他の一実施例構成を表わす。図中、１は抽出さバた特徴量、６は第−次亜合部、７は
母音定常部抽出回路、１０は母音定常部パラメータ登録
部、１１は母音定常部照合中候補選定部、１２は第二次
照合部、１３はパラメータ時系列登録部、】４は候補選
択回路、１５は半母音パラメータ登録部、１６は半母音
選択回路、１７はパラメータ時系列照合判定部、１９は
半母音候補設定部を表わす。特許出願人富士通株式会社代理人　弁理士森Ｈ」　寛才１巳Ｂ１Ａ１

Claims

【特許請求の範囲】（１）音声信号の周波数分析結果を利用して当該音声信
号の特徴音を抽出し該特徴音に対応して未知入力音声の
認識を行なう単音節音声認識方式において、認識対象候
補単音節を決定する第−次照合部と、該第−次照合部が
決定１７た上記認識対象候補単音節に対して上記未知入
力音声との二次照合をとる第二次照合部とをそなえ、上
記第−次照合部は上記抽出される特徴１：の定常性を利
用して単音節中の母音部分に対応した標本点を抽出し、
該標本点に対応した母音特徴量をもってあらかじめ単音
節毎に登録されている母音基準特徴量と照合するよう構
成され、上記第−次照合部における一次照合においては
照合対象から半母音を除き、上記第二次照合部における
二次照合において半母音を認識対象に含めるようにした
ことを特徴とする単音節音声認識方式。（２）上記第二次照合部は上記第−次照合部が決定した
認識対象候補単音節と半母音とに対して上記未知入力音
声との二次照合をとるようにしたことを特徴とする特許
請求の範囲第（１）項記載の単音節音声認識方式。（８）上記第−次照合部は上記−次照合の照合結果いか
んにかかわらず半母音を上記認識対象候補単音節に含め
るようにしたことを特徴とする特許請求の範囲第（り項
記載の単音節音声認識方式。