JPH0558556B2

JPH0558556B2 -

Info

Publication number: JPH0558556B2
Application number: JP61237384A
Authority: JP
Inventors: Mitsuhiro Toya; Tooru Ueda
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-10-06
Filing date: 1986-10-06
Publication date: 1993-08-26
Also published as: JPS6391700A

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、日本語等の音声を音節単位に認識
して、外部装置に出力する音声認識装置に関す
る。

〈従来の技術〉バズバー部は有声破裂音の音節発声の前に先行
して声帯の振動によつて発声される音であり、非
常に低周波成分の強い音であり人間には殆ど聞こ
えない。したがつて、音声認識装置では上記バズ
バー部を除去する必要がある。

従来、音声認識装置では入力された音声を音韻
分類することによつてバズバー部を判定して、上
記バズバー部に相当する音節情報を除去してい
る。

〈発明が解決しようとする問題点〉ところが、上記従来の音声認識装置において
は、バズバーを強く生じる発声を行う人の場合に
は、音韻分類では正確にバズバー部か否かを判定
することができない。しかも、音節区間として切
出された特徴パターンは総て有意味な音節として
処理しているので、意図しない音節が切出されて
認識結果として出力することがしばしば発生し、
上記認識結果を入力する外部装置では入力に手間
取るという問題がある。

そこでこの発明の目的は、入力された音声の音
節区間をバズバー部であるか否かを正確に判別し
て、誤つて一音節として切出されたバズバー部を
確実に除去しうる音声認識装置を提供することに
ある。

〈問題点を解決するための手段〉上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間抽出部で
音節を切出し、この切出された音節の特徴パター
ンとメモリに予め記憶している複数種類の音節の
特徴標準パターンとの類似度計算をCPUで行つ
て、入力された音声を音節単位で認識する音声認
識装置において、上記音節区間抽出部で切出した
音節がバズバー部であるか否かを、上記音節区間
抽出部で切出された音節区間と直前の音節区間と
の間の無音時間長、切出された音節区間の長さ、
切出された音節区間の平均パワー、切出された音
節区間と後続する音節区間との間の無音時間長、
切出された音節区間の１次自己相関係数の平均
値、切出された音節区間の音素系列のいずれか一
つ又はそれらの複数の組み合わせに基づいて判別
し、バズバー部であると判別した場合にはバズバ
ー部を表す音節情報を除去する判別除去手段を有
することを特徴としている。

〈作用〉音節区間抽出部によつて、入力された音声から
種々の情報をもとにして音節が切出されると共
に、上記切出された音節区間のパターンから、音
節の特徴を表わす特徴情報が得られる。

そうすると、上記得られた特徴情報である切出
された音節区間と直前の音節区間との間の無音時
間長、切出された音節区間の長さ、切出された音
節区間の平均パワー、切出された音節区間と後続
する音節区間との間の無音時間長、切出された音
節区間の１次自己相関係数の平均値、切出された
音節区間の音素系列のいずれか一つ又はそれらの
複数の組み合わせに基づいて、上記切出された音
節がバズバー部であるか否かが判別除去手段によ
つて判別される。

その結果、バズバー部であると判別されたとき
はそのバズバー部を表わす音節情報は除去され、
また、バズバー部でないと判別されたときは、上
記音節の特徴パターンとメモリに予め記憶されて
いる複数種類の音節の特徴標準パターンとの類似
度計算が上記CPUで行なわれることによつて、
入力された音声が音節単位でバズバー部の影響を
受けることなく、正確に認識される。

〈実施例〉以下、この発明を図示の実施例により詳細に説
明する。

第１図において、１はアナログ入力部であり、
連続して入力された音声を増幅する増幅器
（AMP）１１とAMP１１の出力をデイジタル信
号に変換するＡ／Ｄ変換器１２とからなる。２は
音声分析部であり、デイジタル信号化された入力
音声を16ms程度のフレームに分けてスペクトル
分析を行い、8ms程度の間隔で音節区間抽出部３
に上記入力音声の特徴パターンと音節区間の切出
に必要な情報（例えばパワー、零交差数等）とを
転送する。上記音節区間抽出部３は上記音声分析
部２から転送される上記音節区間の切出に必要な
情報を基に、上記音声分析部２から転送される特
徴パターンから音節を切出して、この切出した音
節の特徴パターン（１音節分）を特徴パターンメ
モリ６１に格納する。さらに、上記CPU５とデ
ータを交換しながら、上記切出した音節から特徴
情報を切出して上記特徴パターンメモリ６１に格
納して、入力された音声の音節切出しが完了した
ことをCPU５に伝達する。

なお、上記特徴情報としては、切出した音節の
長さ、切出した音節と直前の音節との間の無音時
間長、切出した音節の平均パワー、切出した音節
の１次の自己相関係数の平均値、切出した音節と
後続する音節との間の無音時間長、切出した音節
の音素系列を用いる。

ここで、上記音声のパワー（PW）および１次
自己相関係数（C1）は次のようにして求められ
る。すなわち、入力された音声波形は上記Ａ／Ｄ
変換器１２でデイジタル値に変換される。このデ
イジタル値の時系列をＷ（ｉ）とするとPW，C1
は夫々、 PW＝_K 〓ⁱ⁼¹ Ｗ（ｉ）×Ｗ（ｉ） C1＝（_k=1 〓ⁱ⁼¹ Ｗ（ｉ）×Ｗ（ｉ＋１））／PW の式で求められる。ここでＫは１フレームを構成
するデータ数（16KHzサンプリングで１フレーム
を16msとすると256となる）である。

パターンメモリ６は、上記音節区間抽出部３に
よつて切出された音節の一個分の特徴パターン、
および上記音節の特徴情報が記憶されている前述
の特徴パターンメモリ６１と、複数の音節の特徴
標準パターンが記憶されている標準パターンメモ
リ６２とを有している。音素標準パターンメモリ
７は、上記標準パターンメモリ６２に記憶されて
いる上記特徴標準パターンを基にして得られる第
３図に示すような音素標準パターンが記憶されて
いる。単音節認識部９は、上記CPU５からの命
令により、上記パターンメモリ６内の特徴パター
ンメモリ６１に記憶されている上記特徴パターン
と、標準パターンメモリ６２に記憶されている上
記複数の特徴標準パターンとの間で類似度計算の
一例である距離計算を行うことによつて、入力さ
れた音声を認識する。そして、得られた認識結果
は上記CPU５に戻され、さらにインターフエー
ス（Ｉ／Ｆ）部１０を介して外部装置に送出され
る。

次に、第２図に示す１音節の認識処理のフロー
チヤートにより、上記音声認識装置の動作を説明
する。

ステツプS₁で、入力された音声の音節が、上記
音節区間抽出部３によつて切出されたか否かを判
断する。上記音節区間抽出部３で音節切出しが完
了していればステツプS₂に進み、完了していなけ
れば、ステツプS₁に戻る。

ステツプS₂で、切出した音節の長さ（上記パタ
ーンメモリ６内の特徴パターンメモリ６１に記憶
されている、切出された音節の特徴情報の一つ）
と設定値L1（20フレーム）とを比較する。これ
は、上記バズバー部は比較的短いことを利用して
おり、上記設定値L1以上であれば比較した音節
はバズバー部ではないと判断してステツプS₉に進
み、設定値L1よりも小さければステツプS₃に進
む。

ステツプS₃で、切出した音節と直前の音節との
間の無音時間長を設定値L2（10フレーム）と比較
する。これは、バズバー部を有する有声破裂音は
語頭で発生することが多いことを利用しており、
設定値L2以下の場合には上記音節はバズバー部
ではないと判断してステツプS₉に進み、設定値
L2より大きい場合にはステツプS₄に進む。

ステツプS₄で、切出した音節の平均パワー値と
設定値L3（4000×256）とを比較する。これはバ
ズバー部は母音ほど大きなパワーを持つていない
ことを利用しており、上記設定値L3以上の場合
には上記音節はバズバー部ではないと判断してス
テツプS₉に進み、設定値L3より小さい場合には
ステツプS₅に進む。

ステツプS₅で、上記切出した音節の１次の自己
相関係数C1の平均値と、設定値L4（0.95）とを比
較する。これはバズバー部は低周波成分が殆どで
ありC1は１に近い値を持つていることを利用し
ており、上記設定値L4以下の場合にはバズバー
部ではないと判断してステツプS₉に進み、設定値
L4より大きい場合にはステツプS₆に進む。

ステツプS₆で、切出した音節と後続の音節との
間の無音時間長を設定値L5（５フレーム）と比較
する。これは上記音節がバズバー部であれば、バ
ズバー部が終了すると直ちに有声破裂の有音音節
が開始することを利用しており、上記設定値L5
より大きい場合バズバー部ではないと判断してス
テツプS₉に進み、設定値L5以下の場合にはステ
ツプS₇に進む。

ステツプS₇で、切出された音節の音素系列を求
め、その系列の９割以上のフレームが“Ｎ”の音
素ラベルであるか否かを判定する。９割より小さ
い場合にはバズバー部ではないと判断してステツ
プS₉に進み、９割以上が音素ラベル‘N'であれ
ば上記音節はバズバー部であると判断してステツ
プS₈に進む。

ここで、上記音素系列は各フレームごとの音素
ラベルを求めることによつて得られ、上記音素ラ
ベルは上記音素標準パターンメモリ７に記憶され
ている第３図に示す音素標準パターンと、入力さ
れた音節の特徴パターンを基に得られる第３図に
示す入力音素パターンとの距離計算を各フレーム
ごとに行つて、距離が最小（すなわち、マツチン
グ距離）のときの音素ラベルをそのフレームの音
素ラベルとすることによつて得られる。すなわ
ち、まず、上記音素標準パターンと入力パターン
とのマツチング距離（DIS）を次式で求める。

DIS＝ min^j _L 〓ⁱ⁼¹ （CEPin（ｉ）−CEPref（ｊ）（ｉ））² ここで、ｉ：音素の次数、ｊ：音素の種類（ｊ＝１…Ｎ）、Ｎ：音素の種類の数（定数）、Ｌ：マツチング計算する次数、 CEPin：入力音素パターン（第３図参照）、 CEPref：音素標準パターン（第３図参照）。

また、第３図における音素標準パターン
（CEPref）のCEPref（ｊ）（Ｏ）には各音素を表
わすラベルが割当てられており、 “Ａ”，“Ｉ”，“Ｕ”，“Ｅ”，“Ｏ”は母音性音を
表
わすラベルであり、“Ｎ”は鼻音性音を表わすラ
ベルであり、“Ｓ”は摩擦性音およびノイズ性音
を表わすラベルである。したがつて、上記マツチ
ング距離（DIS）が得られたときのｊ（＝Ｊ）に
対応する音素ラベルPHが次式で求められる。

PH＝CEPref（Ｊ）（Ｏ）ここで、Ｊ：DISが得られたときのｊ。

第２図のステツプS₈で、上記音節区間抽出部２
で切出され、バズバー部であると判定された音節
をリジエクトし、１音節の認識処理は終了する。

ステツプS₉で、上記CPU５は上記単音節認識
部９に類似度計算を指示する。上記単音節認識部
９は上記パターンメモリ６内の特徴パターンメモ
リ６１に記憶されている、入力された音声から切
出されて上記ステツプS₁〜ステツプS₇でバズバー
部でないと判定された音節１個の特徴パターン
と、標準パターンメモリ６２に記憶されている複
数音節の特徴標準パターンとの間で類似度計算を
行い、上記入力された音声から切出された音節の
認識結果を得る。

ステツプS₁₀で、得られた上記音節単位の認識
結果を上記Ｉ／Ｆ部１０を介して図示しない外部
装置に送出し、１音節の認識処理は終了する。

第４図に上述の音節の認識処理によつてバズバ
ー部であると判定されてリジエクトされた音節
と、バズバー部ではないと判定されてリジエクト
されなかつた音節とを、上記特徴情報の数列と共
に示している。図中最上段より従来の分類法であ
る音韻分類、本実施例における音素系列、本実施
例におけるパワー曲線、本実施例における１次の
自己相関係数C1の曲線、本実施例におけるバズ
バー部の判定結果（×…バズバー部、○…有意味
な音節）を表わしている。第４図より有声破裂音
である「だ」を例に説明すると、「だ」の有音音
節部Ｂに先行して出される音節部Ａは第２図のフ
ローチヤートにしたがつて説明（第４図に示す以
外の特徴情報は省略）すると、ステツプS₄で１音
節区間の平均パワーが上記設定値L3より小さく、
ステツプS₅で１音節区間のC1の平均が上記設定
値L4よりも大きく、ステツプS₇で１音節区間の
音素系列の９割以上のフレームが音素ラベル
“Ｎ”であり、したがつてこの音節部Ａはバズバ
ー部と判定されリジエクトされる。一方、音節部
ＢはステツプS₄で１音節間の平均パワーは上記設
定値L3以上であり、したがつてバズバー部では
ないと判定されリジエクトされない。他の場合も
同様にして「と」はステツプS₄で、「あ」はステ
ツプS₄で、「ん」はステツプS₄で、「と」はステツ
プS₄で夫々バズバー部ではないと判定される。

特に、第４図に示されるようにバズバー部と
「ん」との特性は比較的類似しているが、この場
合は有声破裂音は語頭に多く「ん」は語頭にはこ
ない（すなわち、直前の音節との無音区間の長さ
がバズバー部は長く「ん」は短い）点を利用して
ステツプS₃で判定することができる。

本実施例においては上記特徴情報全てを用いて
バズバー部を判別しているが、上記特徴情報のい
ずれかの組合せで判別するようにしてもよい。

〈発明の効果〉以上より明らかなように、この発明の音声認識
装置は，入力された音声から音節区間抽出部で切
出した音節がバズバー部であるか否かを、上記音
節区間抽出部で切出した音節の切出された音節区
間と直前の音節区間との間の無音時間長、切出さ
れた音節区間の長さ、切出された音節区間の平均
パワー、切出された音節区間と後続する音節区間
との間の無音時間長、切出された音節区間の１次
自己相関係数の平均値、切出された音節区間の音
素系列のいずれか一つ又はそれらの複数の組み合
わせに基づいて判別し、上記音節がバズバー部で
あると判別したときに、バズバー部を表わす音節
情報を除去する判別除去手段を設けたので、バズ
バー部を強く生じる発声を行う人の場合であつて
も正確にバズバー部を判別除去することができ
る。

したがつて、有意味な音節のみを切出すること
ができるので、認識性能が向上すると共に、認識
結果が入力される外部装置における入力の操作性
が向上する。

【図面の簡単な説明】

第１図はこの発明の音声認識装置のブロツク
図、第２図はこの発明の音声認識装置における１
音節の認識処理フローチヤート、第３図は音素パ
ターンの１例を示す図、第４図はこの発明の音声
認識装置によるバズバー部判定結果の１例を示す
説明図である。１……アナログ入力部、２……音声分析部、３
……音節区間抽出部、５……CPU、６……パタ
ーンメモリ、７……音素標準パターンメモリ、９
……単音節認識部。

Claims

【特許請求の範囲】１入力された音声から音節区間抽出部で音節を
切出し、この切出された音節の特徴パターンとメ
モリに予め記憶している複数種類の音節の特徴標
準パターンとの類似度計算をCPUで行つて、入
力された音声を音節単位で認識する音声認識装置
において、上記音節区間抽出部で切出した音節が、バズバ
ー部であるか否かを、上記音節区間抽出部で切出
された音節区間と直前の音節区間との間の無音時
間長、切出された音節区間の長さ、切出された音
節区間の平均パワー、切出された音節区間と後続
する音節区間との間の無音時間長、切出された音
節区間の１次自己相関係数の平均値、切出された
音節区間の音素系列のいずれか一つ又はそれらの
複数の組み合わせに基づいて判別し、バズバー部
であると判別した場合にはバズバー部を表す音節
情報を除去する判別除去手段を有することを特徴
とする音声認識装置。