JPH0458638B2

JPH0458638B2 -

Info

Publication number: JPH0458638B2
Application number: JP22120686A
Authority: JP
Inventors: Mitsuhiro Toya; Hiroyuki Iwahashi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-09-18
Filing date: 1986-09-18
Publication date: 1992-09-18
Also published as: JPS6375800A

Description

【発明の詳細な説明】＜産業上の利用分野＞この発明は、日本語等の音声を音節単位に認識
して、外部装置に出力する音声認識装置に関す
る。

＜従来の技術＞従来、音声認識装置では入力された音声を音韻
分類することによつて音節区間の判定を行い、そ
の判定結果に基づいて上記音節を切出し、上記切
出された音節単位で認識を行つている。

＜発明が解決しようとする問題点＞ところが、上記従来の音声認識装置において
は、撥音（「ん」）は音声スペクトルの継続時間が
比較的長く、またパワーも小さいために、第３図
に示すように、１つの撥音音節区間であるにもか
かわらず、その音節区間内にバズバーと判定され
るフレーム（第３図中Ａで示した音韻分類ラベル
Ｂのフレーム）が生じ、上記バズバーと判定され
たフレームを境界にして前後２つの音節として分
類して切出されるという問題がある。

ここで、上記バスバーは有声破裂音の音節発声
の前に先行して声帯の振動によつて発声される音
であり、非常に低周波成分の強い音であるため、
人間には殆ど聞こえない。また上記フレームは、
入力された音声の音声スペクトルを分析するため
に、上記音声スペクトルを16ms程度に分けたそ
の１区間である。

そこで、この発明の目的は、１つの音節の撥音
であるにもかかわらず、その撥音を誤つて２つの
音節として分離して認識することのない音声認識
装置を提供することにある。

＜問題点を解決するための手段＞上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間を切出
し、この切出された音節の特徴パターンと、メモ
リに予め記憶している複数種類の音節の特徴基準
パターンとの類似度計算を行つて、入力された音
声を音節単位で認識する音声認識装置において、
上記切出された音節の認識結果が撥音か否かを判
別する撥音判別部と、上記切出された音節の特徴
を表わす特徴情報を抽出する特徴抽出部と、上記
撥音判別部によつて上記切出された音節が撥音と
認識された場合、上記特徴抽出部によつて抽出さ
れた特徴情報と所定の値とを比較した結果と、予
め記憶されている上記切出された音節の直前の音
節が撥音か否かを表わす識別結果とに基づいて、
上記撥音が１音節であるにもかかわらず、誤つて
２音節として分離して認識された撥音か否かを判
断する判断部と、上記判断部の判断結果に基づい
て、２音節の撥音と誤認された２音節の一方を棄
却する撥音棄却部とを設けたことを特徴としてい
る。

＜作用＞入力された音声から切出された音節は音節単位
で認識され、撥音判別部において上記認識結果が
撥音であるか否かが判別される。

その結果、撥音であると判別されると、特徴抽
出部によつて抽出された特徴情報と所定の値とを
比較した結果と、予め記憶されている上記切出さ
れた音節の直前の音節が撥音か否かを表わす識別
結果とに基づいて、判断部によつて、上記撥音が
１音節であるにもかかわらず誤つて２音節として
分離して認識された撥音か否かが判断される。

そして、上記判断部の判断結果に基づいて、２
音節の撥音と誤認された２音節の一方が、撥音棄
却部によつて棄却されることによつて、誤つて２
音節に分離した撥音として認識されることなく、
正確に１音節の撥音として認識される。

＜実施例＞以下、この発明の図示の実施例により詳細に説
明する。

第１図において、１はアナログ入力部であり、
連続して入力された音声を増幅する増幅器
（AMP）１１とAMP１１の出力をデイジタル信
号に変換するＡ／Ｄ変換器１２とからなる。２は
音声分析部であり、デイジタル信号化された入力
音声を16ms程度のフレームに分けてスペクトル
分析を行い、8ms程度の間隔で音節区間抽出部３
に上記入力音声の特徴パターンと音節区間の切出
しに必要な情報（例えばパワー、零交差数等）と
を転送する。上記音節区間抽出部３は、上記音声
分析部２から転送される上記音節区間の切出に必
要な情報を基に、上記音声分析部２から転送され
る特徴パターンから音節を切出して、この切出し
た音節の特徴パターン（１音節分）をCCPU５を
介して特徴パターンメモリ６１に格納すると共
に、さらに、特徴抽出部を含み、上記CPU５と
データを交換しながら、上記切出した音節から特
徴情報を抽出して上記特徴パターンメモリ６１に
格納して、入力された音声の音節切出しが完了し
たことをCPU５に伝達する。なお、上記特徴情
報としては、切出した音節の長さ、切出した音節
と直前の音節との間の無音時間長、切出した音節
と直前の音節との境界における音声スペクトルの
変化量を用いる。

パターンメモリ６は、上記音節区間抽出部３に
よつて切出された音節の一個分の特徴パターン、
および上記音節の特徴情報が記憶されている前述
の特徴パターンメモリ６１と、複数の音節の特徴
標準パターンが記憶されている標準パターンメモ
リ６２とを有している。温音節認識部９は、上記
CPU５からの命令により、上記パターンメモリ
６内の特徴パターンメモリ６１に記憶されている
上記特徴パターンと、標準パターンメモリ６２に
記憶されている上記複数の特徴標準パターンとの
間で類似度計算の一例である距離計算を行うこと
によつて、入力された音声を認識する。そして、
得られた認識結果は上記CPU５に戻され、さら
にインターフエース（Ｉ／Ｆ）部１０を介して外
部装置に送出される。それと共に、認識結果格納
メモリ１１に記憶される。

次に、第２図に示す１音節の認識処理のフロー
チヤートにより、上記音声認識装置の動作を説明
する。

ステツプS₁で、入力された音声の音節が、上記
音節区間抽出部３によつて切出されたか否かを判
断する。上記音節区間抽出部３で音節切出しが完
了していればステツプS₂に進み、完了していなけ
れば、ステツプS₁に戻る。

ステツプS₂で、上記CPU５は上記単音節認識
部９に類似度計算を指示する。上記単音節認識部
９は上記パターンメモリ６内の特徴パターンメモ
リ６１に記憶されている、入力された音声から切
出された音節（以下、現音節と言う）１個の特徴
パターンと、標準パターンメモリ６２に記憶され
ている複数音節の特徴標準パターンとの間で類似
度計算を行い、上記現音節の認識結果を得る。

ステツプS₃で、上記現音節の認識が終了したか
否かを判別する。その結果終了していればステツ
プS₄に進み、終了していなければステツプS₃へ戻
る。

ステツプS₄で、上記ステツプS₂で認識した上記
現音節の音声認識結果が、撥音であるか否かを判
別する。この結果撥音でなければステツプS₁₀に
進み、撥音であればステツプS₅に進む。

ステツプS₅で、上記現音節の長さ（上記パター
ンメモリ６内の特徴パターンメモリ６１に記憶さ
れている、切出された音節の特徴情報の一つ）と
設定値Ｌ１とを比較する。上記設定地Ｌ１よりも
大きければ比較した現音節は独立した音節である
と見なしステツプS₁₀に進み、設定値Ｌ１以下で
あればステツプS₆に進む。

ステツプS₆で上記現音節と直前の音節との間の
無音時間長（もしくはバズバーと判定された時間
長）を設定値Ｌ２と比較する。その結果上記設定
値Ｌ２以上であれば比較した現音節は独立した音
節であると見なしステツプS₁₀に進み、設定値よ
り小さければステツプS₇に進む。

ステツプS₇で、上記現音節と直前の音節との境
界における音声スペクトルの変化量を設定値Ｖと
比較する。これは１音節の撥音が分離して認識さ
れるのは、第３図のように撥音音節部の音声スペ
クトルのパワー変動によつて一部のフレームがバ
ズバーとしてチエツクされることが主であり、上
記音声スペクトルの変化を伴うことはないことを
利用しており、上記設定値Ｖより大であれば比較
された現音節は独立した音節であると見なしてス
テツプS₁₀に進み、設定値Ｖ以下であればステツ
プS₈に進む。

ステツプS₈で、上記認識結果格納メモリ１１に
記憶されている、上記ステツプS₇で比較された上
記現音節の直前の音節の音声認識結果が撥音であ
るか否かを判別する。その結果撥音でなければ現
音節は独立した音節であると見なしステツプS₁₀
に進み、撥音であれば現音節は直前の撥音音節と
共に本来は１音節として認識されるべきものが２
音節として認識されたうちの一方であると判断し
て、ステツプS₉に進む。

ステツプS₉で２音節として誤認されたうちの現
音節をリジエクトし、１音節の認識処理は終了す
る。

ステツプS₁₀で、上記ステツプS₂で認識された
上記現音節の音節認識結果を上記認識結果格納メ
モリ１１に記憶すると共に、上記Ｉ／Ｆ部１０を
介して図示しない外部装置に送出し、１音節の認
識処理は終了する。ここで、上記ステツプS₄は撥
音判別部を構成し、上記ステツプS₅〜ステツプS₈
は判断部を構成することになる。

したがつて、上述の手順により、１音節である
にもかかわらず誤つて分離して認識された撥音に
対して、１つの認識結果のみを出力することがで
きる。

＜発明の効果＞以上より明らかなように、この発明の音声認識
装置は、現音節の認識結果が撥音か否かを判別す
る撥音判別部と、上記現音節の特徴を表わす特徴
情報を抽出する特徴抽出部と、上記撥音判別部に
よつて現音節が撥音と判別されたとき、上記特徴
抽出部によつて抽出された特徴情報と所定の値と
を比較した結果と、予め記憶されている上記現音
節の直前の音節の識別結果とを用いて、上記撥音
が１音節であるにもかかわらず２音節と誤認され
た撥音のうちの一方か否かを判断する判断部と、
上記判断部の判断結果に基づいて、２音節の撥音
と誤認された２音節の一方を棄却する撥音棄却部
とを設けたので、１音節であるにもかかわらず２
音節の撥音と誤認することがなく、撥音に対する
認識性能が向上する。

【図面の簡単な説明】

第１図はこの発明の音声認識装置のブロツク
図、第２図はこの発明の音声認識装置における１
音節の認識処理フローチヤート、第３図は誤つて
分離して認識された撥音の一例を示す図。１……アナログ入力部、２……音声分析部、３
……音節区間抽出部、５……CPU、６……パタ
ーンメモリ、９……単音節認識部、１１……認識
結果格納メモリ。

Claims

【特許請求の範囲】１入力された音声から音節区間を切出し、この
切出された音節の特徴パターンと、メモリに予め
記憶している複数種類の音節の特徴標準パターン
との類似度計算を行つて、入力された音声を音節
単位で認識する音声認識装置において、上記切出された音節の認識結果が撥音か否かを
判別する撥音判別部と、上記切出された音節の特徴を表わす特徴情報を
抽出する特徴抽出部と、上記撥音判別部によつて上記切出された音節が
撥音と認識された場合、上記特徴抽出部によつて
抽出された特徴情報と所定の値とを比較した結果
と、予め記憶されている上記切出された音節の直
前の音節が撥音か否かを表わす識別結果とに基づ
いて、上記撥音が１音節であるにもかかわらず誤
つて２音節として分離して認識された撥音か否か
を判断する判断部と、上記判断部の判断結果に基づいて、２音節の撥
音と誤認された２音節の一方を棄却する撥音棄却
部とを設けたことを特徴とする音声認識装置。２上記判断部が判断するための音節の特徴情報
として、上記切出された音節の長さ、上記切出さ
れた音節と直前の音節との間の無音時間長、上記
切出された音節と直前の音節との境界における音
声スペクトルの変化量のいずれかまたはそれらの
複数の組合せを用いる特許請求の範囲第１項記載
の音声認識装置。