JPH0564800B2

JPH0564800B2 -

Info

Publication number: JPH0564800B2
Application number: JP61216180A
Authority: JP
Inventors: Tooru Ueda; Hiroyuki Iwahashi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-09-13
Filing date: 1986-09-13
Publication date: 1993-09-16
Also published as: JPS6370899A

Description

【発明の詳細な説明】＜産業上の利用分野＞この発明は、日本語等の入力された音声を音節
単位で認識して、外部装置に出力する音声認識装
置に関する。

＜従来の技術＞従来の音声認識装置においては、入力された音
声からその認識単位である音節の音節区間を抽出
するために、一定区間の音声スペクトル（以下、
単にスペクトルと言う）の変化を用いて上記音節
の境界を検出するようにしている。

＜発明が解決しようとする問題点＞しかしながら、上記従来の音声認識装置では、
入力される音声のスペクトルの変化には急激に変
化する音声と穏やかに変化する音声とが混在して
おり、その両者に追従して音節の境界を正確に検
出することは困難であり、しばしば音声の誤認が
発生するという問題がある。

そこで、この発明の目的は、上記スペクトルか
らの情報を用いて、上記スペクトルの変化の穏急
にかかわらず、正確に音節境界を検出することが
できる音節認識装置を提供することにある。

＜問題点を解決するための手段＞上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間を抽出
し、この抽出された音節の特徴パターンとメモリ
に予め記憶している特徴標準パターンとの類似度
計算を行つて、入力された音声を音節単位で認識
する音声認識装置において、抽出された音節区間
に続く入力音声におけるスペクトル情報の変化か
ら、上記スペクトル情報の安定点を抽出する安定
点抽出部と、上記抽出された安定点におけるスペ
クトル情報と上記安定点以後のスペクトル情報と
の類似度計算を順次行い、上記算出された類似度
を値の所定の値と比較して次に抽出すべき音節区
間の音節の境界を検出する音節境界検出部とを設
けたことを特徴としている。

＜作用＞音声が入力されると、安定点抽出部により、抽
出された音節区間に続く入力音声におけるスペク
トル情報の変化を用いて、上記スペクトル情報上
の安定点が抽出される。さらに、音節境界検出部
によつて、上記抽出された抽出された安定点にお
けるスペクトル情報と上記安定点以後のスペクト
ル情報との類似度計算が順次行われ、得られた類
似度の値を所定の値と比較することによつて、次
に抽出すべき音節区間の音声境界が検出され、こ
の検出された音節境界にしたがつて音節区間が抽
出される。したがつて、上記スペクトル情報の変
化の穏急にかかわらず、正確に有意味な音節区間
を抽出することができる。

＜実施例＞以下、この発明を図示の実施例により詳細に説
明する。

第１図において、１は音声を入力するマイク、
２は上記マイク１より入力された音声の音声帯域
のみを増幅する増幅器、３は増幅器２の出力が入
力される特徴抽出部である。

上記特徴抽出部３は、上記増幅器２で増幅され
た音声を８ｍｓの間隔ごとに16ｍｓの区間（以下
フレームと呼ぶ）の特徴パラメータを抽出する。
上記特徴パラメータとは、マツチング部７によつ
て行われる最終的な音声認識のための類似度計算
に用いられる１音節の特徴パターン（例えば16チ
ヤンネルの帯域フイルタからの出力等）と、音韻
分類部４で音韻分類のために使用されるパラメー
タ（例えばパワー、１次の自己相関係数等）であ
る。上記音韻分類部４は上記特徴パラメータを用
いて、上記音声の１フレームにそのフレームの音
声の性質を表わすラベル付けを行う。境界検出部
５は後に詳述する方法によつて上記スペクトル上
の安定点を抽出し、上記安定点を基にして音節の
境界を検出する。

音節区間抽出部６は上記音韻分類部４によつて
得られたラベルの時系列と、上記境界検出部５に
よつて得られた音節境界の情報とを用いて、入力
された音声から音節区間を抽出する。さらに、上
記マツチング部７は上記音節区間抽出部６で抽出
された１つの音節区間における上記特徴抽出部３
で抽出された特徴パターンと、特許標準パターン
メモリ８に予め記憶されている特徴標準パターン
との類似度計算の一例であるユークリツド距離計
算を行つて音声の認識を行う。CPU９は、上記
特徴抽出部３、境界検出部５、音節区間抽出部６
およびマツチング部７を制御すると共に、上記マ
ツチング部７出られる認識結果を、図示しない外
部装置に出力するインターフエース１０を制御し
ている。

上記構成の音声認識装置は次のように動作す
る。

入力者が上記マイク１に向つて音声を発声する
と、その音声は上記マイク１から入り上記増幅器
２で音声帯域だけが増幅されて上記特徴抽出部３
に送られ、上記特徴抽出部３では８ｍｓの間隔ご
とに16ｍｓのフレームに区切つて、そのフレーム
の特徴パラメータが抽出される。上記特徴パタメ
ータは上記マツチング部７によつて行なわれる最
終的な音声認識のための類似度計算に用いられる
１音節の特徴パターン（例えば16チヤンネルの帯
域フイルタからの出力等）と、音韻分類部４で音
韻分類のために使用されるパラメータ（例えばパ
ワー、１次の自己相関係数等）とである。上記音
韻分類部４では上記特徴抽出部３で求められた特
徴パラメータによつてフレームの音声の性質を表
わすラベル付けが行なわれる。ここで本実施例で
用いるラベルは母音性（記号′V′）、摩擦性（記
号′F′）、バズバー性（記号′B′）、無音性（記
号′．′）の４種類である。

また、境界検出部５では得られた１フレームの
スペクトルの変化から安定な点を抽出し、さら
に、上記安定点のフレームのスペクトルパターン
と、上記安定点以後に入力された音声のフレーム
のスペクトルパターンとの類似度を表わすユーク
リツド距離を求めることによつて、抽出すべき音
節の音節境界を検出する。第２図は上記安定点を
抽出してから音節境界を検出までのフローチヤー
トを示しており、図中右側は上記安定点抽出のフ
ローであり左側は音節境界検出のフローである。
以下第２図に沿つて上記安定点の抽出および上記
音節境界の検出の手段を詳述する。

ここで、各変数をｉ，ｊ：一時変数、Ｎ：パターンの次数を表す定数、ｔ：フレームの番号、 ta：安定点のフレーム番号、 PAT(i)：安定点の特徴パターンのｉ次の特徴量Ｄ(t)：フレームｔでのスペクトル変化距離、 SP(t)(i)：フレームｔでの入力パターンのｉ次の
特徴量、Ｌ：スペクトル変化を計算する窓の長さを表す定
数で2L＋１が窓長になる、Ｍ：安定点を求めるための窓の長さを表す定数で
2M＋１が窓長となる、 DIS：安定点の特徴パターンと入力フレームの特
徴パターンの距離、 ANTFLG：安定点からの上記距離による境界検
出フラグ、とする。

いま、スペクトル上のある１つのフレームｔ
（これを現フレームとする）からの入力パターン
SP(t)(i)が入力されると、ステツプS₁で、安定点パターンの有無（すなわ
ち、過去に安定点を抽出して、上記安定点のスペ
クトルパターンを取り込んでいるか否か）を判定
する。ここでは、安定点のスペクトルパターンを
取り込んでいれば安定点のスペクトルパターンの
データが総ての次数で０となることがないことを
利用して、ｉ＝１，，ＮであるすべてのPAT(i)に
たいして PAT(i)＝０を満たすときは、すでに抽出された安定点パター
ンは無としてステツプS₂に進み安定点を求める動
作に入り、それ以外のときにはすでに抽出された
安定点が有りとしてステツプS₅に進む。

ステツプS₂で、現フレームの安定性をチエツク
する。すなわち、現フレームｔにおけるスペクト
ル変化Ｄ(t)をＤ(t)＝_N 〓ⁱ⁼¹ （SP（ｔ−Ｌ）(i)−SP（ｔ＋Ｌ）(i)）² とすると、Ｄ(t)＝ min ｊ ……(1) ただし、ｊ＝−Ｍ，−Ｍ＋１，，，０，，，Ｍを満たすＤ(t)が存在するときに上記現フレームｔ
は安定と判断してステツプS₃に進み、上記(1)式を
満たすＤ(t)が存在しないときは現フレームｔは安
定でないとしてステツプS₁へ戻り次のフレームの
処理を実行する。

ステツプS₃で、上記スペクトル変化が非常に大
きい点を安定点として採択するのを避けるため、
ステツプS₂で求められた安定なフレームｔにおけ
るスペクトル変化Ｄ(t)を設定値THDIS2と比較す
る。その結果THDIT2より小さければステツプ
S₄に進み、以上であれば現フレームｔは安定点と
して採択できないとして、ステツプS₁へ戻る。

ステツプS₄で、安定点として採択されたフレー
ムtaにおけるスペクトルの特徴パターンを上記安
定点パターンPAT(i)にセツトして安定点の抽出
が完了し、ステツプS₁へ戻る。

PAT(i)＝SP（ta）(i) ｉ＝１，，ＮステツプS₅で、上記抽出された安定点の安定点
パターンと現フレームｔにおけるスペクトルの特
徴パターンとの距離（DIS）を次式 DLS＝_N 〓ⁱ⁼¹ （PAT(i)−SP(t)(i)）² を用いて計算して、ステツプS₆に進む。

ステツプS₆で上記ステツプS₅で求めた距離DIS
が設定値THDIS1より大きいか否か、すなわち類
似度が小さいか大きいかを判断して、設定値以下
の場合は安定点パターンと現フレームにおける特
徴パターンとは類似しているので、現フレームは
音節の境界点としては採択できないとしてステツ
プS₁へ戻る。一方、設定値より大きい場合は現フ
レームは音節境界点であるとしてステツプS₇へ進
む。

ステツプS₇で、ステツプS₆でIDS＞THDIS1と
判断され、音節境界が検出されたとき、音節境界
検出フラグANTFLGをセツト ANTFLG＝１してステツプS₈に進む。

ステツプS₈で抽出すべき音節の音節境界検出が
完了したので、境界検出に用いた安定点パターン
PAT(i)をクリア PAT(i)＝０ただしｉ＝１，，ＮしてステツプS₁へ戻り、次の音節の安定点の抽出
と音節境界検出とを行う。

上述のようにして、１つの音声の安定点が抽出
され、この安定点を基にして抽出すべき音節の音
節境界が検出されると、第１図の上記音節区間抽
出部６により上記音節分類部４で得られた音節ラ
ベルの時系列と上記境界検出部５で求められた音
節境界情報とから、第３図に示す音節抽出フロー
チヤートにしたがつて、上記音節区間抽出部６に
より音節が抽出される。

ここで、各変数を SEG：音韻分類部で出力されるラベル、 FRAME：抽出された音韻のフレーム数、 CUTFLG：抽出完了フラグ、 ANTFLG：音韻境界検出フラグ、（音節境界検出部により検出される） FRMCNT：フレームのカウンタ、 VCNT：母音性のラベル′V′の付いたフレームの
カウンタ、 THCUT：定数(10) ′V′：母音性の音韻ラベル、 ′F′：摩擦性の音韻ラベル、とする。

ステツプS₁₁で、CUTFLG（音節抽出完了フラ
グ）がセツトしてあるか否かを判別し、セツトし
てあればステツプS₁₂に進み、上記CUTFLGをク
リアしてステツプS₁₃に進む。クリアしてあれば
そのままステツプS₁₃に進む。

ステツプS₁₃で、現フレームのSEG（音韻ラベ
ル）が′V′か否かを判定し、′V′であればステツ
プS₁₄に進み、′V′でなければステツプS₁₇に進む。

ステツプS₁₄でFRMCNT（フレームカウンタ）
に＋１を加え、VCNT（母音性の音韻ラベル′
V′のフレーム数）に＋１を加えステツプS₁₅に進
む。

ステツプS₁₅で、ANTFLG（音節境界検出フラ
グ）がセツトされているか否か（このANTFLG
は第２図の安定点抽出および音節境界点検出のフ
ローチヤートのステツプS₇で１つの音節境界の検
出が完了したときにセツトされる。）を判別する。
その結果、１にセツトされているときはステツプ
₁₆に進んで１音節抽出を行い、セツトされていな
いときはまだ１音節の境界検出が完了していない
と判別してステツプS₁₁に戻り、次のフレームの
処理を実行する。ステツプ₁₆で、上記ステツプ
S₁₅で上記ANTFLGが１にセツトされていると
判別されたときは１音節の境界が検出されている
ので、現フレームまでを１音節とみなして、現フ
レームまでの音節のフレーム数をカウントしてい
る上記FRMCNTをFRAME（抽出された音節の
フレーム数）に転送して、上記FRMCNTおよび
上記VCNTをクリアし、１音節抽出完了のフラ
グCUTFLGを１にセツトしてステツプS₁₁に戻
り、次の音節抽出処理を実行する。

ステツプS₁₇で、現フレームの音韻ラベルが′
V′でないときは、上記VCNTとTHCUT（定数＝
本実施例では10）とを比較する。その結果母音性
の音韻ラベル数がTHCUTよりも大であれば、
現フレームより以前のフレームは有意味な音節で
あり、現フレームは音節の境界であると判断し
て、ステツプS₁₈に進んで１音節抽出を行い、
THCUT以下であればステツプS₁₉に進む。

ステツプS₁₈で、現フレームまでを１音節とみ
なして、現フレームまでの音節のフレーム数をカ
ウントしている上記FRMCNTを上記FRAMEに
転送して、上記FRMCNTおよびVCNTをクリ
アし、１音節抽出完了のフラグCUTFLGを１に
セツトしてステツプS₁₁に戻る。

ステツプS₁₉で、現フレームの上記SEGが′F′か
否かを判別し、′F′であればステツプS₂₁に進
み、′F′でなければステツプS₂₀に進む。

ステツプS₂₀で、現フレームのSEGが′V′で
も′F′でもない場合、現フレームまでの音節は有
意味な音節ではないとして、上記FRMCNTおよ
びVCNTをクリアしてステツプS₁₁に戻り、次の
音節抽出処理を実行する。

ステツプS₂₁で、音韻ラベル′F′のときはまだ音
節が続いているとして、実行FRMCNTに＋１を
加えてステツプS₁₁に戻り、次のフレームの処理
を実行する。

第３図の音節抽出フローチヤートのステツプ
S₁₆およびステツプS₁₈で、１音節抽出完了のフラ
グCUTFLGが１にセツトされると、第１図の上
記CPU９の指令により上記マツチング部７は、
入力された音声の上記音節区間軸出部６によつて
抽出された１つの音節区間の特徴パターンと、上
記特徴標準パターンメモリ８に予め記憶されてい
る特徴標準パターンとの類似度を計算して、上記
入力されて抽出された音節が類似度の最も高い標
準音節と同一の音節として認識され、その認識結
果が上記インターフエース１０を介して、外部装
置に出力される。

第４図は本実施例において抽出された安定点、
音節境界点の例を示し、上段より音韻分類ラベル
の時系列、本実施例とは異なる方法によつて得ら
れた母音系列（参考）、スペクトル変化が記され
ている。また、Ｃは従来のスペクトル変化から求
めた音節境界点、Ａ，Ｂは本実施例で求めた音節
境界点を現わしている。なお、第４図より、音韻
分類ラベルは全ての母音性の′V′であるため、第
４図は第３図の音節抽出フローチヤートにおける
ステツプS₁₅で音節境界が検出された例である。
すなわち、上記スペクトル曲線上に上述の方法で
安定点P₁が設定され、この安定点P₁を基にして
上述の方法により各フレームの特徴パターンと上
記安定点パターンとの距離DISが、図中の太曲線
P₁Q₁のように求められ、点Q₁において、DIS＞
THDIS1となり音節境界点Ａが検出される。同様
にして、次の安定点P₂が設定されると、P₂を基
にして点Q₂が求められ、次の音節境界点Ｂが検
出され、３つの音節「え」「い」「お」が分離して
抽出される。従来のスペクトルの変化から音節境
界を検出する方法では、スペクトル変化の極値点
P₃より音節境界点Ｃが検出されるので、音節
「えい」と「お」は区別されて抽出されるが、音
節「え」と「い」とはその両音節間のスペクトル
変化が穏やかであるために音節境界点が検出され
ず、したがつて異なる音節として区別して抽出す
ることができない。

したがつて、本実施例ではスペクトル変化が小
さくて従来のスペクトル変化で音節境界の抽出が
不可能な場合でも正確に音節境界を検出できる。

＜発明の効果＞以上より明らかなように、この発明の音節認識
装置では、抽出された音声区間に続く入力音声に
おけるスペクトル情報の変化から上記スペクトル
情報の安定点を抽出する安定点抽出部と、上記抽
出された安定点におけるスペクトル情報と上記安
定点以後のスペクトル情報との類似度計算を順次
行つて、上記算出された類似度の値の所定の値と
比較することによつて次に抽出すべき音節区間の
音節境界を検出する音節境界検出部とを設けたの
で、上記スペクトル情報の変化が穏やかな場合で
あつても、急な場合であつても正確にしかも容易
に音節境界を検出することができる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置のブロツク
図、第２図は安定点抽出および音節境界検出のフ
ローチヤート、第３図は音節抽出のフローチヤー
ト、第４図は実施例において抽出された安定点と
音節境界点の一例を示す図である。３……特徴抽出部、４……音韻分類部、５……
境界検出部、６……音節区間抽出部、７……マツ
チング部、８……特徴標準パターンメモリ、９…
…CPU。

Claims

【特許請求の範囲】１入力された音声から音節区間を抽出し、この
抽出された音節の特徴パターンとメモリに予め記
憶している特徴標準パターンとの類似度計算を行
つて、入力された音声を音節単位で認識する音声
認識装置において、抽出された音節区間に続く入力音声における音
声スペクトル情報の変化から、上記音声スペクト
ル情報の安定点を抽出する安定点抽出部と、上記抽出された安定点における音声スペクトル
情報と上記安定点以後の音声スペクトル情報との
類似度計算を順次行い、上記算出された類似度の
値を所定の値と比較して次に抽出すべき音節区間
の音節の境界を検出する音節境界検出部とを設け
たことを特徴とする音声認識装置。