JPH0431117B2

JPH0431117B2 -

Info

Publication number: JPH0431117B2
Application number: JP59058171A
Authority: JP
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1992-05-25
Also published as: JPS60202492A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する音声認識方法に関す
るものである。

（従来例の構成とその問題点）第１図は従来の音声認識方法の一例及び本発明
の音声認識方法の実施例等を実行するための装置
の機能ブロツク図である。従来例を第１図ととも
に説明する。第１図において、１は入力音声から
パラメータの時系列を作成するパラメータ抽出
部、２は音素毎のセグメンテーシヨン、尤度計算
および類似度計算等を行なう単語認識部、３は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「トーキヨ
ー」、「トヨナカ」、「ヤマガタ」はそれぞれ
「SAQPORO」、「TOOKYOO」、
「TOYONAKA」、「JAMAGTA」等と表記され
ている。

次に上記従来例の動作について説明する。先ず
入力音声をパラメータ抽出部１で10msのフレー
ム毎に分析し、パラメータを抽出して、パラメー
タ時系列を作成する。パラメータ時系列は、以後
の処理で共通的に用いるパラメータを予め計算し
ておくものである。次に、単語認識部２において
単語辞書部３を照合して各辞書項目毎に類似度を
求めるのであるが、この類似度計算時に、その辞
書項目を構成する辞書音素系列に従つて音素のセ
グメンテーシヨンを行ない、そのセグメンテーシ
ヨンされた音声区間がその音素を発声したもので
ある確からしさを表わす尺度で尤度を計算し、そ
の辞書項目における各音素の尤度の平均値として
類似度を求め、類似度が最大となる辞書項目をも
つて認識単語とする。ここで、ある音素のセグメ
ンテーシヨンを行なうとは具体的には、〔（その音
素の前音素の後端のフレーム番号）＋１〕をその
音素の始端フレームとして、そこからその音素の
後端フレームを探して見つけることである。こ
の、ある音素に対しセグメンテーシヨンされる音
声の区間の時間長は、自然な発声をする限り当然
一定の範囲内にある。従つて前記の音素の後端フ
レームを探すにあたつては、ある限られた範囲の
みでよい。本従来例においては、この範囲を１〜
30フレーム（10〜300ms）としていたが、実際の
音声認識において、この値は適当であつた。

しかしながら上記従来例においては、下記のよ
うな欠点があつた。これの例を第２図とともに説
明する。第２図は、入力音声がTOJONAKA（ト
ヨナカ）である時、時刻を右向きにとつて、辞書
項目TOJONAKAとJAMAGATAとにおけるセ
グメンテーシヨン結果の対応関係を示す図であ
る。この例において、辞書項目TOJONAKAの
場合のセグメンテーシヨンは正しかつた。一方
JAMAGATAの場合のセグメンテーシヨンは、
TOJ−Ｊ，Ａ−AGAと２ケ所誤つた対応を含ん
でいたが、尤度計算においては、入力のTOJの
部分をＪと見なしてもパラメータ上にむじゆんな
く、またＧとセグメンテーシヨンされた区間はＡ
からＫへ移行する発声の不安定な部分であるため
小さなパワデイツプが存在し、しかもパラメータ
がGJしさを示すため高い尤度が得られてしまい、
類似度も大となつた。このため、本例に示す入力
音声は、JAMAGATAであると誤認識されてい
た。本例に示す辞書項目JAMAGATAにおける
セグメンテーシヨンにおいて、Ｇとセグメンテー
シヨンされた区間は２フレーム、次のＡとセグメ
ンテーシヨンされた区間は１フレームのみであつ
た。ある音素をセグメンテーシヨンした時、その
区間の時間長が１，２フレームと短いものは、発
声において、その音素の性質が弱く、その音素と
隣の音素との間の移行部分が、隣の音素の区間に
セグメンテーシヨンされた場合が多く、従つて、
短い時間長のセグメンテーシヨンが連続すぬこと
は実際にはあり得ない。よつて、本従来において
は、第２図に示すJAMAGATAの例のように、
実際にはあり得ないセグメンテーシヨンを行ない
ながら、類似度は大となつて、単語を誤認識する
という欠点があつた。

（発明の目的）本発明は上記従来例の欠点を除去するものであ
り、上記のように明らかにあり得ないセグメンテ
ーシヨンを排除し、それにより単語認識率を向上
させることを目的とする。

（発明の構成）本発明は、入力音声を単語辞書の各辞書項目と
照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーシヨンし、
そのセグメンテーシヨンされた音声区間が、その
音素を発声したものである確からしさを示す尺度
である尤度を求め、この尤度の値を用いて各辞書
項目と入力音声の類似度を求めて入力単語を認識
するにあたり、前記目的を達成するために、音素
のセグメンテーシヨンにおいて、その音素の区間
の時間長に、その音素の１つ、又はそれ以上前の
音素の時間長を加えて得られた２音素又はそれ以
上の音素の時間長に対し、長過ぎ又は短過ぎの制
限を行ない、明らかに正しくないセグメンテーシ
ヨンを排除し、高い単語認識率を得る効果を得る
ものである。

（実施例の説明）以下に発明の一実施例について、図面とともに
説明する。本実施例の方法を実施するための装置
の基本構成は、前記従来例と同様に、第１図に示
される。第１図において、単語辞書は前記従来例
と同様である。

本実施例の動作について説明する。先ず、パラ
メータ抽出部１において、入力音声を10msのフ
レーム毎に分析し、パラメータを抽出してパラメ
ータ時系列を作成する。ここ迄は前記従来例と同
様である。次にこれを単語辞書部２内の単語辞書
と照合し、各辞書項目毎に、その辞書項目を構成
する辞書音素系列に従つて音素のセグメンテーシ
ヨンを行なう。ここで本実施例において、ある音
素の後端を探す範囲を、従来と同様に１〜30フレ
ームに限定すると同時に、１つ前の音素に対しセ
グメンテーシヨンされた区間の時間長と合わせ
て、２音素の時間長がある一定の範囲になるよう
に限定する。例えばGAの場合には５〜44フレー
ムの範囲としている。セグメンテーシヨン後に尤
度計算を行ない類似度を求めることは従来と同様
である。

本実施例における効果を例とともに述べる。第
２図に示す、前記従来例と同様な入力において、
辞書項目がTOJONAKAの場合、セグメンテー
シヨンは前記従来例と同様、正常になされた。辞
書項目がJAMAGATAの場合、語頭からＧ迄は
従来と同様なセグメンテーシヨンであつたが、Ｇ
が２フレームであるため、次のＡの後端は、Ａ長
さが３〜30フレームとなる範囲で探すことにな
り、従来と同様なセグメンテーシヨンはなされな
い。この例において、Ａの後端を探す範囲は、Ａ
の次のＫの区間の無音部分（Ｋの破裂の前の閉鎖
区間）にかかつてしまい、Ａのセグメンテーシヨ
ンは不能となり、JAMAGATAは入力単語では
あり得ないとい判断がなされた。これにより入力
は、正しくTOJONAKAと認識された。このよ
うに本実施例においては、明らかに正しくないセ
グメンテーシヨンを排除することにより、単語の
誤認識を減少させることができる利点がある。

なお本実施例では、１単語のみを発声した入力
単語の例を示したが、連続単語、文章中の単語に
おいても全く同様の効果がある。

本発明は上記のような構成であり、以下に示す
効果が得られるものである。

音素のセグメンテーシヨン時に、その音素の区
間の時間長に、その音素の１つ、又はそれ以上前
の音素の時間長を加えて得られた２音素、又はそ
れ以上の音素の時間長に対し、長過ぎ、又は短過
ぎの制限を行ない、その音素の後端位置を限定す
ることにより、実際にはあり得ない、正しくない
セグメンテーシヨンを排除して、単語の誤認識を
減少させ、単語認識率を向上させることができ
る。

【図面の簡単な説明】

第１図は従来例、及び本発明の実施例における
音声認識方法を実施するための装置の基本的構成
を示す図。第２図は、従来例における、セグメン
テーシヨンの説明図である。１……パラメータ抽出部、２……単語認識部、
３……単語辞書部。

Claims

【特許請求の範囲】

１入力音声と、認識すべき単語を音素で表記し
た単語辞書の各辞書項目とを照合し、各辞書項目
を構成する辞書音素系列に従い、各一音素毎に入
力音声をセグメンテーシヨンし、そのセグメンテ
ーシヨンされた音声の区間がその音素を発声した
ものである確からしさを示す尺度である尤度を計
算し、この尤度の値を用いて各辞書項目と入力音
声の類似度を求めて入力単語を認識するにあた
り、音素のセグメンテーシヨン時に、その音素の
区間の時間長に、その音素の１つ、又はそれ以上
前の音素の時間長を加えて得られた２音素又はそ
れ以上の音素の時間長に対し、長過ぎ又は短過ぎ
の制限を行ない、その音素の後端位置を限定する
ことを特徴とする音声認識方法。