JPH0431117B2 - - Google Patents

Info

Publication number
JPH0431117B2
JPH0431117B2 JP59058171A JP5817184A JPH0431117B2 JP H0431117 B2 JPH0431117 B2 JP H0431117B2 JP 59058171 A JP59058171 A JP 59058171A JP 5817184 A JP5817184 A JP 5817184A JP H0431117 B2 JPH0431117 B2 JP H0431117B2
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
word
segmentation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59058171A
Other languages
English (en)
Other versions
JPS60202492A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59058171A priority Critical patent/JPS60202492A/ja
Publication of JPS60202492A publication Critical patent/JPS60202492A/ja
Publication of JPH0431117B2 publication Critical patent/JPH0431117B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する音声認識方法に関す
るものである。
(従来例の構成とその問題点) 第1図は従来の音声認識方法の一例及び本発明
の音声認識方法の実施例等を実行するための装置
の機能ブロツク図である。従来例を第1図ととも
に説明する。第1図において、1は入力音声から
パラメータの時系列を作成するパラメータ抽出
部、2は音素毎のセグメンテーシヨン、尤度計算
および類似度計算等を行なう単語認識部、3は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「トーキヨ
ー」、「トヨナカ」、「ヤマガタ」はそれぞれ
「SAQPORO」、「TOOKYOO」、
「TOYONAKA」、「JAMAGTA」等と表記され
ている。
次に上記従来例の動作について説明する。先ず
入力音声をパラメータ抽出部1で10msのフレー
ム毎に分析し、パラメータを抽出して、パラメー
タ時系列を作成する。パラメータ時系列は、以後
の処理で共通的に用いるパラメータを予め計算し
ておくものである。次に、単語認識部2において
単語辞書部3を照合して各辞書項目毎に類似度を
求めるのであるが、この類似度計算時に、その辞
書項目を構成する辞書音素系列に従つて音素のセ
グメンテーシヨンを行ない、そのセグメンテーシ
ヨンされた音声区間がその音素を発声したもので
ある確からしさを表わす尺度で尤度を計算し、そ
の辞書項目における各音素の尤度の平均値として
類似度を求め、類似度が最大となる辞書項目をも
つて認識単語とする。ここで、ある音素のセグメ
ンテーシヨンを行なうとは具体的には、〔(その音
素の前音素の後端のフレーム番号)+1〕をその
音素の始端フレームとして、そこからその音素の
後端フレームを探して見つけることである。こ
の、ある音素に対しセグメンテーシヨンされる音
声の区間の時間長は、自然な発声をする限り当然
一定の範囲内にある。従つて前記の音素の後端フ
レームを探すにあたつては、ある限られた範囲の
みでよい。本従来例においては、この範囲を1〜
30フレーム(10〜300ms)としていたが、実際の
音声認識において、この値は適当であつた。
しかしながら上記従来例においては、下記のよ
うな欠点があつた。これの例を第2図とともに説
明する。第2図は、入力音声がTOJONAKA(ト
ヨナカ)である時、時刻を右向きにとつて、辞書
項目TOJONAKAとJAMAGATAとにおけるセ
グメンテーシヨン結果の対応関係を示す図であ
る。この例において、辞書項目TOJONAKAの
場合のセグメンテーシヨンは正しかつた。一方
JAMAGATAの場合のセグメンテーシヨンは、
TOJ−J,A−AGAと2ケ所誤つた対応を含ん
でいたが、尤度計算においては、入力のTOJの
部分をJと見なしてもパラメータ上にむじゆんな
く、またGとセグメンテーシヨンされた区間はA
からKへ移行する発声の不安定な部分であるため
小さなパワデイツプが存在し、しかもパラメータ
がGJしさを示すため高い尤度が得られてしまい、
類似度も大となつた。このため、本例に示す入力
音声は、JAMAGATAであると誤認識されてい
た。本例に示す辞書項目JAMAGATAにおける
セグメンテーシヨンにおいて、Gとセグメンテー
シヨンされた区間は2フレーム、次のAとセグメ
ンテーシヨンされた区間は1フレームのみであつ
た。ある音素をセグメンテーシヨンした時、その
区間の時間長が1,2フレームと短いものは、発
声において、その音素の性質が弱く、その音素と
隣の音素との間の移行部分が、隣の音素の区間に
セグメンテーシヨンされた場合が多く、従つて、
短い時間長のセグメンテーシヨンが連続すぬこと
は実際にはあり得ない。よつて、本従来において
は、第2図に示すJAMAGATAの例のように、
実際にはあり得ないセグメンテーシヨンを行ない
ながら、類似度は大となつて、単語を誤認識する
という欠点があつた。
(発明の目的) 本発明は上記従来例の欠点を除去するものであ
り、上記のように明らかにあり得ないセグメンテ
ーシヨンを排除し、それにより単語認識率を向上
させることを目的とする。
(発明の構成) 本発明は、入力音声を単語辞書の各辞書項目と
照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーシヨンし、
そのセグメンテーシヨンされた音声区間が、その
音素を発声したものである確からしさを示す尺度
である尤度を求め、この尤度の値を用いて各辞書
項目と入力音声の類似度を求めて入力単語を認識
するにあたり、前記目的を達成するために、音素
のセグメンテーシヨンにおいて、その音素の区間
の時間長に、その音素の1つ、又はそれ以上前の
音素の時間長を加えて得られた2音素又はそれ以
上の音素の時間長に対し、長過ぎ又は短過ぎの制
限を行ない、明らかに正しくないセグメンテーシ
ヨンを排除し、高い単語認識率を得る効果を得る
ものである。
(実施例の説明) 以下に発明の一実施例について、図面とともに
説明する。本実施例の方法を実施するための装置
の基本構成は、前記従来例と同様に、第1図に示
される。第1図において、単語辞書は前記従来例
と同様である。
本実施例の動作について説明する。先ず、パラ
メータ抽出部1において、入力音声を10msのフ
レーム毎に分析し、パラメータを抽出してパラメ
ータ時系列を作成する。ここ迄は前記従来例と同
様である。次にこれを単語辞書部2内の単語辞書
と照合し、各辞書項目毎に、その辞書項目を構成
する辞書音素系列に従つて音素のセグメンテーシ
ヨンを行なう。ここで本実施例において、ある音
素の後端を探す範囲を、従来と同様に1〜30フレ
ームに限定すると同時に、1つ前の音素に対しセ
グメンテーシヨンされた区間の時間長と合わせ
て、2音素の時間長がある一定の範囲になるよう
に限定する。例えばGAの場合には5〜44フレー
ムの範囲としている。セグメンテーシヨン後に尤
度計算を行ない類似度を求めることは従来と同様
である。
本実施例における効果を例とともに述べる。第
2図に示す、前記従来例と同様な入力において、
辞書項目がTOJONAKAの場合、セグメンテー
シヨンは前記従来例と同様、正常になされた。辞
書項目がJAMAGATAの場合、語頭からG迄は
従来と同様なセグメンテーシヨンであつたが、G
が2フレームであるため、次のAの後端は、A長
さが3〜30フレームとなる範囲で探すことにな
り、従来と同様なセグメンテーシヨンはなされな
い。この例において、Aの後端を探す範囲は、A
の次のKの区間の無音部分(Kの破裂の前の閉鎖
区間)にかかつてしまい、Aのセグメンテーシヨ
ンは不能となり、JAMAGATAは入力単語では
あり得ないとい判断がなされた。これにより入力
は、正しくTOJONAKAと認識された。このよ
うに本実施例においては、明らかに正しくないセ
グメンテーシヨンを排除することにより、単語の
誤認識を減少させることができる利点がある。
なお本実施例では、1単語のみを発声した入力
単語の例を示したが、連続単語、文章中の単語に
おいても全く同様の効果がある。
本発明は上記のような構成であり、以下に示す
効果が得られるものである。
音素のセグメンテーシヨン時に、その音素の区
間の時間長に、その音素の1つ、又はそれ以上前
の音素の時間長を加えて得られた2音素、又はそ
れ以上の音素の時間長に対し、長過ぎ、又は短過
ぎの制限を行ない、その音素の後端位置を限定す
ることにより、実際にはあり得ない、正しくない
セグメンテーシヨンを排除して、単語の誤認識を
減少させ、単語認識率を向上させることができ
る。
【図面の簡単な説明】
第1図は従来例、及び本発明の実施例における
音声認識方法を実施するための装置の基本的構成
を示す図。第2図は、従来例における、セグメン
テーシヨンの説明図である。 1……パラメータ抽出部、2……単語認識部、
3……単語辞書部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声と、認識すべき単語を音素で表記し
    た単語辞書の各辞書項目とを照合し、各辞書項目
    を構成する辞書音素系列に従い、各一音素毎に入
    力音声をセグメンテーシヨンし、そのセグメンテ
    ーシヨンされた音声の区間がその音素を発声した
    ものである確からしさを示す尺度である尤度を計
    算し、この尤度の値を用いて各辞書項目と入力音
    声の類似度を求めて入力単語を認識するにあた
    り、音素のセグメンテーシヨン時に、その音素の
    区間の時間長に、その音素の1つ、又はそれ以上
    前の音素の時間長を加えて得られた2音素又はそ
    れ以上の音素の時間長に対し、長過ぎ又は短過ぎ
    の制限を行ない、その音素の後端位置を限定する
    ことを特徴とする音声認識方法。
JP59058171A 1984-03-28 1984-03-28 音声認識方法 Granted JPS60202492A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058171A JPS60202492A (ja) 1984-03-28 1984-03-28 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058171A JPS60202492A (ja) 1984-03-28 1984-03-28 音声認識方法

Publications (2)

Publication Number Publication Date
JPS60202492A JPS60202492A (ja) 1985-10-12
JPH0431117B2 true JPH0431117B2 (ja) 1992-05-25

Family

ID=13076548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058171A Granted JPS60202492A (ja) 1984-03-28 1984-03-28 音声認識方法

Country Status (1)

Country Link
JP (1) JPS60202492A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617894A (ja) * 1984-06-22 1986-01-14 松下通信工業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPS60202492A (ja) 1985-10-12

Similar Documents

Publication Publication Date Title
JPS62217295A (ja) 音声認識方式
JPH10254475A (ja) 音声認識方法
JPH0431117B2 (ja)
JPH0431118B2 (ja)
JP3291073B2 (ja) 音声認識方式
KR20040092572A (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JPH0431116B2 (ja)
JPH0412479B2 (ja)
JPH045397B2 (ja)
JPH0458636B2 (ja)
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPH0695684A (ja) 音声認識システム
JPH05303391A (ja) 音声認識装置
JPH0431114B2 (ja)
JPH0155477B2 (ja)
JPH045392B2 (ja)
JPS58159598A (ja) 単音節音声認識方式
JPH09274496A (ja) 音声認識装置
JPS60149099A (ja) 音声認識方法
JPH045395B2 (ja)
JPH0469959B2 (ja)
JPH0412480B2 (ja)
Gao et al. Telephone Conversation Speaker Recogniton System Based on Speech Purify
JPS6147992A (ja) 音声認識方式
JPH0451840B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term