JPH11175085A - 単語音声認識方法及び音声認識用単語辞書 - Google Patents

単語音声認識方法及び音声認識用単語辞書

Info

Publication number
JPH11175085A
JPH11175085A JP9339584A JP33958497A JPH11175085A JP H11175085 A JPH11175085 A JP H11175085A JP 9339584 A JP9339584 A JP 9339584A JP 33958497 A JP33958497 A JP 33958497A JP H11175085 A JPH11175085 A JP H11175085A
Authority
JP
Japan
Prior art keywords
phoneme
word
sequence
speech recognition
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9339584A
Other languages
English (en)
Inventor
Yoshitake Suzuki
義武 鈴木
Yoshio Nakadai
芳夫 中台
Tetsutada Sakurai
哲真 桜井
Shunei Kurokawa
俊英 黒川
Yamato Sato
大和 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Advanced Technology Corp
NTT Inc
Original Assignee
NTT Advanced Technology Corp
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Advanced Technology Corp, Nippon Telegraph and Telephone Corp filed Critical NTT Advanced Technology Corp
Priority to JP9339584A priority Critical patent/JPH11175085A/ja
Publication of JPH11175085A publication Critical patent/JPH11175085A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 少ない計算量、記憶容量で高い認識率を得
る。 【解決手段】 入力音声を、母音、摩擦音、無音部の入
力音韻系列(図2A)とし、その語頭、語尾の無音部*
を除去し、不連続音韻を直前の音韻で置換し(図2
B)、かつ連続する同一音韻を1つのその音韻で置き換
え(図2C)、所定値(各音韻に固有な値)以上連続す
る長い音韻は別の記号にする。図2では*を+に置換す
る。単語辞書にも長く続くもの(促音、長母音など)は
同一の短いものとは別の記号として単語音韻列を表記し
ておく。図2C又は図2Dとされた記号列と辞書の単語
とマッチングを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、コンピュータあ
るいは同等の処理をするより小さなシステム上で単語音
声を認識させる方法に関するものであり、特に不特定話
者対応少数語彙音声認識システムに適する方法に関す
る。
【0002】
【従来の技術】音素情報を用いた音声認識、即ち音素系
列の辞書を備え、音声入力信号を一定フレーム毎に分析
し、フレーム毎の音声音素系列の各記号と辞書の単語音
素系列の記号との類似度を求める認識手法がある。ま
た、SPLIT法と呼ばれる音素標準パターンの数を、
スペクトルの変動を表現するのに十分な数に増加した認
識手法がある。
【0003】先にあげた音素情報を用いた音声認識法で
は、スペクトルを基にした音素の標準パターンが必要に
なる。入力音声と標準パターンの類似度を求める際に、
スペクトル同士の距離計算を行うため、計算量が多くな
る。さらに、こうして得られた類似度と単語辞書とを比
較した類似度和によって単語音声の認識を行う。そのた
め、取りこぼしが少なく認識率が高いが、認識に必要な
記憶容量と計算量も著しく増加する。この方法で用いら
れる単語辞書は音素について知っていないと、辞書自体
が音素の並びとなっているので新たに作ることが難し
い。
【0004】SPLIT法は、従来の音素単位の認識
系、単語単位の認識系、音声符号化におけるベクトル量
子化法の3手法の融合されたものといえる。ここで、S
PLIT法の標準パターンを擬音韻標準パターンとい
い、各話者毎に、多数の音声サンプルの短時間スペクト
ルパターンのクラスタ化によって得られるものであり、
スペクトルパターンの分布のみに基づいているため音素
との明確な対応付けはない。それゆえ、単語辞書の生成
に正書法を用いることはできない。また、認識に必要な
記憶容量と計算量は単語単位の標準パターンを用いる際
の1/10程度である。
【0005】SPLIT法は、通常特定話者の音声認識
を行う際に使用されるため、ここでは音素単位の単語音
声認識法における母音系列と単語辞書とのマッチングに
ついて図4を参照して説明する。入力端子1からの入力
音声は、A/D変換部2を通り、ディジタル信号に変換
される。その後、分析部3によって、スペクトル分析さ
れる。この分析されたスペクトルは類似度算出部4で各
音素の標準パターン5(スペクトル)との比較により、
各音素との類似度を得る。各音素と時間経過の類似度を
類似度行列6に格納する。類似度和算出部7で単語辞書
8の各単語の音素系列とのDPマッチングを行うことに
より類似度和を得る。
【0006】この類似度和をもとにして、単語判定部9
でもっとも類似度和の高いものをその単語であると判定
する。その結果を出力端子10に渡す。
【0007】
【発明が解決しようとする課題】以上に述べた従来の方
法では、音素数だけでもざっと40程度あり、それを用
いた文字系列とDPマッチングを施すと、かなりの計算
量になる。また、母音系列だけで見たとしても文字列が
単語辞書に書いてあるものに近ければ、その単語に認識
されてしまう。
【0008】
【課題を解決するための手段】この発明によれば、同じ
文字が長く続いた時(促音、長母音等)にその部分を別
の文字で置き換える。更に好ましくは母音(5種類)
と、摩擦音(1種類)と、無音部(1種類)のみで単語
を表記する。この場合は14種類の文字(記号)で文字
列を作ることになりマッチングに際してもたいした計算
量にならない。また、先にあげた同じ文字が長く続いた
時に別の文字で置き換えるという操作によって他の単語
との距離をかせぎ、認識率があがる。
【0009】
【発明の実施の形態】この発明の実施例を適用した認識
装置の処理手順を図1Aに示す。図4と処理内容は違っ
ても、全体の流れから見て同等の処理をしている箇所に
は、同一符号をつけてある。入力端子1からの入力音声
は、A/D変換部2を通り、ディジタル信号に変換され
る。その後分析部3によってLPC分析され、例えばケ
プストラムが抽出される。
【0010】系列生成部(フレーム毎)12で標準パタ
ーン(ケプストラムのベクトル)5との比較により、音
韻の時間系列を得る。この実施例は、各単語を母音と摩
擦音と無音とにより表現するようにした場合であり、入
力音声に対しても系列生成部12で、母音と摩擦音と無
音よりなる系列とする。例えば単語「カップ」の音声が
入力されると、図2Aに示す音韻の時間系列が得られ
る。*は無音を示し、aは「カ」の母音を示し、「ッ」
は無音として検出され、uは「プ」の母音である。語頭
と語尾に無音*があり、「ァ」と「ッ」の間に不連続な
母音oが、「ッ」「プ」の間に不連続な母音iが検出さ
れている。
【0011】系列処理(A)13で先に出てきた音韻の
時間系列中、語頭および語尾に出てくる無音部*を削除
し、また不連続な音韻記号を直前の音韻記号を使って置
き換える。図2Aの例では、図2Bに示すように、語頭
の無音*と語尾の無音*とが削除され、不連続な音韻記
号oがその直前の記号aに置き換えられ、また不連続な
音韻記号iがその直前の記号*に置き換えられる。
【0012】更にこの例では、系列中の同一音韻記号が
連続する部分を、その連続した音韻記号の一文字で置き
換える。図2に示した例では、図2Cに示すように連続
した8個の音韻記号aは1つのaとして、連続した18
個の無音記号*は1個の*で、連続した8個のuは1個
のuに置き換えられる。この系列処理(A)13から出
てきた系列は後述する系列処理(B)17を経た後、単
語辞書8とのマッチングを類似度和算出部7で行う。こ
こで、求めた類似度和をもとにして単語判定部9で正解
と思われる単語を求め、出力端子10より出力する。
【0013】ここで、類似度和算出部7、つまりマッチ
ング部についてくわしい説明をつけておく。まず、単語
辞書8はその単語の母音部分のみを強調して書かれてい
る。つまり、単語辞書内で使われている記号中の“a”
は“あ”、“i”は“い”、“u”は“う”、“e”は
“え”、“o”は“お”、“*”は“無音部”、“S”
は“摩擦音”をそれぞれ表している。単語辞書に書かれ
ている例をあげると、図3Aに示すようにアタックなら
『a*a*u』、ガードなら『aCo』のような文字列
に書いてある。また、“b、d、g”や“m、n”は実
際の認識の際には使用していないが、ここでは便宜上一
般的に子音を表す“C”で記す。例えば、レシーブなら
『CeSiCu』なる文字列という具合である。
【0014】単語辞書8には多くの人が発声する場合こ
ういう文字列がとれるであろう、というものを考えて登
録する。この発明では同一文字でも長く続いたもの(促
音、長母音等)を、その文字の短いものとは別の文字
(記号)に置きかえる。この処理を行うに当り、この実
施例では入力音韻系列の音韻数が所定値(しきい値Th
1)以上のもののみを分岐ポイント14で分岐して、長
音を利用したアルゴリズム15により前記置き換え処理
を実行する。このようにして、無駄な処理を、つまりも
ともと前記置き換えがなされない入力音韻系列について
も長音を利用したアルゴリズム15による処理をしない
ようにする。このしきい値Th1の値は、認識対象単語
の種類によっても異なるが、例えば類似度算出部4から
例えば15mSに1回、検出された音韻が出力される場
合、しきい値Th1は例えば30とし、検出音韻が10
mSごとに出力される場合は、しきい値Th1は45と
する。
【0015】図2Bに示した例では記号(文字)“a”
の数が8、“*”の数が18、“u”の数が8であり合
計数は34となる。従って各音韻が15mSごとであれ
ば、この入力音韻系列の長さ34はしきい値Th1=3
0より大であるから、入力音韻系列を長音を利用したア
ルゴリズム15により処理させる。なお入力音韻系列に
おける各音韻(文字)の連続個数、前記例では“a”が
8、“*”が18、“u”が8は系列処理(A)13に
おける処理の際に、それぞれ記憶部(図示せず)に記憶
しておく。
【0016】長音を利用したアルゴリズム15において
は、その入力音韻系列(単語)中における各音韻が占め
る割合がしきい値Th2以上で、かつその入力音韻系列
(単語)中でその音韻が連続している個数がしきい値T
h3以上であるかを調べる。しきい値Th2,Th3は
それぞれa,i,u,e,o,S,*に固有の値であ
り、各種の単語の音声について、同一音韻について長い
もの(促音、長母音など)と短いものの各長さを測定
し、平均的に長いと判定されるものと短かいと判定され
るものとの境界値を実験的に決める。各音韻の長さが例
えば15mSの場合、“*”のしきい値Th2は例えば
50(%)、しきい値Th3は例えば15個である。
【0017】図2に示した例について、入力音韻系列に
占める割合は“a”が8/34、“*”が18/34≒
50.3(%)、“u”が8/34であり、その入力音
韻系列中でその音韻が連続している個数は“a”が8、
“*”が18、“u”が8である。この例では“*”が
そのしきい値Th2=50より大であり、かつしきい値
Th3=15より大である。従って、この入力音韻系列
における音韻“*”は長く続くものと判定して、この
“*”をこれと異なる記号(予め決めてある)、この例
では“+”に変更する。従って、入力音韻系列は系列処
理(B)17から図2Dに示すようにa+uとして出力
される。
【0018】このように長音を考慮した時、単語辞書8
もそのように表記され、長音を考慮しない辞書図3Aに
対し、長音を考慮した辞書は図3Bに示すようになる。
つまりアタックの“a*a*u”が“a*a+u”とな
り、ガードの“CaCo”が“CACo”となる。この
例では母音については長音である場合、短音表示の小文
字を大文字に置きかえている。
【0019】分岐ポイント14で入力音韻系列で長音置
換処理の必要がないと判定された、つまり全長がしきい
値Th1以下のものは、長音を利用しないアルゴリズム
16で処理される。つまり、従来と同様の処理がなさ
れ、例えば図2Cの記号系列として出力される。この実
施例では系列処理(A)13で既に図2Cに示した系列
まで処理されているので長音を利用しないアルゴリズム
16はここを単に通過させるだけである。しかし、系列
処理(A)13では図2Bまで行い、図2Cへの処理を
長音利用しないアルゴリズム16で行ってもよい。アル
ゴリズム15,16の何れかで処理された系列、つまり
系列処理(B)17の出力は単語辞書8の各単語とのマ
ッチング処理が類似度和算出部7で行われ、その最も類
似度が高い単語が単語判定部9で判定されて認識結果と
して出力される。
【0020】類似度和算出部7でのマッチング処理は、
要は単語辞書8中から入力記号列と一致する記号列の単
語を探せばよく、どのような手法を用いてもよい。例え
ば図1Bに示すように単語辞書8よりの辞書系列が“a
*uaei”、入力音韻系列が“a*u*aei”であ
ったとする。両者の語頭から1音韻づつ順次比較し、同
じであれば両方とも一文字分進め、違っていればペナル
ティを+1し、入力音韻系列のみ1文字進める。図1B
では4番目で不一致が生じ、辞書系列の4番目と入力音
韻系列の5番目との比較に移る。このようなことをどち
らかの系列の最後がくるまで行い、もう片方の系列にま
だ比較していない音韻が残っていればその数分をペナル
ティに加える。このような手法でペナルティが最も小さ
い単語を認識結果とする。
【0021】上述において、分岐ポイント14における
選別を行うことなく、またしきい値Th2も用いず、し
きい値Th3のみで長音置換をするか否かを決定しても
よい。またしきい値Th2とTh3の組合せ、あるいは
しきい値Th1とTh3の組合わせのみで長音置換する
か否かの決定をしてもよい。
【0022】
【発明の効果】以上説明したように、この発明によれば
単語辞書に書かれている音韻記号が最大14種類に限ら
れているため、辞書の更新が比較的容易にできる。また
単語の特徴のでやすいところ(長母音、促音等)には、
“A”や“+”といった特別な記号を使っているため、
他の単語に認識されるのをある程度防ぐことができる。
単語辞書には、その単語の特徴をよく表したものを用い
ればより少ない記憶容量ですむ。
【0023】この音声認識方法を1チップのDSPに載
せ、30名(男性15名、女性15名)、被験者による
認識実験をおこなった。長い母音と短かい母音を区別し
ない場合の認識率を以下に記す。 男性:90.3% 女性:94.2% 総合:92.3
% また長い母音と短い母音を区別した場合の認識率は以下
のようになった。
【0024】 男性:98.2% 女性:100% 総合:99.1% このことから、この発明の方法は特定の単語認識に際し
て極めて有効であることがわかる。
【図面の簡単な説明】
【図1】Aはこの発明方法を適用した単語音声認識装置
の機能構成例を示すブロック図、Bはその類似度和算出
部7のマッチング処理例を示す図である。
【図2】入力音韻系列の処理例を示す図。
【図3】単語辞書8の内容の例を示す図。
【図4】従来の単語音声認識装置の機能構成例を示すブ
ロック図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中台 芳夫 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 桜井 哲真 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 黒川 俊英 東京都武蔵野市御殿山一丁目1番3号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内 (72)発明者 佐藤 大和 東京都武蔵野市御殿山一丁目1番3号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音韻記号の系列で表現された単語辞書
    と、入力音声の短時間分析で得られる音韻の時間系列と
    の照合によって認識を行う単語音声認識方法において、 同一音声記号であっても、持続時間の長い音韻を、短い
    音韻とは別種の音韻記号を割り当てることを特徴とする
    単語音声認識方法。
  2. 【請求項2】 上記入力音声の音韻系列、上記単語辞書
    の単語音韻系列は、それぞれ、母音、摩擦音、無音部の
    1乃至複数の配列により構成されていることを特徴とす
    る請求項1記載の単語音声認識方法。
  3. 【請求項3】 上記持続時間の長い音韻記号の割り当て
    は、その音韻記号が連続する個数が所定値以上、かつそ
    の単語中に占める割合が所定値以上の場合に行うことを
    特徴とする請求項1又は2記載の単語音声認識方法。
  4. 【請求項4】 入力音韻系列の総音韻数が所定値以上の
    場合にのみ、上記長い音韻記号割当てを行うことを特徴
    とする請求項3記載の単語音声認識方法。
  5. 【請求項5】 各単語が母音、摩擦音、無音部の1乃至
    複数のみ配列で表記され、 持続時間の長い音韻と短い音韻とは別の音韻記号が割当
    てられていることを特徴とする音声認識用単語辞書。
JP9339584A 1997-12-10 1997-12-10 単語音声認識方法及び音声認識用単語辞書 Pending JPH11175085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9339584A JPH11175085A (ja) 1997-12-10 1997-12-10 単語音声認識方法及び音声認識用単語辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9339584A JPH11175085A (ja) 1997-12-10 1997-12-10 単語音声認識方法及び音声認識用単語辞書

Publications (1)

Publication Number Publication Date
JPH11175085A true JPH11175085A (ja) 1999-07-02

Family

ID=18328866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9339584A Pending JPH11175085A (ja) 1997-12-10 1997-12-10 単語音声認識方法及び音声認識用単語辞書

Country Status (1)

Country Link
JP (1) JPH11175085A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム

Similar Documents

Publication Publication Date Title
CN110211565B (zh) 方言识别方法、装置及计算机可读存储介质
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
CN113724718A (zh) 目标音频的输出方法及装置、系统
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Anoop et al. Automatic speech recognition for Sanskrit
JPS62232691A (ja) 音声認識装置
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Boite et al. A new approach towards keyword spotting.
CN111312216B (zh) 一种包含多说话人的语音标记方法及计算机可读存储介质
EP2875508A1 (en) Method and system for real-time keyword spotting for speech analytics
Mohanty et al. Speaker identification using SVM during Oriya speech recognition
JPH1097285A (ja) 音声認識装置
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
JPH0950288A (ja) 音声認識装置及び音声認識方法
Barros et al. Maximum entropy motivated grapheme-to-phoneme, stress and syllable boundary prediction for Portuguese text-to-speech
JPH11175085A (ja) 単語音声認識方法及び音声認識用単語辞書
CN110610721B (zh) 一种基于歌词演唱准确度的检测系统及方法
JPH067357B2 (ja) 音声認識装置
KR20230094826A (ko) 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치
Schmid et al. Explicit, n-best formant features for vowel classification
Soe et al. Syllable-based speech recognition system for Myanmar
Hoesen et al. Automatic pronunciation generator for Indonesian speech recognition system based on sequence-to-sequence model
JPH11175087A (ja) 単語音声認識の文字列マッチング法