JPS6033599A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6033599A JPS6033599A JP58143181A JP14318183A JPS6033599A JP S6033599 A JPS6033599 A JP S6033599A JP 58143181 A JP58143181 A JP 58143181A JP 14318183 A JP14318183 A JP 14318183A JP S6033599 A JPS6033599 A JP S6033599A
- Authority
- JP
- Japan
- Prior art keywords
- word
- vowel
- syllable
- input
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識装置、特に単音節音声を認識すること
により、任意の文章の入力が可能な音声認識装置に関す
る。
により、任意の文章の入力が可能な音声認識装置に関す
る。
従来例の構成とその問題点
人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前記単語辞書中のどの
単語に最も近いかを予め定められた規則によって計算し
、最も類似している単語を認識結果とするものである。
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前記単語辞書中のどの
単語に最も近いかを予め定められた規則によって計算し
、最も類似している単語を認識結果とするものである。
ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する。
(2)認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
くなる。
以上の欠点を回避するための方法として認識の単位を子
音+母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマッチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であり、単音節は仮名文字に対応しているから、この
方法によれば、日本語の任意の単語あるいは交信を単音
節列に変換する(認識する)ことができ、前記(1)〜
(3)の問題はすべて解決されることになる。しかし、
この場合の問題として調音結合とセグメンテーションが
ある。調音結合は、音節を連続して発声すると各音節は
前後の音節の影響を受け、スペクトル構造が前後に接続
される音節によって変化する現象である。セグメンテー
ションは、連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行うのは現在の技術では
困難である。この2つの問題を解決するために、現在の
ところ各単音節を区切って、発声することが行われてお
り、実用化されている装置もある。
音+母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマッチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であり、単音節は仮名文字に対応しているから、この
方法によれば、日本語の任意の単語あるいは交信を単音
節列に変換する(認識する)ことができ、前記(1)〜
(3)の問題はすべて解決されることになる。しかし、
この場合の問題として調音結合とセグメンテーションが
ある。調音結合は、音節を連続して発声すると各音節は
前後の音節の影響を受け、スペクトル構造が前後に接続
される音節によって変化する現象である。セグメンテー
ションは、連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行うのは現在の技術では
困難である。この2つの問題を解決するために、現在の
ところ各単音節を区切って、発声することが行われてお
り、実用化されている装置もある。
第1図は単音節音声認識をパターンマッチングで行う装
置の一般的な構成である。1は音声信号の入力端子であ
る。2は特徴抽出部であって、入力音声信号を、フィル
タバンクやFET、LPCなどにより分析し、数ミリ秒
毎に特徴ベクトルの系列A=a1.a2・・・・・・a
i・・・・・・aIに変換する。3は標準パターン記憶
部であって予め認識すべき単音節音声を同様な手段によ
って特徴ベクトルの系列に変換したものを各音節に対す
る標準パターンRn=bn1bn2・・・・・・bnj
・・・・・・bnJn(ただし、n=1、2、・・・・
・・、N;Nは標準パターンの数として記憶する部分で
ある。4はパターン比較部であって、特徴抽出部2の出
力である入力パターンAと、標準パターン記憶部3に記
憶されている夫々の標準パターンRnを比較し.両者の
距離D(A、Rn)を算出する。6は判定部であって、
n=minn [D(A、Rn)]により、入力パターンに最も近い標
準パターンRnを判定する。6は判定結果を単音節認識
結果として出力する出力端子である。パターン比較部4
におけるパターン比較は、動的計画法を用いた所謂DP
マッチングや線形シフトマッチング等がよく用いられる
。また、先ず母音を認識して候補刊音段を決定してから
、その母音段に属する標準パターンを用いて子音部を認
識することにより、認識率とマッチングの速度を向上さ
せているので一般的である。
置の一般的な構成である。1は音声信号の入力端子であ
る。2は特徴抽出部であって、入力音声信号を、フィル
タバンクやFET、LPCなどにより分析し、数ミリ秒
毎に特徴ベクトルの系列A=a1.a2・・・・・・a
i・・・・・・aIに変換する。3は標準パターン記憶
部であって予め認識すべき単音節音声を同様な手段によ
って特徴ベクトルの系列に変換したものを各音節に対す
る標準パターンRn=bn1bn2・・・・・・bnj
・・・・・・bnJn(ただし、n=1、2、・・・・
・・、N;Nは標準パターンの数として記憶する部分で
ある。4はパターン比較部であって、特徴抽出部2の出
力である入力パターンAと、標準パターン記憶部3に記
憶されている夫々の標準パターンRnを比較し.両者の
距離D(A、Rn)を算出する。6は判定部であって、
n=minn [D(A、Rn)]により、入力パターンに最も近い標
準パターンRnを判定する。6は判定結果を単音節認識
結果として出力する出力端子である。パターン比較部4
におけるパターン比較は、動的計画法を用いた所謂DP
マッチングや線形シフトマッチング等がよく用いられる
。また、先ず母音を認識して候補刊音段を決定してから
、その母音段に属する標準パターンを用いて子音部を認
識することにより、認識率とマッチングの速度を向上さ
せているので一般的である。
しかし、単音節音声は、持続時間が短かく、「シ」、「
チ」等子音部の微妙な差によって区別しなけれけならな
いものが多く、単語音声のように高い認識率を得るのが
困難である。
チ」等子音部の微妙な差によって区別しなけれけならな
いものが多く、単語音声のように高い認識率を得るのが
困難である。
この問題を解決するために、単語辞書を用いる方法が考
えられている。第2図はその例である。
えられている。第2図はその例である。
同図において、第1図と同一の番号を付したブロックは
、第1図と同一の動作を行う。7は単語辞書で、認識す
べき単語Wl(l=1.2、・・・・・・、L;Lは登
録単語数)が単音節に対応する記号列Wl=Cl1Cl
2・・・・・・ClK・・・・・・ClKl(ClKは
単語Wlのk番目の音節)として記憶されている。8は
単語比較部であって、入力単音節列T=A1A2・・・
・・・Am・・・・・・AM(Mは入力単語の音節数)
であるとき、入力単語の音節数に等しい音節数の単語辞
書7に記憶されている単語Wl′=Cl′=Cl′1C
l′2・・・・・・Cl′M(Wl′は音節数Mの単語
)に対し、パターン比較部4で算出された距離D(Am
、Cl′m)から各l′についてDW(T、Wl′)=
ΣMm=1D(Am、Cl′m)を算出する。9は判定
部であって、 l′=minl′(T(S、Wl′))なるl′をめ、
Wl′を認識単語と判定する。10は認識された単語を
出力する出力端子である。
、第1図と同一の動作を行う。7は単語辞書で、認識す
べき単語Wl(l=1.2、・・・・・・、L;Lは登
録単語数)が単音節に対応する記号列Wl=Cl1Cl
2・・・・・・ClK・・・・・・ClKl(ClKは
単語Wlのk番目の音節)として記憶されている。8は
単語比較部であって、入力単音節列T=A1A2・・・
・・・Am・・・・・・AM(Mは入力単語の音節数)
であるとき、入力単語の音節数に等しい音節数の単語辞
書7に記憶されている単語Wl′=Cl′=Cl′1C
l′2・・・・・・Cl′M(Wl′は音節数Mの単語
)に対し、パターン比較部4で算出された距離D(Am
、Cl′m)から各l′についてDW(T、Wl′)=
ΣMm=1D(Am、Cl′m)を算出する。9は判定
部であって、 l′=minl′(T(S、Wl′))なるl′をめ、
Wl′を認識単語と判定する。10は認識された単語を
出力する出力端子である。
以上のように、単語辞書の知識を用いれば認識率は向上
する。またワードプロセサへの入力を考えるとき、前記
単語辞書は仮名漢字変換を行うための辞書を共用するこ
とができ、単語辞書は音声認識用として特別に準備する
必要はない。
する。またワードプロセサへの入力を考えるとき、前記
単語辞書は仮名漢字変換を行うための辞書を共用するこ
とができ、単語辞書は音声認識用として特別に準備する
必要はない。
しかし、即語辞書の単語数は通常3万以上にもおよび、
単語比較部8における計算量が無視できなくなる。
単語比較部8における計算量が無視できなくなる。
発明の目的
本発明は、単語辞書を用いて、単音節の認識率の向上を
図った単音節音声認識装置に関し、より詳細には、単語
辞書とのマッチングの速度を向上せしめたことを特徴と
する音声認識装置に関する。
図った単音節音声認識装置に関し、より詳細には、単語
辞書とのマッチングの速度を向上せしめたことを特徴と
する音声認識装置に関する。
発明の構成
本発明は、入力音声信号を特徴ベクトルの系列に変換す
る手段と、入力音声信号を音節毎に区切る手段と、前記
特徴ベクトルの系列から前記各音節の後続母音を認識す
る手段と、前記後続母音列と同じ後続母音列を有する単
語あるいは文節の音節列を記号列として得る手段と、前
記記号列と前記入力音声信号から得られた音節列とをマ
ッチングする手段と、このマッチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記入力音
声に対応する認識結果と判定する判定手段とを備えた音
声認識装置である。
る手段と、入力音声信号を音節毎に区切る手段と、前記
特徴ベクトルの系列から前記各音節の後続母音を認識す
る手段と、前記後続母音列と同じ後続母音列を有する単
語あるいは文節の音節列を記号列として得る手段と、前
記記号列と前記入力音声信号から得られた音節列とをマ
ッチングする手段と、このマッチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記入力音
声に対応する認識結果と判定する判定手段とを備えた音
声認識装置である。
本発明の基本的な考え方について、以下、説明する。
単音節音声の認識において、母音の認識はほぼ確実に行
われる。従って、入力単音節CVまたは■1(Cは子音
、■は母音)の後続母音の系列が■1V2・・・・・・
VMであったとき、照合すべき単語辞書の単語として、
その単語を構成する単音節の後続母音の系列が■1V2
・・・・・・VMとなる単語のみを選べばよいことにな
る。例えば、入方単音節列の後続母音が|o||o||
a||a|であったとすれば、照合すべき単語としては
「oosaka」「toyonaka」・・・・・・等
が選ばれることになる。
われる。従って、入力単音節CVまたは■1(Cは子音
、■は母音)の後続母音の系列が■1V2・・・・・・
VMであったとき、照合すべき単語辞書の単語として、
その単語を構成する単音節の後続母音の系列が■1V2
・・・・・・VMとなる単語のみを選べばよいことにな
る。例えば、入方単音節列の後続母音が|o||o||
a||a|であったとすれば、照合すべき単語としては
「oosaka」「toyonaka」・・・・・・等
が選ばれることになる。
このようにすると、例えば、4音節の単語の場合、母音
の出現確率が等しいとすれば、ある特定の母音列の生す
る確率は(1/5)4=1/625となり4音節の単語
が1万語あるとすれば、ある特定の母音列に対応する4
音節語は16語となり、実際に比較計算をしなければな
らない単語は激減する。
の出現確率が等しいとすれば、ある特定の母音列の生す
る確率は(1/5)4=1/625となり4音節の単語
が1万語あるとすれば、ある特定の母音列に対応する4
音節語は16語となり、実際に比較計算をしなければな
らない単語は激減する。
余裕をみて、第2候補の母音も勘定に入れるとしても(
2/5)4≒1/39となり、同様に4音節の単語が1
万語あるとすれば、比較計算をすべき4音節語は266
語となり、大幅に減少する。さらに促音や撥音も上記母
音同様に処理することにすれば、さらに比較計算を減少
させることができる。
2/5)4≒1/39となり、同様に4音節の単語が1
万語あるとすれば、比較計算をすべき4音節語は266
語となり、大幅に減少する。さらに促音や撥音も上記母
音同様に処理することにすれば、さらに比較計算を減少
させることができる。
これら母音や促音、撥音等の認識はほぼ完全に行われる
ので、計算量の減少のみでなく認識率自体も向上する。
ので、計算量の減少のみでなく認識率自体も向上する。
実施例の説明
第3図は本発明の一実施例の音声認識装置の構成を示す
ブロック図である。11は音声信号の入力端子で、単音
節の連鎖として単語が入力される。
ブロック図である。11は音声信号の入力端子で、単音
節の連鎖として単語が入力される。
12は従来例において説明したと同様の特徴抽出部であ
って、前記の如く入力音声を特徴ベクトルの系列に変換
する。13はパワー計算部であって、特徴抽出部12の
出力ベクトル系列をa1a2・・・・・ai・・・・・
・aIとするとき、第iフレームのパワーPiは、例え
ばai=(ai1、ai2・・・・・・、aiμ)とす
れ ば、Pi=■ai12+ai22+・・・・・・+ai
μ2としてめられ得る。14は音節区間検出部であって
、パワー計算部13の出力から、入力音声を音節毎に区
切り各音節の開始フレームと終了フレームとを検出する
。第4図はその例であって、パワーが閾値29を越える
時点を音節の開始フレーム、閾値29以下になる時点を
音節の終了フレームとし、閾値29以上の区間を音節の
存在区間とする。また閾値29以下の区間が一定値tc
以上あるときは、その区間を促音とみなす。同図は「s
apporo」と発声したときの様子を示すもので、Q
は促音を意味する。15は音節数計数部であって、促音
も一音節とみなして音節数(従ってモーラ数)を計数す
る。16は母音標準パターン記憶部であって、母音|a
|、|i|、|v|、|e|、|o|および撥音|N|
の標準パターンが予め登録されている。
って、前記の如く入力音声を特徴ベクトルの系列に変換
する。13はパワー計算部であって、特徴抽出部12の
出力ベクトル系列をa1a2・・・・・ai・・・・・
・aIとするとき、第iフレームのパワーPiは、例え
ばai=(ai1、ai2・・・・・・、aiμ)とす
れ ば、Pi=■ai12+ai22+・・・・・・+ai
μ2としてめられ得る。14は音節区間検出部であって
、パワー計算部13の出力から、入力音声を音節毎に区
切り各音節の開始フレームと終了フレームとを検出する
。第4図はその例であって、パワーが閾値29を越える
時点を音節の開始フレーム、閾値29以下になる時点を
音節の終了フレームとし、閾値29以上の区間を音節の
存在区間とする。また閾値29以下の区間が一定値tc
以上あるときは、その区間を促音とみなす。同図は「s
apporo」と発声したときの様子を示すもので、Q
は促音を意味する。15は音節数計数部であって、促音
も一音節とみなして音節数(従ってモーラ数)を計数す
る。16は母音標準パターン記憶部であって、母音|a
|、|i|、|v|、|e|、|o|および撥音|N|
の標準パターンが予め登録されている。
17は母音フレーム検出部であって、音節区間検出部1
4で検出された各音節の開始、終了フレームと特徴抽出
部12で抽出された特徴ベクトルの系列から母音に相当
するフレーム位置を検出する。
4で検出された各音節の開始、終了フレームと特徴抽出
部12で抽出された特徴ベクトルの系列から母音に相当
するフレーム位置を検出する。
母音部は定常であるから請求めるべきフレームは、第i
−rフレームから第i+rフレーム(rは定数)までの
特徴ベクトルの各成分の分散の総和が極小となるフレー
ムiとして検出することができる。即ち、第iフレーム
の入力の特徴ベクトルをai=(ai1、ai2、・・
・・・・、aij、・・・・・・、aiμ)とするとき mij=1/2r+1Σi+rk=i−r(anj−m
ij)2において、各単音節の最終フレームから逆にv
iをめてゆき、viが極小になったフレームを母音定常
部中心フレームとすることができる。18はバッファメ
モリであって、単音節毎に特徴抽出部12で抽出された
特徴ベクトルの系列を音声区間検出部14で検出された
単音節開始フレームから終了フレームまでにわたって記
憶する。19は母音パターン比較部であって、母音フレ
ーム検出部17で検出されたフレームに対応する特徴ベ
クトルをバッファメモリ18から読み出し、母音標準パ
ターン記憶部16の各母音標準パターンと比較を行いそ
れぞれに対する距離を算出する。例えば、ai=(ai
1、ai2、・・・・・・aiμ)が入力単音節の母音
フレームに対応する特徴ベクトルであるとき、ν番目の
母音標準パターン(撥音も含む)vν=(vν1、vν
2、・・・・・・、vνμ)(ただし、ν=1,2、・
・・・・・、)との距離は diν=■ΣμK=1(aik−vνk)2とすること
ができる。20は母音判定部であって、ν=min[d
iν〕 ν をめvνに対応する母音を母音認識結果とする。
−rフレームから第i+rフレーム(rは定数)までの
特徴ベクトルの各成分の分散の総和が極小となるフレー
ムiとして検出することができる。即ち、第iフレーム
の入力の特徴ベクトルをai=(ai1、ai2、・・
・・・・、aij、・・・・・・、aiμ)とするとき mij=1/2r+1Σi+rk=i−r(anj−m
ij)2において、各単音節の最終フレームから逆にv
iをめてゆき、viが極小になったフレームを母音定常
部中心フレームとすることができる。18はバッファメ
モリであって、単音節毎に特徴抽出部12で抽出された
特徴ベクトルの系列を音声区間検出部14で検出された
単音節開始フレームから終了フレームまでにわたって記
憶する。19は母音パターン比較部であって、母音フレ
ーム検出部17で検出されたフレームに対応する特徴ベ
クトルをバッファメモリ18から読み出し、母音標準パ
ターン記憶部16の各母音標準パターンと比較を行いそ
れぞれに対する距離を算出する。例えば、ai=(ai
1、ai2、・・・・・・aiμ)が入力単音節の母音
フレームに対応する特徴ベクトルであるとき、ν番目の
母音標準パターン(撥音も含む)vν=(vν1、vν
2、・・・・・・、vνμ)(ただし、ν=1,2、・
・・・・・、)との距離は diν=■ΣμK=1(aik−vνk)2とすること
ができる。20は母音判定部であって、ν=min[d
iν〕 ν をめvνに対応する母音を母音認識結果とする。
21は母音・促音判定結果記憶部であって、母音判定部
20で判定された母音と音節区間検出部14で検出され
た促音とを発生順序に従って記憶する。
20で判定された母音と音節区間検出部14で検出され
た促音とを発生順序に従って記憶する。
22は単音節標準パターン記憶部であって、特徴ベクト
ルの系列に変換された、それぞれの単音節に対応する標
準パターンが記憶されている。23は単音節パターン比
較部であって、バッファメモリ18に蓄えられている入
カパターンと単音節標準パターン記憶部22に蓄えられ
ている単音節標準パターンとを比較し、 前記入カバターンのそれぞれの単音節標準パターンに対
する距離を計算するものである。このとき、照合すべき
単音節標準パターンは、母音判定部20で判定された母
音を後続母音としてもつ単音節に限られる。また、各単
音節に対し比較する範囲はその単音節の開始フレームか
ら母音の定常部までとする。これは、丁度、子音の情報
が含まれている部分である。比較照合の方法は線形シフ
トマッチングやDPマッチング等周知の方法が用いられ
得る。DPマッチングを用いることにすれば次のように
なる。n番目の単音節標準パターンをRn=bn1bn
2・・・・・・bni・・・・・bnJn、単音節入カ
パターンをA=a1a2・・・・・・ai・・・・・・
aI(ただしI、Jnはそれぞれ入カパターン、標準パ
ターンの母音定常部中心フレーム)、dn(i、j)を
aiとbnjのベクトル間距離とするとき なる漸化式をg(1,1)=2dn(1,1)として解
けば、AとRnの距離D(A、Rn)は D(A、Rn)=g(I、J) となる。ここでdn(i、j)はai=(ai1、aj
2、・・・・・・aiμ)bnj=(bnj1、bni
2.・・・・・・bnjμ)とするときdn(i,j)
=Σμk=1|aik−bnjk|とするのが、一般的
である。また上記漸化式も種々の形が提案されておりこ
こではその一例を示したにすぎない。24は距離記憶部
であって、単音節パターン比較部23で計算された距離
を記憶するものである。単音節列A1A2・・・・・・
Am・・・・・・AMからなる単語が入力されたときは
、距離記憶部24はD(Am、Rn)を1≦m≦M、R
n■SAmのすべてについて記憶する。ただしAmと同
じ後続母音をもつ単音節標準パターンの集合をSAmと
する。
ルの系列に変換された、それぞれの単音節に対応する標
準パターンが記憶されている。23は単音節パターン比
較部であって、バッファメモリ18に蓄えられている入
カパターンと単音節標準パターン記憶部22に蓄えられ
ている単音節標準パターンとを比較し、 前記入カバターンのそれぞれの単音節標準パターンに対
する距離を計算するものである。このとき、照合すべき
単音節標準パターンは、母音判定部20で判定された母
音を後続母音としてもつ単音節に限られる。また、各単
音節に対し比較する範囲はその単音節の開始フレームか
ら母音の定常部までとする。これは、丁度、子音の情報
が含まれている部分である。比較照合の方法は線形シフ
トマッチングやDPマッチング等周知の方法が用いられ
得る。DPマッチングを用いることにすれば次のように
なる。n番目の単音節標準パターンをRn=bn1bn
2・・・・・・bni・・・・・bnJn、単音節入カ
パターンをA=a1a2・・・・・・ai・・・・・・
aI(ただしI、Jnはそれぞれ入カパターン、標準パ
ターンの母音定常部中心フレーム)、dn(i、j)を
aiとbnjのベクトル間距離とするとき なる漸化式をg(1,1)=2dn(1,1)として解
けば、AとRnの距離D(A、Rn)は D(A、Rn)=g(I、J) となる。ここでdn(i、j)はai=(ai1、aj
2、・・・・・・aiμ)bnj=(bnj1、bni
2.・・・・・・bnjμ)とするときdn(i,j)
=Σμk=1|aik−bnjk|とするのが、一般的
である。また上記漸化式も種々の形が提案されておりこ
こではその一例を示したにすぎない。24は距離記憶部
であって、単音節パターン比較部23で計算された距離
を記憶するものである。単音節列A1A2・・・・・・
Am・・・・・・AMからなる単語が入力されたときは
、距離記憶部24はD(Am、Rn)を1≦m≦M、R
n■SAmのすべてについて記憶する。ただしAmと同
じ後続母音をもつ単音節標準パターンの集合をSAmと
する。
25は単語辞書であって、認識すべき単語が音節記号列
で表現された形で記憶されている。26は単語間距離計
算部であって、単音節列として入力された単語と単語辞
書25の単語との距離を距離記憶部24に記憶されてい
る距離から計算する。
で表現された形で記憶されている。26は単語間距離計
算部であって、単音節列として入力された単語と単語辞
書25の単語との距離を距離記憶部24に記憶されてい
る距離から計算する。
単語辞書25に対し、比較照合されるべき単語は音節数
計数部15における値、即ち、入力単語の音節数と、母
音・促音判定結果記憶部21で示される後続母音(撥音
・促音を含む)列と同じ後続母音列をもつ単語に限定さ
れる。いま、この限定された単語の集合をSwとし、W
l■SWなる単語WlがCl1Cl2・・・・・・Cl
m・・・・・・ClMなる音節列からなっているとすれ
ば、前記説明によって単音節AmとClmとの単音節間
距離D(Am、Clm)は距離記憶部24に記憶されて
いるので、入力単語T=A1A2・・・・・・Am・・
・・・・AMと単語辞書の単語WlCl1Cl2・・・
・・・Clm・・・・・・ClMとの距離DW(T,W
l)はDW(T、Wl)=ΣMm=1D(Am,Clm
)としてめることができる。27は単語判定部であって l=min[DW(T,Wl)] Wl■SW なるlをめ、Wlを認識単語と判定する。28は認識結
果の出力端子である。
計数部15における値、即ち、入力単語の音節数と、母
音・促音判定結果記憶部21で示される後続母音(撥音
・促音を含む)列と同じ後続母音列をもつ単語に限定さ
れる。いま、この限定された単語の集合をSwとし、W
l■SWなる単語WlがCl1Cl2・・・・・・Cl
m・・・・・・ClMなる音節列からなっているとすれ
ば、前記説明によって単音節AmとClmとの単音節間
距離D(Am、Clm)は距離記憶部24に記憶されて
いるので、入力単語T=A1A2・・・・・・Am・・
・・・・AMと単語辞書の単語WlCl1Cl2・・・
・・・Clm・・・・・・ClMとの距離DW(T,W
l)はDW(T、Wl)=ΣMm=1D(Am,Clm
)としてめることができる。27は単語判定部であって l=min[DW(T,Wl)] Wl■SW なるlをめ、Wlを認識単語と判定する。28は認識結
果の出力端子である。
なお、本実施例においては、単語単位で認識するとして
説明したが、これは勿論、文節単位で行うこともできる
。その場合は、名詞に付属語を付加したものや動詞、形
容詞、形容動詞等の活用形までも含めて前記単語とみな
して単語辞書に登録しておく方法も考えられるが、この
方法では、単語辞書のメモリ量が大幅に増えるので、単
語辞書には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部26で比較照合を行うとき、
種々の文節を規則で作り出すようにすることもできる。
説明したが、これは勿論、文節単位で行うこともできる
。その場合は、名詞に付属語を付加したものや動詞、形
容詞、形容動詞等の活用形までも含めて前記単語とみな
して単語辞書に登録しておく方法も考えられるが、この
方法では、単語辞書のメモリ量が大幅に増えるので、単
語辞書には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部26で比較照合を行うとき、
種々の文節を規則で作り出すようにすることもできる。
特に、仮名漢字変換機能付のワードプロセッサの入力と
して本発明装置を用いるときは、単語辞書は仮名漢字変
換用のものが共用でき、前記付属語を作る機能ももとも
と備わっているのですこぶる好都合である。
して本発明装置を用いるときは、単語辞書は仮名漢字変
換用のものが共用でき、前記付属語を作る機能ももとも
と備わっているのですこぶる好都合である。
また、本実施例では促音を無音区間長から検出するとし
たが、「つ」と発声することにより、促音を入力するよ
うにもできる。このときは、単語辞書において促音を「
つ」に置き換えておけばよく、実際は「つ」であるのか
促音であるのかの区別は言語処理の問題として簡単に行
い得る。
たが、「つ」と発声することにより、促音を入力するよ
うにもできる。このときは、単語辞書において促音を「
つ」に置き換えておけばよく、実際は「つ」であるのか
促音であるのかの区別は言語処理の問題として簡単に行
い得る。
さらに、本発明は発声を単音節毎に区切って発声する場
合について述べたが、単音節の区切りが行えれば良いの
であって、連続的に発声してもこの区切りが行える場合
は、本発明の原理はそのまま適用可能である。
合について述べたが、単音節の区切りが行えれば良いの
であって、連続的に発声してもこの区切りが行える場合
は、本発明の原理はそのまま適用可能である。
発明の効果
本発明によれば、単音節のみの認識でなく、単語全体と
しての認識を行っており、また、比較照合すべき単語を
母音列で限定することにより、認識率、照合速度におい
て大幅な改善が得られたものである。
しての認識を行っており、また、比較照合すべき単語を
母音列で限定することにより、認識率、照合速度におい
て大幅な改善が得られたものである。
第1図は従来の単音節音声認識装置を示すブロック図、
第2図は前記従来例を改良した例を示すブロック図、第
3図は本発明の一実施例における音声認識装置を示すブ
ロック図、第4図は本発明装置の一部の動体を説明する
波形図である。 11・・・・・・音声信号入力端子、12・・・・・・
特徴抽出部、13・・・・・・パワー計算部、14・・
・・・・音声区間検出部、15・・・・・・音節数計数
部、16・・・・・・母音標準パターン記憶部、17・
・・・・・母音フレーム検出部、18・・・・・・バッ
ファメモリ、19・・・・・・母音パターン比較部、2
0・・・・・・母・音判定部、21・・・・・・母音・
促音判定結果記憶部、22・・・・・・単音節標準パタ
ーン記憶部、23・・・・・・単音節パターン比較部、
24・・・・・・距離記憶部、25・・・・・・単語辞
書、26・・・・・・単語間距離計算部、27・・・・
・・単語判定部、28・・・・・・認識結果出力端子。
第2図は前記従来例を改良した例を示すブロック図、第
3図は本発明の一実施例における音声認識装置を示すブ
ロック図、第4図は本発明装置の一部の動体を説明する
波形図である。 11・・・・・・音声信号入力端子、12・・・・・・
特徴抽出部、13・・・・・・パワー計算部、14・・
・・・・音声区間検出部、15・・・・・・音節数計数
部、16・・・・・・母音標準パターン記憶部、17・
・・・・・母音フレーム検出部、18・・・・・・バッ
ファメモリ、19・・・・・・母音パターン比較部、2
0・・・・・・母・音判定部、21・・・・・・母音・
促音判定結果記憶部、22・・・・・・単音節標準パタ
ーン記憶部、23・・・・・・単音節パターン比較部、
24・・・・・・距離記憶部、25・・・・・・単語辞
書、26・・・・・・単語間距離計算部、27・・・・
・・単語判定部、28・・・・・・認識結果出力端子。
Claims (1)
- 入力音声信号を特徴ベクトルの系列に変換する手段と、
入力音声信号を音節毎に区切る手段と、前記特徴ベクト
ルの系列から前記各音節の後続母音を認識する手段と、
前記後続母音列と同じ後続母音列と同じ後続母音列を有
する単語あるいは文節の音節列を記号列として得る手段
と、前記記号列と前記入力音声信号から得られた音節列
とをマッチングする手段と、このマッチングの結果、前
記入力音声信号に最も近い前記単語あるいは文節を前記
入力音声に対応する認識結果と判定する判定手段とを有
することを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58143181A JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58143181A JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6033599A true JPS6033599A (ja) | 1985-02-20 |
| JPH0585918B2 JPH0585918B2 (ja) | 1993-12-09 |
Family
ID=15332768
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58143181A Granted JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6033599A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6377098A (ja) * | 1986-09-19 | 1988-04-07 | 富士通株式会社 | 不特定話者子音識別装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5786899A (en) * | 1980-11-18 | 1982-05-31 | Mitsubishi Electric Corp | Voice recognition apparatus |
| JPS5859498A (ja) * | 1981-10-05 | 1983-04-08 | 日本電信電話株式会社 | 音声認識装置 |
| JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
-
1983
- 1983-08-04 JP JP58143181A patent/JPS6033599A/ja active Granted
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5786899A (en) * | 1980-11-18 | 1982-05-31 | Mitsubishi Electric Corp | Voice recognition apparatus |
| JPS5859498A (ja) * | 1981-10-05 | 1983-04-08 | 日本電信電話株式会社 | 音声認識装置 |
| JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6377098A (ja) * | 1986-09-19 | 1988-04-07 | 富士通株式会社 | 不特定話者子音識別装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0585918B2 (ja) | 1993-12-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6553342B1 (en) | Tone based speech recognition | |
| JPH10501078A (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
| Pellegrino et al. | Automatic language identification: an alternative approach to phonetic modelling | |
| Haraty et al. | CASRA+: A colloquial Arabic speech recognition application | |
| JPS6138479B2 (ja) | ||
| JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
| Nga et al. | A Survey of Vietnamese Automatic Speech Recognition | |
| JPS6033599A (ja) | 音声認識装置 | |
| JP2813209B2 (ja) | 大語彙音声認識装置 | |
| JP3039453B2 (ja) | 音声認識装置 | |
| JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
| JP3110025B2 (ja) | 発声変形検出装置 | |
| JP2760096B2 (ja) | 音声認識方式 | |
| JPH0695684A (ja) | 音声認識システム | |
| JPH04291399A (ja) | 音声認識方法 | |
| KR20060067107A (ko) | 조음모델을 이용한 연속음성인식 장치 및 그 방법 | |
| JPS60182499A (ja) | 音声認識装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPS63161499A (ja) | 音声認識装置 | |
| JP2578771B2 (ja) | 音声認識装置 | |
| JPS60150098A (ja) | 音声認識装置 | |
| JPS607492A (ja) | 単音節音声認識方式 | |
| Santiprabhob et al. | A framework for connected speech recognition for Thai language |