JPH0246957B2 - - Google Patents

Info

Publication number
JPH0246957B2
JPH0246957B2 JP59017263A JP1726384A JPH0246957B2 JP H0246957 B2 JPH0246957 B2 JP H0246957B2 JP 59017263 A JP59017263 A JP 59017263A JP 1726384 A JP1726384 A JP 1726384A JP H0246957 B2 JPH0246957 B2 JP H0246957B2
Authority
JP
Japan
Prior art keywords
syllable
vowel
consonant
information
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59017263A
Other languages
English (en)
Other versions
JPS60164798A (ja
Inventor
Mitsuhiko Kano
Yasuhiro Matsuda
Tsudoi Tezuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP59017263A priority Critical patent/JPS60164798A/ja
Publication of JPS60164798A publication Critical patent/JPS60164798A/ja
Publication of JPH0246957B2 publication Critical patent/JPH0246957B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
[産業上の利用分野] この発明は単音節音声認識方法に関し、とくに
簡易な構成でありながら認識率をも向上させるこ
とができるようにしたものである。 [従来技術] 近年コンピユータや各種制御装置等における入
力装置として音声認識装置が実用期を向えるにい
たつている。人間の話す言葉をそのまま認識でき
る音声認識装置では利用のための特別な教育もい
らず、視線や手足の拘束もない等種々の利点を有
する。しかしながら現在実用されている多くの音
声認識装置は単語単位で認識を行う単語音声認識
装置であり、上述の利点の反面語数に限界を持つ
という欠点があつた。 以上のこともあつて最近では音節単位で音声を
認識する単音節音声認識システムが注目されるよ
うになつてきている。周知のとおり日本語におい
ては表音文字により言語体系が構成されているの
で、すなわち各音節がカナの各々にほぼ1対1で
対応するので単音節音声認識システムが各種入力
装置として利用可能である。とくに日本語ワー
ド・プロセツサやワークステーシヨンの普及にと
もなつて、この単音節音声認識システムをこれら
の機器の入力手段に用いる試みが多々なされるよ
うになつている。 ところで単音節音声認識システムでは、通常、
音節の特徴パラメータ時系列(以下単にパターン
という)のうち子音部分を全音節部分から切り出
して、子音部分どうしのマツチングを行うように
している。音節のパターンは単語のパターンに較
べパターン間の特徴に乏しく、さらに一般に母音
部分の時間長が子音部分に較べて極めて長く、子
音部分間の類似度の微少な差が後続母音部分のパ
ターンのゆらぎによつてマスクされてしまうから
である。 吉田氏等の論文「日本語単音節音声認識実験」
(日本音響学会講演論文集、3−2−16、1979年)
はこのような子音部分の切り出しの一例を示して
いる。この例では音節の特徴ベクトルが大きく変
化する点のうちの所定の位置を子音・母音境界と
するアルゴリズムを用いて子音部分を切り出し、
この子音部分を標準登録子音パターンにつき端点
自由のダイナミツクプログラミングマツチング法
(以下DPマツチングとする)を実行して子音情報
を得るようにしている。 また、古井氏の論文「単音節認識とその大語い
単語音音声認識への適用」(電子通信学会論文集
A、65−A;2、pp175−182、1982年)は子音
部分の切り出しの他の手法を示している。この例
では音節全長に対する所定の比率で語頭部を切り
出し、これを同様の登録語頭部と比較して子音情
報を得るようにしている。たとえば線形マツチン
グを実行している。 さらに、中川氏等の論文「不特定話者の単音節
単位入力による大語彙単語音声認識」(電子通信
学会論文集D、65−D、12、pp1558−1565、
1982年)も他の切り出し手法を開示している。こ
の例では対象が不特定話者であるので登録パター
ンを固定とすることができ、このため予め目視に
より登録パターンの各々につき子音、母音の境界
点jを決定するのである。この決定点はたとえば
音声信号の波形やホルマント等を勘案して推定さ
れる。未知入力パターンについては音節全域の登
録パターンとこの未知入力パターンとについて
DPマツチングを行い、その最適パスが上述境界
点jを通過する点iを未知入力パターンの子音、
母音境界点としている。子音情報を得る手法とし
ては端点自由のDPマツチングを含め種々の提案
がなされている。また、この例では上述古井氏の
論文と同様のアルゴリズムにより子音切り出しに
ついても開示がある。 母音情報の特定については上述論文ともDPマ
ツチングより簡易な方法を採用している。そして
この母音情報と上述子音情報とを総合して音節に
ついての識別を行なつている。 しかしながら、上述のような従来の構成では子
音部分と母音部分とを分離するために複雑なアル
ゴリズムを採用する必要があつた。またそうでな
い場合では予め固定の登録パターンについて目視
を行い煩雑な作業と深い経験を要請することとな
つてしまつていた。また、このように子音および
母音の分離点の識別におけるエラーによつて音
節、とくにその子音情報の認識ミスが増大するお
それもあつた。古井氏の例では音節全長に対する
比率で定形的に子音部分の切り出しを行うので上
述のような問題はないけれども、各音節ごとの子
音・母音境界点のバラツキを無視しているため自
ずと各音節ごとに認識率が異なると考えられる。 なお、最終的に音節を認識する段階としては、
子音情報と母音情報とを個別に求め、その組み合
わせから音節を決定する手法がある。たとえば
「i」の母音情報と「k」の子音情報から音節
「キ」を特定するのである。他の手法としては、
母音情報を予め求め、それを後続母音とする音節
を認識候補とし、この候補の音節につきDPマツ
チングなどを行うものが知られている。後者で
は、最終のマツチングにおいて子音と母音との調
音結合要素をも十分考慮できるので良好な判別を
行える。このような2段階の評価については特開
昭54−145409号、特開昭58−52694号および特開
昭58−59498号に記載がある。ただ、この場合、
2段階の評価を行うのが煩雑である。後述のよう
にこの発明の一実現態様ではこのような問題を解
消できる。 [発明が解決しようとする問題点] この発明は以上の事情を考慮してなされたもの
であり、子音を母音から区別することなく簡易か
つ確実に子音情報を得ることのできる単音節音声
認識方法を提供することを目的としている。 [問題点を解決するための手段] この発明では以上の目的を達成するために未知
入力パターンと登録標準パターンとについてDP
マツチングを距離演算を実行していき、これら未
知入力パターンまたは登録標準パターンの語頭か
ら語尾の間の所定の中間点での最小累積距離に基
づいて未知入力パターンの子音情報を識別するよ
うにしている。 この発明の一態様では、子音情報を得る中間点
より語尾がわ、すなわち母音情報源をより多く含
む第2の中間点についても最小累積距離を求め、
これに基づいて母音情報を識別し、こののち識別
母音を後続母音とする候補標準パターンについて
子音情報の識別を行つてもよい。すなわち2段階
のマツチングを行つてもよい。この場合、母音情
報判別時の距離演算の副次物として子音用中間点
の最小累積距離を得ることができ、距離演算を1
回の処理で済ませることができる。 またこの発明の他の態様では、母音情報を得る
際に語尾がわから所定の中間点までDPマツチン
グの演算を行うようにしてもよい。この場合、5
つの母音の標準パターンで確実に未知入力パター
ンの母音を識別できるので、音節すべてにつき参
照を行う場合に比して計算量が極めて減少する。 [実施例] 以下この発明の特定話者用の音声認識装置に適
用した一実施例について図面を参照しながら説明
しよう。 第1図はこの実施例を全体として示すものであ
り、この第1図において、マイクロホン1には話
者の音声が供給され、この音声がオーデイオ信号
に変換されてA/D変換器2に供給される。この
A/D変換器は例えばサンプル周波数が20KHz、
データのビツト長が12ビツトのものである。A/
D変換器2からのデータは特徴パラメータ抽出部
3に供給され、ここで上述データに基づいて特徴
パラメータ時系列(パターン)が形成される。本
例ではこの特徴パラメータとして後に詳述するよ
うに対数化スペクトルを用いている。 本例は特定話者を対象とするものであるので、
音声認識に先だつてトレーニングが行われる。す
なわち、識別すべき所定個数たとえば68個の音節
を話者がマイクロホン1に向つて発声し、これを
順次A/D変換器2および特徴パラメータ抽出部
3で演算し、認識部4に各音節の標準パターンを
供給していく。この場合認識部4の切換回路5は
aがわに切り換えられており認識部4のストア部
6に登録されるようになつている。このような準
備段階ののち話者が音節を区切つてたとえば100
音節/分の速度で音声を入力していくと、各音節
は特徴パラメータ抽出部3を介して未知入力パタ
ーンとして導出され、認識部4のストア部6に記
憶されていく。この際は切換回路5はbがわに切
り換えられている。そして未知入力パターンは順
次68個の標準パターンに参照させられ、この参照
結果のうち一番最適なものが出力回路7を介して
プリンタやモニタ等の出力装置8に出力されてい
く。もちろん、一番最適なものの他に、第2、第
3の候補等をも出力する様にしてもよい。 第1図の特徴パラメータ抽出部3は第2図〜第
6図に示すようにして対数化スペクトルの時系列
を形成する。すなわち、A/D変換器2からのデ
ジタルデータはプリエンフアシスされ、このプリ
エンフアシスされたデータに基づいて時間フレー
ムi、この例では10msecごとのエネルギEiが求
められる。ただし、 Ei=10log10(振幅の二乗値の平均) である。こののち最大エネルギEmaxおよび最小
エネルギEminから正規化エネルギEinを求め、Ei
をたとえば0から32までの値に正規化する。ただ
し、 Ein=32(Ei−Emin)/Emax−Emin である。そしてこうして得た正規化エネルギEin
の時間分布から適切な閾値を設定して音節間の境
界を判別する。 他方、プリエンフアシスされたデジタルデータ
には短時間スペクトル分析も実行される。すなわ
ちデジタルデータを1フレーム10msecごとに移
動させながら20msec(400点)の範囲でハミング
窓の時関関数を用いたウイノグラードの高速フー
リエ変換実行するのである。こうして得たパワー
スペクトルは対数化され、さらに10Hz〜7900Hzま
でのスペクトルが19の周波数バンドに分割され
る。具体的には、100Hzおよび200Hzが1つのバン
ドを形成し、同様に300Hzおよび400Hz、……、
700Hz〜7900Hzがそれぞれバンドを形成する。 こののち無声部分のパワースペクトルの平均値
をバツク・グラウンド・ノイズとして有声部分
(各音節)のパワースペクトルから差し引く。 このようにしてバツク・グラウンド・ノイズが
差し引かれたパワースペクトル、すなわち特徴パ
ターンは時間方向に正規化され、更に周波数成分
の非線形変換を受ける。すなわち、第3図に示す
ような時間1〜nF、周波数バンド1〜mの特徴パ
ターンを考える。ここでnFは各音節ごとのフレー
ム数であり、mはバンド数、本例ではm=19であ
る。各時間および各バンドにおける対数化パワー
スペクトルは簡略化して単に丸印で示してある。
時間方向の正規化を行うには、第4図に示すよう
に標準パターン(語長TR)および未知入力パタ
ーン(語長TI)の両者を所定のパターン長(Tn)
に線形補間により変換する。パターン長Tnは別
途実験により定める。たとえば標準パターン音節
長の平均の1.2倍に選定してよい。 周波数成分の非線形変換は第5図および第6図
に示すようにして行う。すなわち第5図に示すよ
うに時間正規化後の特徴パターンをVijで表わし、
その最大エネルギを ViMAX= MAXj (Vij) で表わす。そしてVijを第6図に示すように下の
式にしたがつて0から255までの値Vijに変換する
のである。 VijViMAX−Vbの場合、Vij=0 Vij>ViMAX−Vbの場合、 Vij=255/Vb(Vij−ViMAX+Vb) なおVbは別途実験により定める。Vb=30、
40、50と変化させた場合、最適値はVb=40であ
つた。 Vbの最適値はノイズパワーに対する音声ピー
ク信号の比に関係していると考えられる。この非
線形変換によりノイズパワーの悪影響を緩和する
ことができる。 つぎに第1図の認識部4について第7図および
第8図をも参照しながら説明しよう。認識部4は
ストア部6、累積距離演算部9等からなつてい
る。ストア部6には、入力パターンPIおよび標準
パターンPRiが蓄えられており、これら入力パ
ターンPIと標準パターンPRiとの間のDPマツチ
ングの演算が累積距離演算部9で実行される。た
だし、この累積距離演算部9ではパターン全体に
わたるマツチング用の演算は必要とされない。少
なくとも入力パターンの時間軸上の時刻tI=tV(第
7図)までの演算が行われていればよい。ここで
第7図の時点tcは子音情報を得るための中間点で
あり、時点tVは母音情報を得るための中間点であ
る。これについては以下で詳述される。 まず所定の未知入力パターンPIについて68個の
標準パターンPRiがマツチングされる。すなわ
ち第8図に示すように未知入力パターンPIと第1
の標準パターンPRiとのDPマツチング演算が実
行されていき、その際tI=tcにおける最小累積距
離Dcが求められる。始点(第7図、語頭がわ)
からtI=tc上の格子(マツチング窓に制限される
のでWcで示される範囲内の格子)までのパスは
種々あるけれども、それらのパスの各々の累積距
離のうち最小のものを求めるのである。こののち
さらにDPマツチングの演算を継続してtI=tVにお
いても同様の最小累積距離Dvを求める。これら
最小累積距離Dc、Dvはストア部6に蓄えられ
る。以下同様にして未知入力パターンと残りの67
個の標準パターンPRi(i=2〜68)との間でDP
マツチング演算が実行されてそれぞれの最小累積
距離Dc、Dvが求められる。 すべての標準パターンPRiについて最小累積
距離Dc、Dvが求められると、つぎにtI=tVにお
ける68個の最小累積距離Dvから母音を決定する。
すなわち最小累積距離Dvを最小とする音節を求
め、この音節の母音を検出母音情報とする。この
のち検出結果の母音を後続母音とする音節(たと
えば母音が「あ」であれば「あ」、「か」、「さ」…
…)についてのtI=tcでの最小累積距離Dcを候補
音節用データとして選び出し、このうち最小の最
小累積距離Dcを持つものを音節検出結果として
出力する。以上の動作は第1図の母音検出部1
0、選択回路11および音節検出部12によつて
実行される。 上述の中間点tI=tc、tVは実験によつて定める。
たとえばtcTn×1/3程度、tv=Tn×0.7程度で 良好な結果が得られた。 本例を68音節につき適用した実検結果は表1の
とおりである。1音節あたりの標準パターンの数
は1つである(単一テンプレート方式)。この表
で第2候補とは第1図の音節検出部12において
2番目に小さな最小累積距離を持つ音節のことで
ある。
【表】 表2から明らかなように本例は先に述べた従前
のものに較べてすぐれた認識結果をもたらすもの
であることがわかる。
【表】 以上述べたようにこの実施例では子音・母音の
セグメンテーシヨンが不要なので極めて簡易な構
成で単音節の認識を行うことができる。さらに母
音情報を得る際のDPマツチング演算の副次物を
利用して子音情報を得ることができ、演算量を少
なくすることができる。またハードウエア実現態
様に極めて適した構成となつている。 この実施例では認識率を向上させることもでき
る。これはつぎのように考えられる。上述のとお
り音節の特徴ベクトルは語頭に子音情報が含ま
れ、語の半ばから語尾にかけての広い範囲にわた
つては母音情報が含まれている。これを模式的に
示すと第9図に示すとおりである。そして目視や
経験により両者の境界は破線で示されるように配
置される。しかしながら、子音は後続母音に影響
を与え、とくに遷移領域には子音決定上重要な要
素が含まれていると考えられる。したがつて、子
音および母音の境界を検出して子音の切り出しを
行うことはかえつて子音情報を不確かなものとし
てしまう。本例では子音・母音境界にこだわるこ
となく、子音情報を得るための中間点tcを実験に
より定め、たとえば第9図に示すように定めてい
るのでより好ましい認識を行うことができる。ま
た子音決定上実現し得るパスの終点は第7図に
Wcで示す格子群であるのでこの範囲で標準パタ
ーンの対応する終点を選び得、入力パターンと標
準パターンとの子音領域での微妙なマツチングを
より自由度高く実行することができ、このため認
識率が向上すると考えられる。 なお、この発明は上述実施例に限定されるもの
ではなくその趣旨を逸脱しない範囲で種々変更が
可能である。たとえば拗音を含む101単音節にこ
の発明を適用してもよく複数テンプレートを用い
ることもできる。上述実施例と同様の構成での
101単音節認識結果は表3のとおりであり、複数
テンプレートでの従前との比較結果は表4に示す
とおりである。
【表】
【表】 また、上述の実施例では母音情報を得る場合に
も語頭からDPマツチングを行つたけれども母音
情報を得る場合に語尾がわからDPマツチングを
行つてもよい。この場合、語長の20〜30%を中間
点とすれば十分に母音を決定できる。母音の標準
パターンとしては「ア」「イ」「ウ」「エ」「オ」の
5つのみでよい。子音の影響により認識エラーが
生じることが少なく、また上述実施例と異つて母
音情報用の演算から副次的に68個または101個の
子音情報を得る必要がないからである。したがつ
て計算量を極めて少なくさせることができる。も
ちろん、母音に関する認識結果から対応する候補
の音節が絞り込まれる。子音情報識別用には別途
68個または101個の標準パターンが用意されてお
り、候補の音節についてこの発明にしたがつて子
音情報に関する参照が行われて最終的に入力音節
の識別が完了する。 また、子音情報を得る際のDPマツチング演算
において、その始点および中間点tcを可変にする
ように構成してもよく、また複数組の始点および
中間点についてそれぞれ音節認識を行つて多数決
で最終決に音節を決定するようにすることもでき
る。 もちろん、登録標準パターンの時間軸上に中間
点を選定し、この中間点での最小累積距離に基づ
いて子音情報を得るようにすることもできる。 [発明の効果] 以上説明したように、この発明によれば未知入
力パターンと登録標準パターンとについてDPマ
ツチングで距離演算を実行していき、これら未知
入力パターンまたは登録標準パターンの語頭から
語尾の間の所定の中間点での最小累積距離に基づ
いて未知入力パターンの子音情報を得るようにし
ている。したがつて子音・母音境界点を判別する
必要がなく構成を簡略化でき、しかも境界点の決
定にともなうエラーをなくすことができる。しか
も子音情報を得るためのマツチングに自由度をも
たせることができるので認識率を向上させること
ができる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロツク
図、第2図、第3図、第4図、第5図および第6
図は第1図実施例の特徴パラメータ抽出部3を説
明するための図、第7図および第8図は第1図実
施例の認識部4を説明するための図、第9図は第
1図実施例の効果を説明するための図である。 1……マイクロホン、2……A/D変換器、3
……特徴パラメータ抽出部、4……認識部、8…
…出力装置。

Claims (1)

    【特許請求の範囲】
  1. 1 未知入力単音節の音声信号を分析して、この
    音声信号から抽出された入力特徴パラメータ時系
    列を予め登録されている登録特徴パラメータ時系
    列に照合して上記未知入力単音節の認識を行う単
    音節音声認識方法において、上記入力特徴パラメ
    ータ時系列と登録特徴パラメータ時系列の各々と
    について語頭部分がわからダイナミツクプログラ
    ミングマツチング法にしたがつて距離演算を実行
    していき、上記入力特徴パラメータ時系列または
    登録特徴パラメータ時系列の各々の語頭から語尾
    の間の予めすべての音節に対し画一的に定められ
    た異なる2つの中間点での最小累積距離を求め、
    上記語尾がわの中間点の最小累積距離に基づいて
    上記未知入力音節の母音を決定し、この母音によ
    り候補音節を絞りこみ、絞り込まれた音節のうち
    上記語尾がわの中間点の最小累積距離を最小とす
    るものを認識結果の音節とすることを特徴とする
    単音節音声認識方法。
JP59017263A 1984-02-03 1984-02-03 単音節音声認識方法 Granted JPS60164798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59017263A JPS60164798A (ja) 1984-02-03 1984-02-03 単音節音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59017263A JPS60164798A (ja) 1984-02-03 1984-02-03 単音節音声認識方法

Publications (2)

Publication Number Publication Date
JPS60164798A JPS60164798A (ja) 1985-08-27
JPH0246957B2 true JPH0246957B2 (ja) 1990-10-17

Family

ID=11939078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59017263A Granted JPS60164798A (ja) 1984-02-03 1984-02-03 単音節音声認識方法

Country Status (1)

Country Link
JP (1) JPS60164798A (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59196A (ja) * 1982-06-25 1984-01-05 中川 聖一 パタ−ン比較装置
JPS59197A (ja) * 1982-06-25 1984-01-05 中川 聖一 パタ−ン比較装置

Also Published As

Publication number Publication date
JPS60164798A (ja) 1985-08-27

Similar Documents

Publication Publication Date Title
US6553342B1 (en) Tone based speech recognition
RU2466468C1 (ru) Система и способ распознавания речи
JPH0352640B2 (ja)
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JPS62217295A (ja) 音声認識方式
JPH07146699A (ja) 音声認識方法
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JPH0556517B2 (ja)
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
JPS6138479B2 (ja)
Iqbal et al. On vowels segmentation and identification using formant transitions in continuous recitation of Quranic Arabic
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JPH0950288A (ja) 音声認識装置及び音声認識方法
JPH0246957B2 (ja)
Vijayalakshmi et al. A study on Automated Speech Recognition
JP2943445B2 (ja) 音声認識方法
JP2574557B2 (ja) 音声認識方法
JP2692382B2 (ja) 音声認識方法
Bordoloi et al. Spectral analysis of vowels of Adi language of Arunachal Pradesh
Takahashi et al. Isolated word recognition using pitch pattern information
JPH1097269A (ja) 音声検出装置及び方法
Deekshitha et al. Implementation of Automatic segmentation of speech signal for phonetic engine in Malayalam
KR20260052323A (ko) 호출어 인식 학습 장치 및 방법