JPH0760318B2 - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JPH0760318B2
JPH0760318B2 JP61227961A JP22796186A JPH0760318B2 JP H0760318 B2 JPH0760318 B2 JP H0760318B2 JP 61227961 A JP61227961 A JP 61227961A JP 22796186 A JP22796186 A JP 22796186A JP H0760318 B2 JPH0760318 B2 JP H0760318B2
Authority
JP
Japan
Prior art keywords
word
matching
transition network
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61227961A
Other languages
English (en)
Other versions
JPS6383799A (ja
Inventor
恒雄 新田
堅助 上原
貞一 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP61227961A priority Critical patent/JPH0760318B2/ja
Priority to US07/101,789 priority patent/US4888823A/en
Priority to EP87114236A priority patent/EP0265692B1/en
Priority to DE8787114236T priority patent/DE3778116D1/de
Publication of JPS6383799A publication Critical patent/JPS6383799A/ja
Publication of JPH0760318B2 publication Critical patent/JPH0760318B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は連続発声された音声を高精度に認識することの
できる連続音声認識方式に関する。
(従来の技術) 近時、音声の認識処理に対する研究が種々進められてお
り、離散的に発声された単語音声の認識処理のみならず
連続発声された音声の認識処理が種々試みられている。
第6図は従来より提唱されている連続音声の認識処理の
一般的な処理手続きを示す図である。この図に示される
ように、入力音声は先ず音響分析部1にてBPF(バンド
・パス・フィルタ)分析、或いはLPC(線形予測)分析
されてその特徴パラメータが求められた後、音韻認識部
2に与えられて音韻辞書3に予め登録された各音韻の標
準パターンと照合される。この音韻照合によって複数の
候補からなる音韻系列が求められ、その類似度と共に単
語照合部4に与えられる。
単語照合部4ではこの音韻系列から単語を識別処理する
が、同時に単語列検証部5と協働して知識源6に格納さ
れた構文や意味的情報、一般常識等を利用してその検索
単語を絞ったり、或いは識別処理して求められた単語列
が妥当か否かの検証を行なうものとなっている。
ここで上記単語認識は、単語辞書7に標準形として書か
れている単語候補を検索し、音韻変換部8にてその単語
の音韻列を求める。そして変形処理部9にて音形規則10
を参照して上記単語の音韻列を変形処理する。音韻列の
変形処理は、例えば調音結合による単語内、または単語
境界に対する変形を与える処理等からなる。
前記単語照合部4ではこのようにして求められる各単語
の音韻列と、前記音韻認識部2にて求められる入力音声
の音韻列とをマッチング処理し、その処理結果を示すス
コアを前記単語列検証部5に送るものとなっている。
ところがこのような処理手続きで示される連続音声の認
識法にあっては、次のような2つの大きな問題がある。
その1つは認識セグメントの単位の選択と、調音結合・
単語照合の問題である。また他の1つは、その演算処理
時間の問題である。
即ち、上述した第6図に示す認識処理では音韻を認識セ
グメントとして行なっている。しかし認識セグメントと
しては、従来より音韻レベルの細かいものから、音節レ
ベルのものまで種々提唱されている。しかして一般に音
韻をセグメント単位とすると、音声の調音結合に対処し
易い反面、上述したようにその単語照合方式や単語辞書
の構成が複雑化することが否めない。一方、音節をセグ
メント単位とすると、標準形で書かれた単語辞書をその
まま利用することができ、単語照合の簡易化を図り得る
反面、調音結合に対する対応が甚だ困難となる等の問題
がある。
またその演算処理時間に関しては、連続音声認識では認
識セグメント毎に時間軸に沿って連続的にマッチング処
理を行なう必要があり、その演算処理回数が膨大となる
ことが否めない。この為、従来では専ら、例えば特徴パ
ラメータの数を減らしたり、或いは入力音声に対する分
析の間隔(フレーム周期)を長くする等してその処理性
能を犠牲にし、これによって連続入力音声に対する実時
間処理を行なっているのが実情である。
(発明が解決しようとする問題点) このように従来の連続音声認識技術にあっては、 実時間処理を行なう為に特徴パラメータの数を少な
くする等しているので、高精度にその認識セグメントを
抽出することができない、 単語照合方式および単語辞書の複雑化を招来するこ
となしに調音結合の問題を解消することが甚だ困難であ
る、 等の共に相反する問題を有している。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、上述した不具合を招くことなく
連続発声された音声を簡易に、しかも高精度に認識する
ことのできる連続音声認識方式を提供することにある。
[発明の構成] (問題点を解決するための手段) 第1図は本発明の概要を示す図で、基本的には音声学的
に意味のあるセグメント(Phonetic Segment;PS)を認
識処理単位とし、このPS単位の認識辞書との間で時間軸
方向に連続的にマッチング処理し、このマッチング処理
の結果求められたPS系列とその類似度(距離値)を求め
る。そして上記類似度(距離値)を正規化し、その正規
化尺度値を単語照合部に送る。
単語照合部ではこれを単語遷移ネットワークを通して単
語同定を行い、該遷移ネットワークを通過した単語とそ
のスコアを求めて単語列を評価し、最適単語列を選択す
る。そしてその単語列が妥当であるか否かの検証を行な
って連続音声を認識するようにしたものである。
この処理概念を更に詳しく説明すると、先ず音響分析部
11にて入力音声を、例えばLPC分析(BPF分析でも良い)
する。この分析された特徴パラメータを連続マッチング
処理部12に与え、PS辞書13に登録されている所定のPS単
位の認識辞書と時間軸方向に連続的にマッチング処理す
る。尚、上記認識辞書は、各SP毎に複数の標準パターン
から作成された識別用辞書からなる。
このマッチング処理部12で求められたPS系列とその類似
度(距離値)を類似度(距離値)正規化部14に与え、正
規化テーブル15を参照して前記PS系列の各PS単位の類似
度(距離値)をそれぞれ正規化する。この正規化は、正
規化テーブル15から前記各PS毎に正規化の為の定数を求
め、この定数に従って前記各PS単位の類似度(距離値)
を正規化してその正規化尺度値を求めることによって行
われる。この正規化処理結果に従って上位の第n位まで
のPS単位とその正規化尺度値をそれぞれ選択抽出し、こ
れを単語照合部16に送る。
単語照合部16では単語ネットワークバッファ17に単語遷
移ネットワークの形で蓄えられている各単語候補毎に前
記PS系列を遷移ネットワークに通し、その遷移ネットワ
ークを通過した単語とそのスコア、およびその遷移ネッ
トワークにおける終端ノード情報を求めて単語列検証部
18に送る。この単語列検証部18にて上記単語列とそのス
コアから最適単語列が選択される。
このようにして求められた最適単語列が妥当であるか否
かの検証を、知識処理部19にて構文・意味・一般常識を
参照し、文節単位、或いは文単位で実行して前記入力音
声に対する認識結果を求める。
ここで上記単語列検証部18では、その処理の途中におい
て単語列が時々刻々求められる都度、その単語列と終端
ノード情報とを前記知識処理部19に与える。そして知識
処理部19ではその都度、求められた単語列に接続可能な
単語を検索する。この検索処理は、単語列に接続可能な
単語を構文・意味・一般常識等の知識源を適用して絞
り、その接続可能な単語の情報とその前の単語の終端ノ
ード情報とをネットワークコンパイラ20に送ることによ
って果たされる。
このネットワークコンパイラ20は上記候補単語を受け、
PS単位とその継続時間を要素とする遷移ネットワークを
生成するものである。尚、生成した遷移ネットワークの
始端が複数存在する場合には、前の単語の終端ノード情
報を参照してその始端を特定する。このようにして生成
された遷移ネットワークが前記単語ネットワークバッフ
ァ17に転送されて前述した単語照合処理に供される。
(作用) 本発明では、単語辞書を通常の読みに従った形で準備し
ておき、必要に応じてこれを認識セクメントで表現され
る単語ネットワーク(遷移ネットワーク)に変換するの
で、上記単語辞書を簡単に追加・作成することができ
る。
またその認識セグメントを音声学的に意味のあるセグメ
ント(PS)を用いて定義しているので、例えば従来のよ
うに音韻を認識セグメントとする場合のような不具合を
招来することがない。ちなみに音韻を認識セグメントと
した場合には、そのネットワークへの変換の為の規則が
複雑になりすぎ、その実現が困難となる。また変換規則
を単純化した場合には、新しい単語の追加時にその変換
規則を適用できなくなることが多くあり、規則そのもの
を新たに作成する必要が生じる等の不具合がある。
ここで本発明で用いられるPSとしては、例えば次のよう
なものからなる。
(1) 持続性セグメント;(1−1)母音定常部 (1−2)摩擦子音部 (2) 子音セグメント;母音への渡り(過渡部)を含
む部分[半音節] (3) 音節境界セグメント;(3−1)母音境界 (3−2)母音・子音境
界 (3−3)母音・無音境
界 (4) その他のセグメント;無声化母音等 このうち(1)(2)(4)については音節を認識セグ
メントとする場合にも採用されることが多い。しかし本
発明に係るPSの長所は、上記(1)(2)(4)に示さ
れるセグメントに加えて上記(3)の音節境界セグメン
トを採用したことにある。
ここで(3)の音声境界セグメントについて更に詳しく
説明する。
(3−1)母音境界; 通常は異なる母音V1,V2の境界に生じる母音V1から母音V
2への過渡的な部分をセグメントとして扱う。また、例
えば1秒間に10音節近い速度の速い発声時に出現する三
連母音(撥音「ん」も母音として扱う)V1,V2,V3の速い
過渡部の、上記母音V2を中心とする前後の過渡部分もこ
の認識セグメントに加える。
(3−2)(3−3)母音・子音または無音境界; 母音から子音に至る区間を「母音から母音・子音境界ま
で」を認識セグメントとする。そして子音については、
あくまで子音(+母音への過渡部分)としてセグメント
化する。これにより、従来のVCVまたはVCを単位とした
場合に比較して安定な認識セグメントを構成する。また
このセグメント単位は比較的少ない数(VCV単位の半分
以下)で、しかも時間的にも短い範囲を扱うので連続マ
ッチングの際の演算量の点でも有利となる。
ここで従来のセグメント単位について考察してみると、
連続音声に対して認識セグメントを時間軸に沿って連続
的にマッチングしていくと、子音部や母音部については
比較的良く、その本来のセグメントに対応したラベル
(認識セグメントの名称)が得られる。しかし母音と子
音との境界や母音と無音との境界では特別なラベルを準
備していない為にランダムなラベル系列が出現する。
通常、このような場合には入力ラベル系列と標準ラベル
系列との間でDP(動的計画法)に基くマッチングを行
い、ランダムなラベルが出現する区間を迂回している。
しかしこの手法は便宜的な解決法であり、実際上、DPの
パス(迂回路)に制限を加える為、この区間を確実に吸
収することが困難である場合が多い。
一方、従来より認識セグメントとしてVCVを用いること
が行われている。この手法は子音を母音で挟むことによ
ってその子音部を安定に認識しようとするものである。
このVCVを採用することによって、対応するラベルも比
較的安定して得られることが期待される。
しかしVCV単位の数が900にも及ぶ為、実用性の点て問題
が残されている。しかもこの単位は時間的に長い範囲を
対象とするので、連続マッチングを行なう際の演算量が
増大すると云う不具合を持っている。
更にはVCV単位では母音Vから子音C、および子音Cか
ら母音Vへの2つの区間変動要因を同時に抱える為、認
識セグメントとして見るときパターンの変動が大きい。
換言すれば、パターン変動を吸収する為には、より多く
の音声データを必要とすることを意味する。
ところで欧米における音声認識ではCVおよびVCをセグメ
ント単位とすることか多く行われている。これは欧米の
言語にあっては子音で終わる形態が少ないことによるも
ので、CV或いはVCとV,Cとを一まとめすることでその子
音を安定に認識しようとするものである。この内、上記
CVについては比較的安定な単位と考えられるが、VCは必
ずしも安定に発声される訳ではない。
この点、本発明では上述したようにPSをセグメント単位
として定めているので、その認識セグメントを非常に安
定なものとすることができる。
ちなみに本発明では、欧米形の言語音声に対しては、無
声音についてはその子音区間のみを、また有声音に対し
ては「先行母音と子音の境界から子音まで」をPS単位と
すれば良い。
さて上述したPSを認識セグメントとする場合、セグメン
トの特徴パラメータの次元数と時間幅(フレーム数)が
問題となる。即ち、母音定常部等についてはその特徴パ
ラメータの次元数を多く必要とするが、そのフレーム数
は少なくて良い。また破裂子音等については特徴パラメ
ータの次元数もそのフレーム数も或る程度必要である。
更に摩擦子音等にあっては特徴パラメータの次元数は少
なくて良いが、多くのフレーム数を必要とする。
そこで例えば上記特徴パラメータの次元数、およびその
フレーム数をそれぞれの最大値に設定して連続音声を認
識しようとすると、連続マッチングの際の演算量が非常
に膨大化する。しかもフレーム数を最大値に設定してし
まうことで、本来の短い時間の現象が捕え難くなると云
う不具合が生じる。
そこで本発明では、各認識セグメントPSの特徴パラメー
タとフレーム数を、例えばそのフレーム周期を8msecと
したとき (特徴パラメータ,フレーム数); (16,4)(14,6)(12,8)(10,10)(8,12) の組合せの中から選択するようにしている。この結果、
母音では特徴パラメータの次元数を(16)と大きく取
り、また摩擦子音についてはフレーム数を(12)と多く
取るようにしている。
またこのようにすることでPS全体の次元数を64〜100
と、上述したように特徴パラメータの次元数、およびそ
のフレーム数をそれぞれの最大値に設定する場合のほぼ
半分に押えている。この結果、連続マッチング時の演算
量を実用的な範囲に納めるものとなっている。
さてこのようにその構成(特徴パラメータ,フレーム
数)の異なる認識セグメントを採用した場合、連続マッ
チングの結果として得られる各PSの類似度(距離値)を
相互に比較することができないと云う問題が生じる。そ
こで本発明では、その類似度Sj(時刻jにおける類似
度)を正規化し、この正規化尺度を用いて単語照合する
ようにしている。
この類似度Sjの正規化は次のようにして行われる。
入力されたPSの名がKiで示されるとき、Kiの類似度の確
率をPr(Sj|Ki)とする。また全ての類似度の出現確率
をPr(Sj)、Kiが生起する確率をPr(Ki)とすると、或
る類似度Sjが与えられたとき、それが前記Kiに属する確
率Pr(Ki|Sj)は となる。ここで上記Pr(Kj)は前記各PSがそれぞれ独立
であると考えられるならば定数としておくことが可能で
ある。また上記Pr(Sj)は前記各PSに依存することはな
い。
従って上記Pr(Sj|Ki)を予め各PSについて求めておけ
ば、上記確率Pr(Ki|Sj)を比較的簡単に計算すること
ができる。即ち、多量の音声サンプルから上記Pr
(Sj),Pr(Sj|Ki)をそれぞれ計算しておけば、その類
似度Sjを上述した式を用いて正規化することが可能とな
る。
しかしこの式で示される演算を実際に実行することは繁
雑である。そこで、例えば次のような近似を用いる。
第2図(a)は2種類のPS,つまりK1,K2についてその類
似度の確率Pr(Sj|K1),Pr(Sj|K2)を全ての類似度の
出現確率をPr(Sj)と対比して示している。また第2図
(b)は上記2種類のK1,K2について求められた確率Pr
(K1|Sj),Pr(K2|Sj)を示している。そこでこれをモ
デル化して次のべき乗の式で近似し、第2図(c)に示
すようにする。
この式は、両辺の対数を求め、 A1A1 Smax1=1,A2A2 Smax2=1 であることを考慮すると、 K1;logP1=logA1+SjlogB1 =1−(Sj−Smax1)logB1 K2;logP2=logA2+SjlogB2 =1−(Sj−Smax2)logB2 と表現することができる。この式を用いることにより、
例えば前記各PS毎に(logBi,Smaxi)を求めておき、こ
れをテーブル化しておくことによって、容易に正規化し
た新しい尺度logPiを計算することが可能なことがわか
る。
次に本発明における単語照合につき説明する。単語照合
は、例えば上記の第n位までのPS系列を求め、これを単
語の遷移ネットワークに通して該ネットワークを通過し
たものを正解候補(認識候補)とすることにより行われ
る。このとき、遷移の途中で主要なPSに対するlogPi
値を累積し、単語としてのスコアを計算する。
尚、主要なPSとは前述した母音定常部や子音セグメント
等であり、母音と子音との境界や母音と無音との境界セ
グメントについては原則として上記単語スコアの計算に
は用いない。
しかして単語スコアの計算は次のようにして行われる。
Pr(Wl|K1,K2,……) =logP1+logP2+……… 即ち、単語ネットワーク中の主要なPSがK1,K2,……であ
り、入力PS系列の上記主要なPSに対応する正規化尺度の
値がlogP1,logP2,……であるならば、上記入力PS系列が
上記単語Wlである尤度(非尤度)を上式で定義する。こ
れにより単語としてのスコアを簡単に計算することが可
能となる。この場合にはその値が小さい程、単語Wlであ
る可能性が高いことになる。
単語列の評価はこのスコアを累積して比較して行なう。
このとき、その単語列が妥当であるか否かを知識源19の
構文・意味・一般常識を参照して検証する。
以上のようにして連続発声された入力音声を認識処理す
ることによって、その入力音声を高精度に認識すること
が可能となる。
(実施例) 次に本発明の具体的な実施例につき、第3図に示す四則
演算式を音声入力することを目的とした装置に例に説明
する。
入力音声はA/D変換器21にて、例えばサンプリング周波
数12KHz,12bitで量子化された後、パワー計算部22に入
力されてその音声パワーが計算され、またLPC分析部22
に入力されてLPC分析される。このLPC分析は、例えば窓
長16msec,フレーム8msecで16次のLPCメルケプストラム
を分析パラメータとして行われる。
連続マッチング部24でのPSによる連続マッチング処理
は、次式に示す複合LPCメルケプストラム類似尺度を用
いて行われる。
尚、CはLPCメルケプストラム,▲λ(Ki) m▼,▲ψ(Ki)
m▼はそれぞれPS名Kiの固有値とその固有ベクトルであ
る。また( ・ )を内積を示し、‖ ‖はノルムを示
している。
ここで、四則演算式を音声入力する為のPSとしては、次
の79種が準備される。
持続性セグメント;AA1A,AA2A,II1A,II2A UU1A,UU2A,EE1A OO1A,OO2A,NN1A,NN2A,SS1C 但し、PS名の最初の3文字はPSカテゴリの種類を示す。
具体的にはAA1は母音「ア」の定常部分であり、AA2は文
末等に現われる弱い発音の「ア」である。その他の母音
についても同様であるが、「エ」についてはEE2Aは現わ
れない。SS1は摩擦音である。
また最後の文字A,C(後述するように、この他にもB,D,E
がある。)はパターンの前述した(パラメータ次元数,
フレーム数)を示し、次のように定められる。
A=(16,4)B=(14,6)C=(12,8)D=(10,10)
E=(8,12) 子音セグメント;QI1C,KA1B,KU1B,KE1B,SA1E SU1E,TA1B,CI1D,NA1B,NA2B NI1B,NI2B,HA1C,HA2B,HI1C QY1E,RU2B,RO1B,RO2B,WA1D GO1D,GO2B,ZE1E,ZE2D,KY1E 尚、QI1は無音から始まる語頭の母音(Qは無音)を示
し、NA1,NA2はそれぞれ語頭の子音および語中の子音で
あることを示している。
境界セグメント;(母音と半母音との境界) AI1C,AN1A,AWAD,IA1B,IWAD UI1C,UWAD,OI1C,ON1A,OWAD NNIA,NWAD,YU1E,YO1E,UYOC OYOD,ANID,ONID ここでAI1は母音「ア→イ」の境界セグメント、ONIは高
速で発声した、例えば「41(ヨンイチ)」の途中に現わ
れる母音「オ→ン→イ」の境界セグメントを示してい
る。
;(母音と子音との境界) AN2A,AH1A,AG1A,AR1A,IH1A IX1A,IR1A,UN2A,UG1A,UR1A UH1A,ER1A,OH1A,OX1A,OR1A ここに示すAN2は母音「ア」から母音「ア」と子音/n/の
境界までを示すセグメントであり、IX1はxとして/n/,/
G/を含むものである。
;(母音と無音との境界) AQ1A,IQ1A,UQ1A,OQ1A,NQ1A 他のセグメント;CQ1C,KS1C,EROB,IQAB CQ1Cは「1,8」等の無声化部であり、KS1Cは「63(ロク
サン)」の無声化+摩擦部を示している。またEROBは高
速発声時の「0(ゼロ)」に生じる調音結合部、IQABは
無音(Q)を挟んで調音結合を生じたセグメントを示し
ている。
このような79種のセグメントの情報が直交化辞書として
PS複合辞書部25に格納されている。
前記連続マッチングで求められた類似度▲S(Ki) j
(時刻jにおけるPS名Kiに対する類似度)は、類似度正
規化部26にて前述した構成の正規化テーブル27を参照し
て正規化尺度に変換される。そして、例えば上位の第5
位までが正規化尺度での値と共に単語照合部28に送られ
る。
第4図は単語照合部28に送られるPS系列の出力例とその
声紋、および音声パワーの例を示すもので、数字「482
0」を発声入力したときの一部を示している。
尚、前述した例では、PS毎にそれぞれ別の正規化処理を
行なったが、(logBi,Smaxi)のPSによる差が少ない場
合には、単一の変換テーブルを用いてその正規化処理を
簡単化するようにしても良い。また無音・バズ・無声抽
出部29は、前記音声パワーとLPC分析結果とに従って、
そのフレーム区間が無音(Q)であるか、バズ(B;声帯
音のみ)であるか、或いは無声(F)であるかを検出し
ており、その検出結果を示すラベルを前記単語照合部28
に送っている。
次にこのようなPS系列に対する単語照合処理について説
明する。
ネットワークコンパイラ30は、知識処理部31から送られ
る候補単語(この四則演算の例では、最初の数字のみ)
を受け、これをPS系列に変換した後、種々の規則を適用
して遷移ネットワークを構成する。第5図はこの様子を
示すものである。
第5図(a)は「8(ハチ)」の遷移ネットワークの標
準形である。ネットワークコンパイラ30は与えられた単
語を、先ずPS表現に置換えてこのような遷移ネットワー
クの標準形を生成する。その後、次のようにして単語境
界の変形処理を順に進める。
先ず、始端に対する処理が次のように進められる。先ず
「語中での変形」を規則の中から探す。ここでその規則
に『“HA"が語中で有声音“HA2"に置換可能』なことが
書かれていると、第5図(b)に示すように新しいパス
を付加える。そしてこのパスに関して、状態(始端ノー
ド)So2に、その前に有声音が近接することを示す情報
#を付加する。
その後、同様にして「語中での変形」や「例外」の規則
を探す。この例では、その規則から『“H"が脱落する可
能性がある』ことが見出されることから、第5図(b)
に示すように状態S2に新たなパスが付加される。そして
このパスに関し、状態So3に、その前に無声化が近接す
ることを示す情報 を付加する。
このような処理を施して前記標準形の遷移ネットワーク
の始端側を変形処理する。
次にその終端側について同様に変形処理を進める。この
例では「接続規則」を探すことによって、『有声音
(#)との接続の際に、“IQ1"が“IX1,IR1,IH1"に置換
する可能性がある』ことが見出される。この結果、第5
図(c)に示すように状態S6に対して新たなパスを生成
する。そしてそのパスの終端Hに対してその条件を示す
情報#を付加する。また同様に『母音「イ」が後続する
場合、“II2"(II1を含んでも良い)がTjフレーム以上
続く可能性がある』ことが見出される。この規則に従っ
て状態S5から新たなパスを生成する。そしてそのパスの
終端Hに対してその条件を示す情報Iを付加する。
一方、「無声化規則」を参照することによって『無声子
音(F)が後続する場合、強い無声化(母音が完全に欠
落すること)が生じる可能性がある』ことが見出され
る。従ってこの規則に従って第5図(c)に示すように
状態S4から新たなパスを作成し、その終端Hにその条件
を示す情報Fを付加する。
更には『摩擦音Sが後続する場合には、無音(Q)がTj
フレーム以上続く可能性がある』と云う規則に従い、状
態S3から新たなパスを作成し、その終端にその条件を示
す情報Sを付加する。
また例外規則から、『高速発声において“CI"が無声化
(弱い無声化)した場合、“H"が脱落して“IA1"に置換
される』ことが示されることから、同様にして状態S5か
らパスを作成し、その終端に情報Aを付加する。
このようにして前記遷移ネットワークの終端に対して変
形処理を施し、単語境界の変形を考慮した遷移ネットワ
ークを生成する。そしてこの遷移ネットワークを単語遷
移ネットワークバッファ32に転送して格納し、前記単語
照合部28による単語照合に供する。
しかして単語照合部28では、単語遷移ネットワークバッ
ファ32に格納された各単語の遷移ネットワークと、前述
した如く与えられる入力PS系列とを順に照合処理する。
第4図に示す例では、第5位までのPS系列とそのラベル
Q,B,Fとを入力し、「0,1,〜9」までの数字単語、およ
び「たす,ひく,かける,わる,わ」なる四則演算を示
す単語の各遷移ネットワークとのマッチング処理を行な
う。そしてこの場合には、「4,8,2……」なる単語列し
か上記遷移ネットワークの終端に達するものがないこと
が求められる。
尚、遷移ネットワークの各状態は、例えば3フレームま
でスキップ(ドント・ケア)できるものとして構成され
る。しかしそれでもPSの入力がない場合には、ネットワ
ーク不通過と看做することになる。
このようにして単語遷移ネットワークを通過した単語に
ついては、前述した単語スコアとその終端ノードに付さ
れた情報が求められ、単語列評価部33に送られる。そし
て単語列評価部33において、得られた単語列とその累積
スコアとから最適単語列の選択処理が行われる。
しかして知識処理部31では、上記最適単語列とその終端
ノード情報を受け、例えば「わ(=)」が文末でないと
ころにあったり、「たす(+),ひく(−),かける
(×),わる(÷)」が文末にある場合等、その単語列
が構文的に不適切であるとしてこれを排除する。
またこの際、次に接続可能な単語の候補(例えば四則演
算記号を示す単語の次には数字のみが接続可能)を終端
ノード情報として付し、これを前記ネットワークコンパ
イラ30に与える。ネットワークコンパイラ30では、この
ようにして終端ノード情報が付された単語候補が与えら
れた場合、それによって生成される単語遷移ネットワー
クの始端部に制限を加えて、つまりその始端部の生成条
件に拘束を加えて遷移ネットワークを生成することにな
る。
具体的には第5図(b)において前の単語が有声音
(#)で終わっている場合には、その始端の状態をSo2
に限定してその遷移ネットワークを構成する。
以上のようにして各単語の遷移ネットワークを構成しな
がら、入力PS系列が該遷移ネットワークを通過するか否
かを判定しながらその単語照合処理が行われ、その認識
結果が求められる。
尚、本発明は上述した実施例に限定されるものではな
く、その要旨を逸脱しない範囲で種々変形して実施可能
なことは勿論のことである。
[発明の効果] 以上説明したように本発明によれば、音声学的に意味の
ある単位(PS)を認識セグメントとし、単語遷移ネット
ワークを用いて認識処理を実行するので、連続音声中に
生じる母音・子音の変形に効果的に対処して連続発声さ
れた音声を高精度に認識することができる。しかも標準
形で記述した単語辞書から比較的容易に遷移ネットワー
クを生成し得るので、その認識処理を簡易に、しかも効
果的に進めることができ、演算処理が膨大化することも
ない等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
第1図は本発明の一実施例方式の概念を示す図、第2図
は類似度の正規化の過程を示す図、第3図は実施例方式
を適用して構成される連続音声認識装置の概略構成図、
第4図はPS系列の一例を示す図、第5図は遷移ネットワ
ーク生成の手順を示す図、第6図は従来の一般的な連続
音声認識処理の手順を示す図である。 11……音響分析部、12……PS連続マッチング部、13……
PS辞書、14……類似度正規化処理部、15……類似度正規
化テーブル、16……単語照合部、17……単語ネットワー
クバッファ、18……単語列検証部、19……知識処理部、
20……ネットワークコンパイラ。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力して音響分析する手段と、 この音響分析によって求められた特徴パラメータの時系
    列を音声学的セグメント(Phonetic Segment)単位毎
    に予め定められた次元数と時間幅を単位として予め定め
    られた音声学的セグメント単位の音声辞書との間で連続
    的にマッチング処理する手段と、 このマッチング処理で求められた上記所定の音声学的セ
    グメント単位毎の類似度又は距離値を正規化定数テーブ
    ルを参照して正規化して正規化尺度値に変換する手段
    と、 上記マッチング処理によって求められる上位の第n位ま
    での音声学的セグメント単位候補とその正規化尺度値と
    をそれぞれ抽出する手段と、 これらの音声学的セグメント単位候補とその正規化尺度
    値とを単語毎に作成された遷移ネットワークを通してマ
    ッチング処理して単語照合する手段と、 この単語照合結果に基いて最適単語候補列を求める手段
    と、 構文・意味的情報を参照して上記最適単語候補列から単
    語候補列を選択し、その単語候補列に接続可能な単語候
    補を求める知識処理手段と、 この単語候補から逐次遷移ネットワークを生成する手段
    と、 この生成された遷移ネットワークを前記単語照合手段に
    与える手段とを具備したことを特徴とする連続音声認識
    方式。
  2. 【請求項2】正規化テーブルは、各音声学的セグメント
    単位毎に準備されるものである特許請求の範囲第1項記
    載の連続音声認識方式。
  3. 【請求項3】遷移ネットワークを用いた単語照合処理
    は、該遷移ネットワーク中の主な音響学的セグメント単
    位に対応する正規化尺度値を抽出し、その正規化尺度値
    を累積して単語毎のスコアを計算して行われるものであ
    る特許請求の範囲第1項記載の連続音声認識方式。
  4. 【請求項4】遷移ネットワークの生成は、各単語の遷移
    ネットワークに終端情報を付し、この終端情報によって
    次に接続可能な単語の始端部を拘束して行われるもので
    ある特許請求の範囲第1項記載の連続音声認識方式。
JP61227961A 1986-09-29 1986-09-29 連続音声認識方式 Expired - Lifetime JPH0760318B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP61227961A JPH0760318B2 (ja) 1986-09-29 1986-09-29 連続音声認識方式
US07/101,789 US4888823A (en) 1986-09-29 1987-09-28 System for continuous speech recognition through transition networks
EP87114236A EP0265692B1 (en) 1986-09-29 1987-09-29 System for continuous speech recognition
DE8787114236T DE3778116D1 (de) 1986-09-29 1987-09-29 System zur kontinuierlichen spracherkennung.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61227961A JPH0760318B2 (ja) 1986-09-29 1986-09-29 連続音声認識方式

Publications (2)

Publication Number Publication Date
JPS6383799A JPS6383799A (ja) 1988-04-14
JPH0760318B2 true JPH0760318B2 (ja) 1995-06-28

Family

ID=16868968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61227961A Expired - Lifetime JPH0760318B2 (ja) 1986-09-29 1986-09-29 連続音声認識方式

Country Status (4)

Country Link
US (1) US4888823A (ja)
EP (1) EP0265692B1 (ja)
JP (1) JPH0760318B2 (ja)
DE (1) DE3778116D1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
US5222188A (en) * 1990-08-21 1993-06-22 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5097216A (en) * 1990-10-09 1992-03-17 Agr International, Inc. Apparatus for inspecting the wall thickness of a container and corresponding method
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
US5606645A (en) * 1992-02-28 1997-02-25 Kabushiki Kaisha Toshiba Speech pattern recognition apparatus utilizing multiple independent sequences of phonetic segments
SG93215A1 (en) * 1993-03-25 2002-12-17 British Telecomm Speech recognition
US6230128B1 (en) 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
US5819222A (en) * 1993-03-31 1998-10-06 British Telecommunications Public Limited Company Task-constrained connected speech recognition of propagation of tokens only if valid propagation path is present
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US9384729B2 (en) 2011-07-20 2016-07-05 Tata Consultancy Services Limited Method and system for detecting boundary of coarticulated units from isolated speech

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
JPS59121098A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
JPS59121100A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
JPS59131999A (ja) * 1983-01-19 1984-07-28 松下電器産業株式会社 音声認識装置
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
EP0265692B1 (en) 1992-04-08
JPS6383799A (ja) 1988-04-14
EP0265692A1 (en) 1988-05-04
US4888823A (en) 1989-12-19
DE3778116D1 (de) 1992-05-14

Similar Documents

Publication Publication Date Title
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10140973B1 (en) Text-to-speech processing using previously speech processed data
Zissman et al. Automatic language identification
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
JPH0760318B2 (ja) 連続音声認識方式
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones.
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
US20160379638A1 (en) Input speech quality matching
JPH05265483A (ja) 複数の出力を与える音声認識法
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
Fu et al. A survey on Chinese speech recognition
Tu et al. Enabling beam search for language model-based text-to-speech synthesis
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for Turkish
Lazaridis et al. Syllable-based regional Swiss French accent identification using prosodic features
Qian et al. A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
JP2943445B2 (ja) 音声認識方法
Takahashi et al. Isolated word recognition using pitch pattern information
Pandey et al. Fusion of spectral and prosodic information using combined error optimization for keyword spotting
Sun Phoneme-to-Audio Forced Alignment with Basic Syllable Types and Broad Phonetic Classes
Waibel Suprasegmentals in very large vocabulary isolated word recognition
JP3299170B2 (ja) 音声登録認識装置
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JPH0695684A (ja) 音声認識システム
Payande et al. DESIGNING AN INTELLIGENT TRANSLATION SOFTWARE BY AUDIO PROCESSING TECHNIQUES.