JPS60229099A

JPS60229099A - 音声認識方式

Info

Publication number: JPS60229099A
Application number: JP8670284A
Authority: JP
Inventors: 外川　文雄; 杉浦　輝樹; 充宏斗谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1984-04-26
Filing date: 1984-04-26
Publication date: 1985-11-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は連続音でをより細分化した音節の系列に分解し
て認識する日本語音声認識方式に関し、特に音節特徴パ
ターンに音節の環境を表わす情報を付加し、類似度計算
時に該音節環境情報にもとづいて同じ音節環境にある音
節特徴パターンとの類似度を高くする荷重（重み付け）
演算を行なうことにより、音節の認識率を向上させるよ
うにした認識方式に関するものである。

〈従来技術〉従来、連続音声をより細分化した音節の系列に分解して
認識する方式、即ち音節を単位として連続入力音声を認
識する方式の日本語音声入力装置においては、入力音声
を音節単位にセグメント化して音節のセグメンテーショ
ンを行ない、次忙各音節から抽出した特徴パターンを予
め登録している音節標準パターンと比較照合（パターン
マツチング）して最も類似した標準パターンが属する音
節を識別結果とするように成している。

ところで、一般に日本語音声を音節単位に認識する場合
、対象とする音声が音節毎に区切られて発声されるとき
には前後の音節を発声することによる影響（調音結合）
を殆ど受けないが、連続的に発声されるときにはこの調
音結合の影響が非常に大きくなる傾向にある。

そこで、従来のこの種装置にあっては同じ音節に属する
標準音節特徴パターンとして様々な調音結合の影響を受
けた音節特徴パターン（以下、音節パターンという）を
複数個もたせることによって音節の認識率を向上させる
ようにしていた。

然し乍ら、かかる認識方式によれば次のような問題があ
った。すなわち、例えば「るいじ」の／い／は「いかく
」の／い／よりむしろ異なる音節「す」や「ぎ」に似て
いるよう傾、同じ音節に属する音節パターンが必らずし
も互いに類似しているとは限らない。これは同じ音節（
い）でも発声される音の環境がそれぞれ異なるためであ
る。

よって、上記従来の如く、同じ音節に属する変形した音
節パターンを何個も単純に増やす方法では認識率の向上
に限界があった。

く目　的〉本発明はかかる従来の問題点に鑑みて成されたもので、
その目的とするところは、個々の音節パターンが如何な
る音の環境から抽出きれたものであるかを表わす情報（
以下音節環境という）を当該音節の前後の音韻環境を表
わす音韻特徴記号で記述して音節パターンの付属情報と
して持ち、パターンマツチングなどによる類似度計算に
おいて同じ付属情報を有する標準音節パターンとの類似
度を大きくする荷重（重み付け）演算を行なう。

例えば、「累乗、」という音声が入力され、この音声の
（い）を認識する場合、標準音節バターレとして音韻環
境が同じような４「るいじ」の／い／が登録されている
ときにその音韻環境で類似度に高い重み付けを行ない、
異なった音韻環境にある音節／す／（例えば「りんご」
の（す）等）や／き／（例えば「おにぎり」の（ぎ）等
）とは重み付けを行なわない。こうして、荷重演算処理
を行なった結果、「るいじ」の／い／との類似度が「り
んご」の／シ／や「おにぎり」の／ぎ／との類似度より
高くなり、これによって音節（い）すなわち当該音節が
正しく認識される確率を向上せんとするものである。

なお、上記した付属情報（音節環境）としては、音韻的
特徴情報の他に、音節の音程（基本周波数）。

強さくパワー）及び長さく発声速度）などの音声の韻律
を表わす特徴情報を用いることができ、さらには前記二
つの特徴情報を組み合わせて用いることもできる。この
場合は音節環境をより正確に記述することができ、従来
と比べてより高い音節認識率を得ることができる。

〈実施例〉以下図にもとづいて本発明の詳細な説明する。

第１図は本発明方式を実施した日本語音声人力ｉ置のブ
ロック構成図である。図中１は音響処理部である。この
音響処理部にはマイク（図示せず）等により電気信号に
変換され発声された入力音声情報がアンプ（図示せず）
で増幅され、さらにＡ／１１変換手段（図示せず）にて
デジタル情報として入力される。ここでは入力音声が分
析されて音節のセグメンテーションが行なわれて音節が
抽出され、また入力音声のモーラ数（音節数）、テンポ
及び音程等の韻律情報及び各音節の特徴パターンＰｉ　
が検出される。

２は中央演算処理装置（ＣＰＵ）、３は第３図及び第４
図に示す通り、各音節パターン番号１７に対して順に語
句番号１８と音節位置１９を記憶する音節パターン番号
テーブルと、各語句番号２０に対して音節数２１と音節
番号列２２を記憶する語句テーブルから成るメモリ装置
、４は第５図に示すシラビームテーブル、第６図に示す
音節環境荷重テーブル及び第７図に示す音韻類似度テー
ブルから成るメモリ装置である。

また、５は入力された音声の音節特徴パターンを記憶す
る音節パターンメモリ、６はフレーム毎のケブヌトラム
係数などの特徴パラメータに音節環境を表わす情報を付
加してなる音節パターンを音節標準パターンとして記憶
する標準音節パターンメモリ、７は音節候補ラティスバ
ッファである。

第２図は音声認識処理フローであり、この図により本発
明方式の概略を説明する。デジタル変換された入力音声
を分析して音節を抽出し、次に各音節の特徴パターンを
その音節の環境を表わす情報（付属情報）とともに得る
（８乃至１０）。さらに、各付属情報を付加した音節特
徴パターンは同じ音節環境を表わす付属情報を備えた標
準音節パターンと類似度計算が行なわれ、音節候補と類
似度（ここではパターンマツチングによって算出したパ
ターン間の識別距離（Ｄ）を用いている）の時系列から
成る１次の音節候補ラチスを得る。同時に音節環境を表
わす付属情報を用いて音節識別時にパターンマツチング
で得られる識別距離りに対して荷重演算を行ない荷重も
しくは評価値Ｗを得る（１１乃至１４）。

直前の音節　本音節　直後の音節ＩＳ；音節の始端時刻ＩＥ；音節の終端時刻ｉ　；音節ラティスの第ｉ番目の音節ｊ、に、１：音節候補の候補順位番号く音節候補ラティス〉そして、得られた評価値Ｗを後述する式（４）に代入し
て上記第１の音節候補ラティスを補正した音節候補ラテ
ィスすなわち評価値Ｗによる荷重後の音節候補ラティス
を得る（１５．１６’）。

次に荷重演算について今少し詳細に説明する。

（１）音節の前後の音韻的時、徴記号による評価値（荷
重）Ｗｌ今、上記した音節候補ラティスにおいて、第ｉ番目の音
節に着目すると、まず直前直後の音節候補を第５図に示
すようなシラビームテーブル（ＭＢＥＥＭ）即ちシラビ
ームと呼ばれる単位を基準に２６個の音韻にて各音節（
Ａ、Ｉ、Ｕ、Ｅ、Ｏ・・・）を表現してなるテーブルを
用いて音韻に分解する。

次に、上記音韻に分解した音節候補を直前（ｉ−１）、
直後（ｉ＋１）の音節候補群毎に累積する。

そして、得られた累積音韻（ＸＩ、Ｘ２．Ｘ３）と登録
した標準音節（Ｒ１，Ｒ２，Ｒ３）との音節環境の類似
度を表わす評価値Ｗ＋を第６図に示す音節環境荷重テー
ブル（ＭＣＭ）と第７図に示す音韻類似度テーブル（Ｍ
ＢＭ）を参照して次式（１）　、　（２）　、　（３）
により算出する。

ここで、具体例として入力音声／むしろ／の場合につい
て言えば、まず予め登録されている標準音節パターンと
入力音節パターンとの類似度計算を行なって、第８図（
ａ）に示すように各候補音節、識別Ｊｌｔ及び荷重演算
による評価値Ｗ１からなる補正（処理）前の第１次音節
候補ラティスを得る。

たとえば、同図（ａ）中筒２音節の第２候補音節「もち
ぬし」の／シ／についての評価値Ｗ＋（２，２）を算出
すると次の通りである。（なお、数字の記入がない空伯
部は０である）ｐｔｃｋｂｄｚｇｓｈｍｎｒ　ｊｗｉｅａｏｕＪＲＱＮ
ＦＲ８（ｎ）ＭＣＭ（ｎ、８）４４４４４４４４４４４４４４４４１
１１１１０００００従って、Ｗｌ（２，２）＝１４９十
〇＋０＝１４９このようにして、第１次音節候補ラティスが得られると
、次にその評価値Ｗ＋を用いて次式（４）に従って新ら
だな識別距離Ｄ″ｉ、ｋをめ、前記第１次音節候補ラテ
ィスを補正（処理）する。

Ｄ’　ｉ、ｋ　＝　Ｄ　ｉ　、に／（Ｉ＋Ｗ　Ｉ（ｉ、
ｋ）＊Ｋ　Ｉ　）　式（４）但し、Ｋ】は重み係数であ
る。

たとえば、同図（、）９第３音節の第５候補音節「わい
ろ」の／ろ／について新らたな識別距離Ｄ’ｉ、ｋをめ
ると、重み係数に＋＝０．００２の場合、Ｄ’８．５　
＝Ｄ３，５／（１＋Ｗ　］　（８、５）＊Ｏ，ＯＯ２）
＃　８６８このようにして第８図（ｂ）に示すように識別結果であ
る第１次音節候補ラティスを補正する。

以上の認識方式によれば、入力音声／むしろ／に対し、
第１次音節候補ラティスでは「むしぎょ」が得られたの
に対して、補正後の音節候補ラティスでは「むしろ」と
正しい結果が得られた。なお、本発明方式にもとづいて
実際に認識実験を行なった結果は下記に示す通りであり
、本発明によって音節識別率が上がっていることがわか
る。

音節環境活用の評価実験結果入力；評価用２０文章　５１４音節（長音、促音は含ま
ず）Ｗｌ；前後の音節環境の適用（前後のシラビーム環
境による整合）なお、上記した実施例では、環境として直前と直後の音
節に注目しているが、一般に音節の時系列において識別
対象とする第１音節に対してその前ＩＸ音節まで、その
後ＩＹ音節まで拡張した音節列を環境として用いること
もできる。この場合、評価値Ｗ１をめる式（３）は次式
（５）のようにすればよい。

（２）音節の基本周波数による評価値（荷重）　Ｗ２２
音環境を表わす情報として音節の基本周波数を用いたと
きの評価値Ｗ２は次式（６）によって算出する。

Ｗ２（ｉ　、ｋ）　＝　−ｌ　Ｐｉｔｃｈ（Ｐｉ　、ｋ
）−Ｐｉｔｃｈ（Ｐｉ）　ｌ／　Ｐｉｔｃｈ（Ｐｉ）　
式（６）但し、Ｐｉｔｃｈ（Ｐｉ　、ｋ）はパターンＰｉ、にの
基本周波数を表わしＰｉｔｃｈ（ｉ）は本′音節１の基
本周波数を表わす。第９図（ａ）　、　（ｂ）は入力音
声／あさ／に対する処理前と評価値Ｗ２による荷重後の
音節候補ラティスを表わす。ここでは、Ｋ２＝１　とし
た。

同様に、音節の強さ”（パワー）や音節の長さく発声速
度）等による評価値Ｗ３．Ｗ４．・・を得て、音節候補
ラティスを補正することが出来る。

又、上述した各付属情報を組み合わせることによって音
節環境をより正確に記述することが出来、これによって
より高い音節認識率を得′ることかできる。この場合は
、各評価値Ｗｌ、Ｗ２．Ｗ８・・・を次式（７）のよう
に組み合わせることによって新らたな識別距離Ｄ’　ｉ
、ｋを算出すればよい。

Ｄ″ｉ、ｋ　＝　Ｄｉ、に／（１＋ＷＩ　（ｉ、ｋ）＊
ＫＩ　）／（＋−１−Ｗ２（ｉ、ｋ）＊に２）／（＋＋
Ｗ、ｌ（ｉ、ｋ）＊に３　）・・・　式（７）但し、Ｋ
ｌ、に２．に３．・・・は各評価値に対する重みを表わ
す係数である。

〈効　果〉以上詳細に説明した様に、本発明の音声認識方式は予め
登録されている標準音節特徴パターンと入力された音声
の音節特徴パターンとの類似度計算を行なって各音節を
識別するに際し、音節の前後の音韻的特徴情報及び又は
音声の韻律を表わす特徴情報等の音節環境を表わす情報
を上記音節特徴パターンに付属情報として付加し、上記
類似度計算時にこれらの付属情報にもとづいて同じ音節
環境にある音節特徴パターンとの類似度を高くする荷重
（重み付け）演算を行なうようにしたから、従来に比べ
てより高い音節認識率を得ることができる。

【図面の簡単な説明】

第１図は本発明方式を実施した日本語音声入力装置のブ
ロック構成図、第２図は同方式に係る音声認識処理フロ
ーのブロック図、第３図は音節パターン番号テーブルを
示す図、第４図は語句テーブルを示す図、第５図はシラ
ビームテーブルを示す図、第６図は音節環境荷重テーブ
ルを示す図、第７図は音韻類似度テーブルを示す図、第
８図（ａ）（ｂ）は前後の音韻特徴記号荷重（Ｗ＋）に
よる補正前と補正後の音節候補ラティスを示す図、第９
図（ａ）。（ｂ）は基本周波数の荷重（Ｗ２）による補正前と補正
後の音節候補ラティスを示す図である。ｌは音響処理部、２はＣＰＵ、３．４はメモリ代理人　
弁理士　福　士　愛　彦（他２名）早１図第２２図第３図　第４図ＭＩＩｒＭＩｌ＃、１１１１ノ第５ＵｊＪ（４ＨＩｎｓ／１’ｐ−、／４ｍソ／Ｉｆｍ　（Ｗ／）
入力１斉／ｌ＋Ｌろ／７７１ノ　（Ｗｔ）０４廟も乍−イＩ−ン番号ノ　＾更慟−を幕ネＩＩ疵増
−ＩＷＩノ１０θ 第９図入力音Ｐｌ−さ１（ＷＺ）５

Claims

【特許請求の範囲】

１　連続音声をより細分化した音節の系列に分解して認
識する日本語音声入力装置に於て、予め登録されている
標準音節特徴パターンと入力された音声の音節特徴パタ
ーンとの類似度計算を行なって各音節を識別するに際し
、音節の前後の音韻的特徴情報及び又は音声の韻律を表
わす特徴情報等の音節環境を表わす情報を上記音節特徴
パターンに付属情報として付加し、上記類似度計算時に
これらの付属情報にもとづいで同じ音節環境にある音節
特徴パターンとの類似度を高くする荷重（重み付け）演
算を行なうようにしたことを特徴とする音声認識方式。