JPH03120600A

JPH03120600A - 連続音声認識装置

Info

Publication number: JPH03120600A
Application number: JP1259359A
Authority: JP
Inventors: Hidefumi Sawai; 沢井　秀文; Masanori Miyatake; 正典宮武; Kiyohiro Kano; 清宏鹿野
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date: 1989-10-03
Filing date: 1989-10-03
Publication date: 1991-05-22
Anticipated expiration: 2009-06-01
Also published as: JPH0642159B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明はニューラルネットワークによる連続音声認識
方式に関し、特に、ニューラルネットワークを用いた音
声認識装置において、連続的に発声された音声を認識す
るようなニューラルネットワークによる連続音声認識方
式に関する。

［従来の技術および発明が解決しようとする課題］従来
、連続的に発声された音声の認識を行なう場合には、ま
ず連続音声中の音韻のセグメントテーシジンを行、ない
、次にセグメントテーシジンーされた音声を認識する方
法が一般的に採用されている。また、従来の方式では、
高精度の音韻のセグメントチージョン方式と、音韻認識
方式とを確立することが難しく、認識された音韻は曖昧
な「音韻ラティス」の形式で一旦出力された後、辞書な
どの情報からトップダウン的に発声内容の同定を行なう
のが通常である。

しかしながら、このような方式では、認識システムが複
雑になるばかりではなく、高精度な連続音声認識システ
ムを構築することが困難であるという問題点があった。

それゆえに、この発明の主たる目的は、ニューラルネッ
トワークを用いた音韻スポツティング技術により得られ
た連続音声中の音韻スポツティング結果と、拡張ＬＲパ
ーザによって予測された音韻とを動的計画法ｒＤｙｎａ
ｍＬｃ　　Ｔｉｍｅ−Ｗｒａｐｉｎｇ　　Ｍａｔｃｈｉ
ｎｇＪによって統合し、高精度な連続音声認識システム
を構築できるようなニューラルネットワークによる連続
音声認識方式を提供することである。

［課題を解決するための手段］この発明はニー−ラルネットワークによる連続音声認識
方式であって、連続的に発声された入力音声を分析する
分析手段と、分析された音声を特徴パラメータの時系列
に変換する変換手段と、特徴パラメータ時系列を一定の
時間領域にわたって正規化する正規化手段と、正規化さ
れた特徴パラメータを用いて、ニューラルネットワーク
によって連続音声中の音韻をスポツティングする手段と
を備えて構成され、構文解析法を用いて連続音声中の音
韻を予測し、予測音韻とニューラルネットワークによる
音韻スポツティング結果とを音声の時間正規化能力を持
つ動的計画法によってマツチングを行なうものである。

［作用］この発明にかかるニューラルネットワークによる連続音
声認識方式は、ニューラルネットワークの一種である時
間遅れ神経回路網（ＴＤＮＮ：　Ｔｉｍｅ−Ｄｅｌａｙ
　　Ｎｅｕｒａｌ　　Ｎｅｔｗ。

ｒｋ）［１１による音韻スポツティング方法と、構文解
析法の一種である拡張ＬＲ構文解析法とを用いて音韻を
予測し、予測音韻とＴＤＮＮによる音韻認識結果とを動
的計画法によって統合し、高精度で連続音声を認識する
。

［発明の実施例］第１図はこの発明の一実施例における時間遅れ神経回路
網を示すブロック図である。第１図を参照して、入力層
１１には連続音声が入力され、この連続音声は中間層と
してのサブネットワーク１２ないし２０に与えられる。

これらのサブネットワーク１２〜２０のうち、サブネッ
トワーク１２〜１７および１９は日本語の全音韻の２４
種類Ｃｂ＋　　ｄｌｇｏ　　ｐ＊　　ＬｌｋＩｍ＋　’
ｎ＋　ＮＩ　　Ｓ、Ｓｈ、　ｈ、　　ｚ、　　ｃｈ、　
　ｔｓ、　　ｒ、　ｗ、　　ｙ、　　ａ、　　ｉ。

ｕｓ　　ｅ＋　　ｏ、Ｑ　（無音））をスポツティング
する。

すなわち、サブネットワーク１２は３つの音韻す、ｄ、
ｇを識別し、ネットワーク１３はｐ、ｔ。

ｋを識別し、サブネットワーク１４はｍ、　　ｎ、　Ｎ
を識別し、サブネットワーク１５はｓ、ｓｈ、ｈ。

２を識別し、サブネットワーク１６はｃｈ、ｔｓを識別
し、サブネットワーク１７はｒ、ｗ、ｙを識別し、サブ
ネットワーク１９はａ、ｔ、ｕ、ｅ。

０を識別する。サブネットワーク１８はサブネットワー
ク１２〜１７までの６つの音韻グループ間を識別し、サ
ブネットワーク２０は音声であるかあるいは無音である
かを識別する。

これらのサブネットワーク１２〜２０は統合ネットワー
ク２１によって統合され、スポツティングされた２４音
韻は出力層２２に出力される。なお、ネットワークの学
習は、誤差逆伝搬法（Ｅｒｒｏｒ　　　Ｂａｃｋ−Ｐｒ
ｏｐａｇａｔｉｏｎ）［２］に従って行なわれる。この
方法は評価関数である誤差を特徴空間において、局所的
に最急降下法に基づいて逐次減少させていく方法である
。

第２図はこの発明の一実施例における連続音声中の音韻
をスポツティングする方法を説明するための図である。

第２図を参照して、入力データとして入力音声１１ａが
与えられる。第２図においては、縦軸が周波数を表わし
、横軸が時間を表わしている。入力音声１１ａは第１図
に示したニューラルネットワークの入力層１１に与えら
れ、音韻のスポツティングは第１図のネットワークを１
フレームずつ時間方向に走査することによって行なわれ
る。１フレームシフトするごとに、２４音韻のうちのい
ずれかの音韻スポツティング結果が出力層２２から出力
される。なお、第１図に示したネットワークのうちの中
間層１２〜２１は省略している。この第２図に示した方
法は、従来の方法のように音韻のセグメントテーシ目ン
を必要としない極めて簡易で優れた方法である。

第３図はＴＤＮＮ−ＬＲ法の認識システムの構成を示す
ブロック図である。第３図を参照して、入力された音声
１は周波数分析され、ＦＦＴ出力のような特徴パラメー
タの時系列の形式にされて時間遅れ神経回路網２に与え
られる。時間遅れ神経回路網２は第１図で説明したよう
に、２４音韻のスポツティング結果を出力する。

一方、文脈自由文法格納部４には文脈自由文法が格納さ
れていて、この文脈自由文法に従ってＬＲテーブル生成
器５によってＬＲ子テーブルが生成される。ＬＲパーザ
７はＬＲ子テーブルを参照しながら文法上杵される音韻
系列を予測する。予測音韻格納部８は予測された音韻系
列を予め格納しており、音韻検証部３は予測音韻格納部
８に格納されている予測された音韻系列と、時間遅れ神
経回路網２で得られた音韻のスポツティング結果とをＤ
ＴＷマツチングを用いて検証を行なう。検証された音韻
系列のうち、最大尤度をとる系列を認識結果として、認
識結果出力部９に出力する。

ここで、ＬＲパーザ７による音韻予測法について簡単に
説明する。ＬＲパーザ７は文脈自由文法の中で、ＬＲ文
法という限定された文法から生成される文法を解析する
。このパーザは入力信号を受付けながらバックトラック
なしに決定的に構文を解析できる。ＬＲパーザ７は動作
衣゛と行先表という２Ｆｌ類の表を見ながら解析を行な
う。動作衣は次にパーザが行なう動作を示す表であり、
行先表は次にパーザがとる状態を示す表である。パーザ
の動作には、次の４種類がある。

■　移動（ｓｈｉｆｔ） ■　還元（ｒｅｄｕｃｅ） ■　受理（ａｃｃｅｐｔ） ■　誤り　（ｅｒｒｏｒ） ■移動はパーザの状態をスタックに積む動作でであり、
■還元はスタック上の記号を文法規則に従ってまとめる
ものである。■受理は入力文章がＬＲパーザで解析でき
たことを示し、■誤りは解析できなかったことを示す。

次に、解析の手順を示す。

「定義」Ｓ：パーザの状態ａ：文法記号（非終端、終端記号）入力ポインタ：現在処理中の入力記号列を示す。

状態スタック：パーザの状態を保存する。

ＧＯＴＯ（ｓ、ａ）：状態Ｓと文法記号ａから次の状態
を求める。

ＡＣＴＩＯＮ　（ｓ、ａ）：状態Ｓと文法記号ａからパ
ーザの動作を求める。

「アルゴリズム」 ■　初期化：入力ポインタを入力記号列の先頭に位置づ
ける。状態スタックに０をブツシュする。

■　現在の状態Ｓと入力ポインタの示す記号ａからＡＣ
ＴＩＯＮ　（ｓ、ａ）を調べる。

■　ＡＣＴＩＯＮ　（ｓ、ａ）−ｓｈｉ　ｆ　ｔ”なら
ばＧＯＴＯ（ｓ、ａ）を状態スタックにブツシュし、入
力ポインタを１つ進める。

■ＡＣＴＩＯＮ（ｓ、ａ）　霞’ｒｅｄｕｃｅ。

ｎ”ならば、ｎ番目の文法規則の右辺にある文法記号の
数だけスタックの状態をポツプする。スタック最上段の
状態をＳ′とすると、Ｓ′とｎ番目の文法規則左辺にあ
る文法規則Ａから、次の状態ＧＯＴＯ（！！’　、Ａ）
を求め、スタックにブツシュする。

■　ＡＣＴＩＯＮ　（ｓ、ａ）−ａｃｃｅｐｔ”ならば
解析終了。

■　ＡＣＴＩＯＮ　（ｓ、ａ）ｍ　　ｅ　ｒ　ｒｏ　ｒ
ならば解析失敗。

■　■に戻る。

拡張ＬＲパーザは、ＬＲパーザでは対処できなかった曖
昧な構文を解析できるようにしたものである。拡張ＬＲ
パーザでは、動作衣に複数の項目を記述する。パーザが
この複数の項目の表を調べた場合には並列動作を行なう
。このようにして決定的に構文の解゛析を行なう。

第４図は音韻スポツティング結果の一例を示す図である
。この第４図に示した例は、「会議に」と発声した場合
であり、入力音声のスベクトログラムｌｌｂと音韻スポ
ツティング結果２２ａとを示す。入力音声と音韻スポツ
ティング結果には、結果の妥当性を検証するために、予
め視察により音韻ラベルが付与されている。第４図にお
いて、黒い四角は出力が活性化したことを表わしている
。

第５図は第３図に示した音韻認識結果検証部３における
動作を示すための図であり、音韻スポツティング結果２
２とＤＰマツチングパス３１とＬＲパーザによって予測
された音韻の系列３２とを示している。第５図では、／
ｋａｉｇｉｎｉ／と発声された入力音声が、予測音韻の
系列３２と音韻スポツティング結果２２との間でＤＰマ
ツチングパス３１によって整合されていることがわかる
。

［発明の効果］以上のように、この発明によれば、時間遅れニューラル
ネットワーク（ＴＤＮＮ）による簡易で高精度な音韻ス
ポツティング方法と、拡張ＬＲパーザによって予測され
た音韻系列とを動的計画法（ＤＴＷ）を用いてマツチン
グを行なうようにしたので、高精度で高速に連続音声を
認識することが可能になる。

【図面の簡単な説明】

第１図はこの発明の一実施例に用いられる時間遅れ神経
回路網を示すブロック図である。第２図は連続音声中の
音韻をスポツティングする方法を示す図である。第３図
はＴＤＮＮ−ＬＲ法による認識システムの構成を示すブ
ロック図である。第４図はこの発明の一実施例による音
韻スポツティング結果の一例を示す図である。第５図は
第３図に示した音韻認識結果検証部における動作を示す
図である。図において、１は入力音声データ、２は音韻スポツティ
ング部、３は音韻認識結果検証部、４は文脈自由文法格
納部、５はＬＲ子テーブル成器、６はＬＲテーブル、７
は（Ｒパーザ、８は予測音韻格納部、９は認識結果出力
部、１１は入力層、１２〜２０は中間層としてのネット
ワーク、２１は統合ネットワーク、２２は出力層を示す
。第３図手続補正書Ｃ７ｊカ６、補正の対象平成２年３月１日図面７、補正の内容（１）図面の第４図および第５図の浄書を別紙の通り（内容に変更なし）。２、発明の名称以上ニューラルネットワークによる連続音声認識方式３、補
正をする者名称株式会社エイ・ティ・アール自動翻訳電話研究所代表者搏松明４、代理人住所大阪市北区南森町２丁目１番２９号住友銀行南森町ビル５、補正命令の日付

Claims

【特許請求の範囲】連続的に発声された入力音声を分析する分析手段、前記分析手段によって分析された音声を特徴パラメータ
の時系列に変換する変換手段、前記変換手段によって変換された特徴パラメータ時系列
を一定の時間領域にわたって正規化する正規化手段、お
よび前記正規化手段によって正規化された特徴パラメータを
用いて、ニューラルネットワークによって連続音声中の
音韻をスポッティングする手段を備え、構文解析法を用いて連続音声中の音韻を予測し、予測音
韻とニューラルネットワークによる音韻スポッティング
結果とを音声の時間正規化能力を持つ動的計画法によっ
てマッチングを行なうことを特徴とする、ニューラルネ
ットワークによる連続音声認識方式。