JPH0667698A

JPH0667698A - 音声認識装置

Info

Publication number: JPH0667698A
Application number: JP5146482A
Authority: JP
Inventors: Mitsuhiro Inazumi; 満広稲積
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1992-06-19
Filing date: 1993-06-17
Publication date: 1994-03-11
Anticipated expiration: 2018-11-17
Also published as: JP3467556B2

Abstract

(57)【要約】【目的】音声パターンの異なる複数の音声パターンの
全てを正確に認識できる音声認識装置を提供すること。【構成】所定の音声データを認識する音声認識装置で
ある。この装置は、前記音声データ１００を認識するよ
うそれぞれ特徴の異なる音声パターンで予め学習され、
入力された音声データが認識対象となる音声データと一
致するか否かの音声認識動作を行うとともに、音声認識
の適合度を表す適合度判定用データを出力する動作を行
う複数の音声認識用ニューラルネットワーク部２００−
１，２００−２…を含む音声認識処理手段２０と、前記
各音声認識用ニューラルネットワーク部２００−１，２
００−２…から出力された適合度判定用データに基づき
最も音声認識の適合度が高い音声認識用ニューラルネッ
トワーク部を選択する選択手段３０と、前記選択手段３
０で選択された音声認識用ニューラルネットワーク部か
らの音声認識結果を出力する出力制御手段４０とを含
む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置に実用的に用いられ
ている手法は大別して、ＤＰマッチング法、隠れマルコ
フモデル（ＨＭＭ）法の２つである。これらの手法は、
例えば、中川聖一著「確率モデルによる音声認識」に詳
しく記述されている。

【０００３】これを要約すれば、ＤＰマッチング法は、
入力されたデータと、標準データとの始端と終端の対応
を仮定し、その内部を様々な時間正規化関数を用い変形
する。そして、その差異が最小となる変形と、その時の
パターン間の距離をその標準パターンの失点とする。そ
して、複数の標準パターンの内、失点が最小となるパタ
ーンをマッチング結果とするものである。

【０００４】一方、ＨＭＭ法を用いた音声認識手法は、
確率的な方法により音声認識を行おうとするものであ
る。この方法では、ＤＰ法の場合における標準パターン
に相当するＨＭＭモデルが設定される。一つのＨＭＭモ
デルは複数の状態と、複数の遷移とにより構成される。
それぞれの状態には存在確率が、またそれぞれ遷移には
遷移確率と、出力確率が与えられる。これによりある一
つのＨＭＭモデルが、ある時系列パターンを生成する確
率を計算することができる。

【０００５】

【発明が解決しようとする課題】ところで、音声データ
の特徴は話者によって大きく異なる。特に男性と女性、
または大人と子供などのように性別・年齢層が異なる
と、同じ文章（または単語）を発音してもまったく異な
った特徴の音声パターンの音声データとなる。このた
め、特定の話者による音声データを学習用データとして
用いて構築された従来の音声認識装置では、学習用の話
者の特徴と音声パターンが大きく異なる第三者の音声デ
ータを、殆ど認識できなかった。

【０００６】本発明は、音声パターンの異なる音声デー
タを正確に認識できる音声認識装置を提供することを目
的とする。

【０００７】また、本発明の他の目的は、入力される音
声データから話者を認識できる音声認識装置を提供する
ことにある。

【０００８】

【課題を解決するための手段】前記目的を達成するため
に、本発明の音声認識装置は、所定の音声データを認識
するようそれぞれ異なる特徴の音声パターンで予め学習
され、入力された音声データが認識対象となる音声デー
タと一致するか否かの音声認識動作を行うとともに、音
声認識の適合度を表す適合度判定用データを出力する動
作を行う複数の音声認識用ニューラルネットワーク部を
含む音声認識処理手段と、前記各音声認識用ニューラル
ネットワーク部から出力された適合度判定用データに基
づき、最も音声認識の適合度が高い音声認識用ニューラ
ルネットワーク部を選択する選択手段と、前記選択手段
で選択された音声認識用ニューラルネットワーク部から
の音声認識結果を出力する出力制御手段と、を含むこと
を特徴とする。

【０００９】ここにおいて、前記音声認識装置は、入力
された音声データをフレーム単位で切出し、特徴ベクト
ルに変換して順次出力する特徴抽出手段を含み、前記各
音声認識用ニューラルネットワーク部は、前記特徴抽出
手段から出力される特徴ベクトルが音声データとして入
力されるよう形成することが好ましい。

【００１０】さらに前記各音声認識用ニューラルネット
ワーク部は、内部状態値Ｘが設定された複数のニューロ
ンを相互に結合して構成されており、前記各ニューロン
は、その内部状態値Ｘが、当該ニューロンに与えられる
入力データＺj （ｊ＝０〜ｎ：ｎは自然数）および内部
状態値Ｘを用いて表された関数Ｘ＝Ｇ（Ｘ，Ｚj ）を満
足する値に時間変化するダイナミックニューロンとして
形成され、前記各ダイナミックニューロンは、その内部
状態値Ｘを、関数Ｆ（Ｘ）を満足する値に変換して出力
されるよう形成することが好ましい。

【００１１】ここにおいて、前記関数Ｘ＝Ｇ（Ｘ，Ｚj
）は、

【００１２】

【数５】

【００１３】として表されるよう形成することができ
る。

【００１４】また前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、ｊ番
目のニューロンの出力をｉ番目のニューロンの入力へ結
合する結合強度Ｗij、外部入力値Ｄi 、バイアス値θi
を用いて、

【００１５】

【数６】

【００１６】として表すこともできる。

【００１７】また、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、シ
グモイド関数Ｓを用いて、

【００１８】

【数７】

【００１９】として表すこともできる。

【００２０】また、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、シ
グモイド関数Ｓ、ｊ番目のニューロンの出力をｉ番目の
ニューロンの入力へ結合する結合強度Ｗij、外部入力値
Ｄi、バイアス値θi を用いて、

【００２１】

【数８】

【００２２】として表すこともできる。

【００２３】前記各音声認識用ニューラルネットワーク
部は、音声データが入力される入力ニューロンと、音声
データの認識結果を出力する認識結果出力ニューロン
と、適合度判定用データを出力する適合度出力ニューロ
ンとを含み、前記適合度出力ニューロンは、前記入力ニ
ューロンに入力される音声データを推定し、この推定デ
ータを適合度判定用データとして出力するよう形成さ
れ、前記選択手段は、実際の音声データに対する前記推
定データの正答率を音声認識の適合度として演算するよ
う形成できる。

【００２４】前記関数Ｆ（Ｘ）はｓｉｇｍｏｉｄ関数と
することができる。

【００２５】また前記関数Ｆ（Ｘ）はしきい値関数とす
ることもできる。

【００２６】前記各ダイナミックニューロンは、前記入
力データＺj として、自己のニューロンの出力に重みを
乗算してフィードバックさせたデータを含むよう形成で
きる。

【００２７】また前記各ダイナミックニューロンは、前
記入力データＺj として、他のニューロンの出力に重み
を乗算したデータを含むよう形成できる。

【００２８】また前記各ダイナミックニューロンは、前
記入力データＺj として、外部から与えられた所望のデ
ータを含むよう形成できる。

【００２９】本発明の音声認識装置によれば、入力され
た音声データは音声認識手段に備えられた複数の音声認
識用ニューラルネットワーク部に与えられる。そして、
各音声認識用ニューラルネットワーク部では、入力され
た音声データの認識処理と、入力された音声データと学
習に用いられた音声データとの音声認識の適合度判定用
データの演算が行われる。

【００３０】前記各音声認識用ニューラルネットワーク
部は、それぞれ異なる音声パターンで音声データを認識
するよう予め学習されているため、その認識適合度も各
ニューラルネットワーク部ごとに異なる値となる。

【００３１】各音声認識用ニューラルネットワーク部の
適合度判定用データは、選択手段に与えられ、ここで最
も認識適合度の高い音声認識用ニューラルネットワーク
部が選択される。この選択結果が出力制御手段に与えら
れ、選択された音声認識用ニューラルネットワーク部か
らの音声認識結果が出力される。

【００３２】このようにして、音声パターンの異なる音
声データを正確に認識することができる。

【００３３】ここにおいて、各音声認識用ニューラルネ
ットワーク部を、内部状態値Ｘが設定された複数のニュ
ーロンを相互に結合して構成することがこのましい。前
記各ニューロンは、内部状態値Ｘが、入力データＺj
（ｊ＝０〜ｎ：ｎは自然数）および内部状態値Ｘを用い
て表された関数Ｘ＝Ｇ（Ｘ，Ｚj ）を満足する値に時間
変化するダイナミックニューロンとして構成することが
好ましい。

【００３４】これにより、ニューラルネットワーク部全
体のデータ処理を簡略化し、かつ、音声認識精度を高め
ることができる。

【００３５】また、前記他の目的を達成するために、本
発明の音声認識装置は、入力される音声データをフレー
ム単位で切出し、特徴ベクトルに変換して順次出力する
特徴抽出手段と、前記特徴抽出手段から入力される認識
対象話者の特徴ベクトルに基づき、入力される認識対象
話者の特徴ベクトルを予測し、音声認識の適合度を表す
適合度判定用データとして出力するよう予め学習され、
前記特徴抽出手段から実際に入力される特徴ベクトルに
基づき前記適合度判定用データを出力するよう形成され
た複数の音声認識用ニューラルネットワーク部を含む音
声認識処理手段と、前記各音声認識用ニューラルネット
ワーク部から出力された適合度判定用データと、前記特
徴抽出手段から入力される実際の話者の特徴ベクトルと
の正答率を各音声認識用ニューラルネットワーク部毎に
演算し、入力音声の話者認識を行う話者認識手段と、を
含むことを特徴とする。

【００３６】以上の構成とすることにより、入力される
音声データから複数の話者を正確に認識できる。

【００３７】ここにおいて、前記各音声認識用ニューラ
ルネットワーク部は、内部状態値Ｘが設定された複数の
ニューロンを相互に結合して構成されており、前記各ニ
ューロンは、その内部状態値Ｘが、当該ニューロンに与
えられる入力データＺj （ｊ＝０〜ｎ：ｎは自然数）お
よび内部状態値Ｘを用いて表された関数Ｘ＝Ｇ（Ｘ，Ｚ
j ）を満足する値に時間変化するダイナミックニューロ
ンとして形成され、前記各ダイナミックニューロンは、
その内部状態値Ｘを、関数Ｆ（Ｘ）を満足する値に変換
して出力されるよう形成することがこのましい。

【００３８】また前記各音声認識用ニューラルネットワ
ーク部は、前記特徴ベクトルが入力される入力ニューロ
ンと、適合度判定用データを出力する適合度出力ニュー
ロンとを含み、前記適合度出力ニューロンは、入力され
る前記特徴ベクトルを推定し、この推定データを適合度
判定用データとして出力するよう形成することができ
る。

【００３９】

【実施例】次に、本発明の好適な実施例を図面に基づき
詳細に説明する。

【００４０】図１には、本発明の音声認識装置の好適な
実施例が示されている。

【００４１】音声認識装置全体の説明実施例の音声認識装置は、特徴抽出部１０、音声認識理
部２０、選択部３０、出力制御部４０を含む。

【００４２】前記特徴抽出部１０は、図２に示すよう、
入力されるアナログ音声データ１００をフレーム単位で
切り出し、特徴ベクトル１００に変換して音声認識処理
部２０へ向け出力する。この特徴ベクトル１００は、次
のようにして求められる。すなわち、図２（Ａ）に示す
よう、アナログ音声データ１００を所定のフレーム１０
２の単位で順次切り出す。図２（Ｂ）に示すよう、フレ
ーム単位で切り出された音声データ１００は、線形予測
分析やフィルタバンク等で特徴が抽出され、特徴ベクト
ル１１０の列として音声認識理部２００へ向け、順次出
力される。

【００４３】音声認識処理部２０は、複数のニューラル
ネットワーク部２００−１，２００−２，……２００−
ｋを含む。特徴抽出部１０から出力される特徴ベクトル
１１０は、各ニューラルネットワーク部へそれぞれ入力
される。

【００４４】前記各ニューラルネットワーク部２００−
１，２００−２……２００−ｋは、所定の音声データを
認識するよう、それぞれ異なる特徴の音声パターンでそ
の学習が行われている。そして、各ニューラルネットワ
ーク部２００−１，２００−２……２００−ｋは、特徴
ベクトル１１０として入力される音声データが、認識対
象となる音声データと一致するか否かの音声認識動作を
行い、さらに、その認識の適合度を表す適合度判定用デ
ータを出力する動作を行うよう形成されている。

【００４５】例えば、「ビール」という音声データを認
識させようとする場合、同じ「ビール」という音声デー
タを発音しても、その音声パターンの特徴は、話者によ
って大きく異なることは前述した通りである。このた
め、例えばニューラルネットワーク部２００−１，２０
０−２には、それぞれ異なる特徴の音声パターンを有す
る男性の声で、「ビール」という音声データの認識を行
うように学習をさせ、ニューラルネットワーク部２００
−ｋには、女性の声で「ビール」という音声データを認
識するよう学習を行わせる。このようにすることによ
り、各ニューラルネットワーク部２００−１，２００−
２……２００−ｋは、入力された音声データが、学習に
用いた音声データ「ビール」と一致するか否かの音声認
識動作を行い、その認識結果１２０を出力制御部４０へ
向け出力する。このとき、各ニューラルネットワーク部
２００−１，２００−２……２００−ｋは、この音声認
識の適合度を判定するためのデータの演算を行い、これ
を適合度判定用データ１３０として選択部３０へ向け出
力する。選択部３０は、各ニューラルネットワーク２０
０−１，２００−２……２００−ｋから出力される適合
度判定用データ１３０に基づき、認識適合度の最も高い
ニューラルネットワークを識別し、選択データ１４０を
出力制御部４０へ向け出力する。

【００４６】認識適合度の判定処理とは、入力された音
声データと、学習で用いられた音声データとの適合度１
３０を判定する処理をいう。この判定処理は、入力され
た音声データに基づき、当該入力データより時間的に前
（過去）の音声データが推定できるようにニューラルネ
ットワークを学習させて、推定の正解率を認識適合度と
して求める処理をいう。例えば、図２において、ニュー
ラルネットワーク２００に特徴ベクトル１１０が入力さ
れると、この入力データ１１０より時間的に一つ前に入
力される特徴ベクトル１１０ａが予測できるようにニュ
ーラルネットワーク２００を学習させ、推定した特徴ベ
クトルを適合度判定用データ１３０として選択部３０へ
向け出力させる。つまり、入力データの時間的な関係
は、話者の個性を反映したもので、推定しやすい話者の
音声データは、そのニューラルネットワークの学習で用
いた音声データと類似した個性である音韻または特徴で
ある音韻を持っているのである。

【００４７】そこで、選択部３０は、ニューラルネット
ワーク２００−１，２００−２……２００−ｋから出力
される適合度判定用データ１３０（推定された一つ前の
特徴ベクトル）を、特徴抽出部１０から実際に出力され
た一つ前の特徴ベクトル１１０と照合し、各ニューラル
ネットワーク毎に正解率を演算する。この正解率（認識
適合度）の最も高いニューラルネットワークの音声認識
結果の出力が最も正解であるといえるので、その出力を
音声認識装置の認識結果として採用ればよい。そして、
認識適合度の最も高いニューラルネットワークの選択デ
ータ１４０を出力制御部４０へ向け出力する。

【００４８】そして、出力制御部４０は、このように入
力される選択データ１４０で指定される最も相性のよい
ニューラルネットワーク部２００の認識データ１２０
を、認識結果データ１５０として選択出力する。

【００４９】このようにして、本発明の音声認識装置に
よれば、例えば男性や女性、または大人や子供というよ
うに音声パターンの特徴の異なる話者から入力される音
声データ１００を、その音声パターンの相違に影響され
ることなく、正確に認識することができる。

【００５０】なお、前記位各ニューラルネットワーク２
００−１，２００−２……２００−ｋは、図２に示すよ
う、特徴抽出部１０から入力される特徴ベクトル１１０
に基づき、当該特徴ベクトル１１０そのもの、あるい
は、この特徴ベクトル１１０より後（未来）に入力され
るいずれかの特徴ベクトル１００ｂを予測し、予測した
特徴ベクトルを適合度判定用データ１３０として選択部
３０へ向け出力するように形成してもよい。

【００５１】この場合にも、選択部３０は、各ニューラ
ルネットワーク２００−１，２００−２，……２００−
ｋで予測された特徴ベクトルと、予測対象として特徴抽
出部１０から入力された実際の特徴ベクトル１１０とを
照合し、その正解率を認識適合度として各ニューラルネ
ットワーク毎に演算するよう形成すれば良い。

【００５２】本発明に用いられるニューラルネットワー
ク部２００としては、例えば階層型モデルや、マルコフ
モデル等で表される従来の静的なニューラルネットワー
クでもよいが、簡単な構成でより良好な認識動作を行う
ためには、以下に詳述するようなダイナミックなニュー
ラルネットワークを用いることが好ましい。

【００５３】音声認識用ニューラルネットワークの構成図３には、前記音声認識用ニューラルネットワーク２０
０として用いられるダイナミックなニューラルネットワ
ークの一例を簡略化して表したものが示されている。実
施例のニューラルネットワーク２００は、神経細胞を構
成する複数のニューロン２００−１，２００−２……２
００−６を相互に接続して構成されている。各ニューロ
ン２００の結合部には、それぞれ大きさが可変の重みが
備えられている。この重みを学習によって所定の値に変
化させることによって、正確な音声認識処理が行われる
ようになる。

【００５４】なお、音声データ１００の特徴ベクトル２
１０は、ニューロン２１０−２，２１０−３に与えら
れ、音声認識処理の認識結果データ１５０はニューロン
２１０−５，２１０−６から出力される。なお、ニュー
ロン２１０−５からは否定出力１５８−Ｂ、ニューロン
２１０−６からは肯定出力１５８−Ａがそれぞれ出力さ
れるようになっている。さらに、ニューロン２１０−４
からは、適合度判定用データ１３０が出力されるように
構成されている。

【００５５】ニューロンの構成図４には、前記ニューロン２１０の構成が模式的に示さ
れている。このニューロン２１０は、所定の内部状態値
Ｘを記憶する内部状態値記憶手段２２０と、前記内部状
態値Ｘ及び以下に説明する外部入力値Ｚj を入力として
内部状態記憶手段２２０の内部状態値Ｘを更新する内部
状態値更新手段２４０と、内部状態値Ｘを外部出力Ｙへ
変換する出力値生成手段２６０とを含む。

【００５６】このように、実施例に用いたニューラルネ
ットワーク２００では、ニューロン２１０の内部状態値
Ｘの値を、その値Ｘそのものを基にして順次更新してい
く。従って、そのニューロン２１０へ入力されるデータ
の過去の履歴が、その内部状態値Ｘとして変換、保存さ
れる。つまり、内部状態値Ｘとして、入力の時間的な履
歴が保存され、出力Ｙに反映される。この意味で、実施
例のニューロン２１０の動作はダイナミックなものであ
るといえる。したがって、静的なニューロンを用いたネ
ットワークと異なり、実施例のニューラルネットワーク
２００は、ニューラルネットワークの構造等によらず、
時系列データを処理することができ、全体の回路規模を
小さくできる。

【００５７】図５には、前記ニューロン２１０の具体例
が示されている。前記内部状態記憶手段２２０は、内部
状態値Ｘを記憶するメモリ２２２を含んで構成されてい
る。前記内部状態値更新手段２４０は、入力Ｚj の積算
手段２４２と、次式で示す演算を行い新たな内部状態値
Ｘを求めメモリ２２２の内容を更新する演算部２４４と
を含む。

【００５８】

【数９】

【００５９】前記出力値生成手段２６０は、演算部２６
２を含む。この演算部２６２は、メモリ２２２に記憶さ
れている内部状態値Ｘを、値域制限した出力値Ｙへシグ
モイド（ロジスティック）関数等を用いて変換出力する
よう形成されている。

【００６０】前記内部状態値Ｘ、出力値Ｙのそれぞれの
時間変化において、現在の内部状態値をＸｃｕｒｒ、更
新される内部状態値をＸｎｅｘｔ、またその更新動作時
点での外部入力値をＺj （j は０からｎであり、ｎはそ
のニューロン２１０への外部入力数）とする。このと
き、内部状態更新手段２４０の動作を形式的に関数Ｇで
表すと、Ｘｎｅｘｔ＝Ｇ（Ｘｃｕｒｒ、Ｚ１、−−−、Ｚｉ、−−−、Ｚｎ）と表現できる。この表現の具体的な形は様々なものが考
えられるが、例えば１階の微分方程式を用いた前記数９
で示すことができる。ここでτはある定数である。

【００６１】また、数９をもう少し変形した形として
は、以下の数１０のような表現も可能である。

【００６２】

【数１０】

【００６３】この中で、Ｗijはｊ番目のニューロンの出
力を、ｉ番目のニューロンの入力へ結合する結合強度を
示す。また、Ｄi は外部入力値を示す。またθi はバイ
アス値を示す。このバイアス値は、固定された値との結
合として、Ｗijの中に含めて考えることも可能である。

【００６４】このようにして決定されたある瞬間のニュ
ーロン２１０の内部状態をＸとし、出力生成手段２６０
の動作を形式的に関数Ｆで表すと、ニューロン２１０の
出力Ｙは、Ｙ＝Ｆ（Ｘ）と表現できる。Ｆの具体的な形としては、以下の数１１
で示されるような正負対称出力のシグモイド（ロジステ
ィック）関数等が考えられる。

【００６５】

【数１１】

【００６６】しかし、この関数型は、必須のものではな
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。

【００６７】このような演算式を用い、実施例のダイナ
ミックなニューロン３２０の出力Ｙの時系列は、図６に
示したような処理により計算される。図６においては、
簡略のためニューロンを単にノードと記載している。

【００６８】なお、前記ニューロン２１０への入力Ｚj
としては、ある重みが乗算されたそのニューロン自身の
出力、結合重みが乗算された他のニューロンの出力、あ
るいはそのニューラルネットワーク以外からの外部入力
などがある。

【００６９】実施例においては、図３示すよう、ニュー
ロン２１０−２，２１０−３には、重み付けされた自分
自身の出力、重み付けされた他のニューロンからの出
力、及び特徴抽出部１０からの出力１１０が与えられ
る。また、ニューロン２１０−１には、重み付けされた
自分自身の出力、重み付けされた他のニューロンからの
出力が与えられる。さらに、ニューロン２１０−４，２
１０−５，５１０−６には、重み付けされた自分自身の
出力、重み付けされた他のニューロンからの出力が与え
られる。そしてニューロン２１０−４の出力は、選択部
３０に与えられる。ニューロン２１０−５，２１０−６
の出力は出力制御部４０に与えられる。

【００７０】内部状態量の初期値設定また、実施例の各ニューロン２１０は、内部状態記憶手
段２２０内に記憶された内部状態量Ｘを、前述したよう
に内部状態値更新手段２４０を用いて順次更新していく
ように構成されている。したがって、このようなニュー
ロン２１０を用いて構成されたニューラルネットワーク
２００では、動作に先立って予めその初期値を設定して
やることが必要となる。

【００７１】このため、図１に示すよう、実施例の音声
認識装置には、内部状態初期値設定部６０が設けられて
いる。そして、この内部状態初期値設定部６０は、ニュ
ーラルネットワーク２００が動作するに先立って、予め
定められた初期値を全てのニューロンに与えるよう形成
されている。すなわち、ニューラルネットワーク２００
の動作に先立って、全てのニューロン２１０に、適当に
選択された初期内部状態値Ｘをセットし、それに対応す
る出力Ｙをセットする。このようにして初期値をセット
することにより、ニューラルネットワークは速やかにス
タートすることになる。

【００７２】ニューラルネットワークの学習次に、ニューラルネットワーク２００の音声認識処理の
学習方法について説明する。

【００７３】図７には、ニューラルネットワーク２００
を学習させるための学習装置３００の構成が示されてい
る。この学習装置３００は、図１に示す各ニューラルネ
ットワーク２００−１，２００−２……２００−ｋをそ
れぞれ異なる特徴の音声パターンで学習させるように形
成されている。

【００７４】この学習装置３００は、学習用の入力音声
データが記憶された入力データ記憶部３１０と、入力音
声データに対応する模範となる出力データが記憶された
出力データ記憶部３１２と、学習させたい入力データを
選択する入力データ選択部３１４と、出力データを選択
する出力データ選択部３１６と、ニューラルネットワー
ク２００の学習を制御する学習制御部３１８とを含む。

【００７５】そして、この学習装置３００による学習方
法を行う場合には、まず、学習対象となるニューラルネ
ットワーク２００を構成する全てのニューロン２１０
に、初期状態値Ｘをセットする。次に、学習させたい音
声データが、入力データ選択部３１０により選択され、
学習制御部３１８に入力される。このとき、選択した学
習用入力データに対応する学習用出力データが、出力デ
ータ選択部３１６により選択され、学習制御部３１８に
入力される。選択された学習用の入力音声データは、音
声抽出部１０に入力され、ここで抽出された特徴ベクト
ル１１０がニューラルネットワーク２００へ外部入力と
して入力される。全てのニューロン２１０についてそれ
ぞれ入力Ｚj の和を求め、その内部状態量Ｘが更新され
る。そして、更新されたＸによりニューロン２１０の出
力Ｙを求める。

【００７６】初期状態では、ニューラルネットワーク２
００の各ニューロン間の結合強度にはランダムな値が与
えられている。したがって、図３の各ニューロン２１０
−５，２１０−６から出力される認識結果１２０Ｂ，１
２０Ａはでたらめな値である。これらの出力が正しい値
となるように、少しだけ各ニューロン間の重みを変更す
る。

【００７７】学習対象となるニューラルネットワーク２
００は、認識対象となる音声データが入力された場合
に、図８に示すよう、ニューロン２１０−６から肯定出
力１２０Ａとしてハイレベルの信号が出力され、ニュー
ロン２１０−５から否定出力１２０Ｂとしてローレベル
の信号が出力されるよう学習を行う。このように、肯定
出力と否定出力の２種類の認識結果データ１２０Ａ，１
２０Ｂを出力させるのは、音声認識処理の精度を向上さ
せるためである。

【００７８】そして、認識させたい音声データ１００を
何回も繰返入力し、少しづつ各ニューロン間の重みを変
更する。これにより、次第にニューロン２１０−５，２
１０−６から正しい値が出力されるようになる。入力さ
れる音声データが認識させたくないデータを学習される
場合は、肯定出力１２０Ａがローレベル、否定出力がハ
イレベルとなるように各ニューロン間の重みを変更す
る。

【００７９】ニューラルネットワーク２００の出力が収
束するまでの繰りかえし学習回数は、数千回程度であ
る。

【００８０】なお、学習方法の応用として、二つの音声
データを続けて入力し、学習させる方法がある。その理
由は、音声データを一つづつ用いた学習では、一度ハイ
レベルになった肯定出力はローレベルに下げることが出
来ず、また一度ローレベルになった否定出力はハイレベ
ルに上げることができないからである。つまり、音声デ
ータを一つづつ用いた学習では、図９（Ａ）に示すよう
に、認識させたい音声データ（以下真データという）を
与えて肯定出力をハイレベルに上昇させる学習（この場
合、否定出力はローレベルを保持している）、あるいは
図９（Ｂ）に示すよう、認識させたくないデータ（以
下、偽データという）を与えて否定出力をハイレベルに
上昇させる学習（この場合、肯定出力はローレベルを保
持している）が行われる。この学習では、肯定出力及び
否定出力とも、一旦ハイレベルに上昇した後は、その出
力値がローレベルになることはないという問題が生ず
る。

【００８１】したがって、真データと偽データが混在し
た複数の音声データが連続して与えられた場合、真デー
タの入力で一度ハイレベルに上がった肯定出力は、その
後、偽データの入力があってもローレベルに下がること
はない。これは否定出力についても同様である。

【００８２】そこで、本実施例では、図１０（Ａ）〜
（Ｄ）に示すように、二つの音声データを連続して与
え、出力の上昇と下降の両方の学習を行わせる方法が取
られている。図１０（Ａ）では、真データと偽データを
連続して入力し、これを繰り返して学習させている。こ
の学習によって、肯定出力の上昇、否定出力の上昇と降
下が学べる。図１０（Ｂ）では、偽データと真データを
連続して入力し、これを繰り返して学習させている。こ
の学習によって、肯定出力の上昇と降下、否定出力の上
昇が学べる。図１０（Ｃ）では、偽データを連続して入
力し、これを繰り返して学習させている。この学習は、
図１０（Ｂ）に示した学習によって、偽データの次のデ
ータは真データであるといった誤った認識をニューラル
ネットワーク２００に持たせないためのものである。同
様に図１０（Ｄ）では、真データを二つ連続して入力
し、これを繰り返して学習させている。この学習も、図
１０（Ａ）に示した学習によって、真データの次のデー
タは偽データであるといった誤った認識をニューラルネ
ットワーク２００に持たせないためのものである。

【００８３】このような学習を、図１に示すニューラル
ネットワーク２００−１，２００−２……２００−ｋに
対し、それぞれ異なる特徴の音声パターンで行う。例え
ば各ニューラルネットワーク２００−１，２００−２…
…２００−ｋで、それぞれ「ビール」という音声データ
を認識させたい場合には、異なる特徴の音声パターンを
有する音声データ「ビール」を学習用音声データとして
用い、各ニューラルネットワーク２００−１，２００−
２……２００−ｋの学習を前述したように行わせる。こ
のような学習の結果、認識に最適な入力音声パターンが
各ニューラルネットワーク毎にそれぞれ設定される。し
たがって、同じ「ビール」という音声データ１００を与
えても、各ニューラルネットワーク毎にその認識率は異
なったものとなる。例えば、男性の音声でニューラルネ
ットワーク２００−１の学習を行い、女性の音声でニュ
ーラルネットワーク２００−２の学習を行った音声認識
装置では、別の男性の音声で入力データを与えた場合、
ニューラルネットワーク２００−１では高い確率で認識
できるが、ニューラルネットワーク２００−２ではほと
んど認識できない事態が生ずる。逆に、別の女性の音声
で入力データを与えた場合は、ニューラルネットワーク
２００−２での認識率は高くなり、ニューラルネットワ
ーク２００−１の認識率は低下する。

【００８４】このように、本実施例は各ニューラルネッ
トワーク２００−１，２００−２……２００−ｋをそれ
ぞれ異なった特徴の人の音声で学習させるので、特徴抽
出部１０から同一の音声ベクトル１１０が各ニューラル
ネットワーク２００−１，２００−２……２００−ｋに
与えられても、音声認識結果１２０は各ニューラルネッ
トワーク毎にそれぞれ異なったものとなる。

【００８５】各ニューラルネットワーク２００−１，２
００−２……２００−ｋから出力される複数の音声認識
結果１２０の内、一番認識率の高い認識結果を採用する
ために、本実施例では、音声データとの認識適合度判別
用データ１３０が各ニューラルネットワーク２００−
１，２００−２……２００−ｋからそれぞれ出力される
ように工夫されている。

【００８６】前述したように、認識適合度の判定処理と
は、入力された音声データと、学習で用いられた音声デ
ータとの適合度１３０を判定する処理をいう。この判定
処理は、入力された音声データに基づき、当該入力デー
タより時間的に前の音声データが推定できるようにニュ
ーラルネットワークを学習させて、推定の正解率を認識
適合度として求める処理をいう。

【００８７】例えば、図２において、ニューラルネット
ワーク２００に特徴ベクトル１１０が入力されると、こ
の入力データ１１０より時間的に一つ前（過去）に入力
された特徴ベクトル１１０ａが予測できるようにニュー
ラルネットワーク２００を学習させ、推定した特徴ベク
トルを適合度判定用データ１３０として選択部３０へ向
け出力させる。つまり、入力データの時間的な関係は、
話者の個性を反映したもので、推定しやすい話者の音声
データは、そのニューラルネットワークの学習で用いた
音声データと類似した個性である音韻または特徴である
音韻を持っているのである。

【００８８】そこで、選択部３０は、ニューラルネット
ワーク２００−１，２００−２……２００−ｋから出力
される適合度判定データ１３０（推定された一つ前の特
徴ベクトル）を、特徴抽出部１０から実際に出力される
一つ前の特徴ベクトル１１０と照合し、各ニューラルネ
ットワーク毎に正解率を演算する。この正解率（認識適
合度）の最も高いニューラルネットワークの音声認識結
果の出力が最も正解であるといえるので、その出力を音
声認識装置の認識結果として採用する。

【００８９】この認識適合度の判定処理の学習は、前述
した音声認識処理の学習と同時に行う。すなわち、ニュ
ーラルネットワーク２００を構成する要素の一つである
適合度出力ニューロン２１０−４が、入力ニューロン２
１０−２，２１０−３から前に入力された過去の特徴ベ
クトルを推定し、これを適合度判定用データ１３０とし
て出力するように、学習用の音声データを用いてニュー
トラルネットワーク２００を学習させればよい。

【００９０】なお、認識適合度の判定処理は、このよう
に前のデータの予測以外に、図２に示すよう、入力され
た特徴ベクトル１１０そのものの推定データ、あるいは
次に入力される未来の特徴ベクトル１１０ｂの予測デー
タに基づいて行ってもよい。しかし、実験によれば、過
去の特徴ベクトルを予測させる方が、より高い精度で認
識動作を行うことができた。

【００９１】音声認識処理動作次に、このように構成されたニューラルネットワーク２
００の行う音声認識処理動作を、図１１のフローチャー
トに従って簡単に説明する。

【００９２】まず、音声認識処理が開始されると、全て
のニューロン２１０−１，２１０−２……２１０−６
に、適当に選択された初期内部状態値Ｘがセットされ、
それに対応する出力Ｙがセットされる（ステップ１０
１）。

【００９３】次に、全てのニューロンについて、前述し
た入力データＺj の和が求められる（ステップ１０４，
１０３）。

【００９４】次に、全てのニューロンのそれぞれについ
て、ステップ１０３で求めたＺj の和と、内部状態値Ｘ
とにより、Ｘの値を更新する（ステップ１０５）。そし
て、更新されたＸの値に基づいて、それぞれのニューロ
ンの出力値を計算する（ステップ１０６）。この計算を
した後、処理をステップ１０２に戻し、処理終了の指令
があれば終了する。

【００９５】ニューラルネットワーク２００の認識結果
は、ニューロン２１０−５，２１０−６の出力として与
えられる。また、適合度判定用の出力１３０は、ニュー
ロン２１０−４の出力として与えられる。

【００９６】図１２、図１３、図１４には、実施例の音
声認識装置を用いて、実際に音声認識動作を行った場合
の実験データが示されている。この実験では、ニューラ
ルネットワーク２００−１，２００−２を、それぞれ入
力ニューロン数が２０、出力ニューロン数が２、その他
のニューロン数が３２のニューラルネットワークとして
構成したものを用いた。そして、特徴抽出部１０から２
０次元のＬＰＣケプストラムを各ニューラルネットワー
ク２００−１，２００−２に与え、このときニューラル
ネットワーク２００−１，２００−２から出力されるデ
ータを実測した。

【００９７】図１２（Ａ），図１３（Ａ），図１４
（Ａ）に、ニューラルネットワーク２００−１の肯定出
力４１０と否定出力４１２とを示す。また、図１２
（Ｂ），図１３（Ｂ），図１４（Ｂ）に、ニューラルネ
ットワーク２００−２の肯定出力４２０と否定出力４２
２とを示す。さらに図１２（Ｃ），図１３（Ｃ），図１
４（Ｃ）に、入力された音声データとニューラルネット
ワーク２００−１の適合度４３０と、入力された音声デ
ータとニューラルネットワーク２００−２の適合度４３
２とを示す。

【００９８】この実験では、音韻グループの異なる二人
の話者Ａ，Ｂを用意し、ニューラルネットワーク２００
−１を話者Ａの音声で、ニューラルネットワーク２００
−２を話者Ｂの音声で学習させた。各ニューラルネット
ワーク２００−１，２００−２は、それぞれ肯定的な認
識対象として、「とりあえず」を与え、否定的な認識対
象として「終点」，「腕前」，「拒絶」，「超越」，
「分類」，「ロッカー」，「山脈」，「隠れピューリタ
ン」の８つの単語を与えた。各ニューラルネットワーク
２００−１，２００−２は、肯定的認識対象が与えられ
た場合、その対象の半分までが認識された時点で肯定出
力、否定出力が変化するように、それぞれ話者Ａ、話者
Ｂの音声で学習させてある。同図での縦軸は、出力ニュ
ーロンの出力値を、横軸は左から右へ時間の流れを表
す。

【００９９】ここにおいて、図１２の実験データは、こ
のようにして学習された音声認識装置に話者Ａの音声デ
ータを認識させた場合の結果である。図１２（Ａ）から
明らかなように、話者Ａの音声で学習したニューラルネ
ットワーク２００−１は、単語「とりあえず」の入力に
対し、その肯定出力４１０が大きな値に変化している。
また、その否定出力４１２は小さな値に変化している。
これに対し、図１２（Ｂ）に示すよう、別の話者の音声
で学習された他のニューラルネットワーク２００−２の
肯定出力４２０、否定出力４２２は、単語「とりあえ
ず」の入力に対しては大きく変化していない。このこと
により、ニューラルネットワーク２００−１は、単語
「とりあえず」を正しく識別しているが、ニューラルネ
ットワーク２００−２は識別できていないことがわか
る。これは、図１２（Ｃ）の認識適合度の判定結果を示
すグラフから明らかである。ニューラルネットワーク２
００−１の適合度４３０の値の方が、他のニューラルネ
ットワーク２００−２の適合度４３２に比べて常に大き
な値を示しているからである。

【０１００】以上の結果より、認識適合度の判定結果に
基づいてニュラルネットワーク２００−１の音声認識結
果を採用すれば、単語「とりあえず」を正しく認識した
肯定出力および否定出力が得られることが理解されよ
う。

【０１０１】これに対し、図１３は、実施例の音声認識
装置に、話者Ｂが入力した音声データを同様にして認識
させた場合に得られるデータである。

【０１０２】図１３（Ａ）に示すよう、別の話者Ａで学
習されたニューラルネットワーク２００−１は、話者Ｂ
の入力した単語「とりあえず」を正確に認識できない。
これに対し、話者Ｂの音声を学習に用いた他方のニュー
ラルネットワーク２００−２は、話者Ｂの入力する単語
「とりあえず」を正確に認識できている。これは図１３
（Ｃ）に示す、認識適合度の判定結果を示すグラフから
明らかである。

【０１０３】この例でも選択部３０での認識適合度の判
定結果に基づき、ニューラルネットワーク２００−２の
認識結果を採用すれば、正しく認識した出力が得られる
ことが分かる。

【０１０４】図１４には、図１２，図１３と同様な処理
を、音質の異なる別の話者Ｃによる音声データを用いて
行った場合のデータである。

【０１０５】図１４（Ａ），（Ｂ）から明らかなよう
に、話者Ｃが入力した音声データに対し、ニューラルネ
ットワーク２００−１では単語「とりあえず」を正しく
認識できている。これに対し、ニューラルネットワーク
２００−２では、単語「とりあえず」は正しく認識でき
ているものの、別の単語「拒絶」を単語「とりあえず」
と誤って認識している。これは、図１４（Ｃ）の認識適
合度の判定結果を示すグラフから明らかである。この例
でも選択部３０での認識適合度の判定結果に基づいて、
ニューラルネットワーク２００−１の認識結果を採用す
れば、正しく認識した出力が得られることが理解されよ
う。

【０１０６】図１５は、実施例の音声認識装置のハード
ウエア構成図である。実施例の音声認識装置は、特徴抽
出部１０として機能するアナログデジタルコンバータ７
０と、ニューラルネットワーク２００の内部状態値Ｘ等
のデータが格納されたデータメモリ７２と、ＣＰＵ７６
と、ＣＰＵ７６を選択部３０あるいは出力制御部４０と
して機能させるための処理プログラムが格納された認識
処理プログラムメモリ７４とを含んで構成されている。

【０１０７】他の実施例なお、本発明は前記実施例に限定されるものではなく、
本発明の要旨の範囲内で各種の変型実施が可能である。

【０１０８】他のニューロンの実施例例えば、前記実施例では、ニューラルネットワーク２０
０を構成するニューロン２１０を、図５に示すような構
成のニューロンとして形成する場合を例にとり説明した
が、本発明はこれ以外にも各種ニューロンを用いること
ができる。

【０１０９】図１６には、本発明のニューラルネットワ
ーク２００に用いられる他のダイナミックニューロン２
１０の具体例が示されている。

【０１１０】実施例のダイナミックニューロン２１０に
おいて、内部状態更新手段２４０は、積算部２５０と、
関数変換部２５２と、演算部２５４とを用いて構成さ
れ、次式に基づく演算を行い、メモリ２２２の内部状態
量Ｘを更新するように形成されている。

【０１１１】

【数１２】

【０１１２】すなわち、積算部２５０は、入力Ｚj を積
算し、関数部２５２は、この積算した値をシグモイド
（ロジスティック）関数Ｓを用いて変換するように構成
されている。そして、演算部２５４は、関数変換された
値と、メモリ２２２の内部状態量Ｘとに基づき、前記数
１２の演算を行い、新たな内部状態量Ｘを求め、メモリ
２２２の値を更新するように形成されている。

【０１１３】また、より具体的な演算としては、次式に
示すような演算を実行するようにしてもよい。

【０１１４】

【数１３】

【０１１５】この中で、Ｗｉｊはｊ番目のニューロンの
出力を、ｉ番目のニューロンの入力へ結合する結合強度
を表す。Ｄｉは外部入力値を示す。またθｉはバイアス
値を示す。このバイアス値は、固定された値との結合と
してＷｉｊの中に含めて考えることも可能である。ま
た、値域制限関数Ｓの具体的な形としては、正負対称出
力のシグモイド関数等を用いればよい。

【０１１６】出力生成手段２６０は、内部状態値Ｘを定
数倍した出力値Ｙへ変換する写像関数演算部２６４とし
て形成されている。

【０１１７】また、前記各実施例では音声データとして
単語等の認識を行う場合を例にとり説明したが、本発明
はこれに限らず、各種の音素や音節等の認識を行うよう
形成することも可能である。

【０１１８】話者認識型の音声認識装置の実施例また、実施例では、入力される音声データそのものを音
声認識する場合を例にとり説明したが、本発明はこれに
限らず、これ以外に入力される音声データに基づき話者
認識を行うよう形成することもできる。

【０１１９】図１７には、話者認識型の音声認識装置の
好適な実施例が示されている。なお、前述した実施例と
対応する部材には同一符号を付してその説明は省略す
る。

【０１２０】ここにおいて、音声認識処理部２０は、異
なる話者を認識対象とする複数のニューラルネットワー
ク２００−１，２００−２・・・２００−ｋを含む。各
ニューラルネットワーク２００は、認識対象話者の特徴
ベクトル１１０に基づき、入力される認識対象者の話者
ベクトル１００を予測し、音声認識の適合度を表す適合
度判定用データ１３０として出力するよう予め学習され
ている（学習の詳細は、前記実施例と同様である）。こ
こで用いた話者の特徴量は、８次のＰＡＲＣＯＲ係数で
ある。話者特徴量としてはＰＡＲＣＯＲ係数の他にも、
種々のものを使用することが可能である。しかし、ＰＡ
ＲＣＯＲ係数は、その値が原理的に−１〜１の値にある
こと、また、比較的話者に依存する割合が高い等の特徴
があり、話者認識においては有効な特徴量である。

【０１２１】そして、話者認識部９０は、各ニューラル
ネットワーク２００−１，２００−２，・・・２００−
ｋから入力される適合度判定用データ１３０と、特徴抽
出部１０から入力される実際の話者の特徴ベクトル１０
０との正解率を各ニューラルネットワーク毎に演算し、
最も正解率の高いニューラルネットワーク２００を選択
する。そして、選択されたニューラルネットワークの正
解率が、所定基準レベル以上の場合に、入力された音声
データ１００が、選択されたニューラルネットワーク２
００の学習に用いた話者であると判断し、これを認識結
果１５０として出力する。例えば、話者Ａを認識対象と
するニューラルネットワーク２００−１が選択された場
合には、入力された音声データ１００が話者が話者Ａで
あると認識し、これを認識結果１５０として出力するこ
とになる。

【０１２２】なお、選択されたニューラルネットワーク
２００の正解率が所定基準以下の場合には、全てのニュ
ーラルネットワーク２００−１，２００−２，・・・２
００−ｋの認識対象話者ではないと判断し、認識結果１
５０を出力する。

【０１２３】なお、話者認識部９０は、このような話者
認識動作以外に、図１に示す前記実施例と同様に、音声
データの認識をも行うように形成してもよい。この場
合、話者認識部９０は、選択部３０と、出力制御部４０
を含むよう構成される。

【０１２４】そして、前記選択部３０は、各ニューラル
ネットワーク２００−１，２００−２，・・・２００−
ｋ毎に、前記正解率を演算し、出力制御部４０に向けて
出力する。

【０１２５】出力制御部４０は、入力された各ニューラ
ルネットワーク毎の正解率に基づき、入力された各音声
データ１００の話者認識を行う。さらに、認識対象とす
る話者が存在した場合には、選択されたニューラルネッ
トワーク２００から出力される音声認識データ１２０
を、認識結果１５０として出力するよう構成されてい
る。

【０１２６】このようにすることにより、話者認識のみ
ならず、認識された話者の音声データをも同時に認識す
ることができ、音声認識装置としての適用分野をさらに
広げることができる。

【０１２７】次に、図１７の音声認識装置を用いた実際
の音声認識動作の詳細を説明する。この実施例において
は、ニューラルネットワークを訓練する標準データとし
て９つの単語、「終点」「腕前」「拒絶」「超越」「と
りあえず」「分類」「ロッカー」「山脈」「隠れピュー
リタン」を用いた。また音声データとしては、ＡＴＲ者
の研究用日本語音声データベースに収録されているもの
を用いた。

【０１２８】図１８、図１９には、このようにして学習
させたニューラルネットワーク２００による話者認識の
実験結果が示されている。この実験では、ニューラルネ
ットワークが予測した特徴ベクトルと、実際の特徴ベク
トルとの正解率の代わりに、両者の誤差を用いて話者認
識を行っている。

【０１２９】図中の実線は、話者ＭＡＵの音声を認識さ
せるために学習させたニューラルネットワークの出力誤
差の時間変化を示す。また破線は、話者ＭＸＭの音声を
認識させるために学習させたニューラルネットワークの
出力誤差の時間変化を示す。ここで示した誤差は、８次
の入力ベクトルデータ、および出力ベクトルとの比較に
より生成された誤差ベクトルの長さの絶対値を、その時
点でのフレームの前後３２フレームについて平均した値
を示したものである。なお、図１８の入力話者はＭＡＵ
であり、図１９入力話者はＭＸＭである。

【０１３０】図より明らかであるように、図１８の場合
は、ＭＡＵの声で訓練されたニューラルネットワークに
よるデータ復元誤差が小さく、ＭＸＭで訓練されたニュ
ーラルネットワークによる復元誤差が大きい。これはＭ
ＡＵの発話特徴を用いたデータ復元の方が精度の良い復
元が可能であることを示す。つまり、入力された音声が
ＭＡＵによるものであることを示している。

【０１３１】また、図１９の場合は、図１８の場合とは
逆に、ＭＸＭの声で訓練されたニューラルネットワーク
によるデータ復元誤差が小さい。つまり、この入力され
た音声がＭＸＭによるものであることを示している。

【０１３２】図１８，１９より明らかであるように、本
発明の話者認識方式によれば、連続した話者認識結果を
得ることができる。

【０１３３】下の表１は、上の例の二つのニューラルネ
ットワークに、訓練話者以外の９話者を含む合計１１人
の音声を入力した場合の誤差の平均値を示したものであ
る。入力は訓練に用いた９単語そのものである。平均は
その全発話区間について行った。表１より明らかである
ように、それぞれのニューラルネットワークにおいて、
１１人の音声入力に対し訓練話者に対する誤差が一番小
さく、１１人の中から正確に訓練話者を認識している事
が示される。

【０１３４】

【表１】

【０１３５】また、下の表２は表１と同様の結果である
が、上の場合と異なり、訓練に用いた単語音声とは内容
が異なる単語音声を入力した場合の結果である。ここで
用いた単語は「カレンダー」「いらっしゃる」「極端」
「駐車」「プログラム」「録音」「購入」「タイピュー
タ」である。

【０１３６】

【表２】

【０１３７】上の表より明らかであるように、本発明の
話者認識方式は、入力された音声の発話内容が異なって
も正確に訓練話者を認識することができる。

【０１３８】なお、前記説明は、時間的に離散的な場合
について説明してきたが、例えばアナログ的な処理を行
う事により連続時間処理においても適用可能である。

【０１３９】

【発明の効果】以上説明したように、請求項１〜１３の
発明によれば、それぞれ異なる音声パターンを持った複
数の音声データが入力されても、適合度の最も高い音声
認識用ニューラルネットワーク部で認識処理が行われる
ので、音声データの音声パターン、例えば音質、音韻等
によってその認識率が左右されることがない音声認識装
置を得ることができるという効果がある。

【０１４０】特に、音声認識用ニューラルネットワーク
部を構成するニューロンとして、内部状態量が時間的に
変化するダイナミックなニューロンを用いることによ
り、ニューラルネットワーク部全体の構成を簡単なもの
とし、かつその認識精度を高めることができるという効
果がある。

【０１４１】また、請求項１４〜１６の発明によれば、
入力される音声データに基づき複数の話者を正確に認識
する音声認識装置を得ることができるという効果があ
る。

【図面の簡単な説明】

【図１】本発明の音声認識装置の実施例を示すブロック
図である。

【図２】図１に示す特徴抽出部での変換処理を示す説明
図である。

【図３】実施例のニューラルネットワーク部の構成を示
す概念図である。

【図４】実施例のニューラルネットワーク部を構成する
ニューロンの説明図である。

【図５】図４に示すニューロンの具体的な構成を示す説
明図である。

【図６】実施例のニューロンの動作を示すフローチャー
ト図である。

【図７】実施例のニューラルネットワーク部を学習させ
るために用いる学習装置の説明図である。

【図８】学習方法の例を示す説明図である。

【図９】学習方法の例を示す説明図である。

【図１０】学習方法の例を示す説明図である。

【図１１】音声認識処理動作を示すフローチャート図で
ある。

【図１２】音声認識処理の出力例を示す説明図である。

【図１３】音声認識処理の出力例を示す説明図である。

【図１４】音声認識処理の出力例を示す説明図である。

【図１５】本実施例のハードウエアの構成図である。

【図１６】本実施例に用いられるダイナミックニューロ
ンの他の具体例の説明図である。

【図１７】話者認識に用いられる音声認識装置のブロッ
ク図である。

【図１８】実施例の音声認識装置を用いた話者認識結果
を示す図である。

【図１９】実施例の音声認識装置を用いた話者認識結果
を示す図である。

【符号の説明】

１０特徴抽出部２０音声認識理部３０選択部４０出力制御部１００音声データ１１０特徴ベクトル１２０認識データ１３０適合度判断用データ１４０選択データ１５０認識出力２００ニュートラルネットワーク２１０ニューロン２２０内部状態値記憶手段２４０内部状態値記憶更新手段２６０出力値生成手段

Claims

【特許請求の範囲】

【請求項１】所定の音声データを認識するようそれぞ
れ異なる特徴の音声パターンで予め学習され、入力され
た音声データが認識対象となる音声データと一致するか
否かの音声認識動作を行うとともに、音声認識の適合度
を表す適合度判定用データを出力する動作を行う複数の
音声認識用ニューラルネットワーク部を含む音声認識処
理手段と、前記各音声認識用ニューラルネットワーク部から出力さ
れた適合度判定用データに基づき、最も音声認識の適合
度が高い音声認識用ニューラルネットワーク部を選択す
る選択手段と、前記選択手段で選択された音声認識用ニューラルネット
ワーク部からの音声認識結果を出力する出力制御手段
と、を含むことを特徴とする音声認識装置。
【請求項２】請求項１において、入力された音声データをフレーム単位で切出し、特徴ベ
クトルに変換して順次出力する特徴抽出手段を含み、前記各音声認識用ニューラルネットワーク部は、前記特徴抽出手段から出力される特徴ベクトルが音声デ
ータとして入力されるよう形成されたことを特徴とする
音声認識装置。
【請求項３】請求項１，２のいずれかにおいて、前記各音声認識用ニューラルネットワーク部は、内部状態値Ｘが設定された複数のニューロンを相互に結
合して構成されており、前記各ニューロンは、その内部状態値Ｘが、当該ニューロンに与えられる入力
データＺj （ｊ＝０〜ｎ：ｎは自然数）および内部状態
値Ｘを用いて表された関数Ｘ＝Ｇ（Ｘ，Ｚj ）を満足す
る値に時間変化するダイナミックニューロンとして形成
され、前記各ダイナミックニューロンは、その内部状態値Ｘを、関数Ｆ（Ｘ）を満足する値に変換
して出力されるよう形成されたことを特徴とする音声認
識装置。
【請求項４】請求項３において、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、【数１】として表されるよう形成されたことを特徴とする音声認
識装置。
【請求項５】請求項３において、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、ｊ番目のニューロンの
出力をｉ番目のニューロンの入力へ結合する結合強度Ｗ
ij、外部入力値Ｄi 、バイアス値θi を用いて、【数２】として表されるよう形成されたことを特徴とする音声認
識装置。
【請求項６】請求項３において、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、シグモイド関数Ｓを用
いて、【数３】として表されるよう形成されたことを特徴とする音声認
識装置。
【請求項７】請求項３において、前記関数Ｘ＝Ｇ（Ｘ，Ｚj ）は、シグモイド関数Ｓ、ｊ
番目のニューロンの出力をｉ番目のニューロンの入力へ
結合する結合強度Ｗij、外部入力値Ｄi 、バイアス値θ
i を用いて、【数４】として表されるよう形成されたことを特徴とする音声認
識装置。
【請求項８】請求項３〜７のいずれかにおいて、前記各音声認識用ニューラルネットワーク部は、音声データが入力される入力ニューロンと、音声データ
の認識結果を出力する認識結果出力ニューロンと、適合
度判定用データを出力する適合度出力ニューロンとを含
み、前記適合度出力ニューロンは、前記入力ニューロンに入力される音声データを推定し、
この推定データを適合度判定用データとして出力するよ
う形成され、前記選択手段は、実際の音声データに対する前記推定デ
ータの正答率を音声認識の適合度として演算することを
特徴とする音声認識装置。
【請求項９】請求項３〜７のいずれかにおいて、前記各ダイナミックニューロンは、前記関数Ｆ（Ｘ）がｓｉｇｍｏｉｄ関数であることを特
徴とする音声認識装置。
【請求項１０】請求項３〜７のいずれかにおいて、前記各ダイナミックニューロンは、前記関数Ｆ（Ｘ）がしきい値関数であることを特徴とす
る音声認識装置。
【請求項１１】請求項３〜７のいずれかにおいて、前記各ダイナミックニューロンは、前記入力データＺj として、自己のニューロンの出力に
重みを乗算してフィードバックさせたデータを含むこと
を特徴とする音声認識装置。
【請求項１２】請求項３〜１１のいずれかにおいて、前記各ダイナミックニューロンは、前記入力データＺj として、他のニューロンの出力に重
みを乗算したデータを含むことを特徴とする音声認識装
置。
【請求項１３】請求項３〜１１のいずれかにおいて、前記各ダイナミックニューロンは、前記入力データＺj として、外部から与えられた所望の
データを含むことを特徴とする音声認識装置。
【請求項１４】入力される音声データをフレーム単位
で切出し、特徴ベクトルに変換して順次出力する特徴抽
出手段と、前記特徴抽出手段から入力される認識対象話者の特徴ベ
クトルに基づき、入力される認識対象話者の特徴ベクト
ルを予測し、音声認識の適合度を表す適合度判定用デー
タとして出力するよう予め学習され、前記特徴抽出手段
から実際に入力される特徴ベクトルに基づき前記適合度
判定用データを出力するよう形成された複数の音声認識
用ニューラルネットワーク部を含む音声認識処理手段
と、前記各音声認識用ニューラルネットワーク部から出力さ
れた適合度判定用データと、前記特徴抽出手段から入力
される実際の話者の特徴ベクトルとの正答率を各音声認
識用ニューラルネットワーク部毎に演算し、入力音声の
話者認識を行う話者認識手段と、を含むことを特徴とする音声認識装置。
【請求項１５】請求項１４おいて、前記各音声認識用ニューラルネットワーク部は、内部状態値Ｘが設定された複数のニューロンを相互に結
合して構成されており、前記各ニューロンは、その内部状態値Ｘが、当該ニューロンに与えられる入力
データＺj （ｊ＝０〜ｎ：ｎは自然数）および内部状態
値Ｘを用いて表された関数Ｘ＝Ｇ（Ｘ，Ｚj ）を満足す
る値に時間変化するダイナミックニューロンとして形成
され、前記各ダイナミックニューロンは、その内部状態値Ｘを、関数Ｆ（Ｘ）を満足する値に変換
して出力されるよう形成されたことを特徴とする音声認
識装置。
【請求項１６】請求項１４において、前記各音声認識用ニューラルネットワーク部は、前記特徴ベクトルが入力される入力ニューロンと、適合
度判定用データを出力する適合度出力ニューロンとを含
み、前記適合度出力ニューロンは、入力される前記特徴ベクトルを推定し、この推定データ
を適合度判定用データとして出力するよう形成されたこ
とを特徴とする音声認識装置。