JPH0667698A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0667698A
JPH0667698A JP5146482A JP14648293A JPH0667698A JP H0667698 A JPH0667698 A JP H0667698A JP 5146482 A JP5146482 A JP 5146482A JP 14648293 A JP14648293 A JP 14648293A JP H0667698 A JPH0667698 A JP H0667698A
Authority
JP
Japan
Prior art keywords
data
voice
input
output
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5146482A
Other languages
English (en)
Other versions
JP3467556B2 (ja
Inventor
Mitsuhiro Inazumi
満広 稲積
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP14648293A priority Critical patent/JP3467556B2/ja
Publication of JPH0667698A publication Critical patent/JPH0667698A/ja
Application granted granted Critical
Publication of JP3467556B2 publication Critical patent/JP3467556B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声パターンの異なる複数の音声パターンの
全てを正確に認識できる音声認識装置を提供すること。 【構成】 所定の音声データを認識する音声認識装置で
ある。この装置は、前記音声データ100を認識するよ
うそれぞれ特徴の異なる音声パターンで予め学習され、
入力された音声データが認識対象となる音声データと一
致するか否かの音声認識動作を行うとともに、音声認識
の適合度を表す適合度判定用データを出力する動作を行
う複数の音声認識用ニューラルネットワーク部200−
1,200−2…を含む音声認識処理手段20と、前記
各音声認識用ニューラルネットワーク部200−1,2
00−2…から出力された適合度判定用データに基づき
最も音声認識の適合度が高い音声認識用ニューラルネッ
トワーク部を選択する選択手段30と、前記選択手段3
0で選択された音声認識用ニューラルネットワーク部か
らの音声認識結果を出力する出力制御手段40とを含
む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置に実用的に用いられ
ている手法は大別して、DPマッチング法、隠れマルコ
フモデル(HMM)法の2つである。これらの手法は、
例えば、中川聖一著「確率モデルによる音声認識」に詳
しく記述されている。
【0003】これを要約すれば、DPマッチング法は、
入力されたデータと、標準データとの始端と終端の対応
を仮定し、その内部を様々な時間正規化関数を用い変形
する。そして、その差異が最小となる変形と、その時の
パターン間の距離をその標準パターンの失点とする。そ
して、複数の標準パターンの内、失点が最小となるパタ
ーンをマッチング結果とするものである。
【0004】一方、HMM法を用いた音声認識手法は、
確率的な方法により音声認識を行おうとするものであ
る。この方法では、DP法の場合における標準パターン
に相当するHMMモデルが設定される。一つのHMMモ
デルは複数の状態と、複数の遷移とにより構成される。
それぞれの状態には存在確率が、またそれぞれ遷移には
遷移確率と、出力確率が与えられる。これによりある一
つのHMMモデルが、ある時系列パターンを生成する確
率を計算することができる。
【0005】
【発明が解決しようとする課題】ところで、音声データ
の特徴は話者によって大きく異なる。特に男性と女性、
または大人と子供などのように性別・年齢層が異なる
と、同じ文章(または単語)を発音してもまったく異な
った特徴の音声パターンの音声データとなる。このた
め、特定の話者による音声データを学習用データとして
用いて構築された従来の音声認識装置では、学習用の話
者の特徴と音声パターンが大きく異なる第三者の音声デ
ータを、殆ど認識できなかった。
【0006】本発明は、音声パターンの異なる音声デー
タを正確に認識できる音声認識装置を提供することを目
的とする。
【0007】また、本発明の他の目的は、入力される音
声データから話者を認識できる音声認識装置を提供する
ことにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、本発明の音声認識装置は、所定の音声データを認識
するようそれぞれ異なる特徴の音声パターンで予め学習
され、入力された音声データが認識対象となる音声デー
タと一致するか否かの音声認識動作を行うとともに、音
声認識の適合度を表す適合度判定用データを出力する動
作を行う複数の音声認識用ニューラルネットワーク部を
含む音声認識処理手段と、前記各音声認識用ニューラル
ネットワーク部から出力された適合度判定用データに基
づき、最も音声認識の適合度が高い音声認識用ニューラ
ルネットワーク部を選択する選択手段と、前記選択手段
で選択された音声認識用ニューラルネットワーク部から
の音声認識結果を出力する出力制御手段と、を含むこと
を特徴とする。
【0009】ここにおいて、前記音声認識装置は、入力
された音声データをフレーム単位で切出し、特徴ベクト
ルに変換して順次出力する特徴抽出手段を含み、前記各
音声認識用ニューラルネットワーク部は、前記特徴抽出
手段から出力される特徴ベクトルが音声データとして入
力されるよう形成することが好ましい。
【0010】さらに前記各音声認識用ニューラルネット
ワーク部は、内部状態値Xが設定された複数のニューロ
ンを相互に結合して構成されており、前記各ニューロン
は、その内部状態値Xが、当該ニューロンに与えられる
入力データZj (j=0〜n:nは自然数)および内部
状態値Xを用いて表された関数X=G(X,Zj )を満
足する値に時間変化するダイナミックニューロンとして
形成され、前記各ダイナミックニューロンは、その内部
状態値Xを、関数F(X)を満足する値に変換して出力
されるよう形成することが好ましい。
【0011】ここにおいて、前記関数X=G(X,Zj
)は、
【0012】
【数5】
【0013】として表されるよう形成することができ
る。
【0014】また前記関数X=G(X,Zj )は、j番
目のニューロンの出力をi番目のニューロンの入力へ結
合する結合強度Wij、外部入力値Di 、バイアス値θi
を用いて、
【0015】
【数6】
【0016】として表すこともできる。
【0017】また、前記関数X=G(X,Zj )は、シ
グモイド関数Sを用いて、
【0018】
【数7】
【0019】として表すこともできる。
【0020】また、前記関数X=G(X,Zj )は、シ
グモイド関数S、j番目のニューロンの出力をi番目の
ニューロンの入力へ結合する結合強度Wij、外部入力値
Di、バイアス値θi を用いて、
【0021】
【数8】
【0022】として表すこともできる。
【0023】前記各音声認識用ニューラルネットワーク
部は、音声データが入力される入力ニューロンと、音声
データの認識結果を出力する認識結果出力ニューロン
と、適合度判定用データを出力する適合度出力ニューロ
ンとを含み、前記適合度出力ニューロンは、前記入力ニ
ューロンに入力される音声データを推定し、この推定デ
ータを適合度判定用データとして出力するよう形成さ
れ、前記選択手段は、実際の音声データに対する前記推
定データの正答率を音声認識の適合度として演算するよ
う形成できる。
【0024】前記関数F(X)はsigmoid関数と
することができる。
【0025】また前記関数F(X)はしきい値関数とす
ることもできる。
【0026】前記各ダイナミックニューロンは、前記入
力データZj として、自己のニューロンの出力に重みを
乗算してフィードバックさせたデータを含むよう形成で
きる。
【0027】また前記各ダイナミックニューロンは、前
記入力データZj として、他のニューロンの出力に重み
を乗算したデータを含むよう形成できる。
【0028】また前記各ダイナミックニューロンは、前
記入力データZj として、外部から与えられた所望のデ
ータを含むよう形成できる。
【0029】本発明の音声認識装置によれば、入力され
た音声データは音声認識手段に備えられた複数の音声認
識用ニューラルネットワーク部に与えられる。そして、
各音声認識用ニューラルネットワーク部では、入力され
た音声データの認識処理と、入力された音声データと学
習に用いられた音声データとの音声認識の適合度判定用
データの演算が行われる。
【0030】前記各音声認識用ニューラルネットワーク
部は、それぞれ異なる音声パターンで音声データを認識
するよう予め学習されているため、その認識適合度も各
ニューラルネットワーク部ごとに異なる値となる。
【0031】各音声認識用ニューラルネットワーク部の
適合度判定用データは、選択手段に与えられ、ここで最
も認識適合度の高い音声認識用ニューラルネットワーク
部が選択される。この選択結果が出力制御手段に与えら
れ、選択された音声認識用ニューラルネットワーク部か
らの音声認識結果が出力される。
【0032】このようにして、音声パターンの異なる音
声データを正確に認識することができる。
【0033】ここにおいて、各音声認識用ニューラルネ
ットワーク部を、内部状態値Xが設定された複数のニュ
ーロンを相互に結合して構成することがこのましい。前
記各ニューロンは、内部状態値Xが、入力データZj
(j=0〜n:nは自然数)および内部状態値Xを用い
て表された関数X=G(X,Zj )を満足する値に時間
変化するダイナミックニューロンとして構成することが
好ましい。
【0034】これにより、ニューラルネットワーク部全
体のデータ処理を簡略化し、かつ、音声認識精度を高め
ることができる。
【0035】また、前記他の目的を達成するために、本
発明の音声認識装置は、入力される音声データをフレー
ム単位で切出し、特徴ベクトルに変換して順次出力する
特徴抽出手段と、前記特徴抽出手段から入力される認識
対象話者の特徴ベクトルに基づき、入力される認識対象
話者の特徴ベクトルを予測し、音声認識の適合度を表す
適合度判定用データとして出力するよう予め学習され、
前記特徴抽出手段から実際に入力される特徴ベクトルに
基づき前記適合度判定用データを出力するよう形成され
た複数の音声認識用ニューラルネットワーク部を含む音
声認識処理手段と、前記各音声認識用ニューラルネット
ワーク部から出力された適合度判定用データと、前記特
徴抽出手段から入力される実際の話者の特徴ベクトルと
の正答率を各音声認識用ニューラルネットワーク部毎に
演算し、入力音声の話者認識を行う話者認識手段と、を
含むことを特徴とする。
【0036】以上の構成とすることにより、入力される
音声データから複数の話者を正確に認識できる。
【0037】ここにおいて、前記各音声認識用ニューラ
ルネットワーク部は、内部状態値Xが設定された複数の
ニューロンを相互に結合して構成されており、前記各ニ
ューロンは、その内部状態値Xが、当該ニューロンに与
えられる入力データZj (j=0〜n:nは自然数)お
よび内部状態値Xを用いて表された関数X=G(X,Z
j )を満足する値に時間変化するダイナミックニューロ
ンとして形成され、前記各ダイナミックニューロンは、
その内部状態値Xを、関数F(X)を満足する値に変換
して出力されるよう形成することがこのましい。
【0038】また前記各音声認識用ニューラルネットワ
ーク部は、前記特徴ベクトルが入力される入力ニューロ
ンと、適合度判定用データを出力する適合度出力ニュー
ロンとを含み、前記適合度出力ニューロンは、入力され
る前記特徴ベクトルを推定し、この推定データを適合度
判定用データとして出力するよう形成することができ
る。
【0039】
【実施例】次に、本発明の好適な実施例を図面に基づき
詳細に説明する。
【0040】図1には、本発明の音声認識装置の好適な
実施例が示されている。
【0041】音声認識装置全体の説明 実施例の音声認識装置は、特徴抽出部10、音声認識理
部20、選択部30、出力制御部40を含む。
【0042】前記特徴抽出部10は、図2に示すよう、
入力されるアナログ音声データ100をフレーム単位で
切り出し、特徴ベクトル100に変換して音声認識処理
部20へ向け出力する。この特徴ベクトル100は、次
のようにして求められる。すなわち、図2(A)に示す
よう、アナログ音声データ100を所定のフレーム10
2の単位で順次切り出す。図2(B)に示すよう、フレ
ーム単位で切り出された音声データ100は、線形予測
分析やフィルタバンク等で特徴が抽出され、特徴ベクト
ル110の列として音声認識理部200へ向け、順次出
力される。
【0043】音声認識処理部20は、複数のニューラル
ネットワーク部200−1,200−2,……200−
kを含む。特徴抽出部10から出力される特徴ベクトル
110は、各ニューラルネットワーク部へそれぞれ入力
される。
【0044】前記各ニューラルネットワーク部200−
1,200−2……200−kは、所定の音声データを
認識するよう、それぞれ異なる特徴の音声パターンでそ
の学習が行われている。そして、各ニューラルネットワ
ーク部200−1,200−2……200−kは、特徴
ベクトル110として入力される音声データが、認識対
象となる音声データと一致するか否かの音声認識動作を
行い、さらに、その認識の適合度を表す適合度判定用デ
ータを出力する動作を行うよう形成されている。
【0045】例えば、「ビール」という音声データを認
識させようとする場合、同じ「ビール」という音声デー
タを発音しても、その音声パターンの特徴は、話者によ
って大きく異なることは前述した通りである。このた
め、例えばニューラルネットワーク部200−1,20
0−2には、それぞれ異なる特徴の音声パターンを有す
る男性の声で、「ビール」という音声データの認識を行
うように学習をさせ、ニューラルネットワーク部200
−kには、女性の声で「ビール」という音声データを認
識するよう学習を行わせる。このようにすることによ
り、各ニューラルネットワーク部200−1,200−
2……200−kは、入力された音声データが、学習に
用いた音声データ「ビール」と一致するか否かの音声認
識動作を行い、その認識結果120を出力制御部40へ
向け出力する。このとき、各ニューラルネットワーク部
200−1,200−2……200−kは、この音声認
識の適合度を判定するためのデータの演算を行い、これ
を適合度判定用データ130として選択部30へ向け出
力する。選択部30は、各ニューラルネットワーク20
0−1,200−2……200−kから出力される適合
度判定用データ130に基づき、認識適合度の最も高い
ニューラルネットワークを識別し、選択データ140を
出力制御部40へ向け出力する。
【0046】認識適合度の判定処理とは、入力された音
声データと、学習で用いられた音声データとの適合度1
30を判定する処理をいう。この判定処理は、入力され
た音声データに基づき、当該入力データより時間的に前
(過去)の音声データが推定できるようにニューラルネ
ットワークを学習させて、推定の正解率を認識適合度と
して求める処理をいう。例えば、図2において、ニュー
ラルネットワーク200に特徴ベクトル110が入力さ
れると、この入力データ110より時間的に一つ前に入
力される特徴ベクトル110aが予測できるようにニュ
ーラルネットワーク200を学習させ、推定した特徴ベ
クトルを適合度判定用データ130として選択部30へ
向け出力させる。つまり、入力データの時間的な関係
は、話者の個性を反映したもので、推定しやすい話者の
音声データは、そのニューラルネットワークの学習で用
いた音声データと類似した個性である音韻または特徴で
ある音韻を持っているのである。
【0047】そこで、選択部30は、ニューラルネット
ワーク200−1,200−2……200−kから出力
される適合度判定用データ130(推定された一つ前の
特徴ベクトル)を、特徴抽出部10から実際に出力され
た一つ前の特徴ベクトル110と照合し、各ニューラル
ネットワーク毎に正解率を演算する。この正解率(認識
適合度)の最も高いニューラルネットワークの音声認識
結果の出力が最も正解であるといえるので、その出力を
音声認識装置の認識結果として採用ればよい。そして、
認識適合度の最も高いニューラルネットワークの選択デ
ータ140を出力制御部40へ向け出力する。
【0048】そして、出力制御部40は、このように入
力される選択データ140で指定される最も相性のよい
ニューラルネットワーク部200の認識データ120
を、認識結果データ150として選択出力する。
【0049】このようにして、本発明の音声認識装置に
よれば、例えば男性や女性、または大人や子供というよ
うに音声パターンの特徴の異なる話者から入力される音
声データ100を、その音声パターンの相違に影響され
ることなく、正確に認識することができる。
【0050】なお、前記位各ニューラルネットワーク2
00−1,200−2……200−kは、図2に示すよ
う、特徴抽出部10から入力される特徴ベクトル110
に基づき、当該特徴ベクトル110そのもの、あるい
は、この特徴ベクトル110より後(未来)に入力され
るいずれかの特徴ベクトル100bを予測し、予測した
特徴ベクトルを適合度判定用データ130として選択部
30へ向け出力するように形成してもよい。
【0051】この場合にも、選択部30は、各ニューラ
ルネットワーク200−1,200−2,……200−
kで予測された特徴ベクトルと、予測対象として特徴抽
出部10から入力された実際の特徴ベクトル110とを
照合し、その正解率を認識適合度として各ニューラルネ
ットワーク毎に演算するよう形成すれば良い。
【0052】本発明に用いられるニューラルネットワー
ク部200としては、例えば階層型モデルや、マルコフ
モデル等で表される従来の静的なニューラルネットワー
クでもよいが、簡単な構成でより良好な認識動作を行う
ためには、以下に詳述するようなダイナミックなニュー
ラルネットワークを用いることが好ましい。
【0053】音声認識用ニューラルネットワークの構成 図3には、前記音声認識用ニューラルネットワーク20
0として用いられるダイナミックなニューラルネットワ
ークの一例を簡略化して表したものが示されている。実
施例のニューラルネットワーク200は、神経細胞を構
成する複数のニューロン200−1,200−2……2
00−6を相互に接続して構成されている。各ニューロ
ン200の結合部には、それぞれ大きさが可変の重みが
備えられている。この重みを学習によって所定の値に変
化させることによって、正確な音声認識処理が行われる
ようになる。
【0054】なお、音声データ100の特徴ベクトル2
10は、ニューロン210−2,210−3に与えら
れ、音声認識処理の認識結果データ150はニューロン
210−5,210−6から出力される。なお、ニュー
ロン210−5からは否定出力158−B、ニューロン
210−6からは肯定出力158−Aがそれぞれ出力さ
れるようになっている。さらに、ニューロン210−4
からは、適合度判定用データ130が出力されるように
構成されている。
【0055】ニューロンの構成 図4には、前記ニューロン210の構成が模式的に示さ
れている。このニューロン210は、所定の内部状態値
Xを記憶する内部状態値記憶手段220と、前記内部状
態値X及び以下に説明する外部入力値Zj を入力として
内部状態記憶手段220の内部状態値Xを更新する内部
状態値更新手段240と、内部状態値Xを外部出力Yへ
変換する出力値生成手段260とを含む。
【0056】このように、実施例に用いたニューラルネ
ットワーク200では、ニューロン210の内部状態値
Xの値を、その値Xそのものを基にして順次更新してい
く。従って、そのニューロン210へ入力されるデータ
の過去の履歴が、その内部状態値Xとして変換、保存さ
れる。つまり、内部状態値Xとして、入力の時間的な履
歴が保存され、出力Yに反映される。この意味で、実施
例のニューロン210の動作はダイナミックなものであ
るといえる。したがって、静的なニューロンを用いたネ
ットワークと異なり、実施例のニューラルネットワーク
200は、ニューラルネットワークの構造等によらず、
時系列データを処理することができ、全体の回路規模を
小さくできる。
【0057】図5には、前記ニューロン210の具体例
が示されている。前記内部状態記憶手段220は、内部
状態値Xを記憶するメモリ222を含んで構成されてい
る。前記内部状態値更新手段240は、入力Zj の積算
手段242と、次式で示す演算を行い新たな内部状態値
Xを求めメモリ222の内容を更新する演算部244と
を含む。
【0058】
【数9】
【0059】前記出力値生成手段260は、演算部26
2を含む。この演算部262は、メモリ222に記憶さ
れている内部状態値Xを、値域制限した出力値Yへシグ
モイド(ロジスティック)関数等を用いて変換出力する
よう形成されている。
【0060】前記内部状態値X、出力値Yのそれぞれの
時間変化において、現在の内部状態値をXcurr、更
新される内部状態値をXnext、またその更新動作時
点での外部入力値をZj (j は0からnであり、nはそ
のニューロン210への外部入力数)とする。このと
き、内部状態更新手段240の動作を形式的に関数Gで
表すと、 Xnext=G(Xcurr、Z1、−−−、Zi、−−−、Zn) と表現できる。この表現の具体的な形は様々なものが考
えられるが、例えば1階の微分方程式を用いた前記数9
で示すことができる。ここでτはある定数である。
【0061】また、数9をもう少し変形した形として
は、以下の数10のような表現も可能である。
【0062】
【数10】
【0063】この中で、Wijはj番目のニューロンの出
力を、i番目のニューロンの入力へ結合する結合強度を
示す。また、Di は外部入力値を示す。またθi はバイ
アス値を示す。このバイアス値は、固定された値との結
合として、Wijの中に含めて考えることも可能である。
【0064】このようにして決定されたある瞬間のニュ
ーロン210の内部状態をXとし、出力生成手段260
の動作を形式的に関数Fで表すと、ニューロン210の
出力Yは、 Y=F(X) と表現できる。Fの具体的な形としては、以下の数11
で示されるような正負対称出力のシグモイド(ロジステ
ィック)関数等が考えられる。
【0065】
【数11】
【0066】しかし、この関数型は、必須のものではな
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。
【0067】このような演算式を用い、実施例のダイナ
ミックなニューロン320の出力Yの時系列は、図6に
示したような処理により計算される。図6においては、
簡略のためニューロンを単にノードと記載している。
【0068】なお、前記ニューロン210への入力Zj
としては、ある重みが乗算されたそのニューロン自身の
出力、結合重みが乗算された他のニューロンの出力、あ
るいはそのニューラルネットワーク以外からの外部入力
などがある。
【0069】実施例においては、図3示すよう、ニュー
ロン210−2,210−3には、重み付けされた自分
自身の出力、重み付けされた他のニューロンからの出
力、及び特徴抽出部10からの出力110が与えられ
る。また、ニューロン210−1には、重み付けされた
自分自身の出力、重み付けされた他のニューロンからの
出力が与えられる。さらに、ニューロン210−4,2
10−5,510−6には、重み付けされた自分自身の
出力、重み付けされた他のニューロンからの出力が与え
られる。そしてニューロン210−4の出力は、選択部
30に与えられる。ニューロン210−5,210−6
の出力は出力制御部40に与えられる。
【0070】内部状態量の初期値設定 また、実施例の各ニューロン210は、内部状態記憶手
段220内に記憶された内部状態量Xを、前述したよう
に内部状態値更新手段240を用いて順次更新していく
ように構成されている。したがって、このようなニュー
ロン210を用いて構成されたニューラルネットワーク
200では、動作に先立って予めその初期値を設定して
やることが必要となる。
【0071】このため、図1に示すよう、実施例の音声
認識装置には、内部状態初期値設定部60が設けられて
いる。そして、この内部状態初期値設定部60は、ニュ
ーラルネットワーク200が動作するに先立って、予め
定められた初期値を全てのニューロンに与えるよう形成
されている。すなわち、ニューラルネットワーク200
の動作に先立って、全てのニューロン210に、適当に
選択された初期内部状態値Xをセットし、それに対応す
る出力Yをセットする。このようにして初期値をセット
することにより、ニューラルネットワークは速やかにス
タートすることになる。
【0072】ニューラルネットワークの学習 次に、ニューラルネットワーク200の音声認識処理の
学習方法について説明する。
【0073】図7には、ニューラルネットワーク200
を学習させるための学習装置300の構成が示されてい
る。この学習装置300は、図1に示す各ニューラルネ
ットワーク200−1,200−2……200−kをそ
れぞれ異なる特徴の音声パターンで学習させるように形
成されている。
【0074】この学習装置300は、学習用の入力音声
データが記憶された入力データ記憶部310と、入力音
声データに対応する模範となる出力データが記憶された
出力データ記憶部312と、学習させたい入力データを
選択する入力データ選択部314と、出力データを選択
する出力データ選択部316と、ニューラルネットワー
ク200の学習を制御する学習制御部318とを含む。
【0075】そして、この学習装置300による学習方
法を行う場合には、まず、学習対象となるニューラルネ
ットワーク200を構成する全てのニューロン210
に、初期状態値Xをセットする。次に、学習させたい音
声データが、入力データ選択部310により選択され、
学習制御部318に入力される。このとき、選択した学
習用入力データに対応する学習用出力データが、出力デ
ータ選択部316により選択され、学習制御部318に
入力される。選択された学習用の入力音声データは、音
声抽出部10に入力され、ここで抽出された特徴ベクト
ル110がニューラルネットワーク200へ外部入力と
して入力される。全てのニューロン210についてそれ
ぞれ入力Zj の和を求め、その内部状態量Xが更新され
る。そして、更新されたXによりニューロン210の出
力Yを求める。
【0076】初期状態では、ニューラルネットワーク2
00の各ニューロン間の結合強度にはランダムな値が与
えられている。したがって、図3の各ニューロン210
−5,210−6から出力される認識結果120B,1
20Aはでたらめな値である。これらの出力が正しい値
となるように、少しだけ各ニューロン間の重みを変更す
る。
【0077】学習対象となるニューラルネットワーク2
00は、認識対象となる音声データが入力された場合
に、図8に示すよう、ニューロン210−6から肯定出
力120Aとしてハイレベルの信号が出力され、ニュー
ロン210−5から否定出力120Bとしてローレベル
の信号が出力されるよう学習を行う。このように、肯定
出力と否定出力の2種類の認識結果データ120A,1
20Bを出力させるのは、音声認識処理の精度を向上さ
せるためである。
【0078】そして、認識させたい音声データ100を
何回も繰返入力し、少しづつ各ニューロン間の重みを変
更する。これにより、次第にニューロン210−5,2
10−6から正しい値が出力されるようになる。入力さ
れる音声データが認識させたくないデータを学習される
場合は、肯定出力120Aがローレベル、否定出力がハ
イレベルとなるように各ニューロン間の重みを変更す
る。
【0079】ニューラルネットワーク200の出力が収
束するまでの繰りかえし学習回数は、数千回程度であ
る。
【0080】なお、学習方法の応用として、二つの音声
データを続けて入力し、学習させる方法がある。その理
由は、音声データを一つづつ用いた学習では、一度ハイ
レベルになった肯定出力はローレベルに下げることが出
来ず、また一度ローレベルになった否定出力はハイレベ
ルに上げることができないからである。つまり、音声デ
ータを一つづつ用いた学習では、図9(A)に示すよう
に、認識させたい音声データ(以下真データという)を
与えて肯定出力をハイレベルに上昇させる学習(この場
合、否定出力はローレベルを保持している)、あるいは
図9(B)に示すよう、認識させたくないデータ(以
下、偽データという)を与えて否定出力をハイレベルに
上昇させる学習(この場合、肯定出力はローレベルを保
持している)が行われる。この学習では、肯定出力及び
否定出力とも、一旦ハイレベルに上昇した後は、その出
力値がローレベルになることはないという問題が生ず
る。
【0081】したがって、真データと偽データが混在し
た複数の音声データが連続して与えられた場合、真デー
タの入力で一度ハイレベルに上がった肯定出力は、その
後、偽データの入力があってもローレベルに下がること
はない。これは否定出力についても同様である。
【0082】そこで、本実施例では、図10(A)〜
(D)に示すように、二つの音声データを連続して与
え、出力の上昇と下降の両方の学習を行わせる方法が取
られている。図10(A)では、真データと偽データを
連続して入力し、これを繰り返して学習させている。こ
の学習によって、肯定出力の上昇、否定出力の上昇と降
下が学べる。図10(B)では、偽データと真データを
連続して入力し、これを繰り返して学習させている。こ
の学習によって、肯定出力の上昇と降下、否定出力の上
昇が学べる。図10(C)では、偽データを連続して入
力し、これを繰り返して学習させている。この学習は、
図10(B)に示した学習によって、偽データの次のデ
ータは真データであるといった誤った認識をニューラル
ネットワーク200に持たせないためのものである。同
様に図10(D)では、真データを二つ連続して入力
し、これを繰り返して学習させている。この学習も、図
10(A)に示した学習によって、真データの次のデー
タは偽データであるといった誤った認識をニューラルネ
ットワーク200に持たせないためのものである。
【0083】このような学習を、図1に示すニューラル
ネットワーク200−1,200−2……200−kに
対し、それぞれ異なる特徴の音声パターンで行う。例え
ば各ニューラルネットワーク200−1,200−2…
…200−kで、それぞれ「ビール」という音声データ
を認識させたい場合には、異なる特徴の音声パターンを
有する音声データ「ビール」を学習用音声データとして
用い、各ニューラルネットワーク200−1,200−
2……200−kの学習を前述したように行わせる。こ
のような学習の結果、認識に最適な入力音声パターンが
各ニューラルネットワーク毎にそれぞれ設定される。し
たがって、同じ「ビール」という音声データ100を与
えても、各ニューラルネットワーク毎にその認識率は異
なったものとなる。例えば、男性の音声でニューラルネ
ットワーク200−1の学習を行い、女性の音声でニュ
ーラルネットワーク200−2の学習を行った音声認識
装置では、別の男性の音声で入力データを与えた場合、
ニューラルネットワーク200−1では高い確率で認識
できるが、ニューラルネットワーク200−2ではほと
んど認識できない事態が生ずる。逆に、別の女性の音声
で入力データを与えた場合は、ニューラルネットワーク
200−2での認識率は高くなり、ニューラルネットワ
ーク200−1の認識率は低下する。
【0084】このように、本実施例は各ニューラルネッ
トワーク200−1,200−2……200−kをそれ
ぞれ異なった特徴の人の音声で学習させるので、特徴抽
出部10から同一の音声ベクトル110が各ニューラル
ネットワーク200−1,200−2……200−kに
与えられても、音声認識結果120は各ニューラルネッ
トワーク毎にそれぞれ異なったものとなる。
【0085】各ニューラルネットワーク200−1,2
00−2……200−kから出力される複数の音声認識
結果120の内、一番認識率の高い認識結果を採用する
ために、本実施例では、音声データとの認識適合度判別
用データ130が各ニューラルネットワーク200−
1,200−2……200−kからそれぞれ出力される
ように工夫されている。
【0086】前述したように、認識適合度の判定処理と
は、入力された音声データと、学習で用いられた音声デ
ータとの適合度130を判定する処理をいう。この判定
処理は、入力された音声データに基づき、当該入力デー
タより時間的に前の音声データが推定できるようにニュ
ーラルネットワークを学習させて、推定の正解率を認識
適合度として求める処理をいう。
【0087】例えば、図2において、ニューラルネット
ワーク200に特徴ベクトル110が入力されると、こ
の入力データ110より時間的に一つ前(過去)に入力
された特徴ベクトル110aが予測できるようにニュー
ラルネットワーク200を学習させ、推定した特徴ベク
トルを適合度判定用データ130として選択部30へ向
け出力させる。つまり、入力データの時間的な関係は、
話者の個性を反映したもので、推定しやすい話者の音声
データは、そのニューラルネットワークの学習で用いた
音声データと類似した個性である音韻または特徴である
音韻を持っているのである。
【0088】そこで、選択部30は、ニューラルネット
ワーク200−1,200−2……200−kから出力
される適合度判定データ130(推定された一つ前の特
徴ベクトル)を、特徴抽出部10から実際に出力される
一つ前の特徴ベクトル110と照合し、各ニューラルネ
ットワーク毎に正解率を演算する。この正解率(認識適
合度)の最も高いニューラルネットワークの音声認識結
果の出力が最も正解であるといえるので、その出力を音
声認識装置の認識結果として採用する。
【0089】この認識適合度の判定処理の学習は、前述
した音声認識処理の学習と同時に行う。すなわち、ニュ
ーラルネットワーク200を構成する要素の一つである
適合度出力ニューロン210−4が、入力ニューロン2
10−2,210−3から前に入力された過去の特徴ベ
クトルを推定し、これを適合度判定用データ130とし
て出力するように、学習用の音声データを用いてニュー
トラルネットワーク200を学習させればよい。
【0090】なお、認識適合度の判定処理は、このよう
に前のデータの予測以外に、図2に示すよう、入力され
た特徴ベクトル110そのものの推定データ、あるいは
次に入力される未来の特徴ベクトル110bの予測デー
タに基づいて行ってもよい。しかし、実験によれば、過
去の特徴ベクトルを予測させる方が、より高い精度で認
識動作を行うことができた。
【0091】音声認識処理動作 次に、このように構成されたニューラルネットワーク2
00の行う音声認識処理動作を、図11のフローチャー
トに従って簡単に説明する。
【0092】まず、音声認識処理が開始されると、全て
のニューロン210−1,210−2……210−6
に、適当に選択された初期内部状態値Xがセットされ、
それに対応する出力Yがセットされる(ステップ10
1)。
【0093】次に、全てのニューロンについて、前述し
た入力データZj の和が求められる(ステップ104,
103)。
【0094】次に、全てのニューロンのそれぞれについ
て、ステップ103で求めたZj の和と、内部状態値X
とにより、Xの値を更新する(ステップ105)。そし
て、更新されたXの値に基づいて、それぞれのニューロ
ンの出力値を計算する(ステップ106)。この計算を
した後、処理をステップ102に戻し、処理終了の指令
があれば終了する。
【0095】ニューラルネットワーク200の認識結果
は、ニューロン210−5,210−6の出力として与
えられる。また、適合度判定用の出力130は、ニュー
ロン210−4の出力として与えられる。
【0096】図12、図13、図14には、実施例の音
声認識装置を用いて、実際に音声認識動作を行った場合
の実験データが示されている。この実験では、ニューラ
ルネットワーク200−1,200−2を、それぞれ入
力ニューロン数が20、出力ニューロン数が2、その他
のニューロン数が32のニューラルネットワークとして
構成したものを用いた。そして、特徴抽出部10から2
0次元のLPCケプストラムを各ニューラルネットワー
ク200−1,200−2に与え、このときニューラル
ネットワーク200−1,200−2から出力されるデ
ータを実測した。
【0097】図12(A),図13(A),図14
(A)に、ニューラルネットワーク200−1の肯定出
力410と否定出力412とを示す。また、図12
(B),図13(B),図14(B)に、ニューラルネ
ットワーク200−2の肯定出力420と否定出力42
2とを示す。さらに図12(C),図13(C),図1
4(C)に、入力された音声データとニューラルネット
ワーク200−1の適合度430と、入力された音声デ
ータとニューラルネットワーク200−2の適合度43
2とを示す。
【0098】この実験では、音韻グループの異なる二人
の話者A,Bを用意し、ニューラルネットワーク200
−1を話者Aの音声で、ニューラルネットワーク200
−2を話者Bの音声で学習させた。各ニューラルネット
ワーク200−1,200−2は、それぞれ肯定的な認
識対象として、「とりあえず」を与え、否定的な認識対
象として「終点」,「腕前」,「拒絶」,「超越」,
「分類」,「ロッカー」,「山脈」,「隠れピューリタ
ン」の8つの単語を与えた。各ニューラルネットワーク
200−1,200−2は、肯定的認識対象が与えられ
た場合、その対象の半分までが認識された時点で肯定出
力、否定出力が変化するように、それぞれ話者A、話者
Bの音声で学習させてある。同図での縦軸は、出力ニュ
ーロンの出力値を、横軸は左から右へ時間の流れを表
す。
【0099】ここにおいて、図12の実験データは、こ
のようにして学習された音声認識装置に話者Aの音声デ
ータを認識させた場合の結果である。図12(A)から
明らかなように、話者Aの音声で学習したニューラルネ
ットワーク200−1は、単語「とりあえず」の入力に
対し、その肯定出力410が大きな値に変化している。
また、その否定出力412は小さな値に変化している。
これに対し、図12(B)に示すよう、別の話者の音声
で学習された他のニューラルネットワーク200−2の
肯定出力420、否定出力422は、単語「とりあえ
ず」の入力に対しては大きく変化していない。このこと
により、ニューラルネットワーク200−1は、単語
「とりあえず」を正しく識別しているが、ニューラルネ
ットワーク200−2は識別できていないことがわか
る。これは、図12(C)の認識適合度の判定結果を示
すグラフから明らかである。ニューラルネットワーク2
00−1の適合度430の値の方が、他のニューラルネ
ットワーク200−2の適合度432に比べて常に大き
な値を示しているからである。
【0100】以上の結果より、認識適合度の判定結果に
基づいてニュラルネットワーク200−1の音声認識結
果を採用すれば、単語「とりあえず」を正しく認識した
肯定出力および否定出力が得られることが理解されよ
う。
【0101】これに対し、図13は、実施例の音声認識
装置に、話者Bが入力した音声データを同様にして認識
させた場合に得られるデータである。
【0102】図13(A)に示すよう、別の話者Aで学
習されたニューラルネットワーク200−1は、話者B
の入力した単語「とりあえず」を正確に認識できない。
これに対し、話者Bの音声を学習に用いた他方のニュー
ラルネットワーク200−2は、話者Bの入力する単語
「とりあえず」を正確に認識できている。これは図13
(C)に示す、認識適合度の判定結果を示すグラフから
明らかである。
【0103】この例でも選択部30での認識適合度の判
定結果に基づき、ニューラルネットワーク200−2の
認識結果を採用すれば、正しく認識した出力が得られる
ことが分かる。
【0104】図14には、図12,図13と同様な処理
を、音質の異なる別の話者Cによる音声データを用いて
行った場合のデータである。
【0105】図14(A),(B)から明らかなよう
に、話者Cが入力した音声データに対し、ニューラルネ
ットワーク200−1では単語「とりあえず」を正しく
認識できている。これに対し、ニューラルネットワーク
200−2では、単語「とりあえず」は正しく認識でき
ているものの、別の単語「拒絶」を単語「とりあえず」
と誤って認識している。これは、図14(C)の認識適
合度の判定結果を示すグラフから明らかである。この例
でも選択部30での認識適合度の判定結果に基づいて、
ニューラルネットワーク200−1の認識結果を採用す
れば、正しく認識した出力が得られることが理解されよ
う。
【0106】図15は、実施例の音声認識装置のハード
ウエア構成図である。実施例の音声認識装置は、特徴抽
出部10として機能するアナログデジタルコンバータ7
0と、ニューラルネットワーク200の内部状態値X等
のデータが格納されたデータメモリ72と、CPU76
と、CPU76を選択部30あるいは出力制御部40と
して機能させるための処理プログラムが格納された認識
処理プログラムメモリ74とを含んで構成されている。
【0107】他の実施例 なお、本発明は前記実施例に限定されるものではなく、
本発明の要旨の範囲内で各種の変型実施が可能である。
【0108】他のニューロンの実施例 例えば、前記実施例では、ニューラルネットワーク20
0を構成するニューロン210を、図5に示すような構
成のニューロンとして形成する場合を例にとり説明した
が、本発明はこれ以外にも各種ニューロンを用いること
ができる。
【0109】図16には、本発明のニューラルネットワ
ーク200に用いられる他のダイナミックニューロン2
10の具体例が示されている。
【0110】実施例のダイナミックニューロン210に
おいて、内部状態更新手段240は、積算部250と、
関数変換部252と、演算部254とを用いて構成さ
れ、次式に基づく演算を行い、メモリ222の内部状態
量Xを更新するように形成されている。
【0111】
【数12】
【0112】すなわち、積算部250は、入力Zj を積
算し、関数部252は、この積算した値をシグモイド
(ロジスティック)関数Sを用いて変換するように構成
されている。そして、演算部254は、関数変換された
値と、メモリ222の内部状態量Xとに基づき、前記数
12の演算を行い、新たな内部状態量Xを求め、メモリ
222の値を更新するように形成されている。
【0113】また、より具体的な演算としては、次式に
示すような演算を実行するようにしてもよい。
【0114】
【数13】
【0115】この中で、Wijはj番目のニューロンの
出力を、i番目のニューロンの入力へ結合する結合強度
を表す。Diは外部入力値を示す。またθiはバイアス
値を示す。このバイアス値は、固定された値との結合と
してWijの中に含めて考えることも可能である。ま
た、値域制限関数Sの具体的な形としては、正負対称出
力のシグモイド関数等を用いればよい。
【0116】出力生成手段260は、内部状態値Xを定
数倍した出力値Yへ変換する写像関数演算部264とし
て形成されている。
【0117】また、前記各実施例では音声データとして
単語等の認識を行う場合を例にとり説明したが、本発明
はこれに限らず、各種の音素や音節等の認識を行うよう
形成することも可能である。
【0118】話者認識型の音声認識装置の実施例 また、実施例では、入力される音声データそのものを音
声認識する場合を例にとり説明したが、本発明はこれに
限らず、これ以外に入力される音声データに基づき話者
認識を行うよう形成することもできる。
【0119】図17には、話者認識型の音声認識装置の
好適な実施例が示されている。なお、前述した実施例と
対応する部材には同一符号を付してその説明は省略す
る。
【0120】ここにおいて、音声認識処理部20は、異
なる話者を認識対象とする複数のニューラルネットワー
ク200−1,200−2・・・200−kを含む。各
ニューラルネットワーク200は、認識対象話者の特徴
ベクトル110に基づき、入力される認識対象者の話者
ベクトル100を予測し、音声認識の適合度を表す適合
度判定用データ130として出力するよう予め学習され
ている(学習の詳細は、前記実施例と同様である)。こ
こで用いた話者の特徴量は、8次のPARCOR係数で
ある。話者特徴量としてはPARCOR係数の他にも、
種々のものを使用することが可能である。しかし、PA
RCOR係数は、その値が原理的に−1〜1の値にある
こと、また、比較的話者に依存する割合が高い等の特徴
があり、話者認識においては有効な特徴量である。
【0121】そして、話者認識部90は、各ニューラル
ネットワーク200−1,200−2,・・・200−
kから入力される適合度判定用データ130と、特徴抽
出部10から入力される実際の話者の特徴ベクトル10
0との正解率を各ニューラルネットワーク毎に演算し、
最も正解率の高いニューラルネットワーク200を選択
する。そして、選択されたニューラルネットワークの正
解率が、所定基準レベル以上の場合に、入力された音声
データ100が、選択されたニューラルネットワーク2
00の学習に用いた話者であると判断し、これを認識結
果150として出力する。例えば、話者Aを認識対象と
するニューラルネットワーク200−1が選択された場
合には、入力された音声データ100が話者が話者Aで
あると認識し、これを認識結果150として出力するこ
とになる。
【0122】なお、選択されたニューラルネットワーク
200の正解率が所定基準以下の場合には、全てのニュ
ーラルネットワーク200−1,200−2,・・・2
00−kの認識対象話者ではないと判断し、認識結果1
50を出力する。
【0123】なお、話者認識部90は、このような話者
認識動作以外に、図1に示す前記実施例と同様に、音声
データの認識をも行うように形成してもよい。この場
合、話者認識部90は、選択部30と、出力制御部40
を含むよう構成される。
【0124】そして、前記選択部30は、各ニューラル
ネットワーク200−1,200−2,・・・200−
k毎に、前記正解率を演算し、出力制御部40に向けて
出力する。
【0125】出力制御部40は、入力された各ニューラ
ルネットワーク毎の正解率に基づき、入力された各音声
データ100の話者認識を行う。さらに、認識対象とす
る話者が存在した場合には、選択されたニューラルネッ
トワーク200から出力される音声認識データ120
を、認識結果150として出力するよう構成されてい
る。
【0126】このようにすることにより、話者認識のみ
ならず、認識された話者の音声データをも同時に認識す
ることができ、音声認識装置としての適用分野をさらに
広げることができる。
【0127】次に、図17の音声認識装置を用いた実際
の音声認識動作の詳細を説明する。この実施例において
は、ニューラルネットワークを訓練する標準データとし
て9つの単語、「終点」「腕前」「拒絶」「超越」「と
りあえず」「分類」「ロッカー」「山脈」「隠れピュー
リタン」を用いた。また音声データとしては、ATR者
の研究用日本語音声データベースに収録されているもの
を用いた。
【0128】図18、図19には、このようにして学習
させたニューラルネットワーク200による話者認識の
実験結果が示されている。この実験では、ニューラルネ
ットワークが予測した特徴ベクトルと、実際の特徴ベク
トルとの正解率の代わりに、両者の誤差を用いて話者認
識を行っている。
【0129】図中の実線は、話者MAUの音声を認識さ
せるために学習させたニューラルネットワークの出力誤
差の時間変化を示す。また破線は、話者MXMの音声を
認識させるために学習させたニューラルネットワークの
出力誤差の時間変化を示す。ここで示した誤差は、8次
の入力ベクトルデータ、および出力ベクトルとの比較に
より生成された誤差ベクトルの長さの絶対値を、その時
点でのフレームの前後32フレームについて平均した値
を示したものである。なお、図18の入力話者はMAU
であり、図19入力話者はMXMである。
【0130】図より明らかであるように、図18の場合
は、MAUの声で訓練されたニューラルネットワークに
よるデータ復元誤差が小さく、MXMで訓練されたニュ
ーラルネットワークによる復元誤差が大きい。これはM
AUの発話特徴を用いたデータ復元の方が精度の良い復
元が可能であることを示す。つまり、入力された音声が
MAUによるものであることを示している。
【0131】また、図19の場合は、図18の場合とは
逆に、MXMの声で訓練されたニューラルネットワーク
によるデータ復元誤差が小さい。つまり、この入力され
た音声がMXMによるものであることを示している。
【0132】図18,19より明らかであるように、本
発明の話者認識方式によれば、連続した話者認識結果を
得ることができる。
【0133】下の表1は、上の例の二つのニューラルネ
ットワークに、訓練話者以外の9話者を含む合計11人
の音声を入力した場合の誤差の平均値を示したものであ
る。入力は訓練に用いた9単語そのものである。平均は
その全発話区間について行った。表1より明らかである
ように、それぞれのニューラルネットワークにおいて、
11人の音声入力に対し訓練話者に対する誤差が一番小
さく、11人の中から正確に訓練話者を認識している事
が示される。
【0134】
【表1】
【0135】また、下の表2は表1と同様の結果である
が、上の場合と異なり、訓練に用いた単語音声とは内容
が異なる単語音声を入力した場合の結果である。ここで
用いた単語は「カレンダー」「いらっしゃる」「極端」
「駐車」「プログラム」「録音」「購入」「タイピュー
タ」である。
【0136】
【表2】
【0137】上の表より明らかであるように、本発明の
話者認識方式は、入力された音声の発話内容が異なって
も正確に訓練話者を認識することができる。
【0138】なお、前記説明は、時間的に離散的な場合
について説明してきたが、例えばアナログ的な処理を行
う事により連続時間処理においても適用可能である。
【0139】
【発明の効果】以上説明したように、請求項1〜13の
発明によれば、それぞれ異なる音声パターンを持った複
数の音声データが入力されても、適合度の最も高い音声
認識用ニューラルネットワーク部で認識処理が行われる
ので、音声データの音声パターン、例えば音質、音韻等
によってその認識率が左右されることがない音声認識装
置を得ることができるという効果がある。
【0140】特に、音声認識用ニューラルネットワーク
部を構成するニューロンとして、内部状態量が時間的に
変化するダイナミックなニューロンを用いることによ
り、ニューラルネットワーク部全体の構成を簡単なもの
とし、かつその認識精度を高めることができるという効
果がある。
【0141】また、請求項14〜16の発明によれば、
入力される音声データに基づき複数の話者を正確に認識
する音声認識装置を得ることができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の音声認識装置の実施例を示すブロック
図である。
【図2】図1に示す特徴抽出部での変換処理を示す説明
図である。
【図3】実施例のニューラルネットワーク部の構成を示
す概念図である。
【図4】実施例のニューラルネットワーク部を構成する
ニューロンの説明図である。
【図5】図4に示すニューロンの具体的な構成を示す説
明図である。
【図6】実施例のニューロンの動作を示すフローチャー
ト図である。
【図7】実施例のニューラルネットワーク部を学習させ
るために用いる学習装置の説明図である。
【図8】学習方法の例を示す説明図である。
【図9】学習方法の例を示す説明図である。
【図10】学習方法の例を示す説明図である。
【図11】音声認識処理動作を示すフローチャート図で
ある。
【図12】音声認識処理の出力例を示す説明図である。
【図13】音声認識処理の出力例を示す説明図である。
【図14】音声認識処理の出力例を示す説明図である。
【図15】本実施例のハードウエアの構成図である。
【図16】本実施例に用いられるダイナミックニューロ
ンの他の具体例の説明図である。
【図17】話者認識に用いられる音声認識装置のブロッ
ク図である。
【図18】実施例の音声認識装置を用いた話者認識結果
を示す図である。
【図19】実施例の音声認識装置を用いた話者認識結果
を示す図である。
【符号の説明】
10 特徴抽出部 20 音声認識理部 30 選択部 40 出力制御部 100 音声データ 110 特徴ベクトル 120 認識データ 130 適合度判断用データ 140 選択データ 150 認識出力 200 ニュートラルネットワーク 210 ニューロン 220 内部状態値記憶手段 240 内部状態値記憶更新手段 260 出力値生成手段

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 所定の音声データを認識するようそれぞ
    れ異なる特徴の音声パターンで予め学習され、入力され
    た音声データが認識対象となる音声データと一致するか
    否かの音声認識動作を行うとともに、音声認識の適合度
    を表す適合度判定用データを出力する動作を行う複数の
    音声認識用ニューラルネットワーク部を含む音声認識処
    理手段と、 前記各音声認識用ニューラルネットワーク部から出力さ
    れた適合度判定用データに基づき、最も音声認識の適合
    度が高い音声認識用ニューラルネットワーク部を選択す
    る選択手段と、 前記選択手段で選択された音声認識用ニューラルネット
    ワーク部からの音声認識結果を出力する出力制御手段
    と、 を含むことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1において、 入力された音声データをフレーム単位で切出し、特徴ベ
    クトルに変換して順次出力する特徴抽出手段を含み、 前記各音声認識用ニューラルネットワーク部は、 前記特徴抽出手段から出力される特徴ベクトルが音声デ
    ータとして入力されるよう形成されたことを特徴とする
    音声認識装置。
  3. 【請求項3】 請求項1,2のいずれかにおいて、 前記各音声認識用ニューラルネットワーク部は、 内部状態値Xが設定された複数のニューロンを相互に結
    合して構成されており、前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
    データZj (j=0〜n:nは自然数)および内部状態
    値Xを用いて表された関数X=G(X,Zj )を満足す
    る値に時間変化するダイナミックニューロンとして形成
    され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
    して出力されるよう形成されたことを特徴とする音声認
    識装置。
  4. 【請求項4】 請求項3において、 前記関数X=G(X,Zj )は、 【数1】 として表されるよう形成されたことを特徴とする音声認
    識装置。
  5. 【請求項5】 請求項3において、 前記関数X=G(X,Zj )は、j番目のニューロンの
    出力をi番目のニューロンの入力へ結合する結合強度W
    ij、外部入力値Di 、バイアス値θi を用いて、 【数2】 として表されるよう形成されたことを特徴とする音声認
    識装置。
  6. 【請求項6】 請求項3において、 前記関数X=G(X,Zj )は、シグモイド関数Sを用
    いて、 【数3】 として表されるよう形成されたことを特徴とする音声認
    識装置。
  7. 【請求項7】 請求項3において、 前記関数X=G(X,Zj )は、シグモイド関数S、j
    番目のニューロンの出力をi番目のニューロンの入力へ
    結合する結合強度Wij、外部入力値Di 、バイアス値θ
    i を用いて、 【数4】 として表されるよう形成されたことを特徴とする音声認
    識装置。
  8. 【請求項8】 請求項3〜7のいずれかにおいて、 前記各音声認識用ニューラルネットワーク部は、 音声データが入力される入力ニューロンと、音声データ
    の認識結果を出力する認識結果出力ニューロンと、適合
    度判定用データを出力する適合度出力ニューロンとを含
    み、 前記適合度出力ニューロンは、 前記入力ニューロンに入力される音声データを推定し、
    この推定データを適合度判定用データとして出力するよ
    う形成され、 前記選択手段は、実際の音声データに対する前記推定デ
    ータの正答率を音声認識の適合度として演算することを
    特徴とする音声認識装置。
  9. 【請求項9】 請求項3〜7のいずれかにおいて、 前記各ダイナミックニューロンは、 前記関数F(X)がsigmoid関数であることを特
    徴とする音声認識装置。
  10. 【請求項10】 請求項3〜7のいずれかにおいて、 前記各ダイナミックニューロンは、 前記関数F(X)がしきい値関数であることを特徴とす
    る音声認識装置。
  11. 【請求項11】 請求項3〜7のいずれかにおいて、 前記各ダイナミックニューロンは、 前記入力データZj として、自己のニューロンの出力に
    重みを乗算してフィードバックさせたデータを含むこと
    を特徴とする音声認識装置。
  12. 【請求項12】 請求項3〜11のいずれかにおいて、 前記各ダイナミックニューロンは、 前記入力データZj として、他のニューロンの出力に重
    みを乗算したデータを含むことを特徴とする音声認識装
    置。
  13. 【請求項13】 請求項3〜11のいずれかにおいて、 前記各ダイナミックニューロンは、 前記入力データZj として、外部から与えられた所望の
    データを含むことを特徴とする音声認識装置。
  14. 【請求項14】 入力される音声データをフレーム単位
    で切出し、特徴ベクトルに変換して順次出力する特徴抽
    出手段と、 前記特徴抽出手段から入力される認識対象話者の特徴ベ
    クトルに基づき、入力される認識対象話者の特徴ベクト
    ルを予測し、音声認識の適合度を表す適合度判定用デー
    タとして出力するよう予め学習され、前記特徴抽出手段
    から実際に入力される特徴ベクトルに基づき前記適合度
    判定用データを出力するよう形成された複数の音声認識
    用ニューラルネットワーク部を含む音声認識処理手段
    と、 前記各音声認識用ニューラルネットワーク部から出力さ
    れた適合度判定用データと、前記特徴抽出手段から入力
    される実際の話者の特徴ベクトルとの正答率を各音声認
    識用ニューラルネットワーク部毎に演算し、入力音声の
    話者認識を行う話者認識手段と、 を含むことを特徴とする音声認識装置。
  15. 【請求項15】 請求項14おいて、 前記各音声認識用ニューラルネットワーク部は、 内部状態値Xが設定された複数のニューロンを相互に結
    合して構成されており、前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
    データZj (j=0〜n:nは自然数)および内部状態
    値Xを用いて表された関数X=G(X,Zj )を満足す
    る値に時間変化するダイナミックニューロンとして形成
    され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
    して出力されるよう形成されたことを特徴とする音声認
    識装置。
  16. 【請求項16】 請求項14において、 前記各音声認識用ニューラルネットワーク部は、 前記特徴ベクトルが入力される入力ニューロンと、適合
    度判定用データを出力する適合度出力ニューロンとを含
    み、 前記適合度出力ニューロンは、 入力される前記特徴ベクトルを推定し、この推定データ
    を適合度判定用データとして出力するよう形成されたこ
    とを特徴とする音声認識装置。
JP14648293A 1992-06-19 1993-06-17 音声認識装置 Expired - Fee Related JP3467556B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14648293A JP3467556B2 (ja) 1992-06-19 1993-06-17 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-161074 1992-06-19
JP16107492 1992-06-19
JP14648293A JP3467556B2 (ja) 1992-06-19 1993-06-17 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0667698A true JPH0667698A (ja) 1994-03-11
JP3467556B2 JP3467556B2 (ja) 2003-11-17

Family

ID=26477314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14648293A Expired - Fee Related JP3467556B2 (ja) 1992-06-19 1993-06-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP3467556B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143490A (ja) * 1996-11-07 1998-05-29 Fujitsu Ltd 需要予測方法、需要予測システム及び記録媒体
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2004030627A (ja) * 2002-05-10 2004-01-29 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
WO2008096582A1 (ja) * 2007-02-06 2008-08-14 Nec Corporation 認識器重み学習装置および音声認識装置、ならびに、システム
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2018147261A (ja) * 2017-03-06 2018-09-20 Kddi株式会社 モデル統合装置、モデル統合システム、方法およびプログラム
CN114974228A (zh) * 2022-05-24 2022-08-30 名日之梦(北京)科技有限公司 一种基于分级识别的快速语音识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143490A (ja) * 1996-11-07 1998-05-29 Fujitsu Ltd 需要予測方法、需要予測システム及び記録媒体
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2004030627A (ja) * 2002-05-10 2004-01-29 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
WO2008096582A1 (ja) * 2007-02-06 2008-08-14 Nec Corporation 認識器重み学習装置および音声認識装置、ならびに、システム
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
US8428950B2 (en) 2007-02-06 2013-04-23 Nec Corporation Recognizer weight learning apparatus, speech recognition apparatus, and system
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US8612225B2 (en) 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2018147261A (ja) * 2017-03-06 2018-09-20 Kddi株式会社 モデル統合装置、モデル統合システム、方法およびプログラム
CN114974228A (zh) * 2022-05-24 2022-08-30 名日之梦(北京)科技有限公司 一种基于分级识别的快速语音识别方法

Also Published As

Publication number Publication date
JP3467556B2 (ja) 2003-11-17

Similar Documents

Publication Publication Date Title
EP0574951B1 (en) Speech recognition system
KR102871460B1 (ko) 사투리 음소 적응 학습 시스템 및 방법
JP3168779B2 (ja) 音声認識装置及び方法
CN115428066B (zh) 合成语音处理
KR102871441B1 (ko) 음성 정보 기반 언어 모델링 시스템 및 방법
US11302329B1 (en) Acoustic event detection
US11437026B1 (en) Personalized alternate utterance generation
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US12488798B1 (en) Continuous learning for machine learning models
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
JP3467556B2 (ja) 音声認識装置
CN111192577A (zh) 交流装置及交流装置的控制程序
JPH064097A (ja) 話者認識方法
JP2003177779A (ja) 音声認識のための話者学習法
Gas et al. Discriminant neural predictive coding applied to phoneme recognition
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
CN120375865A (zh) 具有语音模式识别功能的人工智能压力反馈装置
JP2000122689A (ja) 話者適応化装置及び音声認識装置
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
Dave An approach to increase word recognition accuracy in Gujarati language
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
HK1013718B (en) Speech recognition system
JPH0455518B2 (ja)
JPH05323990A (ja) 話者認識方法
JP2000352994A (ja) 神経細胞素子、ニューラルネットワークを用いた認識装置およびその学習方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030722

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees