JPH064097A - 話者認識方法 - Google Patents
話者認識方法Info
- Publication number
- JPH064097A JPH064097A JP4159442A JP15944292A JPH064097A JP H064097 A JPH064097 A JP H064097A JP 4159442 A JP4159442 A JP 4159442A JP 15944292 A JP15944292 A JP 15944292A JP H064097 A JPH064097 A JP H064097A
- Authority
- JP
- Japan
- Prior art keywords
- speaker recognition
- recognition method
- output
- input
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 104
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 210000005036 nerve Anatomy 0.000 claims description 32
- 238000000605 extraction Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 24
- 230000013016 learning Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000687448 Homo sapiens REST corepressor 1 Proteins 0.000 description 1
- 102100024864 REST corepressor 1 Human genes 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Abstract
(57)【要約】
【目的】 本発明はより高性能の話者認識を実現する事
を目的とする。 【構成】 本発明は内部状態値記憶部を持ち、かつその
内部状態値を内部状態値そのものと外部入力値の両方の
値により更新するニューラルネットワークと、音声特徴
抽出手段により構成される話者認識方法である。このニ
ューラルネットワークにより、入力の復元、予測等の精
度により話者認識をおこなう。 【効果】 従来例に比較して非常に高速な、かつ正確な
認識を行う事ができる。また、それを実行するためのハ
ードウェアも非常に小さくする事ができる。
を目的とする。 【構成】 本発明は内部状態値記憶部を持ち、かつその
内部状態値を内部状態値そのものと外部入力値の両方の
値により更新するニューラルネットワークと、音声特徴
抽出手段により構成される話者認識方法である。このニ
ューラルネットワークにより、入力の復元、予測等の精
度により話者認識をおこなう。 【効果】 従来例に比較して非常に高速な、かつ正確な
認識を行う事ができる。また、それを実行するためのハ
ードウェアも非常に小さくする事ができる。
Description
【0001】
【産業上の利用分野】本発明は話者を認識する方法に関
するものである。
するものである。
【0002】
【従来の技術】話者認識に用いられる方法は大別して2
つの方法がある。その一つの方法は、入力された音声か
ら得られる発話の特徴ベクトルの時系列そのものを用い
る方法であり、もう一つの方法はその時系列を統計処理
して得られる統計的な特徴量を用いる方法である。これ
らの方法については、例えば古井貞煕著「ディジタル音
声処理」(東海大学出版会)第9章等に詳しく述べられ
ている。
つの方法がある。その一つの方法は、入力された音声か
ら得られる発話の特徴ベクトルの時系列そのものを用い
る方法であり、もう一つの方法はその時系列を統計処理
して得られる統計的な特徴量を用いる方法である。これ
らの方法については、例えば古井貞煕著「ディジタル音
声処理」(東海大学出版会)第9章等に詳しく述べられ
ている。
【0003】しかし、統計的な特徴量を用いる方法にお
いて精度の高い認識を行うためには、大量のデータを収
集する必要がある。しかし、話者からこのそのような大
量のデータを得る事は実用上非常に困難な事である。例
えば、話者認識装置の前で、認識対象の話者に数分間も
話してもらう、と言うような事は話者認識装置の応用を
非常に制限してしまう。また、この制限を緩和するため
に、小量のデータから統計量を推定しようすれば、その
推定誤差のために認識精度を劣化させてしまうと言う問
題がある。
いて精度の高い認識を行うためには、大量のデータを収
集する必要がある。しかし、話者からこのそのような大
量のデータを得る事は実用上非常に困難な事である。例
えば、話者認識装置の前で、認識対象の話者に数分間も
話してもらう、と言うような事は話者認識装置の応用を
非常に制限してしまう。また、この制限を緩和するため
に、小量のデータから統計量を推定しようすれば、その
推定誤差のために認識精度を劣化させてしまうと言う問
題がある。
【0004】もしも大量のデータを得る事が可能な場合
には上で述べたような統計的な方法を用いるのが良い選
択であると考えられるが、データが小量である場合は、
それから得られる話者特徴時系列を用いる方法の法が良
い結果を与える場合が多い。それは、大部分が静的な量
である統計的な量に比較して、時系列そのものを処理す
る方法は話者の特徴の動的な面も利用する事ができるか
らである。あるいは逆に、このような話者の動的な特性
を的確に処理できる方法でなければ、話者特徴データか
ら話者を認識するという事ができない。この事は、先に
述べた「ディジタル音声処理」の中でも述べられている
事ではあるが、それらの話者認識のための方法はそのた
めの特別の配慮が必要ではあるけれども、本質的には音
声認識と非常に類似した方法が必要である言う事であ
る。
には上で述べたような統計的な方法を用いるのが良い選
択であると考えられるが、データが小量である場合は、
それから得られる話者特徴時系列を用いる方法の法が良
い結果を与える場合が多い。それは、大部分が静的な量
である統計的な量に比較して、時系列そのものを処理す
る方法は話者の特徴の動的な面も利用する事ができるか
らである。あるいは逆に、このような話者の動的な特性
を的確に処理できる方法でなければ、話者特徴データか
ら話者を認識するという事ができない。この事は、先に
述べた「ディジタル音声処理」の中でも述べられている
事ではあるが、それらの話者認識のための方法はそのた
めの特別の配慮が必要ではあるけれども、本質的には音
声認識と非常に類似した方法が必要である言う事であ
る。
【0005】さて従来の音声認識方法について考えてみ
ると、従来の音声認識方法は大別して、DPマッチング
法(DP法)、隠れマルコフモデル法(HMM法)、及
び、バックプロパゲーション学習法とニューラルネット
ワークである多層パーセプトロンを用いた方法(MLP
法)とがある。これらの詳細については、例えば中川聖
一著「確率モデルによる音声認識」(電子情報通信学
会)、中川、鹿野、東倉共著「音声・聴覚と神経回路網
モデル」(オーム社)等に記述されている。
ると、従来の音声認識方法は大別して、DPマッチング
法(DP法)、隠れマルコフモデル法(HMM法)、及
び、バックプロパゲーション学習法とニューラルネット
ワークである多層パーセプトロンを用いた方法(MLP
法)とがある。これらの詳細については、例えば中川聖
一著「確率モデルによる音声認識」(電子情報通信学
会)、中川、鹿野、東倉共著「音声・聴覚と神経回路網
モデル」(オーム社)等に記述されている。
【0006】DP法を話者認識に用いる場合、まず各々
の話者についての標準データを収集し、認識時において
は、そのそれぞれについて、入力されたデータとの間で
始端と終端の対応を仮定し、その内部の要素の対応を様
々な時間正規化関数で変化させ、その差異が最小となる
対応関係と、その時のパタン間の差異を入力データと標
準パタン間の距離とし、その距離を最小とする標準パタ
ンに代表される話者を認識結果とするものである。
の話者についての標準データを収集し、認識時において
は、そのそれぞれについて、入力されたデータとの間で
始端と終端の対応を仮定し、その内部の要素の対応を様
々な時間正規化関数で変化させ、その差異が最小となる
対応関係と、その時のパタン間の差異を入力データと標
準パタン間の距離とし、その距離を最小とする標準パタ
ンに代表される話者を認識結果とするものである。
【0007】この場合、始端と終端の対応を仮定すると
言う事は、入力パタンと標準パタンの間の距離がパタン
の長さに比例して大きくなると言う事による。例えば、
ある単語なり文章なりを用いて話者認識を行うとして
も、発話速度は人それぞれにおいて異なり、また同一話
者においても状況によって変化する。そのため長さの異
なる標準パタン間において、パタンの長さに依存しない
距離の比較をするためには、標準パタン、あるいは入力
データの長さに対して距離を正規化する必要があり、そ
のためにパタンの距離、つまりパタンの始端終端の対応
が必須となるのである。
言う事は、入力パタンと標準パタンの間の距離がパタン
の長さに比例して大きくなると言う事による。例えば、
ある単語なり文章なりを用いて話者認識を行うとして
も、発話速度は人それぞれにおいて異なり、また同一話
者においても状況によって変化する。そのため長さの異
なる標準パタン間において、パタンの長さに依存しない
距離の比較をするためには、標準パタン、あるいは入力
データの長さに対して距離を正規化する必要があり、そ
のためにパタンの距離、つまりパタンの始端終端の対応
が必須となるのである。
【0008】HMM法においてDP法の標準パタンに代
わり話者を代表するのは、複数の状態と複数の遷移によ
り構成されるHMMモデルである。HMMモデルの各々
の状態には存在確率が、また各々の遷移には遷移確率と
出力確率が与えられており、これらの確率値は学習用デ
ータを用いた学習により決定される。これらの学習され
た確率値によりHMMモデルは統計的、確率的に一つの
話者を代表する。
わり話者を代表するのは、複数の状態と複数の遷移によ
り構成されるHMMモデルである。HMMモデルの各々
の状態には存在確率が、また各々の遷移には遷移確率と
出力確率が与えられており、これらの確率値は学習用デ
ータを用いた学習により決定される。これらの学習され
た確率値によりHMMモデルは統計的、確率的に一つの
話者を代表する。
【0009】HMM法は話者認識時において、各々の話
者を代表するHMMモデルのそれぞれについて、DP法
と同じく、入力されたデータとの間で始端と終端の対応
を仮定し、その入力されたデータ列を出力すると言う条
件のもとで、始状態から終状態へ遷移する確率としてそ
の入力データが各々の話者にどの程度近いかの確率が計
算される。そしてその確率を最大とするHMMモデルに
代表される話者を、入力データが属するべき話者として
認識結果とするものである。
者を代表するHMMモデルのそれぞれについて、DP法
と同じく、入力されたデータとの間で始端と終端の対応
を仮定し、その入力されたデータ列を出力すると言う条
件のもとで、始状態から終状態へ遷移する確率としてそ
の入力データが各々の話者にどの程度近いかの確率が計
算される。そしてその確率を最大とするHMMモデルに
代表される話者を、入力データが属するべき話者として
認識結果とするものである。
【0010】ここで、HMMモデルは時系列データを状
態と遷移と言う統計、確率的な形での時系列でモデル化
する。従って学習時においては、学習用入力データの始
状態に近い部分、終状態に近い部分、その中間の部分等
を特定する必要がある。そのためにはデータの始端と終
端を正確に与える事が必要となる。仮に始端の与え方が
不正確であり、始端に近い部分に必要以上に多種のデー
タが与えられたすると、これはそのモデルの認識能力を
下げる事になる。また逆に学習用データの中に必要なデ
ータが欠けていたとしたら、その欠けたデータを含む入
力データは正確な認識が不可能となる。その結果、誤認
識される可能性が高くなる。
態と遷移と言う統計、確率的な形での時系列でモデル化
する。従って学習時においては、学習用入力データの始
状態に近い部分、終状態に近い部分、その中間の部分等
を特定する必要がある。そのためにはデータの始端と終
端を正確に与える事が必要となる。仮に始端の与え方が
不正確であり、始端に近い部分に必要以上に多種のデー
タが与えられたすると、これはそのモデルの認識能力を
下げる事になる。また逆に学習用データの中に必要なデ
ータが欠けていたとしたら、その欠けたデータを含む入
力データは正確な認識が不可能となる。その結果、誤認
識される可能性が高くなる。
【0011】また認識時において、HMM法における判
断基準は始状態から終状態への遷移確率であり、最終状
態における存在確率である。この値は入力データ列の各
成分の出力確率、遷移確率、ある状態の存在確率の積で
あるのでデータの長さに依存して単調に、かつ非常に急
速に減少する。そのため、例えば最終状態の存在確率が
0.5であると言っても、その値が長さ10のデータ列
に対しての値なのか、それとも長さ20のデータ列に対
しての値なのかによって、その重み、または意味は全く
異なる。従ってデータの長さに依存しない判断をするた
めには、何らかのデータの長さを補正する処理が必要と
なる。これにはデータの長さ、つまりデータの始端と終
端が必要となる。
断基準は始状態から終状態への遷移確率であり、最終状
態における存在確率である。この値は入力データ列の各
成分の出力確率、遷移確率、ある状態の存在確率の積で
あるのでデータの長さに依存して単調に、かつ非常に急
速に減少する。そのため、例えば最終状態の存在確率が
0.5であると言っても、その値が長さ10のデータ列
に対しての値なのか、それとも長さ20のデータ列に対
しての値なのかによって、その重み、または意味は全く
異なる。従ってデータの長さに依存しない判断をするた
めには、何らかのデータの長さを補正する処理が必要と
なる。これにはデータの長さ、つまりデータの始端と終
端が必要となる。
【0012】上で述べたようにDP法、HMM法のいず
れにおいても、データの始端、終端と言うような、ある
まとまったデータの単位が必要となり、しかもこの単位
毎についての結果しか得る事ができない。このデータの
単位が小さくなれば、データの収集は容易であるがデー
タのばらつきが大きくなり、認識精度は劣化してしま
う。また、この単位が極端に大きくなればデータの収集
が困難となり、またDP法やHMM法におけるモデル化
の精度も悪くなり、その結果認識精度は劣化してしま
う。つまり、最適なデータの単位の大きさがあるはずで
あるが、それは先験的に決定されるものではない。ま
た、このようなサイズを変化させながら処理をすると
か、あるいは様々な始端終端の可能性をそれぞれ処理す
るとか言うような方法は非常に処理時間のかかるもので
ある。
れにおいても、データの始端、終端と言うような、ある
まとまったデータの単位が必要となり、しかもこの単位
毎についての結果しか得る事ができない。このデータの
単位が小さくなれば、データの収集は容易であるがデー
タのばらつきが大きくなり、認識精度は劣化してしま
う。また、この単位が極端に大きくなればデータの収集
が困難となり、またDP法やHMM法におけるモデル化
の精度も悪くなり、その結果認識精度は劣化してしま
う。つまり、最適なデータの単位の大きさがあるはずで
あるが、それは先験的に決定されるものではない。ま
た、このようなサイズを変化させながら処理をすると
か、あるいは様々な始端終端の可能性をそれぞれ処理す
るとか言うような方法は非常に処理時間のかかるもので
ある。
【0013】更に重要な問題点は、これらの方法は基本
的に標準データとして持っているものと同一の内容であ
るデータでしか話者認識処理が行えないという事であ
る。これは、上で述べてきた処理が入力データと標準デ
ータとの単純なパタンマッチンング処理である必然的な
事である。
的に標準データとして持っているものと同一の内容であ
るデータでしか話者認識処理が行えないという事であ
る。これは、上で述べてきた処理が入力データと標準デ
ータとの単純なパタンマッチンング処理である必然的な
事である。
【0014】一方、従来法のもう一つの方法であるML
P法の場合は任意の数の出力値を、任意の時点で得る事
が可能である。また、データの始端終端のような単位を
仮定する事は特に必要はない。しかし従来のMLP法
は、データの始端、終端ではなく、入力データの範囲と
言う意味での新たな始端終端の問題が起こる。つまり、
MLP法は基本的には静的なデータを認識するための方
法であり、それに時系列データを認識させるためには、
その入力データの時間構造を何らかの形でニューラルネ
ットワークの構造へ反映させなければならない。この方
法として最も多く用いられるのは、ある時間範囲のデー
タを1つの入力データとして入力し、等価的に時間情報
を処理すると言う方法である。しかし、この時間範囲は
MLPの構成上固定されたものでなければならない。
P法の場合は任意の数の出力値を、任意の時点で得る事
が可能である。また、データの始端終端のような単位を
仮定する事は特に必要はない。しかし従来のMLP法
は、データの始端、終端ではなく、入力データの範囲と
言う意味での新たな始端終端の問題が起こる。つまり、
MLP法は基本的には静的なデータを認識するための方
法であり、それに時系列データを認識させるためには、
その入力データの時間構造を何らかの形でニューラルネ
ットワークの構造へ反映させなければならない。この方
法として最も多く用いられるのは、ある時間範囲のデー
タを1つの入力データとして入力し、等価的に時間情報
を処理すると言う方法である。しかし、この時間範囲は
MLPの構成上固定されたものでなければならない。
【0015】この時、この入力時間範囲を越えた時間的
な特徴を認識する事は困難であり、また、同様にこの入
力時間範囲に比較して小さすぎる時間的な特徴を認識す
るのも困難である。つまり、認識したい時間的な特徴の
前後に不要なデータが挿入されるからである。一方入力
される話者特徴時系列データの長さは、話者により、ま
た同一話者においても非常に大きく変動し得るものであ
るので、このような入力範囲の不整合は非常に大きな確
率で起こり得るものである。
な特徴を認識する事は困難であり、また、同様にこの入
力時間範囲に比較して小さすぎる時間的な特徴を認識す
るのも困難である。つまり、認識したい時間的な特徴の
前後に不要なデータが挿入されるからである。一方入力
される話者特徴時系列データの長さは、話者により、ま
た同一話者においても非常に大きく変動し得るものであ
るので、このような入力範囲の不整合は非常に大きな確
率で起こり得るものである。
【0016】このような固定された入力範囲を持たない
例として、出力を入力側へフィードバックすると従来の
MLP法の変形がある。この例としては文字認識の場合
であるが、例えば、電子情報通信学会論文誌D−IIの
第J74巻(1991年)の1556頁から1564頁
の「フィードバック結合をもつ3層BPモデルを用いた
印刷手書き文字列の認識」などに見られる。
例として、出力を入力側へフィードバックすると従来の
MLP法の変形がある。この例としては文字認識の場合
であるが、例えば、電子情報通信学会論文誌D−IIの
第J74巻(1991年)の1556頁から1564頁
の「フィードバック結合をもつ3層BPモデルを用いた
印刷手書き文字列の認識」などに見られる。
【0017】しかしこれらの方法には、上記文献よりも
明かであるように、ニューラルネットワークの学習を収
束させるのが困難である、また、そのための学習用出力
(教師信号)を試行錯誤的につくらなければならない等
と言う問題点がある。
明かであるように、ニューラルネットワークの学習を収
束させるのが困難である、また、そのための学習用出力
(教師信号)を試行錯誤的につくらなければならない等
と言う問題点がある。
【0018】
【発明が解決しようとする課題】上で述べてきたよう
に、従来的な話者認識方法に方法においては、 1)、統計的な量を用いた方法においては、そのデータ
の収集が非常に困難であり、また、それを少ないデータ
から推定すると言う方法は誤差が発生しやすい。
に、従来的な話者認識方法に方法においては、 1)、統計的な量を用いた方法においては、そのデータ
の収集が非常に困難であり、また、それを少ないデータ
から推定すると言う方法は誤差が発生しやすい。
【0019】2)、特徴時系列データをDP法やHMM
法で処理する方法は、適当な長さの処理データと、その
始端と終端とを必要とし、処理時間がかかる。また、結
果を連続的に得るのが困難である。
法で処理する方法は、適当な長さの処理データと、その
始端と終端とを必要とし、処理時間がかかる。また、結
果を連続的に得るのが困難である。
【0020】3)、また、この話者認識処理において
は、入力されるデータは、標準データと同じ発話内容で
なければならないと言う制約がある。
は、入力されるデータは、標準データと同じ発話内容で
なければならないと言う制約がある。
【0021】4)、特徴時系列を従来的なMLP法で処
理する方法は、入力範囲の始端と終端を必要とし、デー
タの長さの変化に対応するのが困難である。また、学習
を収束させるのが困難である。
理する方法は、入力範囲の始端と終端を必要とし、デー
タの長さの変化に対応するのが困難である。また、学習
を収束させるのが困難である。
【0022】等の問題がある。
【0023】
【課題を解決するための手段】上記課題を解決するため
の、本発明の話者認識方法は、ニューラルネットワーク
を用いた話者認識方法において、そのニューラルネット
ワークが、少なくとも、内部状態値記憶手段、内部状態
値と外部入力値を入力により内部状態値を更新する内部
状態値更新手段、内部状態値を外部出力値へ変換する出
力値生成手段、を有する神経細胞様素子により構成され
ている事を特徴とする話者認識方法である。
の、本発明の話者認識方法は、ニューラルネットワーク
を用いた話者認識方法において、そのニューラルネット
ワークが、少なくとも、内部状態値記憶手段、内部状態
値と外部入力値を入力により内部状態値を更新する内部
状態値更新手段、内部状態値を外部出力値へ変換する出
力値生成手段、を有する神経細胞様素子により構成され
ている事を特徴とする話者認識方法である。
【0024】
【実施例】 (実施例1)図1は本発明におけるニューラルネットワ
ークを構成する神経細胞様素子の機能を模式的に示した
ものである。図中の番号101はその神経細胞様素子の
内部状態値記憶手段を、102は101に記憶された内
部状態値、及び以下に説明する外部入力値を入力として
内部状態値を更新する内部状態値更新手段を、103は
内部状態値を外部出力へ変換する出力値生成手段を、ま
た104は神経細胞様素子の全体をそれぞれ模式的に示
す。
ークを構成する神経細胞様素子の機能を模式的に示した
ものである。図中の番号101はその神経細胞様素子の
内部状態値記憶手段を、102は101に記憶された内
部状態値、及び以下に説明する外部入力値を入力として
内部状態値を更新する内部状態値更新手段を、103は
内部状態値を外部出力へ変換する出力値生成手段を、ま
た104は神経細胞様素子の全体をそれぞれ模式的に示
す。
【0025】この図に示した外部入力値としては、ある
結合重みを剰算されたその神経細胞様素子自身の出力、
また同様に結合重みを剰算された他の神経細胞様素子の
出力、等価的に内部状態更新手段へバイアスを与えるた
めの結合重みを剰算された固定出力値、またそのニュー
ラルネットワークに入力される入力データ等が考えられ
る。
結合重みを剰算されたその神経細胞様素子自身の出力、
また同様に結合重みを剰算された他の神経細胞様素子の
出力、等価的に内部状態更新手段へバイアスを与えるた
めの結合重みを剰算された固定出力値、またそのニュー
ラルネットワークに入力される入力データ等が考えられ
る。
【0026】図2は従来例のMLP法によるニューラル
ネットワークを構成する神経細胞様素子の機能を模式的
に示したものである。図中の番号201は内部状態値を
計算する内部状態値計算手段を、202は201により
計算された内部状態値を外部出力へ変換する出力値生成
手段を、203は神経細胞様素子の全体をそれぞれ模式
的に示す。
ネットワークを構成する神経細胞様素子の機能を模式的
に示したものである。図中の番号201は内部状態値を
計算する内部状態値計算手段を、202は201により
計算された内部状態値を外部出力へ変換する出力値生成
手段を、203は神経細胞様素子の全体をそれぞれ模式
的に示す。
【0027】図2より明かであるように、従来の神経細
胞様素子の出力値は、その時点での入力値のみで決定さ
れる。その意味において、従来の神経細胞様素子の動作
は静的なものである。この静的な神経細胞様素子に、時
系列データを処理させるためには、何らかの形で対象と
なる時系列データの時間的な構造をニューラルネットワ
ークの構造へ反映させる事が必要となる。
胞様素子の出力値は、その時点での入力値のみで決定さ
れる。その意味において、従来の神経細胞様素子の動作
は静的なものである。この静的な神経細胞様素子に、時
系列データを処理させるためには、何らかの形で対象と
なる時系列データの時間的な構造をニューラルネットワ
ークの構造へ反映させる事が必要となる。
【0028】一方、本発明の神経細胞様素子を用いたニ
ューラルネットワークでは、データの過去の履歴が神経
細胞様素子の内部状態値として変換、保持されている。
つまり、この内部状態値として、入力の過去の履歴が保
存され、出力に反映されると言う意味で、本発明の神経
細胞様素子の動作は動的なものである。従って、従来の
神経細胞様素子を用いたニューラルネットワークと異な
り、本発明のニューラルネットワークは、ニューラルネ
ットワークの構造等によらずに時系列データを処理する
事ができる。
ューラルネットワークでは、データの過去の履歴が神経
細胞様素子の内部状態値として変換、保持されている。
つまり、この内部状態値として、入力の過去の履歴が保
存され、出力に反映されると言う意味で、本発明の神経
細胞様素子の動作は動的なものである。従って、従来の
神経細胞様素子を用いたニューラルネットワークと異な
り、本発明のニューラルネットワークは、ニューラルネ
ットワークの構造等によらずに時系列データを処理する
事ができる。
【0029】従来例の変形として、このような履歴の情
報をコンテキストとして特別な神経細胞様素子のグルー
プに記憶させる場合もある。しかし、このような構成に
おいてはニューラルネットワークを構成する神経細胞様
素子の機能が不均一となり、処理が複雑になると言う問
題がある。何れにおいても従来技術においては先に問題
として述べたように、処理の複雑化、データ量、及びデ
ータメモリーの増大、認識精度の低下をもたらす。
報をコンテキストとして特別な神経細胞様素子のグルー
プに記憶させる場合もある。しかし、このような構成に
おいてはニューラルネットワークを構成する神経細胞様
素子の機能が不均一となり、処理が複雑になると言う問
題がある。何れにおいても従来技術においては先に問題
として述べたように、処理の複雑化、データ量、及びデ
ータメモリーの増大、認識精度の低下をもたらす。
【0030】本発明を構成する神経細胞様素子の動作を
詳細に説明すると、その内部状態値X、出力値Yのそれ
ぞれの時間変化において、現在の内部状態値をXcur
r、更新された内部状態値をXnext、またその更新
動作時点での先に述べた外部入力値をZi(iは0から
nであり、nはその神経細胞様素子への外部入力数)と
し、内部状態更新手段の動作を形式的に関数Gと表す
と、 Xnext=G(Xcurr、Z1、−−−、Zi、−
−−、Zn) と表現できる。この表現の具体的な形は様々のものが考
えられるが、例えば1階の微分方程式を用いた次の数2
のようなものも可能である。ここでτはある定数であ
る。
詳細に説明すると、その内部状態値X、出力値Yのそれ
ぞれの時間変化において、現在の内部状態値をXcur
r、更新された内部状態値をXnext、またその更新
動作時点での先に述べた外部入力値をZi(iは0から
nであり、nはその神経細胞様素子への外部入力数)と
し、内部状態更新手段の動作を形式的に関数Gと表す
と、 Xnext=G(Xcurr、Z1、−−−、Zi、−
−−、Zn) と表現できる。この表現の具体的な形は様々のものが考
えられるが、例えば1階の微分方程式を用いた次の数2
のようなものも可能である。ここでτはある定数であ
る。
【0031】
【数2】
【0032】また、これをもう少し変形した形としては
以下の数3のような表現も可能である。
以下の数3のような表現も可能である。
【0033】
【数3】
【0034】この中で、Wijはj番目の神経細胞様素
子の出力を、i番目の神経細胞様素子の入力へ結合する
結合強度を示す。またDiは外部入力値を示す。またθ
iはバイアス値を示す。このバイアス値は、固定された
値との結合として、Wijの中に含めて考える事も可能
である。
子の出力を、i番目の神経細胞様素子の入力へ結合する
結合強度を示す。またDiは外部入力値を示す。またθ
iはバイアス値を示す。このバイアス値は、固定された
値との結合として、Wijの中に含めて考える事も可能
である。
【0035】このようにして決定されたある瞬間の神経
細胞様素子の内部状態をXとし、出力値生成手段の動作
を形式的に関数Fで表すと、神経細胞様素子の出力Y
は、 Y=F(X) と表現できる。Fの具体的な形としては以下の数4で示
されるような正負対称出力のシグモイド(ロジスティッ
ク)関数等が考えられる。
細胞様素子の内部状態をXとし、出力値生成手段の動作
を形式的に関数Fで表すと、神経細胞様素子の出力Y
は、 Y=F(X) と表現できる。Fの具体的な形としては以下の数4で示
されるような正負対称出力のシグモイド(ロジスティッ
ク)関数等が考えられる。
【0036】
【数4】
【0037】しかし、この関数型は必須のものではな
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。
【0038】このような式に従い本発明におけるニュー
ラルネットワークの出力の時系列は図7に示したような
処理により計算される。図7においては簡略のため神経
細胞様素子を単にノードと記載している。
ラルネットワークの出力の時系列は図7に示したような
処理により計算される。図7においては簡略のため神経
細胞様素子を単にノードと記載している。
【0039】このニューラルネットワークに所望の処理
をさせるためには、学習が必要である。この学習方法に
ついては、例えば次のような数5により導入される量C
を用いた学習則がある。
をさせるためには、学習が必要である。この学習方法に
ついては、例えば次のような数5により導入される量C
を用いた学習則がある。
【0040】
【数5】
【0041】ここで、Cはある学習評価値であり、Eは
ある誤差評価値である。このような式に従い、Cは図8
に示したような処理により決定される。
ある誤差評価値である。このような式に従い、Cは図8
に示したような処理により決定される。
【0042】この誤差評価Eの具体的な形としては、実
際の出力値をY、所望の出力値をTとすると以下の数6
で表されるKullback-leibler距離等が考えられる。
際の出力値をY、所望の出力値をTとすると以下の数6
で表されるKullback-leibler距離等が考えられる。
【0043】
【数6】
【0044】また、出力値の範囲が−1から1の間であ
る場合は、数6の式と実質的に同等であるが、以下の数
7のような表現をする。
る場合は、数6の式と実質的に同等であるが、以下の数
7のような表現をする。
【0045】
【数7】
【0046】これらを仮定すると、上の数5はより具体
的に以下の数8のように書ける。
的に以下の数8のように書ける。
【0047】
【数8】
【0048】これらを与える事により、先述べた種々の
外部入力の重み付けの係数の更新則は次の数9のように
与えられる。
外部入力の重み付けの係数の更新則は次の数9のように
与えられる。
【0049】
【数9】
【0050】本発明においては、従来例のMLP法にお
けるバックプロパゲーション学習とは異なり、ニューラ
ルネットワークを構成する全ての神経細胞様素子の内部
状態と出力値は、同時に更新される事が可能である。勿
論逐次的に更新されてもかまわない。また同様に、本発
明におけるニューラルネットワークの構成は、従来例の
MLP法のように層状である必要はない。全結合型のニ
ューラルネットワーク、層状のニューラルネットワー
ク、またそれら以外のより一般的な構成のニューラルネ
ットワークも可能である。
けるバックプロパゲーション学習とは異なり、ニューラ
ルネットワークを構成する全ての神経細胞様素子の内部
状態と出力値は、同時に更新される事が可能である。勿
論逐次的に更新されてもかまわない。また同様に、本発
明におけるニューラルネットワークの構成は、従来例の
MLP法のように層状である必要はない。全結合型のニ
ューラルネットワーク、層状のニューラルネットワー
ク、またそれら以外のより一般的な構成のニューラルネ
ットワークも可能である。
【0051】図3は話者認識のための話者特徴時系列デ
ータをどのような処理により抽出するかを模式的に示し
た図である。その概略を説明すると、まず音声入力手段
により入力された音声は、AD変換器等によりディジタ
ル化される。その後ディジタル化された入力から、フレ
ームと呼ばれる1部分が取り出され、その特徴が抽出さ
れ、一つの特徴ベクトルとなる。このような特徴ベクト
ルの時間的な連続が、入力話者の特徴時系列となる。
ータをどのような処理により抽出するかを模式的に示し
た図である。その概略を説明すると、まず音声入力手段
により入力された音声は、AD変換器等によりディジタ
ル化される。その後ディジタル化された入力から、フレ
ームと呼ばれる1部分が取り出され、その特徴が抽出さ
れ、一つの特徴ベクトルとなる。このような特徴ベクト
ルの時間的な連続が、入力話者の特徴時系列となる。
【0052】図5は本発明の1実施例である話者認識方
法の構成の模式図である。図中の番号501は図3で説
明したような音声特徴抽出手段を、502は上で説明し
たようなニューラルネットワークを、504はニューラ
ルネットワークの入力を記憶する入力値記憶手段を、5
03は記憶された入力と出力とを比較するデータ比較手
段をそれぞれ模式的に示す。
法の構成の模式図である。図中の番号501は図3で説
明したような音声特徴抽出手段を、502は上で説明し
たようなニューラルネットワークを、504はニューラ
ルネットワークの入力を記憶する入力値記憶手段を、5
03は記憶された入力と出力とを比較するデータ比較手
段をそれぞれ模式的に示す。
【0053】この実施例において、ニューラルネットワ
ークは、あるフレームに対応する特徴ベクトルを入力と
し、その一つ前のフレームの特徴ベクトルを出力するよ
うに学習させた。ここで用いた話者特徴量は8次のPA
RCOR係数である。話者特徴量としてはPARCOR
係数の他にも種々のものを使用する事が可能であるが、
PARCOR係数においてはその値が原理的に−1から
1の間にある事、また、比較的に話者に依存する割合が
高い等の特徴があり、話者認識においてはより有効な特
徴量である。
ークは、あるフレームに対応する特徴ベクトルを入力と
し、その一つ前のフレームの特徴ベクトルを出力するよ
うに学習させた。ここで用いた話者特徴量は8次のPA
RCOR係数である。話者特徴量としてはPARCOR
係数の他にも種々のものを使用する事が可能であるが、
PARCOR係数においてはその値が原理的に−1から
1の間にある事、また、比較的に話者に依存する割合が
高い等の特徴があり、話者認識においてはより有効な特
徴量である。
【0054】この実施例では、入力値記憶手段は、1フ
レーム前の入力データのみを記憶し、それを現フレーム
による出力データと比較する事により話者認識を行う事
ができる。つまり、音声特徴時系列は、発声のメカニズ
ムから容易に理解できる事であるが、発話、調音器官の
連続的な運動を反映したものである。そして、話者の個
人性はこれらの運動の特徴として現れるので、この特徴
時系列を処理する事により個人の認識を行う事ができ
る。この実施例ではその処理を、現データから1つ前の
データを復元する、と言う形で入力音声の個人性を評価
する事になる。この例でのニューラルネットワークの構
成としては、自己ループを含む非対称な完全結合型の構
成とした。しかし上でも述べたが、本発明を構成するニ
ューラルネットワークは、層状結合、完全結合等を特殊
例として含むランダムな構成をとる事が可能である。ま
た、入力素子、隠れ素子、出力素子のそれぞれの個数は
すべてとした。
レーム前の入力データのみを記憶し、それを現フレーム
による出力データと比較する事により話者認識を行う事
ができる。つまり、音声特徴時系列は、発声のメカニズ
ムから容易に理解できる事であるが、発話、調音器官の
連続的な運動を反映したものである。そして、話者の個
人性はこれらの運動の特徴として現れるので、この特徴
時系列を処理する事により個人の認識を行う事ができ
る。この実施例ではその処理を、現データから1つ前の
データを復元する、と言う形で入力音声の個人性を評価
する事になる。この例でのニューラルネットワークの構
成としては、自己ループを含む非対称な完全結合型の構
成とした。しかし上でも述べたが、本発明を構成するニ
ューラルネットワークは、層状結合、完全結合等を特殊
例として含むランダムな構成をとる事が可能である。ま
た、入力素子、隠れ素子、出力素子のそれぞれの個数は
すべてとした。
【0055】また、この実施例においては、ニューラル
ネットワークを訓練する標準データとして9つの単語、
「終点」「腕前」「拒絶」「超越」「とりあえず」「分
類」「ロッカー」「山脈」「隠れピューリタン」を用い
た。また音声データとしては、ATR者の研究用日本語
音声データベースに収録されているものを用いた。
ネットワークを訓練する標準データとして9つの単語、
「終点」「腕前」「拒絶」「超越」「とりあえず」「分
類」「ロッカー」「山脈」「隠れピューリタン」を用い
た。また音声データとしては、ATR者の研究用日本語
音声データベースに収録されているものを用いた。
【0056】また、以上の構成である本発明の方法によ
れば、従来例のMLP法の変形である「フィードバック
結合を持つBPモデル」型ニューラルネットワーク等に
見られた、学習を収束させるのが困難であり、また、そ
のための学習用出力を試行錯誤的に作成しなければなら
ない等の問題点は存在せず、本発明の話者認識方法のニ
ューラルネットワークは、極めて容易に数100回から
数1000回の学習で所望の出力を生成するようにでき
た。
れば、従来例のMLP法の変形である「フィードバック
結合を持つBPモデル」型ニューラルネットワーク等に
見られた、学習を収束させるのが困難であり、また、そ
のための学習用出力を試行錯誤的に作成しなければなら
ない等の問題点は存在せず、本発明の話者認識方法のニ
ューラルネットワークは、極めて容易に数100回から
数1000回の学習で所望の出力を生成するようにでき
た。
【0057】図9、図10はそのようにして学習させた
ニューラルネットワークによる話者認識の結果の例であ
る。図中の実線は話者MAUの音声を認識させるために
学習させたニューラルネットワークの生成した出力によ
る誤差の時間変化を、また波線は話者MXMの音声を認
識させるために学習させたニューラルネットワークが生
成しった出力の誤差の時間変化を示したものである。こ
こで示した誤差は、8次の入力ベクトルデータ、及び出
力ベクトルとによりデータ比較手段により生成された誤
差ベクトルの長さの絶対値を、その時点でのフレームの
前後32フレームについて平均した値を示したものであ
る。また図9の入力話者はMAUであり、図10入力話
者はMXMである。
ニューラルネットワークによる話者認識の結果の例であ
る。図中の実線は話者MAUの音声を認識させるために
学習させたニューラルネットワークの生成した出力によ
る誤差の時間変化を、また波線は話者MXMの音声を認
識させるために学習させたニューラルネットワークが生
成しった出力の誤差の時間変化を示したものである。こ
こで示した誤差は、8次の入力ベクトルデータ、及び出
力ベクトルとによりデータ比較手段により生成された誤
差ベクトルの長さの絶対値を、その時点でのフレームの
前後32フレームについて平均した値を示したものであ
る。また図9の入力話者はMAUであり、図10入力話
者はMXMである。
【0058】図より明かであるように、図9の場合はM
AUの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、MXMで訓練されたニューラル
ネットワークによる復元誤差の方が大きい。これはMA
Uの発話特徴を用いたデータ復元の方が精度の良い復元
が可能である事を示し、つまり入力された音声がMAU
によるものである事を示している。
AUの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、MXMで訓練されたニューラル
ネットワークによる復元誤差の方が大きい。これはMA
Uの発話特徴を用いたデータ復元の方が精度の良い復元
が可能である事を示し、つまり入力された音声がMAU
によるものである事を示している。
【0059】また図10の場合は図9の場合とは逆にM
XMの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、つまりこの入力された音声がM
XMによるものである事を示している。
XMの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、つまりこの入力された音声がM
XMによるものである事を示している。
【0060】上の図より明かであるように、本発明の話
者認識方法によれば、連続した話者認識結果を得る事が
できる。
者認識方法によれば、連続した話者認識結果を得る事が
できる。
【0061】下の表1は上の例の二つのニューラルネッ
トワークに、訓練話者以外の9話者を含む合計11人の
音声を入力した場合の誤差の平均値を示したものであ
る。入力は訓練に用いた9単語そのもであり、平均はそ
の全発話区間について行った。表より明かであるよう
に、それぞれのニューラルネットワークにおいて、11
人の音声入力に対し訓練話者に対する誤差が一番小さ
く、11人の中から正確に訓練話者認識している事が示
される。
トワークに、訓練話者以外の9話者を含む合計11人の
音声を入力した場合の誤差の平均値を示したものであ
る。入力は訓練に用いた9単語そのもであり、平均はそ
の全発話区間について行った。表より明かであるよう
に、それぞれのニューラルネットワークにおいて、11
人の音声入力に対し訓練話者に対する誤差が一番小さ
く、11人の中から正確に訓練話者認識している事が示
される。
【0062】
【表1】
【0063】また、下の表2は表1と同様の結果である
が、上の場合と異なり、訓練に用いいた単語音声とは内
容が異なる単語音声を入力した場合の結果である。ここ
で用いた単語は「カレンダー」「いらっしゃる」「極
端」「駐車」「プログラム」「録音」「購入」「タイピ
ュータ」である。
が、上の場合と異なり、訓練に用いいた単語音声とは内
容が異なる単語音声を入力した場合の結果である。ここ
で用いた単語は「カレンダー」「いらっしゃる」「極
端」「駐車」「プログラム」「録音」「購入」「タイピ
ュータ」である。
【0064】
【表2】
【0065】上の表より明かであるように、本発明の話
者認識方法は入力された音声の発話内容が異なっても正
確に訓練話者を認識している事が示される。
者認識方法は入力された音声の発話内容が異なっても正
確に訓練話者を認識している事が示される。
【0066】また、上の説明は時間的に離散的な場合に
ついて説明をしてきたが、例えばアナログ的な処理を行
う事により連続時間処理においても適用可能である。
ついて説明をしてきたが、例えばアナログ的な処理を行
う事により連続時間処理においても適用可能である。
【0067】(実施例2)図4は実施例1の変形とし
て、入力された音声特徴そのものを出力するように訓練
した例である。図中の番号401は音声特徴入力手段
を、402はニューラルネットワークを、403はデー
タ比較手段をそれぞれ模式的に示す。
て、入力された音声特徴そのものを出力するように訓練
した例である。図中の番号401は音声特徴入力手段
を、402はニューラルネットワークを、403はデー
タ比較手段をそれぞれ模式的に示す。
【0068】この例においても実施例1と同様の効果を
得る事ができる。
得る事ができる。
【0069】(実施例3)図6は実施例1の変形とし
て、入力された音声特徴から、nステップ将来のフレー
ムの入力データを予測して出力するように訓練した例で
ある。図中の番号601は音声特徴入力手段を、602
はニューラルネットワークを、603はデータ比較手段
を、604は出力値記憶手段をそれぞれ模式的に示す。
て、入力された音声特徴から、nステップ将来のフレー
ムの入力データを予測して出力するように訓練した例で
ある。図中の番号601は音声特徴入力手段を、602
はニューラルネットワークを、603はデータ比較手段
を、604は出力値記憶手段をそれぞれ模式的に示す。
【0070】この例においても実施例1と同様の効果を
得る事ができる。
得る事ができる。
【0071】(実施例4)図11は上の実施例とは異な
り、入力された話者と訓練に用いた話者の類似度を直接
に出力するように学習させる例である。この場合の入力
は上の実施例と同様のものが可能であり、また学習用出
力としては、ある特定の話者の入力に対し、その話者に
対応付けられた特定の類似度出力素子が出力を出すよう
にすれば良い。この出力は任意の数である事が可能であ
る。
り、入力された話者と訓練に用いた話者の類似度を直接
に出力するように学習させる例である。この場合の入力
は上の実施例と同様のものが可能であり、また学習用出
力としては、ある特定の話者の入力に対し、その話者に
対応付けられた特定の類似度出力素子が出力を出すよう
にすれば良い。この出力は任意の数である事が可能であ
る。
【0072】(実施例5)図12は上の実施例4と類似
したものである。この場合、実施例4の、ある特定の話
者の入力に対し、その話者に対応付けられた特定の類似
度出力素子が出力を出すと言う事に加えて、目的とする
話者以外の入力に対し、非類似度出力が出力を出すよう
に学習させる例である。この出力は上と同様に任意の数
である事が可能である。一般にこのような学習の結果得
られる非類似度出力は、類似度出力を単純に反転したも
のにはならず、それらを組み合わせたより高度な判断が
可能となる。
したものである。この場合、実施例4の、ある特定の話
者の入力に対し、その話者に対応付けられた特定の類似
度出力素子が出力を出すと言う事に加えて、目的とする
話者以外の入力に対し、非類似度出力が出力を出すよう
に学習させる例である。この出力は上と同様に任意の数
である事が可能である。一般にこのような学習の結果得
られる非類似度出力は、類似度出力を単純に反転したも
のにはならず、それらを組み合わせたより高度な判断が
可能となる。
【0073】
【発明の効果】以上述べてきたように、本発明の話者認
識方法によれば、 1)、非常に少数の学習データで精度の高い話者認識が
可能である。
識方法によれば、 1)、非常に少数の学習データで精度の高い話者認識が
可能である。
【0074】2)、話者の発話特徴そのものを認識する
ために、話者認識処理の際のデータが訓練時のものと異
なっても話者認識がかのうである。
ために、話者認識処理の際のデータが訓練時のものと異
なっても話者認識がかのうである。
【0075】3)、学習が極めて容易であり、そのため
の試行錯誤的な部分が非常に少ない。 などの効果がある。
の試行錯誤的な部分が非常に少ない。 などの効果がある。
【0076】また本発明の方法は話者認識のみではな
く、未知話者と既知話者との類似度の判定等に用いる事
ができる。また本発明の方法は音声のみではなく、広く
時系列情報一般の処理においても有効である。
く、未知話者と既知話者との類似度の判定等に用いる事
ができる。また本発明の方法は音声のみではなく、広く
時系列情報一般の処理においても有効である。
【図1】本発明におけるニューラルネットワークを構成
する神経細胞様素子の機能の模式図である。
する神経細胞様素子の機能の模式図である。
【図2】従来例のニューラルネットワークを構成する神
経細胞様素子の機能の模式図である。
経細胞様素子の機能の模式図である。
【図3】音声特徴抽出手段の構成の模式図である。
【図4】本発明の話者認識方法の構成の1実施例の模式
図である。
図である。
【図5】本発明の話者認識方法の構成の1実施例の模式
図である。
図である。
【図6】本発明の話者認識方法の構成の1実施例の模式
図である。
図である。
【図7】本発明の話者認識方法におけるニューラルネッ
トワークの処理の流れの模式図である。
トワークの処理の流れの模式図である。
【図8】本発明の話者認識方法におけるニューラルネッ
トワークの学習の際お誤差評価の流れを示す模式図であ
る。
トワークの学習の際お誤差評価の流れを示す模式図であ
る。
【図9】本発明の1実施例における話者認識の結果を示
す図である。
す図である。
【図10】本発明の1実施例における話者認識の結果を
示す図である。
示す図である。
【図11】本発明の話者認識方法の構成の1実施例の模
式図である。
式図である。
【図12】本発明の話者認識方法の構成の1実施例の模
式図である。
式図である。
101:内部状態値記憶手段 102:内部状態値更新手段 103:出力値生成手段 104:神経細胞様素子 201:内部状態値計算手段 202:出力値生成手段 203:神経細胞様素子 401:音声特徴抽出手段 402:ニューラルネットワーク 403:データ比較手段 501:音声特徴抽出手段 502:ニューラルネットワーク 503:データ比較手段 504:入力値記憶手段 601:音声特徴抽出手段 602:ニューラルネットワーク 603:データ比較手段 604:出力値記憶手段 1101:音声特徴抽出手段 1102:ニューラルネットワーク 1103:話者類似度出力1 1104:話者類似度出力2 1201:音声特徴抽出手段 1202:ニューラルネットワーク 1203:話者類似度・非類似度出力1 1204:話者類似度・非類似度出力2
Claims (12)
- 【請求項1】 ニューラルネットワークを用いた話者認
識方法において、そのニューラルネットワークが、少な
くとも、内部状態値記憶手段、内部状態値と外部入力値
を入力により内部状態値を更新する内部状態値更新手
段、内部状態値を外部出力値へ変換する出力値生成手
段、を含む神経細胞様素子により構成されている事を特
徴とする話者認識方法。 - 【請求項2】 前記神経細胞様素子の内部状態値更新手
段が、その神経細胞様素子の内部状態値X、及び、その
神経細胞様素子への入力Zi(iは0からn:nは自然
数)により、 【数1】 を満足する値へ内部状態値を更新する事を特徴とする請
求項1記載の話者認識方法。 - 【請求項3】 前記話者認識方法が、入力値と出力値と
のデータを比較するデータ比較手段を有する事を特徴と
する請求項1及び請求項2のいずれかに記載の話者認識
方法。 - 【請求項4】 前記話者認識方法が、ある時間Tだけ前
の入力値を記憶する入力値記憶手段と、その記憶された
入力値と現出力とのデータを比較するデータ比較手段を
有する事を特徴とする請求項1及び請求項2のいずれか
に記載の話者認識方法。 - 【請求項5】 前記話者認識方法が、ある時間Tだけ前
の出力値を記憶する出力値記憶手段と、その記憶された
出力と現入力とのデータを比較するデータ比較手段を有
する事を特徴とする請求項1及び請求項2のいずれかに
記載の話者認識方法。 - 【請求項6】 前記話者認識方法が、1人以上の認識対
象話者に対し、その各々に対応する類似度出力を有する
事を特徴とする請求項1及び請求項2のいずれかに記載
の話者認識方法。 - 【請求項7】 前記話者認識方法が、1人以上の認識対
象話者に対し、その各々に対応する類似度出力、及び非
類似度出力を有する事を特徴とする請求項1及び請求項
2のいずれかに記載の話者認識方法。 - 【請求項8】 前記入力Ziが、少なくとも、PARC
OR係数を含む事を特徴とする請求項1から請求項7の
いずれかに記載の話者認識方法。 - 【請求項9】 前記出力値生成手段が、−1から1の間
の出力値を持つ出力関数である事を特徴とする請求項1
から請求項8のいずれかに記載の話者認識方法。 - 【請求項10】 前記入力Ziが、少なくとも、その神
経細胞様素子自身の出力に重みを乗算した値を含む事を
特徴とする請求項1から請求項9のいずれかに記載の話
者認識方法。 - 【請求項11】 前記入力Ziが、少なくとも、他の神
経細胞様素子の出力に重みを乗算した値を含む事を特徴
とする請求項1から請求項10記載のいずれかに記載の
話者認識方法。 - 【請求項12】 前記入力Ziが、少なくとも、外部か
ら与えられた所望のデータを含む事を特徴とする請求項
1から請求項11のいずれかに記載の話者認識方法。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4159442A JPH064097A (ja) | 1992-06-18 | 1992-06-18 | 話者認識方法 |
| EP93109811A EP0574951B1 (en) | 1992-06-18 | 1993-06-18 | Speech recognition system |
| DE69328275T DE69328275T2 (de) | 1992-06-18 | 1993-06-18 | Spracherkennungssystem |
| US08/641,268 US5751904A (en) | 1992-06-18 | 1996-04-30 | Speech recognition system using neural networks |
| HK98115065.1A HK1013718B (en) | 1992-06-18 | 1998-12-23 | Speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4159442A JPH064097A (ja) | 1992-06-18 | 1992-06-18 | 話者認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH064097A true JPH064097A (ja) | 1994-01-14 |
Family
ID=15693848
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4159442A Pending JPH064097A (ja) | 1992-06-18 | 1992-06-18 | 話者認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH064097A (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5794204A (en) * | 1995-06-22 | 1998-08-11 | Seiko Epson Corporation | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability |
| US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
| US5899972A (en) * | 1995-06-22 | 1999-05-04 | Seiko Epson Corporation | Interactive voice recognition method and apparatus using affirmative/negative content discrimination |
| US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
| US6070139A (en) * | 1995-08-21 | 2000-05-30 | Seiko Epson Corporation | Bifurcated speaker specific and non-speaker specific speech recognition method and apparatus |
| JP2002519720A (ja) * | 1998-06-24 | 2002-07-02 | フォニックス コーポレイション | 多層ネットワークを用いた信号分類の方法と装置 |
| JP2019514045A (ja) * | 2016-03-21 | 2019-05-30 | アマゾン テクノロジーズ インコーポレイテッド | 話者照合方法及びシステム |
| JP2019194713A (ja) * | 2015-09-04 | 2019-11-07 | グーグル エルエルシー | 話者検証のためのニューラルネットワーク |
| CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
| US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
-
1992
- 1992-06-18 JP JP4159442A patent/JPH064097A/ja active Pending
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5794204A (en) * | 1995-06-22 | 1998-08-11 | Seiko Epson Corporation | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability |
| US5899972A (en) * | 1995-06-22 | 1999-05-04 | Seiko Epson Corporation | Interactive voice recognition method and apparatus using affirmative/negative content discrimination |
| US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
| US5946658A (en) * | 1995-08-21 | 1999-08-31 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition method with a response creation capability |
| US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
| US6070139A (en) * | 1995-08-21 | 2000-05-30 | Seiko Epson Corporation | Bifurcated speaker specific and non-speaker specific speech recognition method and apparatus |
| JP2002519720A (ja) * | 1998-06-24 | 2002-07-02 | フォニックス コーポレイション | 多層ネットワークを用いた信号分類の方法と装置 |
| JP2019194713A (ja) * | 2015-09-04 | 2019-11-07 | グーグル エルエルシー | 話者検証のためのニューラルネットワーク |
| JP2019514045A (ja) * | 2016-03-21 | 2019-05-30 | アマゾン テクノロジーズ インコーポレイテッド | 話者照合方法及びシステム |
| US11514901B2 (en) | 2016-03-21 | 2022-11-29 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
| US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
| CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
| CN112259106B (zh) * | 2020-10-20 | 2024-06-11 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
| JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
| CN108346436A (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
| CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
| CN109979436B (zh) | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 | |
| KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
| CN116090474A (zh) | 对话情绪分析方法、装置和计算机可读存储介质 | |
| US5924066A (en) | System and method for classifying a speech signal | |
| Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
| Regmi et al. | Nepali speech recognition using rnn-ctc model | |
| Prabhavalkar et al. | Backpropagation training for multilayer conditional random field based phone recognition | |
| JPH064097A (ja) | 話者認識方法 | |
| Mohammed et al. | An overview for assessing a number of systems for estimating age and gender of speakers | |
| JPH0540497A (ja) | 話者適応音声認識装置 | |
| JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
| CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 | |
| JP3467556B2 (ja) | 音声認識装置 | |
| JP2852298B2 (ja) | 標準パターン適応化方式 | |
| CN117037789B (zh) | 一种客服语音识别方法、装置、计算机设备及存储介质 | |
| JP3589044B2 (ja) | 話者適応化装置 | |
| KR100832556B1 (ko) | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 | |
| Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
| JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
| CN120071905A (zh) | 一种基于mfcc算法和vq-hmm算法的语音识别与分析方法 | |
| Utomo et al. | Spoken word and speaker recognition using MFCC and multiple recurrent neural networks |