JPH064097A

JPH064097A - 話者認識方法

Info

Publication number: JPH064097A
Application number: JP4159442A
Authority: JP
Inventors: Mitsuhiro Inazumi; 満広稲積
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1992-06-18
Filing date: 1992-06-18
Publication date: 1994-01-14

Abstract

(57)【要約】【目的】本発明はより高性能の話者認識を実現する事
を目的とする。【構成】本発明は内部状態値記憶部を持ち、かつその
内部状態値を内部状態値そのものと外部入力値の両方の
値により更新するニューラルネットワークと、音声特徴
抽出手段により構成される話者認識方法である。このニ
ューラルネットワークにより、入力の復元、予測等の精
度により話者認識をおこなう。【効果】従来例に比較して非常に高速な、かつ正確な
認識を行う事ができる。また、それを実行するためのハ
ードウェアも非常に小さくする事ができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は話者を認識する方法に関
するものである。

【０００２】

【従来の技術】話者認識に用いられる方法は大別して２
つの方法がある。その一つの方法は、入力された音声か
ら得られる発話の特徴ベクトルの時系列そのものを用い
る方法であり、もう一つの方法はその時系列を統計処理
して得られる統計的な特徴量を用いる方法である。これ
らの方法については、例えば古井貞煕著「ディジタル音
声処理」（東海大学出版会）第９章等に詳しく述べられ
ている。

【０００３】しかし、統計的な特徴量を用いる方法にお
いて精度の高い認識を行うためには、大量のデータを収
集する必要がある。しかし、話者からこのそのような大
量のデータを得る事は実用上非常に困難な事である。例
えば、話者認識装置の前で、認識対象の話者に数分間も
話してもらう、と言うような事は話者認識装置の応用を
非常に制限してしまう。また、この制限を緩和するため
に、小量のデータから統計量を推定しようすれば、その
推定誤差のために認識精度を劣化させてしまうと言う問
題がある。

【０００４】もしも大量のデータを得る事が可能な場合
には上で述べたような統計的な方法を用いるのが良い選
択であると考えられるが、データが小量である場合は、
それから得られる話者特徴時系列を用いる方法の法が良
い結果を与える場合が多い。それは、大部分が静的な量
である統計的な量に比較して、時系列そのものを処理す
る方法は話者の特徴の動的な面も利用する事ができるか
らである。あるいは逆に、このような話者の動的な特性
を的確に処理できる方法でなければ、話者特徴データか
ら話者を認識するという事ができない。この事は、先に
述べた「ディジタル音声処理」の中でも述べられている
事ではあるが、それらの話者認識のための方法はそのた
めの特別の配慮が必要ではあるけれども、本質的には音
声認識と非常に類似した方法が必要である言う事であ
る。

【０００５】さて従来の音声認識方法について考えてみ
ると、従来の音声認識方法は大別して、ＤＰマッチング
法（ＤＰ法）、隠れマルコフモデル法（ＨＭＭ法）、及
び、バックプロパゲーション学習法とニューラルネット
ワークである多層パーセプトロンを用いた方法（ＭＬＰ
法）とがある。これらの詳細については、例えば中川聖
一著「確率モデルによる音声認識」（電子情報通信学
会）、中川、鹿野、東倉共著「音声・聴覚と神経回路網
モデル」（オーム社）等に記述されている。

【０００６】ＤＰ法を話者認識に用いる場合、まず各々
の話者についての標準データを収集し、認識時において
は、そのそれぞれについて、入力されたデータとの間で
始端と終端の対応を仮定し、その内部の要素の対応を様
々な時間正規化関数で変化させ、その差異が最小となる
対応関係と、その時のパタン間の差異を入力データと標
準パタン間の距離とし、その距離を最小とする標準パタ
ンに代表される話者を認識結果とするものである。

【０００７】この場合、始端と終端の対応を仮定すると
言う事は、入力パタンと標準パタンの間の距離がパタン
の長さに比例して大きくなると言う事による。例えば、
ある単語なり文章なりを用いて話者認識を行うとして
も、発話速度は人それぞれにおいて異なり、また同一話
者においても状況によって変化する。そのため長さの異
なる標準パタン間において、パタンの長さに依存しない
距離の比較をするためには、標準パタン、あるいは入力
データの長さに対して距離を正規化する必要があり、そ
のためにパタンの距離、つまりパタンの始端終端の対応
が必須となるのである。

【０００８】ＨＭＭ法においてＤＰ法の標準パタンに代
わり話者を代表するのは、複数の状態と複数の遷移によ
り構成されるＨＭＭモデルである。ＨＭＭモデルの各々
の状態には存在確率が、また各々の遷移には遷移確率と
出力確率が与えられており、これらの確率値は学習用デ
ータを用いた学習により決定される。これらの学習され
た確率値によりＨＭＭモデルは統計的、確率的に一つの
話者を代表する。

【０００９】ＨＭＭ法は話者認識時において、各々の話
者を代表するＨＭＭモデルのそれぞれについて、ＤＰ法
と同じく、入力されたデータとの間で始端と終端の対応
を仮定し、その入力されたデータ列を出力すると言う条
件のもとで、始状態から終状態へ遷移する確率としてそ
の入力データが各々の話者にどの程度近いかの確率が計
算される。そしてその確率を最大とするＨＭＭモデルに
代表される話者を、入力データが属するべき話者として
認識結果とするものである。

【００１０】ここで、ＨＭＭモデルは時系列データを状
態と遷移と言う統計、確率的な形での時系列でモデル化
する。従って学習時においては、学習用入力データの始
状態に近い部分、終状態に近い部分、その中間の部分等
を特定する必要がある。そのためにはデータの始端と終
端を正確に与える事が必要となる。仮に始端の与え方が
不正確であり、始端に近い部分に必要以上に多種のデー
タが与えられたすると、これはそのモデルの認識能力を
下げる事になる。また逆に学習用データの中に必要なデ
ータが欠けていたとしたら、その欠けたデータを含む入
力データは正確な認識が不可能となる。その結果、誤認
識される可能性が高くなる。

【００１１】また認識時において、ＨＭＭ法における判
断基準は始状態から終状態への遷移確率であり、最終状
態における存在確率である。この値は入力データ列の各
成分の出力確率、遷移確率、ある状態の存在確率の積で
あるのでデータの長さに依存して単調に、かつ非常に急
速に減少する。そのため、例えば最終状態の存在確率が
０．５であると言っても、その値が長さ１０のデータ列
に対しての値なのか、それとも長さ２０のデータ列に対
しての値なのかによって、その重み、または意味は全く
異なる。従ってデータの長さに依存しない判断をするた
めには、何らかのデータの長さを補正する処理が必要と
なる。これにはデータの長さ、つまりデータの始端と終
端が必要となる。

【００１２】上で述べたようにＤＰ法、ＨＭＭ法のいず
れにおいても、データの始端、終端と言うような、ある
まとまったデータの単位が必要となり、しかもこの単位
毎についての結果しか得る事ができない。このデータの
単位が小さくなれば、データの収集は容易であるがデー
タのばらつきが大きくなり、認識精度は劣化してしま
う。また、この単位が極端に大きくなればデータの収集
が困難となり、またＤＰ法やＨＭＭ法におけるモデル化
の精度も悪くなり、その結果認識精度は劣化してしま
う。つまり、最適なデータの単位の大きさがあるはずで
あるが、それは先験的に決定されるものではない。ま
た、このようなサイズを変化させながら処理をすると
か、あるいは様々な始端終端の可能性をそれぞれ処理す
るとか言うような方法は非常に処理時間のかかるもので
ある。

【００１３】更に重要な問題点は、これらの方法は基本
的に標準データとして持っているものと同一の内容であ
るデータでしか話者認識処理が行えないという事であ
る。これは、上で述べてきた処理が入力データと標準デ
ータとの単純なパタンマッチンング処理である必然的な
事である。

【００１４】一方、従来法のもう一つの方法であるＭＬ
Ｐ法の場合は任意の数の出力値を、任意の時点で得る事
が可能である。また、データの始端終端のような単位を
仮定する事は特に必要はない。しかし従来のＭＬＰ法
は、データの始端、終端ではなく、入力データの範囲と
言う意味での新たな始端終端の問題が起こる。つまり、
ＭＬＰ法は基本的には静的なデータを認識するための方
法であり、それに時系列データを認識させるためには、
その入力データの時間構造を何らかの形でニューラルネ
ットワークの構造へ反映させなければならない。この方
法として最も多く用いられるのは、ある時間範囲のデー
タを１つの入力データとして入力し、等価的に時間情報
を処理すると言う方法である。しかし、この時間範囲は
ＭＬＰの構成上固定されたものでなければならない。

【００１５】この時、この入力時間範囲を越えた時間的
な特徴を認識する事は困難であり、また、同様にこの入
力時間範囲に比較して小さすぎる時間的な特徴を認識す
るのも困難である。つまり、認識したい時間的な特徴の
前後に不要なデータが挿入されるからである。一方入力
される話者特徴時系列データの長さは、話者により、ま
た同一話者においても非常に大きく変動し得るものであ
るので、このような入力範囲の不整合は非常に大きな確
率で起こり得るものである。

【００１６】このような固定された入力範囲を持たない
例として、出力を入力側へフィードバックすると従来の
ＭＬＰ法の変形がある。この例としては文字認識の場合
であるが、例えば、電子情報通信学会論文誌Ｄ−ＩＩの
第Ｊ７４巻（１９９１年）の１５５６頁から１５６４頁
の「フィードバック結合をもつ３層ＢＰモデルを用いた
印刷手書き文字列の認識」などに見られる。

【００１７】しかしこれらの方法には、上記文献よりも
明かであるように、ニューラルネットワークの学習を収
束させるのが困難である、また、そのための学習用出力
（教師信号）を試行錯誤的につくらなければならない等
と言う問題点がある。

【００１８】

【発明が解決しようとする課題】上で述べてきたよう
に、従来的な話者認識方法に方法においては、１）、統計的な量を用いた方法においては、そのデータ
の収集が非常に困難であり、また、それを少ないデータ
から推定すると言う方法は誤差が発生しやすい。

【００１９】２）、特徴時系列データをＤＰ法やＨＭＭ
法で処理する方法は、適当な長さの処理データと、その
始端と終端とを必要とし、処理時間がかかる。また、結
果を連続的に得るのが困難である。

【００２０】３）、また、この話者認識処理において
は、入力されるデータは、標準データと同じ発話内容で
なければならないと言う制約がある。

【００２１】４）、特徴時系列を従来的なＭＬＰ法で処
理する方法は、入力範囲の始端と終端を必要とし、デー
タの長さの変化に対応するのが困難である。また、学習
を収束させるのが困難である。

【００２２】等の問題がある。

【００２３】

【課題を解決するための手段】上記課題を解決するため
の、本発明の話者認識方法は、ニューラルネットワーク
を用いた話者認識方法において、そのニューラルネット
ワークが、少なくとも、内部状態値記憶手段、内部状態
値と外部入力値を入力により内部状態値を更新する内部
状態値更新手段、内部状態値を外部出力値へ変換する出
力値生成手段、を有する神経細胞様素子により構成され
ている事を特徴とする話者認識方法である。

【００２４】

【実施例】（実施例１）図１は本発明におけるニューラルネットワ
ークを構成する神経細胞様素子の機能を模式的に示した
ものである。図中の番号１０１はその神経細胞様素子の
内部状態値記憶手段を、１０２は１０１に記憶された内
部状態値、及び以下に説明する外部入力値を入力として
内部状態値を更新する内部状態値更新手段を、１０３は
内部状態値を外部出力へ変換する出力値生成手段を、ま
た１０４は神経細胞様素子の全体をそれぞれ模式的に示
す。

【００２５】この図に示した外部入力値としては、ある
結合重みを剰算されたその神経細胞様素子自身の出力、
また同様に結合重みを剰算された他の神経細胞様素子の
出力、等価的に内部状態更新手段へバイアスを与えるた
めの結合重みを剰算された固定出力値、またそのニュー
ラルネットワークに入力される入力データ等が考えられ
る。

【００２６】図２は従来例のＭＬＰ法によるニューラル
ネットワークを構成する神経細胞様素子の機能を模式的
に示したものである。図中の番号２０１は内部状態値を
計算する内部状態値計算手段を、２０２は２０１により
計算された内部状態値を外部出力へ変換する出力値生成
手段を、２０３は神経細胞様素子の全体をそれぞれ模式
的に示す。

【００２７】図２より明かであるように、従来の神経細
胞様素子の出力値は、その時点での入力値のみで決定さ
れる。その意味において、従来の神経細胞様素子の動作
は静的なものである。この静的な神経細胞様素子に、時
系列データを処理させるためには、何らかの形で対象と
なる時系列データの時間的な構造をニューラルネットワ
ークの構造へ反映させる事が必要となる。

【００２８】一方、本発明の神経細胞様素子を用いたニ
ューラルネットワークでは、データの過去の履歴が神経
細胞様素子の内部状態値として変換、保持されている。
つまり、この内部状態値として、入力の過去の履歴が保
存され、出力に反映されると言う意味で、本発明の神経
細胞様素子の動作は動的なものである。従って、従来の
神経細胞様素子を用いたニューラルネットワークと異な
り、本発明のニューラルネットワークは、ニューラルネ
ットワークの構造等によらずに時系列データを処理する
事ができる。

【００２９】従来例の変形として、このような履歴の情
報をコンテキストとして特別な神経細胞様素子のグルー
プに記憶させる場合もある。しかし、このような構成に
おいてはニューラルネットワークを構成する神経細胞様
素子の機能が不均一となり、処理が複雑になると言う問
題がある。何れにおいても従来技術においては先に問題
として述べたように、処理の複雑化、データ量、及びデ
ータメモリーの増大、認識精度の低下をもたらす。

【００３０】本発明を構成する神経細胞様素子の動作を
詳細に説明すると、その内部状態値Ｘ、出力値Ｙのそれ
ぞれの時間変化において、現在の内部状態値をＸｃｕｒ
ｒ、更新された内部状態値をＸｎｅｘｔ、またその更新
動作時点での先に述べた外部入力値をＺｉ（ｉは０から
ｎであり、ｎはその神経細胞様素子への外部入力数）と
し、内部状態更新手段の動作を形式的に関数Ｇと表す
と、Ｘｎｅｘｔ＝Ｇ（Ｘｃｕｒｒ、Ｚ１、−−−、Ｚｉ、−
−−、Ｚｎ）と表現できる。この表現の具体的な形は様々のものが考
えられるが、例えば１階の微分方程式を用いた次の数２
のようなものも可能である。ここでτはある定数であ
る。

【００３１】

【数２】

【００３２】また、これをもう少し変形した形としては
以下の数３のような表現も可能である。

【００３３】

【数３】

【００３４】この中で、Ｗｉｊはｊ番目の神経細胞様素
子の出力を、ｉ番目の神経細胞様素子の入力へ結合する
結合強度を示す。またＤｉは外部入力値を示す。またθ
ｉはバイアス値を示す。このバイアス値は、固定された
値との結合として、Ｗｉｊの中に含めて考える事も可能
である。

【００３５】このようにして決定されたある瞬間の神経
細胞様素子の内部状態をＸとし、出力値生成手段の動作
を形式的に関数Ｆで表すと、神経細胞様素子の出力Ｙ
は、Ｙ＝Ｆ（Ｘ）と表現できる。Ｆの具体的な形としては以下の数４で示
されるような正負対称出力のシグモイド（ロジスティッ
ク）関数等が考えられる。

【００３６】

【数４】

【００３７】しかし、この関数型は必須のものではな
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。

【００３８】このような式に従い本発明におけるニュー
ラルネットワークの出力の時系列は図７に示したような
処理により計算される。図７においては簡略のため神経
細胞様素子を単にノードと記載している。

【００３９】このニューラルネットワークに所望の処理
をさせるためには、学習が必要である。この学習方法に
ついては、例えば次のような数５により導入される量Ｃ
を用いた学習則がある。

【００４０】

【数５】

【００４１】ここで、Ｃはある学習評価値であり、Ｅは
ある誤差評価値である。このような式に従い、Ｃは図８
に示したような処理により決定される。

【００４２】この誤差評価Ｅの具体的な形としては、実
際の出力値をＹ、所望の出力値をＴとすると以下の数６
で表されるKullback-leibler距離等が考えられる。

【００４３】

【数６】

【００４４】また、出力値の範囲が−１から１の間であ
る場合は、数６の式と実質的に同等であるが、以下の数
７のような表現をする。

【００４５】

【数７】

【００４６】これらを仮定すると、上の数５はより具体
的に以下の数８のように書ける。

【００４７】

【数８】

【００４８】これらを与える事により、先述べた種々の
外部入力の重み付けの係数の更新則は次の数９のように
与えられる。

【００４９】

【数９】

【００５０】本発明においては、従来例のＭＬＰ法にお
けるバックプロパゲーション学習とは異なり、ニューラ
ルネットワークを構成する全ての神経細胞様素子の内部
状態と出力値は、同時に更新される事が可能である。勿
論逐次的に更新されてもかまわない。また同様に、本発
明におけるニューラルネットワークの構成は、従来例の
ＭＬＰ法のように層状である必要はない。全結合型のニ
ューラルネットワーク、層状のニューラルネットワー
ク、またそれら以外のより一般的な構成のニューラルネ
ットワークも可能である。

【００５１】図３は話者認識のための話者特徴時系列デ
ータをどのような処理により抽出するかを模式的に示し
た図である。その概略を説明すると、まず音声入力手段
により入力された音声は、ＡＤ変換器等によりディジタ
ル化される。その後ディジタル化された入力から、フレ
ームと呼ばれる１部分が取り出され、その特徴が抽出さ
れ、一つの特徴ベクトルとなる。このような特徴ベクト
ルの時間的な連続が、入力話者の特徴時系列となる。

【００５２】図５は本発明の１実施例である話者認識方
法の構成の模式図である。図中の番号５０１は図３で説
明したような音声特徴抽出手段を、５０２は上で説明し
たようなニューラルネットワークを、５０４はニューラ
ルネットワークの入力を記憶する入力値記憶手段を、５
０３は記憶された入力と出力とを比較するデータ比較手
段をそれぞれ模式的に示す。

【００５３】この実施例において、ニューラルネットワ
ークは、あるフレームに対応する特徴ベクトルを入力と
し、その一つ前のフレームの特徴ベクトルを出力するよ
うに学習させた。ここで用いた話者特徴量は８次のＰＡ
ＲＣＯＲ係数である。話者特徴量としてはＰＡＲＣＯＲ
係数の他にも種々のものを使用する事が可能であるが、
ＰＡＲＣＯＲ係数においてはその値が原理的に−１から
１の間にある事、また、比較的に話者に依存する割合が
高い等の特徴があり、話者認識においてはより有効な特
徴量である。

【００５４】この実施例では、入力値記憶手段は、１フ
レーム前の入力データのみを記憶し、それを現フレーム
による出力データと比較する事により話者認識を行う事
ができる。つまり、音声特徴時系列は、発声のメカニズ
ムから容易に理解できる事であるが、発話、調音器官の
連続的な運動を反映したものである。そして、話者の個
人性はこれらの運動の特徴として現れるので、この特徴
時系列を処理する事により個人の認識を行う事ができ
る。この実施例ではその処理を、現データから１つ前の
データを復元する、と言う形で入力音声の個人性を評価
する事になる。この例でのニューラルネットワークの構
成としては、自己ループを含む非対称な完全結合型の構
成とした。しかし上でも述べたが、本発明を構成するニ
ューラルネットワークは、層状結合、完全結合等を特殊
例として含むランダムな構成をとる事が可能である。ま
た、入力素子、隠れ素子、出力素子のそれぞれの個数は
すべてとした。

【００５５】また、この実施例においては、ニューラル
ネットワークを訓練する標準データとして９つの単語、
「終点」「腕前」「拒絶」「超越」「とりあえず」「分
類」「ロッカー」「山脈」「隠れピューリタン」を用い
た。また音声データとしては、ＡＴＲ者の研究用日本語
音声データベースに収録されているものを用いた。

【００５６】また、以上の構成である本発明の方法によ
れば、従来例のＭＬＰ法の変形である「フィードバック
結合を持つＢＰモデル」型ニューラルネットワーク等に
見られた、学習を収束させるのが困難であり、また、そ
のための学習用出力を試行錯誤的に作成しなければなら
ない等の問題点は存在せず、本発明の話者認識方法のニ
ューラルネットワークは、極めて容易に数１００回から
数１０００回の学習で所望の出力を生成するようにでき
た。

【００５７】図９、図１０はそのようにして学習させた
ニューラルネットワークによる話者認識の結果の例であ
る。図中の実線は話者ＭＡＵの音声を認識させるために
学習させたニューラルネットワークの生成した出力によ
る誤差の時間変化を、また波線は話者ＭＸＭの音声を認
識させるために学習させたニューラルネットワークが生
成しった出力の誤差の時間変化を示したものである。こ
こで示した誤差は、８次の入力ベクトルデータ、及び出
力ベクトルとによりデータ比較手段により生成された誤
差ベクトルの長さの絶対値を、その時点でのフレームの
前後３２フレームについて平均した値を示したものであ
る。また図９の入力話者はＭＡＵであり、図１０入力話
者はＭＸＭである。

【００５８】図より明かであるように、図９の場合はＭ
ＡＵの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、ＭＸＭで訓練されたニューラル
ネットワークによる復元誤差の方が大きい。これはＭＡ
Ｕの発話特徴を用いたデータ復元の方が精度の良い復元
が可能である事を示し、つまり入力された音声がＭＡＵ
によるものである事を示している。

【００５９】また図１０の場合は図９の場合とは逆にＭ
ＸＭの声で訓練されたニューラルネットワークによるデ
ータ復元誤差が小さく、つまりこの入力された音声がＭ
ＸＭによるものである事を示している。

【００６０】上の図より明かであるように、本発明の話
者認識方法によれば、連続した話者認識結果を得る事が
できる。

【００６１】下の表１は上の例の二つのニューラルネッ
トワークに、訓練話者以外の９話者を含む合計１１人の
音声を入力した場合の誤差の平均値を示したものであ
る。入力は訓練に用いた９単語そのもであり、平均はそ
の全発話区間について行った。表より明かであるよう
に、それぞれのニューラルネットワークにおいて、１１
人の音声入力に対し訓練話者に対する誤差が一番小さ
く、１１人の中から正確に訓練話者認識している事が示
される。

【００６２】

【表１】

【００６３】また、下の表２は表１と同様の結果である
が、上の場合と異なり、訓練に用いいた単語音声とは内
容が異なる単語音声を入力した場合の結果である。ここ
で用いた単語は「カレンダー」「いらっしゃる」「極
端」「駐車」「プログラム」「録音」「購入」「タイピ
ュータ」である。

【００６４】

【表２】

【００６５】上の表より明かであるように、本発明の話
者認識方法は入力された音声の発話内容が異なっても正
確に訓練話者を認識している事が示される。

【００６６】また、上の説明は時間的に離散的な場合に
ついて説明をしてきたが、例えばアナログ的な処理を行
う事により連続時間処理においても適用可能である。

【００６７】（実施例２）図４は実施例１の変形とし
て、入力された音声特徴そのものを出力するように訓練
した例である。図中の番号４０１は音声特徴入力手段
を、４０２はニューラルネットワークを、４０３はデー
タ比較手段をそれぞれ模式的に示す。

【００６８】この例においても実施例１と同様の効果を
得る事ができる。

【００６９】（実施例３）図６は実施例１の変形とし
て、入力された音声特徴から、ｎステップ将来のフレー
ムの入力データを予測して出力するように訓練した例で
ある。図中の番号６０１は音声特徴入力手段を、６０２
はニューラルネットワークを、６０３はデータ比較手段
を、６０４は出力値記憶手段をそれぞれ模式的に示す。

【００７０】この例においても実施例１と同様の効果を
得る事ができる。

【００７１】（実施例４）図１１は上の実施例とは異な
り、入力された話者と訓練に用いた話者の類似度を直接
に出力するように学習させる例である。この場合の入力
は上の実施例と同様のものが可能であり、また学習用出
力としては、ある特定の話者の入力に対し、その話者に
対応付けられた特定の類似度出力素子が出力を出すよう
にすれば良い。この出力は任意の数である事が可能であ
る。

【００７２】（実施例５）図１２は上の実施例４と類似
したものである。この場合、実施例４の、ある特定の話
者の入力に対し、その話者に対応付けられた特定の類似
度出力素子が出力を出すと言う事に加えて、目的とする
話者以外の入力に対し、非類似度出力が出力を出すよう
に学習させる例である。この出力は上と同様に任意の数
である事が可能である。一般にこのような学習の結果得
られる非類似度出力は、類似度出力を単純に反転したも
のにはならず、それらを組み合わせたより高度な判断が
可能となる。

【００７３】

【発明の効果】以上述べてきたように、本発明の話者認
識方法によれば、１）、非常に少数の学習データで精度の高い話者認識が
可能である。

【００７４】２）、話者の発話特徴そのものを認識する
ために、話者認識処理の際のデータが訓練時のものと異
なっても話者認識がかのうである。

【００７５】３）、学習が極めて容易であり、そのため
の試行錯誤的な部分が非常に少ない。などの効果がある。

【００７６】また本発明の方法は話者認識のみではな
く、未知話者と既知話者との類似度の判定等に用いる事
ができる。また本発明の方法は音声のみではなく、広く
時系列情報一般の処理においても有効である。

【図面の簡単な説明】

【図１】本発明におけるニューラルネットワークを構成
する神経細胞様素子の機能の模式図である。

【図２】従来例のニューラルネットワークを構成する神
経細胞様素子の機能の模式図である。

【図３】音声特徴抽出手段の構成の模式図である。

【図４】本発明の話者認識方法の構成の１実施例の模式
図である。

【図５】本発明の話者認識方法の構成の１実施例の模式
図である。

【図６】本発明の話者認識方法の構成の１実施例の模式
図である。

【図７】本発明の話者認識方法におけるニューラルネッ
トワークの処理の流れの模式図である。

【図８】本発明の話者認識方法におけるニューラルネッ
トワークの学習の際お誤差評価の流れを示す模式図であ
る。

【図９】本発明の１実施例における話者認識の結果を示
す図である。

【図１０】本発明の１実施例における話者認識の結果を
示す図である。

【図１１】本発明の話者認識方法の構成の１実施例の模
式図である。

【図１２】本発明の話者認識方法の構成の１実施例の模
式図である。

【符号の説明】

１０１：内部状態値記憶手段１０２：内部状態値更新手段１０３：出力値生成手段１０４：神経細胞様素子２０１：内部状態値計算手段２０２：出力値生成手段２０３：神経細胞様素子４０１：音声特徴抽出手段４０２：ニューラルネットワーク４０３：データ比較手段５０１：音声特徴抽出手段５０２：ニューラルネットワーク５０３：データ比較手段５０４：入力値記憶手段６０１：音声特徴抽出手段６０２：ニューラルネットワーク６０３：データ比較手段６０４：出力値記憶手段１１０１：音声特徴抽出手段１１０２：ニューラルネットワーク１１０３：話者類似度出力１１１０４：話者類似度出力２１２０１：音声特徴抽出手段１２０２：ニューラルネットワーク１２０３：話者類似度・非類似度出力１１２０４：話者類似度・非類似度出力２

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いた話者認
識方法において、そのニューラルネットワークが、少な
くとも、内部状態値記憶手段、内部状態値と外部入力値
を入力により内部状態値を更新する内部状態値更新手
段、内部状態値を外部出力値へ変換する出力値生成手
段、を含む神経細胞様素子により構成されている事を特
徴とする話者認識方法。
【請求項２】前記神経細胞様素子の内部状態値更新手
段が、その神経細胞様素子の内部状態値Ｘ、及び、その
神経細胞様素子への入力Ｚｉ（ｉは０からｎ：ｎは自然
数）により、【数１】を満足する値へ内部状態値を更新する事を特徴とする請
求項１記載の話者認識方法。
【請求項３】前記話者認識方法が、入力値と出力値と
のデータを比較するデータ比較手段を有する事を特徴と
する請求項１及び請求項２のいずれかに記載の話者認識
方法。
【請求項４】前記話者認識方法が、ある時間Ｔだけ前
の入力値を記憶する入力値記憶手段と、その記憶された
入力値と現出力とのデータを比較するデータ比較手段を
有する事を特徴とする請求項１及び請求項２のいずれか
に記載の話者認識方法。
【請求項５】前記話者認識方法が、ある時間Ｔだけ前
の出力値を記憶する出力値記憶手段と、その記憶された
出力と現入力とのデータを比較するデータ比較手段を有
する事を特徴とする請求項１及び請求項２のいずれかに
記載の話者認識方法。
【請求項６】前記話者認識方法が、１人以上の認識対
象話者に対し、その各々に対応する類似度出力を有する
事を特徴とする請求項１及び請求項２のいずれかに記載
の話者認識方法。
【請求項７】前記話者認識方法が、１人以上の認識対
象話者に対し、その各々に対応する類似度出力、及び非
類似度出力を有する事を特徴とする請求項１及び請求項
２のいずれかに記載の話者認識方法。
【請求項８】前記入力Ｚｉが、少なくとも、ＰＡＲＣ
ＯＲ係数を含む事を特徴とする請求項１から請求項７の
いずれかに記載の話者認識方法。
【請求項９】前記出力値生成手段が、−１から１の間
の出力値を持つ出力関数である事を特徴とする請求項１
から請求項８のいずれかに記載の話者認識方法。
【請求項１０】前記入力Ｚｉが、少なくとも、その神
経細胞様素子自身の出力に重みを乗算した値を含む事を
特徴とする請求項１から請求項９のいずれかに記載の話
者認識方法。
【請求項１１】前記入力Ｚｉが、少なくとも、他の神
経細胞様素子の出力に重みを乗算した値を含む事を特徴
とする請求項１から請求項１０記載のいずれかに記載の
話者認識方法。
【請求項１２】前記入力Ｚｉが、少なくとも、外部か
ら与えられた所望のデータを含む事を特徴とする請求項
１から請求項１１のいずれかに記載の話者認識方法。