JP2000330590A

JP2000330590A - 話者照合方法および話者照合システム

Info

Publication number: JP2000330590A
Application number: JP11141172A
Authority: JP
Inventors: Shogo Nakamura; 尚五中村
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-05-21
Filing date: 1999-05-21
Publication date: 2000-11-30

Abstract

(57)【要約】【課題】時間領域で照合を行なう手法で、話者照合を
確実に行なうことが可能な話者照合方法および話者照合
システムを提供する。【解決手段】入力音声（サンプリングされた入力音
声）を帯域分割する帯域分割部１と、帯域分割された音
声信号のうち、所定帯域の音声信号を非線形圧縮する非
線形圧縮部２と、非線形圧縮された音声信号からベクト
ル列を構成するベクトル列化部３と、辞書ベクトル列を
辞書として作成する辞書作成部４と、被照合音声のベク
トル列と辞書作成部４の辞書ベクトル列とのパターンマ
ッチングを行ない、話者の照合（判定）を行なう話者判
定部５とを有している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者照合方法およ
び話者照合システムに関する。

【０００２】

【従来の技術】従来、話者照合の手法としては確率モデ
ルを用いるＨＭＭがよく知られているが、いまだ決定的
な方法は確立していない。特に、時間領域で照合を行な
う手法は、同一話者においても発声毎に変動する音声の
性質から非常に難しいものであった。

【０００３】

【発明が解決しようとする課題】本発明は、時間領域で
照合を行なう手法で、話者照合を確実に行なうことが可
能な話者照合方法および話者照合システムを提供するこ
とを目的としている。

【０００４】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換する非線
型圧縮工程と、非線型圧縮された音声信号からベクトル
列を構成するベクトル列化工程と、辞書に予め作成され
ている辞書ベクトル列と被照合音声のベクトル列とのパ
ターンマッチングを行ない、話者の照合，判定を行なう
照合判定工程とを有していることを特徴としている。

【０００５】また、請求項２記載の発明は、請求項１記
載の話者照合方法において、非線型圧縮工程では、サン
プリングされた入力音声のサンプル値を適当な個数で１
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。

【０００６】また、請求項３記載の発明は、請求項１ま
たは請求項２記載の話者照合方法において、ベクトル列
化工程では、グループを１つのベクトルに対応させるこ
とにより、音声信号をベクトル列として扱い、照合判定
工程では、同一話者の同一音声には類似な音声パターン
が含まれることから、該ベクトル列にも類似なベクトル
が多数含まれ、該類似なベクトルは相関値の高いベクト
ルであり、該相関値の高いベクトルが多数含まれるベク
トル列は類似な音声であると判断し、該判断を話者照合
の判定に使用することを特徴としている。

【０００７】また、請求項４記載の発明は、請求項１乃
至請求項３のいずれか一項に記載の話者照合方法におい
て、被照合音声のベクトル列を構成する場合、入力音声
を１ビットずつシフトさせ、それに対応したベクトル列
を作成し、１ビットずつシフトさせたベクトル列と辞書
ベクトル列とを順次照合することにより話者照合の判定
を行なうことを特徴としている。

【０００８】また、請求項５記載の発明は、サンプリン
グされた入力音声を帯域分割する帯域分割部と、帯域分
割された音声信号のうち、所定帯域の音声信号を非線形
圧縮する非線形圧縮部と、非線形圧縮された音声信号か
らベクトル列を構成するベクトル列化部と、辞書ベクト
ル列を辞書として作成する辞書作成部と、被照合音声の
ベクトル列と辞書作成部４によって作成されている辞書
ベクトル列とのパターンマッチングを行ない、話者の照
合，判定を行なう話者判定部とを有していることを特徴
としている。

【０００９】また、請求項６記載の発明は、請求項５記
載の話者照合システムにおいて、辞書作成部は、同一話
者が発声した個々の同一音声に対応するベクトル列の間
で、ベクトル毎の相関値を計算し、その値が所定の閾値
以上になるベクトルの総数を求めるという処理を、すべ
てのベクトル列に対して行ない、相関値が所定の閾値以
上の個数の総和が最大のベクトル列を、その音声の辞書
ベクトル列とし、辞書には、辞書作成部により作成され
た個々の話者の音声に基づく辞書ベクトル列が登録され
ることを特徴としている。

【００１０】また、請求項７記載の発明は、請求項５記
載の話者照合システムにおいて、非線型圧縮部は、サン
プリングされた入力音声のサンプル値を適当な個数で１
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。

【００１１】また、請求項８記載の発明は、請求項５記
載の話者照合システムにおいて、話者判定部は、被照合
音声のベクトル列と辞書に登録されている複数の話者に
それぞれ対応する各辞書ベクトル列とのベクトルごとの
相関値を算出し、相関値が所定の閾値以上のベクトルの
総数を求め、相関値が所定の閾値以上のベクトルの総数
が最大となる辞書ベクトル列に対応する話者を、被照合
音声の話者として判定することを特徴としている。

【００１２】また、請求項９記載の発明は、請求項５記
載の話者照合システムにおいて、被照合音声のベクトル
列を構成する場合、入力音声を１ビットずつシフトさ
せ、それに対応したベクトル列を作成し、１ビットずつ
シフトさせたベクトル列と辞書ベクトル列とを順次照合
することにより話者照合の判定を行なうことを特徴とし
ている。

【００１３】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る話者照合システ
ムの構成例を示す図である。図１を参照すると、この話
者照合システムは、入力音声（サンプリングされた入力
音声）を帯域分割する帯域分割部１と、帯域分割された
音声信号のうち、所定帯域の音声信号を非線形圧縮する
非線形圧縮部２と、非線形圧縮された音声信号からベク
トル列を構成するベクトル列化部３と、辞書ベクトル列
を辞書として作成する辞書作成部４と、被照合音声のベ
クトル列と辞書作成部４の辞書ベクトル列とのパターン
マッチングを行ない、話者の照合（判定）を行なう話者
判定部５とを有している。

【００１４】本発明において、非線形圧縮部２は、Ｍビ
ットで量子化された音声信号値を非線形に圧縮し、より
低いビット(ｍビット)の音声信号に変換することによ
り、同一話者による同一音声の場合、音声信号の振幅方
向への変動を抑え、類似性の高い時系列を構成するよう
にしている。

【００１５】ｍビットで構成されたｉ番目のｎ個の時系
列を１つのブロック(Ｂｉ)とすると、ブロック(Ｂｉ)は
次式(数１)のように表わすことができる。すなわち、ブ
ロック(Ｂｉ)はｎ個のｍビット信号で構成されることに
なる。

【００１６】

【数１】Ｂｉ＝｛ｍビット，ｍビット，・・・，ｍビット｝

【００１７】ここで、ブロック(Ｂｉ)を１つのベクトル
と考えると、変換されたデジタル音声信号はｎ次元のベ
クトル列とみなせる。すなわち、音声信号はｎ次元のベ
クトル列として表わすことができる。

【００１８】また、辞書作成部４においては、話者照合
に用いる辞書ベクトル列を上記のような方法で作成し、
辞書として予め格納しておく。そして、話者判定部５
は、被照合音声が入力された場合、同様な手続きでその
音声に対応するベクトル列を構成し、辞書に格納されて
いる複数の話者のそれぞれに対応した複数の辞書ベクト
ル列の中から最も類似したものを求めることで、話者照
合を行なうことができる。

【００１９】図１の話者照合システムでは、帯域分割部
１により、例えば、１６ｋＨｚでサンプリングされた音
声（入力音声）を８チャンネルに等分割し、最も低い周
波数帯域［０〜１ｋＨｚ］の成分と必要に応じて特徴的
な帯域成分とを利用して、話者照合を行なう。

【００２０】以下、図１の話者照合システムにおいて、
非線形圧縮部２における音声振幅圧縮の仕方、ベクトル
列化部３におけるベクトル列の構成の仕方、辞書作成部
４における辞書（辞書ベクトル列）の作成の仕方、話者
判定部５における話者照合，判定の仕方について、それ
ぞれ説明する。

【００２１】まず、非線形圧縮部２における処理動作に
ついて説明する。非線形圧縮部２では、例えば図２(ａ)
に示すようにＭビットで量子化された音声信号（入力音
声のサンプル値）を時間的に連続したｎ個毎にまとめ、
それを１つのブロック（グループ）とする。従って、１
ブロック（１グループ）はｎ個の連続したＭビットの音
声信号Ａｉにより構成されている。このように、Ｍビッ
トで量子化された音声信号（入力音声のサンプル値）を
ｎ個毎にまとめてブロック分けしたとき、非線形圧縮部
２は、１ブロック（１グループ）内のｎ個の信号（サン
プル値）の絶対値の最大値で、ブロック（１グループ）
内の全てのサンプル値（ｎ個のサンプル値）を正規化す
る。しかる後、非線形圧縮部２は、正規化されたｎ個の
サンプル値を、所定の非線形量子化関数により、図２
(ｂ)に示すように、ｎ個のｍビット信号列（低分解能の
信号列）に変換する。

【００２２】次式(数２)は、変換されたｎ個のｍビット
信号列Ｂｉを表わしている。

【００２３】

【数２】Ｂｉ＝｛ｂｉ１，ｂｉ２，・・・，ｂｉｎ｝＝
ｆ｛Ａｉ｝

【００２４】ここで、ｆは非線形量子化関数を表わす。

【００２５】このように、本発明では、非線形圧縮部２
において、サンプリングされた入力音声のサンプル値を
適当な個数で１つのグループとし、グループに含まれる
サンプル値の絶対値の最大値でグループ内のすべてのサ
ンプル値を正規化した後、非線形量子化関数で低分解能
の信号に変換することにより、音声信号の振幅方向への
変動を抑えるようにしている。

【００２６】次に、ベクトル列化部３における処理動作
について説明する。Ｍビットでサンプリングされた任意
の音声信号Ｓが長さＬであったとするとき、ブロックの
数ＢＮは次式(数３)に示されるようになる。

【００２７】

【数３】ＢＮ＝(Ｌ／ｎ)の整数部分＋１

【００２８】数３において、＋１は、音声信号Ｓの長さ
Ｌをｎごとに区分するときに端数が出た場合、０を付け
加えて１ブロックとするためである。図３はこの端数処
理を説明するための図である。図３のように、長さＬを
ｎごとに区分し、図３の例のように例えば５個のブロッ
クにしたいときに、１番最後の５番目のブロックでは端
数が生ずる。この場合、５番目の中途半端なブロックの
後ろ側に“０”を付加して(“０”で埋めて)、５個のブ
ロックにすることができる。このように、数３におい
て、＋１は、音声信号Ｓの長さＬをｎごとに区分すると
きに端数が出た場合、０を付け加えて１ブロックとする
ためである。ブロックの数がベクトルの個数であるか
ら、任意の音声信号ＳはＢＮ個のｎ次元ベクトル列で次
式（数４）に示すように表わされる。

【００２９】

【数４】Ｓ＝｛Ｂ₁，Ｂ₂，・・・，Ｂ_BN｝

【００３０】このように、ベクトル列化部３では、Ｍビ
ットでサンプリングされた任意の音声信号Ｓを数４のよ
うにベクトル列として構成するようにしている。

【００３１】また、辞書作成部４において、辞書データ
の作成は、同一話者が同一音声を数回発生し、個々の音
声に対応するベクトル列を作る。個々の音声に対応する
ベクトル列をＴ１，Ｔ２，・・・とすると、Ｔ１，Ｔ
２，・・・は次式のようになる。

【００３２】

【数５】Ｔ１＝｛Ｂ_1(T1)，Ｂ_2(T1)，・・・Ｂ_BN(T1)｝Ｔ２＝｛Ｂ_1(T2)，Ｂ_2(T2)，・・・Ｂ_BN(T2)｝・・・・

【００３３】一般的に、Ｔ１，Ｔ２，・・・の長さは異
なる。

【００３４】次に、異なる全てのベクトル列の間で、ベ
クトル毎の相関値を計算し、相関値が０．９以上になる
ベクトルの総数を求める。まず、Ｔ１のすべてのベクト
ルに対し、他のベクトル列のベクトルとの相関値を順に
調べ、相関値が０．９以上の個数の総和ＳＵＭ１を次式
のように求める。

【００３５】

【数６】ＳＵＭ１＝ＩＮＴ(＜Ｂ_1(T1)，Ｂ_2(T2)＞／０．９)＋ＩＮＴ(＜Ｂ_2(T1)，Ｂ_1(T2)＞／０．９)＋・・・・・・・・・・・・＋ＩＮＴ(＜Ｂ_1(T1)，Ｂ_2(T2)＞／０．９)＋ＩＮＴ(＜Ｂ_2(T1)，Ｂ_2(T2)＞／０．９)＋・・・・・・・・・・・・＋ＩＮＴ(＜Ｂ_BN(T1)，Ｂ_BN(T2)＞／０．９)＋・・・・・・・・・

【００３６】ここで、＜ｘ，ｙ＞はｘとｙの相関を表わ
し、＜＊＞は＊の整数を表わす。また、ＩＮＴ（＊）は
＊の整数を表わす。

【００３７】同様に、Ｔ２のすべてのベクトルに対し、
他のベクトル列のベクトルとの相関値を順に調べ、相関
値が０．９以上の個数の総和を求める。同様な操作をす
べてのベクトル列に対し行ない、相関値が０．９以上の
個数の総和が最大のベクトル列を、その話者の音声の辞
書ベクトル列とする。

【００３８】特に、低周波帯域においては、母音の定常
的な特徴が現れるため、同一話者の同一音声は相似的な
成分を含むため、上記のような正規化，非線形圧縮を受
けた音声信号は類似なパターンを有する。

【００３９】このように、辞書作成部４において、同一
話者が発声した個々の同一音声に対応するベクトル列の
間で（異なる全てのベクトル列の間で）、ベクトル毎の
相関値を計算し、その値が所定の閾値（上述の例では、
０．９）以上になるベクトルの総数を求めるという処理
を、すべてのベクトル列に対して行ない、相関値が所定
の閾値以上の個数の総和が最大のベクトル列を、その話
者の音声の辞書ベクトル列，すなわち辞書データとする
ようにしている。そして、辞書には、上述のようにして
作成された個々の(複数の)話者の音声に基づく辞書ベク
トル列が登録される。

【００４０】次に、話者判定部５における話者照合，判
定処理について説明する。話者照合，判定処理では、入
力音声Ｓ（被照合音声のベクトル列）と辞書に登録され
ている複数の話者にそれぞれ対応する各辞書ベクトル列
とのベクトルごとの相関値を、前述したと同様に算出
し、相関値が所定の閾値（例えば０．９）以上のベクト
ルの総数を求める処理を行ない、相関値が所定の閾値以
上のベクトルの総数が最大となる辞書ベクトル列に対応
する話者を、被照合音声の話者として判定するようにし
ている。これは、他の話者による上述のように求められ
た音声との相似性は低くなり、類似なパターンの出現は
低くなることによる。

【００４１】すなわち、本発明では、グループを１つの
ベクトルに対応させることにより、音声信号をベクトル
列として扱い、同一話者の同一音声には類似な音声パタ
ーンが含まれることから、該ベクトル列にも類似なベク
トルが多数含まれ、該類似なベクトルは相関値の高いベ
クトルであり、該相関値の高いベクトルが多数含まれる
ベクトル列は類似な音声であると判断し、該判断を話者
照合の判定に使用する。

【００４２】図４は単語“デジタル”の音声を６人の話
者が発声した場合、同一の話者の音声と他の５人の話者
の音声から求めた相関値が０．９以上の総数を示す図
（グラフ）である。なお、図４では、後述のように、被
照合音声を１ポイントずつシフトしてベクトル列を作成
し、それに対して相関を計算したため、図４のグラフの
横軸はシフト数を表わしている。このように被照合音声
を１ポイントずつシフトする理由は、被照合音声が一般
に、辞書データとは非同期であることに基づく問題を回
避するためである。

【００４３】以下に、この非同期の問題と面倒な音声切
り出しの問題を緩和するために行なわれている被照合音
声のシフトの操作について、図５のフローチャートを用
いて説明する。まず、シフト回数Ｎを“１”に初期設定
した後、被照合音声（のベクトル列）Ｓと辞書ベクトル
列との相関値が０．９以上の個数を求める(ステップＳ
２)。次に、被照合音声Ｓを１サンプルシフトし(ステッ
プＳ３)、ステップＳ２に戻り、被照合音声（のベクト
ル列）Ｓと辞書ベクトル列との相関値が０．９以上の個
数を求める。このようにして、ステップＳ２，Ｓ３の処
理をｎサンプルのシフトが完了するまでｎ回繰り返す
(ステップＳ４，Ｓ５)。そして、各帯域成分の総和が所
定閾値を越えたところを音声の開始時点とする(ステッ
プＳ６)。一方、ステップＳ６で求めた総和に対し、各
帯域成分が予め設定した値以下の場合には、その帯域部
分には音声成分がないと判断する。

【００４４】このように、音声のベクトル列を構成する
場合、入力音声を１ビットずつシフトさせ、それに対応
したベクトル列を作成することにより話者照合の精度を
高めることが可能となる。

【００４５】図６乃至図１０は具体的な処理例を示す図
である。

【００４６】先ず、図６を参照すると、元の音声信号は
１６ｋＨｚのサンプリングで８ビットに量子化された音
声信号であり、帯域分割部１では、この音声信号（１６
ｋＨｚサンプリングの８ビットデータ）を１ｋＨｚ以下
に帯域制限し、非線形量子化関数により２ｋＨｚサンプ
リングの４ビットデータに変換する。

【００４７】次に、図７に示すように、２ｋＨｚサンプ
リングの４ビットデータ列を２０サンプルで１ブロック
構成とする。すなわち、つまり２０次元のベクトル列を
構成する。２０ポイントで１ブロックとするので、ブロ
ック，すなわちベクトルがｎ個の音声は２０ｎポイント
の音声信号ということになる。

【００４８】図８乃至図１０は話者照合のためにどのよ
うなパターンマッチングを行なうかを説明するための図
である。図８は辞書に登録されている複数の話者（ｎ人
の話者）の音声の辞書ベクトル列｛１Ｂ，２Ｂ，３Ｂ，
・・・，ｎＢ｝を示す図であり、１つの辞書ベクトル列
（１つのブロック），例えば１Ｂは、１０ｍ秒の時間長
さを有し、｛１Ｂ１，１Ｂ２，・・・，１Ｂ２０｝の２
０ポイントを含んでいるとする。

【００４９】また、図９，図１０は被照合音声｛１Ａ，
２Ａ，３Ａ，・・・ｊＡ｝と辞書ベクトル列｛１Ｂ，２
Ｂ，３Ｂ，・・・，ｎＢ｝のパターンマッチングの仕方
を示す図である。図９を参照すると、先ず、被照合音声
の１番目のベクトル１Ａと辞書ベクトル列のすべてのベ
クトル｛１Ｂ，２Ｂ，３Ｂ，・・・，ｎＢ｝との相関を
取り、その相関値が０．９以上の個数を求める。図９の
例では、被照合音声の１番目のベクトル１Ａと辞書ベク
トル列のすべてのベクトル｛１Ｂ，２Ｂ，３Ｂ，・・
・，ｎＢ｝との相関を取り、その相関値が０．９以上の
個数が４個であることを示している。同様にして、被照
合音声の２番目のベクトル２Ａと辞書ベクトル列のすべ
てのベクトル｛１Ｂ，２Ｂ，３Ｂ，・・・，ｎＢ｝との
相関を取り、その相関値が０．９以上の個数を求める
と、相関値が０．９以上の個数は１個である。このよう
な処理を、被照合音声の最後のベクトルｊＡまで順次に
行ない、被照合音声の１番目のベクトル１Ａから最後の
ベクトルｊＡまで、上記のようにして得られた相関値
０．９以上の個数の総和を求める。図９では、この総和
Ｓ１がＳ１＝１２として示されている。

【００５０】ところで、被照合音声から得られるベクト
ル列は辞書ベクトル列とは非同期である。そこで、元の
音声｛１Ａ，２Ａ，３Ａ，・・・，ｊＡ｝を１ポイント
シフトさせて新たなベクトル列を図１０に示すように作
り直し、上述したと同様にして（図９に示したようにし
て）、相関値が０．９以上のベクトル（ブロック）の個
数の総和を求める。このように、１ポイントシフトさせ
た場合の総和をＳ２、１９ポイントシフトさせた場合の
総和をＳ２０とする。

【００５１】図４は単語“デジタル”の音声に対して、
総和Ｓ１〜Ｓ２０をプロットした例であり、図４から明
らかなように、同一話者の相関値が０．９以上の個数
が、他の話者の相関値が０．９以上の個数と比べて高い
値を示している。この結果を利用し、次式（数７）を計
算する。

【００５２】

【数７】

【００５３】ここで、Ｓ(ｈ)_iは、ｈ番目の辞書に対し
て、ｉ−１ポイントシフトして求めた相関値０．９以上
の個数であり、Ｔｈは予め定めた閾値である。数７を計
算し、Ｄ_Sが最大となるｈ番目の辞書ベクトル列に対応
する話者が照合結果として得られる。

【００５４】なお、被照合音声が辞書音声に比べて長い
時系列の場合、相関値が０．９以上のベクトルの総数が
多くなる可能性がある。そこで、被照合音声は辞書音声
の長さで打ち切ることにする。

【００５５】

【発明の効果】以上に説明したように、請求項１乃至請
求項７記載の発明によれば、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換し、非線
型圧縮された音声信号からベクトル列を構成し、辞書に
予め作成されている辞書ベクトル列と被照合音声のベク
トル列とのパターンマッチングを行ない、話者の照合，
判定を行なうので、時間領域で照合を行なう手法で、話
者照合を確実に行なうことができる。

【００５６】特に、請求項２，請求項７記載の発明によ
れば、サンプリングされた入力音声のサンプル値を適当
な個数で１つのグループとし、グループに含まれるサン
プル値の絶対値の最大値でグループ内のすべてのサンプ
ル値を正規化した後、正規化したサンプル値を非線形量
子化関数で低分解能の信号に変換するので、音声信号の
振幅方向への変動を抑えることができる。

【００５７】また、請求項４，請求項９記載の発明によ
れば、被照合音声のベクトル列を構成する場合、入力音
声を１ビットずつシフトさせ、それに対応したベクトル
列を作成し、１ビットずつシフトさせたベクトル列と話
者ベクトル列とを順次照合することにより話者照合の判
定を行なうので、話者照合の精度を高めることができ
る。

【図面の簡単な説明】

【図１】本発明に係る話者照合システムの構成例を示す
図である。

【図２】非線形圧縮部における処理動作を説明するため
の図である。

【図３】端数処理を説明するための図である。

【図４】単語“デジタル”の音声を５人の話者が発声し
た場合、同一の話者の音声と他の話者の音声から求めた
相関値が０．９以上の総数を示す図である。

【図５】被照合音声のシフトの操作を説明するためのフ
ローチャートである。

【図６】本発明の話者照合方法の具体的な処理例を示す
図である。

【図７】本発明の話者照合方法の具体的な処理例を示す
図である。

【図８】話者照合のためにどのようなパターンマッチン
グを行なうかを説明するための図である。

【図９】話者照合のためにどのようなパターンマッチン
グを行なうかを説明するための図である。

【図１０】話者照合のためにどのようなパターンマッチ
ングを行なうかを説明するための図である。

【符号の説明】

１帯域分割部２非線型圧縮部３ベクトル列化部４辞書作成部５話者判定部

Claims

【特許請求の範囲】

【請求項１】サンプリングされた入力音声を非線形圧
縮して低分解能の音声信号に変換する非線型圧縮工程
と、非線型圧縮された音声信号からベクトル列を構成す
るベクトル列化工程と、辞書に予め作成されている辞書
ベクトル列と被照合音声のベクトル列とのパターンマッ
チングを行ない、話者の照合，判定を行なう照合判定工
程とを有していることを特徴とする話者照合方法。
【請求項２】請求項１記載の話者照合方法において、
前記非線型圧縮工程では、サンプリングされた入力音声
のサンプル値を適当な個数で１つのグループとし、グル
ープに含まれるサンプル値の絶対値の最大値でグループ
内のすべてのサンプル値を正規化した後、正規化したサ
ンプル値を非線形量子化関数で低分解能の音声信号に変
換することを特徴とする話者照合方法。
【請求項３】請求項１または請求項２記載の話者照合
方法において、ベクトル列化工程では、前記グループを
１つのベクトルに対応させることにより、音声信号をベ
クトル列として扱い、前記照合判定工程では、同一話者
の同一音声には類似な音声パターンが含まれることか
ら、該ベクトル列にも類似なベクトルが多数含まれ、該
類似なベクトルは相関値の高いベクトルであり、該相関
値の高いベクトルが多数含まれるベクトル列は類似な音
声であると判断し、該判断を話者照合の判定に使用する
ことを特徴とする話者照合方法。
【請求項４】請求項１乃至請求項３のいずれか一項に
記載の話者照合方法において、被照合音声のベクトル列
を構成する場合、入力音声を１ビットずつシフトさせ、
それに対応したベクトル列を作成し、１ビットずつシフ
トさせたベクトル列と辞書ベクトル列とを順次照合する
ことにより話者照合の判定を行なうことを特徴とする話
者照合方法。
【請求項５】サンプリングされた入力音声を帯域分割
する帯域分割部と、帯域分割された音声信号のうち、所
定帯域の音声信号を非線形圧縮する非線形圧縮部と、非
線形圧縮された音声信号からベクトル列を構成するベク
トル列化部と、辞書ベクトル列を辞書として作成する辞
書作成部と、被照合音声のベクトル列と辞書作成部４に
よって作成されている辞書ベクトル列とのパターンマッ
チングを行ない、話者の照合，判定を行なう話者判定部
とを有していることを特徴とする話者照合システム。
【請求項６】請求項５記載の話者照合システムにおい
て、前記辞書作成部は、同一話者が発声した個々の同一
音声に対応するベクトル列の間で、ベクトル毎の相関値
を計算し、その値が所定の閾値以上になるベクトルの総
数を求めるという処理を、すべてのベクトル列に対して
行ない、相関値が所定の閾値以上の個数の総和が最大の
ベクトル列を、その音声の辞書ベクトル列とし、辞書に
は、辞書作成部により作成された個々の話者の音声に基
づく辞書ベクトル列が登録されることを特徴とする話者
照合システム。
【請求項７】請求項５記載の話者照合システムにおい
て、前記非線型圧縮部は、サンプリングされた入力音声
のサンプル値を適当な個数で１つのグループとし、グル
ープに含まれるサンプル値の絶対値の最大値でグループ
内のすべてのサンプル値を正規化した後、正規化したサ
ンプル値を非線形量子化関数で低分解能の音声信号に変
換することを特徴とする話者照合システム。
【請求項８】請求項５記載の話者照合システムにおい
て、話者判定部は、被照合音声のベクトル列と辞書に登
録されている複数の話者にそれぞれ対応する各辞書ベク
トル列とのベクトルごとの相関値を算出し、相関値が所
定の閾値以上のベクトルの総数を求め、相関値が所定の
閾値以上のベクトルの総数が最大となる辞書ベクトル列
に対応する話者を、被照合音声の話者として判定するこ
とを特徴とする話者照合システム。
【請求項９】請求項５記載の話者照合システムにおい
て、被照合音声のベクトル列を構成する場合、入力音声
を１ビットずつシフトさせ、それに対応したベクトル列
を作成し、１ビットずつシフトさせたベクトル列と辞書
ベクトル列とを順次照合することにより話者照合の判定
を行なうことを特徴とする話者照合システム。