JP2000330590A - 話者照合方法および話者照合システム - Google Patents
話者照合方法および話者照合システムInfo
- Publication number
- JP2000330590A JP2000330590A JP11141172A JP14117299A JP2000330590A JP 2000330590 A JP2000330590 A JP 2000330590A JP 11141172 A JP11141172 A JP 11141172A JP 14117299 A JP14117299 A JP 14117299A JP 2000330590 A JP2000330590 A JP 2000330590A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- vector
- vector sequence
- dictionary
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 時間領域で照合を行なう手法で、話者照合を
確実に行なうことが可能な話者照合方法および話者照合
システムを提供する。 【解決手段】 入力音声(サンプリングされた入力音
声)を帯域分割する帯域分割部1と、帯域分割された音
声信号のうち、所定帯域の音声信号を非線形圧縮する非
線形圧縮部2と、非線形圧縮された音声信号からベクト
ル列を構成するベクトル列化部3と、辞書ベクトル列を
辞書として作成する辞書作成部4と、被照合音声のベク
トル列と辞書作成部4の辞書ベクトル列とのパターンマ
ッチングを行ない、話者の照合(判定)を行なう話者判
定部5とを有している。
確実に行なうことが可能な話者照合方法および話者照合
システムを提供する。 【解決手段】 入力音声(サンプリングされた入力音
声)を帯域分割する帯域分割部1と、帯域分割された音
声信号のうち、所定帯域の音声信号を非線形圧縮する非
線形圧縮部2と、非線形圧縮された音声信号からベクト
ル列を構成するベクトル列化部3と、辞書ベクトル列を
辞書として作成する辞書作成部4と、被照合音声のベク
トル列と辞書作成部4の辞書ベクトル列とのパターンマ
ッチングを行ない、話者の照合(判定)を行なう話者判
定部5とを有している。
Description
【0001】
【発明の属する技術分野】本発明は、話者照合方法およ
び話者照合システムに関する。
び話者照合システムに関する。
【0002】
【従来の技術】従来、話者照合の手法としては確率モデ
ルを用いるHMMがよく知られているが、いまだ決定的
な方法は確立していない。特に、時間領域で照合を行な
う手法は、同一話者においても発声毎に変動する音声の
性質から非常に難しいものであった。
ルを用いるHMMがよく知られているが、いまだ決定的
な方法は確立していない。特に、時間領域で照合を行な
う手法は、同一話者においても発声毎に変動する音声の
性質から非常に難しいものであった。
【0003】
【発明が解決しようとする課題】本発明は、時間領域で
照合を行なう手法で、話者照合を確実に行なうことが可
能な話者照合方法および話者照合システムを提供するこ
とを目的としている。
照合を行なう手法で、話者照合を確実に行なうことが可
能な話者照合方法および話者照合システムを提供するこ
とを目的としている。
【0004】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換する非線
型圧縮工程と、非線型圧縮された音声信号からベクトル
列を構成するベクトル列化工程と、辞書に予め作成され
ている辞書ベクトル列と被照合音声のベクトル列とのパ
ターンマッチングを行ない、話者の照合,判定を行なう
照合判定工程とを有していることを特徴としている。
に、請求項1記載の発明は、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換する非線
型圧縮工程と、非線型圧縮された音声信号からベクトル
列を構成するベクトル列化工程と、辞書に予め作成され
ている辞書ベクトル列と被照合音声のベクトル列とのパ
ターンマッチングを行ない、話者の照合,判定を行なう
照合判定工程とを有していることを特徴としている。
【0005】また、請求項2記載の発明は、請求項1記
載の話者照合方法において、非線型圧縮工程では、サン
プリングされた入力音声のサンプル値を適当な個数で1
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。
載の話者照合方法において、非線型圧縮工程では、サン
プリングされた入力音声のサンプル値を適当な個数で1
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。
【0006】また、請求項3記載の発明は、請求項1ま
たは請求項2記載の話者照合方法において、ベクトル列
化工程では、グループを1つのベクトルに対応させるこ
とにより、音声信号をベクトル列として扱い、照合判定
工程では、同一話者の同一音声には類似な音声パターン
が含まれることから、該ベクトル列にも類似なベクトル
が多数含まれ、該類似なベクトルは相関値の高いベクト
ルであり、該相関値の高いベクトルが多数含まれるベク
トル列は類似な音声であると判断し、該判断を話者照合
の判定に使用することを特徴としている。
たは請求項2記載の話者照合方法において、ベクトル列
化工程では、グループを1つのベクトルに対応させるこ
とにより、音声信号をベクトル列として扱い、照合判定
工程では、同一話者の同一音声には類似な音声パターン
が含まれることから、該ベクトル列にも類似なベクトル
が多数含まれ、該類似なベクトルは相関値の高いベクト
ルであり、該相関値の高いベクトルが多数含まれるベク
トル列は類似な音声であると判断し、該判断を話者照合
の判定に使用することを特徴としている。
【0007】また、請求項4記載の発明は、請求項1乃
至請求項3のいずれか一項に記載の話者照合方法におい
て、被照合音声のベクトル列を構成する場合、入力音声
を1ビットずつシフトさせ、それに対応したベクトル列
を作成し、1ビットずつシフトさせたベクトル列と辞書
ベクトル列とを順次照合することにより話者照合の判定
を行なうことを特徴としている。
至請求項3のいずれか一項に記載の話者照合方法におい
て、被照合音声のベクトル列を構成する場合、入力音声
を1ビットずつシフトさせ、それに対応したベクトル列
を作成し、1ビットずつシフトさせたベクトル列と辞書
ベクトル列とを順次照合することにより話者照合の判定
を行なうことを特徴としている。
【0008】また、請求項5記載の発明は、サンプリン
グされた入力音声を帯域分割する帯域分割部と、帯域分
割された音声信号のうち、所定帯域の音声信号を非線形
圧縮する非線形圧縮部と、非線形圧縮された音声信号か
らベクトル列を構成するベクトル列化部と、辞書ベクト
ル列を辞書として作成する辞書作成部と、被照合音声の
ベクトル列と辞書作成部4によって作成されている辞書
ベクトル列とのパターンマッチングを行ない、話者の照
合,判定を行なう話者判定部とを有していることを特徴
としている。
グされた入力音声を帯域分割する帯域分割部と、帯域分
割された音声信号のうち、所定帯域の音声信号を非線形
圧縮する非線形圧縮部と、非線形圧縮された音声信号か
らベクトル列を構成するベクトル列化部と、辞書ベクト
ル列を辞書として作成する辞書作成部と、被照合音声の
ベクトル列と辞書作成部4によって作成されている辞書
ベクトル列とのパターンマッチングを行ない、話者の照
合,判定を行なう話者判定部とを有していることを特徴
としている。
【0009】また、請求項6記載の発明は、請求項5記
載の話者照合システムにおいて、辞書作成部は、同一話
者が発声した個々の同一音声に対応するベクトル列の間
で、ベクトル毎の相関値を計算し、その値が所定の閾値
以上になるベクトルの総数を求めるという処理を、すべ
てのベクトル列に対して行ない、相関値が所定の閾値以
上の個数の総和が最大のベクトル列を、その音声の辞書
ベクトル列とし、辞書には、辞書作成部により作成され
た個々の話者の音声に基づく辞書ベクトル列が登録され
ることを特徴としている。
載の話者照合システムにおいて、辞書作成部は、同一話
者が発声した個々の同一音声に対応するベクトル列の間
で、ベクトル毎の相関値を計算し、その値が所定の閾値
以上になるベクトルの総数を求めるという処理を、すべ
てのベクトル列に対して行ない、相関値が所定の閾値以
上の個数の総和が最大のベクトル列を、その音声の辞書
ベクトル列とし、辞書には、辞書作成部により作成され
た個々の話者の音声に基づく辞書ベクトル列が登録され
ることを特徴としている。
【0010】また、請求項7記載の発明は、請求項5記
載の話者照合システムにおいて、非線型圧縮部は、サン
プリングされた入力音声のサンプル値を適当な個数で1
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。
載の話者照合システムにおいて、非線型圧縮部は、サン
プリングされた入力音声のサンプル値を適当な個数で1
つのグループとし、グループに含まれるサンプル値の絶
対値の最大値でグループ内のすべてのサンプル値を正規
化した後、正規化したサンプル値を非線形量子化関数で
低分解能の音声信号に変換することを特徴としている。
【0011】また、請求項8記載の発明は、請求項5記
載の話者照合システムにおいて、話者判定部は、被照合
音声のベクトル列と辞書に登録されている複数の話者に
それぞれ対応する各辞書ベクトル列とのベクトルごとの
相関値を算出し、相関値が所定の閾値以上のベクトルの
総数を求め、相関値が所定の閾値以上のベクトルの総数
が最大となる辞書ベクトル列に対応する話者を、被照合
音声の話者として判定することを特徴としている。
載の話者照合システムにおいて、話者判定部は、被照合
音声のベクトル列と辞書に登録されている複数の話者に
それぞれ対応する各辞書ベクトル列とのベクトルごとの
相関値を算出し、相関値が所定の閾値以上のベクトルの
総数を求め、相関値が所定の閾値以上のベクトルの総数
が最大となる辞書ベクトル列に対応する話者を、被照合
音声の話者として判定することを特徴としている。
【0012】また、請求項9記載の発明は、請求項5記
載の話者照合システムにおいて、被照合音声のベクトル
列を構成する場合、入力音声を1ビットずつシフトさ
せ、それに対応したベクトル列を作成し、1ビットずつ
シフトさせたベクトル列と辞書ベクトル列とを順次照合
することにより話者照合の判定を行なうことを特徴とし
ている。
載の話者照合システムにおいて、被照合音声のベクトル
列を構成する場合、入力音声を1ビットずつシフトさ
せ、それに対応したベクトル列を作成し、1ビットずつ
シフトさせたベクトル列と辞書ベクトル列とを順次照合
することにより話者照合の判定を行なうことを特徴とし
ている。
【0013】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る話者照合システ
ムの構成例を示す図である。図1を参照すると、この話
者照合システムは、入力音声(サンプリングされた入力
音声)を帯域分割する帯域分割部1と、帯域分割された
音声信号のうち、所定帯域の音声信号を非線形圧縮する
非線形圧縮部2と、非線形圧縮された音声信号からベク
トル列を構成するベクトル列化部3と、辞書ベクトル列
を辞書として作成する辞書作成部4と、被照合音声のベ
クトル列と辞書作成部4の辞書ベクトル列とのパターン
マッチングを行ない、話者の照合(判定)を行なう話者
判定部5とを有している。
基づいて説明する。図1は本発明に係る話者照合システ
ムの構成例を示す図である。図1を参照すると、この話
者照合システムは、入力音声(サンプリングされた入力
音声)を帯域分割する帯域分割部1と、帯域分割された
音声信号のうち、所定帯域の音声信号を非線形圧縮する
非線形圧縮部2と、非線形圧縮された音声信号からベク
トル列を構成するベクトル列化部3と、辞書ベクトル列
を辞書として作成する辞書作成部4と、被照合音声のベ
クトル列と辞書作成部4の辞書ベクトル列とのパターン
マッチングを行ない、話者の照合(判定)を行なう話者
判定部5とを有している。
【0014】本発明において、非線形圧縮部2は、Mビ
ットで量子化された音声信号値を非線形に圧縮し、より
低いビット(mビット)の音声信号に変換することによ
り、同一話者による同一音声の場合、音声信号の振幅方
向への変動を抑え、類似性の高い時系列を構成するよう
にしている。
ットで量子化された音声信号値を非線形に圧縮し、より
低いビット(mビット)の音声信号に変換することによ
り、同一話者による同一音声の場合、音声信号の振幅方
向への変動を抑え、類似性の高い時系列を構成するよう
にしている。
【0015】mビットで構成されたi番目のn個の時系
列を1つのブロック(Bi)とすると、ブロック(Bi)は
次式(数1)のように表わすことができる。すなわち、ブ
ロック(Bi)はn個のmビット信号で構成されることに
なる。
列を1つのブロック(Bi)とすると、ブロック(Bi)は
次式(数1)のように表わすことができる。すなわち、ブ
ロック(Bi)はn個のmビット信号で構成されることに
なる。
【0016】
【数1】 Bi={mビット,mビット,・・・,mビット}
【0017】ここで、ブロック(Bi)を1つのベクトル
と考えると、変換されたデジタル音声信号はn次元のベ
クトル列とみなせる。すなわち、音声信号はn次元のベ
クトル列として表わすことができる。
と考えると、変換されたデジタル音声信号はn次元のベ
クトル列とみなせる。すなわち、音声信号はn次元のベ
クトル列として表わすことができる。
【0018】また、辞書作成部4においては、話者照合
に用いる辞書ベクトル列を上記のような方法で作成し、
辞書として予め格納しておく。そして、話者判定部5
は、被照合音声が入力された場合、同様な手続きでその
音声に対応するベクトル列を構成し、辞書に格納されて
いる複数の話者のそれぞれに対応した複数の辞書ベクト
ル列の中から最も類似したものを求めることで、話者照
合を行なうことができる。
に用いる辞書ベクトル列を上記のような方法で作成し、
辞書として予め格納しておく。そして、話者判定部5
は、被照合音声が入力された場合、同様な手続きでその
音声に対応するベクトル列を構成し、辞書に格納されて
いる複数の話者のそれぞれに対応した複数の辞書ベクト
ル列の中から最も類似したものを求めることで、話者照
合を行なうことができる。
【0019】図1の話者照合システムでは、帯域分割部
1により、例えば、16kHzでサンプリングされた音
声(入力音声)を8チャンネルに等分割し、最も低い周
波数帯域[0〜1kHz]の成分と必要に応じて特徴的
な帯域成分とを利用して、話者照合を行なう。
1により、例えば、16kHzでサンプリングされた音
声(入力音声)を8チャンネルに等分割し、最も低い周
波数帯域[0〜1kHz]の成分と必要に応じて特徴的
な帯域成分とを利用して、話者照合を行なう。
【0020】以下、図1の話者照合システムにおいて、
非線形圧縮部2における音声振幅圧縮の仕方、ベクトル
列化部3におけるベクトル列の構成の仕方、辞書作成部
4における辞書(辞書ベクトル列)の作成の仕方、話者
判定部5における話者照合,判定の仕方について、それ
ぞれ説明する。
非線形圧縮部2における音声振幅圧縮の仕方、ベクトル
列化部3におけるベクトル列の構成の仕方、辞書作成部
4における辞書(辞書ベクトル列)の作成の仕方、話者
判定部5における話者照合,判定の仕方について、それ
ぞれ説明する。
【0021】まず、非線形圧縮部2における処理動作に
ついて説明する。非線形圧縮部2では、例えば図2(a)
に示すようにMビットで量子化された音声信号(入力音
声のサンプル値)を時間的に連続したn個毎にまとめ、
それを1つのブロック(グループ)とする。従って、1
ブロック(1グループ)はn個の連続したMビットの音
声信号Aiにより構成されている。このように、Mビッ
トで量子化された音声信号(入力音声のサンプル値)を
n個毎にまとめてブロック分けしたとき、非線形圧縮部
2は、1ブロック(1グループ)内のn個の信号(サン
プル値)の絶対値の最大値で、ブロック(1グループ)
内の全てのサンプル値(n個のサンプル値)を正規化す
る。しかる後、非線形圧縮部2は、正規化されたn個の
サンプル値を、所定の非線形量子化関数により、図2
(b)に示すように、n個のmビット信号列(低分解能の
信号列)に変換する。
ついて説明する。非線形圧縮部2では、例えば図2(a)
に示すようにMビットで量子化された音声信号(入力音
声のサンプル値)を時間的に連続したn個毎にまとめ、
それを1つのブロック(グループ)とする。従って、1
ブロック(1グループ)はn個の連続したMビットの音
声信号Aiにより構成されている。このように、Mビッ
トで量子化された音声信号(入力音声のサンプル値)を
n個毎にまとめてブロック分けしたとき、非線形圧縮部
2は、1ブロック(1グループ)内のn個の信号(サン
プル値)の絶対値の最大値で、ブロック(1グループ)
内の全てのサンプル値(n個のサンプル値)を正規化す
る。しかる後、非線形圧縮部2は、正規化されたn個の
サンプル値を、所定の非線形量子化関数により、図2
(b)に示すように、n個のmビット信号列(低分解能の
信号列)に変換する。
【0022】次式(数2)は、変換されたn個のmビット
信号列Biを表わしている。
信号列Biを表わしている。
【0023】
【数2】Bi={bi1,bi2,・・・,bin}=
f{Ai}
f{Ai}
【0024】ここで、fは非線形量子化関数を表わす。
【0025】このように、本発明では、非線形圧縮部2
において、サンプリングされた入力音声のサンプル値を
適当な個数で1つのグループとし、グループに含まれる
サンプル値の絶対値の最大値でグループ内のすべてのサ
ンプル値を正規化した後、非線形量子化関数で低分解能
の信号に変換することにより、音声信号の振幅方向への
変動を抑えるようにしている。
において、サンプリングされた入力音声のサンプル値を
適当な個数で1つのグループとし、グループに含まれる
サンプル値の絶対値の最大値でグループ内のすべてのサ
ンプル値を正規化した後、非線形量子化関数で低分解能
の信号に変換することにより、音声信号の振幅方向への
変動を抑えるようにしている。
【0026】次に、ベクトル列化部3における処理動作
について説明する。Mビットでサンプリングされた任意
の音声信号Sが長さLであったとするとき、ブロックの
数BNは次式(数3)に示されるようになる。
について説明する。Mビットでサンプリングされた任意
の音声信号Sが長さLであったとするとき、ブロックの
数BNは次式(数3)に示されるようになる。
【0027】
【数3】BN=(L/n)の整数部分+1
【0028】数3において、+1は、音声信号Sの長さ
Lをnごとに区分するときに端数が出た場合、0を付け
加えて1ブロックとするためである。図3はこの端数処
理を説明するための図である。図3のように、長さLを
nごとに区分し、図3の例のように例えば5個のブロッ
クにしたいときに、1番最後の5番目のブロックでは端
数が生ずる。この場合、5番目の中途半端なブロックの
後ろ側に“0”を付加して(“0”で埋めて)、5個のブ
ロックにすることができる。このように、数3におい
て、+1は、音声信号Sの長さLをnごとに区分すると
きに端数が出た場合、0を付け加えて1ブロックとする
ためである。ブロックの数がベクトルの個数であるか
ら、任意の音声信号SはBN個のn次元ベクトル列で次
式(数4)に示すように表わされる。
Lをnごとに区分するときに端数が出た場合、0を付け
加えて1ブロックとするためである。図3はこの端数処
理を説明するための図である。図3のように、長さLを
nごとに区分し、図3の例のように例えば5個のブロッ
クにしたいときに、1番最後の5番目のブロックでは端
数が生ずる。この場合、5番目の中途半端なブロックの
後ろ側に“0”を付加して(“0”で埋めて)、5個のブ
ロックにすることができる。このように、数3におい
て、+1は、音声信号Sの長さLをnごとに区分すると
きに端数が出た場合、0を付け加えて1ブロックとする
ためである。ブロックの数がベクトルの個数であるか
ら、任意の音声信号SはBN個のn次元ベクトル列で次
式(数4)に示すように表わされる。
【0029】
【数4】S={B1,B2,・・・,BBN}
【0030】このように、ベクトル列化部3では、Mビ
ットでサンプリングされた任意の音声信号Sを数4のよ
うにベクトル列として構成するようにしている。
ットでサンプリングされた任意の音声信号Sを数4のよ
うにベクトル列として構成するようにしている。
【0031】また、辞書作成部4において、辞書データ
の作成は、同一話者が同一音声を数回発生し、個々の音
声に対応するベクトル列を作る。個々の音声に対応する
ベクトル列をT1,T2,・・・とすると、T1,T
2,・・・は次式のようになる。
の作成は、同一話者が同一音声を数回発生し、個々の音
声に対応するベクトル列を作る。個々の音声に対応する
ベクトル列をT1,T2,・・・とすると、T1,T
2,・・・は次式のようになる。
【0032】
【数5】T1={B1(T1),B2(T1),・・・BBN(T1)} T2={B1(T2),B2(T2),・・・BBN(T2)} ・・・・
【0033】一般的に、T1,T2,・・・の長さは異
なる。
なる。
【0034】次に、異なる全てのベクトル列の間で、ベ
クトル毎の相関値を計算し、相関値が0.9以上になる
ベクトルの総数を求める。まず、T1のすべてのベクト
ルに対し、他のベクトル列のベクトルとの相関値を順に
調べ、相関値が0.9以上の個数の総和SUM1を次式
のように求める。
クトル毎の相関値を計算し、相関値が0.9以上になる
ベクトルの総数を求める。まず、T1のすべてのベクト
ルに対し、他のベクトル列のベクトルとの相関値を順に
調べ、相関値が0.9以上の個数の総和SUM1を次式
のように求める。
【0035】
【数6】 SUM1=INT(<B1(T1),B2(T2)>/0.9)+ INT(<B2(T1),B1(T2)>/0.9)+・・・ ・・・・・・・・・ +INT(<B1(T1),B2(T2)>/0.9)+ INT(<B2(T1),B2(T2)>/0.9)+・・・ ・・・・・・・・・ +INT(<BBN(T1),BBN(T2)>/0.9)+ ・・・・・・・・・
【0036】ここで、<x,y>はxとyの相関を表わ
し、<*>は*の整数を表わす。また、INT(*)は
*の整数を表わす。
し、<*>は*の整数を表わす。また、INT(*)は
*の整数を表わす。
【0037】同様に、T2のすべてのベクトルに対し、
他のベクトル列のベクトルとの相関値を順に調べ、相関
値が0.9以上の個数の総和を求める。同様な操作をす
べてのベクトル列に対し行ない、相関値が0.9以上の
個数の総和が最大のベクトル列を、その話者の音声の辞
書ベクトル列とする。
他のベクトル列のベクトルとの相関値を順に調べ、相関
値が0.9以上の個数の総和を求める。同様な操作をす
べてのベクトル列に対し行ない、相関値が0.9以上の
個数の総和が最大のベクトル列を、その話者の音声の辞
書ベクトル列とする。
【0038】特に、低周波帯域においては、母音の定常
的な特徴が現れるため、同一話者の同一音声は相似的な
成分を含むため、上記のような正規化,非線形圧縮を受
けた音声信号は類似なパターンを有する。
的な特徴が現れるため、同一話者の同一音声は相似的な
成分を含むため、上記のような正規化,非線形圧縮を受
けた音声信号は類似なパターンを有する。
【0039】このように、辞書作成部4において、同一
話者が発声した個々の同一音声に対応するベクトル列の
間で(異なる全てのベクトル列の間で)、ベクトル毎の
相関値を計算し、その値が所定の閾値(上述の例では、
0.9)以上になるベクトルの総数を求めるという処理
を、すべてのベクトル列に対して行ない、相関値が所定
の閾値以上の個数の総和が最大のベクトル列を、その話
者の音声の辞書ベクトル列,すなわち辞書データとする
ようにしている。そして、辞書には、上述のようにして
作成された個々の(複数の)話者の音声に基づく辞書ベク
トル列が登録される。
話者が発声した個々の同一音声に対応するベクトル列の
間で(異なる全てのベクトル列の間で)、ベクトル毎の
相関値を計算し、その値が所定の閾値(上述の例では、
0.9)以上になるベクトルの総数を求めるという処理
を、すべてのベクトル列に対して行ない、相関値が所定
の閾値以上の個数の総和が最大のベクトル列を、その話
者の音声の辞書ベクトル列,すなわち辞書データとする
ようにしている。そして、辞書には、上述のようにして
作成された個々の(複数の)話者の音声に基づく辞書ベク
トル列が登録される。
【0040】次に、話者判定部5における話者照合,判
定処理について説明する。話者照合,判定処理では、入
力音声S(被照合音声のベクトル列)と辞書に登録され
ている複数の話者にそれぞれ対応する各辞書ベクトル列
とのベクトルごとの相関値を、前述したと同様に算出
し、相関値が所定の閾値(例えば0.9)以上のベクト
ルの総数を求める処理を行ない、相関値が所定の閾値以
上のベクトルの総数が最大となる辞書ベクトル列に対応
する話者を、被照合音声の話者として判定するようにし
ている。これは、他の話者による上述のように求められ
た音声との相似性は低くなり、類似なパターンの出現は
低くなることによる。
定処理について説明する。話者照合,判定処理では、入
力音声S(被照合音声のベクトル列)と辞書に登録され
ている複数の話者にそれぞれ対応する各辞書ベクトル列
とのベクトルごとの相関値を、前述したと同様に算出
し、相関値が所定の閾値(例えば0.9)以上のベクト
ルの総数を求める処理を行ない、相関値が所定の閾値以
上のベクトルの総数が最大となる辞書ベクトル列に対応
する話者を、被照合音声の話者として判定するようにし
ている。これは、他の話者による上述のように求められ
た音声との相似性は低くなり、類似なパターンの出現は
低くなることによる。
【0041】すなわち、本発明では、グループを1つの
ベクトルに対応させることにより、音声信号をベクトル
列として扱い、同一話者の同一音声には類似な音声パタ
ーンが含まれることから、該ベクトル列にも類似なベク
トルが多数含まれ、該類似なベクトルは相関値の高いベ
クトルであり、該相関値の高いベクトルが多数含まれる
ベクトル列は類似な音声であると判断し、該判断を話者
照合の判定に使用する。
ベクトルに対応させることにより、音声信号をベクトル
列として扱い、同一話者の同一音声には類似な音声パタ
ーンが含まれることから、該ベクトル列にも類似なベク
トルが多数含まれ、該類似なベクトルは相関値の高いベ
クトルであり、該相関値の高いベクトルが多数含まれる
ベクトル列は類似な音声であると判断し、該判断を話者
照合の判定に使用する。
【0042】図4は単語“デジタル”の音声を6人の話
者が発声した場合、同一の話者の音声と他の5人の話者
の音声から求めた相関値が0.9以上の総数を示す図
(グラフ)である。なお、図4では、後述のように、被
照合音声を1ポイントずつシフトしてベクトル列を作成
し、それに対して相関を計算したため、図4のグラフの
横軸はシフト数を表わしている。このように被照合音声
を1ポイントずつシフトする理由は、被照合音声が一般
に、辞書データとは非同期であることに基づく問題を回
避するためである。
者が発声した場合、同一の話者の音声と他の5人の話者
の音声から求めた相関値が0.9以上の総数を示す図
(グラフ)である。なお、図4では、後述のように、被
照合音声を1ポイントずつシフトしてベクトル列を作成
し、それに対して相関を計算したため、図4のグラフの
横軸はシフト数を表わしている。このように被照合音声
を1ポイントずつシフトする理由は、被照合音声が一般
に、辞書データとは非同期であることに基づく問題を回
避するためである。
【0043】以下に、この非同期の問題と面倒な音声切
り出しの問題を緩和するために行なわれている被照合音
声のシフトの操作について、図5のフローチャートを用
いて説明する。まず、シフト回数Nを“1”に初期設定
した後、被照合音声(のベクトル列)Sと辞書ベクトル
列との相関値が0.9以上の個数を求める(ステップS
2)。次に、被照合音声Sを1サンプルシフトし(ステッ
プS3)、ステップS2に戻り、被照合音声(のベクト
ル列)Sと辞書ベクトル列との相関値が0.9以上の個
数を求める。このようにして、ステップS2,S3の処
理をnサンプルのシフトが完了するまでn回繰り返す
(ステップS4,S5)。そして、各帯域成分の総和が所
定閾値を越えたところを音声の開始時点とする(ステッ
プS6)。一方、ステップS6で求めた総和に対し、各
帯域成分が予め設定した値以下の場合には、その帯域部
分には音声成分がないと判断する。
り出しの問題を緩和するために行なわれている被照合音
声のシフトの操作について、図5のフローチャートを用
いて説明する。まず、シフト回数Nを“1”に初期設定
した後、被照合音声(のベクトル列)Sと辞書ベクトル
列との相関値が0.9以上の個数を求める(ステップS
2)。次に、被照合音声Sを1サンプルシフトし(ステッ
プS3)、ステップS2に戻り、被照合音声(のベクト
ル列)Sと辞書ベクトル列との相関値が0.9以上の個
数を求める。このようにして、ステップS2,S3の処
理をnサンプルのシフトが完了するまでn回繰り返す
(ステップS4,S5)。そして、各帯域成分の総和が所
定閾値を越えたところを音声の開始時点とする(ステッ
プS6)。一方、ステップS6で求めた総和に対し、各
帯域成分が予め設定した値以下の場合には、その帯域部
分には音声成分がないと判断する。
【0044】このように、音声のベクトル列を構成する
場合、入力音声を1ビットずつシフトさせ、それに対応
したベクトル列を作成することにより話者照合の精度を
高めることが可能となる。
場合、入力音声を1ビットずつシフトさせ、それに対応
したベクトル列を作成することにより話者照合の精度を
高めることが可能となる。
【0045】図6乃至図10は具体的な処理例を示す図
である。
である。
【0046】先ず、図6を参照すると、元の音声信号は
16kHzのサンプリングで8ビットに量子化された音
声信号であり、帯域分割部1では、この音声信号(16
kHzサンプリングの8ビットデータ)を1kHz以下
に帯域制限し、非線形量子化関数により2kHzサンプ
リングの4ビットデータに変換する。
16kHzのサンプリングで8ビットに量子化された音
声信号であり、帯域分割部1では、この音声信号(16
kHzサンプリングの8ビットデータ)を1kHz以下
に帯域制限し、非線形量子化関数により2kHzサンプ
リングの4ビットデータに変換する。
【0047】次に、図7に示すように、2kHzサンプ
リングの4ビットデータ列を20サンプルで1ブロック
構成とする。すなわち、つまり20次元のベクトル列を
構成する。20ポイントで1ブロックとするので、ブロ
ック,すなわちベクトルがn個の音声は20nポイント
の音声信号ということになる。
リングの4ビットデータ列を20サンプルで1ブロック
構成とする。すなわち、つまり20次元のベクトル列を
構成する。20ポイントで1ブロックとするので、ブロ
ック,すなわちベクトルがn個の音声は20nポイント
の音声信号ということになる。
【0048】図8乃至図10は話者照合のためにどのよ
うなパターンマッチングを行なうかを説明するための図
である。図8は辞書に登録されている複数の話者(n人
の話者)の音声の辞書ベクトル列{1B,2B,3B,
・・・,nB}を示す図であり、1つの辞書ベクトル列
(1つのブロック),例えば1Bは、10m秒の時間長
さを有し、{1B1,1B2,・・・,1B20}の2
0ポイントを含んでいるとする。
うなパターンマッチングを行なうかを説明するための図
である。図8は辞書に登録されている複数の話者(n人
の話者)の音声の辞書ベクトル列{1B,2B,3B,
・・・,nB}を示す図であり、1つの辞書ベクトル列
(1つのブロック),例えば1Bは、10m秒の時間長
さを有し、{1B1,1B2,・・・,1B20}の2
0ポイントを含んでいるとする。
【0049】また、図9,図10は被照合音声{1A,
2A,3A,・・・jA}と辞書ベクトル列{1B,2
B,3B,・・・,nB}のパターンマッチングの仕方
を示す図である。図9を参照すると、先ず、被照合音声
の1番目のベクトル1Aと辞書ベクトル列のすべてのベ
クトル{1B,2B,3B,・・・,nB}との相関を
取り、その相関値が0.9以上の個数を求める。図9の
例では、被照合音声の1番目のベクトル1Aと辞書ベク
トル列のすべてのベクトル{1B,2B,3B,・・
・,nB}との相関を取り、その相関値が0.9以上の
個数が4個であることを示している。同様にして、被照
合音声の2番目のベクトル2Aと辞書ベクトル列のすべ
てのベクトル{1B,2B,3B,・・・,nB}との
相関を取り、その相関値が0.9以上の個数を求める
と、相関値が0.9以上の個数は1個である。このよう
な処理を、被照合音声の最後のベクトルjAまで順次に
行ない、被照合音声の1番目のベクトル1Aから最後の
ベクトルjAまで、上記のようにして得られた相関値
0.9以上の個数の総和を求める。図9では、この総和
S1がS1=12として示されている。
2A,3A,・・・jA}と辞書ベクトル列{1B,2
B,3B,・・・,nB}のパターンマッチングの仕方
を示す図である。図9を参照すると、先ず、被照合音声
の1番目のベクトル1Aと辞書ベクトル列のすべてのベ
クトル{1B,2B,3B,・・・,nB}との相関を
取り、その相関値が0.9以上の個数を求める。図9の
例では、被照合音声の1番目のベクトル1Aと辞書ベク
トル列のすべてのベクトル{1B,2B,3B,・・
・,nB}との相関を取り、その相関値が0.9以上の
個数が4個であることを示している。同様にして、被照
合音声の2番目のベクトル2Aと辞書ベクトル列のすべ
てのベクトル{1B,2B,3B,・・・,nB}との
相関を取り、その相関値が0.9以上の個数を求める
と、相関値が0.9以上の個数は1個である。このよう
な処理を、被照合音声の最後のベクトルjAまで順次に
行ない、被照合音声の1番目のベクトル1Aから最後の
ベクトルjAまで、上記のようにして得られた相関値
0.9以上の個数の総和を求める。図9では、この総和
S1がS1=12として示されている。
【0050】ところで、被照合音声から得られるベクト
ル列は辞書ベクトル列とは非同期である。そこで、元の
音声{1A,2A,3A,・・・,jA}を1ポイント
シフトさせて新たなベクトル列を図10に示すように作
り直し、上述したと同様にして(図9に示したようにし
て)、相関値が0.9以上のベクトル(ブロック)の個
数の総和を求める。このように、1ポイントシフトさせ
た場合の総和をS2、19ポイントシフトさせた場合の
総和をS20とする。
ル列は辞書ベクトル列とは非同期である。そこで、元の
音声{1A,2A,3A,・・・,jA}を1ポイント
シフトさせて新たなベクトル列を図10に示すように作
り直し、上述したと同様にして(図9に示したようにし
て)、相関値が0.9以上のベクトル(ブロック)の個
数の総和を求める。このように、1ポイントシフトさせ
た場合の総和をS2、19ポイントシフトさせた場合の
総和をS20とする。
【0051】図4は単語“デジタル”の音声に対して、
総和S1〜S20をプロットした例であり、図4から明
らかなように、同一話者の相関値が0.9以上の個数
が、他の話者の相関値が0.9以上の個数と比べて高い
値を示している。この結果を利用し、次式(数7)を計
算する。
総和S1〜S20をプロットした例であり、図4から明
らかなように、同一話者の相関値が0.9以上の個数
が、他の話者の相関値が0.9以上の個数と比べて高い
値を示している。この結果を利用し、次式(数7)を計
算する。
【0052】
【数7】
【0053】ここで、S(h)iは、h番目の辞書に対し
て、i−1ポイントシフトして求めた相関値0.9以上
の個数であり、Thは予め定めた閾値である。数7を計
算し、DSが最大となるh番目の辞書ベクトル列に対応
する話者が照合結果として得られる。
て、i−1ポイントシフトして求めた相関値0.9以上
の個数であり、Thは予め定めた閾値である。数7を計
算し、DSが最大となるh番目の辞書ベクトル列に対応
する話者が照合結果として得られる。
【0054】なお、被照合音声が辞書音声に比べて長い
時系列の場合、相関値が0.9以上のベクトルの総数が
多くなる可能性がある。そこで、被照合音声は辞書音声
の長さで打ち切ることにする。
時系列の場合、相関値が0.9以上のベクトルの総数が
多くなる可能性がある。そこで、被照合音声は辞書音声
の長さで打ち切ることにする。
【0055】
【発明の効果】以上に説明したように、請求項1乃至請
求項7記載の発明によれば、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換し、非線
型圧縮された音声信号からベクトル列を構成し、辞書に
予め作成されている辞書ベクトル列と被照合音声のベク
トル列とのパターンマッチングを行ない、話者の照合,
判定を行なうので、時間領域で照合を行なう手法で、話
者照合を確実に行なうことができる。
求項7記載の発明によれば、サンプリングされた入力音
声を非線形圧縮して低分解能の音声信号に変換し、非線
型圧縮された音声信号からベクトル列を構成し、辞書に
予め作成されている辞書ベクトル列と被照合音声のベク
トル列とのパターンマッチングを行ない、話者の照合,
判定を行なうので、時間領域で照合を行なう手法で、話
者照合を確実に行なうことができる。
【0056】特に、請求項2,請求項7記載の発明によ
れば、サンプリングされた入力音声のサンプル値を適当
な個数で1つのグループとし、グループに含まれるサン
プル値の絶対値の最大値でグループ内のすべてのサンプ
ル値を正規化した後、正規化したサンプル値を非線形量
子化関数で低分解能の信号に変換するので、音声信号の
振幅方向への変動を抑えることができる。
れば、サンプリングされた入力音声のサンプル値を適当
な個数で1つのグループとし、グループに含まれるサン
プル値の絶対値の最大値でグループ内のすべてのサンプ
ル値を正規化した後、正規化したサンプル値を非線形量
子化関数で低分解能の信号に変換するので、音声信号の
振幅方向への変動を抑えることができる。
【0057】また、請求項4,請求項9記載の発明によ
れば、被照合音声のベクトル列を構成する場合、入力音
声を1ビットずつシフトさせ、それに対応したベクトル
列を作成し、1ビットずつシフトさせたベクトル列と話
者ベクトル列とを順次照合することにより話者照合の判
定を行なうので、話者照合の精度を高めることができ
る。
れば、被照合音声のベクトル列を構成する場合、入力音
声を1ビットずつシフトさせ、それに対応したベクトル
列を作成し、1ビットずつシフトさせたベクトル列と話
者ベクトル列とを順次照合することにより話者照合の判
定を行なうので、話者照合の精度を高めることができ
る。
【図1】本発明に係る話者照合システムの構成例を示す
図である。
図である。
【図2】非線形圧縮部における処理動作を説明するため
の図である。
の図である。
【図3】端数処理を説明するための図である。
【図4】単語“デジタル”の音声を5人の話者が発声し
た場合、同一の話者の音声と他の話者の音声から求めた
相関値が0.9以上の総数を示す図である。
た場合、同一の話者の音声と他の話者の音声から求めた
相関値が0.9以上の総数を示す図である。
【図5】被照合音声のシフトの操作を説明するためのフ
ローチャートである。
ローチャートである。
【図6】本発明の話者照合方法の具体的な処理例を示す
図である。
図である。
【図7】本発明の話者照合方法の具体的な処理例を示す
図である。
図である。
【図8】話者照合のためにどのようなパターンマッチン
グを行なうかを説明するための図である。
グを行なうかを説明するための図である。
【図9】話者照合のためにどのようなパターンマッチン
グを行なうかを説明するための図である。
グを行なうかを説明するための図である。
【図10】話者照合のためにどのようなパターンマッチ
ングを行なうかを説明するための図である。
ングを行なうかを説明するための図である。
1 帯域分割部 2 非線型圧縮部 3 ベクトル列化部 4 辞書作成部 5 話者判定部
Claims (9)
- 【請求項1】 サンプリングされた入力音声を非線形圧
縮して低分解能の音声信号に変換する非線型圧縮工程
と、非線型圧縮された音声信号からベクトル列を構成す
るベクトル列化工程と、辞書に予め作成されている辞書
ベクトル列と被照合音声のベクトル列とのパターンマッ
チングを行ない、話者の照合,判定を行なう照合判定工
程とを有していることを特徴とする話者照合方法。 - 【請求項2】 請求項1記載の話者照合方法において、
前記非線型圧縮工程では、サンプリングされた入力音声
のサンプル値を適当な個数で1つのグループとし、グル
ープに含まれるサンプル値の絶対値の最大値でグループ
内のすべてのサンプル値を正規化した後、正規化したサ
ンプル値を非線形量子化関数で低分解能の音声信号に変
換することを特徴とする話者照合方法。 - 【請求項3】 請求項1または請求項2記載の話者照合
方法において、ベクトル列化工程では、前記グループを
1つのベクトルに対応させることにより、音声信号をベ
クトル列として扱い、前記照合判定工程では、同一話者
の同一音声には類似な音声パターンが含まれることか
ら、該ベクトル列にも類似なベクトルが多数含まれ、該
類似なベクトルは相関値の高いベクトルであり、該相関
値の高いベクトルが多数含まれるベクトル列は類似な音
声であると判断し、該判断を話者照合の判定に使用する
ことを特徴とする話者照合方法。 - 【請求項4】 請求項1乃至請求項3のいずれか一項に
記載の話者照合方法において、被照合音声のベクトル列
を構成する場合、入力音声を1ビットずつシフトさせ、
それに対応したベクトル列を作成し、1ビットずつシフ
トさせたベクトル列と辞書ベクトル列とを順次照合する
ことにより話者照合の判定を行なうことを特徴とする話
者照合方法。 - 【請求項5】 サンプリングされた入力音声を帯域分割
する帯域分割部と、帯域分割された音声信号のうち、所
定帯域の音声信号を非線形圧縮する非線形圧縮部と、非
線形圧縮された音声信号からベクトル列を構成するベク
トル列化部と、辞書ベクトル列を辞書として作成する辞
書作成部と、被照合音声のベクトル列と辞書作成部4に
よって作成されている辞書ベクトル列とのパターンマッ
チングを行ない、話者の照合,判定を行なう話者判定部
とを有していることを特徴とする話者照合システム。 - 【請求項6】 請求項5記載の話者照合システムにおい
て、前記辞書作成部は、同一話者が発声した個々の同一
音声に対応するベクトル列の間で、ベクトル毎の相関値
を計算し、その値が所定の閾値以上になるベクトルの総
数を求めるという処理を、すべてのベクトル列に対して
行ない、相関値が所定の閾値以上の個数の総和が最大の
ベクトル列を、その音声の辞書ベクトル列とし、辞書に
は、辞書作成部により作成された個々の話者の音声に基
づく辞書ベクトル列が登録されることを特徴とする話者
照合システム。 - 【請求項7】 請求項5記載の話者照合システムにおい
て、前記非線型圧縮部は、サンプリングされた入力音声
のサンプル値を適当な個数で1つのグループとし、グル
ープに含まれるサンプル値の絶対値の最大値でグループ
内のすべてのサンプル値を正規化した後、正規化したサ
ンプル値を非線形量子化関数で低分解能の音声信号に変
換することを特徴とする話者照合システム。 - 【請求項8】 請求項5記載の話者照合システムにおい
て、話者判定部は、被照合音声のベクトル列と辞書に登
録されている複数の話者にそれぞれ対応する各辞書ベク
トル列とのベクトルごとの相関値を算出し、相関値が所
定の閾値以上のベクトルの総数を求め、相関値が所定の
閾値以上のベクトルの総数が最大となる辞書ベクトル列
に対応する話者を、被照合音声の話者として判定するこ
とを特徴とする話者照合システム。 - 【請求項9】 請求項5記載の話者照合システムにおい
て、被照合音声のベクトル列を構成する場合、入力音声
を1ビットずつシフトさせ、それに対応したベクトル列
を作成し、1ビットずつシフトさせたベクトル列と辞書
ベクトル列とを順次照合することにより話者照合の判定
を行なうことを特徴とする話者照合システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11141172A JP2000330590A (ja) | 1999-05-21 | 1999-05-21 | 話者照合方法および話者照合システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11141172A JP2000330590A (ja) | 1999-05-21 | 1999-05-21 | 話者照合方法および話者照合システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000330590A true JP2000330590A (ja) | 2000-11-30 |
Family
ID=15285825
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11141172A Pending JP2000330590A (ja) | 1999-05-21 | 1999-05-21 | 話者照合方法および話者照合システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000330590A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100919546B1 (ko) * | 2006-03-24 | 2009-10-01 | 야마하 가부시키가이샤 | 음성 간의 유사도를 평가하는 방법 및 장치 |
| WO2023101343A1 (en) * | 2021-11-30 | 2023-06-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
-
1999
- 1999-05-21 JP JP11141172A patent/JP2000330590A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100919546B1 (ko) * | 2006-03-24 | 2009-10-01 | 야마하 가부시키가이샤 | 음성 간의 유사도를 평가하는 방법 및 장치 |
| WO2023101343A1 (en) * | 2021-11-30 | 2023-06-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
| US12087307B2 (en) | 2021-11-30 | 2024-09-10 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA1261472A (en) | Reference speech pattern generating method | |
| US4819271A (en) | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments | |
| US4882759A (en) | Synthesizing word baseforms used in speech recognition | |
| CN1151218A (zh) | 用于语音识别的神经网络的训练方法 | |
| CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
| CN113707112B (zh) | 基于层标准化的递归跳跃连接深度学习音乐自动生成方法 | |
| JPH01997A (ja) | ベクトル量子化を用いた音声認識方式 | |
| JP3014177B2 (ja) | 話者適応音声認識装置 | |
| CN113362858B (zh) | 语音情感分类方法、装置、设备及介质 | |
| JP2000330590A (ja) | 話者照合方法および話者照合システム | |
| JP3042585B2 (ja) | 音声認識装置 | |
| Sinith et al. | Pattern recognition in South Indian classical music using a hybrid of HMM and DTW | |
| JP3477751B2 (ja) | 連続単語音声認識装置 | |
| US7472062B2 (en) | Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions | |
| JPH01202798A (ja) | 音声認識方法 | |
| JP3400474B2 (ja) | 音声認識装置および音声認識方法 | |
| JP2640595B2 (ja) | 反復性をもつサンプル化されたアナログ信号のコード化方法およびその装置 | |
| JP3098157B2 (ja) | 話者照合方法及び装置 | |
| KR20100115849A (ko) | 다중 해싱에 기초한 오디오 핑거프린팅 시스템 | |
| JP3210165B2 (ja) | 音声符号化復号化方法および装置 | |
| JPS62245294A (ja) | 音声認識方式 | |
| JPH0534679B2 (ja) | ||
| JPH0782355B2 (ja) | 雑音除去と話者適応の機能を有する音声認識装置 | |
| JP3126081B2 (ja) | ベクトル量子化方法及びベクトル量子化装置 | |
| CN118541753A (zh) | 用于自动移除视频的背景音源的装置和方法 |