JP2017223848A

JP2017223848A - 話者認識装置

Info

Publication number: JP2017223848A
Application number: JP2016119448A
Authority: JP
Inventors: 美沙貴辻川; Misaki Tsujikawa
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2017-12-21

Abstract

【課題】雑音などの外乱や発話長が短い場合であっても、より高い精度で話者を認識すること。
【解決手段】音声入力部１１から入力された音声について、不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベース１２を用いて、分析部１３は、ｉ−ｖｅｃｔｏｒと呼ばれる特徴量を、前記大規模音声データベースを利用して抽出し、類似度計算部１４は、前記大規模音声データベース１２の不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算し、順位計算部１５は、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算し、判定部１６は、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する。
【選択図】図１

Description

本発明は取得した音声信号に基づいて話者を認識する話者認識装置に関するものである。

従来の話者認識においては、一般的に、予め登録用の音声を収集し、収集した音声を分析することによって特徴量を抽出し、新たに取得する未知話者の音声と登録話者の音声との特徴量の類似度に基づいて本人かどうかを判断する手法がある。また，複数話者の音声との類似度を順位付けすることによって，話者認識を行う手法がある。

特許文献１で説明される話者認識装置は、入力話者の音声を分析し特徴量を抽出して、登録された全話者との類似度について木構造を用いて求め、入力話者と前記登録された全話者との類似度を順位づけし、入力話者の主張する本人との類似度があらかじめ定められた順以内である場合に本人であると判定する。

また、特許文献１内で従来の一般的な類似度のみに基づく話者認識方法および話者識別装置について述べ、前記順位による話者認識方法は類似度のみに基づく話者認識方法よりも種々の外乱に対して頑健であるとしている。

非特許文献１では、話者認識のための高精度な特徴量として、ｉ−ｖｅｃｔｏｒと呼ばれる話者固有の特徴量とその求め方について新たに提案している。

特許第２９９１２８８号明細書

Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798.

従来の話者認識において、精度低下の課題として雑音などの外乱が音声に付加される場合や、対象の音声が極端に短い場合が挙げられる。

特許文献１では、各話者との類似度を順位付けすることにより外乱への頑健性を示しているが、特徴量について特定の手法を明示しておらず、また閾値の詳細な決定方法が未定であるため、外乱発生時において順位に基づく手法が類似度のみに基づく手法を上回る精度となる根拠や、より確実な手法が示されていない。また、精度低下要因について外乱への頑健性は論じられているが、単語レベルの短い発話については言及されていない。

本発明は、ｉ−ｖｅｃｔｏｒと名付けられた特徴量を話者固有のモデルとして音声より抽出し、実験結果等を元により精度が高い話者認識方法および話者認識装置を提供することを目的とするものである。

本発明の一局面に係る話者認識方法は、あらかじめ大規模な不特定多数話者または登録話者の音声や音声モデルなどを有する大規模音声データベースを用いて、未知話者の音声が入力される音声入力処理と、入力された音声についてｉ−ｖｅｃｔｏｒと呼ばれる特徴量を前記大規模データベースを利用して抽出する分析処理と、前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算処理と、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算処理と、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合に主張する本人であると判定する判定処理によって提供される。

本構成によって、未知話者の音声信号が取得される。取得された音声信号から固有の特徴量であるｉ−ｖｅｃｔｏｒが抽出される。ｉ−ｖｅｃｔｏｒを話者固有の特徴量として抽出する手法は多数の話者の音声から得られる一般的な音声の特徴量分布を使用する必要があり、大規模音声データベースの情報を使用することができる。ｉ−ｖｅｃｔｏｒは数百程度の数値列として表されるため類似度の算出が容易である。また、外乱に頑健であり、雑音や入力時の機器の違いの影響が少ない。抽出された未知話者の特徴量と、あらかじめ大規模音声データベースに登録された大規模な不特定多数話者の音声モデルや登録話者のモデルとの類似度が算出される。算出された類似度を大きい順に順位付けし、未知話者が主張する登録話者との類似度が所定の順位内であれば当人と判定される。大規模音声データベースの話者音声はあらかじめ、雑音の有無や発話長、発話内容など収集された音声の条件を選択することが可能である。比較対象の話者音声について、雑音の少ない、発話長の充分な音声を利用することによって、未知話者音声への外乱の発生や、単語レベルの極端な短い発話であっても、安定した順位が期待できる。

したがって、大規模音声データベースを用いて外乱に頑健な特徴量での類似度による不特定多数の話者および登録話者の順位付けを行うことで、より精度の高い話者認識が可能である。

また、上記の話者認識方法において、事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定めてもよい。

本構成によって、開発用話者における所定の順位ごとの本人が棄却される確率と詐称者が受理される二種類の認識誤り率が算出される。開発用話者において最も話者認識精度が高くなる順位が閾値と決定される。

したがって、未知話者の判定において開発用話者音声によって定められた順位を使用することができるので、より高い精度で話者を認識することができる。

本発明によれば、雑音などの外乱や極端に短い発話などの話者認識における悪環境下でも、より高い精度で話者を認識することができる。

本発明の実施の形態１における話者識別装置の構成を示す図である。本発明の実施の形態２における話者識別装置の構成を示す図である。本発明の実施の形態３における閾値順位決定のためのグラフを示す図である。

以下添付図面を参照しながら、本発明の実施の形態について説明する。なお、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。

（実施の形態１）
図１は、本実施の形態１における話者認識装置の構成を示す図である。話者認識装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１に示す話者認識装置は、音声入力部１１、大規模音声データベース１２、分析部１３、類似度計算部１４、順位計算部１５、判定部１６で構成される。

音声入力部１１は、例えばマイクロフォンで構成され、未知話者音声を収集し、収集した音声を音声信号に変換して出力する。

大規模音声データベース１２は、例えばクラウド上に配置された記憶装置であり、音声データまたは音声モデルを保持する。大規模音声データベースには、登録話者が含まれない不特定多数の話者の音声または音声モデルを保持する不特定多数話者音声データベースや、入力される未知話者が判定される対象である登録話者の音声または音声モデルを保持する登録話者音声データベースが含まれるが、この構成に限らず多数の話者の音声を保持していてもよい。

分析部１３は、音声入力部１１から入力された音声信号を分析し、未知話者によって発話された音声の特徴量を算出する。ここで、ｉ−ｖｅｃｔｏｒと呼ばれる式Ｍ＝ｍ＋Ｔｗで求められる特徴量ｗが話者固有の特徴量として算出される。この式におけるＭは、入力される話者個人を示す特徴量であり、例えばＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）という音声の周波数スペクトルを分析して得られる数値列を正規分布の重なりで表現する手法であるＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）およびＧＭＭスーパーベクトルなどが使用される。ｍは、多数の話者音声からＭと同様にして得られる特徴量が使用される。このｍにおけるＧＭＭはＵＢＭ（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ）と呼ばれる。ＴはＭで求められた一般的な話者の特徴量空間を網羅することができる基底ベクトルである。ｗが本発明で使用される特徴量となる。各々の詳細な抽出方法などは非特許文献１および関連文献に記述されるため省略する。ＵＢＭを生成するために使用される話者音声は、音声データの一般的な特徴量を示すために、環境や話者性、発話内容などが多様かつ多量であるほど精度が良いとされる。したがって、分析部１３は、大規模音声データベース１２における多数の話者音声を使用して特徴量を抽出する。

類似度計算部１４は分析部１３で算出された未知話者の特徴量ｗと大規模音声データベース１２上の全てまたは一部の音声モデルとを比較し、類似度を算出する。特徴量および音声モデルは数百程度の数値列であるため、例えば非特許文献１内で示されるＣｏｓｉｎｅｄｉｓｔａｎｃｅｓｃｏｒｉｎｇによって簡易に類似度を算出することができる。Ｃｏｓｉｎｅｄｉｓｔａｎｃｅｓｃｏｒｉｎｇは類似度が高い場合は１に近い値となり、類似度が低い場合には−１に近い値となる。また、類似度の算出手法は上記に限定されない。

順位計算部１５は、類似度計算部１４で求められた類似度を大きい順に順位付けし、入力された未知話者の特徴量と、大規模音声データベース上の未知話者が本人であると主張する登録話者モデルとの類似度が類似度計算部１４で算出した全類似度の中で何番目であるかを算出する。

判定部１６は、順位計算部１５で算出された順位から、未知話者が主張する登録話者であるかどうかを判定する。算出された順位があらかじめ定められた順位より高い場合、主張する登録話者であると判定する。

（実施の形態２）
図２は、本実施の形態２における話者認識装置の構成を示す図である。図２において、図１およびと同じ構成要素については同じ符号を用い、説明を省略する。

実施の形態２における話者認識装置は、話者認識時の処理前に閾値決定時の処理が実施される。実施の形態１における処理は話者認識時処理とする。

実施の形態２における閾値決定時の処理において、音声入力部１１は開発用話者音声が入力され、入力された音声を音声信号に変換して出力する。開発用話者音声は音声の発話者が既知のものであり、登録話者とは異なる話者であってもよいし、登録話者と重複していてもよい。

分析部１３、類似度計算部１４、順位計算部１５は大規模音声データベース１２上の開発用話者音声およびモデルを用いて実施の形態１で説明された処理を行い、順位を算出する。

閾値決定部１７は順位計算部１５によって算出された順位から開発用話者音声の認識誤り率を算出することで、適切な閾値となる順位を決定する。例えば、閾値となる順位を１００位としたときの、開発用話者音声の認識誤り率が算出される。誤り率には、本人であるはずの音声を他者と判定してしまう確率（本人拒否率）と詐称者であるはずの音声を本人と判定してしまう確率（他人受入率）がある。開発用話者音声のうちある１名Ａを選出し、残りを詐称者と考える。Ａの発話を入力し、実施の形態１のように話者Ａのモデルとの類似度が類似度を算出した話者中何位であるかを求め、１００位以下であれば本人拒否となる。また、Ａ以外の詐称者の発話を入力し、同様に類似度に基づく順位を算出し、話者Ａのモデルとの類似度が１００位以内であれば詐称者をＡと判定することになってしまい、他人受入となる。以上のように二種類の誤り率をたとえば１００位まで１０位刻みに、１００位以上は１００位刻みに算出し、二種類の認識誤り率が交差する順位が最も誤り率が低くなる適切な閾値の順位として決定される。図３は、女性１０名の短い発話を開発用話者として入力した場合の二種類の誤り率を前記手法で算出し、グラフにしたものである。縦軸が誤り率、横軸が閾値とした順位であり、破線が本人拒否率、実線が他人受入率を示す。図３において、おおよそ２００位程度が適切な閾値と決定される。決定された閾値となる順位は、話者認識時の処理における判定部１６で判定に使用される。

実施の形態２における話者認識時の処理では、判定部１６は閾値決定部１７が算出した閾値順位を使用して入力される未知話者が主張する話者であるかを判定する。

本発明に係る話者認識方法及び話者認識装置は、大規模データベース上の音声データを使用することにより、雑音などの外乱や発話長の不足がある場合でも、より高い精度で話者を識別することができ、取得した音声信号に基づいて話者を認識する話者認識方法及び話者認識装置として有用である。

１１音声入力部
１２大規模音声データベース
１３分析部
１４類似度計算部
１５順位計算部
１６判定部
１７閾値決定部

Claims

不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベースを用いて、話者認識を行う話者認識装置であって、
音声が入力される音声入力部と、
入力された音声について、ｉ−ｖｅｃｔｏｒと呼ばれる特徴量を前記大規模音声データベースを利用して抽出する分析部と、
前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算部と、
前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算部と、
前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する判定部とを具備して構成されることを特徴とする話者認識装置。
事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定める閾値決定部をさらに具備する、請求項１記載の話者認識装置。