JP2017223848A - 話者認識装置 - Google Patents
話者認識装置 Download PDFInfo
- Publication number
- JP2017223848A JP2017223848A JP2016119448A JP2016119448A JP2017223848A JP 2017223848 A JP2017223848 A JP 2017223848A JP 2016119448 A JP2016119448 A JP 2016119448A JP 2016119448 A JP2016119448 A JP 2016119448A JP 2017223848 A JP2017223848 A JP 2017223848A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- similarity
- registered
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 abstract description 31
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】雑音などの外乱や発話長が短い場合であっても、より高い精度で話者を認識すること。
【解決手段】音声入力部11から入力された音声について、不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベース12を用いて、分析部13は、i−vectorと呼ばれる特徴量を、前記大規模音声データベースを利用して抽出し、類似度計算部14は、前記大規模音声データベース12の不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算し、順位計算部15は、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算し、判定部16は、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する。
【選択図】図1
【解決手段】音声入力部11から入力された音声について、不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベース12を用いて、分析部13は、i−vectorと呼ばれる特徴量を、前記大規模音声データベースを利用して抽出し、類似度計算部14は、前記大規模音声データベース12の不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算し、順位計算部15は、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算し、判定部16は、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する。
【選択図】図1
Description
本発明は取得した音声信号に基づいて話者を認識する話者認識装置に関するものである。
従来の話者認識においては、一般的に、予め登録用の音声を収集し、収集した音声を分析することによって特徴量を抽出し、新たに取得する未知話者の音声と登録話者の音声との特徴量の類似度に基づいて本人かどうかを判断する手法がある。また,複数話者の音声との類似度を順位付けすることによって,話者認識を行う手法がある。
特許文献1で説明される話者認識装置は、入力話者の音声を分析し特徴量を抽出して、登録された全話者との類似度について木構造を用いて求め、入力話者と前記登録された全話者との類似度を順位づけし、入力話者の主張する本人との類似度があらかじめ定められた順以内である場合に本人であると判定する。
また、特許文献1内で従来の一般的な類似度のみに基づく話者認識方法および話者識別装置について述べ、前記順位による話者認識方法は類似度のみに基づく話者認識方法よりも種々の外乱に対して頑健であるとしている。
非特許文献1では、話者認識のための高精度な特徴量として、i−vectorと呼ばれる話者固有の特徴量とその求め方について新たに提案している。
Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798.
従来の話者認識において、精度低下の課題として雑音などの外乱が音声に付加される場合や、対象の音声が極端に短い場合が挙げられる。
特許文献1では、各話者との類似度を順位付けすることにより外乱への頑健性を示しているが、特徴量について特定の手法を明示しておらず、また閾値の詳細な決定方法が未定であるため、外乱発生時において順位に基づく手法が類似度のみに基づく手法を上回る精度となる根拠や、より確実な手法が示されていない。また、精度低下要因について外乱への頑健性は論じられているが、単語レベルの短い発話については言及されていない。
本発明は、i−vectorと名付けられた特徴量を話者固有のモデルとして音声より抽出し、実験結果等を元により精度が高い話者認識方法および話者認識装置を提供することを目的とするものである。
本発明の一局面に係る話者認識方法は、あらかじめ大規模な不特定多数話者または登録話者の音声や音声モデルなどを有する大規模音声データベースを用いて、未知話者の音声が入力される音声入力処理と、入力された音声についてi−vectorと呼ばれる特徴量を前記大規模データベースを利用して抽出する分析処理と、前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算処理と、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算処理と、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合に主張する本人であると判定する判定処理によって提供される。
本構成によって、未知話者の音声信号が取得される。取得された音声信号から固有の特徴量であるi−vectorが抽出される。i−vectorを話者固有の特徴量として抽出する手法は多数の話者の音声から得られる一般的な音声の特徴量分布を使用する必要があり、大規模音声データベースの情報を使用することができる。i−vectorは数百程度の数値列として表されるため類似度の算出が容易である。また、外乱に頑健であり、雑音や入力時の機器の違いの影響が少ない。抽出された未知話者の特徴量と、あらかじめ大規模音声データベースに登録された大規模な不特定多数話者の音声モデルや登録話者のモデルとの類似度が算出される。算出された類似度を大きい順に順位付けし、未知話者が主張する登録話者との類似度が所定の順位内であれば当人と判定される。大規模音声データベースの話者音声はあらかじめ、雑音の有無や発話長、発話内容など収集された音声の条件を選択することが可能である。比較対象の話者音声について、雑音の少ない、発話長の充分な音声を利用することによって、未知話者音声への外乱の発生や、単語レベルの極端な短い発話であっても、安定した順位が期待できる。
したがって、大規模音声データベースを用いて外乱に頑健な特徴量での類似度による不特定多数の話者および登録話者の順位付けを行うことで、より精度の高い話者認識が可能である。
また、上記の話者認識方法において、事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定めてもよい。
本構成によって、開発用話者における所定の順位ごとの本人が棄却される確率と詐称者が受理される二種類の認識誤り率が算出される。開発用話者において最も話者認識精度が高くなる順位が閾値と決定される。
したがって、未知話者の判定において開発用話者音声によって定められた順位を使用することができるので、より高い精度で話者を認識することができる。
本発明によれば、雑音などの外乱や極端に短い発話などの話者認識における悪環境下でも、より高い精度で話者を認識することができる。
以下添付図面を参照しながら、本発明の実施の形態について説明する。なお、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。
(実施の形態1)
図1は、本実施の形態1における話者認識装置の構成を示す図である。話者認識装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
図1は、本実施の形態1における話者認識装置の構成を示す図である。話者認識装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
図1に示す話者認識装置は、音声入力部11、大規模音声データベース12、分析部13、類似度計算部14、順位計算部15、判定部16で構成される。
音声入力部11は、例えばマイクロフォンで構成され、未知話者音声を収集し、収集した音声を音声信号に変換して出力する。
大規模音声データベース12は、例えばクラウド上に配置された記憶装置であり、音声データまたは音声モデルを保持する。大規模音声データベースには、登録話者が含まれない不特定多数の話者の音声または音声モデルを保持する不特定多数話者音声データベースや、入力される未知話者が判定される対象である登録話者の音声または音声モデルを保持する登録話者音声データベースが含まれるが、この構成に限らず多数の話者の音声を保持していてもよい。
分析部13は、音声入力部11から入力された音声信号を分析し、未知話者によって発話された音声の特徴量を算出する。ここで、i−vectorと呼ばれる式M=m+Twで求められる特徴量wが話者固有の特徴量として算出される。この式におけるMは、入力される話者個人を示す特徴量であり、例えばMFCC(Mel Frequency Cepstral Coefficient)という音声の周波数スペクトルを分析して得られる数値列を正規分布の重なりで表現する手法であるGMM(Gaussian Mixture Model)およびGMMスーパーベクトルなどが使用される。mは、多数の話者音声からMと同様にして得られる特徴量が使用される。このmにおけるGMMはUBM(Universal Background Model)と呼ばれる。TはMで求められた一般的な話者の特徴量空間を網羅することができる基底ベクトルである。wが本発明で使用される特徴量となる。各々の詳細な抽出方法などは非特許文献1および関連文献に記述されるため省略する。UBMを生成するために使用される話者音声は、音声データの一般的な特徴量を示すために、環境や話者性、発話内容などが多様かつ多量であるほど精度が良いとされる。したがって、分析部13は、大規模音声データベース12における多数の話者音声を使用して特徴量を抽出する。
類似度計算部14は分析部13で算出された未知話者の特徴量wと大規模音声データベース12上の全てまたは一部の音声モデルとを比較し、類似度を算出する。特徴量および音声モデルは数百程度の数値列であるため、例えば非特許文献1内で示されるCosine distance scoringによって簡易に類似度を算出することができる。Cosine distance scoringは類似度が高い場合は1に近い値となり、類似度が低い場合には−1に近い値となる。また、類似度の算出手法は上記に限定されない。
順位計算部15は、類似度計算部14で求められた類似度を大きい順に順位付けし、入力された未知話者の特徴量と、大規模音声データベース上の未知話者が本人であると主張する登録話者モデルとの類似度が類似度計算部14で算出した全類似度の中で何番目であるかを算出する。
判定部16は、順位計算部15で算出された順位から、未知話者が主張する登録話者であるかどうかを判定する。算出された順位があらかじめ定められた順位より高い場合、主張する登録話者であると判定する。
(実施の形態2)
図2は、本実施の形態2における話者認識装置の構成を示す図である。図2において、図1およびと同じ構成要素については同じ符号を用い、説明を省略する。
図2は、本実施の形態2における話者認識装置の構成を示す図である。図2において、図1およびと同じ構成要素については同じ符号を用い、説明を省略する。
実施の形態2における話者認識装置は、話者認識時の処理前に閾値決定時の処理が実施される。実施の形態1における処理は話者認識時処理とする。
実施の形態2における閾値決定時の処理において、音声入力部11は開発用話者音声が入力され、入力された音声を音声信号に変換して出力する。開発用話者音声は音声の発話者が既知のものであり、登録話者とは異なる話者であってもよいし、登録話者と重複していてもよい。
分析部13、類似度計算部14、順位計算部15は大規模音声データベース12上の開発用話者音声およびモデルを用いて実施の形態1で説明された処理を行い、順位を算出する。
閾値決定部17は順位計算部15によって算出された順位から開発用話者音声の認識誤り率を算出することで、適切な閾値となる順位を決定する。例えば、閾値となる順位を100位としたときの、開発用話者音声の認識誤り率が算出される。誤り率には、本人であるはずの音声を他者と判定してしまう確率(本人拒否率)と詐称者であるはずの音声を本人と判定してしまう確率(他人受入率)がある。開発用話者音声のうちある1名Aを選出し、残りを詐称者と考える。Aの発話を入力し、実施の形態1のように話者Aのモデルとの類似度が類似度を算出した話者中何位であるかを求め、100位以下であれば本人拒否となる。また、A以外の詐称者の発話を入力し、同様に類似度に基づく順位を算出し、話者Aのモデルとの類似度が100位以内であれば詐称者をAと判定することになってしまい、他人受入となる。以上のように二種類の誤り率をたとえば100位まで10位刻みに、100位以上は100位刻みに算出し、二種類の認識誤り率が交差する順位が最も誤り率が低くなる適切な閾値の順位として決定される。図3は、女性10名の短い発話を開発用話者として入力した場合の二種類の誤り率を前記手法で算出し、グラフにしたものである。縦軸が誤り率、横軸が閾値とした順位であり、破線が本人拒否率、実線が他人受入率を示す。図3において、おおよそ200位程度が適切な閾値と決定される。決定された閾値となる順位は、話者認識時の処理における判定部16で判定に使用される。
実施の形態2における話者認識時の処理では、判定部16は閾値決定部17が算出した閾値順位を使用して入力される未知話者が主張する話者であるかを判定する。
本発明に係る話者認識方法及び話者認識装置は、大規模データベース上の音声データを使用することにより、雑音などの外乱や発話長の不足がある場合でも、より高い精度で話者を識別することができ、取得した音声信号に基づいて話者を認識する話者認識方法及び話者認識装置として有用である。
11 音声入力部
12 大規模音声データベース
13 分析部
14 類似度計算部
15 順位計算部
16 判定部
17 閾値決定部
12 大規模音声データベース
13 分析部
14 類似度計算部
15 順位計算部
16 判定部
17 閾値決定部
Claims (2)
- 不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベースを用いて、話者認識を行う話者認識装置であって、
音声が入力される音声入力部と、
入力された音声について、i−vectorと呼ばれる特徴量を前記大規模音声データベースを利用して抽出する分析部と、
前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算部と、
前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算部と、
前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する判定部とを具備して構成されることを特徴とする話者認識装置。 - 事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定める閾値決定部をさらに具備する、請求項1記載の話者認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016119448A JP2017223848A (ja) | 2016-06-16 | 2016-06-16 | 話者認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016119448A JP2017223848A (ja) | 2016-06-16 | 2016-06-16 | 話者認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017223848A true JP2017223848A (ja) | 2017-12-21 |
Family
ID=60688113
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016119448A Pending JP2017223848A (ja) | 2016-06-16 | 2016-06-16 | 話者認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2017223848A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101888058B1 (ko) * | 2018-02-09 | 2018-08-13 | 주식회사 공훈 | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 |
| DE102018125989A1 (de) | 2017-10-24 | 2019-04-25 | Shimano Inc. | Bremssystem |
| WO2019156427A1 (ko) * | 2018-02-09 | 2019-08-15 | 주식회사 공훈 | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법 |
| KR102113879B1 (ko) * | 2018-12-19 | 2020-05-26 | 주식회사 공훈 | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 |
| JP2020173381A (ja) * | 2019-04-12 | 2020-10-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識方法、話者認識装置、話者認識プログラム、データベース作成方法、データベース作成装置、及びデータベース作成プログラム |
| CN112735437A (zh) * | 2020-12-15 | 2021-04-30 | 厦门快商通科技股份有限公司 | 一种声纹比对方法及系统及装置及存储机构 |
| JP2021157081A (ja) * | 2020-03-27 | 2021-10-07 | 株式会社フュートレック | 話者認識装置、話者認識方法およびプログラム |
| WO2023089731A1 (ja) | 2021-11-18 | 2023-05-25 | エヴィクサー株式会社 | 判定システム、情報処理装置、方法、及びプログラム |
-
2016
- 2016-06-16 JP JP2016119448A patent/JP2017223848A/ja active Pending
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102018125989A1 (de) | 2017-10-24 | 2019-04-25 | Shimano Inc. | Bremssystem |
| DE102018125987A1 (de) | 2017-10-24 | 2019-04-25 | Shimano Inc. | Bremssystem |
| DE102018125988A1 (de) | 2017-10-24 | 2019-04-25 | Shimano, Inc. | Controller, von menschen angetriebenes fahrzeugsystem und steuerverfahren |
| KR101888058B1 (ko) * | 2018-02-09 | 2018-08-13 | 주식회사 공훈 | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 |
| WO2019156427A1 (ko) * | 2018-02-09 | 2019-08-15 | 주식회사 공훈 | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법 |
| KR102113879B1 (ko) * | 2018-12-19 | 2020-05-26 | 주식회사 공훈 | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 |
| JP2020173381A (ja) * | 2019-04-12 | 2020-10-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識方法、話者認識装置、話者認識プログラム、データベース作成方法、データベース作成装置、及びデータベース作成プログラム |
| CN111816184A (zh) * | 2019-04-12 | 2020-10-23 | 松下电器(美国)知识产权公司 | 讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质 |
| CN111816184B (zh) * | 2019-04-12 | 2024-02-23 | 松下电器(美国)知识产权公司 | 讲话人识别方法、识别装置以及记录介质 |
| US11315573B2 (en) | 2019-04-12 | 2022-04-26 | Panasonic Intellectual Property Corporation Of America | Speaker recognizing method, speaker recognizing apparatus, recording medium recording speaker recognizing program, database making method, database making apparatus, and recording medium recording database making program |
| JP7266448B2 (ja) | 2019-04-12 | 2023-04-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識方法、話者認識装置、及び話者認識プログラム |
| JP2021157081A (ja) * | 2020-03-27 | 2021-10-07 | 株式会社フュートレック | 話者認識装置、話者認識方法およびプログラム |
| JP7473910B2 (ja) | 2020-03-27 | 2024-04-24 | 株式会社フュートレック | 話者認識装置、話者認識方法およびプログラム |
| CN112735437A (zh) * | 2020-12-15 | 2021-04-30 | 厦门快商通科技股份有限公司 | 一种声纹比对方法及系统及装置及存储机构 |
| WO2023089731A1 (ja) | 2021-11-18 | 2023-05-25 | エヴィクサー株式会社 | 判定システム、情報処理装置、方法、及びプログラム |
| KR20240140058A (ko) | 2021-11-18 | 2024-09-24 | 에빅사 가부시키가이샤 | 판정 시스템, 정보 처리 장치, 방법, 및 프로그램 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2017223848A (ja) | 話者認識装置 | |
| Kamppari et al. | Word and phone level acoustic confidence scoring | |
| US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
| JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
| Becker et al. | Forensic speaker verification using formant features and Gaussian mixture models. | |
| US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
| Wang et al. | Shifted-delta MLP features for spoken language recognition | |
| CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
| US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
| US20140195232A1 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
| US10665227B2 (en) | Voice recognition device and voice recognition method | |
| JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
| JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
| Kumari et al. | Comparison of LPCC and MFCC features and GMM and GMM-UBM modeling for limited data speaker verification | |
| Ozaydin | Design of a text independent speaker recognition system | |
| CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
| JP2017187642A (ja) | 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム | |
| Kumar et al. | Mel spectrogram based automatic speaker verification using GMM-UBM | |
| KR101524848B1 (ko) | 오디오 유형 판별장치 | |
| Lin | An improved GMM-based clustering algorithm for efficient speaker identification | |
| Nguyen et al. | Resident identification in smart home by voice biometrics | |
| WO2014155652A1 (ja) | 話者検索システム、プログラム | |
| Ghahabi et al. | Speaker-corrupted embeddings for online speaker diarization | |
| Singh | Bayesian distance metric learning and its application in automatic speaker recognition systems | |
| Nath et al. | Feature Selection Method for Speaker Recognition using Neural Network |