JPH11190996A - 合成音声判別システム - Google Patents
合成音声判別システムInfo
- Publication number
- JPH11190996A JPH11190996A JP10236623A JP23662398A JPH11190996A JP H11190996 A JPH11190996 A JP H11190996A JP 10236623 A JP10236623 A JP 10236623A JP 23662398 A JP23662398 A JP 23662398A JP H11190996 A JPH11190996 A JP H11190996A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- synthesized
- information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 36
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 2
- 230000001427 coherent effect Effects 0.000 abstract description 5
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 235000005956 Cosmos caudatus Nutrition 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Abstract
(57)【要約】
【目的】 電話などを利用した悪用防止のため音声合成
された合成音声と肉声を容易に判別することそしてさら
に合成音声である場合にそのプロフィールを容易に知る
ことを可能にするシステム。 【構成】 人の声を基にした音声辞書を使用し音声合成
された合成音声に情報信号を埋め込み電話回線などを経
由した合成音声から前述の情報信号抽出分離し、この信
号を復号化することにより肉声か合成音声を判別すると
ともに必要に応じてその合成音声の出典を明らかにでき
る。
された合成音声と肉声を容易に判別することそしてさら
に合成音声である場合にそのプロフィールを容易に知る
ことを可能にするシステム。 【構成】 人の声を基にした音声辞書を使用し音声合成
された合成音声に情報信号を埋め込み電話回線などを経
由した合成音声から前述の情報信号抽出分離し、この信
号を復号化することにより肉声か合成音声を判別すると
ともに必要に応じてその合成音声の出典を明らかにでき
る。
Description
【0001】
【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、NC(ネットワークコンピュータ
ー)、STB(セット・トップ・ボックス)などを利用
して音声合成を行う際に、ユーザーが任意でかつ多様な
合成音声を発生するシステムに関し、特に音声が合成音
声か実際の人の声かを簡便に判定すること及びそれが合
成音声である場合その合成音声の生い立ちを簡便に明ら
かにするシステムに関する。
ーム機、専用機、NC(ネットワークコンピュータ
ー)、STB(セット・トップ・ボックス)などを利用
して音声合成を行う際に、ユーザーが任意でかつ多様な
合成音声を発生するシステムに関し、特に音声が合成音
声か実際の人の声かを簡便に判定すること及びそれが合
成音声である場合その合成音声の生い立ちを簡便に明ら
かにするシステムに関する。
【0002】
【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。
【0003】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。平成8年特
許願第213255号において提案しているように、人
間の声を基に各音声素片を含む各人間の音声辞書を作成
し前記音声辞書をユーザーに供給しユーザーは前記音声
辞書を任意に選択することにより、文章を任意の声質の
合成音声を得ることが可能である。
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。平成8年特
許願第213255号において提案しているように、人
間の声を基に各音声素片を含む各人間の音声辞書を作成
し前記音声辞書をユーザーに供給しユーザーは前記音声
辞書を任意に選択することにより、文章を任意の声質の
合成音声を得ることが可能である。
【0005】
【発明が解決しようとする課題】しかしながらある特定
の人の音声とその人の声を基に作成した音声辞書を使用
した合成音声とを必要に応じて悪用防止の点から判別す
る必要性がある。また合成された音声はそれぞれ合成ソ
フト及び任意の人の声を基に作成した音声辞書を使うわ
けであるから合成音声のプロフィール、すなわちどの合
成ソフトを使用し、どの音声辞書を使用したかというこ
とで合成音声の出典を明らかにすることができれば悪用
を防止する有用な手段となる。
の人の音声とその人の声を基に作成した音声辞書を使用
した合成音声とを必要に応じて悪用防止の点から判別す
る必要性がある。また合成された音声はそれぞれ合成ソ
フト及び任意の人の声を基に作成した音声辞書を使うわ
けであるから合成音声のプロフィール、すなわちどの合
成ソフトを使用し、どの音声辞書を使用したかというこ
とで合成音声の出典を明らかにすることができれば悪用
を防止する有用な手段となる。
【0006】
【課題を解決するための手段】即ち、本発明によって提
供される手段は合成音声か肉声かを判別することであ
り、また合成音声の場合はそのプロフィールを明らかに
することである。人間の声を基に各音声素片を含む各人
間の音声辞書を作成し、前記音声辞書をユーザーに供給
し、ユーザーは前記音声辞書を選択することにより、ユ
ーザーの文章を任意の声質で合成音声を得るシステムに
おいて、実際の人の声と合成音声とを判別する手段を有
することである。
供される手段は合成音声か肉声かを判別することであ
り、また合成音声の場合はそのプロフィールを明らかに
することである。人間の声を基に各音声素片を含む各人
間の音声辞書を作成し、前記音声辞書をユーザーに供給
し、ユーザーは前記音声辞書を選択することにより、ユ
ーザーの文章を任意の声質で合成音声を得るシステムに
おいて、実際の人の声と合成音声とを判別する手段を有
することである。
【0007】そして前記判別手段は以下のように A:実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段 B:必要に応じて前記埋め込まれた情報を抽出する抽出
手段 C:前記合成音声であることを示す抽出された情報の有
無を検出する検出手段 の各手段を有することにより、人の声と合成音声との判
別を効果的に達成することが可能となる。
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段 B:必要に応じて前記埋め込まれた情報を抽出する抽出
手段 C:前記合成音声であることを示す抽出された情報の有
無を検出する検出手段 の各手段を有することにより、人の声と合成音声との判
別を効果的に達成することが可能となる。
【0008】前記埋め込み手段は合成音声であることを
示す情報を1以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加すればよい。実際に合成音声
を悪用する場合に想定される媒体は一般電話の場合が多
い。電話の周波数特性は300Hzから3400Hzの範囲
であるのでこの情報信号は300Hzから3400Hzの範
囲であることが好ましい。また容易にこの信号の有無を
知られないためにも合成音声を示す情報を暗号化するこ
とも有用である。そしてこの合成音声か肉声かの判別し
た結果を必要に応じて必要な人に通知する通知手段を設
ければ簡単に知ることが可能となる。通知手段としては
ディスプレーに視覚的に表示する方法、或いは音声ガイ
ドで聴覚的に示す等の方法をとればよい。
示す情報を1以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加すればよい。実際に合成音声
を悪用する場合に想定される媒体は一般電話の場合が多
い。電話の周波数特性は300Hzから3400Hzの範囲
であるのでこの情報信号は300Hzから3400Hzの範
囲であることが好ましい。また容易にこの信号の有無を
知られないためにも合成音声を示す情報を暗号化するこ
とも有用である。そしてこの合成音声か肉声かの判別し
た結果を必要に応じて必要な人に通知する通知手段を設
ければ簡単に知ることが可能となる。通知手段としては
ディスプレーに視覚的に表示する方法、或いは音声ガイ
ドで聴覚的に示す等の方法をとればよい。
【0009】人間の声を基に各音声素片を含む各人間の
音声辞書を作成し前記音声辞書をユーザーに供給しユー
ザーは前記音声辞書を任意に選択することにより、任意
の文章をユーザーの任意の声質で合成音声を得るシステ
ムにおいて以下のように A:合成音声を含む成果物に情報を埋め込む埋め込み手
段 B:必要に応じて前記情報を抽出する抽出手段 C:前記情報を復号化する復号化手段 の各手段を有することにより任意の情報を合成音声を含
む成果物に埋め込み必要に応じてその情報を確認するこ
とが可能となる。
音声辞書を作成し前記音声辞書をユーザーに供給しユー
ザーは前記音声辞書を任意に選択することにより、任意
の文章をユーザーの任意の声質で合成音声を得るシステ
ムにおいて以下のように A:合成音声を含む成果物に情報を埋め込む埋め込み手
段 B:必要に応じて前記情報を抽出する抽出手段 C:前記情報を復号化する復号化手段 の各手段を有することにより任意の情報を合成音声を含
む成果物に埋め込み必要に応じてその情報を確認するこ
とが可能となる。
【0010】合成された音声のプロフィールを明らかに
する目的を達成するために合成音声か肉声かを判別する
目的を達成するためには音声合成ソフトの個別番号(シ
リアルナンバー)及び音声辞書の個別番号(シリアルナ
ンバー)から選ばれた少なくとも1つの情報を成果物
(合成音声を含む)に埋め込めばよい。そして必要に応
じてこの埋め込まれた情報を合成音声を含む成果物より
抽出し、復号化すれば合成音声を含む成果物の判別情報
が明らかになる。
する目的を達成するために合成音声か肉声かを判別する
目的を達成するためには音声合成ソフトの個別番号(シ
リアルナンバー)及び音声辞書の個別番号(シリアルナ
ンバー)から選ばれた少なくとも1つの情報を成果物
(合成音声を含む)に埋め込めばよい。そして必要に応
じてこの埋め込まれた情報を合成音声を含む成果物より
抽出し、復号化すれば合成音声を含む成果物の判別情報
が明らかになる。
【0011】埋め込み手段としては合成音声に音声合成
ソフトの個別番号(シリアルナンバー)及び音声辞書の
個別番号(シリアルナンバー)から選ばれた少なくとも
1つの情報を合成音声に付加可能な特定の情報信号に加
工し、この信号を合成音声に付加するればよい。付加し
た情報信号は必要に応じて合成音声から抽出し、復号化
すればよい。この結果、合成ソフトの個別番号、音声辞
書の個別番号が明らかになる。
ソフトの個別番号(シリアルナンバー)及び音声辞書の
個別番号(シリアルナンバー)から選ばれた少なくとも
1つの情報を合成音声に付加可能な特定の情報信号に加
工し、この信号を合成音声に付加するればよい。付加し
た情報信号は必要に応じて合成音声から抽出し、復号化
すればよい。この結果、合成ソフトの個別番号、音声辞
書の個別番号が明らかになる。
【0012】実際に合成音声を悪用する場合に想定され
る媒体は一般電話の場合が多い。電話の周波数特性は3
00Hzから3400Hzの範囲であるのでこの情報信号は
300Hzから3400Hzの範囲であることが好ましい。
また容易に合成音声を含む成果物に埋め込まれた情報を
知られないためにも情報を暗号化することも非常に有用
である。そしてこの情報を必要に応じて必要な人に通知
する通知手段を設ければ簡単に知ることが可能となる。
通知手段としてはディスプレーに視覚的に表示する方
法、或いは音声ガイドで聴覚的に示す等の方法をとれば
よい。
る媒体は一般電話の場合が多い。電話の周波数特性は3
00Hzから3400Hzの範囲であるのでこの情報信号は
300Hzから3400Hzの範囲であることが好ましい。
また容易に合成音声を含む成果物に埋め込まれた情報を
知られないためにも情報を暗号化することも非常に有用
である。そしてこの情報を必要に応じて必要な人に通知
する通知手段を設ければ簡単に知ることが可能となる。
通知手段としてはディスプレーに視覚的に表示する方
法、或いは音声ガイドで聴覚的に示す等の方法をとれば
よい。
【0013】音声辞書を作成する際に、音声素片をメモ
リーに格納するときに、合成音声であることを示す標識
または音声辞書の個体識別番号を同じメモリーに格納し
ておき、音声合成時に合成音声標識あるいは個体識別番
号を分離して、合成された音声に埋め込む。ここで、各
音声素片のウエーブ格納部分にシリアル番号を分割し
て、いくつかの音声素片のメモリーに割り当てて格納し
ておく方が望ましい。
リーに格納するときに、合成音声であることを示す標識
または音声辞書の個体識別番号を同じメモリーに格納し
ておき、音声合成時に合成音声標識あるいは個体識別番
号を分離して、合成された音声に埋め込む。ここで、各
音声素片のウエーブ格納部分にシリアル番号を分割し
て、いくつかの音声素片のメモリーに割り当てて格納し
ておく方が望ましい。
【0014】これまで説明してきた合成音声の判別シス
テムにおいて 1)音声辞書の利用者に対してユーザー登録するステッ
プ、 2)ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、 3)登録ユーザーの音声辞書利用状況を記録するステッ
プ というステップをさらに加えて、ユーザー登録は、ユー
ザーへの識別番号の付与によって行い、音声辞書をその
ユーザーに配布するときに付与した識別番号を埋め込ん
でおく。そうすれば、不明の合成音声を判別し、合成に
使われた音声辞書のユーザーを特定することができる。
テムにおいて 1)音声辞書の利用者に対してユーザー登録するステッ
プ、 2)ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、 3)登録ユーザーの音声辞書利用状況を記録するステッ
プ というステップをさらに加えて、ユーザー登録は、ユー
ザーへの識別番号の付与によって行い、音声辞書をその
ユーザーに配布するときに付与した識別番号を埋め込ん
でおく。そうすれば、不明の合成音声を判別し、合成に
使われた音声辞書のユーザーを特定することができる。
【0015】
【作 用】前述のシステムによればある特定の人の音声
とその人の声を基に作成した音声辞書を使用した合成音
声とを必要に応じて判別することが可能である。また成
果物である合成音声の出典を調べることも容易となり、
合成音声を悪用する大きなな抑止手段となるだけではな
く、実際にある人から脅迫の電話がかかって来た場合に
おいてもその人か或いはその人の声を基に作成した音声
辞書を使用した合成音声を用いてのいたずらかの判別が
容易であり、かつ必要に応じて音声合成、音声辞書のシ
リアルナンバーを調査することにより、悪用した者を探
す手段となる。
とその人の声を基に作成した音声辞書を使用した合成音
声とを必要に応じて判別することが可能である。また成
果物である合成音声の出典を調べることも容易となり、
合成音声を悪用する大きなな抑止手段となるだけではな
く、実際にある人から脅迫の電話がかかって来た場合に
おいてもその人か或いはその人の声を基に作成した音声
辞書を使用した合成音声を用いてのいたずらかの判別が
容易であり、かつ必要に応じて音声合成、音声辞書のシ
リアルナンバーを調査することにより、悪用した者を探
す手段となる。
【0016】
【実施例】以下、図面に従って本発明の実施例を説明す
る。図1は本発明の第1の実施例の概略を示している。
あるユーザーが任意の入力テキストを用いてある特定の
人の声を基にした音声辞書14を使用し音声合成を行
う。そしてこの音声は一般電話回線を通じて他の人に偽
の電話をかけた場合を想定する。まずあるユーザーは任
意の入力テキストテキスト解析部11においてテキスト
解析を行い、次に音声合成する。この場合図の音声合成
手段10に示してあるように、音声合成部12だけでな
く、合成音声であることを示す情報を埋め込む情報埋め
込み手段13を装備しておく。
る。図1は本発明の第1の実施例の概略を示している。
あるユーザーが任意の入力テキストを用いてある特定の
人の声を基にした音声辞書14を使用し音声合成を行
う。そしてこの音声は一般電話回線を通じて他の人に偽
の電話をかけた場合を想定する。まずあるユーザーは任
意の入力テキストテキスト解析部11においてテキスト
解析を行い、次に音声合成する。この場合図の音声合成
手段10に示してあるように、音声合成部12だけでな
く、合成音声であることを示す情報を埋め込む情報埋め
込み手段13を装備しておく。
【0017】この結果が合成音声を含む成果の音であ
る。これを一般電話回線を通して受けた受け手のシステ
ムには合成音声であるか実際の肉声であるかを判別する
判別手段15を装備しておく。電話に装備できない場合
は録音しておきその結果を解析してもよい。そしてこの
合成音声を含む成果の音から抽出手段16において合成
音声であることを示す情報を抽出する。そして17にお
いてこの情報の有無を判別しこの情報がある場合には合
成音声であることを電話の受け手に通知手段18により
通知すればよい。
る。これを一般電話回線を通して受けた受け手のシステ
ムには合成音声であるか実際の肉声であるかを判別する
判別手段15を装備しておく。電話に装備できない場合
は録音しておきその結果を解析してもよい。そしてこの
合成音声を含む成果の音から抽出手段16において合成
音声であることを示す情報を抽出する。そして17にお
いてこの情報の有無を判別しこの情報がある場合には合
成音声であることを電話の受け手に通知手段18により
通知すればよい。
【0018】前述したように実際に合成音声を悪用する
場合に想定される媒体は一般電話の場合が多い。電話の
周波数特性は300Hzから3400Hzの範囲であるので
この情報信号は300Hzから3400Hzの範囲である必
要がある。本実施例においては、合成音声であることを
示す情報信号を2900Hz及び3100Hzのそれぞれの
コヒーレントな周波数とし、図2に示す情報信号生成手
段20において作成する。この時の情報信号のパターン
を図3に示すように、2900Hzの信号を0.1秒 続
いて3100Hzの信号を0.02秒 そして無信号を
0.38秒という0.5秒周期のパターンを繰り返すも
のとした。
場合に想定される媒体は一般電話の場合が多い。電話の
周波数特性は300Hzから3400Hzの範囲であるので
この情報信号は300Hzから3400Hzの範囲である必
要がある。本実施例においては、合成音声であることを
示す情報信号を2900Hz及び3100Hzのそれぞれの
コヒーレントな周波数とし、図2に示す情報信号生成手
段20において作成する。この時の情報信号のパターン
を図3に示すように、2900Hzの信号を0.1秒 続
いて3100Hzの信号を0.02秒 そして無信号を
0.38秒という0.5秒周期のパターンを繰り返すも
のとした。
【0019】次にこの情報信号を情報信号付加手段21
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
【0020】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段22において2900Hz及び3100
Hzのそれぞれの情報信号を抽出分離する。そして検出手
段23においてこの2900Hz及び3100Hzのそれぞ
れの情報信号が存在しかつ図3に示す情報信号パターン
と合致しているかどうかにより合成音声を示す情報信号
の有無を検出する。そして存在する場合にはディスプレ
ーに合成音声であることを表示する。
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段22において2900Hz及び3100
Hzのそれぞれの情報信号を抽出分離する。そして検出手
段23においてこの2900Hz及び3100Hzのそれぞ
れの情報信号が存在しかつ図3に示す情報信号パターン
と合致しているかどうかにより合成音声を示す情報信号
の有無を検出する。そして存在する場合にはディスプレ
ーに合成音声であることを表示する。
【0021】図4に、第2の実施例の概略を示す。本実
施例においてもあるユーザーが任意の入力テキストを用
いてある特定の人の声を基にした音声辞書44を使用し
音声の合成を行う。そしてこの音声は一般電話回線を通
じて他の人に偽の電話をかけた場合を想定する。まずあ
るユーザーは任意の入力テキストをテキスト解析部41
でテキスト解析を行い音声合成する。この場合音声合成
手段40に示してあるように、音声合成部42だけでな
く、情報埋め込み手段43を装備しておく。この埋め込
み手段43では音声合成ソフトのシリアルナンバーおよ
び音声辞書のシリアルナンバーを合成音声に埋め込む。
施例においてもあるユーザーが任意の入力テキストを用
いてある特定の人の声を基にした音声辞書44を使用し
音声の合成を行う。そしてこの音声は一般電話回線を通
じて他の人に偽の電話をかけた場合を想定する。まずあ
るユーザーは任意の入力テキストをテキスト解析部41
でテキスト解析を行い音声合成する。この場合音声合成
手段40に示してあるように、音声合成部42だけでな
く、情報埋め込み手段43を装備しておく。この埋め込
み手段43では音声合成ソフトのシリアルナンバーおよ
び音声辞書のシリアルナンバーを合成音声に埋め込む。
【0022】この結果が合成音声を含み音声合成ソフト
及び音声辞書のシリアルナンバーが埋め込んである成果
の音である。これを一般電話回線を通して受けた受け手
のシステムには情報取り出し手段45を装備しておく。
先ほどと同様に電話に装備できない場合は録音し、その
結果を解析してももよい。そしてこの合成音声を含む成
果の音から抽出手段46において合成ソフトおよび音声
辞書のシリアルナンバー情報を抽出する。そして47に
おいてこの情報を復号化し電話の受け手に通知手段48
により通知すればよい。
及び音声辞書のシリアルナンバーが埋め込んである成果
の音である。これを一般電話回線を通して受けた受け手
のシステムには情報取り出し手段45を装備しておく。
先ほどと同様に電話に装備できない場合は録音し、その
結果を解析してももよい。そしてこの合成音声を含む成
果の音から抽出手段46において合成ソフトおよび音声
辞書のシリアルナンバー情報を抽出する。そして47に
おいてこの情報を復号化し電話の受け手に通知手段48
により通知すればよい。
【0023】前述したよう悪用される媒体は電話の場合
が多いので、情報信号は300Hzから3400Hzの範囲
である必要がある。本実施例においては、各数字を以下
の各周波数を割り付ける。1:400Hz及び1900
Hz 2:550Hz及び2050Hz 3:700H
z及び2200Hz 4:850Hz及び2350H
z 5:1000Hz及び2500Hz 6:1150
Hz2650Hz 7:1300Hz及び2800Hz
8:1300Hz及び2950Hz 9:1450H
z及び2100Hz 0:1600Hz及び3250と
する。
が多いので、情報信号は300Hzから3400Hzの範囲
である必要がある。本実施例においては、各数字を以下
の各周波数を割り付ける。1:400Hz及び1900
Hz 2:550Hz及び2050Hz 3:700H
z及び2200Hz 4:850Hz及び2350H
z 5:1000Hz及び2500Hz 6:1150
Hz2650Hz 7:1300Hz及び2800Hz
8:1300Hz及び2950Hz 9:1450H
z及び2100Hz 0:1600Hz及び3250と
する。
【0024】また合成ソフトのシリアルナンバーの先頭
を表す情報信号を500Hz及び1050Hz及び30
00Hz、合成ソフトのシリアルナンバーの最後を表す
情報信号を500Hz及び900Hz及び2850Hz
とする。音声辞書のシリアルナンバーの先頭を表す情報
信号を800Hz及び1200Hz及び3150Hz、
音声辞書のシリアルナンバーの最後を表す情報信号を8
00Hz及び1150Hz及び2700Hzとする。そ
れぞれの周波数はコヒーレントな周波数とし図5に示す
50の情報変換手段部分においてそれぞれ合成ソフト及
び音声辞書のシリアルナンバーをうけとり前述の割付を
基に変換を行い、51においてそれぞれの情報信号発生
する。
を表す情報信号を500Hz及び1050Hz及び30
00Hz、合成ソフトのシリアルナンバーの最後を表す
情報信号を500Hz及び900Hz及び2850Hz
とする。音声辞書のシリアルナンバーの先頭を表す情報
信号を800Hz及び1200Hz及び3150Hz、
音声辞書のシリアルナンバーの最後を表す情報信号を8
00Hz及び1150Hz及び2700Hzとする。そ
れぞれの周波数はコヒーレントな周波数とし図5に示す
50の情報変換手段部分においてそれぞれ合成ソフト及
び音声辞書のシリアルナンバーをうけとり前述の割付を
基に変換を行い、51においてそれぞれの情報信号発生
する。
【0025】合成ソフトおよび音声辞書のシリアルナン
バーがそれぞれ541732、285674とした図6
に合成ソフトを基にした情報信号のパターンと図7に音
声辞書のシリアルナンバーを基にした情報信号のパター
ンを示す。ここでそれぞれ図6及び図7の縦軸は情報信
号のそれぞれのコヒーレントな周波数を表し横軸は時間
をあらわしている。それぞれの情報信号のタイミングは
図示してあるように各1.0秒毎とした。
バーがそれぞれ541732、285674とした図6
に合成ソフトを基にした情報信号のパターンと図7に音
声辞書のシリアルナンバーを基にした情報信号のパター
ンを示す。ここでそれぞれ図6及び図7の縦軸は情報信
号のそれぞれのコヒーレントな周波数を表し横軸は時間
をあらわしている。それぞれの情報信号のタイミングは
図示してあるように各1.0秒毎とした。
【0026】図6における3つの61は合成ソフトのシ
リアルナンバーの先頭を表し、3つの62は合成ソフト
のシリアルナンバーの最後を表している。そしてその間
が合成ソフトのシリアルナンバーを表している。同様に
図7における3つの71は音声辞書のシリアルナンバー
の先頭を表し、3つの72は音声辞書のシリアルナンバ
ーの最後を表している。そしてその間が音声辞書のシリ
アルナンバーを表している。
リアルナンバーの先頭を表し、3つの62は合成ソフト
のシリアルナンバーの最後を表している。そしてその間
が合成ソフトのシリアルナンバーを表している。同様に
図7における3つの71は音声辞書のシリアルナンバー
の先頭を表し、3つの72は音声辞書のシリアルナンバ
ーの最後を表している。そしてその間が音声辞書のシリ
アルナンバーを表している。
【0027】次にこの情報信号を情報信号付加手段52
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
【0028】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段53においてそれぞれの情報信号を分
離する。そして復号手段53においてこの情報信号を復
号化する。復号化は前述の情報信号化の逆手順、すなわ
ち抽出分離した各コヒーレントな周波数信号から各情報
を読み出す。そして、合成ソフトのシリアルナンバー或
いは音声辞書のシリアルナンバー或いはその両者をディ
スプレーに表示する。
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段53においてそれぞれの情報信号を分
離する。そして復号手段53においてこの情報信号を復
号化する。復号化は前述の情報信号化の逆手順、すなわ
ち抽出分離した各コヒーレントな周波数信号から各情報
を読み出す。そして、合成ソフトのシリアルナンバー或
いは音声辞書のシリアルナンバー或いはその両者をディ
スプレーに表示する。
【0029】図8は第3の実施例のフローである。ここ
では、音声を入力し81の音声認識手段で音素を検出
し、82の音声合成手段において、検出した音素をB氏
の声をもとに作成した84の音声辞書Bの音素に置き換
え、別の人の声を合成し合成音声Bを出力する。
では、音声を入力し81の音声認識手段で音素を検出
し、82の音声合成手段において、検出した音素をB氏
の声をもとに作成した84の音声辞書Bの音素に置き換
え、別の人の声を合成し合成音声Bを出力する。
【0030】図9は、音声辞書の個体識別番号(ここで
は、57639という5桁の数字)が、音声辞書のメモ
リーテーブルに格納された様態を図示したものである。
84の音声辞書Bを作成する時、B氏の声から切り出し
た音素片を格納するメモリーテーブルに音声辞書の個体
識別番号を格納する。81は、個体識別番号の5桁の数
字が格納される場所を示している。切り出された音素片
から、k1、k2、k3、k4、k5を選び、それらを
5桁の認識番号N1,N2,N3,N4,N5に割り振
って、音素片のメモリーテーブルに格納する。92は、
個体識別番号57639が、割り振られた様態を示して
いる。93は、音声素片k3のウェーブ格納メモリーに
割り当てられた個体識別番号の部分である「6」の格納
を示した図である。
は、57639という5桁の数字)が、音声辞書のメモ
リーテーブルに格納された様態を図示したものである。
84の音声辞書Bを作成する時、B氏の声から切り出し
た音素片を格納するメモリーテーブルに音声辞書の個体
識別番号を格納する。81は、個体識別番号の5桁の数
字が格納される場所を示している。切り出された音素片
から、k1、k2、k3、k4、k5を選び、それらを
5桁の認識番号N1,N2,N3,N4,N5に割り振
って、音素片のメモリーテーブルに格納する。92は、
個体識別番号57639が、割り振られた様態を示して
いる。93は、音声素片k3のウェーブ格納メモリーに
割り当てられた個体識別番号の部分である「6」の格納
を示した図である。
【0031】ユーザーAは、音声合成のために音声辞書
のプロバイダー85に対して音声辞書Bの供給を依頼す
る。この時、プロバイダーは登録ユーザーにのみ音声辞
書を供給することとし、登録がなされていなければ、8
6の認証機関に登録する。プロバイダーは、登録ユーザ
ーへ音声辞書を供給した場合、ユーザーの認識番号と音
声辞書の個体識別番号とを認証機関86に報告する。こ
のようにして、認証機関では、登録ユーザーの音声辞書
使用の状況を記録する。
のプロバイダー85に対して音声辞書Bの供給を依頼す
る。この時、プロバイダーは登録ユーザーにのみ音声辞
書を供給することとし、登録がなされていなければ、8
6の認証機関に登録する。プロバイダーは、登録ユーザ
ーへ音声辞書を供給した場合、ユーザーの認識番号と音
声辞書の個体識別番号とを認証機関86に報告する。こ
のようにして、認証機関では、登録ユーザーの音声辞書
使用の状況を記録する。
【0032】図10に82の音声合成手段での個体識別
番号埋め込みのフローを示す。音声辞書の各音声素片に
格納された識別番号の部分は、101の識別番号分離手
段で分離される。分離された情報は、102の識別番号
再成手段でもとの形に戻し、103の識別信号生成手段
において実施例2で説明したような300Hzから34
00Hzの信号に変換し、104において合成音より7
db低くして付加することで埋め込む。
番号埋め込みのフローを示す。音声辞書の各音声素片に
格納された識別番号の部分は、101の識別番号分離手
段で分離される。分離された情報は、102の識別番号
再成手段でもとの形に戻し、103の識別信号生成手段
において実施例2で説明したような300Hzから34
00Hzの信号に変換し、104において合成音より7
db低くして付加することで埋め込む。
【0032】音声辞書Bを使って、合成された合成音声
Bは、判別手段83において実施例2と同様に判別され
る。ここで必要なら認証機関86に問い合わせて、合成
音声に用いられた音声辞書のユーザー名を判別する。
Bは、判別手段83において実施例2と同様に判別され
る。ここで必要なら認証機関86に問い合わせて、合成
音声に用いられた音声辞書のユーザー名を判別する。
【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を使用し作成した合成音声と
実際の肉声かを容易に判別する可能となり、さらに合成
音声のプロフィールを追跡することが可能となる。
間の声を基にした音声辞書を使用し作成した合成音声と
実際の肉声かを容易に判別する可能となり、さらに合成
音声のプロフィールを追跡することが可能となる。
【図1】第1の実施例の概要
【図2】第1の実施例のフロチャート
【図3】情報信号パターン
【図4】第2の実施例の概要
【図5】第2の実施例のフロチャート
【図6】合成ソフトのシリアルナンバーの情報信号パタ
ーン
ーン
【図7】音声辞書のシリアルナンバーの情報信号パター
ン
ン
【図8】第3の実施例のフローチャート
【図9】音声辞書の個別識別番号の埋め込みの様態
【図10】個別識別番号の埋め込みのフローチャート
10 音声合成手段 15 判別手段 40 音声合成手段 45 情報取り出し手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 五十嵐 伸吾 埼玉県川越市藤間137−1 ソフィア川越 604 (72)発明者 栗田 洋 神奈川県藤沢市片瀬1丁目4番13号フェリ ス片瀬3−201 (72)発明者 加藤 圭一 神奈川県川崎市宮前区馬絹1634−1コスモ 宮崎台アバンシード305号
Claims (18)
- 【請求項1】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいて、実
際の人の声と前記音声辞書を使用し合成した合成音声と
を判別する手段を有することを特徴とする合成音声判別
システム。 - 【請求項2】前記判別手段は A:実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段 B:必要に応じて前記埋め込まれた情報を抽出する抽出
手段 C:前記合成音声であることを示す抽出された情報の有
無を検出する検出手段 以上の手段を有することにより実際の人の声と合成音声
を判別することを特徴とする特許請求範囲第1項記載の
合成音声判別システム。 - 【請求項3】前記埋め込み手段は合成音声であることを
示す情報を1以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加することを特徴とする特許請
求範囲第2項記載の合成音声判別システム。 - 【請求項4】前記合成音声に付加される情報信号は30
0Hzから3400Hzの範囲の情報信号であることを特徴
とする特許請求範囲第3項記載の合成音声判別システ
ム。 - 【請求項5】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいて A:合成音声を含む成果物に情報を埋め込む埋め込み手
段 B:必要に応じて前記情報を抽出する抽出手段 C:前記抽出した情報を復号化する復号化手段 以上の手段を有することを特徴とする合成音声判別シス
テム。 - 【請求項6】前記合成音を含む成果物に埋め込む情報
は、その合成音が合成されるまでの履歴を示す情報であ
ることを特徴とする特許請求範囲第5項記載の合成音声
判別システム。 - 【請求項7】前記合成音を含む成果物に埋め込む情報が
音声合成ソフトの個別番号(シリアルナンバー)及び音
声辞書の個別番号(シリアルナンバー)から選ばれた少
なくとも1つの情報であることを特徴とする特許請求範
囲第5項記載の合成音声判別システム。 - 【請求項8】前記埋め込み手段は情報を特定の情報信号
に変換し合成音声に前記特定の情報信号を付加すること
であることを特徴とする特許請求範囲第5項記載の合成
音声判別システム。 - 【請求項9】前記付加する情報信号が300Hzから34
00Hzの範囲の情報信号であることを特徴とする特許請
求範囲第8項記載の合成音声判別システム。 - 【請求項10】前記情報は暗号化されたことを特徴とす
る情報であることを特徴とする特許請求範囲第5項記載
の合成音声判別システム。 - 【請求項11】前記合成音声か否かの結果及び前記合成
音声を含む成果物に埋め込まれた情報から選ばれた少な
くとも1つを通知する通知手段を有することを特徴とす
る特許請求範囲第1項記載および第5項記載の合成音声
判別システム。 - 【請求項12】音声辞書を作成する際、各音声素片を格
納するメモリーに合成音声を示す標識或いは音声辞書の
個体識別記号を示す標識を付加してあることを特徴とす
る特許請求範囲第1項記載および第5項記載の合成音声
判別システム。 - 【請求項13】前記音声辞書の個体識別記号を示す標識
は各音声素片のメモリーに分割して格納し、音声合成時
に音声素片から分離し合成音声に音声辞書個体識別記号
を埋め込むことを特徴とする特許請求範囲12項記載の
合成音声判別システム。 - 【請求項14】前記音声素片のウエーブ格納の部分に前
記個体識別番号を格納することを特徴とする特許請求範
囲第13項記載の合成音声判別システム。 - 【請求項15】人間の声を基に音声辞書を作成し、前記
音声辞書を使用して音声合成を行うシステムにおいて 1)音声辞書の利用者に対してユーザー登録するステッ
プ、 2)ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、 3)登録ユーザーの音声辞書利用状況を記録するステッ
プ、 以上を特徴とする特許請求範囲第5項、第6項、第7
項、第8項、第10項および第12項記載の合成音声判
別システム。 - 【請求項16】前記ユーザー登録は、ユーザーへの識別
番号を付与によって行われることを特徴とする特許請求
範囲第15項記載の合成音声判別システム。 - 【請求項17】前記音声辞書の配布において、ユーザー
の識別番号を音声辞書に埋め込む作業が行われることを
特徴とする特許請求範囲第15項記載の合成音声判別シ
ステム。 - 【請求項18】合成音声に埋め込まれた情報を抽出し、
合成音声の使用者を検出することを特徴とする特許請求
範囲第15項記載の合成音声判別システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10236623A JPH11190996A (ja) | 1997-08-15 | 1998-08-10 | 合成音声判別システム |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9-233291 | 1997-08-15 | ||
| JP23329197 | 1997-08-15 | ||
| JP10236623A JPH11190996A (ja) | 1997-08-15 | 1998-08-10 | 合成音声判別システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11190996A true JPH11190996A (ja) | 1999-07-13 |
Family
ID=26530968
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10236623A Pending JPH11190996A (ja) | 1997-08-15 | 1998-08-10 | 合成音声判別システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11190996A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
| JP2014511154A (ja) * | 2011-03-17 | 2014-05-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声変換のための方法、システム、およびコンピュータ・プログラム製品、ならびに音声変換を再構築するための方法およびシステム |
| WO2014199450A1 (ja) * | 2013-06-11 | 2014-12-18 | 株式会社東芝 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
| KR20220040813A (ko) * | 2020-09-24 | 2022-03-31 | 장원준 | 인공지능 음성의 컴퓨팅 탐지 장치 |
| CN116153337A (zh) * | 2023-04-20 | 2023-05-23 | 北京中电慧声科技有限公司 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
-
1998
- 1998-08-10 JP JP10236623A patent/JPH11190996A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
| JP2014511154A (ja) * | 2011-03-17 | 2014-05-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声変換のための方法、システム、およびコンピュータ・プログラム製品、ならびに音声変換を再構築するための方法およびシステム |
| WO2014199450A1 (ja) * | 2013-06-11 | 2014-12-18 | 株式会社東芝 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
| JPWO2014199450A1 (ja) * | 2013-06-11 | 2017-02-23 | 株式会社東芝 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
| US9881623B2 (en) | 2013-06-11 | 2018-01-30 | Kabushiki Kaisha Toshiba | Digital watermark embedding device, digital watermark embedding method, and computer-readable recording medium |
| KR20220040813A (ko) * | 2020-09-24 | 2022-03-31 | 장원준 | 인공지능 음성의 컴퓨팅 탐지 장치 |
| CN116153337A (zh) * | 2023-04-20 | 2023-05-23 | 北京中电慧声科技有限公司 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Roman et al. | Proactive detection of voice cloning with localized watermarking | |
| EP0737351B1 (en) | Method and system for detecting and generating transient conditions in auditory signals | |
| US9792912B2 (en) | Method for verifying the identity of a speaker, system therefore and computer readable medium | |
| CN104123115B (zh) | 一种音频信息处理方法及电子设备 | |
| TW440811B (en) | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system | |
| CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
| CN102203853B (zh) | 合成语音的方法和装置 | |
| EP1100073A2 (en) | Classifying audio signals for later data retrieval | |
| JP3812848B2 (ja) | 音声合成装置 | |
| CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
| KR20010034083A (ko) | 진동파의 부호화 방법 및 복호화 방법 | |
| JP2005080110A (ja) | 音声会議システム、音声会議端末装置およびプログラム | |
| CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
| CN121889791A (zh) | 认证音频信号的方法 | |
| JPH11190996A (ja) | 合成音声判別システム | |
| Chen et al. | Audio privacy: reducing speech intelligibility while preserving environmental sounds | |
| KR102134990B1 (ko) | 주파수 섹션 분석을 통한 음성 트레이닝 시스템 | |
| Oermann et al. | Verifier-tuple for audio-forensic to determine speaker environment | |
| CN105340003B (zh) | 语音合成字典创建装置以及语音合成字典创建方法 | |
| US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
| JP2002297199A (ja) | 合成音声判別方法と装置及び音声合成装置 | |
| JPH1125112A (ja) | 対話音声処理方法及び装置、記録媒体 | |
| JP2006227330A (ja) | 音響信号に対する情報の埋め込み装置・方法、音響信号からの情報の抽出装置・方法 | |
| JP4531679B2 (ja) | マルチスタンダード採点を行うカラオケ採点装置 | |
| US20020126830A1 (en) | Phone apparatus having a ringing device |