JPH11190996A

JPH11190996A - 合成音声判別システム

Info

Publication number: JPH11190996A
Application number: JP10236623A
Authority: JP
Inventors: Shingo Igarashi; 伸吾五十嵐; Hiroshi Kurita; 洋栗田; Keiichi Kato; 圭一加藤
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-08-15
Filing date: 1998-08-10
Publication date: 1999-07-13

Abstract

(57)【要約】【目的】電話などを利用した悪用防止のため音声合成
された合成音声と肉声を容易に判別することそしてさら
に合成音声である場合にそのプロフィールを容易に知る
ことを可能にするシステム。【構成】人の声を基にした音声辞書を使用し音声合成
された合成音声に情報信号を埋め込み電話回線などを経
由した合成音声から前述の情報信号抽出分離し、この信
号を復号化することにより肉声か合成音声を判別すると
ともに必要に応じてその合成音声の出典を明らかにでき
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、ＮＣ（ネットワークコンピュータ
ー）、ＳＴＢ（セット・トップ・ボックス）などを利用
して音声合成を行う際に、ユーザーが任意でかつ多様な
合成音声を発生するシステムに関し、特に音声が合成音
声か実際の人の声かを簡便に判定すること及びそれが合
成音声である場合その合成音声の生い立ちを簡便に明ら
かにするシステムに関する。

【０００２】

【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。

【０００３】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。平成８年特
許願第２１３２５５号において提案しているように、人
間の声を基に各音声素片を含む各人間の音声辞書を作成
し前記音声辞書をユーザーに供給しユーザーは前記音声
辞書を任意に選択することにより、文章を任意の声質の
合成音声を得ることが可能である。

【０００５】

【発明が解決しようとする課題】しかしながらある特定
の人の音声とその人の声を基に作成した音声辞書を使用
した合成音声とを必要に応じて悪用防止の点から判別す
る必要性がある。また合成された音声はそれぞれ合成ソ
フト及び任意の人の声を基に作成した音声辞書を使うわ
けであるから合成音声のプロフィール、すなわちどの合
成ソフトを使用し、どの音声辞書を使用したかというこ
とで合成音声の出典を明らかにすることができれば悪用
を防止する有用な手段となる。

【０００６】

【課題を解決するための手段】即ち、本発明によって提
供される手段は合成音声か肉声かを判別することであ
り、また合成音声の場合はそのプロフィールを明らかに
することである。人間の声を基に各音声素片を含む各人
間の音声辞書を作成し、前記音声辞書をユーザーに供給
し、ユーザーは前記音声辞書を選択することにより、ユ
ーザーの文章を任意の声質で合成音声を得るシステムに
おいて、実際の人の声と合成音声とを判別する手段を有
することである。

【０００７】そして前記判別手段は以下のようにＡ：実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段Ｂ：必要に応じて前記埋め込まれた情報を抽出する抽出
手段Ｃ：前記合成音声であることを示す抽出された情報の有
無を検出する検出手段の各手段を有することにより、人の声と合成音声との判
別を効果的に達成することが可能となる。

【０００８】前記埋め込み手段は合成音声であることを
示す情報を１以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加すればよい。実際に合成音声
を悪用する場合に想定される媒体は一般電話の場合が多
い。電話の周波数特性は３００Hzから３４００Hzの範囲
であるのでこの情報信号は３００Hzから３４００Hzの範
囲であることが好ましい。また容易にこの信号の有無を
知られないためにも合成音声を示す情報を暗号化するこ
とも有用である。そしてこの合成音声か肉声かの判別し
た結果を必要に応じて必要な人に通知する通知手段を設
ければ簡単に知ることが可能となる。通知手段としては
ディスプレーに視覚的に表示する方法、或いは音声ガイ
ドで聴覚的に示す等の方法をとればよい。

【０００９】人間の声を基に各音声素片を含む各人間の
音声辞書を作成し前記音声辞書をユーザーに供給しユー
ザーは前記音声辞書を任意に選択することにより、任意
の文章をユーザーの任意の声質で合成音声を得るシステ
ムにおいて以下のようにＡ：合成音声を含む成果物に情報を埋め込む埋め込み手
段Ｂ：必要に応じて前記情報を抽出する抽出手段Ｃ：前記情報を復号化する復号化手段の各手段を有することにより任意の情報を合成音声を含
む成果物に埋め込み必要に応じてその情報を確認するこ
とが可能となる。

【００１０】合成された音声のプロフィールを明らかに
する目的を達成するために合成音声か肉声かを判別する
目的を達成するためには音声合成ソフトの個別番号（シ
リアルナンバー）及び音声辞書の個別番号（シリアルナ
ンバー）から選ばれた少なくとも１つの情報を成果物
（合成音声を含む）に埋め込めばよい。そして必要に応
じてこの埋め込まれた情報を合成音声を含む成果物より
抽出し、復号化すれば合成音声を含む成果物の判別情報
が明らかになる。

【００１１】埋め込み手段としては合成音声に音声合成
ソフトの個別番号（シリアルナンバー）及び音声辞書の
個別番号（シリアルナンバー）から選ばれた少なくとも
１つの情報を合成音声に付加可能な特定の情報信号に加
工し、この信号を合成音声に付加するればよい。付加し
た情報信号は必要に応じて合成音声から抽出し、復号化
すればよい。この結果、合成ソフトの個別番号、音声辞
書の個別番号が明らかになる。

【００１２】実際に合成音声を悪用する場合に想定され
る媒体は一般電話の場合が多い。電話の周波数特性は３
００Hzから３４００Hzの範囲であるのでこの情報信号は
３００Hzから３４００Hzの範囲であることが好ましい。
また容易に合成音声を含む成果物に埋め込まれた情報を
知られないためにも情報を暗号化することも非常に有用
である。そしてこの情報を必要に応じて必要な人に通知
する通知手段を設ければ簡単に知ることが可能となる。
通知手段としてはディスプレーに視覚的に表示する方
法、或いは音声ガイドで聴覚的に示す等の方法をとれば
よい。

【００１３】音声辞書を作成する際に、音声素片をメモ
リーに格納するときに、合成音声であることを示す標識
または音声辞書の個体識別番号を同じメモリーに格納し
ておき、音声合成時に合成音声標識あるいは個体識別番
号を分離して、合成された音声に埋め込む。ここで、各
音声素片のウエーブ格納部分にシリアル番号を分割し
て、いくつかの音声素片のメモリーに割り当てて格納し
ておく方が望ましい。

【００１４】これまで説明してきた合成音声の判別シス
テムにおいて１）音声辞書の利用者に対してユーザー登録するステッ
プ、２）ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、３）登録ユーザーの音声辞書利用状況を記録するステッ
プというステップをさらに加えて、ユーザー登録は、ユー
ザーへの識別番号の付与によって行い、音声辞書をその
ユーザーに配布するときに付与した識別番号を埋め込ん
でおく。そうすれば、不明の合成音声を判別し、合成に
使われた音声辞書のユーザーを特定することができる。

【００１５】

【作用】前述のシステムによればある特定の人の音声
とその人の声を基に作成した音声辞書を使用した合成音
声とを必要に応じて判別することが可能である。また成
果物である合成音声の出典を調べることも容易となり、
合成音声を悪用する大きなな抑止手段となるだけではな
く、実際にある人から脅迫の電話がかかって来た場合に
おいてもその人か或いはその人の声を基に作成した音声
辞書を使用した合成音声を用いてのいたずらかの判別が
容易であり、かつ必要に応じて音声合成、音声辞書のシ
リアルナンバーを調査することにより、悪用した者を探
す手段となる。

【００１６】

【実施例】以下、図面に従って本発明の実施例を説明す
る。図１は本発明の第１の実施例の概略を示している。
あるユーザーが任意の入力テキストを用いてある特定の
人の声を基にした音声辞書１４を使用し音声合成を行
う。そしてこの音声は一般電話回線を通じて他の人に偽
の電話をかけた場合を想定する。まずあるユーザーは任
意の入力テキストテキスト解析部１１においてテキスト
解析を行い、次に音声合成する。この場合図の音声合成
手段１０に示してあるように、音声合成部１２だけでな
く、合成音声であることを示す情報を埋め込む情報埋め
込み手段１３を装備しておく。

【００１７】この結果が合成音声を含む成果の音であ
る。これを一般電話回線を通して受けた受け手のシステ
ムには合成音声であるか実際の肉声であるかを判別する
判別手段１５を装備しておく。電話に装備できない場合
は録音しておきその結果を解析してもよい。そしてこの
合成音声を含む成果の音から抽出手段１６において合成
音声であることを示す情報を抽出する。そして１７にお
いてこの情報の有無を判別しこの情報がある場合には合
成音声であることを電話の受け手に通知手段１８により
通知すればよい。

【００１８】前述したように実際に合成音声を悪用する
場合に想定される媒体は一般電話の場合が多い。電話の
周波数特性は３００Hzから３４００Hzの範囲であるので
この情報信号は３００Hzから３４００Hzの範囲である必
要がある。本実施例においては、合成音声であることを
示す情報信号を２９００Hz及び３１００Hzのそれぞれの
コヒーレントな周波数とし、図２に示す情報信号生成手
段２０において作成する。この時の情報信号のパターン
を図３に示すように、２９００Hzの信号を０．１秒続
いて３１００Hzの信号を０．０２秒そして無信号を
０．３８秒という０．５秒周期のパターンを繰り返すも
のとした。

【００１９】次にこの情報信号を情報信号付加手段２１
において合成音声に付加する。この時合成音声によるマ
スキング効果（合成音声により合成音声であることを表
す情報信号をおおい隠す）を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより７ｄＢ
低く付加する。

【００２０】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段２２において２９００Hz及び３１００
Hzのそれぞれの情報信号を抽出分離する。そして検出手
段２３においてこの２９００Hz及び３１００Hzのそれぞ
れの情報信号が存在しかつ図３に示す情報信号パターン
と合致しているかどうかにより合成音声を示す情報信号
の有無を検出する。そして存在する場合にはディスプレ
ーに合成音声であることを表示する。

【００２１】図４に、第２の実施例の概略を示す。本実
施例においてもあるユーザーが任意の入力テキストを用
いてある特定の人の声を基にした音声辞書４４を使用し
音声の合成を行う。そしてこの音声は一般電話回線を通
じて他の人に偽の電話をかけた場合を想定する。まずあ
るユーザーは任意の入力テキストをテキスト解析部４１
でテキスト解析を行い音声合成する。この場合音声合成
手段４０に示してあるように、音声合成部４２だけでな
く、情報埋め込み手段４３を装備しておく。この埋め込
み手段４３では音声合成ソフトのシリアルナンバーおよ
び音声辞書のシリアルナンバーを合成音声に埋め込む。

【００２２】この結果が合成音声を含み音声合成ソフト
及び音声辞書のシリアルナンバーが埋め込んである成果
の音である。これを一般電話回線を通して受けた受け手
のシステムには情報取り出し手段４５を装備しておく。
先ほどと同様に電話に装備できない場合は録音し、その
結果を解析してももよい。そしてこの合成音声を含む成
果の音から抽出手段４６において合成ソフトおよび音声
辞書のシリアルナンバー情報を抽出する。そして４７に
おいてこの情報を復号化し電話の受け手に通知手段４８
により通知すればよい。

【００２３】前述したよう悪用される媒体は電話の場合
が多いので、情報信号は３００Hzから３４００Hzの範囲
である必要がある。本実施例においては、各数字を以下
の各周波数を割り付ける。１：４００Ｈｚ及び１９００
Ｈｚ２：５５０Ｈｚ及び２０５０Ｈｚ３：７００Ｈ
ｚ及び２２００Ｈｚ４：８５０Ｈｚ及び２３５０Ｈ
ｚ５：１０００Ｈｚ及び２５００Ｈｚ６：１１５０
Ｈｚ２６５０Ｈｚ７：１３００Ｈｚ及び２８００Ｈｚ
８：１３００Ｈｚ及び２９５０Ｈｚ９：１４５０Ｈ
ｚ及び２１００Ｈｚ０：１６００Ｈｚ及び３２５０と
する。

【００２４】また合成ソフトのシリアルナンバーの先頭
を表す情報信号を５００Ｈｚ及び１０５０Ｈｚ及び３０
００Ｈｚ、合成ソフトのシリアルナンバーの最後を表す
情報信号を５００Ｈｚ及び９００Ｈｚ及び２８５０Ｈｚ
とする。音声辞書のシリアルナンバーの先頭を表す情報
信号を８００Ｈｚ及び１２００Ｈｚ及び３１５０Ｈｚ、
音声辞書のシリアルナンバーの最後を表す情報信号を８
００Ｈｚ及び１１５０Ｈｚ及び２７００Ｈｚとする。そ
れぞれの周波数はコヒーレントな周波数とし図５に示す
５０の情報変換手段部分においてそれぞれ合成ソフト及
び音声辞書のシリアルナンバーをうけとり前述の割付を
基に変換を行い、５１においてそれぞれの情報信号発生
する。

【００２５】合成ソフトおよび音声辞書のシリアルナン
バーがそれぞれ５４１７３２、２８５６７４とした図６
に合成ソフトを基にした情報信号のパターンと図７に音
声辞書のシリアルナンバーを基にした情報信号のパター
ンを示す。ここでそれぞれ図６及び図７の縦軸は情報信
号のそれぞれのコヒーレントな周波数を表し横軸は時間
をあらわしている。それぞれの情報信号のタイミングは
図示してあるように各１．０秒毎とした。

【００２６】図６における３つの６１は合成ソフトのシ
リアルナンバーの先頭を表し、３つの６２は合成ソフト
のシリアルナンバーの最後を表している。そしてその間
が合成ソフトのシリアルナンバーを表している。同様に
図７における３つの７１は音声辞書のシリアルナンバー
の先頭を表し、３つの７２は音声辞書のシリアルナンバ
ーの最後を表している。そしてその間が音声辞書のシリ
アルナンバーを表している。

【００２７】次にこの情報信号を情報信号付加手段５２
において合成音声に付加する。この時合成音声によるマ
スキング効果（合成音声により合成音声であることを表
す情報信号をおおい隠す）を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより７ｄＢ
低く付加する。

【００２８】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段５３においてそれぞれの情報信号を分
離する。そして復号手段５３においてこの情報信号を復
号化する。復号化は前述の情報信号化の逆手順、すなわ
ち抽出分離した各コヒーレントな周波数信号から各情報
を読み出す。そして、合成ソフトのシリアルナンバー或
いは音声辞書のシリアルナンバー或いはその両者をディ
スプレーに表示する。

【００２９】図８は第３の実施例のフローである。ここ
では、音声を入力し８１の音声認識手段で音素を検出
し、８２の音声合成手段において、検出した音素をＢ氏
の声をもとに作成した８４の音声辞書Ｂの音素に置き換
え、別の人の声を合成し合成音声Ｂを出力する。

【００３０】図９は、音声辞書の個体識別番号（ここで
は、５７６３９という５桁の数字）が、音声辞書のメモ
リーテーブルに格納された様態を図示したものである。
８４の音声辞書Ｂを作成する時、Ｂ氏の声から切り出し
た音素片を格納するメモリーテーブルに音声辞書の個体
識別番号を格納する。８１は、個体識別番号の５桁の数
字が格納される場所を示している。切り出された音素片
から、ｋ１、ｋ２、ｋ３、ｋ４、ｋ５を選び、それらを
５桁の認識番号Ｎ１，Ｎ２，Ｎ３，Ｎ４，Ｎ５に割り振
って、音素片のメモリーテーブルに格納する。９２は、
個体識別番号５７６３９が、割り振られた様態を示して
いる。９３は、音声素片ｋ３のウェーブ格納メモリーに
割り当てられた個体識別番号の部分である「６」の格納
を示した図である。

【００３１】ユーザーＡは、音声合成のために音声辞書
のプロバイダー８５に対して音声辞書Ｂの供給を依頼す
る。この時、プロバイダーは登録ユーザーにのみ音声辞
書を供給することとし、登録がなされていなければ、８
６の認証機関に登録する。プロバイダーは、登録ユーザ
ーへ音声辞書を供給した場合、ユーザーの認識番号と音
声辞書の個体識別番号とを認証機関８６に報告する。こ
のようにして、認証機関では、登録ユーザーの音声辞書
使用の状況を記録する。

【００３２】図１０に８２の音声合成手段での個体識別
番号埋め込みのフローを示す。音声辞書の各音声素片に
格納された識別番号の部分は、１０１の識別番号分離手
段で分離される。分離された情報は、１０２の識別番号
再成手段でもとの形に戻し、１０３の識別信号生成手段
において実施例２で説明したような３００Ｈｚから３４
００Ｈｚの信号に変換し、１０４において合成音より７
ｄｂ低くして付加することで埋め込む。

【００３２】音声辞書Ｂを使って、合成された合成音声
Ｂは、判別手段８３において実施例２と同様に判別され
る。ここで必要なら認証機関８６に問い合わせて、合成
音声に用いられた音声辞書のユーザー名を判別する。

【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を使用し作成した合成音声と
実際の肉声かを容易に判別する可能となり、さらに合成
音声のプロフィールを追跡することが可能となる。

【図面の簡単な説明】

【図１】第１の実施例の概要

【図２】第１の実施例のフロチャート

【図３】情報信号パターン

【図４】第２の実施例の概要

【図５】第２の実施例のフロチャート

【図６】合成ソフトのシリアルナンバーの情報信号パタ
ーン

【図７】音声辞書のシリアルナンバーの情報信号パター
ン

【図８】第３の実施例のフローチャート

【図９】音声辞書の個別識別番号の埋め込みの様態

【図１０】個別識別番号の埋め込みのフローチャート

【符号の説明】

１０音声合成手段１５判別手段４０音声合成手段４５情報取り出し手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者五十嵐伸吾埼玉県川越市藤間137−１ソフィア川越 604 (72)発明者栗田洋神奈川県藤沢市片瀬１丁目４番13号フェリス片瀬３−201 (72)発明者加藤圭一神奈川県川崎市宮前区馬絹1634−１コスモ宮崎台アバンシード305号

Claims

【特許請求の範囲】

【請求項１】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいて、実
際の人の声と前記音声辞書を使用し合成した合成音声と
を判別する手段を有することを特徴とする合成音声判別
システム。
【請求項２】前記判別手段はＡ：実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段Ｂ：必要に応じて前記埋め込まれた情報を抽出する抽出
手段Ｃ：前記合成音声であることを示す抽出された情報の有
無を検出する検出手段以上の手段を有することにより実際の人の声と合成音声
を判別することを特徴とする特許請求範囲第１項記載の
合成音声判別システム。
【請求項３】前記埋め込み手段は合成音声であることを
示す情報を１以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加することを特徴とする特許請
求範囲第２項記載の合成音声判別システム。
【請求項４】前記合成音声に付加される情報信号は３０
０Hzから３４００Hzの範囲の情報信号であることを特徴
とする特許請求範囲第３項記載の合成音声判別システ
ム。
【請求項５】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいてＡ：合成音声を含む成果物に情報を埋め込む埋め込み手
段Ｂ：必要に応じて前記情報を抽出する抽出手段Ｃ：前記抽出した情報を復号化する復号化手段以上の手段を有することを特徴とする合成音声判別シス
テム。
【請求項６】前記合成音を含む成果物に埋め込む情報
は、その合成音が合成されるまでの履歴を示す情報であ
ることを特徴とする特許請求範囲第５項記載の合成音声
判別システム。
【請求項７】前記合成音を含む成果物に埋め込む情報が
音声合成ソフトの個別番号（シリアルナンバー）及び音
声辞書の個別番号（シリアルナンバー）から選ばれた少
なくとも１つの情報であることを特徴とする特許請求範
囲第５項記載の合成音声判別システム。
【請求項８】前記埋め込み手段は情報を特定の情報信号
に変換し合成音声に前記特定の情報信号を付加すること
であることを特徴とする特許請求範囲第５項記載の合成
音声判別システム。
【請求項９】前記付加する情報信号が３００Hzから３４
００Hzの範囲の情報信号であることを特徴とする特許請
求範囲第８項記載の合成音声判別システム。
【請求項１０】前記情報は暗号化されたことを特徴とす
る情報であることを特徴とする特許請求範囲第５項記載
の合成音声判別システム。
【請求項１１】前記合成音声か否かの結果及び前記合成
音声を含む成果物に埋め込まれた情報から選ばれた少な
くとも１つを通知する通知手段を有することを特徴とす
る特許請求範囲第１項記載および第５項記載の合成音声
判別システム。
【請求項１２】音声辞書を作成する際、各音声素片を格
納するメモリーに合成音声を示す標識或いは音声辞書の
個体識別記号を示す標識を付加してあることを特徴とす
る特許請求範囲第１項記載および第５項記載の合成音声
判別システム。
【請求項１３】前記音声辞書の個体識別記号を示す標識
は各音声素片のメモリーに分割して格納し、音声合成時
に音声素片から分離し合成音声に音声辞書個体識別記号
を埋め込むことを特徴とする特許請求範囲１２項記載の
合成音声判別システム。
【請求項１４】前記音声素片のウエーブ格納の部分に前
記個体識別番号を格納することを特徴とする特許請求範
囲第１３項記載の合成音声判別システム。
【請求項１５】人間の声を基に音声辞書を作成し、前記
音声辞書を使用して音声合成を行うシステムにおいて１）音声辞書の利用者に対してユーザー登録するステッ
プ、２）ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、３）登録ユーザーの音声辞書利用状況を記録するステッ
プ、以上を特徴とする特許請求範囲第５項、第６項、第７
項、第８項、第１０項および第１２項記載の合成音声判
別システム。
【請求項１６】前記ユーザー登録は、ユーザーへの識別
番号を付与によって行われることを特徴とする特許請求
範囲第１５項記載の合成音声判別システム。
【請求項１７】前記音声辞書の配布において、ユーザー
の識別番号を音声辞書に埋め込む作業が行われることを
特徴とする特許請求範囲第１５項記載の合成音声判別シ
ステム。
【請求項１８】合成音声に埋め込まれた情報を抽出し、
合成音声の使用者を検出することを特徴とする特許請求
範囲第１５項記載の合成音声判別システム。