JP5123347B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5123347B2
JP5123347B2 JP2010084319A JP2010084319A JP5123347B2 JP 5123347 B2 JP5123347 B2 JP 5123347B2 JP 2010084319 A JP2010084319 A JP 2010084319A JP 2010084319 A JP2010084319 A JP 2010084319A JP 5123347 B2 JP5123347 B2 JP 5123347B2
Authority
JP
Japan
Prior art keywords
unit
speech
sequence
synthesis
prohibition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010084319A
Other languages
English (en)
Other versions
JP2011215419A (ja
Inventor
修 西山
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010084319A priority Critical patent/JP5123347B2/ja
Priority to US12/881,397 priority patent/US8554565B2/en
Publication of JP2011215419A publication Critical patent/JP2011215419A/ja
Application granted granted Critical
Publication of JP5123347B2 publication Critical patent/JP5123347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声の合成に関する。
近年、音声合成装置が出力する中間出力をユーザが修正して、その中間出力から合成音声を作成することができる音声合成装置が提案されている。特許文献1は、合成音声を構成する音声素片の差し替えをユーザが指示すると、音声合成装置が使用禁止音声素片リストにその音声素片を追加する技術を開示している。この音声合成装置では、使用禁止音声素片リストを参照し、使用禁止音声素片リストに記録された音声素片を除いて音声合成を行っている。
特開2006−313176号公報
しかしながら、特許文献1の技術では、合成音声の品質を劣化させる原因となっている音声素片をユーザが的確に指定することは非常に難しく、その周辺の音声素片を指定する場合が多い。そのため、品質劣化の原因となる音声素片の使用を効果的に禁止する技術が必要とされる。
本発明は、上記の課題に鑑みてなされたものであって、品質劣化の原因となる音声素片の使用を効果的に禁止することを目的とする。
音声合成装置は、合成単位毎に音声素片を選択し、前記音声素片の系列である音声素片系列を生成する生成部と、前記生成部で生成された音声素片系列を接続することによって音声を合成する音声接続部と、前記音声接続部で合成された第1の音声素片系列の音声素片前記音声接続部で合成され且つ前記第1の音声素片系列と同一の合成単位を有する第2の音声素片系列の音声素片とを比較し、前記第1の音声素片系列と前記第2の音声素片系列が異なる場合、前記第2の音声素片系列と音声素片が異なる前記第1の音声素片系列の音声素片の使用を禁止する禁止部と、を備える。
本発明によれば、品質劣化の原因となる音声素片の使用を効果的に禁止することができる。
本発明の第1の実施形態に係る装置の構成を示すブロック図。 合成音声部の構成を示すブロック図。 音声合成装置の動作を示すフローチャートを示す図。 接続部の動作を示すフローチャートを示す図。 接続部のS401の動作を示すフローチャートを示す図。 接続部のS408の動作を示すフローチャートを示す図。 アクセント句区切りのテキストを示す図。 アクセント句に対応する音声素片系列を示す図。 劣化部位で利用されている音声素片系列を示す図。 使用禁止音声素片を示す図。 (a)改善前の音声素片系列と(b)改善後の音声素片系列を示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 アクセント句区切りのテキストを示す図。 アクセント句に対応する音声素片系列を示す図。 劣化部位で利用されている音声素片系列を示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 第2の実施形態に係る接続部のS408の動作を示すフローチャートを示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 アクセント句区切りのテキストを示す図。 アクセント句に対応する音声素片系列を示す図。 劣化部位で利用されている音声素片系列を示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 第3の実施形態に係る接続部のS408の動作を示すフローチャートを示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 アクセント句区切りのテキストを示す図。 アクセント句に対応する音声素片系列を示す図。 劣化部位で利用されている音声素片系列を示す図。 変更素片履歴記憶部に記憶された音声素片を示す図。 他の実施形態に係る接続部の動作を示すフローチャートを示す図。
以下、添付図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置10は、取得部11と、言語処理部12と、韻律処理部13と、音声合成部14と、を備える。取得部11は、音声合成装置10の内部又は外部から音声合成の対象となるテキストデータを取得する。言語処理部12は、取得したテキストデータに対し形態素解析・構文解析を行う。韻律処理部13は、テキストデータのアクセントなどの韻律や品詞などの言語に関する属性に基づいて、複数の合成単位で構成された音声素片系列を音声合成部14に出力する。音声合成部14は、音声素片系列を用いて合成音声を生成する。
各合成単位には、音韻記号、韻律情報、それが対応する区間を含むテキストに関する言語情報などが付与されている。音声素片系列によって、合成音声が表現される。韻律情報は、例えば、基本周波数、継続時間長、メルケプストラム係数及びパワーなどを含む。言語情報は、例えば、単語、アクセント句の音節数、モーラ数、アクセント型、各合成単位の対応する単語、アクセント句内での音節、モーラを単位とした位置及び各合成単位が含まれる音節がアクセント核か否かを表すフラグなどを含む。
図2は、音声合成部14の構成を示すブロック図である。音声合成部14は、候補素片記憶部140と、生成部141と、音声接続部142と、出力部143と、指定部144と、変更素片履歴記憶部145と、禁止部146と、を備える。候補素片記憶部140は、選択する候補となる音声素片を記憶する。生成部141は、禁止部146で禁止した音声素片を指定部144で指定された部位で選択しないように、候補素片記憶部140に記憶された音声素片から合成単位毎に音声素片を選択する。音声接続部142は、生成部141で選択された音声素片を用いて音声を合成する。出力部143は、音声接続部142で合成した合成音声を出力する。指定部144は、音声合成の品質の合否とその品質が不十分な場合にはその部位をユーザに指定させる。変更素片履歴記憶部145は、品質改善の前後で変更された音声素片と所定の付随情報とを記憶する。禁止部146は、指定部144において品質が不十分であると指定された部位で選択しない音声素片を、変更素片履歴記憶部145に記憶された情報に基づいて決定する。
図3を参照して、音声合成装置10の動作を説明する。図3は、音声合成装置10の動作を表すフローチャートを示す図である。
ステップS301では、取得部11は、音声合成装置10の内部又は外部から、音声合成の対象となるテキストデータを取得する。
ステップS302では、言語処理部12は、取得部11が取得したテキストデータに形態素解析を行って、テキストデータを形態素に分割する。なお、膠着語ではない言語においては、このステップが省略されてもよい。
ステップS303では、言語処理部12は、分割された形態素の系列に対して構文解析を施し、読み情報・品詞・活用形・形態素間の係り受けなどの属性値を各形態素に付与する。
ステップS304では、言語処理部12は、ステップS303で付与された属性値を持つ形態素の系列の各形態素に対して、その属性値に基づいて、音韻記号列・アクセント型などの韻律に関する属性値を追加する。
ステップS305では、韻律処理部13は、ステップS303及びステップS304で各形態素に付与された属性値に基づいて、合成音声の目標となる韻律情報を合成単位毎に生成し、各々が音韻記号・韻律情報・言語情報を持つ複数の合成単位で構成された合成単位の系列を生成する。本実施形態では、音素が合成単位である場合を一例として説明を行うが、本発明はこれに限定されない。
ステップS306では、音声合成部14は、ステップS305で生成した合成単位の系列から合成音声を生成する。ステップS301〜S304において、解析や必要なデータ取得に使用するデータベースが必要であれば、適宜補えばよい。
次に、図4〜図6を参照して、音声合成部14の動作について説明する。図4は、ステップS306の詳細な動作を表すフローチャートを示す図である。
ステップS401では、生成部141は、ステップS306で生成された合成単位の系列の各合成単位に対して、指定部144で指定された合成単位の部分系列の合成単位毎に禁止部146で決定した音声素片を選択しないで、候補素片記録部140に格納された音声素片から最適なものを選択して、複数の音声素片で構成される音声素片系列を生成する。
ステップS402では、音声接続部142は、ステップS401で生成された音声素片系列を用いて音声を合成する。
ステップS403では、出力部143は、ステップS402で生成された合成音声を再生する。次いで、指定部144は、合成音声の品質が不十分な部位を指定するための情報をユーザに提示する。
ステップS404では、指定部144は、再生された合成音声の品質の合否をユーザからの入力により受け付ける。
ステップS405では、指定部144は、ステップS404でユーザが入力した合否に従って処理を分岐する。品質が十分であった場合には(ステップS405で「合格」)、ステップS409に進む。品質が不十分であった場合には(ステップS405で「不合格」)、ステップS406に進む。
ステップS406では、指定部144は、ユーザからの入力により劣化部位を指定させる。
ステップS407では、指定部144は、使用禁止とする音声素片の候補を決定する。具体的には、ステップS406で指定された部位に対応する合成単位の部分系列と、その部分系列で選択された音声素片の部分系列と、を求める。
ステップS408では、禁止部146は、ステップS407で求めた合成単位の部分系列の合成単位毎に、変更素片履歴記憶部145に記録された情報に基づいて使用禁止とする音声素片を決定する。
ステップS409では、禁止部146は、ステップS401で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。禁止部146はまた、入れ替わった音声素片に固有な識別子を変更素片履歴記憶部145に記録する。
図5を参照して、図4のステップS401の詳細を説明する。
ステップS501では、生成部141は、合成単位において使用禁止とする音声素片が禁止部146で決定されているかを確認する。使用禁止とする音声素片があれば(ステップS501で「Yes」)、ステップS502に進み、使用禁止とする音声素片がなければ(ステップS501で「No」)、ステップS503に進む。
ステップS502では、生成部141は、使用禁止となった音声素片を除外して、合成単位毎に音声素片の候補を事前に絞り込む。
ステップS503では、生成部141は、合成単位として適している音声素片を候補素片記憶部140から読み出し、合成単位が持つ音韻情報・韻律情報・言語情報と各音声素片が持つ同種の情報とを比較することで、所定の数だけ音声素片を予備選択する。このステップS501〜ステップS503までの処理を全合成単位に対して行う。なお、ステップS503の比較方法としては、従来手法を用いれば良く、それに必要な情報は適宜補えばよい。
ステップS504では、合成単位毎に選択されている複数の音声素片から、隣接する合成単位の各音声素片間のつながりの適切さの度合いや、ステップS503で算出した各合成単位がもつ目標値と各音声素片がもつ同種の情報の値との差異などを考慮して、各合成単位に対して1つ音声素片を本選択する。なお、ステップS504のつながりの適切さを算出する手法としては、従来手法を用いればよく、それに必要な情報は適宜補えばよい。
図6を参照して、図4のステップS408の詳細を説明する。
禁止部146は、ステップS407で求められた音声素片系列の音声素片毎に、以下のステップS601及びステップS602を行う。
ステップS601では、禁止部146は、変更素片履歴記憶部145に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には(ステップS601で「No」)、ステップS603に進む。記録されている場合には(ステップS601で「Yes」)、ステップS602に進む。
ステップS602では、禁止部146は、音声素片を合成単位において利用しない音声素片(使用禁止音声素片)として記憶する。全ての音声素片に対して上記の処理を終了したら、ステップS603に移る。
ステップS603では、禁止部146は、使用禁止音声素片が記録されているか否かで処理を分岐させる。使用禁止音声素片が記録されている場合には(ステップS603で「No」)、ステップS604及びステップS605の処理を行わずに、次の処理(図4のステップS401)に移る。使用禁止音声素片が記録されていない場合には(ステップS603で「Yes」)、ステップS604に進む。
ステップS604では、指定部144は、図4のステップS407で求められた音声素片系列の中から、少なくとも1つ以上の音声素片が使用禁止音声素片となるようにユーザに選択を求める。
ステップS605では、禁止部146は、ステップS604でユーザが使用禁止とした音声素片を、ステップS602と同様に使用しない音声素片(使用禁止音声素片)として記憶する。このようにして、ステップS602又はステップS605で使用しない音声素片(使用禁止音声素片)として記録した音声素片は、図5のステップS501で参照され、図5のステップS502で対応する合成単位では選択されない。従って、次回の合成音声の作成時には、それらを使用しない合成音声が作成される。
図7〜図14を参照して、本発明の第1の実施形態に係る音声合成装置の音声合成部14の動作について詳細に説明する。なお、変更素片履歴記憶部145は初期状態にあり、何も記録されていない状態とする。また、ユーザは、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」を入力し、その合成音声を聴取して、指定部144を介してユーザがその品質が不合格であることを指定したところから説明を始める。
ステップS406では、指定部144は、図7に示すように、アクセント句区切りのテキストを表示し、どのアクセント句の品質が不十分であったかをユーザに問い合わせ、そのアクセント句を指定させる。
ステップS407では、指定部144は、図8に示すように、選択されたアクセント句に対応する音声素片系列を導出する。ここでは、ステップS406で「バッグ」が選択されてものとする。図8では、各合成単位(音素)、/b/(「バ」の子音)、/a/(「バ」の母音)、/q/(「ッ」)、/g/(「グ」の子音)、/u/(「グ」の母音)の各々に対して、音声素片A、B、C、D、Eがそれぞれ選択されている。
次に、ステップS601では、禁止部146は、何も記録されていない状態(初期状態)にある変更素片履歴記憶部145を参照するため、ステップS601で「No」となり、ステップ603に進む。ここでは、使用禁止素片がないため、ステップS604へ進む。
ステップS604では、指定部144は、図9に示すように、劣化部位で利用されている音声素片系列を表示し、合成単位をユーザに指定させることで、使用禁止とする音声素片を選択させる。ここでは、ユーザが、音節「グ」の母音にあたる合成単位/u/の音声素片を選択したとする。
ステップS605では、禁止部146は、図10に示すように、ステップS604で選択された音声素片Eを、使用禁止音声素片として記憶する。
次いで、ステップS401に戻って、音声合成部14が再び合成音声を作成する。
まず、ステップS501では、生成部141は、アクセント句「バッグ」の音節「グ」の母音にあたる合成単位/u/に対して、音声素片Eが使用禁止音声素片として記録されているので(ステップS501で「Yes」)、ステップS502に進む。
ステップS502では、生成部141は、合成単位に対して予備選択(ステップS503)を行う対象から音声素片Eを除外する。
ステップS503では、生成部141は、予備選択を行う。
ステップS501からステップS503を各合成単位に対して行った結果、前回の合成音声作成時と異なり、アクセント句「バッグ」の音節「グ」の母音にあたる合成単位/u/では、音声素片Eが選択されずに、以降の処理が進んで合成音がユーザに提示される。
次いで、ステップS404において、ユーザがその品質に合格を与え、合成音声部14がステップS409に処理を移した場合について説明する。
ステップS409では、禁止部146は、図11に示すように、改善前の音声素片系列(図11(a))と改善後の音声素片系列(図11(b))とを比較する。禁止部146は、入れ替わった音声素片Dと音声素片Eとを変更素片履歴記憶部145に記録する(図12)。
図11は、以下のようにして算出されたものとする。ユーザは、ステップS604において、アクセント句「バッグ」の品質劣化の原因であった音声素片Dを特定できずに、音声素片Eを使用禁止として再合成を行った。しかし、ステップS504の本選択において、音節「グ」の子音/g/の合成単位の音声素片Dは、音節「グ」の母音/u/の合成単位の候補として音声素片Eが含まれていなかったために、異なる合成単位の音声素片間のつながりの適正さの評価が低くなり、選ばれなかった。このような副作用によって、たまたま、合成音声の品質が改善された。
本実施形態では、ユーザが品質劣化の原因である音声素片を特定できなくても、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録する。よって、記録される音声素片の中には、品質劣化の原因となった不良な音声素片が含まれている。その記録を参照することで、他のテキストに対する合成音声で同じ不良な音声素片が選択されることを防ぐことが可能となる。
図13〜図16を参照して、上記履歴の利用方法の具体例を説明する。なお、変更素片履歴記憶部145は、図12の状態にあるとする。また、ユーザは、例えば、テキスト「ABS、エアバッグは標準装備となっております。」を入力し、その合成音声を聴取して、指定部144を介してその品質が不合格であり、アクセント句「エアバッグは」を劣化部位として指定した(図13)ところから説明を始める。
ステップS407では、指定部144は、使用禁止とする音声素片の候補を決定する。具体的には、図14に示すように、アクセント句「エアバッグは」に対応する音声素片H、I、J、K、C、D、L、M、Nの部分系列を特定する。ここでは、音声素片Dが品質劣化の原因であったとする。
ステップS601では、禁止部146は、図12の状態にある変更素片履歴記憶部145に音声素片が記録されているかを確認する。
ステップS602では、禁止部146は、音節「グ」の子音/g/において選択されている音声素片Dを、合成単位において利用しない音声素片(使用禁止音声素片)として記憶する。以降、禁止部146は、使用禁止音声素片を決定して記録しているので、ステップS603において、処理をステップS401に移す。
以降、上述した具体例と同様の処理を経て、図15に示すように、少なくとも音節「グ」の子音/g/において不良な音声素片Dが選択されずに(ステップS401)、合成音声が作成され(ステップS402)、ユーザに合成音声が提示される(ステップS403)。このように、本実施形態では、以前の合成音声の改善作業において劣化原因であった不良な音声素片をユーザが特定できなかったとしても、以前と同一の音声素片が原因となっている品質劣化を、ユーザが合成単位の精度で再びその原因(音声素片)を特定する必要なく、回避することができる。
また、このようにして作成・提示された合成音声の品質をユーザが合格と認めた場合には(ステップS405)、禁止部146は、入れ替わった音声素片Dと音声素片Lの内、新規に追加される音声素片Lを変更素片履歴記憶部145に追加し(ステップS409)、図16に示すようになる。
このように、本実施形態によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録するため、品質劣化の原因となった不良な音声素片はその履歴に必ず含まれることになる。よって、以前の合成音声の改善作業において劣化原因となっていた不良な音声素片をユーザが特定できなかったとしても、ユーザが合成単位の精度でその原因(音声素片)を再度特定する必要なく、以前と同一の音声素片が原因となっている品質劣化を回避することが可能となる。
(第2の実施形態)
本発明の第2の実施形態について説明する。なお、第1の実施形態と異なる処理を中心に説明し、同様の処理は適宜省略する。
本実施形態では、変更素片履歴記憶部145には、第1の実施形態で示した音声素片に固有な識別子に加えて、ユーザが品質改善を認めた前後で入れ替わった回数(変更回数)も各音声素片に対応付けて記録されている。また、この変更回数のような付随情報を記録・更新するために、禁止部146のステップS409(図4)の処理内容も、第1の実施形態とは相違する。すなわち、図4のステップS405において、ユーザが合成音声の品質が十分であると認めた場合(合格)には、図4のステップS401で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。そして、入れ替わった音声素片について、それらをユニークに特定できる識別子を変更素片履歴記憶部145に記録することに加えて、初めて記録する場合には変更回数を1として記録し、変更素片履歴記憶部145に音声素片が記録されている場合には、変更回数を更新する。
図17は、本実施形態に係る図4のステップS408を説明するフローチャートを示す図である。
禁止部146は、ステップS407で求められた音声素片系列の音声素片毎に、以下のステップS2001及びステップS2002を行う。
ステップS2001では、禁止部146は、変更素片履歴記憶部145に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には(ステップS2001で「No」)、ステップS2003に進む。記録されている場合には(ステップS2001で「Yes」)、ステップS2002に進む。
ステップS2002では、禁止部146は、音声素片を合成単位において利用しない音声素片(使用禁止音声素片)の候補として記録する。全ての音声素片に対して上記の処理を終了したら、ステップS2003に進む。
ステップS2003では、禁止部146は、使用禁止音声素片の候補が記録されているか否かで処理を分岐させる。使用禁止音声素片の候補が記録されている場合には(ステップS2003で「No」)、ステップS2006に進む。使用禁止音声素片の候補が記録されていない場合(ステップS2003で「Yes」)、ステップS2004に進む。
ステップS2004では、第1の実施形態と同様に、指定部144は、図4のステップS407で求められた音声素片系列の中から、少なくとも1つ以上の音声素片が使用禁止音声素片とするようにユーザに選択を求める。
ステップS2005では、禁止部146は、ステップS2004でユーザが使用禁止とした音声素片を、使用禁止音声素片として記憶する。
ステップS2006では、禁止部146は、ステップS2002で記憶した候補から、変更素片履歴記憶部145に記録されている各候補の変更回数が最大値のものを選択し、その合成単位において利用しない音声素片(使用禁止音声素片)として記録する。なお、変更素片履歴記憶部145に登録されていない候補の変更回数は、0回として扱ってもよい。また、最大の変更回数を持つ候補が複数存在する場合には、それら全てを記録してもよいし、リストの先頭などの他の基準を用いて選択してもよい。
このようにして、ステップS2005及びステップS2006で記録した使用禁止音声素片は、図5のステップS501で参照され、図5のステップS502で対応する合成単位では選択されない。従って、第1の実施形態と同様に、次回の合成音声の作成時には、それらを利用しない合成音声が作成される。
図18〜図21を参照して、変更素片履歴記憶部145及び禁止部146の具体例を説明する。なお、変更素片履歴記憶部145は、第1の実施形態の具体例を本実施形態で実行した後の状態にあり、図18の状態にあるとする。また、ユーザが、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」及び「ABS、エアバッグは標準装備となっております。」に続いて、テキスト「東京ドームは、ビッグエッグと呼ばれている。」を入力する。そして、その合成音声を聴取して、指定部144を介してその品質が不合格であり、アクセント句「ビッグエッグと」を劣化部位して指定した(図19)ところから説明する。
ステップS407では、指定部144は、図20のように、アクセント句「ビッグエッグと」に対応する音声素片R、S、C、D、L、T、C、D、E、U、Vの部分系列を特定する。なお、ここでは不良な音声素片Dが品質劣化の原因であったとする。
ステップS2001では、禁止部146は、変更素片履歴記憶部145に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には(ステップS2001で「No」)、ステップS2003に進む。記録されている場合には(ステップS2001で「Yes」)、ステップS2002に進む。
ステップS2002では、禁止部146は、例えば、図18の状態にある変更素片履歴記憶部145を参照し、音声素片D、L、Eを、各音声素片が選択されている合成単位において利用しない音声素片(使用禁止音声素片)の候補として記憶する。
ステップS2003では、禁止部146は、使用禁止音声素片の候補を記録しているので(ステップS2003で「No」)、ステップS2006に進む。なお、使用禁止音声素片の候補を記録していない場合には(ステップS2003で「Yes」)、ステップS2004に進む。
ステップS2004及びステップS2005は、それぞれ図6のステップS604及びステップS605と同様であるため、説明を省略する。
ステップS2006では、禁止部146は、図18の状態にある変更素片履歴記憶部145を参照して各候補の変更回数を比較する。禁止部146はまた、音声素片Dは2回、音声素片Lは1回、音声素片Eは1回であるので、音声素片Dを使用禁止音声素片として決定して記憶する。
以降、上述した第1の実施形態と同様の処理を経て、図21(a)のように、少なくとも音節「グ」の子音/g/において、不良な音声素片Dが選択されずに(ステップS401に対応)、図21(b)のように音声素片F、W、Gに入れ替えて合成音声が作成され(ステップS402に対応)、ステップS403においてユーザに合成音声が提示される。また、このように作成・提示された合成音声の品質をユーザが合格と認めた場合には(ステップS405に対応)、入れ替わった音声素片D、E、Lの変更回数を、図22のように、音声素片Dは2回から4回へ、音声素片Lと音声素片Eは1回から2回へ更新する。
このように、第2の実施形態に係る音声合成装置によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録し、かつ、その音声素片が入れ替わることで改善が認められた回数も付随情報として記録する。また、利用しないことで品質改善が認められた回数が多いものを優先して使用禁止とする。これによって、多くの合成音声において共通して品質劣化原因となっている音声素片の利用を回避する確度が高まる。
(第3の実施形態)
本発明の第3の実施形態について説明する。なお、第1の実施形態と異なる処理を中心に説明し、同様の処理は適宜省略する。
本実施形態では、変更素片履歴記憶部145には、第1の実施形態で示した音声素片に固有な識別子に加えて、その音声素片が使用されていた音韻環境に関する情報も各音声素片に対応付けて記録されている。また、この音韻環境に関する情報のような付随情報を記録・更新するために、禁止部146のステップS409(図4)の処理内容も、第1の実施形態と相違する。すなわち、図4のステップS405において、ユーザが合成音声の品質が十分であると認めた場合(合格)には、図4のステップS401で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。そして、入れ替わった音声素片について、それらをユニークに特定できる識別子を変更素片履歴記憶部145に記録することに加えて、その音声素片が選択されていた合成単位とその隣接する合成単位の音韻に関する情報も記録する。なお、変更素片履歴記憶部145に音声素片が記録されている場合にはその情報を追記する形で更新する。
図23は、本実施形態に係る図4のステップS408を説明するフローチャートを示す図である。
禁止部146は、ステップS407で求められた音声素片系列の音声素片毎に、以下のステップS2701及びステップS2702を行う。
ステップS2701では、禁止部146は、変更素片履歴記憶部145に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には(ステップS2701で「No」)、ステップS2703に進む。記録されている場合には(ステップS2701で「Yes」)、ステップS2702に進む。
ステップS2702では、禁止部146は、合成単位において利用しない音声素片(使用禁止音声素片)の候補として音声素片を記録する。全ての音声素片に対して上記の処理が終了したら(ステップS2701で「No」)、ステップS2703に進む。
ステップS2703では、禁止部146は、使用禁止音声素片の候補がステップS2702で記録されたか否かで処理を分岐させる。使用禁止音声素片の候補が記録されている場合(ステップS2703で「No」)、ステップS2706に進む。使用禁止音声素片の候補が記録されていない場合(ステップS2703で「Yes」)、ステップS2704に進む。
ステップS2704及びステップS2705は、それぞれ図17のステップS2004及びステップS2005と同様であるため、説明を省略する。
ステップS2706では、ステップS2702で記録した候補から、変更素片履歴記憶部145に記録されている各候補の音韻環境に関する情報がそれぞれの合成単位とその周辺の合成単位の音韻と適合するものを選択して、その合成単位において利用しない音声素片(使用禁止音声素片)として記録する。なお、本実施形態では、音韻を比較する合成単位の範囲を合成単位とその隣接する合成単位としたが、より広い範囲の音韻を考慮して比較してもよい。変更素片履歴記憶部145に登録されていない候補は音韻環境が適合しないものとして扱い、記録しない。また、適合する音韻環境情報をもつ候補が複数存在する場合には、それら全てを記録してもよいし、リストの先頭などの他の基準を用いて選択してもよい。
ステップS2707では、禁止部146は、ステップS2706において使用禁止音声素片が記録されたか否かで処理を分岐させる。使用禁止音声素片が記録されている場合には(ステップS2007で「No」)、本フローチャートに記載された処理を終了し、図4のステップS401へ進む。使用禁止音声素片が記録されていない場合、又は、ステップS2706において使用禁止音声素片が決定できなかった場合には(ステップS2007で「Yes」)、ステップS2704へ進む。第1の実施形態と同様に、ステップS2704では、指定部144は、図4のステップS407で求められた音声素片系列の中から少なくとも1つ以上の音声素片を使用禁止音声素片とするようにユーザに求め、選択させる。次に、ステップS2705では、ステップS2704においてユーザが使用禁止音声素片とした音声素片をステップS2706と同様に利用しない音声素片として記録する。このようにして、ステップS2705又はステップS2706で記録した使用禁止音声素片は、図5のステップS501において参照されて、図5のステップS502において対応する合成単位において選択されなくなる。よって、第1の実施形態と同様に、次回の合成音声の作成時には、それらを利用しない合成音声が作成される。
図24〜図28を参照して、変更素片履歴記憶部145及び禁止部146の具体例を説明する。なお、変更素片履歴記憶部145は、第2の実施形態の具体例を本実施形態にて実行した後の状態にあり、図24の状態にあるとする。また、ユーザが、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」「ABS、エアバッグは標準装備となっております。」及び「東京ドームは、ビッグエッグと呼ばれている。」に続いて、テキスト「大栗が主演の映画が公開された。」を入力する。そして、その合成音声を聴取して、指定部144を介してその品質が不合格であり、アクセント句「大栗が」を劣化部位として指定した(図25)ところから説明する。
ステップS407では、指定部144は、図26のように、アクセント句「大栗が」が対応する音声素片X、X、D、L、Y、Z、α、βの部分系列を特定する。なお、ここでは不良な音声素片Lが品質劣化の原因であったとする。
ステップS2701では、禁止部146は、変更素片履歴記憶部145に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には(ステップS2701で「No」)、ステップS2703に進む。記録されている場合には(ステップS2701で「Yes」)、ステップS2702に進む。
ステップS2702では、禁止部146は、例えば、図24の状態にある変更素片履歴記憶部145を参照し、音声素片D、Lを、各音声素片が選択されている合成単位において利用しない素片(使用禁止音声素片)の候補として記憶する。
ステップS2703では、禁止部146は、使用禁止音声素片の候補を記録しているので、(ステップS2703で「No」)、ステップS2706に進む。なお、使用禁止音声素片の候補を記録していない場合には(ステップS2703で「Yes」)、ステップS2704に進む。
ステップS2704では、指定部144は、当該劣化部位で利用されている音声素片系列を表示して合成単位をユーザに選択させる。
ステップS2705では、禁止部146は、ユーザが音節「グ」の母音にあたる合成単位/u/の音声素片を正しく選択できたとすると、図26のように対応する音声素片Lを使用禁止音声素片として記録する。
ステップS2006では、禁止部146は、図24の状態にある変更素片履歴記憶部145を参照して各候補の音韻環境と各候補の利用先の音韻環境(対応する合成単位とその隣接する合成単位からなる音韻系列)とを比較する。禁止部146はまた、音声素片Dに関しては、変更素片履歴記憶部145内の音韻環境は/q/-/g/-/u/であり、利用先の音韻環境は/o/-/g/-/u/であるため、一致せずに記録しない。禁止部146はまた、音声素片Lに関しても、変更素片履歴記憶部145内の音韻環境は/g/-/u/-/w/又は/g/-/u/-/e/であり、利用先の音韻環境は/g/-/u/-/n/であるため、一致せずに記録しない。
ステップS2707では、禁止部146は、使用禁止音声素片を記録していないので、ステップS2704に進む。
以降、上述した第1の実施形態と同様の処理を経て、図27(a)のように、少なくとも音節「グ」の母音/u/において、不良な音声素片Lはユーザの指示によって選択されず、また、本合成音声においては適切に音韻環境で利用されていた音声素片Dが選択される可能性がある(ステップS401に対応)。続いて、合成音声が作成され(ステップS402に対応)、ユーザに合成音声が提示される(ステップS403に対応)。また、このように作成・提示された合成音声の品質をユーザが合格と認めた場合には(ステップS405に対応)、入れ替わった音声素片L、Yを変更素片履歴記憶部145に登録し、その音韻環境も、図28のように、音声素片Lの/g/-/u/-/r/と音声素片Yの/u/-/r/-/i/が追加される(ステップS409に対応)。
このように、第3の実施形態に係る音声合成装置によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録し、かつ、その音声素片が利用されていた環境に関する情報(音韻環境)も付随情報として記録する。また、各音声素片がその付随情報に示されている音韻環境で利用された場合にだけ使用禁止とする。これによって、各音声素片が不適切な環境下で利用されて品質劣化が起こった可能性のある場合にだけ、その音声素片を使用禁止とするために、他の音韻環境化で適切に利用されている音声素片を使用禁止とする確度が低くなる。
また、本実施形態1から本実施形態3の実施形態において、十分に多量の履歴が記録された変更素片履歴記録部145を流用することで、図29のように、合成音声の改善の前後で入れ替わった音声素片をその付随情報と共に変更素片履歴記憶部145へ記録する処理を持たない処理フローを持つことも可能となる。
なお、本発明の実施形態に係る音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声合成装置の各部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声素片データを保持するデータ取得時間の異なる複数の記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどを適宜利用して実現することができる。
なお、本発明は、上記実施形態に限定されず、その要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

10 音声合成装置

141 生成部

142 音声接続部

146 禁止部

Claims (6)

  1. 合成単位毎に音声素片を選択し、前記音声素片の系列である音声素片系列を生成する生成部と、
    前記生成部で生成された音声素片系列を接続することによって音声を合成する音声接続部と、
    前記音声接続部で前回までに合成された第1の音声素片系列の音声素片と前記音声接続部で今回合成され且つ前記第1の音声素片系列と同一の合成単位を有する第2の音声素片系列の音声素片とを比較し、前記第1の音声素片系列と前記第2の音声素片系列が異なる場合、前記第2の音声素片系列と音声素片が異なる前記第1の音声素片系列の音声素片の使用を禁止する禁止部と、
    前記音声接続部で合成された第1の音声素片系列の音声素片を指定する指定部とを備え
    前記禁止部は、前記指定部で指定された第1の音声素片系列の音声素片の使用を禁止することを特徴とする音声合成装置。
  2. 前記禁止部は、使用を禁止した音声素片系列の音声素片の付随情報を記憶部に記憶し、 前記禁止部は、前記記憶部に記憶された前記付属情報に基づいて、使用を禁止する前記第1の音声素片系列の音声素片を選択することを特徴とする請求項1に記載の音声合成装置。
  3. 前記付随情報は、前記禁止部により前記第1の音声素片系列の音声素片を使用禁止とした回数を含むことを特徴とする請求項に記載の音声合成装置。
  4. 前記禁止部は、前記生成部で選択された複数の音声素片のうち、前記回数が最大の音声素片を選択することを特徴とする請求項に記載の音声合成装置。
  5. 前記付随情報は、前記生成部で選択された音声素片の合成単位と、前記合成単位の周辺の合成単位の音韻を含むことを特徴とする請求項に記載の音声合成装置。
  6. 前記指定部は、前記合成単位毎に前記第1の音声素片系列の音声素片を指定し、
    前記禁止部は、前記合成単位毎に前記第1の音声素片系列の音声素片の使用を禁止することを特徴とする請求項乃至請求項のいずれか1項に記載の音声合成装置。
JP2010084319A 2010-03-31 2010-03-31 音声合成装置 Expired - Fee Related JP5123347B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010084319A JP5123347B2 (ja) 2010-03-31 2010-03-31 音声合成装置
US12/881,397 US8554565B2 (en) 2010-03-31 2010-09-14 Speech segment processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010084319A JP5123347B2 (ja) 2010-03-31 2010-03-31 音声合成装置

Publications (2)

Publication Number Publication Date
JP2011215419A JP2011215419A (ja) 2011-10-27
JP5123347B2 true JP5123347B2 (ja) 2013-01-23

Family

ID=44710679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010084319A Expired - Fee Related JP5123347B2 (ja) 2010-03-31 2010-03-31 音声合成装置

Country Status (2)

Country Link
US (1) US8554565B2 (ja)
JP (1) JP5123347B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11118466B2 (en) * 2018-10-19 2021-09-14 Pratt & Whiiney Canada Corp. Compressor stator with leading edge fillet
US12406655B2 (en) * 2022-05-20 2025-09-02 International Business Machines Corporation Increased accessibility of synthesized speech by replacement of difficulty to understand words

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3423276B2 (ja) * 2000-08-10 2003-07-07 三洋電機株式会社 音声合成方法
GB2391143A (en) * 2002-04-17 2004-01-28 Rhetorical Systems Ltd Method and apparatus for scultping synthesized speech
JP4430960B2 (ja) * 2004-03-01 2010-03-10 日本電信電話株式会社 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
JP4639932B2 (ja) * 2005-05-06 2011-02-23 株式会社日立製作所 音声合成装置
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
JP4664194B2 (ja) * 2005-11-29 2011-04-06 パナソニック株式会社 声質制御装置および方法およびプログラム記憶媒体
ATE414975T1 (de) * 2006-03-17 2008-12-15 Svox Ag Text-zu-sprache-synthese
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP2008191334A (ja) * 2007-02-02 2008-08-21 Oki Electric Ind Co Ltd 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム
JP5434587B2 (ja) * 2007-02-20 2014-03-05 日本電気株式会社 音声合成装置及び方法とプログラム
JP5158567B2 (ja) * 2008-03-31 2013-03-06 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool

Also Published As

Publication number Publication date
US20110246199A1 (en) 2011-10-06
JP2011215419A (ja) 2011-10-27
US8554565B2 (en) 2013-10-08

Similar Documents

Publication Publication Date Title
JP4130190B2 (ja) 音声合成システム
US8019605B2 (en) Reducing recording time when constructing a concatenative TTS voice using a reduced script and pre-recorded speech assets
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JPWO2005109399A1 (ja) 音声合成装置および方法
US20100250254A1 (en) Speech synthesizing device, computer program product, and method
US20100312564A1 (en) Local and remote feedback loop for speech synthesis
Conkie et al. Preselection of candidate units in a unit selection-based text-to-speech synthesis system.
US9020821B2 (en) Apparatus and method for editing speech synthesis, and computer readable medium
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5123347B2 (ja) 音声合成装置
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
JP4639932B2 (ja) 音声合成装置
JP2008139631A (ja) 音声合成方法、装置、プログラム
US8249874B2 (en) Synthesizing speech from text
JP5870686B2 (ja) 合成音声修正装置,方法,及びプログラム
US20090216537A1 (en) Speech synthesis apparatus and method thereof
Breen et al. A phonologically motivated method of selecting non-uniform units.
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP5198200B2 (ja) 音声合成装置及び方法
KR101495410B1 (ko) 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
JP5275470B2 (ja) 音声合成装置およびプログラム
JPH06318094A (ja) 音声規則合成装置
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5366919B2 (ja) 音声合成方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5123347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees