JP5123347B2

JP5123347B2 - 音声合成装置

Info

Publication number: JP5123347B2
Application number: JP2010084319A
Authority: JP
Inventors: 修西山; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2013-01-23
Anticipated expiration: 2030-03-31
Also published as: US20110246199A1; JP2011215419A; US8554565B2

Description

本発明は、音声の合成に関する。

近年、音声合成装置が出力する中間出力をユーザが修正して、その中間出力から合成音声を作成することができる音声合成装置が提案されている。特許文献１は、合成音声を構成する音声素片の差し替えをユーザが指示すると、音声合成装置が使用禁止音声素片リストにその音声素片を追加する技術を開示している。この音声合成装置では、使用禁止音声素片リストを参照し、使用禁止音声素片リストに記録された音声素片を除いて音声合成を行っている。

特開２００６−３１３１７６号公報

しかしながら、特許文献１の技術では、合成音声の品質を劣化させる原因となっている音声素片をユーザが的確に指定することは非常に難しく、その周辺の音声素片を指定する場合が多い。そのため、品質劣化の原因となる音声素片の使用を効果的に禁止する技術が必要とされる。

本発明は、上記の課題に鑑みてなされたものであって、品質劣化の原因となる音声素片の使用を効果的に禁止することを目的とする。

音声合成装置は、合成単位毎に音声素片を選択し、前記音声素片の系列である音声素片系列を生成する生成部と、前記生成部で生成された音声素片系列を接続することによって音声を合成する音声接続部と、前記音声接続部で合成された第１の音声素片系列の音声素片と前記音声接続部で合成され且つ前記第１の音声素片系列と同一の合成単位を有する第２の音声素片系列の音声素片とを比較し、前記第１の音声素片系列と前記第２の音声素片系列が異なる場合、前記第２の音声素片系列と音声素片が異なる前記第１の音声素片系列の音声素片の使用を禁止する禁止部と、を備える。

本発明によれば、品質劣化の原因となる音声素片の使用を効果的に禁止することができる。

本発明の第１の実施形態に係る装置の構成を示すブロック図。合成音声部の構成を示すブロック図。音声合成装置の動作を示すフローチャートを示す図。接続部の動作を示すフローチャートを示す図。接続部のＳ４０１の動作を示すフローチャートを示す図。接続部のＳ４０８の動作を示すフローチャートを示す図。アクセント句区切りのテキストを示す図。アクセント句に対応する音声素片系列を示す図。劣化部位で利用されている音声素片系列を示す図。使用禁止音声素片を示す図。（ａ）改善前の音声素片系列と（ｂ）改善後の音声素片系列を示す図。変更素片履歴記憶部に記憶された音声素片を示す図。アクセント句区切りのテキストを示す図。アクセント句に対応する音声素片系列を示す図。劣化部位で利用されている音声素片系列を示す図。変更素片履歴記憶部に記憶された音声素片を示す図。第２の実施形態に係る接続部のＳ４０８の動作を示すフローチャートを示す図。変更素片履歴記憶部に記憶された音声素片を示す図。アクセント句区切りのテキストを示す図。アクセント句に対応する音声素片系列を示す図。劣化部位で利用されている音声素片系列を示す図。変更素片履歴記憶部に記憶された音声素片を示す図。第３の実施形態に係る接続部のＳ４０８の動作を示すフローチャートを示す図。変更素片履歴記憶部に記憶された音声素片を示す図。アクセント句区切りのテキストを示す図。アクセント句に対応する音声素片系列を示す図。劣化部位で利用されている音声素片系列を示す図。変更素片履歴記憶部に記憶された音声素片を示す図。他の実施形態に係る接続部の動作を示すフローチャートを示す図。

以下、添付図面を参照しながら本発明の実施形態について説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置１０は、取得部１１と、言語処理部１２と、韻律処理部１３と、音声合成部１４と、を備える。取得部１１は、音声合成装置１０の内部又は外部から音声合成の対象となるテキストデータを取得する。言語処理部１２は、取得したテキストデータに対し形態素解析・構文解析を行う。韻律処理部１３は、テキストデータのアクセントなどの韻律や品詞などの言語に関する属性に基づいて、複数の合成単位で構成された音声素片系列を音声合成部１４に出力する。音声合成部１４は、音声素片系列を用いて合成音声を生成する。

各合成単位には、音韻記号、韻律情報、それが対応する区間を含むテキストに関する言語情報などが付与されている。音声素片系列によって、合成音声が表現される。韻律情報は、例えば、基本周波数、継続時間長、メルケプストラム係数及びパワーなどを含む。言語情報は、例えば、単語、アクセント句の音節数、モーラ数、アクセント型、各合成単位の対応する単語、アクセント句内での音節、モーラを単位とした位置及び各合成単位が含まれる音節がアクセント核か否かを表すフラグなどを含む。

図２は、音声合成部１４の構成を示すブロック図である。音声合成部１４は、候補素片記憶部１４０と、生成部１４１と、音声接続部１４２と、出力部１４３と、指定部１４４と、変更素片履歴記憶部１４５と、禁止部１４６と、を備える。候補素片記憶部１４０は、選択する候補となる音声素片を記憶する。生成部１４１は、禁止部１４６で禁止した音声素片を指定部１４４で指定された部位で選択しないように、候補素片記憶部１４０に記憶された音声素片から合成単位毎に音声素片を選択する。音声接続部１４２は、生成部１４１で選択された音声素片を用いて音声を合成する。出力部１４３は、音声接続部１４２で合成した合成音声を出力する。指定部１４４は、音声合成の品質の合否とその品質が不十分な場合にはその部位をユーザに指定させる。変更素片履歴記憶部１４５は、品質改善の前後で変更された音声素片と所定の付随情報とを記憶する。禁止部１４６は、指定部１４４において品質が不十分であると指定された部位で選択しない音声素片を、変更素片履歴記憶部１４５に記憶された情報に基づいて決定する。

図３を参照して、音声合成装置１０の動作を説明する。図３は、音声合成装置１０の動作を表すフローチャートを示す図である。

ステップＳ３０１では、取得部１１は、音声合成装置１０の内部又は外部から、音声合成の対象となるテキストデータを取得する。

ステップＳ３０２では、言語処理部１２は、取得部１１が取得したテキストデータに形態素解析を行って、テキストデータを形態素に分割する。なお、膠着語ではない言語においては、このステップが省略されてもよい。

ステップＳ３０３では、言語処理部１２は、分割された形態素の系列に対して構文解析を施し、読み情報・品詞・活用形・形態素間の係り受けなどの属性値を各形態素に付与する。

ステップＳ３０４では、言語処理部１２は、ステップＳ３０３で付与された属性値を持つ形態素の系列の各形態素に対して、その属性値に基づいて、音韻記号列・アクセント型などの韻律に関する属性値を追加する。

ステップＳ３０５では、韻律処理部１３は、ステップＳ３０３及びステップＳ３０４で各形態素に付与された属性値に基づいて、合成音声の目標となる韻律情報を合成単位毎に生成し、各々が音韻記号・韻律情報・言語情報を持つ複数の合成単位で構成された合成単位の系列を生成する。本実施形態では、音素が合成単位である場合を一例として説明を行うが、本発明はこれに限定されない。

ステップＳ３０６では、音声合成部１４は、ステップＳ３０５で生成した合成単位の系列から合成音声を生成する。ステップＳ３０１〜Ｓ３０４において、解析や必要なデータ取得に使用するデータベースが必要であれば、適宜補えばよい。

次に、図４〜図６を参照して、音声合成部１４の動作について説明する。図４は、ステップＳ３０６の詳細な動作を表すフローチャートを示す図である。

ステップＳ４０１では、生成部１４１は、ステップＳ３０６で生成された合成単位の系列の各合成単位に対して、指定部１４４で指定された合成単位の部分系列の合成単位毎に禁止部１４６で決定した音声素片を選択しないで、候補素片記録部１４０に格納された音声素片から最適なものを選択して、複数の音声素片で構成される音声素片系列を生成する。

ステップＳ４０２では、音声接続部１４２は、ステップＳ４０１で生成された音声素片系列を用いて音声を合成する。

ステップＳ４０３では、出力部１４３は、ステップＳ４０２で生成された合成音声を再生する。次いで、指定部１４４は、合成音声の品質が不十分な部位を指定するための情報をユーザに提示する。

ステップＳ４０４では、指定部１４４は、再生された合成音声の品質の合否をユーザからの入力により受け付ける。

ステップＳ４０５では、指定部１４４は、ステップＳ４０４でユーザが入力した合否に従って処理を分岐する。品質が十分であった場合には（ステップＳ４０５で「合格」）、ステップＳ４０９に進む。品質が不十分であった場合には（ステップＳ４０５で「不合格」）、ステップＳ４０６に進む。

ステップＳ４０６では、指定部１４４は、ユーザからの入力により劣化部位を指定させる。

ステップＳ４０７では、指定部１４４は、使用禁止とする音声素片の候補を決定する。具体的には、ステップＳ４０６で指定された部位に対応する合成単位の部分系列と、その部分系列で選択された音声素片の部分系列と、を求める。

ステップＳ４０８では、禁止部１４６は、ステップＳ４０７で求めた合成単位の部分系列の合成単位毎に、変更素片履歴記憶部１４５に記録された情報に基づいて使用禁止とする音声素片を決定する。

ステップＳ４０９では、禁止部１４６は、ステップＳ４０１で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。禁止部１４６はまた、入れ替わった音声素片に固有な識別子を変更素片履歴記憶部１４５に記録する。

図５を参照して、図４のステップＳ４０１の詳細を説明する。

ステップＳ５０１では、生成部１４１は、合成単位において使用禁止とする音声素片が禁止部１４６で決定されているかを確認する。使用禁止とする音声素片があれば（ステップＳ５０１で「Ｙｅｓ」）、ステップＳ５０２に進み、使用禁止とする音声素片がなければ（ステップＳ５０１で「Ｎｏ」）、ステップＳ５０３に進む。

ステップＳ５０２では、生成部１４１は、使用禁止となった音声素片を除外して、合成単位毎に音声素片の候補を事前に絞り込む。

ステップＳ５０３では、生成部１４１は、合成単位として適している音声素片を候補素片記憶部１４０から読み出し、合成単位が持つ音韻情報・韻律情報・言語情報と各音声素片が持つ同種の情報とを比較することで、所定の数だけ音声素片を予備選択する。このステップＳ５０１〜ステップＳ５０３までの処理を全合成単位に対して行う。なお、ステップＳ５０３の比較方法としては、従来手法を用いれば良く、それに必要な情報は適宜補えばよい。

ステップＳ５０４では、合成単位毎に選択されている複数の音声素片から、隣接する合成単位の各音声素片間のつながりの適切さの度合いや、ステップＳ５０３で算出した各合成単位がもつ目標値と各音声素片がもつ同種の情報の値との差異などを考慮して、各合成単位に対して１つ音声素片を本選択する。なお、ステップＳ５０４のつながりの適切さを算出する手法としては、従来手法を用いればよく、それに必要な情報は適宜補えばよい。

図６を参照して、図４のステップＳ４０８の詳細を説明する。

禁止部１４６は、ステップＳ４０７で求められた音声素片系列の音声素片毎に、以下のステップＳ６０１及びステップＳ６０２を行う。
ステップＳ６０１では、禁止部１４６は、変更素片履歴記憶部１４５に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には（ステップＳ６０１で「Ｎｏ」）、ステップＳ６０３に進む。記録されている場合には（ステップＳ６０１で「Ｙｅｓ」）、ステップＳ６０２に進む。

ステップＳ６０２では、禁止部１４６は、音声素片を合成単位において利用しない音声素片（使用禁止音声素片）として記憶する。全ての音声素片に対して上記の処理を終了したら、ステップＳ６０３に移る。

ステップＳ６０３では、禁止部１４６は、使用禁止音声素片が記録されているか否かで処理を分岐させる。使用禁止音声素片が記録されている場合には（ステップＳ６０３で「Ｎｏ」）、ステップＳ６０４及びステップＳ６０５の処理を行わずに、次の処理（図４のステップＳ４０１）に移る。使用禁止音声素片が記録されていない場合には（ステップＳ６０３で「Ｙｅｓ」）、ステップＳ６０４に進む。

ステップＳ６０４では、指定部１４４は、図４のステップＳ４０７で求められた音声素片系列の中から、少なくとも１つ以上の音声素片が使用禁止音声素片となるようにユーザに選択を求める。

ステップＳ６０５では、禁止部１４６は、ステップＳ６０４でユーザが使用禁止とした音声素片を、ステップＳ６０２と同様に使用しない音声素片（使用禁止音声素片）として記憶する。このようにして、ステップＳ６０２又はステップＳ６０５で使用しない音声素片（使用禁止音声素片）として記録した音声素片は、図５のステップＳ５０１で参照され、図５のステップＳ５０２で対応する合成単位では選択されない。従って、次回の合成音声の作成時には、それらを使用しない合成音声が作成される。

図７〜図１４を参照して、本発明の第１の実施形態に係る音声合成装置の音声合成部１４の動作について詳細に説明する。なお、変更素片履歴記憶部１４５は初期状態にあり、何も記録されていない状態とする。また、ユーザは、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」を入力し、その合成音声を聴取して、指定部１４４を介してユーザがその品質が不合格であることを指定したところから説明を始める。

ステップＳ４０６では、指定部１４４は、図７に示すように、アクセント句区切りのテキストを表示し、どのアクセント句の品質が不十分であったかをユーザに問い合わせ、そのアクセント句を指定させる。

ステップＳ４０７では、指定部１４４は、図８に示すように、選択されたアクセント句に対応する音声素片系列を導出する。ここでは、ステップＳ４０６で「バッグ」が選択されてものとする。図８では、各合成単位（音素）、/b/（「バ」の子音）、/a/（「バ」の母音）、/q/（「ッ」）、/g/（「グ」の子音）、/u/（「グ」の母音）の各々に対して、音声素片Ａ、Ｂ、Ｃ、Ｄ、Ｅがそれぞれ選択されている。

次に、ステップＳ６０１では、禁止部１４６は、何も記録されていない状態（初期状態）にある変更素片履歴記憶部１４５を参照するため、ステップＳ６０１で「Ｎｏ」となり、ステップ６０３に進む。ここでは、使用禁止素片がないため、ステップＳ６０４へ進む。

ステップＳ６０４では、指定部１４４は、図９に示すように、劣化部位で利用されている音声素片系列を表示し、合成単位をユーザに指定させることで、使用禁止とする音声素片を選択させる。ここでは、ユーザが、音節「グ」の母音にあたる合成単位/u/の音声素片を選択したとする。

ステップＳ６０５では、禁止部１４６は、図１０に示すように、ステップＳ６０４で選択された音声素片Ｅを、使用禁止音声素片として記憶する。

次いで、ステップＳ４０１に戻って、音声合成部１４が再び合成音声を作成する。

まず、ステップＳ５０１では、生成部１４１は、アクセント句「バッグ」の音節「グ」の母音にあたる合成単位/u/に対して、音声素片Ｅが使用禁止音声素片として記録されているので（ステップＳ５０１で「Ｙｅｓ」）、ステップＳ５０２に進む。

ステップＳ５０２では、生成部１４１は、合成単位に対して予備選択（ステップＳ５０３）を行う対象から音声素片Ｅを除外する。

ステップＳ５０３では、生成部１４１は、予備選択を行う。

ステップＳ５０１からステップＳ５０３を各合成単位に対して行った結果、前回の合成音声作成時と異なり、アクセント句「バッグ」の音節「グ」の母音にあたる合成単位/u/では、音声素片Ｅが選択されずに、以降の処理が進んで合成音がユーザに提示される。

次いで、ステップＳ４０４において、ユーザがその品質に合格を与え、合成音声部１４がステップＳ４０９に処理を移した場合について説明する。

ステップＳ４０９では、禁止部１４６は、図１１に示すように、改善前の音声素片系列（図１１（ａ））と改善後の音声素片系列（図１１（ｂ））とを比較する。禁止部１４６は、入れ替わった音声素片Ｄと音声素片Ｅとを変更素片履歴記憶部１４５に記録する（図１２）。

図１１は、以下のようにして算出されたものとする。ユーザは、ステップＳ６０４において、アクセント句「バッグ」の品質劣化の原因であった音声素片Ｄを特定できずに、音声素片Ｅを使用禁止として再合成を行った。しかし、ステップＳ５０４の本選択において、音節「グ」の子音/g/の合成単位の音声素片Ｄは、音節「グ」の母音/u/の合成単位の候補として音声素片Ｅが含まれていなかったために、異なる合成単位の音声素片間のつながりの適正さの評価が低くなり、選ばれなかった。このような副作用によって、たまたま、合成音声の品質が改善された。

本実施形態では、ユーザが品質劣化の原因である音声素片を特定できなくても、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録する。よって、記録される音声素片の中には、品質劣化の原因となった不良な音声素片が含まれている。その記録を参照することで、他のテキストに対する合成音声で同じ不良な音声素片が選択されることを防ぐことが可能となる。

図１３〜図１６を参照して、上記履歴の利用方法の具体例を説明する。なお、変更素片履歴記憶部１４５は、図１２の状態にあるとする。また、ユーザは、例えば、テキスト「ＡＢＳ、エアバッグは標準装備となっております。」を入力し、その合成音声を聴取して、指定部１４４を介してその品質が不合格であり、アクセント句「エアバッグは」を劣化部位として指定した（図１３）ところから説明を始める。

ステップＳ４０７では、指定部１４４は、使用禁止とする音声素片の候補を決定する。具体的には、図１４に示すように、アクセント句「エアバッグは」に対応する音声素片Ｈ、Ｉ、Ｊ、Ｋ、Ｃ、Ｄ、Ｌ、Ｍ、Ｎの部分系列を特定する。ここでは、音声素片Ｄが品質劣化の原因であったとする。

ステップＳ６０１では、禁止部１４６は、図１２の状態にある変更素片履歴記憶部１４５に音声素片が記録されているかを確認する。

ステップＳ６０２では、禁止部１４６は、音節「グ」の子音/g/において選択されている音声素片Ｄを、合成単位において利用しない音声素片（使用禁止音声素片）として記憶する。以降、禁止部１４６は、使用禁止音声素片を決定して記録しているので、ステップＳ６０３において、処理をステップＳ４０１に移す。

以降、上述した具体例と同様の処理を経て、図１５に示すように、少なくとも音節「グ」の子音/g/において不良な音声素片Ｄが選択されずに（ステップＳ４０１）、合成音声が作成され（ステップＳ４０２）、ユーザに合成音声が提示される（ステップＳ４０３）。このように、本実施形態では、以前の合成音声の改善作業において劣化原因であった不良な音声素片をユーザが特定できなかったとしても、以前と同一の音声素片が原因となっている品質劣化を、ユーザが合成単位の精度で再びその原因（音声素片）を特定する必要なく、回避することができる。

また、このようにして作成・提示された合成音声の品質をユーザが合格と認めた場合には（ステップＳ４０５）、禁止部１４６は、入れ替わった音声素片Ｄと音声素片Ｌの内、新規に追加される音声素片Ｌを変更素片履歴記憶部１４５に追加し（ステップＳ４０９）、図１６に示すようになる。

このように、本実施形態によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録するため、品質劣化の原因となった不良な音声素片はその履歴に必ず含まれることになる。よって、以前の合成音声の改善作業において劣化原因となっていた不良な音声素片をユーザが特定できなかったとしても、ユーザが合成単位の精度でその原因（音声素片）を再度特定する必要なく、以前と同一の音声素片が原因となっている品質劣化を回避することが可能となる。

（第２の実施形態）
本発明の第２の実施形態について説明する。なお、第１の実施形態と異なる処理を中心に説明し、同様の処理は適宜省略する。

本実施形態では、変更素片履歴記憶部１４５には、第1の実施形態で示した音声素片に固有な識別子に加えて、ユーザが品質改善を認めた前後で入れ替わった回数（変更回数）も各音声素片に対応付けて記録されている。また、この変更回数のような付随情報を記録・更新するために、禁止部１４６のステップＳ４０９（図４）の処理内容も、第１の実施形態とは相違する。すなわち、図４のステップＳ４０５において、ユーザが合成音声の品質が十分であると認めた場合（合格）には、図４のステップＳ４０１で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。そして、入れ替わった音声素片について、それらをユニークに特定できる識別子を変更素片履歴記憶部１４５に記録することに加えて、初めて記録する場合には変更回数を１として記録し、変更素片履歴記憶部１４５に音声素片が記録されている場合には、変更回数を更新する。

図１７は、本実施形態に係る図４のステップＳ４０８を説明するフローチャートを示す図である。

禁止部１４６は、ステップＳ４０７で求められた音声素片系列の音声素片毎に、以下のステップＳ２００１及びステップＳ２００２を行う。

ステップＳ２００１では、禁止部１４６は、変更素片履歴記憶部１４５に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には（ステップＳ２００１で「Ｎｏ」）、ステップＳ２００３に進む。記録されている場合には（ステップＳ２００１で「Ｙｅｓ」）、ステップＳ２００２に進む。

ステップＳ２００２では、禁止部１４６は、音声素片を合成単位において利用しない音声素片（使用禁止音声素片）の候補として記録する。全ての音声素片に対して上記の処理を終了したら、ステップＳ２００３に進む。

ステップＳ２００３では、禁止部１４６は、使用禁止音声素片の候補が記録されているか否かで処理を分岐させる。使用禁止音声素片の候補が記録されている場合には（ステップＳ２００３で「Ｎｏ」）、ステップＳ２００６に進む。使用禁止音声素片の候補が記録されていない場合（ステップＳ２００３で「Ｙｅｓ」）、ステップＳ２００４に進む。

ステップＳ２００４では、第１の実施形態と同様に、指定部１４４は、図４のステップＳ４０７で求められた音声素片系列の中から、少なくとも１つ以上の音声素片が使用禁止音声素片とするようにユーザに選択を求める。

ステップＳ２００５では、禁止部１４６は、ステップＳ２００４でユーザが使用禁止とした音声素片を、使用禁止音声素片として記憶する。

ステップＳ２００６では、禁止部１４６は、ステップＳ２００２で記憶した候補から、変更素片履歴記憶部１４５に記録されている各候補の変更回数が最大値のものを選択し、その合成単位において利用しない音声素片（使用禁止音声素片）として記録する。なお、変更素片履歴記憶部１４５に登録されていない候補の変更回数は、０回として扱ってもよい。また、最大の変更回数を持つ候補が複数存在する場合には、それら全てを記録してもよいし、リストの先頭などの他の基準を用いて選択してもよい。

このようにして、ステップＳ２００５及びステップＳ２００６で記録した使用禁止音声素片は、図５のステップＳ５０１で参照され、図５のステップＳ５０２で対応する合成単位では選択されない。従って、第１の実施形態と同様に、次回の合成音声の作成時には、それらを利用しない合成音声が作成される。

図１８〜図２１を参照して、変更素片履歴記憶部１４５及び禁止部１４６の具体例を説明する。なお、変更素片履歴記憶部１４５は、第１の実施形態の具体例を本実施形態で実行した後の状態にあり、図１８の状態にあるとする。また、ユーザが、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」及び「ＡＢＳ、エアバッグは標準装備となっております。」に続いて、テキスト「東京ドームは、ビッグエッグと呼ばれている。」を入力する。そして、その合成音声を聴取して、指定部１４４を介してその品質が不合格であり、アクセント句「ビッグエッグと」を劣化部位して指定した（図１９）ところから説明する。

ステップＳ４０７では、指定部１４４は、図２０のように、アクセント句「ビッグエッグと」に対応する音声素片R、S、C、D、L、T、C、D、E、U、Vの部分系列を特定する。なお、ここでは不良な音声素片Dが品質劣化の原因であったとする。

ステップＳ２００２では、禁止部１４６は、例えば、図１８の状態にある変更素片履歴記憶部１４５を参照し、音声素片D、L、Eを、各音声素片が選択されている合成単位において利用しない音声素片（使用禁止音声素片）の候補として記憶する。

ステップＳ２００３では、禁止部１４６は、使用禁止音声素片の候補を記録しているので（ステップＳ２００３で「Ｎｏ」）、ステップＳ２００６に進む。なお、使用禁止音声素片の候補を記録していない場合には（ステップＳ２００３で「Ｙｅｓ」）、ステップＳ２００４に進む。

ステップＳ２００４及びステップＳ２００５は、それぞれ図６のステップＳ６０４及びステップＳ６０５と同様であるため、説明を省略する。

ステップＳ２００６では、禁止部１４６は、図１８の状態にある変更素片履歴記憶部１４５を参照して各候補の変更回数を比較する。禁止部１４６はまた、音声素片Dは２回、音声素片Lは１回、音声素片Eは１回であるので、音声素片Dを使用禁止音声素片として決定して記憶する。

以降、上述した第１の実施形態と同様の処理を経て、図２１（ａ）のように、少なくとも音節「グ」の子音/g/において、不良な音声素片Dが選択されずに（ステップＳ４０１に対応）、図２１（ｂ）のように音声素片F、W、Gに入れ替えて合成音声が作成され（ステップＳ４０２に対応）、ステップＳ４０３においてユーザに合成音声が提示される。また、このように作成・提示された合成音声の品質をユーザが合格と認めた場合には（ステップＳ４０５に対応）、入れ替わった音声素片D、E、Lの変更回数を、図２２のように、音声素片Dは２回から４回へ、音声素片Lと音声素片Eは１回から2回へ更新する。

このように、第２の実施形態に係る音声合成装置によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録し、かつ、その音声素片が入れ替わることで改善が認められた回数も付随情報として記録する。また、利用しないことで品質改善が認められた回数が多いものを優先して使用禁止とする。これによって、多くの合成音声において共通して品質劣化原因となっている音声素片の利用を回避する確度が高まる。

（第３の実施形態）
本発明の第３の実施形態について説明する。なお、第１の実施形態と異なる処理を中心に説明し、同様の処理は適宜省略する。

本実施形態では、変更素片履歴記憶部１４５には、第1の実施形態で示した音声素片に固有な識別子に加えて、その音声素片が使用されていた音韻環境に関する情報も各音声素片に対応付けて記録されている。また、この音韻環境に関する情報のような付随情報を記録・更新するために、禁止部１４６のステップＳ４０９（図４）の処理内容も、第１の実施形態と相違する。すなわち、図４のステップＳ４０５において、ユーザが合成音声の品質が十分であると認めた場合（合格）には、図４のステップＳ４０１で選択された同一文章に対する前回の音声素片系列と今回の音声素片系列とを比較する。そして、入れ替わった音声素片について、それらをユニークに特定できる識別子を変更素片履歴記憶部１４５に記録することに加えて、その音声素片が選択されていた合成単位とその隣接する合成単位の音韻に関する情報も記録する。なお、変更素片履歴記憶部１４５に音声素片が記録されている場合にはその情報を追記する形で更新する。

図２３は、本実施形態に係る図４のステップＳ４０８を説明するフローチャートを示す図である。

禁止部１４６は、ステップＳ４０７で求められた音声素片系列の音声素片毎に、以下のステップＳ２７０１及びステップＳ２７０２を行う。

ステップＳ２７０１では、禁止部１４６は、変更素片履歴記憶部１４５に音声素片が記録されているかを確認して、処理を分岐させる。記録されていない場合には（ステップＳ２７０１で「Ｎｏ」）、ステップＳ２７０３に進む。記録されている場合には（ステップＳ２７０１で「Ｙｅｓ」）、ステップＳ２７０２に進む。

ステップＳ２７０２では、禁止部１４６は、合成単位において利用しない音声素片（使用禁止音声素片）の候補として音声素片を記録する。全ての音声素片に対して上記の処理が終了したら（ステップＳ２７０１で「Ｎｏ」）、ステップＳ２７０３に進む。

ステップＳ２７０３では、禁止部１４６は、使用禁止音声素片の候補がステップＳ２７０２で記録されたか否かで処理を分岐させる。使用禁止音声素片の候補が記録されている場合（ステップＳ２７０３で「Ｎｏ」）、ステップＳ２７０６に進む。使用禁止音声素片の候補が記録されていない場合（ステップＳ２７０３で「Ｙｅｓ」）、ステップＳ２７０４に進む。

ステップＳ２７０４及びステップＳ２７０５は、それぞれ図１７のステップＳ２００４及びステップＳ２００５と同様であるため、説明を省略する。

ステップＳ２７０６では、ステップＳ２７０２で記録した候補から、変更素片履歴記憶部１４５に記録されている各候補の音韻環境に関する情報がそれぞれの合成単位とその周辺の合成単位の音韻と適合するものを選択して、その合成単位において利用しない音声素片（使用禁止音声素片）として記録する。なお、本実施形態では、音韻を比較する合成単位の範囲を合成単位とその隣接する合成単位としたが、より広い範囲の音韻を考慮して比較してもよい。変更素片履歴記憶部１４５に登録されていない候補は音韻環境が適合しないものとして扱い、記録しない。また、適合する音韻環境情報をもつ候補が複数存在する場合には、それら全てを記録してもよいし、リストの先頭などの他の基準を用いて選択してもよい。

ステップＳ２７０７では、禁止部１４６は、ステップＳ２７０６において使用禁止音声素片が記録されたか否かで処理を分岐させる。使用禁止音声素片が記録されている場合には（ステップＳ２００７で「Ｎｏ」）、本フローチャートに記載された処理を終了し、図４のステップＳ４０１へ進む。使用禁止音声素片が記録されていない場合、又は、ステップＳ２７０６において使用禁止音声素片が決定できなかった場合には（ステップＳ２００７で「Ｙｅｓ」）、ステップＳ２７０４へ進む。第１の実施形態と同様に、ステップＳ２７０４では、指定部１４４は、図４のステップＳ４０７で求められた音声素片系列の中から少なくとも１つ以上の音声素片を使用禁止音声素片とするようにユーザに求め、選択させる。次に、ステップＳ２７０５では、ステップＳ２７０４においてユーザが使用禁止音声素片とした音声素片をステップＳ２７０６と同様に利用しない音声素片として記録する。このようにして、ステップＳ２７０５又はステップＳ２７０６で記録した使用禁止音声素片は、図５のステップＳ５０１において参照されて、図５のステップＳ５０２において対応する合成単位において選択されなくなる。よって、第１の実施形態と同様に、次回の合成音声の作成時には、それらを利用しない合成音声が作成される。

図２４〜図２８を参照して、変更素片履歴記憶部１４５及び禁止部１４６の具体例を説明する。なお、変更素片履歴記憶部１４５は、第２の実施形態の具体例を本実施形態にて実行した後の状態にあり、図２４の状態にあるとする。また、ユーザが、例えば、テキスト「バッグ、リュックなどの手荷物は、収納箱にお入れ下さい。」「ＡＢＳ、エアバッグは標準装備となっております。」及び「東京ドームは、ビッグエッグと呼ばれている。」に続いて、テキスト「大栗が主演の映画が公開された。」を入力する。そして、その合成音声を聴取して、指定部１４４を介してその品質が不合格であり、アクセント句「大栗が」を劣化部位として指定した（図２５）ところから説明する。

ステップＳ４０７では、指定部１４４は、図２６のように、アクセント句「大栗が」が対応する音声素片X、X、D、L、Y、Z、α、βの部分系列を特定する。なお、ここでは不良な音声素片Lが品質劣化の原因であったとする。

ステップＳ２７０２では、禁止部１４６は、例えば、図２４の状態にある変更素片履歴記憶部１４５を参照し、音声素片D、Lを、各音声素片が選択されている合成単位において利用しない素片（使用禁止音声素片）の候補として記憶する。

ステップＳ２７０３では、禁止部１４６は、使用禁止音声素片の候補を記録しているので、（ステップＳ２７０３で「Ｎｏ」）、ステップＳ２７０６に進む。なお、使用禁止音声素片の候補を記録していない場合には（ステップＳ２７０３で「Ｙｅｓ」）、ステップＳ２７０４に進む。

ステップＳ２７０４では、指定部１４４は、当該劣化部位で利用されている音声素片系列を表示して合成単位をユーザに選択させる。

ステップＳ２７０５では、禁止部１４６は、ユーザが音節「グ」の母音にあたる合成単位/u/の音声素片を正しく選択できたとすると、図２６のように対応する音声素片Lを使用禁止音声素片として記録する。

ステップＳ２００６では、禁止部１４６は、図２４の状態にある変更素片履歴記憶部１４５を参照して各候補の音韻環境と各候補の利用先の音韻環境（対応する合成単位とその隣接する合成単位からなる音韻系列）とを比較する。禁止部１４６はまた、音声素片Dに関しては、変更素片履歴記憶部１４５内の音韻環境は/q/-/g/-/u/であり、利用先の音韻環境は/o/-/g/-/u/であるため、一致せずに記録しない。禁止部１４６はまた、音声素片Lに関しても、変更素片履歴記憶部１４５内の音韻環境は/g/-/u/-/w/又は/g/-/u/-/e/であり、利用先の音韻環境は/g/-/u/-/n/であるため、一致せずに記録しない。

ステップＳ２７０７では、禁止部１４６は、使用禁止音声素片を記録していないので、ステップＳ２７０４に進む。

以降、上述した第１の実施形態と同様の処理を経て、図２７（ａ）のように、少なくとも音節「グ」の母音/u/において、不良な音声素片Lはユーザの指示によって選択されず、また、本合成音声においては適切に音韻環境で利用されていた音声素片Dが選択される可能性がある（ステップＳ４０１に対応）。続いて、合成音声が作成され（ステップＳ４０２に対応）、ユーザに合成音声が提示される（ステップＳ４０３に対応）。また、このように作成・提示された合成音声の品質をユーザが合格と認めた場合には（ステップＳ４０５に対応）、入れ替わった音声素片L、Yを変更素片履歴記憶部１４５に登録し、その音韻環境も、図２８のように、音声素片Lの/g/-/u/-/r/と音声素片Yの/u/-/r/-/i/が追加される（ステップＳ４０９に対応）。

このように、第３の実施形態に係る音声合成装置によれば、ユーザが品質の改善を認めた時点で入れ替わった音声素片を全て記録し、かつ、その音声素片が利用されていた環境に関する情報（音韻環境）も付随情報として記録する。また、各音声素片がその付随情報に示されている音韻環境で利用された場合にだけ使用禁止とする。これによって、各音声素片が不適切な環境下で利用されて品質劣化が起こった可能性のある場合にだけ、その音声素片を使用禁止とするために、他の音韻環境化で適切に利用されている音声素片を使用禁止とする確度が低くなる。

また、本実施形態１から本実施形態３の実施形態において、十分に多量の履歴が記録された変更素片履歴記録部１４５を流用することで、図２９のように、合成音声の改善の前後で入れ替わった音声素片をその付随情報と共に変更素片履歴記憶部１４５へ記録する処理を持たない処理フローを持つことも可能となる。

なお、本発明の実施形態に係る音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声合成装置の各部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声素片データを保持するデータ取得時間の異なる複数の記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどを適宜利用して実現することができる。

なお、本発明は、上記実施形態に限定されず、その要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１０音声合成装置

１４１生成部

１４２音声接続部

１４６禁止部

Claims

合成単位毎に音声素片を選択し、前記音声素片の系列である音声素片系列を生成する生成部と、
前記生成部で生成された音声素片系列を接続することによって音声を合成する音声接続部と、
前記音声接続部で前回までに合成された第１の音声素片系列の音声素片と、前記音声接続部で今回合成され且つ前記第１の音声素片系列と同一の合成単位を有する第２の音声素片系列の音声素片とを比較し、前記第１の音声素片系列と前記第２の音声素片系列が異なる場合、前記第２の音声素片系列と音声素片が異なる前記第１の音声素片系列の音声素片の使用を禁止する禁止部と、
前記音声接続部で合成された第１の音声素片系列の音声素片を指定する指定部とを備え、
前記禁止部は、前記指定部で指定された第１の音声素片系列の音声素片の使用を禁止することを特徴とする音声合成装置。
前記禁止部は、使用を禁止した音声素片系列の音声素片の付随情報を記憶部に記憶し、前記禁止部は、前記記憶部に記憶された前記付属情報に基づいて、使用を禁止する前記第１の音声素片系列の音声素片を選択することを特徴とする請求項１に記載の音声合成装置。
前記付随情報は、前記禁止部により前記第１の音声素片系列の音声素片を使用禁止とした回数を含むことを特徴とする請求項２に記載の音声合成装置。
前記禁止部は、前記生成部で選択された複数の音声素片のうち、前記回数が最大の音声素片を選択することを特徴とする請求項３に記載の音声合成装置。
前記付随情報は、前記生成部で選択された音声素片の合成単位と、前記合成単位の周辺の合成単位の音韻を含むことを特徴とする請求項２に記載の音声合成装置。
前記指定部は、前記合成単位毎に前記第１の音声素片系列の音声素片を指定し、
前記禁止部は、前記合成単位毎に前記第１の音声素片系列の音声素片の使用を禁止することを特徴とする請求項１乃至請求項５のいずれか１項に記載の音声合成装置。