JP2000206982A

JP2000206982A - 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Info

Publication number: JP2000206982A
Application number: JP11005443A
Authority: JP
Inventors: Yoshinori Shiga; 芳則志賀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-01-12
Filing date: 1999-01-12
Publication date: 2000-07-28
Also published as: US6751592B1

Abstract

(57)【要約】【課題】１種類の合成単位に対し明瞭度の異なる音声素
片を複数用意し、出現する語の状況に基づく使い分けで
明瞭性と自然性を両立した音声を合成する。【解決手段】テキスト解析部１０１はテキストファイル
１０３から音声合成の対象となるテキストを読み出し、
形態素解析部１０４、構文解析部１０６、意味解析部１
０７及び類似読み語検出部１０８を用いて当該テキスト
の解析を行う。音声合成部１０２内の音声素片選択部１
１０は、テキスト解析部１０１でのテキスト解析結果に
基づいてアクセント句毎に対応する合成音声の明瞭度を
表すスコアを求め、そのスコアの値をもとに、自然性優
先音声素片辞書１１１、中明瞭度音声素片辞書１１２及
び高明瞭度音声素片辞書１１３のいずれかから該当する
音声素片の列を選択する。音声素片接続部１１４は、選
択された音声素片の列を接続し、合成フィルタ処理部１
１５による音声合成に供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成の対象と
なる音韻情報に基づいて、音声素片を選択し、接続する
ことによって音声を合成する音声合成装置及び文音声変
換プログラムを記録した機械読み取り可能な記録媒体に
関する。

【０００２】

【従来の技術】この種の音声合成装置の代表的なもの
に、音声を細分化して蓄積し、その組み合わせによって
任意の音声を合成可能な規則合成装置があることが知ら
れている。以下では、規則合成装置の従来技術の例を図
を参照しながら説明する。

【０００３】図７は従来の規則合成装置の構成を示すブ
ロック図である、図７の規則合成装置は入力されるテキ
ストデータ（以下、単にテキストと称する）を音韻情報
と韻律情報からなる記号列に変換し、その記号列から音
声を生成する文音声変換（Text-to-speech conversio
n：以下、ＴＴＳと称する）処理を行う。

【０００４】この図７の規則合成装置におけるＴＴＳ処
理機構は、大きく分けて言語処理部１２と音声合成部１
３の２つの処理部からなり、日本語の規則合成を例に取
ると次のように行われるのが一般的である。

【０００５】まず言語処理部１２では、テキストファイ
ル１１から入力されるテキスト（漢字かな混じり文）に
対して形態素解析・構文解析等の言語処理を行い、形態
素への分解、係り受け関係の推定等の処理を行うと同時
に、各形態素に読みとアクセント型を与える。その後言
語処理部１２では、アクセントに関しては複合語等のア
クセント移動規則を用いて、所定の読み上げ単位、つま
り読み上げの際の区切りとなる句（以下、アクセント句
と称する）毎のアクセント型を決定する。

【０００６】次に音声合成部１３内では、得られた「読
み」に含まれる各音韻の継続時間長を音韻継続時間長決
定処理部１４にて決定する。音韻継続時間長は、日本語
特有の拍の等時性に基づき決定する手法が一般的であ
る。本従来例では、子音の継続時間長は子音の種類によ
り一定とし、各モーラの基準時刻である子音から母音へ
のわたり部の間隔が一定になるように、母音の継続時間
長が決定される。

【０００７】続いて、上記のようにして得られる「読
み」に従って、音韻パラメータ生成処理部１６が音声素
片メモリ１５から必要な音声素片を読み出し、読み出し
た音声素片を上記の方法で決定した音韻継続時間長に従
って、時間軸方向に伸縮させながら接続して、合成すべ
き音声の特徴パラメータ系列を生成する。

【０００８】ここで、音声素片メモリ１５には、予め作
成された多数の音声素片が格納されている。音声素片
は、アナウンサ等が発声した音声を分析して、スペクト
ルの包絡特性を表現する所定の音声の特徴パラメータを
得た後、所定の合成単位、本従来例では日本語の音節の
単位（子音十母音：以下、ＣＶと称する）で、日本語の
音声に含まれる全ての音節を上記特徴パラメータから切
り出すことにより作成される。また本従来例では、前記
の特徴パラメータとしてケプストラムの低次の係数を利
用している。低次のケプストラム係数は次のようにして
求めることができる。まず、アナウンサ等が発声した音
声データに、一定幅・一定周期で窓関数（ここではハニ
ング窓）をかけ、各窓内の音声波形に対してフーリエ変
換を行い音声の短時間スペクトルを計算する。次に、得
られた短時間スペクトルのパワーを対数化して対数パワ
ースペクトルを得たのち、対数パワースペクトルをフー
リエ変換する。こうして計算されるのがケプストラム係
数である。そして、ケプストラムの特性として、高次の
係数は音声の基本周波数情報を、低次の係数は音声のス
ペクトラム係数を保持していることはよく知られてい
る。

【０００９】音声合成部１３では更に、ピッチパターン
生成処理部１７が上記アクセント型をもとに、ピッチの
高低変化が生じる時刻に点ピッチを設定し、複数設定さ
れた点ピッチ間を直線補間してピッチのアクセント成分
を生成し、これにピッチの自然下降を表現するイントネ
ーション成分を重畳してピッチパターンを生成する。

【００１０】最後に、合成フィルタ処理部１８にて、有
声区間ではピッチパターンに基づいた周期パルスを、無
声区間ではホワイトノイズを音源とし、音声の特徴パラ
メータ系列から算出したフィルタ係数として、フィルタ
リングを行い所望の音声を合成する。ここでは、合成フ
ィルタ処理部１８の合成フィルタとして、ケプストラム
係数を直接フィルタ係数とするＬＭＡ（Log Magnitude
Approximation）フィルタ（対数振幅近似フィルタ）を
用いている。

【００１１】

【発明が解決しようとする課題】上記した規則合成装置
に代表される従来の音声合成装置では、その音声合成装
置で生成される音声には次のような問題があった。

【００１２】従来の音声合成装置では、音声合成部にお
いて、１種類の合成単位（ＣＶ）に対して１つの音声素
片しか持っていないため、絶えず同じ明瞭度で同種の合
成単位は合成される。

【００１３】しかしながら、人間が音声を発声している
ときには、次のようなケースで意識的に、或いは無意識
のうちに、他の部分の発声に比べて明瞭な発音してい
る。即ち、文中で意味を伝えるのに重要な役割を果たす
語が現れたとき、或いは、文言中で初めて出てきた語で
ある場合、或いは、話し手または聞き手にとって馴染み
のない語が現われた場合である。また、その語に類似し
た発音を持つ語が存在し、聞き手が聞き間違いを起こし
そうな場合なども同様である。反対に、上記のような箇
所以外では人間はかなり不明瞭に発音している。なぜな
ら、不明瞭であっても聞き手にとって容易に推測可能な
部分だからである。

【００１４】したがって、１種類の合成単位に対して１
つの音声素片しか持っていない従来の音声合成装置で
は、このような合成音声の明瞭性の調節が行えないため
に、平均的な明瞭度の音声素片を用意した場合には、上
述の高い明瞭度が要求される箇所で不明瞭感を聞き手に
与えてしまう。逆に、明瞭度の高い音声素片を用意した
場合には、全ての文章の全ての箇所が明瞭な発音で合成
され、聞き手は合成音声にたどたどしさを感じてしま
う。このような欠点が従来の音声合成装置にはあった。

【００１５】１種類の合成単位に対して複数の音声素片
を持つ音声合成装置も存在するが、明瞭性とは無関係
に、音韻環境や韻律に応じて使い分けているだけなの
で、やはり上記の欠点が存在する。

【００１６】本発明は上記事情を考慮してなされたもの
でその目的は、１種類の合成単位に対して、明瞭度の異
なる音声素片を複数用意しておき、ＴＴＳの処理の中
で、出現する語の状況に応じて明瞭度の異なる音声素片
を使い分けることによって、聞き取りやすく長時間聞い
ていても疲れない、明瞭性と自然性を両立した音声を合
成できる音声合成装置及び文音声変換プログラムを記録
した機械読み取り可能な記録媒体を提供することにあ
る。

【００１７】

【課題を解決するための手段】本発明は、音声合成の対
象となるテキストデータを解析してテキスト解析結果を
得るテキスト解析手段と、合成単位毎に用意される音声
素片が蓄積された音声素片辞書であって、少なくとも一
部の合成単位については、合成した際の明瞭度が異なる
複数種類の音声素片が用意されている音声素片辞書と、
上記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに上記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、この音声素
片選択手段によって選択された音声素片を接続する音声
素片接続手段と、この音声素片接続手段によって接続さ
れた音声素片の列を用いて音声を生成する音声生成処理
手段とを備えたことを特徴とする。

【００１８】このような構成においては、テキスト解析
手段のテキスト解析結果に基づいて所定の読み上げ単位
に対応する合成音声の明瞭度が判定され、その判定結果
をもとに、その明瞭度で合成可能な音声素片が選択され
て接続され、対応する音声が生成される。したがって、
テキストデータの表す文言中で、意味内容を伝えるよう
な重要な部分については、高明瞭音声素片を使用し、そ
うでないところでは通常の音声素片を使用することによ
り、合成音声の内容を容易に理解することが可能とな
る。

【００１９】ここで、上記テキスト解析手段を、上記読
み上げ単位に、対応する語の品詞を表す第１の情報（品
詞情報）、対応する語が自立語であるか付属語であるか
を示す第２の情報（自立語・付属語情報）、対応する語
が未知話であるか否かを示す第３の情報（未知語情
報）、対応する語の文内或いは文書内の位置を表わす第
４の情報（文内位置情報）、対応する語の馴染み深さを
表わす第５の情報（出現頻度情報）、対応する語の同一
語における少なくとも最初の出現であるか否かが判定可
能な第６の情報（出現順情報）、フォーカスの有無を表
す第７の情報（フォーカス有無情報）、及び対応する語
と発音が類似する語が存在するか否かを示す第８の情報
（類似読み語有無情報）の少なくとも１つを含むテキス
ト解析結果を得るように構成すると共に、上記音声素片
選択手段では、このテキスト解析結果に含まれる上記第
１乃至第８の情報の少なくとも１つに基づいて明瞭度が
判定される構成とするとよい。

【００２０】このような構成においては、上記第１の情
報（品詞情報）に基づいて明瞭度を判定することによ
り、文書中で、名詞や形容詞など意味内容を伝える重要
な部分については、高明瞭音声素片を使用し、そうでな
い助詞、助動詞部分などでは通常の音声素片を使用する
といった使い分けが可能となるため、内容を理解しやす
く且つ滑らかな音声を合成できる。

【００２１】また、上記第２の情報（自立語・付属語情
報）に基づいて明瞭度を判定することにより、文書中
で、名詞や形容詞など意味内容を伝える中心となる自立
語部分については、高明瞭音声素片を使用し、そうでな
い付属語（助詞、助動詞）部分では通常の音声素片を使
用するといった使い分けが可能となるため、やはり内容
を理解しやすく且つ滑らかな音声を合成できる。

【００２２】また、上記第３の情報（未知語情報）に基
づいて明瞭度を判定することにより、専門用語など、テ
キスト解析で使用する辞書に載っていない一般的でない
語は、高明瞭音声素片を使用して明瞭な音声で合成する
といった使い分けが可能となるため、やはり内容を理解
しやすく且つ滑らかな音声を合成できる。

【００２３】また、上記第４の情報（文内位置情報）に
基づいて明瞭度を判定することにより、聞き手にとっ
て、推測する手がかりの少ない話し始め（合成し始め）
部分は聞きづらいことを考慮して、文頭や文書頭におい
ては高明瞭音声素片を使用して明瞭な音声で合成すると
いった使い分けが可能となるため、やはり内容を理解し
やすく且つ滑らかな音声を合成できる。

【００２４】また、上記第５の情報（出現頻度情報）に
基づいて明瞭度を判定することにより、馴染みの薄い
語、つまり予め利用頻度が低いものとして登録されてい
る語は、高明瞭音声素片を使用して明瞭な音声で合成す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。

【００２５】また、上記第６の情報（出現順情報）に基
づいて明瞭度を判定することにより、最初に出てきた語
は、高明瞭音声素片を使用して明瞭な音声で合成し、２
度目以降は明瞭度は落ちるが滑らかな音声素片を使用す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。

【００２６】ここで、上記テキスト解析手段により、上
記第６の情報として、対応する語の同一語における出現
順を表す出現順情報が取得される構成とすると共に、こ
の出現順情報に基づいて上記音声素片選択手段により明
瞭度が判定される構成とするならば、語の登場回数の少
ないうちは、高明瞭音声素片を使用して明瞭な音声で合
成し、回数が増えるに連れ明瞭度は落ちるが滑らかな音
声素片を使用するといったきめ細かな使い分けが可能と
なるため、より内容を理解しやすく且つ滑らかな音声を
合成できる。

【００２７】また、上記第７の情報（フォーカス有無情
報）に基づいて明瞭度を判定することにより、文書中か
ら意味解釈によって導き出されるフォーカス（或いはプ
ロミネンス）の部分、つまり文書中で名詞や形容詞など
意味内容を伝える重要な部分については、高明瞭音声素
片を使用し、そうでない助詞、助動詞部分などでは通常
の音声素片を使用するといった使い分けが可能となるた
め、やはり内容を理解しやすく且つ滑らかを音声を合成
できる。

【００２８】また、上記第８の情報（類似読み語有無情
報）に基づいて明瞭度を判定することにより、類似する
発音の語が文書中に既に存在する語を合成する場合、高
明瞭音声素片を使用して明瞭な音声で合成するといった
使い分けが可能となるため、聞き手はこれらを明確に区
別して認識できるようになり、内容を理解しやすく且つ
滑らかな音声を合成できる。

【００２９】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。

【００３０】図１は本発明の一実施形態に係る音声の規
則合成装置の概略構成を示すブロック図である。図１の
音声規則合成装置（以下、音声合成装置と称する）は、
例えば、パーソナルコンピュータ等の情報処理装置（計
算機）上で、ＣＤ−ＲＯＭ、フロッピーディスク、ハー
ドディスク、メモリカード等の記録媒体、或いはネット
ワーク等の通信媒体により供給される専用のソフトウェ
ア（文音声変換ソフトウェア）を実行することにより実
現されるもので、テキスト（テキストデータ）から音声
を生成する文音声変換（ＴＴＳ）処理機能を有してい
る。この音声合成装置の機能構成は、大別してテキスト
解析部１０１と音声合成部１０２とに分けられる。

【００３１】テキスト解析部１０１は、入力文である漢
字かな混じり文を解析して語の同定を行い（形態素解
析）、得られた品詞情報等を基に、文の構造を推定し
（構文解析）、これから読み上げようとする文の中でど
の語が重要な意味（プロミネンス）を担っているか（ど
の語にフォーカスが存在するか）を推定し（意味解
析）、その結果を出力する処理を司る。一方、音声合成
部１０２は、テキスト解析部１０１の出力であるテキス
ト解析結果をもとに音声を生成する処理を司る。

【００３２】さて、図１の音声合成装置において、文音
声変換（読み上げ）の対象となるテキスト（ここでは日
本語文書）はテキストファイル１０３として保存されて
いる。本装置では、文音声変換ソフトウェア（文音声変
換プログラム）に従い、当該ファイル１０３から漢字か
な混じり文を読み出して、テキスト解析部１０１及び音
声合成部１０２により以下に述べる文音声変換処理を行
い、音声を合成する。

【００３３】まず、テキストファイル１０３から読み出
された漢字仮名混じり文（入力文）は、テキスト解析部
１０１内の形態素解析部１０４に入力される。形態素解
析部１０４は、入力される漢字かな混じり文に対し形態
素解析を行い、読み情報とアクセン情報を生成する。形
態素解析とは、与えられた文の中で、どの文字列が語句
を構成しているか、そしてその語の文法的な属性がどの
ようなものかを解析する作業である。

【００３４】形態素解析部１０４は、入力文をテキスト
解析辞書としての日本語解析辞書１０５と照合して全て
の形態素系列候補を求め、その中から、文法的に接続可
能な組み合わせを出力する。この日本語解析辞書１０５
には、形態素解析時に用いられる情報と共に、個々の形
態素の読みとアクセント型、そしてその形態素が名詞
（［名詞＋する］型の動詞の名詞部を含む）に属するも
のであるならば、それがどの程度よく用いられるかを表
わした「出現頻度」（同じ名詞の出現頻度）が登録され
ている。そのため形態素解析部１０４は、形態素解析に
より形態素が定まれば、同時に読みとアクセント型を与
えることができ、各語の出現頻度を付与することができ
きる。更に、この過程において、日本語解析辞書１０５
に登録されていない語が同定された場合は、形態素解析
部１０４は当該語に対して未知語として扱うための情報
を付加すると共に、その前後関係により品詞の推定を行
い、アクセント型と読みに関しては、日本語解析辞書１
０５に含まれている単漢字辞書を参照して尤もらしいア
クセント型と読みを与える。

【００３５】形態素解析部１０４にて決定した文に含ま
れる個々の語の文法属性は、構文解析部１０６に渡され
る。構文解析部１０６は、形態素解析部１０４から渡さ
れた各語の文法属性から、各語の係り受け関係を推定す
る文構造の解析を行う。

【００３６】構文解析部１０６にて決定した文構造に関
する情報は意味解析部１０７に渡される。意味解析部１
０７は、構文解析部１０６から渡された文構造に関する
情報に基づき、文構造とそれぞれの語の意味、そして文
と文の関係から、個々の文においてどの語に焦点（フォ
ーカス）が当てられているか、どの語が意味を伝える上
で重要な役割を担っているかを推定し、そのフォーカス
（プロミネンス）の有無を表す情報を出力する。

【００３７】これらテキスト解析の具体的な方法につい
ての詳細な説明はここでは省略するが、例えば、長尾
真監修の「日本語情報処理」（電子情報通信学会）の第
９５頁乃至第１０９頁（形態素解析について）、第１２
１乃至第１２４頁（構文解析について）、第１５４頁乃
至第１６３頁（意味解析について）に記載された方法を
用いることがてきる。

【００３８】以上のようにして、テキスト解析部１０１
では、語の読みやアクセントの情報、品詞や未知語情報
（未知語フラグ）、語の文内における位置（文内位
置）、語の出現頻度（同じ名詞の出現頻度）、及び語の
フォーカスの有無の情報が取得される。このテキスト解
析部１０１により取得される情報（テキスト解析結果）
の例を、図２（ａ）に示すテキスト「年号を誤って評成
と記入してしまったので、正しい年号の平成に訂正し
た。」を入力した場合について、図２（ｂ）に示す。こ
こでは、誤って記載した「評成」を「平成」に直したこ
とを言いたいことが、意味解析部１０７の意味解析で導
き出されて、「評成」と「平成」にフォーカスが与えら
れている。

【００３９】さて、テキスト解析部１０１には、類似読
み語検出部１０８が付加されており、テキスト解析部１
０１内の形態素解析部１０４、構文解析部１０６及び意
味解析部１０７を用いて行われたテキスト解析の結果
は、当該類似読み語検出部１０８に渡される。

【００４０】類似読み語検出部１０８は、図２（ｂ）に
示したようなテキスト解析結果をもとに、読み上げよう
とする文に含まれる名詞（［名詞＋する］型の動詞の名
詞部を含む）に関する情報を、自身が管理する読み上げ
出現語リスト（図示せず）に追加していく。この読み上
げ出現語リストは、読み上げようとする文に含まれる名
詞の読みと、その名詞が同一文内の同一名詞の中の何番
目に出現したかを示す出現順（出現回数）を数えるカウ
ンタ（ソフトウェアカウンタ）から構成されている。

【００４１】次に類似読み語検出部１０８は、読み上げ
出現語リスト中の読みをもとに、類似した読みを持ち聞
き間違えられやすい語、つまり類似読み語が同リスト内
にないかを調べる。ここでは、子音が１つだけ異なる語
が類似読み語と判定されるように構成されている。

【００４２】類似読み語検出部１０８は、読み上げ出現
語リストに基づいて類似読み語を検出すると、図２
（ｂ）に示したようなテキスト解析結果に、当該読み上
げ出現語リスト中の各カウンタの値、即ち読み上げ中の
文に含まれる名詞が同一文内の同一名詞の中の何番目に
出現したかをカウントした値（出現順）と、検出した類
似読み語（類似する読みを持つ名詞）の存在を表わすフ
ラグを付与して、音声合成部１０２に渡す。

【００４３】図２（ａ）に示すテキストを入力した結
果、図２（ｂ）に示すテキスト解析結果が類似読み語検
出部１０８に与えられた場合の、当該類似読み語検出部
１０８からの情報出力例を図２（ｃ）に示す。

【００４４】さて、音声合成部１０２では、（テキスト
解析部１０１内の）類似読み語検出部１０８から図２
（ｃ）に示したような情報（テキスト解析部１０１によ
る類似読み語検出結果を含むテキスト解析結果）を渡さ
れると、ピッチパターン生成処理部１０９が起動され
る。ピッチパターン生成処理部１０９は、類似読み語検
出部１０８からの情報中の形態素解析部１０４により決
定されたアクセント情報に基づいて点ピッチを設定す
る。そしてピッチパターン生成処理部１０９は、設定さ
れた複数の点ピッチを直線で補間し、例えば１０ｍｓｅ
ｃ毎のピッチ周波数で表わされるピッチパターンを出力
する。

【００４５】音声合成部１０２ではまた、音声素片選択
部１１０も起動される。音声素片選択部１１０は、類似
読み語検出部１０８からの出力情報のうち、アクセント
句毎の読み、アクセント句内自立語部の品詞、未知語情
報（未知語フラグ）、アクセント句の文内における位
置、アクセント句に含まれる名詞の出現頻度及び読み上
げ中の文書内での出現順と、類似読み語（類似する読み
を持つ名詞）の同一文内での存在を表わすフラグ、そし
て、アクセント句へのフォーカスの有無に基づいて音声
素片を選択する。この音声素片選択部１１０での音声素
片選択の詳細について以下に説明する。

【００４６】まず本実施形態では、サンプリング周波数
１１０２５Ｈｚで標本化した実音声を改良ケプストラム
法により窓長２０ｍｓｅｃ、フレーム周期１０ｍｓｅｃ
で分析して得た０次から２５次の低次ケプストラム係数
を、子音十母音（ＣＶ）の単位で、日本語音声の合成に
必要な全音節を切り出した計１３７個の音声素片が蓄積
された音声素片ファイル（図示せず）が明瞭度別に３つ
用意されている。この明瞭度別の３つの音声素片ファイ
ルの内容は、文音声変換ソフトウェアに従う文音声変換
処理の開始時に、例えばメインメモリ（図示せず）に明
瞭度別に確保された音声素片領域に音声素片辞書１１１
〜１１３として読み込まれているものとする。ここで、
音声素片辞書１１１は自然性を優先させた音声素片の登
録辞書（自然性優先音声素片辞書）、音声素片辞書１１
２は中明瞭度の音声素片の登録辞書（中明瞭度音声素片
辞書）、そして音声素片辞書１１３は高明瞭度の音声素
片の登録辞書（高明瞭度音声素片辞書）である。

【００４７】音声素片選択部１１０は、類似読み語検出
部１０８からの出力情報中のアクセント句毎の読み、ア
クセント句内自立語部の品詞、未知語情報、アクセント
句の文内における位置、アクセント句に含まれる名詞の
出現頻度、読み上げ中の文書内での出現順と、類似読み
語の同一文内での存在を表わすフラグ、そして、アクセ
ント句のフォーカスの有無に基づいて、アクセント句毎
に対応する合成音声の明瞭度を表すスコア（評価値）を
計算し、そのスコアの値に応じていずれの明瞭度の音声
素片辞書に登録されている音声素片を使用するかを決定
する。

【００４８】ここで、音声素片選択部１１０でのアクセ
ント句毎のスコア計算及びスコアの値に基づく音声素片
辞書（明瞭度）の決定は、図３及び図４のフローチャー
トに従って次のように行われる。まず、類似読み語検出
部１０８からの出力情報から、目的とするアクセント句
（最初は先頭のアクセント句）に関する情報が取り出さ
れる（ステップＳ１）。

【００４９】次に、取り出したアクセント句に関する
（テキスト解析結果等の）情報中の自立語部品詞がチェ
ックされ、その品詞に基づいて、スコアが決定・付与さ
れる（ステップＳ２，Ｓ３）。ここでは、自立語部品詞
が名詞、形容詞、形容動詞、連体詞、副詞、または感動
詞のいずれかであるアクセント句にはスコア１が、それ
以外のアクセント句にはスコア０が与えられる。次に、
取り出したアクセント句に関する情報中の未知語フラグ
がチェックされ、当該フラグのオン／オフ（１／０）に
基づいてスコアが決定・付与される（ステップＳ４，Ｓ
５）。ここでは、未知語フラグがオンのアクセント句、
つまり未知語を含むアクセント句にはスコア１が、それ
以外のアクセント句にはスコア０が与えられる。

【００５０】次に、取り出したアクセント句に関する情
報中の文内位置の情報がチェックされ、そのアクセント
句の文内位置に基づいてスコアが決定・付与される（ス
テップＳ６，Ｓ７）。ここでは、文内位置が先頭（第１
番目）のアクセント句にはスコア１が、それ以外のアク
セント句にはスコア０が与えられる。

【００５１】次に、取り出したアクセント句に関する情
報中の出現頻度の情報がチェックされ、そのアクセント
句内の名詞についての（日本語解析辞書１０５から得ら
れた）出現頻度に基づいてスコアが決定・付与される
（ステップＳ８，Ｓ９）。ここでは出現頻度が所定値以
下、例えば２以下の名詞（つまり馴染みのない語）を含
むアクセント句にはスコア１が、それ以外のアクセント
句にはスコア０が与えられる。

【００５２】次に、取り出したアクセント句に関する情
報中の出現順の情報がチェックされ、そのアクセント句
内の名詞についての読み上げ中の文での同じ名詞を対象
とする出現の順番に基づいてスコアが決定・付与される
（ステップＳ１０，Ｓ１１）。ここでは、読み上げ中の
文での名詞の出現順が２以上となる、つまり同じ名詞の
２度目以降の出現となるアクセント句にはスコア−１
が、それ以外のアクセント句にはスコア０が与えられ
る。

【００５３】次に、取り出したアクセント句に関する情
報中のフォーカスの有無を示す情報がチェックされ、そ
のフォーカスの有無にに基づいてスコアが決定・付与さ
れる（ステップＳ１２，Ｓ１３）。ここでは、フォーカ
ス有りと判定されたアクセント句にはスコア１が、それ
以外のアクセント句にはスコア０が与えられる。

【００５４】次に、取り出したアクセント句に関する情
報中の類似読み語の有無を示す情報がチェックされ、そ
の類似読み語の有無に基づいてスコアが決定・付与され
る（ステップＳ１４，Ｓ１５）。ここでは、類似読み語
有りと判定されたアクセント句にはスコア１が、それ以
外のアクセント句にはスコア０が与えられる。

【００５５】次に、取り出したアクセント句に関する情
報中の各項目毎に求められたスコアの合計値を求める
（ステップＳ１６）。このスコアの合計値（総スコア）
は、対応するアクセント句の合成音声に要求される明瞭
度を表す。このステップＳ１６が実行されると、１アク
セント句についてのスコア計算処理が終了する。

【００５６】すると音声素片選択部１１０は、求めたス
コアの合計値をチェックし（ステップＳ１７）、その合
計値に基づいて、自然性優先音声素片辞書１１１、中明
瞭度音声素片辞書１１２、または高明瞭度音声素片辞書
１１３のうち、いずれの明瞭度の音声素片辞書に登録さ
れている音声素片を使用するかを、次のように決定す
る。

【００５７】まず音声素片選択部１１０は、スコア（の
合計値）が０のアクセント句であれば、自然性優先音声
素片辞書１１１を使用することを決定して、この自然性
優先音声素片辞書１１１から当該アクセント句に対応す
るＣＶ単位の高明瞭度音声素片の列を選択する（ステッ
プＳ１８，Ｓ１９）。同様に音声素片選択部１１０は、
スコア（の合計値）が１のアクセント句であれば、中明
瞭度音声素片辞書１１２を使用することを決定して、こ
の中明瞭度音声素片辞書１１２から当該アクセント句に
対応するＣＶ単位の中明瞭度音声素片の列を選択し（ス
テップＳ２０，Ｓ２１）、スコア（の合計値）が２以上
のアクセント句であれば、高明瞭度音声素片辞書１１３
を使用することを決定して、この高明瞭度音声素片辞書
１１３から当該アクセント句に対応するＣＶ単位の高明
瞭度音声素片の列を選択する（ステップＳ２２，Ｓ２
３）。そして音声素片選択部１１０は、選択した音声素
片の列を音声素片接続部１１４に渡す（ステップＳ２
４）。

【００５８】音声素片選択部１１０は、以上に述べた図
３及び図４のフローチャートに従う処理を、類似読み語
検出部１０８からの出力情報中の全アクセント句につい
て、先頭アクセス句から最終アクセント句まで１アクセ
ント句単位で繰り返し実行する。

【００５９】さて、上記した音声素片選択部１１０での
各アクセント句毎のスコア計算の結果は、類似読み語検
出部１０８からの出力情報が図２（ｃ）のようになって
いる例では、図５に示すようになる。この場合、音声素
片選択部１１０での音声素片（音声素片辞書）選択結果
は、図６に示すようになる。

【００６０】ここでは、入力テキスト「年号を誤って評
成と記入してしまったので、正しい年号の平成に訂正し
た。」のうち、スコアが２以上のアクセント句、即ち図
６（ａ）において２重下線が付されている、「年号
を」、「評成と」及び「平成に」の３つのアクセント句
については、同図６（ｂ）に示すように、高明瞭度音声
素片辞書１１３に登録されている対応する高明瞭度音声
素片の列が選択される。同様に、スコアが１のアクセン
ト句、即ち図６（ａ）において１重下線が付されてい
る、「正しい年号の」及び「訂正した」の２つのアクセ
ント句については、同図６（ｂ）に示すように、中明瞭
度音声素片辞書１１２に登録されている対応する中明瞭
度音声素片の列が選択され、スコアが０のアクセント
句、即ち図６（ａ）において下線が付されていないアク
セント句については、同図６（ｂ）に示すように、自然
性優先音声素片辞書１１１に登録されている対応する自
然性優先音声素片の列が選択される。

【００６１】このように音声素片選択部１１０は、アク
セント句毎に利用する音声素片辞書を決定しながら、上
記のＣＶ単位の音声素片の列を、明瞭度の異なる３つの
音声素片辞書１１１〜１１３のいずれかから順次読み出
し、これを音声素片接続部１１４に渡す。

【００６２】音声素片接続部（音韻パラメータ生成処理
部）１１４では、音声素片選択部１１０から渡された音
声素片を順次補間接続することにより合成すべき音声の
音韻パラメータ（特徴パラメータ）を生成する。

【００６３】以上のようにして、ピッチパターン生成処
理部１０９によりピッチパターンが生成され、音声素片
接続部１１４により音韻パラメータが生成されると、音
声合成部１０２内の合成フィルタ処理部１１５が起動さ
れる。この合成フィルタ処理部１１５は、無声区間では
ホワイトノイズを、有声区間ではインパルスを駆動音源
として、音韻パラメータであるケプストラ係数を直接フ
ィルタ係数とするＬＭＡフィルタにより音声を出力す
る。

【００６４】以上、本発明の実施形態について説明して
きたが、本発明は前記実施形態に限定されるものではな
い。例えば、前記の実施形態では、音声の特徴パラメー
タとしてケプストラムを使用しているが、ＬＰＣやＰＡ
ＲＣＯＲ、フォルマントなど他のパラメータであって
も、本発明は適用可能であり同様な効果が得られる。ま
た、前記実施形態では特徴パラメータを用いた分析合成
型の方式を採用したが、波形編集型やフォルマント合成
型の方式であっても、本発明は適用可能であり、やはり
同様な効果が得られる。ピッチ生成に関しても、点ピッ
チによる方法でなくともよく、例えば藤崎モデルを利用
した場合でも本発明は適用可能である。

【００６５】また、本実施形態では３つの音声素片辞書
を用いているが、本発明は音声素片辞書の数については
何ら限定していない。更に本実施形態では、全ての合成
単位について３種類の明瞭度の音声素片を用意している
が、明瞭度に基づいて分類された音声素片が１つでも存
在すればよく、明瞭度がさほど変化しない合成単位があ
れば音声素片は共通にして１つで構わない。要するに本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。

【００６６】

【発明の効果】以上詳述したように本発明によれば、１
種類の合成単位に対して、明瞭度の異なる音声素片を複
数用意しておき、ＴＴＳの処理の中で、出現する語の状
況に応じて明瞭度の異なる音声素片を使い分けることに
よって、聞き取りやすく長時間聞いていても疲れない、
明瞭性と自然性を両立した音声を合成することができ
る。この効果は、文中で意味を伝えるのに重要な役割を
果たす語が現われたとき、或いは文書中で初めて出てき
た語である場合、或いは話し手または聞き手にとって馴
染みのない語が現われた場合、また、その語に類似した
発音を持つ語が既に存在し、聞き手が聞き間違いを起こ
しそうな場合など、に応じて明瞭度の異なる音声素片を
使い分けるならば、一層顕著となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声合成装置の概略
構成を示すブロック図。

【図２】音声合成の対象となるテキストの一例と当該テ
キストに対するテキスト解析部１０１内の形態素解析部
１０４、構文解析部１０６、意味解析部１０７及び類似
読み語検出部１０８を用いたテキスト解析の結果の一例
を示す図。

【図３】音声素片選択部１１０におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書（明
瞭度）の決定処理を説明するためのフローチャートの一
部を示す図。

【図４】音声素片選択部１１０におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書（明
瞭度）の決定処理を説明するためのフローチャートの残
りを示す図。

【図５】音声素片選択部１１０による図２に示したテキ
スト解析結果に基づくスコア計算の結果の一例を示す
図。

【図６】音声素片選択部１１０による図５のスコア計算
の結果に基づく音声素片（音声素片辞書）の選択結果の
一例を示す図。

【図７】従来の規則合成装置の構成を示すブロック図。

【符号の説明】

１０１…テキスト解析部１０２…音声合成部１０４…形態素解析部１０５…日本語解析辞書１０６…構文解析部１０７…意味解析部１０８…類似読み語検出部１１０…音声素片選択部１１１…自然性優先音声素片辞書１１２…中明瞭度音声素片辞書１１３…高明瞭度音声素片辞書１１４…音声素片接続部１１５…合成フィルタ処理部（音声生成処理手段）

Claims

【特許請求の範囲】

【請求項１】音声合成の対象となるテキストデータを
解析してテキスト解析結果を得るテキスト解析手段と、合成単位毎に用意される音声素片が蓄積された音声素片
辞書であって、少なくとも一部の合成単位については、
合成した際の明瞭度が異なる複数種類の音声素片が用意
されている音声素片辞書と、前記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに前記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、前記音声素片選択手段によって選択された音声素片を接
続する音声素片接続手段と、前記音声素片接続手段によって接続された音声素片の列
を用いて音声を生成する音声生成処理手段とを具備する
ことを特徴とする音声合成装置。
【請求項２】前記テキスト解析手段は、前記読み上げ
単位に、対応する語の品詞を表す第１の情報、対応する
語が自立語であるか付属語であるかを示す第２の情報、
対応する語が未知話であるか否かを示す第３の情報、対
応する語の文内或いは文書内の位置を表わす第４の情
報、対応する語の馴染み深さを表わす第５の情報、対応
する語の同一語における少なくとも最初の出現であるか
否かが判定可能な第６の情報、フォーカスの有無を表す
第７の情報、及び対応する語と発音が類似する語が存在
するか否かを示す第８の情報の少なくとも１つを含む前
記テキスト解析結果を得るように構成されており、前記音声素片選択手段は、前記テキスト解析結果に含ま
れる、前記第１の情報、前記第２の情報、前記第３の情
報、前記第４の情報、前記第５の情報、前記第６の情
報、前記第７の情報、及び前記第８の情報の少なくとも
１つに基づいて明瞭度を判定することを特徴とする請求
項１記載の音声合成装置。
【請求項３】前記テキスト解析手段は、前記第６の情
報として、対応する語の同一語における出現順を表す出
現順情報を得るように構成されており、前記音声素片選択手段は、前記出現順情報に基づいて明
瞭度を判定することを特徴とする請求項２記載の音声合
成装置。
【請求項４】計算機に、音声合成の対象となるテキストデータを解析してテキス
ト解析結果を得るステップと、前記テキスト解析結果に基づいて所定の読み上げ単位に
対応する合成音声の明瞭度を判定するステップと、合成単位毎に用意される音声素片が蓄積され、少なくと
も一部の合成単位については、合成した際の明瞭度が異
なる複数種類の音声素片が用意されている音声素片辞書
から、前記読み上げ単位の明瞭度判定結果をもとに該当
する音声素片を選択するステップと、前記選択された音声素片を接続するステップと、前記接続された音声素片の列を用いて音声を合成するス
テップとを実行させるための文音声変換プログラムを記
録した機械読み取り可能な記録媒体。
【請求項５】計算機に、音声合成の対象となるテキストデータを解析して、所定
の読み上げ単位に、対応する語の品詞を表す第１の情
報、対応する語が自立語であるか付属語であるかを示す
第２の情報、対応する語が未知話であるか否かを示す第
３の情報、対応する語の文内或いは文書内の位置を表わ
す第４の情報、対応する語の馴染み深さを表わす第５の
情報、対応する語の同一語における少なくとも最初の出
現であるか否かが判定可能な第６の情報、フォーカスの
有無を表す第７の情報、及び対応する語と発音が類似す
る語が存在するか否かを示す第８の情報の少なくとも１
つを含むテキスト解析結果を得るステップと、前記テキスト解析結果に含まれる、前記第１の情報、前
記第２の情報、前記第３の情報、前記第４の情報、前記
第５の情報、前記第６の情報、前記第７の情報、及び前
記第８の情報の少なくとも１つに基づいて、前記読み上
げ単位に対応する合成音声の明瞭度を判定するステップ
と、合成単位毎に用意される音声素片が蓄積され、少なくと
も一部の合成単位については、合成した際の明瞭度が異
なる複数種類の音声素片が用意されている音声素片辞書
から、前記読み上げ単位の明瞭度判定結果をもとに該当
する音声素片を選択するステップと、前記選択された音声素片を接続するステップと、前記接続された音声素片の列を用いて音声を合成するス
テップとを実行させるための文音声変換プログラムを記
録した機械読み取り可能な記録媒体。