JPH0378800A

JPH0378800A - 音声規則合成方式

Info

Publication number: JPH0378800A
Application number: JP21479989A
Authority: JP
Inventors: Shoichi Takeda; 武田　昌一; Yoshiaki Asakawa; 浅川　吉章; Hiroshi Ichikawa; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-08-23
Filing date: 1989-08-23
Publication date: 1991-04-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［産業上の利用分野１本発明は文章音声の規則合成方式に係わり、特に規則合
成音声の音質改善に関する。［従来の技術］公知例（特許公報又は文献名）１、市川　烹、他；合成音声の自然性に関する実験的考
察、音響学会講演論文集　１−３−８（昭４２）２、申出　剛、他；合成音声の音源特性制御しこよる疑
問１強調の表現、電子通信学会大会　６４（昭４３）３、特願昭５７−１９０８６１　（単語規則合成に藤崎
モデルを使用）４、特願昭６０−７４２２４　（段落ごとに発声の調子
を改め、更に自然な揺らぎを与える）５、特願昭６１−５４７１６　（疑問文、命令文、願望
文等のイントネーションを藤崎モデルにより生成）６、
　ｔｌ、　Ｆｕｊｉｓａｋｉ　ｅｔ、　ａｌ、、　”Ａ
ｎａｌｙｓｉｓ　ｏｆνｏｉｃｅｆｕｎｄａｍｅｎｔａ
ｌ　ｆｒｅｑｕｅｎｃｙ　ｃｏｎｔｏｕｒｓ　ｆｏｒｄ
ｅｃｌａｒａｔｉｖｅ　５ｅｎｔＣｎｃｅｓ　ｏｆ　Ｊ
ａｐａｎｅｓｅ、”　、１゜Ａｃｏｕｓｔ、　Ｓｏｃ、
　Ｊｐｎ、　（ＩＥ）５．４　（１９８４）。７、佐藤利男；有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第１４巻第２号（１，９５８）８、落合和雄；無声破裂音におけるピッチ周波数変化の
聴覚的検討、日本音響学会講演論文集２−３−１２　　
　（昭４３．１１）９、特願昭６２−４８１５　（藤崎モデルに更に音素制
御機構、文形指定制御機構、および強調制御機構を付加
したモデル）１０、廣瀬啓吉、藤崎博也、他２；基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌　Ａ、　Ｊ７２−Ａ、　１゜５− ６ｐｐ、３２−４０　（１９８９−１）１１、河井恒、廣瀬啓吉、藤崎博也；日本語音声の合成
における韻律的特徴の合成規則、電子情報通信学会技術
報告　音声、　ＳＰ８ｇ−１２９（１９８９−１）任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ（声の高さ）の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。規則合成音声の音質劣化
要因として、■音韻の明瞭性の低下に起因するものや、
■文章の抑揚の不自然さに起因するものが挙げられる。文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文、強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則の公知例がある（上記公知例１．２）。しかしここ
で用いたモデルは、音節単位の点ピッチ情報を与えるに
過ぎないため、疑問文、命令文、願望文の差異を表現す
るには不十分である。そのためにこのようなピッチパタ
ンを与えて合成した音声の抑揚は不自然に聞こえる。種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数（ピッチ周波数）と時間
との関係を明確にする必要がある。このような音節内のピッチパタンを記述し、しかも時間
構造を明確に定義できるモデルとして、従来、臨界制動
２次線形系で記述される［ピッチ制御機構モデル」　（
公知例６）が用いられてきた。ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線（フレーズ成分）となり、■のステ
ップ指令は局所的な起伏の激しい曲線（アクセント成分
）となる。これらの二つの成分は、各指令の臨界制動２
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パタンは、これら同成分の和として表現される
。第２図はピッチ制御機構モデルを示す。モデル基本周
波数Ｆ０（ｔ）（ｔは時刻）は、次式のように定式化さ
れる。ここで、Ｆｍ１ｎは最低周波数、■はフレーズ指令の数
、Ａｐｔは１番目のフレーズ指令の大きさ、Ｔｏｔは］
番目のフレーズ指令の時点１．■はアクセント指令の数
、ハ、は３番目のアクセント指令の大きさ、Ｔ□４、Ｔ
２ａはそれぞれｊ番目のアクセント指令の開始時点と終
了時点である。また、Ｇｐｔ（ｔ）、Ｇ、ＩＪ　（ｔ）
はそれぞれ、フレーズ制御機構のインパルス応答関数、
アクセント制御機構のステップ応答関数であり、次式で
与えられる。Ｇｐｔ（ｔ）＝αｉｔ　ｅｘｐ（−αｔｔ）ｕ（ｔ）　
　　　　　　　　（２）ＧａＪ（ｔ）＝Ｍｉｎ［１−（
１＋βｊｔ）　ｅｘｐ（−β１ｔ）ｕ（ｔ）、　（ｊ　
Ｊｌ（３） ■ （１）ここで、α１は１番目のフレーズ指令に対するフレーズ
制御機構の固有角周波数、β、はｊ番目のアクセント指
令に対するアクセント制御機構の固有角周波数、ｕ（ｔ
）は単位ステップ関数である。また、０、はアクセント
成分の」二限値であり、例えば０．９などに選ばれる。９０なおここで、基本周波数（ピッチ周波数）およびピッチ
制御パラメータ（Ａｐｉ＋　Ａａｊ、Ｔｏｔ＋　Ｔ、Ｊ
ＩＴ２Ｊｌ　　α１．βＪＩ　ＦＩ＋Ｉｎ）の値の単位
は次のように定義される。すなわち、Ｆ、　（ｔ）およ
びＦｍｔｎの単位は［Ｈｚ］、Ｔｏｔ　、　Ｔｌ　Ｊお
よびＴｚｊの単位は［Ｓコ、α１およびβ１の単位は［
５ｋ１Ｆとする。またＡｐｔおよびＡａａの値は、基本
周波数およびピッチ制御パラメータの値の単位を上記の
ように定めたときの値を用いる。解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パタンと原音声の分析・抽出による実測値との誤差が最
小となるようなピッチ制御パラメータを求めることによ
り、ピッチパタンの最良近似推定が行なわれる（公知例
６）。上記ピッチ制御機構モデルを適用した公知例として、単
語音声合成に適用した例（公知例３）、疑問文、命令文
、願望文等の文章音声合成に適用した例（公知例５）等
があり、かなりの音質改善効果が認められている。公知例９は、更に、音韻明瞭性の改善に効果的な音素レ
ベルの局所的な揺らぎ（公知例７．８）を表現する成分
を付加したものである。また、疑問文に現れる尻上がり
調や、命令文、願望文等、様々な感情や表情に固有な微
妙な基本周波数の変化を表現する成分（公知例５）も付
加されている。公知例９では、これらの成分を生成するモデルを用いて
人間らしい自然な抑揚感を持った音声を合成する方法を
提供している。第３図（ａ）にこの修正型ピッチ制御機
構モデルを示す。該修正型モデルの特徴は、従来の■フレーズ制御機構お
よび■アクセント制御機構のみから構成されるモデルに
、更に■音素制御機構、（４）文形指定制御機構、およ
び■強調制御機構の３つの制御機構を付加したことであ
る。これら■〜■の３つの制御機構の導入により、ピッ
チパタン上に様々な揺らぎ成分を付加することが出来る
。すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音／ｄ／、／ｍ／、／ｎ／、／ｒ／、／讐／等の局
所的な基本周波数の低下や、無声破裂音／ｌ／、／に／
等の後続母音への入り渡り部にしばしば見られる高基本
周波数からの下降特性を表現することが出来る。また（
４）文形指定制御機構は、疑問文の文末の基本周波数の
尻上がりを表現する成分を′生成する機構である。そし
て■強調機構は、命令文や願望文等、様々な感情や表情
を表現する成分を生成することを目的とした機構である
。上記修正型ピッチ制御機構モデルを簡単に記述する式と
しては、例えば（ｉ）〜（幡）式を用いれば良い。ここ
で（ｉ）〜（ｖ［Ｉｉ）式の各パラメータの単位は従来
のピッチ制御機構に準じて定められる。勿論具体的に実
現する式としては、上記（ｉ）〜（ｖｉｉｉ　）式のみ
に限定されない。また、文章音声の性質や制御方式の選
択により、（１）〜（ｖｉ）式の任意の制御機構の組み
合わせでピッチパタンを生成することが出来る。例えば
、強調を強調成分を用いて表現するならば、アクセント
指令と強調指令の関係は第３図（ｂ）の（１）のように
重畳形になる。しかし、これらの指令により得られるピ
ッチパタンと同一のピッチパタンを同図（ｂ）の（２）
のように、アクセント指令のみによっても得ることが出
来る。この様に一つのアクセント指令終了時点で、別の
指令値に階段状に変化することを「アクセント変形」と
呼んでいる。「アクセント成分に重畳された強調成分」
と「アクセント変形」とは、Ａａ２＝Ａａｌ＋ＡｓＴ１□＝Ｔ７１Ｔ２□＝Ｔ、□ （４）（５）（６）の関係により相互に変換が可能である。モデルパラメータの推定（解析）は、従来のピッチ制御
機構モデルの場合と同じく最適化法により実行すること
が出来る（公知例６）。

【発明が解決しようとする課題】

上記の各種制御機構のうち、音素制御機構の導入により
、合成音声の音韻明瞭性は改善されるに至った。しかし
、感情や特別の表情の付がない通常の文章では、発話の
単調さ、機械的な感じは取＝２３４り除かれていない。このような単調さや機械感は、特に
合成音声システムの長時間利用者にとって、大きな負担
になり、疲労をもたらす。これらの単調さや機械感を取
り除かないかぎり、例えば新聞校閲における読み合わせ
作業のような、長時間利用型のシステムへの適用に供す
ることができない。他方、人間の発声する自然音声を長時間開いても、疲労
感が少ない理由の−っは、発話の中で、局所的に強調し
たり、逆に弱めたりして、発話に変化をつけているから
である。すなわち、人間は強調したいところでは、相対
的に声の高さを高め、声を大きくし、しかもゆっくりと
話す。逆に重要でないところでは、低く小さい声で、し
かも早口で曖昧に話そうとする。即ち、書き言葉におけ
る「カギ括弧」や「太字」等に相当する強調表現を話し
言葉でも行っているのである。この強調や弱めによって
、聞く人は常に発話に注意を傾ける必要がなくなり、負
担が軽減する。本発明は、このような自然音声が持つ強調や弱めを合成
音声において実現する手段を提供するものである。

【課題を解決するための手段】

上記の文音声における強調や弱めは、文中の他の部分と
の相対的な強弱によって行われる。このように他の部分
に対して相対的に引き立たせる（卓立させる）強調は、
「プロミネンスｊあるいは「対比強調」と呼ばれている
。言語学的立場からプロミネンスを分類すると第４図の
ようになる。これらの強調は、音声情報処理的には、（１）基本周波
数、（２）音声波形振幅（パワー）、および（３）時間
長（音素あるいは「間」　（ポーズ）持続時間）の増大
や減少によって実現される。特に（１）基本周波数の場
合は、上記ピッチ制御機構モデルのパラメータ（特にア
クセント成分）の制御により実現される。

【作用】

第５図〜第１１図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第４図の小分類に対応している。なお、本解析においては、強調をアクセント変形型（第
３図（ｂ）の（２））で表現しているが、勿論強調成分
付加型（第３図（ｂ）の（１））で表現しても良い。第５図〜第１１図より、強調のある文章では、強調のな
い場合に比して、卓立している部分の（１）アクセント
指令の大きさ、（２）パワー、あるいは（３）音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、（
１）アクセント指令の大きさ、あるいは（２）パワーが
減少する場合もある。したがって、プロミネンスによる強調、あるいは弱めは
、これら（１）〜（３）（これら（１）〜（３）は総称
して「韻律」と呼ばれている）の各値を増大させたり、
逆に減少させることにより実現される。韻律の各要素（
］）〜（３）は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら、組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。第１図は、第４図の各分類に対応したプロミネンスを生
成するための韻律の各要素の増減（強調あるいは弱め）
の組合せを自然音声の解析結果（例えば第５図〜第１１
図）に基き求めたものである。第１図に従い制御規則を
作成すれば、自然なプロミネンスを合成音声に付与する
ことが出来る。勿論、第１図の指定された強調あるいは
弱めの一部分を省略しても良いし、逆に、指定されてい
ない部分に強調あるいは弱めを追加しても良い。適宜省略、追加することにより、様々な度合いに卓立効
果を変化させることが出来る。（実施例］以下、本発明の実施例を第１図および第１２図〜第２０
図により説明する。第１２図は任意文章合成方式の全体構成を示す。本方式では、漢字仮名混じり文のテキス１〜を入力デー
タとして与えれば、それに対応する合成音声を出力とし
て得ることができる。処理手順は以下の通りである。まず入力テキストは、日本語解析部１（特開昭５７−２
０６１５］　）の形態素解析手段により、各単語に分解
され、品詞が決定され、さらに読みが決定さ７８れる。次にこの結果に基づき、音声言語処理部２（公知
例：特公昭５９−１３０４０、特願昭５７−１９０８６
１、特願昭５９−１２６８４１）において、各単語ある
いは文節のアクセント型が決定される。以上のような構
文レベルの処理結果として、音節情報、アクセント情報
、プロミネンス情報などが得られる。なお句や文章の区
切りは、入力テキスト中の句読点等区切り記号に基づい
て決定される。文章中や文章間のポーズ長は、読点や句
点の後のスペースの数で指定できる。また疑問文、命令
文、願望文等文のタイプは、語尾の活用によって判定す
ることができる場合もあるし、あるいは文章の終止に句
点の代わりにそれぞれ「？」、「！！」および「！」な
どの線上記号を使うことにより指定することもできる。例えば同じ音韻列「川を渡る」であってもＦ川を渡る。」は平叙文であり、ｒ川を渡る？Ｊは疑問文である。以上の■音節情報、■アクセント情報、■ポーズ情報、
■句・文章区切り情報、（必要ならば例えば品詞名等の
）■文法情報、および■プロミネンス情報は、「音節コ
ード」と呼ばれる一連の数字によって表現される。音節
コートは制御パラメータ生成部３の入力情報である。制御パラメータ生成部３では、アクセント、イントネー
ション、音韻持続時間、および音源パワー（振＠）修正
値が規則により決定され、それに従ってピッチパタンと
音韻パラメータ時系列が生成される。ここで、音源パワ
ー修正値とは、強調の有無により、標準的な音源パワー
の値を増減するための係数である。この音源パワー修正
値は、強調の無い場合に対する倍率で与えても良いし、
絶対数値で与えても良い。また、アクセン１へ型は、ア
クセント情報により知ることができる。アクセント情報
は、具体的にはアクセント核のある音韻（アクセントが
下降する直前の音韻）の直後にアクセントを示す音節コ
ード番号を挿入することによって与えている。ただし、
この音節コードがない場合は、平板型アクセントである
ことを示している。またイントネーションは、基本的に
は文章タイプ情報およびプロミネ、ンス情報より定めら
れる。ただし、語尾の音韻の並びの違いによる変形も加
えられる。例えば、願望文「川を渡りたい！」と「川を
渡りたいなあ！」とではイントネーション・パタンか異
なる。最終的なピッチパタンは、アクセント型とイント
ネーションの両者に基づいて生成される。ただし、後に
述べるプロミネンスを含有する文章については、アクセ
ント変形を伴うこともある。音韻持続時間は、子音の場
合は周囲条件の影響が少ないので、子音の種類ごとに固
有長として決定される。それに対して、母音の場合は周
囲条件によって様々な変形を受ける。そのため、アクセ
ント型、音節数、単語内の位置、直前の子音の種類、そ
の母音の種類などから持続時間を決定している（公知例
：特願昭５７−１９０８６１　）。このようにして音韻持続時間が決定されたら、ＣＶ（子
音−母音連鎖）単位でファイルに登録されている音韻パ
ラメータ（生成源方式の場合はスペクトル包絡パラメー
タと音源パラメータ、波形合成方式の場合は音声素片）
を音節コードに対応させて抽出し、配列する。この際、
長すぎれば持続時間内に収まるように切断する。しかる
後に、切断部あるいは隙間部を埋めるようにＣＶ単位間
を補間（生成源方式ニスベクトル包絡パラメータは直線
補間、音源パラメータは同、−値の繰り返し、波形合成
方式：素片切り出し窓の最大値の補間）により接続する
。最後に、以上の処理によって生成された基本周波数と
音韻パラメータは、順次音声合成部４に送られ、音声波
形が出力される。ここで、音声合成方式としては、例え
ば残差圧縮法（公知例：特願昭５９−５５８３）を用い
ればよい。この場合、音源パルスは基本的には、フレー
ムごとに１ピッチ分の残差パルス（代表残差）を抽出し
、その代表残差を外から与えるピッチ周期の間隔で並べ
ることによって生成している。このとき外から与えるピ
ッチ周期が代表残差の長さより短ければ、その長さの差
だけ代表残差の末尾を切り捨て、逆に長ければ、代表残
差の不足している区間だけ０を埋めている。第１２図に
は音声合成部に残差圧縮法を用いた例を示しているが、
勿論、音声合成方式は残差圧縮法に限定されない。例え
ば、波１２形合成方式、特に素片編集方式を用いても良い。以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。以下では、上記任意文章合成方式の内、本発明の最も重
要な部分である、制御パラメータ生成部３におけるプロ
ミネンス生成規則の実施例を第１３図〜第１９図を引用
して示す。まず、プロミネンス情報取得手段について説明する。そ
の例を以下に記す。（１）平叙文／疑問文等の文のタイプより（文形固有の
卓立）（２）構文情報より（公知例１０）。（３）旧情報／新情報（公知例１１）、慣用的な口調。（４）テキスト情報より（カギ括弧、太字、アンダーラ
イン等）。（５）意味情報より（例：先行疑問文に対する答えの部
分を強調）。上記（１）では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、（
２）〜（５）では、音声言語処理部２等で、プロミネン
ス情報（音節コード表現）を生成しなければならない。例えば上記（４）におけるカギ括弧の場合、カギ括弧開
きが検出されたら、アクセント指令の開始時点と大きさ
情報（あるいはプロミネンスの分類情報（例えば第４図
のような情報））を含有する音節コードを発行し、カギ
括弧開じが検出されたら、アクセント指令の終了時点の
情報を含有する音節コードを発行すれば良い。また、（
５）の場合は、意味解析手段が必要となる。もし意味解
析手段を用いないならば、（４）で代用することになる
。すなわち、人間が強調したいところを上記のカギ括弧
等によりテキスト内で指定すれば良い。続いて、上記（１）文形固有の卓立を実現する規則の実
施例を示す。まず、第１３図において、音声言語処理部
２から得られた音節コード列は、文章タイプ決定手段５
に入力される。ここでは第一段階として、文章タイプ情
報辞書６中の語尾辞書に登録されている語尾形と音節コ
ード列の文末の形とを照合することにより、該当する文
章タイプを決定する。なお第１３図における終止形は、
現代文の場合は動詞なら「つ」行で終わる語尾、形容詞
なら［イＪでおわる語尾等、公知の国文法の規則に基い
て定められる。命令形の場合も同様に、現代文なら活用
語尾が「工」行であることがら定められる。以上の文章
タイプの判定は、品詞情報などの文法情報があれば、さ
らに確実となる。ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号（文末記号）を見に
行き、この記号の種類によって文章タイプを決定する（
例えば、「。」あるいは「、」なら平叙文、「？」なら
疑問文、「！！」なら命令文、「！」なら願望文、等）
。以上の文章タイプ決定手段５の処理の一例を第１４図
に示す。第１３図に戻り、文章タイプ決定手段５では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コー
ドより音節情報抽出手段１６により抽出された音節情報
（例えは、「あ」、「い」、「う」等の音節の種類を数
字で表したもの）は、■音韻境界を決定するため、およ
び■ピッチパタンにおける音素成分生成のために用いら
れる。すなわち、■については、音節情報をもとに、音
韻持続時間規則部９において各音節の音韻持続時間が決
定され（前記公知例）、これらを配列した形で音韻境界
時刻が音韻境界決定手段７により決定される。音韻境界
時刻は、一方ではＬ　Ｓ　Ｐパラメータ等の音韻パラメ
ータを生成するために用いられる。また■については、
文章ピッチ制御パラメータ生成部１１において、音素制
御機構パラメータ値を決定するために用いられる。先の文章タイプ情報は、イントネーション規則部８およ
び音源パワー（振ｌ１ｌｉ）修正値計算手段１５に入力
され、文章のタイプに従い、標準イントネーション（例
えば平叙文）からの変形が加えられる。変形には時間の
変形と、ピッチ振幅（指令の大きさ）の変形、および音
源パワーあるいは振幅の変形の３種類がある。時間の変
形は、音韻境界決定手段７に作用し、音韻境界時刻に変
更が加５６えられる。他方指令の大きさの変形は、文章ピッチ制御
パラメータ生成部１１に作用し、指令の大きさが変更さ
れるか、あるいは新たな文形指定指令や強調指令が追加
される。この際標準イントネーションの制御パラメータ
はアクセン１ル規則部１０より供給される。なお文章ピ
ッチ制御パラメータ生成部１１では音韻情報との時間的
整合をとるため、基準となる音韻境界時刻（タイミング
基準情報）を音韻境界決定手段７より得る。また音源パ
ワーの変形は、音源パワー（振＠）修正値計算手段１５
に作用し、音源パワー値の修正値が計算され、音源生成
部に送られる。以上のイントネーションの規則は、規則テーブル（公知
例５）をイントネーション規則部８に設けておき参照す
ることにより達成できる。かくして、プロミネンスのう
ち、文形固有の卓立は、上記手段により実現される。他方、意図的な卓立（上記（４）、（５））やその他の
デフオル１−の卓立（上記（２）、（３）等）に対する
プロミネンス情報は、音節コード中からプロミネンス情
報抽出手段１４により、プロミネンス情報のコートを抽
出し、このコードから得られる。プロミネンス情報は、
イントネーション規則部８と音源パワー（振Ｉｔ＠）修
正値ＨＩ算平手段５に作用する。ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コードの番号に応じ、第１
５図に示すように情報内容を定義しておけば、文章タイ
プ決定手段５、音節情報抽出手段１６、プロミネンス情
報抽出手段］４のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが１〜４００であるならば音節情報と判定、９
００４〜９０２０であるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コードが９１００〜９１９
９であるならばプロミネンス情報と判定、例えば下２桁
の数字に分類情報等を割り当てれば良い。次に、パワーを制御しポーズを生成する方法の具体例を
示す。第１３図では、音声合成部に生成源方式（例えば
残差圧縮法十ＬＳＰ合成器）を用いた例を示しているが
、生成源方式に限定されない。勿論波形合成方式でもまったく同し考え方で波形振幅の
パワーを制御することが出来る。第１６図は、音声合成部に残差圧縮法を用いた場合の例
を示している。スペクトル包絡パラメータは、ＬＳＰパ
ラメータ、ＰＡＲＣＯＲ係数等、任意のパラメータを利
用出来る。音源パワー（振幅）修正値計算手段１５（第
１３図）で得・られたパワー値の平方根（振幅値で与え
られるならばそのままの値）が有声音源生成部あるいは
無声音源生成部に与えらえ、残差（音源）振幅が修正さ
れる。修正値は、実際の値で与える場合は、例えば時間
不連続を防ぐために、フレームごとに、パワー実測値（
例えば第５図〜第１１図）の平方根に近似した振幅包絡
曲線（例えば、第１８図）の値として与えれば良い。も
し修正値を倍率で与える場合は、合成単位が本来持って
いる自然音声の振幅包絡形を活用出来るので、強調部に
対応するフレーム間のみで、合成単位の音源振幅値に指
定した倍率を乗ずれば良い。また所定持続時間のポーズ
を生成する場合は、その時間の間だけ無音生成指令を発
行して、無音（Ｏ値）を出力すれば良い。第１７図は、音声合成部に波形合成方式を用いた場合の
例を示している。この場合は、第１３図の音源パワー（
振幅）修正値計算手段１５は、波形パワー（振＠）修正
値計算手段と置き換えられるが、処理内容は、音源の場
合と全く同様である。違いは、単に実現値が異なるだけである。波形パワー（
振＠）修正値計算手段で得られたパワー値の平方根（振
幅値で与えられるならばそのままの値）が素片窓生成部
に与えられ、素片編集時に素片振幅が修正される。修正
値の時間変化パタンは、上記残差圧縮法の場合と全く同
様の考え方で与えられる。また、ポーズの生成方法も残
差圧縮法の場合と同様、所定時間長のＯ振幅波形を出力
すれば実現出来る。他の合成方式の場合も、各波形振幅制御手段に９０応じて、全く同様の方法でパワー（振幅）制御が実現で
きる。プロミネンスをどの様なパラメータ値の組み合わせでで
実現するかを定めた韻律（ピッチ、パワ、時間長）の制
御方法の一例を示したのが第１図である。更に、第１図
の具体的数値例を示したのが第１９図である。第１９図
に示したように、パラメータ値は、非強調時に対する倍
率で与えても良いし、パラメータの実際の数値で与えて
も良い。第１９図は、自然音声の解析結果（例えば第５
図〜第１１図）に基き求めたものであるので、第１９図
に従い、音声を合成すれば、自然な強調部をもった合成
音声が得られる。勿論、第１９図はパラメータ実現値の
一例であり、これらの数値に限定されない。実際には、
様々な強調の変形がありうるので、それに対応した数値
の変形の可能性は無数に存在する。この第１図および第
１９図が本発明の中枢をなす。実際に第１９図の韻律制
御を実現する方法は、例えば第１９図に示す数値テーブ
ルを予めメモリ手段に作成しておき、プロミネンス情報
に含まれている分類情報により検索すれば良い。ここで、ピッチの強調あるいは弱めの開始・終了時点の
決め方の例を示す。特に強調・弱めの対象が本来のアク
セントそのものである場合（例えば文節の卓立の場合）
、公知のアクセント規則をそのまま用いれば良い（公知
例３）。すなわち、アクセント指令開始はアクセント上
昇直後の音節始端、アクセント終了時点はアクセント下
降直前の音節、すなわちアクセント核のある音節終端を
基準に一４０ｍ５〜４０ｍ５に設定すれば良い。なお平
板型の場合は、終了時点はその文節の最後の音節の終端
を基準にすれば良い。最も簡単な規則は、上記音節始終
端を基準に一律Ｏｍｓに設定することである。これでも
十分自然な音声が合成可能である。また、強調・弱めの対象が本来のアクセントと異なる場
合（例えばアクセント変形の場合）も上記アクセント規
則と同様の規則で設定すれば良い。すなわち、卓立の対象の音節（群）の先頭・末尾音節の
それぞれ始端・終端を基準に上記値を設定すれば良い。本実施例では、プロミネンスのピッチによる強調あるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合、例えば（４）〜（６）式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。他方、音素制御パラメータは、音素ごとに指令の大きさ
、固有角周波数、境界からの相対時刻、上限値等を予め
解析して求めておき、音節情報に対応するテーブルとし
て音素規則部１３に設けておけば良い。ここから音節情
報列の順に従って、音素制御パラメータ列が文章ピッチ
制御パラメータ部１１に送られる。ここで音素開始ある
いは終了時点（相対時刻）は、タイミング基準情報に基
いて絶対時刻に変換される。かくして文章ピッチ制御パ
ラメータ生成部１１で作成されたピッチ制御パラメータ
はピッチパタン生成部１２に送られ。ここで新ピッチ制御機構モデル（（ｉ）〜（幅）式）に
より文章ピッチパタンか生成される。本実施例における韻律制御方法（第１９図）は、自然文
章音声の解析に基き求められたものなので、この方法に
より韻律の制御を行えば、漢字仮名混じり文テキストか
ら合成される音声に、人間らしい自然な強調、弱めを与
える効果をもたらすことができる。第２０図は、本実施
例により生成したプロミネンスを含有するピッチパタン
の実例を示したものであり、強調の効果が明確に実証さ
れている。以上本実施例では、プロミネンスのピッチによる強調あ
るいは弱めをピッチ制御機構モデルあるいは新ピッチ制
御機構モデルにより実現する方法を示したが、勿論プロ
ミネンス実現方法は、これらのモデルのみに限定されな
い。どの様なモデルを用いても良い。例えば、点ピッチ
（折線近似ピッチパタン）でも実現可能であるし、ある
いは階段状のピッチパタンを用いても何ら支障は無い。［発明の効果］以上示したように、本発明は、人間の発声する自然な文
章音声に含まれる強調や弱めを規則合成３４において実現する手段を提供するものである。本発明に
よれば、現実の文章音声に起こりうるほとんど全ての場
合の強調、弱めを実現することができる。そのため、利
用者が特別の注意を払うことなく発話内容を容易に理解
することができるので、利用者の負担を著しく軽減する
ことが可能となる。特に、例えば新聞校閲のような長時間作業時の疲労軽減
効果は著しく、作業効率向上により得られる利益は図り
知れない。

【図面の簡単な説明】

第１図：本発明の基本部分を示す図、第２図〜第３図：
本発明を実現する手段の例を示す図、第４図：本発明の
基本部分を補足する図、第２図〜第３図二本発明の考え
方を例示する図、第２図〜第３図二本発明の実施例を示
す図、第２０図：本発明の効果の例を示す図。符号の説明３：制御パラメータ生成部８：イントネーション規則部１０：アクセント規則部１１：文章ピッチ制御パラメータ生成部１２：ピッチパ
タン生成部１４：プロミネンス情報抽出手段１５：音源パワー（振＠）修正値計算手段＝８８０− 仏滅一乙ト／（７日）賞ｎ借吋Ｙ −８８７− や、でむ

Claims

【特許請求の範囲】１、文形（例えば平叙文や疑問文）を指定する手段ある
いは強調情報を指定する手段のいずれか、あるいは両方
を具備し、該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、基本周波数の時間変
化パタン（以下略して「ピッチパタン」と呼ぶ）を生成する手段とピッチパタ
ン生成を制御する手段とから成る第１の韻律制御手段、
および該強調情報に基き、該ピッチパタンを制御する第
１の制御パラメータ値を変更する手段、音声波形の振幅（パワー）値を制御する第２の韻律制御
手段、および該強調情報に基き、該振幅値を制御する第
２の制御パラメータ値を変更する手段、音素の持続時間を制御する第３の韻律制御手段、および
該強調情報に基き、該音素の持続時間長を制御する第３
の制御パラメータ値を変更する手段、音声間の無音部の持続時間を制御する第４の韻律制御手
段、および該強調情報に基き、該無音部の持続時間長を
制御する第４の制御パラメータ値を変更する手段、のうち、少なくとも２つの韻律制御手段および該２つの
韻律制御手段に対応する２つの制御パラメータ値を変更
する手段を具備することを特徴とする音声規則合成方式
。２、特許請求の範囲第１項記載の第１の韻律制御手段、
を具備し、かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第１項記載の第１の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。３、特許請求の範囲第１項記載の第２の韻律制御手段、
を具備し、かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第１項記載の第２の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。４、特許請求の範囲第１項記載の第３の韻律制御手段、
を具備し、かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第１項記載の第３の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。５、特許請求の範囲第１項記載の第４の韻律制御手段、
を具備し、かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第１項記載の第４の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。６、特許請求の範囲第１項および第２項記載の音声規則
合成方式において、第１の韻律制御手段は、（１）フレ
ーズ制御機構、および（２）アクセント制御機構を持つ
ことを特徴とする音声規則合成方式。７、特許請求の範囲第１項および第２項記載の音声規則
合成方式において、第１の韻律制御手段は、（１）フレ
ーズ制御機構、（２）アクセント制御機構、および（５
）強調制御機構を持つか、あるいは（１）フレーズ制御
機構、（２）アクセント制御機構、および（５）強調制
御機構の他、（３）音素制御機構あるいは（４）文形指
定制御機構の少なくとも１つの制御機構を持つことを特
徴とする音声規則合成方式。８、上記各制御機構のうち、音素制御機構以外は、入力
指令に対して臨界制動２次線形系の応答関数を出力し、音素制御機構を持つ場合、該音素制御機構は、音素の種
類に応じて、入力指令に対して臨界制動２次線形系の応
答関数あるいは指数関数のいずれかを出力することを特徴とする特許請求の範囲第６項および第７項記
載の音声規則合成方式。９、上記各制御機構の出力曲線は、折線（点ピッチ）で
記述されることを特徴とする特許請求の範囲第６項およ
び第７項記載の音声規則合成方式。１０、上記各制御機構の出力曲線は、階段状変化直線で
記述されることを特徴とする特許請求の範囲第６項およ
び第７項記載の音声規則合成方式。１１、上記各制御機構は、それぞれ次の（ｉ）〜（ｖｉ
）式で記述され、かつ上記ピッチパタンは（ｖｉｉ）あ
るいは（ｖｉｉｉ）式で記述されることを特徴とする特
許請求の範囲第８項記載の音声規則合成方式。（１）フレーズ制御機構：Ｇ＿Ｐ＿ｉ（ｔ）＝α＿ｉｔｅｘｐ（−α＿ｉｔ）ｕ（
ｔ）（ｉ）ｔ：時刻 α＿ｉ：ｉ番目の固有角周波数ｕ（ｔ）：単位ステップ関数（２）アクセント制御機構：Ｇａ＿ｊ（ｔ）＝Ｍｉｎ［１−（１＋β＿ｊｔ）ｅｘｐ
（−β＿ｊｔ）ｕ（ｔ）、θ＿ｊ］（ｉｉ） β＿ｊ：ｊ番目の固有角周波数 θ＿ｊ：ｊ番目の上限値（３）音素制御機構：Ｇ＿ｉ＿ｋ（ｔ）＝−Ｍｉｎ［１−（１＋γ＿ｋｔ）ｅ
ｘｐ（−γ＿ｋｔ）ｕ（ｔ）、φ＿ｋ］（ｉｉｉ）あるいはＧ＿ｆ＿ｋ（ｔ）＝ｅｘｐ（−γ＿ｋｔ）ｕ（ｔ）（ｉ
ｖ）γ＿ｋ：ｋ番目の固有角周波数 φ＿ｋ：ｋ番目の上限値（４）文形指定制御機構：Ｇ＿ｔ＿ｌ（ｔ）＝Ｍｉｎ［１−（１＋ζ＿ｌｔ）ｅｘ
ｐ（−ζ＿ｌｔ）ｕ（ｔ）、θ＿ｔ＿ｌ］（ｖ） ζ＿ｌ：ｌ番目の固有角周波数 θ＿ｔ＿ｌ：ｌ番目の上限値（５）強調制御機構：Ｇ＿ｓ＿ｍ（ｔ）＝Ｍｉｎ［１−（１＋η＿ｍｔ）ｅｘ
ｐ（−η＿ｍｔ）ｕ（ｔ）、θ＿ｓ＿ｍ］（ｖｉ） η＿ｍ：ｍ番目の固有角周波数 θ＿ｓ＿ｍ：ｍ番目の上限値ピッチパタン： ▲数式、化学式、表等があります▼ （（ｉｉｉ）式のＧ＿ｆ＿ｋ（ｔ）使用の場合）（ｖｉ
ｉ）あるいは ▲数式、化学式、表等があります▼ （（ｉｖ）式のＧ＿ｆ＿ｋ（ｔ）使用の場合）（ｖｉｉ
ｉ）ここで、Ｆ＿ｍ＿ｉ＿ｎは最低周波数、Ｉはフレーズ指令の数、Ａ＿ｐ＿ｉはｉ番目のフレーズ
指令の大きさ、Ｔ＿０＿ｉはｉ番目のフレーズ指令の時
点、Ｊはアクセント指令の数、Ａ＿ａ＿ｊはｊ番目のアクセ
ント指令の大きさ、Ｔ＿１＿ｊ、Ｔ＿２＿ｊはそれぞれ
ｊ番目のアクセント指令の開始時点と終了時点、には音
素指令の数、Ａ＿ｆ＿ｋはｋ番目の音素指令の大きさ、
Ｔ＿３＿ｋ、Ｔ＿４＿ｋはそれぞれｊ番目の音素指令の
開始時点と終了時点、Ｌは文形指定指令の数、Ａ＿ｔ＿ｌはｌ番目の文形指定
指令の大きさ、Ｔ＿５＿ｌ、Ｔ＿６＿ｌはそれぞれｌ番
目の文形指定指令の開始時点と終了時点、Ｍは強調指令の数、Ａ＿ｓ＿ｍはｍ番目の強調指令の大
きさ、Ｔ＿７＿ｍ、Ｔ＿８＿ｍはそれぞれｍ番目の強調
指令の開始時点と終了時点である。１２、特許請求の範囲第１項および第３項記載の音声規
則合成方式において、音声信号を声道情報と音源情報に分解、再合成すること
を特徴とする分析合成手段を具備し、第２の韻律制御手
段は、該音源情報の振幅値を増減させることにより実行
することを特徴とする音声規則合成方式。１３、特許請求の範囲第１項および第３項記載の音声規
則合成方式において、音声信号を該音声信号の特徴を有する最小単位（素片）
に分解、再合成する手段を具備し、第２の韻律制御手段
は、該素片の振幅値を増減させることにより実行するこ
とを特徴とする音声規則合成方式。１４、特許請求の範囲第１項および第４項記載の音声規
則合成方式において、第３の韻律制御手段は、特許請求の範囲第１２項あるいは第１３項記載の音声信
号を分解する手段により得られる声道情報と音源情報、
あるいは素片を同一情報の繰返し手段、情報の間引き手段、あるいは情
報間の補間手段により、設定された時間長に伸縮して配列することにより実行す
ることを特徴とする音声規則合成方式。１５、特許請求の範囲第１項および第５項記載の音声規
則合成方式において、第４の韻律制御手段は、特許請求の範囲第１２項あるいは第１３項記載の音声信
号を分解、再合成する手段における音源情報の振幅値、
あるいは素片の振幅値に、設定された時間長分だけ０値
を与えることにより実行することを特徴とする音声規則合成方式。１６、特許請求の範囲第１項記載の音声規則合成方式に
おいて、該文形を指定する手段の出力値に応じて、文形が平叙文なら、該第１の韻律制御手段が文末ピッチ
の弱め、該第２の韻律制御手段が文末パワーの弱めを同
時に出力し、文形が疑問文なら、該第１の韻律制御手段が文末ピッチ
の強調、該第２の韻律制御手段が文末パワーの強調、該
第３の韻律制御手段が文末音素持続時間の伸長を同時に
出力することを特徴とする音声規則合成方式。１７、特許請求の範囲第１項記載の音声規則合成方式に
おいて、該強調情報は、強調の範囲の情報を含み、該強調の範囲が文節であるならば、該文節において、該
第１の韻律制御手段がピッチの強調、該第２の韻律制御
手段がパワーの強調を同時に出力し、該強調の範囲が句の途中であるならば、該句の途中にお
いて、該第１の韻律制御手段がピッチの強調、該第４の
韻律制御手段が該句直後の無音部持続時間長の伸長を同
時にあるいは単独で出力し、該強調の範囲が複合単語の一部であるならば、該複合単
語の一部において、該第１の韻律制御手段がピッチの強
調、該第２の韻律制御手段がパワーの強調、該第３の韻
律制御手段が文全体の音素の持続時間長の伸長、該第４
の韻律制御手段が該複合単語の一部の直後の無音部持続
時間長の伸長を同時に出力し、該強調の範囲が話題の一拍であるならば、その拍におい
て、該第１の韻律制御手段がピッチの強調、該第３の韻
律制御手段が文全体の音素の持続時間長の伸長を同時に
出力し、該強調の範囲が話題の文節の中の一拍であるならば、そ
の拍において、該第１の韻律制御手段がピッチの強調、
更にその話題の文節において、該第１の韻律制御手段が
ピッチの強調、該第３の韻律制御手段が上記拍の音素の
持続時間長の伸長を同時に出力することを特徴とする音声規則合成方式。１８、特許請求の範囲第１６項記載の文形を指定する手
段の出力値に応じて、ピッチの強調あるいは弱め、パワ
ーの強調あるいは弱め、音素あるいは無音部の伸縮を出
力する手段と、特許請求の範囲第１７項記載の強調の範囲の情報の出力
値に応じて、ピッチの強調あるいは弱め、パワーの強調
あるいは弱め、音素あるいは無音部の伸縮を出力する手
段を共に具備することを特徴とする音声規則合成方式。１９、ピッチの強調あるいは弱めを特許請求の範囲第１１項記載のアクセント制御機構（（
ｉｉ）式）の指令の大きさ（（ｖｉｉ）あるいは（ｖｉ
ｉｉ）式におけるＡ＿ａ＿ｊ）の値の増減により行い、
強調の範囲を該アクセント制御機構の指令の開始時点お
よび終了時点（それぞれ（ｖｉｉ）あるいは（ｖｉｉｉ
）式におけるＴ＿１＿ｊおよびＴ＿２＿ｊ）で指定する
か、あるいは、特許請求の範囲第１１項記載の強調制御
機構（（ｖｉ）式）の指令の大きさ（（ｖｉｉ）あるい
は（ｖｉｉｉ）式におけるＡ＿ｓ＿ｍ）の値の増減によ
り行い、強調の範囲を該強調制御機構の指令の開始時点
および終了時点（それぞれ（ｖｉｉ）あるいは（ｖｉｉ
ｉ）式におけるＴ＿７＿ｍおよびＴ＿８＿ｍ）で指定し
、パワーの強調あるいは弱めを特許請求の範囲第１２項記載の音源情報の振幅値で指定
するか、あるいは、特許請求の範囲第１３項記載の素片の振幅値
で指定し、音素の伸縮を特許請求の範囲第１４項記載の時間長伸縮手段により実
行し、無音部の伸縮を特許請求の範囲第１５項記載の０値を与える手段により
実行することを特徴とする特許請求の範囲第１６〜１８項記載の音声規則合成方式。