JPH0439698A - speech synthesizer - Google Patents
speech synthesizerInfo
- Publication number
- JPH0439698A JPH0439698A JP2148231A JP14823190A JPH0439698A JP H0439698 A JPH0439698 A JP H0439698A JP 2148231 A JP2148231 A JP 2148231A JP 14823190 A JP14823190 A JP 14823190A JP H0439698 A JPH0439698 A JP H0439698A
- Authority
- JP
- Japan
- Prior art keywords
- synthesis
- speech
- text
- parameter
- synthesis parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【発明の詳細な説明】
産業上の利用分野
本発明は 音声合成装置に関するものであ4従来の技術
従来の音声合成装置としてζよ 例えは 古井:ディジ
タル音声処理p、146(東海大学出版会 1985)
に示されていも 第1図はこの従来の音声合成装置およ
び本発明実施例1の構成を示すブロック図であも 1は
文字列入力端で漢字かな混じり文が入力されム 2はテ
キスト解析部で、入力された漢字かな混じり文は辞書3
を用いて単語に分割され 各々の読み・アクセント型・
品詞等が付与されも 4は韻律制御部で、各単語・付属
語のアクセント型から文節のアクセント型の決定 ポー
ズ位置や文全体のイントネーション等の決定を規則によ
り行う。 5は音韻制御部で、テキスト解析部で得られ
た読みに対し 母音の無声化や鼻音化処凰 仮名表記と
発声表記の異なる場合等の処理(「私は」の「は」は「
わ」と発声される)を行(\ 音声表記を得ム 6は合
成パラメータ作成部で、韻律情報や音声表記情報から合
成に必要な合成パラメータ列を得も 合成パラメータと
は音の高さを決める基本周波数 音声の大きさを決める
復線 声道の状態を決める声道記述パラメータ(PAR
COR係数やホルマント周波数など)、声帯の状態を決
める有声/無声判定フラグ等があり、パラメータテーブ
ル7に格納されていも ここでは 従来例・実施例とも
へ 基本周波数付与には藤崎モデ/k 合成器として
、直・並列型ホルマント合成器を用いも 藤崎モデルに
ついて(よ例えば 藤崎他: 音響学会誌vo1.27
no、9 pp、445−pp456(1971
) ニ解説されティ、4 また 直・並列型ホルマ
ント合成器については 例えζL アレン エト アル
著 70ム テキスト トウ スピーチ : サゝ エ
ムアイ トーク システム(ケン7ゝリッジ′ユニハゝ
−シディ 7°レス 1987) (Alien
et al著From Text to 5peec
h: The MITalk system第12章(
Cambridge Univercity Pres
s 1987 ))に解説されていム 8はパラメータ
補間部で、パラメータテーブル7で得られた各音素毎の
パラメータを補間して一定時間毎の合成パラメータ列を
得も 9は音声合成部で、 8で得られた合成パラメー
タ列から実際の音声を合成し 合成音声出力端10に音
声波形を得る。[Detailed Description of the Invention] Industrial Field of Application The present invention relates to a speech synthesizer. 4. Prior Art A conventional speech synthesizer is ζ. Furui: Digital Speech Processing p. 146 (Tokai University Press 1985 )
1 is a block diagram showing the configuration of this conventional speech synthesis device and the first embodiment of the present invention. 1 is a character string input terminal where a sentence containing kanji and kana is input, and 2 is a text analysis unit. So, the entered kanji/kana mixed sentences are in Dictionary 3.
are divided into words using the pronunciation, accent type,
4 is a prosodic control unit that determines the accent type of a clause based on the accent type of each word/adjunct word, pause position, intonation of the entire sentence, etc., based on rules. 5 is the phonological control unit, which processes the pronunciation obtained by the text analysis unit, devoices and nasalizes vowels, processes cases where the kana notation and phonetic notation are different (the ``ha'' in ``Washiwa'' is
6 is the synthesis parameter creation section, which obtains the synthesis parameter string necessary for synthesis from the prosodic information and phonetic notation information.The synthesis parameter is the pitch of the sound. Fundamental frequency to be determined Return line to determine the loudness of the voice Vocal tract descriptive parameters (PAR) to determine the state of the vocal tract
COR coefficient, formant frequency, etc.), voiced/unvoiced determination flags that determine the state of the vocal cords, etc., and are stored in parameter table 7.Here, we will refer to both the conventional example and the example.Fujisaki model/k synthesizer is used to give the fundamental frequency. Regarding the Fujisaki model (for example, Fujisaki et al.: Journal of the Acoustical Society of Japan vol. 1.27), using a serial/parallel formant synthesizer.
no, 9 pp, 445-pp456 (1971
) 2, 4 Also, regarding the serial/parallel formant synthesizer, please refer to the example ζL by Allen et al. Alien
From Text to 5peec
h: The MITalk system Chapter 12 (
Cambridge University Pres.
s 1987)) 8 is a parameter interpolation unit, which interpolates the parameters for each phoneme obtained in the parameter table 7 to obtain a synthesis parameter sequence at a fixed time interval. 9 is a speech synthesis unit, 8 Actual speech is synthesized from the synthesis parameter sequence obtained in , and a speech waveform is obtained at the synthesized speech output terminal 10.
発明が解決しようとする課題
音声規則合成装置を表 WP文章の読み合わせや公共案
内放送等いろいろな分野で利用されっつあム 合成され
た音声の内容が理解できるという明瞭性の観点からは
実用化レベルにあるといえるカミ 自然性といった品質
の観点からはまだまだレベルは低いといわざるを得なし
も 自然性が低1.X。Problems to be Solved by the Invention The speech rule synthesis device is used in a variety of fields such as WP text reading and public information broadcasting.
It can be said that the kami is at a practical level.It must be said that the level is still low from the viewpoint of quality such as naturalness.Naturality is low 1. X.
言い替えれば非常に機械的な音声になってしまう一つの
要因は 合成音声が非常に単調であることが考えられも
ある一定の韻律で合成されるために変化の乏しい機械
的な品質となるのである。本発明ζ戴 かかる従来技術
の課題に鑑みてなされたもので、合成規則に色々の変化
をもたせることにより、合成品質の改良をはかるもので
あム例えば 「それζよ 牛です。」 「それは 男k
」という2つの文章の第2文節のアクセント核(アクセ
ントのある音節位置)について考えた場合、ともに「う
しで′す」 「おとこ′だ」と4モ一ラ文節で3モーラ
目にアクセントのある形となり、従来の規則合成装置で
は全く同じイントネーションで発声されることになも
しかしなが収 前者の文の場合はアクセント核を持つ語
が「です」という付属語であり、後者の文でζよ 「男
」という自立語にアクセント核が存在し 同じイントネ
ーションにはならなしも
請求項1に記載の発明はかかる従来技術の課題に鑑みて
なされたもので、合成する文章のアクセント核の存在す
る語の品詞に応じて合成パラメータを制御することによ
り、変化に富んだ自然性の高い合成音を提供することを
目的としていもまた 規則合成装置は合成フレーム長(
10m5ec〜30m5ecで合成器によって一定に決
まっている)内で41 定常と仮定して合成処理を行
う力(実際の音声では化なりのゆらぎを含む。例えは2
50Hzの高さで「あ」という音を合成する場合、ピッ
チを250Hzで固定して合成したので3表ブザーのよ
うな音となり自然性が損なわれも そこでゆらぎを付加
して自然性を向上させる力(定のゆらぎ付与ではやはり
不自然な合成音となム請求項2に記載の発明はかかる従
来技術の課題に鑑みてなされたもので、揺らぎ付与手段
を有し合成パラメータの振幅に応じてゆらぎ成分の大き
さを制御することにより、変化に富んだ自然性の高い合
成音を提供することを目的としていもまた 各音素の時
間長や音程(イントネーション)に関する合成パラメー
タを作成する基準となる発声速度や基準基本周波数1よ
可変であるが文章あるいは文節ごとに基準値を設定す
るのは煩雑であるので、 1つの文章・段落等では同じ
値が用いられていも
請求項3に記載の発明はかかる従来技術の課題に鑑みて
なされたもので、合成パラメータ作成時に発声速度等の
基準値を自動的に変化させることにより、変化に富んだ
自然性の高い合成音を提供することを目的としていも
課題を解決するための手段
(1)文字列もしくは記号列(以後テキストという)を
入力するテキスト入力手段と、前記入力手段から入力さ
れたテキストを解析するテキスト解析手段と、前記テキ
スト解析手段で参照する辞書情報格納手段と前記テキス
ト解析手段の結果に従って合成パラメータを作成する合
成パラメータ作成手段と、前記合成パラメータから音声
を合成する音声合成手段を有し 前記パラメータ作成手
段部(友 前記テキスト解析手段から得られるアクセン
ト核を有する語の品詞情報にしたがって合成パラメータ
を制御する音声合成装置を構成すも(2)文字列もしく
は記号列(以後テキストという)を入力するテキスト入
力手段と、前記入力手段から入力されたテキストを解析
するテキスト解析手段と、前記テキスト解析手段で参照
する辞書情報格納手段と前記テキスト解析手段の結果に
従って合成パラメータを作成する合成パラメータ作成手
段と、前記合成パラメータにゆらぎを与えるゆらぎ付与
手段と前記合成パラメータから音声を合成する音声合成
手段を有し 前記揺らぎ付与手段では前記合成パラメー
タ作成手段で獲られた振幅情報にしたがって揺らぎ成分
を制御する音声合成装置を構成すも
(3)文字列もしくは記号列(以後テキストという)を
入力するテキスト入力手段と、前記入力手段から入力さ
れたテキストを解析するテキスト解析手段と、前記テキ
スト解析手段で参照する辞書情報格納手段と、前記テキ
スト解析手段の結果に従って合成パラメータを作成する
合成パラメータ作成手段と、前記合成パラメータから音
声を合成する音声合成手段を有し 前記合成パラメータ
作成手段ζよ 基準値を選択する手段を含む音声合成装
置を構成すも
作用
上記の構成により、アクセント核のある語の品詞情報や
振幅情報により、合成パラメータや揺らぎ成分を制御し
また合成パラメータ作成の基準値を制御することによ
り、変化に富んだ自然性の高い合成音を提供すム
実施例1
第1図(よ 請求項1に記載の発明の一実施例における
音声合成装置の構成を示すブロック図であム これ(友
従来例共通であるので各ブロックに関する説明は割愛
すも 各処理の詳細について実例を用いて説明すも 「
これこそ音声合成です。」という文章が入力された場合
について考えも テキスト解析部2により入力文章は以
下のように分割され アクセントや読みの情報を得も(
入力文章)「これこそ音声合成です。」(単語分割)
これ/こそ/音声/合成/です。In other words, one of the reasons why the voice becomes very mechanical is that the synthesized voice is very monotonous, and because it is synthesized with a certain prosody, it has a mechanical quality with little variation. . The present invention has been made in view of the problems of the prior art, and aims to improve the synthesis quality by making various changes to the synthesis rules.For example, "That's a cow.""That's a man." k
When we consider the accent nucleus (the syllable position where the accent is placed) in the second clause of the two sentences, ``Ushide'su'' and ``Otoko'da'' are both four-molar clauses with an accent on the third mora. With conventional rule synthesizers, it is difficult to pronounce words with exactly the same intonation.
However, in the former sentence, the word with the accent nucleus is the adjunct word ``desu'', and in the latter sentence, the accent nucleus exists in the independent word ζyo ``man'', even though they do not have the same intonation. The invention as claimed in claim 1 has been made in view of the problems of the prior art, and by controlling the synthesis parameters according to the part of speech of the word in which the accent core of the sentence to be synthesized exists, it is possible to achieve a variety of naturalness. Although the purpose of the rule synthesizer is to provide synthesized speech with a high
10 m5 ec to 30 m5 ec, which is fixed by the synthesizer) is 41. The power to perform the synthesis process assuming that it is stationary (actual speech includes fluctuations in sound. For example, 2
When synthesizing the sound "a" at a height of 50Hz, the pitch was fixed at 250Hz and the sound was synthesized, so the sound would be like a three-sided buzzer and the naturalness would be lost, but we added some fluctuation to improve the naturalness. The invention as claimed in claim 2 has been made in view of the problem of the prior art, and includes a means for imparting a fluctuation, which produces an unnatural synthesized sound depending on the amplitude of the synthesis parameter. By controlling the magnitude of the fluctuation component, the purpose is to provide a highly natural synthesized voice with a rich variety of variations, and it also serves as a standard for creating synthesis parameters regarding the duration and pitch (intonation) of each phoneme. Although speed and reference fundamental frequency 1 are variable, it is cumbersome to set reference values for each sentence or clause, so the invention according to claim 3 does not apply even if the same value is used for one sentence or paragraph. This was done in view of the problems with the prior art, and the aim is to automatically change reference values such as speaking speed when creating synthesis parameters, thereby providing a highly natural synthesized sound with a rich variety. Means for Solving the Problems (1) A text input means for inputting a character string or a symbol string (hereinafter referred to as text), a text analysis means for analyzing the text input from the input means, and a text analysis means for reference by the text analysis means. , a dictionary information storage means for creating a synthesis parameter according to the result of the text analysis means, a synthesis parameter creation means for creating a synthesis parameter according to the result of the text analysis means, and a speech synthesis means for synthesizing speech from the synthesis parameter. A speech synthesis device that controls synthesis parameters according to part-of-speech information of a word having an accent core is configured.(2) Text input means for inputting a character string or symbol string (hereinafter referred to as text); a dictionary information storage means referred to by the text analysis means, a composition parameter creation means for creating a composition parameter according to the result of the text analysis means, and a fluctuation imparting that gives fluctuation to the composition parameter. and a speech synthesis device for synthesizing speech from the synthesis parameters, and the fluctuation imparting means controls the fluctuation component according to the amplitude information obtained by the synthesis parameter creation means. (3) Characters A text input means for inputting a string or a symbol string (hereinafter referred to as text), a text analysis means for analyzing the text input from the input means, a dictionary information storage means for reference by the text analysis means, and the text analysis means. The speech synthesis device comprises a synthesis parameter creation means for creating a synthesis parameter according to the result of the synthesis parameter, and a speech synthesis means for synthesizing speech from the synthesis parameter, and a means for selecting a reference value from the synthesis parameter creation means ζ. Effects With the above configuration, synthesis parameters and fluctuation components are controlled using part-of-speech information and amplitude information of words with accent cores, and by controlling reference values for synthesis parameter creation, it is possible to create synthesized speech that is rich in variation and highly natural. Embodiment 1 FIG. 1 is a block diagram showing the configuration of a speech synthesizer in an embodiment of the invention as claimed in claim 1. Since this is common to the conventional example, explanations regarding each block will be omitted. I will omit the details of each process using actual examples.
This is speech synthesis. '' is input. The text analysis section 2 divides the input sentence into the following parts and obtains information on accent and pronunciation (
Input text) "This is speech synthesis." (word division)
This/is/speech/synthesis/.
(読み) コレ コツ オンセ
ー コ゛−セー テ゛ス(アクセント)OD
1 0 b(品詞) 代名 副動 名
名 助動ここで、 「こそ」 「です」に対して与え
られているアクセント型りやbier、NHKアクセン
ト辞典・解説付録(日本放送出版会 1985年)に記
載されているもので、自立語と結合して文節を構成する
際の結合アクセント型を示したものであム また 各単
語のアクセント型(よ アクセントのある音節位置を示
したものであム
次に韻律処理部5で、ポーズ位置や文節のアクセント瓢
文全体のイントネーションを決定すも「これこ″そ(
ポーズ)おんせ−ご°−せ−です」とな4 すなわち第
1文節は4モーラ3型で付属語にアクセント核が存在し
第2文節は10モーラ5型で自立語にアクセント核が
存在すも 音響制御部5で実際の音声表記を得も 以上
で得られた韻律情報・音韻情報に従ってパラメータ作成
部6で実際の合成パラメータを得も パラメータ補間部
9で1戴 こうして得られた各音素のパラメータ値を補
間L10msec毎のパラメータ列を殊 音声合成部1
0でホルマント型の合成器を用いて合成すも
パラメータ作成部における基本周波数(ピッチ)(よ
原画モデルを用いて求めも 原画モデルは次式で現わさ
れも
In FO(t) = In Fm1
n 十 Σ ApiGpi(t−TOi)
+ΣAaj(Gaj(t−tlj)−Gaj(t−t2
j) )Gpi(t) = 3.0本3,0tex
p(−3,0t) for t >−0G
aj(t) = Min[1−(1−20t)ex
p(−20t)、 0.9コfor t >−0
api : フレーズ成分の振幅 0.43(文
頭)、−0,50(文末)
aaj : アクセント成分の振幅 0.40(
起伏)、0.20(平板)
i : フレーズ成分の数
j : アクセント成分の数
toi : フレーズ成分立ち上がり位置tii
: アクセント成分立ち上がり位置t2i
: アクセント成分立ち下がり位置Pugin :
基準値 (=80)ここで、アクセント成分の振幅
は起伏を 平板型で企画化されていも 即ち例では 3
型・5型とともに起伏型なので0.40が用いられるこ
とになム本実施例で(よ アクセント核の存在する語の
品詞によりアクセント成分の振幅値を制御すム 即杖第
1文節は付属語にアクセント核が存在するので、振幅値
を0.30とす4
な耘 実施例において合成単位は音素(C,V)ホルマ
ント合成方式を用いた力(これに限定されるものではな
(を
以上のように本実施例によれば アクセント核の存在す
る品詞情報に応じて、アクセント振幅値を制御すること
により、変化に富んだ自然性の高い合成音声を提供する
ことが出来も
実施例2
第2図Cヨ 請求項2に記載の発明の実施例における
音声合成装置の構成を示したブロック図であ4 なお実
施例1と共通する要素には同一番号をつけていも 1は
文字列入力端で漢字かな混じり文が入力されム 2はテ
キスト解析部で、入力された漢字かな混じり文は辞書3
を用いて単語に分割され 各々の読み・アクセント型・
品詞等が付与されも 4は韻律制御部で、各単語・付属
語のアクセント型から文節のアクセント型の決定 ポー
ズ位置や文全体のイントネーション等の決定を規則によ
り行う。 5は音韻制御部で、テキスト解析部で得られ
た読みに対し 母音の無声化や鼻音化処珠 仮名表記と
発声表記の異なる場合等の処理(「私は」の「は」は「
わ」と発声される)を行t〜 音声表記を得ム 6は合
成パラメータ作成部て 韻律情報や音声表記情報から合
成に必要な合成パラメータ列を得も 合成バラメ゛−夕
はパラメータテーブル7に納されていム 8はパラメー
タ補間部で7で得られた各音素毎のパラメータを補間し
て一定時間毎の合成パラメータ列を得allは揺らぎ成
分付与部で本実施例では乱数を用いて基本周波数のみに
ゆらぎを付与するものとすム 9は音声合成部で、8で
得られた合成パラメータ列から実際の音声を合成し 合
成音声出力端lOに音声波形を得も
次に揺らぎ成分付与部11について説明すもパラメータ
補間部9で10m5ec毎の基本周波数として、次のパ
ラメータ値が得られたとする。(Reading) Kore Tips Onse Couse (Accent) OD
1 0 b (Part of speech) Pronoun Subverb Name
The accent pattern given to ``koso'' and ``desu'' is listed in the NHK accent dictionary/commentary appendix (Japan Broadcast Publishing Co., Ltd., 1985), and is combined with an independent word. It also shows the accent type of each word (i.e., the syllable position where the accent is placed).Next, the prosody processing unit 5 calculates the pause position and the syllable position of each word. The accent of 瓢 determines the intonation of the entire sentence.
Pause) Onse-go°-se-desu'' 4 In other words, the first clause is 4-mora type 3 with an accent nucleus in the attached word, and the second clause is 10-mora type 5 with an accent nucleus in the independent word. Also, the acoustic control unit 5 obtains the actual phonetic notation, the parameter creation unit 6 obtains the actual synthesis parameters according to the prosodic and phonetic information obtained above, and the parameter interpolation unit 9 obtains the actual synthesis parameters of each phoneme thus obtained. Interpolate the parameter values and create a parameter string every 10 msec.Speech synthesis unit 1
0, the fundamental frequency (pitch) in the parameter creation section is synthesized using a formant type synthesizer.
It can also be found using the original model. The original model can be expressed using the following formula: In FO(t) = In Fm1
n ten Σ ApiGpi (t-TOi)
+ΣAaj(Gaj(t-tlj)-Gaj(t-t2
j) )Gpi(t) = 3.0 lines 3,0tex
p(-3,0t) for t >-0G
aj(t) = Min[1-(1-20t)ex
p (-20t), 0.9 for t > -0 api: amplitude of phrase component 0.43 (beginning of sentence), -0,50 (end of sentence) aaj: amplitude of accent component 0.40 (
undulation), 0.20 (flat plate) i: Number of phrase components j: Number of accent components toi: Phrase component rising position tii
: Accent component rising position t2i
: Accent component falling position Pugin :
Standard value (=80) Here, the amplitude of the accent component is 3 even if the undulations are planned as a flat plate.
This is because 0.40 is used because it is an undulating type as well as type 5. In this example, the amplitude value of the accent component is controlled by the part of speech of the word in which the accent nucleus exists. Since there is an accent nucleus in , the amplitude value is set to 0.30. According to this embodiment, by controlling the accent amplitude value according to the part-of-speech information in which the accent kernel exists, it is possible to provide synthesized speech that is rich in variation and highly natural. Figure 2 C is a block diagram showing the configuration of a speech synthesis device in an embodiment of the invention as claimed in claim 2.4 Note that elements common to those in embodiment 1 are given the same numbers. 1 is a character string input terminal. 2 is the text analysis section, and the input sentence containing kanji and kana is inputted in Dictionary 3.
are divided into words using the pronunciation, accent type,
4 is a prosodic control unit that determines the accent type of a clause based on the accent type of each word/adjunct word, pause position, intonation of the entire sentence, etc., based on rules. 5 is the phonological control unit, which processes the pronunciation obtained by the text analysis unit, devoices vowels, makes them nasal, etc., and processes cases where the kana notation and vocalization are different (the ``ha'' in ``watashi wa'' is
6 is the synthesis parameter creation section. The synthesis parameter sequence necessary for synthesis is obtained from the prosodic information and phonetic notation information. The synthesis parameters are stored in the parameter table 7. 8 is a parameter interpolation unit that interpolates the parameters for each phoneme obtained in 7 to obtain a synthetic parameter sequence for each fixed time. 8 is a fluctuation component adding unit that uses random numbers to calculate the fundamental frequency. 9 is a speech synthesis unit which synthesizes actual speech from the synthesis parameter sequence obtained in 8, obtains a speech waveform at the synthesized speech output terminal lO, and then outputs a fluctuation component adding unit 11. To explain this, it is assumed that the parameter interpolation unit 9 obtains the following parameter value as a fundamental frequency every 10 m5ec.
但しここで合成音のサンプリング周波数はl0KHzと
すム
フレーム番号 1 2 3
基本周波数 250 250 248 (Hz)ピッ
チ 40 40 40 (X 1/10m
5ec)合成部10で用いられるピッチパルスのサンプ
ルNoζ瓜 次のようになム
フレームNo 1
2 3サン7°ルNOO,40,
80,120,160,200,240,280しかし
なか仮 実際の音声は基本周波数250H2として耘
このように規則的にピッチパルスが有るわけではなくゆ
らいでおり、このゆらぎが自然性を向上させていも こ
のピッチパルス列に対して、乱数を用いて例えば±2の
ゆらぎを与えると以下のようになa
フレームNo 1
2 3サン7°ルNO0,39,
80,122,161,200,238,280この与
えるゆらぎの幅を、振幅パラメータの大きさに関連して
決定する。振幅の小さい部分ではゆらぎの幅は大きく、
振幅の大きい部分ではゆらぎの幅を小さ(すも 本実施
例でζよ 振幅をampとした隊 ゆらぎの幅を次の式
で与えもf (ゆらぎ)=5−amp/20 ;即t
lxamp=40のとき、±3の乱数でゆらぎを与、i
、、amp=80では±1のゆらぎを与えるものとすも
このよう級 ゆらぎの幅を振幅情報にしたがって制御す
ることにより、規則合成音の単調さを軽減し 変化に富
んだ自然性の高い合成音声を提供することが出来も
実施例3
第3図1′!、請求項3に記載の発明の実施例における
音声合成装置の構成を示したブロック図であa なお実
施例1と共通する要素には同一番号をつけてい、klは
文字列入力端で漢字かな混じり文が入力され21o2は
テキスト解析部で、入力された漢字かな混じり文は辞書
3を用いて単語に分割され 各々の読み・アクセント型
・品詞等が付与されも 4は韻律制御部で、各単語・付
属語のアクセント型から文節のアクセント型の決定 ポ
ーズ位置や文全体のイントネーション等の決定を規則に
より行う。5は音韻制御部六 テキスト解析部で得られ
た読みに対し 母音の無声化や鼻音化処班 仮名表記と
発声表記の異なる場合等の処理(「私は」の「は」は「
わ」と発声される)を行匹 音声表記を得& 12は
基準値選択手段で、次のパラメータ作成部で基本周波数
パラメータ作成に用いる基準値を決定すム 6は合成パ
ラメータ作成部で、韻律情報や音声表記情報から合成に
必要な合成パラメータ列を得も 合成パラメータはパラ
メータテーブル7に納されてい48はパラメータ補間部
で7で得られた各音素毎のパラメータを補間して一定時
間毎の合成パラメータ列を得も 9は音声合成部で、
8で得られた合成パラメータ列から実際の音声を合成し
合成音声出力端10に音声波形を得も
パラメータ作成部における基本周波数(ピッチ)は 藤
崎モデルを用いて求めも 藤崎モデルは次式で現わされ
も
In FO(t) = In Fm1
n 十 Σ ApiGpi(t−TOi)
+ΣAaj[Gaj(t−tlj)−Gaj(t−t2
j))Gpi(t) −3,0本3.0texp(−
3,Ot) for t >−0Gaj(t)
−Min[1−(1−20t)exp(−20t)、
0.91for t >= Q
api : フレーズ成分の振幅 0.43(文
頭)、−0,50(文末)
aaj : アクセント成分の振幅 0.40(
起伏)、0.20(平板)
i : フレーズ成分の数
j : アクセント成分の数
toi ; フレーズ成分立ち上がり位置tli
: アクセント成分立ち上がり位置t2i
: アクセント成分立ち下がり位置Fm1n :
基準値
実施例1で&友 基準値として80(Hz)を用いてい
ため(これでは同じモーラ数同じアクセント型の文章が
続いた場合、作成される基本周波数パラメータは尾同−
となり、合成音は単調なものになム そこで、本発明で
lよ 基準値選択手段6で乱数(ran)を求数 基準
値Fm1nを次式で設定すム
Fm1n = 80 + ran ;このよ
う!ミ 基準値を変化させることにより、合成音の単調
さを軽減することができも ここで、制御するパラメー
タとして基本周波数 制御する基準値としてFm1nを
用いた力(これは本発明を何隻拘束するものではな(〜
以上のように本実施例によれ(戯 音質情報を合成時に
ダイナミックに登録することが出来 変化に富んだ効果
的な合成音声を提供することが出来も
発明の効果
本発明によれば 合成音の単調さを軽減し 変化に富ん
だ自然性の高い効果的な合成音を提供することが出来もHowever, here, the sampling frequency of the synthesized sound is 10KHz. Frame number 1 2 3 Fundamental frequency 250 250 248 (Hz) Pitch 40 40 40 (X 1/10m
5ec) Pitch pulse sample No. ζ used in the synthesis unit 10 Sample frame No. 1 as follows
2 3 sun 7° le NOO, 40,
80, 120, 160, 200, 240, 280 However, the actual voice has a fundamental frequency of 250H2.
In this way, the pitch pulses are not regular, but fluctuate, and although this fluctuation improves the naturalness, if a random number is used to give a fluctuation of, for example, ±2 to this pitch pulse train, it will be as follows. Naa Frame No. 1
2 3 sun 7° le NO0,39,
80, 122, 161, 200, 238, 280 The width of this fluctuation is determined in relation to the magnitude of the amplitude parameter. The width of fluctuation is large in parts with small amplitude,
In the part where the amplitude is large, the width of the fluctuation is small (in this example, ζ).The width of the fluctuation is given by the following formula:
When lxamp=40, fluctuation is given by a random number of ±3, i
,, amp = 80 gives a fluctuation of ±1.By controlling the width of fluctuation according to the amplitude information, the monotony of regular synthesized sounds is reduced and a highly natural synthesis with a rich variety is achieved. Embodiment 3 Figure 3 1' can also provide audio! , is a block diagram showing the configuration of a speech synthesis device in an embodiment of the invention as claimed in claim 3.A. Elements common to embodiment 1 are given the same numbers, and kl is a kanji character at the character string input terminal. A mixed sentence is input, and 21o2 is a text analysis section.The input kanji-kana mixed sentence is divided into words using a dictionary 3, and each word is given its reading, accent type, part of speech, etc.4 is a prosodic control section, where each word is divided into words. Determining the accent type of a clause based on the accent type of words and adjuncts.The pause position and intonation of the entire sentence are determined based on rules. 5 is the phonological control unit 6 Based on the pronunciation obtained by the text analysis unit Vowel devoicing and nasalization processing unit Processing when the kana notation and vocalization are different (the ``ha'' in ``watashi wa'' is
12 is a reference value selection means, which determines the reference value to be used for creating the fundamental frequency parameter in the next parameter creation part. 6 is a synthesis parameter creation part, which determines the prosody. The synthesis parameters necessary for synthesis are obtained from the information and phonetic notation information.The synthesis parameters are stored in the parameter table 7, and 48 is a parameter interpolation unit that interpolates the parameters for each phoneme obtained in 7 and calculates them at a fixed time interval. 9 is the speech synthesis section to obtain the synthesis parameter string.
The actual speech is synthesized from the synthesis parameter sequence obtained in step 8, and the speech waveform is obtained at the synthesized speech output terminal 10.The fundamental frequency (pitch) in the parameter creation section is also found using the Fujisaki model.The Fujisaki model is expressed using the following equation. Wasaremo In FO(t) = In Fm1
n ten Σ ApiGpi (t-TOi)
+ΣAaj[Gaj(t-tlj)-Gaj(t-t2
j)) Gpi(t) -3,0 lines 3.0texp(-
3, Ot) for t >-0Gaj(t)
-Min[1-(1-20t)exp(-20t),
0.91for t >= Q api: Amplitude of phrase component 0.43 (beginning of sentence), -0,50 (end of sentence) aaj: Amplitude of accent component 0.40 (
undulation), 0.20 (flat plate) i: number of phrase components j: number of accent components toi; phrase component rising position tli
: Accent component rising position t2i
: Accent component falling position Fm1n :
Since 80 (Hz) is used as the reference value in the reference value example 1 (with this, if sentences with the same number of moras and the same accent type continue, the created fundamental frequency parameter will be the same -
Therefore, in the present invention, the random number (ran) is determined by the reference value selection means 6. The reference value Fm1n is set using the following formula: Fm1n = 80 + ran; Like this! By changing the reference value, the monotony of the synthesized sound can be reduced. Here, the fundamental frequency is used as the parameter to be controlled. As described above, according to this embodiment, it is possible to dynamically register sound quality information at the time of synthesis, and it is possible to provide a varied and effective synthesized speech. According to the authors, it is possible to reduce the monotony of synthesized sounds and provide highly effective synthesized sounds that are rich in variety and natural.
第1図は1本発明の第1の実施侭 および従来例の音声
合成装置の構成を示すブロック図 第2図(友 本発明
の第2の実施例における音声合成装置の構成を示すブロ
ック図 第3図は、 本発明の第3の実施例における
音声合成装置の構成を示すブロック図であa
1・・・文字列人力能 2・・・テキスト解析服 3・
・・辞書、 4・・・韻律処理眼 5・・・音韻処理区
6・・・合成パラメータ作成眼 7・・・パラメータ
テーブノに8・・・パラメータ補間i9・・・音声合成
ff1k 10・・・合成音声出力能 11・・・ゆ
らぎ付与IK 12・・・基準値選択糺FIG. 1 is a block diagram showing the configuration of a speech synthesizer according to a first embodiment of the present invention and a conventional example. FIG. 2 is a block diagram showing the configuration of a speech synthesizer according to a second embodiment of the present invention. FIG. 3 is a block diagram showing the configuration of a speech synthesis device according to a third embodiment of the present invention.
...Dictionary, 4...Prosody processing eye 5...Phonological processing section 6...Synthesis parameter creation eye 7...Parameter table number 8...Parameter interpolation i9...Speech synthesis ff1k 10...・Synthetic voice output ability 11... Fluctuation IK 12... Reference value selection
Claims (3)
入力するテキスト入力手段と、前記入力手段から入力さ
れたテキストを解析するテキスト解析手段と、前記テキ
スト解析手段で参照する辞書情報格納手段と前記テキス
ト解析手段の結果に従って合成パラメータを作成する合
成パラメータ作成手段と、前記合成パラメータから音声
を合成する音声合成手段を有し、前記パラメータ作成手
段部は、前記テキスト解析手段から得られるアクセント
核を有する語の品詞情報にしたがって合成パラメータを
制御することを特徴とする音声合成装置。(1) a text input means for inputting a character string or a symbol string (hereinafter referred to as text); a text analysis means for analyzing the text input from said input means; a dictionary information storage means referred to by said text analysis means; It has a synthesis parameter creation means for creating a synthesis parameter according to the result of the text analysis means, and a speech synthesis means for synthesizing speech from the synthesis parameter, and the parameter creation means has an accent kernel obtained from the text analysis means. A speech synthesis device characterized by controlling synthesis parameters according to part-of-speech information of a word.
入力するテキスト入力手段と、前記入力手段から入力さ
れたテキストを解析するテキスト解析手段と、前記テキ
スト解析手段で参照する辞書情報格納手段と前記テキス
ト解析手段の結果に従って合成パラメータを作成する合
成パラメータ作成手段と、前記合成パラメータにゆらぎ
を与えるゆらぎ付与手段と前記合成パラメータから音声
を合成する音声合成手段を有し、前記揺らぎ付与手段で
は前記合成パラメータ作成手段で獲られた振幅情報にし
たがって揺らぎ成分を制御することを特徴とする音声合
成装置。(2) a text input means for inputting a character string or a symbol string (hereinafter referred to as text); a text analysis means for analyzing the text input from said input means; a dictionary information storage means referred to by said text analysis means; It has a synthesis parameter creation means for creating a synthesis parameter according to the result of the text analysis means, a fluctuation adding means for giving fluctuation to the synthesis parameter, and a speech synthesis means for synthesizing speech from the synthesis parameter, and the fluctuation giving means A speech synthesis device characterized in that a fluctuation component is controlled according to amplitude information obtained by a parameter creation means.
入力するテキスト入力手段と、前記入力手段から入力さ
れたテキストを解析するテキスト解析手段と、前記テキ
スト解析手段で参照する辞書情報格納手段と、前記テキ
スト解析手段の結果に従って合成パラメータを作成する
合成パラメータ作成手段と、前記合成パラメータから音
声を合成する音声合成手段を有し、前記合成パラメータ
作成手段は、基準値を選択する手段を含むことを特徴と
する音声合成装置。(3) a text input means for inputting a character string or a symbol string (hereinafter referred to as text); a text analysis means for analyzing the text input from the input means; and a dictionary information storage means for reference by the text analysis means; The method further includes a synthesis parameter creation means for creating a synthesis parameter according to the result of the text analysis means, and a speech synthesis means for synthesizing speech from the synthesis parameter, and the synthesis parameter creation means includes means for selecting a reference value. Characteristic speech synthesizer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2148231A JPH0439698A (en) | 1990-06-05 | 1990-06-05 | speech synthesizer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2148231A JPH0439698A (en) | 1990-06-05 | 1990-06-05 | speech synthesizer |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0439698A true JPH0439698A (en) | 1992-02-10 |
Family
ID=15448203
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2148231A Pending JPH0439698A (en) | 1990-06-05 | 1990-06-05 | speech synthesizer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0439698A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102169818B1 (en) * | 2019-12-17 | 2020-10-26 | 주식회사분도이엔지 | Versatile system furniture |
-
1990
- 1990-06-05 JP JP2148231A patent/JPH0439698A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102169818B1 (en) * | 2019-12-17 | 2020-10-26 | 주식회사분도이엔지 | Versatile system furniture |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8340967B2 (en) | Speech samples library for text-to-speech and methods and apparatus for generating and using same | |
| Tora et al. | Implementation of Turkish text-to-speech synthesis on a voice synthesizer card with prosodic features | |
| Rama et al. | Thirukkural: a text-to-speech synthesis system | |
| JPH0439698A (en) | speech synthesizer | |
| JPH0580791A (en) | Device and method for speech rule synthesis | |
| JP3124791B2 (en) | Speech synthesizer | |
| Karjalainen | Review of speech synthesis technology | |
| Rudzicz | Speech Synthesis | |
| JPH01321496A (en) | Speech synthesizing device | |
| Muralishankar et al. | Human touch to Tamil speech synthesizer | |
| JP3267659B2 (en) | Japanese speech synthesis method | |
| JPH03196199A (en) | speech synthesizer | |
| Hinterleitner | Speech synthesis | |
| Khudoyberdiev | The Algorithms of Tajik Speech Synthesis by Syllable | |
| JPH09292897A (en) | Voice synthesizing device | |
| JP2573587B2 (en) | Pitch pattern generator | |
| JPH02285400A (en) | speech synthesizer | |
| Shi | A speech synthesis-by-rule system for Modern Standard Chinese | |
| JPH06118981A (en) | Speech synthesizer | |
| JPH08328578A (en) | Text voice synthesizer | |
| JPH01112297A (en) | Voice synthesizer | |
| JPH06138894A (en) | Device and method for voice synthesis | |
| Morris | Speech Generation | |
| JPH04190398A (en) | Sound synthesizing method | |
| Zhu et al. | A new chinese speech synthesis method apply in chinese poetry learning |