JPH01219896A - Speech synthesis system - Google Patents

Speech synthesis system

Info

Publication number
JPH01219896A
JPH01219896A JP4653588A JP4653588A JPH01219896A JP H01219896 A JPH01219896 A JP H01219896A JP 4653588 A JP4653588 A JP 4653588A JP 4653588 A JP4653588 A JP 4653588A JP H01219896 A JPH01219896 A JP H01219896A
Authority
JP
Japan
Prior art keywords
parameters
processing unit
phoneme
memory
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4653588A
Other languages
Japanese (ja)
Inventor
Norio Suda
典雄 須田
Yoshimasa Sawada
沢田 喜正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP4653588A priority Critical patent/JPH01219896A/en
Publication of JPH01219896A publication Critical patent/JPH01219896A/en
Pending legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PURPOSE:To obtain a smooth voice by extracting information on a specific exponential function contained in a table at extraction intervals corresponding to the processing result of a speech processing part and determining execution parameters, and calculating the current value when the signal of a sound source is supplied to an acoustic tube model according to the parameters and generating a speech synthesis signal. CONSTITUTION:An interpolation processing part 6 extracts the exponential function information stored in a memory 5 at the extraction intervals corresponding to the phoneme time constant, pitch time constant, and energy time constant of each sectioned phoneme. Then the exponential function information is obtained by extending the exponent curve in the memory 5 according to the information extraction intervals in the time-base direction. The signal of the sound source is supplied to the acoustic tube equivalent circuit 8 according to the execution parameters and an arithmetic part 9 calculates the value of the current which flows at this time. Thus, respective parameters are interpolated by phonemes which are sectioned into a specific section, so the smooth voice having no break is obtained.

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は音声合成方式に関する。[Detailed description of the invention] A. Industrial application field The present invention relates to a speech synthesis method.

B0発明の概要 本発明は、断面積変化に伴ってサージインピーダンスが
変化する音響管を用いて模擬する音声合成方式において
、 テーブル化された所定の指数関数の情報を音声処理部の
処理結果に対応した抽出間隔で抽出して実行パラメータ
を決定し、該決定された実行パラメータに基づいて音源
の信号を音響管モデルに供給したときの電流値を演算し
て音声合成信号を得ることにより、 滑らかな音声が得られるようにするとともに補間処理の
ために必要な情報量を減少せしめ、且つ乗算等の複雑な
補間演算を実施しなくても済むようにしたものである。
B0 Summary of the Invention The present invention is a method for simulating speech synthesis using an acoustic tube whose surge impedance changes as the cross-sectional area changes. By extracting at a certain extraction interval and determining execution parameters, and calculating the current value when the sound source signal is supplied to the acoustic tube model based on the determined execution parameters, a smooth speech synthesis signal can be obtained. This makes it possible to obtain audio, reduce the amount of information required for interpolation processing, and eliminate the need to perform complex interpolation operations such as multiplication.

C1従来の技術 人工的に音声を合成して出力する電子装置は、最近にな
って1ないし数チップの音声認識や音声合成のLSIが
音声情報処理と半導体の大規模集積回路技術により低価
格で実現されるようになり、その使用目的、制約条件に
より種々の方式が提案されている。この音声合成には、
人間の発声した生の音声を録音しておき、これを適当に
結合して文章に編集する録音編集方式と、人間の声を直
接的には利用せず、人間の音声のパラメータだけを抽出
し、音声合成過程で、そのパラメータを制御して人工的
に音声信号を作り出す方法がある。
C1 Conventional technology Electronic devices that artificially synthesize and output speech have recently become low-cost LSIs for speech recognition and speech synthesis of one or several chips thanks to speech information processing and semiconductor large-scale integrated circuit technology. Various methods have been proposed depending on the purpose of use and constraints. For this speech synthesis,
There are recording and editing methods that record raw human voices and combine them appropriately to edit them into sentences, and two methods that do not use the human voice directly but extract only the parameters of the human voice. There is a method of artificially creating a speech signal by controlling the parameters during the speech synthesis process.

このパラメータ方式で良質な合成音が得られることで広
く利用されているパーコール(PARCOR)方式があ
る。
There is a PARCOR method which is widely used because it allows high-quality synthesized sounds to be obtained using this parameter method.

音声を電子計算機で扱う場合、音声波形をある周期毎に
サンプリングして各サンプリング点での音声信号の値を
アナログ/ディジタル変換し、その値を0と1の符号で
表示して行われるが、アナログ信号に忠実な記録をする
には、ビット数を増やす必要があるが音声合成信号は大
変多くのメモリーを必要とする。
When handling audio using an electronic computer, the audio waveform is sampled at certain intervals, the audio signal value at each sampling point is converted from analog to digital, and the resulting values are displayed as codes of 0 and 1. To record faithfully to analog signals, it is necessary to increase the number of bits, but voice synthesis signals require a large amount of memory.

そこで、この情報量を極力少なくするために各種の高能
率な符号化法が研究開発されている。
Therefore, various highly efficient encoding methods are being researched and developed in order to reduce the amount of information as much as possible.

その方法の1つとして、1つの音声信号の情報に対し、
最低限の1ビツトとした方式で、デルタ変調方式がある
。この方式は、1ビツトの使い方として、次にくる音声
信号値が現在の値より高いか低いかを判定して、高けれ
ば符号“l”、低ければ符号“0”を与え音声信号の符
号化を行うもので、実際のシステム構成としては一定の
振幅ステップ傷(デルタ)を定めておき、誤差が蓄積さ
れないように今までの符号化によって得られる音声の値
と、入力してくる音声信号との残差信号に対して、符号
化を行う。
As one of the methods, for information of one audio signal,
There is a delta modulation method, which uses a minimum of 1 bit. This method uses one bit to determine whether the next audio signal value is higher or lower than the current value, and if it is high, it gives the code "l" and if it is low, it gives the code "0" to encode the audio signal. In the actual system configuration, a constant amplitude step flaw (delta) is determined, and the audio value obtained by conventional encoding is compared with the input audio signal to prevent errors from accumulating. The residual signal is encoded.

このような構成を予測コード化といわれ、線形予測法(
何個か前のサンプル値から予測する)およびパーコール
方式(線形予測法の予測係数の代わりにパーコール係数
にといわれる偏自己相関関数を用いる)がある。
This kind of configuration is called predictive coding, and is based on the linear prediction method (
There are two methods: the Percoll method (which uses a partial autocorrelation function called a Percoll coefficient instead of the prediction coefficient of the linear prediction method).

D8発明が解決しようとする課題 前述のように予測コード化を用いたものは、音と音との
継ぎ目に相当する調音結合が難しいという問題がある。
D8 Problems to be Solved by the Invention As mentioned above, the method using predictive coding has a problem in that it is difficult to make articulatory connections, which correspond to joints between sounds.

例えば母音から子音を経て母音に至る発声において、母
音の定常から過渡を経て子音に至りまた母音の過渡を経
て母音の定常音に至る過程で母音と母音の継ぎ目の音が
跡切れ、人間が聞いたときに自然な感じを与えない。
For example, in the process of vocalization from a vowel to a consonant to a vowel, the sound at the joint between the vowels is cut off during the process from the steady vowel to the transient to the consonant, and the transitional vowel to the steady vowel. It doesn't give a natural feel when you use it.

また楽器音合成の場合は、音階の継ぎ目が重要であるが
合成手法が実際の楽器の音発生の原理と異なるため、や
はり自然な感じが無く、特に残響音において顕著にあら
れれる。これら両者において自然な音に近付けるために
は、これを構成するメモリや、演算器等の電子部品を多
く必要とし装置が高価になる等の問題がある。
Furthermore, in the case of musical instrument sound synthesis, the joints between scales are important, but since the synthesis method differs from the principle of sound generation in an actual musical instrument, it still lacks a natural feel, especially in reverberant sounds. In order to approximate natural sounds in both of these systems, there are problems such as the need for a large number of electronic components such as memory and arithmetic units, making the device expensive.

さらに音と音の継ぎ目が針切れないように補間処理を行
う場合、補間処理のための演算が複雑化するという問題
が生じる。
Furthermore, when performing interpolation processing so that the seams between sounds do not break, a problem arises in that calculations for the interpolation processing become complicated.

そこで本願の発明者は人間の音の発生や楽器の楽音は人
間の口腔や音響管の長さや断面積等の形状変化によって
作り出されるので、これら音響管の音波の伝達を表す進
行波現象を音響管等価回路で解析し、音響管の断面積が
サージインピーダンスに反比例することに着目し、サー
ジインピーダンスを変化させることで断面積を模擬的に
変化させ、サージインピーダンスを連続的変化すること
で調音結合をスムーズに行うことができるようにして人
間の発声と同様な音の合成を容易となし音声の自然性の
向上を図るようにした音声合成方式を創案し、先に特許
出願した(特願昭62−91705、以下、先願と称す
)。
Therefore, the inventors of this application believe that since the generation of human sounds and the musical sounds of musical instruments are created by changes in the shape of the human oral cavity and the length and cross-sectional area of acoustic tubes, the traveling wave phenomenon representing the transmission of sound waves in these acoustic tubes is Analyzed using a tube equivalent circuit, focusing on the fact that the cross-sectional area of the acoustic tube is inversely proportional to the surge impedance, we simulated the cross-sectional area by changing the surge impedance, and achieved articulatory coupling by continuously changing the surge impedance. He devised a speech synthesis method that facilitates the synthesis of sounds similar to human speech and improves the naturalness of speech, and filed a patent application for this method (patent application). 62-91705, hereinafter referred to as the earlier application).

本発明は、上記の点に鑑みてなされたものでその目的は
、前記先願の発明を基に聞きとりやすく滑らかな音声が
得られるようにするとともに、補間処理のために必要な
情報量を減少せしめ且つ複雑な演算を不要にした音声合
成方式を提供することにある。
The present invention has been made in view of the above points, and its purpose is to make it possible to obtain easy-to-hear and smooth speech based on the invention of the earlier application, and to reduce the amount of information necessary for interpolation processing. It is an object of the present invention to provide a speech synthesis method that reduces the number of operations and eliminates the need for complicated operations.

E9課題を解決するための手段 本発明は、音素を基本単位とするとともに音響管を用い
て模擬する音声合成方式において、l音素を所定数に区
分して取り扱うとともに、内蔵される言語辞書を参照し
て、入力される文字データの言語解析を行う言語処理部
と、音節パラメータおよび前記区分された音素パラメー
タを有し、前記言語処理部で解析されたデータの音節処
理、音素処理を行う音声処理部と、所定の指数曲線で表
現される指数関数の情報が格納されるメモリを有し、該
メモリ内の情報を前記音声処理部の処理結果に対応した
抽出間隔で抽出して実行パラメータを決定する補間処理
部と、音源の信号が供給されるとともに断面積変化に伴
ってサージインピーダンスが変化する音響管の等価回路
に流れる電流を、前記補間処理部で決定された実行パラ
メータに基づいて所定のタイミングで演算する演算部と
を備え、前記演算部の演算結果によって音声合成信号を
得ることを特徴としている。
E9 Means for Solving Problems The present invention is a speech synthesis method that uses phonemes as a basic unit and simulates them using an acoustic tube, in which l phonemes are divided into a predetermined number and treated, and a built-in language dictionary is referred to. a language processing unit that performs linguistic analysis of input character data; and a speech processing unit that has syllable parameters and the classified phoneme parameters and performs syllable processing and phoneme processing of the data analyzed by the language processing unit. and a memory in which information about an exponential function expressed by a predetermined exponential curve is stored, and the execution parameters are determined by extracting the information in the memory at an extraction interval corresponding to the processing result of the audio processing section. and an interpolation processing section that controls the current flowing through the equivalent circuit of the acoustic tube, to which the sound source signal is supplied and whose surge impedance changes as the cross-sectional area changes, to a predetermined value based on the execution parameters determined by the interpolation processing section. The present invention is characterized in that it includes a calculation section that performs calculations based on timing, and obtains a speech synthesis signal based on the calculation results of the calculation section.

F1作用 入力された文字データは、言語処理部において言語解析
が行われた後、音声処理部において音節処理および音素
処理が行われる。前記音声処理部で得られたデータは補
間処理部において、所定数に区分された音素毎に音響管
断面積、音素時定数、継続時間、ピッチ、ピッチ時定数
、エネルギー、エネルギー時定数、音源等の各パラメー
タについて補間処理が施される。補間処理部は前記区分
された音素毎の音素時定数、ピッチ時定数、エネルギー
時定数に対応した抽出間隔で、メモリに格納されている
指数関数情報を抽出する。するとメモリ内の指数曲線を
、前記情報抽出間隔の大小に応じて時間軸方向に伸長し
た指数関数情報が補間処理部の出力として得られる。前
記抽出間隔は各時定数に対応して変化させるので、所定
数に区分された音素毎の時定数に応じた指数関数情報が
得られる。このように補間処理部においては、所定の傾
斜(時定数と等価)を有する指数曲線についての情報(
メモリ内の情報)から様々な傾斜を有する指数曲線を得
ることができる。これによって補間処理のために用いる
指数関数の情報(異なる時定数を有する指数関数情報)
を多数格納しておく必要はなくなる。また時定数の大き
さに対応して情報抽出間隔を変えるだけで済むので、乗
算等の複雑な演算は不要となる。前記補間処理部の動作
によって入力文字データについての各実行パラメータが
決定される。この実行パラメータに基づいて音源の信号
を音響管等価回路に供給し、そのとき流れる電流値を、
電流が進行する速度に合わせたタイミングによって演算
部で演算する。この演算出力をD/A変換してスピーカ
に供給すれば、入力文字データに対応した音声合成信号
が得られる。このように所定数に区分された音素毎に各
々パラメータの補間が行われるので、跡切れのない滑ら
かな音声が得られる。
The input character data is subjected to language analysis in the language processing section, and then subjected to syllable processing and phoneme processing in the speech processing section. The data obtained by the audio processing section is processed by an interpolation processing section for each phoneme divided into a predetermined number, such as acoustic tube cross section, phoneme time constant, duration, pitch, pitch time constant, energy, energy time constant, sound source, etc. Interpolation processing is performed for each parameter. The interpolation processing section extracts the exponential function information stored in the memory at extraction intervals corresponding to the phoneme time constant, pitch time constant, and energy time constant for each of the classified phonemes. Then, exponential function information obtained by expanding the exponential curve in the memory in the time axis direction according to the size of the information extraction interval is obtained as the output of the interpolation processing section. Since the extraction interval is changed according to each time constant, exponential function information can be obtained according to the time constant for each phoneme divided into a predetermined number. In this way, in the interpolation processing section, information (
Exponential curves with various slopes can be obtained from (information in memory). This allows information on the exponential function used for interpolation processing (exponential function information with different time constants)
There is no need to store a large number of. Furthermore, since it is sufficient to simply change the information extraction interval in accordance with the size of the time constant, complex operations such as multiplication are not necessary. Each execution parameter for input character data is determined by the operation of the interpolation processing section. Based on this execution parameter, the sound source signal is supplied to the acoustic tube equivalent circuit, and the current value flowing at that time is
The calculation unit performs calculations at timings that match the speed at which the current travels. By D/A converting this calculation output and supplying it to a speaker, a speech synthesis signal corresponding to the input character data can be obtained. Since parameters are interpolated for each phoneme divided into a predetermined number in this way, smooth speech without any traces can be obtained.

G、実施例 以下、図面を参照しながら本発明の一実施例を説明する
G. Embodiment Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

まず、本願の基礎となる先願の発明の詳細な説明する。First, the invention of the earlier application, which is the basis of the present application, will be explained in detail.

音声発生時の声道の断面積変化は、例えば「ア」の発声
の場合は、喉の奥が狭く口唇が開いた状態で肺から押し
出される呼気で声帯が呼気を断続的に開閉して声道(音
響管)の中で反射を繰り返して出てくる音波「ア」の音
声波形となって出てくる。「イ」は喉の方が広く口唇の
先が狭いと「イ」の音声波形が出力される。
The change in the cross-sectional area of the vocal tract during speech production is caused by, for example, when making the ``a'' sound, the back of the throat is narrow and the lips are open, and the exhaled air that is forced out of the lungs causes the vocal cords to open and close intermittently to absorb the exhaled air. The sound wave that is repeatedly reflected in the road (acoustic tube) comes out as the sound waveform of "A". When the throat is wider and the tip of the lips are narrower, the sound waveform of "i" is output.

このように口の恰好で周波数が決まり、口の恰好を模擬
すれば「ア」なり「イ」が発声される。
In this way, the frequency is determined by the shape of the mouth, and if the shape of the mouth is simulated, "a" or "i" will be uttered.

口の恰好は音響管の断面積で模擬でき、また音響管の断
面積の変化は、サージアドミッタンスの変化で模擬でき
る。従ってサージアドミッタンスを変化すれば口の恰好
が模擬できる。サージアドミッタンスの変化は、電気回
路上極めて容易に可変できるので電気信号によって様々
な音声を合成することができる。第9図(イ)は異なる
断面積A、、At・・・八〇をもった音響管を接続して
声道を模擬したものである。同図(ア)はその音響イン
ピーダンスを電気回路のLC回路に置き換えたもので、
各音響管を1個のLC線路とし、全体を集中線路のn−
1の電気回路としたものである。また第9図(つ)は進
行波等価モデル図で、各音響管の音響インピーダンス2
..2.・・・Z、%は、音響管の断面積に反比例(、
音響アドミッタンスは比例)し、音波の速度に比例する
ので A IA t       A n となる。なお、同図でZllは音源インピーダンス、Z
Lは放射インピーダンスを示し、またブロック間の矢印
は、進行波と後進波を表している。
The shape of the mouth can be simulated by the cross-sectional area of the sound tube, and changes in the cross-sectional area of the sound tube can be simulated by changes in surge admittance. Therefore, the shape of the mouth can be simulated by changing the surge admittance. Since changes in surge admittance can be varied very easily in electrical circuits, various sounds can be synthesized using electrical signals. FIG. 9(a) shows a simulation of the vocal tract by connecting acoustic tubes with different cross-sectional areas A, At...80. In the same figure (A), the acoustic impedance is replaced with an LC circuit of an electric circuit.
Each sound tube is treated as one LC line, and the whole is a concentrated line n-
1 electric circuit. Figure 9 (1) is a traveling wave equivalent model diagram, and the acoustic impedance of each acoustic tube is 2.
.. .. 2. ...Z,% is inversely proportional to the cross-sectional area of the acoustic tube (,
The acoustic admittance is proportional) and is proportional to the speed of the sound wave, so A IA t A n . In addition, in the same figure, Zll is the sound source impedance, and Z
L indicates radiation impedance, and arrows between blocks indicate forward waves and backward waves.

今「ア」という音声を発声させる場合は、第10図の口
唇の先に相当する音響管の断面積のところで「ア」の口
の恰好を与えて、インパルスPを断続的に印加すること
で、「ア」の音が得られ、また「ア」から「イ」の音を
発声させる場合は、同図(イ)に示すように口唇の先に
相当する音響管の断面積を狭め「イ」の口の恰好を与え
ることで「イ」が得られる。
If you want to make the sound "A" now, give the shape of the mouth of "A" at the cross-sectional area of the acoustic tube corresponding to the tip of the lips in Figure 10, and apply the impulse P intermittently. , the sound "a" is obtained, and if you want to produce the sound "i" from "a", the cross-sectional area of the acoustic tube corresponding to the tip of the lips is narrowed, as shown in the same figure (a), and the "i" sound is produced. ``I'' can be obtained by giving the appearance of the mouth.

インパルスPが連続して断続的に与えられ、断面積全体
を「イ」の口の恰好に変化させる場合、声道は第9図に
示すn個の音響管によって模擬しているので、これらの
各断面積を「ア」から動かして口の恰好を「アーイ」と
連続的に変えることになる。この音響管の断面積を変え
るということは、サージインピーダンスを徐々に変える
ことによって行われる。
When the impulse P is applied continuously and intermittently to change the entire cross-sectional area to resemble the mouth of "i", the vocal tract is simulated by n acoustic tubes shown in Figure 9, so these By moving each cross-sectional area from "A" to "A", the shape of the mouth will change continuously to "A". Changing the cross-sectional area of the acoustic tube is done by gradually changing the surge impedance.

従って、断面積は連続的に変えられるので、定常状態の
「ア」、「イJの音が得られることは勿論であるが、更
にインピーダンスは連続して可変できるので、その中間
の音、即ち音と音との間の音を得ることができる。従っ
て音の切れが無く人間の発音に近い調音結合がスムーズ
に行われる。
Therefore, since the cross-sectional area can be changed continuously, it is of course possible to obtain the steady-state sounds "A" and "IJ," but since the impedance can also be changed continuously, the sounds in between, i.e. It is possible to obtain sounds between sounds.Therefore, articulatory combination similar to human pronunciation is performed smoothly without any sound breaks.

次に音波の伝搬速度を考えると、これは長さgでLCを
持った電線路にインパルスを印加した時の過渡現象に似
ている。
Next, considering the propagation speed of a sound wave, this is similar to the transient phenomenon when an impulse is applied to an electric line with length g and LC.

即ち第11図に示すようにLCを有する線路を等価的に
表すと第12図のようになる。ここで両端部からみたサ
ージインピーダンスZ。1.Zo2は、Zo−−rτフ
に  、 Zoz=q となる。
That is, the line having the LC as shown in FIG. 11 is equivalently represented as shown in FIG. 12. Here is the surge impedance Z seen from both ends. 1. Zo2 becomes Zo--rτ, Zoz=q.

ここで相手から到達してきた進行波を等価的な電流源と
考えると、 となり電流は中間にn個の遅延回路ブロックZがあれば
、n時間後に出力される。即ち左側の回路で発生したも
のがτ時間後右側に到達したということになる となる。但し、ディジタル計算においては、電圧または
電流を細分割するので、V、、v、は計測時刻tにおけ
る電圧、τは経過時間を示している。
Here, if we consider the traveling wave that has arrived from the other party as an equivalent current source, the current will be output after n hours if there are n delay circuit blocks Z in the middle. In other words, what is generated in the left circuit reaches the right circuit after τ time. However, in digital calculation, since the voltage or current is subdivided, V, , v represents the voltage at measurement time t, and τ represents the elapsed time.

第9図では、L、C回路にインパルスを印加すれば、τ
時間後に出力管側に出る。そしてτ時間面到達されたも
のは相手にも到達しているということを等価的に表して
いる。線路の長さQを1にするということは、遅延ブロ
ックnを正規化してIにすることで計算し易くなる。Q
を3cmに刻む場合は遅延ブロックのnを3ブロツクに
すればよい。
In Figure 9, if an impulse is applied to the L and C circuits, τ
After some time, it will come out to the output tube side. This equivalently represents that what has reached the τ time plane has also reached the other party. Setting the line length Q to 1 can be easily calculated by normalizing the delay block n to I. Q
When dividing into 3 cm, n of the delay block should be set to 3 blocks.

人間の声道は男性で約17cm+なので、第9図(イ)
の音響管をIc0I刻みで17本の音響管で模擬すれば
、A、から入った波形は、半周期の電流をIOに分割し
そのΔtを10μsecとすれば、170μsecかか
ってArl側から出てくる。
The human vocal tract is approximately 17cm+ in males, so Figure 9 (a)
If we simulate the acoustic tube with 17 acoustic tubes in Ic0I increments, the waveform that enters from A will take 170 μsec to exit from the Arl side if we divide the half-cycle current into IO and set the Δt to 10 μsec. come.

次に上記の音響管モデルを使用し、文字入力信号に基づ
いて音声を合成する実施例について説明する。第1図に
おいて1は日本語処理部であり、漢字かな混じり文章を
入力として受けとり、これを辞書2と対応させて文節1
句9文の区切り、形態素分類の自然語解析を行い、更に
アクセント処理を行ってこれを表音変換してイントネー
ションをつけて文章処理データを作成する。音処理手段
12の3は音節処理部であり、第2図に示すような音節
パラメータを有し、日本語処理部1で作成されたデータ
の音節処理を行う。前記音節パラメータは子音の110
個〜140個(普通に話せる言葉は110個程鹿島れば
よい)の音節毎に、ピッチ(音の高さ)、エネルギー(
音の強さ)および継続時間を与え、これらの値を調整し
て音声のレベルを合わせである。例えば「桜」の場合は
第2図のようにSA、KU、RAの各音節毎にピッチP
1エネルギーE1時間Tを正規化する。
Next, an example will be described in which speech is synthesized based on character input signals using the acoustic tube model described above. In Fig. 1, 1 is the Japanese language processing unit, which receives a sentence containing kanji and kana as input, matches it with dictionary 2, and processes it into phrase 1.
Natural language analysis is performed to divide nine phrases and classify morphemes, and furthermore, accent processing is performed, phonetic conversion is performed, and intonation is added to create sentence processing data. 3 of the sound processing means 12 is a syllable processing section, which has syllable parameters as shown in FIG. 2, and performs syllable processing on the data created by the Japanese processing section 1. The syllable parameter is 110 of the consonant.
For each syllable, the pitch (pitch), energy (
Give the sound intensity) and duration, and adjust these values to match the audio level. For example, in the case of "cherry blossoms", the pitch P for each syllable of SA, KU, and RA is shown in Figure 2.
1 energy E1 time T is normalized.

4は音素処理部で、パラメータ補間機能をもつ音素パラ
メータを有する。音素パラメータは、各音素毎に音の立
ち上がり部Or、定常部Ot、立ち下がり部03に区分
を行い、各区分毎に音素(断面積)時定数、I!続待時
間ピッチ、ピッチ時定数。
4 is a phoneme processing unit which has phoneme parameters with a parameter interpolation function. The phoneme parameters are divided into the rising part Or, the steady part Ot, and the falling part 03 for each phoneme, and the phoneme (cross-sectional area) time constant, I! Duration time pitch, pitch time constant.

エネルギー、エネルギー時定数、音源を正規化し、各区
分毎のデータのブロックを形成する。前記の「桜」に例
をとれば第3図に示すように「S」。
Normalize the energy, energy time constant, and sound source to form a block of data for each section. Taking the above-mentioned "cherry blossom" as an example, it is "S" as shown in Figure 3.

rAJ、rKJ、rUJ、rRJ、rAJの各音素に、
区分の立ち上がり部0.であればDo、 。
For each phoneme rAJ, rKJ, rUJ, rRJ, rAJ,
Rising part of the division 0. If so, Do.

’rl、P+、DP+、E+、DE+、G1のデータユ
ニットを形成する。これらのデータユニットは第9図の
音響管モデルの断面積A、〜A、の各断面積A0.1〜
An、nに対応して設けられている。即ち音響管モデル
の断面積Aが17ある場合は、各音節毎に、6x17=
I02のデータが用意される。
'rl, P+, DP+, E+, DE+, G1 data units are formed. These data units correspond to the cross-sectional areas A, ~A, of the acoustic tube model in Figure 9, each having a cross-sectional area of A0.1 ~
They are provided corresponding to An and n. In other words, if the cross-sectional area A of the acoustic tube model is 17, then for each syllable, 6x17=
Data of I02 is prepared.

前記の各時定数は、前の区分の最終値から、当該区分の
それぞれに対応する目標値への動き方を指定する。時間
Tは継続時間で、この時間T内に上記の各処理が行われ
る。また音源G +、 G t、 G sは子音部分で
は各区分毎に時間T内に300個、母音部では50個程
度のパルスで音源を与える。
Each of the above time constants specifies how to move from the final value of the previous segment to the target value corresponding to each of that segment. Time T is a duration time, and each of the above processes is performed within this time T. Further, the sound sources G + , G t , and G s provide sound sources in the form of 300 pulses within time T for each segment in the consonant part, and about 50 pulses in the vowel part.

前記音源は例えば母音源としてインパルス信号を用い、
子音源として白色雑音信号を用いるものであり、例えば
人間の音声から抽出したものを用い、その音源データは
例えば第4図のように示される。
The sound source uses an impulse signal as a vowel sound source, for example,
A white noise signal is used as a consonant source, for example, one extracted from human speech, and the sound source data is shown, for example, as shown in FIG.

前記各パラメータのデータはすべてメモリ5内に格納し
ておくものである。6は前記パラメータについて補間処
理を行い、実行パラメータを決定する補間処理部である
。補間処理部6は、予め内部メモリ(図示省略)に記憶
させておいた1個の指数関数情報を、音素処理部4で得
られる時定数に対応した抽出間隔で抽出し、これによっ
て次の(+)、(2)、(3)式の補間演算式を演算し
たときと等価な情報を得る。
All the data of each parameter mentioned above is stored in the memory 5. 6 is an interpolation processing unit that performs interpolation processing on the parameters and determines execution parameters. The interpolation processing unit 6 extracts one piece of exponential function information previously stored in an internal memory (not shown) at an extraction interval corresponding to the time constant obtained by the phoneme processing unit 4, and thereby extracts the following ( +), (2), and (3) to obtain information equivalent to when calculating the interpolation calculation formulas.

ピッチの補間演算式は、 P (−−11−DP (P t−+  P (。)+
Pい、・・・・・・・・・(1)(ただしDPはピッチ
時定数、P(r+はピッチの目標値であり、nのきざみ
は例えば100μs毎とする。) エネルギーの補間演算式は、 Et−−++=DE (Elo Et−u) 十Et1
1+・・川・・・・(2)(ただしDEはエネルギー時
定数、E(r)はエネルギーの目標値であり、nのきざ
みは例えば100μs毎とする。) 断面積の捕間演算式は、 All、l−11−DS (All−+  All−+
) +At+−+−−−(3)(ただしDSは面積時定
数、A ilr+は断面積の目標値であり、nのきざみ
は例えば400μs毎とする。) すなわち補間処理部6の図示しないメモリに第5図(a
)、(b)、(c)、(d)のような指数曲線の情報を
格納しておき、音素処理部4で求められた各音素の時定
数(第3図のDP、DE。
The pitch interpolation calculation formula is P (--11-DP (P t-+ P (.)+
P, ...... (1) (DP is the pitch time constant, P (r+ is the target pitch value, and the step of n is, for example, every 100 μs.) Energy interpolation calculation formula is Et−−++=DE (Elo Et−u) 10Et1
1+...River...(2) (However, DE is the energy time constant, E(r) is the target value of energy, and the increment of n is, for example, every 100 μs.) The interpolation calculation formula for the cross-sectional area is , All, l-11-DS (All-+ All-+
) +At+-+--(3) (However, DS is the area time constant, Ailr+ is the target value of the cross-sectional area, and the increments of n are, for example, every 400 μs.) That is, in the memory (not shown) of the interpolation processing unit 6. Figure 5 (a
), (b), (c), and (d) are stored, and the time constants (DP, DE in FIG. 3) of each phoneme obtained by the phoneme processing unit 4 are stored.

Do1但しDoはDSと等価)に対応した抽出間隔で前
記指数曲線の情報を抽出する。このため(1)、(2)
、(3)式を演算しなくても時定数の大小に応じた(演
算したときと等価な)情報が得られる。以下にその根拠
を第5図(e)。
The information on the exponential curve is extracted at an extraction interval corresponding to Do1 (where Do is equivalent to DS). For this reason (1), (2)
, (3), information corresponding to the magnitude of the time constant (equivalent to that obtained when the calculation is performed) can be obtained. The basis for this is shown in Figure 5(e) below.

(f)とともに述べる。まず指数関数をy=(1−e−
Dl)・ xl・・・・・・・・・(4)とし、その漸
化式を ’I n*+= D (x r  x n) + X 
n・・・・・・(5)(すなわち前記(1)、(2)、
(3)式のP l’+61+ Ene+、 A ln*
+をY no+に置換し、DP。
This is explained in conjunction with (f). First, the exponential function is y=(1-e-
Dl)・xl・・・・・・・・・(4), and its recurrence formula is 'I n*+= D (x r x n) + X
n...(5) (i.e. (1), (2),
(3) P l'+61+ Ene+, A ln* of the formula
Replace + with Y no+, DP.

DE、DSをDに置換し、PF、E、、At、をXrに
置換し、Pn、En、A+nをX。に置換する)とする
。前記(4)式よりx=D−tとおくと、Xの値により
ある時定数り1時間計の時の目標値が一義的に決定する
。従ってX=一定と考えれば時刻tにおける到達値はD
によって変更できるが、このときの値は第5図(e)の
曲線を第5図(f)の曲線のように時間軸方向で伸縮し
たものとなる。
Replace DE and DS with D, replace PF, E, , At, with Xr, and replace Pn, En, A+n with X. ). If we set x=D−t from the above equation (4), the value of X uniquely determines the target value when a certain time constant is counted for one hour. Therefore, if we consider that X = constant, the reached value at time t is D
However, the value at this time is obtained by expanding or contracting the curve in FIG. 5(e) in the time axis direction like the curve in FIG. 5(f).

そこで第5図(e)のテーブルを1個作成しておき、D
の値に応じて例えばDが大きければテーブルから読み出
す際の飛ばし読みを多くし、Dが小さければ飛ばし読み
を少なくするようにすれば、Dの値に応じた指数曲線(
第5図(f))が自在に得られる。これによって前記(
5)式を演算する必要が無くなり、補間処理の簡単化お
よび高速化を図ることができる。また指数関数のテーブ
ルを時定数りの大きさに応じて各々持つ必要はなくなり
、補間処理部6内のメモリ容量は極めて小さくて済む。
Therefore, we created one table as shown in Figure 5(e) and
For example, if D is large, skip reading will be increased when reading from the table, and if D is small, skip reading will be decreased.
FIG. 5(f)) can be freely obtained. This results in the above (
5) There is no need to calculate equations, making it possible to simplify and speed up interpolation processing. Furthermore, there is no need to have separate tables of exponential functions depending on the size of the time constant, and the memory capacity in the interpolation processing section 6 can be extremely small.

尚前記補間演算式(1)、(2)、(3)は、y= 1
  、−Dt  ・・・・・・・・−(6)なる式で示
される指数関数から導出されるものであり、以下にその
導出方法を説明する。いま第6図に示すように時刻tn
から時刻t1+Δtに移行する場合の傾きは前記第(6
)式より、t (ただしDは時定数) となる。よってAtを時間きざみとすれば、時刻tnの
値3’nおよび時刻t0+Δtの値yno1は、y、1
=l−e−Dt″ ・・・・・・・・・(8)y、、、
=l  e→(tn*Δ1 = 1−e−Djn、 e−DΔ’  ・−−−−−−
−−C9)となる。時刻tnのときの傾きが t であるから、Δyすなわち’in−+−ynは前記第(
6)式より、 Y nht  Y n=Δt@De−Dtn=Δt−D
(1−y、)  −(11)で表される。このため前記
第(11)式を移項させれば、 yn*+−Δt−D (1−yn) −1−y、−=・
(12)なる式が導出され、この式においてΔt=1.
目標値をyrとすれば、 Yn−t=D (Yt  Yn) +−yrl・・・・
・・(13)となる。
Note that the interpolation calculation formulas (1), (2), and (3) are y=1
, -Dt . . . -(6), and the method of derivation will be explained below. Now, as shown in Fig. 6, the time tn
The slope when transitioning from to time t1+Δt is the above-mentioned (6th
), t (where D is a time constant) is obtained. Therefore, if At is a time step, the value 3'n of time tn and the value yno1 of time t0+Δt are y, 1
=le-e-Dt″ ・・・・・・・・・(8)y,,,
=l e→(tn*Δ1 = 1-e-Djn, e-DΔ' ・------
--C9). Since the slope at time tn is t, Δy, that is, 'in-+-yn, is
From formula 6), Y nht Y n=Δt@De-Dtn=Δt-D
It is expressed as (1-y,)-(11). Therefore, if we shift the equation (11) above, we get yn*+−Δt−D (1−yn) −1−y, −=・
The formula (12) is derived, where Δt=1.
If the target value is yr, Yn-t=D (Yt Yn) +-yrl...
...(13).

音合成手段13の8は音響管モデル部であり、第9図に
示すように音源Pの信号が供給され、且つ断面積A、〜
Anの音響管を接続して成る音響管モデルの音響等価回
路を用いている。9は、前記補間処理部6で決定された
実行パラメータに基づいて、音源Pの信号を音響管モケ
ルに供給したときに流れる電流を所定のタイミングで演
算して求める演算部である。尚演算部9は例えば後述す
るように、電流値および関数をテーブルとして有するメ
モリを備えて成る演算処理装置で実現される。
Reference numeral 8 in the sound synthesis means 13 is an acoustic tube model section, to which the signal of the sound source P is supplied as shown in FIG. 9, and the cross-sectional area A, ~
An acoustic equivalent circuit of a sound tube model formed by connecting sound tubes of An is used. Reference numeral 9 denotes a calculation unit that calculates at a predetermined timing, based on the execution parameters determined by the interpolation processing unit 6, the current that flows when the signal of the sound source P is supplied to the sound tube mocker. Note that the calculation section 9 is realized, for example, as described later, by a calculation processing device comprising a memory having a table of current values and functions.

上記のように補間処理部6で決定された実行パラメータ
を用いて、音源の信号を音響管モデルに投入するととも
に音響管の断面積変化を模擬し、演算によって求められ
た電流値は音声合成波形部IOに入力される。この音声
合成波形部!0は入力されるディジタル信号をアナログ
信号に変換してスピーカ11から音声として出力される
Using the execution parameters determined by the interpolation processing unit 6 as described above, the sound source signal is input to the acoustic tube model and the cross-sectional area change of the acoustic tube is simulated, and the current value obtained by calculation is the voice synthesis waveform. It is input to the section IO. This speech synthesis waveform part! 0 converts the input digital signal into an analog signal and outputs it as audio from the speaker 11.

次に上記実施例の動作を第7図および第8図のフローチ
ャートとともに説明する。第7図は全体のソフトウェア
を示し、第8図は演算部9のソフトウェアを示している
。まず第7図のステップS、−S、において日本語処理
部lは漢字かな混じり文章を人力として受けとり、これ
を辞書2と対応させて文節1句1文の区切り、形態素分
類の自然語解析を行い、更にアクセント処理を行ってこ
れを表音変換してイントネーションをつけて文章処理デ
ータを作成す、る。次に音節処理部3はステップS@に
おいて前記日本語処理部lで作成されたデータの音節処
理を行い、音素処理部4はステップS、において音素処
理を行う。次に補間処理部6は、ステップS、において
第3図に示されるような区分毎の音素パラメータの音素
レベルデータについて補間を行って各実行パラメータを
決定する。すなわち、前述したように予め内部メモリに
記憶させておいた指数関数情報を、音素処理部4で得ら
れる時定数に対応した抽出間隔で抽出し、前記(1)、
(2)、(3)式の補間演算式を演算したときと等価な
情報を得る。これによって、音源の与えかた(各区分0
.、os、03毎に継続時間T内に何個のパルスを与え
るか)や前記各時定数(前の区分の最終値から当該区分
の目標値への動き方)が指定される。次に演算部9は、
ステップ8つにおいて前記決定された実行パラメータに
より音源Pの信号を音響管モデルに供給したときの電流
を所定のタイミングで演算して求める。
Next, the operation of the above embodiment will be explained with reference to the flowcharts of FIGS. 7 and 8. FIG. 7 shows the overall software, and FIG. 8 shows the software of the calculation section 9. First, in steps S and -S in Fig. 7, the Japanese processing unit l manually receives a sentence containing kanji and kana, matches it with the dictionary 2, delimits each phrase and sentence, and performs natural language analysis for morphological classification. Then, perform accent processing, convert this into phonetic form, add intonation, and create sentence processing data. Next, the syllable processing unit 3 performs syllable processing on the data created by the Japanese language processing unit 1 in step S@, and the phoneme processing unit 4 performs phoneme processing in step S. Next, in step S, the interpolation processing unit 6 interpolates the phoneme level data of the phoneme parameters for each category as shown in FIG. 3 to determine each execution parameter. That is, as described above, the exponential function information stored in the internal memory in advance is extracted at an extraction interval corresponding to the time constant obtained by the phoneme processing section 4, and the above (1),
Information equivalent to when calculating the interpolation calculation formulas (2) and (3) is obtained. This allows you to change the way the sound source is given (each section 0
.. , os, 03) and each time constant (how to move from the final value of the previous section to the target value of the section) are specified. Next, the calculation unit 9
In step 8, the current when the signal of the sound source P is supplied to the acoustic tube model is calculated and determined at a predetermined timing using the determined execution parameters.

演算ff9は例えばコンピュータよりなる演算処理装置
で構成し、電流値を求めるものであり、その処理は第8
図に示すフローチャートに沿って行われる。ここで演算
部9の演算項目および演算式と、音響管モデル、等価回
路の関係を第9図(1)、(イ)、(つ)に示し、これ
らの図とともに演算部9の動作を説明する。まず、音響
管AIにインパルスが入力されると、コンピュータより
なる演算処理装置は、ステップSlにてメモリよりA、
のaox、  ioA、  IOA、 Eを取り出す(
a OA ””’ a n−lAは通過波電流、■OA
 −j n−IAは反射波電流、■い〜I n−IAは
後進波電流を示している)。
The calculation ff9 is composed of an arithmetic processing device such as a computer, and calculates the current value, and the processing is performed by the eighth
This is done according to the flowchart shown in the figure. Here, the relationship between the calculation items and calculation formulas of the calculation unit 9, the acoustic tube model, and the equivalent circuit is shown in FIGS. do. First, when an impulse is input to the acoustic tube AI, the arithmetic processing unit consisting of a computer reads A from the memory in step Sl,
Extract aox, ioA, IOA, E of (
a OA ""' a n-lA is the passing wave current, ■OA
-j n-IA is reflected wave current, and ■i~I n-IA is backward wave current).

取り出した値をもとに、ステップS、ではaoA′= 
f (E、  I oA)i 0A’  = aoA′
I OA の演算を行う。この演算値a。A′+  I OA’ 
およびステップS、でメモリより導入された管A、の値
aha、aI^、its、lIA、11B、I+^(a
tB〜ansは通過波電流、l ta ””’ 1 n
Bは反射波電流、I +B’= 1 nBは前進波電流
を示している。尚、aOAは前回値、a OA’ は今
回値を示しており、反射波電流、後進波電流および前進
波電流についても同様に表記している。)を用いてステ
ップS4では、a +a’ = S I[1(I IB
 + I IA)a IA’ = S IA (+ +
e + I IA)i IB’ = a IR’   
118iIA’ =a+^’   I IB 11B’ =l OA′a OA’ の演算を行う。ステップS、ではS4にて求められたl
 +a’ 、 a +n’を用いて10A’ = i 
lE1+ a +vsを演算する。また一方、S、にて
求められた値i IA′、a1^′と、ステップS6に
おいてメモリより導入された管A3の値a tB、a 
tA+  l tB+1 !At I je、  I 
を詑を用いてステップS7にて次の演算が行われる。
Based on the extracted value, in step S, aoA′=
f (E, IoA)i 0A' = aoA'
Perform the calculation of I OA . This calculated value a. A'+ I OA'
and the value aha, aI^, its, lIA, 11B, I+^(a
tB~ans is the passing wave current, l ta ""' 1 n
B indicates a reflected wave current, and I + B' = 1 nB indicates a forward wave current. Note that aOA indicates the previous value, and aOA' indicates the current value, and the reflected wave current, backward wave current, and forward wave current are also expressed in the same manner. ), and in step S4, a + a' = S I[1(I IB
+ I IA) a IA' = S IA (+ +
e + I IA) i IB' = a IR'
118iIA' = a+^' I IB 11B' = l OA'a OA' is calculated. In step S, l obtained in S4
10A' = i using +a' and a +n'
Calculate lE1+ a +vs. On the other hand, the value i IA', a1^' obtained at S, and the value a tB, a of the tube A3 introduced from the memory in step S6.
tA+l tB+1! At I je, I
The following calculation is performed in step S7 using the following.

a 2B+ = S ta (I tB+ 1 tA)
a!^′ :S!^(■tB+ l tA)i to’
 = awe′I !B ixA’ =atA′ItA 12o′= 11A + a IA′ ステップS8ではS7にて求められたit、3’。
a 2B+ = S ta (I tB+ 1 tA)
a! ^′ :S! ^(■tB+ l tA)i to'
= awe'I! B ixA' = atA'ItA 12o' = 11A + a IA' In step S8, it, 3' obtained in S7.

iい′を用いて 11A′= l yB’ + a 2A’の演算が行わ
れる。以下同様にして模擬された音響管の断面積A1〜
Anに夫々対応した演算が行われ、ステップS n−+
では、 ans’ −f (I n5) l nB′= a nB’  I nBI n5−j 
n−IA+ a rl−IAの演算を行う。その結果を
用いてステップS、では、 I n−IA′= 1 nB′+ a nB’の演算を
行う。すなわち、音響管のA1〜Anに対応した等価回
路の最終段(n段)における演算結果の出力が音声合成
波形部10でD/A変換されてスピーカ11に出力され
、スピーカ11より音声として出力される。
Using i', the calculation 11A'=lyB'+a2A' is performed. Below, the cross-sectional area A1 of the acoustic tube simulated in the same manner
Calculations corresponding to An are performed, and step S n-+
Then, ans' -f (I n5) l nB'= a nB' I nBI n5-j
Perform the calculation n-IA+a rl-IA. In step S, the result is used to calculate In-IA'=1 nB'+a nB'. That is, the output of the calculation result at the final stage (n stage) of the equivalent circuit corresponding to A1 to An of the acoustic tube is D/A converted by the speech synthesis waveform unit 10 and output to the speaker 11, and is output as audio from the speaker 11. be done.

したがって前記演算処理装置は音響管A1〜Anに対応
した演算を行うものであるから、この演算処理装置は音
響管のA、〜An個々の等価回路を流れる各部の電流値
および関数f 、 SIB、 5IA(i=1,2・・
・n−1)をテーブルとして有しているメモリと、当該
等価回路の各部の電流値を演算する第1の演算手段と、
当該等価回路とは相隣接する等価回路の電流値を用いて
当該等価回路の電流値を演算する第2の演算手段とを備
えている。
Therefore, since the arithmetic processing device performs arithmetic operations corresponding to the acoustic tubes A1 to An, this arithmetic processing device calculates the current value of each part flowing through the equivalent circuit of each acoustic tube A, to An, and the function f, SIB, 5IA (i=1,2...
- a memory having n-1) as a table, and a first calculation means for calculating the current value of each part of the equivalent circuit;
The equivalent circuit is provided with second calculation means for calculating the current value of the equivalent circuit using the current value of the equivalent circuit adjacent to the equivalent circuit.

前記各音響管A、〜A1に対応した演算のタイミングは
、電流が隣接する音響管に到達する時間Δtに合わせる
ものである。すなわち隣接する音響管に電流が例えばl
OμS後に到達するのであれば、10μs毎の時間間隔
で音響管A、〜Anに対応した各演算を順次行う。
The timing of the calculation corresponding to each acoustic tube A, to A1 is adjusted to the time Δt for the current to reach the adjacent acoustic tube. That is, if the current in the adjacent acoustic tube is, for example, l
If it is reached after Oμs, then the calculations corresponding to the acoustic tubes A, ~An are performed sequentially at time intervals of 10μs.

尚、前記実施例においては、夏音素を立ち上がり部、定
常部、立し下がり部の3つに区分して取り、扱っていた
が、これに限らず他の区分数で取り扱っても良い。
In the embodiment described above, the summer phoneme is divided into three parts: a rising part, a steady part, and a falling part.

1−1 、発明の効果 以上のように本発明によれば次のような効果が得られる
1-1. Effects of the Invention As described above, according to the present invention, the following effects can be obtained.

(1)所定数に区分された音素毎に各パラメータの補間
を行っているので、跡切れのない滑らかな音声合成信号
が得られる。
(1) Since each parameter is interpolated for each phoneme divided into a predetermined number, a smooth speech synthesis signal without any traces can be obtained.

(2)所定の指数関数の情報を音声処理部の処理結果に
対応した抽出間隔で抽出するだけで実行パラメータが決
定されるので、乗算等の複雑な演算は不要となり、補間
処理の簡単化および高速化が図れる。
(2) Execution parameters are determined simply by extracting information on a predetermined exponential function at an extraction interval corresponding to the processing results of the audio processing unit, eliminating the need for complex operations such as multiplication, simplifying interpolation processing and Speed-up can be achieved.

(3)指数関数の情報を時定数の大きさに応じて各々持
つ必要はなく、補間処理のために必要な情報量は極めて
少なくて済む。このためメモリを小容量化することがで
きる。
(3) It is not necessary to have information on each exponential function depending on the size of the time constant, and the amount of information required for interpolation processing can be extremely small. Therefore, the capacity of the memory can be reduced.

(4)区分した音素毎にパラメータを持たせ補間処理を
行うようにしたので、目標値に到達するまでの総ての情
報を備える必要がなく、メモリ容量は小さくて済む。
(4) Since a parameter is provided for each segmented phoneme and interpolation processing is performed, there is no need to provide all the information required to reach the target value, and the memory capacity can be small.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
音節パラメータ説明図、第3図は音素パラメータ説明図
、第4図は音源データの信号波形図、第5図(a)、(
b)、(c)、(d)。 (e)、(f)は指数関数の曲線図、第6図は漸化式を
導出するための説明図、第7図は一実施例の全体構成を
説明するためのフローチャート、第8図は演算部のフロ
ーチャート、第9図は音響管モデル部および演算部の説
明図、第10図は声道の変化説明図、第11図は音声伝
搬を電気的に模擬した電気回路図、第12図は第11図
の等価回路図である。 l・・・日本語処理部、2・・・辞書、3・・・音節処
理部、4・・・音素処理部、5・・・メモリ、6・・・
補間処理部、8・・・音響管モデル部、9・・・演算部
、IO・・・音声合成波形部、11・・・スピーカ、P
・・・音源。
Fig. 1 is a block diagram showing an embodiment of the present invention, Fig. 2 is an explanatory diagram of syllable parameters, Fig. 3 is an explanatory diagram of phoneme parameters, Fig. 4 is a signal waveform diagram of sound source data, and Fig. 5 (a). ,(
b), (c), (d). (e) and (f) are curve diagrams of exponential functions, Figure 6 is an explanatory diagram for deriving the recurrence formula, Figure 7 is a flowchart for explaining the overall configuration of one embodiment, and Figure 8 is Flowchart of the calculation section, FIG. 9 is an explanatory diagram of the acoustic tube model section and the calculation section, FIG. 10 is an explanatory diagram of changes in the vocal tract, FIG. 11 is an electric circuit diagram electrically simulating sound propagation, and FIG. 12 is an equivalent circuit diagram of FIG. 11. l... Japanese language processing unit, 2... Dictionary, 3... Syllable processing unit, 4... Phoneme processing unit, 5... Memory, 6...
Interpolation processing unit, 8...Acoustic tube model unit, 9...Calculation unit, IO...Speech synthesis waveform unit, 11...Speaker, P
···sound source.

Claims (1)

【特許請求の範囲】[Claims] (1)音素を基本単位とするとともに音響管を用いて模
擬する音声合成方式において、 1音素を所定数に区分して取り扱うとともに、内蔵され
る言語辞書を参照して、入力される文字データの言語解
析を行う言語処理部と、 音節パラメータおよび前記区分された音素パラメータを
有し、前記言語処理部で解析されたデータの音節処理、
音素処理を行う音声処理部と、所定の指数曲線で表現さ
れる指数関数の情報が格納されるメモリを有し、該メモ
リ内の情報を前記音声処理部の処理結果に対応した抽出
間隔で抽出して実行パラメータを決定する補間処理部と
、音源の信号が供給されるとともに断面積変化に伴って
サージインピーダンスが変化する音響管の等価回路に流
れる電流を、前記補間処理部で決定された実行パラメー
タに基づいて所定のタイミングで演算する演算部とを備
え、 前記演算部の演算結果によって音声合成信号を得ること
を特徴とする音声合成方式。
(1) In a speech synthesis method that uses phonemes as the basic unit and simulates them using sound tubes, one phoneme is divided into a predetermined number of parts, and the input character data is analyzed by referring to the built-in language dictionary. a language processing unit that performs language analysis; syllable processing of data that has syllable parameters and the classified phoneme parameters and is analyzed by the language processing unit;
It has an audio processing unit that performs phoneme processing and a memory that stores information on an exponential function expressed by a predetermined exponential curve, and extracts the information in the memory at an extraction interval corresponding to the processing result of the audio processing unit. and an interpolation processing unit that determines execution parameters by determining the execution parameters, and an interpolation processing unit that determines the execution parameters by determining the execution parameters determined by the interpolation processing unit. 1. A speech synthesis method, comprising: a calculation section that performs calculations at a predetermined timing based on parameters; and a speech synthesis signal is obtained based on the calculation result of the calculation section.
JP4653588A 1988-02-29 1988-02-29 Speech synthesis system Pending JPH01219896A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4653588A JPH01219896A (en) 1988-02-29 1988-02-29 Speech synthesis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4653588A JPH01219896A (en) 1988-02-29 1988-02-29 Speech synthesis system

Publications (1)

Publication Number Publication Date
JPH01219896A true JPH01219896A (en) 1989-09-01

Family

ID=12749984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4653588A Pending JPH01219896A (en) 1988-02-29 1988-02-29 Speech synthesis system

Country Status (1)

Country Link
JP (1) JPH01219896A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117578A (en) * 1999-10-21 2001-04-27 Yamaha Corp Harmony sound adding device and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117578A (en) * 1999-10-21 2001-04-27 Yamaha Corp Harmony sound adding device and method

Similar Documents

Publication Publication Date Title
JPH09114495A (en) System and method for decision of pitch outline
CN104934030A (en) Database and prosody Generation method Using Syllable-Centered Polynomial Representation of Pitch Contours
Hill et al. Low-level articulatory synthesis: A working text-to-speech solution and a linguistic tool1
JPH01219896A (en) Speech synthesis system
Sondhi Articulatory modeling: a possible role in concatenative text-to-speech synthesis
JPH01182900A (en) Voice synthesizing system
JPH01219894A (en) Speech synthesis system
JP2990693B2 (en) Speech synthesizer
JP2990691B2 (en) Speech synthesizer
JPH01177097A (en) Voice synthesizing system
JP2992995B2 (en) Speech synthesizer
JPH01177100A (en) Voice synthesizing system
JPH01185700A (en) Speech synthesizing method
JPH01177096A (en) Voice synthesizing system
JPH01171000A (en) Voice synthesis system
Lin et al. An on-the-fly mandarin singing voice synthesis system
JPH0833751B2 (en) Speech synthesis method
JPH01177099A (en) Voice synthesizing system
JPH01292400A (en) Speech synthesis system
JPH01219899A (en) Speech synthesizing device
JPS63257000A (en) Voice synthesization
JPH0833749B2 (en) Sound synthesis method
JPH04270394A (en) Pause length determining system
JPS63285597A (en) Phoneme connection type parameter rule synthesization system
Skare et al. Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output