JPH0141999B2

JPH0141999B2 -

Info

Publication number: JPH0141999B2
Application number: JP56069950A
Authority: JP
Inventors: Minoru Kuroda; Hiroshi Itoyama; Seiji Hiraoka; Kenji Kaga
Original assignee: Matsushita Electric Industrial Co Ltd; Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd; Panasonic Holdings Corp
Priority date: 1981-05-09
Filing date: 1981-05-09
Publication date: 1989-09-08
Also published as: JPS57185099A

Description

【発明の詳細な説明】

本発明は音声合成装置に関するものである。一
般に音声の特徴を表わす特徴パラメータには、音
の大小を表わす振巾パラメータ（以下Ａパラメー
タと略称する）と、音の高低すなわち基本周期を
表わすピツチパラメータ（以下Ｐパラメータと略
称する）と、音の音色すなわちスペクトル分布を
表わすスペクトルパラメータ（以下Ｓパラメータ
と略称する）とがある。したがつて音声を合成す
るには音声信号を音声周波数よりも十分高い周波
数を有するサンプリングパルスでサンプリング
し、各特徴パラメータを抽出して予めデータメモ
リに記憶させ、データメモリから読み出された特
徴パラメータに基いて音源を駆動して音声を合成
すれば良いことになる。この種の音声合成装置で
は音声信号のサンプリング数を多くすればするほ
ど忠実な音声を合成できることになるが、反面サ
ンプリング数が多くなると音声合成データのビツ
ト数が増大して大きな容量のデータメモリが必要
になるとともにデータ処理の回路構成が複雑にな
り、コストが高くなるという問題がある。従つて
従来の音声合成装置にあつてはサンプリングパル
ス周波数（以下サンプリング周波数と略称する）
は人間の声を忠実に再生するために最低必要な周
波数に設定されており、通常、サンプリング周波
数は８または10KHz（サンプリング周期125μSま
たは100μS）に設定する。ところで、サンプリン
グパルスにて音声信号をサンプリングしてＡ、
Ｐ、Ｓパラメータよりなる特徴パラメータを抽出
してメモリに記憶させ、メモリに記憶させた特徴
パラメータをサンプリングパルスに等しい周期の
同期パルスにて読み出して音声を合成する場合、
Ｐパラメータに基いて再生される音声の基本周期
はサンプリング周波数によつて決められる離散値
しかとり得ない。すなわち、サンプリング周期を
100μS、ＰパラメータをPi（整数値）とすれば再
生される基本周期ｔはｔ＝100Pi×10^-6（sec）（但しPi＝１、２、３…）となつて再生し得る音声周波数は（表１）のよう
な離散値となる。

【表】

【表】このような離散的な音声周波数しか発生できな
くとも人間の声などは比較的忠実に再生できる。
しかしながら音階周波数で構成されたメロデイ音
を再生する場合、各音階（ド、レ、ミ…）の音階
周波数は表１に示すように上記離散値に含まれて
いないものが多く、メロデイ音をこのような離散
的な音声周波数を用いて再生すれば著しく音程の
ずれたメロデイ音が再生されるという問題があつ
た。本発明は上記問題点を解決することを目的と
するものである。以下PARCOR型音声合成装置の一実施例につ
いて図を用いて説明する。PARCOR型音声合成
方式は第１図に示すように音声信号V_Sをサンプ
リングパルスにより適当周期toでサンプリング
し、サンプリングされたサンプリング値Xtと
X_t-pの間にある（Ｐ−１）個のサンプリング値に
よる相関関係を除外し、XtとX_t-pとの相関関係
のみを抽出したPARCOR係数（部分自己相関係
数：以下Ｋパラメータと略称する）をＳパラメー
タとして音声を合成するものであり、Ｋパラメー
タは音声がほぼ定常状態とみなせる１フレーム
（５〜20ｍsec）において、適当周期to（約
100μsec）毎に音声信号V_Sのサンプリングを行な
い、隣り合うサンプル値間の相関係数をK₁とし、
複数間隔離されたサンプル値間では、その間に挾
まれたサンプル値による影響を最小２乗誤差によ
る線形予測によつて求め、それらを差引いてでき
る相関係数をK₂〜K_oとしたものである。このＫ
パラメータはK₁、K₂、K₃のようにX_tに近い点と
の部分自己相関関係を表わす係数にはスペクトル
分布に関する情報が豊富に含まれているが、K₈、
K₉、K₁₀のようなX_tから遠い点との部分自己相関
係数にはスペクトル分布に関する情報があまり含
まれていないので、低次のＫパラメータに多数の
量子化ビツトを割り当て、高次のＫパラメータに
は少数の量子化ビツトを割り当てることによりビ
ツト数を節減して冗長度を小さくするほうが効果
的である。したがつてPARCOR方式はＳパラメ
ータとして自己相関係数を用いて各係数に同一ビ
ツト数を割り当てるようにした自己相関係数方式
に比べて帯域圧縮率がすぐれているものである。
通常各Ａ、Ｐ、Ｋパラメータは圧縮されて記憶あ
るいは伝送され、Ａパラメータに対して５ビツ
ト、Ｐパラメータに対して６ビツト、Ｋパラメー
タの各係数K₁、K₂…K₁₀に対して７、６、５、
４、４、４、３、３、３、３ビツト等のように割
り当てる。第２図は時報装置、警報装置、目覚装置などに
用いるPARCOR型音声合成装置の一実施例のブ
ロツク回路図であり、音声、メロデイを圧縮され
た特徴パラメータとして記憶するデータメモリＭ
を具備した制御用IC(A)と、音声合成用IC（点線部
Ａ、Ｂを除いた部分）とで構成され、両IC間で
ビツトシリアルにデータの受渡しを行なうように
したものである。ところで、音声の特徴パラメー
タはすべて再生用ROM１内に10ビツトのデータ
として記憶されており、各特徴パラメータに割り
当てられるデータの個数は、その特徴パラメータ
が音質に寄与する度合に応じて最適に配分されて
いる。例えばＡパラメータの場合10ビツトで表現
されるデータが32個記憶されている。したがつて
Ａパラメータの任意のデータをアクセスするとき
に必要とされる相対アドレスのビツト数は５ビツ
トである。この相対アドレスは特徴パラメータを
必要最小限に圧縮して表現したものであるので圧
縮パラメータと呼ばれる。これに対して再生用
ROM１内に記憶されている実際の特徴パラメー
タは再生パラメータと呼ばれる。上述した所から
明らかなように再生パラメータのビツト数はＡ、
Ｐ、K₁〜K₁₀の各特徴パラメータについてすべて
共通に10ビツトであるが、圧縮パラメータのビツ
ト数はＡ、Ｐ、K₁〜K₁₀の各パラメータについて
異なるものであり、たとえばそれぞれ５、６、
３、３、３、３、４、４、４、５、６、７ビツト
（合計53ビツト）である。そのほか予備エリアと
して３ビツト分すなわちデータ８個分が再生用
ROM１に確保されている。かかる圧縮パラメー
タは音声信号がほぼ定常状態とみなし得る５〜20
ｍsec（１フレーム）ごとに１組（＝53ビツト）抽
出されたものであるから、高々2650ビツト／秒で
データを処理することにより音声信号を再生する
ことができ、無音区間やリピート区間をも考慮に
入れると実際には1600ビツト／秒程度で音声信号
を再生することができるものである。ところで、
実施例にあつては話し言葉のように均一に連続的
に音の高低が変化する音声を合成する場合とメロ
デイ音や歌唱のように離散的に続く音声を合成す
る場合とにおける基本周期発生方式を変更するよ
うになつており、メロデイ音を再生する場合、制
御用IC(A)からデータ入力端子８に入力される圧
縮パラメータのうち圧縮Ａパラメータの先頭にメ
ロデイ制御コードを付加し、メロデイ制御コード
検出回路３４からメロデイ制御コード検出信号
V_Mが得られたとき音声−メロデイ切換回路３３
をメロデイ側（ｂ側）に切換えて各音階音の基本
周期に等しい基本周期で音源を駆動してメロデイ
音を合成するように構成されている。以下、実施例の基本構成および動作（人間の声
などを合成する通常の音声合成動作）について説
明する。いま、圧縮パラメータ（すなわち再生用ROM
１の相対アドレス）は１フレームごとにデータ入
力端子８から切換回路１０を介してリングレジス
タ３にビツトシリアルに記憶されるが、このよう
な相対アドレスだけでは再生用ROM１には各パ
ラメータの再生データが連続して記憶してあるの
で、特定のデータを取り出すことができない。そ
こでインデツクスROM２の中に記憶されている
再生ROM中の各パラメータの先頭アドレスをア
ドレスカウンタ１１の制御の下に順次取り出し
て、上記相対アドレスと加算回路４によつて加算
することにより再生用ROM１の絶対アドレス
（９ビツト）を計算し、この絶対アドレスによつ
て再生用ROM１をアクセスするようにしてい
る。インデツクスROM２には圧縮パラメータの
ビツト配分数を３ビツトの２進数で記憶させてお
り、この圧縮パラメータのビツト配分数に関する
データは再生制御回路１２に送られ、再生制御回
路１２は、ビツト配分数だけシフトクロツクをリ
ングレジスタ３に送出する。したがつてリングレ
ジスタ３からは、上記ビツト配分数に応じて例え
ばＡパラメータの場合には５ビツト、Ｐパラメー
タの場合には６ビツト、K₁₀パラメータの場合に
は３ビツト、…K₁パラメータの場合には７ビツ
トという具合に圧縮パラメータ（相対アドレス）
をそれぞれ加算回路にシリアルに送出するもので
ある。またインデツクスROM２内に記憶されて
いる各特徴パラメータの再生用ROM１内におけ
る先頭アドレスは、パラレルシリアル変換回路１
３を介して１ビツトづつ順次加算回路４に送出さ
れるので、順次１ビツトづつ加算されて絶対アド
レスが計算されるものである。こうして計算され
たシリアルな絶対アドレスはシリアルパラレル変
換回路１４を介してパラレルデータに変換され、
再生用ROM１をアクセスするアドレスに変換さ
れる。この再生用ROM１から出力される特徴パラメ
ータは１フレームごとに更新されるものである
が、データを更新する際に各フレーム間の接続点
において特徴パラメータが不連続的に変化すると
音声信号に歪みを生じて明瞭度が低下するおそれ
があるので、データ更新の際に特徴パラメータが
スムーズに変化し得るように補間計算回路５を設
けて１フレーム内の８点において近似的な直線的
補間を行なうようにしている。このため、タイミ
ング制御回路２８では第２図に示すように１フレ
ーム（20ｍsec）中に８個の補間用Ｄクロツク
（2.5ｍsec）を発生し、１個のＤクロツク中に25
個のパラメータ読込用Ｐクロツク（100μsec）、さ
らに１個のＰクロツク中に22個のビツト読込用Ｔ
クロツク（4.5μsec周期）を作成する。なおＰク
ロツクはサンプリングパルスに相当する同期パル
スである。８個のＤクロツクのうち、最初のD₁
においてデータ入力端子８からリングレジスタ３
にデータが読み込まれる。各圧縮パラメータＡ、
Ｐ、K₁₀…、K₁は奇数番目のＰクロツクで順次読
み込まれるものであり、例えばＡパラメータは
P₁区間のT₆〜T₁₀の５個のＴクロツクで読み込ま
れる。偶数番目のＰクロツクあるいは上記以外の
Ｔクロツクは補間計算回路５、音源ROM６、デ
ジタルフイルタ７などのタイミングとして使用さ
れるものである。この補間計算回路５はメロデイ
制御コードが検出されたときにはその動作を停止
する。上記補間計算回路５によつて2.5ｍsecごとに新
しい値に更新された各特徴パラメータは、それぞ
れＰラツチ１６、AKラツチ２３に一時的に蓄え
られる。ただし、補間計算に差し当り必要のない
パラメータはすべてAKパラメータスタツク２４
に転送してデジタルフイルタ７の音声合成用デー
タとして蓄積している。ところでＰラツチ１６に蓄えられたＰパラメー
タは有声音源１９を駆動してＰパラメータに対応
する基本周期を有するインパルス信号を発生する
ためのデータであり、メロデイ制御コード検出回
路３４から出力が得られておらず、音声−メロデ
イ切換回路３３が人間の話し言葉のような音声を
合成する側（ａ側）に切換えられている場合、サ
ンプリングパルスに等しいＰクロツクをカウント
している音源ROM６のアドレスカウンタ１８の
リセツト信号はアドレスカウンタ１８出力とＰラ
ツチ１６に蓄えられたＰパラメータの一致を検出
する一致回路１７の出力となり、アドレスカウン
タ１８はＰクロツク周期の整数倍（Ｐパラメー
タ）の周期でリセツトされるようになつている。
したがつて音源ROM６からＰパラメータに基い
た有声音源制御データが出力され、有声音源１９
にてＰパラメータに対応する基本周期（表１に示
すような離散的な音声周波数）を有するインパル
ス信号を発生させる。なお、音声に基本周期がな
い場合には、音源制御回路２０にて切換回路２２
を駆動し、無声音源２１に切換えるようになつて
おり、無声音源２１は基本周期を持たないホワイ
トノイズ（白色雑音）を発生させるものである。
次にＡパラメータおよびＫパラメータはデジタル
フイルタ７に供給され、有声、無声音源より供給
されて、信号に振巾の大小およびスペクトル分布
に関する情報を付け加えることにより音声を再声
するものである。図中２５は再生された音声信号
を増巾する低周波アンプ、２６はスピーカ、２７
は水晶発振回路である。以下第４図〜第６図に示す音階信号発生回路３
１、リセツトパルス発生回路３２の構成およびメ
ロデイ音を合成する音声合成動作について説明す
る。音階信号発生回路３１はＰパラメータに対応
するデータすなわち制御用IC(A)から出力される
圧縮Ｐパラメータをリクエスト信号V_REによりと
りこむようにしたシフトレジスタ３１ａと、圧縮
Ｐパラメータをアドレスデータとして圧縮Ｐパラ
メータに対応する音階データを読み出すようにし
た音階ROM３１ｂと、音階ROM３１ｂから読
み出された音階データをプリセツト入力としＰク
ロツクよりも周波数の高いクロツクパルス例えば
Ｔクロツクをカウントするプリセツトカウンタ３
１ｃと、プリセツトカウンタ３１ｃの０検出信号
を反転するインバータ３１ｄとで構成され、クロ
ツクパルスの周期の整数倍（音階データ）の周期
を有する０検出信号を音階信号P_Mとして出力す
る。この場合、音階信号発生回路３１から出力さ
れる音階信号P_Mの周波数は離散的な値をとるが
離散間隔はクロツクパルスの周波数に応じて小さ
くなる。したがつて音階ROM３１ｂに適当な音
階データを記憶させておくことにより音階信号発
生回路３１にて各音階信号の周波数に一致するよ
うな音階信号P_Mが形成できることになる。例え
ばクロツクパルスをＴクロツク（周期4.5μsec）
とし、Ｐパラメータ「12」に対応する圧縮Ｐパラ
メータにて音階ROM３１ｂから音階データ
「284」が読み出されるようにすれば、プリセツト
カウンタ３１ｃから4.5×284μsecの周期で０検出
信号が得られ、この音階信号P_MはＰパラメータ
の「12.8」に相当する基本周期となり、Ｐパラメ
ータに対応する離散的な基本周期を補間できるこ
とになる。リセツトパルス発生回路３２はインバ
ータ３５ａ，３５ｂ、コンデンサ３６、ナンドゲ
ート３７、Ｄフリツプフロツプ３８およびナンド
ゲート３９にて形成されており、第７図ａのタイ
ムチヤートに示すようにプリセツトカウンタ３１
ｃから出力される音階信号P_Mが得られた直後の
Ｐクロツクをアドレスカウンタ１８のリセツトパ
ルスV_Rとして出力するようになつている。なお
図中イはＰパラメータが「12」のときの一致回路
１７出力、ロは音階信号P_M、ハはリセツトパル
スV_Rを示すものである。いま制御用IC(A)からメロデイ制御コードが出
力され、メロデイ制御コード検出回路３４からメ
ロデイ制御コード検出信号V_Mが得られている場
合、音声−メロデイ切換回路３３はメロデイ側
（ｂ側）に切換えられ、アドレスカウンタ１８は
リセツトパルス発生回路から出力されるリセツト
パルスV_Rにてリセツトされ、アドレスカウンタ
１８はＰクロツクを13個カウントしてリセツトさ
れる場合と、Ｐクロツク12個カウントしてリセツ
トされる場合とが、４：１の割合で起きることに
なる。したがつて等価的にＰパラメータ「12.8」
に相当する基本周期で音源ROM６がアドレスさ
れ、有声音源１９が制御されることになり、音階
音「ソ」が正確に再生されることになる。同様に
して各音階音が正確に再生され、メロデイが正し
い音程で再生される。第７図ｂに示すタイムチヤートは音階信号P_M
とリセツトパルスV_Rの関係をさらに分かり易く
説明するもので、例として3.75KHz（267μsec）
の音階信号P_Mに対応するリセツトパルスV_Rを示
したものである。図から明きらかなようにリセツ
トパルスV_RとしてのＰパルスの３、６、８、11、
14、16…番目のパルスが出力される。このリセツ
トパルスV_Rでリセツトされるアドレスカウンタ
１８による音源ROM６がアドレスされるので、
音源ROM６から等価的に3.75KHz（800／３μsec）とみなせる周期で有声音源データが読み出される
ことになり、有声音源１９が正しい音階周波数で
駆動されてメロデイ音や歌唱などの音声が正確な
音程で再生されることになる。なお実施例にあつ
ては圧縮パラメータを音階ROM３１ｂのアドレ
スデータとしているが、Ｐラツチ１６に蓄えられ
たＰパラメータを音階ROM３１ｂのアドレスと
して用いても良い。本発明は上述のように音声信号を音声周波数よ
りも高い周波数のサンプリングパルスにてサンプ
リングし、振巾パラメータ、ピツチパラメータお
よびスペクトルパラメータよりなる特徴パラメー
タを抽出してデータメモリに記憶させ、データメ
モリから読み出された特徴パラメータに基いて音
源を制御して音声を合成するようにした音声合成
装置において、話し言葉のように均一に連続的に
音の高低が変化するような音声を合成する場合
と、メロデイ音や歌唱のように離散的に続く音声
を合成する場合とでピツチパラメータに基いて設
定される音源駆動周期を変更するようになつてお
り、メロデイ音を再生する場合には、音階信号発
生回路にてピツチパラメータに対応する音階信号
（音階音の基本周期に略一致した）を発生させ、
この音階信号に基いて音源を駆動する基本周期を
設定するようになつているので、再生されたメロ
デイ音の音程のずれを使用上、差支えのない程度
に小さくすることができ、しかもアドレスカウン
タ、音源ROM、音源などの音声合成回路の回路
構成およびビツト構成を変更する必要がないとい
う利点をもつている。

【図面の簡単な説明】

第１図は本発明一実施例の音声合成方式の原理
説明図、第２図は同上のブロツク回路図、第３図
は同上の動作説明図、第４図〜第６図は同上の要
部回路図、第７図ａ，ｂは同上の動作説明図であ
る。Ｍはデータメモリ、６は音源ROM、１７は一
致回路、１８はアドレスカウンタ、１９は音源、
３１は音階信号発生回路、３１ｂは音源ROM、
３１ｃはプリセツトカウンタ、３２はリセツトパ
ルス発生回路、３３は音声−メロデイ切換回路、
３４はメロデイ制御コード検出回路である。

Claims

【特許請求の範囲】１音声信号を音声周波数よりも高い周波数のサ
ンプリングパルスにてサンプリングし、振巾パラ
メータ、ピツチパラメータおよびスペクトルパラ
メータよりなる特徴パラメータを抽出してデータ
メモリに記憶させ、データメモリから読み出され
た特徴パラメータに基いて音源を制御して音声を
合成するようにした音声合成装置において、サン
プリングパルスと等しい周期の同期パルスをカウ
ントして音源ROMから音源データを読み出すア
ドレスカウンタの値がピツチパラメータに一致し
たとき一致信号を出力する一致回路と、ピツチパ
ラメータに対応したアドレスデータにより記憶さ
れている音階データを読み出すようにした音階
ROMおよび音階データをプリセツト入力とし同
期パルスよりも周波数の高いクロツクパルスを減
数カウントするプリセツトカウンタよりなる音階
発生回路と、プリセツトカウンタの０検出信号よ
りなる音階信号が得られた直後の同期パルスを出
力するリセツトパルス発生回路と、アドレスカウ
ンタのリセツト信号をリセツトパルス発生回路出
力あるいは一致回路出力に切換える音声−メロデ
イ切換回路とを設け、話し言葉のように均一に連
続的に音の高低が変化する様な音声を合成する場
合にはアドレスカウンタを一致回路出力にてリセ
ツトし、メロデイ音や歌唱のように離散的に続く
音声を合成する場合にはアドレスカウンタをリセ
ツトパルス発生回路出力にてリセツトして音源デ
ータを繰り返して使用するようにしたことを特徴
とする音声合成装置。２振巾パラメータに付加されたメロデイ制御コ
ードを検出するメロデイ制御コード検出回路を設
け、メロデイ制御コード検出回路出力にて音声−
メロデイ切換回路を制御するようにしたことを特
徴とする特許請求の範囲第１項記載の音声合成装
置。