JPH0344319B2

JPH0344319B2 -

Info

Publication number: JPH0344319B2
Application number: JP58108766A
Authority: JP
Inventors: Seiji Hiraoka; Kenji Kaga
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-06-16
Filing date: 1983-06-16
Publication date: 1991-07-05
Also published as: JPS60500A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声信号をデイジタル化した後、分析
し、分析して得られたパラメータを低データレー
トで伝送または記憶し、再び音声信号に復元する
音声分析合成方法に関するものである。

従来例の構成とその問題点通常、音声分析合成装置においては入力された
音声から分析器で声道パラメータと音源パラメー
タを抽出し、各パラメータにコード化等のデータ
レート低減のための処理を施し、伝送路または記
憶素子へ送出し、これを合成器で音声に再合成す
る。この場合の方式として従来、音源パラメータ
の違いにより、(1)分析時に抽出される分析残差波
形をそのまま或いは差分等の処理でデータ圧縮し
て伝送または記憶する方式、(2)音声の大きさを表
わす振幅パラメータ、声の高さを表わすピツチパ
ラメータおよび有声無声切換情報を抽出して伝送
または記憶する方式、(3)音声データを記憶する例
では前記２の方式の各パラメータと話者の分析残
差波形の一部を記憶しておき再合成する方式があ
る。

(1)の方式では話者の声質をよく再合成できる反
面伝送または記憶時のデータレートが高いという
欠点がある。

(2)の方式では(1)の方式と反対にデータレートは
低いが話者の違いに関係なく一定の有声音源デー
タを使用するため声のつや等の個性的特徴が失な
われた合成音となる欠点がある。

(3)の方式は(1)および(2)の方式の中間的特徴をも
つが話者が一定でない実時間分析合成の例では適
さない。

発明の目的本発明は従来の技術の上記欠点を改善するもの
で、その目的は音声の実時間伝送における情報量
を極端に増大することなく、話者の個性的な特徴
を含んだ音声を再合成するための音声分析合成方
法を提供するものである。

発明の構成本発明は定常の有声音区間を分析して得られた
残差波形の一部を有声駆動音源データとして無音
区間に伝送し音声合成することを特徴とする音声
分析合成方法である。

実施例の説明以下、本発明の実施例を詳細に説明する。第１
図は本発明の一実施例における音声分析合成方法
を実現する装置の構成を示すブロツク図である。
第１図において、１はマイクロフオン等の収音器
で伝送する音声を収音しアナログ信号に変換し
て、音声分析器２に与える。音声分析器２はアナ
ログ信号を8K〜10KHz程度でサンプリングしデ
イジタル信号に変換した後５〜20ms程度の区間
（フレームと呼ぶ）毎に線形予測分析等により声
道パラメータと音源パラメータを求め、このパラ
メータを符号化等によりさらに帯域圧縮し、伝送
路３に送出する。伝送路３は通常の電話回線のよ
うに実時間で伝送される系のほか、書込可能なメ
モリ素子（RAM）等のような記憶媒体であつて
もよい。圧縮パラメータを受信した音声合成器４
では音声分析器２で行なつた帯域圧縮の逆の操作
を行ない音声信号を復元する。この復元した音声
信号をスピーカ５に与え音声再生する。

帯域圧縮技術として本実施例では線形予測分析
法の一つであるPARCOR法を用いている。
PARCOR法を用いた音声分析器については後述
する。

第２図に示した音声信号をPARCOR分析、パ
ラメータ伝送、PARCOR合成する際、伝送路の
容量はパラメータの単位時間当りの最大データレ
ートで定まるが、実際の伝送では第２図において
区間２，４に比して区間１，３，５のような無音
区間では転送データレートは極端に低い。そこ
で、本発明では区間２や４で分析して得られた残
差波形のうち定常的な母音区間の一部を区間３や
５で伝送し合成器で有声駆動音源として使用す
る。この残差波形にはパラメータで表わされない
話者の個人性が含まれているので個人性豊かな音
声が合成できる。有声駆動音源データは通常１ピ
ツチ周期以下のデータ列であるが本実施例では８
ビツト×31点で構成しているため248ビツトを無
音区間に転送する必要があり、今、2400ビツト／
秒の伝送路を使用すれば、この残差データの伝送
に約100ミリ秒所要するが、通常の発声では数百
ミリ秒程度の無音区間はよく存在するので十分伝
送できる。なお有声駆動音源データは差分法等で
データ圧縮し短かい無音区間で伝送することもで
きる。一方、合成器は区間２のような発声開始時
点ではまだ駆動音源データが伝送されていないの
で予め定めたインパルス波形等を有声駆動音源デ
ータとして使用する。

第３図は第１図中２に相当する音声分析器の構
成を示すブロツク図である。２１は音声信号をサ
ンプリングレデイジタル信号に変換するAD変換
器でデイジタル信号はPARCOR分析器２２、ピ
ツチ抽出器２３、有声無声判定器２４、無音区間
検出器２５に送られる。PARCOR分析器２２で
得られた残差信号は残差切出回路２６で残差信号
の一部を切出され一時蓄わえられる。また振幅決
定回路２７で振幅パラメータが求められる。
PARCOR分析器２２、ピツチ抽出器２３、有声
無声判定器２４、無音区間検出器２５および振幅
決定回路２７で求められたパラメータは符号器２
８で符号化され、切換器２９を経てある時間区間
（フレーム）を代表するパラメータ値として伝送
路３に送出される。無音区間検出器２５で無音区
間が検出されると切換器２９は反転し残差切出回
路２６で切出された残差波形の一部が合成器の有
声音源データとして伝送される。

第４図は伝送されてくるパラメータおよび有声
音源データを受けて音声信号を合成する
PARCOR方式音声合成器の構成を示すブロツク
図であり、第１図の４に対応する。伝送されてく
るデータは選択器４１で２種類に分離され、パラ
メータはパラメータメモリ４２に蓄わえられ、有
声音源データは音源メモリ４３に蓄わえられる。
電源投入直後および長時間の無音区間を検出した
時は前記の予め定めたインパルス波形等の有声音
源データが音源メモリ４３に自動的にセツトさ
れ、選択器４１より新しい有声音源データがセツ
トされるまで保持される。４４は無声音源発生器
で、有声、無声選択器４５で音源メモリ４３また
は無声音源発生器４４のいずれかのデータが選択
され、パラメータメモリ４２内のパラメータとと
もにデイジタルフイルタ４６で演算され、その結
果がDA変換器４７でアナログ信号に変換されて
音声信号となり、増幅器４８で増幅されてスピー
カ５へ供給される。

発明の効果以上のように、本発明は実時間で音声波形を分
析、伝送、合成する際に定常の有声音区間を分析
して得られた残差波形の一部を有声駆動音源デー
タとして無音中の低データレートの区間に伝送す
るようにした音声分析合成方法で、音声分析時に
抽出される残差波形の一部を、パラメータを伝送
しない無音区間に伝送することにより、伝送路の
最大転送データ容量を増大させることなく、声の
つやや丸やかさ等といつた話者特有の声質豊かな
音声を合成することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声分析合
成方法を実現する装置の構成を示すブロツク図、
第２図は音声波形と伝送するデータの時間関係を
示した波形図、第３図は本発明の一実施例におけ
る音声分析合成方法を実現する装置の音声分析器
部の構成を示すブロツク図、第４図は本発明の一
実施例における音声分析合成方法を実現する装置
の音声合成器部の構成を示すブロツク図である。１……収音器、２……音声分析器、３……伝送
路、４……音声合成器、５……スピーカ、２１…
…AD変換器、２２……PARCOR分析器、２３
……ピツチ抽出器、２４……有声無声判定器、２
５……無声区間検出器、２６……残差切出回路、
２７……振幅決定回路、２８……符号器、２９…
…切換器、４１……選択器、４２……パラメータ
メモリ、４３……音源メモリ、４４……無声音源
発生器、４６……デイジタルフイルタ、４７……
DA変換器。

Claims

【特許請求の範囲】１定常の有声音区間を分析して得られた残差波
形の一部を有声駆動音源データとして無音区間に
伝送し音声合成することを特徴とする音声分析合
成方法。２残差波形の一部が抽出される以前は予め定め
た波形を有声駆動音源データとして音声合成する
特許請求の範囲第１項記載の音声分析合成方法。