JPH04101200A

JPH04101200A - 音声分析合成装置

Info

Publication number: JPH04101200A
Application number: JP2219168A
Authority: JP
Inventors: Takayuki Ishikawa; 孝行石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-08-21
Filing date: 1990-08-21
Publication date: 1992-04-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声分析合成装置に関し、特に分析側から合成
側に音源情報とともに供給すべき入力音声の特徴パラメ
ータであるＬＰＣ係数を可変長フレーム化して伝送する
音声分析合成装置に関する。

〔従来の技術〕

従来、この種の音声合成分析装置は、入力音声を分析す
る分析側において、音声信号を例えば１０ｍ５Ｅｃごと
の基本分析フレームごとにＬＰＣ分析を行ない、その結
果得られたＬＰＣＰＧＥ１音源情報であるピッチ周期、
電力情報等を合成側に伝送し入力音声の合成を行なって
いる。この場合、伝送すべき音声の情報量を極力圧縮す
るため、基本分析フレームごとに得られるＬＰＣ係数を
各基本分析フレームごとに伝送せず、例えば１個の基本
分析フレームをまとめて１個の伝送フレームとし、各伝
送フレームごとにその中からｍ個の代表フレームを選出
し、この１個の基本分析フレームからなる伝送フレーム
の範囲ではすべて各代表フレームのＬＰＣ係数で入力音
声のスペクトル包絡を表現する。すなわち、１個の基本
分析フレームをｍ個のフレーム（ｆｆｌ＞ｍ）で表現す
ることで１個の基本分析フレーム全てを伝送せずに、前
述のｍ個の代表フレームのＬＰＣＰＧＥ１その繰り返し
回数Ｌｉ　　（ｉ＝１〜ｍｊ、ｎ＝ΣＬｉ）とを伝送す
る可変長フレーム表現を利用して伝送すべき音声情報量
を圧縮していた。

これは、音声の巨視的構造が時変性を有し、その変化率
も時間的に不均一であり、したがって音声を分析するに
あたり等間隔の固定フレームで分析するよりも、音声の
変化に応じて可変長フレームとして処理する方が効率良
く分析できることにもとづいている。

〔発明が解決しようとする課題〕

上述した従来の可変長フレームによる音声分析合成装置
は、伝送情報量を一定（例えば１２００ｂｐｓ）にする
ため、前述の代表フレーム数ｍは固定的に定めており、
従って変化が速く時間歪の大きい音声はその変化に追従
できず、ｍ個の代表フレームだけでは１個の基本分析フ
レームを有スル伝送フレームが精度よく表現出来ず、合
成音声の品質の劣化を生じ、不安定かつ不明瞭な合成音
声を生成するという欠点がある。

また、１個の基本分析フレーム内に有音、無音区間が混
在する場合には、無音区間にも代表フレームを割り当て
てしまい、有音区間へのフレームの割り当てが減るため
、合成音声品質が劣化するという欠点があった。

本発明の目的は上述した欠点を除去し、合成音声の品質
劣化を著しく抑圧し、高品質の合成音声を得る音声分析
合成装置を提供することにある。

〔課題を解決するための手段〕

本発明の音声分析合成装置は、入力音声信号を伝送フレ
ーム単位かつ所定の１個の分析フレームごとに分析して
所定の次数のＬＰＣ係数と音源情報とを抽出する特徴パ
ラメータ抽出手段と、４個の分析フレームを音源情報に
より有音と無音区間に分離して、ｎ個の有音区間を抽出
（ｐ≧ｎ）する手段と、前記ｎ個の分析フレームから互
いに異る個数のｍ個の分析フレームの組合せを前記ｎ個
の分析フレームを代表して表現する代表分析フレーム候
補として選択する代表フレーム候補選択手段と、前記代
表フレーム候補選択手段によって選択される代表分析フ
レーム候補におけるＬＰＣＰＧＥ１して内挿および外挿
による補間を実施し、ｎ個の分析フレームを有するｍ個
の補間ＬＰＣ係数列を得たうえ、前記ｍ個の補間ＬＰＣ
係数列と前記特徴パラメータ抽出手段によって抽出した
ｎ個の分析フレームのＬＰＣ係数列との差を歪量として
計測し前記歪量が最小となるｍ個の最小歪量を得る最小
歪量計測手段と、前記最小歪量計測手段によって得られ
たｍ個の最小歪量がら合成音声とデータ伝送量とを勘案
して設定する最適な最小歪量を有する補間ＬＰＣ係数列
を形成する代表分析フレーム候補を代表分析フレームと
して判定し、この代表分析フレームの個数ならびにナン
バーをもって前記ｎ個の分析フレームを可変長フレーム
として表現する代表フレーム判定手段と、前記代表分析
フレームの個数ならびにナンバー及び無音フレームナン
バーを前記音源情報とともに分析側から合成側に音声分
析情報として送出する分析情報送出手段と、前記音声分
析情報にもとづいて入力音声信号の合成を行なう音声合
成手段とを備えて構成される。

Ｃ実施例〕次に、本発明について図面を参照して説明する。

第１図は本発明の一実旅例の構成を示すブロック図であ
る。

第１図に示す実施例は、合成側（送信側）■。

合成側（受信側）２および伝送路３から構成される。

分析側１は、入力音声信号を受けてこれを所定の帯域制
限した後量子化した量子化音声信号にＬＰＣ分析を施す
ＬＰＣ分析器１０１２代表フレームを選択する代表フレ
ーム候補選択器（１）１０２゜代表フレーム候補選択器
（２）　１０３　、代表フレーム候補選択器（３）　１
．０４　、歪量を計測する最小歪量計測器（１）１０５
．最小歪量計測器（２）　１０６　、最小歪量計測器（
３）　１０７　、ピッチ抽出器１０８．最適歪量判定器
１０９．ＬＰＣパラメータ編集器１１０゜多重化器１１
１を備え、また合成側２は、多重化分離器２０１．ＬＰ
Ｃパラメータ復号器２０２゜ピッチ発生器３．切替器４
．ＬＰＣパラメータ補間器２０５．雑音発生器２０６．
ＬＰＣ合成フィルタ２０７．可変利得増幅器２０８を備
えて構成される。

次に、第１図の実施例の動作について説明する。

入力音声信号は、ＬＰＣ分析器１０１でＢＰＦ（Ｂａｎ
ｄ　Ｐａ５ｓ　Ｆｉｌｔｅｒ）を通して不要な信号を除
去したあと、基本分析フレームごとにＡ−Ｄコンバータ
で所定のサンプリング周波数たとえば８ＫＨｚで標本化
され、所定のビット数たとえば１４ビツトで量子化され
た量子化音声信号とされる。このあと、量子化音声信号
は公知の分析手法によってにパラメータなどのＬＰＣ係
数を所定の次数で抽出される。このＬＰＣ係数の抽出は
１伝送フレームあたりρ個ずつ基本分析フレームは、次
に３つの代表フレーム候補選択器（１）　１０２〜代表
フレーム候補選択器（３）　１０４によってそれぞれ４
個、５個および６個ずつの組合せでＬＰＣ係数を含み次
次に選択され、最小歪量計測器（１）　１０５〜最小歪
量計測器（３）　１０７に供給される。

本実施例では、代表フレーム候補選択器（１）　１０２
〜代表フレーム候補選択器（３）　１０４はそれぞれ、
４．５および６個の基本分析フレームとそのＬＰＣ係数
を選択しているが、互いに異る個数ｍをそれぞれ何種類
、何個とするかは、装置の運用目的、過去の音声資料等
にもとすき予め決定される。

こうして、代表フレーム候補選択器（１）　１０２は、
ｌ伝送フレーム（あたり２０個の基本分析フレーム）の
中の有音区間から４個の代表フレームをＬＰＣ係数を含
み選出する。また代表フレーム候補選択器（２）　１０
３は１伝送フレームの中の有音区間から５個の代表フレ
ームを選出し、さらに代表フレーム候補選択器（３）　
１０４は１伝送フレームの中の有音区間から６個の代表
フレームを選出する。

最小歪量計測器（１）　１０５は、代表フレーム候補選
択器（１）　ｌ　Ｏ５が次次に選択する４個の代表フレ
ーム候補による歪量を表現するものである。同じく、最
小歪量計測器（２）　１０６は代表フレーム候補選択器
（２）　ｌ　Ｏ３が選んだ５個の代表フレーム候補によ
る歪量を、また最小歪量計測器（３＞　１０７は、代表
フレーム候補選択器（３）　１０４が選んだ６個の代表
フレーム候補による歪量を表現する。

この歪量の計測は次のようにして行なわれる。

たとえば、最小歪量計測器（１）　１０５は、代表フレ
ーム候補選択器（１）　１０２から提供される４個ずつ
の代表フレーム候補のＬＰＣ係数を利用し、代表フレー
ム以外の有音区間に相当する部分のＬＰＣ係数を内・外
挿の補間処理によって求め、補間ＬＰＣ係数列を得る。

一方、最小歪量計測器（１）１０５は、ＬＰＣ分析器１
０から伝送フレームあたり２０個の前基本分析フレーム
のＬＰＣ係数列を入力し、これと補間ＬＰＣ係数列との
差を歪量として計算する。歪量計測器（１）　ｌ　０５
は、すべての４個の代表フレーム候補について得られる
補間ＬＰＣ係数列について歪量を計測し、この歪量の最
小のものを最適歪量判定器１０９に供給する。

同様にして、最小歪量計測器（２）　１０６および最小
歪量計測器１０７は、それぞれ５個および６個の代表フ
レーム候補にもとづいて得られる補間ＬＰＣ係数列と有
音区間基本分析フレームによるＬＰＣ係数列との差から
歪量の最小なものを計測し、最適歪量判定器１０９に供
給する。

最適歪量判定器１０９は、３個の最小歪量計測器から提
供される最小歪量を比較し、最小歪量の大小と伝送デー
タ量の大小との条件から最適の歪量を提供する代表フレ
ーム候補の数とフレームナンバとを決定し、これを代表
フレームとして、この代表フレーム数と代表フレームナ
ンバー及び無音区間ナンバーを多重化器１１１に供給す
る。

こうして決定された代表フレームのナンバーはＬＰＣパ
ラメータ編集器１１０に供給され、ＬＰＣパラメータ編
集器１１０は、代表フレームナンバーのＬＰＣ係数をＬ
ＰＣ分析器１０１から読み出してＬＰＣ係数として多重
化器１１１に供給する。

さて、電力抽出器１１２およびピッチ抽出器１０８はそ
れぞれ、公知の手法により量子化音声信号から基本分析
フレームごとの短時間平均音声電力とピッチ情報を柚圧
し、これら音声電力とピッチ情報も多重化器１１１に供
給される。

多重化器１１１は、こうして提供される代表フレーム数
とそのフレームナンバー、無音区間ナンバーならびにＬ
ＰＣ係数、および音声電力とピッチ情報に関するデータ
を量子化し、適宜組み合せて多重化データとして伝送路
３を介して合成側２に伝送する。

こうして、伝送フレームあたり２０個の基本分析フレー
ムを４個か５個もしくは６個の代表フレームで表現して
合成側２に送出する可変長フレーム合成が行なわれる。

さて、合成側２は、伝送路３を介して受けた多重化情報
を多重化分離器２０１で多重化分離し、代表フレーム数
とＬＰＣ係数はＬＰＣパラメータ復号化器２０２１代表
フレームナンバーと無音区間ナンバーはＬＰＣパラメー
タ補間器２０５．音声電力は可変利得増幅器２０８．ピ
ッチ情報はピッチ発生器２０３にそれぞれ供給する。

ＬＰＣパラメータ復号器２０２は、代表フレーム数によ
ってＬＰＣ係数の復号化におけるビット数を決定してＬ
ＰＣパラメータを正しく復号化してＬＰＣパラメータ補
間器２０５に供給する。

ＬＰＣパラメータ補間器２０５は、代表フレームナンバ
ーとその復号化ＬＰＣパラメータにもとづいて代表フレ
ームナンバー以外のＬＰＣパラメータを線形補間によっ
て得又、無音区間に関しては、無音用ＬＰＣ係数を生成
し、これをディジタルフィルタ構成のＬＰＣ合成フィル
タ２０７のフィルタ係数として供給する。

ピッチ情報を提供されたピッチ発生器２０３は、ピッチ
情報に対応した繰返しのパルス列を発生し、これを切替
器２０５を介して可変利得増幅器２０８に供給する。

可変利得増幅器２０８は、音声電力に対応した可変利得
でピッチ発生器３の出力を増幅し、音源情報としてＬＰ
Ｃ合成フィルタ２０７の入力としてＬＰＣ合成フィルタ
２０７を駆動し、ティジタル音声を得、これを内蔵Ｄ−
Ａのコンバータでアナログ化したのちＢＰＦて所定の帯
域制限を行なったのち出力音声として送出する。

雑音発生器２０６は、ピッチ発生器２０３の出力を供給
されつつ、これが零のときは無音、無音状態と判断して
ランダム雑音出力をピッチ情報に代えて出力するように
切替器２０４を動作させる。

こうして、伝送量を大幅に抑圧し、しかも再生音声の劣
化を著しく抑圧しうる音声分析合成が実施できる。

〔発明の効果〕

以上説明したように本発明は、伝送フレームの含む全基
本分析フレームを複数個の代表分析フレームで表現する
可変長フレームで伝送することにより、伝送量を著しく
抑圧し、かつ変化が速く時間歪量の大きい音声において
も、又有音、無音が混在する伝送フレーム内においても
安定した明瞭度の良い高品質音声が再生できるという効
果がある。

【図面の簡単な説明】

第１図は本発明の一実施例の構成を示すブロック図であ
る。１・・・・・・分析側、２・・・・・・合成側、３・・
・・・・伝送路、１０１・・・・・・ＬＰＣ分析器、１
０２・・・・・・代表フレーム候補選択器（１）、１０
３・・・・・・代表フレーム候補選択器（２）、１０４
・・・・・・代表フレーム候補選択器（３）、１０５・
・・・・・最小歪量計測器（１）、１０６・・・・・・
最小歪量計測器（２）、１０７・・・・・・最小歪量計
測器（３）、１０８・・・・・・ピッチ抽圧器、１０９
・・・・・・最適歪量判定器、１１０・・・・・・ＬＰ
Ｃパラメータ編集器、１１１・・・・・・多重化器、２
０１・・・・・・多重化分離器、２０２・・・・・ＬＰ
Ｃパラメータ復号器、２０３・・・・・・ピッチＪｉｌ
器、２０４・・・・・・切替器、２０５・・・・・・Ｌ
ＰＣパラメータ補間器、２０６・・・・・・雑音発生器
、２０７・・・・・・ＬＰＣ合成フィルタ、２０８・・
・・・・可変利得増幅器。代理人　弁理士　　内　原　　　晋

Claims

【特許請求の範囲】入力音声信号を伝送フレーム単位かつ所定のｌ個の分析
フレームごとに分析して所定の次数のＬＰＣ（Ｌｉｎｅ
ａｒ　Ｐｒｅｄｉｃｔｉｏｎ　Ｃｏｄｉｎｇ）線形予測
分析）係数と音源情報とを抽出する特徴パラメータ抽出
手段と、前記ｌ個の分析フレームを音源情報により、有音区間と
無音区間に分離する手段と、前記ｌ個の分析フレームの中のｎ個の有音区間から互い
に異る個数のｍ個の分析フレームの組合せを前記ｎ個の
分析フレームを代表して表現する代表分析フレーム候補
として選択する代表フレーム候補選択手段と、前記代表フレーム候補選択手段によって選択される代表
分析フレーム候補におけるＬＰＣ係数に対して内挿およ
び外挿による補間を実施し、ｎ個の分析フレームを有す
るｍ個の補間ＬＰＣ係数列を得たうえ、前記ｍ個の補間
ＬＰＣ係数列と前記特徴パラメータ抽出手段によって抽
出したｎ個の分析フレームのＬＰＣ係数列との差を歪量
として計測し前記歪量が最小となるｍ個の最小歪量を得
る最小歪量計測手段と、前記最小歪量計測手段によって得られたｍ個の最小歪量
から合成音声とデータ伝送量とを勘案して設定する最適
な最小歪量を有する補間ＬＰＣ係数列を形成する代表分
析フレーム候補を代表分析フレームとして判定し、この
代表分析フレームの個数ならびにナンバーをもって前記
ｎ個の分析フレームを可変長フレームとして表現する代
表フレーム判定手段と、前記代表分析フレームの個数ならびにナンバーを前記音
源情報とともに分析側から合成側に音声分析情報として
送出する分析情報送出手段と、前記音声分析情報にもと
づいて入力音声信号の合成を行なう音声合成手段と、を備えて成ることを特徴とする音声分析合成装置。