JPH0244079B2

JPH0244079B2 -

Info

Publication number: JPH0244079B2
Application number: JP58181169A
Authority: JP
Inventors: Takayuki Ooyama
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-09-29
Filing date: 1983-09-29
Publication date: 1990-10-02
Also published as: JPS6073590A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、入力音声から周波数スペクトル包絡
と音源パラメータとを抽出する音声分析装置にお
いて、時間的に異なるタイミングで音声分析を行
う複数の音声分析部を備え、複数のパラメータ時
系列を抽出する音声分析装置に関するものであ
る。

〔従来技術と問題点〕

一般に、入力音声からパラメータを抽出する音
声分析装置として、まずアナログの音声信号をデ
イジタルの音声信号に変換し、しかる後、音声周
波数スペクトルを表わすパラメータと音源を表わ
すパラメータとを抽出する装置があり、このよう
なパラメータを抽出する方式は、PARCORや
LSPと呼ばれる方式としても知られている。周波
数ペクトルの包絡は音声の音色、特徴を決めるも
のであり、音源パラメータは音の強弱、高低を決
めるものである。

従来の音声分析装置では、一定の周期でフレー
ム分析を行うため、フレーム位置による分析エラ
ーが少なくない。従つて、このような分析エラー
は、発声を複数回行うか、オペレータによる手直
しを行うかによりこれに対処していた。

合成音を出力するため、そのパラメータを音声
分析装置を使つて得る場合、音声分析装置におけ
るフレーム位置に起因するような分析エラーがあ
ると、そのパラメータを使つた合成音の品質も悪
いものとなつてしまう。

〔発明の目的〕

本発明は、上記の考察に基づくものであつて、
１回の発声により得られる発声信号で分析エラー
のない良質のパラメータを得ることができる音声
分析装置を提供することを目的とするものであ
る。

〔発明の構成〕

そのために本発明の音声分析装置は、入力音声
から周波数スペクトル包絡と音源パラメータを抽
出する複数の音声分析部、及び上記複数の音声分
析部の夫々に対して時間的に異なるタイミング信
号を供給して異なるタイミングで音声分析を行う
ように制御する制御部を具備し、１つの入力音声
から分析結果として複数のパラメータ時系列を得
るように構成されたことを特徴とするものであ
り、さらには、上記複数の音声分析部対応に抽出
されたパラメータ時系列から合成音を生成する複
数の音声合成部、上記複数の音声分析部に供給さ
れる入力音声と上記複数の音声合成部の夫々で生
成された合成音との類似度を計算する複数の類似
度計算部、及び上記複数の類似度計算部で計算さ
れた類似度をもとに最も音声信号に類似した合成
音を生成するパラメータ時系列を分析結果として
選択する選択部を具備することを特徴とするもの
である。

〔発明の実施例〕

以下、本発明の実施例を図面を参照しつつ説明
する。

第１図は本発明の１実施例構成を示す図、第２
図は第１図に示す本発明の１実施例の応用例を示
す図、第３図は第１図に示す本発明の１実施例の
他の応用例を示す図である。図において、１は前
処理部、２−１ないし２−ｎは分析部、３は制御
部、４−１ないし４−ｎは合成部、５−１ないし
５−ｎは類似度計算部、６は選択部、７は音声分
割部を示す。

第１図において、前処理部１は、入力されたア
ナログの音声信号をデイジタルの音声信号に変換
したり、高音域を強調するような処理を施した
り、所謂入力された音声信号に対して前処理を施
すものである。分析部２−１ないし２−ｎは、
夫々時間的に異なるタイミングで周波数スペクト
ル包絡や音源パラメータを抽出し分析するもので
あり、制御部３は、分析部２−１ないし２−ｎに
夫々時間的に異なるタイミング信号を供給して分
析部２−１ないし２−ｎの動作を制御するもので
ある。以上のような構成により、１回の発声によ
る音声信号に対して複数の分析部２−１ないし２
−ｎから異なつたフレーム位置の分析結果である
複数のパラメータ時系列を抽出することができ
る。従つて、これらの複数のパラメータ時系列を
使つて試聴・比較を行い、その中からよりよいパ
ラメータを選択することができる。

本発明の応用例を示したのが第２図である。第
２図において、合成部４−１ないし４−ｎは、
夫々分析部２−１ないし２−ｎにより得られたパ
ラメータ時系列を合成し、合成音を生成するもの
であり、類似度計算部５−１ないし５−ｎは、こ
の合成音と分析部２−１ないし２−ｎに供給され
る入力音声との類似度計算を行うものである。類
似度の尺度としては、スペクトル歪やケプストラ
ム距離等の方式が使用できる。選択部６は、類似
度計算部５−１ないし５−ｎによつて計算された
類似度をもとに最も原音（入力音声）に類似した
合成音を生成するパラメータ時系列を分析結果と
して選択するものである。このような構成により
フレーム位置に起因する分析エラーを除去し、よ
り品質の良い合成音を出力するためのパラメータ
を得ることができる。

さらに、本発明の他の応用例を示したのが第３
図である。第３図において、音声分割部７は、音
声区間を分割するものであり、ここで分割された
音声区間毎に、選択部６は、類似度計算部５−１
ないし５−ｎにより評価された複数の合成音のう
ち最も原音に類似した合成音を生成するパラメー
タ時系列を分析結果として選択する。音声区間の
分割は、無音の状態が一定長続いたことにより入
力音声を複数の音声区間に分解したり、或いは得
られたパラメータの変動量が一定値以下の区間の
存在により入力音声を複数の音声区間に分解した
りする方式を採用することができる。前者の一定
長の無音により分解する方式は、音声の区切りで
分解されるのに対し、後者のパラメータの変動量
が一定値以下の区間の存在により分解する方式
は、音声の母音の中間で分割される。音声の母音
の中間は安定しているので、この部分で音声区間
を分割し、最も原音に類似した合成音を生成する
パラメータ時系列を選択し、継ぎ合わせるもので
ある。なお、パラメータの変動量が一定値以下の
区間の存在を検出する場合の音声分割部７の入力
は、第３図における前処理部１の出力よりもむし
ろ分析部２−１ないし２−ｎの出力が供給される
方がよい。

〔発明の効果〕

以上の説明から明らかなように、本発明によれ
ば、１回の発声による入力音声から複数の音声分
析部で異なつたフレーム位置のパラメータ時系列
を得、それらのパラメータを選択し得るようにし
たので、フレーム位置に起因する分析エラーや局
所的エラーを除去し、より品質の良い合成音を出
力するためのパラメータを容易に得ることができ
る。

【図面の簡単な説明】

第１図は本発明の１実施例構成を示す図、第２
図は第１図に示す本発明の１実施例の応用例を示
す図、第３図は第１図に示す本発明の１実施例の
他の応用例を示す図である。１…前処理部、２−１ないし２−ｎ…分析部、
３…制御部、４−１ないし４−ｎ…合成部、５−
１ないし５−ｎ…類似度計算部、６…選択部、７
…音声分割部。

Claims

【特許請求の範囲】１入力音声から周波数スペクトル包絡と音源パ
ラメータを抽出する複数の音声分析部、及び上記
複数の音声分析部の夫々に対して時間的に異なる
タイミング信号を供給して異なるタイミングで音
声分析を行うように制御する制御部を具備し、１
つの入力音声から分析結果として複数のパラメー
タ時系列を得るように構成されたことを特徴とす
る音声分析装置。２入力音声から周波数スペクトル包絡と音源パ
ラメータを抽出する複数の音声分析部、上記複数
の音声分析部の夫々に対して時間的に異なるタイ
ミング信号を供給して異なるタイミングで音声分
析を行うよう制御する制御部、上記複数の音声分
析部対応に抽出されたパラメータ時系列から合成
音を生成する複数の音声合成部、上記複数の音声
分析部に供給される入力音声と上記複数の音声合
成部の夫々で生成された合成音との類似度を計算
する複数の類似度計算部、及び上記複数の類似度
計算部で計算された類似度をもとに最も入力音声
に類似した合成音を生成するパラメータ時系列を
分析結果として選択する選択部を具備することを
特徴とする音声分析装置。３特許請求の範囲第２項に記載された音声分析
装置において、入力音声を複数の音声区間に分割
する音声分割部を具備し、選択部は上記音声分割
部で分割された音声区間毎にパラメータ時系列を
選択するように構成されたことを特徴とする音声
分析装置。４特許請求の範囲第３項に記載された音声分析
装置において、音声分割部は、一定長の無音によ
り入力音声を複数の音声区間に分割するように構
成されたことを特徴とする音声分析装置。５特許請求の範囲第３項に記載された音声分析
装置において、音声分割部は、入力音声から抽出
されたパラメータの変動量が一定値以下の区間が
存在することにより、入力音声を複数の音声区間
に分割するように構成されたことを特徴とする音
声分析装置。