JPH0480400B2

JPH0480400B2 -

Info

Publication number: JPH0480400B2
Application number: JP57071987A
Authority: JP
Inventors: Katsunobu Fushikida
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1982-04-28
Filing date: 1982-04-28
Publication date: 1992-12-18
Also published as: JPS58188000A

Description

【発明の詳細な説明】本発明は音声認識合成装置に関する。

従来、音声波形からホルマントパラメータ等の
音声の周波数スペクトル包絡パラメータを抽出し
対応する音韻の認識を行なう方式が知られてい
る。また、あらかじめ音韻等に対応するスペクト
ル包絡パラメータを複数個用意しておき、分析側
で前記入力音声より音韻データを抽出し、合成側
では前記音韻データに従つて対応するスペクトル
包絡パラメータを引き出して音声を合成する型の
言わゆるパターンマツチング型の音声分析合成方
式が知られている。しかしながら、前記のパター
ンマツチング型の分析合成方式は非常に高い音声
情報の圧縮が行なえるがスペクトル包絡の近似が
非常に粗いものとなるため音質の劣化が大きいと
いう欠点があつた。

本発明の目的は音声情報の圧縮率が高く入力音
声に対するスペクトル包絡特性の近似が比較的良
く高品質な合成音声を得ることが可能な音声認識
合成装置を提供することにある。

本発明は、音声の特徴パラメータを用いて音声
を認識し、認識後得られる音韻データを用いて音
声を合成する音声認識合成装置において、音韻の
変化に対応した特徴パラメータの予測係数を記憶
する予測係数メモリと、前記予測係数を用いて、
入力音声の特徴パラメータ値列を逆フイルタリン
グして予測誤差を算出する逆フイルタ回路と、前
記予測誤差を比較して予測係数を選択し、該選択
された予測係数に対応する音韻変化データと、該
音韻変化データに対応する予測誤差とを出力する
残差パワー比較回路と、前記出力された音韻変化
データに対応する予測係数を前記予測係数メモリ
から読みだし、該予測係数と前記出力された予測
誤差とから特徴パラメータ値列を生成する復号回
路と、前記特徴パラメータ値列から音声を合成す
る音声合成回路とを有することを特徴とする。

本発明の特徴は、まず分析部において、ホルマ
ントパラメータ等の音声の周波数スペクトル包絡
を表わす音声の特徴パラメータをあらかじめ用意
される音韻変化に対応した、前記特徴パラメータ
の予測係数を用いて逆フイルタリングした結果得
られる予測残差（誤差）を比較することにより最
適な音韻変化を検出（認識）し、次に、合成部に
おいて、前記音韻変化データと予測残差情報を用
いてスペクトル包絡パラメータを再生して音声波
形を合成することにある。ここでは説明の簡単の
ためにスペクトル包絡パラメータとしてホルマン
トパラメータを用いて説明する。

音韻変化としては、例えば音韻／Ｋ／から音
韻／ａ／への変化あるいは音韻／ｅ／から音韻／
ｓ／への変化等がある。また、これらの音韻変化
に対応したホルマントパラメータ値に対する予測
係数は、例えば自然単音節波形等の音韻の変化部
分からホルマントパラメータを抽出して得られる
ホルマントパラメータの時間変化（Ｆ（ｔ））波形
の自己相関係数を算出し連立一次方程式を解くこ
とにより予測係数を求める周知の方式により算出
できることは明らかである。

また、前記予測係数（β_k）により入力音声の該
分析区間において得られたホルマントパラメータ
（_i（ｎ），ｉ＝１，２，……Ｉ、ここでＩはホル
マントの個数、ｎは分析フレーム番号）を逆フイ
ルタリングし予測残差g_i（ｎ）を求めるためには
例えば次の(1)式を計算すれば良い。

g_i（ｎ）＝_i（ｎ）−_K 〓^k=1 β_k _i（ｎ−ｋ） ……(1) ここで、ｋは予測係数の次数を表わす。

最適な音韻変化データを選択するためには例えば
(2)式により各ホルマントの予測残差g_i（ｎ）の二
乗和の加重平均値を評価評数Ｇとして求め、最小
のＧを与える予測係数に対応する音韻変化データ
を選択することにより行なうことができる。

Ｇ＝_N 〓ⁿ⁼¹ w_iI 〓ⁱ⁼¹ g_i（ｎ） ……(2) 合成部においては、前記の最適な音韻変化デー
タおよび最適な音韻変化に対応する予測残差
（（g_i（ｎ））情報を用いてホルマントパラメータ値
を再生することができる。この際、予測残差
（（g_i（ｎ））は原ホルマントパラメータ値を符号化
する従来の符号化方式に比べて非常に少ない情報
量で符号化しても十分であり情報量の低減ができ
ることは明らかである。

また、本発明は単音節等に対して特徴パラメー
タ値（特徴ベクトル値の時間系列）をあらかじめ
用意しておき、入力音声の特徴ベクトル値とのマ
ツチングを行なうことにより最適な音韻情報を抽
出する方式に比較して処理が簡単で、あらかじめ
用意すべき音韻変化（単位音声）に対応する特徴
パラメータの変化を表わすデータ（言わゆる標準
パターン）のメモリ量を低減することができる。
例えば、ホルマントの予測係数の次数（）とし
ては２次程度あれば十分であるが、ホルマントの
時系列パターンを用意しておく場合は50msec以
上必要であり、フレーム周期を10msecとしても
５フレーム以上、必要となる。

次に図面を用いて本発明を詳細に説明する。

図は本発明の音声認識合成装置の一実施例を示
すブロツク図である。

まず音声波形が音声波形入力端子１を介してホ
ルマント抽出回路２および音源データ抽出回路９
に入力される。ホルマント抽出回路２は、前記音
声波形からホルマントパラメータ値を抽出し逆フ
イルタ回路５に出力する。ホルマントパラメータ
値の抽出方式については例えば下記資料に詳しい
のでここでは説明を省略する。

特願昭56−037264号明細書「極零パラメータ値抽出装置」次に、制御回路４は予測係数メモリＡ３に音韻
変化データを出力し予測係数メモリＡ３から、逆
フイルタ回路５に前記音韻変化データに対応する
予測係数値を出力させる。逆フイルタ回路５は前
記予測係数値を用いて、前記ホルマントパラメー
タ値の逆フイルタリングを行ない予測残差データ
（前記(1)式のg_i（ｎ）に対応）を残差パワー比較回
路６に出力する。残差パワー比較回路６は前記制
御回路４から出力される制御信号に従つて制御さ
れ複数種類の前記音韻変化データに対応して算出
される予測残差データのパワー値（前記(2)式のＧ
に対応）を算出および比較し最小のパワー値を与
える最適な音韻変化データを音韻変化データ伝送
路７に出力するとともに前記最適な音韻変化デー
タに対応する予測残差データを予測残差データ伝
送路８に出力する。

一方、音源データ抽出回路９は、前記音声波形
のピツチ周期の検出、有声無声の判別および平均
振巾データの算出を行ないピツチ周期データ、有
声無声データ、振巾データを音源データ伝送路１
０に出力する。

次に、音韻変化データ伝送路７を介して、予測
係数メモリＢ１１に入力される前記音韻変化デー
タと予測残差データ伝送路８を介してホルマント
復号回路１２に入力される前記予測残差データと
音源データ伝送路１０を介して音源波形生成回路
１３に入力される前記ピツチ周期データ、有声無
声データおよび振巾データを用いて音声波形の合
成が行なわれる。予測係数メモリＢ１１は前記音
韻変化データに従つて該予測係数をホルマント復
号回路１２に出力する。ホルマント復号回路１２
は前記予測係数および前記予測残差データに従つ
て新たなホルマントパラメータ値を生成しホルマ
ント型音声合成回路１４に出力する。また、音源
波形生成回路１３は前記ピツチ周期データ、有声
無声データおよび振巾データに従つて音源波形を
生成しホルマント型音声合成回路１４に出力す
る。ホルマント型音声合成回路１４は前記新たな
ホルマントパラメータ値および前記音源波形に従
つて合成波形を生成し合成音声出力端子１５を介
して出力する。ここでは、音声を伝送する場合を
例に説明を行つたが、本発明は音声を蓄積する場
合にも有効である。蓄積を行う場合の構成では、
音韻変化データ伝送路７、予測残差データ伝送路
８、音源データ伝送路１０が、それぞれのデータ
を記憶するメモリーに置き換えられる。さらに、
送信側の予測係数メモリＡ３と受信側の予測係数
メモリＢ１１とは同じものであるので、どちらか
一方があれば十分である。

以上の説明においては、説明の簡単のためにホ
ルマント周波数のみに対して予測を行ない、予測
残差情報を用いるものとしたが、ホルマントのバ
ンド巾、ピツチデータ、音源振巾データ等に対し
てもあらかじめ有限個の予測係数を用意してお
き、予測残差を算出した後、該予測係数の番号と
該予測残差データを用いる方式をも併用すること
によつても同様の効果が得られることは明らかで
ある。前記の実施例においては音声の特徴パラメ
ータとしてホルマントパラメータ値を用いて説明
したがホルマントパラメータ値としてはホルマン
ト周波数値を用いても良いが話者間の相違を減ら
すためにホルマント周波数の比（例えば第１ホル
マント周波数と第２ホルマント周波数の比）等の
特徴パラメータ値を用いても同様の効果が得られ
ることは明らかである。

本発明により高圧縮な音声情報においてもその
スペクトラム包絡の近似が滑らかに行なわれるた
めに高品質の合成音声が得られその効果は多大な
ものである。

【図面の簡単な説明】

図は本発明の実施例を示すブロツク図である。図において、１は音声波形入力端子、２はホル
マント抽出回路、３は予測係数メモリＡ、４は制
御回路、５は逆フイルタ回路、６は残差パワー比
較回路、７は音韻変化データ伝送路、８は予測残
差データ伝送路、９は音源データ抽出回路、１０
は音源データ伝送路、１１は予測係数メモリＢ、
１２はホルマント復号回路、１３は音源波形生成
回路、１４はホルマント型音声合成回路、１５は
合成音声出力端子である。

Claims

【特許請求の範囲】１音声の特徴パラメータを用いて音声を認識し
て得られる音韻データを用いて音声を合成する音
声認識合成装置において、音韻の変化に対応した特徴パラメータの予測係
数を記憶する予測係数メモリと、前記予測係数を用いて、入力音声の特徴パラメ
ータ値列を逆フイルタリングして予測誤差を算出
する逆フイルタ回路と、前記予測誤差を比較して予測係数を選択し、該
選択された予測係数に対応する音韻変化データ
と、該音韻変化データに対応する予測誤差とを出力
する残差パワー比較回路と、前記出力された音韻変化データに対応する予測
係数を前記予測係数メモリから読みだし、該予測
係数と前記出力された予測誤差とから特徴パラメ
ータ値列を生成する復号回路と、前記特徴パラメータ値列から音声を合成する音
声合成回路とを有することを特徴とする音声認識
合成装置。