JPH0223880B2

JPH0223880B2 -

Info

Publication number: JPH0223880B2
Application number: JP55145081A
Authority: JP
Inventors: Tadashi Saito; Akihiro Asada; Gichu Oota
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1980-10-18
Filing date: 1980-10-18
Publication date: 1990-05-25
Also published as: JPS5768899A

Description

【発明の詳細な説明】この発明は、音声合成用の特徴パラメータを音
声信号から抽出し、抽出された該パラメータから
元の音声信号を合成する音声分析・合成装置に関
するものである。

近年、半導体技術の進歩と、音声処理技術の発
達により、音声合成装置が、産業用から民生用ま
での幅広い用途で用いられるようになつた。音声
合成の方式としては、ボコーダ方式やターミナル
アナログ方式などの各種の方式が開発されてきて
いるが、現在では音声合成に必要な情報量が少な
くてすむという点と、高品質の合成音が得られる
という点から、偏自己相関係数（以後PARCOR
係数と称す）を用いるPARCOR方式が主流とな
りつつある。

PARCOR方式は、音声研究分野ではよく知ら
れた方式であるからその詳しい説明は省略する
が、PARCOR方式による分析・合成システムの
従来例の概要を、第１図に示すブロツク図に従つ
て簡単に説明する。同図を参照する。

マイクロフオン１は、話者が発声した音声を電
気的な音声信号に変換する。Ａ／Ｄ変換装置２
は、入力された音声信号を、アナログ量からデイ
ジタル量へ変換する。音声分析装置３は、音声信
号から音声を特徴づけている特徴パラメータの抽
出を行ない、さらに音声合成作用データに符号化
するものであり、実際には汎用の計算機が用いら
れている。音声合成専用ROM４は、音声合成用
データを記憶するためのROMである。音声合成
LSI５は、音声合成専用ROM４から音声合成用
のデータを読み出し、音声を合成するLSI（大規
集積回路）である。スピーカ６は音声合成LSI５
で合成された電気的な音声信号を、実際の音声に
変換する。音声合成制御回路７は、音声合成LSI
の動作を制御する回路であり、マイクロコンピユ
ータなどが用いられる。

話者が発声した音声波形は、マイクロフオン
１、Ａ／Ｄ変換装置２によつてデイジタル量に変
換されて音声分析装置３に入力される。音声分析
装置３は、入力された音声信号を一定間隔のフレ
ーム、例えば10ｍsecあるいは20ｍsecのフレーム
に分割し、各フレーム内の音声信号の統計的処理
を行ない、特徴パラメータ（PARCOR方式の場
合、PARCOR係数、ピツチ周波数、音量情報、
有声音／無声音情報等である）を抽出する。音声
分析装置３では、さらに抽出した特徴パラメータ
を、音声合成LSI５のデータフオーマツトに一致
する形に符号化する。１フレームの特徴パラメー
タは、例えば48ビツトのデータに符号化される。
ただし、無音時には６ビツトのデータになる。符
号化された各フレームごとの合成用の特徴パラメ
ータは、時系列的に音声合成専用ROM４に書込
まれる。音声を合成する場合には、音声合成LSI
５が、10ｍsecあるいは20ｍsecのフレーム間隔ご
とに、音声合成専用ROM４から合成用データを
読出し、音声を合成する。音声合成専用ROM４
には特徴パラメータが時系列的に書込まれている
ので、音声合成LSI５によつて１フレームごとに
合成される音声は、全体としていくつかのフレー
ムの音声が継ぎ合わされたものとなり、元の音声
と同じものとなる。音声合成制御回路７は、音声
合成の開始、停止などの命令を音声合成LSI５に
伝えるためのものである。

元の音声波形から、特徴パラメータを抽出し符
号化する操作を音声分析、符号化された特徴パラ
メータから、音声信号を再構成する操作を音声合
成と呼んでいる。音声分析は、通常汎用計算機を
用いて行なわれており、音声合成を行なう前にあ
らかじめ完了している。しかし、音声分析を行な
うと、音声信号を再現するために必要なデータ量
を大幅に削減できるという利点があることから、
音声分析を行ないデータ圧縮された特徴パラメー
タだけを転送し、その特徴パラメータから音声合
成によつて音声を再現するという新しい方式のデ
イジタル電話や、磁気テープのかわりに半導体メ
モリにデータ圧縮された特徴パラメータを記録
し、再生時には音声合成によつて特徴パラメータ
から音声を再現する半導体レコーダなどにも音声
分析・音声合成システムが応用されようとしてい
る。この場合、音声信号が入力された瞬間に、実
時間で音声分析を行なつて特徴パラメータを抽出
し、同時に実時間で音声合成を行なうことが要求
される。

第２図に、実時間で音声の分析・合成を行なう
従来システムの概要をブロツク図で示す。同図で
は、入力された音声信号から音声分析装置３で抽
出された特徴パラメータは、直接音声合成LSI５
に送られ、音声が合成される。第３図に、実時間
で音声の分析を行ない、抽出された特徴パラメー
タだけを通信回線を使つて遠隔地へ伝送し、そし
て音声の合成を行なうシステムの概要を同じくブ
ロツク図で示す。同図では、抽出された特徴パラ
メータは、モデム８，９により通信回線１０を通
して伝送され、音声合成LSI５に送られる。

音声の分析、合成は、音声信号をフレームに分
割して行なつているので、実時間で分析・合成を
行なう場合には、分析装置と合成装置とのフレー
ムの同期をとる必要がある。ところが、合成装置
は音声合成LSIを用いて構成されることが多く、
そのフレーム長を微調整することは一般には困難
である。また、音声の分析・合成を実時間で行な
つているので、タイミング合せのために、音声の
分析・合成を一時的に休止させることは、音質の
著しい劣化を招くという重大な欠点がある。

この発明の目的は、上記した音声分析・合成シ
ステムの実時間動作時に生じる技術的困難を克服
し、音質のの劣化がほとんどなく、また音声合成
装置と音声合成装置とのフレームの同期を容易に
行なうことが可能な音声分析・合成装置を提供す
ることにある。

この発明の要点は、音声分析装置と音声合成装
置をそれぞれ独自のフレーム周期で動作させ、音
声分析装置の出力部に２つのレジスタをもうける
ことにより音声合成装置が合成用のデータを要求
したときに、その時点での最新の分析結果を、音
声分析装置が常に出力可能となるように構成した
点にある。

第４図は、この発明の一実施例を示すブロツク
図である。同図において、音声分析装置３では、
出力部に２つのレジスタ、すなわちＡレジスタ１
１とＢレジスタ１２を持つており、音声合成LSI
５からのデータ要求信号Ｃとデータ要求タイミン
グ信号Ｂに応じて、符号化された特徴パラメータ
を端子Ａから出力する。

Ａレジスタ１１は、シリアル入力、パラレル出
力の例えば48ビツトのレジスタであり、音声分析
回路１７からシリアルに送られてくる符号化され
た特徴パラメータを記憶する。Ｂレジスタ１２
は、パラレル／シリアル入力シリアル出力の例え
ば48ビツトのレジスタであり、音声合成LSI５の
データ要求タイミング信号Ｂに応じて、符号化さ
れた48ビツトの特徴パラメータを出力バツフア１
３を通して出力する。Ｂレジスタ１２は、巡回形
となつており、48ビツト分のデータを出力すると
Ｂレジスタの内容は一巡し、データは保存され
る。RSフリツプフロツプ１４、インバータ１５、
NORゲート１６で形成される論理回路は、Ａレ
ジスタ１１の記憶内容を、Ｂレジスタ１２へ転送
する信号Ｇを作るためのタイミング回路である。
音声分析回路１７では、音声信号から抽出し、符
号化した特徴パラメータＤと、１フレーム分の特
徴パラメータがＡレジスタ１１に格納されたこと
を示す信号Ｅを出力する。音声合成LSI５は、１
フレームに１回、データ要求信号Ｃとデータ要求
タイミング信号Ｂを出力し、符号化された特徴パ
ラメータをＢレジスタ１２からバツフア１３を介
して読み込んで音声を合成し、スピーカ６から出
力する。

第５図は第４図における各部信号のタイミング
チヤートであるが、同図に示すように、データ要
求信号Ｃがハイレベルになつている時に、データ
要求タイミング信号Ｂとして48個（ただし無音の
場合には６個）のパルスが音声合成LSI５から音
声分析装置３へ送られ、48ビツトの符号化データ
がＢレジスタ１２から音声合成LSI５へ転送され
る。

１フレーム分の音声分析が終了し、１フレーム
分の48ビツトのデータが、Ａレジスタ１１に格納
されると、音声分析回路１７から信号Ｅが出力さ
れてRSフリツプフロツプ１４がセツトされる。
この時、データ要求信号Ｃがローレベルならば、
NORゲート１６からＡレジスタ１１のデータを
Ｂレジスタ１２へ転送する信号Ｇが出力され、
RSフリツプフロツプもリセツトされる。音声分
析装置３から音声合成LSI５へのデータの転送が
すでに始まつている場合には、データ要求信号Ｃ
がハイレベルとなつており、RSフリツプフロツ
プ１４がセツトされても、転送信号Ｇは出力され
ない。データ要求信号Ｃがローレベルになつた時
に転送信号Ｇが出力され、Ｂレジスタ１２に最近
の特徴パラメータがＡレジスタ１１から転送さ
れ、RSフリツプフロツプ１４もリセツトされる。
Ａレジスタ１１に符号化データが確定している時
間は、データ要求信号Ｃよりも長くなることが保
証されている。

合成装置５のフレームが、分析装置３のフレー
ムよりも短い場合には、第６図のタイミング図に
示すように、同じデータが、音声合成用に２回用
いられることになり、結果的に同じ音声が２フレ
ーム続く。Ｂレジスタ１２は巡回形となつている
ので、何回データを読み出しても、一巡後は常に
同じデータが出力される。ただし、無音時には、
符号化データの先頭の６ビツトがすべて０となつ
ており、音声合成LSI５はこの無音符号を検出す
ると自動的にデータ要求タイミング信号Ｂの出力
を停止する。したがつて６ビツト分しかＢレジス
タ１２から読み出されない。しかし、無音時には
すべての符号化データを０としてあるので、結果
的にデータは保存される。

逆に合成装置５のフレームが、分析装置３のフ
レームよりも長い場合には、第７図のタイミング
図に示すように、分析された符号化データの中の
いくつかのフレームのデータが、まびかれて合成
に用いられなくなる。いずれの場合においても、
音声の分析・合成は間断なく行なわれるので、分
析・合成された音声の品質はほとんど劣化しな
い。例えば分析装置と合成装置のフレームが、１
％ずれていたとしても、100フレームに１回、１
フレームの音声が２フレーム分に長くのびたり、
あるいは１フレーム分の音声が欠落するだけであ
り、音質の変化はほとんど生じない。

第４図の実施例では、Ａレジスタ１１に符号化
された特徴パラメータが格納されたことを示す信
号Ｅと、合成装置５のデータ要求信号Ｃとから、
Ｂレジスタ１２への転送信号Ｇを作りだしている
が、Ａレジスタ１１からＢレジスタ１２への転送
は、(i)特徴パラメータの符号化を行なつている途
中であり、Ａレジスタ１１の内容が確定していな
い状態、(ii)音声合成装置５によつてＢレジスタ１
２の内容が読み出されている状態、の２つの状態
以外であれば良く、第４図の実施例以外にも多く
の方法がある。

また、第４図の実施例では、第２図に示す音声
分析装置と音声合成装置が直接接続されているシ
ステムについて述べているが、第３図に示すよう
なシステムにおいては、音声分析装置とモデムあ
るいはモデムと音声合成装置の間のいずれか、あ
るいは双方に、第４図に示すこの発明を実施すれ
ば良い。

以上述べたように、この発明によれば、音声分
析装置と音声合成装置との間のフレーム同期をと
る必要がなくなり、音声分析・合成システム、特
にデイジタル電話等の構成が大幅に簡単になり、
コストの削減ができるという利点がある。

【図面の簡単な説明】

第１図は、音声分析・合成システムの従来例を
示すブロツク図、第２図および第３図は、それぞ
れ実時間で音声の分析・合成を行なう従来のシス
テムの概要を示すブロツク図、第４図は、この発
明の一実施例を示すブロツク図、第５図は、第４
図における各部信号のタイミングチヤート、第６
図は、音声合成装置のフレームが分析装置のフレ
ームよりも短い場合の第４図における各部信号の
タイミングチヤート、第７図は、同じく長い場合
の同様な各部信号のタイミングチヤート、であ
る。符号説明、１……マイクロフオン、２……Ａ／
Ｄ変換装置、３……音声分析装置、４……音声合
成専用ROM、５……音声合成LSI、６……スピ
ーカ、７……音声合成制御回路、８，９……モデ
ム、１０……通信回線、１１……Ａレジスタ、１
２……Ｂレジスタ、１３……出力バツフア、１４
……RSフリツプフロツプ、１５……インバータ、
１６……NORゲート、１７……音成分析回路。

Claims

【特許請求の範囲】１音声信号をある時間間隔をもつフレームに分
割し、前記各フレームの音声信号の特徴を表す特
徴パラメータを該音声信号から抽出する音声分析
装置と、前記特徴パラメータを用いて元の音声信
号を再構成する音声合成装置とを有して成る音声
分析・合成装置において、 (イ) 前記音声分析装置によつて抽出された特徴パ
ラメータを記憶しておく第１のレジスタと、 (ロ) 前記第１のレジスタの出力と自分自身の出力
とを入力とする巡回形の第２のレジスタと、 (ハ) 前記第１のレジスタに前記特徴パラメータが
格納されており、かつ音声合成装置が前記特徴
パラメータ要求信号を出力していない時に、前
記第１のレジスタから第２のレジスタへの特徴
パラメータの転送を実行させるデータ転送信号
を出力し、音声合成装置が前記特徴パラメータ
要求信号を出力しているとき、前記第２のレジ
スタから音声合成装置への特徴パラメータの転
送を実行させる制御信号を出力するタイミング
回路と、を具備したことを特徴とする音声分析・合成装
置。