JPH06503186A

JPH06503186A - 音声合成方法

Info

Publication number: JPH06503186A
Application number: JP5500767A
Authority: JP
Inventors: グリ，クリステイアン
Original assignee: Thales Avionics SAS
Current assignee: Thales Avionics SAS
Priority date: 1991-06-18
Filing date: 1992-06-16
Publication date: 1994-04-07
Also published as: FR2678103A1; US5826232A; FR2678103B1; WO1992022890A1; EP0519802A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】音声合成方法本発明は音声合成方法に関する。

数々の音声合成応用分野の中には、対話形制御装置（車両制御、工業プロセス制御等）のように、簡単なメツセージ（切り離されたワード又は所定のフェーズ）の合成のみを必要とする分野がある。このような応用分野では、音声合成装置のコストをできるだけ抑えることがめられている。量産回路を使用し且つメツセージの記憶に必要なメモリ容量を小さくすることによって実質的なコストの削減が得られる。

このメモリ容量を小さくするために、従来技術では種々の型のコーディングを使用している。最も広範に使用されているコーディングの中では、離散的各瞬間において２進コードを信号の振幅に対応付けるタイムコーディングが知られており、更に正確に言えば、むしろ信号と信号の予測可能成分との差く差分コーディング）がメモリに記憶される。分析及び合成による音声のコーディングも行われる。

このコーディングでは、ごくｊかの有意パラメータのみが記憶される（“チャネルボコーダ又はパ線形予測ボコーダとして知られている装り。Ｍｆ＆に、前述した２つの方法を組み合わせることによって得られる方法：特にサブバンドコーディングにおける“適応型予測可能ボコーダ又は“音声励起ボコーダが知られている。

周波数領域でのコーディングであるサブバンドコーディングの場合、コーディングすべき信号のスペクトルは、（互いに等しいか又は異なる）幅Ｂヶを有する複数のサブバンドに分割される。（指数がｋの）各サブバンドは次に、シャノン周波数、即ち２Ｂ、で再度サンプリングされる。各サブバンドフィルタから出力される信号は周波数に応じて様々に量子化される。即ち、基音（ｆｏｎｄａｓｅｎｔａｌ　）及びフォルマントでは細かな量子化が、エネルギの低い領域では粗い量子化が行われる。信号を再１１１Ｉｒ！ｉ、するためには逆の操作が行われる。

記憶及び伝送の前に、信号は例えば、６４　ｋｂｉｔｓ／秒に正規化されたＰＣＭ　（パルスコード変調）コーディング法則に従ってコーディングされる（信号は３００〜３６００Ｈｚ帯域で８ビツト、８　ｋＨｚでサンプリングされ且つ対数法則に従って圧縮される）。３２　ｋｂｉｔｓ／秒（４ビツトで８ｋｆｌｚ　）の速度でのＡＤＰＣＭコーディング（適応型差分ＰＣＭ）か普及しつつある。

２つのサブバンドを有するコーディング装置１の理論的ダイヤグラムを第１図に示す、音声信号Ｘは（パルス応答ｈｌ、ｈ２を有する）２つのフィルタＦ１．Ｆ２によってｒ波される。Ｆｌ、Ｆ２の２つの出力サブバンドの各々は、それぞれ回路２゜３によって半分に間引かれ（ｄＩ！ｃ　ｉ＋＊ｅｅｐａｒ２）（２つのサンプルのうち１つが削除）、次に例えばＡ、　Ｄ　Ｐ　ＣＭでコーディングされ（４）、且つ記憶される（か又は伝送される）、読取り時（又は受信時）には、音声信号の再構成は、復号化（５，６）、及び２つの復号化されたサブバンド用の対応の分析及び加算バンド（９）の補間器と同一の補間器内でのＰ波（７，８）によって実施される。フ１ルダＦ１゜Ｆ２は線形位相ＦＩＲ（有限インパルス応答）−フィルタであり且つ以下の条件を満たしている。

ｈ：（ｎ＞　−（−１）’ｈｌ　（ｎ）：　Ｈ＋　（ｅ”＞　ｌ　”　ｌ　Ｈ２（ｅ”）　ｌ　２＃　１これらのフィルタのテンプレートを第２図に示す。

ナシバンドコーディングの原理は、フィルタバンクを介して音声信号をＰ波し、；欠にこれらめフィルタからの出力信号をサブサシプリングすることにある。受信時には、対応する分析帯域のフィルタと同一のフィルタによって補間された各復号化サブバンドの加算によって再構成が実施される。この型のコーディングはまず、分離しており且つ隣接する有限インパルス応答フィルタに基づいて行われた。

次にコーディングに、直交ミラーフィルタが使用されるようになり、それによって量子化エラーの発生しない状態で初期信号をほぼ完全に再構成することが可能になった。

音声信号を分解するフィルタを合成するには大別して２種類の方法がある。即ち、一最適化されたフィルタによって入力が２つの帯域に分割され、各帯域についてアルゴリズムが更新されるか、又は−帯域通過フィルタのテンプレートが周波数軸上を移動させられる。この場合、基本フィルタの応答はｈ（ｎ）、帯域幅はｎ／２Ｍ　（Ｍはサブバンドの数）である。移動によって、式：％式％）） ■は正規化された標本化半周波数である。サブサンプリング中におけるフィルタのエイリアシングの問題は、位相シフト余弦関数の位相項によって補償可能である。

チンプレー１・が第２図に示される半帯域フィルタは通常の線形フィルタであ− って、その変換間数はｆｅ／４（ｆｅ−・標本化周波数）において］、、、′２に等しく、且つこの点に対して非対称である。即ち、式。

Ｈ、［ｆ　ｅ　ｙ′４　＋　ｆ　］　＝　１−　Ｈ［ｆ　ｅ　／　４−ｆ　］が成り立つ。

偶数ｈ　（ｎ）はｈｏの堝きを除いて、ｎが偶数のときにゼロである。テンプレートは通過帯域及び遮断帯域でのり・・ｌプルと、遷移帯域幅と表すΔｆとによって定義される。所望のテンプレートの関数としてのフィルタの係数の数Ｎはく式中、δ−６１−δ２は通過帯域及び遮断帯域でのり・・／プル分示す）で表される。Ｐ半帯域フィルタを縦続させることにより、標本化周波数が高くなったり低くなったりする。

中間周波数ｆｉは比率２：　ｆｅ＝２ｐ−ｆ　ｉの標本化周波数の約数（ｓｏｕｓ−ｍｕｌｔｉｐｌｅ）である。

音声信号の多重分解能分析を実施し且つ本質的にディスクリートフィルタと°“ デシメーション”回路（２つのサンプルのうち１つを除去）とを含んでいる装置もある。小波（ｏｎｄｅｌｅｔｔｅｓ）への変換を使用するディジタル画像圧縮用高速アルゴリズムも知られている（“信号処理”ｖｏｌ、７．　ｎ・、２．１９９０）。しかしこのアルゴリズムは画像にのみ適している（ＨＦ成分のみが保持される）。

公知の装置はいずれもあまりにも初歩的なものであり、復元時に十分理解できる音声信号を得ることができないか又は複雑すぎて高価である。　本発明の目的は、音声信号をできるだけ簡単に合成することを可能とし且つ既存の安価な回路のみを使用する音声合成方法である。

本発明方法は、音声信号をディジタル化し、圧縮支持体（５ｕｐｐｏｒｔ　ｃｏｍｐａｃｔ　）を有する小波の直交成分（ｂａｓｅ　）にこのディジタル化信号を切断し、音声信号を表す係数を記憶し、復元時にＰ波、補間及び低周波増幅によって音声信号を再構成することにある。

添付図面に図示されている以下の非制限的実施例の詳細な説明により、本発明が更によく理解されるであろう。

−既に記述した第１図は公知のコーディングシステムのブロック図である。

一第２図は第１図のシステムで使用可能な半帯域フィルタのテンプレートである。

一第３図は本発明方法を使用する合成システムのブロック図である。

一第４図は第３図のシステムの分析装置のブロック図である。

一第５図は本発明の分解（ｂｒｅａｋｃｌｏｗｎ　）アルゴリズムを例示するダイヤグラムである。

一第６図は本発明の再構成アルゴリズムを例示するダイヤグラムである。

一第７図は本発明方法を使用する音声合成装置の簡略ブロック図である。

一第８図は本発明によって使用される尺度関数（ｆｏｎｃｔｉｏｎｄ’＆ｃｈｅｌｌｅ）及び小波のタイムチャートである。

−第９図は本発明方法を使用する合成装！のダイヤグラムである。

後述する音声メツセージ合成装置は２つの主要部分、即ち分析部分１４と音声合成部分１５（第３図）とを含んでいる。

部分１４では、音源１６（例えばマイクロホン）からの信号が量子化され、次に１７で分析され且つ１８でコーディングされる。その結果得られる適切な基準が１９（例えばＥＥＰＲＯＭ型メモリ）で記憶される。これら全ての作業は現状では実験室で行われている。

記憶装置１９を含んでいる第２の部分では、装置２０が、（１９で）選択記憶された係数から信号を再構成し、再構成された信号はラウドスピーカを備えた増幅器２１に送られる。

本発明によれば、コーディング及び再構成のために、圧縮支持体を有する小波の直交成分に音声信号を分解するアルゴリズムが使用される。これらの小波は例えばＤａｕｂｅｃｈ　ｉｅｓ小波（第８図参照）である。初めの音声信号を表すものと判定され且つ再構成メツセージの完全な明瞭性を堤供する係数のみが記憶され、これによって記憶すべき信号のスルーブツトが大幅に制限される。

第４図のフローチャートは、本発明の音声分析手順を示している。

例えば１０ｋＨｚの標本化周波数で、（変換時間が約６０μｓ以下の）°“フラッシュ”変換器又は連続近似変換器を使用して、低周波信号源２２く音響センサ、磁気記憶手段′＊）によって発生される低周波信号が例えば１６ビツトでディジタル化される（２３）、次にサンプリングされた信号は例えば１２８点のフレームに切断される（フレームの持続時間：１２．８ｎｓ）。他の実施例によれば、復元の品質をそれほど損なわずに２５６点のフレームを使用することができる。次に、本発明の主要段階を構成する分析（２４）が実施される。この分析は特に、圧縮支持体を有する小波の直交成分上でディジタル化信号を分解することにあり且つそのパルス応答が対称であってもなくてもよいフィルタを使用している。この応答が対称の場合には、（エツジ効果の原因となる）極大の（ｅｘｔｒｅ：ｍｅ　）係数の記憶が信号の一方の側に制限され、他方の側は対称によって推定される（フィルタの周期は楕遣上暗黙である）。

従って、この分解によって、１２８の初期点から、観測基準の１２８の別個の線形組み合わせが得られる。分解フィルタの形状を条件付ける波の規則性は分解の２つの主要パラメータの１つであり、（分解レベルはフィルタの幅を条件付ける）。これら１２８の組み合わせの中で、例えば３２の組み合わせが保持されて（最も有意であると推定されて）、コード化される（２５）。本実施例の８ビツトの場合には、記憶すべき値のスループット・２０　ｋｂｉ　ｔｓ／秒が得られる。１６ビツトでコード化された１６個の係数が選択されても、記憶すべき値のスループットは変わらないが、復元された信号の品質は低下する。

時間尺度（！ｃｈｅｌｌｅ　ｄｅ　ｔｅｍｐｓ）の拡張による分析（第８図の破線で示す尺度関数を参照のこと）は、分析小波を拡張させるのではなく、分析すべき信号と因子２ｐによってサブサンプリングして行われる。これによって、レベルｐの分解の場合、（ｐ＋１＞組の係数が得られる。更には、（点の数＝Ｎ／２＋Ｎ／４＋、、、Ｎ／２”’の）直交成分上への投影によって、情報の損失も冗長性も生じない。

（式中、Ｓ、は分解能２１での信号の近似であり、ＤＪは分解２ｊの詳細に相当する）で表される。

パラメータがコーディングされる（２５）と、パラメータを記憶する前に、絶えず実験室内において、後述するような合成を実施することによって評価（２６）が行われる。

く２７において）音声信号の復元の品質が良くなければ、分析（２４）によって得られるパラメータの選択は変更され（２８）　、これらのパラメータは新たな評価（２５）のためにコーディングされる（２５）、この品質が良好であると判定されれば、パラメータフレームが形成され（２９）、これらのフレームは例えば直列Ｒ５４２２リンク（３０）を介して記憶手段に伝送される。

本発明の分解アルゴリズムの実施態様を第５図に示す。

種々の成分Ｓ。〜ＳＪはそれぞれ同様に、即ち（ｊ＋１＞個のフィルタＧ（３１，０〜３１．ｊ）及びフィルタのくｊ＋１）個のミラーＨ（３２，０〜３２．ｊ＞による畳み込み、並びに半減化（それぞれ３２．０〜３２．ｊ及び３４゜０− ３４．ｊ）によって処理される。

規則性ｎに対して、フィルタの支持体は２・ｎの値を含んでいる。初めのＮ個の係数から、ｎ＝１のときにはＮ／２個の係数が２回、Ｎ＝２のときにはＮ／４個の係数が４回というように得られるが、Ｎ　／　２　ｎ　Ｌか記憶されない。

例えばｎ＝６のときには、１２ケ所の点で畳み込みが実施される。この値は、畳み込みが時間領域で実施されることを意味している。しかしながら規則性が約１６よりも大きいときには、分析処理装置の計算時間の観点から、畳み込みの代わりに二重周波数空間内での乗算を使用することが好ましいくこれは局部畳み込みと同じことになる）。

部分ヒストグラムから又は更に簡単には予め決定されたエネルギレベルに結びつけられた量子化によって、（２５で）パラメータのコーディングを実施しても良い。

評価段階（２６）では、再構成されたメツセージを聞き、ヒヤリングが申し分ないと判定されなければ、記憶すべきパラメータを変更する（２８）。この再構成は、後で詳しく説明するように、ディジタル／アナログ変換、平滑化用低域通過ろ波及び低周波増幅によって実施される。再構成されたメツセージの品質が申し分ないと判定されれば、係数が形成され（２９）、これらの係数は適切なメモリ内にロードされる（３０）、上記形成は、本質的に、データをフォーマットし、対応するアドレスを作成し、且つデータの連続フレームを順序付けすることにある。

本発明方法を実施するのに適した音声合成アルゴリズムを第６図に示す。このアルゴリズムは、パラメータ選択の評価に使用されていた前述の実験室での合成装置とは異なる自己メツセージ発生手段を構成している。この音声合成アルゴリズムは、補間（Ｓ、〜ＳＪで３５．０〜３５．ｊ、Ｄ０〜Ｄ、で３６．０〜３６．ｊ）、Ｆ波（それぞれ３７０〜３７．ｊ及び３８、Ｏ〜３８．ｊ）、加算（３９，０〜３９．ｊ）、乗算（４００〜４０．ｊ）及び低周波増幅による処理によって、最初の信号を再構成する。実際には、レベルｐ（通常ｐ＝２〜３）での小波尺度への分解から、レベル（ｐ−１）での分解を再構成することができる。

そのためには、レベルｐでの各分解値間にゼロの値を挿入し、次に先に詳述した再構成アルゴリズムに従って逆尺度・波間数（ｆｏｎｃｔｉｏｎｓ　ｏｎｄｅｌｅｔｔｅｓ　ｅｔ　ｅｅｈｅｌｌｅｓ　１ｎｖｅｒｓｅｓ）で畳み込みを行うだけで十分である。

好ましくは本発明が使用するＤａｕｂｅｃｈ　ｉｅｓ小波は、圧縮支持体を有する小波であることから、小波のパルス応答点の、従って畳み込み点の数を最小にする。

分解用フィルタは再構成用フィルタと同一であるが、対称ではなく、メモリに記憶すべき係数のフレームの最初及び最後でのエツジ効果に起因する係数を記憶する必要がある６二重直交小波を使用してこの問題を避けることができる。そのために分解用フィルタとは異なる再構成用フィルタを使用せねばならないが、これらのフィルタの応答は対称的であり、一方の側の係数のみが記憶される。

本発明方法を実行する音声合成袋Ｗの概略図を第７図に示した。再構成用フィルタの係数はメモリ４１に記憶され、且つ専用コンピュータ又はマイクロプロセッサ４２によって使用される。このコンピュータ又はマイクロプロセッサは、種々の再構成用フィルタのインパルス応答の値によって、プログラムメモリ４３に記憶された前記再構成アルゴリズムの制御下で音声信号を再構成する。再構成された信号のディジタル値が、（例えば遮断周波数が４　ｋＨｚの）低域通過アナログフィルタを有する増幅器４５及び利得制御器４６に続く変換器４４によってアナログ値に変換される。

増幅器４５からの出力はラウドスピーカ４７に結合される。

増幅器が、適切な記録装置に結合される高インピーダンス出力４８を含んでいれば有利である。更にはマイクロプロセッサ４２が入力４９（例えば直列Ｒ３２３２又はＲ３４２２人力）に結合され、マイクロプロセッサはこの入力によって音声メツセージの合成要求を受信する。これらの要求は警報回路から発生させることができる。

第９図の音声合成装置の詳細なダイヤグラムに、アドレスバス５１、データバス５２、及び特に論理シーケンサ５４に結合された制御バス５３と共にプロセッサ５０と示した。シーケンサは直列入力インタフェース５５及び直列出力インタフェース５６に結合され、更には光絶縁（ｏｐｔ。

ｉｓｏ　ｆａｔ　ｉｏｎ　）回路５７を介してメツセージ合成制御装置（図示せず）に結合されている。該メツセージ合成制御装置は合成すべきメツセージのアドレスをシーケンサに送る。プログラムメモリ５８は３つのバス５１〜５３に結合されている０ｇｋ数は、アドレスバス及びシーケンサ５４に直接結合され且つトライステートゲート６０を介してデータバスに結合されたメモリ５９に記憶される。ゲート６０はシーケンサ５４によって制御される。

バス５１〜５３は、試験又は保守タスクを実行するために、係数をリモートロードするか又は再構成プログラムを変更する外部コネクタに結合することができる。

シーケンサ５４は、低域通過フィルタ６２及び低周波増幅器６３に続くディジタル／′アナログ変換器６１に結合されている。低周波増幅器の利得はポテンショメータ６４によって調整可能である。増幅器６３は１つ又はそれ以上のラウドスピーカ６５及び高インピーダンス出力端子６６に結きされている。

高レベルの分解が用いられるときには、エツジ効果の処理は不可欠になる。この処理は、１つの音声フレームの片側に又は両側にこのフレームの一部分のコピーを加疋て、音声フレームを人工的に奇数にすることによって行うことができる８例えば２５６点のフレームの場合、１２８点が片側又は両側に加えられる。

時間外挿によって持続時間を人為的に伸ばすために、有声音フレーム（２５，６ −９）の自己回帰モデリングを採用することができる。

先にブロックで説明した合成処理は、Ｎ個の個別の縦続フィルタ（ボコーダ型）によって実施可能である。この方法は、Ｐ波値の再生に起因するエツジ効果を制限するが、プロセッサには不利である。何故ならば、２項分解時に前記最適化は使用されないからである。

選択される直交成分は圧縮支持体を有するものであり、それによってｒ波の畳み込みの計算時間が最適化される。

係数は実数であり、それによって絶対値及び符号の簡囃な解釈が可能となり且つモジュロ２πの物理的利用に関連する制約が緩和される（成分が複素数であるときに）。使用される点の数が約３０を下回るときには、時間畳み込みが実行される。異なる規則性を有する複数の直交成分を使用することができる。

一分解は所与のレベルでは確立されないが、各フィルタの幅は、音声に関係する最適化の関数として変動し得るレベルのために適応化される（例えば斜め（ｏｂｌｉｑｕｅ）分解し辺でより細かな切断を実施することができる。

−合成小波の規則性の選択は例えば、音声フレームの事前分析によって（例えば３つのクラスの音声化又はガウス曲線の第３の導関数（ｄｅｒｉｖ６ｅ　ｔｒｏｉｓｉｅｍｅ　ｄ’ｕｎｅ　ｇａｕｓｓｉｅｎｎｅ）から決定される平均小波である“音声小波（ｏｎｄｅｌｅｔｔｅ　ｄｅｖｏｉｓｅｍｅｎｔ　）”によって）決定され得る。

−有声フレーム（調和構造）：規則性は約６〜１０；−兼声フレームく破裂音、窄擦音）：規則性は低い（１〜６）。

一周波数位置に応じて小波係数くスカラー積の結果）を再配置することによって、時間尺度（Ｌｅａｐｓ−１！ｅｈｅｌ　ｌｅ　）分析をより簡単に実施し、且つそれを時間−周波数分析として見ることができる。

一ベクトル量子化は、コーディングを周波数ランク及びコーディングすべきニオ・ルギの関数として採用することによって、スループットの最適化を可能とする。使用される方法の如何を問わす（例えば二分法）、目的は常（ご多重分解“コードブック″（コードブックは、多数の点の重心を特徴付ける全ての“クラス” 即ちベクトルを含んでいる全ベクトルである）の作成である。最後に、できるだけ不利にならない最小ひずみ（少ない２次エラー）の選択に努める６−コードブックのベクトルのコーディングビット数は処理されるエネルギの関数である（数は基音の場合は多く、極大の周波数では少ない）６ＦＩＧ、　ＩＦＩＧ、２ＦＩＧ、３ＦＩＧ、フイｒ、方＾フ＃ライン１；ハシｆをｆ＄の字１’Ｆ４ＦＩＧ、８１、、Ｉ　ＣＪ％ｔ３１　１

Claims

【特許請求の範囲】

１．音声信号をディジタル化し、圧縮支持体を有する小波の少なくとも１つの直交成分にこのディジタル化信号を切断し、音声信号を表す係数を記憶し、復元時にはろ波、補間及び低周波増幅によって音声信号を再構成することを特徴とする音声合成方法。
２．係数が実数であることを特徴とする請求項１に記載の方法。
３．合成小波の規則性の選択が、音声フレームの事前分析によって決定されることを特徴とする請求項１又は２に記載の方法。
４．有声音フレームの合成小波の規則性が約６から１０であることを特徴とする請求項１から３のいずれか一項に記載の方法。
５．無声音フレームの合成小波の規則性が１から６であることを特徴とする請求項１かち３のいずれか一項に記載の方法。
６．エッジ効果を処理するために、音声フレームが人為的に奇数にされることを特徴とする請求項１から５のいずれか一項に記載の方法。
７．小波がＤａｕｂｅｃｈｉｅｓｓ小波であることを特徴とする請求項１から６のいずれか一項に記載の方法。
８．二重直交小波が使用されることを特徴とする請求項１から７のいずれか一項に記載の方法。
９．記憶される前に、係数が評価合成（２６）のために使用され且つ復元品質が申し分ないと判定されたときにのみ記憶されることを特徴とする請求項１から８のいずれか一項に記載の方法。
１０．ろ波が畳み込みによって実施されることを特徴とする請求項１から９のいずれか一項に記載の方法。
１１．約１６よりも大きい規則性の場合、ろ波が二重周波数空間内での乗算によって実施されることを特徴とする請求項１から１０のいずれか一項に記載の方法。