JPH0895597A

JPH0895597A - 音声処理システムおよびその方法

Info

Publication number: JPH0895597A
Application number: JP7259549A
Authority: JP
Inventors: Cecil H Coker; ハロルドコーカーセシル
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-09-13
Filing date: 1995-09-13
Publication date: 1996-04-12
Also published as: EP0702352A1; CA2154804A1; US5633983A

Abstract

(57)【要約】【課題】発音励起状態移行の表現を決定し、少ない蓄積
データにて正確な音素合成をする音声処理システムを提
供する。【解決手段】本発明による音素合成を行うためのシステ
ムと方法においては、受け取ったテキストデータ集合か
ら音響パラメータからなる出力データ集合（発声励起状
態の移行のパターンを表す）を生成するように機能す
る。テキストデータ集合はそれぞれ、音記述子が割り当
てられた複数の音素データ集合に変換され、人の発声シ
ステムの選ばれた部分を表す、発声励起制御変数の非線
形関数として音素データ集合を処理することにより、生
成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音響分析、特に音素
合成を行うためのシステムと方法に関する。

【０００２】

【従来の技術】音素合成においては、ある程度の詳細な
情報を声道のモデルの動作から見いだそうとする。典型
的には、従来の音声合成システム、例えば共鳴、声道や
ＬＰＣ（線形予測符号化）合成器は、与えられた入力デ
ータまたは音源、および前の出力の短いリストから、次
のサンプル音を演算するためのいくつかの数式を用い
る。共鳴合成器においては例えば、４ｋＨｚ以下のそれ
ぞれ共鳴のための数式の組がある。声道とＬＰＣ合成器
においては、例えば数式の組が人の声道の中の異なる場
所において多様な音を表現するのに使われる。

【０００３】人の筋肉組織が言語音の持続時間と比べて
ゆっくり形状を変化させるので、人の声道は、ある音声
状態から別の音声状態へのなめらかな移行をさせるため
に機能する。このようにして、従来の合成器では安定し
た単調な連続音をお互いにつなぎ合わせるのに十分では
ない。なぜなら一方では、急な音とびがわずらわしい、
言語音に類似しない、カチッやポンと言うような音をつ
くる。他方では、いくつかの母音の連続だけでなく多く
の子音の連続は、安定な状態によってではなく、ある言
語音状態から次の状態へ変化することにより送り出され
る。多様な音声素片の文字の中のニュアンスは、文構
造、強調、およびはっきりしない多数のコミュニケーシ
ョン因子、例えば楽しさ、決定、皮肉等を伝える。さら
に、直接的なコミュニケーションの価値をもたない部分
はそれでも重要であることがあり、聞き手の期待するも
のからの聞き取れる状態の逸脱は、わずらわしくなり、
さらに悪いことに誤った意図を伝えることになる。従っ
て、自然で気持ちよく聞こえるためには、多数の非常に
詳細な部分に関して正確であることを必要とする。移行
する詳細部分を再生するための音声合成におけるアプロ
ーチ（研究方法）は、典型的には、どちらも規則による
が、規則による移行の方法、または蓄積データ使用の方
法のどちらか１つの方法に従う。

【０００４】

【発明が解決しようとする課題】規則による移行のアプ
ローチは、多くの商業的な合成器に使用され、また時間
に対してプロットされた幾何学的な曲線によって、音声
素片間の変化を描写する。規則による移行のアプローチ
は、声道共鳴の動作または舌、唇、顎等の動作を描写す
る。蓄積データ使用のアプローチは、規則による移行の
アプローチと比較すると、典型的には未加工の音声を録
音、分析し、それによる音声素片の対の間の移行の標本
から、より一般的にはある音声素片の半分から始まり、
別の音声素片の半分で終わる列を抜粋する。双方のアプ
ローチは、強勢および音節と語の境界に関連した状況の
ために、実際の言葉の音声素片の変化を識別することを
各音声素片を再生するための厳しい規則が欠くことだけ
でなく、隣接した音声素片の間の１次相互作用のみを再
生することを含む、いくつかの問題をもっている。規則
による移行のアプローチは、典型的には、励起の表現は
極端に単純化した表現になってしまい、なぜなら励起の
瞬間的なふるまいは規則によって表されるには複雑すぎ
ると思われるからである。逆に蓄積データ使用のアプロ
ーチは、このような移行を再現するが、使用できる処理
システム資産や記憶装置は言うに及ばず、音声素片、強
勢と境界の標本、および文脈の、マークされたものと集
合したものとの組合せの大きな量によって生来的に制限
された処理システムに記憶される場合に限られる。前述
の問題や制限は、正確で、従って産業上望ましい音声合
成器をつくることに対し最も有力な障害となっている。

【０００５】

【課題を解決する手段】本発明の原理に従って、ある音
声の励起状態から別の励起状態への移行の複雑なパター
ンを再生する、音素合成を行うためのシステムと方法が
提供される。単純なふるまいの単一の根元的なパラメー
タ、即ち変数、に対してそれぞれが非線形依存するよう
な、複雑なふるまいを示す、無関係に見える数種の、音
響上の量により表現することにより、再生は達成され
る。この根元的な変数は、１つの音声素片ごとの１つの
コマンドにより動かされる。即ち、１つの音素または半
分の音素により動かされる。音素とはより詳細には、言
語音の基本単位または基本要素である。前記コマンドの
前記変数への応答は、ある規定された値から別の値に単
純なＳ字型の移行をするにつれて生成される。

【０００６】ある発声励起状態から別の励起状態へ移行
するパターンをつくるために、データ部分集合からなる
出力データ集合を生成する、本発明に基づいた実施態様
の例である処理システムは、受け取る手段と、少なくと
も１つのメモリ記憶装置と、および少なくとも１つの演
算装置とを有する。前記の受け取る手段は、少なくても
１つのテキストデータ部分集合を含むテキストデータ集
合を受け取るように機能する。前記メモリ記憶装置は、
複数の処理システム命令を記憶するように機能する。前
記演算装置は、前記メモリ記憶装置から少なくとも１つ
の演算装置命令を検索、実行し、ｚ出力データ集合を生
成するように機能する。ｚ演算装置は、受け取ったｚテ
キストデータ集合を、複数の音声データ部分集合を含む
音声データ集合に変換する。ここで前記音声データ部分
集合のそれぞれは、特定の音声状態を表し、出力データ
集合を生成する、人の発音システムの選択された部分を
表す生理学的変数の関数として音声データ集合を挿入
し、これにより音声データ部分集合は加え合わされ出力
データ部分集合のそれぞれへの集団的な寄与を決定す
る。

【０００７】音素合成を実行する、本発明の原理に基づ
く別の実施態様の例は、複数のテキストデータ部分集合
からなるテキストデータ集合を受け取るように機能する
入力ポートと、および少なくとも１つの演算装置とを含
む。演算装置は、人の発音システムがある励起状態から
別の励起状態へ移行するにつれ、生理学的な変数を人の
発音システムの、選ばれた肉体的変化の関数として計算
することにより、音声の列を表す出力データ集合を生成
するように機能し、出力データを生成するために生理学
的変数の関数としてテキストデータ集合を処理するよう
に機能し、ここでテキストデータ部分集合は、音声のそ
れぞれへの集団的な寄与を決定するように加え合わされ
た複数の音声データ集合に変換される。

【０００８】本発明の原理に基づくある動作方法の実施
態様において、受け取ったテキストデータ集合からの音
響パラメータからなる出力データ集合の生成は重要であ
り、ここでｚ出力データ集合は、ある発声励起状態から
別の励起状態への移行パターンを表す。この方法は受け
取ったテキストデータ集合を、複数の音声データ部分集
合を含む音声データ集合に変換し、ここで音声データ部
分集合のそれぞれは特定の発声状態を表す。そこで少な
くとも１つの音声記述語が、音声データ部分集合のそれ
ぞれに対して割り当てられ、これらは時系列に変換され
る。発声励起制御変数は、人の発声システムの、選ばれ
た部分を表すように設定される。音響パラメータからな
る出力データ集合は、音声データ集合を発声励起変数の
非線形変数として処理することにより生成され、これに
より音声データ部分集合の集団的寄与が、ある発声励起
状態から別の励起状態へ移行するパターンのそれぞれに
対して決定される。

【０００９】本発明を使用したり分配する実施態様の例
として、記憶媒体に記憶されたソフトウェアがある。こ
のソフトウェアは本発明の原理に基づく音素合成を行う
ため、少なくとも１つの演算装置を制御するためのコン
ピュータ命令を含む。使われる記憶媒体には磁性媒体、
光学媒体や半導体チップが含まれるが、これらに限定さ
れない。本発明の別の実施態様においてあえて挙げれ
ば、ファームウェアやハードウェアとしてもまた提供さ
れる。

【００１０】

【発明の実施の形態】本発明の原理およびその特徴や利
点は図１〜図１０に描かれた図によってより深く理解さ
れる。

【００１１】図１（ａ）は人の頭部の断面図を示し、鼻
腔１０１、声道１０２、軟口蓋１０３、喉頭蓋１０４、
食道１０５、気管１０６、および声道１０２は何らかの
原因、例えば、肺が何らかの抵抗に逆らって空気を無理
に出して肺にエネルギーを使わせたとき、によって励起
させられたときに音をつくるように機能する。有声励
起、帯気、および摩擦のような発声の原因となる動作
は、肺の力を可聴音に変換する空気力学的なプロセスで
ある。より詳細には、有声励起は、肺からの空気が声帯
１０７を振動させる気管１０６を流れ抜けるときに生
じ、帯気は、肺からの空気が気管１０６を喉頭蓋１０４
またはその付近における乱流に原因する音、例えば不規
則、非反復的、またはランダムな音、を生じるように流
れ上がるように生じ、そして、摩擦は、肺からの空気が
気管１０６を声道の緊縮、例えば、口蓋または歯の一方
に対する舌（図示せず）、または歯に対する唇（図示せ
ず）、における乱流に原因する音が生じたときに生じ、
これらの音は、音響共鳴器として機能する声道１０２を
通過し、周波数帯をいくらか広げる。例えば成人の大き
さの声道１０２は１００Ｈｚ〜４０００Ｈｚの間の音声
バンドにおいて３ないし６の共鳴周波数がある。声道の
形はよく変異し、異なった形は異なった音素として聞こ
える。前述のように音素は音声の基本単位であり、他の
音素と組み合わされると語を形成する。有声励起モード
の様々な組み合わせもまた、音素を区別することに寄与
する。例えば、ｔ、ｄ、ｓおよびｚは、実質的に同じ声
道の形であるが、励起において異なる。

【００１２】音素合成は各音素の目的、即ちゴールであ
る声道の形をモデル化することにより見いだされる。し
かしながら、音素間の移行はなめらかで自然であること
が望ましい。例えば４つの変数ｖ、ｒ、ａおよびｆに対
する声道の特徴を説くことを考えてみる。図７に示すよ
うに、全ては生理学的変数Ａ_gwに従属な関数としてモデ
ル化できる。Ａ_gwはより詳細には声帯１０７による筋肉
制御を表す。声道１０２の位置や緊縮の度合の、もしあ
れば、幾つかの知識とともに、Ａ_gwは振幅と、帯気と摩
擦との一時的なふるまいを決めるように機能する。Ａ_gw
は自動的に、中間状態の自然な列を通過するような方法
で、音声を合成するようにここにおいて用いられる。本
発明の原理に従うと、図４に示されたプロセスは、従来
のプロセスのように、音素合成を２つの音素による、単
一の重複に制限しない。これは筋肉制御およびそれらに
関係する応答によりＡ_gwをモデル化することにより得ら
れた。音素がお互い混ぜ合わさるようになるのは、しか
しながら、人の発声システムの筋肉組織に原因がある。
従って本発明の視点は、全ての音素の、言語音の生成へ
の寄与を加え合わすように機能する挿入（interpolatio
n）プロセスの利用にある。この結果、音素とそれらの
中間状態との間のなめらかで自然な移行が得られる。

【００１３】図１（ｂ）は人の発声システムの断面図を
示し、声帯１０７、外側輪状被裂筋１０８、後輪状被裂
筋１０９、被裂軟骨１１０、甲状被裂筋１１１、および
声門１１２を含む。声門１１２とは、声帯１０７の内側
の領域である。呼吸時には、声帯１０７は後輪状被裂筋
１０９によりかなり引き離され、後輪状被裂筋１０９は
被裂軟骨１１０を回す。発声時には、声帯１０７は同じ
ようにして開くが、摩擦音に関しては比較的小さく開
く。有声音の時には、声帯１０７は閉じていて、これは
主に甲状被裂筋１１１によって行われ、被裂軟骨１１０
を回すことになる。声門域はさらに２つの他の肉体の因
子により影響され、それらは、声帯１０７の中央におい
て外側へ押す、肺からの圧力１１３、Ｐ_sと、声帯１０
７の中央において内側へ押す、甲状被裂筋１１１の湾曲
度である。

【００１４】図２は音響エネルギーを生成する従来の装
置２０９につながったパーソナルコンピュータ（ＰＣ）
２００の等角図を示す。ＰＣ２００は本発明の原理に従
った音素合成を行うためにプログラムされ得る。ＰＣ２
００は、ハードウェアケース２０１（内部が見えるよう
に描いている）、モニタ２０４、キーボード２０５およ
びマウス２０８からなる。モニタ２０４とキーボード２
０５、およびマウス２０８はそれぞれ他の適当に設定さ
れた出力と、入力装置に入れ替えられ、または組み合わ
せて用いられる。ハードウェアケース２０１はフロッピ
ーディスク装置２０２とハードディスク装置２０３の両
方を有している。フロッピーディスク装置２０２は外部
ディスクを受け取り、読み込み書き込むことができ、ハ
ードディスク装置２０３は高速アクセスのデータ記憶お
よび検索を提供する。フロッピーディスク装置２０２の
みしか描かれていないが、ＰＣ２００はデータを受け取
り、送り出す適切に設定された構造体、例えば、テープ
やコンパクトディスク装置およびシリアルやパラレルの
データポート、を装備されていてもよい。ハードウェア
ケース２０１の内部が見える部分の中には演算装置２０
６があり、図示された例では、ランダムアクセスメモリ
（ＲＡＭ）であるメモリ記憶装置につながっている。Ｐ
Ｃ２００は、図において単一の演算装置２０６を有して
いるが、本発明の原理を共同して実現する複数の演算装
置２０６を有していてよい。同様にＰＣ２００は、単一
のハードディスク装置２０３とメモリ記憶装置２０７を
有しているが、適切に設定されたメモリ記憶装置やその
複数でもよい。さらにＰＣ２００は単一の処理システム
の例での使用として描かれているが、本発明の原理は、
少なくとも１つの演算装置を有するいかなる処理システ
ム、例えば、洗練された計算機や、ハンドヘルド（手に
持てる）、ミニ、メインフレームおよびスーパーの各種
コンピュータで、ＲＩＳＣや並列の各処理アーキテクチ
ャおよび前に挙げたものの間での処理システムネットワ
ークの組み合わせを含むもの、において実行することが
できる。好ましい実施態様においては、ＰＣ２００はＩ
ＲＩＳＩＮＤＩＧＯワークステーションがよく、米国
カリフォルニア州マウンテンビュー市のＳｉｌｉｃｏｎ
Ｇｒａｐｈｉｃｓ，Ｉｎｃ．から提供されている。ワ
ークステーションの処理環境は、好ましくはＵＮＩＸオ
ペレーティングシステムによるものがよい。

【００１５】図３はあるマイクロプロセッシングシステ
ムのブロック図を示し、ＰＣ２００と共に使用される演
算装置とメモリ記憶装置を有する。マイクロプロセッシ
ングシステムはデータバス３０３を通って、例えばＲＡ
Ｍ２０７のようなメモリ記憶装置につながっている単一
の演算装置２０６を有する。メモリ記憶装置２０７は、
演算装置２０６が検索、解釈、そして実行できるような
１以上の命令を記憶できる。演算装置２０６は、制御ユ
ニット３００、算術論理演算ユニット（ＡＬＵ）３０
１、および局所メモリ記憶装置３０２、例えばスタック
可能なキャッシュメモリや複数個のレジスタ、を有す
る。制御ユニット３００はメモリ記憶装置２０７からの
命令を読み出すことができる。ＡＬＵ３０１は、命令を
実行するのに必要な、加算およびブール代数のＡＮＤの
演算を含む、複数の演算を実行できる。局所メモリ記憶
装置３０２は、一時的な結果や制御情報を記憶するのに
用いられる局所の高速記憶ができる。

【００１６】図４は、本発明の原理に従った音素合成を
行うためのプロセスの流れ図を示す。ここで描かれたプ
ロセスはＦＯＲＴＲＡＮプログラミング言語によりプロ
グラムされているが、機能的に適したいかなるプログラ
ミング言語も入れ替えられたり、共に用いられることが
できる。このプロセスは、好ましくは、オブジェクトコ
ードにコンパイルされ、使用時にはＰＣ２００のような
処理システムに読み込まれる。前述したようにこれとは
別に本発明の原理は、いかなる適切な形のファームウェ
アやハードウェアにおいても実現できる。

【００１７】図示されたプロセスはスタートのブロック
に入ることから始まり、次に、１以上のテキストデータ
部分集合を含むテキストデータ集合が受け取られる（ブ
ロック４０１）。テキストデータ部分集合のそれぞれは
いかなる語、句、省略、頭字語、コノテーション（言外
の意味）、数字または他の認識できる文字、記号や記号
列を含んでよい。テキストデータ集合は語、数字やある
いは音素を表す。テキストデータ集合は音声データ集合
に変換される（ブロック４０２）。音声データ集合は音
を含み、強勢記号、伸延期号（ポーズ）や発話の“読
解”を指示する他の句読点を共に含む。音（ｐｈｏｎ
ｅ）とはより詳細には、音素合成器に記憶されたデータ
ベースの中の、いかなる音素または音素に準ずるもので
ある。データベースは好ましくは、例えばＰＣ２００の
ようなプロッセッシングシステムに記憶された音素デー
タの集合体である。この変換を行う技術は、例えば、参
照として示す、Olive、RoeおよびTischirgi共著の論文、
「聞きもする音声処理システム“Speech Processing Sy
stems That Listen,Too"」AT&T Technology(1991年刊、V
ol.6,No.4）のように知られていて、より詳しく記述さ
れている。好ましくは、句、省略、頭字語、数字または
記号や記号列の他の認識できる文字を表す、テキストデ
ータ部分集合のそれぞれは、普通の語により写像され置
換される。テキストデータ集合もまた好ましくは、発音
と、テキストデータ部分集合のそれぞれを個々または関
連するグループで、音声データ集合の対応する部分集合
に変換する辞書プロセスに従う。好ましくは発音と辞書
プロセスもまた、強調／非強調や伸延を制御するための
句読点を挿入するために句分析を行う。前述したことは
参照として示されたOlive、RoeおよびTischirgi共著の論
文、「聞きもする音声処理システム“Speech Processin
g Systems That Listen,Too"AT&T Technology（1991年
刊、Vol.6,No4）においても説明されている。

【００１８】図に示された実施態様において、音声デー
タ集合は好ましくは３つのデータ構造からなり、各分節
素（ｓｅｇｍｅｎｔ）、Ｉによる３つの１次元のリス
ト、即ち、ＰＨＯＮ［Ｉ］、ＳＴＲＥＳＳ［Ｉ］および
ＤＵＲ［Ｉ］であり、それぞれ音、強勢および定められ
た耐久時間である。各分節素は好ましくは、単一の音で
ある。例えば、６文字からなるテキスト語である“ｍａ
ｒｋｅｔ”の語について考えてみる。ここで文字と音と
の間には、１対１の対応が通常はないことに注目する。
“ｍａｒｋｅｔ”が音声データ・フォーマット（書式）
に変換されると、６つの音“ｍ”、“ａ”、“ｒ”、
“ｋ”、“ｉ”および“ｔ”となり、即ちそれぞれは分
離した分節素になる。これらの分節素はＰＨＯＮ［１］
＝“ｍ”からＰＨＯＮ［６］＝“ｔ”までのように記憶
される。好ましくは各分節素に対してＳＴＲＥＳＳ
［Ｉ］とＤＵＲ［Ｉ］がある。ＳＴＲＥＳＳ［Ｉ］とＤ
ＵＲ［Ｉ］は好ましくは、データベースより検索された
定められた値であり、ここでＰＨＯＮ［Ｉ］は適切な値
で指数付けされるように用いられる。さらに各分節素に
は、分節素がゆっくりと変化する時間の尺度を示す関連
するパラメータＪがある。各パラメータには好ましく
は、特定の選ばれた機能を有する所望された音声合成シ
ステムに適合するいかなる他の変数とともに、Ａ_gwとＰ
_sを含む。各分節素と各パラメータに対して好ましくは
３つの定められた値、ＶＡＬ［Ｉ，Ｊ］、ＴＡＵ［Ｉ，
Ｊ］およびＴ［Ｉ，Ｊ］がある（ブロック４０３）。Ｖ
ＡＬ［Ｉ，Ｊ］は分節素ＩのパラメータＪの定められた
目的値である。ＴＡＵ［Ｉ，Ｊ］はパラメータＪの分節
素Ｉ−１から分節素Ｉまでの移行時間の長さであり、即
ち、Ｓ字形移行が好ましくは、１０％から９０％の完成
度へ移る時間である。Ｔ［Ｉ，Ｊ］は、都合のよい参照
点から測定した、Ｓ字形移行が５０％の完成度になるま
での間の時間であり、即ち、パラメータＪが分節素Ｉ−
１の値から分節素Ｉの値まで移行する期間であり、好ま
しくは、ミリ秒単位である。ＶＡＬ［Ｉ，Ｊ］、ＴＡＵ
［Ｉ，Ｊ］およびＴ［Ｉ，Ｊ］の値は音声記述子のデー
タベースから定められ、表１により明確に示されてい
る。図示された実施態様において、記述子データベース
はファイル、ＶＡＬＰ［ＰＨ，Ｊ］、ＤＥＬＴＡＶ［Ｐ
Ｈ，Ｊ］、ＰＲＩ［ＰＨ，Ｊ］およびＴＡＵＶ［Ｊ］を
有する。好ましくは、ＰＨはデータベースへ索引するた
めの一時的変数であり、ＶＡＬＰ［ＰＨ，Ｊ］はパラメ
ータＪの分節素ＰＨに対する目的値を含み、ＤＥＬＴＡ
［ＰＨ，Ｊ］は強勢の変動を説明する点傾き値を含み、
ＰＲＩ［ＰＨ，Ｊ］はパラメータＪの分節素ＰＨへの相
対的な重要度を示す０から０．５間の値を含み、そして
ＴＡＵＶ［Ｊ］はパラメータＪの特性速度を含む

【表１】上に示されたアルゴリズムは、第１引数が他のいずれか
の引数と一致するかどうか、例えば“Ｄ”が“ｗｅａＴ
Ｈｅｒ”の中の“ＴＨ”と一致するか、または“Ｚ”が
“ａＺｕｒｅ”の中のものと一致するかというように、
決定するように機能する“ｉｆ”節を含むことに注目す
る。この“ｉｆ”節は説明の目的にのみに取り入れら
れ、いかなる機能的に適切なコードも所望の演算を実行
するために含まれる。またカウンタ、ＮＳＥＧとＮＶＡ
Ｒは好ましくは、予め決められていて、それぞれ分節素
と変数の総数を記憶するように機能する。前述の目的
値、時間、移行時間の長さ、声門下部の圧力等の指定は
参照として取り入れるC.H.Cocker著の次の論文、「調音
の力学および制御のモデル“A Model of Articulatory
Dynamics and Control"」Proceedings of the IEEE(1976
年刊、Vol.64、No.4）の４５２〜４６０ページにより詳
しく記述されている。

【００１９】ＶＡＬ［Ｉ，Ｊ］、ＴＡＵ［Ｉ，Ｊ］およ
びＴ［Ｉ，Ｊ］の量は、分節素当たりの音の数から時系
列Ｖ_j（ｔ）へと変換され、ここでＳ字形移行は一定時
間ごとのステップで、１ピッチ期間当たり１つまたは他
のサンプル周期、で求められる（ブロック４０４）。こ
こでパラメータＪは、特定の合成システムに適するよう
なあるいは他の所望の値とともに、変数Ａ_gwとＰ_sに好
ましくは、関連する等間隔の時間の周期が用いられれ
ば、周期は、好ましくは、１０ミリ秒の桁である。ここ
で用いられた時間の変換は、

【数１】のように表され、ここでＶ_j（ｔ）は声門幅か声門下部
の圧力のいずれかのステップ応答であり、ＶＡＬ［Ｉ，
Ｊ］は分節素とパラメータの目的値であり、Ｓ（ｘ）は
音Ｉのフィルタのステップ応答であり、そしてＶＡＬ
［Ｉ，Ｊ］−ＶＡＬ［Ｉ−１，Ｊ］の量は分節素Ｉ−１
とＩの間での目的値の変化である。Ｉに渡っての和はス
テップ応答の数の和を表す。この加算による方法は、作
用する変数が声門とその制御筋の慣性および粘性の特性
をよくモデル化してあるので可能となった。ここでの時
間変換は表２に疑似コードとしてより明確に示す。

【表２】表に示された実施態様では、好ましくは、Ｖ［１］はＡ
_gwで、Ｖ［２］はＰ_sである関数Ｓ（ｘ）の値のある好
ましい例として、

【数２】ここでｄは直線部分（０≦ｄ≦０．５）の長さで、γは
接近点から特定の目的値までの出発するカーブの“尾”
の長さで、ａ、ｂ、ｇおよびｕは数式を単純化するのに
用いた従属量である。実際的な結果としてはｄの値は
０．３γで約２．５の桁である。典型的な好ましい応答
を図５に示す。図５に示されたものに類似するＳ字形応
答を好ましく提供するいかなる適切に設定されたフィル
タも上の処理ステップと数式と共に用いられ、または置
き換わることに注目すべきである。

【００２０】前述したようにＡ_gwは面積の単位で表され
る声門筋のふるまいを表す。Ａ_gwは、図１（ｂ）に示す
甲状被裂筋１１１の緩和と後輪状被裂筋１０９の緊張を
表す。Ａ_gwは声門の開口部とも呼ばれる、声帯の間にあ
る振動的に中立な領域の面積を表す。Ａ_goは、Ａ_gwに対
するＡ_goで表されるような実際の肉体の声門面積の曲線
がＡ_goが約５mm²より大きくなるような傾きをだいたい
１つ持つように大きさを合わせられる。後輪状被裂筋１
０９を緊張させると、Ａ_gwの値を減らすが、被裂軟骨１
１０を回し、発声プロセスを双方ともに行うようにな
る。この寄与はＡ_psとして参照される。声門下部圧力Ｐ
_sは声帯１０７の中央で外側に押して反りをつくり、こ
の寄与はＡ_psとして参照される。甲状被裂筋１１１の湾
曲は側面からの内側方向に圧力を加えさせ、反りをつく
る。この寄与はＡ_gsとして参照される。Ａ_goはこれら３
つの効果の結果として得られた和であり（ブロック４０
５）、これは、

【数３】で与えられ、ここでＡ_ga、Ａ_psおよびＡ_gsに選んだ値
は、

【数４】で与えられる。前述したようにＰ_sは図１（ｂ）の声帯
１０７の中央で外側方向に押す肺からの空気圧力を表
し、Ａ_kneeは、比較的平坦な傾きから比較的急な傾きま
での移行と、被裂軟骨の先端の硬さに肉体的に関係する
移行との急激さを表す（発声プロセス）。好ましくは、
Ａ_kneeの値は約１．２５がよい。声帯の間の振動的に中
立な領域の面積の計算のための好ましいプロセス・ステ
ップは次の表３の疑似コードの形でより明確に示され
る。

【表３】

【００２１】図６に移ると、Ａ_goのふるまいをグラフで
表す座標図が示されていて、ここで曲線上の点は約４ミ
リ秒の周期でプロットされている。ここで２つの本質的
な線形空間があり、これらは被裂軟骨１１０が自由に回
ることができる第１の領域と、被裂軟骨１１０がさらな
る動作が出来ないようにされている第２の領域である。
Ａ_gwが正の値から変化してより負になれば、被裂軟骨１
１０の発声プロセスは接近して同一になり、さらなる動
きをさせない。面積Ａ_goの被裂軟骨成分は、０で飽和
し、側方圧力成分Ａ_gsによりＡ_goのさらなる変化が起こ
る。従ってＡ_goは低面積域と高面積域の２つの直線領域
を有する。低面積域において、被裂軟骨１１０は押され
て一緒になり、さらに動くことができない。この領域で
は面積は、空気の圧力の成分Ａ_psと、側方圧力成分Ａ_gs
との和である。これと比較すると、高面積域では被裂軟
骨１１０は自由に動く。Ａ_goと低面積域の延長との差
は、被裂軟骨成分Ａ_gaである。そこで図示のプロセス
は、声帯やいかなる緊縮、例えば、歯、唇等のような、
を通しての声道１０２の準静的圧力の分布を計算する
（ブロック４０６）。ここで緊縮を通る流れは、参照と
して取り入れるＪ．Ｌ．Ｆｌａｎａｇａｎ著の本「音声
分析、合成、および感受“Speech Analysis,Synthesis,
and Perception"(Springer出版１９７２年間第２版）の
４３〜４８ページにより詳しく記述されている、緊縮に
関するベルヌーイの定理に従うことに注目する。さらに
物理の基本法則Ｆ＝ｍＡに従い、圧力の差Ｐに渡って加
速するときに、空気の基本的な体積を予測し、速度ｖを
得ることにも注目し、これは以下の規則、

【数５】により与えられ、ここでＰは緊縮に渡っての空気の圧力
であり、Ｐは空気の密度である。空気の流れの体積の総
量Ｕは面積ａと速度ｖの積で定義され、

【数６】であり、ここでａは好ましくは、声門面積か緊縮の面積
のいずれかの、オリフィスの面積である。ここで安定状
態の場合には、音響腔の流出は流入と等しくなければな
らないことに注目し、ここで流入と流出を等しくするこ
とは、

【数７】により与えられ、添字ｇとｃはそれぞれ声門と緊縮を表
し、バー（上線）はある期間、即ち１以上のピッチ期
間、での平均を表す。声門下部の圧力Ｐ_sは緊縮に渡っ
ての圧力と唇に渡っての圧力との和であり、

【数８】で与えられる。しかしながらここで音響腔が曲げられる
壁を持つことと、空気が圧縮し得ることに注目する。結
果として得られるバネに似た性質は、比較的瞬時に、音
響腔の中と大気との空気の流れの差により外に流れ出さ
せる。流れの抵抗が線形であれば、Ｐ_cは、目的の大気
圧に指数的な時間の曲線で接近し、しかしながら、空気
の圧力の流れの関係が非線形であるために近似的にしか
指数的でしかない、従って指数的な曲線は好ましい近似
である。瞬間的なロ腔圧力Ｐ_cとＴＡＵの計算は、

【数９】で与えられる。

【００２２】声門の空気の圧力の分布の計算は表４の疑
似コードの形でより明確に示される。以下のコードは表
２の閉じられていないパラメータＪのステップのループ
の中で動作できることに注目する。

【表４】Ａ_{g_}は推定された平均の声門の面積で、大きなＡ_goであ
ればＡ_goと同じになる。しかしながらＡ_goがＶより小さ
ければ、振動は非対称、即ち正の振幅は負の振幅よりも
大きくなる。この圧力計算は軟口蓋といかなる声道の緊
縮の面積も知られたものと仮定し、音素合成器が調音器
官でないときには軟口蓋と緊縮の面積Ａ_cnとの作用する
ことができる和はブロック４０４で付加的な変数として
計算することができる。Ａ_cnは好ましくは、有声、無声
の摩擦音に対しては１５mm²となり、閉鎖音に対しては
ゼロになり、他の全ての音に対しては声門面積よりもは
るかに大きくなる。

【００２３】Ａ_gw、Ａ_go、Ｐ_gおよびＰ_cは好ましくは、
数種の従属変数を計算するのに用いられる（ブロック４
０７）。第１に発声のしきい値を計算し（表２）、発声
の振幅は計算される（ブロック４０８）。

【数１０】ここで発声の振幅は瞬時には変わらないことに注目す
る。発声のしきい値は、発声の振幅が指数的に収束する
ように、目的値を決めるのに用いられる。

【数１１】ここでＶ_typは声帯振動の典型的な振幅で、好ましく
は、約１５mm²である。ＴＡＵは、振動振幅の増幅と減
衰の時定数である。振幅は減衰より速く増加する傾向が
ある。

【数１２】フィルタ係数ｂは好ましくは、

【数１３】のように計算され、

【数１４】で与えられる発声の振幅を決めるのに用いられる。声門
のスペクトルは通常は−１２ｄＢ／（オクターブ）にて
だいたい第３倍調波音（ｈａｒｍｏｎｉｃ）から始まり
数ｋＨｚで終わる。音響量ＲＯは声門振動の基底調波音
の、高い漸近線の調波音に対する比を示し、

【数１５】により与えられる（ブロック４０９）。４、２６および
４．５の値は好ましい近似である。ＲＯは図９で示され
るように、より高周波数の有声音の振幅を基底調波音の
振幅ＶＯで割った商である。

【００２４】ここで、声門面積が増えると、しかしなが
ら、曲線の形もまた変わることに注目する。図１（ｂ）
に戻ると、発声プロセスの真最中であれば、声帯１０７
は完璧な平行に近く、声門１１２の長さに渡ってほとん
ど同時に振幅の終わりが起こる。しかしながら、被裂軟
骨１１０が部分的に開いていれば、はじめに声門１１２
の前方のはしにて閉鎖が起こり、声門１１２の後方の端
から被裂軟骨１１０に沿って、ジッパーのように進行す
る。この段階的な閉鎖は時間に対してほぼ正確に指数的
で、従って、時定数ｋｈを面積Ａ_gaの被裂軟骨成分と、
定数Ａ_gax（約２．５mm²）との和に比例させ、ピッチ周
波数ＦＯと発声の振幅ＶＯとに反比例させるように決定
される。Ｆｈの上の周波数ではスペクトルは−１８ｄＢ
／（オクターブ）にて始まり（ブロック４１０）、

【数１６】が与えられる。好ましくは、ｋｈは約３で、Ａ_gaxは強
勢母音に対してはＦｈが達する最高値である。ほとんど
の男性の発声者に対してはＡ_gaxの２．５mm²の値は好ま
しい値で割る。ＦＯは発音ピッチ周波数である。

【００２５】さらに声門１１２が開いているとき、声道
１０２による音響共鳴器は、音吸収体としてはたらく肺
に露出される。この音吸収によるパワー減少は共鳴の帯
域幅を広げる。この効果の好ましい近似は共鳴帯域幅を
Ａ_goに比例するように増加することによって定義され
（ブロック４１１）、以下の表５の疑似コードにより与
えられる。

【表５】好ましくは、Ｋ［１］＝０．６とＫ［２．．．４］＝１
の値は、たいていの人間の発声者の性質に一致する。前
述の計算は、好ましくは、１ピッチ期間毎に成し遂げら
れる。帯気と摩擦の時間の値は、好ましくは、出力音の
それぞれのサンプルに対して計算される（ブロック４１
２）。音声の好ましいサンプル速度は１ミリ秒当たり８
サンプルから１２サンプルの間である。時間値は好まし
くは、

【数１７】で与えられ、ここでｎｔｓは時間０から現時間ｔまで数
えた時間サンプルの累積数で、ｔ−ｓａｍｐはこの処理
を通して前述のループの間に計算された時間サンプルの
数の総数を求めるカウンタで、ｐｐはサンプルに与えら
れたピッチ期間である。

【００２６】図１０は１ピッチ期間当たり５つの区間で
計算した摩擦と帯気のエベロープのグラフ図が示してあ
る。第１と第５の区間ではＡ_go＋ＶＯの振幅を有してい
る（図１０の上の曲線にＶが示されている）。第３の区
間ではＡ_go−ＶＯの振幅を有しているが、好ましくは、
０より下へ越えないように端を切ってある。最初のステ
ップは１つの領域から次の領域までのスイッチング時間
を決めることである（ブロック４１３）。

【表６】第２のステップは１つの領域での傾きを決めることであ
る。

【表７】

【００２７】ここで帯気音とは声門１１２からの空気の
流れが食道１０５の端にぶつかるときにつくられる音
で、摩擦音とは空気の流れが口蓋の歯の近くに圧せられ
ている舌や下の唇のような緊縮した場所にぶつかるとき
につくられる音であることを振り返る。帯気や摩擦の振
幅は決められる（ブロック４１４）。好ましくは、帯気
のときの声門面積Ａ_goの効果は、

【数１８】により定義される。ここでＡ_hは用いられる特定の合成
器に依存する特定の単位で大きさを合わせなければなら
ないかもしれないことに注目する。Ｐ_gは、声門を通し
ての圧力において前に述べたように、Ｐ_gが２．５乗に
なっていることはオリフィスから下がってきた音の振幅
が典型的には、オリフィスに渡った圧力を表す示す２．
５乗で変化することを示す。好ましくは、緊縮の効果は

【数１９】により定義され、ここでｋ（ｙ）は緊縮の場所において
従属な変数の増分である。歯における緊縮の音（音素
“ＴＨｉｎ”の中にあるような“Ｆ”や“ＴＨ”）は歯
の後ろの緊縮のものと比べて約４分の１しか大きくな
い。また、変数ｙは調音的でなければ前述したようにＶ
ＡＬ［Ｊ］の１つとして定義される。前述したようにＰ
_cは乱流音の既知のふるまいを近似するために同様に
２．５乗に上げられる。出力波形を表す出力データ集合
を生成するために従来のプロセスが用いられる（ブロッ
ク４１５）。従来のプロセスの好ましい例は前に参照と
して示された次のＣ．Ｈ．Ｃｏｋｅｒ著の論文、「乱流
音の力学と制御のモデル“A Modelof Articulatory Dyn
amics and Control"」Proceedings of the IEEE（1976年
刊、Vol.64、No.4）の４５２〜４６０ページにより詳し
く記述されている。

【００２８】図８には、最終的には音を生成するのに用
いられる複数の音響量を単独で制御するように機能する
Ａ_gwのグラフ図を示す。前述のように量Ｒ₀は振幅比で
ある。Ｒ₀はＡ_gwが−２０の領域で高い値を有し、Ａ_gw
の正の領域での低い値までほぼ線形に減少するように図
示されている。この関数の応答は前述のように、

【数２０】に従う。

【００２９】１／Ｆ_hの量はスペクトルの始まりの高周
波数である１／Ｆ_hは負のＡ_gwにおいては低い値を有
し、前述の数式で予測したようにＡ_gwが大きな正値に対
しての高い値まで増加する。

【数２１】１／Ｆ_hをプロットした曲線は声道共鳴の帯域幅に対す
る線形加法的補正の結果にほぼ従う。前述のようにＶＯ
の量は、発声の振幅である。ＶＯは前に示した数式、

【数２２】に従い、Ａ_gwが−２０から＋２０の間でゼロでない値を
有するように図示されている。Ａ_gwが＋２０から＋３５
の領域では、ＶＯは相当にゼロより既に大きければ、ゼ
ロでない値にとどまるが、しかしながら、ＶＯは、とて
も低い値ならば、ゼロから遠くへ上がらない。この性質
はヒステリシス（履歴現象）として知られ、

【数２３】の特性の結果である。

【００３０】Ｒ₀、１／Ｆ_hとＶＯを示したグラフ図は図
示の目的のみにより取り入れられ、必要ではなくむしろ
実施態様の参照として好ましい。特定の適切な仮定、例
えば、声門面積に匹敵する声道の緊縮の面積が２０mm²
であるような、をしたときのＡ_g _wに対する他の結果とし
て、Ａ_gwは、

【数２４】に従う摩擦の振幅を予測するように機能する。

【００３１】その上、声門の構造を制御する幾つかの筋
肉の複合した作用をモデル化し、近似するために、図示
された具体例に従ってＡ_gwは用いられてきたが、他の適
切な関数、モデル、近似等は、幾種の音響パラメータが
お互い類似な関係を有するようにさせるように機能する
ように用いられてよい。このような適切な関係は音響パ
ラメータを一般的な原因に依存させる。このようにして
Ｒ₀、ＶＯおよびＦ_h等の値は本質的ではなく、例として
挙げれば、声帯波形や声門の気流は幾何学的や他の形態
で特性づけられていてよく、その変数のＳ字形移行を好
ましく仮定し、非線形従属をプロットする、例えば、／
ｈ／−母音の列のように、変数は発声練習のために時間
に対してプロットされていてよい。

【００３２】ここで、Ａ_gwの関数として従属パラメータ
がプロットされたグラフの下の、図８の底部に示され
た、水平方向の矢印に注目する。この矢印は、各音素群
のＡ_gwの典型的な値の領域を表している。図示された矢
印の方向印のある端は、各音素群の強勢時の移行に対応
する領域の端を表す。従って矢印の方向印のない端は、
各音素群に対し、好ましくは、ＶＡＬＰ［ＰＨ，Ｊ］に
対応し、矢印の長さはＤＥＬＴＡＶ［ＰＨ，Ｊ］に対応
する。例えば、ＰＨが母音Ｏを表し、ＪがＡ_gwを表すと
すると、ＶＡＬＰ［Ｏ，Ａ_gw］およびＤＥＬＴＡ［Ｏ，
Ａ_gw］は、それぞれほぼ２０および−４０である。

【発明の効果】以上述べたように、本発明によれば、発
音励起状態移行の表現を決定し、少ない蓄積データにて
正確な音素合成をする音声処理システムを実現できる。

【図面の簡単な説明】

【図１】ａ）人の頭部の断面図を示す。ｂ）人の声門の断面図を示す。

【図２】本発明の原理に基づくパーソナル・コンピュー
タの等角図を示す。

【図３】１つの演算装置と１つのメモリ記憶装置を有す
るマイクロプロッセッシング・システムのブロック図を
示し、これは図２のパーソナルコンピュータと結合して
使用することができる。

【図４】本発明の原理に基づく音声合成を行う過程の流
れ図を示す。

【図５】フィルタＳ（ｘ）の好ましい応答のグラフ図を
示す。

【図６】声帯の間の振動的に中立な領域の面積の近似的
なふるまいのグラフ図を示す。

【図７】生理学的変数Ａ_gwのグラフ図を示す。

【図８】Ａ_gwのグラフ図を示す。

【図９】調波音の周波数に対する振幅のグラフ図を示
す。

【図１０】ピッチ周期当たり５つの部分で計算された摩
擦と帯気のエンベロープのグラフ図を示す。

【符号の説明】

１０１鼻腔１０２声道１０３軟口蓋１０４喉頭蓋１０５食道１０６気管１０７声帯１０８外側輪状被裂筋１０９後輪状被裂筋１１０被裂軟骨１１１甲状被裂筋１１２声門１１３外側へ押す肺からの圧力２００パーソナルコンピュータ（ＰＣ）２０１ハードウェアケース２０２フロッピーディスク装置２０４ハードディスク装置２０５キーボード２０６演算装置（ＣＰＵ）２０７メモリ記憶装置（ＲＡＭ）２０８マウス２０９音響エネルギーを生成する装置（スピーカー）３００制御ユニット３０１算術論理演算ユニット（ＡＬＵ）３０２局所メモリ記憶装置３０３データバス

Claims

【特許請求の範囲】

【請求項１】ある発声励起状態から別の励起状態への
移行のパターンをつくるように、出力データ集合を生成
する、音素合成に用いられる音声処理システムにおい
て、前記出力データ集合が複数のデータ部分集合を含
み、前記音声処理システムが、ａ）少なくとも１つのテキストデータ部分集合を含むテ
キストデータ集合を受け取る手段と、ｂ）複数のプロセッシングシステム命令を記憶できる少
なくとも１つのメモリ記憶装置（２０７）と、ｃ）前記メモリ記憶装置からの少なくとも１つの演算装
置命令を読み込み実行することにより、前記出力データ
集合を生成する少なくとも１つの演算装置（２０６）と
を有し、前記演算装置が、ｉ）前記の受け取ったテキストデータ集合を音声データ
集合に変換し、ここで、前記音声データ集合は複数のそ
れぞれが特定の音声状態を表す音声データ部分集合を含
み、ｉｉ）前記出力データ集合を生成するために人の発声シ
ステムの選ばれた部分を表す生理学的変数の関数として
前記音声データ集合を挿入し、これにより前記音声デー
タ部分集合が、前記出力データ部分集合のそれぞれに対
する集団的な寄与が決定するように、加え合わされるよ
うに機能することを特徴とする音声処理システム。
【請求項２】前記出力データ集合を送り出す手段をさ
らに有することを特徴とする請求項１記載の音声処理シ
ステム。
【請求項３】前記演算装置が、前記人の発声システム
がある発声励起状態から別の励起状態へ移行する際に、
選ばれた肉体的な変化の関数として前記生理学的変数を
計算するようにさらに機能することを特徴とする請求項
１記載の音声処理システム。
【請求項４】前記生理学的変数が、前記人の発声シス
テムにおける人の筋肉のふるまいを表し、前記演算装置
が、ある期間での前記人の発声システムの声帯の間の距
離の変化を決定するように機能することを特徴とする請
求項３記載の音声処理システム。
【請求項５】前記音声データ部分集合のそれぞれが、
少なくとも１つの音響上の特性を表すことを特徴とする
請求項１記載の音声処理システム。
【請求項６】前記音響上の特性が、ａ）有声音の基調波音の振幅と、ｂ）高周波音の集成的な振幅と、ｃ）有声音の高調波周波数のスペクトルの開始点と、ｄ）帯気音の振幅および時間のエンベロープと、並びにｅ）摩擦音の振幅および時間のエンベロープとからなる群により選択されることを特徴とする請求項５
記載の音声処理システム。
【請求項７】前記生理学的変数が、発声時に人の声門
を制御できるように機能する複数種の筋肉の相互作用を
表し、前記演算装置が、低域通過フィルタを用いて声門
制御の経過時間を得られるようにさらに機能することを
特徴とする請求項１記載の音声処理システム。
【請求項８】前記低域通過フィルタが、人の発声シス
テムがある発声状態から別の状態へ移行するときに、声
門の幅のふるまいをモデル化することを特徴とする請求
項７記載の音声処理システム。
【請求項９】ａ）複数のテキストデータ部分集合を含
むテキストデータ集合を受け取る入力ポートと、ｂ）言語音の列を表す出力データ集合を生成するため
の、少なくとも１つの演算装置とを有し、前記演算装
置が、ｉ）前記人の発声システムがある発声状態から別の状態
へ移行するときに、人の発声システムの選ばれた肉体的
な変化の関数として、生理学的変数を計算し、ｉｉ）前記出力データ集合を生成するために、前記生理
学的変数の関数として前記テキストデータ集合を処理
し、ここで前記テキストデータ部分集合は、前記言語音
のそれぞれに対しての集団的な寄与を決定するためにお
互い加え合わされた、複数の、音声データ集合に変換さ
れる、ように機能することを特徴とする請求項６記載の
音声処理システム。
【請求項１０】前記出力データ集合を送り出す手段を
さらに含むことを特徴とする請求項９記載の音声処理シ
ステム。
【請求項１１】前記生理学的変数が、前記人の発声シ
ステムにおける人の筋肉のふるまいを表し、前記演算装
置がある発声励起状態から別の励起状態への移行のとき
の前記人の発声システムにおける肉体的な筋肉の変化お
よび声門面積を予測できることを特徴とする請求項９記
載の音声処理システム。
【請求項１２】前記音声データ部分集合のそれぞれ
が、少なくとも１つの音響上の特性を表すことを特徴と
する請求項９記載の音声処理システム。
【請求項１３】前記音響上の特性が、ａ）有声音の基調波音の振幅と、ｂ）高周波音の集成的な振幅と、ｃ）有声音の高調波周波数のスペクトルの開始点と、ｄ）帯気音の振幅および時間のエンベロープと、並びにｅ）摩擦音の振幅および時間のエンベロープとからなる群により選択されることを特徴とする請求項１
２記載の音声処理システム。
【請求項１４】前記生理学的変数が発声時に人の声門
を制御できるように機能する複数種の筋肉の相互作用を
表し、前記演算装置が、Ｓ字形フィルタを用いて声門制
御の経過時間を得られるようにさらに機能することを特
徴とする請求項９記載の音声処理システム。
【請求項１５】前記Ｓ字形フィルタが、人の発声シス
テムがある発声状態から別の状態へ移行するときに、声
門の幅のふるまいをモデル化することを特徴とする請求
項１４記載の音声処理システム。
【請求項１６】受け取ったテキストデータ集合から、
音響パラメータの出力データ集合を生成する音声処理方
法において、ここで前記出力データ集合は、ある発声励
起状態から別の発声励起状態までの移行のパターンを表
し、前記音声処理方法が、ａ）前記受け取ったテキストデータ集合から音響データ
集合に変換するステップにおいて、前記音声データ集合
が、それぞれが特定の発声状態を表す、複数の、音声デ
ータ部分集合を含んでいるステップと、ｂ）少なくても１つの音記述子を前記音声データ部分集
合のそれぞれに割り当て、前記割り当てられた音記述子
を時系列に変換するステップと、ｃ）人の発声システムの選ばれた部分を表す、発声励起
制御変数をつくるステップと、ｄ）前記音声データ集合を前記発声励起変数の非線形関
数として処理することにより音響パラメータの前記出力
データ集合を生成するステップとからなり、前記音声デ
ータ部分集合の集団的な寄与がある発声励起状態から別
の発声励起状態への移行のパターンのそれぞれに対して
決定することを特徴とする音声処理方法。
【請求項１７】前記出力データ集合を送り出すステッ
プをさらに有することを特徴とする請求項１６の音声処
理方法。
【請求項１８】ある期間での前記人の発声システムの
声帯間の距離の変化を決定するように前記発声励起変数
を用いるステップをさらに有することを特徴とする請求
項１６の音声処理方法。
【請求項１９】前記発声励起変数が、発声時に人の声
門の制御をできるようにした、複数の、筋肉の相互作用
を表し、前記音声処理方法が低域通過フィルタを用い声
門の和の経過時間を得るステップをさらに有することを
特徴とする請求項１６の音声処理方法。
【請求項２０】前記生成ステップが摩擦および帯気に
おいての振幅を計算するステップを含んでいることを特
徴とする請求項１６の音声処理方法。