JPH0895597A - 音声処理システムおよびその方法 - Google Patents

音声処理システムおよびその方法

Info

Publication number
JPH0895597A
JPH0895597A JP7259549A JP25954995A JPH0895597A JP H0895597 A JPH0895597 A JP H0895597A JP 7259549 A JP7259549 A JP 7259549A JP 25954995 A JP25954995 A JP 25954995A JP H0895597 A JPH0895597 A JP H0895597A
Authority
JP
Japan
Prior art keywords
data set
vocalization
speech
processing system
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7259549A
Other languages
English (en)
Inventor
Cecil H Coker
ハロルド コーカー セシル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH0895597A publication Critical patent/JPH0895597A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Percussion Or Vibration Massage (AREA)
  • Telephone Function (AREA)
  • Prostheses (AREA)

Abstract

(57)【要約】 【課題】発音励起状態移行の表現を決定し、少ない蓄積
データにて正確な音素合成をする音声処理システムを提
供する。 【解決手段】本発明による音素合成を行うためのシステ
ムと方法においては、受け取ったテキストデータ集合か
ら音響パラメータからなる出力データ集合(発声励起状
態の移行のパターンを表す)を生成するように機能す
る。テキストデータ集合はそれぞれ、音記述子が割り当
てられた複数の音素データ集合に変換され、人の発声シ
ステムの選ばれた部分を表す、発声励起制御変数の非線
形関数として音素データ集合を処理することにより、生
成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音響分析、特に音素
合成を行うためのシステムと方法に関する。
【0002】
【従来の技術】音素合成においては、ある程度の詳細な
情報を声道のモデルの動作から見いだそうとする。典型
的には、従来の音声合成システム、例えば共鳴、声道や
LPC(線形予測符号化)合成器は、与えられた入力デ
ータまたは音源、および前の出力の短いリストから、次
のサンプル音を演算するためのいくつかの数式を用い
る。共鳴合成器においては例えば、4kHz以下のそれ
ぞれ共鳴のための数式の組がある。声道とLPC合成器
においては、例えば数式の組が人の声道の中の異なる場
所において多様な音を表現するのに使われる。
【0003】人の筋肉組織が言語音の持続時間と比べて
ゆっくり形状を変化させるので、人の声道は、ある音声
状態から別の音声状態へのなめらかな移行をさせるため
に機能する。このようにして、従来の合成器では安定し
た単調な連続音をお互いにつなぎ合わせるのに十分では
ない。なぜなら一方では、急な音とびがわずらわしい、
言語音に類似しない、カチッやポンと言うような音をつ
くる。他方では、いくつかの母音の連続だけでなく多く
の子音の連続は、安定な状態によってではなく、ある言
語音状態から次の状態へ変化することにより送り出され
る。多様な音声素片の文字の中のニュアンスは、文構
造、強調、およびはっきりしない多数のコミュニケーシ
ョン因子、例えば楽しさ、決定、皮肉等を伝える。さら
に、直接的なコミュニケーションの価値をもたない部分
はそれでも重要であることがあり、聞き手の期待するも
のからの聞き取れる状態の逸脱は、わずらわしくなり、
さらに悪いことに誤った意図を伝えることになる。従っ
て、自然で気持ちよく聞こえるためには、多数の非常に
詳細な部分に関して正確であることを必要とする。移行
する詳細部分を再生するための音声合成におけるアプロ
ーチ(研究方法)は、典型的には、どちらも規則による
が、規則による移行の方法、または蓄積データ使用の方
法のどちらか1つの方法に従う。
【0004】
【発明が解決しようとする課題】規則による移行のアプ
ローチは、多くの商業的な合成器に使用され、また時間
に対してプロットされた幾何学的な曲線によって、音声
素片間の変化を描写する。規則による移行のアプローチ
は、声道共鳴の動作または舌、唇、顎等の動作を描写す
る。蓄積データ使用のアプローチは、規則による移行の
アプローチと比較すると、典型的には未加工の音声を録
音、分析し、それによる音声素片の対の間の移行の標本
から、より一般的にはある音声素片の半分から始まり、
別の音声素片の半分で終わる列を抜粋する。双方のアプ
ローチは、強勢および音節と語の境界に関連した状況の
ために、実際の言葉の音声素片の変化を識別することを
各音声素片を再生するための厳しい規則が欠くことだけ
でなく、隣接した音声素片の間の1次相互作用のみを再
生することを含む、いくつかの問題をもっている。規則
による移行のアプローチは、典型的には、励起の表現は
極端に単純化した表現になってしまい、なぜなら励起の
瞬間的なふるまいは規則によって表されるには複雑すぎ
ると思われるからである。逆に蓄積データ使用のアプロ
ーチは、このような移行を再現するが、使用できる処理
システム資産や記憶装置は言うに及ばず、音声素片、強
勢と境界の標本、および文脈の、マークされたものと集
合したものとの組合せの大きな量によって生来的に制限
された処理システムに記憶される場合に限られる。前述
の問題や制限は、正確で、従って産業上望ましい音声合
成器をつくることに対し最も有力な障害となっている。
【0005】
【課題を解決する手段】本発明の原理に従って、ある音
声の励起状態から別の励起状態への移行の複雑なパター
ンを再生する、音素合成を行うためのシステムと方法が
提供される。単純なふるまいの単一の根元的なパラメー
タ、即ち変数、に対してそれぞれが非線形依存するよう
な、複雑なふるまいを示す、無関係に見える数種の、音
響上の量により表現することにより、再生は達成され
る。この根元的な変数は、1つの音声素片ごとの1つの
コマンドにより動かされる。即ち、1つの音素または半
分の音素により動かされる。音素とはより詳細には、言
語音の基本単位または基本要素である。前記コマンドの
前記変数への応答は、ある規定された値から別の値に単
純なS字型の移行をするにつれて生成される。
【0006】ある発声励起状態から別の励起状態へ移行
するパターンをつくるために、データ部分集合からなる
出力データ集合を生成する、本発明に基づいた実施態様
の例である処理システムは、受け取る手段と、少なくと
も1つのメモリ記憶装置と、および少なくとも1つの演
算装置とを有する。前記の受け取る手段は、少なくても
1つのテキストデータ部分集合を含むテキストデータ集
合を受け取るように機能する。前記メモリ記憶装置は、
複数の処理システム命令を記憶するように機能する。前
記演算装置は、前記メモリ記憶装置から少なくとも1つ
の演算装置命令を検索、実行し、z出力データ集合を生
成するように機能する。z演算装置は、受け取ったzテ
キストデータ集合を、複数の音声データ部分集合を含む
音声データ集合に変換する。ここで前記音声データ部分
集合のそれぞれは、特定の音声状態を表し、出力データ
集合を生成する、人の発音システムの選択された部分を
表す生理学的変数の関数として音声データ集合を挿入
し、これにより音声データ部分集合は加え合わされ出力
データ部分集合のそれぞれへの集団的な寄与を決定す
る。
【0007】音素合成を実行する、本発明の原理に基づ
く別の実施態様の例は、複数のテキストデータ部分集合
からなるテキストデータ集合を受け取るように機能する
入力ポートと、および少なくとも1つの演算装置とを含
む。演算装置は、人の発音システムがある励起状態から
別の励起状態へ移行するにつれ、生理学的な変数を人の
発音システムの、選ばれた肉体的変化の関数として計算
することにより、音声の列を表す出力データ集合を生成
するように機能し、出力データを生成するために生理学
的変数の関数としてテキストデータ集合を処理するよう
に機能し、ここでテキストデータ部分集合は、音声のそ
れぞれへの集団的な寄与を決定するように加え合わされ
た複数の音声データ集合に変換される。
【0008】本発明の原理に基づくある動作方法の実施
態様において、受け取ったテキストデータ集合からの音
響パラメータからなる出力データ集合の生成は重要であ
り、ここでz出力データ集合は、ある発声励起状態から
別の励起状態への移行パターンを表す。この方法は受け
取ったテキストデータ集合を、複数の音声データ部分集
合を含む音声データ集合に変換し、ここで音声データ部
分集合のそれぞれは特定の発声状態を表す。そこで少な
くとも1つの音声記述語が、音声データ部分集合のそれ
ぞれに対して割り当てられ、これらは時系列に変換され
る。発声励起制御変数は、人の発声システムの、選ばれ
た部分を表すように設定される。音響パラメータからな
る出力データ集合は、音声データ集合を発声励起変数の
非線形変数として処理することにより生成され、これに
より音声データ部分集合の集団的寄与が、ある発声励起
状態から別の励起状態へ移行するパターンのそれぞれに
対して決定される。
【0009】本発明を使用したり分配する実施態様の例
として、記憶媒体に記憶されたソフトウェアがある。こ
のソフトウェアは本発明の原理に基づく音素合成を行う
ため、少なくとも1つの演算装置を制御するためのコン
ピュータ命令を含む。使われる記憶媒体には磁性媒体、
光学媒体や半導体チップが含まれるが、これらに限定さ
れない。本発明の別の実施態様においてあえて挙げれ
ば、ファームウェアやハードウェアとしてもまた提供さ
れる。
【0010】
【発明の実施の形態】本発明の原理およびその特徴や利
点は図1〜図10に描かれた図によってより深く理解さ
れる。
【0011】図1(a)は人の頭部の断面図を示し、鼻
腔101、声道102、軟口蓋103、喉頭蓋104、
食道105、気管106、および声道102は何らかの
原因、例えば、肺が何らかの抵抗に逆らって空気を無理
に出して肺にエネルギーを使わせたとき、によって励起
させられたときに音をつくるように機能する。有声励
起、帯気、および摩擦のような発声の原因となる動作
は、肺の力を可聴音に変換する空気力学的なプロセスで
ある。より詳細には、有声励起は、肺からの空気が声帯
107を振動させる気管106を流れ抜けるときに生
じ、帯気は、肺からの空気が気管106を喉頭蓋104
またはその付近における乱流に原因する音、例えば不規
則、非反復的、またはランダムな音、を生じるように流
れ上がるように生じ、そして、摩擦は、肺からの空気が
気管106を声道の緊縮、例えば、口蓋または歯の一方
に対する舌(図示せず)、または歯に対する唇(図示せ
ず)、における乱流に原因する音が生じたときに生じ、
これらの音は、音響共鳴器として機能する声道102を
通過し、周波数帯をいくらか広げる。例えば成人の大き
さの声道102は100Hz〜4000Hzの間の音声
バンドにおいて3ないし6の共鳴周波数がある。声道の
形はよく変異し、異なった形は異なった音素として聞こ
える。前述のように音素は音声の基本単位であり、他の
音素と組み合わされると語を形成する。有声励起モード
の様々な組み合わせもまた、音素を区別することに寄与
する。例えば、t、d、sおよびzは、実質的に同じ声
道の形であるが、励起において異なる。
【0012】音素合成は各音素の目的、即ちゴールであ
る声道の形をモデル化することにより見いだされる。し
かしながら、音素間の移行はなめらかで自然であること
が望ましい。例えば4つの変数v、r、aおよびfに対
する声道の特徴を説くことを考えてみる。図7に示すよ
うに、全ては生理学的変数Agwに従属な関数としてモデ
ル化できる。Agwはより詳細には声帯107による筋肉
制御を表す。声道102の位置や緊縮の度合の、もしあ
れば、幾つかの知識とともに、Agwは振幅と、帯気と摩
擦との一時的なふるまいを決めるように機能する。Agw
は自動的に、中間状態の自然な列を通過するような方法
で、音声を合成するようにここにおいて用いられる。本
発明の原理に従うと、図4に示されたプロセスは、従来
のプロセスのように、音素合成を2つの音素による、単
一の重複に制限しない。これは筋肉制御およびそれらに
関係する応答によりAgwをモデル化することにより得ら
れた。音素がお互い混ぜ合わさるようになるのは、しか
しながら、人の発声システムの筋肉組織に原因がある。
従って本発明の視点は、全ての音素の、言語音の生成へ
の寄与を加え合わすように機能する挿入(interpolatio
n)プロセスの利用にある。この結果、音素とそれらの
中間状態との間のなめらかで自然な移行が得られる。
【0013】図1(b)は人の発声システムの断面図を
示し、声帯107、外側輪状被裂筋108、後輪状被裂
筋109、被裂軟骨110、甲状被裂筋111、および
声門112を含む。声門112とは、声帯107の内側
の領域である。呼吸時には、声帯107は後輪状被裂筋
109によりかなり引き離され、後輪状被裂筋109は
被裂軟骨110を回す。発声時には、声帯107は同じ
ようにして開くが、摩擦音に関しては比較的小さく開
く。有声音の時には、声帯107は閉じていて、これは
主に甲状被裂筋111によって行われ、被裂軟骨110
を回すことになる。声門域はさらに2つの他の肉体の因
子により影響され、それらは、声帯107の中央におい
て外側へ押す、肺からの圧力113、Psと、声帯10
7の中央において内側へ押す、甲状被裂筋111の湾曲
度である。
【0014】図2は音響エネルギーを生成する従来の装
置209につながったパーソナルコンピュータ(PC)
200の等角図を示す。PC200は本発明の原理に従
った音素合成を行うためにプログラムされ得る。PC2
00は、ハードウェアケース201(内部が見えるよう
に描いている)、モニタ204、キーボード205およ
びマウス208からなる。モニタ204とキーボード2
05、およびマウス208はそれぞれ他の適当に設定さ
れた出力と、入力装置に入れ替えられ、または組み合わ
せて用いられる。ハードウェアケース201はフロッピ
ーディスク装置202とハードディスク装置203の両
方を有している。フロッピーディスク装置202は外部
ディスクを受け取り、読み込み書き込むことができ、ハ
ードディスク装置203は高速アクセスのデータ記憶お
よび検索を提供する。フロッピーディスク装置202の
みしか描かれていないが、PC200はデータを受け取
り、送り出す適切に設定された構造体、例えば、テープ
やコンパクトディスク装置およびシリアルやパラレルの
データポート、を装備されていてもよい。ハードウェア
ケース201の内部が見える部分の中には演算装置20
6があり、図示された例では、ランダムアクセスメモリ
(RAM)であるメモリ記憶装置につながっている。P
C200は、図において単一の演算装置206を有して
いるが、本発明の原理を共同して実現する複数の演算装
置206を有していてよい。同様にPC200は、単一
のハードディスク装置203とメモリ記憶装置207を
有しているが、適切に設定されたメモリ記憶装置やその
複数でもよい。さらにPC200は単一の処理システム
の例での使用として描かれているが、本発明の原理は、
少なくとも1つの演算装置を有するいかなる処理システ
ム、例えば、洗練された計算機や、ハンドヘルド(手に
持てる)、ミニ、メインフレームおよびスーパーの各種
コンピュータで、RISCや並列の各処理アーキテクチ
ャおよび前に挙げたものの間での処理システムネットワ
ークの組み合わせを含むもの、において実行することが
できる。好ましい実施態様においては、PC200はI
RIS INDIGOワークステーションがよく、米国
カリフォルニア州マウンテンビュー市のSilicon
Graphics,Inc.から提供されている。ワ
ークステーションの処理環境は、好ましくはUNIXオ
ペレーティングシステムによるものがよい。
【0015】図3はあるマイクロプロセッシングシステ
ムのブロック図を示し、PC200と共に使用される演
算装置とメモリ記憶装置を有する。マイクロプロセッシ
ングシステムはデータバス303を通って、例えばRA
M207のようなメモリ記憶装置につながっている単一
の演算装置206を有する。メモリ記憶装置207は、
演算装置206が検索、解釈、そして実行できるような
1以上の命令を記憶できる。演算装置206は、制御ユ
ニット300、算術論理演算ユニット(ALU)30
1、および局所メモリ記憶装置302、例えばスタック
可能なキャッシュメモリや複数個のレジスタ、を有す
る。制御ユニット300はメモリ記憶装置207からの
命令を読み出すことができる。ALU301は、命令を
実行するのに必要な、加算およびブール代数のANDの
演算を含む、複数の演算を実行できる。局所メモリ記憶
装置302は、一時的な結果や制御情報を記憶するのに
用いられる局所の高速記憶ができる。
【0016】図4は、本発明の原理に従った音素合成を
行うためのプロセスの流れ図を示す。ここで描かれたプ
ロセスはFORTRANプログラミング言語によりプロ
グラムされているが、機能的に適したいかなるプログラ
ミング言語も入れ替えられたり、共に用いられることが
できる。このプロセスは、好ましくは、オブジェクトコ
ードにコンパイルされ、使用時にはPC200のような
処理システムに読み込まれる。前述したようにこれとは
別に本発明の原理は、いかなる適切な形のファームウェ
アやハードウェアにおいても実現できる。
【0017】図示されたプロセスはスタートのブロック
に入ることから始まり、次に、1以上のテキストデータ
部分集合を含むテキストデータ集合が受け取られる(ブ
ロック401)。テキストデータ部分集合のそれぞれは
いかなる語、句、省略、頭字語、コノテーション(言外
の意味)、数字または他の認識できる文字、記号や記号
列を含んでよい。テキストデータ集合は語、数字やある
いは音素を表す。テキストデータ集合は音声データ集合
に変換される(ブロック402)。音声データ集合は音
を含み、強勢記号、伸延期号(ポーズ)や発話の“読
解”を指示する他の句読点を共に含む。音(phon
e)とはより詳細には、音素合成器に記憶されたデータ
ベースの中の、いかなる音素または音素に準ずるもので
ある。データベースは好ましくは、例えばPC200の
ようなプロッセッシングシステムに記憶された音素デー
タの集合体である。この変換を行う技術は、例えば、参
照として示す、Olive、RoeおよびTischirgi共著の論文、
「聞きもする音声処理システム“Speech Processing Sy
stems That Listen,Too"」AT&T Technology(1991年刊、V
ol.6,No.4)のように知られていて、より詳しく記述さ
れている。好ましくは、句、省略、頭字語、数字または
記号や記号列の他の認識できる文字を表す、テキストデ
ータ部分集合のそれぞれは、普通の語により写像され置
換される。テキストデータ集合もまた好ましくは、発音
と、テキストデータ部分集合のそれぞれを個々または関
連するグループで、音声データ集合の対応する部分集合
に変換する辞書プロセスに従う。好ましくは発音と辞書
プロセスもまた、強調/非強調や伸延を制御するための
句読点を挿入するために句分析を行う。前述したことは
参照として示されたOlive、RoeおよびTischirgi共著の論
文、「聞きもする音声処理システム“Speech Processin
g Systems That Listen,Too"AT&T Technology(1991年
刊、Vol.6,No4)においても説明されている。
【0018】図に示された実施態様において、音声デー
タ集合は好ましくは3つのデータ構造からなり、各分節
素(segment)、Iによる3つの1次元のリス
ト、即ち、PHON[I]、STRESS[I]および
DUR[I]であり、それぞれ音、強勢および定められ
た耐久時間である。各分節素は好ましくは、単一の音で
ある。例えば、6文字からなるテキスト語である“ma
rket”の語について考えてみる。ここで文字と音と
の間には、1対1の対応が通常はないことに注目する。
“market”が音声データ・フォーマット(書式)
に変換されると、6つの音“m”、“a”、“r”、
“k”、“i”および“t”となり、即ちそれぞれは分
離した分節素になる。これらの分節素はPHON[1]
=“m”からPHON[6]=“t”までのように記憶
される。好ましくは各分節素に対してSTRESS
[I]とDUR[I]がある。STRESS[I]とD
UR[I]は好ましくは、データベースより検索された
定められた値であり、ここでPHON[I]は適切な値
で指数付けされるように用いられる。さらに各分節素に
は、分節素がゆっくりと変化する時間の尺度を示す関連
するパラメータJがある。各パラメータには好ましく
は、特定の選ばれた機能を有する所望された音声合成シ
ステムに適合するいかなる他の変数とともに、AgwとP
sを含む。各分節素と各パラメータに対して好ましくは
3つの定められた値、VAL[I,J]、TAU[I,
J]およびT[I,J]がある(ブロック403)。V
AL[I,J]は分節素IのパラメータJの定められた
目的値である。TAU[I,J]はパラメータJの分節
素I−1から分節素Iまでの移行時間の長さであり、即
ち、S字形移行が好ましくは、10%から90%の完成
度へ移る時間である。T[I,J]は、都合のよい参照
点から測定した、S字形移行が50%の完成度になるま
での間の時間であり、即ち、パラメータJが分節素I−
1の値から分節素Iの値まで移行する期間であり、好ま
しくは、ミリ秒単位である。VAL[I,J]、TAU
[I,J]およびT[I,J]の値は音声記述子のデー
タベースから定められ、表1により明確に示されてい
る。図示された実施態様において、記述子データベース
はファイル、VALP[PH,J]、DELTAV[P
H,J]、PRI[PH,J]およびTAUV[J]を
有する。好ましくは、PHはデータベースへ索引するた
めの一時的変数であり、VALP[PH,J]はパラメ
ータJの分節素PHに対する目的値を含み、DELTA
[PH,J]は強勢の変動を説明する点傾き値を含み、
PRI[PH,J]はパラメータJの分節素PHへの相
対的な重要度を示す0から0.5間の値を含み、そして
TAUV[J]はパラメータJの特性速度を含む
【表1】 上に示されたアルゴリズムは、第1引数が他のいずれか
の引数と一致するかどうか、例えば“D”が“weaT
Her”の中の“TH”と一致するか、または“Z”が
“aZure”の中のものと一致するかというように、
決定するように機能する“if”節を含むことに注目す
る。この“if”節は説明の目的にのみに取り入れら
れ、いかなる機能的に適切なコードも所望の演算を実行
するために含まれる。またカウンタ、NSEGとNVA
Rは好ましくは、予め決められていて、それぞれ分節素
と変数の総数を記憶するように機能する。前述の目的
値、時間、移行時間の長さ、声門下部の圧力等の指定は
参照として取り入れるC.H.Cocker著の次の論文、「調音
の力学および制御のモデル“A Model of Articulatory
Dynamics and Control"」Proceedings of the IEEE(1976
年刊、Vol.64、No.4)の452〜460ページにより詳
しく記述されている。
【0019】VAL[I,J]、TAU[I,J]およ
びT[I,J]の量は、分節素当たりの音の数から時系
列Vj(t)へと変換され、ここでS字形移行は一定時
間ごとのステップで、1ピッチ期間当たり1つまたは他
のサンプル周期、で求められる(ブロック404)。こ
こでパラメータJは、特定の合成システムに適するよう
なあるいは他の所望の値とともに、変数AgwとPsに好
ましくは、関連する等間隔の時間の周期が用いられれ
ば、周期は、好ましくは、10ミリ秒の桁である。ここ
で用いられた時間の変換は、
【数1】 のように表され、ここでVj(t)は声門幅か声門下部
の圧力のいずれかのステップ応答であり、VAL[I,
J]は分節素とパラメータの目的値であり、S(x)は
音Iのフィルタのステップ応答であり、そしてVAL
[I,J]−VAL[I−1,J]の量は分節素I−1
とIの間での目的値の変化である。Iに渡っての和はス
テップ応答の数の和を表す。この加算による方法は、作
用する変数が声門とその制御筋の慣性および粘性の特性
をよくモデル化してあるので可能となった。ここでの時
間変換は表2に疑似コードとしてより明確に示す。
【表2】 表に示された実施態様では、好ましくは、V[1]はA
gwで、V[2]はPsである関数S(x)の値のある好
ましい例として、
【数2】 ここでdは直線部分(0≦d≦0.5)の長さで、γは
接近点から特定の目的値までの出発するカーブの“尾”
の長さで、a、b、gおよびuは数式を単純化するのに
用いた従属量である。実際的な結果としてはdの値は
0.3γで約2.5の桁である。典型的な好ましい応答
を図5に示す。図5に示されたものに類似するS字形応
答を好ましく提供するいかなる適切に設定されたフィル
タも上の処理ステップと数式と共に用いられ、または置
き換わることに注目すべきである。
【0020】前述したようにAgwは面積の単位で表され
る声門筋のふるまいを表す。Agwは、図1(b)に示す
甲状被裂筋111の緩和と後輪状被裂筋109の緊張を
表す。Agwは声門の開口部とも呼ばれる、声帯の間にあ
る振動的に中立な領域の面積を表す。Agoは、Agwに対
するAgoで表されるような実際の肉体の声門面積の曲線
がAgoが約5mm2より大きくなるような傾きをだいたい
1つ持つように大きさを合わせられる。後輪状被裂筋1
09を緊張させると、Agwの値を減らすが、被裂軟骨1
10を回し、発声プロセスを双方ともに行うようにな
る。この寄与はApsとして参照される。声門下部圧力P
sは声帯107の中央で外側に押して反りをつくり、こ
の寄与はApsとして参照される。甲状被裂筋111の湾
曲は側面からの内側方向に圧力を加えさせ、反りをつく
る。この寄与はAgsとして参照される。Agoはこれら3
つの効果の結果として得られた和であり(ブロック40
5)、これは、
【数3】 で与えられ、ここでAga、ApsおよびAgsに選んだ値
は、
【数4】 で与えられる。前述したようにPsは図1(b)の声帯
107の中央で外側方向に押す肺からの空気圧力を表
し、Akneeは、比較的平坦な傾きから比較的急な傾きま
での移行と、被裂軟骨の先端の硬さに肉体的に関係する
移行との急激さを表す(発声プロセス)。好ましくは、
kneeの値は約1.25がよい。声帯の間の振動的に中
立な領域の面積の計算のための好ましいプロセス・ステ
ップは次の表3の疑似コードの形でより明確に示され
る。
【表3】
【0021】図6に移ると、Agoのふるまいをグラフで
表す座標図が示されていて、ここで曲線上の点は約4ミ
リ秒の周期でプロットされている。ここで2つの本質的
な線形空間があり、これらは被裂軟骨110が自由に回
ることができる第1の領域と、被裂軟骨110がさらな
る動作が出来ないようにされている第2の領域である。
gwが正の値から変化してより負になれば、被裂軟骨1
10の発声プロセスは接近して同一になり、さらなる動
きをさせない。面積Agoの被裂軟骨成分は、0で飽和
し、側方圧力成分AgsによりAgoのさらなる変化が起こ
る。従ってAgoは低面積域と高面積域の2つの直線領域
を有する。低面積域において、被裂軟骨110は押され
て一緒になり、さらに動くことができない。この領域で
は面積は、空気の圧力の成分Apsと、側方圧力成分Ags
との和である。これと比較すると、高面積域では被裂軟
骨110は自由に動く。Agoと低面積域の延長との差
は、被裂軟骨成分Agaである。そこで図示のプロセス
は、声帯やいかなる緊縮、例えば、歯、唇等のような、
を通しての声道102の準静的圧力の分布を計算する
(ブロック406)。ここで緊縮を通る流れは、参照と
して取り入れるJ.L.Flanagan著の本「音声
分析、合成、および感受“Speech Analysis,Synthesis,
and Perception"(Springer出版1972年間第2版)の
43〜48ページにより詳しく記述されている、緊縮に
関するベルヌーイの定理に従うことに注目する。さらに
物理の基本法則F=mAに従い、圧力の差Pに渡って加
速するときに、空気の基本的な体積を予測し、速度vを
得ることにも注目し、これは以下の規則、
【数5】 により与えられ、ここでPは緊縮に渡っての空気の圧力
であり、Pは空気の密度である。空気の流れの体積の総
量Uは面積aと速度vの積で定義され、
【数6】 であり、ここでaは好ましくは、声門面積か緊縮の面積
のいずれかの、オリフィスの面積である。ここで安定状
態の場合には、音響腔の流出は流入と等しくなければな
らないことに注目し、ここで流入と流出を等しくするこ
とは、
【数7】 により与えられ、添字gとcはそれぞれ声門と緊縮を表
し、バー(上線)はある期間、即ち1以上のピッチ期
間、での平均を表す。声門下部の圧力Psは緊縮に渡っ
ての圧力と唇に渡っての圧力との和であり、
【数8】 で与えられる。しかしながらここで音響腔が曲げられる
壁を持つことと、空気が圧縮し得ることに注目する。結
果として得られるバネに似た性質は、比較的瞬時に、音
響腔の中と大気との空気の流れの差により外に流れ出さ
せる。流れの抵抗が線形であれば、Pcは、目的の大気
圧に指数的な時間の曲線で接近し、しかしながら、空気
の圧力の流れの関係が非線形であるために近似的にしか
指数的でしかない、従って指数的な曲線は好ましい近似
である。瞬間的なロ腔圧力PcとTAUの計算は、
【数9】 で与えられる。
【0022】声門の空気の圧力の分布の計算は表4の疑
似コードの形でより明確に示される。以下のコードは表
2の閉じられていないパラメータJのステップのループ
の中で動作できることに注目する。
【表4】 g_は推定された平均の声門の面積で、大きなAgoであ
ればAgoと同じになる。しかしながらAgoがVより小さ
ければ、振動は非対称、即ち正の振幅は負の振幅よりも
大きくなる。この圧力計算は軟口蓋といかなる声道の緊
縮の面積も知られたものと仮定し、音素合成器が調音器
官でないときには軟口蓋と緊縮の面積Acnとの作用する
ことができる和はブロック404で付加的な変数として
計算することができる。Acnは好ましくは、有声、無声
の摩擦音に対しては15mm2となり、閉鎖音に対しては
ゼロになり、他の全ての音に対しては声門面積よりもは
るかに大きくなる。
【0023】Agw、Ago、PgおよびPcは好ましくは、
数種の従属変数を計算するのに用いられる(ブロック4
07)。第1に発声のしきい値を計算し(表2)、発声
の振幅は計算される(ブロック408)。
【数10】 ここで発声の振幅は瞬時には変わらないことに注目す
る。発声のしきい値は、発声の振幅が指数的に収束する
ように、目的値を決めるのに用いられる。
【数11】 ここでVtypは声帯振動の典型的な振幅で、好ましく
は、約15mm2である。TAUは、振動振幅の増幅と減
衰の時定数である。振幅は減衰より速く増加する傾向が
ある。
【数12】 フィルタ係数bは好ましくは、
【数13】 のように計算され、
【数14】 で与えられる発声の振幅を決めるのに用いられる。声門
のスペクトルは通常は−12dB/(オクターブ)にて
だいたい第3倍調波音(harmonic)から始まり
数kHzで終わる。音響量ROは声門振動の基底調波音
の、高い漸近線の調波音に対する比を示し、
【数15】 により与えられる(ブロック409)。4、26および
4.5の値は好ましい近似である。ROは図9で示され
るように、より高周波数の有声音の振幅を基底調波音の
振幅VOで割った商である。
【0024】ここで、声門面積が増えると、しかしなが
ら、曲線の形もまた変わることに注目する。図1(b)
に戻ると、発声プロセスの真最中であれば、声帯107
は完璧な平行に近く、声門112の長さに渡ってほとん
ど同時に振幅の終わりが起こる。しかしながら、被裂軟
骨110が部分的に開いていれば、はじめに声門112
の前方のはしにて閉鎖が起こり、声門112の後方の端
から被裂軟骨110に沿って、ジッパーのように進行す
る。この段階的な閉鎖は時間に対してほぼ正確に指数的
で、従って、時定数khを面積Agaの被裂軟骨成分と、
定数Agax(約2.5mm2)との和に比例させ、ピッチ周
波数FOと発声の振幅VOとに反比例させるように決定
される。Fhの上の周波数ではスペクトルは−18dB
/(オクターブ)にて始まり(ブロック410)、
【数16】 が与えられる。好ましくは、khは約3で、Agaxは強
勢母音に対してはFhが達する最高値である。ほとんど
の男性の発声者に対してはAgaxの2.5mm2の値は好ま
しい値で割る。FOは発音ピッチ周波数である。
【0025】さらに声門112が開いているとき、声道
102による音響共鳴器は、音吸収体としてはたらく肺
に露出される。この音吸収によるパワー減少は共鳴の帯
域幅を広げる。この効果の好ましい近似は共鳴帯域幅を
goに比例するように増加することによって定義され
(ブロック411)、以下の表5の疑似コードにより与
えられる。
【表5】 好ましくは、K[1]=0.6とK[2...4]=1
の値は、たいていの人間の発声者の性質に一致する。前
述の計算は、好ましくは、1ピッチ期間毎に成し遂げら
れる。帯気と摩擦の時間の値は、好ましくは、出力音の
それぞれのサンプルに対して計算される(ブロック41
2)。音声の好ましいサンプル速度は1ミリ秒当たり8
サンプルから12サンプルの間である。時間値は好まし
くは、
【数17】 で与えられ、ここでntsは時間0から現時間tまで数
えた時間サンプルの累積数で、t−sampはこの処理
を通して前述のループの間に計算された時間サンプルの
数の総数を求めるカウンタで、ppはサンプルに与えら
れたピッチ期間である。
【0026】図10は1ピッチ期間当たり5つの区間で
計算した摩擦と帯気のエベロープのグラフ図が示してあ
る。第1と第5の区間ではAgo+VOの振幅を有してい
る(図10の上の曲線にVが示されている)。第3の区
間ではAgo−VOの振幅を有しているが、好ましくは、
0より下へ越えないように端を切ってある。最初のステ
ップは1つの領域から次の領域までのスイッチング時間
を決めることである(ブロック413)。
【表6】 第2のステップは1つの領域での傾きを決めることであ
る。
【表7】
【0027】ここで帯気音とは声門112からの空気の
流れが食道105の端にぶつかるときにつくられる音
で、摩擦音とは空気の流れが口蓋の歯の近くに圧せられ
ている舌や下の唇のような緊縮した場所にぶつかるとき
につくられる音であることを振り返る。帯気や摩擦の振
幅は決められる(ブロック414)。好ましくは、帯気
のときの声門面積Agoの効果は、
【数18】 により定義される。ここでAhは用いられる特定の合成
器に依存する特定の単位で大きさを合わせなければなら
ないかもしれないことに注目する。Pgは、声門を通し
ての圧力において前に述べたように、Pgが2.5乗に
なっていることはオリフィスから下がってきた音の振幅
が典型的には、オリフィスに渡った圧力を表す示す2.
5乗で変化することを示す。好ましくは、緊縮の効果は
【数19】 により定義され、ここでk(y)は緊縮の場所において
従属な変数の増分である。歯における緊縮の音(音素
“THin”の中にあるような“F”や“TH”)は歯
の後ろの緊縮のものと比べて約4分の1しか大きくな
い。また、変数yは調音的でなければ前述したようにV
AL[J]の1つとして定義される。前述したようにP
cは乱流音の既知のふるまいを近似するために同様に
2.5乗に上げられる。出力波形を表す出力データ集合
を生成するために従来のプロセスが用いられる(ブロッ
ク415)。従来のプロセスの好ましい例は前に参照と
して示された次のC.H.Coker著の論文、「乱流
音の力学と制御のモデル“A Modelof Articulatory Dyn
amics and Control"」Proceedings of the IEEE(1976年
刊、Vol.64、No.4)の452〜460ページにより詳し
く記述されている。
【0028】図8には、最終的には音を生成するのに用
いられる複数の音響量を単独で制御するように機能する
gwのグラフ図を示す。前述のように量R0は振幅比で
ある。R0はAgwが−20の領域で高い値を有し、Agw
の正の領域での低い値までほぼ線形に減少するように図
示されている。この関数の応答は前述のように、
【数20】 に従う。
【0029】1/Fhの量はスペクトルの始まりの高周
波数である1/Fhは負のAgwにおいては低い値を有
し、前述の数式で予測したようにAgwが大きな正値に対
しての高い値まで増加する。
【数21】 1/Fhをプロットした曲線は声道共鳴の帯域幅に対す
る線形加法的補正の結果にほぼ従う。前述のようにVO
の量は、発声の振幅である。VOは前に示した数式、
【数22】 に従い、Agwが−20から+20の間でゼロでない値を
有するように図示されている。Agwが+20から+35
の領域では、VOは相当にゼロより既に大きければ、ゼ
ロでない値にとどまるが、しかしながら、VOは、とて
も低い値ならば、ゼロから遠くへ上がらない。この性質
はヒステリシス(履歴現象)として知られ、
【数23】 の特性の結果である。
【0030】R0、1/FhとVOを示したグラフ図は図
示の目的のみにより取り入れられ、必要ではなくむしろ
実施態様の参照として好ましい。特定の適切な仮定、例
えば、声門面積に匹敵する声道の緊縮の面積が20mm2
であるような、をしたときのAg wに対する他の結果とし
て、Agwは、
【数24】 に従う摩擦の振幅を予測するように機能する。
【0031】その上、声門の構造を制御する幾つかの筋
肉の複合した作用をモデル化し、近似するために、図示
された具体例に従ってAgwは用いられてきたが、他の適
切な関数、モデル、近似等は、幾種の音響パラメータが
お互い類似な関係を有するようにさせるように機能する
ように用いられてよい。このような適切な関係は音響パ
ラメータを一般的な原因に依存させる。このようにして
0、VOおよびFh等の値は本質的ではなく、例として
挙げれば、声帯波形や声門の気流は幾何学的や他の形態
で特性づけられていてよく、その変数のS字形移行を好
ましく仮定し、非線形従属をプロットする、例えば、/
h/−母音の列のように、変数は発声練習のために時間
に対してプロットされていてよい。
【0032】ここで、Agwの関数として従属パラメータ
がプロットされたグラフの下の、図8の底部に示され
た、水平方向の矢印に注目する。この矢印は、各音素群
のAgwの典型的な値の領域を表している。図示された矢
印の方向印のある端は、各音素群の強勢時の移行に対応
する領域の端を表す。従って矢印の方向印のない端は、
各音素群に対し、好ましくは、VALP[PH,J]に
対応し、矢印の長さはDELTAV[PH,J]に対応
する。例えば、PHが母音Oを表し、JがAgwを表すと
すると、VALP[O,Agw]およびDELTA[O,
gw]は、それぞれほぼ20および−40である。
【発明の効果】以上述べたように、本発明によれば、発
音励起状態移行の表現を決定し、少ない蓄積データにて
正確な音素合成をする音声処理システムを実現できる。
【図面の簡単な説明】
【図1】a)人の頭部の断面図を示す。 b)人の声門の断面図を示す。
【図2】本発明の原理に基づくパーソナル・コンピュー
タの等角図を示す。
【図3】1つの演算装置と1つのメモリ記憶装置を有す
るマイクロプロッセッシング・システムのブロック図を
示し、これは図2のパーソナルコンピュータと結合して
使用することができる。
【図4】本発明の原理に基づく音声合成を行う過程の流
れ図を示す。
【図5】フィルタS(x)の好ましい応答のグラフ図を
示す。
【図6】声帯の間の振動的に中立な領域の面積の近似的
なふるまいのグラフ図を示す。
【図7】生理学的変数Agwのグラフ図を示す。
【図8】Agwのグラフ図を示す。
【図9】調波音の周波数に対する振幅のグラフ図を示
す。
【図10】ピッチ周期当たり5つの部分で計算された摩
擦と帯気のエンベロープのグラフ図を示す。
【符号の説明】
101 鼻腔 102 声道 103 軟口蓋 104 喉頭蓋 105 食道 106 気管 107 声帯 108 外側輪状被裂筋 109 後輪状被裂筋 110 被裂軟骨 111 甲状被裂筋 112 声門 113 外側へ押す肺からの圧力 200 パーソナルコンピュータ(PC) 201 ハードウェアケース 202 フロッピーディスク装置 204 ハードディスク装置 205 キーボード 206 演算装置(CPU) 207 メモリ記憶装置(RAM) 208 マウス 209 音響エネルギーを生成する装置(スピーカー) 300 制御ユニット 301 算術論理演算ユニット(ALU) 302 局所メモリ記憶装置 303 データバス

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 ある発声励起状態から別の励起状態への
    移行のパターンをつくるように、出力データ集合を生成
    する、音素合成に用いられる音声処理システムにおい
    て、前記出力データ集合が複数のデータ部分集合を含
    み、前記音声処理システムが、 a)少なくとも1つのテキストデータ部分集合を含むテ
    キストデータ集合を受け取る手段と、 b)複数のプロセッシングシステム命令を記憶できる少
    なくとも1つのメモリ記憶装置(207)と、 c)前記メモリ記憶装置からの少なくとも1つの演算装
    置命令を読み込み実行することにより、前記出力データ
    集合を生成する少なくとも1つの演算装置(206)と
    を有し、前記演算装置が、 i)前記の受け取ったテキストデータ集合を音声データ
    集合に変換し、ここで、前記音声データ集合は複数のそ
    れぞれが特定の音声状態を表す音声データ部分集合を含
    み、 ii)前記出力データ集合を生成するために人の発声シ
    ステムの選ばれた部分を表す生理学的変数の関数として
    前記音声データ集合を挿入し、これにより前記音声デー
    タ部分集合が、前記出力データ部分集合のそれぞれに対
    する集団的な寄与が決定するように、加え合わされるよ
    うに機能することを特徴とする音声処理システム。
  2. 【請求項2】 前記出力データ集合を送り出す手段をさ
    らに有することを特徴とする請求項1記載の音声処理シ
    ステム。
  3. 【請求項3】 前記演算装置が、前記人の発声システム
    がある発声励起状態から別の励起状態へ移行する際に、
    選ばれた肉体的な変化の関数として前記生理学的変数を
    計算するようにさらに機能することを特徴とする請求項
    1記載の音声処理システム。
  4. 【請求項4】 前記生理学的変数が、前記人の発声シス
    テムにおける人の筋肉のふるまいを表し、前記演算装置
    が、ある期間での前記人の発声システムの声帯の間の距
    離の変化を決定するように機能することを特徴とする請
    求項3記載の音声処理システム。
  5. 【請求項5】 前記音声データ部分集合のそれぞれが、
    少なくとも1つの音響上の特性を表すことを特徴とする
    請求項1記載の音声処理システム。
  6. 【請求項6】 前記音響上の特性が、 a)有声音の基調波音の振幅と、 b)高周波音の集成的な振幅と、 c)有声音の高調波周波数のスペクトルの開始点と、 d)帯気音の振幅および時間のエンベロープと、並びに e)摩擦音の振幅および時間のエンベロープと からなる群により選択されることを特徴とする請求項5
    記載の音声処理システム。
  7. 【請求項7】 前記生理学的変数が、発声時に人の声門
    を制御できるように機能する複数種の筋肉の相互作用を
    表し、前記演算装置が、低域通過フィルタを用いて声門
    制御の経過時間を得られるようにさらに機能することを
    特徴とする請求項1記載の音声処理システム。
  8. 【請求項8】 前記低域通過フィルタが、人の発声シス
    テムがある発声状態から別の状態へ移行するときに、声
    門の幅のふるまいをモデル化することを特徴とする請求
    項7記載の音声処理システム。
  9. 【請求項9】 a)複数のテキストデータ部分集合を含
    むテキストデータ集合を受け取る入力ポートと、 b)言語音の列を表す出力データ集合を生成するため
    の、少なくとも1つの演算装置と を有し、前記演算装
    置が、 i)前記人の発声システムがある発声状態から別の状態
    へ移行するときに、人の発声システムの選ばれた肉体的
    な変化の関数として、生理学的変数を計算し、 ii)前記出力データ集合を生成するために、前記生理
    学的変数の関数として前記テキストデータ集合を処理
    し、ここで前記テキストデータ部分集合は、前記言語音
    のそれぞれに対しての集団的な寄与を決定するためにお
    互い加え合わされた、複数の、音声データ集合に変換さ
    れる、ように機能することを特徴とする請求項6記載の
    音声処理システム。
  10. 【請求項10】 前記出力データ集合を送り出す手段を
    さらに含むことを特徴とする請求項9記載の音声処理シ
    ステム。
  11. 【請求項11】 前記生理学的変数が、前記人の発声シ
    ステムにおける人の筋肉のふるまいを表し、前記演算装
    置がある発声励起状態から別の励起状態への移行のとき
    の前記人の発声システムにおける肉体的な筋肉の変化お
    よび声門面積を予測できることを特徴とする請求項9記
    載の音声処理システム。
  12. 【請求項12】 前記音声データ部分集合のそれぞれ
    が、少なくとも1つの音響上の特性を表すことを特徴と
    する請求項9記載の音声処理システム。
  13. 【請求項13】 前記音響上の特性が、 a)有声音の基調波音の振幅と、 b)高周波音の集成的な振幅と、 c)有声音の高調波周波数のスペクトルの開始点と、 d)帯気音の振幅および時間のエンベロープと、並びに e)摩擦音の振幅および時間のエンベロープと からなる群により選択されることを特徴とする請求項1
    2記載の音声処理システム。
  14. 【請求項14】 前記生理学的変数が発声時に人の声門
    を制御できるように機能する複数種の筋肉の相互作用を
    表し、前記演算装置が、S字形フィルタを用いて声門制
    御の経過時間を得られるようにさらに機能することを特
    徴とする請求項9記載の音声処理システム。
  15. 【請求項15】 前記S字形フィルタが、人の発声シス
    テムがある発声状態から別の状態へ移行するときに、声
    門の幅のふるまいをモデル化することを特徴とする請求
    項14記載の音声処理システム。
  16. 【請求項16】 受け取ったテキストデータ集合から、
    音響パラメータの出力データ集合を生成する音声処理方
    法において、ここで前記出力データ集合は、ある発声励
    起状態から別の発声励起状態までの移行のパターンを表
    し、前記音声処理方法が、 a)前記受け取ったテキストデータ集合から音響データ
    集合に変換するステップにおいて、前記音声データ集合
    が、それぞれが特定の発声状態を表す、複数の、音声デ
    ータ部分集合を含んでいるステップと、 b)少なくても1つの音記述子を前記音声データ部分集
    合のそれぞれに割り当て、前記割り当てられた音記述子
    を時系列に変換するステップと、 c)人の発声システムの選ばれた部分を表す、発声励起
    制御変数をつくるステップと、 d)前記音声データ集合を前記発声励起変数の非線形関
    数として処理することにより音響パラメータの前記出力
    データ集合を生成するステップとからなり、前記音声デ
    ータ部分集合の集団的な寄与がある発声励起状態から別
    の発声励起状態への移行のパターンのそれぞれに対して
    決定することを特徴とする音声処理方法。
  17. 【請求項17】 前記出力データ集合を送り出すステッ
    プをさらに有することを特徴とする請求項16の音声処
    理方法。
  18. 【請求項18】 ある期間での前記人の発声システムの
    声帯間の距離の変化を決定するように前記発声励起変数
    を用いるステップをさらに有することを特徴とする請求
    項16の音声処理方法。
  19. 【請求項19】 前記発声励起変数が、発声時に人の声
    門の制御をできるようにした、複数の、筋肉の相互作用
    を表し、前記音声処理方法が低域通過フィルタを用い声
    門の和の経過時間を得るステップをさらに有することを
    特徴とする請求項16の音声処理方法。
  20. 【請求項20】 前記生成ステップが摩擦および帯気に
    おいての振幅を計算するステップを含んでいることを特
    徴とする請求項16の音声処理方法。
JP7259549A 1994-09-13 1995-09-13 音声処理システムおよびその方法 Pending JPH0895597A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/304,959 US5633983A (en) 1994-09-13 1994-09-13 Systems and methods for performing phonemic synthesis
US304959 1994-09-13

Publications (1)

Publication Number Publication Date
JPH0895597A true JPH0895597A (ja) 1996-04-12

Family

ID=23178689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7259549A Pending JPH0895597A (ja) 1994-09-13 1995-09-13 音声処理システムおよびその方法

Country Status (4)

Country Link
US (1) US5633983A (ja)
EP (1) EP0702352A1 (ja)
JP (1) JPH0895597A (ja)
CA (1) CA2154804A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6208969B1 (en) 1998-07-24 2001-03-27 Lucent Technologies Inc. Electronic data processing apparatus and method for sound synthesis using transfer functions of sound samples
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US6625576B2 (en) 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
CN100511423C (zh) * 2002-09-25 2009-07-08 高通股份有限公司 经由声音信道的数据通信和压缩
US20040225500A1 (en) * 2002-09-25 2004-11-11 William Gardner Data communication through acoustic channels and compression
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US11335326B2 (en) * 2020-05-14 2022-05-17 Spotify Ab Systems and methods for generating audible versions of text sentences from audio snippets

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4703505A (en) * 1983-08-24 1987-10-27 Harris Corporation Speech data encoding scheme
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
EP0481107B1 (en) * 1990-10-16 1995-09-06 International Business Machines Corporation A phonetic Hidden Markov Model speech synthesizer

Also Published As

Publication number Publication date
EP0702352A1 (en) 1996-03-20
CA2154804A1 (en) 1996-03-14
US5633983A (en) 1997-05-27

Similar Documents

Publication Publication Date Title
Cook Identification of control parameters in an articulatory vocal tract model, with applications to the synthesis of singing
US20220392430A1 (en) System Providing Expressive and Emotive Text-to-Speech
Gold et al. Speech and audio signal processing: processing and perception of speech and music
US9009052B2 (en) System and method for singing synthesis capable of reflecting voice timbre changes
Flanagan et al. Synthetic voices for computers
CN1312655C (zh) 语音合成方法和语音合成系统
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
JPH09114495A (ja) ピッチ輪郭を決定するためのシステムおよび方法
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
JPH0895597A (ja) 音声処理システムおよびその方法
Stowell Making music through real-time voice timbre analysis: machine learning and timbral control
Cummings et al. Glottal models for digital speech processing: A historical survey and new results
Scully Articulatory synthesis
Breen Speech synthesis models: a review
CN115712729B (zh) 一种可交互的基于编译的音乐生成方法和装置
US20240265902A1 (en) Sound processing method, sound processing system, and recording medium
Hacioglu et al. Parsing speech into articulatory events.
Loscos Spectral processing of the singing voice
Sundberg My research on the singing voice from a rear-view-mirror perspective
d’Eon et al. Musical speech: a transformer-based composition tool
O'Connor Analysis, Disentanglement, and Conversion of Singing Voice Attributes
i Barrobes Voice Conversion applied to Text-to-Speech systems
Blaauw Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference
JP3571925B2 (ja) 音声情報処理装置
US20240428760A1 (en) Sound generation method, sound generation system, and program