JPH0641557A - 音声合成のための方法および装置 - Google Patents
音声合成のための方法および装置Info
- Publication number
- JPH0641557A JPH0641557A JP5071165A JP7116593A JPH0641557A JP H0641557 A JPH0641557 A JP H0641557A JP 5071165 A JP5071165 A JP 5071165A JP 7116593 A JP7116593 A JP 7116593A JP H0641557 A JPH0641557 A JP H0641557A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- synthesis
- sounds
- phoneme
- control parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】 (修正有)
【目的】 フォルマント合成を用いて音声を生成するた
め、2音合成法を使用すること、すなわち、合成により
自然の音声を複製することによって引き出された記憶さ
れた制御パラメータを使用することである。補間機構
が、調音結合を自動的に処理する。それにもかかわら
ず、規則を適用することが望まれる場合には、これを実
際に実行することができる。 【構成】 調音結合(coarticulation)が、フォルマント
合成と2音合成とを組み合わせることによって処理され
る。2つの2音がフォルマント合成に基づいて記憶され
る。各制御パラメータに対し、1つの曲線が規定され
る。この曲線は、パラメータの音素境界のまわりにおけ
る時間につれての振る舞いを記述する。2つの2音が、
第1の2音における第2音素と第2の2音における第1
音素との間の重み付き平均値を形成することによって互
いに結合される。
め、2音合成法を使用すること、すなわち、合成により
自然の音声を複製することによって引き出された記憶さ
れた制御パラメータを使用することである。補間機構
が、調音結合を自動的に処理する。それにもかかわら
ず、規則を適用することが望まれる場合には、これを実
際に実行することができる。 【構成】 調音結合(coarticulation)が、フォルマント
合成と2音合成とを組み合わせることによって処理され
る。2つの2音がフォルマント合成に基づいて記憶され
る。各制御パラメータに対し、1つの曲線が規定され
る。この曲線は、パラメータの音素境界のまわりにおけ
る時間につれての振る舞いを記述する。2つの2音が、
第1の2音における第2音素と第2の2音における第1
音素との間の重み付き平均値を形成することによって互
いに結合される。
Description
【0001】
【発明の背景】本発明は、音声合成のための方法および
装置に関し、人間の音声をシミュレートする自動化され
た機構を提供する。本発明による方法は、音声合成装置
を制御するための多数個の制御パラメータを与える。
装置に関し、人間の音声をシミュレートする自動化され
た機構を提供する。本発明による方法は、音声合成装置
を制御するための多数個の制御パラメータを与える。
【0002】自然の音声においては、この中に含まれる
音素は互いに重なり合っている。この現象は、調音結合
(coarticulation)と呼ばれる。本発明は、調音結合を制
御すべく、2音合成(diphonic synthesis)とフォルマン
ト合成とを組み合わせる。さらに、本発明は、多音合成
(polyphonic synthesis)、特に2音合成、さらには3音
合成(triphonic synthesis) 並びに4音合成(quadrapho
nic synthesis)を可能とする。
音素は互いに重なり合っている。この現象は、調音結合
(coarticulation)と呼ばれる。本発明は、調音結合を制
御すべく、2音合成(diphonic synthesis)とフォルマン
ト合成とを組み合わせる。さらに、本発明は、多音合成
(polyphonic synthesis)、特に2音合成、さらには3音
合成(triphonic synthesis) 並びに4音合成(quadrapho
nic synthesis)を可能とする。
【0003】周知のように、テキストおよび/または音
声の合成は、しばしば、テキストの構文解析でもって始
まる。そして、この構文解析では、1つ以上の方法にお
いて解釈されうる言語が正確な発音を与えられる、すな
わち適切な音声の複写が選択される。この例として、名
詞としてまたは動詞の分詞形として解釈されうるスウェ
ーデン語の単語「buren」がある。
声の合成は、しばしば、テキストの構文解析でもって始
まる。そして、この構文解析では、1つ以上の方法にお
いて解釈されうる言語が正確な発音を与えられる、すな
わち適切な音声の複写が選択される。この例として、名
詞としてまたは動詞の分詞形として解釈されうるスウェ
ーデン語の単語「buren」がある。
【0004】出発点として構文解析および文章の音節構
造を用いることによって、基本的な音声曲線がすべての
言語に対して生成され、それに含まれる音素の持続時間
が決定されうる。このプロセスの後、音素が多数の異な
る方法で自動的に認識されうる。
造を用いることによって、基本的な音声曲線がすべての
言語に対して生成され、それに含まれる音素の持続時間
が決定されうる。このプロセスの後、音素が多数の異な
る方法で自動的に認識されうる。
【0005】よく知られた音声合成の方法はフォルマン
ト合成である。この方法によれば、音声は、ソースに対
して異なるフィルターを適用することによって生成され
る。フィルターは、多数個のパラメータ、とりわけ、フ
ォルマント、帯域幅およびソースパラメータを含むパラ
メータによって制御される。制御パラメータの原型の組
が異音によって記憶される。調音結合は、規則、すなわ
ち規則の合成を用いて、制御パラメータの始点/終点を
動かすことによって処理される。この方法に伴う1つの
問題は、この方法が音素の多数の可能な結合を処理する
ための多くの規則を必要とすることである。さらに、こ
の方法はチェックすることは容易ではない。
ト合成である。この方法によれば、音声は、ソースに対
して異なるフィルターを適用することによって生成され
る。フィルターは、多数個のパラメータ、とりわけ、フ
ォルマント、帯域幅およびソースパラメータを含むパラ
メータによって制御される。制御パラメータの原型の組
が異音によって記憶される。調音結合は、規則、すなわ
ち規則の合成を用いて、制御パラメータの始点/終点を
動かすことによって処理される。この方法に伴う1つの
問題は、この方法が音素の多数の可能な結合を処理する
ための多くの規則を必要とすることである。さらに、こ
の方法はチェックすることは容易ではない。
【0006】別の周知の音声合成法は2音合成である。
この方法によれば、音声は、記録された音声および望ま
れた基本音声曲線からの記録された波形部分を互いに結
合することによって生成され、持続時間が信号処理によ
って生成される。この方法の基礎をなす前提条件は、そ
れぞれの2音(diphone) においてスペクトル的に定常な
範囲が存在することと、そこにスペクトル的な類似性が
存在することである。さもなければ、この場合スペクト
ルの不連続が得られ、問題となる。また、この方法によ
って、記録および区分(segmentation)の後に波形を変更
することは困難である。また、波形部分は固定されてい
るから、規則を適用することは困難である。
この方法によれば、音声は、記録された音声および望ま
れた基本音声曲線からの記録された波形部分を互いに結
合することによって生成され、持続時間が信号処理によ
って生成される。この方法の基礎をなす前提条件は、そ
れぞれの2音(diphone) においてスペクトル的に定常な
範囲が存在することと、そこにスペクトル的な類似性が
存在することである。さもなければ、この場合スペクト
ルの不連続が得られ、問題となる。また、この方法によ
って、記録および区分(segmentation)の後に波形を変更
することは困難である。また、波形部分は固定されてい
るから、規則を適用することは困難である。
【0007】フォルマント音声合成においては、スペク
トルの不連続性という問題は生じない。2音合成は、調
音結合の問題を処理するためのいかなる規則も必要とし
ない。
トルの不連続性という問題は生じない。2音合成は、調
音結合の問題を処理するためのいかなる規則も必要とし
ない。
【0008】本発明の目的は、フォルマント合成を用い
て音声を生成するため、2音合成法を使用すること、す
なわち、合成により自然の音声を複製することによって
引き出された記憶された制御パラメータを使用すること
である。補間機構が、調音結合を自動的に処理する。そ
れにもかかわらず、規則を適用することが望まれる場合
には、これを実際に実行することができる。
て音声を生成するため、2音合成法を使用すること、す
なわち、合成により自然の音声を複製することによって
引き出された記憶された制御パラメータを使用すること
である。補間機構が、調音結合を自動的に処理する。そ
れにもかかわらず、規則を適用することが望まれる場合
には、これを実際に実行することができる。
【0009】
【発明の要約】本発明は、上記目的を達成するため、音
声合成を制御するのに必要なパラメータを決定するステ
ップと、それぞれの多音(polyphone) に対する制御パラ
メータを記憶するステップと、前記制御パラメータのそ
れぞれに対する時間の経過につれての各音素境界のまわ
りにおける振る舞いを規定するステップと、前記記憶し
た制御パラメータのそれぞれによって規定される曲線の
重み付き平均値を形成することにより前記多音を結合せ
しめるステップとを含んでいることを特徴とする音声合
成のための方法を提供するものである。
声合成を制御するのに必要なパラメータを決定するステ
ップと、それぞれの多音(polyphone) に対する制御パラ
メータを記憶するステップと、前記制御パラメータのそ
れぞれに対する時間の経過につれての各音素境界のまわ
りにおける振る舞いを規定するステップと、前記記憶し
た制御パラメータのそれぞれによって規定される曲線の
重み付き平均値を形成することにより前記多音を結合せ
しめるステップとを含んでいることを特徴とする音声合
成のための方法を提供するものである。
【0010】この方法において、制御パラメータは、そ
れぞれの多音に対し、1つのマトリックスまたは1つの
シーケンスリスト内に記憶される。
れぞれの多音に対し、1つのマトリックスまたは1つの
シーケンスリスト内に記憶される。
【0011】本発明は、また、選択された時間間隔内に
合成された音声結合を形成するための装置であって、1
つまたは多数の音声生成機関が、前記音声結合の音声生
成を行い、1つまたは多数の制御素子が、前記時間間隔
内に前記音声結合を形成すべく、前記音声生成機関に作
用するようになっており、前記制御素子の作用の効果
が、2つの2音が生じうる影響された各時間間隔内に、
第1の2音に含まれる第2の音素に対する音声特性の第
1の表現と、第2の2音に含まれる第1の音素に対する
音声特性の第2の表現との間において遷移を引き起こ
し、前記第1の表現が、本質的に不連続性を生じること
なく、好ましくは連続的に前記第2の表現に移されるこ
とを特徴とする装置を提供するものである。
合成された音声結合を形成するための装置であって、1
つまたは多数の音声生成機関が、前記音声結合の音声生
成を行い、1つまたは多数の制御素子が、前記時間間隔
内に前記音声結合を形成すべく、前記音声生成機関に作
用するようになっており、前記制御素子の作用の効果
が、2つの2音が生じうる影響された各時間間隔内に、
第1の2音に含まれる第2の音素に対する音声特性の第
1の表現と、第2の2音に含まれる第1の音素に対する
音声特性の第2の表現との間において遷移を引き起こ
し、前記第1の表現が、本質的に不連続性を生じること
なく、好ましくは連続的に前記第2の表現に移されるこ
とを特徴とする装置を提供するものである。
【0012】この装置によって、制御素子はそれぞれ、
影響された2音に属する影響された音素から音声特性の
パラメータサンプルを集めて記憶するようになってい
る。
影響された2音に属する影響された音素から音声特性の
パラメータサンプルを集めて記憶するようになってい
る。
【0013】本発明による前述の特徴およびその他の特
徴は、本発明による2つの2音の合成を説明する添付図
面を参照した以下の説明からよりよく理解されるだろ
う。
徴は、本発明による2つの2音の合成を説明する添付図
面を参照した以下の説明からよりよく理解されるだろ
う。
【0014】
【本発明の好ましい実施例の説明】自然な人間の音声
は、音素に分解されうる。音素は、音声における差異を
顕著に示す最小の成分である。音素は、異音によってそ
れ自体明瞭に認識されうる。音声合成において、ある音
素に対してどの異音が使用されるべきであるかが決定さ
れなければならないが、これは、本発明に対しては重要
ではない。
は、音素に分解されうる。音素は、音声における差異を
顕著に示す最小の成分である。音素は、異音によってそ
れ自体明瞭に認識されうる。音声合成において、ある音
素に対してどの異音が使用されるべきであるかが決定さ
れなければならないが、これは、本発明に対しては重要
ではない。
【0015】音声器官の異なる構成部分の間、例えば、
舌と喉頭の間には一定の結合が存在する。そして、調音
器官および舌、並びに顎等々は、瞬間的に一点から別の
点まで動かされることができない。したがって、音素の
間には強い調音結合が存在する。すなわち、音素は互い
に影響し合う。したがって、音声合成装置から真に迫っ
た音声を得るためには、調音結合を処理することができ
なければならない。
舌と喉頭の間には一定の結合が存在する。そして、調音
器官および舌、並びに顎等々は、瞬間的に一点から別の
点まで動かされることができない。したがって、音素の
間には強い調音結合が存在する。すなわち、音素は互い
に影響し合う。したがって、音声合成装置から真に迫っ
た音声を得るためには、調音結合を処理することができ
なければならない。
【0016】本発明はまた、多音合成すなわち複数の音
の相互結合、例えば、3音合成または4音合成を可能に
する。これは、結合に適したいかなる定常部分をももた
ない一定の母音音声とともに、効果的に使用されうる。
子音の一定の組み合わせは、また取扱いが面倒である。
自然な人間の音声においては、常にどこかに動きが存在
し、次の音声が予想される。例えば、「sprite」
という言葉において、音声器官は「s」が発音される前
に母音に対して形成される。3音中に1つの曲線に沿っ
た点として記憶させることによって、3音がそれに続く
音素とともに結合されうる。
の相互結合、例えば、3音合成または4音合成を可能に
する。これは、結合に適したいかなる定常部分をももた
ない一定の母音音声とともに、効果的に使用されうる。
子音の一定の組み合わせは、また取扱いが面倒である。
自然な人間の音声においては、常にどこかに動きが存在
し、次の音声が予想される。例えば、「sprite」
という言葉において、音声器官は「s」が発音される前
に母音に対して形成される。3音中に1つの曲線に沿っ
た点として記憶させることによって、3音がそれに続く
音素とともに結合されうる。
【0017】音声の波形は、共鳴チャンバ、すなわち声
道から一連のパルス、すなわち無声音における音声器官
の狭窄によって生成された1つまたは複数の有声音にお
ける準周期的な音声和音パルスに対する応答と比較され
うる。音声の予想において、声道は音響フィルターを構
成する。音響フィルターにおいては、共鳴が、これに関
連して形成される異なるキャビティにおいて生じる。共
鳴は、フォルマントと呼ばれ、スペクトル中に、共鳴振
動数でのエネルギーピークとして生じる。連続した音声
において、フォルマント振動数は時間につれて変化す
る。なぜなら、共鳴キャビティーがその位置を変化させ
るからである。したがってフォルマントは、音声の記述
に対して重要であり、音声合成を制御するために使用さ
れうる。
道から一連のパルス、すなわち無声音における音声器官
の狭窄によって生成された1つまたは複数の有声音にお
ける準周期的な音声和音パルスに対する応答と比較され
うる。音声の予想において、声道は音響フィルターを構
成する。音響フィルターにおいては、共鳴が、これに関
連して形成される異なるキャビティにおいて生じる。共
鳴は、フォルマントと呼ばれ、スペクトル中に、共鳴振
動数でのエネルギーピークとして生じる。連続した音声
において、フォルマント振動数は時間につれて変化す
る。なぜなら、共鳴キャビティーがその位置を変化させ
るからである。したがってフォルマントは、音声の記述
に対して重要であり、音声合成を制御するために使用さ
れうる。
【0018】音声言語が適当な記録装置によって記録さ
れ、データ処理に適した媒体中に記憶される。音声言語
は分析され、そして適当な制御パラメータが、以下に説
明する方法の1つに従って記憶される。
れ、データ処理に適した媒体中に記憶される。音声言語
は分析され、そして適当な制御パラメータが、以下に説
明する方法の1つに従って記憶される。
【0019】上述の制御パラメータの記憶は、次の方法
のいずれかによって実行される。すなわち、 (1)行ベクトルがそれぞれ1つのパラメータに対応
し、かつその要素がサンプルを取られたパラメータ値に
対応する1つのマトリックスが形成される(典型的なサ
ンプリング振動数は200Hzである)。この方法は、
2音合成に適している。 (2)一連の数学的な関数、すなわち開始/終了値+関
数が、各パラメータに対して形成される。この方法は、
多音合成に適しており、望まれる場合に、従来の形式の
規則を使用することを可能にする。
のいずれかによって実行される。すなわち、 (1)行ベクトルがそれぞれ1つのパラメータに対応
し、かつその要素がサンプルを取られたパラメータ値に
対応する1つのマトリックスが形成される(典型的なサ
ンプリング振動数は200Hzである)。この方法は、
2音合成に適している。 (2)一連の数学的な関数、すなわち開始/終了値+関
数が、各パラメータに対して形成される。この方法は、
多音合成に適しており、望まれる場合に、従来の形式の
規則を使用することを可能にする。
【0020】良好な合成の品質を与える記憶された制御
パラメータを生成する1つの方法は、自然言語の合成の
複写を実行することである。この構成と共に、数値的な
方法が反復過程において使用される。この反復過程は、
合成される言語が次第に自然言語に似てくることを徐々
に保証するものである。十分良好な類似性が得られたと
き、望まれた2音/多音に対応する制御パラメータが、
合成された言語から引き出されうる。
パラメータを生成する1つの方法は、自然言語の合成の
複写を実行することである。この構成と共に、数値的な
方法が反復過程において使用される。この反復過程は、
合成される言語が次第に自然言語に似てくることを徐々
に保証するものである。十分良好な類似性が得られたと
き、望まれた2音/多音に対応する制御パラメータが、
合成された言語から引き出されうる。
【0021】本発明によれば、調音結合は、フォルマン
ト合成と2音合成とを組み合わせることによって処理さ
れる。すなわち、1組の2音がフォルマント合成に基づ
いて記憶される。各パラメータに対し、1つの曲線が、
上述の方法(1)または方法(2)のいずれかに従って
規定される。この曲線は、パラメータの音素境界のまわ
りにおける時間につれての振る舞いを記述する。
ト合成と2音合成とを組み合わせることによって処理さ
れる。すなわち、1組の2音がフォルマント合成に基づ
いて記憶される。各パラメータに対し、1つの曲線が、
上述の方法(1)または方法(2)のいずれかに従って
規定される。この曲線は、パラメータの音素境界のまわ
りにおける時間につれての振る舞いを記述する。
【0022】2つの2音が、第1の2音における第2音
素と第2の2音における第1音素との間の重み付き平均
値を形成することによって互いに結合される。
素と第2の2音における第1音素との間の重み付き平均
値を形成することによって互いに結合される。
【0023】図1は、本発明による音声合成機構を示し
たグラフである。曲線は、1つのパラメータ、例えば2
つの2音に対する第2フォルマントを示している。第1
の2音が、例えば「ba」であり、第2の2音が「a
d」であるとすると、これらが結合されたとき、「ba
d」となる。曲線は、左側および右側に向かって漸近的
に定数値に近づいていく。
たグラフである。曲線は、1つのパラメータ、例えば2
つの2音に対する第2フォルマントを示している。第1
の2音が、例えば「ba」であり、第2の2音が「a
d」であるとすると、これらが結合されたとき、「ba
d」となる。曲線は、左側および右側に向かって漸近的
に定数値に近づいていく。
【0024】中央の音素において、補間機構が作動す
る。2つの2音曲線がそれぞれその重み関数によって重
みを付けられる。これらの重み関数を図1の一番下に示
した。重み関数は、滑らかな移行を得るため、余弦関数
であることが好ましいが、これは決定的なものではな
い。なぜなら一次関数がまた使用可能だからである。
る。2つの2音曲線がそれぞれその重み関数によって重
みを付けられる。これらの重み関数を図1の一番下に示
した。重み関数は、滑らかな移行を得るため、余弦関数
であることが好ましいが、これは決定的なものではな
い。なぜなら一次関数がまた使用可能だからである。
【0025】一定の領域は補間されない。なぜなら、停
止子音(stop consonants) 、例えば「pa」のような一
定の言語音声は、その後開放される口の空洞内に形成さ
れる圧力を有しているからである。圧力が開放される時
刻から音声和音パルスが生成されるまでのプロセスは、
純粋に機械的であり、言葉中の音素の残りの長さによっ
てあまり影響されない。万一、停止子音の持続時間が延
長された場合には、それはより長い無声位相(silent ph
ase)となる。したがって、補間機構は一定ビット数の延
長を避けなければならない。よって、区分境界(segment
boundary)のまわりで、一定のビット数が固定された長
さを有することが必要である。すなわち、重み関数の適
用は、区分境界の後の1ビットで始まり、区分境界の前
の1ビットで終わる。
止子音(stop consonants) 、例えば「pa」のような一
定の言語音声は、その後開放される口の空洞内に形成さ
れる圧力を有しているからである。圧力が開放される時
刻から音声和音パルスが生成されるまでのプロセスは、
純粋に機械的であり、言葉中の音素の残りの長さによっ
てあまり影響されない。万一、停止子音の持続時間が延
長された場合には、それはより長い無声位相(silent ph
ase)となる。したがって、補間機構は一定ビット数の延
長を避けなければならない。よって、区分境界(segment
boundary)のまわりで、一定のビット数が固定された長
さを有することが必要である。すなわち、重み関数の適
用は、区分境界の後の1ビットで始まり、区分境界の前
の1ビットで終わる。
【0026】言葉がどのようにして合成されるのかを決
定するのは構文分析である。とりわけ、基本音声曲線お
よび区分(segments)の持続時間が決定され、そしてそれ
は、とりわけ異なる強調を与える。強調は、例えば、基
本音声曲線における区分および湾曲部を引き延ばすこと
によって生成される一方、振幅はあまり重要ではない。
定するのは構文分析である。とりわけ、基本音声曲線お
よび区分(segments)の持続時間が決定され、そしてそれ
は、とりわけ異なる強調を与える。強調は、例えば、基
本音声曲線における区分および湾曲部を引き延ばすこと
によって生成される一方、振幅はあまり重要ではない。
【0027】本発明によれば、区分は異なる持続時間、
すなわち時間の長さをもちうる。区分境界は、1つの音
素から次の音素への移行によって決定される一方、構文
分析は音素がどれくらいの長さであるかを決定する。各
音素は美的価値を有している。本発明によれば、曲線ま
たは関数は、2つの持続時間が互いにマッチするように
延ばされうる。これは、1つのパラメータサンプリング
時間間隔に対して持続時間を量子化し、曲線を操作する
ことによってなされる。これは、また、漸近的に無限大
となる曲線によって容易になされる。
すなわち時間の長さをもちうる。区分境界は、1つの音
素から次の音素への移行によって決定される一方、構文
分析は音素がどれくらいの長さであるかを決定する。各
音素は美的価値を有している。本発明によれば、曲線ま
たは関数は、2つの持続時間が互いにマッチするように
延ばされうる。これは、1つのパラメータサンプリング
時間間隔に対して持続時間を量子化し、曲線を操作する
ことによってなされる。これは、また、漸近的に無限大
となる曲線によって容易になされる。
【0028】本発明による方法は、従来の音声合成装置
において直接使用されうる制御パラメータを与える。本
発明はまた、このような装置を与える。フォルマント音
声合成を本発明による2音合成と結合させることによっ
て、より真に迫った音声が得られる。なぜなら、フォル
マント合成はいかなる不連続も生じることなく結合され
た滑らかな曲線を与えるからである。
において直接使用されうる制御パラメータを与える。本
発明はまた、このような装置を与える。フォルマント音
声合成を本発明による2音合成と結合させることによっ
て、より真に迫った音声が得られる。なぜなら、フォル
マント合成はいかなる不連続も生じることなく結合され
た滑らかな曲線を与えるからである。
【図1】本発明による音声合成機構を説明したグラフで
ある。
ある。
Claims (10)
- 【請求項1】 音声合成を制御するのに必要なパラメー
タを決定するステップと、 それぞれの多音に対する制御パラメータを記憶するステ
ップと、 前記制御パラメータのそれぞれに対する時間の経過につ
れての各音素境界のまわりにおける振る舞いを規定する
ステップと、 前記記憶した制御パラメータのそれぞれによって規定さ
れる曲線の重み付き平均値を形成することにより前記多
音を結合せしめるステップとを含んでいることを特徴と
する音声合成のための方法。 - 【請求項2】 前記制御パラメータが、前記それぞれの
多音に対して、1つのマトリックスまたは1つのシーケ
ンスリストに記憶されることを特徴とする請求項1に記
載の方法。 - 【請求項3】 前記それぞれの多音に含まれる音素の持
続時間が、1つのパラメータサンプリング時間間隔を量
子化することによって、隣接する多音にマッチせしめら
れることを特徴とする請求項1または請求項2に記載の
方法。 - 【請求項4】 前記重み付き平均値が、重み関数を乗じ
ることによって形成されることを特徴とする請求項1〜
請求項3のいずれかに記載の方法。 - 【請求項5】 前記重み付き平均値が、余弦関数を乗じ
ることによって形成されることを特徴とする請求項4に
記載の方法。 - 【請求項6】 前記制御パラメータの形成が、自然音声
のシミュレーションを含む数値解析によってなされるこ
とを特徴とする請求項1〜請求項5のいずれかに記載の
方法。 - 【請求項7】 前記多音が2音であることを特徴とする
請求項1〜請求項6のいずれかに記載の方法。 - 【請求項8】 選択された時間間隔内に合成された音声
結合を形成するための装置であって、 1つまたは多数の音声生成機関が、前記音声結合の音声
生成を行い、 1つまたは多数の制御素子が、前記時間間隔内に前記音
声結合を形成すべく、前記音声生成機関に作用するよう
になっており、 前記制御素子の作用の効果が、2つの2音が生じうる影
響された各時間間隔内に、第1の2音に含まれる第2の
音素に対する音声特性の第1の表現と、第2の2音に含
まれる第1の音素に対する音声特性の第2の表現との間
において遷移を引き起こし、 前記第1の表現が、本質的に不連続性を生じることな
く、好ましくは連続的に前記第2の表現に移行すること
を特徴とする装置。 - 【請求項9】 前記制御素子のそれぞれが、影響された
2音に属する影響された音素から、音声特性に関するパ
ラメータサンプルを集めて記憶するようになっているこ
とを特徴とする請求項8に記載の装置。 - 【請求項10】 音声が、請求項1〜請求項7のいずれ
かに記載の方法に従って合成され、および/または請求
項8または請求項9に記載の装置を含んでいることを特
徴とするシステム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| SE9200817A SE469576B (sv) | 1992-03-17 | 1992-03-17 | Foerfarande och anordning foer talsyntes |
| SE9200817-6 | 1992-03-17 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0641557A true JPH0641557A (ja) | 1994-02-15 |
Family
ID=20385645
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5071165A Pending JPH0641557A (ja) | 1992-03-17 | 1993-03-05 | 音声合成のための方法および装置 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US5659664A (ja) |
| EP (1) | EP0561752B1 (ja) |
| JP (1) | JPH0641557A (ja) |
| DE (1) | DE69318209T2 (ja) |
| GB (1) | GB2265287B (ja) |
| SE (1) | SE469576B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100393196B1 (ko) * | 1996-10-23 | 2004-01-28 | 삼성전자주식회사 | 음성인식장치및방법 |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2206860A1 (en) * | 1994-12-08 | 1996-06-13 | Michael Mathias Merzenich | Method and device for enhancing the recognition of speech among speech-impaired individuals |
| CN1103485C (zh) * | 1995-01-27 | 2003-03-19 | 联华电子股份有限公司 | 高级语言指令解码的语音合成装置 |
| SE509919C2 (sv) * | 1996-07-03 | 1999-03-22 | Telia Ab | Metod och anordning för syntetisering av tonlösa konsonanter |
| US6019607A (en) * | 1997-12-17 | 2000-02-01 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI systems |
| US6159014A (en) * | 1997-12-17 | 2000-12-12 | Scientific Learning Corp. | Method and apparatus for training of cognitive and memory systems in humans |
| JP3884856B2 (ja) * | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
| DE19861167A1 (de) | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
| US6182044B1 (en) * | 1998-09-01 | 2001-01-30 | International Business Machines Corporation | System and methods for analyzing and critiquing a vocal performance |
| DE69925932T2 (de) * | 1998-11-13 | 2006-05-11 | Lernout & Hauspie Speech Products N.V. | Sprachsynthese durch verkettung von sprachwellenformen |
| US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
| ATE357042T1 (de) * | 2000-09-15 | 2007-04-15 | Lernout & Hauspie Speechprod | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen |
| US6912495B2 (en) * | 2001-11-20 | 2005-06-28 | Digital Voice Systems, Inc. | Speech model and analysis, synthesis, and quantization methods |
| GB0209770D0 (en) * | 2002-04-29 | 2002-06-05 | Mindweavers Ltd | Synthetic speech sound |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4039754A (en) * | 1975-04-09 | 1977-08-02 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Speech analyzer |
| FR2459524A1 (fr) * | 1979-06-15 | 1981-01-09 | Deforeit Christian | Synthetiseur numerique polyphonique de signaux periodiques et instrument de musique comportant un tel synthetiseur |
| US4601052A (en) * | 1981-12-17 | 1986-07-15 | Matsushita Electric Industrial Co., Ltd. | Voice analysis composing method |
| US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
| JPS63285598A (ja) * | 1987-05-18 | 1988-11-22 | ケイディディ株式会社 | 音素接続形パラメ−タ規則合成方式 |
| US4908867A (en) * | 1987-11-19 | 1990-03-13 | British Telecommunications Public Limited Company | Speech synthesis |
| JP2763322B2 (ja) * | 1989-03-13 | 1998-06-11 | キヤノン株式会社 | 音声処理方法 |
| GB8910981D0 (en) * | 1989-05-12 | 1989-06-28 | Hi Med Instr Limited | Digital waveform encoder and generator |
-
1992
- 1992-03-17 SE SE9200817A patent/SE469576B/sv not_active IP Right Cessation
-
1993
- 1993-02-08 DE DE69318209T patent/DE69318209T2/de not_active Expired - Fee Related
- 1993-02-08 EP EP93850026A patent/EP0561752B1/en not_active Expired - Lifetime
- 1993-02-08 GB GB9302460A patent/GB2265287B/en not_active Expired - Fee Related
- 1993-03-05 JP JP5071165A patent/JPH0641557A/ja active Pending
-
1995
- 1995-06-06 US US08/468,640 patent/US5659664A/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100393196B1 (ko) * | 1996-10-23 | 2004-01-28 | 삼성전자주식회사 | 음성인식장치및방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| GB2265287B (en) | 1995-07-12 |
| SE9200817L (sv) | 1993-07-26 |
| EP0561752A1 (en) | 1993-09-22 |
| DE69318209D1 (de) | 1998-06-04 |
| GB9302460D0 (en) | 1993-03-24 |
| SE469576B (sv) | 1993-07-26 |
| DE69318209T2 (de) | 1998-08-27 |
| GB2265287A (en) | 1993-09-22 |
| EP0561752B1 (en) | 1998-04-29 |
| US5659664A (en) | 1997-08-19 |
| SE9200817D0 (sv) | 1992-03-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6804649B2 (en) | Expressivity of voice synthesis by emphasizing source signal features | |
| JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
| Tabet et al. | Speech synthesis techniques. A survey | |
| JPH031200A (ja) | 規則型音声合成装置 | |
| JPH0641557A (ja) | 音声合成のための方法および装置 | |
| Dutoit | Corpus-based speech synthesis | |
| JP2002244689A (ja) | 平均声の合成方法及び平均声からの任意話者音声の合成方法 | |
| JPH0772900A (ja) | 音声合成の感情付与方法 | |
| JP2904279B2 (ja) | 音声合成方法および装置 | |
| Nthite et al. | End-to-end text-to-speech synthesis for under resourced South African languages | |
| d’Alessandro et al. | The speech conductor: gestural control of speech synthesis | |
| JP3742206B2 (ja) | 音声合成方法及び装置 | |
| JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
| JPH09179576A (ja) | 音声合成方法 | |
| Ng | Survey of data-driven approaches to Speech Synthesis | |
| JP2001100777A (ja) | 音声合成方法及び装置 | |
| JPS5914752B2 (ja) | 音声合成方式 | |
| Miranda | Artificial phonology: Disembodied humanoid voice for composing music with surreal languages | |
| EP1160766B1 (en) | Coding the expressivity in voice synthesis | |
| Adiga et al. | Speech synthesis for glottal activity region processing | |
| Rodet | Sound analysis, processing and synthesis tools for music research and production | |
| Rudzicz | Speech Synthesis | |
| JPH0836397A (ja) | 音声合成装置 | |
| JPH09292897A (ja) | 音声合成装置 | |
| JPH06250685A (ja) | 音声合成方式および規則合成装置 |