JP2000206982A - 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 - Google Patents
音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体Info
- Publication number
- JP2000206982A JP2000206982A JP11005443A JP544399A JP2000206982A JP 2000206982 A JP2000206982 A JP 2000206982A JP 11005443 A JP11005443 A JP 11005443A JP 544399 A JP544399 A JP 544399A JP 2000206982 A JP2000206982 A JP 2000206982A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- information
- word
- intelligibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】1種類の合成単位に対し明瞭度の異なる音声素
片を複数用意し、出現する語の状況に基づく使い分けで
明瞭性と自然性を両立した音声を合成する。 【解決手段】テキスト解析部101はテキストファイル
103から音声合成の対象となるテキストを読み出し、
形態素解析部104、構文解析部106、意味解析部1
07及び類似読み語検出部108を用いて当該テキスト
の解析を行う。音声合成部102内の音声素片選択部1
10は、テキスト解析部101でのテキスト解析結果に
基づいてアクセント句毎に対応する合成音声の明瞭度を
表すスコアを求め、そのスコアの値をもとに、自然性優
先音声素片辞書111、中明瞭度音声素片辞書112及
び高明瞭度音声素片辞書113のいずれかから該当する
音声素片の列を選択する。音声素片接続部114は、選
択された音声素片の列を接続し、合成フィルタ処理部1
15による音声合成に供する。
片を複数用意し、出現する語の状況に基づく使い分けで
明瞭性と自然性を両立した音声を合成する。 【解決手段】テキスト解析部101はテキストファイル
103から音声合成の対象となるテキストを読み出し、
形態素解析部104、構文解析部106、意味解析部1
07及び類似読み語検出部108を用いて当該テキスト
の解析を行う。音声合成部102内の音声素片選択部1
10は、テキスト解析部101でのテキスト解析結果に
基づいてアクセント句毎に対応する合成音声の明瞭度を
表すスコアを求め、そのスコアの値をもとに、自然性優
先音声素片辞書111、中明瞭度音声素片辞書112及
び高明瞭度音声素片辞書113のいずれかから該当する
音声素片の列を選択する。音声素片接続部114は、選
択された音声素片の列を接続し、合成フィルタ処理部1
15による音声合成に供する。
Description
【0001】
【発明の属する技術分野】本発明は、音声合成の対象と
なる音韻情報に基づいて、音声素片を選択し、接続する
ことによって音声を合成する音声合成装置及び文音声変
換プログラムを記録した機械読み取り可能な記録媒体に
関する。
なる音韻情報に基づいて、音声素片を選択し、接続する
ことによって音声を合成する音声合成装置及び文音声変
換プログラムを記録した機械読み取り可能な記録媒体に
関する。
【0002】
【従来の技術】この種の音声合成装置の代表的なもの
に、音声を細分化して蓄積し、その組み合わせによって
任意の音声を合成可能な規則合成装置があることが知ら
れている。以下では、規則合成装置の従来技術の例を図
を参照しながら説明する。
に、音声を細分化して蓄積し、その組み合わせによって
任意の音声を合成可能な規則合成装置があることが知ら
れている。以下では、規則合成装置の従来技術の例を図
を参照しながら説明する。
【0003】図7は従来の規則合成装置の構成を示すブ
ロック図である、図7の規則合成装置は入力されるテキ
ストデータ(以下、単にテキストと称する)を音韻情報
と韻律情報からなる記号列に変換し、その記号列から音
声を生成する文音声変換(Text-to-speech conversio
n:以下、TTSと称する)処理を行う。
ロック図である、図7の規則合成装置は入力されるテキ
ストデータ(以下、単にテキストと称する)を音韻情報
と韻律情報からなる記号列に変換し、その記号列から音
声を生成する文音声変換(Text-to-speech conversio
n:以下、TTSと称する)処理を行う。
【0004】この図7の規則合成装置におけるTTS処
理機構は、大きく分けて言語処理部12と音声合成部1
3の2つの処理部からなり、日本語の規則合成を例に取
ると次のように行われるのが一般的である。
理機構は、大きく分けて言語処理部12と音声合成部1
3の2つの処理部からなり、日本語の規則合成を例に取
ると次のように行われるのが一般的である。
【0005】まず言語処理部12では、テキストファイ
ル11から入力されるテキスト(漢字かな混じり文)に
対して形態素解析・構文解析等の言語処理を行い、形態
素への分解、係り受け関係の推定等の処理を行うと同時
に、各形態素に読みとアクセント型を与える。その後言
語処理部12では、アクセントに関しては複合語等のア
クセント移動規則を用いて、所定の読み上げ単位、つま
り読み上げの際の区切りとなる句(以下、アクセント句
と称する)毎のアクセント型を決定する。
ル11から入力されるテキスト(漢字かな混じり文)に
対して形態素解析・構文解析等の言語処理を行い、形態
素への分解、係り受け関係の推定等の処理を行うと同時
に、各形態素に読みとアクセント型を与える。その後言
語処理部12では、アクセントに関しては複合語等のア
クセント移動規則を用いて、所定の読み上げ単位、つま
り読み上げの際の区切りとなる句(以下、アクセント句
と称する)毎のアクセント型を決定する。
【0006】次に音声合成部13内では、得られた「読
み」に含まれる各音韻の継続時間長を音韻継続時間長決
定処理部14にて決定する。音韻継続時間長は、日本語
特有の拍の等時性に基づき決定する手法が一般的であ
る。本従来例では、子音の継続時間長は子音の種類によ
り一定とし、各モーラの基準時刻である子音から母音へ
のわたり部の間隔が一定になるように、母音の継続時間
長が決定される。
み」に含まれる各音韻の継続時間長を音韻継続時間長決
定処理部14にて決定する。音韻継続時間長は、日本語
特有の拍の等時性に基づき決定する手法が一般的であ
る。本従来例では、子音の継続時間長は子音の種類によ
り一定とし、各モーラの基準時刻である子音から母音へ
のわたり部の間隔が一定になるように、母音の継続時間
長が決定される。
【0007】続いて、上記のようにして得られる「読
み」に従って、音韻パラメータ生成処理部16が音声素
片メモリ15から必要な音声素片を読み出し、読み出し
た音声素片を上記の方法で決定した音韻継続時間長に従
って、時間軸方向に伸縮させながら接続して、合成すべ
き音声の特徴パラメータ系列を生成する。
み」に従って、音韻パラメータ生成処理部16が音声素
片メモリ15から必要な音声素片を読み出し、読み出し
た音声素片を上記の方法で決定した音韻継続時間長に従
って、時間軸方向に伸縮させながら接続して、合成すべ
き音声の特徴パラメータ系列を生成する。
【0008】ここで、音声素片メモリ15には、予め作
成された多数の音声素片が格納されている。音声素片
は、アナウンサ等が発声した音声を分析して、スペクト
ルの包絡特性を表現する所定の音声の特徴パラメータを
得た後、所定の合成単位、本従来例では日本語の音節の
単位(子音十母音:以下、CVと称する)で、日本語の
音声に含まれる全ての音節を上記特徴パラメータから切
り出すことにより作成される。また本従来例では、前記
の特徴パラメータとしてケプストラムの低次の係数を利
用している。低次のケプストラム係数は次のようにして
求めることができる。まず、アナウンサ等が発声した音
声データに、一定幅・一定周期で窓関数(ここではハニ
ング窓)をかけ、各窓内の音声波形に対してフーリエ変
換を行い音声の短時間スペクトルを計算する。次に、得
られた短時間スペクトルのパワーを対数化して対数パワ
ースペクトルを得たのち、対数パワースペクトルをフー
リエ変換する。こうして計算されるのがケプストラム係
数である。そして、ケプストラムの特性として、高次の
係数は音声の基本周波数情報を、低次の係数は音声のス
ペクトラム係数を保持していることはよく知られてい
る。
成された多数の音声素片が格納されている。音声素片
は、アナウンサ等が発声した音声を分析して、スペクト
ルの包絡特性を表現する所定の音声の特徴パラメータを
得た後、所定の合成単位、本従来例では日本語の音節の
単位(子音十母音:以下、CVと称する)で、日本語の
音声に含まれる全ての音節を上記特徴パラメータから切
り出すことにより作成される。また本従来例では、前記
の特徴パラメータとしてケプストラムの低次の係数を利
用している。低次のケプストラム係数は次のようにして
求めることができる。まず、アナウンサ等が発声した音
声データに、一定幅・一定周期で窓関数(ここではハニ
ング窓)をかけ、各窓内の音声波形に対してフーリエ変
換を行い音声の短時間スペクトルを計算する。次に、得
られた短時間スペクトルのパワーを対数化して対数パワ
ースペクトルを得たのち、対数パワースペクトルをフー
リエ変換する。こうして計算されるのがケプストラム係
数である。そして、ケプストラムの特性として、高次の
係数は音声の基本周波数情報を、低次の係数は音声のス
ペクトラム係数を保持していることはよく知られてい
る。
【0009】音声合成部13では更に、ピッチパターン
生成処理部17が上記アクセント型をもとに、ピッチの
高低変化が生じる時刻に点ピッチを設定し、複数設定さ
れた点ピッチ間を直線補間してピッチのアクセント成分
を生成し、これにピッチの自然下降を表現するイントネ
ーション成分を重畳してピッチパターンを生成する。
生成処理部17が上記アクセント型をもとに、ピッチの
高低変化が生じる時刻に点ピッチを設定し、複数設定さ
れた点ピッチ間を直線補間してピッチのアクセント成分
を生成し、これにピッチの自然下降を表現するイントネ
ーション成分を重畳してピッチパターンを生成する。
【0010】最後に、合成フィルタ処理部18にて、有
声区間ではピッチパターンに基づいた周期パルスを、無
声区間ではホワイトノイズを音源とし、音声の特徴パラ
メータ系列から算出したフィルタ係数として、フィルタ
リングを行い所望の音声を合成する。ここでは、合成フ
ィルタ処理部18の合成フィルタとして、ケプストラム
係数を直接フィルタ係数とするLMA(Log Magnitude
Approximation)フィルタ(対数振幅近似フィルタ)を
用いている。
声区間ではピッチパターンに基づいた周期パルスを、無
声区間ではホワイトノイズを音源とし、音声の特徴パラ
メータ系列から算出したフィルタ係数として、フィルタ
リングを行い所望の音声を合成する。ここでは、合成フ
ィルタ処理部18の合成フィルタとして、ケプストラム
係数を直接フィルタ係数とするLMA(Log Magnitude
Approximation)フィルタ(対数振幅近似フィルタ)を
用いている。
【0011】
【発明が解決しようとする課題】上記した規則合成装置
に代表される従来の音声合成装置では、その音声合成装
置で生成される音声には次のような問題があった。
に代表される従来の音声合成装置では、その音声合成装
置で生成される音声には次のような問題があった。
【0012】従来の音声合成装置では、音声合成部にお
いて、1種類の合成単位(CV)に対して1つの音声素
片しか持っていないため、絶えず同じ明瞭度で同種の合
成単位は合成される。
いて、1種類の合成単位(CV)に対して1つの音声素
片しか持っていないため、絶えず同じ明瞭度で同種の合
成単位は合成される。
【0013】しかしながら、人間が音声を発声している
ときには、次のようなケースで意識的に、或いは無意識
のうちに、他の部分の発声に比べて明瞭な発音してい
る。即ち、文中で意味を伝えるのに重要な役割を果たす
語が現れたとき、或いは、文言中で初めて出てきた語で
ある場合、或いは、話し手または聞き手にとって馴染み
のない語が現われた場合である。また、その語に類似し
た発音を持つ語が存在し、聞き手が聞き間違いを起こし
そうな場合なども同様である。反対に、上記のような箇
所以外では人間はかなり不明瞭に発音している。なぜな
ら、不明瞭であっても聞き手にとって容易に推測可能な
部分だからである。
ときには、次のようなケースで意識的に、或いは無意識
のうちに、他の部分の発声に比べて明瞭な発音してい
る。即ち、文中で意味を伝えるのに重要な役割を果たす
語が現れたとき、或いは、文言中で初めて出てきた語で
ある場合、或いは、話し手または聞き手にとって馴染み
のない語が現われた場合である。また、その語に類似し
た発音を持つ語が存在し、聞き手が聞き間違いを起こし
そうな場合なども同様である。反対に、上記のような箇
所以外では人間はかなり不明瞭に発音している。なぜな
ら、不明瞭であっても聞き手にとって容易に推測可能な
部分だからである。
【0014】したがって、1種類の合成単位に対して1
つの音声素片しか持っていない従来の音声合成装置で
は、このような合成音声の明瞭性の調節が行えないため
に、平均的な明瞭度の音声素片を用意した場合には、上
述の高い明瞭度が要求される箇所で不明瞭感を聞き手に
与えてしまう。逆に、明瞭度の高い音声素片を用意した
場合には、全ての文章の全ての箇所が明瞭な発音で合成
され、聞き手は合成音声にたどたどしさを感じてしま
う。このような欠点が従来の音声合成装置にはあった。
つの音声素片しか持っていない従来の音声合成装置で
は、このような合成音声の明瞭性の調節が行えないため
に、平均的な明瞭度の音声素片を用意した場合には、上
述の高い明瞭度が要求される箇所で不明瞭感を聞き手に
与えてしまう。逆に、明瞭度の高い音声素片を用意した
場合には、全ての文章の全ての箇所が明瞭な発音で合成
され、聞き手は合成音声にたどたどしさを感じてしま
う。このような欠点が従来の音声合成装置にはあった。
【0015】1種類の合成単位に対して複数の音声素片
を持つ音声合成装置も存在するが、明瞭性とは無関係
に、音韻環境や韻律に応じて使い分けているだけなの
で、やはり上記の欠点が存在する。
を持つ音声合成装置も存在するが、明瞭性とは無関係
に、音韻環境や韻律に応じて使い分けているだけなの
で、やはり上記の欠点が存在する。
【0016】本発明は上記事情を考慮してなされたもの
でその目的は、1種類の合成単位に対して、明瞭度の異
なる音声素片を複数用意しておき、TTSの処理の中
で、出現する語の状況に応じて明瞭度の異なる音声素片
を使い分けることによって、聞き取りやすく長時間聞い
ていても疲れない、明瞭性と自然性を両立した音声を合
成できる音声合成装置及び文音声変換プログラムを記録
した機械読み取り可能な記録媒体を提供することにあ
る。
でその目的は、1種類の合成単位に対して、明瞭度の異
なる音声素片を複数用意しておき、TTSの処理の中
で、出現する語の状況に応じて明瞭度の異なる音声素片
を使い分けることによって、聞き取りやすく長時間聞い
ていても疲れない、明瞭性と自然性を両立した音声を合
成できる音声合成装置及び文音声変換プログラムを記録
した機械読み取り可能な記録媒体を提供することにあ
る。
【0017】
【課題を解決するための手段】本発明は、音声合成の対
象となるテキストデータを解析してテキスト解析結果を
得るテキスト解析手段と、合成単位毎に用意される音声
素片が蓄積された音声素片辞書であって、少なくとも一
部の合成単位については、合成した際の明瞭度が異なる
複数種類の音声素片が用意されている音声素片辞書と、
上記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに上記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、この音声素
片選択手段によって選択された音声素片を接続する音声
素片接続手段と、この音声素片接続手段によって接続さ
れた音声素片の列を用いて音声を生成する音声生成処理
手段とを備えたことを特徴とする。
象となるテキストデータを解析してテキスト解析結果を
得るテキスト解析手段と、合成単位毎に用意される音声
素片が蓄積された音声素片辞書であって、少なくとも一
部の合成単位については、合成した際の明瞭度が異なる
複数種類の音声素片が用意されている音声素片辞書と、
上記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに上記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、この音声素
片選択手段によって選択された音声素片を接続する音声
素片接続手段と、この音声素片接続手段によって接続さ
れた音声素片の列を用いて音声を生成する音声生成処理
手段とを備えたことを特徴とする。
【0018】このような構成においては、テキスト解析
手段のテキスト解析結果に基づいて所定の読み上げ単位
に対応する合成音声の明瞭度が判定され、その判定結果
をもとに、その明瞭度で合成可能な音声素片が選択され
て接続され、対応する音声が生成される。したがって、
テキストデータの表す文言中で、意味内容を伝えるよう
な重要な部分については、高明瞭音声素片を使用し、そ
うでないところでは通常の音声素片を使用することによ
り、合成音声の内容を容易に理解することが可能とな
る。
手段のテキスト解析結果に基づいて所定の読み上げ単位
に対応する合成音声の明瞭度が判定され、その判定結果
をもとに、その明瞭度で合成可能な音声素片が選択され
て接続され、対応する音声が生成される。したがって、
テキストデータの表す文言中で、意味内容を伝えるよう
な重要な部分については、高明瞭音声素片を使用し、そ
うでないところでは通常の音声素片を使用することによ
り、合成音声の内容を容易に理解することが可能とな
る。
【0019】ここで、上記テキスト解析手段を、上記読
み上げ単位に、対応する語の品詞を表す第1の情報(品
詞情報)、対応する語が自立語であるか付属語であるか
を示す第2の情報(自立語・付属語情報)、対応する語
が未知話であるか否かを示す第3の情報(未知語情
報)、対応する語の文内或いは文書内の位置を表わす第
4の情報(文内位置情報)、対応する語の馴染み深さを
表わす第5の情報(出現頻度情報)、対応する語の同一
語における少なくとも最初の出現であるか否かが判定可
能な第6の情報(出現順情報)、フォーカスの有無を表
す第7の情報(フォーカス有無情報)、及び対応する語
と発音が類似する語が存在するか否かを示す第8の情報
(類似読み語有無情報)の少なくとも1つを含むテキス
ト解析結果を得るように構成すると共に、上記音声素片
選択手段では、このテキスト解析結果に含まれる上記第
1乃至第8の情報の少なくとも1つに基づいて明瞭度が
判定される構成とするとよい。
み上げ単位に、対応する語の品詞を表す第1の情報(品
詞情報)、対応する語が自立語であるか付属語であるか
を示す第2の情報(自立語・付属語情報)、対応する語
が未知話であるか否かを示す第3の情報(未知語情
報)、対応する語の文内或いは文書内の位置を表わす第
4の情報(文内位置情報)、対応する語の馴染み深さを
表わす第5の情報(出現頻度情報)、対応する語の同一
語における少なくとも最初の出現であるか否かが判定可
能な第6の情報(出現順情報)、フォーカスの有無を表
す第7の情報(フォーカス有無情報)、及び対応する語
と発音が類似する語が存在するか否かを示す第8の情報
(類似読み語有無情報)の少なくとも1つを含むテキス
ト解析結果を得るように構成すると共に、上記音声素片
選択手段では、このテキスト解析結果に含まれる上記第
1乃至第8の情報の少なくとも1つに基づいて明瞭度が
判定される構成とするとよい。
【0020】このような構成においては、上記第1の情
報(品詞情報)に基づいて明瞭度を判定することによ
り、文書中で、名詞や形容詞など意味内容を伝える重要
な部分については、高明瞭音声素片を使用し、そうでな
い助詞、助動詞部分などでは通常の音声素片を使用する
といった使い分けが可能となるため、内容を理解しやす
く且つ滑らかな音声を合成できる。
報(品詞情報)に基づいて明瞭度を判定することによ
り、文書中で、名詞や形容詞など意味内容を伝える重要
な部分については、高明瞭音声素片を使用し、そうでな
い助詞、助動詞部分などでは通常の音声素片を使用する
といった使い分けが可能となるため、内容を理解しやす
く且つ滑らかな音声を合成できる。
【0021】また、上記第2の情報(自立語・付属語情
報)に基づいて明瞭度を判定することにより、文書中
で、名詞や形容詞など意味内容を伝える中心となる自立
語部分については、高明瞭音声素片を使用し、そうでな
い付属語(助詞、助動詞)部分では通常の音声素片を使
用するといった使い分けが可能となるため、やはり内容
を理解しやすく且つ滑らかな音声を合成できる。
報)に基づいて明瞭度を判定することにより、文書中
で、名詞や形容詞など意味内容を伝える中心となる自立
語部分については、高明瞭音声素片を使用し、そうでな
い付属語(助詞、助動詞)部分では通常の音声素片を使
用するといった使い分けが可能となるため、やはり内容
を理解しやすく且つ滑らかな音声を合成できる。
【0022】また、上記第3の情報(未知語情報)に基
づいて明瞭度を判定することにより、専門用語など、テ
キスト解析で使用する辞書に載っていない一般的でない
語は、高明瞭音声素片を使用して明瞭な音声で合成する
といった使い分けが可能となるため、やはり内容を理解
しやすく且つ滑らかな音声を合成できる。
づいて明瞭度を判定することにより、専門用語など、テ
キスト解析で使用する辞書に載っていない一般的でない
語は、高明瞭音声素片を使用して明瞭な音声で合成する
といった使い分けが可能となるため、やはり内容を理解
しやすく且つ滑らかな音声を合成できる。
【0023】また、上記第4の情報(文内位置情報)に
基づいて明瞭度を判定することにより、聞き手にとっ
て、推測する手がかりの少ない話し始め(合成し始め)
部分は聞きづらいことを考慮して、文頭や文書頭におい
ては高明瞭音声素片を使用して明瞭な音声で合成すると
いった使い分けが可能となるため、やはり内容を理解し
やすく且つ滑らかな音声を合成できる。
基づいて明瞭度を判定することにより、聞き手にとっ
て、推測する手がかりの少ない話し始め(合成し始め)
部分は聞きづらいことを考慮して、文頭や文書頭におい
ては高明瞭音声素片を使用して明瞭な音声で合成すると
いった使い分けが可能となるため、やはり内容を理解し
やすく且つ滑らかな音声を合成できる。
【0024】また、上記第5の情報(出現頻度情報)に
基づいて明瞭度を判定することにより、馴染みの薄い
語、つまり予め利用頻度が低いものとして登録されてい
る語は、高明瞭音声素片を使用して明瞭な音声で合成す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
基づいて明瞭度を判定することにより、馴染みの薄い
語、つまり予め利用頻度が低いものとして登録されてい
る語は、高明瞭音声素片を使用して明瞭な音声で合成す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
【0025】また、上記第6の情報(出現順情報)に基
づいて明瞭度を判定することにより、最初に出てきた語
は、高明瞭音声素片を使用して明瞭な音声で合成し、2
度目以降は明瞭度は落ちるが滑らかな音声素片を使用す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
づいて明瞭度を判定することにより、最初に出てきた語
は、高明瞭音声素片を使用して明瞭な音声で合成し、2
度目以降は明瞭度は落ちるが滑らかな音声素片を使用す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
【0026】ここで、上記テキスト解析手段により、上
記第6の情報として、対応する語の同一語における出現
順を表す出現順情報が取得される構成とすると共に、こ
の出現順情報に基づいて上記音声素片選択手段により明
瞭度が判定される構成とするならば、語の登場回数の少
ないうちは、高明瞭音声素片を使用して明瞭な音声で合
成し、回数が増えるに連れ明瞭度は落ちるが滑らかな音
声素片を使用するといったきめ細かな使い分けが可能と
なるため、より内容を理解しやすく且つ滑らかな音声を
合成できる。
記第6の情報として、対応する語の同一語における出現
順を表す出現順情報が取得される構成とすると共に、こ
の出現順情報に基づいて上記音声素片選択手段により明
瞭度が判定される構成とするならば、語の登場回数の少
ないうちは、高明瞭音声素片を使用して明瞭な音声で合
成し、回数が増えるに連れ明瞭度は落ちるが滑らかな音
声素片を使用するといったきめ細かな使い分けが可能と
なるため、より内容を理解しやすく且つ滑らかな音声を
合成できる。
【0027】また、上記第7の情報(フォーカス有無情
報)に基づいて明瞭度を判定することにより、文書中か
ら意味解釈によって導き出されるフォーカス(或いはプ
ロミネンス)の部分、つまり文書中で名詞や形容詞など
意味内容を伝える重要な部分については、高明瞭音声素
片を使用し、そうでない助詞、助動詞部分などでは通常
の音声素片を使用するといった使い分けが可能となるた
め、やはり内容を理解しやすく且つ滑らかを音声を合成
できる。
報)に基づいて明瞭度を判定することにより、文書中か
ら意味解釈によって導き出されるフォーカス(或いはプ
ロミネンス)の部分、つまり文書中で名詞や形容詞など
意味内容を伝える重要な部分については、高明瞭音声素
片を使用し、そうでない助詞、助動詞部分などでは通常
の音声素片を使用するといった使い分けが可能となるた
め、やはり内容を理解しやすく且つ滑らかを音声を合成
できる。
【0028】また、上記第8の情報(類似読み語有無情
報)に基づいて明瞭度を判定することにより、類似する
発音の語が文書中に既に存在する語を合成する場合、高
明瞭音声素片を使用して明瞭な音声で合成するといった
使い分けが可能となるため、聞き手はこれらを明確に区
別して認識できるようになり、内容を理解しやすく且つ
滑らかな音声を合成できる。
報)に基づいて明瞭度を判定することにより、類似する
発音の語が文書中に既に存在する語を合成する場合、高
明瞭音声素片を使用して明瞭な音声で合成するといった
使い分けが可能となるため、聞き手はこれらを明確に区
別して認識できるようになり、内容を理解しやすく且つ
滑らかな音声を合成できる。
【0029】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。
図面を参照して説明する。
【0030】図1は本発明の一実施形態に係る音声の規
則合成装置の概略構成を示すブロック図である。図1の
音声規則合成装置(以下、音声合成装置と称する)は、
例えば、パーソナルコンピュータ等の情報処理装置(計
算機)上で、CD−ROM、フロッピーディスク、ハー
ドディスク、メモリカード等の記録媒体、或いはネット
ワーク等の通信媒体により供給される専用のソフトウェ
ア(文音声変換ソフトウェア)を実行することにより実
現されるもので、テキスト(テキストデータ)から音声
を生成する文音声変換(TTS)処理機能を有してい
る。この音声合成装置の機能構成は、大別してテキスト
解析部101と音声合成部102とに分けられる。
則合成装置の概略構成を示すブロック図である。図1の
音声規則合成装置(以下、音声合成装置と称する)は、
例えば、パーソナルコンピュータ等の情報処理装置(計
算機)上で、CD−ROM、フロッピーディスク、ハー
ドディスク、メモリカード等の記録媒体、或いはネット
ワーク等の通信媒体により供給される専用のソフトウェ
ア(文音声変換ソフトウェア)を実行することにより実
現されるもので、テキスト(テキストデータ)から音声
を生成する文音声変換(TTS)処理機能を有してい
る。この音声合成装置の機能構成は、大別してテキスト
解析部101と音声合成部102とに分けられる。
【0031】テキスト解析部101は、入力文である漢
字かな混じり文を解析して語の同定を行い(形態素解
析)、得られた品詞情報等を基に、文の構造を推定し
(構文解析)、これから読み上げようとする文の中でど
の語が重要な意味(プロミネンス)を担っているか(ど
の語にフォーカスが存在するか)を推定し(意味解
析)、その結果を出力する処理を司る。一方、音声合成
部102は、テキスト解析部101の出力であるテキス
ト解析結果をもとに音声を生成する処理を司る。
字かな混じり文を解析して語の同定を行い(形態素解
析)、得られた品詞情報等を基に、文の構造を推定し
(構文解析)、これから読み上げようとする文の中でど
の語が重要な意味(プロミネンス)を担っているか(ど
の語にフォーカスが存在するか)を推定し(意味解
析)、その結果を出力する処理を司る。一方、音声合成
部102は、テキスト解析部101の出力であるテキス
ト解析結果をもとに音声を生成する処理を司る。
【0032】さて、図1の音声合成装置において、文音
声変換(読み上げ)の対象となるテキスト(ここでは日
本語文書)はテキストファイル103として保存されて
いる。本装置では、文音声変換ソフトウェア(文音声変
換プログラム)に従い、当該ファイル103から漢字か
な混じり文を読み出して、テキスト解析部101及び音
声合成部102により以下に述べる文音声変換処理を行
い、音声を合成する。
声変換(読み上げ)の対象となるテキスト(ここでは日
本語文書)はテキストファイル103として保存されて
いる。本装置では、文音声変換ソフトウェア(文音声変
換プログラム)に従い、当該ファイル103から漢字か
な混じり文を読み出して、テキスト解析部101及び音
声合成部102により以下に述べる文音声変換処理を行
い、音声を合成する。
【0033】まず、テキストファイル103から読み出
された漢字仮名混じり文(入力文)は、テキスト解析部
101内の形態素解析部104に入力される。形態素解
析部104は、入力される漢字かな混じり文に対し形態
素解析を行い、読み情報とアクセン情報を生成する。形
態素解析とは、与えられた文の中で、どの文字列が語句
を構成しているか、そしてその語の文法的な属性がどの
ようなものかを解析する作業である。
された漢字仮名混じり文(入力文)は、テキスト解析部
101内の形態素解析部104に入力される。形態素解
析部104は、入力される漢字かな混じり文に対し形態
素解析を行い、読み情報とアクセン情報を生成する。形
態素解析とは、与えられた文の中で、どの文字列が語句
を構成しているか、そしてその語の文法的な属性がどの
ようなものかを解析する作業である。
【0034】形態素解析部104は、入力文をテキスト
解析辞書としての日本語解析辞書105と照合して全て
の形態素系列候補を求め、その中から、文法的に接続可
能な組み合わせを出力する。この日本語解析辞書105
には、形態素解析時に用いられる情報と共に、個々の形
態素の読みとアクセント型、そしてその形態素が名詞
([名詞+する]型の動詞の名詞部を含む)に属するも
のであるならば、それがどの程度よく用いられるかを表
わした「出現頻度」(同じ名詞の出現頻度)が登録され
ている。そのため形態素解析部104は、形態素解析に
より形態素が定まれば、同時に読みとアクセント型を与
えることができ、各語の出現頻度を付与することができ
きる。更に、この過程において、日本語解析辞書105
に登録されていない語が同定された場合は、形態素解析
部104は当該語に対して未知語として扱うための情報
を付加すると共に、その前後関係により品詞の推定を行
い、アクセント型と読みに関しては、日本語解析辞書1
05に含まれている単漢字辞書を参照して尤もらしいア
クセント型と読みを与える。
解析辞書としての日本語解析辞書105と照合して全て
の形態素系列候補を求め、その中から、文法的に接続可
能な組み合わせを出力する。この日本語解析辞書105
には、形態素解析時に用いられる情報と共に、個々の形
態素の読みとアクセント型、そしてその形態素が名詞
([名詞+する]型の動詞の名詞部を含む)に属するも
のであるならば、それがどの程度よく用いられるかを表
わした「出現頻度」(同じ名詞の出現頻度)が登録され
ている。そのため形態素解析部104は、形態素解析に
より形態素が定まれば、同時に読みとアクセント型を与
えることができ、各語の出現頻度を付与することができ
きる。更に、この過程において、日本語解析辞書105
に登録されていない語が同定された場合は、形態素解析
部104は当該語に対して未知語として扱うための情報
を付加すると共に、その前後関係により品詞の推定を行
い、アクセント型と読みに関しては、日本語解析辞書1
05に含まれている単漢字辞書を参照して尤もらしいア
クセント型と読みを与える。
【0035】形態素解析部104にて決定した文に含ま
れる個々の語の文法属性は、構文解析部106に渡され
る。構文解析部106は、形態素解析部104から渡さ
れた各語の文法属性から、各語の係り受け関係を推定す
る文構造の解析を行う。
れる個々の語の文法属性は、構文解析部106に渡され
る。構文解析部106は、形態素解析部104から渡さ
れた各語の文法属性から、各語の係り受け関係を推定す
る文構造の解析を行う。
【0036】構文解析部106にて決定した文構造に関
する情報は意味解析部107に渡される。意味解析部1
07は、構文解析部106から渡された文構造に関する
情報に基づき、文構造とそれぞれの語の意味、そして文
と文の関係から、個々の文においてどの語に焦点(フォ
ーカス)が当てられているか、どの語が意味を伝える上
で重要な役割を担っているかを推定し、そのフォーカス
(プロミネンス)の有無を表す情報を出力する。
する情報は意味解析部107に渡される。意味解析部1
07は、構文解析部106から渡された文構造に関する
情報に基づき、文構造とそれぞれの語の意味、そして文
と文の関係から、個々の文においてどの語に焦点(フォ
ーカス)が当てられているか、どの語が意味を伝える上
で重要な役割を担っているかを推定し、そのフォーカス
(プロミネンス)の有無を表す情報を出力する。
【0037】これらテキスト解析の具体的な方法につい
ての詳細な説明はここでは省略するが、例えば、長尾
真監修の「日本語情報処理」(電子情報通信学会)の第
95頁乃至第109頁(形態素解析について)、第12
1乃至第124頁(構文解析について)、第154頁乃
至第163頁(意味解析について)に記載された方法を
用いることがてきる。
ての詳細な説明はここでは省略するが、例えば、長尾
真監修の「日本語情報処理」(電子情報通信学会)の第
95頁乃至第109頁(形態素解析について)、第12
1乃至第124頁(構文解析について)、第154頁乃
至第163頁(意味解析について)に記載された方法を
用いることがてきる。
【0038】以上のようにして、テキスト解析部101
では、語の読みやアクセントの情報、品詞や未知語情報
(未知語フラグ)、語の文内における位置(文内位
置)、語の出現頻度(同じ名詞の出現頻度)、及び語の
フォーカスの有無の情報が取得される。このテキスト解
析部101により取得される情報(テキスト解析結果)
の例を、図2(a)に示すテキスト「年号を誤って評成
と記入してしまったので、正しい年号の平成に訂正し
た。」を入力した場合について、図2(b)に示す。こ
こでは、誤って記載した「評成」を「平成」に直したこ
とを言いたいことが、意味解析部107の意味解析で導
き出されて、「評成」と「平成」にフォーカスが与えら
れている。
では、語の読みやアクセントの情報、品詞や未知語情報
(未知語フラグ)、語の文内における位置(文内位
置)、語の出現頻度(同じ名詞の出現頻度)、及び語の
フォーカスの有無の情報が取得される。このテキスト解
析部101により取得される情報(テキスト解析結果)
の例を、図2(a)に示すテキスト「年号を誤って評成
と記入してしまったので、正しい年号の平成に訂正し
た。」を入力した場合について、図2(b)に示す。こ
こでは、誤って記載した「評成」を「平成」に直したこ
とを言いたいことが、意味解析部107の意味解析で導
き出されて、「評成」と「平成」にフォーカスが与えら
れている。
【0039】さて、テキスト解析部101には、類似読
み語検出部108が付加されており、テキスト解析部1
01内の形態素解析部104、構文解析部106及び意
味解析部107を用いて行われたテキスト解析の結果
は、当該類似読み語検出部108に渡される。
み語検出部108が付加されており、テキスト解析部1
01内の形態素解析部104、構文解析部106及び意
味解析部107を用いて行われたテキスト解析の結果
は、当該類似読み語検出部108に渡される。
【0040】類似読み語検出部108は、図2(b)に
示したようなテキスト解析結果をもとに、読み上げよう
とする文に含まれる名詞([名詞+する]型の動詞の名
詞部を含む)に関する情報を、自身が管理する読み上げ
出現語リスト(図示せず)に追加していく。この読み上
げ出現語リストは、読み上げようとする文に含まれる名
詞の読みと、その名詞が同一文内の同一名詞の中の何番
目に出現したかを示す出現順(出現回数)を数えるカウ
ンタ(ソフトウェアカウンタ)から構成されている。
示したようなテキスト解析結果をもとに、読み上げよう
とする文に含まれる名詞([名詞+する]型の動詞の名
詞部を含む)に関する情報を、自身が管理する読み上げ
出現語リスト(図示せず)に追加していく。この読み上
げ出現語リストは、読み上げようとする文に含まれる名
詞の読みと、その名詞が同一文内の同一名詞の中の何番
目に出現したかを示す出現順(出現回数)を数えるカウ
ンタ(ソフトウェアカウンタ)から構成されている。
【0041】次に類似読み語検出部108は、読み上げ
出現語リスト中の読みをもとに、類似した読みを持ち聞
き間違えられやすい語、つまり類似読み語が同リスト内
にないかを調べる。ここでは、子音が1つだけ異なる語
が類似読み語と判定されるように構成されている。
出現語リスト中の読みをもとに、類似した読みを持ち聞
き間違えられやすい語、つまり類似読み語が同リスト内
にないかを調べる。ここでは、子音が1つだけ異なる語
が類似読み語と判定されるように構成されている。
【0042】類似読み語検出部108は、読み上げ出現
語リストに基づいて類似読み語を検出すると、図2
(b)に示したようなテキスト解析結果に、当該読み上
げ出現語リスト中の各カウンタの値、即ち読み上げ中の
文に含まれる名詞が同一文内の同一名詞の中の何番目に
出現したかをカウントした値(出現順)と、検出した類
似読み語(類似する読みを持つ名詞)の存在を表わすフ
ラグを付与して、音声合成部102に渡す。
語リストに基づいて類似読み語を検出すると、図2
(b)に示したようなテキスト解析結果に、当該読み上
げ出現語リスト中の各カウンタの値、即ち読み上げ中の
文に含まれる名詞が同一文内の同一名詞の中の何番目に
出現したかをカウントした値(出現順)と、検出した類
似読み語(類似する読みを持つ名詞)の存在を表わすフ
ラグを付与して、音声合成部102に渡す。
【0043】図2(a)に示すテキストを入力した結
果、図2(b)に示すテキスト解析結果が類似読み語検
出部108に与えられた場合の、当該類似読み語検出部
108からの情報出力例を図2(c)に示す。
果、図2(b)に示すテキスト解析結果が類似読み語検
出部108に与えられた場合の、当該類似読み語検出部
108からの情報出力例を図2(c)に示す。
【0044】さて、音声合成部102では、(テキスト
解析部101内の)類似読み語検出部108から図2
(c)に示したような情報(テキスト解析部101によ
る類似読み語検出結果を含むテキスト解析結果)を渡さ
れると、ピッチパターン生成処理部109が起動され
る。ピッチパターン生成処理部109は、類似読み語検
出部108からの情報中の形態素解析部104により決
定されたアクセント情報に基づいて点ピッチを設定す
る。そしてピッチパターン生成処理部109は、設定さ
れた複数の点ピッチを直線で補間し、例えば10mse
c毎のピッチ周波数で表わされるピッチパターンを出力
する。
解析部101内の)類似読み語検出部108から図2
(c)に示したような情報(テキスト解析部101によ
る類似読み語検出結果を含むテキスト解析結果)を渡さ
れると、ピッチパターン生成処理部109が起動され
る。ピッチパターン生成処理部109は、類似読み語検
出部108からの情報中の形態素解析部104により決
定されたアクセント情報に基づいて点ピッチを設定す
る。そしてピッチパターン生成処理部109は、設定さ
れた複数の点ピッチを直線で補間し、例えば10mse
c毎のピッチ周波数で表わされるピッチパターンを出力
する。
【0045】音声合成部102ではまた、音声素片選択
部110も起動される。音声素片選択部110は、類似
読み語検出部108からの出力情報のうち、アクセント
句毎の読み、アクセント句内自立語部の品詞、未知語情
報(未知語フラグ)、アクセント句の文内における位
置、アクセント句に含まれる名詞の出現頻度及び読み上
げ中の文書内での出現順と、類似読み語(類似する読み
を持つ名詞)の同一文内での存在を表わすフラグ、そし
て、アクセント句へのフォーカスの有無に基づいて音声
素片を選択する。この音声素片選択部110での音声素
片選択の詳細について以下に説明する。
部110も起動される。音声素片選択部110は、類似
読み語検出部108からの出力情報のうち、アクセント
句毎の読み、アクセント句内自立語部の品詞、未知語情
報(未知語フラグ)、アクセント句の文内における位
置、アクセント句に含まれる名詞の出現頻度及び読み上
げ中の文書内での出現順と、類似読み語(類似する読み
を持つ名詞)の同一文内での存在を表わすフラグ、そし
て、アクセント句へのフォーカスの有無に基づいて音声
素片を選択する。この音声素片選択部110での音声素
片選択の詳細について以下に説明する。
【0046】まず本実施形態では、サンプリング周波数
11025Hzで標本化した実音声を改良ケプストラム
法により窓長20msec、フレーム周期10msec
で分析して得た0次から25次の低次ケプストラム係数
を、子音十母音(CV)の単位で、日本語音声の合成に
必要な全音節を切り出した計137個の音声素片が蓄積
された音声素片ファイル(図示せず)が明瞭度別に3つ
用意されている。この明瞭度別の3つの音声素片ファイ
ルの内容は、文音声変換ソフトウェアに従う文音声変換
処理の開始時に、例えばメインメモリ(図示せず)に明
瞭度別に確保された音声素片領域に音声素片辞書111
〜113として読み込まれているものとする。ここで、
音声素片辞書111は自然性を優先させた音声素片の登
録辞書(自然性優先音声素片辞書)、音声素片辞書11
2は中明瞭度の音声素片の登録辞書(中明瞭度音声素片
辞書)、そして音声素片辞書113は高明瞭度の音声素
片の登録辞書(高明瞭度音声素片辞書)である。
11025Hzで標本化した実音声を改良ケプストラム
法により窓長20msec、フレーム周期10msec
で分析して得た0次から25次の低次ケプストラム係数
を、子音十母音(CV)の単位で、日本語音声の合成に
必要な全音節を切り出した計137個の音声素片が蓄積
された音声素片ファイル(図示せず)が明瞭度別に3つ
用意されている。この明瞭度別の3つの音声素片ファイ
ルの内容は、文音声変換ソフトウェアに従う文音声変換
処理の開始時に、例えばメインメモリ(図示せず)に明
瞭度別に確保された音声素片領域に音声素片辞書111
〜113として読み込まれているものとする。ここで、
音声素片辞書111は自然性を優先させた音声素片の登
録辞書(自然性優先音声素片辞書)、音声素片辞書11
2は中明瞭度の音声素片の登録辞書(中明瞭度音声素片
辞書)、そして音声素片辞書113は高明瞭度の音声素
片の登録辞書(高明瞭度音声素片辞書)である。
【0047】音声素片選択部110は、類似読み語検出
部108からの出力情報中のアクセント句毎の読み、ア
クセント句内自立語部の品詞、未知語情報、アクセント
句の文内における位置、アクセント句に含まれる名詞の
出現頻度、読み上げ中の文書内での出現順と、類似読み
語の同一文内での存在を表わすフラグ、そして、アクセ
ント句のフォーカスの有無に基づいて、アクセント句毎
に対応する合成音声の明瞭度を表すスコア(評価値)を
計算し、そのスコアの値に応じていずれの明瞭度の音声
素片辞書に登録されている音声素片を使用するかを決定
する。
部108からの出力情報中のアクセント句毎の読み、ア
クセント句内自立語部の品詞、未知語情報、アクセント
句の文内における位置、アクセント句に含まれる名詞の
出現頻度、読み上げ中の文書内での出現順と、類似読み
語の同一文内での存在を表わすフラグ、そして、アクセ
ント句のフォーカスの有無に基づいて、アクセント句毎
に対応する合成音声の明瞭度を表すスコア(評価値)を
計算し、そのスコアの値に応じていずれの明瞭度の音声
素片辞書に登録されている音声素片を使用するかを決定
する。
【0048】ここで、音声素片選択部110でのアクセ
ント句毎のスコア計算及びスコアの値に基づく音声素片
辞書(明瞭度)の決定は、図3及び図4のフローチャー
トに従って次のように行われる。まず、類似読み語検出
部108からの出力情報から、目的とするアクセント句
(最初は先頭のアクセント句)に関する情報が取り出さ
れる(ステップS1)。
ント句毎のスコア計算及びスコアの値に基づく音声素片
辞書(明瞭度)の決定は、図3及び図4のフローチャー
トに従って次のように行われる。まず、類似読み語検出
部108からの出力情報から、目的とするアクセント句
(最初は先頭のアクセント句)に関する情報が取り出さ
れる(ステップS1)。
【0049】次に、取り出したアクセント句に関する
(テキスト解析結果等の)情報中の自立語部品詞がチェ
ックされ、その品詞に基づいて、スコアが決定・付与さ
れる(ステップS2,S3)。ここでは、自立語部品詞
が名詞、形容詞、形容動詞、連体詞、副詞、または感動
詞のいずれかであるアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。次に、
取り出したアクセント句に関する情報中の未知語フラグ
がチェックされ、当該フラグのオン/オフ(1/0)に
基づいてスコアが決定・付与される(ステップS4,S
5)。ここでは、未知語フラグがオンのアクセント句、
つまり未知語を含むアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
(テキスト解析結果等の)情報中の自立語部品詞がチェ
ックされ、その品詞に基づいて、スコアが決定・付与さ
れる(ステップS2,S3)。ここでは、自立語部品詞
が名詞、形容詞、形容動詞、連体詞、副詞、または感動
詞のいずれかであるアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。次に、
取り出したアクセント句に関する情報中の未知語フラグ
がチェックされ、当該フラグのオン/オフ(1/0)に
基づいてスコアが決定・付与される(ステップS4,S
5)。ここでは、未知語フラグがオンのアクセント句、
つまり未知語を含むアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
【0050】次に、取り出したアクセント句に関する情
報中の文内位置の情報がチェックされ、そのアクセント
句の文内位置に基づいてスコアが決定・付与される(ス
テップS6,S7)。ここでは、文内位置が先頭(第1
番目)のアクセント句にはスコア1が、それ以外のアク
セント句にはスコア0が与えられる。
報中の文内位置の情報がチェックされ、そのアクセント
句の文内位置に基づいてスコアが決定・付与される(ス
テップS6,S7)。ここでは、文内位置が先頭(第1
番目)のアクセント句にはスコア1が、それ以外のアク
セント句にはスコア0が与えられる。
【0051】次に、取り出したアクセント句に関する情
報中の出現頻度の情報がチェックされ、そのアクセント
句内の名詞についての(日本語解析辞書105から得ら
れた)出現頻度に基づいてスコアが決定・付与される
(ステップS8,S9)。ここでは出現頻度が所定値以
下、例えば2以下の名詞(つまり馴染みのない語)を含
むアクセント句にはスコア1が、それ以外のアクセント
句にはスコア0が与えられる。
報中の出現頻度の情報がチェックされ、そのアクセント
句内の名詞についての(日本語解析辞書105から得ら
れた)出現頻度に基づいてスコアが決定・付与される
(ステップS8,S9)。ここでは出現頻度が所定値以
下、例えば2以下の名詞(つまり馴染みのない語)を含
むアクセント句にはスコア1が、それ以外のアクセント
句にはスコア0が与えられる。
【0052】次に、取り出したアクセント句に関する情
報中の出現順の情報がチェックされ、そのアクセント句
内の名詞についての読み上げ中の文での同じ名詞を対象
とする出現の順番に基づいてスコアが決定・付与される
(ステップS10,S11)。ここでは、読み上げ中の
文での名詞の出現順が2以上となる、つまり同じ名詞の
2度目以降の出現となるアクセント句にはスコア−1
が、それ以外のアクセント句にはスコア0が与えられ
る。
報中の出現順の情報がチェックされ、そのアクセント句
内の名詞についての読み上げ中の文での同じ名詞を対象
とする出現の順番に基づいてスコアが決定・付与される
(ステップS10,S11)。ここでは、読み上げ中の
文での名詞の出現順が2以上となる、つまり同じ名詞の
2度目以降の出現となるアクセント句にはスコア−1
が、それ以外のアクセント句にはスコア0が与えられ
る。
【0053】次に、取り出したアクセント句に関する情
報中のフォーカスの有無を示す情報がチェックされ、そ
のフォーカスの有無にに基づいてスコアが決定・付与さ
れる(ステップS12,S13)。ここでは、フォーカ
ス有りと判定されたアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
報中のフォーカスの有無を示す情報がチェックされ、そ
のフォーカスの有無にに基づいてスコアが決定・付与さ
れる(ステップS12,S13)。ここでは、フォーカ
ス有りと判定されたアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
【0054】次に、取り出したアクセント句に関する情
報中の類似読み語の有無を示す情報がチェックされ、そ
の類似読み語の有無に基づいてスコアが決定・付与され
る(ステップS14,S15)。ここでは、類似読み語
有りと判定されたアクセント句にはスコア1が、それ以
外のアクセント句にはスコア0が与えられる。
報中の類似読み語の有無を示す情報がチェックされ、そ
の類似読み語の有無に基づいてスコアが決定・付与され
る(ステップS14,S15)。ここでは、類似読み語
有りと判定されたアクセント句にはスコア1が、それ以
外のアクセント句にはスコア0が与えられる。
【0055】次に、取り出したアクセント句に関する情
報中の各項目毎に求められたスコアの合計値を求める
(ステップS16)。このスコアの合計値(総スコア)
は、対応するアクセント句の合成音声に要求される明瞭
度を表す。このステップS16が実行されると、1アク
セント句についてのスコア計算処理が終了する。
報中の各項目毎に求められたスコアの合計値を求める
(ステップS16)。このスコアの合計値(総スコア)
は、対応するアクセント句の合成音声に要求される明瞭
度を表す。このステップS16が実行されると、1アク
セント句についてのスコア計算処理が終了する。
【0056】すると音声素片選択部110は、求めたス
コアの合計値をチェックし(ステップS17)、その合
計値に基づいて、自然性優先音声素片辞書111、中明
瞭度音声素片辞書112、または高明瞭度音声素片辞書
113のうち、いずれの明瞭度の音声素片辞書に登録さ
れている音声素片を使用するかを、次のように決定す
る。
コアの合計値をチェックし(ステップS17)、その合
計値に基づいて、自然性優先音声素片辞書111、中明
瞭度音声素片辞書112、または高明瞭度音声素片辞書
113のうち、いずれの明瞭度の音声素片辞書に登録さ
れている音声素片を使用するかを、次のように決定す
る。
【0057】まず音声素片選択部110は、スコア(の
合計値)が0のアクセント句であれば、自然性優先音声
素片辞書111を使用することを決定して、この自然性
優先音声素片辞書111から当該アクセント句に対応す
るCV単位の高明瞭度音声素片の列を選択する(ステッ
プS18,S19)。同様に音声素片選択部110は、
スコア(の合計値)が1のアクセント句であれば、中明
瞭度音声素片辞書112を使用することを決定して、こ
の中明瞭度音声素片辞書112から当該アクセント句に
対応するCV単位の中明瞭度音声素片の列を選択し(ス
テップS20,S21)、スコア(の合計値)が2以上
のアクセント句であれば、高明瞭度音声素片辞書113
を使用することを決定して、この高明瞭度音声素片辞書
113から当該アクセント句に対応するCV単位の高明
瞭度音声素片の列を選択する(ステップS22,S2
3)。そして音声素片選択部110は、選択した音声素
片の列を音声素片接続部114に渡す(ステップS2
4)。
合計値)が0のアクセント句であれば、自然性優先音声
素片辞書111を使用することを決定して、この自然性
優先音声素片辞書111から当該アクセント句に対応す
るCV単位の高明瞭度音声素片の列を選択する(ステッ
プS18,S19)。同様に音声素片選択部110は、
スコア(の合計値)が1のアクセント句であれば、中明
瞭度音声素片辞書112を使用することを決定して、こ
の中明瞭度音声素片辞書112から当該アクセント句に
対応するCV単位の中明瞭度音声素片の列を選択し(ス
テップS20,S21)、スコア(の合計値)が2以上
のアクセント句であれば、高明瞭度音声素片辞書113
を使用することを決定して、この高明瞭度音声素片辞書
113から当該アクセント句に対応するCV単位の高明
瞭度音声素片の列を選択する(ステップS22,S2
3)。そして音声素片選択部110は、選択した音声素
片の列を音声素片接続部114に渡す(ステップS2
4)。
【0058】音声素片選択部110は、以上に述べた図
3及び図4のフローチャートに従う処理を、類似読み語
検出部108からの出力情報中の全アクセント句につい
て、先頭アクセス句から最終アクセント句まで1アクセ
ント句単位で繰り返し実行する。
3及び図4のフローチャートに従う処理を、類似読み語
検出部108からの出力情報中の全アクセント句につい
て、先頭アクセス句から最終アクセント句まで1アクセ
ント句単位で繰り返し実行する。
【0059】さて、上記した音声素片選択部110での
各アクセント句毎のスコア計算の結果は、類似読み語検
出部108からの出力情報が図2(c)のようになって
いる例では、図5に示すようになる。この場合、音声素
片選択部110での音声素片(音声素片辞書)選択結果
は、図6に示すようになる。
各アクセント句毎のスコア計算の結果は、類似読み語検
出部108からの出力情報が図2(c)のようになって
いる例では、図5に示すようになる。この場合、音声素
片選択部110での音声素片(音声素片辞書)選択結果
は、図6に示すようになる。
【0060】ここでは、入力テキスト「年号を誤って評
成と記入してしまったので、正しい年号の平成に訂正し
た。」のうち、スコアが2以上のアクセント句、即ち図
6(a)において2重下線が付されている、「年号
を」、「評成と」及び「平成に」の3つのアクセント句
については、同図6(b)に示すように、高明瞭度音声
素片辞書113に登録されている対応する高明瞭度音声
素片の列が選択される。同様に、スコアが1のアクセン
ト句、即ち図6(a)において1重下線が付されてい
る、「正しい年号の」及び「訂正した」の2つのアクセ
ント句については、同図6(b)に示すように、中明瞭
度音声素片辞書112に登録されている対応する中明瞭
度音声素片の列が選択され、スコアが0のアクセント
句、即ち図6(a)において下線が付されていないアク
セント句については、同図6(b)に示すように、自然
性優先音声素片辞書111に登録されている対応する自
然性優先音声素片の列が選択される。
成と記入してしまったので、正しい年号の平成に訂正し
た。」のうち、スコアが2以上のアクセント句、即ち図
6(a)において2重下線が付されている、「年号
を」、「評成と」及び「平成に」の3つのアクセント句
については、同図6(b)に示すように、高明瞭度音声
素片辞書113に登録されている対応する高明瞭度音声
素片の列が選択される。同様に、スコアが1のアクセン
ト句、即ち図6(a)において1重下線が付されてい
る、「正しい年号の」及び「訂正した」の2つのアクセ
ント句については、同図6(b)に示すように、中明瞭
度音声素片辞書112に登録されている対応する中明瞭
度音声素片の列が選択され、スコアが0のアクセント
句、即ち図6(a)において下線が付されていないアク
セント句については、同図6(b)に示すように、自然
性優先音声素片辞書111に登録されている対応する自
然性優先音声素片の列が選択される。
【0061】このように音声素片選択部110は、アク
セント句毎に利用する音声素片辞書を決定しながら、上
記のCV単位の音声素片の列を、明瞭度の異なる3つの
音声素片辞書111〜113のいずれかから順次読み出
し、これを音声素片接続部114に渡す。
セント句毎に利用する音声素片辞書を決定しながら、上
記のCV単位の音声素片の列を、明瞭度の異なる3つの
音声素片辞書111〜113のいずれかから順次読み出
し、これを音声素片接続部114に渡す。
【0062】音声素片接続部(音韻パラメータ生成処理
部)114では、音声素片選択部110から渡された音
声素片を順次補間接続することにより合成すべき音声の
音韻パラメータ(特徴パラメータ)を生成する。
部)114では、音声素片選択部110から渡された音
声素片を順次補間接続することにより合成すべき音声の
音韻パラメータ(特徴パラメータ)を生成する。
【0063】以上のようにして、ピッチパターン生成処
理部109によりピッチパターンが生成され、音声素片
接続部114により音韻パラメータが生成されると、音
声合成部102内の合成フィルタ処理部115が起動さ
れる。この合成フィルタ処理部115は、無声区間では
ホワイトノイズを、有声区間ではインパルスを駆動音源
として、音韻パラメータであるケプストラ係数を直接フ
ィルタ係数とするLMAフィルタにより音声を出力す
る。
理部109によりピッチパターンが生成され、音声素片
接続部114により音韻パラメータが生成されると、音
声合成部102内の合成フィルタ処理部115が起動さ
れる。この合成フィルタ処理部115は、無声区間では
ホワイトノイズを、有声区間ではインパルスを駆動音源
として、音韻パラメータであるケプストラ係数を直接フ
ィルタ係数とするLMAフィルタにより音声を出力す
る。
【0064】以上、本発明の実施形態について説明して
きたが、本発明は前記実施形態に限定されるものではな
い。例えば、前記の実施形態では、音声の特徴パラメー
タとしてケプストラムを使用しているが、LPCやPA
RCOR、フォルマントなど他のパラメータであって
も、本発明は適用可能であり同様な効果が得られる。ま
た、前記実施形態では特徴パラメータを用いた分析合成
型の方式を採用したが、波形編集型やフォルマント合成
型の方式であっても、本発明は適用可能であり、やはり
同様な効果が得られる。ピッチ生成に関しても、点ピッ
チによる方法でなくともよく、例えば藤崎モデルを利用
した場合でも本発明は適用可能である。
きたが、本発明は前記実施形態に限定されるものではな
い。例えば、前記の実施形態では、音声の特徴パラメー
タとしてケプストラムを使用しているが、LPCやPA
RCOR、フォルマントなど他のパラメータであって
も、本発明は適用可能であり同様な効果が得られる。ま
た、前記実施形態では特徴パラメータを用いた分析合成
型の方式を採用したが、波形編集型やフォルマント合成
型の方式であっても、本発明は適用可能であり、やはり
同様な効果が得られる。ピッチ生成に関しても、点ピッ
チによる方法でなくともよく、例えば藤崎モデルを利用
した場合でも本発明は適用可能である。
【0065】また、本実施形態では3つの音声素片辞書
を用いているが、本発明は音声素片辞書の数については
何ら限定していない。更に本実施形態では、全ての合成
単位について3種類の明瞭度の音声素片を用意している
が、明瞭度に基づいて分類された音声素片が1つでも存
在すればよく、明瞭度がさほど変化しない合成単位があ
れば音声素片は共通にして1つで構わない。要するに本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。
を用いているが、本発明は音声素片辞書の数については
何ら限定していない。更に本実施形態では、全ての合成
単位について3種類の明瞭度の音声素片を用意している
が、明瞭度に基づいて分類された音声素片が1つでも存
在すればよく、明瞭度がさほど変化しない合成単位があ
れば音声素片は共通にして1つで構わない。要するに本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。
【0066】
【発明の効果】以上詳述したように本発明によれば、1
種類の合成単位に対して、明瞭度の異なる音声素片を複
数用意しておき、TTSの処理の中で、出現する語の状
況に応じて明瞭度の異なる音声素片を使い分けることに
よって、聞き取りやすく長時間聞いていても疲れない、
明瞭性と自然性を両立した音声を合成することができ
る。この効果は、文中で意味を伝えるのに重要な役割を
果たす語が現われたとき、或いは文書中で初めて出てき
た語である場合、或いは話し手または聞き手にとって馴
染みのない語が現われた場合、また、その語に類似した
発音を持つ語が既に存在し、聞き手が聞き間違いを起こ
しそうな場合など、に応じて明瞭度の異なる音声素片を
使い分けるならば、一層顕著となる。
種類の合成単位に対して、明瞭度の異なる音声素片を複
数用意しておき、TTSの処理の中で、出現する語の状
況に応じて明瞭度の異なる音声素片を使い分けることに
よって、聞き取りやすく長時間聞いていても疲れない、
明瞭性と自然性を両立した音声を合成することができ
る。この効果は、文中で意味を伝えるのに重要な役割を
果たす語が現われたとき、或いは文書中で初めて出てき
た語である場合、或いは話し手または聞き手にとって馴
染みのない語が現われた場合、また、その語に類似した
発音を持つ語が既に存在し、聞き手が聞き間違いを起こ
しそうな場合など、に応じて明瞭度の異なる音声素片を
使い分けるならば、一層顕著となる。
【図1】本発明の一実施形態に係る音声合成装置の概略
構成を示すブロック図。
構成を示すブロック図。
【図2】音声合成の対象となるテキストの一例と当該テ
キストに対するテキスト解析部101内の形態素解析部
104、構文解析部106、意味解析部107及び類似
読み語検出部108を用いたテキスト解析の結果の一例
を示す図。
キストに対するテキスト解析部101内の形態素解析部
104、構文解析部106、意味解析部107及び類似
読み語検出部108を用いたテキスト解析の結果の一例
を示す図。
【図3】音声素片選択部110におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの一
部を示す図。
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの一
部を示す図。
【図4】音声素片選択部110におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの残
りを示す図。
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの残
りを示す図。
【図5】音声素片選択部110による図2に示したテキ
スト解析結果に基づくスコア計算の結果の一例を示す
図。
スト解析結果に基づくスコア計算の結果の一例を示す
図。
【図6】音声素片選択部110による図5のスコア計算
の結果に基づく音声素片(音声素片辞書)の選択結果の
一例を示す図。
の結果に基づく音声素片(音声素片辞書)の選択結果の
一例を示す図。
【図7】従来の規則合成装置の構成を示すブロック図。
101…テキスト解析部 102…音声合成部 104…形態素解析部 105…日本語解析辞書 106…構文解析部 107…意味解析部 108…類似読み語検出部 110…音声素片選択部 111…自然性優先音声素片辞書 112…中明瞭度音声素片辞書 113…高明瞭度音声素片辞書 114…音声素片接続部 115…合成フィルタ処理部(音声生成処理手段)
Claims (5)
- 【請求項1】 音声合成の対象となるテキストデータを
解析してテキスト解析結果を得るテキスト解析手段と、 合成単位毎に用意される音声素片が蓄積された音声素片
辞書であって、少なくとも一部の合成単位については、
合成した際の明瞭度が異なる複数種類の音声素片が用意
されている音声素片辞書と、 前記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに前記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、 前記音声素片選択手段によって選択された音声素片を接
続する音声素片接続手段と、 前記音声素片接続手段によって接続された音声素片の列
を用いて音声を生成する音声生成処理手段とを具備する
ことを特徴とする音声合成装置。 - 【請求項2】 前記テキスト解析手段は、前記読み上げ
単位に、対応する語の品詞を表す第1の情報、対応する
語が自立語であるか付属語であるかを示す第2の情報、
対応する語が未知話であるか否かを示す第3の情報、対
応する語の文内或いは文書内の位置を表わす第4の情
報、対応する語の馴染み深さを表わす第5の情報、対応
する語の同一語における少なくとも最初の出現であるか
否かが判定可能な第6の情報、フォーカスの有無を表す
第7の情報、及び対応する語と発音が類似する語が存在
するか否かを示す第8の情報の少なくとも1つを含む前
記テキスト解析結果を得るように構成されており、 前記音声素片選択手段は、前記テキスト解析結果に含ま
れる、前記第1の情報、前記第2の情報、前記第3の情
報、前記第4の情報、前記第5の情報、前記第6の情
報、前記第7の情報、及び前記第8の情報の少なくとも
1つに基づいて明瞭度を判定することを特徴とする請求
項1記載の音声合成装置。 - 【請求項3】 前記テキスト解析手段は、前記第6の情
報として、対応する語の同一語における出現順を表す出
現順情報を得るように構成されており、 前記音声素片選択手段は、前記出現順情報に基づいて明
瞭度を判定することを特徴とする請求項2記載の音声合
成装置。 - 【請求項4】 計算機に、 音声合成の対象となるテキストデータを解析してテキス
ト解析結果を得るステップと、 前記テキスト解析結果に基づいて所定の読み上げ単位に
対応する合成音声の明瞭度を判定するステップと、 合成単位毎に用意される音声素片が蓄積され、少なくと
も一部の合成単位については、合成した際の明瞭度が異
なる複数種類の音声素片が用意されている音声素片辞書
から、前記読み上げ単位の明瞭度判定結果をもとに該当
する音声素片を選択するステップと、 前記選択された音声素片を接続するステップと、 前記接続された音声素片の列を用いて音声を合成するス
テップとを実行させるための文音声変換プログラムを記
録した機械読み取り可能な記録媒体。 - 【請求項5】 計算機に、 音声合成の対象となるテキストデータを解析して、所定
の読み上げ単位に、対応する語の品詞を表す第1の情
報、対応する語が自立語であるか付属語であるかを示す
第2の情報、対応する語が未知話であるか否かを示す第
3の情報、対応する語の文内或いは文書内の位置を表わ
す第4の情報、対応する語の馴染み深さを表わす第5の
情報、対応する語の同一語における少なくとも最初の出
現であるか否かが判定可能な第6の情報、フォーカスの
有無を表す第7の情報、及び対応する語と発音が類似す
る語が存在するか否かを示す第8の情報の少なくとも1
つを含むテキスト解析結果を得るステップと、 前記テキスト解析結果に含まれる、前記第1の情報、前
記第2の情報、前記第3の情報、前記第4の情報、前記
第5の情報、前記第6の情報、前記第7の情報、及び前
記第8の情報の少なくとも1つに基づいて、前記読み上
げ単位に対応する合成音声の明瞭度を判定するステップ
と、 合成単位毎に用意される音声素片が蓄積され、少なくと
も一部の合成単位については、合成した際の明瞭度が異
なる複数種類の音声素片が用意されている音声素片辞書
から、前記読み上げ単位の明瞭度判定結果をもとに該当
する音声素片を選択するステップと、 前記選択された音声素片を接続するステップと、 前記接続された音声素片の列を用いて音声を合成するス
テップとを実行させるための文音声変換プログラムを記
録した機械読み取り可能な記録媒体。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11005443A JP2000206982A (ja) | 1999-01-12 | 1999-01-12 | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
| US09/480,654 US6751592B1 (en) | 1999-01-12 | 2000-01-11 | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11005443A JP2000206982A (ja) | 1999-01-12 | 1999-01-12 | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000206982A true JP2000206982A (ja) | 2000-07-28 |
Family
ID=11611357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11005443A Pending JP2000206982A (ja) | 1999-01-12 | 1999-01-12 | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US6751592B1 (ja) |
| JP (1) | JP2000206982A (ja) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2376394A (en) * | 2001-06-04 | 2002-12-11 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
| GB2380380A (en) * | 2001-06-04 | 2003-04-02 | Hewlett Packard Co | Speech synthesis method and apparatus |
| GB2380381A (en) * | 2001-06-04 | 2003-04-02 | Hewlett Packard Co | Speech synthesis method and apparatus |
| WO2004066271A1 (ja) * | 2003-01-20 | 2004-08-05 | Fujitsu Limited | 音声合成装置,音声合成方法および音声合成システム |
| JP2005352327A (ja) * | 2004-06-14 | 2005-12-22 | Brother Ind Ltd | 音声合成装置及び音声合成プログラム |
| JP2006243473A (ja) * | 2005-03-04 | 2006-09-14 | Sharp Corp | 音声素片生成装置 |
| WO2013018294A1 (ja) * | 2011-08-01 | 2013-02-07 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
| JP2013114191A (ja) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | パラメータ抽出装置、音声合成システム |
| JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
| WO2015159363A1 (ja) * | 2014-04-15 | 2015-10-22 | 三菱電機株式会社 | 情報提供装置および情報提供方法 |
| CN115905499A (zh) * | 2023-01-05 | 2023-04-04 | 深圳市北科瑞讯信息技术有限公司 | 语音数据转换方法、装置、电子设备及可读存储介质 |
Families Citing this family (142)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
| US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
| GB2376554B (en) * | 2001-06-12 | 2005-01-05 | Hewlett Packard Co | Artificial language generation and evaluation |
| JP4056470B2 (ja) * | 2001-08-22 | 2008-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ |
| US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
| KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
| JP2004226741A (ja) * | 2003-01-23 | 2004-08-12 | Nissan Motor Co Ltd | 情報提供装置 |
| US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
| US7313523B1 (en) * | 2003-05-14 | 2007-12-25 | Apple Inc. | Method and apparatus for assigning word prominence to new or previous information in speech synthesis |
| JP2004348241A (ja) * | 2003-05-20 | 2004-12-09 | Hitachi Ltd | 情報提供方法、サーバ及びプログラム |
| US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
| JP4570509B2 (ja) * | 2005-04-22 | 2010-10-27 | 富士通株式会社 | 読み生成装置、読み生成方法及びコンピュータプログラム |
| JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8028158B1 (en) | 2008-07-10 | 2011-09-27 | Cms Products, Inc. | Method and apparatus for creating a self booting operating system image backup on an external USB hard disk drive that is capable of performing a complete restore to an internal system disk |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| JP5296029B2 (ja) * | 2010-09-15 | 2013-09-25 | 株式会社東芝 | 文章提示装置、文章提示方法及びプログラム |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9575960B1 (en) * | 2012-09-17 | 2017-02-21 | Amazon Technologies, Inc. | Auditory enhancement using word analysis |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8856007B1 (en) * | 2012-10-09 | 2014-10-07 | Google Inc. | Use text to speech techniques to improve understanding when announcing search results |
| EP2954514B1 (en) | 2013-02-07 | 2021-03-31 | Apple Inc. | Voice trigger for a digital assistant |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1220268A1 (zh) | 2013-06-09 | 2017-04-28 | 苹果公司 | 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面 |
| JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
| US20140380169A1 (en) * | 2013-06-20 | 2014-12-25 | Google Inc. | Language input method editor to disambiguate ambiguous phrases via diacriticization |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| CN107943405A (zh) | 2016-10-13 | 2018-04-20 | 广州市动景计算机科技有限公司 | 语音播报装置、方法、浏览器及用户终端 |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| US11289070B2 (en) * | 2018-03-23 | 2022-03-29 | Rankin Labs, Llc | System and method for identifying a speaker's community of origin from a sound sample |
| WO2020014354A1 (en) | 2018-07-10 | 2020-01-16 | John Rankin | System and method for indexing sound fragments containing speech |
| CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
| US11205439B2 (en) * | 2019-11-22 | 2021-12-21 | International Business Machines Corporation | Regulating speech sound dissemination |
| US11699037B2 (en) | 2020-03-09 | 2023-07-11 | Rankin Labs, Llc | Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual |
| CN112634858B (zh) * | 2020-12-16 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
| CN112634866B (zh) * | 2020-12-24 | 2024-05-14 | 北京猎户星空科技有限公司 | 语音合成模型训练和语音合成方法、装置、设备及介质 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
| US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
| US5010495A (en) * | 1989-02-02 | 1991-04-23 | American Language Academy | Interactive language learning system |
| JPH02293900A (ja) | 1989-05-09 | 1990-12-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
| JPH0363696A (ja) | 1989-08-01 | 1991-03-19 | Sharp Corp | テキスト音声合成装置 |
| US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
| US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
| US5788503A (en) * | 1996-02-27 | 1998-08-04 | Alphagram Learning Materials Inc. | Educational device for learning to read and pronounce |
-
1999
- 1999-01-12 JP JP11005443A patent/JP2000206982A/ja active Pending
-
2000
- 2000-01-11 US US09/480,654 patent/US6751592B1/en not_active Expired - Fee Related
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2380380A (en) * | 2001-06-04 | 2003-04-02 | Hewlett Packard Co | Speech synthesis method and apparatus |
| GB2380381A (en) * | 2001-06-04 | 2003-04-02 | Hewlett Packard Co | Speech synthesis method and apparatus |
| US6725199B2 (en) | 2001-06-04 | 2004-04-20 | Hewlett-Packard Development Company, L.P. | Speech synthesis apparatus and selection method |
| GB2380380B (en) * | 2001-06-04 | 2005-01-05 | Hewlett Packard Co | Speech synthesis apparatus and method |
| GB2380381B (en) * | 2001-06-04 | 2005-06-08 | Hewlett Packard Co | Speech synthesis apparatus and method |
| GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
| US7062439B2 (en) | 2001-06-04 | 2006-06-13 | Hewlett-Packard Development Company, L.P. | Speech synthesis apparatus and method |
| GB2376394A (en) * | 2001-06-04 | 2002-12-11 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
| US7191132B2 (en) | 2001-06-04 | 2007-03-13 | Hewlett-Packard Development Company, L.P. | Speech synthesis apparatus and method |
| US7454345B2 (en) | 2003-01-20 | 2008-11-18 | Fujitsu Limited | Word or collocation emphasizing voice synthesizer |
| WO2004066271A1 (ja) * | 2003-01-20 | 2004-08-05 | Fujitsu Limited | 音声合成装置,音声合成方法および音声合成システム |
| JP2005352327A (ja) * | 2004-06-14 | 2005-12-22 | Brother Ind Ltd | 音声合成装置及び音声合成プログラム |
| JP2006243473A (ja) * | 2005-03-04 | 2006-09-14 | Sharp Corp | 音声素片生成装置 |
| WO2013018294A1 (ja) * | 2011-08-01 | 2013-02-07 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
| JP5148026B1 (ja) * | 2011-08-01 | 2013-02-20 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
| US9147392B2 (en) | 2011-08-01 | 2015-09-29 | Panasonic Intellectual Property Management Co., Ltd. | Speech synthesis device and speech synthesis method |
| JP2013114191A (ja) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | パラメータ抽出装置、音声合成システム |
| JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
| WO2015159363A1 (ja) * | 2014-04-15 | 2015-10-22 | 三菱電機株式会社 | 情報提供装置および情報提供方法 |
| JP5976255B2 (ja) * | 2014-04-15 | 2016-08-23 | 三菱電機株式会社 | 情報提供装置および情報提供方法 |
| US9734818B2 (en) | 2014-04-15 | 2017-08-15 | Mitsubishi Electric Corporation | Information providing device and information providing method |
| DE112014006591B4 (de) | 2014-04-15 | 2018-06-14 | Mitsubishi Electric Corporation | Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren |
| CN115905499A (zh) * | 2023-01-05 | 2023-04-04 | 深圳市北科瑞讯信息技术有限公司 | 语音数据转换方法、装置、电子设备及可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US6751592B1 (en) | 2004-06-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2000206982A (ja) | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 | |
| Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
| EP0688011B1 (en) | Audio output unit and method thereof | |
| US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
| WO2004066271A1 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
| JPH05165486A (ja) | テキスト音声変換装置 | |
| US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
| Sen et al. | Indian accent text-to-speech system for web browsing | |
| JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
| JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
| Pärssinen | Multilingual text-to-speech system for mobile devices: development and applications. | |
| JP2001100777A (ja) | 音声合成方法及び装置 | |
| JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
| Kaur et al. | Building atext-to-speech system for punjabi language | |
| JPH11259094A (ja) | 規則音声合成装置 | |
| JPH08160983A (ja) | 音声合成装置 | |
| JP2680643B2 (ja) | 規則合成装置の文字表示方法 | |
| JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
| JPH01321496A (ja) | 音声合成装置 | |
| JP2888847B2 (ja) | 文章読み上げ装置とその方法及び言語処理装置とその方法 | |
| Datta et al. | Epoch Synchronous Overlap Add (ESOLA) | |
| Anberbir et al. | Modeling of geminate duration in an amharic text-to-speech synthesis system. | |
| JPH06138894A (ja) | 音声合成装置及び音声合成方法 | |
| JPH08328578A (ja) | テキスト音声合成装置 | |
| JPH03237499A (ja) | 文章読み上げ装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060323 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060411 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060808 |