JP2000206982A - 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 - Google Patents

音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JP2000206982A
JP2000206982A JP11005443A JP544399A JP2000206982A JP 2000206982 A JP2000206982 A JP 2000206982A JP 11005443 A JP11005443 A JP 11005443A JP 544399 A JP544399 A JP 544399A JP 2000206982 A JP2000206982 A JP 2000206982A
Authority
JP
Japan
Prior art keywords
speech
unit
information
word
intelligibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11005443A
Other languages
English (en)
Inventor
Yoshinori Shiga
芳則 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11005443A priority Critical patent/JP2000206982A/ja
Priority to US09/480,654 priority patent/US6751592B1/en
Publication of JP2000206982A publication Critical patent/JP2000206982A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】1種類の合成単位に対し明瞭度の異なる音声素
片を複数用意し、出現する語の状況に基づく使い分けで
明瞭性と自然性を両立した音声を合成する。 【解決手段】テキスト解析部101はテキストファイル
103から音声合成の対象となるテキストを読み出し、
形態素解析部104、構文解析部106、意味解析部1
07及び類似読み語検出部108を用いて当該テキスト
の解析を行う。音声合成部102内の音声素片選択部1
10は、テキスト解析部101でのテキスト解析結果に
基づいてアクセント句毎に対応する合成音声の明瞭度を
表すスコアを求め、そのスコアの値をもとに、自然性優
先音声素片辞書111、中明瞭度音声素片辞書112及
び高明瞭度音声素片辞書113のいずれかから該当する
音声素片の列を選択する。音声素片接続部114は、選
択された音声素片の列を接続し、合成フィルタ処理部1
15による音声合成に供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成の対象と
なる音韻情報に基づいて、音声素片を選択し、接続する
ことによって音声を合成する音声合成装置及び文音声変
換プログラムを記録した機械読み取り可能な記録媒体に
関する。
【0002】
【従来の技術】この種の音声合成装置の代表的なもの
に、音声を細分化して蓄積し、その組み合わせによって
任意の音声を合成可能な規則合成装置があることが知ら
れている。以下では、規則合成装置の従来技術の例を図
を参照しながら説明する。
【0003】図7は従来の規則合成装置の構成を示すブ
ロック図である、図7の規則合成装置は入力されるテキ
ストデータ(以下、単にテキストと称する)を音韻情報
と韻律情報からなる記号列に変換し、その記号列から音
声を生成する文音声変換(Text-to-speech conversio
n:以下、TTSと称する)処理を行う。
【0004】この図7の規則合成装置におけるTTS処
理機構は、大きく分けて言語処理部12と音声合成部1
3の2つの処理部からなり、日本語の規則合成を例に取
ると次のように行われるのが一般的である。
【0005】まず言語処理部12では、テキストファイ
ル11から入力されるテキスト(漢字かな混じり文)に
対して形態素解析・構文解析等の言語処理を行い、形態
素への分解、係り受け関係の推定等の処理を行うと同時
に、各形態素に読みとアクセント型を与える。その後言
語処理部12では、アクセントに関しては複合語等のア
クセント移動規則を用いて、所定の読み上げ単位、つま
り読み上げの際の区切りとなる句(以下、アクセント句
と称する)毎のアクセント型を決定する。
【0006】次に音声合成部13内では、得られた「読
み」に含まれる各音韻の継続時間長を音韻継続時間長決
定処理部14にて決定する。音韻継続時間長は、日本語
特有の拍の等時性に基づき決定する手法が一般的であ
る。本従来例では、子音の継続時間長は子音の種類によ
り一定とし、各モーラの基準時刻である子音から母音へ
のわたり部の間隔が一定になるように、母音の継続時間
長が決定される。
【0007】続いて、上記のようにして得られる「読
み」に従って、音韻パラメータ生成処理部16が音声素
片メモリ15から必要な音声素片を読み出し、読み出し
た音声素片を上記の方法で決定した音韻継続時間長に従
って、時間軸方向に伸縮させながら接続して、合成すべ
き音声の特徴パラメータ系列を生成する。
【0008】ここで、音声素片メモリ15には、予め作
成された多数の音声素片が格納されている。音声素片
は、アナウンサ等が発声した音声を分析して、スペクト
ルの包絡特性を表現する所定の音声の特徴パラメータを
得た後、所定の合成単位、本従来例では日本語の音節の
単位(子音十母音:以下、CVと称する)で、日本語の
音声に含まれる全ての音節を上記特徴パラメータから切
り出すことにより作成される。また本従来例では、前記
の特徴パラメータとしてケプストラムの低次の係数を利
用している。低次のケプストラム係数は次のようにして
求めることができる。まず、アナウンサ等が発声した音
声データに、一定幅・一定周期で窓関数(ここではハニ
ング窓)をかけ、各窓内の音声波形に対してフーリエ変
換を行い音声の短時間スペクトルを計算する。次に、得
られた短時間スペクトルのパワーを対数化して対数パワ
ースペクトルを得たのち、対数パワースペクトルをフー
リエ変換する。こうして計算されるのがケプストラム係
数である。そして、ケプストラムの特性として、高次の
係数は音声の基本周波数情報を、低次の係数は音声のス
ペクトラム係数を保持していることはよく知られてい
る。
【0009】音声合成部13では更に、ピッチパターン
生成処理部17が上記アクセント型をもとに、ピッチの
高低変化が生じる時刻に点ピッチを設定し、複数設定さ
れた点ピッチ間を直線補間してピッチのアクセント成分
を生成し、これにピッチの自然下降を表現するイントネ
ーション成分を重畳してピッチパターンを生成する。
【0010】最後に、合成フィルタ処理部18にて、有
声区間ではピッチパターンに基づいた周期パルスを、無
声区間ではホワイトノイズを音源とし、音声の特徴パラ
メータ系列から算出したフィルタ係数として、フィルタ
リングを行い所望の音声を合成する。ここでは、合成フ
ィルタ処理部18の合成フィルタとして、ケプストラム
係数を直接フィルタ係数とするLMA(Log Magnitude
Approximation)フィルタ(対数振幅近似フィルタ)を
用いている。
【0011】
【発明が解決しようとする課題】上記した規則合成装置
に代表される従来の音声合成装置では、その音声合成装
置で生成される音声には次のような問題があった。
【0012】従来の音声合成装置では、音声合成部にお
いて、1種類の合成単位(CV)に対して1つの音声素
片しか持っていないため、絶えず同じ明瞭度で同種の合
成単位は合成される。
【0013】しかしながら、人間が音声を発声している
ときには、次のようなケースで意識的に、或いは無意識
のうちに、他の部分の発声に比べて明瞭な発音してい
る。即ち、文中で意味を伝えるのに重要な役割を果たす
語が現れたとき、或いは、文言中で初めて出てきた語で
ある場合、或いは、話し手または聞き手にとって馴染み
のない語が現われた場合である。また、その語に類似し
た発音を持つ語が存在し、聞き手が聞き間違いを起こし
そうな場合なども同様である。反対に、上記のような箇
所以外では人間はかなり不明瞭に発音している。なぜな
ら、不明瞭であっても聞き手にとって容易に推測可能な
部分だからである。
【0014】したがって、1種類の合成単位に対して1
つの音声素片しか持っていない従来の音声合成装置で
は、このような合成音声の明瞭性の調節が行えないため
に、平均的な明瞭度の音声素片を用意した場合には、上
述の高い明瞭度が要求される箇所で不明瞭感を聞き手に
与えてしまう。逆に、明瞭度の高い音声素片を用意した
場合には、全ての文章の全ての箇所が明瞭な発音で合成
され、聞き手は合成音声にたどたどしさを感じてしま
う。このような欠点が従来の音声合成装置にはあった。
【0015】1種類の合成単位に対して複数の音声素片
を持つ音声合成装置も存在するが、明瞭性とは無関係
に、音韻環境や韻律に応じて使い分けているだけなの
で、やはり上記の欠点が存在する。
【0016】本発明は上記事情を考慮してなされたもの
でその目的は、1種類の合成単位に対して、明瞭度の異
なる音声素片を複数用意しておき、TTSの処理の中
で、出現する語の状況に応じて明瞭度の異なる音声素片
を使い分けることによって、聞き取りやすく長時間聞い
ていても疲れない、明瞭性と自然性を両立した音声を合
成できる音声合成装置及び文音声変換プログラムを記録
した機械読み取り可能な記録媒体を提供することにあ
る。
【0017】
【課題を解決するための手段】本発明は、音声合成の対
象となるテキストデータを解析してテキスト解析結果を
得るテキスト解析手段と、合成単位毎に用意される音声
素片が蓄積された音声素片辞書であって、少なくとも一
部の合成単位については、合成した際の明瞭度が異なる
複数種類の音声素片が用意されている音声素片辞書と、
上記テキスト解析手段のテキスト解析結果に基づいて所
定の読み上げ単位に対応する合成音声の明瞭度を判定
し、その判定結果をもとに上記音声素片辞書から該当す
る音声素片を選択する音声素片選択手段と、この音声素
片選択手段によって選択された音声素片を接続する音声
素片接続手段と、この音声素片接続手段によって接続さ
れた音声素片の列を用いて音声を生成する音声生成処理
手段とを備えたことを特徴とする。
【0018】このような構成においては、テキスト解析
手段のテキスト解析結果に基づいて所定の読み上げ単位
に対応する合成音声の明瞭度が判定され、その判定結果
をもとに、その明瞭度で合成可能な音声素片が選択され
て接続され、対応する音声が生成される。したがって、
テキストデータの表す文言中で、意味内容を伝えるよう
な重要な部分については、高明瞭音声素片を使用し、そ
うでないところでは通常の音声素片を使用することによ
り、合成音声の内容を容易に理解することが可能とな
る。
【0019】ここで、上記テキスト解析手段を、上記読
み上げ単位に、対応する語の品詞を表す第1の情報(品
詞情報)、対応する語が自立語であるか付属語であるか
を示す第2の情報(自立語・付属語情報)、対応する語
が未知話であるか否かを示す第3の情報(未知語情
報)、対応する語の文内或いは文書内の位置を表わす第
4の情報(文内位置情報)、対応する語の馴染み深さを
表わす第5の情報(出現頻度情報)、対応する語の同一
語における少なくとも最初の出現であるか否かが判定可
能な第6の情報(出現順情報)、フォーカスの有無を表
す第7の情報(フォーカス有無情報)、及び対応する語
と発音が類似する語が存在するか否かを示す第8の情報
(類似読み語有無情報)の少なくとも1つを含むテキス
ト解析結果を得るように構成すると共に、上記音声素片
選択手段では、このテキスト解析結果に含まれる上記第
1乃至第8の情報の少なくとも1つに基づいて明瞭度が
判定される構成とするとよい。
【0020】このような構成においては、上記第1の情
報(品詞情報)に基づいて明瞭度を判定することによ
り、文書中で、名詞や形容詞など意味内容を伝える重要
な部分については、高明瞭音声素片を使用し、そうでな
い助詞、助動詞部分などでは通常の音声素片を使用する
といった使い分けが可能となるため、内容を理解しやす
く且つ滑らかな音声を合成できる。
【0021】また、上記第2の情報(自立語・付属語情
報)に基づいて明瞭度を判定することにより、文書中
で、名詞や形容詞など意味内容を伝える中心となる自立
語部分については、高明瞭音声素片を使用し、そうでな
い付属語(助詞、助動詞)部分では通常の音声素片を使
用するといった使い分けが可能となるため、やはり内容
を理解しやすく且つ滑らかな音声を合成できる。
【0022】また、上記第3の情報(未知語情報)に基
づいて明瞭度を判定することにより、専門用語など、テ
キスト解析で使用する辞書に載っていない一般的でない
語は、高明瞭音声素片を使用して明瞭な音声で合成する
といった使い分けが可能となるため、やはり内容を理解
しやすく且つ滑らかな音声を合成できる。
【0023】また、上記第4の情報(文内位置情報)に
基づいて明瞭度を判定することにより、聞き手にとっ
て、推測する手がかりの少ない話し始め(合成し始め)
部分は聞きづらいことを考慮して、文頭や文書頭におい
ては高明瞭音声素片を使用して明瞭な音声で合成すると
いった使い分けが可能となるため、やはり内容を理解し
やすく且つ滑らかな音声を合成できる。
【0024】また、上記第5の情報(出現頻度情報)に
基づいて明瞭度を判定することにより、馴染みの薄い
語、つまり予め利用頻度が低いものとして登録されてい
る語は、高明瞭音声素片を使用して明瞭な音声で合成す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
【0025】また、上記第6の情報(出現順情報)に基
づいて明瞭度を判定することにより、最初に出てきた語
は、高明瞭音声素片を使用して明瞭な音声で合成し、2
度目以降は明瞭度は落ちるが滑らかな音声素片を使用す
るといった使い分けが可能となるため、やはり内容を理
解しやすく且つ滑らかな音声を合成できる。
【0026】ここで、上記テキスト解析手段により、上
記第6の情報として、対応する語の同一語における出現
順を表す出現順情報が取得される構成とすると共に、こ
の出現順情報に基づいて上記音声素片選択手段により明
瞭度が判定される構成とするならば、語の登場回数の少
ないうちは、高明瞭音声素片を使用して明瞭な音声で合
成し、回数が増えるに連れ明瞭度は落ちるが滑らかな音
声素片を使用するといったきめ細かな使い分けが可能と
なるため、より内容を理解しやすく且つ滑らかな音声を
合成できる。
【0027】また、上記第7の情報(フォーカス有無情
報)に基づいて明瞭度を判定することにより、文書中か
ら意味解釈によって導き出されるフォーカス(或いはプ
ロミネンス)の部分、つまり文書中で名詞や形容詞など
意味内容を伝える重要な部分については、高明瞭音声素
片を使用し、そうでない助詞、助動詞部分などでは通常
の音声素片を使用するといった使い分けが可能となるた
め、やはり内容を理解しやすく且つ滑らかを音声を合成
できる。
【0028】また、上記第8の情報(類似読み語有無情
報)に基づいて明瞭度を判定することにより、類似する
発音の語が文書中に既に存在する語を合成する場合、高
明瞭音声素片を使用して明瞭な音声で合成するといった
使い分けが可能となるため、聞き手はこれらを明確に区
別して認識できるようになり、内容を理解しやすく且つ
滑らかな音声を合成できる。
【0029】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。
【0030】図1は本発明の一実施形態に係る音声の規
則合成装置の概略構成を示すブロック図である。図1の
音声規則合成装置(以下、音声合成装置と称する)は、
例えば、パーソナルコンピュータ等の情報処理装置(計
算機)上で、CD−ROM、フロッピーディスク、ハー
ドディスク、メモリカード等の記録媒体、或いはネット
ワーク等の通信媒体により供給される専用のソフトウェ
ア(文音声変換ソフトウェア)を実行することにより実
現されるもので、テキスト(テキストデータ)から音声
を生成する文音声変換(TTS)処理機能を有してい
る。この音声合成装置の機能構成は、大別してテキスト
解析部101と音声合成部102とに分けられる。
【0031】テキスト解析部101は、入力文である漢
字かな混じり文を解析して語の同定を行い(形態素解
析)、得られた品詞情報等を基に、文の構造を推定し
(構文解析)、これから読み上げようとする文の中でど
の語が重要な意味(プロミネンス)を担っているか(ど
の語にフォーカスが存在するか)を推定し(意味解
析)、その結果を出力する処理を司る。一方、音声合成
部102は、テキスト解析部101の出力であるテキス
ト解析結果をもとに音声を生成する処理を司る。
【0032】さて、図1の音声合成装置において、文音
声変換(読み上げ)の対象となるテキスト(ここでは日
本語文書)はテキストファイル103として保存されて
いる。本装置では、文音声変換ソフトウェア(文音声変
換プログラム)に従い、当該ファイル103から漢字か
な混じり文を読み出して、テキスト解析部101及び音
声合成部102により以下に述べる文音声変換処理を行
い、音声を合成する。
【0033】まず、テキストファイル103から読み出
された漢字仮名混じり文(入力文)は、テキスト解析部
101内の形態素解析部104に入力される。形態素解
析部104は、入力される漢字かな混じり文に対し形態
素解析を行い、読み情報とアクセン情報を生成する。形
態素解析とは、与えられた文の中で、どの文字列が語句
を構成しているか、そしてその語の文法的な属性がどの
ようなものかを解析する作業である。
【0034】形態素解析部104は、入力文をテキスト
解析辞書としての日本語解析辞書105と照合して全て
の形態素系列候補を求め、その中から、文法的に接続可
能な組み合わせを出力する。この日本語解析辞書105
には、形態素解析時に用いられる情報と共に、個々の形
態素の読みとアクセント型、そしてその形態素が名詞
([名詞+する]型の動詞の名詞部を含む)に属するも
のであるならば、それがどの程度よく用いられるかを表
わした「出現頻度」(同じ名詞の出現頻度)が登録され
ている。そのため形態素解析部104は、形態素解析に
より形態素が定まれば、同時に読みとアクセント型を与
えることができ、各語の出現頻度を付与することができ
きる。更に、この過程において、日本語解析辞書105
に登録されていない語が同定された場合は、形態素解析
部104は当該語に対して未知語として扱うための情報
を付加すると共に、その前後関係により品詞の推定を行
い、アクセント型と読みに関しては、日本語解析辞書1
05に含まれている単漢字辞書を参照して尤もらしいア
クセント型と読みを与える。
【0035】形態素解析部104にて決定した文に含ま
れる個々の語の文法属性は、構文解析部106に渡され
る。構文解析部106は、形態素解析部104から渡さ
れた各語の文法属性から、各語の係り受け関係を推定す
る文構造の解析を行う。
【0036】構文解析部106にて決定した文構造に関
する情報は意味解析部107に渡される。意味解析部1
07は、構文解析部106から渡された文構造に関する
情報に基づき、文構造とそれぞれの語の意味、そして文
と文の関係から、個々の文においてどの語に焦点(フォ
ーカス)が当てられているか、どの語が意味を伝える上
で重要な役割を担っているかを推定し、そのフォーカス
(プロミネンス)の有無を表す情報を出力する。
【0037】これらテキスト解析の具体的な方法につい
ての詳細な説明はここでは省略するが、例えば、長尾
真監修の「日本語情報処理」(電子情報通信学会)の第
95頁乃至第109頁(形態素解析について)、第12
1乃至第124頁(構文解析について)、第154頁乃
至第163頁(意味解析について)に記載された方法を
用いることがてきる。
【0038】以上のようにして、テキスト解析部101
では、語の読みやアクセントの情報、品詞や未知語情報
(未知語フラグ)、語の文内における位置(文内位
置)、語の出現頻度(同じ名詞の出現頻度)、及び語の
フォーカスの有無の情報が取得される。このテキスト解
析部101により取得される情報(テキスト解析結果)
の例を、図2(a)に示すテキスト「年号を誤って評成
と記入してしまったので、正しい年号の平成に訂正し
た。」を入力した場合について、図2(b)に示す。こ
こでは、誤って記載した「評成」を「平成」に直したこ
とを言いたいことが、意味解析部107の意味解析で導
き出されて、「評成」と「平成」にフォーカスが与えら
れている。
【0039】さて、テキスト解析部101には、類似読
み語検出部108が付加されており、テキスト解析部1
01内の形態素解析部104、構文解析部106及び意
味解析部107を用いて行われたテキスト解析の結果
は、当該類似読み語検出部108に渡される。
【0040】類似読み語検出部108は、図2(b)に
示したようなテキスト解析結果をもとに、読み上げよう
とする文に含まれる名詞([名詞+する]型の動詞の名
詞部を含む)に関する情報を、自身が管理する読み上げ
出現語リスト(図示せず)に追加していく。この読み上
げ出現語リストは、読み上げようとする文に含まれる名
詞の読みと、その名詞が同一文内の同一名詞の中の何番
目に出現したかを示す出現順(出現回数)を数えるカウ
ンタ(ソフトウェアカウンタ)から構成されている。
【0041】次に類似読み語検出部108は、読み上げ
出現語リスト中の読みをもとに、類似した読みを持ち聞
き間違えられやすい語、つまり類似読み語が同リスト内
にないかを調べる。ここでは、子音が1つだけ異なる語
が類似読み語と判定されるように構成されている。
【0042】類似読み語検出部108は、読み上げ出現
語リストに基づいて類似読み語を検出すると、図2
(b)に示したようなテキスト解析結果に、当該読み上
げ出現語リスト中の各カウンタの値、即ち読み上げ中の
文に含まれる名詞が同一文内の同一名詞の中の何番目に
出現したかをカウントした値(出現順)と、検出した類
似読み語(類似する読みを持つ名詞)の存在を表わすフ
ラグを付与して、音声合成部102に渡す。
【0043】図2(a)に示すテキストを入力した結
果、図2(b)に示すテキスト解析結果が類似読み語検
出部108に与えられた場合の、当該類似読み語検出部
108からの情報出力例を図2(c)に示す。
【0044】さて、音声合成部102では、(テキスト
解析部101内の)類似読み語検出部108から図2
(c)に示したような情報(テキスト解析部101によ
る類似読み語検出結果を含むテキスト解析結果)を渡さ
れると、ピッチパターン生成処理部109が起動され
る。ピッチパターン生成処理部109は、類似読み語検
出部108からの情報中の形態素解析部104により決
定されたアクセント情報に基づいて点ピッチを設定す
る。そしてピッチパターン生成処理部109は、設定さ
れた複数の点ピッチを直線で補間し、例えば10mse
c毎のピッチ周波数で表わされるピッチパターンを出力
する。
【0045】音声合成部102ではまた、音声素片選択
部110も起動される。音声素片選択部110は、類似
読み語検出部108からの出力情報のうち、アクセント
句毎の読み、アクセント句内自立語部の品詞、未知語情
報(未知語フラグ)、アクセント句の文内における位
置、アクセント句に含まれる名詞の出現頻度及び読み上
げ中の文書内での出現順と、類似読み語(類似する読み
を持つ名詞)の同一文内での存在を表わすフラグ、そし
て、アクセント句へのフォーカスの有無に基づいて音声
素片を選択する。この音声素片選択部110での音声素
片選択の詳細について以下に説明する。
【0046】まず本実施形態では、サンプリング周波数
11025Hzで標本化した実音声を改良ケプストラム
法により窓長20msec、フレーム周期10msec
で分析して得た0次から25次の低次ケプストラム係数
を、子音十母音(CV)の単位で、日本語音声の合成に
必要な全音節を切り出した計137個の音声素片が蓄積
された音声素片ファイル(図示せず)が明瞭度別に3つ
用意されている。この明瞭度別の3つの音声素片ファイ
ルの内容は、文音声変換ソフトウェアに従う文音声変換
処理の開始時に、例えばメインメモリ(図示せず)に明
瞭度別に確保された音声素片領域に音声素片辞書111
〜113として読み込まれているものとする。ここで、
音声素片辞書111は自然性を優先させた音声素片の登
録辞書(自然性優先音声素片辞書)、音声素片辞書11
2は中明瞭度の音声素片の登録辞書(中明瞭度音声素片
辞書)、そして音声素片辞書113は高明瞭度の音声素
片の登録辞書(高明瞭度音声素片辞書)である。
【0047】音声素片選択部110は、類似読み語検出
部108からの出力情報中のアクセント句毎の読み、ア
クセント句内自立語部の品詞、未知語情報、アクセント
句の文内における位置、アクセント句に含まれる名詞の
出現頻度、読み上げ中の文書内での出現順と、類似読み
語の同一文内での存在を表わすフラグ、そして、アクセ
ント句のフォーカスの有無に基づいて、アクセント句毎
に対応する合成音声の明瞭度を表すスコア(評価値)を
計算し、そのスコアの値に応じていずれの明瞭度の音声
素片辞書に登録されている音声素片を使用するかを決定
する。
【0048】ここで、音声素片選択部110でのアクセ
ント句毎のスコア計算及びスコアの値に基づく音声素片
辞書(明瞭度)の決定は、図3及び図4のフローチャー
トに従って次のように行われる。まず、類似読み語検出
部108からの出力情報から、目的とするアクセント句
(最初は先頭のアクセント句)に関する情報が取り出さ
れる(ステップS1)。
【0049】次に、取り出したアクセント句に関する
(テキスト解析結果等の)情報中の自立語部品詞がチェ
ックされ、その品詞に基づいて、スコアが決定・付与さ
れる(ステップS2,S3)。ここでは、自立語部品詞
が名詞、形容詞、形容動詞、連体詞、副詞、または感動
詞のいずれかであるアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。次に、
取り出したアクセント句に関する情報中の未知語フラグ
がチェックされ、当該フラグのオン/オフ(1/0)に
基づいてスコアが決定・付与される(ステップS4,S
5)。ここでは、未知語フラグがオンのアクセント句、
つまり未知語を含むアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
【0050】次に、取り出したアクセント句に関する情
報中の文内位置の情報がチェックされ、そのアクセント
句の文内位置に基づいてスコアが決定・付与される(ス
テップS6,S7)。ここでは、文内位置が先頭(第1
番目)のアクセント句にはスコア1が、それ以外のアク
セント句にはスコア0が与えられる。
【0051】次に、取り出したアクセント句に関する情
報中の出現頻度の情報がチェックされ、そのアクセント
句内の名詞についての(日本語解析辞書105から得ら
れた)出現頻度に基づいてスコアが決定・付与される
(ステップS8,S9)。ここでは出現頻度が所定値以
下、例えば2以下の名詞(つまり馴染みのない語)を含
むアクセント句にはスコア1が、それ以外のアクセント
句にはスコア0が与えられる。
【0052】次に、取り出したアクセント句に関する情
報中の出現順の情報がチェックされ、そのアクセント句
内の名詞についての読み上げ中の文での同じ名詞を対象
とする出現の順番に基づいてスコアが決定・付与される
(ステップS10,S11)。ここでは、読み上げ中の
文での名詞の出現順が2以上となる、つまり同じ名詞の
2度目以降の出現となるアクセント句にはスコア−1
が、それ以外のアクセント句にはスコア0が与えられ
る。
【0053】次に、取り出したアクセント句に関する情
報中のフォーカスの有無を示す情報がチェックされ、そ
のフォーカスの有無にに基づいてスコアが決定・付与さ
れる(ステップS12,S13)。ここでは、フォーカ
ス有りと判定されたアクセント句にはスコア1が、それ
以外のアクセント句にはスコア0が与えられる。
【0054】次に、取り出したアクセント句に関する情
報中の類似読み語の有無を示す情報がチェックされ、そ
の類似読み語の有無に基づいてスコアが決定・付与され
る(ステップS14,S15)。ここでは、類似読み語
有りと判定されたアクセント句にはスコア1が、それ以
外のアクセント句にはスコア0が与えられる。
【0055】次に、取り出したアクセント句に関する情
報中の各項目毎に求められたスコアの合計値を求める
(ステップS16)。このスコアの合計値(総スコア)
は、対応するアクセント句の合成音声に要求される明瞭
度を表す。このステップS16が実行されると、1アク
セント句についてのスコア計算処理が終了する。
【0056】すると音声素片選択部110は、求めたス
コアの合計値をチェックし(ステップS17)、その合
計値に基づいて、自然性優先音声素片辞書111、中明
瞭度音声素片辞書112、または高明瞭度音声素片辞書
113のうち、いずれの明瞭度の音声素片辞書に登録さ
れている音声素片を使用するかを、次のように決定す
る。
【0057】まず音声素片選択部110は、スコア(の
合計値)が0のアクセント句であれば、自然性優先音声
素片辞書111を使用することを決定して、この自然性
優先音声素片辞書111から当該アクセント句に対応す
るCV単位の高明瞭度音声素片の列を選択する(ステッ
プS18,S19)。同様に音声素片選択部110は、
スコア(の合計値)が1のアクセント句であれば、中明
瞭度音声素片辞書112を使用することを決定して、こ
の中明瞭度音声素片辞書112から当該アクセント句に
対応するCV単位の中明瞭度音声素片の列を選択し(ス
テップS20,S21)、スコア(の合計値)が2以上
のアクセント句であれば、高明瞭度音声素片辞書113
を使用することを決定して、この高明瞭度音声素片辞書
113から当該アクセント句に対応するCV単位の高明
瞭度音声素片の列を選択する(ステップS22,S2
3)。そして音声素片選択部110は、選択した音声素
片の列を音声素片接続部114に渡す(ステップS2
4)。
【0058】音声素片選択部110は、以上に述べた図
3及び図4のフローチャートに従う処理を、類似読み語
検出部108からの出力情報中の全アクセント句につい
て、先頭アクセス句から最終アクセント句まで1アクセ
ント句単位で繰り返し実行する。
【0059】さて、上記した音声素片選択部110での
各アクセント句毎のスコア計算の結果は、類似読み語検
出部108からの出力情報が図2(c)のようになって
いる例では、図5に示すようになる。この場合、音声素
片選択部110での音声素片(音声素片辞書)選択結果
は、図6に示すようになる。
【0060】ここでは、入力テキスト「年号を誤って評
成と記入してしまったので、正しい年号の平成に訂正し
た。」のうち、スコアが2以上のアクセント句、即ち図
6(a)において2重下線が付されている、「年号
を」、「評成と」及び「平成に」の3つのアクセント句
については、同図6(b)に示すように、高明瞭度音声
素片辞書113に登録されている対応する高明瞭度音声
素片の列が選択される。同様に、スコアが1のアクセン
ト句、即ち図6(a)において1重下線が付されてい
る、「正しい年号の」及び「訂正した」の2つのアクセ
ント句については、同図6(b)に示すように、中明瞭
度音声素片辞書112に登録されている対応する中明瞭
度音声素片の列が選択され、スコアが0のアクセント
句、即ち図6(a)において下線が付されていないアク
セント句については、同図6(b)に示すように、自然
性優先音声素片辞書111に登録されている対応する自
然性優先音声素片の列が選択される。
【0061】このように音声素片選択部110は、アク
セント句毎に利用する音声素片辞書を決定しながら、上
記のCV単位の音声素片の列を、明瞭度の異なる3つの
音声素片辞書111〜113のいずれかから順次読み出
し、これを音声素片接続部114に渡す。
【0062】音声素片接続部(音韻パラメータ生成処理
部)114では、音声素片選択部110から渡された音
声素片を順次補間接続することにより合成すべき音声の
音韻パラメータ(特徴パラメータ)を生成する。
【0063】以上のようにして、ピッチパターン生成処
理部109によりピッチパターンが生成され、音声素片
接続部114により音韻パラメータが生成されると、音
声合成部102内の合成フィルタ処理部115が起動さ
れる。この合成フィルタ処理部115は、無声区間では
ホワイトノイズを、有声区間ではインパルスを駆動音源
として、音韻パラメータであるケプストラ係数を直接フ
ィルタ係数とするLMAフィルタにより音声を出力す
る。
【0064】以上、本発明の実施形態について説明して
きたが、本発明は前記実施形態に限定されるものではな
い。例えば、前記の実施形態では、音声の特徴パラメー
タとしてケプストラムを使用しているが、LPCやPA
RCOR、フォルマントなど他のパラメータであって
も、本発明は適用可能であり同様な効果が得られる。ま
た、前記実施形態では特徴パラメータを用いた分析合成
型の方式を採用したが、波形編集型やフォルマント合成
型の方式であっても、本発明は適用可能であり、やはり
同様な効果が得られる。ピッチ生成に関しても、点ピッ
チによる方法でなくともよく、例えば藤崎モデルを利用
した場合でも本発明は適用可能である。
【0065】また、本実施形態では3つの音声素片辞書
を用いているが、本発明は音声素片辞書の数については
何ら限定していない。更に本実施形態では、全ての合成
単位について3種類の明瞭度の音声素片を用意している
が、明瞭度に基づいて分類された音声素片が1つでも存
在すればよく、明瞭度がさほど変化しない合成単位があ
れば音声素片は共通にして1つで構わない。要するに本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。
【0066】
【発明の効果】以上詳述したように本発明によれば、1
種類の合成単位に対して、明瞭度の異なる音声素片を複
数用意しておき、TTSの処理の中で、出現する語の状
況に応じて明瞭度の異なる音声素片を使い分けることに
よって、聞き取りやすく長時間聞いていても疲れない、
明瞭性と自然性を両立した音声を合成することができ
る。この効果は、文中で意味を伝えるのに重要な役割を
果たす語が現われたとき、或いは文書中で初めて出てき
た語である場合、或いは話し手または聞き手にとって馴
染みのない語が現われた場合、また、その語に類似した
発音を持つ語が既に存在し、聞き手が聞き間違いを起こ
しそうな場合など、に応じて明瞭度の異なる音声素片を
使い分けるならば、一層顕著となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声合成装置の概略
構成を示すブロック図。
【図2】音声合成の対象となるテキストの一例と当該テ
キストに対するテキスト解析部101内の形態素解析部
104、構文解析部106、意味解析部107及び類似
読み語検出部108を用いたテキスト解析の結果の一例
を示す図。
【図3】音声素片選択部110におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの一
部を示す図。
【図4】音声素片選択部110におけるアクセント句毎
のスコア計算及びスコアの値に基づく音声素片辞書(明
瞭度)の決定処理を説明するためのフローチャートの残
りを示す図。
【図5】音声素片選択部110による図2に示したテキ
スト解析結果に基づくスコア計算の結果の一例を示す
図。
【図6】音声素片選択部110による図5のスコア計算
の結果に基づく音声素片(音声素片辞書)の選択結果の
一例を示す図。
【図7】従来の規則合成装置の構成を示すブロック図。
【符号の説明】
101…テキスト解析部 102…音声合成部 104…形態素解析部 105…日本語解析辞書 106…構文解析部 107…意味解析部 108…類似読み語検出部 110…音声素片選択部 111…自然性優先音声素片辞書 112…中明瞭度音声素片辞書 113…高明瞭度音声素片辞書 114…音声素片接続部 115…合成フィルタ処理部(音声生成処理手段)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声合成の対象となるテキストデータを
    解析してテキスト解析結果を得るテキスト解析手段と、 合成単位毎に用意される音声素片が蓄積された音声素片
    辞書であって、少なくとも一部の合成単位については、
    合成した際の明瞭度が異なる複数種類の音声素片が用意
    されている音声素片辞書と、 前記テキスト解析手段のテキスト解析結果に基づいて所
    定の読み上げ単位に対応する合成音声の明瞭度を判定
    し、その判定結果をもとに前記音声素片辞書から該当す
    る音声素片を選択する音声素片選択手段と、 前記音声素片選択手段によって選択された音声素片を接
    続する音声素片接続手段と、 前記音声素片接続手段によって接続された音声素片の列
    を用いて音声を生成する音声生成処理手段とを具備する
    ことを特徴とする音声合成装置。
  2. 【請求項2】 前記テキスト解析手段は、前記読み上げ
    単位に、対応する語の品詞を表す第1の情報、対応する
    語が自立語であるか付属語であるかを示す第2の情報、
    対応する語が未知話であるか否かを示す第3の情報、対
    応する語の文内或いは文書内の位置を表わす第4の情
    報、対応する語の馴染み深さを表わす第5の情報、対応
    する語の同一語における少なくとも最初の出現であるか
    否かが判定可能な第6の情報、フォーカスの有無を表す
    第7の情報、及び対応する語と発音が類似する語が存在
    するか否かを示す第8の情報の少なくとも1つを含む前
    記テキスト解析結果を得るように構成されており、 前記音声素片選択手段は、前記テキスト解析結果に含ま
    れる、前記第1の情報、前記第2の情報、前記第3の情
    報、前記第4の情報、前記第5の情報、前記第6の情
    報、前記第7の情報、及び前記第8の情報の少なくとも
    1つに基づいて明瞭度を判定することを特徴とする請求
    項1記載の音声合成装置。
  3. 【請求項3】 前記テキスト解析手段は、前記第6の情
    報として、対応する語の同一語における出現順を表す出
    現順情報を得るように構成されており、 前記音声素片選択手段は、前記出現順情報に基づいて明
    瞭度を判定することを特徴とする請求項2記載の音声合
    成装置。
  4. 【請求項4】 計算機に、 音声合成の対象となるテキストデータを解析してテキス
    ト解析結果を得るステップと、 前記テキスト解析結果に基づいて所定の読み上げ単位に
    対応する合成音声の明瞭度を判定するステップと、 合成単位毎に用意される音声素片が蓄積され、少なくと
    も一部の合成単位については、合成した際の明瞭度が異
    なる複数種類の音声素片が用意されている音声素片辞書
    から、前記読み上げ単位の明瞭度判定結果をもとに該当
    する音声素片を選択するステップと、 前記選択された音声素片を接続するステップと、 前記接続された音声素片の列を用いて音声を合成するス
    テップとを実行させるための文音声変換プログラムを記
    録した機械読み取り可能な記録媒体。
  5. 【請求項5】 計算機に、 音声合成の対象となるテキストデータを解析して、所定
    の読み上げ単位に、対応する語の品詞を表す第1の情
    報、対応する語が自立語であるか付属語であるかを示す
    第2の情報、対応する語が未知話であるか否かを示す第
    3の情報、対応する語の文内或いは文書内の位置を表わ
    す第4の情報、対応する語の馴染み深さを表わす第5の
    情報、対応する語の同一語における少なくとも最初の出
    現であるか否かが判定可能な第6の情報、フォーカスの
    有無を表す第7の情報、及び対応する語と発音が類似す
    る語が存在するか否かを示す第8の情報の少なくとも1
    つを含むテキスト解析結果を得るステップと、 前記テキスト解析結果に含まれる、前記第1の情報、前
    記第2の情報、前記第3の情報、前記第4の情報、前記
    第5の情報、前記第6の情報、前記第7の情報、及び前
    記第8の情報の少なくとも1つに基づいて、前記読み上
    げ単位に対応する合成音声の明瞭度を判定するステップ
    と、 合成単位毎に用意される音声素片が蓄積され、少なくと
    も一部の合成単位については、合成した際の明瞭度が異
    なる複数種類の音声素片が用意されている音声素片辞書
    から、前記読み上げ単位の明瞭度判定結果をもとに該当
    する音声素片を選択するステップと、 前記選択された音声素片を接続するステップと、 前記接続された音声素片の列を用いて音声を合成するス
    テップとを実行させるための文音声変換プログラムを記
    録した機械読み取り可能な記録媒体。
JP11005443A 1999-01-12 1999-01-12 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 Pending JP2000206982A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11005443A JP2000206982A (ja) 1999-01-12 1999-01-12 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US09/480,654 US6751592B1 (en) 1999-01-12 2000-01-11 Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11005443A JP2000206982A (ja) 1999-01-12 1999-01-12 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000206982A true JP2000206982A (ja) 2000-07-28

Family

ID=11611357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11005443A Pending JP2000206982A (ja) 1999-01-12 1999-01-12 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6751592B1 (ja)
JP (1) JP2000206982A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376394A (en) * 2001-06-04 2002-12-11 Hewlett Packard Co Speech synthesis apparatus and selection method
GB2380380A (en) * 2001-06-04 2003-04-02 Hewlett Packard Co Speech synthesis method and apparatus
GB2380381A (en) * 2001-06-04 2003-04-02 Hewlett Packard Co Speech synthesis method and apparatus
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005352327A (ja) * 2004-06-14 2005-12-22 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2006243473A (ja) * 2005-03-04 2006-09-14 Sharp Corp 音声素片生成装置
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
JP2013114191A (ja) * 2011-11-30 2013-06-10 Brother Ind Ltd パラメータ抽出装置、音声合成システム
JP2013210501A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
WO2015159363A1 (ja) * 2014-04-15 2015-10-22 三菱電機株式会社 情報提供装置および情報提供方法
CN115905499A (zh) * 2023-01-05 2023-04-04 深圳市北科瑞讯信息技术有限公司 语音数据转换方法、装置、电子设备及可读存储介质

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
GB2376554B (en) * 2001-06-12 2005-01-05 Hewlett Packard Co Artificial language generation and evaluation
JP4056470B2 (ja) * 2001-08-22 2008-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
JP2004226741A (ja) * 2003-01-23 2004-08-12 Nissan Motor Co Ltd 情報提供装置
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US7313523B1 (en) * 2003-05-14 2007-12-25 Apple Inc. Method and apparatus for assigning word prominence to new or previous information in speech synthesis
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8028158B1 (en) 2008-07-10 2011-09-27 Cms Products, Inc. Method and apparatus for creating a self booting operating system image backup on an external USB hard disk drive that is capable of performing a complete restore to an internal system disk
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9575960B1 (en) * 2012-09-17 2017-02-21 Amazon Technologies, Inc. Auditory enhancement using word analysis
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8856007B1 (en) * 2012-10-09 2014-10-07 Google Inc. Use text to speech techniques to improve understanding when announcing search results
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US20140380169A1 (en) * 2013-06-20 2014-12-25 Google Inc. Language input method editor to disambiguate ambiguous phrases via diacriticization
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN107943405A (zh) 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11289070B2 (en) * 2018-03-23 2022-03-29 Rankin Labs, Llc System and method for identifying a speaker's community of origin from a sound sample
WO2020014354A1 (en) 2018-07-10 2020-01-16 John Rankin System and method for indexing sound fragments containing speech
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
US11205439B2 (en) * 2019-11-22 2021-12-21 International Business Machines Corporation Regulating speech sound dissemination
US11699037B2 (en) 2020-03-09 2023-07-11 Rankin Labs, Llc Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual
CN112634858B (zh) * 2020-12-16 2024-01-23 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN112634866B (zh) * 2020-12-24 2024-05-14 北京猎户星空科技有限公司 语音合成模型训练和语音合成方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US5010495A (en) * 1989-02-02 1991-04-23 American Language Academy Interactive language learning system
JPH02293900A (ja) 1989-05-09 1990-12-05 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0363696A (ja) 1989-08-01 1991-03-19 Sharp Corp テキスト音声合成装置
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5788503A (en) * 1996-02-27 1998-08-04 Alphagram Learning Materials Inc. Educational device for learning to read and pronounce

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2380380A (en) * 2001-06-04 2003-04-02 Hewlett Packard Co Speech synthesis method and apparatus
GB2380381A (en) * 2001-06-04 2003-04-02 Hewlett Packard Co Speech synthesis method and apparatus
US6725199B2 (en) 2001-06-04 2004-04-20 Hewlett-Packard Development Company, L.P. Speech synthesis apparatus and selection method
GB2380380B (en) * 2001-06-04 2005-01-05 Hewlett Packard Co Speech synthesis apparatus and method
GB2380381B (en) * 2001-06-04 2005-06-08 Hewlett Packard Co Speech synthesis apparatus and method
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US7062439B2 (en) 2001-06-04 2006-06-13 Hewlett-Packard Development Company, L.P. Speech synthesis apparatus and method
GB2376394A (en) * 2001-06-04 2002-12-11 Hewlett Packard Co Speech synthesis apparatus and selection method
US7191132B2 (en) 2001-06-04 2007-03-13 Hewlett-Packard Development Company, L.P. Speech synthesis apparatus and method
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005352327A (ja) * 2004-06-14 2005-12-22 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2006243473A (ja) * 2005-03-04 2006-09-14 Sharp Corp 音声素片生成装置
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
US9147392B2 (en) 2011-08-01 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Speech synthesis device and speech synthesis method
JP2013114191A (ja) * 2011-11-30 2013-06-10 Brother Ind Ltd パラメータ抽出装置、音声合成システム
JP2013210501A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
WO2015159363A1 (ja) * 2014-04-15 2015-10-22 三菱電機株式会社 情報提供装置および情報提供方法
JP5976255B2 (ja) * 2014-04-15 2016-08-23 三菱電機株式会社 情報提供装置および情報提供方法
US9734818B2 (en) 2014-04-15 2017-08-15 Mitsubishi Electric Corporation Information providing device and information providing method
DE112014006591B4 (de) 2014-04-15 2018-06-14 Mitsubishi Electric Corporation Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren
CN115905499A (zh) * 2023-01-05 2023-04-04 深圳市北科瑞讯信息技术有限公司 语音数据转换方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US6751592B1 (en) 2004-06-15

Similar Documents

Publication Publication Date Title
JP2000206982A (ja) 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
EP0688011B1 (en) Audio output unit and method thereof
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JPH05165486A (ja) テキスト音声変換装置
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Sen et al. Indian accent text-to-speech system for web browsing
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3397406B2 (ja) 音声合成装置及び音声合成方法
Pärssinen Multilingual text-to-speech system for mobile devices: development and applications.
JP2001100777A (ja) 音声合成方法及び装置
JP4056647B2 (ja) 波形接続型音声合成装置および方法
Kaur et al. Building atext-to-speech system for punjabi language
JPH11259094A (ja) 規則音声合成装置
JPH08160983A (ja) 音声合成装置
JP2680643B2 (ja) 規則合成装置の文字表示方法
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH01321496A (ja) 音声合成装置
JP2888847B2 (ja) 文章読み上げ装置とその方法及び言語処理装置とその方法
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Anberbir et al. Modeling of geminate duration in an amharic text-to-speech synthesis system.
JPH06138894A (ja) 音声合成装置及び音声合成方法
JPH08328578A (ja) テキスト音声合成装置
JPH03237499A (ja) 文章読み上げ装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060808