JPH03214199A - テキスト・スピーチシステム - Google Patents
テキスト・スピーチシステムInfo
- Publication number
- JPH03214199A JPH03214199A JP2315286A JP31528690A JPH03214199A JP H03214199 A JPH03214199 A JP H03214199A JP 2315286 A JP2315286 A JP 2315286A JP 31528690 A JP31528690 A JP 31528690A JP H03214199 A JPH03214199 A JP H03214199A
- Authority
- JP
- Japan
- Prior art keywords
- text
- speech
- lexicon
- host system
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明はテキスト・スピーチシステム、更に言えば、テ
キスト・スピーチアプリケーションを実行しているホス
トプロセッサ上に語彙集(1exicon)を設置する
ことが出来るよう、テキスト・スピーチデバイスを区画
する方法に間する。
キスト・スピーチアプリケーションを実行しているホス
トプロセッサ上に語彙集(1exicon)を設置する
ことが出来るよう、テキスト・スピーチデバイスを区画
する方法に間する。
従来技術
テキスト・スピーチシステムは、情報を映像によるのと
同様に音声によって実効的に運ぶことが出来るような所
ではどのような所でも有用である。
同様に音声によって実効的に運ぶことが出来るような所
ではどのような所でも有用である。
しかしながら広範囲に渡るスピーチでは、簡単なメツセ
ージに適切であるロボットのような声よりも、より質の
高いものが必要とされる。より明瞭で自然なものを要求
するとすれば、細かい言語学上の原則及びレベルのセッ
トを付は加えることが必要となり、低質のスピーチ合成
よりより大きなソフトウェア及びハードウェアが要求と
される。
ージに適切であるロボットのような声よりも、より質の
高いものが必要とされる。より明瞭で自然なものを要求
するとすれば、細かい言語学上の原則及びレベルのセッ
トを付は加えることが必要となり、低質のスピーチ合成
よりより大きなソフトウェア及びハードウェアが要求と
される。
一般に知られているテキスト・スピーチシステムは、テ
キスト・スピーチデバイス中に介挿された「語量集jを
利用する。「語貧集」は、ある話し言葉を構成する書記
素(つづられた文字)とその書記素に当たる音のシーケ
ンスの、代表的なコードを含んだ辞書即ちデータベース
である。これらのシステムは語彙集を使って、テキスト
をその音素(phonemic)の形態に変換すること
によって動作する。英語の全ての機能音を表現するには
、はぼ40の音素記号(phonemic symbo
ls)が要求される。
キスト・スピーチデバイス中に介挿された「語量集jを
利用する。「語貧集」は、ある話し言葉を構成する書記
素(つづられた文字)とその書記素に当たる音のシーケ
ンスの、代表的なコードを含んだ辞書即ちデータベース
である。これらのシステムは語彙集を使って、テキスト
をその音素(phonemic)の形態に変換すること
によって動作する。英語の全ての機能音を表現するには
、はぼ40の音素記号(phonemic symbo
ls)が要求される。
語彙集を含む様々なテキスト・スピーチシステムが、米
国特許Nos、 4,692,941.4.278.8
38.3、704.345及び、ELECTRON I
C3が1983年4月21に出した論文rThree−
tiered Software andVLS[Ai
d Developmental System To
Read Text AloudJに述べられている
。
国特許Nos、 4,692,941.4.278.8
38.3、704.345及び、ELECTRON I
C3が1983年4月21に出した論文rThree−
tiered Software andVLS[Ai
d Developmental System To
Read Text AloudJに述べられている
。
そのようなシステムの一例が第1図に示されている。テ
キスト・スピーチデバイスlOは、テキスト・スピーチ
デバイス10上に備わっている語彙集16を有している
ように示されている。テキスト・スピーチデバイス10
で実行するアプリケーション14は、ホストシステム1
2上で動作する。両方向コマンド/状態フローライン1
8はアプリケーション14からテキスト・スピーチデバ
イス10上のテキスト・スピーチ(TTS)プロセッサ
22へ、「未処理」テキスト流れを与える。
キスト・スピーチデバイスlOは、テキスト・スピーチ
デバイス10上に備わっている語彙集16を有している
ように示されている。テキスト・スピーチデバイス10
で実行するアプリケーション14は、ホストシステム1
2上で動作する。両方向コマンド/状態フローライン1
8はアプリケーション14からテキスト・スピーチデバ
イス10上のテキスト・スピーチ(TTS)プロセッサ
22へ、「未処理」テキスト流れを与える。
更にライン18の両方向特性により、状態情報かアプリ
ケーションI4に戻ってくるようにすることが可能とな
った。語巣集16はTTSプリプロセッサに両方向検索
ライン28を通じて結合されているように示されている
。語彙集I6はまた、両方向ユーザ語彙集インターフェ
イスライン20を通じて、アプリケーション14に結合
されている。ユーザ語彙集インターフェイスライン20
はユーザインターフェイスとして語巣集16に動作する
。例えば語彙集16への、付加、デリート、変更、リス
ト等といった動作が、ユーザ語彙集インターフェイスラ
イン20を通じて実行されるであろう。
ケーションI4に戻ってくるようにすることが可能とな
った。語巣集16はTTSプリプロセッサに両方向検索
ライン28を通じて結合されているように示されている
。語彙集I6はまた、両方向ユーザ語彙集インターフェ
イスライン20を通じて、アプリケーション14に結合
されている。ユーザ語彙集インターフェイスライン20
はユーザインターフェイスとして語巣集16に動作する
。例えば語彙集16への、付加、デリート、変更、リス
ト等といった動作が、ユーザ語彙集インターフェイスラ
イン20を通じて実行されるであろう。
TTSプリプロセッサは、ライン18上に与えられた未
処理テキストを前処理するよう機能する。
処理テキストを前処理するよう機能する。
数字、文末、アポストロフィーや棒といったような発声
しない文字はテキスト・スピーチ変換では、特に困難だ
が、しかし必要な仕事であり、それらは語彙集16がサ
ーチされる前にTTSプリプロセッサ22により識別さ
れる。
しない文字はテキスト・スピーチ変換では、特に困難だ
が、しかし必要な仕事であり、それらは語彙集16がサ
ーチされる前にTTSプリプロセッサ22により識別さ
れる。
こうしてTTSブリプロセッシング22は、ライン30
上の未処理テキストを表す準備されたテキスト出力を、
テキスト・スピーチプロセッサ24に与える。テキスト
・スピーチプロセッサ24はライン32上の音素制御デ
ータを音声合成器26に与える。これらの音素制御デー
タは、異音語彙集、イントネーション、音量、目標選択
、音素の滑らかさ(phonemic smoothi
ng)、ノくラメータ計算、及び同様の機能をためのル
ールを含む。
上の未処理テキストを表す準備されたテキスト出力を、
テキスト・スピーチプロセッサ24に与える。テキスト
・スピーチプロセッサ24はライン32上の音素制御デ
ータを音声合成器26に与える。これらの音素制御デー
タは、異音語彙集、イントネーション、音量、目標選択
、音素の滑らかさ(phonemic smoothi
ng)、ノくラメータ計算、及び同様の機能をためのル
ールを含む。
音声合成器26は合成音を与えるためのデジタル信号プ
ロセッサを組み入れている。
ロセッサを組み入れている。
より自然でより高質の音声を達成するためには、テキス
ト・スピーチは大きな語彙集を有しなくてはならない。
ト・スピーチは大きな語彙集を有しなくてはならない。
語貧集がより大きくなれば、特定の単語の発音が辞書に
よって正確に特定される確立が大きくなる。
よって正確に特定される確立が大きくなる。
第1図に示す従来技術のテキスト・スピーチシステムに
おける主要な問題は、そのアーキテクチャが、テキスト
・スピーチに語彙集情報を十分にもつことが出来るよう
な大きなメモリを要求するということであった。この要
求はテキスト・スピーチデバイス10のコストと複雑さ
を多大に増加させてしまう。
おける主要な問題は、そのアーキテクチャが、テキスト
・スピーチに語彙集情報を十分にもつことが出来るよう
な大きなメモリを要求するということであった。この要
求はテキスト・スピーチデバイス10のコストと複雑さ
を多大に増加させてしまう。
テキスト・スピーチ合成器を実行するための他のよく知
られたプロセスが第2図に示されている。
られたプロセスが第2図に示されている。
テキスト・スピーチプロセス全体が、ホストシステム1
2上のソフトウェア内に形成されているように示されて
いる。テキスト・スピーチプロセス全体をアプリケーシ
ョン14を実行している同一のホストシステム12上に
配置することにより、語彙集16はホストシステムのメ
モリを占めることが可能となる。メモリサイズ及びコス
トは従来技術の第2図のシステムでは小さいが、そのア
ーキテクチャには、典型的なホストシステム12、例え
ばVAX/VMSシステムあるいはIBMPCでは実行
不可能なかなりの計算力が要求される。なぜなら、TT
Sプロセッサ24や合成器26は計算機に多大の負担を
かけるプロセスだからである。合成器26によって成さ
れるデジタル信号処理はそれだけでかなり大きなコンビ
ュータカを要求するので、汎用目的ホストシステムアー
キテクチャを、テキスト・スピーチシステムとは無関係
な他の目的のためには役に立たないものにしてしまう。
2上のソフトウェア内に形成されているように示されて
いる。テキスト・スピーチプロセス全体をアプリケーシ
ョン14を実行している同一のホストシステム12上に
配置することにより、語彙集16はホストシステムのメ
モリを占めることが可能となる。メモリサイズ及びコス
トは従来技術の第2図のシステムでは小さいが、そのア
ーキテクチャには、典型的なホストシステム12、例え
ばVAX/VMSシステムあるいはIBMPCでは実行
不可能なかなりの計算力が要求される。なぜなら、TT
Sプロセッサ24や合成器26は計算機に多大の負担を
かけるプロセスだからである。合成器26によって成さ
れるデジタル信号処理はそれだけでかなり大きなコンビ
ュータカを要求するので、汎用目的ホストシステムアー
キテクチャを、テキスト・スピーチシステムとは無関係
な他の目的のためには役に立たないものにしてしまう。
テキスト・スピーチシステム全体かホスト上に備わって
いるこのタイプのシシステムは、Technology
、 1979のMassachusetts In5t
ituteのrConversion of Unre
stricted English TextTo 5
peech Jに述べられている。
いるこのタイプのシシステムは、Technology
、 1979のMassachusetts In5t
ituteのrConversion of Unre
stricted English TextTo 5
peech Jに述べられている。
このように、コストあるいはシステムの計算力をそれほ
ど圧迫せずに、大きな語量集を持つようなテキスト・ス
ピーチシステムを提供する必要かある。語彙集の複雑さ
やサイズか増加するにつれ、音声合成器の記述を進歩さ
せる必要がある。語彙集をより複雑にすれば、テキスト
・スピーチデバイスかより自然な音の合成音を与えるた
めにテキスト・スピーチか扱うことか出来る情報が多く
なる。
ど圧迫せずに、大きな語量集を持つようなテキスト・ス
ピーチシステムを提供する必要かある。語彙集の複雑さ
やサイズか増加するにつれ、音声合成器の記述を進歩さ
せる必要がある。語彙集をより複雑にすれば、テキスト
・スピーチデバイスかより自然な音の合成音を与えるた
めにテキスト・スピーチか扱うことか出来る情報が多く
なる。
発明の概要
本発明は、アプリケーションを実行している同一のホス
トシステム上に語彙集を備えることか出来るようにする
といった方法で、テキスト・スピーチアーキテクチャを
区画したりあるいはそれに加えたりすることにより、こ
れらの問題を克服しようとするものである。テキスト・
スピーチデバイス以外のものはホストシステムから負荷
が大きい計算処理を取り除くことによって、テキスト・
スピーチプロセスを実行する際にホストシステムを目的
とした専用のハードウェア内に提供される。
トシステム上に語彙集を備えることか出来るようにする
といった方法で、テキスト・スピーチアーキテクチャを
区画したりあるいはそれに加えたりすることにより、こ
れらの問題を克服しようとするものである。テキスト・
スピーチデバイス以外のものはホストシステムから負荷
が大きい計算処理を取り除くことによって、テキスト・
スピーチプロセスを実行する際にホストシステムを目的
とした専用のハードウェア内に提供される。
語彙集とテキスト・スピーチプリプロセッサは、アーキ
テクチャの再区画により、テキスト・スピーチデバイス
をアプリケーションを実行中の同一のホストシステム上
に移動させられる。ホストシステムは、語彙集に十分な
メモリ量が可能であることを確実にする。実際的な目的
のための語葉集のサイズは、ホストシステムメモリを使
用している場合には非限定なものである。それゆえ、と
ても複雑な語彙集が提供されることか可能となり、テキ
スト・スピーチデバイスはより多くの情報を利用するこ
とか可能となった。例えば、語彙集は、フオームクラス
(form class)のような個々のエントリにつ
いての付加的な情報をも備えることか出来るようになる
。フオームクラスとはつまり、スピーチの部分、語義形
態(semantic features)、つまりそ
のの意味、そして、自然さや質の高いスピーチを定める
のに役立ち聴覚パラメータの計算に関係する他のデータ
といったものである。テキスト・スピーチプロセスの区
画により更に、負荷が大きいプロセス、例えばテキスト
・スピーチデバイス上の特別なハードウェア内で達成さ
れるへきTTSプロセッサや音声合成器というようなも
のを、行うことか可能となる。
テクチャの再区画により、テキスト・スピーチデバイス
をアプリケーションを実行中の同一のホストシステム上
に移動させられる。ホストシステムは、語彙集に十分な
メモリ量が可能であることを確実にする。実際的な目的
のための語葉集のサイズは、ホストシステムメモリを使
用している場合には非限定なものである。それゆえ、と
ても複雑な語彙集が提供されることか可能となり、テキ
スト・スピーチデバイスはより多くの情報を利用するこ
とか可能となった。例えば、語彙集は、フオームクラス
(form class)のような個々のエントリにつ
いての付加的な情報をも備えることか出来るようになる
。フオームクラスとはつまり、スピーチの部分、語義形
態(semantic features)、つまりそ
のの意味、そして、自然さや質の高いスピーチを定める
のに役立ち聴覚パラメータの計算に関係する他のデータ
といったものである。テキスト・スピーチプロセスの区
画により更に、負荷が大きいプロセス、例えばテキスト
・スピーチデバイス上の特別なハードウェア内で達成さ
れるへきTTSプロセッサや音声合成器というようなも
のを、行うことか可能となる。
本発明の他の実施例は、ホストベース語彙集上の単語検
索を実行するためのホストシステム上の検索プロセッサ
を利用する。検索プロセッサをホストシステム上に準備
することにより、TTSブリプロセッシング機能を、ホ
ストシステムというよりはむしろ専用のテキスト・スピ
ーチデバイス上で実行することか出来る。この実施例は
、ホストシステムとテキスト・スピーチデバイスとを結
合する付加的なトラッフィクをバス上に与える。
索を実行するためのホストシステム上の検索プロセッサ
を利用する。検索プロセッサをホストシステム上に準備
することにより、TTSブリプロセッシング機能を、ホ
ストシステムというよりはむしろ専用のテキスト・スピ
ーチデバイス上で実行することか出来る。この実施例は
、ホストシステムとテキスト・スピーチデバイスとを結
合する付加的なトラッフィクをバス上に与える。
しかし、もしバスバンド幅が不可避的な要因ではなけれ
ば、この実施例は語禽集検索及びメインテナンス機能を
取り除くことにより、ホストシステムに要求される計算
量を減少させることが出来る。
ば、この実施例は語禽集検索及びメインテナンス機能を
取り除くことにより、ホストシステムに要求される計算
量を減少させることが出来る。
更に実施例はテキスト・スピーチアーキテクチャを、ホ
ストシステム(アプリケーションを実行する)、テキス
ト・スピーチデバイス、それから「語彙集サーバ」とい
った3つの構成要素に分割する。テキスト・スピーチア
ーキテクチャを3つの構成要素に分割するこにより、個
々の構成要素はローカルエリアネットワークの部分を成
すことが出来る。これによってネットワーク「構成要素
」の共有か可能となり、そして特に、単一の語彙集サー
バをテキスト・スピーチデバイスを支持する複数のホス
トシステムか共有することが可能となった。
ストシステム(アプリケーションを実行する)、テキス
ト・スピーチデバイス、それから「語彙集サーバ」とい
った3つの構成要素に分割する。テキスト・スピーチア
ーキテクチャを3つの構成要素に分割するこにより、個
々の構成要素はローカルエリアネットワークの部分を成
すことが出来る。これによってネットワーク「構成要素
」の共有か可能となり、そして特に、単一の語彙集サー
バをテキスト・スピーチデバイスを支持する複数のホス
トシステムか共有することが可能となった。
実施例
第3図を参照すれば、ホストシステム12及びテキスト
・スピーチデバイス10を含むテキストスピーチシステ
ム5が示されている。ホストシステム12はテキスト・
スピーチシステムを操作するアプリケーション14を含
む。またホストシステム12内に含まれているものとし
て、テキストスピーチプリプロセッサ22及びメモリ1
7がある。メモリ17は更に語彙集16を含む。
・スピーチデバイス10を含むテキストスピーチシステ
ム5が示されている。ホストシステム12はテキスト・
スピーチシステムを操作するアプリケーション14を含
む。またホストシステム12内に含まれているものとし
て、テキストスピーチプリプロセッサ22及びメモリ1
7がある。メモリ17は更に語彙集16を含む。
語彙集16はホスト12のメモリ17を占め、あらゆる
実際的な目的のため、情報の非限定な辞書をテキスト・
スピーチデバイス10に与える。
実際的な目的のため、情報の非限定な辞書をテキスト・
スピーチデバイス10に与える。
アプリケーション14はTTSプリプロセッサ22にラ
イン18上を通して未処理テキストを与える。アプリケ
ーション14は更に、両方向ユーザ語彙集インターフェ
イスライン20上を通して語彙集16と結合している。
イン18上を通して未処理テキストを与える。アプリケ
ーション14は更に、両方向ユーザ語彙集インターフェ
イスライン20上を通して語彙集16と結合している。
両方向ライン20のおかげで、加える、デリートする、
変更する、リストする等といった特別のメインテナンス
機能を語彙集16に対して実行するため、ユーザは辞書
とインターフェイスすることか出来る。語彙集16は更
に、TTSプリプロセッサ22に単語検索ライン28上
を通じて結合されている。TTSプリプロセッサ22は
、数字、句読点、アポストロフィーや棒線といった、特
に難しくまた特異な言語の特有のテキスト・スピーチ変
換を識別する。
変更する、リストする等といった特別のメインテナンス
機能を語彙集16に対して実行するため、ユーザは辞書
とインターフェイスすることか出来る。語彙集16は更
に、TTSプリプロセッサ22に単語検索ライン28上
を通じて結合されている。TTSプリプロセッサ22は
、数字、句読点、アポストロフィーや棒線といった、特
に難しくまた特異な言語の特有のテキスト・スピーチ変
換を識別する。
プリプロセッサ22はライン30上に音素表示(pho
nemic representations)の形態
の準備されたテキストを与える。準備されたテキストは
テキスト・スピーチデバイス10に送られる。
nemic representations)の形態
の準備されたテキストを与える。準備されたテキストは
テキスト・スピーチデバイス10に送られる。
テキスト・スピーチデバイス10はTTSプロセッサ2
4及び音声合成器26を含む。TTSプロセッサ24か
ら受は取られた音素表示は、音声合成器26か動作する
前に、TTSプロセッサ24によって文章構成及び語義
解析を元に変調される。ホストシステム12で動作する
TTSプリプロセッサ22及び語彙集16は主に、個々
の単語及びそれらの発音を定める音素の選択に関係する
わけであるが、TTSプロセッサ24はテキストのそれ
を取り巻く句や文にも係わっている。
4及び音声合成器26を含む。TTSプロセッサ24か
ら受は取られた音素表示は、音声合成器26か動作する
前に、TTSプロセッサ24によって文章構成及び語義
解析を元に変調される。ホストシステム12で動作する
TTSプリプロセッサ22及び語彙集16は主に、個々
の単語及びそれらの発音を定める音素の選択に関係する
わけであるが、TTSプロセッサ24はテキストのそれ
を取り巻く句や文にも係わっている。
準備されたテキストはライン30を経由してTTSプロ
セッサ24内で受は取られる。TTSプロセッサ24は
、準備されたテキストの文章構成分析を実行し、ライン
32を経由して音声合成26に音素制御情報を出力する
。
セッサ24内で受は取られる。TTSプロセッサ24は
、準備されたテキストの文章構成分析を実行し、ライン
32を経由して音声合成26に音素制御情報を出力する
。
音声合成はその後、デジタル信号処理を使用して合成器
16で実行される。テキスト・スピーチデバイス10上
のTTSプロセッサ24及び音声合成器26は共に計算
機に多大の負荷を与える動作である。それゆえ、ホスト
からテキスト・スピーチプロセスの電算機部分を区画す
ることにより、より自然な音声に近いものを発声する改
善されたテキスト・スピーチシステムが開発されること
になる。
16で実行される。テキスト・スピーチデバイス10上
のTTSプロセッサ24及び音声合成器26は共に計算
機に多大の負荷を与える動作である。それゆえ、ホスト
からテキスト・スピーチプロセスの電算機部分を区画す
ることにより、より自然な音声に近いものを発声する改
善されたテキスト・スピーチシステムが開発されること
になる。
第4図は、本発明のテキスト・スピーチシステム5の他
の実施例を示す。ここで番号が同じ場所はその部分をさ
している。この実施例では、ソフトウェアあるいはハー
ドウェアでインプリメントされることか可能な検索プロ
セッサ34が、単語検索線36を経由して語彙集16と
結合するため、ホストシステム12内に準備されている
。更にTTSプリプロセッサ22はホストシテム12上
というよりはテキスト・スピーチデバイスIOに配置さ
れている。TTSプリプロセッサ22は、単語検索プロ
セッサ34及び、ライン4oや38で示されるバス上の
ホストシステム12と結合している。ホストシステム1
2とテキスト・スピーチデバイス10と間の通信は、ど
のような数の通信リンク、例えば図に示されてたシリア
ルライン、ホスト/システムI10バス、あるいはロー
カルエリアネットワークによっても達成されることか可
能である。検索プロセッサ34は、語彙集16内の単語
を検索するための検索要求をパスライン40上で受ける
ように働く。単語検索はその後、パスライン38上を通
じてTTSプリプロセッサ22へと戻される。検索プロ
セッサ34はこのように要求を処理し、そして語彙集I
6でのサーチの結果に基づいて適当に応答する。
の実施例を示す。ここで番号が同じ場所はその部分をさ
している。この実施例では、ソフトウェアあるいはハー
ドウェアでインプリメントされることか可能な検索プロ
セッサ34が、単語検索線36を経由して語彙集16と
結合するため、ホストシステム12内に準備されている
。更にTTSプリプロセッサ22はホストシテム12上
というよりはテキスト・スピーチデバイスIOに配置さ
れている。TTSプリプロセッサ22は、単語検索プロ
セッサ34及び、ライン4oや38で示されるバス上の
ホストシステム12と結合している。ホストシステム1
2とテキスト・スピーチデバイス10と間の通信は、ど
のような数の通信リンク、例えば図に示されてたシリア
ルライン、ホスト/システムI10バス、あるいはロー
カルエリアネットワークによっても達成されることか可
能である。検索プロセッサ34は、語彙集16内の単語
を検索するための検索要求をパスライン40上で受ける
ように働く。単語検索はその後、パスライン38上を通
じてTTSプリプロセッサ22へと戻される。検索プロ
セッサ34はこのように要求を処理し、そして語彙集I
6でのサーチの結果に基づいて適当に応答する。
この実施例の利点はホストシステムで実行されるへきで
ある要求された計算を、ホスト12からTTSプリプロ
セッサ22を取り除くことによって減少させたというこ
とである。この実施例は、ホストシステム12とテキス
ト・スピーチデバイス10との間のバスバンド幅が、検
索要求及び、ホストシステム12やテキスト・スピーチ
デバイス10が通信するバス上の単語検索トラフィック
を付加することが十分に可能である場合に特に有用であ
る。
ある要求された計算を、ホスト12からTTSプリプロ
セッサ22を取り除くことによって減少させたというこ
とである。この実施例は、ホストシステム12とテキス
ト・スピーチデバイス10との間のバスバンド幅が、検
索要求及び、ホストシステム12やテキスト・スピーチ
デバイス10が通信するバス上の単語検索トラフィック
を付加することが十分に可能である場合に特に有用であ
る。
第5図は、本発明の第3図の実施例を表す機能ブロック
図である。テキスト・スピーチシステムは、ホストシス
テム12、テキスト・スピーチデバイス10.それに語
彙集サーバ46といった3つの構成要素を有しているよ
うに示されている。
図である。テキスト・スピーチシステムは、ホストシス
テム12、テキスト・スピーチデバイス10.それに語
彙集サーバ46といった3つの構成要素を有しているよ
うに示されている。
語彙集16を独立な構成要素の部分としたもの、つまり
語彙集サーバ46のおかげで、語彙集16は、ネットワ
ークと交差して多数のホストシステム12によって共有
されることが可能となり、そしてテキストをスピーチシ
ステム10に支持する。
語彙集サーバ46のおかげで、語彙集16は、ネットワ
ークと交差して多数のホストシステム12によって共有
されることが可能となり、そしてテキストをスピーチシ
ステム10に支持する。
語禽集サーバ46は、ユーザ語彙集インターフェイスラ
イン20を通じてホストシステム12と結合しているサ
ーバインターフェイス48を含む。
イン20を通じてホストシステム12と結合しているサ
ーバインターフェイス48を含む。
更にサーバインターフェイス48は、TTSプリプロセ
ッサ22と、検索要求及び単語検索ライン42及び44
上とを通して結合している。第4図に関連して上で述べ
たように検索プロセッサ52、及びユーザ語彙集インタ
ーフェイス50は、語彙集16をサーバインターフェイ
ス48に結合する。
ッサ22と、検索要求及び単語検索ライン42及び44
上とを通して結合している。第4図に関連して上で述べ
たように検索プロセッサ52、及びユーザ語彙集インタ
ーフェイス50は、語彙集16をサーバインターフェイ
ス48に結合する。
語彙集サーバはこの実施例によって、ローカルエリアネ
ットワークの一部となることが出来る。
ットワークの一部となることが出来る。
しかしながら、付加的な管理や制御機能がユーザ語彙集
インターフェイス50をインプリメントするために必要
である。
インターフェイス50をインプリメントするために必要
である。
第1図は上で述べた1番目の従来技術のテキスト・スピ
ーチ処理及びそのアーキテクチャを示しているブロック
図である。 第2図は上で述べた2番目の従来技術のテキスト・スピ
ーチ処理及びそのアーキテクチャを示しているブロック
図である。 第3図は本発明のテキスト・スピーチ処理及びアーキテ
クチャの第1の実施例の機能ブロック図。 第4図は本発明の第2の実施例を示す機能ブロック図。 第5図は本発明の第3の実施例を示す機能ブロック図。 14・・・・アプリケーション 12・・・・ホストシステム 17・・・・メモリ 5・・・・・テキスト・スピーチシステム10・・・・
テキスト・スピーチデバイス22・・・・TTSプリプ
ロセッサ2228・・・・単語検索ライン 24・・・・TTS 26・・・・合成器 30.32・ライン 34・・・・検索プロセッサ 36・・・・単語検索線 38・・・・パスライン 46・・・・語嚢集サーバ ・サーバインターフェイス 0 ・ユーザ語彙集インターフェイス へ 手 続 補 正 書 (方式) %式% 1、事件の表示 平成2年特許願第3 5286号 2、発明の名称 テキスト・スピーチシステム 3、補正をする者 事件との関係
ーチ処理及びそのアーキテクチャを示しているブロック
図である。 第2図は上で述べた2番目の従来技術のテキスト・スピ
ーチ処理及びそのアーキテクチャを示しているブロック
図である。 第3図は本発明のテキスト・スピーチ処理及びアーキテ
クチャの第1の実施例の機能ブロック図。 第4図は本発明の第2の実施例を示す機能ブロック図。 第5図は本発明の第3の実施例を示す機能ブロック図。 14・・・・アプリケーション 12・・・・ホストシステム 17・・・・メモリ 5・・・・・テキスト・スピーチシステム10・・・・
テキスト・スピーチデバイス22・・・・TTSプリプ
ロセッサ2228・・・・単語検索ライン 24・・・・TTS 26・・・・合成器 30.32・ライン 34・・・・検索プロセッサ 36・・・・単語検索線 38・・・・パスライン 46・・・・語嚢集サーバ ・サーバインターフェイス 0 ・ユーザ語彙集インターフェイス へ 手 続 補 正 書 (方式) %式% 1、事件の表示 平成2年特許願第3 5286号 2、発明の名称 テキスト・スピーチシステム 3、補正をする者 事件との関係
Claims (11)
- (1)テキスト・スピーチシステムにおいて、 a)テキスト・スピーチアプリケーションプログラムの
実行のために使用可能であり、メモリを備えるホストシ
ステム、 b)前記メモリ内に記憶された語彙集、 c)ホストシステムとは別にされ、ホストシステムに結
合されたテキスト・スピーチデバイスとを備えることを
特徴とするテキスト・スピーチシステム。 - (2)請求項(1)記載のテキスト・スピーチシステム
において、そのホストシステムは更に、 アプリケーションプログラムによって与えられた未処理
テキストを前処理し語彙集内の単語検索を実行し、更に
、準備されたテキストを前記テキスト・スピーチデバイ
スに与えるような、メモリに結合されたテキスト・スピ
ーチプリプロセッサを含むテキスト・スピーチシステム
。 - (3)請求項(2)記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは、準備さ
れたテキストを受け、そして音素制御情報を作るテキス
ト・スピーチプロセッサを含むテキスト・スピーチシス
テム。 - (4)請求項(3)記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは更に、テ
キスト・スピーチプロセッサから音素制御情報を受け、
そして合成された音声を作るような音声合成器を含むテ
キスト・スピーチシステム。 - (5)請求項(1)記載のテキスト・スピーチシステム
において、ホストシステムは更に、テキスト・スピーチ
デバイスのために単語検索を実行する、語彙集に結合さ
れた、検索プロセッサを含むテキスト・スピーチシステ
ム。 - (6)請求項(5)記載のテキスト・スピーチシステム
において、検索プロセッサは更に、テキスト・スピーチ
アプリケーションプログラムのためにメインテナンス機
能を実行するテキスト・スピーチシステム。 - (7)請求項(6)記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは更に、 準備されたテキスト中にアプリケーションプログラムに
よって与えられた未処理テキストを前処理し、単語検索
要求を処理し結果をプリプロセッサに返すホストシステ
ム中の検索プロセッサに、単語検索要求を送るような、
ホストシステムに結合されたテクストスピーチプリプロ
セッサを含むテキスト・スピーチシステム。 - (8)請求項(7)記載のテキスト・スピーチシステム
において、テキスト・スピーチデバイスは更に、準備さ
れたテキストを受けそして音素制御情報を作るテキスト
・スピーチプロセッサ、 テキスト・スピーチプロセッサから音素制御情報を受け
そして合成された音声を作る音声合成器を含むテキスト
・スピーチシステム。 - (9)通信ネットワークにおいて、 バス、 テキスト・スピーチアプリケーションプログラムを実行
するために使用可能なホストシステム、 ホストシステム及びテキスト・スピーチデバイスと別々
にされ且つバスを通じて結合されており、語彙集と、バ
スに結合されたテキスト・スピーチデバイス及びホスト
システムに語彙集をインターフェイスする語彙集サーバ
インターフェイスとを含むような語彙集サーバを備える
ことを特徴とする通信ネットワーク。 - (10)請求項(9)記載のネットワークにおいて、語
彙集サーバは複数のホストシステム及びテキスト・スピ
ーチデバイスを供給するネットワーク。 - (11)請求項(10)記載のネットワークにおいて、
テキスト・スピーチデバイスは、語彙集サーバとバス上
でインターフェイスし、語彙集内の単語検索を実行し、
準備されたテキストを出力として与えるテキスト・スピ
ーチプリプロセッサ、 準備されたテキストをプリプロセッサから受けそして音
素制御情報を出力として与えるような、プリプロセッサ
に結合されたテキスト・スピーチプロセッサ、 音素制御情報を受けそして合成された音声を作るような
、テキスト・スピーチプロセッサに結合された音声合成
器とを含むネットワーク。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US439240 | 1982-11-03 | ||
| US43924089A | 1989-11-20 | 1989-11-20 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03214199A true JPH03214199A (ja) | 1991-09-19 |
Family
ID=23743896
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2315286A Pending JPH03214199A (ja) | 1989-11-20 | 1990-11-20 | テキスト・スピーチシステム |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP0429057A1 (ja) |
| JP (1) | JPH03214199A (ja) |
| KR (1) | KR910010305A (ja) |
| AU (1) | AU632867B2 (ja) |
| CA (1) | CA2029386A1 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2662120B2 (ja) * | 1991-10-01 | 1997-10-08 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置および音声認識用処理ユニット |
| CN1050351C (zh) * | 1993-05-14 | 2000-03-15 | 旭化成工业株式会社 | 高纯度乙腈以及粗乙腈的精制方法 |
| AU674246B2 (en) * | 1993-08-04 | 1996-12-12 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
| US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
| CN116741146B (zh) * | 2023-08-15 | 2023-10-20 | 成都信通信息技术有限公司 | 基于语义语调的方言语音生成方法、系统及介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5334941A (en) * | 1976-09-10 | 1978-03-31 | Hausu Shiyokuhin Kougiyou Kk | Frying method of noodles |
| JPS58203552A (ja) * | 1982-05-21 | 1983-11-28 | Toshiba Corp | 音声出力方式 |
| JPS6159520A (ja) * | 1984-08-31 | 1986-03-27 | Toshiba Corp | 座標入力装置 |
| JPS6170597A (ja) * | 1984-09-14 | 1986-04-11 | 株式会社日立製作所 | 音声合成装置 |
| JPS62134693A (ja) * | 1985-12-09 | 1987-06-17 | 株式会社四国情報通信ネットワーク | 登録音声の発声装置 |
| JPS63237099A (ja) * | 1987-03-25 | 1988-10-03 | 日本電気株式会社 | 単位音声編集型音声合成装置 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
| BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
| AU1701683A (en) * | 1982-04-26 | 1983-11-21 | Fisher Gerald Myer | Electronic teaching aid |
| US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
| US4831654A (en) * | 1985-09-09 | 1989-05-16 | Wang Laboratories, Inc. | Apparatus for making and editing dictionary entries in a text to speech conversion system |
-
1990
- 1990-11-01 AU AU65730/90A patent/AU632867B2/en not_active Ceased
- 1990-11-06 CA CA002029386A patent/CA2029386A1/en not_active Abandoned
- 1990-11-20 KR KR1019900018778A patent/KR910010305A/ko not_active Ceased
- 1990-11-20 EP EP90122169A patent/EP0429057A1/en not_active Withdrawn
- 1990-11-20 JP JP2315286A patent/JPH03214199A/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5334941A (en) * | 1976-09-10 | 1978-03-31 | Hausu Shiyokuhin Kougiyou Kk | Frying method of noodles |
| JPS58203552A (ja) * | 1982-05-21 | 1983-11-28 | Toshiba Corp | 音声出力方式 |
| JPS6159520A (ja) * | 1984-08-31 | 1986-03-27 | Toshiba Corp | 座標入力装置 |
| JPS6170597A (ja) * | 1984-09-14 | 1986-04-11 | 株式会社日立製作所 | 音声合成装置 |
| JPS62134693A (ja) * | 1985-12-09 | 1987-06-17 | 株式会社四国情報通信ネットワーク | 登録音声の発声装置 |
| JPS63237099A (ja) * | 1987-03-25 | 1988-10-03 | 日本電気株式会社 | 単位音声編集型音声合成装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CA2029386A1 (en) | 1991-05-21 |
| EP0429057A1 (en) | 1991-05-29 |
| AU632867B2 (en) | 1993-01-14 |
| KR910010305A (ko) | 1991-06-29 |
| AU6573090A (en) | 1991-05-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
| Black et al. | Building synthetic voices | |
| JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
| WO2020062680A1 (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
| CN109036371A (zh) | 用于语音合成的音频数据生成方法及系统 | |
| WO2000030071A1 (en) | Method and system for syllable parsing | |
| JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
| CN113268989A (zh) | 多音字处理方法及装置 | |
| CN116665639A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
| Wutiwiwatchai et al. | Thai text-to-speech synthesis: a review | |
| JPH03214199A (ja) | テキスト・スピーチシステム | |
| JP2006018133A (ja) | 分散型音声合成システム、端末装置及びコンピュータ・プログラム | |
| US5852802A (en) | Speed engine for analyzing symbolic text and producing the speech equivalent thereof | |
| CN118366454A (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
| CN114187890A (zh) | 语音合成方法、装置、计算机可读存储介质及终端设备 | |
| JP2000148176A (ja) | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム | |
| Schnell et al. | Text-to-speech for low-resource systems | |
| Begum et al. | Text-to-speech synthesis system for Mymensinghiya dialect of Bangla language | |
| JP3732563B2 (ja) | 言語処理装置 | |
| Breuer et al. | The Bonn open synthesis system 3 | |
| CN121747519A (zh) | 一种多方言语音合成方法及相关装置 | |
| Wu et al. | Trilingual Conversation System | |
| Sawant et al. | English Text to Speech Synthesizer Using Concatenation Technique | |
| CN121075303A (zh) | 多语种语音合成方法、相关设备及计算机程序产品 | |
| JP2622834B2 (ja) | 文音声変換装置 |