JPH03214199A

JPH03214199A - テキスト・スピーチシステム

Info

Publication number: JPH03214199A
Application number: JP2315286A
Authority: JP
Inventors: R Gili Patrick; パトリック　アール　ギリ; J Bitar Anthony; アントニー　ジェイ　ヴィタル
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1989-11-20
Filing date: 1990-11-20
Publication date: 1991-09-19
Also published as: CA2029386A1; EP0429057A1; AU632867B2; KR910010305A; AU6573090A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明はテキスト・スピーチシステム、更に言えば、テ
キスト・スピーチアプリケーションを実行しているホス
トプロセッサ上に語彙集（１ｅｘｉｃｏｎ）を設置する
ことが出来るよう、テキスト・スピーチデバイスを区画
する方法に間する。

従来技術テキスト・スピーチシステムは、情報を映像によるのと
同様に音声によって実効的に運ぶことが出来るような所
ではどのような所でも有用である。

しかしながら広範囲に渡るスピーチでは、簡単なメツセ
ージに適切であるロボットのような声よりも、より質の
高いものが必要とされる。より明瞭で自然なものを要求
するとすれば、細かい言語学上の原則及びレベルのセッ
トを付は加えることが必要となり、低質のスピーチ合成
よりより大きなソフトウェア及びハードウェアが要求と
される。

一般に知られているテキスト・スピーチシステムは、テ
キスト・スピーチデバイス中に介挿された「語量集ｊを
利用する。「語貧集」は、ある話し言葉を構成する書記
素（つづられた文字）とその書記素に当たる音のシーケ
ンスの、代表的なコードを含んだ辞書即ちデータベース
である。これらのシステムは語彙集を使って、テキスト
をその音素（ｐｈｏｎｅｍｉｃ）の形態に変換すること
によって動作する。英語の全ての機能音を表現するには
、はぼ４０の音素記号（ｐｈｏｎｅｍｉｃ　ｓｙｍｂｏ
ｌｓ）が要求される。

語彙集を含む様々なテキスト・スピーチシステムが、米
国特許Ｎｏｓ、　４，６９２，９４１．４．２７８．８
３８．３、７０４．３４５及び、ＥＬＥＣＴＲＯＮ　Ｉ
Ｃ３が１９８３年４月２１に出した論文ｒＴｈｒｅｅ−
ｔｉｅｒｅｄ　Ｓｏｆｔｗａｒｅ　ａｎｄＶＬＳ［Ａｉ
ｄ　Ｄｅｖｅｌｏｐｍｅｎｔａｌ　Ｓｙｓｔｅｍ　Ｔｏ
　Ｒｅａｄ　Ｔｅｘｔ　ＡｌｏｕｄＪに述べられている
。

そのようなシステムの一例が第１図に示されている。テ
キスト・スピーチデバイスｌＯは、テキスト・スピーチ
デバイス１０上に備わっている語彙集１６を有している
ように示されている。テキスト・スピーチデバイス１０
で実行するアプリケーション１４は、ホストシステム１
２上で動作する。両方向コマンド／状態フローライン１
８はアプリケーション１４からテキスト・スピーチデバ
イス１０上のテキスト・スピーチ（ＴＴＳ）プロセッサ
２２へ、「未処理」テキスト流れを与える。

更にライン１８の両方向特性により、状態情報かアプリ
ケーションＩ４に戻ってくるようにすることが可能とな
った。語巣集１６はＴＴＳプリプロセッサに両方向検索
ライン２８を通じて結合されているように示されている
。語彙集Ｉ６はまた、両方向ユーザ語彙集インターフェ
イスライン２０を通じて、アプリケーション１４に結合
されている。ユーザ語彙集インターフェイスライン２０
はユーザインターフェイスとして語巣集１６に動作する
。例えば語彙集１６への、付加、デリート、変更、リス
ト等といった動作が、ユーザ語彙集インターフェイスラ
イン２０を通じて実行されるであろう。

ＴＴＳプリプロセッサは、ライン１８上に与えられた未
処理テキストを前処理するよう機能する。

数字、文末、アポストロフィーや棒といったような発声
しない文字はテキスト・スピーチ変換では、特に困難だ
が、しかし必要な仕事であり、それらは語彙集１６がサ
ーチされる前にＴＴＳプリプロセッサ２２により識別さ
れる。

こうしてＴＴＳブリプロセッシング２２は、ライン３０
上の未処理テキストを表す準備されたテキスト出力を、
テキスト・スピーチプロセッサ２４に与える。テキスト
・スピーチプロセッサ２４はライン３２上の音素制御デ
ータを音声合成器２６に与える。これらの音素制御デー
タは、異音語彙集、イントネーション、音量、目標選択
、音素の滑らかさ（ｐｈｏｎｅｍｉｃ　ｓｍｏｏｔｈｉ
ｎｇ）、ノくラメータ計算、及び同様の機能をためのル
ールを含む。

音声合成器２６は合成音を与えるためのデジタル信号プ
ロセッサを組み入れている。

より自然でより高質の音声を達成するためには、テキス
ト・スピーチは大きな語彙集を有しなくてはならない。

語貧集がより大きくなれば、特定の単語の発音が辞書に
よって正確に特定される確立が大きくなる。

第１図に示す従来技術のテキスト・スピーチシステムに
おける主要な問題は、そのアーキテクチャが、テキスト
・スピーチに語彙集情報を十分にもつことが出来るよう
な大きなメモリを要求するということであった。この要
求はテキスト・スピーチデバイス１０のコストと複雑さ
を多大に増加させてしまう。

テキスト・スピーチ合成器を実行するための他のよく知
られたプロセスが第２図に示されている。

テキスト・スピーチプロセス全体が、ホストシステム１
２上のソフトウェア内に形成されているように示されて
いる。テキスト・スピーチプロセス全体をアプリケーシ
ョン１４を実行している同一のホストシステム１２上に
配置することにより、語彙集１６はホストシステムのメ
モリを占めることが可能となる。メモリサイズ及びコス
トは従来技術の第２図のシステムでは小さいが、そのア
ーキテクチャには、典型的なホストシステム１２、例え
ばＶＡＸ／ＶＭＳシステムあるいはＩＢＭＰＣでは実行
不可能なかなりの計算力が要求される。なぜなら、ＴＴ
Ｓプロセッサ２４や合成器２６は計算機に多大の負担を
かけるプロセスだからである。合成器２６によって成さ
れるデジタル信号処理はそれだけでかなり大きなコンビ
ュータカを要求するので、汎用目的ホストシステムアー
キテクチャを、テキスト・スピーチシステムとは無関係
な他の目的のためには役に立たないものにしてしまう。

テキスト・スピーチシステム全体かホスト上に備わって
いるこのタイプのシシステムは、Ｔｅｃｈｎｏｌｏｇｙ
、　１９７９のＭａｓｓａｃｈｕｓｅｔｔｓ　Ｉｎ５ｔ
ｉｔｕｔｅのｒＣｏｎｖｅｒｓｉｏｎ　ｏｆ　Ｕｎｒｅ
ｓｔｒｉｃｔｅｄ　Ｅｎｇｌｉｓｈ　ＴｅｘｔＴｏ　５
ｐｅｅｃｈ　Ｊに述べられている。

このように、コストあるいはシステムの計算力をそれほ
ど圧迫せずに、大きな語量集を持つようなテキスト・ス
ピーチシステムを提供する必要かある。語彙集の複雑さ
やサイズか増加するにつれ、音声合成器の記述を進歩さ
せる必要がある。語彙集をより複雑にすれば、テキスト
・スピーチデバイスかより自然な音の合成音を与えるた
めにテキスト・スピーチか扱うことか出来る情報が多く
なる。

発明の概要本発明は、アプリケーションを実行している同一のホス
トシステム上に語彙集を備えることか出来るようにする
といった方法で、テキスト・スピーチアーキテクチャを
区画したりあるいはそれに加えたりすることにより、こ
れらの問題を克服しようとするものである。テキスト・
スピーチデバイス以外のものはホストシステムから負荷
が大きい計算処理を取り除くことによって、テキスト・
スピーチプロセスを実行する際にホストシステムを目的
とした専用のハードウェア内に提供される。

語彙集とテキスト・スピーチプリプロセッサは、アーキ
テクチャの再区画により、テキスト・スピーチデバイス
をアプリケーションを実行中の同一のホストシステム上
に移動させられる。ホストシステムは、語彙集に十分な
メモリ量が可能であることを確実にする。実際的な目的
のための語葉集のサイズは、ホストシステムメモリを使
用している場合には非限定なものである。それゆえ、と
ても複雑な語彙集が提供されることか可能となり、テキ
スト・スピーチデバイスはより多くの情報を利用するこ
とか可能となった。例えば、語彙集は、フオームクラス
（ｆｏｒｍ　ｃｌａｓｓ）のような個々のエントリにつ
いての付加的な情報をも備えることか出来るようになる
。フオームクラスとはつまり、スピーチの部分、語義形
態（ｓｅｍａｎｔｉｃ　ｆｅａｔｕｒｅｓ）、つまりそ
のの意味、そして、自然さや質の高いスピーチを定める
のに役立ち聴覚パラメータの計算に関係する他のデータ
といったものである。テキスト・スピーチプロセスの区
画により更に、負荷が大きいプロセス、例えばテキスト
・スピーチデバイス上の特別なハードウェア内で達成さ
れるへきＴＴＳプロセッサや音声合成器というようなも
のを、行うことか可能となる。

本発明の他の実施例は、ホストベース語彙集上の単語検
索を実行するためのホストシステム上の検索プロセッサ
を利用する。検索プロセッサをホストシステム上に準備
することにより、ＴＴＳブリプロセッシング機能を、ホ
ストシステムというよりはむしろ専用のテキスト・スピ
ーチデバイス上で実行することか出来る。この実施例は
、ホストシステムとテキスト・スピーチデバイスとを結
合する付加的なトラッフィクをバス上に与える。

しかし、もしバスバンド幅が不可避的な要因ではなけれ
ば、この実施例は語禽集検索及びメインテナンス機能を
取り除くことにより、ホストシステムに要求される計算
量を減少させることが出来る。

更に実施例はテキスト・スピーチアーキテクチャを、ホ
ストシステム（アプリケーションを実行する）、テキス
ト・スピーチデバイス、それから「語彙集サーバ」とい
った３つの構成要素に分割する。テキスト・スピーチア
ーキテクチャを３つの構成要素に分割するこにより、個
々の構成要素はローカルエリアネットワークの部分を成
すことが出来る。これによってネットワーク「構成要素
」の共有か可能となり、そして特に、単一の語彙集サー
バをテキスト・スピーチデバイスを支持する複数のホス
トシステムか共有することが可能となった。

実施例第３図を参照すれば、ホストシステム１２及びテキスト
・スピーチデバイス１０を含むテキストスピーチシステ
ム５が示されている。ホストシステム１２はテキスト・
スピーチシステムを操作するアプリケーション１４を含
む。またホストシステム１２内に含まれているものとし
て、テキストスピーチプリプロセッサ２２及びメモリ１
７がある。メモリ１７は更に語彙集１６を含む。

語彙集１６はホスト１２のメモリ１７を占め、あらゆる
実際的な目的のため、情報の非限定な辞書をテキスト・
スピーチデバイス１０に与える。

アプリケーション１４はＴＴＳプリプロセッサ２２にラ
イン１８上を通して未処理テキストを与える。アプリケ
ーション１４は更に、両方向ユーザ語彙集インターフェ
イスライン２０上を通して語彙集１６と結合している。

両方向ライン２０のおかげで、加える、デリートする、
変更する、リストする等といった特別のメインテナンス
機能を語彙集１６に対して実行するため、ユーザは辞書
とインターフェイスすることか出来る。語彙集１６は更
に、ＴＴＳプリプロセッサ２２に単語検索ライン２８上
を通じて結合されている。ＴＴＳプリプロセッサ２２は
、数字、句読点、アポストロフィーや棒線といった、特
に難しくまた特異な言語の特有のテキスト・スピーチ変
換を識別する。

プリプロセッサ２２はライン３０上に音素表示（ｐｈｏ
ｎｅｍｉｃ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）の形態
の準備されたテキストを与える。準備されたテキストは
テキスト・スピーチデバイス１０に送られる。

テキスト・スピーチデバイス１０はＴＴＳプロセッサ２
４及び音声合成器２６を含む。ＴＴＳプロセッサ２４か
ら受は取られた音素表示は、音声合成器２６か動作する
前に、ＴＴＳプロセッサ２４によって文章構成及び語義
解析を元に変調される。ホストシステム１２で動作する
ＴＴＳプリプロセッサ２２及び語彙集１６は主に、個々
の単語及びそれらの発音を定める音素の選択に関係する
わけであるが、ＴＴＳプロセッサ２４はテキストのそれ
を取り巻く句や文にも係わっている。

準備されたテキストはライン３０を経由してＴＴＳプロ
セッサ２４内で受は取られる。ＴＴＳプロセッサ２４は
、準備されたテキストの文章構成分析を実行し、ライン
３２を経由して音声合成２６に音素制御情報を出力する
。

音声合成はその後、デジタル信号処理を使用して合成器
１６で実行される。テキスト・スピーチデバイス１０上
のＴＴＳプロセッサ２４及び音声合成器２６は共に計算
機に多大の負荷を与える動作である。それゆえ、ホスト
からテキスト・スピーチプロセスの電算機部分を区画す
ることにより、より自然な音声に近いものを発声する改
善されたテキスト・スピーチシステムが開発されること
になる。

第４図は、本発明のテキスト・スピーチシステム５の他
の実施例を示す。ここで番号が同じ場所はその部分をさ
している。この実施例では、ソフトウェアあるいはハー
ドウェアでインプリメントされることか可能な検索プロ
セッサ３４が、単語検索線３６を経由して語彙集１６と
結合するため、ホストシステム１２内に準備されている
。更にＴＴＳプリプロセッサ２２はホストシテム１２上
というよりはテキスト・スピーチデバイスＩＯに配置さ
れている。ＴＴＳプリプロセッサ２２は、単語検索プロ
セッサ３４及び、ライン４ｏや３８で示されるバス上の
ホストシステム１２と結合している。ホストシステム１
２とテキスト・スピーチデバイス１０と間の通信は、ど
のような数の通信リンク、例えば図に示されてたシリア
ルライン、ホスト／システムＩ１０バス、あるいはロー
カルエリアネットワークによっても達成されることか可
能である。検索プロセッサ３４は、語彙集１６内の単語
を検索するための検索要求をパスライン４０上で受ける
ように働く。単語検索はその後、パスライン３８上を通
じてＴＴＳプリプロセッサ２２へと戻される。検索プロ
セッサ３４はこのように要求を処理し、そして語彙集Ｉ
６でのサーチの結果に基づいて適当に応答する。

この実施例の利点はホストシステムで実行されるへきで
ある要求された計算を、ホスト１２からＴＴＳプリプロ
セッサ２２を取り除くことによって減少させたというこ
とである。この実施例は、ホストシステム１２とテキス
ト・スピーチデバイス１０との間のバスバンド幅が、検
索要求及び、ホストシステム１２やテキスト・スピーチ
デバイス１０が通信するバス上の単語検索トラフィック
を付加することが十分に可能である場合に特に有用であ
る。

第５図は、本発明の第３図の実施例を表す機能ブロック
図である。テキスト・スピーチシステムは、ホストシス
テム１２、テキスト・スピーチデバイス１０．それに語
彙集サーバ４６といった３つの構成要素を有しているよ
うに示されている。

語彙集１６を独立な構成要素の部分としたもの、つまり
語彙集サーバ４６のおかげで、語彙集１６は、ネットワ
ークと交差して多数のホストシステム１２によって共有
されることが可能となり、そしてテキストをスピーチシ
ステム１０に支持する。

語禽集サーバ４６は、ユーザ語彙集インターフェイスラ
イン２０を通じてホストシステム１２と結合しているサ
ーバインターフェイス４８を含む。

更にサーバインターフェイス４８は、ＴＴＳプリプロセ
ッサ２２と、検索要求及び単語検索ライン４２及び４４
上とを通して結合している。第４図に関連して上で述べ
たように検索プロセッサ５２、及びユーザ語彙集インタ
ーフェイス５０は、語彙集１６をサーバインターフェイ
ス４８に結合する。

語彙集サーバはこの実施例によって、ローカルエリアネ
ットワークの一部となることが出来る。

しかしながら、付加的な管理や制御機能がユーザ語彙集
インターフェイス５０をインプリメントするために必要
である。

【図面の簡単な説明】

第１図は上で述べた１番目の従来技術のテキスト・スピ
ーチ処理及びそのアーキテクチャを示しているブロック
図である。第２図は上で述べた２番目の従来技術のテキスト・スピ
ーチ処理及びそのアーキテクチャを示しているブロック
図である。第３図は本発明のテキスト・スピーチ処理及びアーキテ
クチャの第１の実施例の機能ブロック図。第４図は本発明の第２の実施例を示す機能ブロック図。第５図は本発明の第３の実施例を示す機能ブロック図。１４・・・・アプリケーション１２・・・・ホストシステム１７・・・・メモリ５・・・・・テキスト・スピーチシステム１０・・・・
テキスト・スピーチデバイス２２・・・・ＴＴＳプリプ
ロセッサ２２２８・・・・単語検索ライン２４・・・・ＴＴＳ２６・・・・合成器３０．３２・ライン３４・・・・検索プロセッサ３６・・・・単語検索線３８・・・・パスライン４６・・・・語嚢集サーバ・サーバインターフェイス０・ユーザ語彙集インターフェイスへ手続補正書（方式）％式％１、事件の表示平成２年特許願第３５２８６号２、発明の名称テキスト・スピーチシステム３、補正をする者事件との関係

Claims

【特許請求の範囲】

（１）テキスト・スピーチシステムにおいて、ａ）テキスト・スピーチアプリケーションプログラムの
実行のために使用可能であり、メモリを備えるホストシ
ステム、ｂ）前記メモリ内に記憶された語彙集、ｃ）ホストシステムとは別にされ、ホストシステムに結
合されたテキスト・スピーチデバイスとを備えることを
特徴とするテキスト・スピーチシステム。
（２）請求項（１）記載のテキスト・スピーチシステム
において、そのホストシステムは更に、アプリケーションプログラムによって与えられた未処理
テキストを前処理し語彙集内の単語検索を実行し、更に
、準備されたテキストを前記テキスト・スピーチデバイ
スに与えるような、メモリに結合されたテキスト・スピ
ーチプリプロセッサを含むテキスト・スピーチシステム
。
（３）請求項（２）記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは、準備さ
れたテキストを受け、そして音素制御情報を作るテキス
ト・スピーチプロセッサを含むテキスト・スピーチシス
テム。
（４）請求項（３）記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは更に、テ
キスト・スピーチプロセッサから音素制御情報を受け、
そして合成された音声を作るような音声合成器を含むテ
キスト・スピーチシステム。
（５）請求項（１）記載のテキスト・スピーチシステム
において、ホストシステムは更に、テキスト・スピーチ
デバイスのために単語検索を実行する、語彙集に結合さ
れた、検索プロセッサを含むテキスト・スピーチシステ
ム。
（６）請求項（５）記載のテキスト・スピーチシステム
において、検索プロセッサは更に、テキスト・スピーチ
アプリケーションプログラムのためにメインテナンス機
能を実行するテキスト・スピーチシステム。
（７）請求項（６）記載のテキスト・スピーチシステム
において、そのテキスト・スピーチデバイスは更に、準備されたテキスト中にアプリケーションプログラムに
よって与えられた未処理テキストを前処理し、単語検索
要求を処理し結果をプリプロセッサに返すホストシステ
ム中の検索プロセッサに、単語検索要求を送るような、
ホストシステムに結合されたテクストスピーチプリプロ
セッサを含むテキスト・スピーチシステム。
（８）請求項（７）記載のテキスト・スピーチシステム
において、テキスト・スピーチデバイスは更に、準備さ
れたテキストを受けそして音素制御情報を作るテキスト
・スピーチプロセッサ、テキスト・スピーチプロセッサから音素制御情報を受け
そして合成された音声を作る音声合成器を含むテキスト
・スピーチシステム。
（９）通信ネットワークにおいて、バス、テキスト・スピーチアプリケーションプログラムを実行
するために使用可能なホストシステム、ホストシステム及びテキスト・スピーチデバイスと別々
にされ且つバスを通じて結合されており、語彙集と、バ
スに結合されたテキスト・スピーチデバイス及びホスト
システムに語彙集をインターフェイスする語彙集サーバ
インターフェイスとを含むような語彙集サーバを備える
ことを特徴とする通信ネットワーク。
（１０）請求項（９）記載のネットワークにおいて、語
彙集サーバは複数のホストシステム及びテキスト・スピ
ーチデバイスを供給するネットワーク。
（１１）請求項（１０）記載のネットワークにおいて、
テキスト・スピーチデバイスは、語彙集サーバとバス上
でインターフェイスし、語彙集内の単語検索を実行し、
準備されたテキストを出力として与えるテキスト・スピ
ーチプリプロセッサ、準備されたテキストをプリプロセッサから受けそして音
素制御情報を出力として与えるような、プリプロセッサ
に結合されたテキスト・スピーチプロセッサ、音素制御情報を受けそして合成された音声を作るような
、テキスト・スピーチプロセッサに結合された音声合成
器とを含むネットワーク。