JPH07507880A

JPH07507880A - 複合ワードを有する言語のための音声認識装置

Info

Publication number: JPH07507880A
Application number: JP5516006A
Authority: JP
Inventors: ベイカー，ジェイムズ　ケイ．; バンバーグ，ポール　ジー．; ロバーツ，ジェド　エム．; ファング，カロライン　ビー．; ベーベン，スティーン; エラーマン，クラウディア　エル．イー．
Original assignee: ドラゴン　システムズ　インコーポレイテッド
Priority date: 1992-03-06
Filing date: 1993-03-03
Publication date: 1995-08-31
Anticipated expiration: 2018-06-09
Also published as: WO1993018506A1; EP0634042B1; ATE203119T1; DE69330427D1; JP3414735B2; EP0634042A1; US5754972A; EP0634042A4; DE69330427T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】Ａワード　る　のためｌｌ豆且辺１１本出願の主題は、本出願の譲受人に譲渡された＋５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ａｐｐａｒａｔｕｓ　ａｎｄ　Ｍｅｔｈｏｄ＋という表題の付された米国特許第４．７８３．８０３号明細書に開示の主題と、＋Ｉｎｔｅｒａｃｔｉｖｅ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ａｐｐａｒａｔｕｓ＋という表題の付された米国特許第４．８６６、７７８号明細書に開示の主題と、＋Ｍｅｔｈｏｄ　ｆｏｒ　Ｉｎｔｅｒａｃｔｉｖｅ　ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　Ｔｒａｉｎｉｎｇ”という表題の付された米国特許第５．０２７．４０６号明細書に開示の主題に関連するものである。これらの特許明細書を適宜参照されたい。

本発明は一般に音声認識装置に関するものであり詳述すると、複合ワードないし複合語を認識するための方法および装置に関するものである。

人間の音声を認識するためのデータ処理装置、たとえば口述内容を転写できる装置などが開発されている。コンピュータ技術の進歩ならびに音声認識アルゴリズムの進歩により、これらの装置はますますより強力なものになっている。たとえば、本発明の譲受人は３０．０００個のワードないし単語を認識できる装置を現在販売している６本装置の特徴の多くのものが上記米国特許第４．７８３．８０３号明細書に叙述されている。

現在の多くの音声認識装置が、認識されるべき単語の発声に応答して発生される音響信号の表示を音響的記述または誘電の中の単語のモデルと整合させることにより作動する。典型的にはアナログ−ディジタル変換器が認識されるべき単語を話すことにより発生される音響信号をディジタル表示に変換する。このディジタル表示が引き続き周波数領域信号に変形される０周波数バンド号は一連のフレームから構成され、それぞれのフレームが、短い時間間隔にわたる複数の周波数バンドのうちの一つにおける音響信号振幅を与える。かかる装置は、認識されるべき単語から誘導される一連のフレームを、装置のためのアクティブなまたは活動状態の語索に記憶された一連のノードまたはフレームモデルと比較することにより通常作動する。

初期のフレーム整合装置の性能は、比較的貧弱であった。所与の単語を構成する個別の音はその単語の任意の２つの発声において、正確に同様の速度でまたは正確に同様の態様で話されることはほとんどない、結果的に、２つの技術がこれらの装置の性能を改善するため開発された。第１の技術が確率的な整合である。確率的な整合によれば、装置は、ある発声ないし言葉の所定のフレームが、ある単語の音響モデルにおける所定のノードに対応する可能性ないし尤度を決定する。

尤度決定は、話されたフレームの各周波数バンドの実際の振幅がフレームモデルとして記憶される周波数バンドの予想振幅とどの程度接近して整合するかの関数である。

確率的整合はさらに各周波数バンドにおける実際の振幅および予想される振幅との間の偏差がかかる値についての予想される偏差にどの程度匹敵するかを考慮する。

確率的整合が、音声認識装置をして同様の単語の種々の発声について生ずる可聴信号の変化を処理する改善された能力をもつようにさせる。それは、装置が音声認識の仕事の間に普通に存在する雑音をより効率良く取り扱うのを可能にする。

フレーム整合装置の性能を改善した第２の技術が動的プログラミングである。動的プログラミングが、発声により発生されたフレームの並びと単語のモデルに包含されるノードの並びとの間の最適な整合またはほぼ最適な整合を見出すための方法を提供する。それは、単語の音響モデルにおける各ノードの持続時間を伸張および収縮し、同様の単語の種々の発声において生ずる自然の変動を補償することによりこれを行う。

確率的整合および動的プログラミングが、話された単語がデータ処理装置によって認識されるところの正確さを十分改善するけれども、両方の技術はコンピュータ操作が集約的である。動的プログラミングおよび確率的な整合により要求される比較を遂行することは非常に多数のコンピュータ命令を要求し得る。結果的に、活動状態の誘電に記憶される単語数が増大するに応じて、言葉を識別するのに必要とされる時間も増大する。

従来技術は、多量の誘電認識装置により導入される過剰なコンピュータ操作の需要を取り扱うための種々の方法を開発している。一つの方法が、装置が任意の一時に認識できる誘電を全誘電の部分集合に限定する人為的な文法を具備する装置を提供する。

多量の語索認識をより効率良くするための別の従来技術が普通、「前フィルタリング」または「枝刈り（ｐｒｕｎｉｎｇ）　Ｊと呼ばれる。前フィルタリングおよび技刈りの両方が、別途のコンピュータ操作を是認するように見えないこれら音響モデルを別途の考察から除去することにより、プログラムが考慮するところの比較の数を低減することを含む、たとえば、米国特許第４．７８３．８０３号に開示された装置において、動的プログラミングアルゴリズムが、言葉の各フレームが受け取られた後に、その活動状態の誘電の各単語ごとにスコアないし得点を発生する。この得点は受け取られたフレームが所与の単語とある程度まで整合するという尤度に対応する。活動状態の誘電の各単語ごとの得点が更新された後に、それは任意の単語について発生される最も良い得点と比較される。所与の単語についての得点と最も良い得点との間の差が一定の閾値を越えれば、その所与の単語が活動語索から除去されそして今後のフレームはもはやそれと比較されない。

米国特許第４．７８２．８０３号に叙述の装置は、言語モデルを使用することにより、コンピュータ操作需要および混同の可能性を別途低減する。その前に話される単語が与えられれば、言語モデルが装置の語索の各単語の発生の相対的可能性を予想する。言語モデル確率が、大きな一塊の本文を分析しそしてこれから誘電の各単語が語索のそれぞれの他の単語によって先行される回数を決定することにより計算される。

話された単語を認識する際に、従来技術の装置は、典型的には、たぶん話された単語であるらしい単語の選択リストを表示する。ところで、ある従来技術装置が選択のためオペレータのために任意の単語を表示するまでに必要とされる時間量は認識誘電の大きさとともに増大する。大誘電装置において従来技術の装置は比較的緩慢である。後の従来技術の装置が、アルファベットフィルタリングなどの方法を利用し装置の応答時間を改善する。

アルファベットフィルタリングが使用者ないしユーザをして話された単語に包含される文字列を指定することによって探索のフィールドを狭くするのを可能にする。かかる装置の特徴は米国特許第４．８６６、７７８号に別途叙述されている。

現在の音声認識装置の性能は少し前の類似の装置と比較したとき印象的である。

それにも拘らず、別途改善の必要性が依然として存する。たとえば多くの仕事のため実用的な使用目的の音声認識装置のために、単語からなる大量の誘電を認識できることが必要である。これら単語からなる重要な部分集合が複合語である。

複合語を構成するものが、いずれの言語が言及せられているかに依存して変化し得る。たとえば、フランス語およびイタリア語において、冠詞および前置詞が母音字から始まるところの他の単語と組み合わされ、ｒ　ｌ’ａｒｔ（ｔｈｅ　ａｒｔ）Ｊおよびｒｄｅｌｌｏｏｒｏｌｏｇｉｏ　（ｏｆ　ｔｈｅ　ｃｌｏｃｋ）　Ｊなどの複合語を生ずる。スペイン語において、ｒｐｏｎｅｒｌｏ（ｔｏ　ｐｕｔ）　Ｊの場合におけるように動詞が代名詞と組み合わされる。ドイツ語において、複合語が案出されそしてたとえばｒ　ｆｉｎａｎｃｅ　ｍ１ｎｉｓｔｅｒＪについてｒ　Ｆｉｎａｎｔｚｍｉｎｉｓｔｅｒ　Ｊ（大蔵大臣）などのように英語の複合名刺とほぼ同様に使用されている０日本語と中国語において、大部分の諸量が一連の文字として現れる複合語からなる。単語境界がこれら二つの言語の話し言葉から容易に識別できない、なぜなら各対の文字間に等しい間隔があるからである。

従来装置がアメリカ英語における単語の約９５％の適用範囲を実現する。成分を組み合わせることにより形成される単語の大きな割合を有する言語において匹敵し得る適用範囲を実現することはさらに相当困難である。従来装置によれば、所望される適用範囲の水準を実現するために、装置の活動状態誘電は、有意義な数の複合語のために音響モデルを発生および記憶することにより拡張される必要があろう、かかる方法は実際的でない量の記憶容量を含むであろう、さらに、コンピュータ操作効率の良い音声認識装置を設計するという問題は、装置のライブラリに記憶される音響モデルの数を有意義に増大することによってさらに一層困雌となる。

従って、本発明の目的は、ユーザにより話された複合語を１ｊｌｌ識する改善された単語認識装置を提供することである。

本発明のさらに別の目的は、認識されるべき複合語をその活動状態誘電に組み込むことを要求しない単語認識装置を提供することである。

本発明のさらに別の目的は、複合語であるという高い可能性ないし尤度を有する話された成語要素ないし形成要素を自動的に組み合わせる単語認識装置を提供することである。

本発明の目的は、ユーザをして、複合語（形成要素からなる発声ストリング）へと組み合わせることのできる装置を提供することでもある。

本発明の別の目的が、連続した言葉としてユーザにより発声される複合語を認識する単語認識装置を提供することである。

本発明のさらに別の目的が、ユーザが、隔離された形成要素として装置により以前に認識された単語をしである複合語へと組み合わされるようにすることができる単語認識装置を提供することである。

本発明の別の目的が、ユーザが、複合語として装置により以前に認識された単語をして隔離された形成要素へ分割できるようにする単語認識装置を提供することである。

本発明の他の目的、特徴および利益が以下の好ましい実施例の説明および請求の範囲から明らかとなろう。

１豆皇Ｉ！簡単にいうと、本発明は所定の誘電からの一つまたはそれ以上の単語の連続を包含する言葉から複合語を認識するための装置および関連の方法である。言葉のなかの複数の単語のうちの少くとも一つの単語は、連続状態の少くとも２つの形成要素を包含するそしてこれらの形成要素が誘電中の単語である複合語である。

装置は単語認識要素を具備する。単語認識要素は、ユーザにより発声された言葉の処理に応答し複合語に対応する単語を識別するために第１のモードで選択的に動作する。単語認識装置はさらに、ユーザにより発声される形成要素の連続物の処理に応答して、複合語に対応する単語を識別するため第２のモードで選択的に動作し、この場合、各形成要素が複合語中に対応的に配置された形成要素を表わす、任意であるが、単語認識装置は隔離状態で発声されるかまたは連続した音声として発声される単語からなる言葉から複合語を認識するための要素をも具備してもよい。

本装置はさらに単語認識装置のモードを決定するためにユーザにより制御される要素をも具備する。ユーザ制御要素は、ユーザにより発生される可聴ないし聴覚信号またはユーザにより発生されるキーボード命令に応答し得、単語認識装置のモードを決定する。

任意であるが、本装置は上述の第２モードのサブモードで動作する。サブモードにおいて、単語認識要素は、ユーザにより装入される処理キーワードに応答し、複合語に対応する単語を識別する。各キーワードは複合語中の対応的に配置された文字を表わす、キーワードは任意のアルファベットタイプ表示に対応し得る。

たとえば、キーワードは国際通信アルファベット語に対応してもよい６代替例として、それらはドイツ語電話コード語でもよい、さらにユーザはユーザにより発生される聴覚信号を通じてまたはユーザにより発生されるキーボード命令を通じてキーワードを入れられる。このサブモードにより包含される機能は、単語認識要素の動作の独立した第３のモードとしても実施可能である。

代替え実施例において、本発明は所定の語紮からの一つまたはそれ以上の発声された単語からなる連続物を包含する言葉から単語を認識するための装置および関連の方法である９本装置は単語認識装置およびモード選択のためのユーザ制御要素を包含する。

単語認識装置は、ユーザにより発声されたキーワードの連続物の処理に応答し、発声された単語のうちの一つについての現在の候補単語リストとして、語紮のなかの第１の複数の単語を決定および表示するため第１のモードで選択的に動作可能である。それぞれのキーワードは発声された単語のなかの対応的に配置された単語成分を表わす、さらに、表示されたリスト中の複数の単語のそれぞれがキーワードの連続物により表示される単語成分の連続物から始まる。単語成分は形成要素および文字からなる群から選択される。

単語認識装置はまた、ユーザにより入れられる一つまたはそれ以上の命令に応答し、現在の候補単語リストから発声単語の少くとも一部を識別するため第２のモードで選択的に動作する。これらの命令は現在の候補単語リスト中のｎ番目の単語の最初のに個の文字を表わす（ここで、ｋおよびｎは整数でありそしてに個の文字は発声単語の最初のに個の文字を表わす）、ユーザは聴覚信号を通じてまたはキーボード命令を通じて命令を入れられる。

第２の動作モードにおいて、単語認識装置はまた、ユーザにより入れられる命令に応答して、発声単語についての現在の候補単語リストとして誘電の中の第２の複数の単語を決定する。この第２の複数の単語のうちのそれぞれの単語はに個の文字から始まりそして現在の候補単語リストとして表示される。

任意であるが、単語認識装置は、ユーザにより入れられる一つまたはそれ以上の命令に応答しｎ番目の単語において追加のｉ個の文字を識別し得る。この場合、ｉは整数でありそしてｉ個の文字は先に識別されたに個の文字に続く最初のｉ個の文字を表わす。

さらに、単語認識装置はユーザにより入れられる一つまたはそれ以上の命令に応答し、先に識別されたに個の文字から５個の文字を除外可能である。この場合、ｊは整数でありそして５個の文字はｎ番目の単語のに番目の文字の直前の５個の文字を表わす。

単語認識装置は連続音声として発声される一つまたはそれ以上の単語を包含する言葉から単語を認識するための要素をも具備する１代替え例として、単語認識装置は単語を認識するための要素を具備してもよく、ここで、言葉は隔離状態で発声される一つまたはそれ以上の単語を含む。

単語認識装置は、発声単語の残りを決定するために、発声単語の一部の識別に応答し、選択的に動作する完了要素を包含してもよい、完了要素は、ユーザにより入れられるキーワードまたは形成要素の連続物を処理するための要素を具備してもよく、キーワードまたは形成要素はそれぞれ発声単語の残りに対応的に配置された文字を表わし、発声単語の残りとしてキーワードまたは形成要素の連続物により表示される文字の連続物を識別する。

別の実施例において、本発明は、所定の語紮からの一つまたはそれ以上の単語の連続物を含む言葉から複合語を認識するための装置および方法を含み、この場合、単語のうちの少なくとも一つは連続状態の少なくとも２つの形成要素を含む複合語である。この実施例によれば、本発明はプロセッシング要素と、単語認識要素と組合せ要素とを含む。

プロセッシング要素はユーザにより発声される形成要素の連続物を処理しそして発声された形成要素のそれぞれに、複合語に包含される発声された形成要素の尤度を表わすスコアないし得点を関連付ける。

単語認識要素は、これら関連付けられる得点に応答して、所定の基準に対応する組み合わされた得点を有する連続的に発声された形成要素を複合語として識別する。

本発明によれば、各形成要素は、複合語における対応的に配置される形成要素を表わす。

組合せ要素は単語認識手段により識別される連続形成要素の組合せを表わす信号を発生する。信号は複合語を表わす。

任意であるが、本実施例は、識別された複合語を、識別された形成要素を表わす信号に分解するためのユーザによって制御される要素を具備する。かかるユーザ制御要素はユーザにより発生される聴覚信号またはユーザにより発生されるキーボード命令に応答し得る。

別の実施例において、本発明は所定の語紮からの一つまたはそれ以上の単語の連続物を包含する言葉から複合を認識するための装置および方法を含む、連続物のなかの単語のうちの少なくとも一つは、少なくとも２つの連続状態の形成要素を含む複合語である。形成要素は語紮のなかの単語である。本装置は複合語を表わすそして連続状態で発声される形成要素のうちの選択されたものに対応する信号を発生するためのユーザ制御要素を具備する。

の　ｔｌ第１図は本発明による複合語認識装置を具備する音声認識装置の模式図である。

第２図は、第３図の実施例の動作を別途図示する動作流れ図である。

第３図は、第２図の流れ図Ｉ：従う本発明の好ましい実施例の動作を図示するブロック図である。

第４図は、本発明の別の好ましい実施例の動作を図示する動作流れ図である。

第５図〜第１１図は、第４図に従う本発明の好ましい実施例の動作を表わす例を示す。

１扛皇且ｊ第１図は、本発明による複合語認識装置を具備する音声認識装置１０の模式ブロック図である０本装置１０は発声された単語の発声を検出しそしてその発声を表わすディジタル信号を発生するための要素を具備する。これらの要素は、マイクロホン１４、アナログ−ディジタル変換器１６、ピーク振幅検出器１８、高速フーリエ変換（ＦＦＴ）網２ｏおよび発声検出器２２を含む、これらの要素により発生される信号はＩＢＭ互換性のある３８６型または４８６型のパーソナルコンピュータなどのプログラム可能なコンピュータ２４に供給される。コンピュータ２４には装置１０により認識される単語を表示するためのビデオモニター２６が装備されている。コンピュータ２４はキーボードを別途具備し、オペレータがマイクロホン以外の手段によりコンピュータ２４と通信できるようにする。モニター２６、キーボード２８およびそれらの各接続部分３０．３２はパーソナルコンピュータで普通使用されているタイプのものである。

発声単語がマイクロホン１４を通して装置１０に入る。マイクロホン１４は、それに入る発声単語を指示するアナログ出力信号を発生する。マイクロホン出力信号はアナログ−ディジタル変換器１６の入力に接続される。アナログ−ディジタル変換器１６はマイクロホン１４により発生されるアナログ信号を、マイクロホン出力信号の振幅を表わすディジタル値の並びに変換する。

アナログ−ディジタル変換器１６の出力はピーク振幅検出器１８および高速フーリエ変換網２０の入力に供給される。

当技術分野で良く知られるタイプである高速フーリエ変換網２０がアナログ−ディジタル変換器１６の出力をフレームの並びに変換する。各フレームは比較的短い時間にわたる所定周波数におけるマイクロホン出力信号の振幅を指示する０本発明によれば、フーリエ変換網２０は５０分の１秒ごとに一フレームを出力する。この出力は、データ線３４および入力ボート３６を通じて、コンピュータ２４のシステムバス３８に供給される。フーリエ変換網２０はさらに出力線３９に中断信号をも供給する。この信号はシステムバス３８を通じてコンピュータ２４の中央処理ユニット４０へ結合される。フーリエ変換網２０により発生される中断に応答して、中央処理ユニット４０は、線３４に提供される、各連続フレームを表わすデータを読取り、そしてこれをランダムアクセスメモリ４２に記憶する。

高速フーリエ変換網２０はさらに線４４を通じてフレームクロック信号をピーク振幅検出器１８に供給する。

ディジタル信号処理の分野でよく知られるタイプのピーク振幅検出器１８は、ピーク振幅値を発声検出器２２の入力に供給する。フーリエ変換網２０からの信号によりクロック同期される発声検出器２２は、ピーク振幅入力を所定の閾値と比較する０発声検出器２２への入力が十分長い時間の間、プリセット閾値を越えれば、発声検出器２２はその出力に中断４４を発生する。その中断４４は、発声検出器２２が、発声の始まりのようにみえるものを検出したことを中央処理ユニットへ合図する。

コンピュータ２４はさらに尤度プロセッサ４６をも包含する。尤度プロセッサ４６は、ユーザにより発声された被検出単語におそらく対応するであろうシステム辞書中の単語を決定するよう設計された特別の目的のプロセッサである。標準的に、システム辞書は音響単語モデル（すなわち音響ライブラリ）とアルファベット単語のリスト（すなわちバックアップライブラリ）の両方を包含する。尤度プロセッサ４６は、中央プロセッサ４０により読み取られたデータとランダムアクセスメモリ４２に記憶される予め定義された音響モデルとを比較することにより発声された単語について可能性のある整合を決定する。ある従来装置によれば、尤度プロセッサはさらにアルファベット単語リストを探索する。音響モデルが標準的にはアルファベットリストに包含される単語について記憶されない、音響モデルおよびアルファベットリストを使用するいくつかの探索方法が従来技術で使用されている。これらは米国特許第４．７８３．８０３号、米国特許第４、８６６、７７８号および米国特許第５，０２７，４０６号に詳細に述べられている。

さらに、第１図には複合語認識装置１２が図示されている０本発明による複合語認識装置１２はユーザにより発声される複合語を認識する責がある。上述したごとく、複合語を構成するものは、装置１０がその中で動作しているところの所定言語に依存し異なり得る。ところで、本出願において終始使用される複合語という用語は、それぞれがシステム誘電中の単語として取り扱われる２つまたはそれ以上の形成要素の連続物から作られる単語を包括的に指す。

尤度コンピュータ操作および複合語認識コンピュータ操作の両方はプロセッサ集約性である。こうして、装置１０の性能は専用要素をこれらコンピュータ操作を実行するのに割り当てることにより高められ得る。ところで、当業者には明瞭であるように、これらコンピュータ操作は、ソフトウェア制御の下で中央プロセッサ４０により良好に実行されよう、さらに複合語認識装置１２は尤度プロセッサ４６の一部としてもまた包含されよう。

第２図は本発明の一つの実施例による動作流れ図５０を図示する。流れ図５０に図示される「通常モード」ブロック５２は従来技術の口述装置である。典型的には、これらの装置は複合語が音響モデルまたはアルファベットリストとしてシステムライブラリに記憶されなければ複合語を認識できない。

動作において、隔離されるまたは連続的単語の連続からなる発声に応答して、通常モードは発声単語ごとに候補単語リストを発生する。もし発声単語が表示された候補リストにあれば、決定ブロック５４により図示されるごとく単記が（手動的にまたは自動的に）選択され（５６）そして装置は通常の口述モードにとどまる。ところで、複合語でありそうなことであるが、もし発声単語が表示候補リストになければ、ユーザはいくつかの選択肢５８のうちの任意の一つから選択可能である。ブロック６０により図示される一つの選択肢はユーザが発声される複合語を表わす文字の並びを入れることである。この動作のサブモートは「つづりモード」と呼ばれる。複合語の定義と同様に、文字の定義は、ユーザが活動じているところの言語により変化し得る。ところで、例として、英語ではユーザは単語のつづり、すなわち一時に一文字を入れられる。同様に、ユーザは国際通信アルファベット（たとえば、”ａ′について”ａｌｐｈａ”を”ｂ“について”ｂｒａｖｏ”など）を使用可能である。ユーザは、ブロック６２により示されるごとく、正しくつづられた単語を受け取りそして通常の口述モードに復帰する。

決定ブロック６４により示されるごとく、第２の選択肢は、所定の複合語が複合語を構成する形成要素および／または文字の組合せを話すことにより入れられる動作モードをユーザが選択することである。この選択肢の一つの実施例６８によればユーザが複合語へ組み合わされるべき一連の形成要素を発声する。たとえば、ユーザが”ｐｕｔ−の前に−ｔｈｒｏｕｇｈ−を発声し、複合語”ｔｈｒｏｕｇｈｐｕｔ−を入れるかも知れない０代替実施例６６において、ユーザは、単語認識装置が複合語へと変換するところの一つまたはそれ以上の形成要素との組合せにおいて一つまたはそれ以上の文字を発声してもよい、たとえばユーザが”ｃｕｌｔｕｒａｌ”の前に”Ｓ”、””°゛、”ｉ”および”０”を０．０入れ、単語”５ｏｃｉｏｃｕｌｔｕｒａｌ“を表現し、そして単語全体をつづるのを避けるかも知れない、ユーザは、複合語が完成されるまで形成要素および／または文字を入れ続ける。決定ブロック７０により図示されるごとく複合語の完了の際に、ユーザはブロック７２により示されるごとく単語を受け取りそして通常の口述モード５２へ復帰す第３図は、第２図の流れ図５０により叙述される複合語認識装置の動作を示すブロック図を示す０図示されるごとく、装置８０は複合語認識要素８２およびユーザ制御要素８４を具備する。総括的に、本装置８０は連続音声または隔離状態のいずれかとして発声される一つまたはそれ以上の形成要素Ｆ１〜Ｆ６を包含する入力の言葉８６を検出する。複合語認識装置は、形成要素Ｆ１〜Ｆ６のうちのいずれが組み合わされ複合語を形成するかを決定しそしてその決定に応答してこれらの形成要素を適当な複合語へ組み合わせる。これは第３図において出力表示８８として図示される組合せＦｉＦ２、Ｆ３Ｆ４およびＦ５Ｆ６により図示されている。

上述したごとく、本装置８０はいくつかのユーザ選択可能なモードのうちの任意のモードで動作する。ユーザはユーザ制御要素８４を通じて所定の動作モードを選択する。ユーザ制御要素８４は、たとえば第１図に図示されるマイクロホン１４またはキーボード２８としてもよい。

第１の動作モードが入力形成要素Ｆ１およびＦ２により図示される。入力形成要素ＦｌおよびＦ２が通常の音声として発声される複合語を表わす０本発明によれば、もし単語が活動ライブラリまたはバックアップライブラリに存在すれば、非複合語が従来技術の装置で識別されそして表示されるのとほぼ同様の仕方で、複合語認識装置８２はライブラリからその単語を選択しそしてそれをユーザのために表示する。

入力形成要素Ｆ３およびＦ４により示される第２の動作モードにおいて、単語認識装置８２は、発声される始めの複合語デリミツタ−（区切り）および発声される終わりの複合語デリミツタ−（区切り）との間で発声されるこれら形成要素を複合語へ組み合わせる９例として、ユーザが”ｂｅｇｉｎ　ｃｏｍｐｏｕｎｄ− １”Ｆ３−１＋Ｆ４＋、−ｅｎｄ　ｃｏｍｐｏｕｎｄ”と発声するかも知れない、第３図に図示されるごとくこれは形成要素Ｆ３およびＦ４の組み合わせを表わす複合語の出力表示Ｆ３Ｆ４を示す。

第２の動作モードの代替実施例において、ユーザは形成要素および文字の両方を組み合わせることを選択可能である。たとえば、ユーザが”ｂｅｇｉｎ　ｃｏｍｐｏｕｎｄ”、”Ａｒｂｅｉｔ−１−Ｓａｍｕｅｌ−１−Ｍｏｒａｌ−、”ｅｎｄ　ｃｏｍｐｏｕｎｄ＋と発声するかも知れない。この例において、”Ｓａｍｕｅｌ”は文字”Ｓ”についてのドイツ語電話アルファベット文字である６文字を表わす他のコードを使用してもよい。

第３の動作モードにおいて、単語認識装置８２は、一連の逐次に発声される形成要素が、複合語としてユーザのために組み合わされそして表示されるべきかどうかを自動的に決定する。単語認識装置８２はこのことを、検出される形成要素の連続を処理しそして検出された形成要素がその直前または直後に検出される形成要素のうちのいずれかと一緒に、ある複合語に包含される尤度を表わす得点をそれぞれの認識形成要素に関連付けることによりこれを行う、もし、形成要素が隔離状態で存在するのとは対照的に組み合わされるべき見込みがあれば、単語認識装置８２は形成要素を複合語へと組み合わせる。

任意の形成要素の群が隔離状態で存するかまたは複合語へと組み合わされるべきかどうかの相対的可能性を決定するのに使用される一つの技術が、言語モデルを使用することである。言語モデルは、前に発声された一つまたはそれ以上の単語が与えられれば、システム誘電中の各単語の発生の相対的可能性ないし尤度を予想する。

第３の動作モードの一つの実施例において、複合語認識装置８２は、ユーザ命令に応答し、前に識別された複合語をその識別された形成要素へ分解する。

第４図は、本発明の代替え実施例による動作流れ図１００を示す、第２図においてのように、流れ図１００で図示されている「通常モード」ブロック１０２は従来技術の口述装置を表わす、第２図の実施例におけるごとく、そして決定ブロック１０３により示されるごとく、もし発声された単語が候補リスト１０３上にあれば、単語が選択されそして装置は通常の口述モードにとどまる。また、第２図の実施例と同様に、もし単語が候補リスト上になければ、ユーザはいくつかの選択肢を有する０選択肢の選択は決定ブロック１０６により表示されている。第４図の実施例によれば、ユーザが単語成分を通じてまたは候補リストに包含される単語の一部を指定することにより複合語を指定し得る。さらに、ユーザは文字を入れることにより部分的に指定された複合語を完成し得る。

単語成分が形成要素および文字の両方を包含する。

ユーザはこれらの形成要素および／または文字を第２図の実施例とほぼ同様に入れる。ところで、第４図の実施例によれば、第１図の複合語認識装置１２は、ユーザにより入れられる文字および形成要素に応答して、自動的に候補リストを発生しく１１４）そしてそのリストを表示する（１１６）、一つの実施例によれば、複合語認識装置１２は、システムライブラリのその探索を、ユーザにより入れられる形成要素および／または文字から始まる単語に限定する。ところで、発声される命令を通じて入れられる形成要素および／または文字の場合、複合語認識装置はその探索において、発声されたものであるという相当な確率を有するとそれが決定するところの任意の形成要素および／または文字を包含可能である。追加の文字および／または形成要素を入れることにより、ユーザは単語認識装置の探索の範囲を別途限定できる。

決定ブロック１１８により指示されるごとく、もし複合語が選択肢リスト上に現れればユーザはそれを選択する（１２０）、もしユーザがある単語を候補リストから選択すれば、装置は自動的に通常の口述モード１０２へ復帰する０代わりに、もし単語が候補リスト上に現れなければ、ユーザは決定ブロック１０６から入手できるいくつかの選択肢のうちの任意のものをもう一度選択可能である。

第４図の図示の実施例によれば、ユーザに利用できる別の選択肢が、候補リスト上に現れる単語の一部を選択することである。この選択肢はブロック１１０により表示されている。形成要素を入れる場合と同様、候補リスト上の単語の一部を指定することは、複合語全体を一文字ずつつづることに代わり、時間の節約となる。ブロック１１０により図示されているように、候補リスト上の単語の所望部分は単語番号（ｎ）および単語の最初の（ｋ）個の文字を指定することにより選択される。ある単語の一部が選択されるとき、複合語認識装置１２はその探索動作を、選択される文字から始まるシステムライブラリ中の単語に限定する。さらに、ブロック１２２により図示されるごとく、単語認識装置は対応的に候補リストを更新する。更新された候補リストはユーザのために表示される。ふたたび、もし複合語がリスト上に現れれば、ユーザはそれを選択しそして装置は通常の口述モードへ復帰する。もし単語が候補リストに現れなければ、装置は決定ブロック１０６へ復帰しそしてユーザ・が使用されるべき所定の選択肢を選択するのを許容する。

本発明の他の実施例によれば、ユーザは候補選択リストから選択される単語内の別の文字を任意に選択可能である。ユーザはさらに前に選択された文字を選択しなくともよい、たとえば、ユーザは候補リスト中の第２番目の単語の最初の３つの文字を指定してもよい、上述したごとく、候補リストは対応的に更新される。

もし単語が６文字の長さであれば、ユーザは引き続き装置に１文字、２文字または３文字前進するよう命令可能であり、それにより単語の最初の４文字、５文字または６文字を効率よく選択する。同様に、ユーザは装置に１文字、２文字または３文字後退するよう命令可能であり、それにより単語の最初の２文字、１文字または０文字を指定可能である。候補選択リストはそれぞれの新規な文字選択で更新される。

決定ブロック１０６から利用できる別途の選択肢がブロック１１２から開始する。この選択肢は、ユーザが一つまたはそれ以上の文字を入れ、複合語を完成するのを許容する。ブロック１２２および１２４により指示されるごとく、完全な単語が入れられると、ユーザは単語を受け入れそして装置は通常の口述モードに復帰する。

第５図〜第１１図は、第３図および第４図の実施例の動作を示す一例を図示する。この例全体を通じて、「装入するあるいは入れる」という言葉は、発声することによりそしてキーボードを使用するすることにより命令を入れることの両方を呼称するのに使用される。第５図に示されるごとく、ユーザは複合語“ｔｈｅｒｍｏｒｅｇｕｌａｔｏｒｙ”を発声する。単語が認識されないと仮定すると、カーソル線１３０および定義窓１３２が両方とも空白のままとどまる０選択肢窓１３４は空白のままとどまってもよいしまたは正しくない選択物を簡単に包含してもよい、第４図の決定ブロック１０６により、ユーザはいくつかの選択肢のうちの任意のものを選択する。第５図の例において、ユーザは、命令”Ｂｅｇｉｎ　Ｃｏｍｐｏｕｎｄ　Ｍｏｄｅ−を入れることにより単語成分を入れることを選択する。

ユーザは、文字であるところの単語成分または形成要素であるところの単語成分を入れるという選択肢を有する。第６図の例において、ユーザは形成要素”ｔｈｅｒｍ”を入れる。これは、複合語認識装置をして、形成要素”ｔｈｅｒｍ“から始まる単語について辞書を探索するようにする。さらに、”ｔｈｅｒｍ”は定義窓１３２中に表示される０図示の実施例によれば、９つの可能性のある候補が、好ましくは発生可能性値に基づいて順序付けられた仕方で、選択肢窓１３４に表示される６図示の例において単語認識装置は一定状態の下で形成要素”ｔｈｅｒｍ”を正しく識別しているが、Ｗ！３識装置は、発声された形成要素が”ｔｈｅｒｍ“以外であったという相当な確率が存することを決定するかも知れない。

たとえば、認識装置は“ｔｅｒｍ”または”ｄｅｒｍ”を等しく可能性のある選択物であると同定するかも知れない。このような状況において、一つの好ましい実施例によれば、初めに発声される単語（たとえばｔｈｅｒｍｏ　ｒｅｇｕｌａｔｏｒｙ）および発声される形成要素（たとえばｔｈｅｒｍ）の両方に単語認識装置が割り当てるところの確率があれば、単語認識要素は最も可能性のある選択物を表示する。

所望される単語が選択物忘１３４に表示されない間、ユーザは表示される選択物の任意のものの一部を選択するという選択肢を有する。この場合、ユーザは命令 ”５ｅｌｅｃｔ　ｓｉｘ　ｆｉｒｓｔ　ｓｉｘ”を入れる。これは、選択物リストの第６番目の単語の最初の６文字を選択する。

最初の６個の文字（たとえば”ｔｈｅｒｍｏ”）が線で囲まれた状態で第６番目の候補”ｔｈｅｒｍｏｄｙｎａｍｉｃ”を包含する結果的に得られる定義窓１３２が第７図で参照番号１３６により図示されている。”ｔｈｅｒｍｏ”の選択は複合語認識装置をして選択肢窓１３４に図示される候補リストを更新する。第７図に示されるごとく、すべての９個の選択物がここに形成要素”ｔ、ｈｅｒｍｏ ”から始まる。第７図の選択肢はいずれも、”ｔｈｅｒｍｏｒｅｇｕｌａｔｏｒｙ−と共通の最初の６つ以上の文字を持たノシいのＣ、ユーザは文字である単語成分を入れるための選択肢を実行する。

「つづりモード」の選択肢を使用する従来装置において、ユーザによりつづられる文字は、他に指定されなければ、識別されるべき単語の初めに配置される。ところで本発明によれば、もしつづり文字１３５が先に発声された形成要素（たとえば”ｔｈｅｒｍ”）のすぐ後に続けば、つづり文字は、ユーザにより他に指定されなければ、発声された形成要素の後に続くと仮定される。もしつづり文字が命令（たとえば、５ｅｌｅｃｔ　ｓｉｘ、　ｆｉｒｓｔ　５ｉｘ）のすぐ後に続けば、つづり文字は選択される文字（たとえば、本例で、第６番目の単語の第７番目の文字）の後に続くと仮定される。もしつづり文字が形成要素または選択型命令によって先行されなければ、つづり文字は、従来装置におけるごとく、認識されるべき単語の初めに配置される。

第７図の例において、ユーザは文字”ｒ”をその対応する国際通信アルファベット文字（たとえばｒｏｍｅｏ　）を介して入れる。他の実施例において、国際通信アルファベットは西欧アルファベット文字を入れるのに使用される。もちろん、他の言語について異なる文字／記号が使用可能である。

第８図に図示されるごとく、複合語認識装置は”「”を定義窓に組み込み、”ｔｈｅｒｍｏｄｙｎａｍｉｃ”の”ｄｙｎａｍｉｃ”の部分を除去する。単語認識装置はさらに選択物忘１３４に表示されている候補リストを更新する。ユーザは順次第２番目の単語の最初の９文字を選択するという選択肢を実行する。

従って、第９図は文字”ｔｈｅｒｍｏｒｅｇ−が番号１３６において線で取り囲まれた状態で定義窓１３２中に単語−ｔｈｅｒｍｏｒｅｇｕｌａｔｉｏｎ−を示す。選択物忘は、その最初の９文字として”ｔｈｅｒｍｏｒｅｇ”を有する候補だけを包含する。

第９図の定義窓１３２に依然と図示されている第８図の第２番目の選択が所望される複合語と共通の最初の９つ以上の文字を有することを理解するとき、ユーザは命令−ｆｏｒｗａｒｄ　ｆｏｕｒ−を入れる。

第１０図に示されるごとく、これは定義窓１３２の囲み部分１３６に包含される追加の４つの文字を生ずる。

同様に、もしユーザがあまりに多数の文字が誤って包含されたことを理解すれば、「後退」命令が以前に選択された文字を解放する。たとえば、”ｂａｃｋ　ｆｏｕｒ”命令が、第９図の定義窓１３２の囲み部分１３６に包含された文字”ｏｒｅｇ”の解放を招くであろう。

”ｆｏｒｗａｒｄ　ｆｏｕｒ“命令の後に、所望される複合語と共通の追加の文字を包含する別途の選択物はない、かくして、ユーザはもう一度つづりモードを入れそして単語を完成する。残りの文字”０”ｒ”ｙ“をそれらの国際通信アルファベット記号を介して入れることに続いて、ユーザは第１１図の定義窓１３２に表示される完成された単語を許容する。従って、定義窓１３２の中の単語は、カーソル線１３０へ移送される。

本発明は、その精神またはその本質的特徴を逸脱することなく他の特定の形式で具体化され得る。それゆえ、現在の実施例はすべて単なる例示であり本発明を制限するものと考えるべきではなく１本発明の思想は発明の詳細な説明によってではなく以下の請求の範囲により指示されるものであり、そして本発明の均等の範囲内にあるすべての変更は請求の範囲に包含されるべきものである。

−ど〃へカー゛ノル′ うｊυｕ９ｅゴト”ＢＥに／Ｎ　ＣＯＭＰＯＬＩＮＤ　Ａｌ０ＤＥ″′−一／Ｊ ρ ＴＨＥＲＭＯＲｆＧムメ１ＡＴＱＥＹ−Ｆ枳夕際冨コフロントページの続き（７２）発明者　ロバーツ、シェド　エム。

アメリカ合衆国　０２１６０　マサチューセッツ、ニュートン、リーララド　ロード７（７２）発明者　ファング、カロライン　ビー。

アメリカ合衆国　０２１７８　マサチューセッツ、ベルモント、コンコード　アベニュー（７２）発明者　ベーベン、スティーンアメリカ合衆国　０２１６８　マサチューセッツ、ニュートン、コツター　ロード　５１（７２）発明者　エラーマン、クララブイア　エル、イー。

アメリカ合衆国　０２１２９　マサチューセッツ、チャールズタウン、バーノン　ストリート１４　１／２

Claims

【特許請求の範囲】

（１）予定された語彙からの１または榎数のワードより成る一連のワードを含む発声ないし発話から複合ワード（語）を認識するシステムであって、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも２つの構成要素を連続して含む複合ワードであるものにおいて、Ａ．（ｉ）第１のモードで選択的に動作し得、使用者により話される前記発声の処理に応答して前記複合ワードに対応するワードを識別し、かつ（ｉｉ）第２のモードで選択的に動作し得、前記複合ワード内に対応して位置づけられる構成要素を各々表わすところの、使用者により話される一連の構成要素の処理に応答して前記複合ワードに対応するワードを識別するための手段を含むワード認識装置と、Ｂ．該ワード記識装置のモードを決定するための使用者制御手段とを備えることを特徴とする複合ワード認識システム。
（２）前記使用者制御手段が、使用者により発生される可聴信号に応答して前記ワード認識装置のモードを決定する請求の範囲第１項記載の複合ワード認識システム。
（３）前記使用者制御手段が、使用者により発生されるキーボード命令に応答して、前記ワード認識装置のモードを決定する請求の範囲第１項記載の複合ワード認識システム。
（４）前記第２モードにおける前記ワード認識装置が、サブモードで選択的に動作し得、前記複合ワードにおいて対応して位置づけられる文字を各々表わすところの、使用者により話されるキーワードの処理に応答して前記複合ワードに対応するワードを識別するための手段を備える請求の範囲第１項記載の複合ワード認識システム。
（５）前記キーワードの１または複数のものが、国際通信アルファベットワードである請求の範囲第４項記載の複合ワード認識システム。
（６）前記ワード認識装置が、第３のモードで選択的に動作し得、前記複合ワードにおいて対応的に位置づけられる文字を各々表わすところの、使用者により装入される一連のキーワードの処理に応答して、前記複合ワードに対応するワードを識別する請求の範囲第１項記載の複合ワード認識システム。
（７）前記キーワードが、使用者により発生される可聴信号により装入される請求の範囲第６項記載の複合ワード認識システム。
（８）前記キーワードが使用者により発生されるキーワード命令により装入される請求の範囲第６項記載の複合ワード認識システム。
（９）前記キーワードの１または複数のものが国際通信アルファベットワードである請求の範囲第６項記載の複合ワード認識システム。
（１０）前記ワード認識装置が、隔絶的に話された１または複数のワードを含む前記発声から前記複合ワードを認識するための手段を備える請求の範囲第１項記載の複合ワード認識システム。
（１１）前記ワード認識装置が、連続スピーチとして話される１または複数の言葉から前記複合ワードを認識するための手段を備える請求の範囲第１項記載の複合ワード認識システム。
（１２）予定された語彙からの１または複数の話されたワードより成る一連のワードを含む発声ないし発話からワードを認識するシステムにおいて、Ａ．（ｉ）第１のモードで選択的に動作し得、使用者により話される一連のキーワードの処理に応答して、前記の話されたワードの一つに対して、前記語彙内の第１の複数のワードを現在候補ワードリストとして決定し、そして前記現在候補ワードリストを表示し、かつ、（ｉｉ）第２のモードにおいて選択的に動作し得、ａ．使用者により装入される１または複数の命令に応答して、前記現在候補ワードリストから前記の話されたワードの少なくとも一部を識別し、そしてｂ．前記命令に応答して、前記語彙内の第２の複数のワードを、前記の話されたワードに対する前記現在候補ワードリストとして決定し、そして前記現在候補ワードリストを表示するための手段であって、前記各キーワードが前記の話されたワードにおいて対応的に位置づけられたワード成分を表わし前記リスト内の前記複数のワードの各々が、前記一連のキーワードにより表わされる一連のワード成分で始まり、前記の１または複数の命令が、前記現在候補ワードリスト内のｎ番目のワードの最初のｋの文字を表わし、ここで、ｋおよびｎは整数であり、前記ｋの文字は前記の話されたワードの最初のｋの文字を表わすものとする前記第２の複数のワード内の各ワードが前記のｋの文字で始まる手段を含むワード認識装置と、Ｂ．前記ワード認識装置のモードを決定するための使用者制御手段とを備えることを特徴とするワード認識システム。
（１３）前記ワード成分が構成要素および文字からなる群がら選択される請求の範囲第１２項記載のワード認識システム。
（１４）前記第２モードの前記命令が、使用者により発生される可聴信号により装入される請求の範囲第１２項記載のワード認識システム。
（１５）前記第２モードの前記命令が、使用者により発生されるキーボード命令により装入される請求の範囲第１２項記載のワード認識システム。
（１６）前記使用者制御手段が、使用者により発生される可聴信号に応答して、前記ワード認識装置のモードを決定する請求の範囲第１２項記載のワード認識システム。
（１７）前記使用者制御手段が、使用者により発生されるキーボード命令に応答して、前記ワード認識装置のモードを決定する請求の範囲第１２項記載のワード認識システム。
（１８）前記ワード認識装置が、隔絶的に話された１または複数のワードを含む前記発声から前記ワードを認識するための手段を備える請求の範囲第１２項記載のワード認識システム。
（１９）前記ワード認識装置が、連続スピーチとして話された１または複数のワードを含む前記発声から前記ワードを識別するための手段を備える請求の範囲第１２項記載のワード認識システム。
（２０）前記１または複数の命令が、前記第ｎ番目のワードの前記の最初のｋの文字を識別すべき命令を含む請求の範囲第１２項記載のワード認識システム。
（２１）前記１または複数の命令が、ｉの追加の文字を識別すべき命令を含み、ここでｉは整数である、前記ｉの文字が前記ｎ番目のワード内の前記ｋの文字に続く最初のｉの文字を表わす請求の範囲第２０項記載のワード認識システム。
（２２）前記１または複数の命令が、先に識別された前記ｋの文字からｊの文字を排除すべき命令を含み、ここでｊは整数である、前記ｊの文字が、前記ｎ番目のワードのｋ番目の文字直前のｊの文字を表わす請求の範囲第２０項記載のワード認識システム。
（２３）前記ワード認識装置が、前記の話されたワードの一部の前記識別に応答して選択的に動作し得、前記の話されたワードの残部を決定するための完成手段を備える請求の範囲第１２項記載のワード認識システム。
（２４）前記完成手段が、前記の話されたワードの前記残部において対応的に位置づけられる文字を各々表わすところの、使用者により装入される一連のキーワードを処理して、前記一連のキーワードにより表示される一連の文字を前記の話されたワードの前記残部として識別する手段を備え、前記の話されたワードが、前記の識別された残部が続く前記の識別された部分に対応している請求の範囲第２３項記載のワード認識システム。
（２５）前記完成手段の前記キーワードが、使用者により発生される可聴信号により装入される請求の範囲第２４項記載のワード認識システム。
（２６）前記完成手段のキーワードが、使用者により発生されるキーボード命令により装入される請求の範囲第２４項記載のワード認識システム。
（２７）前記完成手段が、前記の話されたワードの前記残部において対応的に位置づけられる構成要素を各々表わすところの、使用者により装入される一連の構成要素を処理して、前記一連の構成要素を前記の話されたワードの前記残部として識別する手段を備え、前記の話されたワードが、前記の識別された残部が続く前記の識別された部分に対応している請求の範囲第２３項記載のワード認識システム。
（２８）前記完成手段の前記構成要素が、使用者により発生される可聴信号により装入される請求の範囲第２７項記載のワード認識システム。
（２９）前記完成手段の前記構成要素が、使用者により発生されるキーボード命令により装入される請求の範囲第２７項記載のワード認識システム。
（３０）予定された語彙からの１または複数のワードより成る一連のワードを含む発声ないし発話から複合ワードを認識するためのシステムであって、前記ワードの少なくとも一つが前記語彙内のワードである少なくとも二つの構成要素を連続して含む複合ワードであるものにおいて、Ａ．使用者により話される一連の構成要素を処理して、前記の話された構成要素の各々と、前記複合ワードに含まれている前記の話された構成要素の尤度を表わすスコアを関連づけるための処理手段と、Ｂ．関連するスコアに応答して、予定された規準に対応する結合されたスコアを有する順次に話された構成要素を前記複合ワードとして識別するためのワード認識手段と、ここで前記構成要素の各々は、前記複合ワード内において対応的に位置づけられた構成要素を表わすものとする、Ｃ．前記ワード認識手段により識別される前記逐次の構成要素の組合せを表わし、かつ前記複合ワードを表わす信号を発生するための組合せ手段とを備えることを特徴とする複合ワード認識システム。
（３１）前記の識別された複合ワードを前記の識別された構成要素を表わす信号に分解するための使用者制御手段を備える請求の範囲第３０項記載の複合ワード認識システム。
（３２）前記使用者制御手段が、使用者により発生される可聴信号に応答して前記の識別された複合ワードを分解する請求の範囲第３１項記載の複合ワード認識システム。
（３３）前記使用者制御手段が、使用者により発生されるキーボード命令に応答して、前記に識別された命令ワードを分解する請求の範囲第３１項記載の複合ワード認識システム。
（３４）予定された語彙からの１または複数のワードより成る一連のワードを含む発声ないし発話から複合ワードを認識するためのシステムであって、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも二つの構成要素を連続して含む複合ワードであるものにおいて、複合ワードを表わし、かつ連続して発声される前記構成要素の選択されたものを表わす信号を発生するための使用者制御手段を備えることを特徴とする複合ワード認識システム。
（３５）前記使用者制御手段が、使用者により発生される可聴信号に応答して、前記信号を発生する請求の範囲第３４項記載の複合ワード認識システム。
（３６）前記使用者制御手段が、使用者により発生されるキーボード命令に応答して、前記信号を発生する請求の範囲第３４項記載の複合ワード認識システム。
（３７）予定された語彙からの１または複数のワードより成る一連のワードを含む発声ないし発話から複合ワード（語）を認識するコンピュータ実施方法であって、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも２つの構成要素を連続して含む複合ワードであるものにおいて、Ａ．（ｉ）前記コンピュータを第１のモードで選択的に動作させ、使用者により話される前記発声の処理に応答して前記複合ワードに対応するワードを識別し、かつ（ｉｉ）前記コンピュータを第２のモードで選択的に動作させ、前記複合ワード内に対応して位置づけられる構成要素を各々表わすところの、使用者により話される一連の構成要素の処理に応答して前記複合ワードに対応するワードを識別する諸段階を含むことを特徴とするコンピュータ実施方法。
（３８）使用者により発生される可聴信号に応答して前記第１および第２モード間において選択を行うことを含む請求の範囲第３７項記載のコンピュータ実施方法。
（３９）使用者により発生されるキーボード命令に応答して前記第１および第２モード間において選択を行うことを含む請求の範囲第３７項記載のコンピュータ実施方法。
（４０）前記第２モードにおける動作として、サブモードで選択的に動作し、前記複合ワードにおいて対応して位置づけられる文字を各々表わすところの、使用者により話されるキーワードの処理に応答して前記複合ワードに対応するワードを識別することを含む請求の範囲第３７項記載のコンピュータ実施方法。
（４１）前記キーワードの１または複数のものが、国際通信アルファベットワードである請求の範囲第４０項記載のコンピュータ実施方法。
（４２）第３のモードで選択的に動作し、前記複合ワードにおいて対応的に位置づけられる文字を各々表わすところの、使用者により装入される一連のキーワードの処理に応答して、前記複合ワードに対応するワードを識別することを含む請求の範囲第３７項記載のコンピュータ実施方法。
（４３）前記キーワードを、使用者により発生される可聴信号により装入する請求の範囲第４２項記載のコンピュータ実施方法。
（４４）前記キーワードを使用者により発生されるキーワード命令により装入する請求の範囲第４２項記載のコンピュータ実施方法。
（４５）前記キーワードの１または複数のものが国際通信アルファベットワードである請求の範囲第４２項記載のコンピュータ実施方法。
（４６）１または複数の前記ワードを隔絶されたワードとして話すことを含む請求の範囲第３７項記載のコンピュータ実施方法。
（４７）１または複数の前記ワードを前記連続的スピーチとして話すことを含む請求の範囲第３７項記載のコンピュータ実施方法。
（４８）予定された語彙からの１または複数の話されたワードより成る一連のワードを含む発声ないし発話からワードを認識するコンピュータ実施方法において、（ｉ）選択的に第１のモードにおいて、使用者により話される一連のキーワードの処理に応答して、前記の話されたワードの一つに対して、前記語彙内の第１の複数のワードを現在候補ワードリストとして決定し、そして前記現在候補ワードリストを表示し、かつ、（ｉｉ）選択的に第２のモードにおいて、ａ．使用看により装入される１または複数の命令に応答して、前記現在候補ワードリストから前記の話されたワードの少なくとも一部を識別し、そしてｂ．前記命令に応答して、前記語彙内の第２の複数のワードを、前記の話されたワードに対する前記現在候補ワードリストとして決定し、そして前記現在候補ワードリストを表示することによりワードを認識する諸段階を含み、前記各キーワードが前記の話されたワードにおいて対応的に位置づけられたワード成分を表わし、前記リスト内の前記複数のワードの各々が、前記一連のキーワードにより表わされる一連のワード成分で始まり、前記の１または複数の命令が、前記現在候補ワードリスト内のｎ番目のワードの最初のｋの文字を表わし、ここで、ｋおよびｎは整数であり、前記ｋの文字は前記の隔絶されたワードの最初のｋの文字を表わすものとする、前記第２の複数のワード内の各ワードが前記のｋの文字で始まることを特徴とするコンピュータ実施方法。
（４９）前記ワード成分が構成要素および文字からなる群がら選択される請求の範囲第４８項記載のコンピュータ実施方法。
（５０）前記第２モードの前記命令を、使用者により発生される可聴信号により装入することを含む請求の範囲第４８項記載のコンピュータ実施方法。
（５１）前記第２モードの前記命令を、使用者により発生されるキーボード命令により装入する請求の範囲第４８項記載のコンピュータ実施方法。
（５２）前記動作モードを使用者により発生される可聴信号により決定することを含む請求の範囲第４８項記載のコンピュータ実施方法。
（５３）前記動作モードを使用者により発生されるキーボード命令により決定することを含む請求の範囲第４８項記載のコンピュータ実施方法。
（５４）１または複数の前記ワード隔絶されたワードとして話すことを含む請求の範囲第４８項記載のコンピュータ実施方法。
（５５）１または複数の前記ワードを連続スピーチとして話すことを含む請求の範囲第４８項記載のコンピュータ実施方法。
（５６）前記１または複数の命令が、前記第ｎ番目のワードの前記最初のｋの文字を識別すべき命令を含む請求の範囲第４８項記載のコンピュータ実施方法。
（５７）前記１または複数の命令が、ｉの追加の文字を識別すべき命令を含み、ここでｉは整数である、前記ｉの文字が前記ｎ番目のワード内の前記ｋの文字に続く最初のｉの文字を表わす請求の範囲第５６項記載のコンピュータ実施方法。
（５８）前記１または複数の命令が、先に識別された前記ｋの文字からｊの文字を排除すべき命令を含み、ここでｊは整数である、前記ｊの文字が、前記ｎ番目のワードのｋ番目の文字直前のｊの文字を表わす請求の範囲第５６項記載のコンピュータ実施方法。
（５９）前記の話されたワードの一部の前記識別に応答して前記の話されたワードの残部を選択的に決定することを含む請求の範囲第４８項記載のコンピュータ実施方法。
（６０）前記の話されたワードの前記残部において対応的に位置づけられる文字を各々表わすところの、使用者により装入される一連のキーワードを処理して、前記一連のキーワードにより表示される一連の文字を前記の話されたワードの前記残部として識別することを含み、前記の話されたワードが、前記の識別された残部が続く前記の識別された部分に対応している請求の範囲第５９項記載のコンピュータ実施方法。
（６１）前記完成手段の前記キーワードを使用者により発生される可聴信号により装入することを含む請求の範囲第６０項記載のコンピュータ実施方法。
（６２）前記完成手段のキーワードを、使用者により発生されるキーボード命令により装入する請求の範囲第６０項記載のコンピュータ実施方法。
（６３）前記の話されたワードの前記残部において対応的に位置づけられる構成要素を各々表わすところの、使用者により装入される一連の構成要素を処理して、前記一連の構成要素を前記の話されたワードの前記残部として識別することを含み、前記の話されたワードが、前記の識別された残部が続く前記の識別された部分に対応している請求の範囲第５９項記載のコンピュータ実施方法。
（６４）前記構成要素を使用者により発生される可聴信号により装入する請求の範囲第６３項記載のコンピュータ実施方法。
（６５）前記構成要素を使用者により発生されるキーボード命令により装入する請求の範囲第６３項記載のコンピュータ実施方法。
（６６）予定された語彙からの１または複数のワードより成る一連のワードを含む発声ないし発話から複合ワードを認識するためのコンピュータ実施方法であって、前記ワードの少なくとも一つが前記語彙内のワードである少なくとも二つの構成要素を連続して含む複合ワードであるものにおいて、Ａ．使用者により話される一連の構成要素を処理して、前記の話された構成要素の各々と、前記複合ワードに含まれている前記の話された構成要素の尤度を表わすスコアを関連づけ、Ｂ．前記スコアに応答して、予定された規準に関してあるスコアを有する順次に話された構成要素を前記複合ワードとして識別し、ここで前記構成要素の各々は、前記複合ワード内において対応的に位置づけられた構成要素を表わすものとする、Ｃ．前記識別段階において識別される前記逐次の構成要素の結合を表わし、かつ前記複合ワードを表わす信号を発生する諸段階を含むことを特徴とするコンピュータ実施方法。
（６７）前記の識別された複合ワードを前記の識別された構成要素を表わす信号に分解することを含む請求の範囲第６６項記載のコンピュータ実施方法。
（６８）前記構成要素を分解するための前記命令が、使用者により発生される可聴信号である請求の範囲第６７項記載のコンピュータ実施方法。
（６９）前記構成要素を分解するための前記命令が、使用者により発生されるキーボード命令である請求の範囲第６７項記載のコンピュータ実施方法。
（７０）予定された語彙からの１または複数のワードより成る一連のワードを含む発声ないし発話から複合ワードを認識するためのコンピュータ実施方法であって、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも二つの構成要素を連続して含む複合ワードであるものにおいて、使用者により発生される命令に応答して、複合ワードを表わし、かつ連続して発声される前記構成要素の選択されたものを表わす信号を発生することを含むコンピュータ実施方法。
（７１）前記信号を発生するための命令が、使用者により発生される可聴信号である請求の範囲第７０項記載のコンピュータ実施方法。
（７２）前記信号を発生するための命令が、使用者により発生されるキーボード命令である請求の範囲第７０項記載のコンピュータ実施方法。