JPH07507880A - 複合ワードを有する言語のための音声認識装置 - Google Patents

複合ワードを有する言語のための音声認識装置

Info

Publication number
JPH07507880A
JPH07507880A JP5516006A JP51600693A JPH07507880A JP H07507880 A JPH07507880 A JP H07507880A JP 5516006 A JP5516006 A JP 5516006A JP 51600693 A JP51600693 A JP 51600693A JP H07507880 A JPH07507880 A JP H07507880A
Authority
JP
Japan
Prior art keywords
word
words
user
computer
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5516006A
Other languages
English (en)
Other versions
JP3414735B2 (ja
Inventor
ベイカー,ジェイムズ ケイ.
バンバーグ,ポール ジー.
ロバーツ,ジェド エム.
ファング,カロライン ビー.
ベーベン,スティーン
エラーマン,クラウディア エル.イー.
Original Assignee
ドラゴン システムズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドラゴン システムズ インコーポレイテッド filed Critical ドラゴン システムズ インコーポレイテッド
Publication of JPH07507880A publication Critical patent/JPH07507880A/ja
Application granted granted Critical
Publication of JP3414735B2 publication Critical patent/JP3414735B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Selective Calling Equipment (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 Aワード る のため ll豆且辺11 本出願の主題は、本出願の譲受人に譲渡された+5peech Recogni tion Apparatus and Method+という表題の付された 米国特許第4.783.803号明細書に開示の主題と、+Interacti ve 5peech Recognition Apparatus+という表 題の付された米国特許第4.866、778号明細書に開示の主題と、+Met hod for Interactive SpeechRecognitio n and Training”という表題の付された米国特許第5.027. 406号明細書に開示の主題に関連するものである。これらの特許明細書を適宜 参照されたい。
本発明は一般に音声認識装置に関するものであり詳述すると、複合ワードないし 複合語を認識するための方法および装置に関するものである。
人間の音声を認識するためのデータ処理装置、たとえば口述内容を転写できる装 置などが開発されている。コンピュータ技術の進歩ならびに音声認識アルゴリズ ムの進歩により、これらの装置はますますより強力なものになっている。たとえ ば、本発明の譲受人は30.000個のワードないし単語を認識できる装置を現 在販売している6本装置の特徴の多くのものが上記米国特許第4.783.80 3号明細書に叙述されている。
現在の多くの音声認識装置が、認識されるべき単語の発声に応答して発生される 音響信号の表示を音響的記述または誘電の中の単語のモデルと整合させることに より作動する。典型的にはアナログ−ディジタル変換器が認識されるべき単語を 話すことにより発生される音響信号をディジタル表示に変換する。このディジタ ル表示が引き続き周波数領域信号に変形される0周波数バンド号は一連のフレー ムから構成され、それぞれのフレームが、短い時間間隔にわたる複数の周波数バ ンドのうちの一つにおける音響信号振幅を与える。かかる装置は、認識されるべ き単語から誘導される一連のフレームを、装置のためのアクティブなまたは活動 状態の語索に記憶された一連のノードまたはフレームモデルと比較することによ り通常作動する。
初期のフレーム整合装置の性能は、比較的貧弱であった。所与の単語を構成する 個別の音はその単語の任意の2つの発声において、正確に同様の速度でまたは正 確に同様の態様で話されることはほとんどない、結果的に、2つの技術がこれら の装置の性能を改善するため開発された。第1の技術が確率的な整合である。確 率的な整合によれば、装置は、ある発声ないし言葉の所定のフレームが、ある単 語の音響モデルにおける所定のノードに対応する可能性ないし尤度を決定する。
尤度決定は、話されたフレームの各周波数バンドの実際の振幅がフレームモデル として記憶される周波数バンドの予想振幅とどの程度接近して整合するかの関数 である。
確率的整合はさらに各周波数バンドにおける実際の振幅および予想される振幅と の間の偏差がかかる値についての予想される偏差にどの程度匹敵するかを考慮す る。
確率的整合が、音声認識装置をして同様の単語の種々の発声について生ずる可聴 信号の変化を処理する改善された能力をもつようにさせる。それは、装置が音声 認識の仕事の間に普通に存在する雑音をより効率良く取り扱うのを可能にする。
フレーム整合装置の性能を改善した第2の技術が動的プログラミングである。動 的プログラミングが、発声により発生されたフレームの並びと単語のモデルに包 含されるノードの並びとの間の最適な整合またはほぼ最適な整合を見出すための 方法を提供する。それは、単語の音響モデルにおける各ノードの持続時間を伸張 および収縮し、同様の単語の種々の発声において生ずる自然の変動を補償するこ とによりこれを行う。
確率的整合および動的プログラミングが、話された単語がデータ処理装置によっ て認識されるところの正確さを十分改善するけれども、両方の技術はコンピュー タ操作が集約的である。動的プログラミングおよび確率的な整合により要求され る比較を遂行することは非常に多数のコンピュータ命令を要求し得る。結果的に 、活動状態の誘電に記憶される単語数が増大するに応じて、言葉を識別するのに 必要とされる時間も増大する。
従来技術は、多量の誘電認識装置により導入される過剰なコンピュータ操作の需 要を取り扱うための種々の方法を開発している。一つの方法が、装置が任意の一 時に認識できる誘電を全誘電の部分集合に限定する人為的な文法を具備する装置 を提供する。
多量の語索認識をより効率良くするための別の従来技術が普通、「前フィルタリ ング」または「枝刈り(pruning) Jと呼ばれる。前フィルタリングお よび技刈りの両方が、別途のコンピュータ操作を是認するように見えないこれら 音響モデルを別途の考察から除去することにより、プログラムが考慮するところ の比較の数を低減することを含む、たとえば、米国特許第4.783.803号 に開示された装置において、動的プログラミングアルゴリズムが、言葉の各フレ ームが受け取られた後に、その活動状態の誘電の各単語ごとにスコアないし得点 を発生する。この得点は受け取られたフレームが所与の単語とある程度まで整合 するという尤度に対応する。活動状態の誘電の各単語ごとの得点が更新された後 に、それは任意の単語について発生される最も良い得点と比較される。所与の単 語についての得点と最も良い得点との間の差が一定の閾値を越えれば、その所与 の単語が活動語索から除去されそして今後のフレームはもはやそれと比較されな い。
米国特許第4.782.803号に叙述の装置は、言語モデルを使用することに より、コンピュータ操作需要および混同の可能性を別途低減する。その前に話さ れる単語が与えられれば、言語モデルが装置の語索の各単語の発生の相対的可能 性を予想する。言語モデル確率が、大きな一塊の本文を分析しそしてこれから誘 電の各単語が語索のそれぞれの他の単語によって先行される回数を決定すること により計算される。
話された単語を認識する際に、従来技術の装置は、典型的には、たぶん話された 単語であるらしい単語の選択リストを表示する。ところで、ある従来技術装置が 選択のためオペレータのために任意の単語を表示するまでに必要とされる時間量 は認識誘電の大きさとともに増大する。大誘電装置において従来技術の装置は比 較的緩慢である。後の従来技術の装置が、アルファベットフィルタリングなどの 方法を利用し装置の応答時間を改善する。
アルファベットフィルタリングが使用者ないしユーザをして話された単語に包含 される文字列を指定することによって探索のフィールドを狭くするのを可能にす る。かかる装置の特徴は米国特許第4.866、778号に別途叙述されている 。
現在の音声認識装置の性能は少し前の類似の装置と比較したとき印象的である。
それにも拘らず、別途改善の必要性が依然として存する。たとえば多くの仕事の ため実用的な使用目的の音声認識装置のために、単語からなる大量の誘電を認識 できることが必要である。これら単語からなる重要な部分集合が複合語である。
複合語を構成するものが、いずれの言語が言及せられているかに依存して変化し 得る。たとえば、フランス語およびイタリア語において、冠詞および前置詞が母 音字から始まるところの他の単語と組み合わされ、r l’art(the a rt)Jおよびrdelloorologio (of the clock)  Jなどの複合語を生ずる。スペイン語において、rponerlo(to p ut) Jの場合におけるように動詞が代名詞と組み合わされる。ドイツ語にお いて、複合語が案出されそしてたとえばr finance m1nister Jについてr Finantzminister J(大蔵大臣)などのように 英語の複合名刺とほぼ同様に使用されている0日本語と中国語において、大部分 の諸量が一連の文字として現れる複合語からなる。単語境界がこれら二つの言語 の話し言葉から容易に識別できない、なぜなら各対の文字間に等しい間隔がある からである。
従来装置がアメリカ英語における単語の約95%の適用範囲を実現する。成分を 組み合わせることにより形成される単語の大きな割合を有する言語において匹敵 し得る適用範囲を実現することはさらに相当困難である。従来装置によれば、所 望される適用範囲の水準を実現するために、装置の活動状態誘電は、有意義な数 の複合語のために音響モデルを発生および記憶することにより拡張される必要が あろう、かかる方法は実際的でない量の記憶容量を含むであろう、さらに、コン ピュータ操作効率の良い音声認識装置を設計するという問題は、装置のライブラ リに記憶される音響モデルの数を有意義に増大することによってさらに一層困雌 となる。
従って、本発明の目的は、ユーザにより話された複合語を1jll識する改善さ れた単語認識装置を提供することである。
本発明のさらに別の目的は、認識されるべき複合語をその活動状態誘電に組み込 むことを要求しない単語認識装置を提供することである。
本発明のさらに別の目的は、複合語であるという高い可能性ないし尤度を有する 話された成語要素ないし形成要素を自動的に組み合わせる単語認識装置を提供す ることである。
本発明の目的は、ユーザをして、複合語(形成要素からなる発声ストリング)へ と組み合わせることのできる装置を提供することでもある。
本発明の別の目的が、連続した言葉としてユーザにより発声される複合語を認識 する単語認識装置を提供することである。
本発明のさらに別の目的が、ユーザが、隔離された形成要素として装置により以 前に認識された単語をしである複合語へと組み合わされるようにすることができ る単語認識装置を提供することである。
本発明の別の目的が、ユーザが、複合語として装置により以前に認識された単語 をして隔離された形成要素へ分割できるようにする単語認識装置を提供すること である。
本発明の他の目的、特徴および利益が以下の好ましい実施例の説明および請求の 範囲から明らかとなろう。
1豆皇I! 簡単にいうと、本発明は所定の誘電からの一つまたはそれ以上の単語の連続を包 含する言葉から複合語を認識するための装置および関連の方法である。言葉のな かの複数の単語のうちの少くとも一つの単語は、連続状態の少くとも2つの形成 要素を包含するそしてこれらの形成要素が誘電中の単語である複合語である。
装置は単語認識要素を具備する。単語認識要素は、ユーザにより発声された言葉 の処理に応答し複合語に対応する単語を識別するために第1のモードで選択的に 動作する。単語認識装置はさらに、ユーザにより発声される形成要素の連続物の 処理に応答して、複合語に対応する単語を識別するため第2のモードで選択的に 動作し、この場合、各形成要素が複合語中に対応的に配置された形成要素を表わ す、任意であるが、単語認識装置は隔離状態で発声されるかまたは連続した音声 として発声される単語からなる言葉から複合語を認識するための要素をも具備し てもよい。
本装置はさらに単語認識装置のモードを決定するためにユーザにより制御される 要素をも具備する。ユーザ制御要素は、ユーザにより発生される可聴ないし聴覚 信号またはユーザにより発生されるキーボード命令に応答し得、単語認識装置の モードを決定する。
任意であるが、本装置は上述の第2モードのサブモードで動作する。サブモード において、単語認識要素は、ユーザにより装入される処理キーワードに応答し、 複合語に対応する単語を識別する。各キーワードは複合語中の対応的に配置され た文字を表わす、キーワードは任意のアルファベットタイプ表示に対応し得る。
たとえば、キーワードは国際通信アルファベット語に対応してもよい6代替例と して、それらはドイツ語電話コード語でもよい、さらにユーザはユーザにより発 生される聴覚信号を通じてまたはユーザにより発生されるキーボード命令を通じ てキーワードを入れられる。このサブモードにより包含される機能は、単語認識 要素の動作の独立した第3のモードとしても実施可能である。
代替え実施例において、本発明は所定の語紮からの一つまたはそれ以上の発声さ れた単語からなる連続物を包含する言葉から単語を認識するための装置および関 連の方法である9本装置は単語認識装置およびモード選択のためのユーザ制御要 素を包含する。
単語認識装置は、ユーザにより発声されたキーワードの連続物の処理に応答し、 発声された単語のうちの一つについての現在の候補単語リストとして、語紮のな かの第1の複数の単語を決定および表示するため第1のモードで選択的に動作可 能である。それぞれのキーワードは発声された単語のなかの対応的に配置された 単語成分を表わす、さらに、表示されたリスト中の複数の単語のそれぞれがキー ワードの連続物により表示される単語成分の連続物から始まる。単語成分は形成 要素および文字からなる群から選択される。
単語認識装置はまた、ユーザにより入れられる一つまたはそれ以上の命令に応答 し、現在の候補単語リストから発声単語の少くとも一部を識別するため第2のモ ードで選択的に動作する。これらの命令は現在の候補単語リスト中のn番目の単 語の最初のに個の文字を表わす(ここで、kおよびnは整数でありそしてに個の 文字は発声単語の最初のに個の文字を表わす)、ユーザは聴覚信号を通じてまた はキーボード命令を通じて命令を入れられる。
第2の動作モードにおいて、単語認識装置はまた、ユーザにより入れられる命令 に応答して、発声単語についての現在の候補単語リストとして誘電の中の第2の 複数の単語を決定する。この第2の複数の単語のうちのそれぞれの単語はに個の 文字から始まりそして現在の候補単語リストとして表示される。
任意であるが、単語認識装置は、ユーザにより入れられる一つまたはそれ以上の 命令に応答しn番目の単語において追加のi個の文字を識別し得る。この場合、 iは整数でありそしてi個の文字は先に識別されたに個の文字に続く最初のi個 の文字を表わす。
さらに、単語認識装置はユーザにより入れられる一つまたはそれ以上の命令に応 答し、先に識別されたに個の文字から5個の文字を除外可能である。この場合、 jは整数でありそして5個の文字はn番目の単語のに番目の文字の直前の5個の 文字を表わす。
単語認識装置は連続音声として発声される一つまたはそれ以上の単語を包含する 言葉から単語を認識するための要素をも具備する1代替え例として、単語認識装 置は単語を認識するための要素を具備してもよく、ここで、言葉は隔離状態で発 声される一つまたはそれ以上の単語を含む。
単語認識装置は、発声単語の残りを決定するために、発声単語の一部の識別に応 答し、選択的に動作する完了要素を包含してもよい、完了要素は、ユーザにより 入れられるキーワードまたは形成要素の連続物を処理するための要素を具備して もよく、キーワードまたは形成要素はそれぞれ発声単語の残りに対応的に配置さ れた文字を表わし、発声単語の残りとしてキーワードまたは形成要素の連続物に より表示される文字の連続物を識別する。
別の実施例において、本発明は、所定の語紮からの一つまたはそれ以上の単語の 連続物を含む言葉から複合語を認識するための装置および方法を含み、この場合 、単語のうちの少なくとも一つは連続状態の少なくとも2つの形成要素を含む複 合語である。この実施例によれば、本発明はプロセッシング要素と、単語認識要 素と組合せ要素とを含む。
プロセッシング要素はユーザにより発声される形成要素の連続物を処理しそして 発声された形成要素のそれぞれに、複合語に包含される発声された形成要素の尤 度を表わすスコアないし得点を関連付ける。
単語認識要素は、これら関連付けられる得点に応答して、所定の基準に対応する 組み合わされた得点を有する連続的に発声された形成要素を複合語として識別す る。
本発明によれば、各形成要素は、複合語における対応的に配置される形成要素を 表わす。
組合せ要素は単語認識手段により識別される連続形成要素の組合せを表わす信号 を発生する。信号は複合語を表わす。
任意であるが、本実施例は、識別された複合語を、識別された形成要素を表わす 信号に分解するためのユーザによって制御される要素を具備する。かかるユーザ 制御要素はユーザにより発生される聴覚信号またはユーザにより発生されるキー ボード命令に応答し得る。
別の実施例において、本発明は所定の語紮からの一つまたはそれ以上の単語の連 続物を包含する言葉から複合を認識するための装置および方法を含む、連続物の なかの単語のうちの少なくとも一つは、少なくとも2つの連続状態の形成要素を 含む複合語である。形成要素は語紮のなかの単語である。本装置は複合語を表わ すそして連続状態で発声される形成要素のうちの選択されたものに対応する信号 を発生するためのユーザ制御要素を具備する。
の tl 第1図は本発明による複合語認識装置を具備する音声認識装置の模式図である。
第2図は、第3図の実施例の動作を別途図示する動作流れ図である。
第3図は、第2図の流れ図I:従う本発明の好ましい実施例の動作を図示するブ ロック図である。
第4図は、本発明の別の好ましい実施例の動作を図示する動作流れ図である。
第5図〜第11図は、第4図に従う本発明の好ましい実施例の動作を表わす例を 示す。
1扛皇且j 第1図は、本発明による複合語認識装置を具備する音声認識装置10の模式ブロ ック図である0本装置10は発声された単語の発声を検出しそしてその発声を表 わすディジタル信号を発生するための要素を具備する。これらの要素は、マイク ロホン14、アナログ−ディジタル変換器16、ピーク振幅検出器18、高速フ ーリエ変換(FFT)網2oおよび発声検出器22を含む、これらの要素により 発生される信号はIBM互換性のある386型または486型のパーソナルコン ピュータなどのプログラム可能なコンピュータ24に供給される。コンピュータ 24には装置10により認識される単語を表示するためのビデオモニター26が 装備されている。コンピュータ24はキーボードを別途具備し、オペレータがマ イクロホン以外の手段によりコンピュータ24と通信できるようにする。モニタ ー26、キーボード28およびそれらの各接続部分30.32はパーソナルコン ピュータで普通使用されているタイプのものである。
発声単語がマイクロホン14を通して装置10に入る。マイクロホン14は、そ れに入る発声単語を指示するアナログ出力信号を発生する。マイクロホン出力信 号はアナログ−ディジタル変換器16の入力に接続される。アナログ−ディジタ ル変換器16はマイクロホン14により発生されるアナログ信号を、マイクロホ ン出力信号の振幅を表わすディジタル値の並びに変換する。
アナログ−ディジタル変換器16の出力はピーク振幅検出器18および高速フー リエ変換網20の入力に供給される。
当技術分野で良く知られるタイプである高速フーリエ変換網20がアナログ−デ ィジタル変換器16の出力をフレームの並びに変換する。各フレームは比較的短 い時間にわたる所定周波数におけるマイクロホン出力信号の振幅を指示する0本 発明によれば、フーリエ変換網20は50分の1秒ごとに一フレームを出力する 。この出力は、データ線34および入力ボート36を通じて、コンピュータ24 のシステムバス38に供給される。フーリエ変換網20はさらに出力線39に中 断信号をも供給する。この信号はシステムバス38を通じてコンピュータ24の 中央処理ユニット40へ結合される。フーリエ変換網20により発生される中断 に応答して、中央処理ユニット40は、線34に提供される、各連続フレームを 表わすデータを読取り、そしてこれをランダムアクセスメモリ42に記憶する。
高速フーリエ変換網20はさらに線44を通じてフレームクロック信号をピーク 振幅検出器18に供給する。
ディジタル信号処理の分野でよく知られるタイプのピーク振幅検出器18は、ピ ーク振幅値を発声検出器22の入力に供給する。フーリエ変換網20からの信号 によりクロック同期される発声検出器22は、ピーク振幅入力を所定の閾値と比 較する0発声検出器22への入力が十分長い時間の間、プリセット閾値を越えれ ば、発声検出器22はその出力に中断44を発生する。その中断44は、発声検 出器22が、発声の始まりのようにみえるものを検出したことを中央処理ユニッ トへ合図する。
コンピュータ24はさらに尤度プロセッサ46をも包含する。尤度プロセッサ4 6は、ユーザにより発声された被検出単語におそらく対応するであろうシステム 辞書中の単語を決定するよう設計された特別の目的のプロセッサである。標準的 に、システム辞書は音響単語モデル(すなわち音響ライブラリ)とアルファベッ ト単語のリスト(すなわちバックアップライブラリ)の両方を包含する。尤度プ ロセッサ46は、中央プロセッサ40により読み取られたデータとランダムアク セスメモリ42に記憶される予め定義された音響モデルとを比較することにより 発声された単語について可能性のある整合を決定する。ある従来装置によれば、 尤度プロセッサはさらにアルファベット単語リストを探索する。音響モデルが標 準的にはアルファベットリストに包含される単語について記憶されない、音響モ デルおよびアルファベットリストを使用するいくつかの探索方法が従来技術で使 用されている。これらは米国特許第4.783.803号、米国特許第4、86 6、778号および米国特許第5,027,406号に詳細に述べられている。
さらに、第1図には複合語認識装置12が図示されている0本発明による複合語 認識装置12はユーザにより発声される複合語を認識する責がある。上述したご とく、複合語を構成するものは、装置10がその中で動作しているところの所定 言語に依存し異なり得る。ところで、本出願において終始使用される複合語とい う用語は、それぞれがシステム誘電中の単語として取り扱われる2つまたはそれ 以上の形成要素の連続物から作られる単語を包括的に指す。
尤度コンピュータ操作および複合語認識コンピュータ操作の両方はプロセッサ集 約性である。こうして、装置10の性能は専用要素をこれらコンピュータ操作を 実行するのに割り当てることにより高められ得る。ところで、当業者には明瞭で あるように、これらコンピュータ操作は、ソフトウェア制御の下で中央プロセッ サ40により良好に実行されよう、さらに複合語認識装置12は尤度プロセッサ 46の一部としてもまた包含されよう。
第2図は本発明の一つの実施例による動作流れ図50を図示する。流れ図50に 図示される「通常モード」ブロック52は従来技術の口述装置である。典型的に は、これらの装置は複合語が音響モデルまたはアルファベットリストとしてシス テムライブラリに記憶されなければ複合語を認識できない。
動作において、隔離されるまたは連続的単語の連続からなる発声に応答して、通 常モードは発声単語ごとに候補単語リストを発生する。もし発声単語が表示され た候補リストにあれば、決定ブロック54により図示されるごとく単記が(手動 的にまたは自動的に)選択され(56)そして装置は通常の口述モードにとどま る。ところで、複合語でありそうなことであるが、もし発声単語が表示候補リス トになければ、ユーザはいくつかの選択肢58のうちの任意の一つから選択可能 である。ブロック60により図示される一つの選択肢はユーザが発声される複合 語を表わす文字の並びを入れることである。この動作のサブモートは「つづりモ ード」と呼ばれる。複合語の定義と同様に、文字の定義は、ユーザが活動じてい るところの言語により変化し得る。ところで、例として、英語ではユーザは単語 のつづり、すなわち一時に一文字を入れられる。同様に、ユーザは国際通信アル ファベット(たとえば、”a′について”alpha”を”b“について”br avo”など)を使用可能である。ユーザは、ブロック62により示されるごと く、正しくつづられた単語を受け取りそして通常の口述モードに復帰する。
決定ブロック64により示されるごとく、第2の選択肢は、所定の複合語が複合 語を構成する形成要素および/または文字の組合せを話すことにより入れられる 動作モードをユーザが選択することである。この選択肢の一つの実施例68によ ればユーザが複合語へ組み合わされるべき一連の形成要素を発声する。たとえば 、ユーザが”put−の前に−through−を発声し、複合語”throu ghput−を入れるかも知れない0代替実施例66において、ユーザは、単語 認識装置が複合語へと変換するところの一つまたはそれ以上の形成要素との組合 せにおいて一つまたはそれ以上の文字を発声してもよい、たとえばユーザが”c ultural”の前に”S”、””°゛、”i”および”0”を0.0 入れ、単語”5ociocultural“を表現し、そして単語全体をつづる のを避けるかも知れない、ユーザは、複合語が完成されるまで形成要素および/ または文字を入れ続ける。決定ブロック70により図示されるごとく複合語の完 了の際に、ユーザはブロック72により示されるごとく単語を受け取りそして通 常の口述モード52へ復帰す第3図は、第2図の流れ図50により叙述される複 合語認識装置の動作を示すブロック図を示す0図示されるごとく、装置80は複 合語認識要素82およびユーザ制御要素84を具備する。総括的に、本装置80 は連続音声または隔離状態のいずれかとして発声される一つまたはそれ以上の形 成要素F1〜F6を包含する入力の言葉86を検出する。複合語認識装置は、形 成要素F1〜F6のうちのいずれが組み合わされ複合語を形成するかを決定しそ してその決定に応答してこれらの形成要素を適当な複合語へ組み合わせる。これ は第3図において出力表示88として図示される組合せFiF2、F3F4およ びF5F6により図示されている。
上述したごとく、本装置80はいくつかのユーザ選択可能なモードのうちの任意 のモードで動作する。ユーザはユーザ制御要素84を通じて所定の動作モードを 選択する。ユーザ制御要素84は、たとえば第1図に図示されるマイクロホン1 4またはキーボード28としてもよい。
第1の動作モードが入力形成要素F1およびF2により図示される。入力形成要 素FlおよびF2が通常の音声として発声される複合語を表わす0本発明によれ ば、もし単語が活動ライブラリまたはバックアップライブラリに存在すれば、非 複合語が従来技術の装置で識別されそして表示されるのとほぼ同様の仕方で、複 合語認識装置82はライブラリからその単語を選択しそしてそれをユーザのため に表示する。
入力形成要素F3およびF4により示される第2の動作モードにおいて、単語認 識装置82は、発声される始めの複合語デリミツタ−(区切り)および発声され る終わりの複合語デリミツタ−(区切り)との間で発声されるこれら形成要素を 複合語へ組み合わせる9例として、ユーザが”begin compound− 1”F3−1+F4+、−end compound”と発声するかも知れない 、第3図に図示されるごとくこれは形成要素F3およびF4の組み合わせを表わ す複合語の出力表示F3F4を示す。
第2の動作モードの代替実施例において、ユーザは形成要素および文字の両方を 組み合わせることを選択可能である。たとえば、ユーザが”begin com pound”、”Arbeit−1−Samuel−1−Moral−、”en d compound+と発声するかも知れない。この例において、”Samu el”は文字”S”についてのドイツ語電話アルファベット文字である6文字を 表わす他のコードを使用してもよい。
第3の動作モードにおいて、単語認識装置82は、一連の逐次に発声される形成 要素が、複合語としてユーザのために組み合わされそして表示されるべきかどう かを自動的に決定する。単語認識装置82はこのことを、検出される形成要素の 連続を処理しそして検出された形成要素がその直前または直後に検出される形成 要素のうちのいずれかと一緒に、ある複合語に包含される尤度を表わす得点をそ れぞれの認識形成要素に関連付けることによりこれを行う、もし、形成要素が隔 離状態で存在するのとは対照的に組み合わされるべき見込みがあれば、単語認識 装置82は形成要素を複合語へと組み合わせる。
任意の形成要素の群が隔離状態で存するかまたは複合語へと組み合わされるべき かどうかの相対的可能性を決定するのに使用される一つの技術が、言語モデルを 使用することである。言語モデルは、前に発声された一つまたはそれ以上の単語 が与えられれば、システム誘電中の各単語の発生の相対的可能性ないし尤度を予 想する。
第3の動作モードの一つの実施例において、複合語認識装置82は、ユーザ命令 に応答し、前に識別された複合語をその識別された形成要素へ分解する。
第4図は、本発明の代替え実施例による動作流れ図100を示す、第2図におい てのように、流れ図100で図示されている「通常モード」ブロック102は従 来技術の口述装置を表わす、第2図の実施例におけるごとく、そして決定ブロッ ク103により示されるごとく、もし発声された単語が候補リスト103上にあ れば、単語が選択されそして装置は通常の口述モードにとどまる。また、第2図 の実施例と同様に、もし単語が候補リスト上になければ、ユーザはいくつかの選 択肢を有する0選択肢の選択は決定ブロック106により表示されている。第4 図の実施例によれば、ユーザが単語成分を通じてまたは候補リストに包含される 単語の一部を指定することにより複合語を指定し得る。さらに、ユーザは文字を 入れることにより部分的に指定された複合語を完成し得る。
単語成分が形成要素および文字の両方を包含する。
ユーザはこれらの形成要素および/または文字を第2図の実施例とほぼ同様に入 れる。ところで、第4図の実施例によれば、第1図の複合語認識装置12は、ユ ーザにより入れられる文字および形成要素に応答して、自動的に候補リストを発 生しく114)そしてそのリストを表示する(116)、一つの実施例によれば 、複合語認識装置12は、システムライブラリのその探索を、ユーザにより入れ られる形成要素および/または文字から始まる単語に限定する。ところで、発声 される命令を通じて入れられる形成要素および/または文字の場合、複合語認識 装置はその探索において、発声されたものであるという相当な確率を有するとそ れが決定するところの任意の形成要素および/または文字を包含可能である。追 加の文字および/または形成要素を入れることにより、ユーザは単語認識装置の 探索の範囲を別途限定できる。
決定ブロック118により指示されるごとく、もし複合語が選択肢リスト上に現 れればユーザはそれを選択する(120)、もしユーザがある単語を候補リスト から選択すれば、装置は自動的に通常の口述モード102へ復帰する0代わりに 、もし単語が候補リスト上に現れなければ、ユーザは決定ブロック106から入 手できるいくつかの選択肢のうちの任意のものをもう一度選択可能である。
第4図の図示の実施例によれば、ユーザに利用できる別の選択肢が、候補リスト 上に現れる単語の一部を選択することである。この選択肢はブロック110によ り表示されている。形成要素を入れる場合と同様、候補リスト上の単語の一部を 指定することは、複合語全体を一文字ずつつづることに代わり、時間の節約とな る。ブロック110により図示されているように、候補リスト上の単語の所望部 分は単語番号(n)および単語の最初の(k)個の文字を指定することにより選 択される。ある単語の一部が選択されるとき、複合語認識装置12はその探索動 作を、選択される文字から始まるシステムライブラリ中の単語に限定する。さら に、ブロック122により図示されるごとく、単語認識装置は対応的に候補リス トを更新する。更新された候補リストはユーザのために表示される。ふたたび、 もし複合語がリスト上に現れれば、ユーザはそれを選択しそして装置は通常の口 述モードへ復帰する。もし単語が候補リストに現れなければ、装置は決定ブロッ ク106へ復帰しそしてユーザ・が使用されるべき所定の選択肢を選択するのを 許容する。
本発明の他の実施例によれば、ユーザは候補選択リストから選択される単語内の 別の文字を任意に選択可能である。ユーザはさらに前に選択された文字を選択し なくともよい、たとえば、ユーザは候補リスト中の第2番目の単語の最初の3つ の文字を指定してもよい、上述したごとく、候補リストは対応的に更新される。
もし単語が6文字の長さであれば、ユーザは引き続き装置に1文字、2文字また は3文字前進するよう命令可能であり、それにより単語の最初の4文字、5文字 または6文字を効率よく選択する。同様に、ユーザは装置に1文字、2文字また は3文字後退するよう命令可能であり、それにより単語の最初の2文字、1文字 または0文字を指定可能である。候補選択リストはそれぞれの新規な文字選択で 更新される。
決定ブロック106から利用できる別途の選択肢がブロック112から開始する 。この選択肢は、ユーザが一つまたはそれ以上の文字を入れ、複合語を完成する のを許容する。ブロック122および124により指示されるごとく、完全な単 語が入れられると、ユーザは単語を受け入れそして装置は通常の口述モードに復 帰する。
第5図〜第11図は、第3図および第4図の実施例の動作を示す一例を図示する 。この例全体を通じて、「装入するあるいは入れる」という言葉は、発声するこ とによりそしてキーボードを使用するすることにより命令を入れることの両方を 呼称するのに使用される。第5図に示されるごとく、ユーザは複合語“ther moregulatory”を発声する。単語が認識されないと仮定すると、カ ーソル線130および定義窓132が両方とも空白のままとどまる0選択肢窓1 34は空白のままとどまってもよいしまたは正しくない選択物を簡単に包含して もよい、第4図の決定ブロック106により、ユーザはいくつかの選択肢のうち の任意のものを選択する。第5図の例において、ユーザは、命令”Begin  Compound Mode−を入れることにより単語成分を入れることを選択 する。
ユーザは、文字であるところの単語成分または形成要素であるところの単語成分 を入れるという選択肢を有する。第6図の例において、ユーザは形成要素”th erm”を入れる。これは、複合語認識装置をして、形成要素”therm“か ら始まる単語について辞書を探索するようにする。さらに、”therm”は定 義窓132中に表示される0図示の実施例によれば、9つの可能性のある候補が 、好ましくは発生可能性値に基づいて順序付けられた仕方で、選択肢窓134に 表示される6図示の例において単語認識装置は一定状態の下で形成要素”the rm”を正しく識別しているが、W!3識装置は、発声された形成要素が”th erm“以外であったという相当な確率が存することを決定するかも知れない。
たとえば、認識装置は“term”または”derm”を等しく可能性のある選 択物であると同定するかも知れない。このような状況において、一つの好ましい 実施例によれば、初めに発声される単語(たとえばthermo regula tory)および発声される形成要素(たとえばtherm)の両方に単語認識 装置が割り当てるところの確率があれば、単語認識要素は最も可能性のある選択 物を表示する。
所望される単語が選択物忘134に表示されない間、ユーザは表示される選択物 の任意のものの一部を選択するという選択肢を有する。この場合、ユーザは命令 ”5elect six first six”を入れる。これは、選択物リス トの第6番目の単語の最初の6文字を選択する。
最初の6個の文字(たとえば”thermo”)が線で囲まれた状態で第6番目 の候補”thermodynamic”を包含する結果的に得られる定義窓13 2が第7図で参照番号136により図示されている。”thermo”の選択は 複合語認識装置をして選択肢窓134に図示される候補リストを更新する。第7 図に示されるごとく、すべての9個の選択物がここに形成要素”t、hermo ”から始まる。第7図の選択肢はいずれも、”thermoregulator y−と共通の最初の6つ以上の文字を持たノシいのC、ユーザは文字である単語 成分を入れるための選択肢を実行する。
「つづりモード」の選択肢を使用する従来装置において、ユーザによりつづられ る文字は、他に指定されなければ、識別されるべき単語の初めに配置される。と ころで本発明によれば、もしつづり文字135が先に発声された形成要素(たと えば”therm”)のすぐ後に続けば、つづり文字は、ユーザにより他に指定 されなければ、発声された形成要素の後に続くと仮定される。もしつづり文字が 命令(たとえば、5elect six、 first 5ix)のすぐ後に続 けば、つづり文字は選択される文字(たとえば、本例で、第6番目の単語の第7 番目の文字)の後に続くと仮定される。もしつづり文字が形成要素または選択型 命令によって先行されなければ、つづり文字は、従来装置におけるごとく、認識 されるべき単語の初めに配置される。
第7図の例において、ユーザは文字”r”をその対応する国際通信アルファベッ ト文字(たとえばromeo )を介して入れる。他の実施例において、国際通 信アルファベットは西欧アルファベット文字を入れるのに使用される。もちろん 、他の言語について異なる文字/記号が使用可能である。
第8図に図示されるごとく、複合語認識装置は”「”を定義窓に組み込み、”t hermodynamic”の”dynamic”の部分を除去する。単語認識 装置はさらに選択物忘134に表示されている候補リストを更新する。ユーザは 順次第2番目の単語の最初の9文字を選択するという選択肢を実行する。
従って、第9図は文字”thermoreg−が番号136において線で取り囲 まれた状態で定義窓132中に単語−thermoregulation−を示 す。選択物忘は、その最初の9文字として”thermoreg”を有する候補 だけを包含する。
第9図の定義窓132に依然と図示されている第8図の第2番目の選択が所望さ れる複合語と共通の最初の9つ以上の文字を有することを理解するとき、ユーザ は命令−forward four−を入れる。
第10図に示されるごとく、これは定義窓132の囲み部分136に包含される 追加の4つの文字を生ずる。
同様に、もしユーザがあまりに多数の文字が誤って包含されたことを理解すれば 、「後退」命令が以前に選択された文字を解放する。たとえば、”back f our”命令が、第9図の定義窓132の囲み部分136に包含された文字”o reg”の解放を招くであろう。
”forward four“命令の後に、所望される複合語と共通の追加の文 字を包含する別途の選択物はない、かくして、ユーザはもう一度つづりモードを 入れそして単語を完成する。残りの文字”0”r”y“をそれらの国際通信アル ファベット記号を介して入れることに続いて、ユーザは第11図の定義窓132 に表示される完成された単語を許容する。従って、定義窓132の中の単語は、 カーソル線130へ移送される。
本発明は、その精神またはその本質的特徴を逸脱することなく他の特定の形式で 具体化され得る。それゆえ、現在の実施例はすべて単なる例示であり本発明を制 限するものと考えるべきではなく1本発明の思想は発明の詳細な説明によってで はなく以下の請求の範囲により指示されるものであり、そして本発明の均等の範 囲内にあるすべての変更は請求の範囲に包含されるべきものである。
−ど〃へカー゛ノル′ うjυu9eゴト”BEに/N COMPOLIND Al0DE″′−一/J ρ THERMORfGムメ1ATQEY−F枳夕際冨コ フロントページの続き (72)発明者 ロバーツ、シェド エム。
アメリカ合衆国 02160 マサチューセッツ、ニュートン、リーララド ロ ード7(72)発明者 ファング、カロライン ビー。
アメリカ合衆国 02178 マサチューセッツ、ベルモント、コンコード ア ベニュー(72)発明者 ベーベン、スティーンアメリカ合衆国 02168  マサチューセッツ、ニュートン、コツター ロード 51(72)発明者 エラ ーマン、クララブイア エル、イー。
アメリカ合衆国 02129 マサチューセッツ、チャールズタウン、バーノン  ストリート14 1/2

Claims (72)

    【特許請求の範囲】
  1. (1)予定された語彙からの1または榎数のワードより成る一連のワードを含む 発声ないし発話から複合ワード(語)を認識するシステムであって、前記ワード の少なくとも一つが、前記語彙内のワードである少なくとも2つの構成要素を連 続して含む複合ワードであるものにおいて、 A.(i)第1のモードで選択的に動作し得、使用者により話される前記発声の 処理に応答して前記複合ワードに対応するワードを識別し、かつ (ii)第2のモードで選択的に動作し得、前記複合ワード内に対応して位置づ けられる構成要素を各々表わすところの、使用者により話される一連の構成要素 の処理に応答して前記複合ワードに対応するワードを識別するための手段を含む ワード認識装置と、 B.該ワード記識装置のモードを決定するための使用者制御手段と を備えることを特徴とする複合ワード認識システム。
  2. (2)前記使用者制御手段が、使用者により発生される可聴信号に応答して前記 ワード認識装置のモードを決定する請求の範囲第1項記載の複合ワード認識シス テム。
  3. (3)前記使用者制御手段が、使用者により発生されるキーボード命令に応答し て、前記ワード認識装置のモードを決定する請求の範囲第1項記載の複合ワード 認識システム。
  4. (4)前記第2モードにおける前記ワード認識装置が、サブモードで選択的に動 作し得、前記複合ワードにおいて対応して位置づけられる文字を各々表わすとこ ろの、使用者により話されるキーワードの処理に応答して前記複合ワードに対応 するワードを識別するための手段を備える請求の範囲第1項記載の複合ワード認 識システム。
  5. (5)前記キーワードの1または複数のものが、国際通信アルファベットワード である請求の範囲第4項記載の複合ワード認識システム。
  6. (6)前記ワード認識装置が、第3のモードで選択的に動作し得、前記複合ワー ドにおいて対応的に位置づけられる文字を各々表わすところの、使用者により装 入される一連のキーワードの処理に応答して、前記複合ワードに対応するワード を識別する請求の範囲第1項記載の複合ワード認識システム。
  7. (7)前記キーワードが、使用者により発生される可聴信号により装入される請 求の範囲第6項記載の複合ワード認識システム。
  8. (8)前記キーワードが使用者により発生されるキーワード命令により装入され る請求の範囲第6項記載の複合ワード認識システム。
  9. (9)前記キーワードの1または複数のものが国際通信アルファベットワードで ある請求の範囲第6項記載の複合ワード認識システム。
  10. (10)前記ワード認識装置が、隔絶的に話された1または複数のワードを含む 前記発声から前記複合ワードを認識するための手段を備える請求の範囲第1項記 載の複合ワード認識システム。
  11. (11)前記ワード認識装置が、連続スピーチとして話される1または複数の言 葉から前記複合ワードを認識するための手段を備える請求の範囲第1項記載の複 合ワード認識システム。
  12. (12)予定された語彙からの1または複数の話されたワードより成る一連のワ ードを含む発声ないし発話からワードを認識するシステムにおいて、 A.(i)第1のモードで選択的に動作し得、使用者により話される一連のキー ワードの処理に応答して、前記の話されたワードの一つに対して、前記語彙内の 第1の複数のワードを現在候補ワードリストとして決定し、そして前記現在候補 ワードリストを表示し、かつ、(ii)第2のモードにおいて選択的に動作し得 、a.使用者により装入される1または複数の命令に応答して、前記現在候補ワ ードリストから前記の話されたワードの少なくとも一部を識別し、そしてb.前 記命令に応答して、前記語彙内の第2の複数のワードを、前記の話されたワード に対する前記現在候補ワードリストとして決定し、そして前記現在候補ワードリ ストを表示するための 手段であって、前記各キーワードが前記の話されたワードにおいて対応的に位置 づけられたワード成分を表わし前記リスト内の前記複数のワードの各々が、前記 一連のキーワードにより表わされる一連のワード成分で始まり、前記の1または 複数の命令が、前記現在候補ワードリスト内のn番目のワードの最初のkの文字 を表わし、ここで、kおよびnは整数であり、前記kの文字は前記の話されたワ ードの最初のkの文字を表わすものとする前記第2の複数のワード内の各ワード が前記のkの文字で始まる 手段を含むワード認識装置と、 B.前記ワード認識装置のモードを決定するための使用者制御手段と を備えることを特徴とするワード認識システム。
  13. (13)前記ワード成分が構成要素および文字からなる群がら選択される請求の 範囲第12項記載のワード認識システム。
  14. (14)前記第2モードの前記命令が、使用者により発生される可聴信号により 装入される請求の範囲第12項記載のワード認識システム。
  15. (15)前記第2モードの前記命令が、使用者により発生されるキーボード命令 により装入される請求の範囲第12項記載のワード認識システム。
  16. (16)前記使用者制御手段が、使用者により発生される可聴信号に応答して、 前記ワード認識装置のモードを決定する請求の範囲第12項記載のワード認識シ ステム。
  17. (17)前記使用者制御手段が、使用者により発生されるキーボード命令に応答 して、前記ワード認識装置のモードを決定する請求の範囲第12項記載のワード 認識システム。
  18. (18)前記ワード認識装置が、隔絶的に話された1または複数のワードを含む 前記発声から前記ワードを認識するための手段を備える請求の範囲第12項記載 のワード認識システム。
  19. (19)前記ワード認識装置が、連続スピーチとして話された1または複数のワ ードを含む前記発声から前記ワードを識別するための手段を備える請求の範囲第 12項記載のワード認識システム。
  20. (20)前記1または複数の命令が、前記第n番目のワードの前記の最初のkの 文字を識別すべき命令を含む請求の範囲第12項記載のワード認識システム。
  21. (21)前記1または複数の命令が、iの追加の文字を識別すべき命令を含み、 ここでiは整数である、前記iの文字が前記n番目のワード内の前記kの文字に 続く最初のiの文字を表わす請求の範囲第20項記載のワード認識システム。
  22. (22)前記1または複数の命令が、先に識別された前記kの文字からjの文字 を排除すべき命令を含み、ここでjは整数である、前記jの文字が、前記n番目 のワードのk番目の文字直前のjの文字を表わす請求の範囲第20項記載のワー ド認識システム。
  23. (23)前記ワード認識装置が、前記の話されたワードの一部の前記識別に応答 して選択的に動作し得、前記の話されたワードの残部を決定するための完成手段 を備える請求の範囲第12項記載のワード認識システム。
  24. (24)前記完成手段が、前記の話されたワードの前記残部において対応的に位 置づけられる文字を各々表わすところの、使用者により装入される一連のキーワ ードを処理して、前記一連のキーワードにより表示される一連の文字を前記の話 されたワードの前記残部として識別する手段を備え、前記の話されたワードが、 前記の識別された残部が続く前記の識別された部分に対応している請求の範囲第 23項記載のワード認識システム。
  25. (25)前記完成手段の前記キーワードが、使用者により発生される可聴信号に より装入される請求の範囲第24項記載のワード認識システム。
  26. (26)前記完成手段のキーワードが、使用者により発生されるキーボード命令 により装入される請求の範囲第24項記載のワード認識システム。
  27. (27)前記完成手段が、前記の話されたワードの前記残部において対応的に位 置づけられる構成要素を各々表わすところの、使用者により装入される一連の構 成要素を処理して、前記一連の構成要素を前記の話されたワードの前記残部とし て識別する手段を備え、前記の話されたワードが、前記の識別された残部が続く 前記の識別された部分に対応している請求の範囲第23項記載のワード認識シス テム。
  28. (28)前記完成手段の前記構成要素が、使用者により発生される可聴信号によ り装入される請求の範囲第27項記載のワード認識システム。
  29. (29)前記完成手段の前記構成要素が、使用者により発生されるキーボード命 令により装入される請求の範囲第27項記載のワード認識システム。
  30. (30)予定された語彙からの1または複数のワードより成る一連のワードを含 む発声ないし発話から複合ワードを認識するためのシステムであって、前記ワー ドの少なくとも一つが前記語彙内のワードである少なくとも二つの構成要素を連 続して含む複合ワードであるものにおいて、A.使用者により話される一連の構 成要素を処理して、前記の話された構成要素の各々と、前記複合ワードに含まれ ている前記の話された構成要素の尤度を表わすスコアを関連づけるための処理手 段と、 B.関連するスコアに応答して、予定された規準に対応する結合されたスコアを 有する順次に話された構成要素を前記複合ワードとして識別するためのワード認 識手段と、ここで前記構成要素の各々は、前記複合ワード内において対応的に位 置づけられた構成要素を表わすものとする、 C.前記ワード認識手段により識別される前記逐次の構成要素の組合せを表わし 、かつ前記複合ワードを表わす信号を発生するための組合せ手段と を備えることを特徴とする複合ワード認識システム。
  31. (31)前記の識別された複合ワードを前記の識別された構成要素を表わす信号 に分解するための使用者制御手段を備える請求の範囲第30項記載の複合ワード 認識システム。
  32. (32)前記使用者制御手段が、使用者により発生される可聴信号に応答して前 記の識別された複合ワードを分解する請求の範囲第31項記載の複合ワード認識 システム。
  33. (33)前記使用者制御手段が、使用者により発生されるキーボード命令に応答 して、前記に識別された命令ワードを分解する請求の範囲第31項記載の複合ワ ード認識システム。
  34. (34)予定された語彙からの1または複数のワードより成る一連のワードを含 む発声ないし発話から複合ワードを認識するためのシステムであって、前記ワー ドの少なくとも一つが、前記語彙内のワードである少なくとも二つの構成要素を 連続して含む複合ワードであるものにおいて、複合ワードを表わし、かつ連続し て発声される前記構成要素の選択されたものを表わす信号を発生するための使用 者制御手段を備えることを特徴とする複合ワード認識システム。
  35. (35)前記使用者制御手段が、使用者により発生される可聴信号に応答して、 前記信号を発生する請求の範囲第34項記載の複合ワード認識システム。
  36. (36)前記使用者制御手段が、使用者により発生されるキーボード命令に応答 して、前記信号を発生する請求の範囲第34項記載の複合ワード認識システム。
  37. (37)予定された語彙からの1または複数のワードより成る一連のワードを含 む発声ないし発話から複合ワード(語)を認識するコンピュータ実施方法であっ て、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも2つ の構成要素を連続して含む複合ワードであるものにおいて、 A.(i)前記コンピュータを第1のモードで選択的に動作させ、使用者により 話される前記発声の処理に応答して前記複合ワードに対応するワードを識別し、 かつ(ii)前記コンピュータを第2のモードで選択的に動作させ、前記複合ワ ード内に対応して位置づけられる構成要素を各々表わすところの、使用者により 話される一連の構成要素の処理に応答して前記複合ワードに対応するワードを識 別する 諸段階を含むことを特徴とするコンピュータ実施方法。
  38. (38)使用者により発生される可聴信号に応答して前記第1および第2モード 間において選択を行うことを含む請求の範囲第37項記載のコンピュータ実施方 法。
  39. (39)使用者により発生されるキーボード命令に応答して前記第1および第2 モード間において選択を行うことを含む請求の範囲第37項記載のコンピュータ 実施方法。
  40. (40)前記第2モードにおける動作として、サブモードで選択的に動作し、前 記複合ワードにおいて対応して位置づけられる文字を各々表わすところの、使用 者により話されるキーワードの処理に応答して前記複合ワードに対応するワード を識別することを含む請求の範囲第37項記載のコンピュータ実施方法。
  41. (41)前記キーワードの1または複数のものが、国際通信アルファベットワー ドである請求の範囲第40項記載のコンピュータ実施方法。
  42. (42)第3のモードで選択的に動作し、前記複合ワードにおいて対応的に位置 づけられる文字を各々表わすところの、使用者により装入される一連のキーワー ドの処理に応答して、前記複合ワードに対応するワードを識別することを含む請 求の範囲第37項記載のコンピュータ実施方法。
  43. (43)前記キーワードを、使用者により発生される可聴信号により装入する請 求の範囲第42項記載のコンピュータ実施方法。
  44. (44)前記キーワードを使用者により発生されるキーワード命令により装入す る請求の範囲第42項記載のコンピュータ実施方法。
  45. (45)前記キーワードの1または複数のものが国際通信アルファベットワード である請求の範囲第42項記載のコンピュータ実施方法。
  46. (46)1または複数の前記ワードを隔絶されたワードとして話すことを含む請 求の範囲第37項記載のコンピュータ実施方法。
  47. (47)1または複数の前記ワードを前記連続的スピーチとして話すことを含む 請求の範囲第37項記載のコンピュータ実施方法。
  48. (48)予定された語彙からの1または複数の話されたワードより成る一連のワ ードを含む発声ないし発話からワードを認識するコンピュータ実施方法において 、(i)選択的に第1のモードにおいて、使用者により話される一連のキーワー ドの処理に応答して、前記の話されたワードの一つに対して、前記語彙内の第1 の複数のワードを現在候補ワードリストとして決定し、そして前記現在候補ワー ドリストを表示し、かつ、(ii)選択的に第2のモードにおいて、a.使用看 により装入される1または複数の命令に応答して、前記現在候補ワードリストか ら前記の話されたワードの少なくとも一部を識別し、そしてb.前記命令に応答 して、前記語彙内の第2の複数のワードを、前記の話されたワードに対する前記 現在候補ワードリストとして決定し、そして前記現在候補ワードリストを表示す る ことによりワードを認識する諸段階を含み、前記各キーワードが前記の話された ワードにおいて対応的に位置づけられたワード成分を表わし、前記リスト内の前 記複数のワードの各々が、前記一連のキーワードにより表わされる一連のワード 成分で始まり、前記の1または複数の命令が、前記現在候補ワードリスト内のn 番目のワードの最初のkの文字を表わし、ここで、kおよびnは整数であり、前 記kの文字は前記の隔絶されたワードの最初のkの文字を表わすものとする、前 記第2の複数のワード内の各ワードが前記のkの文字で始まることを特徴とする コンピュータ実施方法。
  49. (49)前記ワード成分が構成要素および文字からなる群がら選択される請求の 範囲第48項記載のコンピュータ実施方法。
  50. (50)前記第2モードの前記命令を、使用者により発生される可聴信号により 装入することを含む請求の範囲第48項記載のコンピュータ実施方法。
  51. (51)前記第2モードの前記命令を、使用者により発生されるキーボード命令 により装入する請求の範囲第48項記載のコンピュータ実施方法。
  52. (52)前記動作モードを使用者により発生される可聴信号により決定すること を含む請求の範囲第48項記載のコンピュータ実施方法。
  53. (53)前記動作モードを使用者により発生されるキーボード命令により決定す ることを含む請求の範囲第48項記載のコンピュータ実施方法。
  54. (54)1または複数の前記ワード隔絶されたワードとして話すことを含む請求 の範囲第48項記載のコンピュータ実施方法。
  55. (55)1または複数の前記ワードを連続スピーチとして話すことを含む請求の 範囲第48項記載のコンピュータ実施方法。
  56. (56)前記1または複数の命令が、前記第n番目のワードの前記最初のkの文 字を識別すべき命令を含む請求の範囲第48項記載のコンピュータ実施方法。
  57. (57)前記1または複数の命令が、iの追加の文字を識別すべき命令を含み、 ここでiは整数である、前記iの文字が前記n番目のワード内の前記kの文字に 続く最初のiの文字を表わす請求の範囲第56項記載のコンピュータ実施方法。
  58. (58)前記1または複数の命令が、先に識別された前記kの文字からjの文字 を排除すべき命令を含み、ここでjは整数である、前記jの文字が、前記n番目 のワードのk番目の文字直前のjの文字を表わす請求の範囲第56項記載のコン ピュータ実施方法。
  59. (59)前記の話されたワードの一部の前記識別に応答して前記の話されたワー ドの残部を選択的に決定することを含む請求の範囲第48項記載のコンピュータ 実施方法。
  60. (60)前記の話されたワードの前記残部において対応的に位置づけられる文字 を各々表わすところの、使用者により装入される一連のキーワードを処理して、 前記一連のキーワードにより表示される一連の文字を前記の話されたワードの前 記残部として識別することを含み、前記の話されたワードが、前記の識別された 残部が続く前記の識別された部分に対応している請求の範囲第59項記載のコン ピュータ実施方法。
  61. (61)前記完成手段の前記キーワードを使用者により発生される可聴信号によ り装入することを含む請求の範囲第60項記載のコンピュータ実施方法。
  62. (62)前記完成手段のキーワードを、使用者により発生されるキーボード命令 により装入する請求の範囲第60項記載のコンピュータ実施方法。
  63. (63)前記の話されたワードの前記残部において対応的に位置づけられる構成 要素を各々表わすところの、使用者により装入される一連の構成要素を処理して 、前記一連の構成要素を前記の話されたワードの前記残部として識別することを 含み、前記の話されたワードが、前記の識別された残部が続く前記の識別された 部分に対応している請求の範囲第59項記載のコンピュータ実施方法。
  64. (64)前記構成要素を使用者により発生される可聴信号により装入する請求の 範囲第63項記載のコンピュータ実施方法。
  65. (65)前記構成要素を使用者により発生されるキーボード命令により装入する 請求の範囲第63項記載のコンピュータ実施方法。
  66. (66)予定された語彙からの1または複数のワードより成る一連のワードを含 む発声ないし発話から複合ワードを認識するためのコンピュータ実施方法であっ て、前記ワードの少なくとも一つが前記語彙内のワードである少なくとも二つの 構成要素を連続して含む複合ワードであるものにおいて、 A.使用者により話される一連の構成要素を処理して、前記の話された構成要素 の各々と、前記複合ワードに含まれている前記の話された構成要素の尤度を表わ すスコアを関連づけ、 B.前記スコアに応答して、予定された規準に関してあるスコアを有する順次に 話された構成要素を前記複合ワードとして識別し、ここで前記構成要素の各々は 、前記複合ワード内において対応的に位置づけられた構成要素を表わすものとす る、 C.前記識別段階において識別される前記逐次の構成要素の結合を表わし、かつ 前記複合ワードを表わす信号を発生する 諸段階を含むことを特徴とするコンピュータ実施方法。
  67. (67)前記の識別された複合ワードを前記の識別された構成要素を表わす信号 に分解することを含む請求の範囲第66項記載のコンピュータ実施方法。
  68. (68)前記構成要素を分解するための前記命令が、使用者により発生される可 聴信号である請求の範囲第67項記載のコンピュータ実施方法。
  69. (69)前記構成要素を分解するための前記命令が、使用者により発生されるキ ーボード命令である請求の範囲第67項記載のコンピュータ実施方法。
  70. (70)予定された語彙からの1または複数のワードより成る一連のワードを含 む発声ないし発話から複合ワードを認識するためのコンピュータ実施方法であっ て、前記ワードの少なくとも一つが、前記語彙内のワードである少なくとも二つ の構成要素を連続して含む複合ワードであるものにおいて、使用者により発生さ れる命令に応答して、複合ワードを表わし、かつ連続して発声される前記構成要 素の選択されたものを表わす信号を発生することを含むコンピュータ実施方法。
  71. (71)前記信号を発生するための命令が、使用者により発生される可聴信号で ある請求の範囲第70項記載のコンピュータ実施方法。
  72. (72)前記信号を発生するための命令が、使用者により発生されるキーボード 命令である請求の範囲第70項記載のコンピュータ実施方法。
JP51600693A 1992-03-06 1993-03-03 複合ワードを有する言語のための音声認識装置 Expired - Fee Related JP3414735B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US846,695 1986-04-01
US84669592A 1992-03-06 1992-03-06
PCT/US1993/002232 WO1993018506A1 (en) 1992-03-06 1993-03-03 Speech recognition system for languages with compound words

Publications (2)

Publication Number Publication Date
JPH07507880A true JPH07507880A (ja) 1995-08-31
JP3414735B2 JP3414735B2 (ja) 2003-06-09

Family

ID=25298677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51600693A Expired - Fee Related JP3414735B2 (ja) 1992-03-06 1993-03-03 複合ワードを有する言語のための音声認識装置

Country Status (6)

Country Link
US (1) US5754972A (ja)
EP (1) EP0634042B1 (ja)
JP (1) JP3414735B2 (ja)
AT (1) ATE203119T1 (ja)
DE (1) DE69330427T2 (ja)
WO (1) WO1993018506A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6601027B1 (en) 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6044337A (en) * 1997-10-29 2000-03-28 At&T Corp Selection of superwords based on criteria relevant to both speech recognition and understanding
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6195635B1 (en) 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6349282B1 (en) * 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
AU2001233861A1 (en) * 2000-02-16 2001-08-27 P C Multimedia Limited Identification of structure in time series data
JP2001358602A (ja) * 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7366666B2 (en) * 2003-10-01 2008-04-29 International Business Machines Corporation Relative delta computations for determining the meaning of language inputs
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7475004B2 (en) 2004-08-31 2009-01-06 Research In Motion Limited Handheld electronic device with text disambiguation
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
DE102007028235A1 (de) 2007-06-20 2008-12-24 Siemens Ag Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
WO2012073275A1 (ja) 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
JP5810814B2 (ja) * 2011-10-11 2015-11-11 カシオ計算機株式会社 辞書機能を備えた電子機器、複合語検索方法、及びプログラム
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10339920B2 (en) * 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10380242B2 (en) * 2015-05-14 2019-08-13 Nuance Communications, Inc. System and method for processing out of vocabulary compound words
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10706210B2 (en) * 2016-08-31 2020-07-07 Nuance Communications, Inc. User interface for dictation application employing automatic speech recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62154022A (ja) * 1985-12-27 1987-07-09 Hitachi Ltd 音声タイプライタ
JPS6373300A (ja) * 1986-09-17 1988-04-02 キヤノン株式会社 音声認識装置
JPS6375798A (ja) * 1986-09-19 1988-04-06 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH03179498A (ja) * 1989-12-08 1991-08-05 Nippon Telegr & Teleph Corp <Ntt> 音声日本語変換方式

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3647978A (en) * 1969-04-30 1972-03-07 Int Standard Electric Corp Speech recognition apparatus
CA1169969A (en) * 1980-08-20 1984-06-26 Gregor N. Neff Dictation system and method
JPS5775349A (en) * 1980-10-28 1982-05-11 Nippon Telegr & Teleph Corp <Ntt> Japanese input device of voice recognition type
US4749353A (en) * 1982-05-13 1988-06-07 Texas Instruments Incorporated Talking electronic learning aid for improvement of spelling with operator-controlled word list
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
NL8500339A (nl) * 1985-02-07 1986-09-01 Philips Nv Adaptief responderend systeem.
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62154022A (ja) * 1985-12-27 1987-07-09 Hitachi Ltd 音声タイプライタ
JPS6373300A (ja) * 1986-09-17 1988-04-02 キヤノン株式会社 音声認識装置
JPS6375798A (ja) * 1986-09-19 1988-04-06 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH03179498A (ja) * 1989-12-08 1991-08-05 Nippon Telegr & Teleph Corp <Ntt> 音声日本語変換方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード

Also Published As

Publication number Publication date
WO1993018506A1 (en) 1993-09-16
EP0634042B1 (en) 2001-07-11
ATE203119T1 (de) 2001-07-15
DE69330427D1 (de) 2001-08-16
JP3414735B2 (ja) 2003-06-09
EP0634042A1 (en) 1995-01-18
US5754972A (en) 1998-05-19
EP0634042A4 (en) 1996-02-21
DE69330427T2 (de) 2002-05-23

Similar Documents

Publication Publication Date Title
JPH07507880A (ja) 複合ワードを有する言語のための音声認識装置
JP4444396B2 (ja) 音声認識におけるポジション操作
US6343270B1 (en) Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
US4829576A (en) Voice recognition system
RU2070734C1 (ru) Устройство для перевода фраз из нескольких слов с первого языка на второй
EP1346343B1 (en) Speech recognition using word-in-phrase command
US6163768A (en) Non-interactive enrollment in speech recognition
US8214213B1 (en) Speech recognition based on pronunciation modeling
JP4446312B2 (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
EP0867857B1 (en) Enrolment in speech recognition
EP1049072B1 (en) Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US7120582B1 (en) Expanding an effective vocabulary of a speech recognition system
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
JPH10133684A (ja) 音声認識中に代替ワードを選択する方法及びシステム
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
TW201203222A (en) Voice stream augmented note taking
US7406408B1 (en) Method of recognizing phones in speech of any language
US20170270923A1 (en) Voice processing device and voice processing method
JP2009511959A (ja) 音素のnグラムを使用した単語および名前の生成
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JPH06175698A (ja) 音声検索装置
EP1135768B1 (en) Spell mode in a speech recognizer
JP2000276189A (ja) 日本語ディクテーションシステム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees