JPH10507536A5 - - Google Patents
Info
- Publication number
- JPH10507536A5 JPH10507536A5 JP1996513513A JP51351396A JPH10507536A5 JP H10507536 A5 JPH10507536 A5 JP H10507536A5 JP 1996513513 A JP1996513513 A JP 1996513513A JP 51351396 A JP51351396 A JP 51351396A JP H10507536 A5 JPH10507536 A5 JP H10507536A5
- Authority
- JP
- Japan
- Prior art keywords
- word
- audio
- recognizer
- user
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Description
【書類名】 明細書
【発明の名称】 音声認識
【特許請求の範囲】
【請求項1】
音声認識装置用の語彙を生成するための方法であって、
ユーザからの話声を表す入力音声信号を受領する手順と、
この受領した入力音声信号から特徴サンプルを抽出する手順と、
この特徴サンプルと、ユーザから先に受領された入力音声信号に関連しているユーザに独特なユーザの音声パターンを含む記憶され符号化されたサブ・ワード表現のシーケンスとを比較する手順と、
各記憶され符号化されたサブ・ワード表現に対して前記入力音声信号の前記特徴サンプルの適合の可能性を決定する手順と、
最も高い適合の可能性を有する前記記憶され符号化されたサブ・ワード表現から前記話声を認識する手順と、
認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成する手順と、
前記話声の前記生成され符号化されたサブ・ワード表現を他の入力音声信号の認識のために記憶する手順と、
で成る方法。
【請求項2】
前記サブ・ワード表現のシーケンスは、前記シーケンス内のノイズモデルを考慮に入れることにより緩かに制限されている請求項1記載の方法。
【請求項3】
前記サブ・ワード表現のシーケンスは、制限されていなくて、実際の言語の働きの中で生じないシーケンスの生成を許す請求項1記載の方法。
【請求項4】
同じ話声を表す1以上の後続の入力音声信号を受領して、該話声の複数の符号化された表現を生成する請求項1ないし3のいずれか1項に記載の方法。
【請求項5】
前記サブ・ワードが音素である請求項1ないし4のいずれか1項記載の方法。
【請求項6】
入力音声信号を受領し、前記入力音声信号から特徴データを生成する特徴ドライバと、
前記特徴ドライバからの前記特徴データを受領し、先に受領された入力音声信号に関連するいくつかの記憶されている符号化されたサブ・ワード表現と特徴データとを比較し、各記憶されている符号化されたサブ・ワード表現に対して前記特徴データの適合の可能性を決定し、最も高い適合の可能性を有する前記記録されている符号化されたサブ・ワード表現から前記話声を認識し、認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成するサブ・ワード認識器と、
該入力音声信号の、生成され符号化されたサブ・ワード表現を後の認識のために記憶するメモリと、
で成る語彙生成装置。
【請求項7】
前記サブ・ワード認識器は緩かに制限される文法を有する請求項6記載の語彙生成装置。
【請求項8】
前記サブ・ワード認識器は基準サブ・ワードモデルの制限されないシーケンスを識別するようにされている請求項6記載の語彙生成装置。
【請求項9】
入力音声信号を、請求項6ないし8のいずれか1項記載の語彙生成装置によって生成され符号化された表現により識別されるサブ・ワード表現のシーケンスと比較し、かつ認識を示す信号を出力するための音声認識器を備えている音声認識装置。
【請求項10】
さらに単語の符号化された表現を記憶する第2のメモリを備え、その符号化された表現は、第1のメモリに記憶された符号化された表現と比較してノイズを考慮に入れて異なる方法で生成されたものである請求項9記載の音声認識装置。
【請求項11】
前記第2のメモリの前記単語の符号化された表現が、基準サブ・ワード表現の所定のシーケンスを識別する請求項10記載の音声認識装置。
【請求項12】
請求項9ないし11のいずれか1項に記載の装置を採用した遠隔通信サービス。
【請求項13】
前記サービスがレパートリーダイヤル用サービスである請求項12記載の遠隔通信サービス。
【発明の詳細な説明】
【0001】
【発明の属する技術分野】
この発明は音声処理、とくに音声認識に関する。
【0002】
【従来の技術】
音声認識装置の開発者たちは終局の目的として人間が全く自然なやり方で、何の制限もなく対話をすることができるような機械を作ることを意図している。人間と機械とのインターフェースは理想的には完全に継ぎ目のない(シームレス)なものである。
【0003】
これは達成に近づきつつあるビジョンであるが、人間と機械との間が全くよどみなくというところまでは到達していない。よどみなくと行くには自動認識器が単語に関する際限のない語彙を要求し、どの使用者の音声も、その者たちのアクセントや話し方(エナンシエーション)などとは無関係に理解することができる必要があるとされる。現在の技術と、人間が音声をどのように理解し始めるかについての我々の限られた理解とではこの課題は実現可能にはならない。
【0004】
現在の音声認識装置には装置が認識することができるとされている限られた語彙が関係するデータを含んでいる。このデータは一般に統計モデルもしくは限られた語彙の単語を表わすテンプレートと関係している。認識に際して、入力信号は記憶されたデータと比較されて、入力信号と記憶されたデータとの間の類似性が判断される。十分に近い整合が見付かると、信号はその一番近い整合をもたらしたそのモデル又はテンプレート(もしくはモデル又はテンプレートのシーケンス)として認識されたと一般には考えられている。
【0005】
テンプレート又はモデルは一般には入力音声の特定の特徴を測定することによって形成される。この特徴測定は通常はスペクトル解析技術のある形式、すなわち、フィルタバンク分析器、線形予測符号化解析もしくは離散的変換解析などの技術形式の出力である。同一音声の音(サウンド)(すなわち特定の単語、句など)に対応する1又は複数の訓練用入力についての特徴測定が一般には使われてその音の特徴を表わす1又は複数の基準パターンが作られる。この基準パターンはある種の平均化技術から得られるテンプレートとなることができ、あるいは特定の音についての訓練用入力のもつ特徴についての統計を特徴づけるモデルとなることができる。
【0006】
未知の入力は認識語彙の各々の音に対する基準パターンと比較され、未知の入力と各基準パターンとの類似の尺度が計算される。このパターン分類段階はグローバル・タイム・アラインメント過程(全体的な時間整列過程、ダイナミック・タイム・ワーピングDTWとして知られている)すなわち、話し方の異なる速さ(レート)を補償するものを含めることができる。類似の尺度は次にどの基準パターンが未知の入力と一番よく整合するか、したがってどれが認識されたと考えられるかを決めるために使用される。
【0007】
この音声認識器の意図的な使用でシステムの特性を判断することもできる。例えば、話者に依存するように設計されたシステムは単一の話者からの訓練用入力だけを必要とする。したがって、モデル又はテンプレートはある特定の話者の入力音声を表わしており、多数の使用者についての平均的な音声を表わしていない。このようなシステムがその訓練用入力を受領することとなった話者についてはよい認識率をもっているが、このようなシステムは明らかに他の使用者による使用には適していない。
【0008】
話者から独立した認識は複数の話者の話声から形成される単語モデルに依存している。統計的なモデルもしくはテンプレートで各特定音声入力の訓練用話声のすべてを表わしているものが後の認識目的に対して形成される。話者から独立したシステムは多人数の使用者に対し比較的よく動作するが、話者から独立したシステムの性能はアクセント,イントネーション,エナンシエーションなどが訓練用サンプルとはかなり違う使用者については低い性能をもつ。
【0009】
受け入れることができる語彙を拡張するためには、追加の語彙についての十分な訓練用サンプルを得なければならない。これは時間のかかる作業で、語彙が繰返し変更されるときにはとてもよしとはされない。
【0010】
あるシステムが認識することができるようになる語彙がテキスト形式で追加の語彙を入力するサービス提供者によって拡張できるようになっている音声認識システムを提供することは知られている。このようなシステムの一例はAT&TからのFlexwordである。このようなシステムでは単語がテキスト形式から音声学的規則に従った音声表現(フォネテック・トランスクリプション)に変換される。これらのトランスクリプションが認識器で各フォニームの音響モデルをもつもので使われる。
【0011】
言葉の中のフォニームの数は時に判断事項であり、関与する特定の言語学者に依存することになる。英語の場合には表1に示すようなほぼ40のフォニームがある。
【表1】
【0012】
ここでいうフォニームとかサブワードというのは単語の構成用ブロックとして便利なもので、例えばフォニーム,フォニームのストリング(糸),アロフォン(異音)などである。ここでフォニームもしくはサブ・ワードと言うのはいずれも相互互換性があり、この広義の解釈に立つものとする。
【0013】
認識目的のためには、音素論的に記述されたテキスト(phonemically transcribed text)が個々のフォニーム(音素)を表わす記憶されたモデルから形成できる。認識の際に、入力音声は各許容される単語もしくは語句(フレーズ)を表わす基準モデルのストリングと比較される。個々のフォニームを表わすモデルは話者とは独立した仕方で、異なる多数の話者の話声から生成することができる。どんな適当なモデルも使用でき、例えば隠れたMarkovモデルが使われる。
【0014】
このようなシステムは単語の標準的な音素的記述からのずれ(ゆらぎ)を許さない。例えばある人が強いアクセントがあると許容されない。したがって、使用者がシステムの語彙内にある単語を話したとしても入力音声がこうして認識されないことになる。
【0015】
話者に依存しないシステムを採用できるのが望ましく、それによってある使用者がモデルとなった話者とは違う発音をしても使用可能となるようにする。欧州特許出願No.453649はこのような装置を記述しており、そこでは装置語彙の許された単語が、例えばフォニーム(音素)のような単語のサブユニットを表わすモデルの連結(コンカテネーション)によってモデル化されている。“単語(word)”モデル、すなわち記憶されたコンカテネーションは次に特定の使用者の音声に対して学習訓練がされ、その使用者の音声からの単語モデルに対する新しいパラメータを推定するようになる。こうして分った、前もって定義された単語モデル(フォニームモデルのコンカテネーションから形成されたもの)が特定の使用者に適したものとして採用される。
【0016】
同様に、欧州特許出願No.508225は音声認識装置を記述しており、そこでは認識される単語がその単語を表わすフォニームシーケンスと一緒に記憶されている。学習訓練中は、使用者は語彙の単語を話し、フォニームモデルのパラメータが使用者の入力に適応させられる。
【0017】
これら既知のシステムの双方とも、予め定義された語彙としてフォニームの連結(コンカテネーション)されたシーケンスの形態のものを必要とする。しかし、多くの場合、ある使用者にとって望ましいことは語彙に単語を追加し、それらの単語がその使用者にとって特有のものであるようにすることであろう。この融通性を現実の使用者に提供するための1つの既知手段には話者依存の技術を用いて新単語モデルを形成し、それを次に別な語彙目録(レキシコン)に記憶することである。この使用者はシステムを学習訓練するために1又は複数回各単語を話さなければならない。これらの話者依存のモデルはDTW(ダイナミック・タイム・ワーピング)又は類似の技術で各使用者のテンプレートを記憶するために比較的大量のメモリを必要とするものを用いて通常は形成される。典型的なものは、各使用者に対する各単語は少くとも125バイト(恐らくは2キロバイトを超える)を占有することになる。これは20の単語語彙では2.5から40キロバイトの間が、認識を開始できるようになる前に認識器にダウンロードされなければならないことを意味している。さらに、ちょうど100人の使用者をもつ電話網応用サービスでは使用者のテンプレートのためにだけでも2.5から20メガバイトのディスクメモリを必要とすることになる。このようなサービスの一例はレパートリー・ダイヤル発信器(ダイヤラ)と呼ばれるもので、ある使用者がかけたいと思う人々を決めて、後に電話呼がかけたい相手の名前を話すことで生ずるようにするものである。
【0018】
欧州特許出願No.590173が記述しているシステムは、使用者が認識システムにとって未知である単語を話し、単語を補正することができ、かつシステムの語彙にこの単語を加えることができるようにしたものである。認識システムに対して新しい単語を既知とするための唯一の記述されている方法はキーボードを経て入力することである。
【0019】
【発明の概要】
この発明によると、音声認識装置のための語彙を生成する方法は話声を表わしている入力音声信号を受領し;この話声に最もよく似ている一連の基準サブワード表現を複数の基準サブワード表現から識別する、符号化された表現を各話声から生成し;後の認識目的のために生成された話声の符号化された表現を記憶する方法である。
【0020】
このような方法は、使用者にとって新しい単語をその各々についての新しい音響学的モデルを形成する必要なしに選ぶことができ、その使用者にとって固有の一連の基準サブワード表現として各単語又は語句(フレーズ)をモデル化しなくともよい。このことは語彙に加えるべき単語についての予備的知識を必要としないから、使用者は所望のいずれの単語又は語句も加えることができる。
【0021】
使用者によって選ばれた単語についての符号化された表現は、テキストから形成されたモデルよりもその使用者の話し言葉によく似ていることになりそうである。加えて、符号化された表現はメモリ容量がDTWモデルとして単語表現を記憶するよりも少くとも1桁小さなものを必要とする(もっとも精度について見ると僅かなことである)。
【0022】
望ましくは、符号化された表現の生成は文法上の規則によって制限されず、したがってどのサブ・ワード表現も他のものが続くことができる。代って、2字で1音を表わす連字文法が使用でき、この場合は例えばフォニームといったサブ・ワードの各対間の遷移確率が登場してくる。従って、ある音声内では通常発生しないフォニームの対(例えば英語におけるP H)は低い遷移確率をもつ。
【0023】
同じ話声を表わす複数の音声信号の符号化された表現が生成される。符号化された表現内のいずれかの異常が次に報告される。例えば、もし話し言葉がノイズを含んだ電話ライン上でされると、この話し言葉の符号化された表現は明瞭な電話ライン上での同じ話し言葉の符号化された表現とは少しも似ていないものとなる。話し言葉の3回の学習訓練用入力を受領して、他とは著しく異なる符号化された表現を無視するのは適切なことである。代りに、符号化された表現を全部保存してもよい。符号化された表現の全部が記憶されるか否かの判断はこの装置の開発者によるものである。
【0024】
この発明を第2の観点からとらえると、語彙生成回路が、入力音声信号から特徴サンプルを抽出するための手段と;入力音声信号の各サンプルから符号化された表現を生成し、その表現が該入力音声信号ともっともよく類似している一連の基準サブ・ワード表現を複数の基準サブ・ワード表現から識別するものとして生成するためのサブ・ワード認識器と;後続の認識目的のために入力音声信号の符号化された表現を記憶するためのメモリとで構成されている。
【0025】
この装置は符号化された表現によって表わされる話し言葉を認識するように構成された。音声認識器と関連させることを意図している。認識の際には、この音声認識器は未知の入力音声信号を、メモリ内に記憶されている符号化した表現によって表わされるサブ・ワード表現のシーケンスと比較して、認識もしくはそうでないことを示す信号を出力する。
【0026】
好ましくは、サブ・ワード認識器の文法はゆるやかな制限をもつものとする。例えば、サブ・ワード認識器は一例としてラインノイズによって制限を受けたいずれかのサブ・ワードユニットのシーケンスを認識するという条件を課せられていてよい。あるいは代って、連字文法を用いてフォニームの各対間の遷移確率を与えるようにしてもよい。
【0027】
音声認識装置はある予め定義された単語も認識するように構成されてよい。好ましくは、予め定義された単語はまた予め定義された単語のサブ・ワード転写の符号化した表現として記憶される。予め定義された単語と使用者によって選ばれた単語とはこうして同じ基準サブ・ワードを用いてモデル化される。音声認識器は使用者が選択した単語と関連して予め定義された単語を認識するように構成される。
【0028】
望ましくは、基準サブ・ワード表現はフォニーム(音素)を表わすものである。各サブ・ワード表現は複数の話者の入力音声で特定のサブ・ワードを含むものの統計的モデルであってよい。望ましくは、モデルは隠れたMarkovモデルとするが、他のモデルも使うことができる。
【0029】
【発明の実施形態】
この発明は、例として、添付の図面を参照して以下に記述される。
【0030】
図1を見ると、遠隔通信システムには音声認識が含まれており、その構成は、一般にマイクロホン1(典型的なものは電話ハンドセットの一部を構成している)、遠隔通信網(典型的には公衆交換電気通信網(PSTN))、音声認識器3で網2から音声信号を受領するように接続されたもの、及び利用装置4で音声認識器3に接続され、音声認識信号をそこから受領するようにされていて、それに応答する動作を行うもので構成されている。ここで音声認識信号は特定の単語又は語句を認識したことを示しているか、そうでないことを示しているものとする。例えば、利用装置4は遠隔操作のレパートリー(貯え)ダイヤル用システムで、そこでは使用者が所望の番号をダイヤルせずにダイヤルすべき人物の名前を話すだけでよい。
【0031】
多くの場合、利用装置4は使用者に対して可聴応答を生成し、網2を経由してラウドスピーカで一般には使用者のハンドセットの一部を形成するものに送られる。
【0032】
動作では、使用者はマイクロホン1に向って話をし、信号がマイクロホン1から網に入って音声認識器3へ送られる。音声認識器は音声信号を解析し、特定の単語又は語句の認識もしくはそれ以外を示す信号が生成されて利用装置4に送られ、そこでは次に音声認識事象での適切な動作が行なわれる。
【0033】
使用者が先ず利用装置4によって提供されたサービスを使用するときは、音声認識器3は語彙についてのデータを取得する必要があり、それに対して後続の未知音声信号が検証される。このデータ取得は教育訓練動作モードにある語彙生成器によって実行され、このモードでは使用者は教育訓練用入力音声サンプルを用意し、そこから教育訓練用入力音声のサブ・ワード内容の符号化された表現が生成されて、後続の認識目的にあてられる。
【0034】
図2には、この発明による語彙生成器9の機能要素が示されている。語彙生成器9は特徴抽出器6を備え、連続したサンプルの一連のフレームとして区分されている入力音声信号から特徴データを抽出する。このフレームは入力音声の16msサンプルを通常を表わしており、各サンプルは(例えばHammingウインドウを用いて)窓がけがされている。適切な特徴抽出器の例は既知技術であり、フィルタバンク解析器、線形予測符号化解析器あるいは離散的変換解析といったスペクトル解析技術のある種の形態で構成できる。
【0035】
この特徴は例えばセプストラル係数(Cepstral coefficients) (Chollett & Gagnoulet “On the Evaluation of Speech Recognisers and Databases using a Reference System” 1982, proc. IEEE p2026に記述されている。LPCセプストラル係数、メル・フリケンシイ・セプストラル係数(mel frequency cepstral coefficientsがその例)もしくはこの種の係数の異なる値で、各係数に対して、この係数と先のベクトル内の対応する係数値との差で成るもの(Soong & Rosenberg “On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition”, 1988 IEEE Trans, on Acoustics, Speech and Signal Processing Vol.36 No.6 p871に記載がある)である。同様に、特徴係数のいくつかの形式のものが使用できる。この特徴抽出器は適切にプログラムされたディジタル信号処理装置(DSP)デバイスで作られる。この特徴抽出器6の出力データの組はサブ・ワード認識器7の入力を形成している。
【0036】
サブ・ワード認識器7は表1に示した40のフォニームを表わすHMMモデルを有するサブ・ワードモデルメモリ8と関係している。モデルメモリ8はフィールド81,82…で成り、それらが複数のサブ・ワードの各々に対してある。例えば、サブ・ワード認識器はフォニームを認識するために設計されていて、従って、フィールドは各フォニームのためのモデルメモリ内に用意されている。
【0037】
サブ・ワード認識器7はメモリ8内部の各フィールドを順に読むようにされていて、各々に対して、現在の入力特徴係数の組を用いて、入力特御の組が対応するフィールドに相当する確率を計算する。最も可能性の高いサブ・ワードモデルを示す信号が出力されて単語メモリ10内に記憶される。こうして、単一の話声に対して、単語メモリ10はある符号化された表現であって、それが基準サブ・ワードモデルのシーケンスを示し、入力音声を一番近く表現すると、サブ・ワード認識器が判断している表現を記憶する。
【0038】
この計算はよく知られているHMMを採用する(S. J. Cox, “Hidden Markov Models for Automatic Speech Recognition: Theory and Application “British Telecom Technology Journal Vol.6 No.2 April 1988に記述がある)。都合よいことに、サブ・ワード認識器7によって実行されるHMM処理はよく知られているViterbiアルゴリズムを用いる。サブ・ワード認識器7は、例えば、Intel(TM)i−486(TM)マイクロプロセッサもしくはMotorola(TM)6800マイクロプロセッサのようなマイクロプロセッサであるか、あるいはDSPデバイス(例えば、特徴抽出器6と同じようなDSPデバイス)であってもよい。
【0039】
前に記述したように、サブ・ワード認識器と関連があるサブ・ワードモデルは話者とは独立した方法で得られる。サブ・ワード認識器7により生成された符号化した表現はそれ故にそれら表現がある使用者が単語をどのように発音するかについて音素による記述を表わしている限度で話者に依存している。
【0040】
サブ・ワード認識器7は認識ネットワークを備え、それは生成されるサブ・ワードユニットの可能性のあるシーケンスに対してあったとしても僅かな制限条件を課するにすぎない。図3には僅かに制限されたネットワークの例を示す。このネットワークはノイズによって制限されたフォニームの単一の連結されたシーケンスを認識することができる。フォニームのシーケンスは全く制限されておらず、またフォニームのシーケンスで作用している音声(この例では英語を記述している)で生じないものは従って生成されない。
【0041】
図3に示した認識ネットワークは現在、完全に制限されていないネットワーク、すなわちフォニームモデルの前後でノイズモデルのないもの、よりも電話の音声に対してはよい記述結果を与えている。これはフォニームの次にノイズがその次にフォニームが続くものを容認しない。実用上のシステムについてこれがもつ重要な意味あるいは孤立している単語もしくは接続された語句に対するシステムの正確さを増強するが、もし使用者が単語の間に隙き間のある語句を入れると問題を生ずるということである。例えば、レパートリーダイヤルでは、使用者が“ジョン スミス”(John Smith)”を名前と名字との間をあけずに言うとすると、このような文法形式は何の問題を生じない。しかし、他方、両者間に隙き間を残すと性能が影響を得ける。しかし、サブ・ワード認識器の認識ネットワークはシステムの要求にかなうように、例えば孤立した単語とか連結した単語などにかなうように設計される。
【0042】
このサービスを最初に使用するときは、利用装置が使用者に助言をして使用者が認識器の語彙に加えたいと思う単語を用意させる。利用装置からの可聴助言に応答して、使用者は選んだ単語をマイクロホンに向けて話す。レパートリーダイヤル用システムでは、この単語は使用者が呼び出したい人物の名前、例えば“ジェーン(Jane)”である。
【0043】
語彙生成器はこの入力から特徴を抽出してそれをサブ・ワード認識器7に送る。入力音声を受領すると、メモリ8内のモデルとの整合がされる。サブ・ワード認識器7は図3に示したような認識ネットワークを備えていて、話し言葉入力の符号化された表現を生成し、この符号化された表現は入力音声と一番よく似ているモデルのシーケンスを識別する。こうして、入力音声の音素の記述が生成される。教育訓練用話声について生成された符号化された表現がメモリ10内に記憶される。使用者は次に入力を繰返すように助言を与えられて、入力音声のもっと確定的な表現が形成される。
【0044】
実験によって次のことが見出された。すなわち、唯1回の話声の教育訓練では正確さの87.8%が達成され、3回の教育訓練の話声では正確さは93.7%と著しく上昇した。明らかに悪い品質の電話ラインは生成結果に重大な効果をもたらすことになる。3回の教育訓練話声が行なわれたときに達成された正確さは、テキスト入力からの理想化された受領発音記述がサブ・ワード表現の代りに用いられた場合よりもまた大きいものであった。受領した発音は標準的な南部イギリスの英語のアクセントである。
【0045】
さらに助言が使用者に与えられて、別な単語を加えるかどうかを尋ねる。これに肯定的に使用者が答えると(例えば予め定義されたDTMFキーを用いる)、認識プロセスが次の単語について繰返えされる。もし使用者の答が否定的であるときは、システムは認識モールドに切換り、音声認識器3が動作状態となる。メモリ10には記憶された符号化した表現があり、各追加の語彙アイテムに対して、一連の基準サブ・ワード表現を識別する。
【0046】
ひとたび、表現が語彙の所望の単語の各々に対して生成されると、語彙は音声認識器3によって使用できる。図4は音声認識器3の要素を示す。音声認識器3は特徴抽出器6´、サブ・ワードモデルメモリ8´、語彙生成器9によって生成された符号化された表現のメモリ10で成る。ネットワーク生成器12はメモリ10と関係しており、符号化された表現によって表わされる基準サブ・ワード表現のシーケンスにより構成される認識ネットワークを作る。このようなネットワークは例えばメモリ10からの個々の符号化した表現を組合せて、図5に示すようなネットワークの並列代替物とするか、あるいは図6に示すような木(トリー)構造に符号化した表現を組合せることにより生成でき、いずれもが単語“six”と“seven”の話声で識別されるフォニームのシーケンスを例として示している。
【0047】
認識の間に、入力音声信号は特徴抽出用手段6´に送られ、特徴は認識器16でネットワーク生成器12によって構築されたネットワークと関係しているものへ送られる。未知の入力音声は構築された網と比較され、信号が認識器16から出力されるのは、近い整合が未知の入力言語とネットワークの枝の1つとの間で見付けられたときであり、したがって符号化された表現によって表わされる単語又は語句の1つとの整合が見付けられたときである。ひとたび認識が生ずると、利用装置4が次の適当な段階をサービスに従ってとることになり、例えばレパートリーダイヤル用サービスであると認識器16は単語“Jane”が認識されて、利用装置が名前“Jane”と関係する番号をダイヤルすることになる。
【0048】
図7はこの発明の第2の実施例を示す。図2と3とが語彙生成器9と音声認識器3とを別な部品として示したのに対して、図7はそれらが音声認識装置20内部で結合されている。語彙生成器9と認識器16とは共通部品、すなわち特徴抽出器6と、サブ・ワードモデルメモリ8と、使用者が選択した単語のメモリ10とを共用している。音声認識装置20にはさらに予め定義した単語メモリ14が含まれ、そこには予め定義された符号化された表現であって、意図している利用装置に適した予め定義された単語のフォニーム記述に関する表現が記憶されている。例えば、レパートリーダイヤル用システムでは、これらの予め定義された単語はディジット0ないし9、“ダイヤル”,“ノー”,“イエス”,“加える”などであろう。
【0049】
音声認識装置20は正規には認識モード、すなわち入力音声信号が認識器16へ送られるモードである。使用者がシステム語彙にある単語を加えたいときは使用者は“加える”と言う。この信号が特徴抽出器6へ送られ、特徴が認識器に送られる。ネットワーク生成器12はメモリ14と10内に表現されている全単語で成るネットワークを生成する(初めはメモリ10内に記憶された単語はない)。認識器16は入力とネットワークとを整合させて、入力を単語“加える”と認識し、応答として入力を語彙生成器9に切換えることにより教育訓練用モードに入る。
【0050】
使用者は次に進むが、それはシステムの語彙に加えるべき名前を話した前の例と同様である。語彙生成器9のサブ・ワード認識器7は使用者が選択したメモリ10内に記憶するための符号化した表現を生成する。しかし、使用者は利用装置からの助言に対して、話し言葉で“イエス”及び“ノー”を言うことにより応答することができ、入力音声信号は特定の応答が期待されるときには認識器16へ切換えられる。
【0051】
ひとたび使用者が所望の単語を選択すると、ネットワーク生成器12によって生成された後続のネットワークはメモリ14からの予め定義した単語とメモリ10からの使用者が選択した単語とを組合わせる。結果として認識器は文法を備え単語のあるものは使用者の音声から得られたシーケンスによって予め定義され、ある単語は別のソースから得られたシーケンスによって予め定義される。2つのメモリからの単語は組合されて、例えば単語“ダイヤル”が予め定義されると、認識ネットワークは選択された単語の各々と“ダイヤル”とを組合せて構成することができ、それによってシステム文法が連結された音声“ダイヤル ジェーン(Janeにダイヤルする)”(ここで“ダイヤル”は予め定義されており、“Jane”は使用者が選択するものである)を許す。
【0052】
語彙の50%が予め定義されている音声認識装置は、唯一の教育訓練用話声が用意されたときに、使用者が選択した全語彙と同じ正確さをもつ。しかし、このような装置の正確さは3回の教育訓練用話声が用意されたときに使用者が選択した全語彙とは著しく悪いものとなる。
【0053】
こうして、この発明の別な実施例では、音声認識器20は予め定義したメモリ14内に多数の予め定義した単語と、教育訓練モードで定義されたメモリ10内に多数の使用者選択単語とを有している。予め定義した単語のサブ・ワード表現は使用者の入力音声から、この装置の使用時に、特徴抽出手段6からの特徴をサブ・ワード認識器7とともに認識器16にも送ることによって生成される。話声のためにサブ・ワード認識器によって生成された符号化された表現がメモリ10に加えられる。後の話声はメモリ10内に記憶されている表現に、メモリ14内に記憶されている表現よりもよく整合するはずであり、予め定義した単語の認識で正確さの改善がもたらされる。
【図面の簡単な説明】
図1は遠隔通信環境においてこの発明による音声認識を採用する際の模式図を示す。
図2はこの発明による語彙生成器の機能素子を模式的に示す構成図である。
図3はゆるやかな制限のネットワークの例を示し、図2の語彙生成器で使われているものである。
図4は図2に示した語彙生成器とともに使うための音声認識器を示す。
図5は図4の音声認識器とともに使用される認識ネットワークの例を示す。
図6は図5に示すものの代りの認識ネットワークを示す。
図7はこの発明による音声認識装置の第2実施例を示す。
【発明の名称】 音声認識
【特許請求の範囲】
【請求項1】
音声認識装置用の語彙を生成するための方法であって、
ユーザからの話声を表す入力音声信号を受領する手順と、
この受領した入力音声信号から特徴サンプルを抽出する手順と、
この特徴サンプルと、ユーザから先に受領された入力音声信号に関連しているユーザに独特なユーザの音声パターンを含む記憶され符号化されたサブ・ワード表現のシーケンスとを比較する手順と、
各記憶され符号化されたサブ・ワード表現に対して前記入力音声信号の前記特徴サンプルの適合の可能性を決定する手順と、
最も高い適合の可能性を有する前記記憶され符号化されたサブ・ワード表現から前記話声を認識する手順と、
認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成する手順と、
前記話声の前記生成され符号化されたサブ・ワード表現を他の入力音声信号の認識のために記憶する手順と、
で成る方法。
【請求項2】
前記サブ・ワード表現のシーケンスは、前記シーケンス内のノイズモデルを考慮に入れることにより緩かに制限されている請求項1記載の方法。
【請求項3】
前記サブ・ワード表現のシーケンスは、制限されていなくて、実際の言語の働きの中で生じないシーケンスの生成を許す請求項1記載の方法。
【請求項4】
同じ話声を表す1以上の後続の入力音声信号を受領して、該話声の複数の符号化された表現を生成する請求項1ないし3のいずれか1項に記載の方法。
【請求項5】
前記サブ・ワードが音素である請求項1ないし4のいずれか1項記載の方法。
【請求項6】
入力音声信号を受領し、前記入力音声信号から特徴データを生成する特徴ドライバと、
前記特徴ドライバからの前記特徴データを受領し、先に受領された入力音声信号に関連するいくつかの記憶されている符号化されたサブ・ワード表現と特徴データとを比較し、各記憶されている符号化されたサブ・ワード表現に対して前記特徴データの適合の可能性を決定し、最も高い適合の可能性を有する前記記録されている符号化されたサブ・ワード表現から前記話声を認識し、認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成するサブ・ワード認識器と、
該入力音声信号の、生成され符号化されたサブ・ワード表現を後の認識のために記憶するメモリと、
で成る語彙生成装置。
【請求項7】
前記サブ・ワード認識器は緩かに制限される文法を有する請求項6記載の語彙生成装置。
【請求項8】
前記サブ・ワード認識器は基準サブ・ワードモデルの制限されないシーケンスを識別するようにされている請求項6記載の語彙生成装置。
【請求項9】
入力音声信号を、請求項6ないし8のいずれか1項記載の語彙生成装置によって生成され符号化された表現により識別されるサブ・ワード表現のシーケンスと比較し、かつ認識を示す信号を出力するための音声認識器を備えている音声認識装置。
【請求項10】
さらに単語の符号化された表現を記憶する第2のメモリを備え、その符号化された表現は、第1のメモリに記憶された符号化された表現と比較してノイズを考慮に入れて異なる方法で生成されたものである請求項9記載の音声認識装置。
【請求項11】
前記第2のメモリの前記単語の符号化された表現が、基準サブ・ワード表現の所定のシーケンスを識別する請求項10記載の音声認識装置。
【請求項12】
請求項9ないし11のいずれか1項に記載の装置を採用した遠隔通信サービス。
【請求項13】
前記サービスがレパートリーダイヤル用サービスである請求項12記載の遠隔通信サービス。
【発明の詳細な説明】
【0001】
【発明の属する技術分野】
この発明は音声処理、とくに音声認識に関する。
【0002】
【従来の技術】
音声認識装置の開発者たちは終局の目的として人間が全く自然なやり方で、何の制限もなく対話をすることができるような機械を作ることを意図している。人間と機械とのインターフェースは理想的には完全に継ぎ目のない(シームレス)なものである。
【0003】
これは達成に近づきつつあるビジョンであるが、人間と機械との間が全くよどみなくというところまでは到達していない。よどみなくと行くには自動認識器が単語に関する際限のない語彙を要求し、どの使用者の音声も、その者たちのアクセントや話し方(エナンシエーション)などとは無関係に理解することができる必要があるとされる。現在の技術と、人間が音声をどのように理解し始めるかについての我々の限られた理解とではこの課題は実現可能にはならない。
【0004】
現在の音声認識装置には装置が認識することができるとされている限られた語彙が関係するデータを含んでいる。このデータは一般に統計モデルもしくは限られた語彙の単語を表わすテンプレートと関係している。認識に際して、入力信号は記憶されたデータと比較されて、入力信号と記憶されたデータとの間の類似性が判断される。十分に近い整合が見付かると、信号はその一番近い整合をもたらしたそのモデル又はテンプレート(もしくはモデル又はテンプレートのシーケンス)として認識されたと一般には考えられている。
【0005】
テンプレート又はモデルは一般には入力音声の特定の特徴を測定することによって形成される。この特徴測定は通常はスペクトル解析技術のある形式、すなわち、フィルタバンク分析器、線形予測符号化解析もしくは離散的変換解析などの技術形式の出力である。同一音声の音(サウンド)(すなわち特定の単語、句など)に対応する1又は複数の訓練用入力についての特徴測定が一般には使われてその音の特徴を表わす1又は複数の基準パターンが作られる。この基準パターンはある種の平均化技術から得られるテンプレートとなることができ、あるいは特定の音についての訓練用入力のもつ特徴についての統計を特徴づけるモデルとなることができる。
【0006】
未知の入力は認識語彙の各々の音に対する基準パターンと比較され、未知の入力と各基準パターンとの類似の尺度が計算される。このパターン分類段階はグローバル・タイム・アラインメント過程(全体的な時間整列過程、ダイナミック・タイム・ワーピングDTWとして知られている)すなわち、話し方の異なる速さ(レート)を補償するものを含めることができる。類似の尺度は次にどの基準パターンが未知の入力と一番よく整合するか、したがってどれが認識されたと考えられるかを決めるために使用される。
【0007】
この音声認識器の意図的な使用でシステムの特性を判断することもできる。例えば、話者に依存するように設計されたシステムは単一の話者からの訓練用入力だけを必要とする。したがって、モデル又はテンプレートはある特定の話者の入力音声を表わしており、多数の使用者についての平均的な音声を表わしていない。このようなシステムがその訓練用入力を受領することとなった話者についてはよい認識率をもっているが、このようなシステムは明らかに他の使用者による使用には適していない。
【0008】
話者から独立した認識は複数の話者の話声から形成される単語モデルに依存している。統計的なモデルもしくはテンプレートで各特定音声入力の訓練用話声のすべてを表わしているものが後の認識目的に対して形成される。話者から独立したシステムは多人数の使用者に対し比較的よく動作するが、話者から独立したシステムの性能はアクセント,イントネーション,エナンシエーションなどが訓練用サンプルとはかなり違う使用者については低い性能をもつ。
【0009】
受け入れることができる語彙を拡張するためには、追加の語彙についての十分な訓練用サンプルを得なければならない。これは時間のかかる作業で、語彙が繰返し変更されるときにはとてもよしとはされない。
【0010】
あるシステムが認識することができるようになる語彙がテキスト形式で追加の語彙を入力するサービス提供者によって拡張できるようになっている音声認識システムを提供することは知られている。このようなシステムの一例はAT&TからのFlexwordである。このようなシステムでは単語がテキスト形式から音声学的規則に従った音声表現(フォネテック・トランスクリプション)に変換される。これらのトランスクリプションが認識器で各フォニームの音響モデルをもつもので使われる。
【0011】
言葉の中のフォニームの数は時に判断事項であり、関与する特定の言語学者に依存することになる。英語の場合には表1に示すようなほぼ40のフォニームがある。
【表1】
【0012】
ここでいうフォニームとかサブワードというのは単語の構成用ブロックとして便利なもので、例えばフォニーム,フォニームのストリング(糸),アロフォン(異音)などである。ここでフォニームもしくはサブ・ワードと言うのはいずれも相互互換性があり、この広義の解釈に立つものとする。
【0013】
認識目的のためには、音素論的に記述されたテキスト(phonemically transcribed text)が個々のフォニーム(音素)を表わす記憶されたモデルから形成できる。認識の際に、入力音声は各許容される単語もしくは語句(フレーズ)を表わす基準モデルのストリングと比較される。個々のフォニームを表わすモデルは話者とは独立した仕方で、異なる多数の話者の話声から生成することができる。どんな適当なモデルも使用でき、例えば隠れたMarkovモデルが使われる。
【0014】
このようなシステムは単語の標準的な音素的記述からのずれ(ゆらぎ)を許さない。例えばある人が強いアクセントがあると許容されない。したがって、使用者がシステムの語彙内にある単語を話したとしても入力音声がこうして認識されないことになる。
【0015】
話者に依存しないシステムを採用できるのが望ましく、それによってある使用者がモデルとなった話者とは違う発音をしても使用可能となるようにする。欧州特許出願No.453649はこのような装置を記述しており、そこでは装置語彙の許された単語が、例えばフォニーム(音素)のような単語のサブユニットを表わすモデルの連結(コンカテネーション)によってモデル化されている。“単語(word)”モデル、すなわち記憶されたコンカテネーションは次に特定の使用者の音声に対して学習訓練がされ、その使用者の音声からの単語モデルに対する新しいパラメータを推定するようになる。こうして分った、前もって定義された単語モデル(フォニームモデルのコンカテネーションから形成されたもの)が特定の使用者に適したものとして採用される。
【0016】
同様に、欧州特許出願No.508225は音声認識装置を記述しており、そこでは認識される単語がその単語を表わすフォニームシーケンスと一緒に記憶されている。学習訓練中は、使用者は語彙の単語を話し、フォニームモデルのパラメータが使用者の入力に適応させられる。
【0017】
これら既知のシステムの双方とも、予め定義された語彙としてフォニームの連結(コンカテネーション)されたシーケンスの形態のものを必要とする。しかし、多くの場合、ある使用者にとって望ましいことは語彙に単語を追加し、それらの単語がその使用者にとって特有のものであるようにすることであろう。この融通性を現実の使用者に提供するための1つの既知手段には話者依存の技術を用いて新単語モデルを形成し、それを次に別な語彙目録(レキシコン)に記憶することである。この使用者はシステムを学習訓練するために1又は複数回各単語を話さなければならない。これらの話者依存のモデルはDTW(ダイナミック・タイム・ワーピング)又は類似の技術で各使用者のテンプレートを記憶するために比較的大量のメモリを必要とするものを用いて通常は形成される。典型的なものは、各使用者に対する各単語は少くとも125バイト(恐らくは2キロバイトを超える)を占有することになる。これは20の単語語彙では2.5から40キロバイトの間が、認識を開始できるようになる前に認識器にダウンロードされなければならないことを意味している。さらに、ちょうど100人の使用者をもつ電話網応用サービスでは使用者のテンプレートのためにだけでも2.5から20メガバイトのディスクメモリを必要とすることになる。このようなサービスの一例はレパートリー・ダイヤル発信器(ダイヤラ)と呼ばれるもので、ある使用者がかけたいと思う人々を決めて、後に電話呼がかけたい相手の名前を話すことで生ずるようにするものである。
【0018】
欧州特許出願No.590173が記述しているシステムは、使用者が認識システムにとって未知である単語を話し、単語を補正することができ、かつシステムの語彙にこの単語を加えることができるようにしたものである。認識システムに対して新しい単語を既知とするための唯一の記述されている方法はキーボードを経て入力することである。
【0019】
【発明の概要】
この発明によると、音声認識装置のための語彙を生成する方法は話声を表わしている入力音声信号を受領し;この話声に最もよく似ている一連の基準サブワード表現を複数の基準サブワード表現から識別する、符号化された表現を各話声から生成し;後の認識目的のために生成された話声の符号化された表現を記憶する方法である。
【0020】
このような方法は、使用者にとって新しい単語をその各々についての新しい音響学的モデルを形成する必要なしに選ぶことができ、その使用者にとって固有の一連の基準サブワード表現として各単語又は語句(フレーズ)をモデル化しなくともよい。このことは語彙に加えるべき単語についての予備的知識を必要としないから、使用者は所望のいずれの単語又は語句も加えることができる。
【0021】
使用者によって選ばれた単語についての符号化された表現は、テキストから形成されたモデルよりもその使用者の話し言葉によく似ていることになりそうである。加えて、符号化された表現はメモリ容量がDTWモデルとして単語表現を記憶するよりも少くとも1桁小さなものを必要とする(もっとも精度について見ると僅かなことである)。
【0022】
望ましくは、符号化された表現の生成は文法上の規則によって制限されず、したがってどのサブ・ワード表現も他のものが続くことができる。代って、2字で1音を表わす連字文法が使用でき、この場合は例えばフォニームといったサブ・ワードの各対間の遷移確率が登場してくる。従って、ある音声内では通常発生しないフォニームの対(例えば英語におけるP H)は低い遷移確率をもつ。
【0023】
同じ話声を表わす複数の音声信号の符号化された表現が生成される。符号化された表現内のいずれかの異常が次に報告される。例えば、もし話し言葉がノイズを含んだ電話ライン上でされると、この話し言葉の符号化された表現は明瞭な電話ライン上での同じ話し言葉の符号化された表現とは少しも似ていないものとなる。話し言葉の3回の学習訓練用入力を受領して、他とは著しく異なる符号化された表現を無視するのは適切なことである。代りに、符号化された表現を全部保存してもよい。符号化された表現の全部が記憶されるか否かの判断はこの装置の開発者によるものである。
【0024】
この発明を第2の観点からとらえると、語彙生成回路が、入力音声信号から特徴サンプルを抽出するための手段と;入力音声信号の各サンプルから符号化された表現を生成し、その表現が該入力音声信号ともっともよく類似している一連の基準サブ・ワード表現を複数の基準サブ・ワード表現から識別するものとして生成するためのサブ・ワード認識器と;後続の認識目的のために入力音声信号の符号化された表現を記憶するためのメモリとで構成されている。
【0025】
この装置は符号化された表現によって表わされる話し言葉を認識するように構成された。音声認識器と関連させることを意図している。認識の際には、この音声認識器は未知の入力音声信号を、メモリ内に記憶されている符号化した表現によって表わされるサブ・ワード表現のシーケンスと比較して、認識もしくはそうでないことを示す信号を出力する。
【0026】
好ましくは、サブ・ワード認識器の文法はゆるやかな制限をもつものとする。例えば、サブ・ワード認識器は一例としてラインノイズによって制限を受けたいずれかのサブ・ワードユニットのシーケンスを認識するという条件を課せられていてよい。あるいは代って、連字文法を用いてフォニームの各対間の遷移確率を与えるようにしてもよい。
【0027】
音声認識装置はある予め定義された単語も認識するように構成されてよい。好ましくは、予め定義された単語はまた予め定義された単語のサブ・ワード転写の符号化した表現として記憶される。予め定義された単語と使用者によって選ばれた単語とはこうして同じ基準サブ・ワードを用いてモデル化される。音声認識器は使用者が選択した単語と関連して予め定義された単語を認識するように構成される。
【0028】
望ましくは、基準サブ・ワード表現はフォニーム(音素)を表わすものである。各サブ・ワード表現は複数の話者の入力音声で特定のサブ・ワードを含むものの統計的モデルであってよい。望ましくは、モデルは隠れたMarkovモデルとするが、他のモデルも使うことができる。
【0029】
【発明の実施形態】
この発明は、例として、添付の図面を参照して以下に記述される。
【0030】
図1を見ると、遠隔通信システムには音声認識が含まれており、その構成は、一般にマイクロホン1(典型的なものは電話ハンドセットの一部を構成している)、遠隔通信網(典型的には公衆交換電気通信網(PSTN))、音声認識器3で網2から音声信号を受領するように接続されたもの、及び利用装置4で音声認識器3に接続され、音声認識信号をそこから受領するようにされていて、それに応答する動作を行うもので構成されている。ここで音声認識信号は特定の単語又は語句を認識したことを示しているか、そうでないことを示しているものとする。例えば、利用装置4は遠隔操作のレパートリー(貯え)ダイヤル用システムで、そこでは使用者が所望の番号をダイヤルせずにダイヤルすべき人物の名前を話すだけでよい。
【0031】
多くの場合、利用装置4は使用者に対して可聴応答を生成し、網2を経由してラウドスピーカで一般には使用者のハンドセットの一部を形成するものに送られる。
【0032】
動作では、使用者はマイクロホン1に向って話をし、信号がマイクロホン1から網に入って音声認識器3へ送られる。音声認識器は音声信号を解析し、特定の単語又は語句の認識もしくはそれ以外を示す信号が生成されて利用装置4に送られ、そこでは次に音声認識事象での適切な動作が行なわれる。
【0033】
使用者が先ず利用装置4によって提供されたサービスを使用するときは、音声認識器3は語彙についてのデータを取得する必要があり、それに対して後続の未知音声信号が検証される。このデータ取得は教育訓練動作モードにある語彙生成器によって実行され、このモードでは使用者は教育訓練用入力音声サンプルを用意し、そこから教育訓練用入力音声のサブ・ワード内容の符号化された表現が生成されて、後続の認識目的にあてられる。
【0034】
図2には、この発明による語彙生成器9の機能要素が示されている。語彙生成器9は特徴抽出器6を備え、連続したサンプルの一連のフレームとして区分されている入力音声信号から特徴データを抽出する。このフレームは入力音声の16msサンプルを通常を表わしており、各サンプルは(例えばHammingウインドウを用いて)窓がけがされている。適切な特徴抽出器の例は既知技術であり、フィルタバンク解析器、線形予測符号化解析器あるいは離散的変換解析といったスペクトル解析技術のある種の形態で構成できる。
【0035】
この特徴は例えばセプストラル係数(Cepstral coefficients) (Chollett & Gagnoulet “On the Evaluation of Speech Recognisers and Databases using a Reference System” 1982, proc. IEEE p2026に記述されている。LPCセプストラル係数、メル・フリケンシイ・セプストラル係数(mel frequency cepstral coefficientsがその例)もしくはこの種の係数の異なる値で、各係数に対して、この係数と先のベクトル内の対応する係数値との差で成るもの(Soong & Rosenberg “On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition”, 1988 IEEE Trans, on Acoustics, Speech and Signal Processing Vol.36 No.6 p871に記載がある)である。同様に、特徴係数のいくつかの形式のものが使用できる。この特徴抽出器は適切にプログラムされたディジタル信号処理装置(DSP)デバイスで作られる。この特徴抽出器6の出力データの組はサブ・ワード認識器7の入力を形成している。
【0036】
サブ・ワード認識器7は表1に示した40のフォニームを表わすHMMモデルを有するサブ・ワードモデルメモリ8と関係している。モデルメモリ8はフィールド81,82…で成り、それらが複数のサブ・ワードの各々に対してある。例えば、サブ・ワード認識器はフォニームを認識するために設計されていて、従って、フィールドは各フォニームのためのモデルメモリ内に用意されている。
【0037】
サブ・ワード認識器7はメモリ8内部の各フィールドを順に読むようにされていて、各々に対して、現在の入力特徴係数の組を用いて、入力特御の組が対応するフィールドに相当する確率を計算する。最も可能性の高いサブ・ワードモデルを示す信号が出力されて単語メモリ10内に記憶される。こうして、単一の話声に対して、単語メモリ10はある符号化された表現であって、それが基準サブ・ワードモデルのシーケンスを示し、入力音声を一番近く表現すると、サブ・ワード認識器が判断している表現を記憶する。
【0038】
この計算はよく知られているHMMを採用する(S. J. Cox, “Hidden Markov Models for Automatic Speech Recognition: Theory and Application “British Telecom Technology Journal Vol.6 No.2 April 1988に記述がある)。都合よいことに、サブ・ワード認識器7によって実行されるHMM処理はよく知られているViterbiアルゴリズムを用いる。サブ・ワード認識器7は、例えば、Intel(TM)i−486(TM)マイクロプロセッサもしくはMotorola(TM)6800マイクロプロセッサのようなマイクロプロセッサであるか、あるいはDSPデバイス(例えば、特徴抽出器6と同じようなDSPデバイス)であってもよい。
【0039】
前に記述したように、サブ・ワード認識器と関連があるサブ・ワードモデルは話者とは独立した方法で得られる。サブ・ワード認識器7により生成された符号化した表現はそれ故にそれら表現がある使用者が単語をどのように発音するかについて音素による記述を表わしている限度で話者に依存している。
【0040】
サブ・ワード認識器7は認識ネットワークを備え、それは生成されるサブ・ワードユニットの可能性のあるシーケンスに対してあったとしても僅かな制限条件を課するにすぎない。図3には僅かに制限されたネットワークの例を示す。このネットワークはノイズによって制限されたフォニームの単一の連結されたシーケンスを認識することができる。フォニームのシーケンスは全く制限されておらず、またフォニームのシーケンスで作用している音声(この例では英語を記述している)で生じないものは従って生成されない。
【0041】
図3に示した認識ネットワークは現在、完全に制限されていないネットワーク、すなわちフォニームモデルの前後でノイズモデルのないもの、よりも電話の音声に対してはよい記述結果を与えている。これはフォニームの次にノイズがその次にフォニームが続くものを容認しない。実用上のシステムについてこれがもつ重要な意味あるいは孤立している単語もしくは接続された語句に対するシステムの正確さを増強するが、もし使用者が単語の間に隙き間のある語句を入れると問題を生ずるということである。例えば、レパートリーダイヤルでは、使用者が“ジョン スミス”(John Smith)”を名前と名字との間をあけずに言うとすると、このような文法形式は何の問題を生じない。しかし、他方、両者間に隙き間を残すと性能が影響を得ける。しかし、サブ・ワード認識器の認識ネットワークはシステムの要求にかなうように、例えば孤立した単語とか連結した単語などにかなうように設計される。
【0042】
このサービスを最初に使用するときは、利用装置が使用者に助言をして使用者が認識器の語彙に加えたいと思う単語を用意させる。利用装置からの可聴助言に応答して、使用者は選んだ単語をマイクロホンに向けて話す。レパートリーダイヤル用システムでは、この単語は使用者が呼び出したい人物の名前、例えば“ジェーン(Jane)”である。
【0043】
語彙生成器はこの入力から特徴を抽出してそれをサブ・ワード認識器7に送る。入力音声を受領すると、メモリ8内のモデルとの整合がされる。サブ・ワード認識器7は図3に示したような認識ネットワークを備えていて、話し言葉入力の符号化された表現を生成し、この符号化された表現は入力音声と一番よく似ているモデルのシーケンスを識別する。こうして、入力音声の音素の記述が生成される。教育訓練用話声について生成された符号化された表現がメモリ10内に記憶される。使用者は次に入力を繰返すように助言を与えられて、入力音声のもっと確定的な表現が形成される。
【0044】
実験によって次のことが見出された。すなわち、唯1回の話声の教育訓練では正確さの87.8%が達成され、3回の教育訓練の話声では正確さは93.7%と著しく上昇した。明らかに悪い品質の電話ラインは生成結果に重大な効果をもたらすことになる。3回の教育訓練話声が行なわれたときに達成された正確さは、テキスト入力からの理想化された受領発音記述がサブ・ワード表現の代りに用いられた場合よりもまた大きいものであった。受領した発音は標準的な南部イギリスの英語のアクセントである。
【0045】
さらに助言が使用者に与えられて、別な単語を加えるかどうかを尋ねる。これに肯定的に使用者が答えると(例えば予め定義されたDTMFキーを用いる)、認識プロセスが次の単語について繰返えされる。もし使用者の答が否定的であるときは、システムは認識モールドに切換り、音声認識器3が動作状態となる。メモリ10には記憶された符号化した表現があり、各追加の語彙アイテムに対して、一連の基準サブ・ワード表現を識別する。
【0046】
ひとたび、表現が語彙の所望の単語の各々に対して生成されると、語彙は音声認識器3によって使用できる。図4は音声認識器3の要素を示す。音声認識器3は特徴抽出器6´、サブ・ワードモデルメモリ8´、語彙生成器9によって生成された符号化された表現のメモリ10で成る。ネットワーク生成器12はメモリ10と関係しており、符号化された表現によって表わされる基準サブ・ワード表現のシーケンスにより構成される認識ネットワークを作る。このようなネットワークは例えばメモリ10からの個々の符号化した表現を組合せて、図5に示すようなネットワークの並列代替物とするか、あるいは図6に示すような木(トリー)構造に符号化した表現を組合せることにより生成でき、いずれもが単語“six”と“seven”の話声で識別されるフォニームのシーケンスを例として示している。
【0047】
認識の間に、入力音声信号は特徴抽出用手段6´に送られ、特徴は認識器16でネットワーク生成器12によって構築されたネットワークと関係しているものへ送られる。未知の入力音声は構築された網と比較され、信号が認識器16から出力されるのは、近い整合が未知の入力言語とネットワークの枝の1つとの間で見付けられたときであり、したがって符号化された表現によって表わされる単語又は語句の1つとの整合が見付けられたときである。ひとたび認識が生ずると、利用装置4が次の適当な段階をサービスに従ってとることになり、例えばレパートリーダイヤル用サービスであると認識器16は単語“Jane”が認識されて、利用装置が名前“Jane”と関係する番号をダイヤルすることになる。
【0048】
図7はこの発明の第2の実施例を示す。図2と3とが語彙生成器9と音声認識器3とを別な部品として示したのに対して、図7はそれらが音声認識装置20内部で結合されている。語彙生成器9と認識器16とは共通部品、すなわち特徴抽出器6と、サブ・ワードモデルメモリ8と、使用者が選択した単語のメモリ10とを共用している。音声認識装置20にはさらに予め定義した単語メモリ14が含まれ、そこには予め定義された符号化された表現であって、意図している利用装置に適した予め定義された単語のフォニーム記述に関する表現が記憶されている。例えば、レパートリーダイヤル用システムでは、これらの予め定義された単語はディジット0ないし9、“ダイヤル”,“ノー”,“イエス”,“加える”などであろう。
【0049】
音声認識装置20は正規には認識モード、すなわち入力音声信号が認識器16へ送られるモードである。使用者がシステム語彙にある単語を加えたいときは使用者は“加える”と言う。この信号が特徴抽出器6へ送られ、特徴が認識器に送られる。ネットワーク生成器12はメモリ14と10内に表現されている全単語で成るネットワークを生成する(初めはメモリ10内に記憶された単語はない)。認識器16は入力とネットワークとを整合させて、入力を単語“加える”と認識し、応答として入力を語彙生成器9に切換えることにより教育訓練用モードに入る。
【0050】
使用者は次に進むが、それはシステムの語彙に加えるべき名前を話した前の例と同様である。語彙生成器9のサブ・ワード認識器7は使用者が選択したメモリ10内に記憶するための符号化した表現を生成する。しかし、使用者は利用装置からの助言に対して、話し言葉で“イエス”及び“ノー”を言うことにより応答することができ、入力音声信号は特定の応答が期待されるときには認識器16へ切換えられる。
【0051】
ひとたび使用者が所望の単語を選択すると、ネットワーク生成器12によって生成された後続のネットワークはメモリ14からの予め定義した単語とメモリ10からの使用者が選択した単語とを組合わせる。結果として認識器は文法を備え単語のあるものは使用者の音声から得られたシーケンスによって予め定義され、ある単語は別のソースから得られたシーケンスによって予め定義される。2つのメモリからの単語は組合されて、例えば単語“ダイヤル”が予め定義されると、認識ネットワークは選択された単語の各々と“ダイヤル”とを組合せて構成することができ、それによってシステム文法が連結された音声“ダイヤル ジェーン(Janeにダイヤルする)”(ここで“ダイヤル”は予め定義されており、“Jane”は使用者が選択するものである)を許す。
【0052】
語彙の50%が予め定義されている音声認識装置は、唯一の教育訓練用話声が用意されたときに、使用者が選択した全語彙と同じ正確さをもつ。しかし、このような装置の正確さは3回の教育訓練用話声が用意されたときに使用者が選択した全語彙とは著しく悪いものとなる。
【0053】
こうして、この発明の別な実施例では、音声認識器20は予め定義したメモリ14内に多数の予め定義した単語と、教育訓練モードで定義されたメモリ10内に多数の使用者選択単語とを有している。予め定義した単語のサブ・ワード表現は使用者の入力音声から、この装置の使用時に、特徴抽出手段6からの特徴をサブ・ワード認識器7とともに認識器16にも送ることによって生成される。話声のためにサブ・ワード認識器によって生成された符号化された表現がメモリ10に加えられる。後の話声はメモリ10内に記憶されている表現に、メモリ14内に記憶されている表現よりもよく整合するはずであり、予め定義した単語の認識で正確さの改善がもたらされる。
【図面の簡単な説明】
図1は遠隔通信環境においてこの発明による音声認識を採用する際の模式図を示す。
図2はこの発明による語彙生成器の機能素子を模式的に示す構成図である。
図3はゆるやかな制限のネットワークの例を示し、図2の語彙生成器で使われているものである。
図4は図2に示した語彙生成器とともに使うための音声認識器を示す。
図5は図4の音声認識器とともに使用される認識ネットワークの例を示す。
図6は図5に示すものの代りの認識ネットワークを示す。
図7はこの発明による音声認識装置の第2実施例を示す。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| GB94308023.4 | 1994-11-01 | ||
| EP94308023 | 1994-11-01 | ||
| PCT/GB1995/002563 WO1996013827A1 (en) | 1994-11-01 | 1995-11-01 | Speech recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10507536A JPH10507536A (ja) | 1998-07-21 |
| JPH10507536A5 true JPH10507536A5 (ja) | 2008-08-21 |
Family
ID=8217896
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8513513A Pending JPH10507536A (ja) | 1994-11-01 | 1995-11-01 | 言語認識 |
Country Status (16)
| Country | Link |
|---|---|
| US (1) | US6389395B1 (ja) |
| EP (1) | EP0789901B1 (ja) |
| JP (1) | JPH10507536A (ja) |
| KR (1) | KR100383353B1 (ja) |
| CN (1) | CN1121680C (ja) |
| AU (1) | AU707355B2 (ja) |
| CA (1) | CA2202656C (ja) |
| DE (1) | DE69514382T2 (ja) |
| DK (1) | DK0789901T3 (ja) |
| ES (1) | ES2143079T3 (ja) |
| FI (1) | FI971822A0 (ja) |
| MX (1) | MX9703138A (ja) |
| NO (1) | NO309750B1 (ja) |
| NZ (1) | NZ294659A (ja) |
| PT (1) | PT789901E (ja) |
| WO (1) | WO1996013827A1 (ja) |
Families Citing this family (45)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2000022609A1 (en) * | 1998-10-13 | 2000-04-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition and control system and telephone |
| JP2000187435A (ja) * | 1998-12-24 | 2000-07-04 | Sony Corp | 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法 |
| AU777693B2 (en) | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
| EP1228452B1 (en) * | 1999-10-28 | 2007-09-19 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
| US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
| US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
| GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
| GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
| GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
| GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
| GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
| US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
| US20030115169A1 (en) * | 2001-12-17 | 2003-06-19 | Hongzhuan Ye | System and method for management of transcribed documents |
| US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
| US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
| US20030200094A1 (en) * | 2002-04-23 | 2003-10-23 | Gupta Narendra K. | System and method of using existing knowledge to rapidly train automatic speech recognizers |
| US7206738B2 (en) * | 2002-08-14 | 2007-04-17 | International Business Machines Corporation | Hybrid baseform generation |
| DE10244169A1 (de) * | 2002-09-23 | 2004-04-01 | Infineon Technologies Ag | Spracherkennungseinrichtung, Steuereinrichtung und Verfahren zum rechnergestützten Ergänzen eines elektronischen Wörterbuches für eine Spracherkennungseinrichtung |
| WO2004036939A1 (fr) * | 2002-10-18 | 2004-04-29 | Institute Of Acoustics Chinese Academy Of Sciences | Appareil de communication mobile numerique portable, procede de commande vocale et systeme |
| US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
| JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
| US7302389B2 (en) * | 2003-05-14 | 2007-11-27 | Lucent Technologies Inc. | Automatic assessment of phonological processes |
| US20040230431A1 (en) * | 2003-05-14 | 2004-11-18 | Gupta Sunil K. | Automatic assessment of phonological processes for speech therapy and language instruction |
| US7373294B2 (en) * | 2003-05-15 | 2008-05-13 | Lucent Technologies Inc. | Intonation transformation for speech therapy and the like |
| US20040243412A1 (en) * | 2003-05-29 | 2004-12-02 | Gupta Sunil K. | Adaptation of speech models in speech recognition |
| US20080208578A1 (en) * | 2004-09-23 | 2008-08-28 | Koninklijke Philips Electronics, N.V. | Robust Speaker-Dependent Speech Recognition System |
| US20090291419A1 (en) * | 2005-08-01 | 2009-11-26 | Kazuaki Uekawa | System of sound representaion and pronunciation techniques for english and other european languages |
| US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
| US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
| US8386248B2 (en) * | 2006-09-22 | 2013-02-26 | Nuance Communications, Inc. | Tuning reusable software components in a speech application |
| US7881932B2 (en) * | 2006-10-02 | 2011-02-01 | Nuance Communications, Inc. | VoiceXML language extension for natively supporting voice enrolled grammars |
| EP2308042B1 (en) * | 2008-06-27 | 2011-11-02 | Koninklijke Philips Electronics N.V. | Method and device for generating vocabulary entries from acoustic data |
| US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
| US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
| US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
| GB2486038B (en) * | 2011-06-28 | 2013-09-25 | Andrew Levine | Speech-to-text conversion |
| US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
| US9135912B1 (en) * | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
| TWI536366B (zh) | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
| US9607618B2 (en) * | 2014-12-16 | 2017-03-28 | Nice-Systems Ltd | Out of vocabulary pattern learning |
| US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
| KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
| WO2020014890A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
| WO2020014899A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 语音控制方法、中控设备和存储介质 |
| CN112951270B (zh) * | 2019-11-26 | 2024-04-19 | 新东方教育科技集团有限公司 | 语音流利度检测的方法、装置和电子设备 |
Family Cites Families (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4489434A (en) | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
| US5129000A (en) * | 1986-04-05 | 1992-07-07 | Sharp Kabushiki Kaisha | Voice recognition method by analyzing syllables |
| US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
| US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
| US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
| US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
| US5181237A (en) | 1990-10-12 | 1993-01-19 | At&T Bell Laboratories | Automation of telephone operator assistance calls |
| US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
| DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
| US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
| CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
| US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
| EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
| WO1994014270A1 (en) * | 1992-12-17 | 1994-06-23 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
| US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
| US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
| US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
| US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
| US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
-
1995
- 1995-11-01 EP EP95935526A patent/EP0789901B1/en not_active Expired - Lifetime
- 1995-11-01 NZ NZ294659A patent/NZ294659A/xx not_active IP Right Cessation
- 1995-11-01 JP JP8513513A patent/JPH10507536A/ja active Pending
- 1995-11-01 KR KR1019970702853A patent/KR100383353B1/ko not_active Expired - Lifetime
- 1995-11-01 CA CA002202656A patent/CA2202656C/en not_active Expired - Lifetime
- 1995-11-01 AU AU37516/95A patent/AU707355B2/en not_active Expired
- 1995-11-01 DE DE69514382T patent/DE69514382T2/de not_active Expired - Lifetime
- 1995-11-01 FI FI971822A patent/FI971822A0/fi unknown
- 1995-11-01 WO PCT/GB1995/002563 patent/WO1996013827A1/en not_active Ceased
- 1995-11-01 CN CN95195955A patent/CN1121680C/zh not_active Expired - Lifetime
- 1995-11-01 ES ES95935526T patent/ES2143079T3/es not_active Expired - Lifetime
- 1995-11-01 DK DK95935526T patent/DK0789901T3/da active
- 1995-11-01 US US08/817,072 patent/US6389395B1/en not_active Expired - Lifetime
- 1995-11-01 MX MX9703138A patent/MX9703138A/es unknown
- 1995-11-01 PT PT95935526T patent/PT789901E/pt unknown
-
1997
- 1997-04-30 NO NO972026A patent/NO309750B1/no not_active IP Right Cessation
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0789901B1 (en) | Speech recognition | |
| JPH10507536A5 (ja) | ||
| US5913192A (en) | Speaker identification with user-selected password phrases | |
| US6671669B1 (en) | combined engine system and method for voice recognition | |
| US5791904A (en) | Speech training aid | |
| JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
| EP1095371A1 (en) | Language independent speech recognition | |
| WO2007117814A2 (en) | Voice signal perturbation for speech recognition | |
| JPH11511567A (ja) | パターン認識 | |
| KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
| Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
| JPH075892A (ja) | 音声認識方法 | |
| US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
| Karpagavalli et al. | Phoneme and word based model for tamil speech recognition using GMM-HMM | |
| US20040006469A1 (en) | Apparatus and method for updating lexicon | |
| US20020095282A1 (en) | Method for online adaptation of pronunciation dictionaries | |
| Furui | Robust methods in automatic speech recognition and understanding. | |
| Atal et al. | Speech research directions | |
| JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
| Boves et al. | ASR for automatic directory assistance: the SMADA project | |
| Zue et al. | Spoken language input | |
| Wu et al. | Application of simultaneous decoding algorithms to automatic transcription of known and unknown words | |
| Delić et al. | A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian | |
| Kessens et al. | Automatic detection and verification of Dutch phonological rules | |
| HK1002787B (en) | Speech recognition |