JPH10507536A5 - - Google Patents

Info

Publication number: JPH10507536A5
Authority: JP; Japan
Prior art keywords: word; audio; recognizer; user; sub
Prior art date: 1995-11-01
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.): Pending

Application number

JP1996513513A

Other languages

English (en)

Other versions

JPH10507536A (ja

Filing date

1995-11-01

Publication date

2008-08-21

1995-11-01 Application filed filed Critical

1995-11-01 Priority claimed from PCT/GB1995/002563 external-priority patent/WO1996013827A1/en

1998-07-21 Publication of JPH10507536A publication Critical patent/JPH10507536A/ja

2008-08-21 Publication of JPH10507536A5 publication Critical patent/JPH10507536A5/ja

Status Pending legal-status Critical Current

Links

Description

【書類名】明細書
【発明の名称】音声認識
【特許請求の範囲】
【請求項１】
音声認識装置用の語彙を生成するための方法であって、
ユーザからの話声を表す入力音声信号を受領する手順と、
この受領した入力音声信号から特徴サンプルを抽出する手順と、
この特徴サンプルと、ユーザから先に受領された入力音声信号に関連しているユーザに独特なユーザの音声パターンを含む記憶され符号化されたサブ・ワード表現のシーケンスとを比較する手順と、
各記憶され符号化されたサブ・ワード表現に対して前記入力音声信号の前記特徴サンプルの適合の可能性を決定する手順と、
最も高い適合の可能性を有する前記記憶され符号化されたサブ・ワード表現から前記話声を認識する手順と、
認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成する手順と、
前記話声の前記生成され符号化されたサブ・ワード表現を他の入力音声信号の認識のために記憶する手順と、
で成る方法。
【請求項２】
前記サブ・ワード表現のシーケンスは、前記シーケンス内のノイズモデルを考慮に入れることにより緩かに制限されている請求項１記載の方法。
【請求項３】
前記サブ・ワード表現のシーケンスは、制限されていなくて、実際の言語の働きの中で生じないシーケンスの生成を許す請求項１記載の方法。
【請求項４】
同じ話声を表す１以上の後続の入力音声信号を受領して、該話声の複数の符号化された表現を生成する請求項１ないし３のいずれか１項に記載の方法。
【請求項５】
前記サブ・ワードが音素である請求項１ないし４のいずれか１項記載の方法。
【請求項６】
入力音声信号を受領し、前記入力音声信号から特徴データを生成する特徴ドライバと、
前記特徴ドライバからの前記特徴データを受領し、先に受領された入力音声信号に関連するいくつかの記憶されている符号化されたサブ・ワード表現と特徴データとを比較し、各記憶されている符号化されたサブ・ワード表現に対して前記特徴データの適合の可能性を決定し、最も高い適合の可能性を有する前記記録されている符号化されたサブ・ワード表現から前記話声を認識し、認識されなかった話声に応答して、文法のルールを無視して基準音素モデルから、ユーザに独特でありかつユーザの音声パターンに対応する前記話声の符号化されたサブ・ワード表現を生成するサブ・ワード認識器と、
該入力音声信号の、生成され符号化されたサブ・ワード表現を後の認識のために記憶するメモリと、
で成る語彙生成装置。
【請求項７】
前記サブ・ワード認識器は緩かに制限される文法を有する請求項６記載の語彙生成装置。
【請求項８】
前記サブ・ワード認識器は基準サブ・ワードモデルの制限されないシーケンスを識別するようにされている請求項６記載の語彙生成装置。
【請求項９】
入力音声信号を、請求項６ないし８のいずれか１項記載の語彙生成装置によって生成され符号化された表現により識別されるサブ・ワード表現のシーケンスと比較し、かつ認識を示す信号を出力するための音声認識器を備えている音声認識装置。
【請求項１０】
さらに単語の符号化された表現を記憶する第２のメモリを備え、その符号化された表現は、第１のメモリに記憶された符号化された表現と比較してノイズを考慮に入れて異なる方法で生成されたものである請求項９記載の音声認識装置。
【請求項１１】
前記第２のメモリの前記単語の符号化された表現が、基準サブ・ワード表現の所定のシーケンスを識別する請求項１０記載の音声認識装置。
【請求項１２】
請求項９ないし１１のいずれか１項に記載の装置を採用した遠隔通信サービス。
【請求項１３】
前記サービスがレパートリーダイヤル用サービスである請求項１２記載の遠隔通信サービス。

【発明の詳細な説明】
【０００１】
【発明の属する技術分野】
この発明は音声処理、とくに音声認識に関する。
【０００２】
【従来の技術】
音声認識装置の開発者たちは終局の目的として人間が全く自然なやり方で、何の制限もなく対話をすることができるような機械を作ることを意図している。人間と機械とのインターフェースは理想的には完全に継ぎ目のない（シームレス）なものである。
【０００３】
これは達成に近づきつつあるビジョンであるが、人間と機械との間が全くよどみなくというところまでは到達していない。よどみなくと行くには自動認識器が単語に関する際限のない語彙を要求し、どの使用者の音声も、その者たちのアクセントや話し方（エナンシエーション）などとは無関係に理解することができる必要があるとされる。現在の技術と、人間が音声をどのように理解し始めるかについての我々の限られた理解とではこの課題は実現可能にはならない。
【０００４】
現在の音声認識装置には装置が認識することができるとされている限られた語彙が関係するデータを含んでいる。このデータは一般に統計モデルもしくは限られた語彙の単語を表わすテンプレートと関係している。認識に際して、入力信号は記憶されたデータと比較されて、入力信号と記憶されたデータとの間の類似性が判断される。十分に近い整合が見付かると、信号はその一番近い整合をもたらしたそのモデル又はテンプレート（もしくはモデル又はテンプレートのシーケンス）として認識されたと一般には考えられている。
【０００５】
テンプレート又はモデルは一般には入力音声の特定の特徴を測定することによって形成される。この特徴測定は通常はスペクトル解析技術のある形式、すなわち、フィルタバンク分析器、線形予測符号化解析もしくは離散的変換解析などの技術形式の出力である。同一音声の音（サウンド）（すなわち特定の単語、句など）に対応する１又は複数の訓練用入力についての特徴測定が一般には使われてその音の特徴を表わす１又は複数の基準パターンが作られる。この基準パターンはある種の平均化技術から得られるテンプレートとなることができ、あるいは特定の音についての訓練用入力のもつ特徴についての統計を特徴づけるモデルとなることができる。
【０００６】
未知の入力は認識語彙の各々の音に対する基準パターンと比較され、未知の入力と各基準パターンとの類似の尺度が計算される。このパターン分類段階はグローバル・タイム・アラインメント過程（全体的な時間整列過程、ダイナミック・タイム・ワーピングＤＴＷとして知られている）すなわち、話し方の異なる速さ（レート）を補償するものを含めることができる。類似の尺度は次にどの基準パターンが未知の入力と一番よく整合するか、したがってどれが認識されたと考えられるかを決めるために使用される。
【０００７】
この音声認識器の意図的な使用でシステムの特性を判断することもできる。例えば、話者に依存するように設計されたシステムは単一の話者からの訓練用入力だけを必要とする。したがって、モデル又はテンプレートはある特定の話者の入力音声を表わしており、多数の使用者についての平均的な音声を表わしていない。このようなシステムがその訓練用入力を受領することとなった話者についてはよい認識率をもっているが、このようなシステムは明らかに他の使用者による使用には適していない。
【０００８】
話者から独立した認識は複数の話者の話声から形成される単語モデルに依存している。統計的なモデルもしくはテンプレートで各特定音声入力の訓練用話声のすべてを表わしているものが後の認識目的に対して形成される。話者から独立したシステムは多人数の使用者に対し比較的よく動作するが、話者から独立したシステムの性能はアクセント，イントネーション，エナンシエーションなどが訓練用サンプルとはかなり違う使用者については低い性能をもつ。
【０００９】
受け入れることができる語彙を拡張するためには、追加の語彙についての十分な訓練用サンプルを得なければならない。これは時間のかかる作業で、語彙が繰返し変更されるときにはとてもよしとはされない。
【００１０】
あるシステムが認識することができるようになる語彙がテキスト形式で追加の語彙を入力するサービス提供者によって拡張できるようになっている音声認識システムを提供することは知られている。このようなシステムの一例はＡＴ＆ＴからのＦｌｅｘｗｏｒｄである。このようなシステムでは単語がテキスト形式から音声学的規則に従った音声表現（フォネテック・トランスクリプション）に変換される。これらのトランスクリプションが認識器で各フォニームの音響モデルをもつもので使われる。
【００１１】
言葉の中のフォニームの数は時に判断事項であり、関与する特定の言語学者に依存することになる。英語の場合には表１に示すようなほぼ４０のフォニームがある。

【表１】
【００１２】
ここでいうフォニームとかサブワードというのは単語の構成用ブロックとして便利なもので、例えばフォニーム，フォニームのストリング（糸），アロフォン（異音）などである。ここでフォニームもしくはサブ・ワードと言うのはいずれも相互互換性があり、この広義の解釈に立つものとする。
【００１３】
認識目的のためには、音素論的に記述されたテキスト（ｐｈｏｎｅｍｉｃａｌｌｙｔｒａｎｓｃｒｉｂｅｄｔｅｘｔ）が個々のフォニーム（音素）を表わす記憶されたモデルから形成できる。認識の際に、入力音声は各許容される単語もしくは語句（フレーズ）を表わす基準モデルのストリングと比較される。個々のフォニームを表わすモデルは話者とは独立した仕方で、異なる多数の話者の話声から生成することができる。どんな適当なモデルも使用でき、例えば隠れたＭａｒｋｏｖモデルが使われる。
【００１４】
このようなシステムは単語の標準的な音素的記述からのずれ（ゆらぎ）を許さない。例えばある人が強いアクセントがあると許容されない。したがって、使用者がシステムの語彙内にある単語を話したとしても入力音声がこうして認識されないことになる。
【００１５】
話者に依存しないシステムを採用できるのが望ましく、それによってある使用者がモデルとなった話者とは違う発音をしても使用可能となるようにする。欧州特許出願Ｎｏ．４５３６４９はこのような装置を記述しており、そこでは装置語彙の許された単語が、例えばフォニーム（音素）のような単語のサブユニットを表わすモデルの連結（コンカテネーション）によってモデル化されている。“単語（ｗｏｒｄ）”モデル、すなわち記憶されたコンカテネーションは次に特定の使用者の音声に対して学習訓練がされ、その使用者の音声からの単語モデルに対する新しいパラメータを推定するようになる。こうして分った、前もって定義された単語モデル（フォニームモデルのコンカテネーションから形成されたもの）が特定の使用者に適したものとして採用される。
【００１６】
同様に、欧州特許出願Ｎｏ．５０８２２５は音声認識装置を記述しており、そこでは認識される単語がその単語を表わすフォニームシーケンスと一緒に記憶されている。学習訓練中は、使用者は語彙の単語を話し、フォニームモデルのパラメータが使用者の入力に適応させられる。
【００１７】
これら既知のシステムの双方とも、予め定義された語彙としてフォニームの連結（コンカテネーション）されたシーケンスの形態のものを必要とする。しかし、多くの場合、ある使用者にとって望ましいことは語彙に単語を追加し、それらの単語がその使用者にとって特有のものであるようにすることであろう。この融通性を現実の使用者に提供するための１つの既知手段には話者依存の技術を用いて新単語モデルを形成し、それを次に別な語彙目録（レキシコン）に記憶することである。この使用者はシステムを学習訓練するために１又は複数回各単語を話さなければならない。これらの話者依存のモデルはＤＴＷ（ダイナミック・タイム・ワーピング）又は類似の技術で各使用者のテンプレートを記憶するために比較的大量のメモリを必要とするものを用いて通常は形成される。典型的なものは、各使用者に対する各単語は少くとも１２５バイト（恐らくは２キロバイトを超える）を占有することになる。これは２０の単語語彙では２．５から４０キロバイトの間が、認識を開始できるようになる前に認識器にダウンロードされなければならないことを意味している。さらに、ちょうど１００人の使用者をもつ電話網応用サービスでは使用者のテンプレートのためにだけでも２．５から２０メガバイトのディスクメモリを必要とすることになる。このようなサービスの一例はレパートリー・ダイヤル発信器（ダイヤラ）と呼ばれるもので、ある使用者がかけたいと思う人々を決めて、後に電話呼がかけたい相手の名前を話すことで生ずるようにするものである。
【００１８】
欧州特許出願Ｎｏ．５９０１７３が記述しているシステムは、使用者が認識システムにとって未知である単語を話し、単語を補正することができ、かつシステムの語彙にこの単語を加えることができるようにしたものである。認識システムに対して新しい単語を既知とするための唯一の記述されている方法はキーボードを経て入力することである。
【００１９】
【発明の概要】
この発明によると、音声認識装置のための語彙を生成する方法は話声を表わしている入力音声信号を受領し；この話声に最もよく似ている一連の基準サブワード表現を複数の基準サブワード表現から識別する、符号化された表現を各話声から生成し；後の認識目的のために生成された話声の符号化された表現を記憶する方法である。
【００２０】
このような方法は、使用者にとって新しい単語をその各々についての新しい音響学的モデルを形成する必要なしに選ぶことができ、その使用者にとって固有の一連の基準サブワード表現として各単語又は語句（フレーズ）をモデル化しなくともよい。このことは語彙に加えるべき単語についての予備的知識を必要としないから、使用者は所望のいずれの単語又は語句も加えることができる。
【００２１】
使用者によって選ばれた単語についての符号化された表現は、テキストから形成されたモデルよりもその使用者の話し言葉によく似ていることになりそうである。加えて、符号化された表現はメモリ容量がＤＴＷモデルとして単語表現を記憶するよりも少くとも１桁小さなものを必要とする（もっとも精度について見ると僅かなことである）。
【００２２】
望ましくは、符号化された表現の生成は文法上の規則によって制限されず、したがってどのサブ・ワード表現も他のものが続くことができる。代って、２字で１音を表わす連字文法が使用でき、この場合は例えばフォニームといったサブ・ワードの各対間の遷移確率が登場してくる。従って、ある音声内では通常発生しないフォニームの対（例えば英語におけるＰＨ）は低い遷移確率をもつ。
【００２３】
同じ話声を表わす複数の音声信号の符号化された表現が生成される。符号化された表現内のいずれかの異常が次に報告される。例えば、もし話し言葉がノイズを含んだ電話ライン上でされると、この話し言葉の符号化された表現は明瞭な電話ライン上での同じ話し言葉の符号化された表現とは少しも似ていないものとなる。話し言葉の３回の学習訓練用入力を受領して、他とは著しく異なる符号化された表現を無視するのは適切なことである。代りに、符号化された表現を全部保存してもよい。符号化された表現の全部が記憶されるか否かの判断はこの装置の開発者によるものである。
【００２４】
この発明を第２の観点からとらえると、語彙生成回路が、入力音声信号から特徴サンプルを抽出するための手段と；入力音声信号の各サンプルから符号化された表現を生成し、その表現が該入力音声信号ともっともよく類似している一連の基準サブ・ワード表現を複数の基準サブ・ワード表現から識別するものとして生成するためのサブ・ワード認識器と；後続の認識目的のために入力音声信号の符号化された表現を記憶するためのメモリとで構成されている。
【００２５】
この装置は符号化された表現によって表わされる話し言葉を認識するように構成された。音声認識器と関連させることを意図している。認識の際には、この音声認識器は未知の入力音声信号を、メモリ内に記憶されている符号化した表現によって表わされるサブ・ワード表現のシーケンスと比較して、認識もしくはそうでないことを示す信号を出力する。
【００２６】
好ましくは、サブ・ワード認識器の文法はゆるやかな制限をもつものとする。例えば、サブ・ワード認識器は一例としてラインノイズによって制限を受けたいずれかのサブ・ワードユニットのシーケンスを認識するという条件を課せられていてよい。あるいは代って、連字文法を用いてフォニームの各対間の遷移確率を与えるようにしてもよい。
【００２７】
音声認識装置はある予め定義された単語も認識するように構成されてよい。好ましくは、予め定義された単語はまた予め定義された単語のサブ・ワード転写の符号化した表現として記憶される。予め定義された単語と使用者によって選ばれた単語とはこうして同じ基準サブ・ワードを用いてモデル化される。音声認識器は使用者が選択した単語と関連して予め定義された単語を認識するように構成される。
【００２８】
望ましくは、基準サブ・ワード表現はフォニーム（音素）を表わすものである。各サブ・ワード表現は複数の話者の入力音声で特定のサブ・ワードを含むものの統計的モデルであってよい。望ましくは、モデルは隠れたＭａｒｋｏｖモデルとするが、他のモデルも使うことができる。
【００２９】
【発明の実施形態】
この発明は、例として、添付の図面を参照して以下に記述される。
【００３０】
図１を見ると、遠隔通信システムには音声認識が含まれており、その構成は、一般にマイクロホン１（典型的なものは電話ハンドセットの一部を構成している）、遠隔通信網（典型的には公衆交換電気通信網（ＰＳＴＮ））、音声認識器３で網２から音声信号を受領するように接続されたもの、及び利用装置４で音声認識器３に接続され、音声認識信号をそこから受領するようにされていて、それに応答する動作を行うもので構成されている。ここで音声認識信号は特定の単語又は語句を認識したことを示しているか、そうでないことを示しているものとする。例えば、利用装置４は遠隔操作のレパートリー（貯え）ダイヤル用システムで、そこでは使用者が所望の番号をダイヤルせずにダイヤルすべき人物の名前を話すだけでよい。
【００３１】
多くの場合、利用装置４は使用者に対して可聴応答を生成し、網２を経由してラウドスピーカで一般には使用者のハンドセットの一部を形成するものに送られる。
【００３２】
動作では、使用者はマイクロホン１に向って話をし、信号がマイクロホン１から網に入って音声認識器３へ送られる。音声認識器は音声信号を解析し、特定の単語又は語句の認識もしくはそれ以外を示す信号が生成されて利用装置４に送られ、そこでは次に音声認識事象での適切な動作が行なわれる。
【００３３】
使用者が先ず利用装置４によって提供されたサービスを使用するときは、音声認識器３は語彙についてのデータを取得する必要があり、それに対して後続の未知音声信号が検証される。このデータ取得は教育訓練動作モードにある語彙生成器によって実行され、このモードでは使用者は教育訓練用入力音声サンプルを用意し、そこから教育訓練用入力音声のサブ・ワード内容の符号化された表現が生成されて、後続の認識目的にあてられる。
【００３４】
図２には、この発明による語彙生成器９の機能要素が示されている。語彙生成器９は特徴抽出器６を備え、連続したサンプルの一連のフレームとして区分されている入力音声信号から特徴データを抽出する。このフレームは入力音声の１６ｍｓサンプルを通常を表わしており、各サンプルは（例えばＨａｍｍｉｎｇウインドウを用いて）窓がけがされている。適切な特徴抽出器の例は既知技術であり、フィルタバンク解析器、線形予測符号化解析器あるいは離散的変換解析といったスペクトル解析技術のある種の形態で構成できる。
【００３５】
この特徴は例えばセプストラル係数（Ｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ） (Chollett & Gagnoulet “On the Evaluation of Speech Recognisers and Databases using a Reference System” 1982, proc. IEEE p2026に記述されている。ＬＰＣセプストラル係数、メル・フリケンシイ・セプストラル係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓがその例）もしくはこの種の係数の異なる値で、各係数に対して、この係数と先のベクトル内の対応する係数値との差で成るもの(Soong & Rosenberg “On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition”, 1988 IEEE Trans, on Acoustics, Speech and Signal Processing Vol.36 No.6 p871に記載がある）である。同様に、特徴係数のいくつかの形式のものが使用できる。この特徴抽出器は適切にプログラムされたディジタル信号処理装置（ＤＳＰ）デバイスで作られる。この特徴抽出器６の出力データの組はサブ・ワード認識器７の入力を形成している。
【００３６】
サブ・ワード認識器７は表１に示した４０のフォニームを表わすＨＭＭモデルを有するサブ・ワードモデルメモリ８と関係している。モデルメモリ８はフィールド８１，８２…で成り、それらが複数のサブ・ワードの各々に対してある。例えば、サブ・ワード認識器はフォニームを認識するために設計されていて、従って、フィールドは各フォニームのためのモデルメモリ内に用意されている。
【００３７】
サブ・ワード認識器７はメモリ８内部の各フィールドを順に読むようにされていて、各々に対して、現在の入力特徴係数の組を用いて、入力特御の組が対応するフィールドに相当する確率を計算する。最も可能性の高いサブ・ワードモデルを示す信号が出力されて単語メモリ１０内に記憶される。こうして、単一の話声に対して、単語メモリ１０はある符号化された表現であって、それが基準サブ・ワードモデルのシーケンスを示し、入力音声を一番近く表現すると、サブ・ワード認識器が判断している表現を記憶する。
【００３８】
この計算はよく知られているＨＭＭを採用する（S. J. Cox, “Hidden Markov Models for Automatic Speech Recognition: Theory and Application “British Telecom Technology Journal Vol.6 No.2 April 1988に記述がある）。都合よいことに、サブ・ワード認識器７によって実行されるＨＭＭ処理はよく知られているＶｉｔｅｒｂｉアルゴリズムを用いる。サブ・ワード認識器７は、例えば、Ｉｎｔｅl^（ＴＭ）ｉ−４８６^（ＴＭ）マイクロプロセッサもしくはＭｏｔｏｒｏｌａ^（ＴＭ）６８００マイクロプロセッサのようなマイクロプロセッサであるか、あるいはＤＳＰデバイス（例えば、特徴抽出器６と同じようなＤＳＰデバイス）であってもよい。
【００３９】
前に記述したように、サブ・ワード認識器と関連があるサブ・ワードモデルは話者とは独立した方法で得られる。サブ・ワード認識器７により生成された符号化した表現はそれ故にそれら表現がある使用者が単語をどのように発音するかについて音素による記述を表わしている限度で話者に依存している。
【００４０】
サブ・ワード認識器７は認識ネットワークを備え、それは生成されるサブ・ワードユニットの可能性のあるシーケンスに対してあったとしても僅かな制限条件を課するにすぎない。図３には僅かに制限されたネットワークの例を示す。このネットワークはノイズによって制限されたフォニームの単一の連結されたシーケンスを認識することができる。フォニームのシーケンスは全く制限されておらず、またフォニームのシーケンスで作用している音声（この例では英語を記述している）で生じないものは従って生成されない。
【００４１】
図３に示した認識ネットワークは現在、完全に制限されていないネットワーク、すなわちフォニームモデルの前後でノイズモデルのないもの、よりも電話の音声に対してはよい記述結果を与えている。これはフォニームの次にノイズがその次にフォニームが続くものを容認しない。実用上のシステムについてこれがもつ重要な意味あるいは孤立している単語もしくは接続された語句に対するシステムの正確さを増強するが、もし使用者が単語の間に隙き間のある語句を入れると問題を生ずるということである。例えば、レパートリーダイヤルでは、使用者が“ジョンスミス”（ＪｏｈｎＳｍｉｔｈ）”を名前と名字との間をあけずに言うとすると、このような文法形式は何の問題を生じない。しかし、他方、両者間に隙き間を残すと性能が影響を得ける。しかし、サブ・ワード認識器の認識ネットワークはシステムの要求にかなうように、例えば孤立した単語とか連結した単語などにかなうように設計される。
【００４２】
このサービスを最初に使用するときは、利用装置が使用者に助言をして使用者が認識器の語彙に加えたいと思う単語を用意させる。利用装置からの可聴助言に応答して、使用者は選んだ単語をマイクロホンに向けて話す。レパートリーダイヤル用システムでは、この単語は使用者が呼び出したい人物の名前、例えば“ジェーン（Ｊａｎｅ）”である。
【００４３】
語彙生成器はこの入力から特徴を抽出してそれをサブ・ワード認識器７に送る。入力音声を受領すると、メモリ８内のモデルとの整合がされる。サブ・ワード認識器７は図３に示したような認識ネットワークを備えていて、話し言葉入力の符号化された表現を生成し、この符号化された表現は入力音声と一番よく似ているモデルのシーケンスを識別する。こうして、入力音声の音素の記述が生成される。教育訓練用話声について生成された符号化された表現がメモリ１０内に記憶される。使用者は次に入力を繰返すように助言を与えられて、入力音声のもっと確定的な表現が形成される。
【００４４】
実験によって次のことが見出された。すなわち、唯１回の話声の教育訓練では正確さの８７．８％が達成され、３回の教育訓練の話声では正確さは９３．７％と著しく上昇した。明らかに悪い品質の電話ラインは生成結果に重大な効果をもたらすことになる。３回の教育訓練話声が行なわれたときに達成された正確さは、テキスト入力からの理想化された受領発音記述がサブ・ワード表現の代りに用いられた場合よりもまた大きいものであった。受領した発音は標準的な南部イギリスの英語のアクセントである。
【００４５】
さらに助言が使用者に与えられて、別な単語を加えるかどうかを尋ねる。これに肯定的に使用者が答えると（例えば予め定義されたＤＴＭＦキーを用いる）、認識プロセスが次の単語について繰返えされる。もし使用者の答が否定的であるときは、システムは認識モールドに切換り、音声認識器３が動作状態となる。メモリ１０には記憶された符号化した表現があり、各追加の語彙アイテムに対して、一連の基準サブ・ワード表現を識別する。
【００４６】
ひとたび、表現が語彙の所望の単語の各々に対して生成されると、語彙は音声認識器３によって使用できる。図４は音声認識器３の要素を示す。音声認識器３は特徴抽出器６´、サブ・ワードモデルメモリ８´、語彙生成器９によって生成された符号化された表現のメモリ１０で成る。ネットワーク生成器１２はメモリ１０と関係しており、符号化された表現によって表わされる基準サブ・ワード表現のシーケンスにより構成される認識ネットワークを作る。このようなネットワークは例えばメモリ１０からの個々の符号化した表現を組合せて、図５に示すようなネットワークの並列代替物とするか、あるいは図６に示すような木（トリー）構造に符号化した表現を組合せることにより生成でき、いずれもが単語“ｓｉｘ”と“ｓｅｖｅｎ”の話声で識別されるフォニームのシーケンスを例として示している。
【００４７】
認識の間に、入力音声信号は特徴抽出用手段６´に送られ、特徴は認識器１６でネットワーク生成器１２によって構築されたネットワークと関係しているものへ送られる。未知の入力音声は構築された網と比較され、信号が認識器１６から出力されるのは、近い整合が未知の入力言語とネットワークの枝の１つとの間で見付けられたときであり、したがって符号化された表現によって表わされる単語又は語句の１つとの整合が見付けられたときである。ひとたび認識が生ずると、利用装置４が次の適当な段階をサービスに従ってとることになり、例えばレパートリーダイヤル用サービスであると認識器１６は単語“Ｊａｎｅ”が認識されて、利用装置が名前“Ｊａｎｅ”と関係する番号をダイヤルすることになる。
【００４８】
図７はこの発明の第２の実施例を示す。図２と３とが語彙生成器９と音声認識器３とを別な部品として示したのに対して、図７はそれらが音声認識装置２０内部で結合されている。語彙生成器９と認識器１６とは共通部品、すなわち特徴抽出器６と、サブ・ワードモデルメモリ８と、使用者が選択した単語のメモリ１０とを共用している。音声認識装置２０にはさらに予め定義した単語メモリ１４が含まれ、そこには予め定義された符号化された表現であって、意図している利用装置に適した予め定義された単語のフォニーム記述に関する表現が記憶されている。例えば、レパートリーダイヤル用システムでは、これらの予め定義された単語はディジット０ないし９、“ダイヤル”，“ノー”，“イエス”，“加える”などであろう。
【００４９】
音声認識装置２０は正規には認識モード、すなわち入力音声信号が認識器１６へ送られるモードである。使用者がシステム語彙にある単語を加えたいときは使用者は“加える”と言う。この信号が特徴抽出器６へ送られ、特徴が認識器に送られる。ネットワーク生成器１２はメモリ１４と１０内に表現されている全単語で成るネットワークを生成する（初めはメモリ１０内に記憶された単語はない）。認識器１６は入力とネットワークとを整合させて、入力を単語“加える”と認識し、応答として入力を語彙生成器９に切換えることにより教育訓練用モードに入る。
【００５０】
使用者は次に進むが、それはシステムの語彙に加えるべき名前を話した前の例と同様である。語彙生成器９のサブ・ワード認識器７は使用者が選択したメモリ１０内に記憶するための符号化した表現を生成する。しかし、使用者は利用装置からの助言に対して、話し言葉で“イエス”及び“ノー”を言うことにより応答することができ、入力音声信号は特定の応答が期待されるときには認識器１６へ切換えられる。
【００５１】
ひとたび使用者が所望の単語を選択すると、ネットワーク生成器１２によって生成された後続のネットワークはメモリ１４からの予め定義した単語とメモリ１０からの使用者が選択した単語とを組合わせる。結果として認識器は文法を備え単語のあるものは使用者の音声から得られたシーケンスによって予め定義され、ある単語は別のソースから得られたシーケンスによって予め定義される。２つのメモリからの単語は組合されて、例えば単語“ダイヤル”が予め定義されると、認識ネットワークは選択された単語の各々と“ダイヤル”とを組合せて構成することができ、それによってシステム文法が連結された音声“ダイヤルジェーン（Ｊａｎｅにダイヤルする）”（ここで“ダイヤル”は予め定義されており、“Ｊａｎｅ”は使用者が選択するものである）を許す。
【００５２】
語彙の５０％が予め定義されている音声認識装置は、唯一の教育訓練用話声が用意されたときに、使用者が選択した全語彙と同じ正確さをもつ。しかし、このような装置の正確さは３回の教育訓練用話声が用意されたときに使用者が選択した全語彙とは著しく悪いものとなる。
【００５３】
こうして、この発明の別な実施例では、音声認識器２０は予め定義したメモリ１４内に多数の予め定義した単語と、教育訓練モードで定義されたメモリ１０内に多数の使用者選択単語とを有している。予め定義した単語のサブ・ワード表現は使用者の入力音声から、この装置の使用時に、特徴抽出手段６からの特徴をサブ・ワード認識器７とともに認識器１６にも送ることによって生成される。話声のためにサブ・ワード認識器によって生成された符号化された表現がメモリ１０に加えられる。後の話声はメモリ１０内に記憶されている表現に、メモリ１４内に記憶されている表現よりもよく整合するはずであり、予め定義した単語の認識で正確さの改善がもたらされる。
【図面の簡単な説明】
図１は遠隔通信環境においてこの発明による音声認識を採用する際の模式図を示す。
図２はこの発明による語彙生成器の機能素子を模式的に示す構成図である。
図３はゆるやかな制限のネットワークの例を示し、図２の語彙生成器で使われているものである。
図４は図２に示した語彙生成器とともに使うための音声認識器を示す。
図５は図４の音声認識器とともに使用される認識ネットワークの例を示す。
図６は図５に示すものの代りの認識ネットワークを示す。
図７はこの発明による音声認識装置の第２実施例を示す。

JP8513513A 1994-11-01 1995-11-01 言語認識 Pending JPH10507536A (ja)

Applications Claiming Priority (3)

Application Number	Priority Date	Filing Date	Title
GB94308023.4		1994-11-01
EP94308023		1994-11-01
PCT/GB1995/002563 WO1996013827A1 (en)	1994-11-01	1995-11-01	Speech recognition

Publications (2)

Publication Number	Publication Date
JPH10507536A JPH10507536A (ja)	1998-07-21
JPH10507536A5 true JPH10507536A5 (ja)	2008-08-21

Family

ID=8217896

Family Applications (1)

Application Number	Title	Priority Date	Filing Date
JP8513513A Pending JPH10507536A (ja)	1994-11-01	1995-11-01	言語認識

Country Status (16)

Country	Link
US (1)	US6389395B1 (ja)
EP (1)	EP0789901B1 (ja)
JP (1)	JPH10507536A (ja)
KR (1)	KR100383353B1 (ja)
CN (1)	CN1121680C (ja)
AU (1)	AU707355B2 (ja)
CA (1)	CA2202656C (ja)
DE (1)	DE69514382T2 (ja)
DK (1)	DK0789901T3 (ja)
ES (1)	ES2143079T3 (ja)
FI (1)	FI971822A0 (ja)
MX (1)	MX9703138A (ja)
NO (1)	NO309750B1 (ja)
NZ (1)	NZ294659A (ja)
PT (1)	PT789901E (ja)
WO (1)	WO1996013827A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
WO2000022609A1 (en) *	1998-10-13	2000-04-20	Telefonaktiebolaget Lm Ericsson (Publ)	Speech recognition and control system and telephone
JP2000187435A (ja) *	1998-12-24	2000-07-04	Sony Corp	情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
AU777693B2 (en)	1999-03-05	2004-10-28	Canon Kabushiki Kaisha	Database annotation and retrieval
EP1228452B1 (en) *	1999-10-28	2007-09-19	Canon Kabushiki Kaisha	Pattern matching method and apparatus
US7310600B1 (en)	1999-10-28	2007-12-18	Canon Kabushiki Kaisha	Language recognition using a similarity measure
US6882970B1 (en)	1999-10-28	2005-04-19	Canon Kabushiki Kaisha	Language recognition using sequence frequency
GB0011798D0 (en) *	2000-05-16	2000-07-05	Canon Kk	Database annotation and retrieval
GB0015233D0 (en)	2000-06-21	2000-08-16	Canon Kk	Indexing method and apparatus
GB0023930D0 (en)	2000-09-29	2000-11-15	Canon Kk	Database annotation and retrieval
GB0027178D0 (en) *	2000-11-07	2000-12-27	Canon Kk	Speech processing system
GB0028277D0 (en)	2000-11-20	2001-01-03	Canon Kk	Speech processing system
US20030009331A1 (en) *	2001-07-05	2003-01-09	Johan Schalkwyk	Grammars for speech recognition
US20030115169A1 (en) *	2001-12-17	2003-06-19	Hongzhuan Ye	System and method for management of transcribed documents
US6990445B2 (en) *	2001-12-17	2006-01-24	Xl8 Systems, Inc.	System and method for speech recognition and transcription
US7181398B2 (en) *	2002-03-27	2007-02-20	Hewlett-Packard Development Company, L.P.	Vocabulary independent speech recognition system and method using subword units
US20030200094A1 (en) *	2002-04-23	2003-10-23	Gupta Narendra K.	System and method of using existing knowledge to rapidly train automatic speech recognizers
US7206738B2 (en) *	2002-08-14	2007-04-17	International Business Machines Corporation	Hybrid baseform generation
DE10244169A1 (de) *	2002-09-23	2004-04-01	Infineon Technologies Ag	Spracherkennungseinrichtung, Steuereinrichtung und Verfahren zum rechnergestützten Ergänzen eines elektronischen Wörterbuches für eine Spracherkennungseinrichtung
WO2004036939A1 (fr) *	2002-10-18	2004-04-29	Institute Of Acoustics Chinese Academy Of Sciences	Appareil de communication mobile numerique portable, procede de commande vocale et systeme
US7149688B2 (en) *	2002-11-04	2006-12-12	Speechworks International, Inc.	Multi-lingual speech recognition with cross-language context modeling
JP4072718B2 (ja) *	2002-11-21	2008-04-09	ソニー株式会社	音声処理装置および方法、記録媒体並びにプログラム
US7302389B2 (en) *	2003-05-14	2007-11-27	Lucent Technologies Inc.	Automatic assessment of phonological processes
US20040230431A1 (en) *	2003-05-14	2004-11-18	Gupta Sunil K.	Automatic assessment of phonological processes for speech therapy and language instruction
US7373294B2 (en) *	2003-05-15	2008-05-13	Lucent Technologies Inc.	Intonation transformation for speech therapy and the like
US20040243412A1 (en) *	2003-05-29	2004-12-02	Gupta Sunil K.	Adaptation of speech models in speech recognition
US20080208578A1 (en) *	2004-09-23	2008-08-28	Koninklijke Philips Electronics, N.V.	Robust Speaker-Dependent Speech Recognition System
US20090291419A1 (en) *	2005-08-01	2009-11-26	Kazuaki Uekawa	System of sound representaion and pronunciation techniques for english and other european languages
US7697827B2 (en)	2005-10-17	2010-04-13	Konicek Jeffrey C	User-friendlier interfaces for a camera
US7774202B2 (en) *	2006-06-12	2010-08-10	Lockheed Martin Corporation	Speech activated control system and related methods
US8386248B2 (en) *	2006-09-22	2013-02-26	Nuance Communications, Inc.	Tuning reusable software components in a speech application
US7881932B2 (en) *	2006-10-02	2011-02-01	Nuance Communications, Inc.	VoiceXML language extension for natively supporting voice enrolled grammars
EP2308042B1 (en) *	2008-06-27	2011-11-02	Koninklijke Philips Electronics N.V.	Method and device for generating vocabulary entries from acoustic data
US20110184736A1 (en) *	2010-01-26	2011-07-28	Benjamin Slotznick	Automated method of recognizing inputted information items and selecting information items
US20110224982A1 (en) *	2010-03-12	2011-09-15	c/o Microsoft Corporation	Automatic speech recognition based upon information retrieval methods
US20120116764A1 (en) *	2010-11-09	2012-05-10	Tze Fen Li	Speech recognition method on sentences in all languages
GB2486038B (en) *	2011-06-28	2013-09-25	Andrew Levine	Speech-to-text conversion
US8781825B2 (en) *	2011-08-24	2014-07-15	Sensory, Incorporated	Reducing false positives in speech recognition systems
US9135912B1 (en) *	2012-08-15	2015-09-15	Google Inc.	Updating phonetic dictionaries
TWI536366B (zh)	2014-03-18	2016-06-01	財團法人工業技術研究院	新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
US9607618B2 (en) *	2014-12-16	2017-03-28	Nice-Systems Ltd	Out of vocabulary pattern learning
US10719115B2 (en) *	2014-12-30	2020-07-21	Avago Technologies International Sales Pte. Limited	Isolated word training and detection using generated phoneme concatenation models of audio inputs
KR102509821B1 (ko) *	2017-09-18	2023-03-14	삼성전자주식회사	Oos 문장을 생성하는 방법 및 이를 수행하는 장치
WO2020014890A1 (zh) *	2018-07-18	2020-01-23	深圳魔耳智能声学科技有限公司	基于口音的语音识别处理方法、电子设备和存储介质
WO2020014899A1 (zh) *	2018-07-18	2020-01-23	深圳魔耳智能声学科技有限公司	语音控制方法、中控设备和存储介质
CN112951270B (zh) *	2019-11-26	2024-04-19	新东方教育科技集团有限公司	语音流利度检测的方法、装置和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
US4489434A (en)	1981-10-05	1984-12-18	Exxon Corporation	Speech recognition method and apparatus
US5129000A (en) *	1986-04-05	1992-07-07	Sharp Kabushiki Kaisha	Voice recognition method by analyzing syllables
US4903305A (en) *	1986-05-12	1990-02-20	Dragon Systems, Inc.	Method for representing word models for use in speech recognition
US4866778A (en) *	1986-08-11	1989-09-12	Dragon Systems, Inc.	Interactive speech recognition apparatus
US4837831A (en) *	1986-10-15	1989-06-06	Dragon Systems, Inc.	Method for creating and using multiple-word sound models in speech recognition
US5129001A (en) *	1990-04-25	1992-07-07	International Business Machines Corporation	Method and apparatus for modeling words with multi-arc markov models
US5181237A (en)	1990-10-12	1993-01-19	At&T Bell Laboratories	Automation of telephone operator assistance calls
US5465318A (en) *	1991-03-28	1995-11-07	Kurzweil Applied Intelligence, Inc.	Method for generating a speech recognition model for a non-vocabulary utterance
DE4111781A1 (de) *	1991-04-11	1992-10-22	Ibm	Computersystem zur spracherkennung
US5502790A (en) *	1991-12-24	1996-03-26	Oki Electric Industry Co., Ltd.	Speech recognition method and system using triphones, diphones, and phonemes
CA2088080C (en) *	1992-04-02	1997-10-07	Enrico Luigi Bocchieri	Automatic speech recognizer
US5297183A (en) *	1992-04-13	1994-03-22	Vcs Industries, Inc.	Speech recognition system for electronic switches in a cellular telephone or personal communication network
EP0590173A1 (de) *	1992-09-28	1994-04-06	International Business Machines Corporation	Computersystem zur Spracherkennung
WO1994014270A1 (en) *	1992-12-17	1994-06-23	Bell Atlantic Network Services, Inc.	Mechanized directory assistance
US5384892A (en) *	1992-12-31	1995-01-24	Apple Computer, Inc.	Dynamic language model for speech recognition
US5390279A (en) *	1992-12-31	1995-02-14	Apple Computer, Inc.	Partitioning speech rules by context for speech recognition
US5488652A (en) *	1994-04-14	1996-01-30	Northern Telecom Limited	Method and apparatus for training speech recognition algorithms for directory assistance applications
US5710864A (en) *	1994-12-29	1998-01-20	Lucent Technologies Inc.	Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5717826A (en) *	1995-08-11	1998-02-10	Lucent Technologies Inc.	Utterance verification using word based minimum verification error training for recognizing a keyboard string

1995
- 1995-11-01 EP EP95935526A patent/EP0789901B1/en not_active Expired - Lifetime
- 1995-11-01 NZ NZ294659A patent/NZ294659A/xx not_active IP Right Cessation
- 1995-11-01 JP JP8513513A patent/JPH10507536A/ja active Pending
- 1995-11-01 KR KR1019970702853A patent/KR100383353B1/ko not_active Expired - Lifetime
- 1995-11-01 CA CA002202656A patent/CA2202656C/en not_active Expired - Lifetime
- 1995-11-01 AU AU37516/95A patent/AU707355B2/en not_active Expired
- 1995-11-01 DE DE69514382T patent/DE69514382T2/de not_active Expired - Lifetime
- 1995-11-01 FI FI971822A patent/FI971822A0/fi unknown
- 1995-11-01 WO PCT/GB1995/002563 patent/WO1996013827A1/en not_active Ceased
- 1995-11-01 CN CN95195955A patent/CN1121680C/zh not_active Expired - Lifetime
- 1995-11-01 ES ES95935526T patent/ES2143079T3/es not_active Expired - Lifetime
- 1995-11-01 DK DK95935526T patent/DK0789901T3/da active
- 1995-11-01 US US08/817,072 patent/US6389395B1/en not_active Expired - Lifetime
- 1995-11-01 MX MX9703138A patent/MX9703138A/es unknown
- 1995-11-01 PT PT95935526T patent/PT789901E/pt unknown
1997
- 1997-04-30 NO NO972026A patent/NO309750B1/no not_active IP Right Cessation

Publication	Publication Date	Title
EP0789901B1 (en)	2000-01-05	Speech recognition
JPH10507536A5 (ja)	2008-08-21
US5913192A (en)	1999-06-15	Speaker identification with user-selected password phrases
US6671669B1 (en)	2003-12-30	combined engine system and method for voice recognition
US5791904A (en)	1998-08-11	Speech training aid
JP6284462B2 (ja)	2018-02-28	音声認識方法、及び音声認識装置
EP1095371A1 (en)	2001-05-02	Language independent speech recognition
WO2007117814A2 (en)	2007-10-18	Voice signal perturbation for speech recognition
JPH11511567A (ja)	1999-10-05	パターン認識
KR20010102549A (ko)	2001-11-15	화자 인식 방법 및 장치
Razak et al.	2008	Quranic verse recitation recognition module for support in j-QAF learning: A review
JPH075892A (ja)	1995-01-10	音声認識方法
US7072750B2 (en)	2006-07-04	Method and apparatus for rejection of speech recognition results in accordance with confidence level
Karpagavalli et al.	2015	Phoneme and word based model for tamil speech recognition using GMM-HMM
US20040006469A1 (en)	2004-01-08	Apparatus and method for updating lexicon
US20020095282A1 (en)	2002-07-18	Method for online adaptation of pronunciation dictionaries
Furui	2003	Robust methods in automatic speech recognition and understanding.
Atal et al.	1986	Speech research directions
JP2001255887A (ja)	2001-09-21	音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Boves et al.	2000	ASR for automatic directory assistance: the SMADA project
Zue et al.	1997	Spoken language input
Wu et al.	1999	Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Delić et al.	2006	A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
Kessens et al.	2000	Automatic detection and verification of Dutch phonological rules
HK1002787B (en)	2000-10-27	Speech recognition