JPH0612092A

JPH0612092A - 音声認識装置およびその動作方法

Info

Publication number: JPH0612092A
Application number: JP5098442A
Authority: JP
Inventors: Enrico L Bocchieri; エル．ボッチェリエンリコ; Sedat I Gokcen; アイ．ゴクセンセダ; Rajendra P Mikkilineni; ピー．ミッキリネニラジェンドラ; David B Roe; ビー．ローデヴィッド; Jay Gordon Wilpon; ゴードンウィルポンジェイ
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1992-04-02
Filing date: 1993-04-02
Publication date: 1994-01-21
Also published as: FI931471A7; FI931471A0; EP0564166A3; CA2088080A1; ES2142332T3; EP0564166B1; DE69327188T2; EP0564166A2; HK1004497A1; DE69327188D1; US5329608A; CA2088080C; KR930022267A

Abstract

(57)【要約】【目的】音声認識システムにデータを記録し、記録デ
ータに対応する発話データを認識する装置および方法を
実現する。【構成】入力されたデータに応答して、音声表示の列
を生成する。入力データおよび生成した音声表示列が、
音声認識システムの語彙集に記録される。発話データの
受信に応答して、その発話データを特徴づける部分語の
モデルを構成し、構成した部分語列に一致する音声表示
列に対応するデータとして発話データを認識するため
に、構成した部分語モデルを語彙集に記録された音声表
示列と比較する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識システムで使
用される単語モデルを生成する装置および方法に関し、
特に、生成された単語を認識するために使用される単語
モデルに関する。

【０００２】

【従来の技術】音声認識システムは通常、さまざまなア
プリケーションで使用される完全な数詞、語および句を
表すデータベース辞書記憶パターン（例えば音声テンプ
レートまたはモデル）を有する。

【０００３】

【発明が解決しようとする課題】システム所有者および
その所有者の顧客のみによって頻繁に使用され、それら
の者に固有の音声テンプレートのデータベース辞書を、
個々の音声認識システムが必要とする際に問題が生じ
る。例えば、病院の音声認識システムは、青果卸売業者
の辞書に記録された音声テンプレートとは異なる別個の
音声テンプレートの辞書を必要とする。すなわち、各音
声認識システムは、それぞれ特定の音声認識システムア
プリケーションに必要なテンプレートを構成するため
に、多数の音声データサンプルの収集およびその音声デ
ータサンプルの手作業の確認を必要とする。従って、多
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
必要である。

【０００４】

【課題を解決するための手段】上記の問題は、音声認識
システムの語彙集データベース内の音声認識システムに
データを入力し、それによってシステムが、発話データ
を格納されたデータとして認識することを可能にする装
置および方法によって解決される。プロセッサが、入力
されたデータから音声表記を生成し、そのデータ（例え
ば英数字）および生成された対応する音声表記の両方を
語彙集データベースに記録・格納する。プロセッサは、
発話データの部分語特性の列からなるモデルを構成する
ことによって、発話データの受信に応答し、構成した部
分語モデルを、語彙集データベースに記録された音声表
記と比較する。構成された部分語モデルが、記録された
データに対応する記録された音声表記と一致すると、発
話データは記録されたデータとして認識される。

【０００５】

【実施例】本発明の実施例において、音声認識システム
１（図１）は、発話データ（例えば英数字データ）を認
識するように配置される。一般的に、このようなシステ
ムはさまざまなアプリケーション（例えば、大規模店の
受注部）において使用可能である。このようなシステム
は、例えば、電話線（例えば電話線３１）に接続され、
電話機３を使用する発呼顧客に音声指示メッセージを送
信するために使用される。

【０００６】音声認識システム１は、店に注文する顧客
によって発話された英数字データを認識することによっ
て、発呼顧客に応答する。他のアプリケーションでは、
音声認識システム１は、電話交換手アプリケーションに
おいて、発呼者発話電話番号を認識するため、および、
株式仲買業者によって、顧客の注文および情報要求を認
識するために使用される。さらに他のアプリケーション
では、音声認識システム１の原理は、コンピュータが、
コンピュータのユーザによって発話される英数字データ
を認識することを可能にするために、コンピュータとと
もに使用される。

【０００７】音声認識システム１は、例えば、ＡＴ＆Ｔ
３８６または４８６コンピュータのようなコンピュータ
１０である。このコンピュータ（図２）は、本発明の理
解のためには詳細は不要であり、一般的に、中央処理装
置１０１、メモリユニット１０２、およびインタフェー
スユニット１００を有し、これらはそれぞれアドレス
線、データ線および制御線によってデータバス１０４に
接続される。

【０００８】インタフェースユニット１００は、データ
入力装置（例えばキーボード１１）と相互接続されたデ
ータリンク１１１０をデータバス１０４と結合し、キー
ボード１１に入力された英数字データ（例えば語、数お
よび情報）が中央処理装置１０１およびメモリユニット
１０２と交換されるようにする。データバス１０４はま
た、アドレス線、データ線および制御線によってデータ
ベース構造体（例えばデータベース構造体１０３０、１
０３１および１０３２）に格納・記録するために使用さ
れるデータ記憶装置１０３とも相互接続される。音声認
識システム１として使用されるコンピュータ１０（図
１）は、データおよび情報を表示するために使用される
ビデオ端末１２を有することも可能である。

【０００９】図２で、本発明の原理によれば、動作時に
は、プログラム（例えば、新しい語の部分語スペル生成
プログラム１０２０、自動音声認識（ＡＳＲ）アルゴリ
ズムプログラム１０２１およびキーボード入力プログラ
ム１０２２）は、メモリユニット１０２に格納され、音
声認識システム１の動作を制御する適当な時刻に中央処
理装置１０１にロードされる。データベース構造体（辞
書データベース１０３０、語彙集データベース１０３
１、および部分語モデルデータベース１０３２）はデー
タ記憶装置１０３に格納され、情報の読み出しおよび格
納のために中央処理装置１０３によってアクセスされ
る。

【００１０】辞書データベース１０３０（図３）は、語
および各格納語の音声表示を格納する。一般的に、語は
標準的な辞書に存在する語であり、格納語の音声表示と
ともに辞書データベース１０３０に格納される。また
は、語は、新しい語の部分語スペル生成プログラム１０
２０によって計算される。例えば、語「ｈｏｕｓｅ」
は、対応する音声表示「ｈａｕｓ」によって表現され
る。同様に、格納語「ｃａｒ」は、対応する音声表示
「ｋａａｒ」によって表現され、語「ｃｏｍｐｕｔｅ
ｒ」は、対応する音声表示「ｋｅｍｐｙｕｔｅｒ」によ
って表現される。さらに、「ｄ」および「ｗ」のような
文字は、表示「ｄｉｙ」および「ｄａｈｂｉｘｌｙｕ
ｗ」によって表現される。

【００１１】ＡＳＲ語彙集データベース１０３１は、語
および記録される語の変形を表現する音声表示の文字列
とともに、語およびその変形を記録・格納する。典型的
な例では、新しい語の部分語スペル生成プログラム１０
２０は、語「ｃａｒ」および対応する音声表示文字列
「ｋａａｒ」を語彙集データベース１０３１に記録す
る。他の例では、語「ｒａｉｌ」および「ｒｏａｄ」の
変形が、「ｒａｉｌｒｏａｄ」として、対応する音声表
示文字列「ｒｅｙｌｒｏｗｄ」とともに記録される。

【００１２】部分語モデルデータベース１０３２は、発
話を区別するために利用する音声の小単位を識別する各
音素を格納する。例えば、「ｃｏｔ」の中にあるような
音を表す音素「ａａ」が部分語モデルデータベース１０
３２に格納される。同様に、データベース１０３２は、
「ｂｕｆ」、「ｄａｄ」および「ｂａｉｔ」の中にある
ような音を表す各音素「ａｈ」、「ｄ」、「ｅｙ」を格
納する。

【００１３】図１で、語もしくは数字またはその列は、
キーボード１１のキー１１０およびキーパッド１１１上
の語または数字をタイプすることによって音声認識シス
テム１に入力される。他のアプリケーションでは、新た
な追加語および数字は、テープ、ディスクドライブ、外
部メモリまたは、プログラムによってコンピュータ１０
にデータを入力するいくつかの異なる周知の手段（例え
ばキーボード入力プログラム１０２２）によって語およ
び数字を入力することによって音声認識システム１に追
加される。

【００１４】新しい語の部分語スペル生成プログラム１
０２０（図２）は、本発明の実施例によれば、中央処理
装置１０１の動作を制御し、辞書データベース１０３０
にアクセスすることによって語および数字の入力に応答
する。図３で、入力された語（例えば「ｈｏｕｓｅ」）
が発見された場合、新しい語の部分語スペル生成プログ
ラム１０２０は、入力語によって識別される辞書データ
の辞書音声表示から音声表示列「ｈａｕｓ」を生成す
る。

【００１５】辞書データベース１０３０に格納された語
の変形（例えば語「ｒａｉｌｒｏａｄ」）が音声認識シ
ステム１に入力された場合、新しい語の部分語スペル生
成プログラム１０２０は、辞書データベース１０３０に
アクセスし、入力された「ｒａｉｌｒｏａｄ」によって
識別される語「ｒａｉｌ」および「ｒｏａｄ」とともに
格納された辞書データベース１０３０音声表示「ｒｅｙ
ｌ」および「ｒｏｗｄ」から音声表示列「ｒｅｙｌｒｏ
ｗｄ」を生成する。

【００１６】新しい語の部分語スペル生成プログラム１
０２０は、各入力語およびそれに対応して生成された音
声表示列を語彙集データベース１０３１に記録する。こ
うして、入力語「ｃａｒ」および「ｒａｉｌｒｏａｄ」
ならびにこれらに対応する音声列「ｋａａｒ」および
「ｒｅｙｌｒｏｗｄ」が、音声認識システム１によって
受信される発話語を認識する際に使用するために、語彙
集データベース１０３１に記録される。

【００１７】図１で、電話線３１を通じて発話英数字デ
ータを受信後、自動音声認識（ＡＳＲ）アルゴリズムプ
ログラム１０２１（図３）は、部分語モデルデータベー
ス１０３２にアクセスし、音素（発話を区別するために
利用される音声の小単位をそれぞれ識別する）の列から
なり、受信した発話語の音を表現するモデルを構成す
る。こうして、発話語「ｃａｒ」が受信された場合、Ａ
ＳＲアルゴリズムプログラム１０２１は、部分語モデル
データベース１０３２にアクセスし、受信した発話語
「ｃａｒ」を識別する音素列「ｋａａｒ」として音
素「ｋ」、「ａａ」および「ｒ」を構成する。同様にし
て、ＡＳＲアルゴリズムプログラム１０２１は、発話語
「ｒａｉｌｒｏａｄ」の受信に応答して、部分語モデル
データベース１０３２にアクセスし、受信した発話語
「ｒａｉｌｒｏａｄ」を表現する音素の列「ｒｅｙ
ｌｒｏｗｄ」からなるモデルを構成する。

【００１８】受信した発話語を表現する列音素モデルを
構成した後、ＡＳＲアルゴリズムプログラム１０２１は
語彙集データベース１０３１にアクセスし、構成された
列音素モデルを、語彙集データベース１０３１に記録さ
れた音声表示列と比較する。構成された列音素モデル
が、語彙集データベース１０３１に記録された音声表示
列と一致した場合、発話語は、一致した音声表示列に対
応する記録された語として認識される。

【００１９】例えば、音声認識器システム１（図１）が
発話語「ｒａｉｌｒｏａｄ」を受信した場合、ＡＳＲア
ルゴリズムプログラム１０２１（図３）は、部分語モデ
ルデータベース１０３２にアクセスし、列音素モデル
「ｒｅｙｌｒｏｗｄ」を構成する。次に、プ
ログラム１０２１は語彙集データベース１０３１にアク
セスし、構成された列音素モデル「ｒｅｙｌｒ
ｏｗｄ」を、語彙集に記録された音声表示列と比較す
る。構成された列音素モデル「ｒｅｙｌｒｏｗ
ｄ」が記録された音声表示列「ｒｅｙｌｒｏｗｄ」と一
致した場合、発話語「ｒａｉｌｒｏａｄ」は音声表示列
「ｒｅｙｌｒｏｗｄ」とともに記録された語「ｒａｉｌ
ｒｏａｄ」として認識される。

【００２０】音声認識システム１（図１）は、通常、辞
書データベース１０３０および語彙集データベース１０
３１にそれぞれ多数の語を格納し記録している。システ
ムが追加語を認識することを可能にするために、追加語
が、音声認識システム１に入力され、語彙集データベー
ス１０３１に記録される。このような語は、音声認識シ
ステム１の特定アプリケーションで使用される固有語で
あることが可能である。本発明の実施例では、特定アプ
リケーションに固有の特殊な語「ｄｗｄ」が音声認識シ
ステム１に入力されたと仮定する。

【００２１】「ｄｗｄ」のような発話語を認識するため
に音声認識システム１を動作させる方法は、語「ｄｗ
ｄ」から音声表示列「ｄｉｙｄａｈｂｉｘｌｙｕｗｄｉ
ｙ」を生成するステップと、語「ｄｗｄ」および生成さ
れた音声表示列「ｄｉｙｄａｈｂｉｘｌｙｕｗｄｉｙ」
の両方を語彙集データベース１０３１（図３）に記録す
るステップからなる。発話語「ｄｗｄ」を受信した後、
本発明の音声認識システム１を動作させる方法は、部分
語モデルデータベース１０３２にアクセスし、発話語
「ｄｗｄ」の音を特徴づける音素のモデル列「ｄｉｙ
ｄａｈｂｉｘｌｙｕｗｄｉｙ」を構
成する。

【００２２】構成された音素列モデル「ｄｉｙｄ
ａｈｂｉｘｌｙｕｗｄｉｙ」は、語彙集に
記録された音声表示列と比較され、構成された音素列モ
デル「ｄｉｙｄａｈｂｉｘｌｙｕｗ
ｄｉｙ」と語彙集データベース１０３１に記録された
音声表示列「ｄｉｙｄａｈｂｉｘｌｙｕｗｄｉｙ」の一
致があった場合、発話語は、一致した音声表示列「ｄｉ
ｙｄａｈｂｉｘｌｙｕｗｄｉｙ」とともに記録された語
「ｄｗｄ」として認識される。

【００２３】図１で、本発明の動作方法において、標準
語の辞書および各標準語の音声表示が最初に辞書データ
ベース１０３０に格納される。同様に、部分語モデルデ
ータベース１０３２は、最初に、「ｄ」および「ｗ」の
ような音素（発話を区別するために利用される音声の小
単位をそれぞれ識別する）を格納する。新しい語（例え
ば語「ｄｗｄ」）を音声認識システム１に入力するため
には、語「ｄｗｄ」がキーボード１１にタイプされ、キ
ーボード入力プログラム１０２２に入力される（図４、
ステップ１０２２００、１０２２０１）。

【００２４】新しい語の部分語スペル生成プログラム１
０２０（図１）は、英数字データおよびその変形（例え
ば語「ｄｗｄ」）の入力に応答して、辞書データベース
１０３０にアクセスする（図４、ステップ１０２００
０、１０２００１）。入力語が辞書データベース１０３
０に発見された場合（ステップ１０２００２）、新しい
語の部分語スペル生成プログラム１０２０は、その後お
よび対応する音声表示列を選択し（ステップ１０２００
３）、その後および対応する音声表示列の両方を語彙集
データベース１０３１に記録する（ステップ１０２００
５、１０２００６）。

【００２５】入力語（例えば語変形「ｄｗｄ」）が辞書
データベース１０３０に発見されなかった場合（ステッ
プ１０２００２）、新しい語の部分語スペル生成プログ
ラム１０２０は、図３で、成分語「ｄ」および「ｗ」を
辞書データベース１０３０から選択し、音声表示列「ｄ
ｉｙｄａｈｂｉｘｌｙｕｗｄｉｙ」を生成する（ステッ
プ１０２００４）。語変形「ｄｗｄ」および生成された
音声表示列「ｄｉｙｄａｈｂｉｘｌｙｕｗｄｉｙ」は、
語彙集データベース１０３１に記録される（ステップ１
０２００５、１０２００６）。

【００２６】さらに多くの語が音声認識システム１に入
力されている場合（ステップ１０２００７）、ステップ
１０２２０１およびステップ１０２０００〜１０２００
７が、すべての入力語が語彙集データベース１０３１に
記録されるまで反復され、その後、中央処理装置１０１
は、新しい語の部分語スペル生成プログラム１０２０を
終了する（ステップ１０２００８）。

【００２７】ＡＳＲアルゴリズムプログラム１０２１に
従って動作する音声認識システム１（図１）は、電話線
３１を通じて受信された発話語（例えば語「ｄｗｄ」）
に応答して、部分語モデルデータベース１０３２にアク
セスする（図５、ステップ１０２１００、１０２１０
１、１０２１０２）。発話語「ｄｗｄ」の受信に応答し
て、ＡＳＲアルゴリズムプログラム１０２１は、受信し
た発話語「ｄｗｄ」を表現する音素の列からなるモデル
の構成を開始する（ステップ１０２１０３）。

【００２８】このモデルの構成は、受信した「ｄｗｄ」
の音に従い、音「ｄ」の結果、列モデルの最初の部分で
「ｄｉｙ」が選択される（ステップ１０２１０４）。
モデルは完成していない（ステップ１０２１０５）た
め、ステップ１０２１０１〜１０２１０５が反復され、
「ｗ」の音の結果、音素「ｄａｈｂｉｘｌｙ
ｕｗ」が部分語モデルデータベース１０３２から選択さ
れモデルに付加される。最後の音「ｄ」の結果として音
素「ｄｉｙ」が列に付加され、発話語「ｄｗｄ」を表
現する音素列モデル「ｄｉｙｄａｈｂｉｘ
ｌｙｕｗｄｉｙ」が完成する（ステップ１０２１
０５）。

【００２９】発話語「ｄｗｄ」を表現する構成された音
素列モデル「ｄｉｙｄａｈｂｉｘｌｙｕ
ｗｄｉｙ」の完成後、ＡＳＲアルゴリズムプログラ
ム１０２１は、語彙集データベース１０３１にアクセス
し、構成された列音素モデル「ｄｉｙｄａｈｂ
ｉｘｌｙｕｗｄｉｙ」を、語彙集データベ
ースに記録された音声表示列と比較する（ステップ１０
２１０６、１０２１０７、１０２１０８）。

【００３０】構成された音素列モデル「ｄｉｙｄ
ａｈｂｉｘｌｙｕｗｄｉｙ」と、記録され
た音声表示列「ｄｉｙｄａｈｂｉｘｌｙｕｗｄｉｙ」の
一致があった場合（ステップ１０２１０９）、発話語
「ｄｗｄ」が、語彙集データベース１０３１に記録され
た語「ｄｗｄ」として認識される（ステップ１０２１１
０）。さらに発話語がある場合（ステップ１０２１１
１）、すべての語が認識されるまでステップ１０２１０
１〜１０２１１１が反復される。

【００３１】一致が失敗した場合（ステップ１０２１０
９）、かつ、一致試行が所定試行数以下である場合（ス
テップ１０２１１３）、ＡＳＲアルゴリズムプログラム
１０２１は、反復試行数を増加させ、発呼者に、発話語
を反復するよう促す（ステップ１０２１１４）。この場
合、ステップ１０２１０１〜１０２１０９が反復され
る。試行数が所定試行数を超過した場合、エラーが発生
したと判断される（ステップ１０２１１５）。

【００３２】一致プロセス（ステップ１０２１０９）中
に、信頼性認識因子が、構成された音素列モデルと、語
彙集データベース１０３１に記録された音声表示列の一
致に対して割り当てられる。割り当てられた信頼性認識
因子が所定しきい値を超過した場合、構成された音素列
モデルに対応する発話語が、語彙集データベース１０３
１に記録されている、一致した音声表示列に対応する語
として認識されることが決定される。

【００３３】

【発明の効果】以上述べたごとく、本発明によれば、多
数の音声データサンプルの収集および確認を必要とせず
に、システムの所有者が自己のビジネスアプリケーショ
ンで使用される情報を音声認識システムに入力すること
ができるような、音声認識システムのための自動音声認
識器、および、その自動音声認識器を動作させる方法が
実現される。

【図面の簡単な説明】

【図１】本発明の原理を実現する音声認識システムのブ
ロック図である。

【図２】本発明の原理による、図１に示された音声認識
システムのプロセッサの詳細のブロック図である。

【図３】図１および２に示す音声認識システムとともに
使用されるプロセッサプログラムおよびデータベースフ
ァイルの例の図である。

【図４】本発明の原理による、図１に示された音声認識
システムの動作の流れ図である。

【図５】本発明の原理による、図１に示された音声認識
システムの動作の流れ図である。

【符号の説明】

１音声認識システム３電話機１０コンピュータ１１キーボード１２ビデオ端末３１電話線１００インタフェースユニット１０１中央処理装置１０２メモリユニット１０３データ記憶装置１０４データバス１１０キー１１１キーパッド１０２０新しい語の部分語スペル生成プログラム１０２１自動音声認識（ＡＳＲ）アルゴリズムプログ
ラム１０２２キーボード入力プログラム１０３０辞書データベース１０３１語彙集データベース１０３２部分語モデルデータベース１１１０データリンク

───────────────────────────────────────────────────── フロントページの続き (72)発明者エンリコエル．ボッチェリアメリカ合衆国 07940 ニュージャージーマジソン、ナンバー31 マジソンアヴェニュー 17 (72)発明者セダアイ．ゴクセンアメリカ合衆国 43230 オハイオガーナ、ウィットレードライヴ 474 (72)発明者ラジェンドラピー．ミッキリネニアメリカ合衆国 43230 オハイオガーナ、ステッドウェイコート 551 (72)発明者デヴィッドビー．ローアメリカ合衆国 07922 ニュージャージーバークレーハイツ、オーヴァールックドライヴ８ (72)発明者ジェイゴードンウィルポンアメリカ合衆国 07059 ニュージャージーウォーレン、ラウンドトップロード 75

Claims

【特許請求の範囲】

【請求項１】語から音声表示の列を生成し、その語お
よび生成した音声表示列を語彙集に記録するプロセッサ
手段からなり、このプロセッサ手段が、発話語の受信に応答して、その発話語を特徴づける部分
語のモデルを構成し、構成した部分語モデルと生成した
音声表示列が一致した場合に発話語を前記語として認識
するために、構成した部分語モデルを語彙集に記録され
た音声表示列と比較することを特徴とする音声認識装
置。
【請求項２】プロセッサ手段が、語および各格納語の
音声表示を格納する辞書データベースを有することを特
徴とする請求項１の装置。
【請求項３】プロセッサ手段が、前記語およびその変
形を、前記語およびその語変形を表現する音声表示の列
とともに記録する語彙集データベースを有することを特
徴とする請求項２の装置。
【請求項４】プロセッサ手段が、前記音声認識装置へ
の語の入力に応答して、辞書データベースにアクセス
し、入力された語およびその組合せによって識別される
音声表示の列を辞書データベースの音声表示から生成
し、入力された語および生成した音声表示列を語彙集デ
ータベースに記録する手段を有することを特徴とする請
求項３の装置。
【請求項５】プロセッサ手段が、発話を区別するため
に利用される音声の小単位をそれぞれ識別する部分語を
格納する部分語モデルデータベースを有することを特徴
とする請求項４の装置。
【請求項６】プロセッサ手段が、前記音声認識装置に
よる語の受信に応答して、部分語モデルデータベースに
アクセスし、前記受信した発話語を表現する部分語の列
からなるモデルを構成することを特徴とする請求項５の
装置。
【請求項７】アクセス・構成手段が、語彙集データベ
ースにアクセスし、構成した部分語列モデルを、語彙集
データベースに記録された音声表示列と比較し、構成し
た列部分語モデルと一致する音声表示列とともに記録さ
れた語として前記発話語を認識する手段を有することを
特徴とする請求項６の装置。
【請求項８】語から音声表示の列を生成し、その語お
よび生成した音声表示列を語彙集データベースに記録す
る手段と、発話語の受信に応答して、その発話語の音を特徴づける
音素の列のモデルを構成し、語彙集データベースにアク
セスし、モデル音素列と語彙集データベースに記録され
た音声表示列のうちの１つが一致した場合に、一致した
語彙集データベースに記録された音声表示列とともに記
録された語として前記発話語を認識するために、構成し
た音素列モデルを語彙集データベースに記録された音声
表示列と比較する手段とからなることを特徴とする音声
認識装置。
【請求項９】語および各格納語の音声表示を格納する
辞書データベースと、前記語およびその変形を、前記語およびその語変形を表
現する音声表示の列とともに記録する語彙集データベー
スと、音声認識装置への語の入力に応答して、辞書データベー
スにアクセスし、入力された語およびその変形によって
識別される音声表示の列を辞書データベースから生成
し、入力された語および生成した音声表示列を語彙集デ
ータベースに記録する第１プロセッサ手段と、発話を区別するために利用される音声の小単位をそれぞ
れ識別する音素を格納する部分語モデルデータベース
と、前記音声認識装置による発話語の受信に応答して、部分
語モデルデータベースにアクセスし、前記受信した発話
語を表現する音声の小単位を表す音素の列からなるモデ
ルを構成し、構成した音素モデル列と一致する音声表示
列とともに記録された語として前記発話語を認識するた
めに、構成した音素モデル列を語彙集データベースに記
録された音声表示列と比較する第２プロセッサ手段とか
らなることを特徴とする音声認識装置。
【請求項１０】語の変形をそれぞれ表現する音声表示
を格納し、発話を区別するために利用される音声の小単
位をそれぞれ識別する音素を格納する手段と、語を識別する音声表示の列を生成し、その語および生成
した音声表示列の両方を前記格納手段に記録するプロセ
ッサ手段とからなり、このプロセッサ手段が、発話語の受信に応答して、その発話語を特徴づける音素
の列のモデルを構成し、モデル音素列が記録された音声
表示列のうちの１つと一致した場合に、記録された音声
表示列に対応しそれとともに記録された語として前記発
話語を認識するために、構成した音素列モデルを記録さ
れた音声表示列と比較することを特徴とする音声認識装
置。
【請求項１１】語から音声表示の列を生成し、その語
および生成した音声表示列を語彙集に記録するステップ
と、発話語の受信後、その発話後を特徴づける音素の列のモ
デルを構成し、発話語を語彙集に記録された語のうちの
１つとして認識するために、構成した音素列モデルを語
彙集に記録された音声表示列と比較するステップとから
なることを特徴とする音声認識装置の動作方法。
【請求項１２】前記生成・記録ステップが、語および
各格納語の音声表示を辞書データベースに格納するステ
ップを有することを特徴とする請求項１１の方法。
【請求項１３】前記生成・記録ステップが、前記語お
よびその変形を、前記語およびその語変形を表現する音
声表示の列とともに語彙集データベースに記録するステ
ップをさらに有することを特徴とする請求項１２の方
法。
【請求項１４】前記生成・記録ステップが、前記音声認識装置への語の入力に応答して、辞書データ
ベースにアクセスするステップと、入力された語およびその組合せによって識別される音声
表示の列を辞書データベースに格納された音声表示から
生成するステップと、入力された語および生成した音声表示列を語彙集データ
ベースに記録するステップとをさらに有することを特徴
とする請求項１３の方法。
【請求項１５】発話を区別するために利用される音声
の小単位をそれぞれ識別する音素を部分語モデルデータ
ベースに格納するステップをさらに有することを特徴と
する請求項１４の方法。
【請求項１６】前記構成・比較ステップが、前記音声認識装置による語の受信に応答して、部分語モ
デルデータベースにアクセスするステップと、前記受信した発話語を表現する音素の列からなるモデル
を構成するステップとを有することを特徴とする請求項
１５の方法。
【請求項１７】前記構成・比較ステップが、語彙集データベースにアクセスするステップと、構成した列音素モデルを、語彙集データベースに記録さ
れた音声表示列と比較するステップと、構成した列音素モデルと一致する音声表示列とともに記
録された語として前記発話語を認識するステップとをさ
らに有することを特徴とする請求項１６の方法。
【請求項１８】プロセッサを有する音声認識装置にお
いて、このプロセッサは、このプロセッサと結合されたキーボ
ードで入力された語に応答して、キーボード入力語から
音声表示の列を生成し、その語および生成した音声表示
列を語彙集に記録し、発話語の受信に応答して、その発
話語を特徴づける音素の列モデルを構成し、その発話語
をキーボード入力語として認識するために、構成した音
素モデル列を語彙集に記録された音声表示列と比較する
ことを特徴とする音声認識装置。
【請求項１９】英数字データの変形をそれぞれ表現す
る音声表示を格納し、発話を区別するために利用される
音声の小単位をそれぞれ識別する音素を格納する手段
と、英数字データを識別する音声表示の列を生成し、その英
数字データおよびその英数字データに対応して生成した
音声表示列の両方を前記格納手段に記録する手段とから
なり、この手段が、発話英数字データの受信に応答して、その発話英数字デ
ータを特徴づける音素の列のモデルを構成し、モデル音
素列が記録された音声表示列のうちの１つと一致した場
合に、記録された音声表示列に対応する英数字データと
して前記発話英数字データを認識するために、構成した
音素列モデルを記録された音声表示列と比較することを
特徴とする音声認識装置。
【請求項２０】英数字データから音声表示の列を計算
し、その英数字データおよびそれに対応する生成した音
声表示列の両方を語彙集に記録するステップと、入力された英数字データの受信後、入力された英数字デ
ータを特徴づける音素の列のモデルを構成し、入力され
た英数字データを語彙集に記録された英数字データのう
ちの１つとして認識するために、構成した音素列モデル
を語彙集に記録された音声表示列と比較するステップと
からなることを特徴とする音声認識方法。