JPH11311995A

JPH11311995A - 音声認識装置

Info

Publication number: JPH11311995A
Application number: JP10120975A
Authority: JP
Inventors: Takahide Takahashi; 隆英高橋; Kenichi Yamamoto; 健一山本; Satoru Oishi; 哲大石
Original assignee: Toshiba Tec Corp
Current assignee: Toshiba Tec Corp
Priority date: 1998-04-30
Filing date: 1998-04-30
Publication date: 1999-11-09

Abstract

(57)【要約】【課題】文を構成する語句の発声順序・言回しが異な
っても、同一の意味の文として認識可能とする。【解決手段】話者の音声を入力するための音声入力部
１１と、予め認識されるべき複数の語句を分類して記憶
するとともに、各分類ごとに割当てる桁を変えた言語要
素コードを各語句に対応させて記憶する音声認識リソー
ス１２と、、音声入力部から入力した音声から語句を認
識し、認識した語句が予め認識されるべき語句を含むと
き、各語句に対応する言語要素コードを音声認識リソー
スから抽出して出力する音声認識部１３、この音声認識
部から出力された複数の言語要素コードを加算すること
によって意味コードを作成するコード再構築部１４とを
設けた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力した音声によ
り語句を認識してコード化する音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、図１１に示すよ
うに音声を入力するマイク１ａとこのマイクからの音声
をデジタル信号に変換するＡ／Ｄ変換器１ｂを備える音
声入力部１、予め認識されるべき語句に対して定義され
た言語要素コードの集合体である音声認識リソース２、
この音声入力部１からの出力に基づいて語句を認識し、
その語句に対応する言語要素コードを音声認識リソース
２に基づいて抽出する音声認識部３、音声認識部３で抽
出した言語要素コードのコード列を音声認識データとし
て利用するアプリケーションプログラム４から構成され
る。

【０００３】このような装置では、話者が発声した音声
を音声入力部１から入力すると、音声認識部３で発声し
た順に予め定義されている語句が認識され、その順に言
語要素コードのコード列がアプリケーションプログラム
４へ音声認識データとして出力されていた。

【０００４】

【発明が解決しようとする課題】しかし、話者は、常に
決まった順序・言回しで発声するとは限らない。その時
の状況や気分、個人的な性癖、大局的に見れば生まれ育
ってきた文化、教育、慣習、価値観思想等の違いで発声
する順序・言回しが異なる。

【０００５】従って、音声認識エンジンによって生成さ
れるコード列は、文全体では同じ意味の言葉を発声した
にもかかわらず、言語要素コードの順序が異なるため、
異なるコード列になってしまうという問題があった。

【０００６】これは音声認識を利用するアプリケーショ
ンプログラム４にとっては、渡されたコード列すなわち
音声認識データがはたして同じ意味なのか、或いは全く
異なる意味なのかを判断しなければならないため、アプ
リケーションプログラム４側において膨大な処理ルーチ
ンが必要とされてきた。

【０００７】また、この膨大な処理ルーチンの作成を回
避するために、音声認識装置の開発にあたって、発声す
る順序・言回しを限定せざるを得なく、同じ意味の文を
発声する場合にも発声する順序・言回しが異なれば誤認
識してしまうという問題があった。

【０００８】また、これを使用者側の立場で考えると、
発声する順序・言回しを正確に記憶しておかなければな
らないため、誤認識を防止しようとして発声時に無意識
的に起こる特有な緊張感・心理的圧迫感を強いられてい
た。また、順序・言回しを忘れてしまったから装置を使
用することができないとか、順序・言回しを忘れそうだ
から装置を使用したくないという悪循環の心理が働くな
どの問題もあった。

【０００９】また、比較的多くの順序・言回しでも音声
認識できるようにすれば、それだけ作成すべきコード体
系は大規模になってしまい、音声認識のための記憶領域
も多く必要となるなどの問題もあった。

【００１０】そこで、本発明は、文を構成する語句の発
声順序・言回しが異なっても、同一の意味の文として認
識できる音声認識装置を提供しようとするものである。

【００１１】

【課題を解決するための手段】請求項１の本発明は、話
者の音声を入力するための音声入力手段と、この音声入
力手段から入力した音声から語句を認識する音声認識手
段と、予め認識されるべき複数の語句と各語句に対応し
た言語要素コードを記憶する言語要素コード記憶手段
と、音声認識手段で認識された語句が予め認識されるべ
き語句を含むとき、各語句に対応する言語要素コードを
言語要素コード記憶手段から抽出して出力する言語要素
コード出力手段と、この言語要素コード出力手段から出
力された複数の言語要素コードに基づいて、音声認識手
段で認識された各語句からなる文の意味情報を伝えるた
めの意味コードを作成する意味コード作成手段とを備え
たことを特徴とする音声認識装置である。

【００１２】請求項２の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句を分類して記憶するとともに、各分
類ごとに割当てる桁を変えた言語要素コードを各語句に
対応させて記憶する言語要素コード記憶手段と、音声認
識手段で認識された語句が予め認識されるべき語句を含
むとき、各語句に対応する言語要素コードを言語要素コ
ード記憶手段から抽出して出力する言語要素コード出力
手段と、この言語要素コード出力手段から出力された複
数の言語要素コードを加算することによって意味コード
を作成する意味コード作成手段とを備えたことを特徴と
する音声認識装置である。

【００１３】請求項３の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句を分類して記憶するとともに、個別
コードに各分類の並べ替え順序を示す順番コードをつけ
てなる言語要素コードを各語句に対応させて記憶する言
語要素コード記憶手段と、音声認識手段で認識された語
句が予め認識されるべき語句を含むとき、各語句に対応
する言語要素コードを言語要素コード記憶手段から抽出
して出力する言語要素コード出力手段と、この言語要素
コード出力手段から出力された複数の言語要素コードに
ついて、順番コードの順番に個別コードだけを並べて連
結することによって意味コードを作成する意味コード作
成手段とを備えたことを特徴とする音声認識装置であ
る。

【００１４】請求項４の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句にそれぞれ対応した言語要素コード
を記憶する言語要素コード記憶手段と、各言語要素コー
ドを組合せ、言語要素コードの順番のみが異なる組合せ
からなるものについては同一の意味コードを対応させ、
異なる言語要素コードの組合せからなるものについては
異なる意味コードを対応させたコード変換テーブルと、
音声認識手段で認識された語句が予め認識されるべき語
句を含むとき、各語句に対応する言語要素コードを言語
要素コード記憶手段から抽出して出力する言語要素コー
ド出力手段と、この言語要素コード出力手段から出力さ
れた複数の言語要素コードの組合せと同じ組合せのコー
ドをコード変換テーブルから検索し、その組合せに対応
する意味コードを抽出する意味コード作成手段とを備え
たことを特徴とする音声認識装置である。

【００１５】

【発明の実施の形態】以下、本発明を電子式キャッシュ
レジスタ、ＰＯＳ端末などの商品販売コード登録処理な
どを行う業務処理装置に適用した場合の第１の実施の形
態を図１ないし図３を参照して説明する。

【００１６】図１は、本実施の形態にかかる業務処理装
置の構成を示す機能ブロック図である。この業務処理装
置は、音声をアナログ信号として入力するマイク１１ａ
とこのマイク１１ａからの音声をデジタル信号に変換す
るＡ／Ｄ変換器１１ｂを備える音声入力手段としての音
声入力部１１、予め認識されるべき語句に対して定義さ
れた( 関連づけられた) 言語要素コードの集合体である
言語要素コード記憶手段としての音声認識リソース１
２、音声入力部１１からの出力に基づいて、入力した音
声に対応する語句を認識し（音声認識手段）、その語句
に対応する言語要素コードを音声認識リソース１２から
抽出して出力（言語要素コード出力手段）する音声認識
部１３、音声認識部１３で抽出した言語要素コードに基
づいて、どの商品が何個などの情報（文の意味）を伝え
るためのコード列（意味コード）を再構築しこのコード
列を出力する意味コード作成手段としてのコード再構築
部１４、このコード再構築部１４からの意味コードを利
用するアプリケーションプログラム１５から構成され
る。

【００１７】上記音声認識リソース１２は、例えばハー
ドディスク装置などの記憶装置で構成される。具体的に
は図２に示すような音声認識されるべき語句と、これら
に対応させた言語要素コードとから構成される。この言
語要素コードはすべて４桁のコードであって、音声認識
されるべき語句を「商品名」と「個数」に分類し、各分
類ごとに規則的にコードを対応させる。すなわち、「商
品名」については上位２桁で表現するとともに下位２桁
はすべて０とし、「個数」については下位２桁で表現す
るとともに上位２桁はすべて０とする。

【００１８】例えば「商品Ａ」の語句に対しては「０１
００」の言語要素コードを対応させ、「１個」の語句に
対しては「０００１」の言語要素コードを対応させる。
このように語句を分類して対応させることにより、分類
の異なる言語要素コードを加えた結果は、加える順序に
関わらず同一コードになる。

【００１９】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておく（不特定話者対応型）。但し、使用
者に実際に発声してもらった音声特徴データを関連づけ
ておいてもよい（特定話者対応型）。

【００２０】また、上記音声認識部１３、コード再構築
部１４、及びアプリケーションプログラム１５は、ＣＰ
Ｕ（中央処理装置）・ＲＯＭ（リード・オンリ・メモ
リ）・ＲＡＭ（ランダム・アクセス・メモリ）を備えた
パーソナルコンピュータなどから構成される。これら音
声認識部１３、コード再構築部１４、及びアプリケーシ
ョンプログラム１５は、具体的には例えばハードディス
ク装置などの記憶装置又はＲＯＭなどのメモリに記憶さ
れ、上記パーソナルコンピュータのＣＰＵが読取可能な
ソフトウエアプログラムで構成される。

【００２１】このうち、音声認識部１３は、上記音声入
力部１１からの出力に基づいて入力された音声と予め音
声認識リソース１２内で音声特徴データを定義（対応）
させた語句との類似性・近似性を検出（例えば音声認識
リソース１２に同一の語句を意味する複数種類の言回し
の音声特徴データを同一の語句に対応させておき、これ
に基づいて入力された音声の認識を行って発声された語
句を特定）して音声認識を行い、音声認識して得られた
語句に対応する言語要素コードを音声認識リソース１２
から抽出して出力する。

【００２２】また、上記コード再構築部１４は、音声認
識部１３から出力された言語要素コードをその出力順序
を問わずに加算し、その加算値を意味コードとして出力
する。

【００２３】例えば図３（ａ）に示すように「商品Ａが
３個」という発声内容であった場合は音声認識部１３か
らは言語要素コードが「０１００」、「０００３」の順
に出力されるが、コード再構築部１４はこれらを加算し
て得られる「０１０３」を意味コードとして出力する。
これに対して同図（ｂ）に示すように「３個の商品Ａ」
という発声内容であった場合は音声認識部１３からは言
語要素コードが「０００３」、「０１００」の順に出力
されるが、コード再構築部１４はこれらを加算して得ら
れる「０１０３」を意味コードとして出力する。従っ
て、商品名と個数の発声順序が異なってもコード再構築
部１４からは同一の意味コードが出力されることにな
る。

【００２４】上記アプリケーションプログラム１５は、
コード再構築部１４からの意味コードに基づいて商品販
売コードの登録、代金の計算などの所定の業務処理を行
うソフトウエアプログラムで構成される。アプリケーシ
ョンプログラム１５は、商品名と個数を発声すると、そ
の意味コードがコード再構築部１４から出力されるが、
この意味コードによって対応する商品名をディスプレイ
などの画面に選択表示し、商品コードの登録や代金の計
算などその後の会計処理を実施するためのものである。

【００２５】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図３（ａ）に示すよう
に「商品Ａが３個」と発声すると、この音声は音声入力
部１１でデジタル信号に変換されて音声認識部１３に供
給される。そして、音声認識部１３で音声認識リソース
１２が参照され、入力された音声と予め音声認識リソー
ス内で定義された語句との類似性・近似性が検出され、
「商品Ａ」に対しては「０１００」なる言語要素コード
が出力され、「３個」に対しては「０００３」なる言語
要素コードが、その順に出力される。これらの言語要素
コードは次のコード再構築部１４に渡され、コード再構
築部１４によって加算されて「０１０３」なる意味コー
ドが生成され、アプリケーションプログラム１５に渡さ
れる。この意味コードは、アプリケーションプログラム
１５にとっては、「商品Ａが３個」という意味をもって
いる。

【００２６】これに対して、装置の使用者が図３（ｂ）
に示すように「３個の商品Ａ」と発声すると、その音声
は上記と同様に音声入力部１１を介して音声認識部１３
へ供給され、音声認識部１３で「３個」に対しては「０
００３」なる言語要素コードが出力され、「商品Ａ」に
対しては「０１００」なる言語要素コードが、その順に
出力される。これらの言語要素コードは次のコード再構
築部１４に渡され、このコード再構築部１４によって加
算されて「０１０３」なる意味コードが生成され、アプ
リケーションプログラム１５に渡される。この意味コー
ドは、アプリケーションプログラム１５にとっては、
「商品Ａが３個」という意味をもっている。

【００２７】このように、同一の意味をもつ文を発声す
れば、それを構成する語句の発声順序・言回しが異なっ
ても、同一の意味をもつ「０１０３」なる意味コードが
作成され、アプリケーションプログラム１５に渡すこと
ができる。すなわち、文を構成する語句の発声順序・言
回しが異なっても、同一の意味の文として認識できる。

【００２８】これにより、装置の使用者にとって覚えや
すく、言回しを忘れてしまったから装置を使用すること
ができない、又は言回しを忘れそうだから装置を使用し
たくないなどといった意識が働くことを防止することが
できる。

【００２９】また、各使用者にとっては、普段使う傾向
のある言回し、又はより自然な言回しで発声すれば足り
るので、従来のように順序通り発声しなければならない
といった発声時に起こる特有な緊張感・心理的圧迫感か
ら解放される。

【００３０】また、同じ意味の文は、同一の意味コード
に再構築されるので、アプリケーションプログラムとし
ては、従来のように渡された一つ一つのコードに対し
て、同じ意味かどうかの判断をする膨大な処理が不要と
なり、従って、アプリケーションプログラムのコーディ
ング量の大幅な削減に寄与することができる。また、比
較的多くの言回しを許したとしても、生成すべき意味コ
ード体系は小規模で済む。

【００３１】また、音声認識されるべき語句ごとに言語
要素コードを対応（定義）させているので、文ごとにコ
ードを対応させる場合に比して、言語要素コードを対応
させる語句の追加・削除・編集・更新等の保守作業が容
易になる。

【００３２】次に、本発明を上述したような業務処理装
置に適用した場合の第２の実施の形態を図４ないし図６
を参照して説明する。なお、上記第１の実施の形態と同
一部分には同一符号を付して詳細な説明を省略する。

【００３３】本実施の形態にかかる業務処理装置は、図
４に示すように音声入力部１１、音声認識リソース１
２′、音声認識部１３、コード再構築部１４、このコー
ド再構築部１４からの意味コードを利用するアプリケー
ションプログラム１５の他、コード再構築部１４で意味
コードを作成する前に言語要素コードの並べ替えを行う
並べ替え部２１から構成される。

【００３４】本実施の形態における音声認識部１３、コ
ード再構築部１４、アプリケーションプログラム１５、
及び並べ替え部２１は、ＣＰＵ・ＲＯＭ・ＲＡＭを備え
たパーソナルコンピュータなどから構成される。これら
音声認識部１３、コード再構築部１４、アプリケーショ
ンプログラム１５、及び並べ替え部２１は、具体的には
例えばハードディスク装置などの記憶装置又はＲＯＭな
どのメモリに記憶され、上記パーソナルコンピュータの
ＣＰＵが読取可能なソフトウエアプログラムで構成され
る。

【００３５】本実施の形態における音声認識リソース１
２′は、上記第１の実施の形態の場合とは異なり、図５
に示すような音声認識されるべき語句と、これらに対応
させた言語要素コードとから構成される。この言語要素
コードは分類の順序を示すキー値と実際のコード番号を
示すコード（個別コード）との組合せで構成される。こ
こでは、第１の実施の形態と同様に音声認識されるべき
語句を「商品名」と「個数」に分類し、同一の分類には
同一のキー値を対応させるとともに、そのコードを対応
させる。

【００３６】例えば「商品Ａ」の語句に対してはキー値
「１」及びコード「０１」からなる言語要素コードを対
応させ、「１個」の語句に対してはキー値「２」及びコ
ード「０１」からなる言語要素コードを対応させる。こ
のように語句を分類して各分類の順序を示すキー値を対
応させることにより、言語要素コードをキー値の順に並
べ替えれば、言語要素コードの出力順序に関わらず同一
コードになる。

【００３７】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておいてもよく（不特定話者対応型）、ま
た使用者に実際に発声してもらった音声特徴データを関
連づけておいてもよい（特定話者対応型）ことは上記第
１の実施の形態と同様である。

【００３８】また、本実施の形態におけるコード再構築
部１４は、音声認識部１３から２つの言語要素コードを
受取ると、これを並べ替え部２１に渡す。すると並べ替
え部２１は受取った言語要素コードをキー値の順に並べ
替えを行い、並べ替えた順に言語要素コードをコード再
構築部１４へ戻す。これにより、コード再構築部１４
は、各言語要素コードからキー値を削除して連結するこ
とにより４桁の意味コードにしてアプリケーションプロ
グラム１５へ渡す。これにより、上記第１の実施の形態
と同様に商品名と個数の発声順序が異なってもコード再
構築部１４からは同一の意味コードが出力されることに
なる。

【００３９】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図６（ａ）に示すよう
に「商品Ａが３個」と発声すると、この音声は音声入力
部１１でデジタル信号に変換されて音声認識部１３に供
給される。そして、音声認識部１３では音声認識リソー
ス１２′が参照され、入力された音声と予め音声認識リ
ソース内で定義された語句との類似性・近似性が検出さ
れ、「商品Ａ」に対しては「１０１」なる言語要素コー
ドが出力され、「３個」に対しては「２０３」なる言語
要素コードが、その順に出力される。これらの言語要素
コードは次のコード再構築部１４に渡され、並べ替え部
２１で言語要素コード内で定義されたキー値に従って並
べ替えが行われる。すなわち、「商品Ａ」のキー値は
「１」であるから先頭に配置され、「３個」のキー値は
「２」であるから２番目に配置される。

【００４０】このように並べ替えが行われると、これら
の言語要素コードはコード再構築部１４に戻され、各キ
ー値を削除後、連結されて「０１０３」なる意味コード
が生成され、アプリケーションプログラム１５に渡され
る。この意味コードは、アプリケーションプログラム１
５にとっては、「商品Ａが３個」という意味をもってい
る。

【００４１】これに対して、装置の使用者が図６（ｂ）
に示すように「３個の商品Ａ」と発声すると、その音声
は上記と同様に音声入力部１１を介して音声認識部１３
へ供給され、音声認識部１３で「３個」に対しては「２
０３」なる言語要素コードが出力され、「商品Ａ」に対
しては「１０１」なる言語要素コードが、その順に出力
される。これらの言語要素コードは次のコード再構築部
１４に渡され、並べ替え部２１にて言語要素コード内で
定義されたキー値に従って並べ替えが行われる。すなわ
ち、「商品Ａ」のキー値は「１」であるから先頭に配置
され、「３個」のキー値は「２」であるから２番目に配
置される。

【００４２】このように並べ替えが行われた後、これら
の言語要素コードはコード再構築部１４に戻され、各キ
ー値を削除後、連結されて「０１０３」なる意味コード
が生成され、アプリケーションプログラム１５に渡され
る。この意味コードは、アプリケーションプログラム１
５にとっては、「商品Ａが３個」という意味をもってい
る。

【００４３】このように、同一の意味をもつ文を発声す
れば、それを構成する語句の発声順序・言回しが異なっ
ても、同一の意味をもつ「０１０３」なる意味コードが
作成され、アプリケーションプログラム１５に渡すこと
ができる。すなわち、文を構成する語句の発声順序・言
回しが異なっても、同一の意味の文として認識できる。
これにより、上記第１の実施の形態と同様の効果を奏す
ることができる。

【００４４】次に、本発明を上述したような業務処理装
置に適用した場合の第３の実施の形態を図７ないし図１
０を参照して説明する。なお、上記第１の実施の形態と
同一部分には同一符号を付して詳細な説明を省略する。

【００４５】本実施の形態にかかる業務処理装置は、音
声入力部１１、音声認識リソース１２″、音声認識部１
３、コード再構築部１４、このコード再構築部１４から
の意味コードを利用するアプリケーションプログラム１
５の他、コード再構築部１４で意味コードを作成する際
に使用するコード再構築用テーブル２２から構成され
る。

【００４６】本実施の形態における音声認識部１３、コ
ード再構築部１４、アプリケーションプログラム１５、
及びコード再構築用テーブル２２は、ＣＰＵ・ＲＯＭ・
ＲＡＭを備えたパーソナルコンピュータなどから構成さ
れる。これら音声認識部１３、コード再構築部１４、ア
プリケーションプログラム１５は、具体的には例えばハ
ードディスク装置などの記憶装置又はＲＯＭなどのメモ
リに記憶され、上記パーソナルコンピュータのＣＰＵが
読取可能なソフトウエアプログラムで構成される。ま
た、コード再構築用テーブル２２は、ＲＯＭやＲＡＭな
どのメモリや、ハードディスク装置などの記憶装置に予
め記憶される。

【００４７】本実施の形態における音声認識リソース１
２″は、上記第１の実施の形態の場合とは異なり、図８
に示すような音声認識されるべき語句と、これらに対応
させた言語要素コードとから構成される。本実施の形態
では、上記第１及び第２の実施の形態と異なり、各語句
について数字コードの代りに文字コードを対応させたも
のである。ここでは各語句に対して１文字を対応させて
いる。例えば、「商品Ａ」の語句に対しては「Ａ」から
なる言語要素コードを対応させ、「１個」の語句に対し
ては「Ｄ」からなる言語要素コードを対応させる。

【００４８】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておいてもよく（不特定話者対応型）、ま
た使用者に実際に発声してもらった音声特徴データを関
連づけておいてもよい（特定話者対応型）ことは上記第
１の実施の形態と同様である。

【００４９】上記コード再構築用テーブル２２は、図９
に示すように言語要素コードの組合せと各組合せに対応
させた４桁の意味コードから構成される。言語要素コー
ドの組合せとしては、商品名と個数の２種類の組合せを
用意する。各組合せは同一の言語要素コードの組合せで
あって順序が異なるものについては同一の意味コードを
対応させる。このようにすることによって、順序の異な
る言語要素コードの組合せであっても同一の言語要素コ
ードからなる組合せであれば同一の意味コードを出力す
ることができる。

【００５０】すなわち、本実施の形態におけるコード再
構築部１４は、音声認識部１３から２つの言語要素コー
ドを受取ると、コード再構築用テーブル２２を参照して
その言語要素コードの組合せと一致するものを検索し、
それに対応する意味コードを取出してアプリケーション
プログラム１５へ渡す。これにより、上記第１の実施の
形態と同様に商品名と個数の発声順序が異なってもコー
ド再構築部１４からは同一の意味コードが出力されるこ
とになる。

【００５１】このような構成の本発明の実施の形態にお
いては、例えば図１０（ａ）に示すように本装置の使用
者が「商品Ａが３個」と発声すると、この音声は音声入
力部１１でデジタル信号に変換されて音声認識部１３に
供給される。そして、音声認識部１３で音声認識リソー
ス１２″が参照され、入力された音声と予め音声認識リ
ソース内で定義された語句との類似性・近似性が検出さ
れ、「商品Ａ」に対しては「Ａ」なる言語要素コードが
出力され、「３個」に対しては「Ｆ」なる言語要素コー
ドが、その順に出力される。従って、この場合の言語要
素コードの組合せは「ＡＦ」となるので、コード再構築
部１４ではコード再構築用テーブル２２から「ＡＦ」に
対応する「０１０３」なる意味コードが取出され、アプ
リケーションプログラム１５に渡される。この意味コー
ドは、アプリケーションプログラム１５にとっては、
「商品Ａが３個」という意味をもっている。

【００５２】これに対して、装置の使用者が図１０
（ｂ）に示すように「３個の商品Ａ」と発声すると、そ
の音声は上記と同様に音声入力部１１を介して音声認識
部１３へ供給され、音声認識部１３で「３個」に対して
は「Ｆ」なる言語要素コードが出力され、「商品Ａ」に
対しては「Ａ」なる言語要素コードが、その順に出力さ
れる。従って、この場合の言語要素コードの組合せは
「ＦＡ」となるので、コード再構築部１４ではコード再
構築用テーブル２２から「ＦＡ」に対応する「０１０
３」なる意味コードが取出されアプリケーションプログ
ラム１５に渡される。この意味コードは、アプリケーシ
ョンプログラム１５にとっては、「商品Ａが３個」とい
う意味をもっている。

【００５３】但し、例えば図１０（ｃ）に示すように本
装置の使用者が「商品Ａが２個」と発声すると、この音
声は音声入力部１１でデジタル信号に変換されて音声認
識部１３に供給される。そして、音声認識部１３で音声
認識リソース１２″が参照され、入力された音声と予め
音声認識リソース内で定義された語句との類似性・近似
性が検出され、「商品Ａ」に対しては「Ａ」なる言語要
素コードが出力され、「２個」に対しては「Ｅ」なる言
語要素コードが、その順に出力される。従って、この場
合の言語要素コードの組合せは「ＡＥ」となるので、コ
ード再構築部１４ではコード再構築用テーブル２２から
「ＡＥ」に対応する「０１０２」なる意味コードが取出
され、アプリケーションプログラム１５に渡される。こ
の意味コードは、アプリケーションプログラム１５にと
っては、「商品Ａが２個」という意味をもっている。こ
のように図１０（ａ）と同図（ｃ）とを比較した場合
「商品Ａ」は共通であるが、「３個」と「２個」の部分
が異なるため、コード再構築部１４から出力される意味
コードは異なる。

【００５４】このように、「商品名」が異なっても「個
数」が異なるような意味の異なる文を発声した場合は、
異なる意味コードが作成されるが、同一の意味をもつ文
を発声すれば、それを構成する語句の発声順序・言回し
が異なっても、同一の意味をもつ「０１０３」なる意味
コードが作成され、アプリケーションプログラム１５に
渡すことができる。すなわち、文を構成する語句の発声
順序・言回しが異なっても、同一の意味の文として認識
できる。これにより、上記第１の実施の形態と同様の効
果を奏することができる。

【００５５】

【発明の効果】以上詳述したように本発明によれば、意
味のある文を発声するときに、その文を構成する語句の
発声順序・言回しが異なっても、同一の意味コードが作
成されるので、同一の意味の文として認識できる。これ
により、装置の使用者にとって覚えやすく、言回しを忘
れてしまったから使用することができない、又は言回し
を忘れそうだから使用したくないといった意識が働くこ
とを防止することができる。

【００５６】また、各使用者にとっては、普段使う傾向
のある言回し、又はより自然な言回しで発声すれば足り
るので、従来のように順序通り発声しなければならない
といった発声時に起こる特有な緊張感・心理的圧迫感か
ら解放される。

【００５７】また、同じ意味の文は、同一の意味コード
に再構築されるので、アプリケーションプログラムとし
ては、従来のように渡された一つ一つのコードに対し
て、同じ意味かどうかの判断をする膨大な処理が不要と
なり、従って、アプリケーションプログラムのコーディ
ング量の大幅な削減に寄与することができる。また、比
較的多くの言回しを許したとしても、生成すべき意味コ
ード体系は小規模で済む。

【００５８】また、音声認識されるべき語句ごとに言語
要素コードを対応（定義）させているので、文ごとにコ
ードを対応させる場合に比して、言語要素コードを対応
させる語句の追加・削除・編集・更新等の保守作業が容
易になる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。

【図２】図１に示す音声認識リソースの構成を示す図。

【図３】本実施の形態の作用を説明する図。

【図４】本発明の第２の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。

【図５】図４に示す音声認識リソースの構成を示す図。

【図６】本実施の形態の作用を説明する図。

【図７】本発明の第３の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。

【図８】図７に示す音声認識リソースの構成を示す図。

【図９】図７に示すコード再構築テーブルの構成を示す
図。

【図１０】本実施の形態の作用を説明する図。

【図１１】従来の音声認識装置を適用した業務処理装置
の構成を示す機能ブロック図。

【符号の説明】

１１…音声入力部１１ａ…マイク１１ｂ…Ａ／Ｄ変換器１２…音声認識リソース１３…音声認識部１４…コード再構築部１５…アプリケーションプログラム２１…並べ替え部２２…コード再構築用テーブル

Claims

【特許請求の範囲】

【請求項１】話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
と各語句に対応した言語要素コードを記憶する言語要素
コード記憶手段と、前記音声認識手段で認識された語句
が予め認識されるべき語句を含むとき、各語句に対応す
る言語要素コードを前記言語要素コード記憶手段から抽
出して出力する言語要素コード出力手段と、この言語要
素コード出力手段から出力された複数の言語要素コード
に基づいて、前記音声認識手段で認識された各語句から
なる文の意味情報を伝えるための意味コードを作成する
意味コード作成手段とを備えたことを特徴とする音声認
識装置。
【請求項２】話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
を分類して記憶するとともに、各分類ごとに割当てる桁
を変えた言語要素コードを各語句に対応させて記憶する
言語要素コード記憶手段と、前記音声認識手段で認識さ
れた語句が予め認識されるべき語句を含むとき、各語句
に対応する言語要素コードを前記言語要素コード記憶手
段から抽出して出力する言語要素コード出力手段と、こ
の言語要素コード出力手段から出力された複数の言語要
素コードを加算することによって意味コードを作成する
意味コード作成手段とを備えたことを特徴とする音声認
識装置。
【請求項３】話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
を分類して記憶するとともに、個別コードに各分類の並
べ替え順序を示す順番コードをつけてなる言語要素コー
ドを各語句に対応させて記憶する言語要素コード記憶手
段と、前記音声認識手段で認識された語句が予め認識さ
れるべき語句を含むとき、各語句に対応する言語要素コ
ードを前記言語要素コード記憶手段から抽出して出力す
る言語要素コード出力手段と、この言語要素コード出力
手段から出力された複数の言語要素コードについて、順
番コードの順番に個別コードだけを並べて連結すること
によって意味コードを作成する意味コード作成手段とを
備えたことを特徴とする音声認識装置。
【請求項４】話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
にそれぞれ対応した言語要素コードを記憶する言語要素
コード記憶手段と、各言語要素コードを組合せ、言語要
素コードの順番のみが異なる組合せからなるものについ
ては同一の意味コードを対応させ、異なる言語要素コー
ドの組合せからなるものについては異なる意味コードを
対応させたコード変換テーブルと、前記音声認識手段で
認識された語句が予め認識されるべき語句を含むとき、
各語句に対応する言語要素コードを前記言語要素コード
記憶手段から抽出して出力する言語要素コード出力手段
と、この言語要素コード出力手段から出力された複数の
言語要素コードの組合せと同じ組合せのコードを前記コ
ード変換テーブルから検索し、その組合せに対応する意
味コードを抽出する意味コード作成手段とを備えたこと
を特徴とする音声認識装置。