JPH11311995A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11311995A
JPH11311995A JP10120975A JP12097598A JPH11311995A JP H11311995 A JPH11311995 A JP H11311995A JP 10120975 A JP10120975 A JP 10120975A JP 12097598 A JP12097598 A JP 12097598A JP H11311995 A JPH11311995 A JP H11311995A
Authority
JP
Japan
Prior art keywords
code
language element
recognized
phrase
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP10120975A
Other languages
English (en)
Inventor
Takahide Takahashi
隆英 高橋
Kenichi Yamamoto
健一 山本
Satoru Oishi
哲 大石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Tec Corp
Original Assignee
Toshiba Tec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Tec Corp filed Critical Toshiba Tec Corp
Priority to JP10120975A priority Critical patent/JPH11311995A/ja
Publication of JPH11311995A publication Critical patent/JPH11311995A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文を構成する語句の発声順序・言回しが異な
っても、同一の意味の文として認識可能とする。 【解決手段】 話者の音声を入力するための音声入力部
11と、予め認識されるべき複数の語句を分類して記憶
するとともに、各分類ごとに割当てる桁を変えた言語要
素コードを各語句に対応させて記憶する音声認識リソー
ス12と、、音声入力部から入力した音声から語句を認
識し、認識した語句が予め認識されるべき語句を含むと
き、各語句に対応する言語要素コードを音声認識リソー
スから抽出して出力する音声認識部13、この音声認識
部から出力された複数の言語要素コードを加算すること
によって意味コードを作成するコード再構築部14とを
設けた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力した音声によ
り語句を認識してコード化する音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、図11に示すよ
うに音声を入力するマイク1aとこのマイクからの音声
をデジタル信号に変換するA/D変換器1bを備える音
声入力部1、予め認識されるべき語句に対して定義され
た言語要素コードの集合体である音声認識リソース2、
この音声入力部1からの出力に基づいて語句を認識し、
その語句に対応する言語要素コードを音声認識リソース
2に基づいて抽出する音声認識部3、音声認識部3で抽
出した言語要素コードのコード列を音声認識データとし
て利用するアプリケーションプログラム4から構成され
る。
【0003】このような装置では、話者が発声した音声
を音声入力部1から入力すると、音声認識部3で発声し
た順に予め定義されている語句が認識され、その順に言
語要素コードのコード列がアプリケーションプログラム
4へ音声認識データとして出力されていた。
【0004】
【発明が解決しようとする課題】しかし、話者は、常に
決まった順序・言回しで発声するとは限らない。その時
の状況や気分、個人的な性癖、大局的に見れば生まれ育
ってきた文化、教育、慣習、価値観思想等の違いで発声
する順序・言回しが異なる。
【0005】従って、音声認識エンジンによって生成さ
れるコード列は、文全体では同じ意味の言葉を発声した
にもかかわらず、言語要素コードの順序が異なるため、
異なるコード列になってしまうという問題があった。
【0006】これは音声認識を利用するアプリケーショ
ンプログラム4にとっては、渡されたコード列すなわち
音声認識データがはたして同じ意味なのか、或いは全く
異なる意味なのかを判断しなければならないため、アプ
リケーションプログラム4側において膨大な処理ルーチ
ンが必要とされてきた。
【0007】また、この膨大な処理ルーチンの作成を回
避するために、音声認識装置の開発にあたって、発声す
る順序・言回しを限定せざるを得なく、同じ意味の文を
発声する場合にも発声する順序・言回しが異なれば誤認
識してしまうという問題があった。
【0008】また、これを使用者側の立場で考えると、
発声する順序・言回しを正確に記憶しておかなければな
らないため、誤認識を防止しようとして発声時に無意識
的に起こる特有な緊張感・心理的圧迫感を強いられてい
た。また、順序・言回しを忘れてしまったから装置を使
用することができないとか、順序・言回しを忘れそうだ
から装置を使用したくないという悪循環の心理が働くな
どの問題もあった。
【0009】また、比較的多くの順序・言回しでも音声
認識できるようにすれば、それだけ作成すべきコード体
系は大規模になってしまい、音声認識のための記憶領域
も多く必要となるなどの問題もあった。
【0010】そこで、本発明は、文を構成する語句の発
声順序・言回しが異なっても、同一の意味の文として認
識できる音声認識装置を提供しようとするものである。
【0011】
【課題を解決するための手段】請求項1の本発明は、話
者の音声を入力するための音声入力手段と、この音声入
力手段から入力した音声から語句を認識する音声認識手
段と、予め認識されるべき複数の語句と各語句に対応し
た言語要素コードを記憶する言語要素コード記憶手段
と、音声認識手段で認識された語句が予め認識されるべ
き語句を含むとき、各語句に対応する言語要素コードを
言語要素コード記憶手段から抽出して出力する言語要素
コード出力手段と、この言語要素コード出力手段から出
力された複数の言語要素コードに基づいて、音声認識手
段で認識された各語句からなる文の意味情報を伝えるた
めの意味コードを作成する意味コード作成手段とを備え
たことを特徴とする音声認識装置である。
【0012】請求項2の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句を分類して記憶するとともに、各分
類ごとに割当てる桁を変えた言語要素コードを各語句に
対応させて記憶する言語要素コード記憶手段と、音声認
識手段で認識された語句が予め認識されるべき語句を含
むとき、各語句に対応する言語要素コードを言語要素コ
ード記憶手段から抽出して出力する言語要素コード出力
手段と、この言語要素コード出力手段から出力された複
数の言語要素コードを加算することによって意味コード
を作成する意味コード作成手段とを備えたことを特徴と
する音声認識装置である。
【0013】請求項3の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句を分類して記憶するとともに、個別
コードに各分類の並べ替え順序を示す順番コードをつけ
てなる言語要素コードを各語句に対応させて記憶する言
語要素コード記憶手段と、音声認識手段で認識された語
句が予め認識されるべき語句を含むとき、各語句に対応
する言語要素コードを言語要素コード記憶手段から抽出
して出力する言語要素コード出力手段と、この言語要素
コード出力手段から出力された複数の言語要素コードに
ついて、順番コードの順番に個別コードだけを並べて連
結することによって意味コードを作成する意味コード作
成手段とを備えたことを特徴とする音声認識装置であ
る。
【0014】請求項4の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句にそれぞれ対応した言語要素コード
を記憶する言語要素コード記憶手段と、各言語要素コー
ドを組合せ、言語要素コードの順番のみが異なる組合せ
からなるものについては同一の意味コードを対応させ、
異なる言語要素コードの組合せからなるものについては
異なる意味コードを対応させたコード変換テーブルと、
音声認識手段で認識された語句が予め認識されるべき語
句を含むとき、各語句に対応する言語要素コードを言語
要素コード記憶手段から抽出して出力する言語要素コー
ド出力手段と、この言語要素コード出力手段から出力さ
れた複数の言語要素コードの組合せと同じ組合せのコー
ドをコード変換テーブルから検索し、その組合せに対応
する意味コードを抽出する意味コード作成手段とを備え
たことを特徴とする音声認識装置である。
【0015】
【発明の実施の形態】以下、本発明を電子式キャッシュ
レジスタ、POS端末などの商品販売コード登録処理な
どを行う業務処理装置に適用した場合の第1の実施の形
態を図1ないし図3を参照して説明する。
【0016】図1は、本実施の形態にかかる業務処理装
置の構成を示す機能ブロック図である。この業務処理装
置は、音声をアナログ信号として入力するマイク11a
とこのマイク11aからの音声をデジタル信号に変換す
るA/D変換器11bを備える音声入力手段としての音
声入力部11、予め認識されるべき語句に対して定義さ
れた( 関連づけられた) 言語要素コードの集合体である
言語要素コード記憶手段としての音声認識リソース1
2、音声入力部11からの出力に基づいて、入力した音
声に対応する語句を認識し(音声認識手段)、その語句
に対応する言語要素コードを音声認識リソース12から
抽出して出力(言語要素コード出力手段)する音声認識
部13、音声認識部13で抽出した言語要素コードに基
づいて、どの商品が何個などの情報(文の意味)を伝え
るためのコード列(意味コード)を再構築しこのコード
列を出力する意味コード作成手段としてのコード再構築
部14、このコード再構築部14からの意味コードを利
用するアプリケーションプログラム15から構成され
る。
【0017】上記音声認識リソース12は、例えばハー
ドディスク装置などの記憶装置で構成される。具体的に
は図2に示すような音声認識されるべき語句と、これら
に対応させた言語要素コードとから構成される。この言
語要素コードはすべて4桁のコードであって、音声認識
されるべき語句を「商品名」と「個数」に分類し、各分
類ごとに規則的にコードを対応させる。すなわち、「商
品名」については上位2桁で表現するとともに下位2桁
はすべて0とし、「個数」については下位2桁で表現す
るとともに上位2桁はすべて0とする。
【0018】例えば「商品A」の語句に対しては「01
00」の言語要素コードを対応させ、「1個」の語句に
対しては「0001」の言語要素コードを対応させる。
このように語句を分類して対応させることにより、分類
の異なる言語要素コードを加えた結果は、加える順序に
関わらず同一コードになる。
【0019】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておく(不特定話者対応型)。但し、使用
者に実際に発声してもらった音声特徴データを関連づけ
ておいてもよい(特定話者対応型)。
【0020】また、上記音声認識部13、コード再構築
部14、及びアプリケーションプログラム15は、CP
U(中央処理装置)・ROM(リード・オンリ・メモ
リ)・RAM(ランダム・アクセス・メモリ)を備えた
パーソナルコンピュータなどから構成される。これら音
声認識部13、コード再構築部14、及びアプリケーシ
ョンプログラム15は、具体的には例えばハードディス
ク装置などの記憶装置又はROMなどのメモリに記憶さ
れ、上記パーソナルコンピュータのCPUが読取可能な
ソフトウエアプログラムで構成される。
【0021】このうち、音声認識部13は、上記音声入
力部11からの出力に基づいて入力された音声と予め音
声認識リソース12内で音声特徴データを定義(対応)
させた語句との類似性・近似性を検出(例えば音声認識
リソース12に同一の語句を意味する複数種類の言回し
の音声特徴データを同一の語句に対応させておき、これ
に基づいて入力された音声の認識を行って発声された語
句を特定)して音声認識を行い、音声認識して得られた
語句に対応する言語要素コードを音声認識リソース12
から抽出して出力する。
【0022】また、上記コード再構築部14は、音声認
識部13から出力された言語要素コードをその出力順序
を問わずに加算し、その加算値を意味コードとして出力
する。
【0023】例えば図3(a)に示すように「商品Aが
3個」という発声内容であった場合は音声認識部13か
らは言語要素コードが「0100」、「0003」の順
に出力されるが、コード再構築部14はこれらを加算し
て得られる「0103」を意味コードとして出力する。
これに対して同図(b)に示すように「3個の商品A」
という発声内容であった場合は音声認識部13からは言
語要素コードが「0003」、「0100」の順に出力
されるが、コード再構築部14はこれらを加算して得ら
れる「0103」を意味コードとして出力する。従っ
て、商品名と個数の発声順序が異なってもコード再構築
部14からは同一の意味コードが出力されることにな
る。
【0024】上記アプリケーションプログラム15は、
コード再構築部14からの意味コードに基づいて商品販
売コードの登録、代金の計算などの所定の業務処理を行
うソフトウエアプログラムで構成される。アプリケーシ
ョンプログラム15は、商品名と個数を発声すると、そ
の意味コードがコード再構築部14から出力されるが、
この意味コードによって対応する商品名をディスプレイ
などの画面に選択表示し、商品コードの登録や代金の計
算などその後の会計処理を実施するためのものである。
【0025】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図3(a)に示すよう
に「商品Aが3個」と発声すると、この音声は音声入力
部11でデジタル信号に変換されて音声認識部13に供
給される。そして、音声認識部13で音声認識リソース
12が参照され、入力された音声と予め音声認識リソー
ス内で定義された語句との類似性・近似性が検出され、
「商品A」に対しては「0100」なる言語要素コード
が出力され、「3個」に対しては「0003」なる言語
要素コードが、その順に出力される。これらの言語要素
コードは次のコード再構築部14に渡され、コード再構
築部14によって加算されて「0103」なる意味コー
ドが生成され、アプリケーションプログラム15に渡さ
れる。この意味コードは、アプリケーションプログラム
15にとっては、「商品Aが3個」という意味をもって
いる。
【0026】これに対して、装置の使用者が図3(b)
に示すように「3個の商品A」と発声すると、その音声
は上記と同様に音声入力部11を介して音声認識部13
へ供給され、音声認識部13で「3個」に対しては「0
003」なる言語要素コードが出力され、「商品A」に
対しては「0100」なる言語要素コードが、その順に
出力される。これらの言語要素コードは次のコード再構
築部14に渡され、このコード再構築部14によって加
算されて「0103」なる意味コードが生成され、アプ
リケーションプログラム15に渡される。この意味コー
ドは、アプリケーションプログラム15にとっては、
「商品Aが3個」という意味をもっている。
【0027】このように、同一の意味をもつ文を発声す
れば、それを構成する語句の発声順序・言回しが異なっ
ても、同一の意味をもつ「0103」なる意味コードが
作成され、アプリケーションプログラム15に渡すこと
ができる。すなわち、文を構成する語句の発声順序・言
回しが異なっても、同一の意味の文として認識できる。
【0028】これにより、装置の使用者にとって覚えや
すく、言回しを忘れてしまったから装置を使用すること
ができない、又は言回しを忘れそうだから装置を使用し
たくないなどといった意識が働くことを防止することが
できる。
【0029】また、各使用者にとっては、普段使う傾向
のある言回し、又はより自然な言回しで発声すれば足り
るので、従来のように順序通り発声しなければならない
といった発声時に起こる特有な緊張感・心理的圧迫感か
ら解放される。
【0030】また、同じ意味の文は、同一の意味コード
に再構築されるので、アプリケーションプログラムとし
ては、従来のように渡された一つ一つのコードに対し
て、同じ意味かどうかの判断をする膨大な処理が不要と
なり、従って、アプリケーションプログラムのコーディ
ング量の大幅な削減に寄与することができる。また、比
較的多くの言回しを許したとしても、生成すべき意味コ
ード体系は小規模で済む。
【0031】また、音声認識されるべき語句ごとに言語
要素コードを対応(定義)させているので、文ごとにコ
ードを対応させる場合に比して、言語要素コードを対応
させる語句の追加・削除・編集・更新等の保守作業が容
易になる。
【0032】次に、本発明を上述したような業務処理装
置に適用した場合の第2の実施の形態を図4ないし図6
を参照して説明する。なお、上記第1の実施の形態と同
一部分には同一符号を付して詳細な説明を省略する。
【0033】本実施の形態にかかる業務処理装置は、図
4に示すように音声入力部11、音声認識リソース1
2′、音声認識部13、コード再構築部14、このコー
ド再構築部14からの意味コードを利用するアプリケー
ションプログラム15の他、コード再構築部14で意味
コードを作成する前に言語要素コードの並べ替えを行う
並べ替え部21から構成される。
【0034】本実施の形態における音声認識部13、コ
ード再構築部14、アプリケーションプログラム15、
及び並べ替え部21は、CPU・ROM・RAMを備え
たパーソナルコンピュータなどから構成される。これら
音声認識部13、コード再構築部14、アプリケーショ
ンプログラム15、及び並べ替え部21は、具体的には
例えばハードディスク装置などの記憶装置又はROMな
どのメモリに記憶され、上記パーソナルコンピュータの
CPUが読取可能なソフトウエアプログラムで構成され
る。
【0035】本実施の形態における音声認識リソース1
2′は、上記第1の実施の形態の場合とは異なり、図5
に示すような音声認識されるべき語句と、これらに対応
させた言語要素コードとから構成される。この言語要素
コードは分類の順序を示すキー値と実際のコード番号を
示すコード(個別コード)との組合せで構成される。こ
こでは、第1の実施の形態と同様に音声認識されるべき
語句を「商品名」と「個数」に分類し、同一の分類には
同一のキー値を対応させるとともに、そのコードを対応
させる。
【0036】例えば「商品A」の語句に対してはキー値
「1」及びコード「01」からなる言語要素コードを対
応させ、「1個」の語句に対してはキー値「2」及びコ
ード「01」からなる言語要素コードを対応させる。こ
のように語句を分類して各分類の順序を示すキー値を対
応させることにより、言語要素コードをキー値の順に並
べ替えれば、言語要素コードの出力順序に関わらず同一
コードになる。
【0037】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておいてもよく(不特定話者対応型)、ま
た使用者に実際に発声してもらった音声特徴データを関
連づけておいてもよい(特定話者対応型)ことは上記第
1の実施の形態と同様である。
【0038】また、本実施の形態におけるコード再構築
部14は、音声認識部13から2つの言語要素コードを
受取ると、これを並べ替え部21に渡す。すると並べ替
え部21は受取った言語要素コードをキー値の順に並べ
替えを行い、並べ替えた順に言語要素コードをコード再
構築部14へ戻す。これにより、コード再構築部14
は、各言語要素コードからキー値を削除して連結するこ
とにより4桁の意味コードにしてアプリケーションプロ
グラム15へ渡す。これにより、上記第1の実施の形態
と同様に商品名と個数の発声順序が異なってもコード再
構築部14からは同一の意味コードが出力されることに
なる。
【0039】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図6(a)に示すよう
に「商品Aが3個」と発声すると、この音声は音声入力
部11でデジタル信号に変換されて音声認識部13に供
給される。そして、音声認識部13では音声認識リソー
ス12′が参照され、入力された音声と予め音声認識リ
ソース内で定義された語句との類似性・近似性が検出さ
れ、「商品A」に対しては「101」なる言語要素コー
ドが出力され、「3個」に対しては「203」なる言語
要素コードが、その順に出力される。これらの言語要素
コードは次のコード再構築部14に渡され、並べ替え部
21で言語要素コード内で定義されたキー値に従って並
べ替えが行われる。すなわち、「商品A」のキー値は
「1」であるから先頭に配置され、「3個」のキー値は
「2」であるから2番目に配置される。
【0040】このように並べ替えが行われると、これら
の言語要素コードはコード再構築部14に戻され、各キ
ー値を削除後、連結されて「0103」なる意味コード
が生成され、アプリケーションプログラム15に渡され
る。この意味コードは、アプリケーションプログラム1
5にとっては、「商品Aが3個」という意味をもってい
る。
【0041】これに対して、装置の使用者が図6(b)
に示すように「3個の商品A」と発声すると、その音声
は上記と同様に音声入力部11を介して音声認識部13
へ供給され、音声認識部13で「3個」に対しては「2
03」なる言語要素コードが出力され、「商品A」に対
しては「101」なる言語要素コードが、その順に出力
される。これらの言語要素コードは次のコード再構築部
14に渡され、並べ替え部21にて言語要素コード内で
定義されたキー値に従って並べ替えが行われる。すなわ
ち、「商品A」のキー値は「1」であるから先頭に配置
され、「3個」のキー値は「2」であるから2番目に配
置される。
【0042】このように並べ替えが行われた後、これら
の言語要素コードはコード再構築部14に戻され、各キ
ー値を削除後、連結されて「0103」なる意味コード
が生成され、アプリケーションプログラム15に渡され
る。この意味コードは、アプリケーションプログラム1
5にとっては、「商品Aが3個」という意味をもってい
る。
【0043】このように、同一の意味をもつ文を発声す
れば、それを構成する語句の発声順序・言回しが異なっ
ても、同一の意味をもつ「0103」なる意味コードが
作成され、アプリケーションプログラム15に渡すこと
ができる。すなわち、文を構成する語句の発声順序・言
回しが異なっても、同一の意味の文として認識できる。
これにより、上記第1の実施の形態と同様の効果を奏す
ることができる。
【0044】次に、本発明を上述したような業務処理装
置に適用した場合の第3の実施の形態を図7ないし図1
0を参照して説明する。なお、上記第1の実施の形態と
同一部分には同一符号を付して詳細な説明を省略する。
【0045】本実施の形態にかかる業務処理装置は、音
声入力部11、音声認識リソース12″、音声認識部1
3、コード再構築部14、このコード再構築部14から
の意味コードを利用するアプリケーションプログラム1
5の他、コード再構築部14で意味コードを作成する際
に使用するコード再構築用テーブル22から構成され
る。
【0046】本実施の形態における音声認識部13、コ
ード再構築部14、アプリケーションプログラム15、
及びコード再構築用テーブル22は、CPU・ROM・
RAMを備えたパーソナルコンピュータなどから構成さ
れる。これら音声認識部13、コード再構築部14、ア
プリケーションプログラム15は、具体的には例えばハ
ードディスク装置などの記憶装置又はROMなどのメモ
リに記憶され、上記パーソナルコンピュータのCPUが
読取可能なソフトウエアプログラムで構成される。ま
た、コード再構築用テーブル22は、ROMやRAMな
どのメモリや、ハードディスク装置などの記憶装置に予
め記憶される。
【0047】本実施の形態における音声認識リソース1
2″は、上記第1の実施の形態の場合とは異なり、図8
に示すような音声認識されるべき語句と、これらに対応
させた言語要素コードとから構成される。本実施の形態
では、上記第1及び第2の実施の形態と異なり、各語句
について数字コードの代りに文字コードを対応させたも
のである。ここでは各語句に対して1文字を対応させて
いる。例えば、「商品A」の語句に対しては「A」から
なる言語要素コードを対応させ、「1個」の語句に対し
ては「D」からなる言語要素コードを対応させる。
【0048】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておいてもよく(不特定話者対応型)、ま
た使用者に実際に発声してもらった音声特徴データを関
連づけておいてもよい(特定話者対応型)ことは上記第
1の実施の形態と同様である。
【0049】上記コード再構築用テーブル22は、図9
に示すように言語要素コードの組合せと各組合せに対応
させた4桁の意味コードから構成される。言語要素コー
ドの組合せとしては、商品名と個数の2種類の組合せを
用意する。各組合せは同一の言語要素コードの組合せで
あって順序が異なるものについては同一の意味コードを
対応させる。このようにすることによって、順序の異な
る言語要素コードの組合せであっても同一の言語要素コ
ードからなる組合せであれば同一の意味コードを出力す
ることができる。
【0050】すなわち、本実施の形態におけるコード再
構築部14は、音声認識部13から2つの言語要素コー
ドを受取ると、コード再構築用テーブル22を参照して
その言語要素コードの組合せと一致するものを検索し、
それに対応する意味コードを取出してアプリケーション
プログラム15へ渡す。これにより、上記第1の実施の
形態と同様に商品名と個数の発声順序が異なってもコー
ド再構築部14からは同一の意味コードが出力されるこ
とになる。
【0051】このような構成の本発明の実施の形態にお
いては、例えば図10(a)に示すように本装置の使用
者が「商品Aが3個」と発声すると、この音声は音声入
力部11でデジタル信号に変換されて音声認識部13に
供給される。そして、音声認識部13で音声認識リソー
ス12″が参照され、入力された音声と予め音声認識リ
ソース内で定義された語句との類似性・近似性が検出さ
れ、「商品A」に対しては「A」なる言語要素コードが
出力され、「3個」に対しては「F」なる言語要素コー
ドが、その順に出力される。従って、この場合の言語要
素コードの組合せは「AF」となるので、コード再構築
部14ではコード再構築用テーブル22から「AF」に
対応する「0103」なる意味コードが取出され、アプ
リケーションプログラム15に渡される。この意味コー
ドは、アプリケーションプログラム15にとっては、
「商品Aが3個」という意味をもっている。
【0052】これに対して、装置の使用者が図10
(b)に示すように「3個の商品A」と発声すると、そ
の音声は上記と同様に音声入力部11を介して音声認識
部13へ供給され、音声認識部13で「3個」に対して
は「F」なる言語要素コードが出力され、「商品A」に
対しては「A」なる言語要素コードが、その順に出力さ
れる。従って、この場合の言語要素コードの組合せは
「FA」となるので、コード再構築部14ではコード再
構築用テーブル22から「FA」に対応する「010
3」なる意味コードが取出されアプリケーションプログ
ラム15に渡される。この意味コードは、アプリケーシ
ョンプログラム15にとっては、「商品Aが3個」とい
う意味をもっている。
【0053】但し、例えば図10(c)に示すように本
装置の使用者が「商品Aが2個」と発声すると、この音
声は音声入力部11でデジタル信号に変換されて音声認
識部13に供給される。そして、音声認識部13で音声
認識リソース12″が参照され、入力された音声と予め
音声認識リソース内で定義された語句との類似性・近似
性が検出され、「商品A」に対しては「A」なる言語要
素コードが出力され、「2個」に対しては「E」なる言
語要素コードが、その順に出力される。従って、この場
合の言語要素コードの組合せは「AE」となるので、コ
ード再構築部14ではコード再構築用テーブル22から
「AE」に対応する「0102」なる意味コードが取出
され、アプリケーションプログラム15に渡される。こ
の意味コードは、アプリケーションプログラム15にと
っては、「商品Aが2個」という意味をもっている。こ
のように図10(a)と同図(c)とを比較した場合
「商品A」は共通であるが、「3個」と「2個」の部分
が異なるため、コード再構築部14から出力される意味
コードは異なる。
【0054】このように、「商品名」が異なっても「個
数」が異なるような意味の異なる文を発声した場合は、
異なる意味コードが作成されるが、同一の意味をもつ文
を発声すれば、それを構成する語句の発声順序・言回し
が異なっても、同一の意味をもつ「0103」なる意味
コードが作成され、アプリケーションプログラム15に
渡すことができる。すなわち、文を構成する語句の発声
順序・言回しが異なっても、同一の意味の文として認識
できる。これにより、上記第1の実施の形態と同様の効
果を奏することができる。
【0055】
【発明の効果】以上詳述したように本発明によれば、意
味のある文を発声するときに、その文を構成する語句の
発声順序・言回しが異なっても、同一の意味コードが作
成されるので、同一の意味の文として認識できる。これ
により、装置の使用者にとって覚えやすく、言回しを忘
れてしまったから使用することができない、又は言回し
を忘れそうだから使用したくないといった意識が働くこ
とを防止することができる。
【0056】また、各使用者にとっては、普段使う傾向
のある言回し、又はより自然な言回しで発声すれば足り
るので、従来のように順序通り発声しなければならない
といった発声時に起こる特有な緊張感・心理的圧迫感か
ら解放される。
【0057】また、同じ意味の文は、同一の意味コード
に再構築されるので、アプリケーションプログラムとし
ては、従来のように渡された一つ一つのコードに対し
て、同じ意味かどうかの判断をする膨大な処理が不要と
なり、従って、アプリケーションプログラムのコーディ
ング量の大幅な削減に寄与することができる。また、比
較的多くの言回しを許したとしても、生成すべき意味コ
ード体系は小規模で済む。
【0058】また、音声認識されるべき語句ごとに言語
要素コードを対応(定義)させているので、文ごとにコ
ードを対応させる場合に比して、言語要素コードを対応
させる語句の追加・削除・編集・更新等の保守作業が容
易になる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
【図2】図1に示す音声認識リソースの構成を示す図。
【図3】本実施の形態の作用を説明する図。
【図4】本発明の第2の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
【図5】図4に示す音声認識リソースの構成を示す図。
【図6】本実施の形態の作用を説明する図。
【図7】本発明の第3の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
【図8】図7に示す音声認識リソースの構成を示す図。
【図9】図7に示すコード再構築テーブルの構成を示す
図。
【図10】本実施の形態の作用を説明する図。
【図11】従来の音声認識装置を適用した業務処理装置
の構成を示す機能ブロック図。
【符号の説明】
11…音声入力部 11a…マイク 11b…A/D変換器 12…音声認識リソース 13…音声認識部 14…コード再構築部 15…アプリケーションプログラム 21…並べ替え部 22…コード再構築用テーブル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 話者の音声を入力するための音声入力手
    段と、この音声入力手段から入力した音声から語句を認
    識する音声認識手段と、予め認識されるべき複数の語句
    と各語句に対応した言語要素コードを記憶する言語要素
    コード記憶手段と、前記音声認識手段で認識された語句
    が予め認識されるべき語句を含むとき、各語句に対応す
    る言語要素コードを前記言語要素コード記憶手段から抽
    出して出力する言語要素コード出力手段と、この言語要
    素コード出力手段から出力された複数の言語要素コード
    に基づいて、前記音声認識手段で認識された各語句から
    なる文の意味情報を伝えるための意味コードを作成する
    意味コード作成手段とを備えたことを特徴とする音声認
    識装置。
  2. 【請求項2】 話者の音声を入力するための音声入力手
    段と、この音声入力手段から入力した音声から語句を認
    識する音声認識手段と、予め認識されるべき複数の語句
    を分類して記憶するとともに、各分類ごとに割当てる桁
    を変えた言語要素コードを各語句に対応させて記憶する
    言語要素コード記憶手段と、前記音声認識手段で認識さ
    れた語句が予め認識されるべき語句を含むとき、各語句
    に対応する言語要素コードを前記言語要素コード記憶手
    段から抽出して出力する言語要素コード出力手段と、こ
    の言語要素コード出力手段から出力された複数の言語要
    素コードを加算することによって意味コードを作成する
    意味コード作成手段とを備えたことを特徴とする音声認
    識装置。
  3. 【請求項3】 話者の音声を入力するための音声入力手
    段と、この音声入力手段から入力した音声から語句を認
    識する音声認識手段と、予め認識されるべき複数の語句
    を分類して記憶するとともに、個別コードに各分類の並
    べ替え順序を示す順番コードをつけてなる言語要素コー
    ドを各語句に対応させて記憶する言語要素コード記憶手
    段と、前記音声認識手段で認識された語句が予め認識さ
    れるべき語句を含むとき、各語句に対応する言語要素コ
    ードを前記言語要素コード記憶手段から抽出して出力す
    る言語要素コード出力手段と、この言語要素コード出力
    手段から出力された複数の言語要素コードについて、順
    番コードの順番に個別コードだけを並べて連結すること
    によって意味コードを作成する意味コード作成手段とを
    備えたことを特徴とする音声認識装置。
  4. 【請求項4】 話者の音声を入力するための音声入力手
    段と、この音声入力手段から入力した音声から語句を認
    識する音声認識手段と、予め認識されるべき複数の語句
    にそれぞれ対応した言語要素コードを記憶する言語要素
    コード記憶手段と、各言語要素コードを組合せ、言語要
    素コードの順番のみが異なる組合せからなるものについ
    ては同一の意味コードを対応させ、異なる言語要素コー
    ドの組合せからなるものについては異なる意味コードを
    対応させたコード変換テーブルと、前記音声認識手段で
    認識された語句が予め認識されるべき語句を含むとき、
    各語句に対応する言語要素コードを前記言語要素コード
    記憶手段から抽出して出力する言語要素コード出力手段
    と、この言語要素コード出力手段から出力された複数の
    言語要素コードの組合せと同じ組合せのコードを前記コ
    ード変換テーブルから検索し、その組合せに対応する意
    味コードを抽出する意味コード作成手段とを備えたこと
    を特徴とする音声認識装置。
JP10120975A 1998-04-30 1998-04-30 音声認識装置 Abandoned JPH11311995A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10120975A JPH11311995A (ja) 1998-04-30 1998-04-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10120975A JPH11311995A (ja) 1998-04-30 1998-04-30 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11311995A true JPH11311995A (ja) 1999-11-09

Family

ID=14799682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10120975A Abandoned JPH11311995A (ja) 1998-04-30 1998-04-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11311995A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61121092A (ja) * 1984-11-16 1986-06-09 三洋電機株式会社 音声認識装置
JPH04167176A (ja) * 1990-10-31 1992-06-15 Nec Corp 音声認識装置
JPH06186994A (ja) * 1992-12-15 1994-07-08 Ricoh Co Ltd 音声認識装置
JPH07146766A (ja) * 1993-11-24 1995-06-06 Sanyo Electric Co Ltd 情報処理装置
JPH07244966A (ja) * 1994-03-04 1995-09-19 Nippon Columbia Co Ltd 光ディスク再生装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61121092A (ja) * 1984-11-16 1986-06-09 三洋電機株式会社 音声認識装置
JPH04167176A (ja) * 1990-10-31 1992-06-15 Nec Corp 音声認識装置
JPH06186994A (ja) * 1992-12-15 1994-07-08 Ricoh Co Ltd 音声認識装置
JPH07146766A (ja) * 1993-11-24 1995-06-06 Sanyo Electric Co Ltd 情報処理装置
JPH07244966A (ja) * 1994-03-04 1995-09-19 Nippon Columbia Co Ltd 光ディスク再生装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法

Similar Documents

Publication Publication Date Title
JP4267101B2 (ja) 音声識別装置、発音矯正装置およびこれらの方法
JP3848319B2 (ja) 情報処理方法及び情報処理装置
WO2018223796A1 (zh) 语音识别方法、存储介质及语音识别设备
JP2001519043A (ja) コンテキスト・フリー・グラマーを使用するテキスト正規化
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
JP2000163418A (ja) 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
Jacob et al. Legal assistance redefined: transforming legal access with AI-powered LegalLink
Vasuki et al. Hierarchical classifier design for speech emotion recognition in the mixed-cultural environment
KR20000064144A (ko) 음성을 이용한 전자상거래 방법 및 시스템
CN101326571A (zh) 声音识别装置
JPH11311995A (ja) 音声認識装置
Apturkar et al. Sentiment analysis of speech with application to various languages
HaCohen-Kerner et al. Language and gender classification of speech files using supervised machine learning methods
JPH1055196A (ja) 音声認識装置および方法、情報記憶媒体
JPH1185790A (ja) 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
JP4511274B2 (ja) 音声データ検索装置
JP3029403B2 (ja) 文章データ音声変換システム
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JPH11316597A (ja) 音声認識装置
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP2002116789A (ja) データ変換システム、データ認識システム、データ加工システム、およびプログラムを記憶した記憶媒体
JP2001272992A (ja) 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
Phaiboon et al. Isarn Dharma Alphabets lexicon for natural language processing
JPS6146557A (ja) 音声ワ−ドプロセツサ

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20040727