JPH08211892A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH08211892A
JPH08211892A JP7014864A JP1486495A JPH08211892A JP H08211892 A JPH08211892 A JP H08211892A JP 7014864 A JP7014864 A JP 7014864A JP 1486495 A JP1486495 A JP 1486495A JP H08211892 A JPH08211892 A JP H08211892A
Authority
JP
Japan
Prior art keywords
recognition
unit
voice
main
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7014864A
Other languages
Japanese (ja)
Other versions
JP3384165B2 (en
Inventor
Teruhiro Goto
照博 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP01486495A priority Critical patent/JP3384165B2/en
Publication of JPH08211892A publication Critical patent/JPH08211892A/en
Application granted granted Critical
Publication of JP3384165B2 publication Critical patent/JP3384165B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 誤認識を防止する。 【構成】 マイクロフォン10から入力された音声信号
は、主認識部12に供給され、ここにおいて、通常の音
声認識処理される。一方、音声信号は副認識部16にも
供給され、ここで雑音が認識される。主認識部12およ
び副認識部16における認識結果は認識結果判断部20
に供給され、ここで、両認識結果を比較し、主認識部1
2における認識の信頼性を判定する。そして、信頼性が
高い場合には、主認識部の認識結果をそのまま出力し、
信頼性が低い場合には、出力を中止する。
(57) [Summary] [Purpose] To prevent erroneous recognition. [Structure] A voice signal input from a microphone 10 is supplied to a main recognition unit 12, where a normal voice recognition process is performed. On the other hand, the voice signal is also supplied to the sub-recognition unit 16, where noise is recognized. The recognition results in the main recognition unit 12 and the sub-recognition unit 16 are the recognition result judgment unit 20.
Is supplied to the main recognition unit 1 by comparing both recognition results.
2. Determine the reliability of recognition in 2. Then, when the reliability is high, the recognition result of the main recognition unit is directly output,
If the reliability is low, the output is stopped.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、話者の発声音を言葉と
して認識する音声認識装置、特に誤認識の検出に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus for recognizing a speaker's uttered sound as a word, and more particularly to detection of misrecognition.

【0002】[0002]

【従来の技術】従来より、マンマシンインターフェース
の非常に優れた(操作者にとって負担が少ない)ものと
して、音声認識を利用したものが考えられている。例え
ば、各種の操作を操作者の発声によって指示できれば、
非常に操作性がよい。そこで、従来より、音声認識につ
いての各種の研究がなされ、各種音声認識装置について
の提案もある。
2. Description of the Related Art Hitherto, as a very excellent man-machine interface (with little burden on the operator), one using voice recognition has been considered. For example, if various operations can be instructed by the operator's voice,
Very easy to operate. Therefore, various researches have been made on voice recognition, and various voice recognition devices have been proposed.

【0003】例えば、自動車などの車両において、オー
ディオ、エアコンディショナー、ナビゲーションシステ
ム等の機器を音声によって制御できれば、非常に便利で
あり、かつ運転者の負担を軽減できる。このためには、
発声音を音声認識装置によい制御のための言葉と認識
し、認識結果に基づいて、機器を制御すればよい。
For example, in a vehicle such as an automobile, if devices such as an audio system, an air conditioner, and a navigation system can be controlled by voice, it is very convenient and the burden on the driver can be reduced. To do this,
The voiced sound may be recognized as a word for good control of the voice recognition device, and the device may be controlled based on the recognition result.

【0004】しかし、音声認識は、その入力音声が雑音
を含まず、かつ発音明瞭な発音であれば、かなりの精度
で正しい認識が行われるが、走行中の車両では入力音声
がエンジン音等の雑音を含む可能性が高い。特に、アク
セルやプレーキを強く踏み込んだり、ギアチェンジをす
ると、車両内の雑音レベルが大きく変化する可能性が高
い。
However, in the voice recognition, if the input voice does not contain noise and is pronounced clearly, the correct recognition is performed with considerable accuracy. However, in a running vehicle, the input voice is an engine sound or the like. It is likely to contain noise. In particular, when the accelerator or brake is strongly depressed or the gear is changed, the noise level in the vehicle is likely to change significantly.

【0005】そこで、特開平4ー24696号公報にお
いては、車両のアクセルブレーキなどの運転操作状態を
検出する手段を設け、車両内の雑音が大きく変化すると
考えられる操作を検出した場合に、音声認識装置にこれ
についての信号を送る。そして、この場合には、音声認
識装置への音声信号の入力をキャンセルして誤認識を防
止する。このような装置によって、運転操作に起因する
車内騒音の増加に伴う誤認識を低減することができる。
Therefore, in Japanese Unexamined Patent Publication No. 4-24696, means for detecting a driving operation state such as an accelerator brake of a vehicle is provided, and voice recognition is performed when an operation which is considered to greatly change noise in the vehicle is detected. Signal the device about this. In this case, the input of the voice signal to the voice recognition device is canceled to prevent erroneous recognition. With such a device, it is possible to reduce erroneous recognition due to an increase in vehicle interior noise caused by a driving operation.

【0006】[0006]

【発明が解決しようとする課題】しかし、上記従来の音
声認識装置においては、通常走行時におけるエンジン音
その他の雑音が考慮されていない。音声認識における正
しい認識の確率を上昇するためには、できるだけ多くの
雑音を排除することが望ましい。また、自動車の場合、
音声認識の対象は、運転者の発声である場合が多い。運
転者は、アクセル、ブレーキ、ステアリング操作などの
各種の操作を行っており、その操作状態によっては、十
分明確な発声が行えない場合もある。例えば、発声の途
中で急ブレーキをかけたときなどは、その発声音声は正
しい認識を行えないものである場合が多い。従って、こ
のような場合も考慮して音声認識を行うことが望まれ
る。
However, in the above-mentioned conventional voice recognition device, engine noise and other noises during normal traveling are not taken into consideration. In order to increase the probability of correct recognition in speech recognition, it is desirable to eliminate as much noise as possible. In the case of a car,
The target of voice recognition is often the driver's utterance. The driver performs various operations such as an accelerator operation, a brake operation, and a steering operation, and depending on the operation state, it may not be possible to speak sufficiently clearly. For example, when sudden braking is applied in the middle of utterance, the uttered voice cannot often be correctly recognized. Therefore, it is desirable to perform voice recognition in consideration of such a case.

【0007】本発明は、上記課題に鑑みなされたもので
あり、雑音や話者の発声状態を考慮してより正しい認識
が行える音声認識装置を提供することを目的とする。
The present invention has been made in view of the above problems, and an object of the present invention is to provide a voice recognition device capable of more accurate recognition in consideration of noise and a speaking state of a speaker.

【0008】[0008]

【課題を解決するための手段】本発明は、話者の発生音
声から音声信号を発生する音声入力部と、前記音声入力
部からの音声信号から所定の言葉として認識処理する主
認識部と、前記音声入力部からの音声信号から不定常な
雑音を雑音として認識処理する副認識部と、前記主認識
部での認識結果における一致度と前記副認識部における
認識結果における一致度とに基づき主認識部における認
識結果についての誤認識の確率を判断する認識結果判断
部と、を含み、前記認識結果判断部が誤認識が高いと判
断したときにはその時の主認識部の出力をキャンセルす
ることを特徴とする。
According to the present invention, a voice input section for generating a voice signal from a voice generated by a speaker, a main recognition section for recognizing and processing a voice signal from the voice input section as a predetermined word, Based on a sub-recognition unit for recognizing and processing unsteady noise as noise from the voice signal from the voice input unit, and a degree of coincidence in a recognition result in the main recognition unit and a degree of coincidence in a recognition result in the sub-recognition unit. A recognition result judging unit for judging the probability of erroneous recognition of the recognition result in the recognizing unit, and when the recognition result judging unit judges that the erroneous recognition is high, the output of the main recognizing unit at that time is canceled. And

【0009】また、次の発明は、話者の発生音声から音
声信号を発生する音声入力部と、前記音声入力部から入
力された音声信号を所定の言葉として認識処理する認識
部と、話者の発声状態を検出する発声状態検出部と、発
生状態検出部における検出結果に基づき、話者の誤発声
レベルを判断する発声状態判断部と、前記認識部での認
識結果における一致度と前記発生状態判断部における誤
発生レベルに基づき認識部における認識結果についての
誤認識の確率を判断する認識結果判断部と、を含み、前
記認識結果判断部が誤認識が高いと判断したときにはそ
の時の認識部の出力をキャンセルすることを特徴とす
る。
Further, the following invention is a voice input section for generating a voice signal from a voice generated by a speaker, a recognition section for recognizing and processing the voice signal input from the voice input section as a predetermined word, and a speaker. The voicing state detection unit that detects the voicing state of the speaker, the voicing state determination unit that determines the erroneous voicing level of the speaker based on the detection result by the generation state detection unit, and the degree of coincidence and the occurrence in the recognition result by the recognition unit. A recognition result judging unit for judging the probability of misrecognition of the recognition result in the recognition unit based on the error occurrence level in the state judging unit, and the recognition unit at that time when the recognition result judging unit judges that the misrecognition is high. The output of is canceled.

【0010】[0010]

【作用】このように、本発明によれば、音声入力部にお
いて、話者の発声音声を音声信号に変換する。そして、
主認識部波音声信号の特性(例えば、LPCケプストラ
ム)等から通常の音声認識を行う。通常の場合、認識対
象としている言葉についての特性を記憶した辞書を参照
し、入力音声の特性と辞書の言葉の特性の比較によって
音声認識を行う。入力音声についてのLPCケプストラ
ムと辞書に記憶されている言葉のLPCケプストラムの
距離を求め、距離の最も小さいものを認識結果とする。
As described above, according to the present invention, the voice input section converts the voice uttered by the speaker into a voice signal. And
Normal speech recognition is performed from the characteristics of the main recognition section wave speech signal (for example, LPC cepstrum). In a normal case, a voice recognition is performed by referring to a dictionary that stores the characteristics of words to be recognized and comparing the characteristics of the input voice with the characteristics of the words in the dictionary. The distance between the LPC cepstrum for the input voice and the LPC cepstrum of the word stored in the dictionary is calculated, and the smallest distance is used as the recognition result.

【0011】一方、副認識部では、雑音についての認識
を行う。すなわち、予想される雑音について、予め辞書
に記憶しておき、この記憶している雑音と入力音声とに
一致度(距離の逆)に応じて雑音の音声認識を行う。
On the other hand, the sub-recognition section recognizes noise. That is, expected noise is stored in a dictionary in advance, and voice recognition of noise is performed according to the degree of coincidence (reverse distance) between the stored noise and the input voice.

【0012】そして、認識結果判断部が主認識部および
副認識部の結果に応じて誤認識の確率を判定し、誤認識
の各チルが高いと判断したときに、その時の主認識部の
出力をキャンセルする。
Then, the recognition result judging section judges the probability of erroneous recognition according to the results of the main recognizing section and the sub recognizing section, and when each chill of erroneous recognition is judged to be high, the output of the main recognizing section at that time. To cancel.

【0013】また、次の発明によれば、認識部において
上述の場合と同様の普通の音声認識を行う。そして、発
声状態検出部において話者の発声の状態を検出する。例
えば、高速でカーブしているときであり、運転者が緊張
しているときには、声がうわずって、正常なときの音声
とは異なる場合もある。このようなことを発声状態検出
部において、検出し、この検出結果に応じて正常な発声
が行われないと判断された場合には、その時に認識部に
おける認識結果をキャンセルする。
Further, according to the next invention, the recognition unit performs the normal voice recognition similar to the above case. Then, the utterance state detection unit detects the utterance state of the speaker. For example, when the vehicle is turning at a high speed, when the driver is tense, the voice may be dull and may differ from the normal voice. When such a situation is detected by the utterance state detection unit and it is determined that normal utterance is not performed according to the detection result, the recognition result in the recognition unit is canceled at that time.

【0014】このようにして、本出願の発明によって、
誤認識の発声を効果的に防止して効率的な音声認識が行
える。
Thus, according to the invention of the present application,
Efficient voice recognition can be performed by effectively preventing erroneous recognition.

【0015】[0015]

【実施例】以下、本発明の実施例について、図面に基づ
いて説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0016】「第1実施例」図1は、第1実施例の全体
構成を示すブロック図であり、運転者などの発声音声を
電気信号である音声信号に変換するマイクロフォン10
を音声入力部として有している。マイクロフォン10か
ら出力された音声信号は、主認識部12に入力される。
この主認識部12には、認識辞書14が接続されてお
り、主認識部12は、認識辞書14を利用して、入力さ
れる音声信号の音声認識を行う。そして、主認識部12
は、主認識結果を出力する。一方、音声信号は副認識部
16にも入力される。この副認識部16には、リジェク
ト辞書18が接続されており、副認識部16はリジェク
ト辞書18を利用して、入力される音声信号の音声認識
を行う。そして、副認識部16は、副認識結果を出力す
る。
[First Embodiment] FIG. 1 is a block diagram showing the overall structure of the first embodiment, in which a microphone 10 for converting a voice of a driver or the like into a voice signal which is an electric signal.
As a voice input unit. The voice signal output from the microphone 10 is input to the main recognition unit 12.
A recognition dictionary 14 is connected to the main recognition unit 12, and the main recognition unit 12 uses the recognition dictionary 14 to perform voice recognition of an input voice signal. And the main recognition unit 12
Outputs the main recognition result. On the other hand, the voice signal is also input to the sub-recognition unit 16. A reject dictionary 18 is connected to the sub-recognition unit 16, and the sub-recognition unit 16 uses the reject dictionary 18 to perform voice recognition of an input voice signal. Then, the sub-recognition unit 16 outputs the sub-recognition result.

【0017】主認識部12および副認識部16は、認識
結果判断部20が接続されており、この認識結果主認識
結果および副認識結果はこの認識結果判断部20に供給
される。そして、認識結果判断部20は、主、副認識結
果から主認識結果の信頼性を判定し、主認識結果を出力
するか否かを判定する。そして、信頼性が所定以上であ
った場合には、主認識結果を出力し、信頼性が所定以下
であった場合には、主認識結果をキャンセルし、音声信
号の再度の入力を求める。
A recognition result judging unit 20 is connected to the main recognizing unit 12 and the sub recognizing unit 16, and the recognition result main recognizing result and the sub recognizing result are supplied to the recognizing result judging unit 20. Then, the recognition result determination unit 20 determines the reliability of the main recognition result from the main and sub recognition results, and determines whether to output the main recognition result. Then, when the reliability is equal to or higher than the predetermined value, the main recognition result is output, and when the reliability is equal to or lower than the predetermined value, the main recognition result is canceled and the voice signal is requested to be input again.

【0018】ここで、主認識部12における音声認識処
理について説明する。主認識部12に接続されている認
識辞書14には、認識の対象となっている言葉(例え
ば、「エアコン」「ラジオ」「オン」「オフ」等の言
葉)についての標準音声についてのデータが記憶されて
いる。このデータの形式としては各種のものが考えられ
るが、例えば、線形予測コーディング(LPC)による
係数列(LPCケプストラム)のように、音声信号の周
波数特性を表す係数群を数値として持つことが好適であ
る。なお、車両の場合、その車両を使用する人間はある
程度限られる場合が多い。そこで、認識辞書14に記憶
するデータは、その特定人の音声から作成したものにす
るとよい。例えば、使用開始当初に、利用者に認識対象
となっている言葉について発声させ、これに基づいて認
識辞書14のデータを作成する。また、この場合利用者
は複数でもよい。
Here, the voice recognition process in the main recognition section 12 will be described. The recognition dictionary 14 connected to the main recognition unit 12 stores data about standard voices for words to be recognized (for example, words such as “air conditioner”, “radio”, “on”, “off”). Remembered There are various possible formats of this data, but it is preferable to have a coefficient group representing the frequency characteristic of the audio signal as a numerical value such as a coefficient sequence (LPC cepstrum) by linear predictive coding (LPC). is there. In the case of a vehicle, the number of people who use the vehicle is often limited to some extent. Therefore, the data stored in the recognition dictionary 14 may be created from the voice of the specific person. For example, at the beginning of use, the user is made to utter a word to be recognized, and the data of the recognition dictionary 14 is created based on this. Further, in this case, there may be a plurality of users.

【0019】そして、主認識部12では、入力される音
声信号からLPCケプストラムを得ると共に、得られた
LPCケプストラムと認識辞書に記憶されている各単語
のLPCケプストラムとの差を距離として算出し、最も
近いものを選択する。そして、選択された言葉について
のデータとその距離を主認識部12における認識結果と
する。なお、ここで算出される距離は、選択された言葉
と入力音声の一致度が高いほど小さくなる。また、距離
が最短のものでもその距離が所定値以上であった場合に
は、認識不能とするとよい。
Then, the main recognition section 12 obtains the LPC cepstrum from the input voice signal and calculates the difference between the obtained LPC cepstrum and the LPC cepstrum of each word stored in the recognition dictionary as a distance, Select the closest one. Then, the data about the selected word and its distance are used as the recognition result in the main recognition unit 12. The distance calculated here becomes smaller as the degree of matching between the selected word and the input voice becomes higher. Further, even if the distance is the shortest, if the distance is equal to or more than a predetermined value, it is preferable to make the recognition impossible.

【0020】一方、副認識部16に接続されているリジ
ェクト辞書18には、「えー」、「あのー」、くしゃみ
の音、ゴットンという音等、マイクロフォン1から入力
されると考えられる認識辞書14にない(認識対象でな
い)音についてのデータ(LPCケプストラム)が記憶
されている。そして、副認識部16は、入力されてくる
音声信号のLPCケプストラムを算出すると共に、これ
をリジェクト辞書18に記憶されているデータとの距離
を演算算出し、最も近いもの選択する。そして、選択さ
れた言葉についてのデータとその距離を主認識部12に
おける認識結果とする。なお、入力音声信号についての
LPCケプストラムの算出は、これのための算出部を設
け、算出結果を主認識部12および副認識部16に供給
するとよい。
On the other hand, the reject dictionary 18 connected to the sub-recognition unit 16 stores in the recognition dictionary 14 that is considered to be input from the microphone 1 such as "Eh", "Ah", sneezing sound, and Gotton sound. Data (LPC cepstrum) about a sound that is not (not recognized) is stored. Then, the sub-recognition unit 16 calculates the LPC cepstrum of the input voice signal, and also calculates and calculates the distance from the data stored in the reject dictionary 18, and selects the closest one. Then, the data about the selected word and its distance are used as the recognition result in the main recognition unit 12. It should be noted that for the calculation of the LPC cepstrum for the input voice signal, it is preferable to provide a calculation unit for this and supply the calculation result to the main recognition unit 12 and the sub recognition unit 16.

【0021】そして、認識結果判断部20は、主認識部
12および副認識部16から出力される距離を比較し、
副認識部16において得た距離の方が小さいときには、
主認識部12における認識結果を無効にする。そして、
スピーカを通じて、再度の発声を促す。一方、主認識部
12において得た距離の方が小さいときには、主認識部
12において得た認識結果を採用し、これを出力する。
例えば、認識結果がエアコンをオンする指令であれば、
この認識結果に基づきエアコンをオンする。
Then, the recognition result judging section 20 compares the distances output from the main recognizing section 12 and the sub recognizing section 16,
When the distance obtained by the sub-recognition unit 16 is smaller,
The recognition result in the main recognition unit 12 is invalidated. And
Prompt again to speak through the speaker. On the other hand, when the distance obtained by the main recognition unit 12 is smaller, the recognition result obtained by the main recognition unit 12 is adopted and output.
For example, if the recognition result is a command to turn on the air conditioner,
The air conditioner is turned on based on this recognition result.

【0022】また、副認識部16において、「えー」、
「あのー」、くしゃみの音等通常の音声に追加されるよ
うな言葉については、入力音声における該当区間を検出
するとよい。そして、追加された言葉について認識でき
たときには、このデータを主認識部12に伝える。主認
識部12は、このデータに基づいて、入力音声の中から
のこの区間を除外して、音声認識処理を行う。これによ
って、主認識部12における音声認識の信頼性を大幅に
上昇することができる。このような処理は、副認識部1
6から主認識部12に直接信号を供給して行ってもよい
し、認識結果判断部20が主副認識部12、16の認識
結果から判定し、主認識部12に音声区間の再設定の指
令を送り、主認識部12が音声区間を再設定して、音声
認識をやり直してもよい。
Further, in the sub-recognition unit 16, "Eh",
For words such as "ahh" and sneezing sounds that are added to normal voice, it is preferable to detect the corresponding section in the input voice. Then, when the added word can be recognized, this data is transmitted to the main recognition unit 12. Based on this data, the main recognition unit 12 excludes this section from the input voice and performs voice recognition processing. As a result, the reliability of voice recognition in the main recognition unit 12 can be significantly increased. Such processing is performed by the sub-recognition unit 1
The signal may be directly supplied from 6 to the main recognizing unit 12, or the recognition result judging unit 20 may make a judgment from the recognition results of the main and sub recognizing units 12 and 16, and the main recognizing unit 12 may reset the voice section. The command may be sent, the main recognition unit 12 may reset the voice section, and the voice recognition may be performed again.

【0023】「第2実施例」図2は、第2実施例の全体
構成を示すブロック図であり、マイクロフォン30に
は、認識部32が接続されており、マイクロフォン30
で収集された音声が音声信号として認識部32に供給さ
れる。認識部32には、認識辞書34が接続されてお
り、認識部32は、入力音声を上述の主認識部12と同
様に音声認識する。そして、認識した言葉についてのデ
ータとその距離が認識結果として、認識結果判断部36
に供給される。認識結果判断部36には、発声状態判断
部38が接続されており、認識結果判断部36は発声状
態判断部38からの情報に基づき認識部32における認
識結果の信頼性を判定する。そして、認識結果判断部3
6における判断結果において信頼性が高いとされた場合
には、認識部32における認識結果をそのまま出力す
る。一方、信頼性が低いと判断された場合には、認識部
32における認識結果を無効として、音声の再入力を促
す。
[Second Embodiment] FIG. 2 is a block diagram showing the overall configuration of the second embodiment. A recognition unit 32 is connected to the microphone 30 and the microphone 30 is connected.
The voice collected in the above is supplied to the recognition unit 32 as a voice signal. A recognition dictionary 34 is connected to the recognizing unit 32, and the recognizing unit 32 recognizes the input voice as in the main recognizing unit 12 described above. Then, the data about the recognized words and the distance thereof are used as the recognition result, and the recognition result judging unit 36
Is supplied to. A utterance state determination unit 38 is connected to the recognition result determination unit 36, and the recognition result determination unit 36 determines the reliability of the recognition result in the recognition unit 32 based on the information from the utterance state determination unit 38. Then, the recognition result determination unit 3
If the determination result in 6 indicates that the reliability is high, the recognition result in the recognition unit 32 is output as it is. On the other hand, when it is determined that the reliability is low, the recognition result of the recognition unit 32 is invalidated, and the voice is input again.

【0024】そして、本実施例では、発声状態判断部3
8に各種センサからの信号が供給されている。すなわ
ち、ステアリングセンサ40からの操舵情報、アクセル
センサ42からのアクセル操作状況についての情報、ク
ラッチセンサ44からのクラッチ操作状況についての情
報、ブレーキセンサ46からのブレーキ操作状況につい
ての情報、シフトレバーセンサ48からのシフトレバー
の操作状況についての情報、コンビスイッチセンサ50
からのワイパーやウインカーの操作状況についての情
報、シートセンサ52からのシート位置を移動させてい
るの情報、車速センサ54からの車両の速度、加速度に
ついての情報、心拍センサ56からの運転者の心拍数に
ついての情報等が発声状態判断部38に供給される。な
お、運転者の瞬きの状態なども、運転者の緊張度と関係
があるためこれを検出するとよい。
Then, in the present embodiment, the utterance state judging unit 3
Signals from various sensors are supplied to 8. That is, the steering information from the steering sensor 40, the information about the accelerator operation status from the accelerator sensor 42, the information about the clutch operation status from the clutch sensor 44, the information about the brake operation status from the brake sensor 46, and the shift lever sensor 48. About the operation status of the shift lever from the combination switch sensor 50
Information on the operating condition of the wiper or turn signal from the vehicle, information on moving the seat position from the seat sensor 52, information on the vehicle speed and acceleration from the vehicle speed sensor 54, heartbeat of the driver from the heart rate sensor 56. Information about the number and the like are supplied to the utterance state determination unit 38. Since the driver's blinking state is also related to the driver's tension, it is preferable to detect this.

【0025】発声状態判断部38は、各種センサから供
給される情報に基づいて、発声者のの状態を判定する。
例えば、急加速、急ブレーキ、急ハンドルなどの運転状
態では、運転者は通常通りの発声はできないと考えられ
る。また、シフトチェンジ時、ウインカー操作時、シー
ト移動操作時、高速走行時、高心拍数時等にも発声が正
常でなくなる確率が高い。発声状態判断部38は、これ
らの情報に基づいて、発声者が正しく発声したかを判定
する。この判定は、例えば、ファジー推論によったり、
各種センサからの出力状態に応じたマップを予め作成し
ておきこれに基づいて行う。そして、発声状態の判断結
果が認識結果判断部に送られ、認識結果判断部36が認
識部32の信頼性を発声状態判断部38からの情報に基
づいて判定する。すなわち、認識部32から供給される
認識結果における距離がある程度大きい場合であって、
発声状態がある程度以上正常でない場合には、認識結果
が信頼できないとして、この出力を無効にする。一方、
発声状態が正常であれば、認識結果をそのまま出力す
る。
The utterance state determination unit 38 determines the state of the speaker based on the information supplied from various sensors.
For example, in a driving state such as sudden acceleration, sudden braking, and sudden steering, it is considered that the driver cannot speak normally. Further, there is a high probability that the utterance will not be normal during a shift change, a turn signal operation, a seat movement operation, a high speed running, a high heart rate, and the like. The uttered state determination unit 38 determines whether or not the utterer correctly uttered, based on these pieces of information. This judgment is based on, for example, fuzzy reasoning,
Maps corresponding to the output states from various sensors are created in advance and the map is used based on the maps. Then, the determination result of the utterance state is sent to the recognition result determination unit, and the recognition result determination unit 36 determines the reliability of the recognition unit 32 based on the information from the utterance state determination unit 38. That is, when the distance in the recognition result supplied from the recognition unit 32 is large to some extent,
When the utterance state is not normal to a certain extent, the recognition result is considered unreliable and this output is invalidated. on the other hand,
If the utterance is normal, the recognition result is output as it is.

【0026】また、発声状態によって、声の質が異なる
場合も多い。例えば、緊張している場合には、声が上ず
ることが多い。そこで、このような状態に応じた複数の
辞書を用意しておくことが好適である。すなわち、認識
辞書34内に、正常状態の時に使用する辞書の他に、緊
張した状態における標準音声についてのデータを記憶す
る辞書を設けておき、発声状態判断部38の判断結果に
基づき、使用する辞書を切り換えることで、音声認識の
精度を向上することができる。
In many cases, the quality of voice varies depending on the utterance state. For example, in a tense situation, the voice is often raised. Therefore, it is preferable to prepare a plurality of dictionaries according to such a state. That is, in the recognition dictionary 34, in addition to the dictionary used in the normal state, a dictionary that stores data about the standard voice in a tense state is provided and used based on the determination result of the utterance state determination unit 38. The accuracy of voice recognition can be improved by switching the dictionary.

【0027】さらに、認識が正常に行えなかった場合
に、再度の入力を促し、入力された音声を分析した結果
から1回目の判定結果を評価し、この評価内容を学習し
ていき、認識結果判断部36の判断に反映させてもよ
い。学習によって、辞書を書き換えることも好適であ
る。
Further, when the recognition cannot be performed normally, the user is prompted to input again, the first judgment result is evaluated from the result of analysis of the input voice, and the evaluation result is learned to recognize the recognition result. It may be reflected in the judgment of the judgment unit 36. It is also preferable to rewrite the dictionary by learning.

【0028】[0028]

【発明の効果】以上説明したように、本発明によれば、
主認識部において通常の音声認識を行い、副認識部で
は、雑音についての認識を行う。そして、認識結果判断
部が主認識部および副認識部の結果に応じて誤認識の確
率を判定し、誤認識の確率が高いと判断したときに、そ
の時の主認識部の出力をキャンセルする。これによっ
て、雑音の大きな場合における誤認識を効果的に防止す
ることができる。
As described above, according to the present invention,
The main recognition unit performs normal speech recognition, and the sub-recognition unit recognizes noise. Then, the recognition result judging unit judges the probability of erroneous recognition according to the results of the main recognizing unit and the sub recognizing unit, and when it is judged that the probability of erroneous recognition is high, the output of the main recognizing unit at that time is canceled. This can effectively prevent erroneous recognition when noise is large.

【0029】また、次の発明によれば、発声状態検出部
において、話者の状態を検出し、この検出結果に応じて
正常な発声が行われないと判断された場合には、その時
に認識部における認識結果をキャンセルする。これによ
って、誤認識の発声を効果的に防止することができる。
Further, according to the following invention, the utterance state detecting unit detects the state of the speaker, and when it is determined that normal utterance is not made according to the detection result, the speech state is recognized at that time. Cancel the recognition result in the department. As a result, it is possible to effectively prevent erroneous recognition utterances.

【図面の簡単な説明】[Brief description of drawings]

【図1】 第1実施例の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a first embodiment.

【図2】 第2実施例の構成を示すブロック図である。FIG. 2 is a block diagram showing a configuration of a second embodiment.

【符号の説明】[Explanation of symbols]

10 マイクロフォン、12 主認識部、14 認識辞
書、16 副認識部、18 リジェクト辞書、20 認
識結果判断部、30 マイクロフォン、32認識部、3
4 認識辞書、 36 認識結果判断部、38 発声状
態判断部。
10 microphones, 12 main recognition unit, 14 recognition dictionary, 16 sub recognition unit, 18 reject dictionary, 20 recognition result judgment unit, 30 microphone, 32 recognition unit, 3
4 recognition dictionary, 36 recognition result judging unit, 38 vocalization state judging unit.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 話者の発生音声から音声信号を発生する
音声入力部と、 前記音声入力部からの音声信号から所定の言葉として認
識処理する主認識部と、 前記音声入力部からの音声信号から不定常な雑音を雑音
として認識処理する副認識部と、 前記主認識部での認識結果における一致度と前記副認識
部における認識結果における一致度とに基づき主認識部
における認識結果についての誤認識の確率を判断する認
識結果判断部と、 を含み、 前記認識結果判断部が誤認識が高いと判断したときには
その時の主認識部の出力をキャンセルすることを特徴と
する音声認識装置。
1. A voice input unit that generates a voice signal from a voice generated by a speaker, a main recognition unit that recognizes and processes a voice signal from the voice input unit as a predetermined word, and a voice signal from the voice input unit. From the sub-recognition unit for recognizing unsteady noise as noise from the above, an error in the recognition result in the main recognition unit based on the degree of coincidence in the recognition result in the main recognition unit and the degree of coincidence in the recognition result in the sub-recognition unit. A speech recognition apparatus comprising: a recognition result judging section for judging the probability of recognition; and canceling the output of the main recognition section at that time when the recognition result judging section judges that misrecognition is high.
【請求項2】 話者の発生音声から音声信号を発生する
音声入力部と、 前記音声入力部から入力された音声信号を所定の言葉と
して認識処理する認識部と、 話者の発声状態を検出する発声状態検出部と、 発生状態検出部における検出結果に基づき、話者の誤発
声レベルを判断する発声状態判断部と、 前記認識部での認識結果における一致度と前記発生状態
判断部における誤発生レベルに基づき認識部における認
識結果についての誤認識の確率を判断する認識結果判断
部と、 を含み、 前記認識結果判断部が誤認識が高いと判断したときには
その時の認識部の出力をキャンセルすることを特徴とす
る音声認識装置。
2. A voice input unit that generates a voice signal from a voice generated by a speaker, a recognition unit that recognizes and processes the voice signal input from the voice input unit as a predetermined word, and detects a speaking state of the speaker. The utterance state detection unit that determines the erroneous utterance level of the speaker based on the detection result of the utterance state detection unit, the degree of coincidence in the recognition result of the recognition unit, and the erroneous state of the occurrence state determination unit. A recognition result judging unit for judging the probability of erroneous recognition of the recognition result in the recognizing unit based on the occurrence level; and when the recognition result judging unit judges that the erroneous recognition is high, the output of the recognizing unit at that time is canceled. A voice recognition device characterized by the above.
JP01486495A 1995-02-01 1995-02-01 Voice recognition device Expired - Fee Related JP3384165B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01486495A JP3384165B2 (en) 1995-02-01 1995-02-01 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01486495A JP3384165B2 (en) 1995-02-01 1995-02-01 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH08211892A true JPH08211892A (en) 1996-08-20
JP3384165B2 JP3384165B2 (en) 2003-03-10

Family

ID=11872899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01486495A Expired - Fee Related JP3384165B2 (en) 1995-02-01 1995-02-01 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3384165B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083989A (en) * 1999-09-09 2001-03-30 Xanavi Informatics Corp Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device
US6556968B1 (en) 1998-11-12 2003-04-29 Nec Corporation Data terminal with speech recognition function and speech recognition system
US6937982B2 (en) 2000-07-21 2005-08-30 Denso Corporation Speech recognition apparatus and method using two opposite words
JP2006058479A (en) * 2004-08-18 2006-03-02 Matsushita Electric Works Ltd Controller with voice recognition function
JP2006171077A (en) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd Speech recognition apparatus and speech recognition method
JP2007025279A (en) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp Speech recognition apparatus and speech recognition program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015089697A (en) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 Vehicular voice recognition apparatus
WO2017108142A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Linguistic model selection for adaptive automatic speech recognition

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556968B1 (en) 1998-11-12 2003-04-29 Nec Corporation Data terminal with speech recognition function and speech recognition system
JP2001083989A (en) * 1999-09-09 2001-03-30 Xanavi Informatics Corp Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device
US6937982B2 (en) 2000-07-21 2005-08-30 Denso Corporation Speech recognition apparatus and method using two opposite words
JP2006058479A (en) * 2004-08-18 2006-03-02 Matsushita Electric Works Ltd Controller with voice recognition function
JP2006171077A (en) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd Speech recognition apparatus and speech recognition method
JP2007025279A (en) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp Speech recognition apparatus and speech recognition program

Also Published As

Publication number Publication date
JP3384165B2 (en) 2003-03-10

Similar Documents

Publication Publication Date Title
CN103403798B (en) Voice recognition device and guider
JP4859982B2 (en) Voice recognition device
EP0911805B1 (en) Speech recognition method and speech recognition apparatus
JP4433704B2 (en) Speech recognition apparatus and speech recognition program
EP2051241B1 (en) Speech dialog system with play back of speech output adapted to the user
JP4357867B2 (en) Voice recognition apparatus, voice recognition method, voice recognition program, and recording medium recording the same
JP7392827B2 (en) Speech recognition device and speech recognition method
KR20220037187A (en) Voice recognition device for vehicle, method for handling vehicle problem situation using the same, and computer program
JP2003114696A (en) Speech recognition device, program, and navigation system
JP3384165B2 (en) Voice recognition device
JP4201470B2 (en) Speech recognition system
KR20230092180A (en) Vehicle and method for controlling thereof
JP2019191477A (en) Voice recognition device and voice recognition method
US20230290342A1 (en) Dialogue system and control method thereof
JP2002149191A (en) Voice input device
JP4281369B2 (en) Voice recognition device
KR102527346B1 (en) Voice recognition device for vehicle, method for providing response in consideration of driving status of vehicle using the same, and computer program
JP4190735B2 (en) Voice recognition method and apparatus, and navigation apparatus
JP2002229581A (en) Audio output system
JP2001175276A (en) Voice recognition device and recording medium
JP3294286B2 (en) Speech recognition system
JP4581789B2 (en) Speech recognition apparatus and method
JP2024118248A (en) Accident detection device, accident detection method, and learning device generation method
WO2025224837A1 (en) Dialog method and dialog device
JP2007286198A (en) Speech synthesis output device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees