JPH0484197A - Continuous voice recognizer - Google Patents

Continuous voice recognizer

Info

Publication number
JPH0484197A
JPH0484197A JP2200530A JP20053090A JPH0484197A JP H0484197 A JPH0484197 A JP H0484197A JP 2200530 A JP2200530 A JP 2200530A JP 20053090 A JP20053090 A JP 20053090A JP H0484197 A JPH0484197 A JP H0484197A
Authority
JP
Japan
Prior art keywords
recognition
unit
section
input
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2200530A
Other languages
Japanese (ja)
Other versions
JP2921059B2 (en
Inventor
Atsushi Horioka
篤史 堀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2200530A priority Critical patent/JP2921059B2/en
Publication of JPH0484197A publication Critical patent/JPH0484197A/en
Application granted granted Critical
Publication of JP2921059B2 publication Critical patent/JP2921059B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音響信頼度と接続信頼度に可変にそれぞれ重み
付けした線形結合で表される評価値を用いて認識結果を
得る連続音声認識装置に関するものであム 従来の技術 近爪 音声認識技術の発達とともに 連続音声認識装置
が種々の分野で実用化されようとしており、実用化する
ために(上 認識装置を実用する上での種々の問題点を
解決する必要がある。この実用上の問題点の1つく 入
力連続音声中に不明瞭に発声された部分が存在する場合
、この部分を誤認識してしま(\ 誤った認識文を出力
してしまうという点かあム 従来の連続音声認識装置でζよ 上記問題点を解決する
ために 最高の音響信頼度で認識された素片を単に接続
して文単位の認識結果を得るのではなく、認識された素
片の音響信頼度と接続信頼度の線形結合として評価関数
を設定してこの評価値が最高のものを認識結果とするの
で、素片の音響信頼度が低くても前後の素片との文法上
のつながり(接続信頼度)が高ければ評価値が高くなり
、入力連続音声中に不明瞭に発声され・た部分が存在し
ても正しく認識できるようになる。
[Detailed Description of the Invention] Industrial Application Field The present invention relates to a continuous speech recognition device that obtains recognition results using evaluation values expressed by linear combinations of acoustic reliability and connection reliability that are each variably weighted. With the development of speech recognition technology, continuous speech recognition devices are about to be put into practical use in various fields. One of the practical problems with this is that if there is a part that is uttered unclearly in the input continuous speech, this part will be misrecognized (\ An incorrect recognized sentence will be output. In order to solve the above problems, conventional continuous speech recognition devices do not simply connect segments recognized with the highest acoustic reliability to obtain sentence-by-sentence recognition results. The evaluation function is set as a linear combination of the acoustic reliability and connection reliability of the segment, and the one with the highest evaluation value is taken as the recognition result, so even if the acoustic reliability of the segment is low, the previous and subsequent segments If the grammatical connection (connection reliability) is high, the evaluation value will be high, and even if there are unclearly uttered parts in the input continuous speech, it will be possible to recognize them correctly.

以下、第3@ 第4医 第5図を参照しなが収上述した
ような従来の連続音声認識装置で素片を単語としたもの
を例として説明を行う。
Hereinafter, referring to FIG. 5, explanation will be given by taking as an example the conventional continuous speech recognition device as described above, in which the fragments are words.

第3図C表  従来の連続音声認識装置のブロック諷 
第4図はワードラチス生成のフローチャート、第5図は
接続部における処理を示したフローチャートである。第
3図において、 1は信号入力端子、2は分析部 4は
特徴パラメータ保管孔 5は照合部 6はワードラチス
保管服 8は予測部 9は接続部 10は認識結果出力
端子、 12はスイッチであム 以上のように構成され
た音声認識装置について以下その動作について説明する
Figure 3 Table C Block diagram of conventional continuous speech recognition device
FIG. 4 is a flowchart of word lattice generation, and FIG. 5 is a flowchart showing processing at the connection section. In Fig. 3, 1 is a signal input terminal, 2 is an analysis section, 4 is a feature parameter storage hole, 5 is a collation section, 6 is a word lattice storage suit, 8 is a prediction section, 9 is a connection section, 10 is a recognition result output terminal, and 12 is a switch. The operation of the speech recognition device configured as described above will be explained below.

最初に標準音声登録時については第31図を参照しなが
ら説明すも まず、スイッチ12を分析部の出力が特徴
パラメータ保管部に入力されるように操作し 信号入力
端子1から単語単位で入力された標準音声を分析部2に
入力し フレームごとの特徴パラメータを算出し 特徴
パラメータ保管部4に登録する。そして、標準音声を入
力して上記の処理を認識すべき全単語について繰り返し
登録を終了する。
First, standard voice registration will be explained with reference to FIG. The standard voice obtained is input to the analysis section 2, feature parameters are calculated for each frame, and the feature parameters are registered in the feature parameter storage section 4. Then, the standard speech is input and the above process is repeated to complete the registration of all the words to be recognized.

次に認識時については第3図と第4図とを参照しながら
説明する。まずスイッチ12を分析部の出力が照合部に
入力されるように操作し 登録時と同様に信号入力端子
1より認識すべき信号を入力しく処理21)、分析部2
でフレームごとの特徴パラメータを算出する(処理22
)。次に照合部5において標準音声と入力信号との照合
を行う。
Next, the time of recognition will be explained with reference to FIGS. 3 and 4. First, operate the switch 12 so that the output of the analysis section is input to the verification section, process 21) so that the signal to be recognized is input from the signal input terminal 1 in the same way as when registering, and the analysis section 2.
Calculate the feature parameters for each frame (process 22
). Next, a comparison section 5 performs a comparison between the standard voice and the input signal.

まず、フレーム番号=1、単語番号=1とし 初期化を
行う(処理23.24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した
場合(処理28)、この時の単語を認識素片候補 類似
度を音響信頼度とし 認識の始端と終端とともにワード
ラチス保管部に出力する(処理29)。この後、単語番
号に1を加算して(処理30)次の認識すべき単語につ
いての処理に移も 以上の処理が認識すべき単語すべて
について終了したとき(処理26)、フレーム番号に1
を加算して(処理31)次のフレームを始端として同様
の処理を行う。以上の処理がすべてのフレーム すべて
の認識すべき単語について終了したならば(処理25)
、照合部5での処理を終了すム この処理によりワード
ラチスとして入力連続音声中に存在する可能性のある認
識単語候補名とその始端位! 終端位置 音響信頼度が
記録されてワードラチス保管部6に出力されも また 予測部8は接続部9から入力された認識単語候補
に後続可能な単語を文法または統計情報などを用いて求
取 次単語候補としてその接続信頼度(確率などで表現
する)とともに接続部9に出力するように動作すム 次に接続部9の処理については第3図と第5図を参照し
ながら説明する。
First, initialization is performed by setting the frame number to 1 and the word number to 1 (processes 23 and 24). Then, the frame with the frame number is used as the starting point to match the word to be recognized with the word number (processing 27), and if the degree of similarity is greater than or equal to the determination threshold (processing 28), the word at this time is used as a recognition segment. The candidate similarity is used as the acoustic reliability and is output to the word lattice storage unit along with the recognition start and end points (process 29). After that, add 1 to the word number (process 30) and move on to processing for the next word to be recognized. When the above processing is completed for all the words to be recognized (process 26), add 1 to the frame number.
is added (process 31), and the same process is performed using the next frame as the starting point. When the above processing is completed for all frames and all words to be recognized (processing 25)
, the processing in the collation unit 5 is completed. This processing identifies the names of recognized word candidates that may exist in the input continuous speech as a word lattice and their starting positions. The end position acoustic reliability is recorded and output to the word lattice storage section 6.The prediction section 8 also uses grammar or statistical information to find words that can follow the recognition word candidate input from the connection section 9.Next word Next, the processing of the connection unit 9 which operates to output the connection reliability (expressed by probability or the like) as a candidate to the connection unit 9 will be explained with reference to FIGS. 3 and 5.

上記接続部ではワードラチス保管部6より入力された認
識単語候補名を接続して複数の認識結果候補を生成し 
これらのう敷 最高の評価値を持つものを認識結果とL
 認識結果出力端子8に出力する。認識結果候補を求め
るには まず、認識途中結果を空文字列としく処理1)
、認識途中結果内の最後尾の認識単語候補の終端位置で
ある認識途中結果終端位置を0 (フレーム番号)とし
て(処理2)初期化を行う。次に 認識途中結果終端位置−gap≦始端位置≦認識途中結
果終端位置+gap   (式l、1)の始端位置の条
件をみたす(後続可能な)認識単語候補が存在するなら
ば(処理4)、その認識単語候補名を認識途中結果内の
文字列の最後尾に接続する(処理5)。ここでgapは
照合部での処理における始端位置と終端位置の検出誤差
に対応するための定数であム その後、下記の式2によ
って、認識途中結果終端位置の更新を行う(処理6)。
The connection section connects the recognition word candidate names input from the word lattice storage section 6 to generate multiple recognition result candidates.
The one with the highest evaluation value is the recognition result and L
The recognition result is output to the output terminal 8. To obtain recognition result candidates, first process the recognition result as an empty string 1)
, initialization is performed (process 2) by setting the recognition intermediate result end position, which is the end position of the last recognized word candidate in the recognition intermediate result, to 0 (frame number). Next, if there is a recognized word candidate (possible to follow) that satisfies the start position condition of recognition intermediate result end position - gap ≦ start position ≦ recognition intermediate result end position + gap (formula 1, 1) (process 4), The recognized word candidate name is connected to the end of the character string in the recognition intermediate result (processing 5). Here, gap is a constant for dealing with the detection error between the start end position and the end position in the processing in the matching section. Thereafter, the recognition intermediate result end position is updated using the following equation 2 (processing 6).

認識途中結果終端位置 =認識途中結果終端位置+(認識単語候補の終端位置−
認識単語候補の始端位置)   (式2)そして、処理
34で接続した認識単語候補が文頭から1番目であると
すると、接続部4は文頭からi−1番目の認識単語候補
を予測部に送り、次単語候補(文頭からi番目の単語に
なり得る単語候補)とその接続信頼度を予測部から得る
(処理7)。そして、これらを使って下記の式3によっ
て評価値を更新する(処理9)。このとき、単語列(W
l、  W2.  、 、 、 Wi)から構成される
認識途中結果の評価関数h(Wi)は以下のように表さ
れも 十β・f (Wi−1,Wi) (式3) ただし h  (WO)  = 0である。
Recognition intermediate result end position = Recognition intermediate result end position + (recognition word candidate end position -
Starting position of recognition word candidate) (Equation 2) Then, assuming that the recognition word candidate connected in process 34 is the first recognition word candidate from the beginning of the sentence, the connection unit 4 sends the i-1st recognition word candidate from the beginning of the sentence to the prediction unit. , the next word candidate (word candidate that could be the i-th word from the beginning of the sentence) and its connection reliability are obtained from the prediction unit (processing 7). Then, using these, the evaluation value is updated according to the following equation 3 (processing 9). At this time, the word string (W
l, W2. The evaluation function h(Wi) of the recognition intermediate result, which is composed of , , , Wi), is expressed as follows. be.

ここでg(Wi)は単語Wiの音響信頼度、 f (W
i−1,Wi)は単語Wi−1から単語w1への接続信
頼度、α、βは重み(定数)である。その後、処理4か
ら処理9を処理4での条件が満たされなくなるまで繰り
返す。その後、 入力音声フレーム長−gap≦認識途中結果終端位置≦
入力音声フレーム長+gap (式1,2) なる条件で認識途中結果終端位置を判定しく処理10)
、この条件が満たされたならば このときの認識途中結
果を認識結果候補としてその評価値とともに保存する(
処理13)。以上の認識途中結果を求める手続きを接続
部9に入力されるワードラチス全体について行(\ 存
在し得るだけの認識結果候補をもと礁 それらの中で最
高の評価値を持つ認識結果候補を認識結果として認識結
果出力端子11より出力すも 発明が解決しようとする纒題 しかしなか技 上記のような構成では 音響信頼度と接
続信頼度にかける重み(式3におけるαとβ)が固定で
あるために 両信頼度が評価値に効率よく反映されずミ
 信頼度の導入が認識率の向上に全く関与しないという
課題を有していたまた 上記のような構成でCヨ  入
力音声中に息継ぎなどの無音区間が存在した場合 認識
素片候補が接続できないために認識結果が出力されなか
ったり、無音区間の存在をあらかじめ想定して式1.1
におけるgapの値を大きくした場合には膨大な数の認
識結果候補を出力してしま((結局は正しい認識結果を
出力しないという課題を有していtら 本発明i:L  素片接続における次素片予測の情報量
または入力音声中の無音時間またはその両者に応じて音
響信頼度と接続信頼度にかける重み(式3におけるαと
β)を変化させ、それぞれの信頼度が忠実に認識率の向
上につながる連続音声認識装置を提供するこ、とを目的
とすも 課題を解決するための手段 この目的を達成するために 第1の発明に係る連続音声
認識装置は 入力信号のフレームごとの特徴パラメータ
を検出する分析部と、分析部の圧力と標準信号の素片ご
との特徴パラメータとを照合して認識素片候補とその音
響信頼度を出力する照合部と、接続部より入力された認
識途中結果より予測される次素片候補とその接続信頼度
とその予測される次素片候補の情報量を出力する予測部
と、照合部の出力である認識素片候補を接続して認識結
果を出力するとともに認識途中結果を予測部に出力する
接続部とから構成される。
Here g(Wi) is the acoustic reliability of word Wi, f(W
i-1, Wi) is the connection reliability from word Wi-1 to word w1, and α and β are weights (constants). Thereafter, processes 4 to 9 are repeated until the condition in process 4 is no longer satisfied. After that, input audio frame length - gap ≦ recognition intermediate result end position ≦
Input audio frame length + gap (Formula 1, 2) Process to determine the end position of the mid-recognition result under the condition 10)
, if this condition is met, the intermediate recognition result at this time is saved as a recognition result candidate along with its evaluation value (
Processing 13). The above procedure for obtaining intermediate recognition results is performed for the entire word lattice that is input to the connection unit 9. The recognition result is output from the output terminal 11 as a short answer to the problem that the invention attempts to solve.In the above configuration, the weights (α and β in equation 3) applied to acoustic reliability and connection reliability are fixed. In addition, the above configuration had the problem that the two-way reliability was not efficiently reflected in the evaluation value, and the introduction of the reliability had no effect on improving the recognition rate. If there is a silent section, the recognition result may not be output because the recognition segment candidates cannot be connected, or if the presence of a silent section is assumed in advance, Equation 1.1
If the gap value is increased, a huge number of recognition result candidates will be output. The weights (α and β in Equation 3) applied to the acoustic reliability and connection reliability are changed according to the amount of information for segment prediction, the silent time in the input speech, or both, and each reliability is faithfully adjusted to the recognition rate. It is an object of the present invention to provide a continuous speech recognition device that leads to an improvement in the number of frames of an input signal. an analysis section that detects feature parameters, a verification section that compares the pressure of the analysis section with the feature parameters of each segment of the standard signal and outputs recognition segment candidates and their acoustic reliability; Recognition is performed by connecting the prediction unit that outputs the next segment candidate predicted from the recognition intermediate result, its connection reliability, and the amount of information of the predicted next segment candidate, and the recognition unit candidate that is the output of the matching unit. It is composed of a connection section that outputs the results and also outputs the results during recognition to the prediction section.

第2の発明に係る連続音声認識装置(よ 入力信号のフ
レームごとの特徴パラメータを検出する分析部と、入力
信号の無音区間を検出する検出部と、分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力する照合部と、接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とを出力する予測部と、上記照合部の出
力である認識素片候補を接続して認識結果を出力すると
ともに認識途中結果を予測部に出力する接続部とから構
成される。
Continuous speech recognition device according to the second invention: an analysis section that detects feature parameters for each frame of an input signal; a detection section that detects silent sections of the input signal; and an output of the analysis section and each segment of a standard signal. a matching unit that outputs a recognition unit candidate and its acoustic reliability by comparing it with the feature parameters of the unit, and outputs a next unit candidate and its connection reliability that are predicted from the recognition intermediate results input from the connection unit. It is composed of a prediction section and a connection section that connects recognition unit candidates output from the matching section to output recognition results and outputs intermediate recognition results to the prediction section.

第3の発明に係る連続音声認識装置は 入力信号のフレ
ームごとの特徴パラメータを検出する分析部と、入力信
号の無音区間を検出する検出部と、分析部の出力と標準
信号の素片ごとの特徴パラメータとを照合して認識素片
候補とその音響信頼度を出力する照合部と、接続部より
入力された認識途中結果より予測される次素片候補とそ
の接続信頼度とその次素片候補の情報量とを出力する予
測部と、照合部の出力である認識素片候補を接続して認
識結果を出力するとともに認識途中結果を予測部に出力
する接続部とから構成される。
The continuous speech recognition device according to the third invention includes an analysis section that detects feature parameters for each frame of an input signal, a detection section that detects a silent section of the input signal, and an analysis section that detects feature parameters for each frame of an input signal, a detection section that detects a silent section of the input signal, and an output of the analysis section and a standard signal for each segment. A matching unit that outputs recognition segment candidates and their acoustic reliability by comparing them with feature parameters, and a next segment candidate, its connection reliability, and its next segment predicted from the recognition intermediate results input from the connection unit. It is composed of a prediction unit that outputs the information amount of the candidate, and a connection unit that connects the recognition segment candidates output from the matching unit to output a recognition result and outputs an intermediate recognition result to the prediction unit.

作用 第1の発明の連続音声認識装置(訳 分析部で入力信号
のフレームごとの特徴パラメータを検出し照合部で分析
部の出力と標準信号の素片ごとの特徴パラメータとを照
合して認識素片候補とその音響信頼度を出力し 予測部
で接続部より入力された認識途中結果より予測される次
素片候補とその接続信頼度とその予測される次素片候補
の情報量とを接続部に出力し 接続部で照合部より入力
された音響信頼度と、予測部より入力された接続信頼度
とを予測部より入力された次素片候補の情報量に応じて
それぞれ重み付けした線形結合で表される評価値を用い
て認識素片候補を接続して認識結果を得るとともに認識
途中結果を予測部に出力する。
Continuous speech recognition device of the first invention (translation) The analysis section detects the feature parameters for each frame of the input signal, and the matching section compares the output of the analysis section with the feature parameters for each segment of the standard signal to generate recognition elements. The segment candidate and its acoustic reliability are output, and the prediction unit connects the next segment candidate predicted from the recognition intermediate result input from the connection unit, its connection reliability, and the predicted information amount of the next segment candidate. At the connection section, the acoustic reliability input from the matching section and the connection reliability input from the prediction section are each weighted according to the amount of information of the next segment candidate input from the prediction section. Recognition segment candidates are connected using the evaluation value expressed by to obtain recognition results, and intermediate recognition results are output to the prediction unit.

第2の発明の連続音声認識装置(よ 分析部で入力信号
のフレームごとの特徴パラメータを検出し検出部で上記
入力信号の無音区間を検出し 照合部で分析部の出力と
標準信号の素片ごとの特徴パラメータとを照合して認識
素片候補とその音響信頼度を出力し 予測部で接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とを接続部に出力し 接続部で照合部よ
り入力された音響信頼度と、予測部より入力された接続
信頼度とを検出部より入力された無音区間の時間長に応
じてそれぞれ重み付けした線形結合で表される評価値を
用いて認識素片候補を接続して認識結果を得る七ともに
認識途中結果を予測部に出力す4 第3の発明の連続音声認識装置は 分析部で入力信号の
フレームごとの特徴パラメータを検出上検出部で上記入
力信号の無音区間を検出し 照合部で分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力し 予測部で接続部より
入力された認識途中結果より予測される次素片候補とそ
の接続信頼度とその次素片候補の情報量とを接続部に出
力し 接続部で照合部より入力された音響信頼度と、予
測部より入力された上記接続信頼度とを予測部より入力
された次素片候補の情報量と検出部より入力された無音
区間の時間長とに応じてそれぞれ重み付けした線形結合
で表される評価値を用いて認識素片候補を接続して認識
結果を得るとともに認識途中結果を予測部に出力する。
Continuous speech recognition device of the second invention (an analysis section detects feature parameters for each frame of the input signal, a detection section detects silent sections of the input signal, and a collation section compares the output of the analysis section with a segment of the standard signal) The prediction unit outputs the recognition unit candidate and its acoustic reliability by comparing it with the feature parameters for each unit, and the prediction unit outputs the next unit candidate and its connection reliability predicted from the recognition intermediate results input from the connection unit. At the connection section, the acoustic reliability input from the matching section and the connection reliability input from the prediction section are expressed as a linear combination of each weighted according to the time length of the silent section input from the detection section. The continuous speech recognition device of the third invention has the following characteristics for each frame of the input signal: On detecting the parameters, the detection section detects the silent section of the above input signal, and the matching section compares the output of the analysis section with the characteristic parameters of each segment of the standard signal to output recognition segment candidates and their acoustic reliability. The prediction unit outputs the next segment candidate predicted from the intermediate recognition results input from the connection unit, its connection reliability, and the amount of information of the next segment candidate to the connection unit, and outputs the information input from the matching unit at the connection unit. A linear method in which the acoustic reliability and the above-mentioned connection reliability input from the prediction unit are respectively weighted according to the amount of information of the next unit candidate input from the prediction unit and the time length of the silent section input from the detection unit. Recognition segment candidates are connected using evaluation values expressed by combinations to obtain recognition results, and intermediate recognition results are output to the prediction unit.

実施例 以下、第1、第2および第3の発明の実施例について第
1皿 第2母 第1表を参照しながら説明すも 下記実施例(よ 請求項3に記載されている連続音声認
識装置について説明している力交 本実施例内容におけ
る評価値算出処理では次素片候補の情報量、または無音
区間の時間長を入力に使用しない場合でも有効であるの
で、請求項1記載の発明および請求項2記載の発明の実
施例と兼ねて記載する。
Embodiments Hereinafter, embodiments of the first, second and third inventions will be explained with reference to Table 1. Force exchange describing the device The evaluation value calculation process in this embodiment is effective even when the amount of information of the next segment candidate or the time length of the silent section is not used as input, so the invention according to claim 1 This will also be described as an embodiment of the invention set forth in claim 2.

第1図は本発明の一実施例における単語を素片とした連
続音声認識装置のブロック図である。 ■は信号入力端
子、 2は分析部 3は検出部 4は特徴パラメータ保
管服 5は照合部 6はワードラチス保管巳 7は重み
付は部(1)、 8は予測部 9は接続部 10は重み
付は部(2)、 11は認識結果出力端子、 12はス
イッチである。以上のように構成された音声認識装置に
ついて以下その動作について説明すも まず標準信号登録時にζよ スイッチ11を分析部の出
力が特徴パラメータ保管部に入力されるように操作し 
信号入力端子1から入力された標準信号を分析部2に入
力し フレームごとにLPCケプストラムなどの特徴パ
ラメータを算出し 特徴パラメータ保管部4に入力すも
 標準信号を入力して上記の処理を認識すべき全単語に
ついて繰り返し 登録を終了す4 また実施例で(表 予測部8には認識すべき全単語(前
単語)と、次単語候補としてその単語に後続可能な認識
されるべき単語と、あらかじめ統計的に求めておいた接
続確率(前単語が出現した後にそれぞれの次単語候補が
出現する確率)をこの接続信頼度として登録しておく。
FIG. 1 is a block diagram of a continuous speech recognition device using words as fragments in one embodiment of the present invention. ■ is the signal input terminal, 2 is the analysis section, 3 is the detection section, 4 is the feature parameter storage, 5 is the matching section, 6 is the word lattice storage, 7 is the weighting section (1), 8 is the prediction section, 9 is the connection section, 10 is the weight Attached is a part (2), 11 is a recognition result output terminal, and 12 is a switch. The operation of the speech recognition device configured as described above will be explained below. First, when registering a standard signal, switch 11 is operated so that the output of the analysis section is input to the feature parameter storage section.
The standard signal input from the signal input terminal 1 is input to the analysis section 2, which calculates feature parameters such as LPC cepstrum for each frame, and inputs it to the feature parameter storage section 4.The standard signal is input and the above processing is recognized. Repeat for all the words to be recognized End the registration 4 In addition, in the example (Table) A statistically determined connection probability (probability that each next word candidate appears after the previous word appears) is registered as this connection reliability.

また次単語候補の情報量として実施例ではバープレキシ
ティe (Wi)を使用し 下記の式Oで算出して予測
部8に登録してお(。
In addition, in the embodiment, the verb plexity e (Wi) is used as the amount of information of the next word candidate, calculated by the following formula O, and registered in the prediction unit 8 (.

た場合で、p (Wi−1,Wi)は単語Wi−1に後
続する単語Wiの接続信頼度であム この登録の例を第
1表に示す。
In this case, p (Wi-1, Wi) is the connection reliability of the word Wi following the word Wi-1. An example of this registration is shown in Table 1.

第1表 これはWi−1を前単飄 Wiを次単語候補としてみ そして上記予測部8は接続部9より認識単語候補が入力
されると、その認識単語候補に後続可能な単語とその接
続確率とパープレキシティをそれぞれ次単語候補と持続
確率と次単語候補の情報量として接続部9に出力するよ
うに動作する。
Table 1 This shows Wi-1 as the previous word Wi as the next word candidate, and when the recognition word candidate is input from the connection part 9, the prediction unit 8 selects the words that can follow the recognition word candidate and their connections. It operates to output the probability and perplexity to the connection unit 9 as the information amount of the next word candidate, persistence probability, and next word candidate, respectively.

次に認識時については第1図と第4図とを参照しながら
説明すも まずスイッチ12を分析部の出力が照合部に
入力されるように操作し 登録時と同様に信号入力端子
1より認識すべき信号を入力しく処理21)、分析部2
でフレームごとの特徴パラメータを算出する(処理22
)。次に照合部5において標準音声と入力信号との照合
を行う。
Next, the recognition process will be explained with reference to Figures 1 and 4. First, operate the switch 12 so that the output of the analysis unit is input to the verification unit, Processing for inputting signals to be recognized 21), analysis section 2
Calculate the feature parameters for each frame (process 22
). Next, a comparison section 5 performs a comparison between the standard voice and the input signal.

まず、フレーム番号−1、単語番号=1とし 初期化を
行う(処理23、24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した
場合(処理28)、この時の単語を認識結果候補 類似
度を音響信頼度とし 認識の始端と終端とともにワード
ラチス保管部に出力する(処理29)。この後、単語番
号に1を加算して(処理30)次の認識すべき単語につ
いての処理に移4 以上の処理が認識すべき単語すべて
について終了したとき(処理26)、フレーム番号に1
を加算して(処理31)次のフレームを始端として同様
の処理を行う。以上の処理がすべてのフレーム すべて
の認識すべき単語について終了したならば(処理25)
、照合部5での処理を終了すム この処理によりワード
ラチスとして入力連続音声中に存在する可能性のある認
識単語候補名とその始端位置 終端位置 音響信頼度が
記録されてワードラチス保管部6に出力されも 上記の
ワードラチス生成方法は従来例と同様のものであ4 ま
た上記入力信号は検出部にも入力され フレームごとに
入力信号のパワーが計算され −足間値以下の場合には
このフレームでは無音であると判断す4 無音フレーム
の連続を無音区間とし その開始位置 終了位置を1組
として接続部9に出力する。
First, initialization is performed by setting the frame number to -1 and the word number to 1 (processes 23 and 24). Then, the frame with the frame number is used as the starting point to match the word to be recognized with the word number (processing 27), and if the degree of similarity is greater than or equal to the determination threshold (processing 28), the word at this time is used as a recognition result candidate. The degree of similarity is used as the degree of acoustic reliability and is output to the word lattice storage unit along with the start and end points of recognition (processing 29). After that, add 1 to the word number (process 30) and move on to processing for the next word to be recognized.4 When the above processing is completed for all the words to be recognized (process 26), add 1 to the frame number.
is added (process 31), and the same process is performed using the next frame as the starting point. When the above processing is completed for all frames and all words to be recognized (processing 25)
, the processing in the matching unit 5 is ended. Through this processing, the names of recognized word candidates that may exist in the input continuous speech as a word lattice, their starting position, ending position, and acoustic reliability are recorded and output to the word lattice storage unit 6. However, the word lattice generation method described above is the same as the conventional example.4 The input signal is also input to the detection unit, and the power of the input signal is calculated for each frame. Determine that there is no sound 4 A series of silent frames is defined as a silent section, and its start position and end position are set as one set and output to the connection unit 9.

次に接続部9の処理については第1図と第2図を参照し
ながら説明する。
Next, the processing of the connecting portion 9 will be explained with reference to FIGS. 1 and 2.

上記接続部ではワードラチス保管部6より入力された認
識単語候補名を接続して複数の認識結果候補を生成し 
これらのう板 最高の評価値を持つものを認識結果とL
l  認識結果出力端子8に出力すも 認識結果候補を
求めるに(戴 ます、認識途中結果を空文字列としく処
理1)、認識途中結果内の最後尾の認識単語候補の終端
位置である認識途中結果終端位置を0(フレーム番号)
として(処理2)初期化を行t、X、検出部より無音区
間の開始位置 終了位置といった無音区間の位置情報を
入力する(処理3)。次へ 認識途中結果終端位置−gap≦始端位置≦認識途中結
果終端位置+gap       (式1,1)の始端
位置の条件をみたす(後続可能な)認識単語候補が存在
するならば(処理4)、その認識単語候補名を認識途中
結果内の文字列の最後尾に接続する(処理5)。ここで
gapは照合部での処理における始端位置と終端位置の
検出誤差に対応するための定数である。ただし式1を満
たす認識単語候補が存在せず(処理4)、かつ、入力音
声フレーム長−gap≦認識途中結果終端位置≦入力音
声フレーム長+gap (式1,2) が満たされない場合で(処理10)、 認識途中結果終端位置=gap≦無音区間の開始位置≦
認識途中結果終端位置+gap (式1,3) を満たす場合(処理11)は無音区間が存在すると判断
L 認識途中結果終端位置を無音区間の時間長だけ延長
して(処理12)再び処理4にもどる。式1. 3を満
たさない場合(処理11)は後続可能な単語が存在しな
いたべ それまでの認識途中結果が誤っていると判断し
て処理を打ち切る。
The connection section connects the recognition word candidate names input from the word lattice storage section 6 to generate multiple recognition result candidates.
Among these boards, the one with the highest evaluation value is recognized as the recognition result.
l Output to recognition result output terminal 8 To obtain recognition result candidates (process 1 by treating the recognition result as an empty string), output the recognition result candidate that is the end position of the last recognized word candidate in the recognition result. Set the result end position to 0 (frame number)
(Process 2) Initialize t, X, and input position information of the silent section such as the start position and end position of the silent section from the detection unit (Process 3). Next, if there is a recognition word candidate (possible to follow) that satisfies the start position condition of (Equation 1, 1) (processing 4), The recognized word candidate name is connected to the end of the character string in the recognition intermediate result (processing 5). Here, gap is a constant for dealing with a detection error between the start position and the end position in the processing in the matching section. However, if there is no recognized word candidate that satisfies Equation 1 (Processing 4), and input audio frame length - gap ≦ recognition intermediate result end position ≦ input audio frame length + gap (Equations 1, 2) is not satisfied (Processing 10), Recognition intermediate result end position = gap ≦ start position of silent section ≦
If the recognition intermediate result end position + gap (Formula 1, 3) is satisfied (processing 11), it is determined that a silent section exists L. The recognition intermediate result end position is extended by the time length of the silent section (processing 12) and the process returns to process 4. Return. Formula 1. If condition 3 is not satisfied (process 11), it is determined that there is no subsequent word and that the recognition results up to that point are incorrect, and the process is terminated.

この方法により発声者の息継ぎなどによる入力音声中の
無音区間が存在した場合でもgapの値を変更すること
なく処理が行えることになる。
This method allows processing to be performed without changing the gap value even if there is a silent section in the input voice due to the speaker's breathing.

処理4で後続可能な次単語候補が存在した時(表認識途
中結果内の文字列の最後尾に次単語候補名を接続しく処
理5)、下記の式2によって認識途中結果終端位置の更
新を行う (処理6)。
When there is a next word candidate that can be followed in process 4 (process 5 to connect the next word candidate name to the end of the character string in the table recognition intermediate result), update the recognition intermediate result end position using the following formula 2. Perform (process 6).

認識途中結果終端位置=認識途中結果終端位置+(認識
単語候補の終端位置−認識単語候補の始端位置)   
              (式2)そして、処理5
で接続した認識単語候補が文頭から1番目であるとする
と、接続部4は文頭から1−1番目の認識単語候補を予
測部に送り、次単語候補(文頭から1番目の単語になり
得る単語候補)とその接続信頼度とを予測部から得る(
処理7)。
Recognition intermediate result end position = Recognition intermediate result end position + (end position of recognition word candidate - start position of recognition word candidate)
(Formula 2) and processing 5
Assuming that the recognized word candidate connected in is the first recognized word candidate from the beginning of the sentence, the connecting unit 4 sends the 1-1st recognized word candidate from the beginning of the sentence to the prediction unit, and selects the next word candidate (word that can be the first word from the beginning of the sentence). candidate) and its connection reliability from the prediction unit (
Processing 7).

また予測部より文頭からi−1番目の認識単語候補から
みた次単語候補C1番目の単語候補)の情報量を得も 
そして、これらを使って下記の式3によって評価値を更
新する(処理7)。このとき、単語列(Wl、  W2
.  、 、 、 Wi)から構成される認識途中結果
の評価関数h (Wi)は以下のように表されも + b−f  (Wi−1,Wi) (式3) ただし h (WO) =  O。
The prediction unit also obtains the information amount of the next word candidate (C1th word candidate) from the i-1st recognized word candidate from the beginning of the sentence.
Then, using these, the evaluation value is updated according to the following equation 3 (processing 7). At this time, the word string (Wl, W2
.. The evaluation function h (Wi) of the recognition intermediate result consisting of , , , Wi) can be expressed as follows: + b−f (Wi−1, Wi) (Formula 3) where h (WO) = O.

a”l”  ・r  ・e  (Wi)。a”l” ・r ・e (Wi).

bcl:δ/ (τ ・ e (Wi))であも ここでg (Wi)はワードラチス保管部6が重み付は
部(1)7に出力する単語Wiの音響信頼度であり、重
み付は部(1)7で重みaがつけられて接続部9に入力
されも またf  (Wi−1,Wi)は予測部8が重
み付は部(2)10に出力する単語Wi−1から単語W
iへの接続信頼度であり、重み付は部(2)10で重み
bがつけられて接続部9に入力されも 音響信頼度の重
みaは予測部8から入力される次単語候補の情報員に比
例させ、接続信頼度の重みbは予測部8から入力される
次単語候補の情報量に反比例する関数とする。またτは
認識単語候補Wi立直前無音区間が存在した場合の無音
区間の時間長(無音区間の終了位置−無音区間の開始位
置)である力丈 無音区間が存在しない場合に(τ−0
)はbが無限大になってしまわないように最小値を設け
ておく。なおγ、 δは定数(固定)である。この方法
により、次単語候補の情報量が大きいときには音響的信
頼度が優先され小さいときには接続信頼度が優先される
。よって不明瞭に発声されがちな一連の単語列(このよ
うな単語列は次単語候補の情報量が小さく、無音区間は
存在しにくい傾向にある)が入力されて、音響信頼度が
低い場合でも接続信頼度を優先して評価値を上げること
ができるた敷 認識率を向上することができる。その後
、処理4から処理9までを処理4の条件が満たされなく
なるまで繰り返す。
bcl: δ/ (τ ・ e (Wi)) where g (Wi) is the acoustic reliability of the word Wi that the word lattice storage unit 6 outputs to the weighted unit (1) 7, and the weighting is In addition, f (Wi-1, Wi) is weighted by the prediction unit 8 and outputted to the unit (2) 10 from the word Wi-1. W
It is the connection reliability to i, and the weighting is given by weight b in part (2) 10 and input to the connection part 9. The weight a of the acoustic reliability is the information of the next word candidate input from the prediction part 8. The connection reliability weight b is a function inversely proportional to the amount of information of the next word candidate input from the prediction unit 8. In addition, τ is the time length of the silent section (end position of the silent section - start position of the silent section) when there is a silent section immediately before the recognition word candidate Wi.
) has a minimum value set so that b does not become infinite. Note that γ and δ are constants (fixed). With this method, when the amount of information of the next word candidate is large, priority is given to acoustic reliability, and when it is small, priority is given to connection reliability. Therefore, even if a series of word strings that tend to be uttered indistinctly (such word strings have a small amount of information for next word candidates and silent intervals tend to be difficult to exist) are input and the acoustic reliability is low, It is possible to improve the recognition rate by prioritizing connection reliability and increasing the evaluation value. Thereafter, processes 4 to 9 are repeated until the condition of process 4 is no longer satisfied.

その後、式1,2が満たされたならば(処理10)この
ときの認識途中結果を認識結果候補としてその評価値と
ともに保存する(処理13)。以上の認識途中結果を求
める手続きを接続部9に入力されるワードラチス全体に
ついて行(X、存在し得るだけの認識結果候補をもと取
 それらの中で最高の評価値を持つ認識結果候補を認識
結果として認識結果出力端子11より出力する。
Thereafter, if Equations 1 and 2 are satisfied (process 10), the intermediate recognition result at this time is saved as a recognition result candidate together with its evaluation value (process 13). The above procedure for obtaining intermediate recognition results is performed for the entire word lattice input to the connection unit 9 (X), and the recognition result candidate with the highest evaluation value is recognized among them. The result is output from the recognition result output terminal 11.

以上のように 本実施例は請求項3に記載の発明につい
てである力丈 評価値算出処理では無音区間の時間長を
使用しない場合(請求項1に記載)、または次素片候補
の情報量を使用しない場合(請求項2に記載)でも有効
である。
As described above, the present embodiment relates to the invention described in claim 3. When the time length of the silent section is not used in the power evaluation value calculation process (as described in claim 1), or when the amount of information of the next segment candidate is It is effective even when not using (as described in claim 2).

発明の効果 第1の発明の連続音声認識装置(よ 次素片候補の情報
量に応じて音響信頼度と接続信頼度にかける重みを変化
させるために 両信頼度を評価値に効率よく反映させる
ことができ、認識率の向上につなげることができム す
なわ板 入力信号の音響信頼度が低い場合でも次素片候
補の情報量が小さければ接続信頼度を優先して評価値を
上げることができるた嵌 正しい認識結果が得ることが
できるようになる。
Effects of the Invention Continuous speech recognition device of the first invention (in order to change the weight given to acoustic reliability and connection reliability according to the amount of information of the next segment candidate, both reliability levels are efficiently reflected in the evaluation value. Even if the acoustic reliability of the input signal is low, if the amount of information of the next segment candidate is small, it is possible to give priority to the connection reliability and increase the evaluation value. It becomes possible to obtain correct recognition results.

第2の発明の連続音声認識装置(よ 入力音声中の無音
区間の時間長に応じて音響信頼度と接続信頼度にかける
重みを変化させるために 両信頼度を評価値に効率よく
反映させることができ、g忍識率の向上につなげること
ができも すなわ板 入力信号の音響信頼度が低い場合
でも無音区間が存在しなければ接続信頼度を優先して評
価値を上げることができるた敦 正しい認識結果が得る
ことができる。
Continuous speech recognition device of the second invention (to change the weight to be applied to the acoustic reliability and the connection reliability according to the time length of a silent section in input speech, and to efficiently reflect both reliability in the evaluation value. In other words, even if the acoustic reliability of the input signal is low, if there are no silent sections, it is possible to give priority to the connection reliability and increase the evaluation value. Atsushi: Correct recognition results can be obtained.

また 入力音声中に息継ぎなどの無音区間が存在した場
合は認識結果候補を大幅に増やすことなく認識素片候補
を接続できるた数 認識結果が出力されなかったりする
ことがなくなる。
Furthermore, if there are silent sections such as breath breaks in the input speech, it is possible to connect recognition unit candidates without significantly increasing the number of recognition result candidates, and no recognition results will be output.

第3の発明の連続音声認識装置ζよ 次素片候補の情報
量と入力音声中の無音区間の時間長とに応じて音響信頼
度と接続信頼度にかける重みを変化させるために 第1
、第2の発明の効果が得られるだけでなく、次素片候補
の情報量と無音区間の時間長が比例するといった入力信
号である音声の特徴を取り入れているのて 入力信号の
品質を高めることにより認識率を向上させることができ
る。
Continuous speech recognition device ζ of the third invention: To change the weight to be applied to acoustic reliability and connection reliability according to the amount of information of the next segment candidate and the time length of the silent section in the input speech.1.
, not only can the effect of the second invention be obtained, but also the quality of the input signal is improved because it incorporates the characteristics of the voice, which is the input signal, such that the amount of information of the next segment candidate is proportional to the time length of the silent section. By doing so, the recognition rate can be improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例における音声認識装置のブロ
ック皿 第2図は本発明の一実施例における接続部にお
ける処理のフローチャート、第3図は従来例における音
声認識装置のブロック医第4図は従来例におけるワード
ラチス生成フローチャート、第5図は従来例における接
続部における処理のフローチャートである。 1・・、入力端子、 2・・・分析訊 3・・・検出訊
 4・・・特徴パラメータ保管撤 5・・・照合縁 6
・・・ワードラチス保管s、7・・・重み付は部(1)
、8・・・予測訊 9・・・接続部 10・・・重み付
は部(2)、 11・・・出力端子、 12・・・スイ
ッチ。 代理人の氏名 弁理士 粟野重孝 はか1基端 1 図 / 12図 樟靴信町 /f (認Nb結f峡補9し) 第 図 / 前 図
FIG. 1 is a block diagram of a speech recognition device according to an embodiment of the present invention. FIG. 2 is a flowchart of processing at a connection section in an embodiment of the present invention. The figure is a flowchart of word lattice generation in the conventional example, and FIG. 5 is a flowchart of processing at the connection section in the conventional example. 1...Input terminal, 2...Analysis test 3...Detection test 4...Characteristic parameter storage and withdrawal 5...Verification edge 6
...Word lattice storage s, 7...Weighting is part (1)
, 8... Prediction test 9... Connection part 10... Weighting part (2), 11... Output terminal, 12... Switch. Name of agent: Patent attorney Shigetaka Awano Haka 1 base 1 Figure / Figure 12 Shoshushincho/f (Approved Nb Keifu Gorge Supplement 9) Figure / Front figure

Claims (3)

【特許請求の範囲】[Claims] (1)入力信号の単位時間(以下、フレーム)ごとの特
徴パラメータを検出する分析部と、上記分析部の出力と
標準信号の一定時間(以下、素片)ごとの特徴パラメー
タとを照合して認識素片候補とその類似度(以下、音響
信頼度)を出力する照合部と、上記照合部の出力である
上記認識素片候補を接続して認識結果を出力するととも
に認識途中結果を予測部に出力する接続部と、上記接続
部より入力された上記認識途中結果より予測される次素
片候補とその素片が出現する信頼度(以下、接続信頼度
)とその予測される次素片候補の情報量とを上記接続部
に出力する上記予測部とを具備し、上記接続部では、上
記照合部より入力された上記音響信頼度と、上記予測部
より入力された上記接続信頼度とを上記予測部より入力
された上記次素片候補の情報量に応じてそれぞれ重み付
けした線形結合で表される評価値を用いて上記認識素片
候補を接続して連続音声認識結果を得ることを特徴とす
る連続音声認識装置。
(1) An analysis section that detects feature parameters for each unit time (hereinafter referred to as a frame) of the input signal, and compares the output of the above analysis section with the feature parameters for each fixed time period (hereinafter referred to as a segment) of the standard signal. A matching unit that outputs recognition segment candidates and their similarity (hereinafter referred to as acoustic reliability); and a unit that connects the recognition segment candidates that are the output of the matching unit to output recognition results, and a prediction unit that predicts intermediate recognition results. the next segment candidate predicted from the above recognition intermediate result inputted from the above connection part, the reliability that the segment will appear (hereinafter referred to as connection reliability), and the predicted next segment. and the prediction unit that outputs the information amount of the candidate to the connection unit, and the connection unit outputs the acoustic reliability input from the verification unit and the connection reliability input from the prediction unit. The recognition unit candidates are connected using evaluation values expressed by linear combinations that are each weighted according to the amount of information of the next unit candidate inputted from the prediction unit to obtain a continuous speech recognition result. Continuous speech recognition device.
(2)入力信号のフレームごとの特徴パラメータを検出
する分析部と、上記入力信号の無音区間を検出する検出
部と、上記分析部の出力と標準信号の素片ごとの特徴パ
ラメータとを照合して認識素片候補とその音響信頼度を
出力する照合部と、上記照合部の出力である上記認識素
片候補を接続して認識結果を出力するとともに認識途中
結果を予測部に出力する接続部と、上記接続部より入力
された上記認識途中結果より予測される次素片候補とそ
の接続信頼度とを上記接続部に出力する上記予測部と具
備し、上記接続部では、上記照合部より入力された上記
音響信頼度と、上記予測部より入力された上記接続信頼
度とを上記検出部より入力された無音区間の時間長に応
じてそれぞれ重み付けした線形結合で表される評価値を
用いて上記認識素片候補を接続して連続音声認識結果を
得ることを特徴とする連続音声認識装置。
(2) An analysis section that detects feature parameters for each frame of the input signal, a detection section that detects silent sections of the input signal, and a comparison between the output of the analysis section and the feature parameters for each segment of the standard signal. a matching unit that outputs recognition segment candidates and their acoustic reliability; and a connection unit that connects the recognition segment candidates that are output from the matching unit to output recognition results and outputs intermediate recognition results to the prediction unit. and the prediction unit that outputs the next segment candidate and its connection reliability predicted from the recognition intermediate result inputted from the connection unit to the connection unit, and the connection unit Using an evaluation value expressed by a linear combination of the input acoustic reliability and the connection reliability input from the prediction unit, each weighted according to the time length of the silent section input from the detection unit. A continuous speech recognition device characterized in that a continuous speech recognition result is obtained by connecting the recognition unit candidates.
(3)入力信号のフレームごとの特徴パラメータを検出
する分析部と、上記入力信号の無音区間を検出する検出
部と、上記分析部の出力と標準信号の素片ごとの特徴パ
ラメータとを照合して認識素片候補とその音響信頼度を
出力する照合部と、上記照合部の出力である上記認識素
片候補を接続して認識結果を出力するとともに認識途中
結果を予測部に出力する接続部と、上記接続部より入力
された上記認識途中結果より予測される次素片候補とそ
の接続信頼度とその次素片候補の情報量とを上記接続部
に出力する上記予測部とを具備し、上記接続部では、上
記照合部より入力された上記音響信頼度と、上記予測部
より入力された上記接続信頼度とを上記予測部より入力
された上記次素片候補の情報量と上記検出部より入力さ
れた無音区間の時間長とに応じてそれぞれ重み付けした
線形結合で表される評価値を用いて上記認識素片候補を
接続して連続音声認識結果を得ることを特徴とする連続
音声認識装置。
(3) An analysis section that detects feature parameters for each frame of the input signal, a detection section that detects silent sections of the input signal, and a comparison between the output of the analysis section and the feature parameters for each segment of the standard signal. a matching unit that outputs recognition segment candidates and their acoustic reliability; and a connection unit that connects the recognition segment candidates that are output from the matching unit to output recognition results and outputs intermediate recognition results to the prediction unit. and the prediction unit that outputs the next segment candidate, its connection reliability, and the information amount of the next segment candidate predicted from the recognition intermediate result inputted from the connection unit to the connection unit. , in the connection section, the acoustic reliability input from the matching section and the connection reliability input from the prediction section are combined with the information amount of the next segment candidate input from the prediction section and the detection. Continuous speech, characterized in that continuous speech recognition results are obtained by connecting the recognition segment candidates using evaluation values expressed by linear combinations each weighted according to the time length of a silent section input from the section. recognition device.
JP2200530A 1990-07-26 1990-07-26 Continuous speech recognition device Expired - Fee Related JP2921059B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2200530A JP2921059B2 (en) 1990-07-26 1990-07-26 Continuous speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2200530A JP2921059B2 (en) 1990-07-26 1990-07-26 Continuous speech recognition device

Publications (2)

Publication Number Publication Date
JPH0484197A true JPH0484197A (en) 1992-03-17
JP2921059B2 JP2921059B2 (en) 1999-07-19

Family

ID=16425841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2200530A Expired - Fee Related JP2921059B2 (en) 1990-07-26 1990-07-26 Continuous speech recognition device

Country Status (1)

Country Link
JP (1) JP2921059B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008113457A (en) * 2001-03-15 2008-05-15 Robert Bosch Gmbh Method and apparatus for synchronizing cycle times of multiple buses and corresponding bus system
US8145486B2 (en) 2007-01-17 2012-03-27 Kabushiki Kaisha Toshiba Indexing apparatus, indexing method, and computer program product
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160144A (en) 2019-03-25 2020-10-01 株式会社Subaru Voice recognition device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008113457A (en) * 2001-03-15 2008-05-15 Robert Bosch Gmbh Method and apparatus for synchronizing cycle times of multiple buses and corresponding bus system
JP2008178091A (en) * 2001-03-15 2008-07-31 Robert Bosch Gmbh Method and apparatus for synchronizing global time of a plurality of buses, and bus system corresponding to such a method and apparatus
US8145486B2 (en) 2007-01-17 2012-03-27 Kabushiki Kaisha Toshiba Indexing apparatus, indexing method, and computer program product
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof

Also Published As

Publication number Publication date
JP2921059B2 (en) 1999-07-19

Similar Documents

Publication Publication Date Title
Huang et al. Microsoft Windows highly intelligent speech recognizer: Whisper
JP3114468B2 (en) Voice recognition method
JP3434838B2 (en) Word spotting method
US20220343895A1 (en) User-defined keyword spotting
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
JP2000029495A (en) Method and apparatus for speech recognition using neural network and Markov model recognition technology
RU2393549C2 (en) Method and device for voice recognition
JPH0876785A (en) Voice recognition device
JPH04362699A (en) Speech recognition method and device
TW202129628A (en) Speech recognition system with fine-grained decoding
Boite et al. A new approach towards keyword spotting.
JP2002358097A (en) Voice recognition device
JP3876703B2 (en) Speaker learning apparatus and method for speech recognition
JP2996019B2 (en) Voice recognition device
JPH0484197A (en) Continuous voice recognizer
JP3039634B2 (en) Voice recognition device
JPH01204099A (en) Speech recognition device
JP4391179B2 (en) Speaker recognition system and method
JPH07230293A (en) Voice recognizer
JP4236502B2 (en) Voice recognition device
JPH08314490A (en) Word spotting type speech recognition method and device
JP3357752B2 (en) Pattern matching device
JP3285047B2 (en) Speech recognition device for unspecified speakers
JPS6147999A (en) Voice recognition system
JP3291073B2 (en) Voice recognition method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees