JPH03167600A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03167600A
JPH03167600A JP1306477A JP30647789A JPH03167600A JP H03167600 A JPH03167600 A JP H03167600A JP 1306477 A JP1306477 A JP 1306477A JP 30647789 A JP30647789 A JP 30647789A JP H03167600 A JPH03167600 A JP H03167600A
Authority
JP
Japan
Prior art keywords
recognition
speech
voice
feature vector
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1306477A
Other languages
English (en)
Other versions
JP3004023B2 (ja
Inventor
Yoichi Takebayashi
洋一 竹林
Hiroyuki Tsuboi
宏之 坪井
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1306477A priority Critical patent/JP3004023B2/ja
Priority to EP90312821A priority patent/EP0430615B1/en
Priority to DE69026474T priority patent/DE69026474T2/de
Publication of JPH03167600A publication Critical patent/JPH03167600A/ja
Priority to US08/794,770 priority patent/US5794194A/en
Application granted granted Critical
Publication of JP3004023B2 publication Critical patent/JP3004023B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は高騒音環境下における種々の雑音を伴った入力
音声や、単語音声等の前後に不本意な発声を伴った人力
音声を精度良く認識することのできる認識性能の高い音
声認識装置に関する。
(従来技術) 従来より、単語や文節等を認識対象とした音声認識では
、その入力音声の始終端(音声区間を示す始端および終
端)を音声エネルギーの変化や音声ピッチの変化.或い
は零交差波等の簡単なパラメータ情報を用いて検出して
いる。そして検出された始終端点を基準として音声パタ
ーン(音声特徴ベクトル)を切り出し、この音声パター
ン(音声特徴ベクトル)と認識対象カテゴリについての
認識辞書とを照合して、前記入力音声が示す認識対象カ
テゴリを求めることで、人力音声を認識している。
このような入力音声の始終端検出(音声区間検出)によ
り、認識辞書との照合に用いる音声パターンを切り出す
処理は、音声パターンと音声認識辞書との照合処理に必
要とする演算量が非常に多大であり、その演算負担を軽
減すると共に、認識処理には直接寄与することのない冗
長な情報を省くことを目的としてなされる。
尚、入力音声の始終端検出(セグメンテーション)を行
い、その音声区間についての音声特徴ベクトルを抽出し
てパターン照合に供する手法は、動的計画法に基づ<D
Pマッチング法によりパターン照合を行う場合や、HM
M (Illdden MarcovModel )や
複合類似度法に基づくパターン照合を行う場合でも、従
来、一般的に採用されている。
ところが従来では音声エネルギーの変化等の簡単なパラ
メータにより音声区間検出を行っている。
この為、例えば高騒音環境下での入力音声を認識処理す
るような場合、ノイズ(周囲雉音)の悪影響を受けて、
人力音声に対する誤った始終端検出が行われることが多
々ある。また単語音声や文節音声の前後に「あ〜」 「
え〜」等の不本意な発声が伴うような場合にも始終端検
出が誤ってなされることが多々ある。これ故、人力音声
の始終端を如何にして高精度に検出するかが、音声認識
装置を実用化する上での大きな課題となっている。
一方、高騒音環境下における音声認識をロバストに、し
かも高精度に行うべく、従来のような入力音声に対する
始終端検出を行うことなく、その始終端点を非固定とし
たままで連続的にパターン照合を行うワードスポッティ
ング法が提唱されている。
このワードスポッティング法は、入力音声の始終端点が
或る区間のどこかに存在するものと仮定し、仮定された
複数の始端点および終端点の組み合わせ(音声区間候補
)毎に音声パターン(音声特徴ベクトル)を切り出して
認識辞書とのパターン照合を逐次的に行うものである。
これ故、従来のように予め音声区間を検出し、その音声
区間についての音声特徴ベクトルを抽出して認識辞書と
のパターン照合を行う手法に比較し、上記ワードスポッ
ティング法を用いた音声認識処理を行うには、膨大な回
数のパターン照合が必要となり、その処理時間も非常に
長くなると云う問題がある。
しかもワードスポッティング法によるパターン照合をリ
アルタイムに行う装置やLSIを開発する際,所望とす
る性能を満足させる為にはそのハードウエアが大規模化
し、製作コストが増大することが否めない。このような
理由によりワードスポッティング法を導入する場合には
、・従来では専ら入力音声を分析して求められる音声特
徴パラメータの次数を低くしたり、音声特徴パラメータ
に対する時間方向のサンプル点を少なくする等してパタ
ーン照合に用いる音声特徴ベクトルの次元数を小さくす
ることが行われている。
然し乍ら、このようにして音声特徴ベクトルの次元数を
小さくすると、入力音声パターン(単語音声特徴ベクト
ル)の大局的特徴は表現できてもその微細な特徴構造を
表現することができなくなる。この結果、十分なる精度
でパターン照合を行うことができなくなり、誤った認識
結果が求められる要因となっている。
この点、前述した始終端検出(音声区間検出)により音
声特徴ベクトルを検出してパターン照合を行う手法によ
れば、パターン照合に必要な演算量が少ないので、その
音声特徴ベクトルの次元数を十分に高く設定して高精度
なパターン照合を行うことが可能である。しかし音声区
間の検出に誤まりが生じるとパターン照合に供される音
声特徴ベクトルが誤って求められると云う致命的な欠陥
がある。この為、音声区間検出に誤りが生じ易い高騒音
環境下での認識性能を高く保つことが非常に困難である
と云う問題があった。
(発明が解決しようとする課題) このように従来の音声認識装置では、高騒音環境下にお
ける人力音声からその音声始終端(音声区間)を精度良
く検出して認識辞書とのパターン照合に供する音声特徴
ベクトルを抽出することが非常に困難であると云う問題
があった。またワードスポッティングにより入力音声の
始終端を非固定のまま連続パターン照合により、入力音
声を認識処理するにしても、そのパターン照合に複合類
似度法等のパターン変形に強い強力な計算演算手法を導
入するには、そこでの計算量が非常に膨大化することか
ら、入力音声特徴ベクトルの次元数を低く抑えることが
必要となる。これ故、その認識率を高めることが非常に
困難であった。
本発明はこのような事情を考慮して′なされたもので、
その目的とするところは、高騒音環境下における人力音
声や、音声入力の際の問題となる「あ〜」 「え〜」等
の不用意な発声を伴う人力音声に対する認識性能(特に
不要語に対するリジェクト性能)を十分に高めることの
できる音声認識装置を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識装置は、基本的には■ 入力音声
を分析して求められる音声特徴パラメータの時系列から
、始終端検出を行うことなく次元数を小さく設定した入
力音声の全体的な大まかな特徴を示す第1の音声特徴ベ
クトルの時系列を求め、この第1の音声特徴ベクトルの
時系列と認識対象カテゴリについての第1の認識辞書と
を連続的に照合してその類似度値の時系列を求める第1
の音声認識手段と、 ■ 前記音声特徴パラメータの時系列から検出される前
記人力音声の始終端に従って前記音声特徴パラメータの
時系列から次元数の高い前記入力音声の詳細な特徴を示
す第2の音声特徴ベクトルを抽出し、この第2の音声特
徴ベクトルと前記認識対象カテゴリについての第2の認
識辞書とを照合してその類似度値を求める第2の音声認
識手段と、■ 前記第1の音声認識手段により求められ
た第1の類似度値の時系列と前記第2の音声認識手段に
より求められた第2の類似度値とに基づいて前記入力音
声に対する認識結果を求める手段とを具備したことを特
徴とするものである。
即ち、低次元の音声特徴ベクトルの時系列を用いてワー
ドスポッティングによる連続パターン照合により入力音
声の大まかな特徴に従う認識処理結果を求めると共に、
この連続パターン照合結果から求められる人力音声の始
終端情報に従って、人力音声区間の高次元の特徴ベクト
ルを用いて人力音声の詳細な特徴に従う認識処理結果を
求め、これらの認識結果を総合判定して人力音声に対す
る高精度な認識結果を求めるようにしたことを特徴とし
ている。
(作 用) 本発明によれば、入力音声の全体的な大まかな特徴を示
す比較的次元数の少ない第1の音声特徴ベクトルの時系
列を用いることで、膨大なパターン照合回数を要するワ
ードスポッティングによる連続パターン照合の濱算量の
負荷を軽減して、音声区間検出を予め行うことなく入力
音声の大まかな特徴に基づく音声認識処理を行い、また
人力音声の詳細な特徴を表わす次元数の高い第2の単語
音声特徴ベクトルを音声区間(始終端)決定の後に抽出
して、詳細なパターン照合が行われる。
そしてこれらの各認識処理による認識結果を総合判定し
てその最終的な認識結果を求めるので、認識処理に要す
る演算量をさほど増加させずに、しかも音声の始終端の
検出能力に左右されることなく、例えば高騒音環境下に
おいても認識性能の高い音声認識処理を高速に実行する
ことが可能となる。つまり騒音や不明瞭な発声,不用意
な発声を伴う等の人力音声パターンの変形に対して、高
速に認識処理を実行してその認識結果を高い,認識率で
求めることを可能とする、信頼性の高い実用的な音声認
識装置を実現することが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
装置について説明する。
第1図は実施例装置の全体的な概略構成図で、lはマイ
クロホン等を介して入力される音声信号をディジタル信
号に変換して音声分析部2に与える音声人力部である。
この音声入力部1は、例えば第2図に例示するように人
力音声信号に含まれる3.6KHz以上の高周波雑音成
分を除去するローバスフィルタ(LPF)laと、この
L P F laを介して取り込まれた人力音声(アナ
ログ信号)を、例えば標本化周波数; 8 KHz ,
量子化ビット数; 1 2bitsでディジタル信号に
変換するA/D変換器1bと、このA/D変換器1bが
出力するディジタル信号処理に対して、例えば2 4 
msecのハミング窓を設定してエンファシス処理を施
すプリエンファシス回路1cとにより構戊される。
尚、上述した入力音声のディジタル化処理については、
例えば12KHzの標本化周波数にて量子化ビット数が
16bitsのディジタル信号を求めるようにしても良
く、その仕様は入力音声に対して要求される認識性能等
に応じて定められる。
このような音声人力部lを介して入力された音声データ
を分析する音声分析部2は、基本的にはFFT分析やL
PG分析,スペクトラム分析,フィルタ分析等の手法を
用いて、例えば8 msec毎にその特徴パラメータを
求めるものである。このようにして音声分析部2にて求
められる特徴パラメータの時系列が後述する認識処理部
3における認識処理に用いられる。
しかして音声分析部2は、ここでは認識処理部3で用い
られる2種類の音声特徴パラメータを前記人力音声から
抽出する為の第1の分析部4と第2の分析部5とを備え
て構成されている。この第1の分析部4は、演算量が膨
大な始終端非固定による連続パターン照合処理に用いる
為の次元数の低い(周波数分解能の悪い)第1の特徴パ
ラメータを抽出する為のものである。また第2の分析部
5は、音声区間の詳細な特徴を利用したパターン照合処
理に用いる為の次元数の高い(周波数分解能の高い)第
2の音声特徴パラメータを抽出する為のものである。
これらの第1および第2の分析部4,5は、例えばフィ
ルタ分析によりその特徴パラメータを求める場合には、
第2図に例示するように8チャネルまたは16チャネル
のバンドバスフィルタ(B P F) 4a, 5aの
出力に対して、スクエア処理4b, 5b,スムージン
グ処理4c, 5c,対数圧縮化処理4d, 5dを施
すことにより、8次元の第1の音声特徴パラメータと1
6次元の第2の音声特徴パラメータを求める如く構成さ
れる。
尚、FFT分析(高速フーリエ変換による周波数分析)
により上記第1および第2の音声特徴パラメータをそれ
ぞれ求めるような場合には、第3図にその処理概念を模
式的に示すように、例えばDFT分析処理により12K
IIzのサンプリング周期で256点の離散的フーリエ
変換を施し、128点の分解能を有する周波数スペクト
ル(DFTスペクトル)Xkを求める。そしてこの周波
数スぺクトルXkのパワーIXkl2を周波数方向に平
滑化し、周波数方向を8個または16個に分割した8チ
ャネル(次元)または16チャネル(次元)のフィルタ
バンク相当出力Z i(1−1.2,〜8またはi−1
.2.〜16)をそれぞれ求める。
具体的には、8チャネルのフィルタバンク相当出力Z 
i(i−1.2,〜6)を求める場合には、10 として周波数方向に平滑化処理を施す。これらのフィル
タバンク相当出力Z I(1−1.2.〜6)を対数化
することにより、 Gi  −10  1ogZi     (1−1.2
.  〜8  )として8次元の第1の音声特徴パラメ
ータが求められる。
同様にして前述した周波数分解能の高い16チャネルの
フィルタバンク相当出力Z I(+−1.2.〜1B)
についても、前述した周波数スペクトルのバワーXkl
2を周波数方向に平滑化し、これを対数化することによ
り求められる。
尚、このようにして同じ周波数スペクトル(DFTスペ
クトル)から次元数を異にする第1および第2の音声特
徴パラメータを求めることは、その演算量の点で非常に
効率的であるが、全く別個のFFT分析処理にて第1お
よび第2の音声特徴パラメータをそれぞれ求めるように
しても良いことは云うまでもない。更には、LPG分析
やケプスドラム分析により第1および第2の音声特徴パ
ラメータを求める場合にも同様に実施することができる
即ち、この音声分析部2では、後述する認識処理部3で
の、演算量が膨大な始終端非固定による連続パターン照
合処理に用いる為の第1の特徴パラメータとして次元数
の低い(周波数分解能の悪い)特徴パラメータを抽出し
、また認識処理部3での、音声区間の詳細な特徴を利用
したパターン照合処理に用いる為の第2の音声特徴パラ
メータとして次元数の高い(周波数分解能の高い)音声
特徴パラメータを抽出するものとなっている。
尚、このようにして第1および第2の音声特徴パラメー
タをそれぞれ求める為に必要な演算量は、後述する認識
処理部3でのパターン照合に必要な演算量に比較して遥
かに少ないものである。従って上述した如く2種類の音
声特徴パラメータを求めることは、装置全体にとってさ
ほど負担となることはない。
さて上述した如く求められた第1および第2の音声特徴
パラメータを用いて前記入力音声を認識処理する認識処
理部3は、第1の特徴パラメータを用いて始終端非固定
のまま連続的にて認識辞書6との間でパターン照合を行
う第1の音声認識手段と、第2の音声特徴パラメータを
用いてバターン照合する際の入力音声の始終端を検出し
、検出された始終端間の音声特徴ベクトルを求めて前記
認識辞書6との間でパターン照合を行う第2の音声認識
手段とを備えて構成される。
具体的には、第1の音声認識手段は、第1の特徴パラメ
ータの時系列を入力し、入力音声に苅する始終端非固定
のまま、例えば周波数方向に8次元,時間軸方向に12
次元の音声特徴ベクトルの時系列を抽出して時間的に連
続して、前記認識辞書6に登録されている認識対象カテ
ゴリについての第1の認識辞書との間で連続的にパター
ン照合を行う連続パターン照合部7により構成されてい
る。
この連続パターン照合部7におけるワードスポッティン
グによる連続パターン照合は、基本的には第4図に例示
するように入力音声の特徴パラメータの系列から、その
特徴パラメータを求めた各サンプル・タイミング(分析
フレーム)を仮に設定される終端点とし、その終端点を
基準として或る音声区間条件を満たす複数の始端点を仮
設定する。そしてこれらの始終端点間で示される仮の音
声区間の特徴パラメータの系列を時間軸方向にリサンプ
ル処理し、音声区間を異にする所定の次元数の特徴ベク
トルを前記終端点を基準としてそれぞれ求める。このよ
うにして終端点を基準として求められる所定の次元数の
複数の特徴ベクトルを、前記終端点を時間軸方向にシフ
トしながら順次連続的に抽出し、これらの各特徴ベクト
ルと認識辞杏6との類似度をそれぞれ求めていく。
尚、この特徴ベクトルと認識辞書6との類似度を求める
演算処理は、例えば複合類似度演算の手法を用いる等し
て行われる。
しかして各特徴ベクトルについて求められた類似度値を
、例えば第5図に示すように相互に比較し、最大類似度
を得た認識対象カテゴリと、その音声区間の情報(最大
類似度値を得た特徴ベクトルの始終端の情報)を前記入
力音声に対する認識結果として求めるものである。
このようなワードスポッティングによる音声認識処理に
よれば、始終端の検出誤りに起因する前述した問題がな
くなるので、その分、認識性能を高めることが可能とな
る。しかし時間的に連続して人力音声の特徴ベクトルを
時系列に抽出し、これらの特徴ベクトルを時系列と認識
辞書との類似度を逐次計算することが必要となる。これ
故、その演算処理量が非常に膨大化することから、上記
特徴ベクトルの次元数をある程度低く抑えて、その計算
処理負担を軽減することが必要となる等の配慮が必要と
なる。そしてこのように特徴ベクトルの次元数を低くす
ると、この特徴ベクトルによって示される人力音声の特
徴はその全体に亘る大局的なものとなることが否めない
。従って、入力音声の詳細な特徴に従って、その人力音
声を高精度に認識する上で問題がある。
このような不具合を効果的に補うべく、認識処理部3で
は前述した第2の音声認識手段にて前記第2の音声特徴
パラメータから人力音声の詳細な特徴を表現し得る高次
元の特徴ベクトルを抽出し、この特徴ベクトルを用いて
認識辞書6との間でパターン照合を行うものとなってい
る。
即ち、始終端検出部8は、ここでは前記連続パターン照
合部7にて求められた人力音声の始終端情報に従って人
力音声に対する始終端を検出している。つまり連続パタ
ーン照合部7におけるワードスポッティングによる連続
パターン照合は、人力音声の始終端非固定のまま時間的
に連続してパターン照合を行い、人力音声の大局的な特
徴から認識候補を求めている。このようにして求められ
る認識候袖に着目すれば、その認識候補を得た第1の特
徴ベクトルの始終端は、人力音声の大局的な特徴から求
められる音声区間を示していると云える。始終端検出部
8はこのような観点に立脚して、前記連続パターン照合
部7によるパターン照合結果に基づいて入力音声の始終
端情報を求めている。
尚、この始終端検出については、入力音声のエネルギー
変化を調べて、或いは連続DPマッチング処理等の手法
を用いることで、上述したワードスポッティングによる
連続パターン照合とは独立に行うことも可能である。
しかして単語特徴ベクトル抽出部9は上記始終端検出部
8にて検出された人力音声の始終端情報に従い、前記音
声分析部2の第2の分析部5にて求められた周波数方向
に次元数の高い第2の特徴パラメータから、当該始終端
情報により示される音声区間の特徴パラメータをリサン
プル抽出し、例えば第3図に示すように周波数方向に1
6次元,時間軸方向に16次元の音声特徴ベクトルを求
める。このようにして求められる高次元数の第2の音声
特徴ベクトルがパターン照合部10に与えられて認識辞
書6に登録されている認識対象カテゴリについての第2
の認識辞書との間でのパターン照合に供される。
このパターン照合部10における第2の音声特徴ベクト
ルに対するパターン照合は、例えば前述した連続パター
ン照合部7におけるパターン照合と同様に複合類似度法
を用いて行われるが、HMM照合,DP照合等の手法を
用いて行うこともnJ能である。
つまりこのパターン照合部lOでは、始終端検出?果に
従って前記第2の音声特徴パラメータの時系列から抽出
される音声区間についての、入力音声の詳細な特徴を表
している高次元の第2の音声特徴ベクトルを用いて認識
辞書8とのパターン照合を行い、その類似度値から前記
入力音声に対する認識候補を求めるものとなっている。
この認識候補は、類似度値の高い幾つかの認識対象カテ
ゴリ名を求めることによってなされる。
このようにして認識処理部3では、低次元の特徴ベクト
ルの時系列を用い、第1の音声認識手段により入力単語
音声αについての始端点t..と終端点t.■およびそ
の類似度S1■を求めている。
そしてこの第1の音声認識手段で求められた始端点t 
allと終端点t.,とに従って高次元の第2の特徴ベ
クトルを抽出し、第2の音声認識手段により前記人力単
語音声αについての類似度S12を求めている。つまり
始終端非固定の連続パターン照合による第1の認識処理
を核として、第2の認識処理により始終端検出後の特徴
ベクトルを用いた詳細なパターン照合を行うものとなっ
ている。
しかしてこのような認識処理部3で求められた認識結果
を総合判定して、前記入力音声に対する最終的な認識結
果を求める認識結果処理部11は次のように構成されて
いる。即ち、この認識結果処理部l1は第1図のブロッ
ク内に示すように、前記認識処理部3の連続パターン照
合部7 (第1の音声認識手段)にて求められた認識候
補に対する処理を行う第1の結果処理部12と、前記認
識処理部3のパターン照合部10(第2の音声認識手段
)にて求められた認識候補に対する処理を行う第2の結
果処理部{3、そしてこれらの第1および第2の結果処
理部12.13にてそれぞれ求められた認識俟補に対す
る処理結果を総合判定して最終的な認識結果を求める統
合処理部l4を備えて構成される。
このような認識結果処理部11(統合処理部14)にて
求められた最終的な認識結果が、認識結果出力部15を
介して出,力され、所定の情報処理装置に与えられたり
、音声入力者に提示出力される。
次に認識結果処理部11における前述した第1および第
2の音声認識手段による認識結果(認識候?)に対する
総合判定処理について説明する。
今、前記認識処理部3の連続パターン照合部7(第1の
音声認識手段)にて高い類似度値を得た上位3位の認識
対象カテゴリC l.c 2.C 3が求められると、
第1の結果処理部l2にはその認識対象カテゴリC1.
C2,C3のカテゴリ名と共に、これを得た類似度値S
 Cl+  S C2+  S C3がそれぞれ与えら
れる。この際、これらの類似度値”’CI+  SC2
+SC3を得た第1の特徴ベクトルの始終端情報が第2
の音声認識手段に与えられ、第2の特徴ベクトル抽出処
理に利用される。
しかして第2の音声認識手段では上述した如く求められ
た認識対象カテゴリC 1.C 2,C 3についての
第2の特徴ベクトルを用いた詳細な特徴に基づくパター
ン照合により、その類似度値をS ’C I +S′c
■rs’c3としてそれぞれ求めている。
認識結果処理部11では、最も単純に上述した認識結果
に対する統合処理を行う場合には、上記第1および第2
の音声認識手段によりそれぞれ求められた認識対象カテ
ゴリCl.C2,C3についての第1の類似度値S C
l+  S C2*  SC3と第2の類似度値S C
++  S ’C2+  S ’C3とを単純加算し、
STCI − Sc++ S’c+   ( i =1
.2,3 )として類似度値の統合を行っている。そし
てこのようにして統合された前記各認識対象カテゴリC
I.C2.C3についての類似度値STCI +  S
TC2 +S TC3を相互に比較判定し、最も類似度
値の高い認識対象カテゴリを前記人力音声に対する最終
的な認識結果として求めている。
尚、第1および第2の音声認識手段によりそれぞれ求め
られた或る認識対象カテゴリについての類似度値を単純
に加算することに変えて、例えばSTCI  −WS(
++(1−w)  S’c+  ( j −4,2.3
 )のように所定の重み係数Wを用いて加重平均的に統
合された類似度値STCIを求めるようにすることも可
能である。この場合には、例えば[w −0.2]程度
に設定することにより、入力音声の詳細な特徴を表現し
た第2の特徴ベクトルを用いたパターン照合結果(類似
度値)に対する重み付けを高める等の配慮を施すことが
好ましい。
更には第2の特徴ベクトルに基づくパターン照合により
求められた認識対象カテゴリC 1.C 2.C3につ
いての第2の類似度値S Cl+  S ’C2*  
S ’C3間の差を求め、第1位と第2位との差が大き
い場合には、第1の類似度値S。l+  sc2.  
sc3に拘りなく、第2の類似度値S ’CI+  S
 ′c2+  S ’C3だけに基づいて最終的な認識
結果を決定するようにしても良い。この場合には上記類
似度値の差が小さい場合にだけ、第1の類似度値S C
++  S C2+  S C3を参照しながらその最
終的な認識結果の判定処理を行うことになる。
この他にも、例えば類似度値を確率的な尺度に変換して
認識結果を総合判定することも可能であり、第1および
第2の類似度値の分布を統計的に調べて最終的な認識結
果を判定するようにすることも可能である。
このような第1および第2の音声認識手段によりそれぞ
れ求められる認識結果の、上述した認識結果処理部11
での統合処理により、前記人力音声に対する最終的な認
識結果が求められる。
第6図はこのように構成された実施例装置における全体
的な処理手続きの流れを示している。この図に示される
ように実施例装置では、音声分析部2にて求められた周
波数方向に次元数の低い第1の特徴パラメータの時系列
から次元数の低い特徴ベクトルを求めて始終端非固定に
よる連続パターン照合処理を実行し(ステップA)、こ
の連続パターン照合により求められる第1の類似度の時
系列から類似度値の高い単語候補(認識対象カテゴリ)
とその始終端候補を求める(ステップB)。
しかる後、上述した連続パターン照合による第1の音声
認識処理にて求められる始終端候補に従って音声区間を
切り出し、その音声区間についての次元数の高い第2の
特徴ベクトルを求め(ステップC)、この第2の特徴ベ
クトルについてパターン照合処理を実行して第2の類似
度値を求める(ステップD)。
その後、これらの第1および第2の類似度値を総合的に
判断することで前記入力音声に対する最終的な認識結果
を求めるものとなっている(ステップE)。
この処理手続きに示されるように、実施例装置では人力
音声を分析して求められる低次元数の第1の特徴パラメ
ータから始終端非固定で時間的に連続して求められる低
次元数の第1の特徴ベクトルを用いて連続パターン照合
を実行することで、人力音声の大略的な特徴に基づく認
識結果を求め、その認識結果を得た第1の特徴ベクトル
によって示される始終端情報に従って切り出される音声
区間についての、前記人力音声を分析して求められる高
次元数の第2の特徴パラメータから抽出される高次元数
の第2の特徴ベクトルを用いたパターン照合により、人
力音声の詳細な特徴に基づく認識結果を求めるものとな
っている。
そしてこれらの認識結果を総合判定して前記入力音声に
対する最終的な認識結果を求めるので、仮に人力音声が
高騒音環境下で求められたものであって、雑音に埋もれ
ているような場合であっても、連続パターン照合により
入力音声の大略的な特徴から雑音に左右されることのな
い第1の認識結果を求め、その上で、この第1の認識結
果に伴って検出される音声区間の情報に従って人力音声
の詳細な特徴に基づく認識処理が行われるので、その認
識性能を飛躍的に高めることが可能となる。
つまり第7図(a)に示すような人力音声パターンが雑
音に埋もれて第7図(b)に示すような音声パターンと
して与えられるような場合であっても、その雑音成分の
影響を受けることなしに、その入力音声を性能良く認識
することが可能となる。
尚、上述したようにして人力音声を認識処理するに際し
ては、例えば第8図に示すように第1の音声認識手段に
より求められた認識対象カテゴリについての類似度値が
所定の閾値θl以上で、且つ最大類似度値S maxと
の類似度値差がJθl以下のものだけを認識候補として
求め、上記条件を満たす認識候補が得られなかった場合
には、これを認識リジエクトする。
そして第1の音声認識手段にて上記条件を満たす認:J
4候補が得られた場合にのみ、その認識候補について第
2の音声認識手段にて第2の音声特徴ベクトルに従う詳
細なパターン照合を行い、この第2の音声認識手段によ
り求められた類似度値が所定の閾値02以上で、且つそ
の最大類似度値S waxとの類似度値差がJθ2以下
のものだけを認識候補として求めるようにしても良い。
このようにすれば不要話に対するリジエクト性能の向上
が図られるので、音声認識の実用化に大きく貢献できる
また第1の音声認識手段(連続パターン照合)により求
められる始終端情報に従って第2の音声特徴パラメータ
からその特徴ベクトルを抽出するに際しては、必ずしも
その始終端情報が人力音声の始終端を正確に示している
とは限らない。従って、例えば上記第1の音声認識手段
(連続パターン照合)により求められた始終端の前後数
点を始終端候補としてそれぞれ求め、これらの各始終端
候補により示される音声区間の第2の音声特徴ベクトル
を求めて詳細なパターン照合を行うようにすれば良い。
また或いはある認識対象カテゴリの類似度を大きくする
上位複数の始終端候補を求め、これらの各始終端候補に
より示される音声区間の第2の音声特徴ベクトルを求め
て詳細なパターン照合を行うようにしても良い。
また実施例では、第1および第2の音声認識処理をそれ
ぞれ1種類の特徴ベクトルを用いて行うものとしたが、
周波数方向および時間方向に次元数の異なる複数種類の
特徴ベクトルをそれぞれ用いて上述した第1および第2
の音声認識処理をそれぞれ実行することも可能である。
このようにすれば計算処理負担が増えるものの、その認
識性能を更に高めることが可能となる。その他、パター
ン照合の手法や、パターン照合に用いる音声特徴ベクト
ルの次元数等については、その要旨を逸脱しない範囲で
種々変形して実施することができる。
次に上述した音声認識処理に用いられる認識辞書6の学
習について説明する。
第9図は認識辞書6に対する辞書学習部の概略構成を示
す図である。この辞書学習部は、雑音のないクリーンな
環境下で収集された種々の認識対象カテゴリについての
音声パターンを学習用音声データとして蓄積した音声デ
ータファイル2lと、種々の雑音データを収集した学習
用雑音データファイル22を備えている。この学習用雑
音データファイル22に収集される雑音データは、例え
ば街頭や駅構内等の、所謂雑音環境下で収集された雑多
な音情報を含むデータからなる。
音声データ合底部23は、学習対象とする認識対象カテ
ゴリの音声データを前記学習用音声データファイル2l
から読み出し、これに前記学習用雑音データファイル2
2から求められる雑音データを重畳させて上記音声デー
タに人工的なパターン変形を加えるものである。このパ
ターン変形の度合いは、例えば音声データに混入する雑
音データのレベルを可変する等して調節される。このよ
うして雑音データが加えられた音声データが前記音声分
析部2に与えられて第1および第2の音声特徴パラメー
タが求められる。
前述した認識処理部3における連続パターン照合部7は
、このようにして入力される学習用の音声データについ
て、上記第1の特徴パラメータから第1の特徴ベクトル
の時系列を求め、同様にして連続パターンマッチング処
理を実行して第1の類似度の時系列を求める。
尚、この場合には学習対象とするカテゴリが予め判って
いることから、その認識対象カテゴリについての認識辞
書パターンとの間でだけパターン照合を行っても良い。
或いは類似カテゴリとの識別性を高めるような認識辞書
の学習効果も期待する場合には、これらの類似カテゴリ
についての辞書パターンとの間でもパターン照合を行う
ことが望ましい。また類似カテゴリ(誤認識される虞れ
のあるカテゴリ)が不明な場合には、認識モードの場合
と同様に、全ての認識対象カテゴリの辞書パターンとの
間でパターン照合するようにすることも勿論可能である
しかして学習用特徴ベクトル抽出部24は、認識処理部
3 (連続パターン照合部7)にて前記学習用音声デー
タについて求められた類似度の時系列に基づいて、例え
ば学習対象カテゴリの辞書に対する最大類似度値11a
XS+1を基準とし、この最大類似度18XS+1との
差が所定の閾値θ以下の類似度S.となっている第1の
特徴ベクトルについての始端点t.および終端点t.を
それぞれ求める。
そしてその第1の特徴ベクトルX.と始端点tel終端
点t..およびこの第1の特徴ベクトルXを抽出する根
拠となった類似度値S.を、学習用音声特徴ベクトルの
抽出候補として求める。
しかる後、学習用音声特徴ベクトル抽出部24は、例え
ば上記学習対象とするカテゴリの音声データについての
始終端に関する情報を用いて、上記抽出候補として与え
られた特徴ベクトルについての始終端に関して検定する
。そしてこの検定に合格した始終端候補に従って前記音
声分析部2で求められた第1および第2の音声特徴パラ
メータからその音声区間についての第1および第2の音
声特徴ベクトルを第11図に示すようにそれぞれ求める
。認識辞書作成部25は、このようにして求められる第
1および第2の音声特徴ベクトルに従って認識辞書を作
威し、前記音声認識辞書6に格納されている認識辞書パ
ターンを学習更新する。
この認識辞書の学習について説明すると、例えば複合類
似度法による場合には、抽出された学習用音声特徴ベク
トルX.を用いて辞書パターンの共分散行列を更新し、
しかる後、この共分散行列をKL展開してその固有値λ
と固有ベクトルφを求め、この固有値λと固有ベクトル
φを認識辞書として更新登録することにより行われる。
第10図はこのような認識辞書6の学習処理手続きの流
れを示す図である。
この学習処理は、先ず音声データに対する雑音データの
割合(S/N)を設定し(ステップa)、設定されたS
/Hに従って学習対象とするカテゴリの音声データに所
定の雑音データを加えて人工的なパターン変形を与え(
ステップb)、これを学習用の音声データとすることか
ら行われる。このようにして作成される学習データを分
析して第1および第2の音声特徴パラメータをそれぞれ
求め、次元数の低い第1の音声特徴パラメータから求め
られる第1の音声特徴ベクトルの時系列について、認識
辞書に予め登録されている辞書パターンを参照してワー
ドスポッティング法に基づく連続パターン照合処理を実
行し、その類似度の時系列を求める(ステップC)。
しかる後、この類似度の時系列に従い、例えば学習対象
カテゴリの辞書との最大類似度値S waxとの差が所
定の閾値θ以内の類似度値をとる特徴ベクトルの始端点
と終端点とをそれぞれ人力音声データに対する始端候補
および終端候補として求める。この処理においては上述
した閾値θの設定にもよるが、必ずしも1つの特徴ベク
トルに対する始端候補および終端候補だけが抽出される
と云う保証はなく、一般的には複数組の始端候補および
終端候補が求められる。
ちなみに本発明者等が先に提唱した、例えば特願平1−
57978号における特徴ベクトルの抽出処理は、上述
した連続パターン照合によって求められる類似度の時系
列中の、学習対象カテゴリについての最大類似度値S 
waxに着目して学習用の音声特徴ベクトルの抽出を行
っている。
これに対してここでは、例えば上述した類似度の時系列
から求められる複数の特徴ベクトルの始端点と終端点を
それぞれ始端候補および終端候補とし、学習対象とする
音声データについて予め求められている始端点と終端点
の情報に従って上記始端候補および終端候補を絞り込み
処理し、最も信頼性の高い始端候補および終端候補を求
める。
即ち、連続パターン照合によって求められた類似度の時
系列に基づいて求められた数組の始端候補および終端候
補はそれぞれその音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合しているか否かの検定を行い、始端候補
および終端候補の絞り込みを行う。具体的には、始端候
補および終端候補により示される音声区間が音声データ
の最小継続時間以上で、且つ最大継続時間以内であるか
の検定を行う。
また求められた音声区間に対する音声データの最大・最
小継続時間による検定については、類似度の時系列を求
める際の始終端非固定の連続パターン照合時、つまりワ
ードスポッティング時に行うようにしても良い。つまり
ワードスポッティングを行う際、その音声区間が最大継
続時間以下で、最小継続時間以上となるような始終端に
ついてのみその類似度演算を行うようにしても良い。こ
のようにすれば上述した学習用音声特徴ベクトルの抽出
処理を行う際での音声区間幅のずれに対する検定を省略
することが可能となる。
しかしてこのような音声区間に対する検定を行った後、
次に上記始端候補および終端候浦が標準的な始端点およ
び終端点に対して所定のずれ幅以内に収まっているかの
検定を行い、その始端候補および終端候補の絞り込みを
行う。
このような検定処理により、前述した如く求められた始
終端候補が上述した継続時間幅の条件に適合するか否か
を調べ、この条件に該当しない始終端候補を特徴ベクト
ルの抽出対象から除外する。
また始終端のずれに対する検定により、その始終端が許
容ずれ範囲内に収まっているか否かを調べ、これによっ
てその条件に適合しない始終端候補を特徴ベクトルの抽
出対象から除外する。
このような始終端に関する検定により始終端候補を絞り
込むことで、真に信頼性の高い[iだけが残されること
になる。
しかる後、その信頼性の高い、最大類似度を得る区間の
始終端の情報に従い、前述した第1および第2の音声特
徴パラメータからその音声区間についての第1および第
2の音声特徴ベクトルを第11図に示すようにそれぞれ
抽出する(ステップd)。この結果、認識辞書6を学習
する為の音声特徴ベクトルが前述した雑音の影響を受け
ることなしに精度良く、しかも高い信頼性をもって抽出
される。しかる後、この抽出された第1および第2の音
声特徴ベクトルを用いて前記認識辞書6の学習処理が行
われ(ステップe)、認識辞書6の性能が効果的に高め
られる。
このような認識辞書θの学習処理は、学習対象としてい
る全ての認識対象カテゴリについての学習処理が行われ
るまで、繰り返し実行される(ステップf)。
かくしてこのような認識辞書の学習機能を備えた音声認
識装置によれば、人工的に雑音が加えられた学習用音声
データを用いて第1および第2の音声認識手段によるパ
ターン照合にそれぞれ供される認識辞書の性能を非常に
効果的に高めていくことが可能となる。しかも始終端非
固定の連続パターン照合による認識結果に基づいて求め
られる始終端情報に従ってその音声区間の特徴ベクトル
を正確に抽出して認識梓書6の学習を行い、その性能を
高めていくことができる。
この結果、前述した音声認識処理の手法と相俟って、そ
の認識性能を飛躍的に高めることが可能となる。
尚、本発明は上述した実施例に限定されるものではない
。例えば実施例では人力音声を単語を単位として認識処
理する例について示したが、音韻や音節を処理単位とし
て認識処理することも可能であり、他のセグメント単位
や記号処理を基本として入力音声を認識処理することも
可能である。
また認識対象も上述した単語のみならず、文節や連続単
語,文等であっても良い。更には認識処理に用いる音声
特徴ベクトルの次元数やパターン照合の手法についても
特に限定されることはない。
本発明のポイントは始終端非固定の連続パターン照合と
始終端決定後のパターン照合によるハイブリッドシステ
ムであり、その要旨を逸脱しない範囲で種々変形して失
施することかできる。
[発明の効果コ 以上説明したように本発明によれば、連続パターン照合
による入力音声の大略的な特徴に越づく認識結果と、始
終端検出後の高次元な特徴ベクトルを用いたパターン照
合による人力音声の詳細な特徴に基づく認識結果とを総
合判定してその人力音声に対する認識結果を求めるので
、その認識性能を飛躍的に高めることができる。しかも
演算量の多い連続パターン照合による認識処理について
は次元数の低い音声特徴ベクトルを用い、始終端検出後
のパターン照合については、その演算量が少ないことか
ら次元数の高い特徴ベクトルを用いて認識処理を行うの
で、その演算量をさほど増加させずに認識性能を高める
ことができる等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例に係る音声認識装置について示す
もので、第1図は実施例装置の全体的な概略構威図、第
2図は実施例装置における音声入力部と音声分析部の構
成例を示す図、第3図は音声分析部における第1および
第2の音声特徴パラメータの抽出概念を示す図、第4図
および第5図はワードスポッティングによる連続パター
ン照合処理による音声認識処理の基本概念を示す図、第
6図は実施例装置での音声認識処理手続きの流れを示す
図である。 また第7図は人力音声パターンの例を示す図、第8図は
音声認識処理手続きの変形例を示す図、第9図は認識辞
書の学習機能を示す図、第10図は認識辞書の学習処理
手続きの流れを示す図、第11図は人力音声パターンか
ら抽出される学習用音声特徴ベクトルの概念を示す図で
ある。 1・・・音声入力部、2・・・音声分析部、3・・・認
識処理部、4・・・第1の分析部(第1の音声特徴パラ
メ−タの抽出手段)、5・・・第2の分析部(第2の音
声特徴パラメータの抽出手段)、6・・・認識辞書、7
・・・連続パターン照合部(始終端非固定の第1の音声
特徴ベクトル)  8・・・始終端検出部、9・・・単
語特徴ベクトル抽出部(第2の音声特徴ベクトル)、l
O・・・パターン照合部、l1・・・認識結果処理部、
12・・・第1の結果処理部、l3・・・第2の結果処
理部、14・・・統合処理部、l5・・・認識結果出力
部、2l・・・音声データファイル、22・・・雑音デ
ータファイル、23・・・音声データ合或部、24・・
・学習用特徴ベクトル抽出部、25・・・認識辞書作成
部。

Claims (7)

    【特許請求の範囲】
  1. (1)入力音声を分析して音声特徴パラメータの時系列
    を求める手段と、この音声特徴パラメータの時系列から
    始終端検出を行うことなく求められる第1の音声特徴ベ
    クトルの時系列と認識対象カテゴリについての第1の認
    識辞書とを照合してその類似度値の時系列を求める第1
    の音声認識手段と、前記入力音声の始終端を検出する手
    段と、この手段により検出された始終端に従って前記音
    声特徴パラメータの時系列から第2の音声特徴ベクトル
    を抽出する手段と、この手段により求められた第2の音
    声特徴ベクトルと前記認識対象カテゴリについての第2
    の認識辞書とを照合してその類似度値を求める第2の音
    声認識手段と、前記第1の音声認識手段により求められ
    た第1の類似度値の時系列と前記第2の音声認識手段に
    より求められた第2の類似度値とに基づいて前記入力音
    声に対する認識結果を求める手段とを具備したことを特
    徴とする音声認識装置。
  2. (2)第1の音声特徴ベクトルの次元数は、第2の音声
    特徴ベクトルの次元数より小さいことを特徴とする請求
    項(1)に記載の音声認識装置。
  3. (3)第1の音声認識手段は、ワードスポッティング法
    により第1の音声特徴ベクトルの時系列と第1の音声認
    識辞書とを照合して類似度値の時系列を求めることを特
    徴とする請求項(1)に記載の音声認識装置。
  4. (4)入力音声の始終端を検出する手段は、第1の音声
    認識手段により得られる類似度値の時系列に基づいて入
    力音声の始終端を検出することを特徴とする請求項(1
    )に記載の音声認識装置。
  5. (5)第1および第2の音声認識手段における音声特徴
    ベクトルと認識辞書との照合は、同一の計算方式により
    上記音声特徴ベクトルと認識辞書との類似度値を計算し
    て行われることを特徴とする請求項(1)に記載の音声
    認識装置。
  6. (6)請求項(1)に記載の音声認識装置において、第
    1および第2の認識辞書に対する学習機能を備えたこと
    を特徴とする音声認識装置。
  7. (7)第1および第2の認識辞書の学習処理は、音声デ
    ータに人工的なパターン変形を加えて学習用音声データ
    を作成し、第1の音声認識手段を用いてワードスポッテ
    ィング法により求められる類似度値の時系列に基づいて
    求められる学習用音声データの始終端に従って、前記学
    習用音声データを分析して求められる音声特徴パラメー
    タの時系列から第1および第2の音声特徴パラメータを
    それぞれ抽出して行われることを特徴とする請求項(6
    )に記載の音声認識装置。
JP1306477A 1989-11-28 1989-11-28 音声認識装置 Expired - Fee Related JP3004023B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1306477A JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置
EP90312821A EP0430615B1 (en) 1989-11-28 1990-11-26 Speech recognition system
DE69026474T DE69026474T2 (de) 1989-11-28 1990-11-26 System zur Spracherkennung
US08/794,770 US5794194A (en) 1989-11-28 1997-02-03 Word spotting in a variable noise level environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1306477A JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03167600A true JPH03167600A (ja) 1991-07-19
JP3004023B2 JP3004023B2 (ja) 2000-01-31

Family

ID=17957486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1306477A Expired - Fee Related JP3004023B2 (ja) 1989-11-28 1989-11-28 音声認識装置

Country Status (3)

Country Link
EP (1) EP0430615B1 (ja)
JP (1) JP3004023B2 (ja)
DE (1) DE69026474T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515799A (ja) * 2000-07-27 2004-05-27 アクティヴェィテッド コンテント コーポレーション インコーポレーテッド ステゴテキスト・エンコーダおよびデコーダ
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
US8494903B2 (en) 2007-03-16 2013-07-23 Activated Content Corporation Universal advertising model utilizing digital linkage technology “U AD”

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
DE4240978A1 (de) * 1992-12-05 1994-06-09 Telefonbau & Normalzeit Gmbh Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
JP2002149187A (ja) 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN112908301B (zh) * 2021-01-27 2024-06-11 科大讯飞(上海)科技有限公司 一种语音识别方法、装置、存储介质及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515799A (ja) * 2000-07-27 2004-05-27 アクティヴェィテッド コンテント コーポレーション インコーポレーテッド ステゴテキスト・エンコーダおよびデコーダ
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
US8494903B2 (en) 2007-03-16 2013-07-23 Activated Content Corporation Universal advertising model utilizing digital linkage technology “U AD”

Also Published As

Publication number Publication date
EP0430615B1 (en) 1996-04-10
EP0430615A2 (en) 1991-06-05
EP0430615A3 (en) 1992-04-08
DE69026474T2 (de) 1996-09-19
JP3004023B2 (ja) 2000-01-31
DE69026474D1 (de) 1996-05-15

Similar Documents

Publication Publication Date Title
US5794194A (en) Word spotting in a variable noise level environment
US5839103A (en) Speaker verification system using decision fusion logic
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
WO2003015078A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
Pandit et al. Feature selection for a DTW-based speaker verification system
CN101118745A (zh) 语音识别系统中的置信度快速求取方法
US20040204930A1 (en) Method and system for utterance verification
Amano et al. On the use of neural networks and fuzzy logic in speech recognition
JPH03167600A (ja) 音声認識装置
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
US7043430B1 (en) System and method for speech recognition using tonal modeling
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Budiga et al. CNN trained speaker recognition system in electric vehicles
CN116798454B (zh) 一种基于语音识别的认知障碍评估方法
KR100298177B1 (ko) 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
KR20050058598A (ko) 음성 인식 시스템의 발화 검증 방법
Pentapati Enhancement in speaker identification through feature fusion using advanced dilated convolution neural network
JP2001175276A (ja) 音声認識装置及び記録媒体
JPH03118600A (ja) 音声認識装置
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JPH11249688A (ja) 音声認識装置およびその方法
Kitaoka et al. Detection and recognition of correction utterances on misrecognition of spoken dialog system
Sigmund Search for keywords and vocal elements in audio recordings
KR100584906B1 (ko) 억양의 유사도 측정방법
Viana et al. Self-organizing speech recognition that processes acoustic and articulatory features

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees