JP4836290B2 - 音声認識システム、音声認識プログラムおよび音声認識方法 - Google Patents

音声認識システム、音声認識プログラムおよび音声認識方法 Download PDF

Info

Publication number
JP4836290B2
JP4836290B2 JP2009505047A JP2009505047A JP4836290B2 JP 4836290 B2 JP4836290 B2 JP 4836290B2 JP 2009505047 A JP2009505047 A JP 2009505047A JP 2009505047 A JP2009505047 A JP 2009505047A JP 4836290 B2 JP4836290 B2 JP 4836290B2
Authority
JP
Japan
Prior art keywords
frame
start point
reference value
unit
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009505047A
Other languages
English (en)
Other versions
JPWO2008114448A1 (ja
Inventor
信之 鷲尾
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008114448A1 publication Critical patent/JPWO2008114448A1/ja
Application granted granted Critical
Publication of JP4836290B2 publication Critical patent/JP4836290B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、ユーザの発話を含む音信号を入力して、音声認識処理を行い、発話に含まれるに認識単語列を出力する音声認識処理、音声認識プログラムおよび音声認識方法に関する。
従来、音声認識システムは、入力された音声データから、音声区間(発話区間)が時間軸上で何処に存在するのか判定する機能を持つことが多い。そのような音声認識システムは、音声区間と判定された区間のフレームについて特徴量を算出し、この特徴量を、音響モデルおよび言語モデルと照合して認識結果を出力する。何処に音声区間が存在するのかを判定するために、例えば、音声認識システムは、入力音声のパワーが基準値(=背景雑音レベル+α(しきい値))を一定時間(一定フレーム数)連続して上回ったら、音声区間が開始されたと判断することができる。また、音声認識システムは、入力音声のパワーが,基準値を一定時間連続して下回ったら,音声区間が終了したと判断することができる。
上記の音声区間判定方法では,背景雑音レベルがしきい値αを超えて変動すると、雑音区間が誤って音声区間と判断されてしまって誤認識を招く場合がある。そこで、音声区間の始端の判定を、入力音声の最大エネルギーに応じて動的に行う音声区間の始端検出装置が提案されている(例えば、特許文献1参照)。この始端検出装置は、音声区間の始端を検出してから終端を検出するまで、入力された音声データをメモリバッファに記録しておき、入力されてきた音声データの中で、音声エネルギーの最大値かつ極大値を検出した時点で新たに閾値を設定し直し、この閾値によって新たな始端判定を行い直す。その後、終端が検出されると、始端と終端の間の音声データが出力される。
しかしながら、上記の始端判定装置では、音声区間の終端が決まってからしか、照合処理等を開始できない構成となるので、レスポンスタイムが延びるという課題があった。
特許第2625682号公報
そこで、本発明は、適切な音声区間に基づいた音声認識を行いつつも、レスポンスタイムの遅延を抑えることができる音声認識システム、音声認識プログラムおよび音声認識方法を提供することを目的とする。
本発明にかかる音声認識システムは、入力された音信号を、フレームごとの特徴量に変換する特徴量算出部と、各フレームにおける前記音信号のパワーまたは振幅により表される入力音レベルを算出する音レベル算出部と、特徴量算出部が算出した各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて出力する認識単語列を決定する照合部と、前記音レベル算出部によって算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定して前記照合部へ通知する始点判定部と、前記音レベル算出部によって算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定して前記照合部へ通知する終点判定部と、前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新部とを備え、前記始点判定部は、前記基準値更新部が基準値を更新すると、当該更新後の基準値を用いて始点フレームを更新して前記照合部へ通知し、前記照合部は、特徴量算出部が算出した各フレームの特徴量を受け取って照合を開始した後、前記終了判定部から終点フレームの通知を受ける前に、前記始点判定部から、始点フレームの通知を受った場合、通知された始点フレームに応じて前記照合結果を修正する。
上記構成により、基準値更新部は、始点フレーム以降の入力音レベルの変動に応じて基準値を更新し、始点判定部は更新された基準値を基に始点フレームを更新する。これにより、入力された音信号に含まれる音声の入力音レベルに応じて始点フレームが更新される。そのため、例えば、非定常な雑音や、入力音レベルのばらつき等による、音声区間の始点の判定誤りが自動的に是正される。また、終点判定部も、入力音レベルに応じて終点フレームを決定する。このように始点判定部で更新された始点フレームおよび終点判定部が決定した終点フレームは、照合部に通知される。照合部は、照合処理開始後、終点フレームの通知を受ける前に始点フレームが更新されると、その始点フレームに応じて照合結果を修正する。すなわち、照合部は、終点フレームを待たずに照合処理を進めることができるの構成になっている。そのため、レスポンスタイムの遅延が抑えられる。これに加えて、照合部は、更新された始点フレームに応じて照合結果を修正するので、始点判定の誤りが是正された適切な音声区間に基づいた認識結果を出力することができる。また、照合部は、始点フレームが更新されても、始から照合処理をやり直すのではなく、照合結果を修正するので、すでに行った照合処理の照合結果を無駄なく利用することができる。その結果、レスポンスタイムが改善される。ひいては、適切な音声区間に基づいた音声認識を行いつつも、レスポンスタイムの遅延を抑えることが可能になる。
なお、入力音レベルは、各フレームにおける音信号のパワーまたはその対数値、あるいは、振幅またはその対数値で表されてもよい。
本発明にかかる音声認識システムにおいて、前記照合部は、前記始点判定部により通知された前記始点フレームから、前記終点判定部により通知された前記終点フレームまでの音声区間に含まれるフレームの特徴量の照合結果のみに基づいて、前記認識単語列を決定する態様とすることができる。
これにより、照合部は、始点判定部および終点判定部により音声区間ではないと判定された区間の照合結果を除外した結果に基づいて、認識単語列を決定することができる。その結果、雑音である可能性の高いフレームの照合結果が、認識結果へ影響を及ぼすことが軽減される。
本発明にかかる音声認識システムにおいて、前記照合部は、各フレームの特徴量の照合結果に対して重み付けを行うことにより、前記照合結果を修正するものであって、前記始点判定部により通知された前記始点フレームから前記終点判定部により通知された前記終点フレームまでの音声区間に含まれないフレームの特徴量の照合結果の重みを、前記始点フレームから前記終点フレームまでの音声区間内のフレームの特徴量の照合結果の重みよりも軽くして、重み付けを行う態様とすることができる。
これにより、照合部は、音声区間外と判定されたフレームの特徴量の照合結果の重みを、音声区間内の照合結果の重みより軽く見積もって、認識単語列を決定する。そのため、照合部は、始点判定部および終点判定部により音声区間ではないと判定された区間の照合結果の影響度を軽くして、認識単語列を決定することができる。その結果、雑音である可能性の高いフレームの照合結果が、認識結果へ影響を及ぼすことが軽減される。すなわち、音声区間判定結果の僅かな誤りが、大きく認識結果に影響を及ぼすことが軽減され、ひいては認識結果が安定することになる。
本発明にかかる音声認識システムにおいて、前記照合部は、前記始点判定部により通知された前記始点フレームから前記終点判定部により通知された前記終点フレームまでの区間にないフレームに含まれる単語から、前記出力する認識単語列を決定する態様とすることができる。
これにより、照合部は、音声区間外と判定されたフレームにかかる単語を、出力する認識単語列から除外することができる。その結果、雑音である可能性の高いフレームの照合結果が、認識結果へ影響を及ぼすことが軽減される。
本発明にかかる音声認識システムにおいて、前記基準値更新部は、前記始点フレーム以降のフレームにおける最大入力音レベルを計算し、当該最大入力音レベルに応じて前記基準値を更新する態様とすることができる。
基準値更新部は、始点フレーム以降のフレームにおける最大入力音レベルを基に基準値を更新することで、音声区間の入力音レベルを基準値に反映させることができる。
本発明にかかる音声認識システムにおいて、前記基準値更新部は、時間経過と共に前記基準値を段階的に下げていく態様とすることができる。
一般的に、人の発話において、発話末尾では発話音量は小さくなる傾向がある。基準値更新部は、時間経過と共に基準値を段階的に下げていくことにより、この発話末尾での発話音量が小さくなる傾向に対応して、基準値を更新することができる。終了判定部は、このように更新された基準値に基づいて終了フレームを判定することにより、人の発話の傾向に応じて適切な終了フレームを判定することができる。
本発明にかかる音声認識システムにおいて、前記基準値更新部は、時間経過と共に、計算された前記最大入力音レベルを段階的に下げていく態様とすることができる。
基準値は、最大入力音レベルに応じて更新されるので、発話末尾での発話音量が小さくなる傾向に対応して基準値が更新される。また、例えば、話者が急に感情的になって一時的に入力音レベルが急上昇したり、突発的な大音量雑音が入ったりした場合等の不規則な要因により最大音レベルが上がってしまい、その後適切な基準値が設定できなくなるという事態を防ぐこともできる。
本発明にかかる音声認識プログラムは、入力された音信号を、フレームごとの特徴量に変換する特徴量算出処理と、各フレームにおける前記音信号のパワーまたは振幅により表される入力音レベルを算出する音レベル算出処理と、特徴量算出処理で算出された各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて認識単語列を出力する照合処理と、前記音レベル算出処理によって算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定する始点判定処理と、前記音レベル算出処理によって算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定する終点判定処理と、前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新処理とをコンピュータに実行させる音声認識プログラムであって、前記始点判定処理においては、前記基準値更新処理で基準値が更新されると、当該更新後の基準値を用いて始点フレームが更新され、前記照合処理においては、特徴量算出処理で算出された各フレームの特徴量を受け取って照合が開始された後であって前記終了判定処理で終点フレームが決定される前に、前記始点判定処理で始点フレームが更新された場合、更新された始点フレームに応じて前記照合結果が修正されることを特徴とする。
本発明にかかる音声認識方法は、入力された音信号を、フレームごとの特徴量に変換する特徴量算出ステップと、各フレームにおける前記音信号のパワーまたは振幅により表される入力音レベルを算出する音レベル算出ステップと、特徴量算出ステップで算出された各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて認識単語列を出力する照合ステップと、前記音レベル算出ステップで算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定する始点判定ステップと、前記音レベル算出ステップで算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定する終点判定ステップと、前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新ステップとを含む音声認識方法であって、前記始点判定ステップにおいては、前記基準値更新ステップで基準値が更新されると、当該更新後の基準値を用いて始点フレームが更新され、前記照合ステップにおいては、特徴量算出ステップで算出された各フレームの特徴量を受け取って照合が開始された後であって前記終了判定ステップで終点フレームが決定される前に、前記始点判定ステップで始点フレームが更新された場合、更新された始点フレームに応じて前記照合結果が修正されることを特徴とする。
また、本発明にかかる記録媒体は、本発明にかかる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、適切な音声区間に基づいた音声認識を行いつつも、レスポンスタイムの遅延を抑えることができる音声認識システム、音声認識プログラムおよび音声認識方法を提供することができる。
図1は、音声認識システムの構成を表す機能ブロック図である。 図2は、入力音信号の入力音レベル、基準値等の時間遷移を表わすグラフである。 図3は、音声区間判定部の処理の流れを示すフローチャートである。 図4は、照合部の処理の流れを示すフローチャートである。
(音声認識システムの構成)
図1は、本実施形態にかかる音声認識システムの構成を表す機能ブロック図である。図1に示す音声認識システム1は、ユーザの音声を含む入力音信号から、単語列を認識する音声認識処理を行い、認識した単語列を認識結果として出力するものである。音声認識システム1は、例えば、音声対話アプリケーション等の上位プログラムからユーザの音声を渡され、認識結果を上位プログラムへ返す音声認識エンジンとして使用される。
音声認識システム1は、特徴量算出部2、音声区間判定部3、基準値更新部4、音レベルバッファ5、音レベル算出部6、照合部7、音響モデル記録部8および言語モデル記録部9を備える。
音声認識システムは、例えば、パーソナルコンピュータまたは電子機器に組み込まれたコンピュータ等の任意のコンピュータにプログラムをインストールすることによって実現される。すなわち、特徴量算出部2、音声区間判定部3、基準値更新部4、音レベル算出部6、照合部7は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。従って、特徴量算出部2、音声区間判定部3、基準値更新部4、音レベル算出部6、照合部7の機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施態様である。また、音レベルバッファ5、音響モデル記録部8、言語モデル記録部9は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
特徴量算出部2は、入力音信号をフレームごとの特徴量に変換する。特徴量には、MFCC、LPCケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。算出された特徴量は、各フレームに固有の情報(フレーム固有情報)と共に、内部のメモリ(図示せず)に格納される。なお、フレーム固有情報は、例えば、各フレームが先頭から何番目のフレームであるかを示すフレーム番号や、各フレームの開始時点、終了時点などを表すデータである。
照合部7は、特徴量算出部2が算出した各フレームの特徴量を受け取って、音響モデル記録部8の音響モデルおよび言語モデル記録部9の言語モデルと照合し、当該照合結果に基づいて認識単語列を決定し、認識結果として出力する。音響モデルは、音声がどのような特徴量になりやすいかをモデル化したデータであり、言語モデルは、認識単語に関するデータである。例えば、言語モデルには、文法、認識語彙情報等が含まれる。
具体的には、照合部7は、例えば、以下のとおり照合処理を行う。まず、照合部7は、各フレームの特徴量と音響モデルとを比較することにより、音声区間に含まれるフレーム毎に音素スコアを算出する。なお、この場合、音響モデルは、例えば、どの音素がどういう特徴量になりやすいかという情報をモデル化したものであり、現在の主流は音素HMM(Hidden Markov Model)である。音響モデルは、音響モデル記録部8に予め格納されている。
さらに、照合部7は、算出した音素スコアを基に、言語モデル記録部9に記憶されている文法と、認識語彙情報とに従って複数の単語列(文)候補を仮定し、各単語列候補のスコア(尤度)を算出する。照合部7は、算出したスコアが一番良い単語列候補を、認識結果として出力する。
ここで、言語モデル記録部9に記録される文法の例として、文脈自由文法(CFG:Context Free Grammar)や有限状態文法(FSG:Finite State Grammar)、単語連鎖の確率モデル(N−gram)等が挙げられる。本発明では用いられる文法を特に限定するものではないが、以下の例では、FSGを使用するものとする。また、認識語彙情報としては、例えば、単語を識別するIDと、読み(どのように発声するのか)もしくは読みと等価の音素列とを含むが、他に任意の情報を含み得る。
このように、照合部7が、各フレームの特徴量の音響モデルおよび言語モデルとの照合結果の例として、音響モデルと特徴量との一致度を表わす音素スコアと、音素スコアと言語モデルとを基にして計算される各単語列候補のスコア等が挙げられるが、照合結果は上記例に限られない。例えば、事後確率化により補正された音素スコアや単語スコアが照合結果であってもよいし、継続時間長、単語挿入ペナルティ、単語の共起確率、単語事後確率に基づく信頼度といった任意の要素が照合結果に含まれてもよい。なお、音素スコアが尤度と呼ばれる場合もある。
音レベル算出部6は、入力音信号から、フレームごとの音声のパワー(フレームパワー)を、入力音レベルとして順次算出する。音レベル算出部6は、例えば、各フレームにおける音信号の自乗和または自乗和平均値を算出して、これを対数化した値を、各フレームのフレームパワーとすることができる。なお、音レベル算出部6は、上記フレームパワーの代わりに各フレームの振幅または振幅の平均値を、入力音レベルとして算出してもよい。また、入力音レベルは、時間領域で計算された値でもよいし、FFT等によりスペクトル領域で計算された値でもよい。すなわち、入力音レベルは、音の大きさのレベルを表わす値であればよく、その算出方法は上記例に限られない。
音レベル算出部6で算出された各レフ−ムのフレームパワーは、各フレーム固有情報と共に、音レベルバッファ5に記録される。なお、本実施形態では、フレームパワーと特徴量がそれぞれ別個に記録される態様であるが、フレームパワーおよび特徴量は、まとめて記録される態様であってもよい。
音声区間判定部3は、始点判定部31と、終点判定部32を含む。始点判定部31は、音レベル算出部6によって算出され、音レベルバッファ5に記録された各フレームの入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定して前記照合部へ通知する。終点判定部32は、音レベルバッファ5に記録された各フレームの入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定して照合部7へ通知する。
始点判定部31は、例えば、音レベルバッファ5に記録された各フレームの入力音レベル(ここでは、一例としてフレームパワー)を時系列に沿って順次読み出して、基準値と比較する。始点判定部31は、例えば、フレームパワーが基準値を越えるフレームが所定時間連続する場合に、フレームパワーが基準値を越えた時点のフレームを始点フレームと判定することができる。同様に、終点判定部32は、フレームパワーが基準値を下回るフレームが所定時間連続する場合に、フレームパワーが基準値を下回った時点のフレームを終点フレームと判定することができる。このようにして判定された始点フレームと終点フレームとの間の区間が音声区間であると判定することができる。
基準値更新部4は、始点フレーム以降のフレームにおける入力音レベルの変動に基づいて基準値を更新する。例えば、基準値更新部4は、入力音レベルの変動から、雑音ではなく音声であると推定できる音レベル(推定発話レベル)を算出し、この推定発話レベルに基づいて基準値を更新することができる。具体的には、基準値更新部4は、始点フレーム以降のフレームにおいて、フレームパワーが最大になるフレームを検出し、この最大フレームパワーを推定発話レベルとする。そして、基準値更新部4は、この検出した最大フレームパワー(推定発話レベル)から一定の値βを引いた値を新たな基準値候補とし、基準値候補が現在の基準値を上回る場合に、基準値を更新してもよい。
基準値更新部4は、基準値を更新すると、更新後の基準値を始点判定部31および終点判定部32に通知する。始点判定部31は、更新後の基準値を用いて、始点フレームを更新する。始点判定部31は、例えば、入力音信号の入力開始時の先頭フレームから、フレームごとに順次、入力音レベルと更新後の基準値とを比較することにより、始点フレームを再設定してもよい。あるいは、始点判定部31は、基準値が更新された時点のフレームから順次過去に遡り、入力音レベルが基準値を下回らない範囲を音声区間とするように、始点フレームを決定してもよい。なお、終点判定部32も、更新後の基準値を用いて終点フレームを決定する。
始点判定部31は、決定または更新した始点フレームを照合部7へ通知する。終点判定部32も、決定した終点フレームを照合部7へ通知する。
照合部7は、終点判定部32から終点フレームの通知を受ける前に、例えば、初めに始点フレームが通知されたときに、特徴量算出部2から特徴量を受け取って照合処理を開始しておく。そして、その後さらに始点判定部31から始点フレームの通知を受けると、通知された始点フレームに応じて照合結果を修正する。そして、終点判定部32からの終点フレームの通知に基づいて照合を終了する。すでに、終点フレーム以降のフレームの特徴量についても照合処理をしていた場合は、例えば、終点フレーム以降の前記照合結果を破棄する等して照合結果を修正する。
照合部7が更新された始点フレームに応じて照合結果を修正する例を以下に挙げる。第1の例として、照合部7は、更新によって始点フレームが時間的に後になった場合、更新後の始点フレーム以前のフレーム(すなわち、音声区間外のフレーム)については、照合処理を行わなかったものとして処理を進めることができる。すなわち、照合部7は、始点フレーム以前の照合結果を照合結果から除外して、認識単語列を決定することができる。また、第2の例として、照合部7は、認識単語列の候補となる単語のうち、始点フレーム以前のフレームに係っている単語は、認識候補から除外することができる。第3の例として、照合部7は、始点フレーム以前のフレームにかかる音素スコア、単語または単語列のスコアの重みを他と比べて軽くすることができる。
なお、照合部7は、例えば、以下のような処理を追加して認識結果の向上を試みることができる。一般的に、人間の発話開始時および終了時の発声は、それ以外の時の発声と比べて不明瞭でパワーも低くなりやすい。これに対応するため、照合部7は、始点フレームと終点フレームとの間の区間(音声区間)の前後に数フレーム追加した区間について照合処理を行うことにより、パワーが低い発話開始時、終了時の発声を、音声区間外として誤って切り落とすことを回避することも可能である。
また、照合部7は、始点フレームと終点フレームとの間の区間(音声区間)の前後一定数のフレームも音声区間に追加し、追加したフレームのうち一部についても照合処理を行うようにしてもよい。具体的には、照合部7は、音声区間前後の一定数のフレームを、音声区間に追加し、追加したフレームのうち一部に間引きフラグを設定する。このとき、照合部7は、例えば、元の音声区間から遠ざかるにつれて、間引きフラグを設定するフレームの割合を高くすることができる。照合部7は、間引きフラグが設定されているフレームについては、照合処理を行わない。これにより、発話らしさ/雑音らしさを反映した照合が行われる。すなわち、雑音らしさが高いフレームによる悪影響を軽減できる。なお、このような音声区間両端のフレーム追加および間引きフラグの設定は、音声区間判定部3が行ってもよい。
以上、音声認識システム1の構成について説明したが、本発明は、上記構成に限られない。例えば、音声区間判定部3は、照合部7に加えて特徴量算出部2へも、音声区間の始点と終点を通知し、特徴量算出部2は、通知された音声区間のみについて特徴量を算出して照合部7へ渡す構成にしてもよい。これにより、特徴量算出部2の負荷を軽減することができる。また、図1に示す例では、音響モデル記録部8および言語モデル記録部9は、音声認識システム1内に設けられているが、音声認識システム1の外に設けられていてもよい。
(音声認識システムの動作例)
次に、音声認識システム1の動作例について、図2も参照しながら説明する。図2は、入力音信号の入力音レベル、基準値等の時間遷移を表わすグラフである。図2に示すグラフでは、縦軸が音レベル、横軸が時刻tを示している。太線で描かれた関数S(t)は入力音レベルの時間遷移、太い点線で描かれた関数A(t)は基準値の時間遷移、一点鎖線で描かれた関数B(t)は推定発話レベルの時間遷移、細い点線で描かれた関数C(t)は推定背景雑音レベルの時間遷移をそれぞれ表わしている。
ここでは、一例として、関数S(t)で示される入力音レベルの時間遷移は、音レベル算出部6によって算出された各フレームのフレームパワーで表わされるものとする。そのため、図2でS(t)は連続関数で描かれているが、実際はフレームごとの離散値の集合である。すなわち、図2において時刻tは連続値ではなく各フレームに対応する離散値であるとする。また、B(t)で示される推定発話レベルは、時刻T0から時刻tまでの間のフレームパワーの最大値とする。このB(t)は、基準値更新部4が、音レベルバッファ5に記録された各フレームのフレームパワーを参照して計算することができる。
図2に示す例では、時刻T0において、入力音信号の入力が開始される。時刻T0〜時刻T1までは、入力音レベルS(t)<基準値A(t)である。時刻T1において、入力音レベルS(t)は基準値A(t)を越える。その後しばらくは、S(t)>A(t)である。始点判定部31は、S(t)>A(t)が所定時間(ここでは、γとする)続いた場合、S(t)>A(t)となった時刻T1を音声区間の始点と判定する。すなわち、始点判定部31は、時刻T1のフレームを始点フレームとする。ここで、γは、短時間の雑音に誤反応しないための待ち時間であり、その値は例えば、最短単語長から決定されてもよい。
時刻T1〜時刻T2では、基準値A(t)は、推定背景雑音レベルC(t)に一定値αを加算した値である[すなわち、A(t)=C(t)+α]。ここで、推定背景雑音レベルC(t)は、例えば、基準値更新部4が入力音レベルS(t)を基に算出してもよいし、予め記録された値であってもよい。
本実施形態では、一例として、推定背景雑音レベルは,非音声区間における入力音レベルから算出する。その算出例としては、最新N個分のフレームの平均値(移動平均)を用いてもよいし、次式のようにIIRフィルタを用いて算出してもよい。
C(t) = p*S(t)+(1−p)*S(t−1) (0<p<1)
時刻T2の少し前から、入力音レベルがS(t)急激に上昇開始し、それに伴ってB(t)も増加し始める。そして時刻T2で、推定発話レベルB(t)から一定値βを引いた値[B(t)―β]が、C(t)+αより大きくなっている。この場合、基準値更新部4は、基準値A(t)=B(t)−βとして更新する処理を行う。すなわち、基準値更新部4は、推定発話レベルB(t)が増加し、かつ、[B(t)−β]>[C(t)+α] となる場合には、A(t)=B(t)−βとして更新する処理を行う。これにより、基準値更新部4は、基準値A(t)を発話レベルに応じた適切な値に更新することが可能になる。なお、時刻T2〜時刻T4のような場合に、基準値更新部4は、推定発話レベルB(t)の増加の度に毎回基準値A(t)を更新する必要はなく、例えば、一定時間ごとに、基準値A(t)を更新してもよい。
基準値更新部4が基準値A(t)を更新するのに伴って、始点判定部31が音声区間の始点フレームを更新する処理を行う。例えば、時刻T4において、始点判定部31は以下のように始点を更新する。始点判定部31は、時刻T0から時系列に沿って、フレームごとに入力音レベルS(t)と基準値A(T4)とを比較していく。S(t)>A(T4)となるフレームが所定時間(γ)続いた場合に、S(t)がA(T4)を越える時点(すなわち、時刻T3)のフレームを始点フレームとすることができる。また、始点判定部31は、時刻T4から時系列を遡って、フレームごとにS(t)とA(T4)とを比較していき始点フレームを決定してもよい。このようにして、音声区間の始点フレームは時刻T1のフレームから時刻T3のフレームに更新される。時刻T4以降は推定発話レベルB(t)は更新されないので、時刻T5までは、基準値A(t)も一定である。
例えば、図2の時刻T1〜時刻T3の区間において、エコーのような音声雑音によって入力音レベルが一時的に上昇していた場合、時刻T1〜時刻T3の区間は、本当は雑音区間である。この場合、初め、始点判定部31は、時刻T1を誤って音声区間の始点と判定してしまが、その後、時刻T4における基準値A(t)更新に伴って、誤って判定された始点時刻(時刻T1)を正しい始点時刻(時刻T3)に修正することができる。
時刻T5では、入力音レベルS(T5)は、基準値A(T5)を下回り、その後S(t)<A(t)となる。このように、S(t)<A(t)となってその状態が所定時間(例えば、γ´続いた場合(=時刻T6)、終点判定部32は、時刻T5を音声区間の終点とする。すなわち、時刻T5のフレームが終点フレームと判定される。ここで、γ´は、促音や単語間ポーズなどの発話途中の一時的な無音によって,発話終端を誤検出しないための待ち時間である。このように、終点判定部32は、時刻tにおける入力音レベルS(t)とその時刻tにおける基準値A(t)とを比較して終点を判定するので、推定発話レベルB(t)に応じて適切に更新された基準値A(t)を基に終点を判定することができる。その結果、例えば、発話終了後の雑音区間を誤って音声区間と判定してしまうことが回避される。
なお、基準値更新部4は、音声区間終点の時刻T6以降の基準値A(t)を、推定背景雑音レベルC(t)に基づいた値[すなわち、A(t)=C(t)+α]とする。これにより、次の発話検出に対する基準値の初期値は推定背景雑音レベルに基づくものとなる。なお、基準値更新部4は、音声区間終了後にそれまでの基準値をクリアせず、最大して推定背景雑音レベルに合わせる代わりに、最大入力音レベルA(t)=B(t)−βのまま、次の音声区間の始点が検出されるようにしてもよい。また、図2に示す例では、最大入力音レベルB(t)は、音声区間が終了後もそのままで、次の音声区間の始点が検出されるようになっているが、例えば、音声区間が終了するたびに初期値に戻されてもよい。
(照合部7の動作例)
次に、図2に示すような入力音レベルの変動のあった場合の照合部7の動作例を説明する。図2に示した例では、時刻T1からγ経過後に、始点判定部31から照合部7へ始点フレームとして時刻T1のフレームが通知される。そして、時刻T4後の始点更新処理の後には、始点フレームとして時刻T3のフレームが照合部7へ通知される。その後、時刻T6の後に、終点フレームとして時刻T6のフレームが照合部7へ通知される。
照合部7は、時刻T1のフレームが始点フレームとして通知されると、照合処理を開始する。上述したように、照合部7は、例えば、時刻T1以降の各フレームの特徴量と音響モデルとを比較して、フレームごとに音素スコアを算出する。この音素スコアを基に、言語モデルを参照して、複数の単語列候補を作成し、それぞれの単語列候補のスコアを計算する。
そして、時刻T3のフレームが始点フレームとして通知された時、照合処理が時刻T1以降のフレームにまで進んでいた場合(T4とT3の間が開いているほど起こり易い)には、照合部7は、時刻T3以降のフレームの照合結果を時刻T3より前のフレームの照合結果より優先させるように、照合結果を修正する。
ここで、照合結果を修正する処理の具体例をいくつか説明する。まず、第1の例は、照合部7が時刻T3より前のフレームの照合結果を破棄する処理である。例えば、照合部7は、時刻T3より前のフレームの音素スコアを規定の最悪値(最低値)に置き換え、その音素スコアを利用して求めた単語スコアを再計算する。その際、照合部7は、認識候補の枝狩りが行うことで、最悪値の音素スコアを単語スコアに反映させなくすることができる。これにより、時刻T3より前のフレームの照合処理はなかったものとして、時刻T3以降のフレームについて照合処理を進めることができる。
第2の例は、照合部7が、各単語列候補に含まれる単語のうち、時刻T3より前のフレームに係っている単語は、単語列候補から除外する処理である。照合部7は、例えば、ある単語が時刻T3より前のフレームのみで構成されている場合に、その単語を単語列候補から除外してもよいし、単語を構成するフレームの一定割合以上が時刻T3より前のフレームである場合に、その単語を除外してもよい。なお、言語モデルとしてN−gramを用いている場合、単語候補を除外すると単語並びが変わるので、その場合照合部は、言語スコアも再計算する。
第3の例は、照合部7が、フレームごとの音素スコアに重み係数を掛けて、時刻T3以降のフレームと時刻T3より前のフレームとで、重み係数を異ならせる処理である。一例として、t0フレームからtnフレームまでのフレームで構成される単語列候補WのスコアSc(W、t0、tn)が下記数1のように示される場合について説明する。なお、下記数1においてSc(W[i])は、単語列候補Wにおけるi番目のフレームに対応する音素スコアを表わす。
Figure 0004836290
ここで、発話らしさ/雑音らしさを表わす重み係数weight[i](0≦weight[i]≦1)を用いて、単語列候補WのスコアSc(W、t0、tn)を下記数2により計算することができる。
Figure 0004836290
照合部7は、全ての単語列候補について上記数2を用いてスコアを計算することによって、各単語列候補について、フレームごとの発話らしさ/雑音らしさを反映させたスコアが得られる。すなわち、weight[i]によってフレームごとのスコアが調整される。例えば、照合部7は、時刻T3以降のフレームより前のフレームについては、weight[i]を時刻T3のフレームよりも低く設定して計算する。これにより、音声区間外であり、雑音の可能性が高いと判定されたフレームのスコアへの影響度を下げることが可能となる。
一例として、時刻T3のフレームがi=tT3番目のフレームであった場合、照合部7は、t0≦i<tT3−10においてはweight[i]=0、tT3−10≦i≦tT3においては、weight[i]=0.7、tT3<i≦tnにおいてはweight[i]=1とすることができる。
また、照合部7は、例えば、時刻T3の前後一定数のフレームについて、weight[i]が雑音区間側から音声区間側に行くに従って段階的に増加するように設定してもよい。これにより、雑音区間なのか音声区間なのかの区別がつきにくい曖昧な区間について、曖昧な発話らしさ/雑音らしさを反映させたスコアが得られる。また、時刻T3の前後一定数のフレームのうち、すくなくとも一部のフレームのweight[i]を0にすることにより、そのフレームを間引くことができる。
第4の例は、照合部7が、フレームごとの音素スコアにペナルティを付加するもので、単語列候補WのスコアSc(W、t0、tn)を下記数3により計算することができる。
Figure 0004836290
ここで、penalty[i]の正負は、スコアの取り方に依存する。例えば、音素スコアとして対数尤度を使っている場合、通常スコアは負値であり、負の方向に大きいほど悪い値となるので、時刻T3のフレームがi=tT3番目のフレームであった場合、照合部7は、t0≦i<tT3−10においてはpenalty[i]=−∞(あるいは規定の最低値)、tT3−10≦i≦tT3においては、penalty[i]=−3、tT3<i≦tnにおいてはpenalty[i]=0とすることができる。逆に、スコアにユークリッド距離のような0以上の値をとるものを使用する場合は、ペナルティをかける区間ではpenalty[i]>0とすればよい。
以上、照合部7が照合結果を修正する処理の例を説明したが、これに限られない。なお、時刻T3のフレームが始点フレームとして通知された時に、照合処理がまだ時刻T3のフレームまで進んでいなければ、照合部7は、それまでの照合結果は放棄して、時刻T3のフレームから新たに照合処理を開始することができる。
照合部7は、終点フレームとして時刻T5のフレームを通知された時に、照合処理が時刻T5のフレーム以降に進んでいれば、照合処理を終了して、照合結果を修正する。照合処理が時刻T5のフレーム以降に進んでいなければ、照合部7は、時刻T5のフレームまで照合処理を行ってから終了する。この際、照合部7は、時刻T5以降の一定数のフレームについても照合処理を行ってもよい。そして、例えば、照合部7は上記のようなweight[i]による重み付けを、音声区間の終点付近のフレームについても同様に行ってもよい。
このように、照合部7は、音声区間の終点フレームの通知に応じて照合処理を終了した後、各単語列候補のスコアのうち、最も高いスコアの単語列候補を認識結果として出力する。これにより、入力音レベルに応じて適切に修正された音声区間について認識結果が得られる。また、上記動作例においては、照合部7は、終点フレームが決定する前に照合処理を開始して、始点フレーム更新、および終点フレーム決定のタイミングで照合結果を修正する。そのため、終点フレーム判定を待ってから照合処理を開始する場合に比べて、待ち時間を短縮できる。
(推定発話レベルB(t)の変形例)
図2に示した例では、B(t)で示される推定発話レベルは、基準値更新部4がフレームパワーの最大値を計算することにより決定されていた。この他に、基準値更新部4が計算しうる推定発話レベルの例を以下に挙げる。
(ア)入力音信号に、HPF、BPF、LPF、ノイズキャンセラ、スペクトルサブトラクションおよびエコーキャンセラの少なくとも1つの処理を施した後に求めた各フレームパワーの最大値
(イ)各フレームパワーの包絡線の最大値
(ウ)入力音信号に、HPF、BPF、LPF、ノイズキャンセラ、スペクトルサブトラクションおよびエコーキャンセラの少なくとも1つの処理を施した後に求めた各フレームパワーの包絡線の最大値
基準値更新部4は、上記(ア)を推定発話レベルとして計算するにより、ノイズ等の不要な成分が除去された信号に対してフレームパワーを求めることができる。また、上記(イ)を推定発話レベルとすることで、発話に重畳した非定常雑音の影響による推定発話レベルの急激な変化を抑えることができる。
なお、上記(イ)の包絡線は、例えば、IIRフィルタを用いて求めることができる。以下に、基準値更新部4が、IIRフィルタを用いて各フレームパワーの包絡線の最大値を推定発話レベルとして計算する例を説明する。ここで、i番目のフレームにおける推定発話レベルをA[i]とし、i番目のフレームの入力音レベル(フレームパワー)をS[i]とする。基準値更新部4は、i番目のフレームにおいて、
S[i]≧A[i−1]の場合、
A[i]=S[i]
とする。すなわち、入力音レベルが前フレームまでの推定発話レベル以上、すなわち最大値であれば、推定発話レベルをその最大値で更新する。一方、基準値更新部4は、
S[i]<A[i−1]の場合、
A[i]=k×S[i]+(1−k)×A[i−1]
とする。ここで、係数kは、0<k<1である。上記式は、一次のIIRフィルタの式の一例である。係数kの値を0に近づけると突発的ノイズへの誤反応が減る。
なお、S[i]≧A[i−1]の場合も、
A[i]=k´×S[i]+(1−k´)×A[i−1]
としても良い。突発性ノイズがあるとき、入力音レベルは急激に上昇するので、k´による平滑化処理を加えることにより、誤反応を抑制することができる。 (推定発話レベルB(t)および基準値A(t)の他の変形例)
また、基準値更新部4は、始点判定部31が判定した始点フレームから所定時間経過後において、時間経過と共に推定発話レベルを段階的に下げていくことができる。基準値更新部4は、これに伴って基準値も段階的に下げていく。これにより、基準値は、発話末尾で音声のパワーが下がることに対応して下がっていくことになる。具体的には、基準値更新部4は、i番目のフレームにおいて、
S[i]≧A[i―1]の場合(すなわち、入力音レベルが最大値である場合)、
A[i]=S[i]
として、最大値で更新する。一方、基準値更新部4は、
S[i]<A[i―1]の場合
A[i]=m×S[i−1]
とする。mは所定の係数である。S[i]の値は、フレームパワーの測定方法(原点の取り方)によって、S[i]≧0(0が最小値)となる場合と、S[i]≦0(0が最大値)になる場合とがある。S[i]≧0の場合m<1、S[i]≦0の場合m>1とすることで、推定発話レベルA[i]は時間と共に減衰することになる。
なお、推定発話レベルを段階的に下げていく方法は、上記方法に限られない。例えば、基準値更新部4は、始点フレームから所定フレーム分後に、推定発話レベルを段階的に下げる処理を開始してもよい。また、基準値更新部4は、推定発話レベルを段階的に下げる代わりに基準値を段階的に下げてもよい。
また、推定発話レベルから決まる基準値が、推定背景雑音レベルから決まる基準値を下回る場合、すなわち、B(t)−β<C(t)+αとなれば、この推定発話レベルを下げる処理は停止してもよい。
以上、推定発話レベル、基準値の求め方の変形例について述べたが、変形例は上記例に限られるものではない。例えば、基準値更新部4は、フレームパワーの代わりに振幅を用いても同様に計算することができる。 (音声区間判定部3の処理)
図3は、上記図2を参照して示した動作を実現するための、音声区間判定部3の処理の流れを示すフローチャートである。図3において、まず、音声区間判定部3は、フレーム番号iを“0”に初期化する(Op10)。本実施形態において、フレーム番号は、各フレームが先頭から何番目のフレームであるかを示す番号である。
初期化後、音声区間判定部3は、iに1加算し(Op11)、始点判定部31は、i番目のフレームについて、音声区間の始点が現れているか否かを判定する(Op12)。始点判定部31は、例えば、(i−L)番目からi番目のフレーム全てにおいて入力音レベルが基準値を越えているか否かにより上記判定をすることができる。ここでLは予め決められた定数である。なお、(i−L)番目からi番目のフレームにおける入力音レベルは、音レベルバッファ5に記録されている。
音声区間の始点が現れていると判定されなければ(Op12でNo)、iに1加算され(Op11)、判定処理(Op12)が繰り返される。音声区間の始点が現れていると判定されると(Op12でYes)、始点判定部31は、(i−L)番目からi番目のフレームのうち何れかを始点フレームとして照合部7へ通知する(Op13)。例えば、始点判定部31は、入力音レベルが基準値を越えた最初のフレーム(i―L)を始点フレームとして、フレーム番号(i−L)を照合部7へ通知してもよい。
始点フレームが通知されると、音声区間判定部3は、フレーム番号iに1を加算し(Op14)、基準値が更新されているかを判断する(Op15)。基準値更新部4は、上述のように、フレームごとに入力音レベルに基づいて基準値を計算するので、音声区間判定部3は、フレーム番号iが1増える度に基準値更新部4に基準値を問い合わせて基準値更新の有無を確認する。
基準値が更新されている場合(Op15でYes)、始点判定部31は、更新後の基準値を基に始点判定を再度行い(Op16)、その結果、始点が更新されれば、更新後の始点フレームを照合部7へ通知する(Op17)。
Op15で基準値の更新がない(No)と判断された場合は、終点判定部32が、音声区間の終点が現れているか否かを判定する(Op18)。終点判定部32は、例えば、(i−M)番目からi番目のフレーム全てにおいて入力音レベルが基準値を下回っているか否かにより上記判定が可能である。ここで、Mは予め決められた定数である。
Op18で終点が現れていない(No)と判定された場合は、Op14〜Op17の処理が繰り返される。これにより、終点が検出されるまでの間、基準値の変化に応じて始点が更新されることになる。
終点が現れていると判定されると(Op18でYes)、終点フレームが照合部7へ通知される。終点判定部32は、(i−M)番目からi番目のフレームのうち何れかを終点フレームとして照合部7へ通知する(Op19)。例えば、終点判定部32は、入力音レベルが基準値を下回った最初のフレーム(i―M)を終点フレームとして、フレーム番号(i−M)を照合部7へ通知してもよい。これにより、始点フレームと終点フレームが照合部7へ通知されることなる。すなわち、音声区間判定部3は、始点と終点を検出し、この始点と終点との間の区間を音声区間として、照合部7へ通知したことになる。
以上のOp11〜Op19の処理を、音声認識システム1が処理終了(Op20でYes)と判断するまで繰り返される。例えば、入力音信号の入力がなくなった場合等は、処理終了と判断される。
(照合部7の処理)
図4は、上記図2を参照して示した動作を実現するための、照合部7の処理の流れを示すフローチャートである。図4において、照合部7は、始点判定部31から始点フレームの通知(Op21)があるまで待機する。始点フレームの通知があると、照合部7は、フレーム番号iを始点フレーム番号とする(Op22)。その後、照合部7は、フレーム番号iのフレームを加味した照合処理を行い(Op23)、フレーム番号iに1を加算する(Op24)。照合処理は、上述した通り、各フレームの特徴量を音響モデルおよび言語モデルと照合する処理である。
照合処理開始後に、始点判定部31から始点フレームの通知がある場合(Op25でYes)、照合部7は、それまでの照合結果を修正する(Op26)。この修正処理の詳細は、上述した通りである。照合部7は、終点フレームの通知がある(Op27でYes)まで、Op23の照合処理と、Op24〜Op26の処理を繰り返す。
終点判定部32から終点フレームjの通知がある場合(Op27でYes)、j番目のフレーム以降の照合処理は行わず、それまでの照合結果を用いて認識結果を生成し出力する(Op28)。これにより、始点フレームから終点フレームまでのフレームについて照合処理が行われる。また、照合処理の途中で始点フレームが更新された場合には、更新された始点フレームに応じて照合処理の結果が修正される。
以上のOp21〜Op28の処理を、音声認識システム1が処理終了(Op29でYes)と判断するまで繰り返される。例えば、入力音信号の入力がなくなった場合等は、処理終了と判断される。
なお、図4に示した照合部7の処理は一例であってこれに限られない。例えば、照合部7は、Op22において、i=始点フレーム番号としているが、ここで、i=始点フレーム番号−定数N、としてもよい。これにより、始点フレームからN個分前のフレームから照合処理が開始される。その際、照合部7は、始点フレーム前のNフレームの処理結果(例えば、スコア)に重み付け係数を掛けて重みを軽くしてもよい。同様に、照合部7は、終点フレームの通知を受けた後、終点フレームから所定数M個分後のフレームまで照合処理を行うようにしてもよい。
また、図4に示す処理では、照合部7は、始点フレームから終点フレームまでのフレームのみについて照合処理を行っているが、始点フレームおよび終点フレームに関係なく、全てのフレームについて照合処理を行い、通知された始点フレームおよび終点フレームに応じてその照合結果を修正してもよい。例えば、照合部7は、ワードスポッティング技術等により、音声区間を判定せずに入力音信号に含まれる単語列候補およびそのスコアを算出することができる。照合部7は、このようにして算出された単語列候補およびそのスコアを、通知された始点フレームおよび終点フレームに基づいて修正することができる。この場合の修正も、上述の照合結果修正と同様に行うことができる。
なお、上記実施形態では、音声認識システム1を、コンピュータにより実施する例を示したが、音声認識システム1の機能をコンピュータで実現させるためのプログラムまたはこれを記録した記録媒体も、本発明の実施の一形態である。また、音声認識システム1は音声認識装置ということもできる。
本発明は、適切な音声区間に基づいた音声認識を行いつつも、レスポンスタイムの遅延を抑えることができる音声認識システムとして有用である。

Claims (9)

  1. 入力された音信号を、フレームごとの特徴量に変換する特徴量算出部と、
    各フレームにおける前記音信号のパワーまたはその対数値、あるいは、振幅またはその対数値、により表される入力音レベルを算出する音レベル算出部と、
    特徴量算出部が算出した各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて出力する認識単語列を決定する照合部と、
    前記音レベル算出部によって算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定して前記照合部へ通知する始点判定部と、
    前記音レベル算出部によって算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定して前記照合部へ通知する終点判定部と、
    前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新部とを備え、
    前記始点判定部は、前記基準値更新部が基準値を更新すると、当該更新後の基準値を用いて始点フレームを更新して前記照合部へ通知し、
    前記照合部は、特徴量算出部が算出した各フレームの特徴量を受け取って照合を開始した後、前記終了判定部から終点フレームの通知を受ける前に、前記始点判定部から、始点フレームの通知を受った場合、通知された始点フレームに応じて前記照合結果を修正する、音声認識システム。
  2. 前記照合部は、前記始点判定部により通知された前記始点フレームから、前記終点判定部により通知された前記終点フレームまでの音声区間に含まれるフレームの特徴量の照合結果のみに基づいて、前記認識単語列を決定する、請求項1に記載の音声認識システム。
  3. 前記照合部は、各フレームの特徴量の照合結果に対して重み付けを行うことにより、前記照合結果を修正するものであって、
    前記始点判定部により通知された前記始点フレームから前記終点判定部により通知された前記終点フレームまでの音声区間に含まれないフレームの特徴量の照合結果の重みを、前記始点フレームから前記終点フレームまでの音声区間内のフレームの特徴量の照合結果の重みよりも軽くして、重み付けを行う、請求項1に記載の音声認識システム。
  4. 前記照合部は、前記始点判定部により通知された前記始点フレームから前記終点判定部により通知された前記終点フレームまでの区間にないフレームを含む単語を除外して、前記出力する認識単語列を決定する、請求項1に記載の音声認識システム。
  5. 前記基準値更新部は、前記始点フレーム以降のフレームにおける最大入力音レベルを計算し、当該最大入力音レベルに応じて前記基準値を更新する、請求項1に記載の音声認識システム。
  6. 前記基準値更新部は、時間経過と共に前記基準値を段階的に下げていくことを特徴とする、請求項1に記載の音声認識システム。
  7. 前記基準値更新部は、時間経過と共に、計算された前記最大入力音レベルを段階的に下げていくことを特徴とする、請求項5に記載の音声認識システム。
  8. 入力された音信号を、フレームごとの特徴量に変換する特徴量算出処理と、
    各フレームにおける前記音信号のパワーまたは振幅により表される入力音レベルを算出する音レベル算出処理と、
    特徴量算出処理で算出された各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて認識単語列を出力する照合処理と、
    前記音レベル算出処理によって算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定する始点判定処理と、
    前記音レベル算出処理によって算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定する終点判定処理と、
    前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新処理とをコンピュータに実行させる音声認識プログラムであって、
    前記始点判定処理においては、前記基準値更新処理で基準値が更新されると、当該更新後の基準値を用いて始点フレームが更新され、
    前記照合処理においては、特徴量算出処理で算出された各フレームの特徴量を受け取って照合が開始された後であって前記終了判定処理で終点フレームが決定される前に、前記始点判定処理で始点フレームが更新された場合、更新された始点フレームに応じて前記照合結果が修正されることを特徴とする、音声認識プログラム。
  9. 入力された音信号を、フレームごとの特徴量に変換する特徴量算出ステップと、
    各フレームにおける前記音信号のパワーまたは振幅により表される入力音レベルを算出する音レベル算出ステップと、
    特徴量算出ステップで算出された各フレームの特徴量を受け取って、予め記録された、音声がどのような特徴量になりやすいかをモデル化したデータである音響モデルおよび、認識単語に関するデータである言語モデルと照合し、当該照合結果に基づいて認識単語列を出力する照合ステップと、
    前記音レベル算出ステップで算出された前記入力音レベルを基準値と比較することにより、音声区間の始点となる始点フレームを決定する始点判定ステップと、
    前記音レベル算出ステップで算出された前記入力音レベルを基準値と比較することにより、音声区間の終点となる終点フレームを決定する終点判定ステップと、
    前記始点フレーム以降の入力音レベルの変動に応じて前記基準値を更新する基準値更新ステップとを含む音声認識方法であって、
    前記始点判定ステップにおいては、前記基準値更新ステップで基準値が更新されると、当該更新後の基準値を用いて始点フレームが更新され、
    前記照合ステップにおいては、特徴量算出ステップで算出された各フレームの特徴量を受け取って照合が開始された後であって前記終了判定ステップで終点フレームが決定される前に、前記始点判定ステップで始点フレームが更新された場合、更新された始点フレームに応じて前記照合結果が修正されることを特徴とする、音声認識方法。
JP2009505047A 2007-03-20 2007-03-20 音声認識システム、音声認識プログラムおよび音声認識方法 Expired - Fee Related JP4836290B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/055760 WO2008114448A1 (ja) 2007-03-20 2007-03-20 音声認識システム、音声認識プログラムおよび音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2008114448A1 JPWO2008114448A1 (ja) 2010-07-01
JP4836290B2 true JP4836290B2 (ja) 2011-12-14

Family

ID=39765569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009505047A Expired - Fee Related JP4836290B2 (ja) 2007-03-20 2007-03-20 音声認識システム、音声認識プログラムおよび音声認識方法

Country Status (4)

Country Link
US (1) US7991614B2 (ja)
JP (1) JP4836290B2 (ja)
CN (1) CN101636784B (ja)
WO (1) WO2008114448A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
US11670290B2 (en) 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Families Citing this family (212)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8152802B2 (en) * 2009-01-12 2012-04-10 Tyco Healthcare Group Lp Energy delivery algorithm filter pre-loading
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
KR20110047852A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 동작 환경에 적응 가능한 음원녹음장치 및 그 방법
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR101298740B1 (ko) * 2010-04-02 2013-08-21 에스케이플래닛 주식회사 키워드 스파팅 방식에서 단어 연관성을 이용한 키워드 재탐색 방법 및 장치
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
CN102541505A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 语音输入方法及其系统
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20140072670A (ko) * 2012-12-05 2014-06-13 한국전자통신연구원 사용자 음성 처리용 인터페이스 장치 및 방법
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
KR101478459B1 (ko) * 2013-09-05 2014-12-31 한국과학기술원 언어 지연 치료 시스템 및 그 시스템 제어 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
JP5863928B1 (ja) * 2014-10-29 2016-02-17 シャープ株式会社 音声調整装置
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
CN110447068A (zh) * 2017-03-24 2019-11-12 三菱电机株式会社 语音识别装置和语音识别方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN110520925B (zh) 2017-06-06 2020-12-15 谷歌有限责任公司 询问结束检测
CN109147770B (zh) 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN110189750B (zh) * 2018-02-23 2022-11-15 株式会社东芝 词语检测系统、词语检测方法以及记录介质
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
JP7601365B2 (ja) * 2020-08-28 2024-12-17 デュポン・東レ・スペシャルティ・マテリアル株式会社 硬化性シリコーン組成物、封止材、および光半導体装置
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN116230003B (zh) * 2023-03-09 2024-04-26 北京安捷智合科技有限公司 一种基于人工智能的音视频同步方法及系统

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5797599A (en) * 1980-12-10 1982-06-17 Matsushita Electric Industrial Co Ltd System of detecting final end of each voice section
JPS60499A (ja) * 1983-06-17 1985-01-05 カシオ計算機株式会社 音声認識装置におけるしきい値設定方式
JPH07104675B2 (ja) * 1986-06-12 1995-11-13 沖電気工業株式会社 音声認識方法
JP2625682B2 (ja) 1986-09-19 1997-07-02 松下電器産業株式会社 音声区間の始端検出装置
JP2705061B2 (ja) * 1987-03-13 1998-01-26 松下電器産業株式会社 音声認識方法
US5220609A (en) * 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US4984275A (en) * 1987-03-13 1991-01-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
JP2816163B2 (ja) * 1988-01-20 1998-10-27 株式会社リコー 話者照合方式
JPH0792989A (ja) 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3748964B2 (ja) 1996-11-29 2006-02-22 三洋電機株式会社 空気調和機
WO1998049673A1 (en) * 1997-04-30 1998-11-05 Nippon Hoso Kyokai Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6988065B1 (en) * 1999-08-23 2006-01-17 Matsushita Electric Industrial Co., Ltd. Voice encoder and voice encoding method
US6405164B1 (en) * 1999-12-30 2002-06-11 Engineering Consortium, Inc. Audio compression circuit and method
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
CN1763844B (zh) * 2004-10-18 2010-05-05 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
JP2019028405A (ja) * 2017-08-03 2019-02-21 ヤフー株式会社 検出装置、検出方法、および検出プログラム
US11670290B2 (en) 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Also Published As

Publication number Publication date
WO2008114448A1 (ja) 2008-09-25
CN101636784A (zh) 2010-01-27
JPWO2008114448A1 (ja) 2010-07-01
US20100004932A1 (en) 2010-01-07
CN101636784B (zh) 2011-12-28
US7991614B2 (en) 2011-08-02

Similar Documents

Publication Publication Date Title
JP4836290B2 (ja) 音声認識システム、音声認識プログラムおよび音声認識方法
US8244522B2 (en) Language understanding device
EP2216775B1 (en) Speaker recognition
CN1185621C (zh) 语音识别装置与语音识别方法
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5156043B2 (ja) 音声判別装置
JP2013231797A (ja) 音声認識装置、音声認識方法、及びプログラム
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
CN1950882B (zh) 语音识别系统中的语音结束检测
JP2007057844A (ja) 音声認識システムおよび音声処理システム
KR20100115093A (ko) 음성 검출 장치 및 방법
CN1343350A (zh) 用于语音识别的声调特性
US10755731B2 (en) Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JPH11184491A (ja) 音声認識装置
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JP7178890B2 (ja) 音声認識システム、及び音声認識装置
JP4749990B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110922

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110926

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4836290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees