JP5530729B2 - 音声理解装置 - Google Patents
音声理解装置 Download PDFInfo
- Publication number
- JP5530729B2 JP5530729B2 JP2010011175A JP2010011175A JP5530729B2 JP 5530729 B2 JP5530729 B2 JP 5530729B2 JP 2010011175 A JP2010011175 A JP 2010011175A JP 2010011175 A JP2010011175 A JP 2010011175A JP 5530729 B2 JP5530729 B2 JP 5530729B2
- Authority
- JP
- Japan
- Prior art keywords
- understanding
- speech
- language
- unit
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
音声理解方式を複数用いると、理解結果が複数得られるため、それら複数の理解結果から最終的な理解結果を求める必要がある。従来は、ROVER(Recognizer Output Voting Error Reduction)法のように多数決が用いられることが多かった(例えば、非特許文献1参照)。
これにより、複数の言語モデルと、複数の言語理解モデルとの全ての組み合わせを用いて発話を音声理解した結果を得、この得られた音声理解結果それぞれについて、音声理解結果の特徴を表す値から、音声理解結果の確からしさを数値として比較可能な発話単位信頼度を算出する。そして、算出した発話単位信頼度を比較し、複数の言語モデルと複数の言語モデルの全ての組み合わせを用いて音声理解した中から最も正解である確率が高い音声理解結果を選択する。
これにより、異なる言語モデルや異なる言語理解モデルを用いた場合でも共通して得ることができる特徴量に基づいて発話単位信頼度を算出する。
これにより、学習データについて得られた特徴を表す値及び言語理解結果に基づいて、発話単位信頼度の算出に用いる各特徴の重みを、言語モデルと言語理解モデルの組み合わせに応じて決定する。
これにより、言語モデルと言語理解モデルの組み合わせ毎に、発話単位信頼度の算出に用いる特徴を独立変数とする。
これにより、言語モデルと言語理解モデルの組み合わせに応じて、発話単位信頼度の算出に寄与しない特徴を用いることなく、発話単位信頼度を算出する。
これにより、発話単位信頼度を、言語モデル及び言語理解モデルの組み合わせ毎に特徴を重み付けしたロジスティック回帰式により算出し、異なる言語モデル及び言語理解モデルの組み合わせ間で定量的に比較可能な発話単位信頼度を得る。
また、請求項2の発明によれば、異なる言語モデル、異なる言語理解モデルを用いた場合であっても、共通して取得することができる特徴を用いて発話単位信頼度を算出するため、任意の言語モデルや言語理解モデルを実装することができる。
また、請求項3の発明によれば、言語モデルと言語理解モデルの組み合わせ毎に、発話単位信頼度を精度よく算出するための各特徴の重みを決めることができる。
また、請求項4の発明によれば、多重共線性を除去し、発話単位信頼度を精度よく算出することができる。
また、請求項5の発明によれば、発話単位信頼度を、貢献度が低い特徴については用いずに算出することができるため、計算処理の負荷を低くすることができる。
また、請求項6の発明によれば、発話単位信頼度をロジスティック回帰式により算出するため、言語モデルと言語理解モデルのあらゆる組み合わせ間において定量的に比較が可能な発話単位信頼度を精度よく算出することができる。
本発明の一実施形態による音声理解装置は、例えば音声対話システムに組み込まれ、複数の言語モデルと複数の言語理解モデルを用いることで、高精度な音声理解を行う。なお、音声認識と言語理解を行うことを音声理解とよび、言語モデルを用いて音声認識した結果を、言語理解モデルを用いて言語理解した結果を音声理解結果とよぶ。ユーザの発話によって適した言語モデルと言語理解モデルの組み合わせは異なることから、単一の音声理解方式で様々な発話に対して高精度な音声理解を実現することは難しい。そこで本実施形態では、まず、複数の言語モデルと言語理解モデルを用いて複数の音声理解結果を得ることで、音声理解結果の候補を得る。次に、得られた複数の音声理解結果に対して、ロジスティック回帰に基づき発話単位信頼度を付与し、その発話単位信頼度が最も高い音声理解結果を選択する。
(1)複数の言語モデルと言語理解モデルの使用:Multiple Language models and Multiple Understanding models(MLMU)
(2)音声理解結果の発話単位の信頼度に基づく選択:Confidence-Measure-Based Selection(CMBS)
以下、2.では、関連研究を詳述し、3.では、本実施形態の音声理解装置において複数出力された音声理解結果から適切な結果を選択する手法について述べる。4.では、音声理解装置の実施例において実装した言語モデルと言語理解モデルについて述べ、5.で評価実験の結果を述べ、6.で本実施形態のまとめを述べる。
これまでも、複数の言語モデルや言語理解モデルを用いた手法が開発されてきた。本実施形態と、従来手法との関係を以下の表1に記す。
文献2(手法2):H. Schwenk and J.-L. Gauvain, "Combining Multiple Speech Recognizers using Voting and Language Model Information," Proc. ICSLP, pp.915-918, 2000.
文献3(手法3):S. Hahn, P. Lehnen. and H. Ney, "System Combination for Spoken Language Understanding," Proc.Interspeech, pp.236-239, 2008.
文献4(手法4):安田宜仁、堂坂浩二、相川清明,”2つの認識文法を用いた主導権混合型対話制御”,情報処理学会研究報告,pp.127-132,2002-SLP-40-22,2002.
文献6:K. Komatani and Y. Fukubayashi and T. Ogata and H. G. Okuno, "Introduning Utterance Verification in Spoken Dialogue System to Improve Dynamic Help Generation for Novice Users, "Proc. 8th SIG-dial Workshop on Discourse and Dialogue, pp.202-205, 2007.
ここでは、まず、本発明の一実施形態による音声理解装置の構成について説明する。図1は、本発明の一実施形態による音声理解装置1の機能ブロック図を示す。
同図において、音声理解装置1は、入力部10、音声認識部20、言語理解部30、統合部40、及び、学習部50を備えて構成される。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
簡単のため、4つの特徴A,B,C,Dから相関が高い特徴を取り除く場合を例に説明する。
まず、学習部50は、特徴A,B,C,Dのすべての組み合わせの相関係数を算出する。また、学習部50は、すべての特徴と信頼度の正解値(0または1)との相関係数も算出しておく。これによって、学習部50は、特徴A,B,C,D及び信頼度の相関係数を要素とする下記の行列を作成する。なお、相関関数が高いと判断する閾値0.9以上の相関係数には「#」を付与している。
上記においては4つの特徴の場合の例を述べたが、特徴が5つ以上であっても、上記と同様に相関係数の行列から相関が高い特徴を検出できる。このように、学習部50は、特徴Fi1,Fi2,…,Fimと信頼度の正解値との相関係数から上記の同様の行列を作成して、所定の閾値よりも相関が高い二つの特徴を検出し、その二つの特徴のうち、信頼度の正解値との相関係数が最も高い特徴を残し、残りを削除していく。
なお、上記の相関関数の閾値は例であり、ユーザによって設定することが可能である。
[4.1 実装した言語モデルと言語理解モデル]
本実施形態の言語理解装置1が実現するMLMUの実施例として、文献8に記載のレンタカー予約システムにおいても用いられている一般的な2種類の言語モデルと、3種類の言語理解モデルを使用できるようにした。
(1)文法ベース言語モデル(文法モデル)
(2)ドメイン依存統計言語モデル(N−gramモデル)
また、音声認識結果を検証するための言語モデル、すなわち、発話検証用音声認識処理部26において実現する言語モデルとしてドメイン非依存大語彙統計言語モデルを用いた。ドメイン非依存大語彙統計言語モデルは、連続音声認識コンソーシアム配布の、Web文章から学習した単語N−gramモデルを使用した。語彙サイズは60,250である(文献9参照)。
(1)Finite-State Transducer(FST)
(2)Weighted FST(WFST)
(3)Keyphrase-Extractor(Extractor)
文献11:L. Hetherington, “The MIT Finite-State Transducer Toolkit for Speech and Language Processing,” Proc. ICSLP, pp.2609-2612, 2004.
具体的には、以下のように信頼度を計算する。つまり、各コンセプトに含まれるスロットについてIDF(inverse document frequency)を算出する。次に、各コンセプトについて、そのコンセプトに含まれるスロットのIDFの和を算出し、算出した和を正規化して信頼度とする。
ロジスティック回帰式に基づき算出した発話単位信頼度の評価を行った。正解理解結果を正しく選択するには、各理解結果に適切な発話単位信頼度が付与されている必要がある。
発話単位信頼度の評価実験に用いる対話データは、被験者33名に簡単なレンタカーの予約タスクを課し、文献8に記載のレンタカー予約システムと対話をしてもらうことで収集した。結果、4,986発話を収集した。収集発話のうち、レンタカー予約システムが検出した発話区間と、人手で付与した発話区間とが一致した4,513発話を実験に用いた。これは本実施形態の対象でないVAD誤りや、タスクに関係のない発話を除くためである。4,513発話のうち16名分2,193発話を学習データとし、17名分2,320発話を評価データとした。学習データを用いて、特徴選択部50が相関の高い特徴の除去と特徴選択を行った結果、表3に記した16個の特徴量から、選択された特徴量を表5に示す。
本実施形態の音声理解装置1の実施例によって得られた音声理解結果の評価を行った。評価実験には上述の4.2において述べた4,513発話を用いる。学習データ2,193発話を用いて、学習部50により特徴選択とロジスティック回帰式の係数のフィッティングを行い、評価データ2,320発話に対して、音声認識処理部24−1〜24−N及び言語理解処理部32−1〜32−Mの組み合わせによる音声理解結果に対する発話単位信頼度の付与と、その信頼度に基づく選択を行った。本実施形態では音声理解結果の評価尺度には以下の二つを用いる。
(1)発話完全理解精度
(2)コンセプト理解精度
=1−(誤りコンセプト数/全発話に含まれるコンセプト数) …(4)
本実施形態と、単一の言語モデル・言語理解モデル使用時の発話完全理解精度を表8に、コンセプト理解精度を表9に示す。表9において、Sub、Del、Insはそれぞれ、置換誤り率、削除誤り率、挿入誤り率を表す。
一方、本実施例の音声理解装置1による発話完全理解精度は86.8%となった。これは、単一の言語モデル・言語理解モデルを使用したいずれの音声理解方式より高精度である。これは複数の音声理解方式の結果から、本実施形態による選択手法により、適切に正解理解結果を選択できることを示している。
本実施形態と、言語モデル・言語理解モデルをいずれか片方だけを複数用いた音声理解方式との比較を行う。それぞれの方式での発話完全理解精度を表10に、コンセプト理解精度を表11に示す。
複数の理解結果を一つの音声理解結果に統合する上で、従来のROVER法と、本実施形態の言語理解装置1により実現したCMBSとを比較する。ROVER法は、コンセプト単位の重み付き多数決であり、以下の二つの手順から成る。
(2)対応付けられたコンセプトの中に、競合するコンセプトがある場合、スコアに基づき取捨する。アライメント位置iにおけるコンセプトcpのスコアは以下の式(5)に基づき算出する。
本実施形態では、音声理解の高精度化を目的とし、複数の言語モデルと複数の言語理解モデルを用いた音声理解装置について述べた。評価実験では、言語モデル・言語理解モデルのいずれか片方を複数用いた方式や、ROVER法を用いた方式と比較して、本実施形態によるコンセプト理解精度の向上を確認した。
(1)言語モデルと言語理解モデルを両方複数用いることの有効性を示した。これまで、言語モデル・言語理解モデルのいずれか片方を複数用いた研究はあったが、どちらも複数用いるものはなかった。本実施形態では、言語モデルと言語理解モデルを両方複数用いることで、言語モデルまたは言語理解モデルをいずれか複数用いた時より、高精度な音声理解が実現できることを示した。
Claims (6)
- N個(Nは2以上の整数)の言語モデルそれぞれを使用して発話の音声認識を行ない、前記音声認識により得られたN個の音声認識結果を出力する音声認識部と、
M個(Mは2以上の整数)の言語理解モデルそれぞれを使用して、前記音声認識部から出力された前記N個の音声認識結果それぞれの言語理解を行ない、前記言語理解により得られたN×M個の音声理解結果を出力する言語理解部と、
前記言語理解部から出力された前記N×M個の音声理解結果であるコンセプトの集合それぞれについて、前記音声理解結果の確からしさを数値化した発話単位信頼度を、前記音声理解結果の特徴を表す値に基づいて算出し、算出された前記発話単位信頼度が最も高い前記音声理解結果を選択する統合部と、
を備えることを特徴とする音声理解装置。 - 前記音声理解結果の特徴を表す値は、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声理解結果に含まれるコンセプトの数、前記コンセプトの信頼度、音声理解結果が得られたか否か、及び、前記音声理解結果が肯定発話か否定発話であるかに基づいて得られる値のうち一以上であることを特徴とする請求項1に記載の音声理解装置。
- 前記N個の言語モデル及び前記M個の言語理解モデルの組み合わせ毎に、既知の発話から得られた前記音声理解結果の前記特徴を表す値と、前記音声理解結果が正解であるか否かを表す値とに基づいて、尤度が最大となるように前記特徴を表す値の重みを決定する学習部をさらに備える、
ことを特徴とする請求項1または請求項2に記載の音声理解装置。 - 前記学習部は、前記N個の言語モデル及び前記M個の言語理解モデルの組み合わせ毎に、決定した前記特徴の重みに基づいて他の前記特徴と相関が高い前記特徴を選択し、選択した前記特徴のうち1つを前記発話単位信頼度の算出に用いる、
ことを特徴とする請求項3に記載の音声理解装置。 - 前記学習部は、前記N個の言語モデル及び前記M個の言語理解モデルの組み合わせ毎に、前記発話単位信頼度の算出において所定より影響の小さい前記特徴を選択し、選択した前記特徴を前記発話単位信頼度の算出に用いる前記特徴から除外する、
ことを特徴とする請求項3または請求項4に記載の音声理解装置。 - 前記学習部は、前記N個の言語モデル及び前記M個の言語理解モデルの組み合わせ毎に、前記特徴を表す値を用いたロジスティック回帰式によって前記発話単位信頼度を算出する、
ことを特徴とする請求項3から請求項5のいずれか1項に記載の音声理解装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14673909P | 2009-01-23 | 2009-01-23 | |
| US61/146,739 | 2009-01-23 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010170137A JP2010170137A (ja) | 2010-08-05 |
| JP5530729B2 true JP5530729B2 (ja) | 2014-06-25 |
Family
ID=42354866
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010011175A Expired - Fee Related JP5530729B2 (ja) | 2009-01-23 | 2010-01-21 | 音声理解装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US8548808B2 (ja) |
| JP (1) | JP5530729B2 (ja) |
Families Citing this family (40)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8244522B2 (en) * | 2007-05-22 | 2012-08-14 | Honda Motor Co., Ltd. | Language understanding device |
| US8909683B1 (en) | 2009-07-17 | 2014-12-09 | Open Invention Network, Llc | Method and system for communicating with internet resources to identify and supply content for webpage construction |
| US8560311B2 (en) * | 2009-09-23 | 2013-10-15 | Robert W. Williams | System and method for isolating uncertainty between speech recognition and natural language processing |
| US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
| KR20120066530A (ko) * | 2010-12-14 | 2012-06-22 | 한국전자통신연구원 | 언어 모델 가중치 추정 방법 및 이를 위한 장치 |
| US8983038B1 (en) * | 2011-04-19 | 2015-03-17 | West Corporation | Method and apparatus of processing caller responses |
| JP6019604B2 (ja) | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
| US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
| US9431012B2 (en) * | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
| US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
| US20140046651A1 (en) * | 2012-08-13 | 2014-02-13 | Xerox Corporation | Solution for max-string problem and translation and transcription systems using same |
| JP6066471B2 (ja) * | 2012-10-12 | 2017-01-25 | 本田技研工業株式会社 | 対話システム及び対話システム向け発話の判別方法 |
| US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
| US9542947B2 (en) | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
| US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
| KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
| JP5583301B1 (ja) * | 2013-11-29 | 2014-09-03 | 三菱電機株式会社 | 音声認識装置 |
| AU2015305397A1 (en) * | 2014-08-21 | 2017-03-16 | Jobu Productions | Lexical dialect analysis system |
| WO2016190126A1 (ja) * | 2015-05-28 | 2016-12-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
| US10403271B2 (en) | 2015-06-11 | 2019-09-03 | Nice Ltd. | System and method for automatic language model selection |
| KR102601848B1 (ko) * | 2015-11-25 | 2023-11-13 | 삼성전자주식회사 | 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치 |
| CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
| JP6674706B2 (ja) * | 2016-09-14 | 2020-04-01 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
| US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
| US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
| JP6494828B1 (ja) * | 2018-03-07 | 2019-04-03 | ヤフー株式会社 | 管理装置、管理方法および管理プログラム |
| JP6910987B2 (ja) * | 2018-06-07 | 2021-07-28 | 株式会社東芝 | 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム |
| US11094326B2 (en) * | 2018-08-06 | 2021-08-17 | Cisco Technology, Inc. | Ensemble modeling of automatic speech recognition output |
| US11703939B2 (en) * | 2018-09-28 | 2023-07-18 | Shanghai Cambricon Information Technology Co., Ltd | Signal processing device and related products |
| JP7298284B2 (ja) * | 2019-05-09 | 2023-06-27 | 富士通株式会社 | 演算処理装置、演算処理プログラム、及び演算処理方法 |
| CN110265018B (zh) * | 2019-07-01 | 2022-03-04 | 成都启英泰伦科技有限公司 | 一种连续发出的重复命令词识别方法 |
| US12574627B2 (en) | 2019-10-18 | 2026-03-10 | Meta Platforms Technologies, Llc | Smart cameras enabled by assistant systems |
| US11861674B1 (en) | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
| US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
| US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
| US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
| US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
| CN115394288B (zh) * | 2022-10-28 | 2023-01-24 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及系统 |
| CN116206606B (zh) * | 2023-02-21 | 2026-01-23 | 蔚来汽车科技(安徽)有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
| CN116682422A (zh) * | 2023-05-31 | 2023-09-01 | 青岛海尔科技有限公司 | 语义理解模板的确定方法、装置、存储介质及电子装置 |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB8527913D0 (en) * | 1985-11-12 | 1985-12-18 | Pa Consulting Services | Analysing transitions in finite state machines |
| US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
| JPH09274498A (ja) * | 1996-04-04 | 1997-10-21 | Fuji Xerox Co Ltd | 音声認識装置 |
| US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
| US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
| US6961693B2 (en) * | 2000-04-03 | 2005-11-01 | Xerox Corporation | Method and apparatus for factoring ambiguous finite state transducers |
| AU2001268293A1 (en) * | 2000-06-12 | 2001-12-24 | L And H Holdings Usa, Inc. | Using utterance-level confidence estimates |
| US7277732B2 (en) * | 2000-10-13 | 2007-10-02 | Microsoft Corporation | Language input system for mobile devices |
| US6963831B1 (en) * | 2000-10-25 | 2005-11-08 | International Business Machines Corporation | Including statistical NLU models within a statistical parser |
| US7010476B2 (en) * | 2000-12-18 | 2006-03-07 | Xerox Corporation | Method and apparatus for constructing finite-state networks modeling non-concatenative processes |
| US6810146B2 (en) * | 2001-06-01 | 2004-10-26 | Eastman Kodak Company | Method and system for segmenting and identifying events in images using spoken annotations |
| US6868383B1 (en) * | 2001-07-12 | 2005-03-15 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
| JP2003228393A (ja) * | 2002-01-31 | 2003-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 |
| US7548847B2 (en) * | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
| JP4589843B2 (ja) * | 2005-08-10 | 2010-12-01 | 日本電信電話株式会社 | 対話方法、対話装置、対話プログラムおよび記録媒体 |
| US7743011B2 (en) * | 2006-12-21 | 2010-06-22 | Xerox Corporation | Using finite-state networks to store weights in a finite-state network |
| US8244522B2 (en) * | 2007-05-22 | 2012-08-14 | Honda Motor Co., Ltd. | Language understanding device |
-
2010
- 2010-01-21 JP JP2010011175A patent/JP5530729B2/ja not_active Expired - Fee Related
- 2010-01-22 US US12/691,958 patent/US8548808B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US8548808B2 (en) | 2013-10-01 |
| JP2010170137A (ja) | 2010-08-05 |
| US20100191530A1 (en) | 2010-07-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5530729B2 (ja) | 音声理解装置 | |
| JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
| Jung et al. | Data-driven user simulation for automated evaluation of spoken dialog systems | |
| US8244522B2 (en) | Language understanding device | |
| EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
| CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
| JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
| JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
| WO2017114172A1 (zh) | 一种发音词典的构建方法及装置 | |
| KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
| Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
| Kurimo et al. | Modeling under-resourced languages for speech recognition | |
| Demuynck et al. | Extracting, modelling and combining information in speech recognition | |
| CN112908359A (zh) | 语音测评方法、装置、电子设备及计算机可读介质 | |
| Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
| JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
| JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
| Pietquin et al. | Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning. | |
| Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training | |
| JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
| JPH1195795A (ja) | 音声品質評価方法および記録媒体 | |
| KR20110024624A (ko) | 외국어 발음 평가 시스템 및 방법 | |
| TW201828281A (zh) | 發音詞典的構建方法及裝置 | |
| Rúnarsdóttir | Re-scoring word lattices from automatic speech recognition system based on manual error corrections | |
| Jung et al. | An integrated dialog simulation technique for evaluating spoken dialog systems |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130719 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130806 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130912 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130920 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140421 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5530729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |
