JP4156563B2 - 単語列認識装置 - Google Patents
単語列認識装置 Download PDFInfo
- Publication number
- JP4156563B2 JP4156563B2 JP2004168777A JP2004168777A JP4156563B2 JP 4156563 B2 JP4156563 B2 JP 4156563B2 JP 2004168777 A JP2004168777 A JP 2004168777A JP 2004168777 A JP2004168777 A JP 2004168777A JP 4156563 B2 JP4156563 B2 JP 4156563B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- recognition
- vocabulary
- user
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
請求項1記載の単語列認識装置は、多段階処理手段が、単語列出力手段から出力された単語列を構成する単語の内、所定の属性を持つ単語に基づいて話題を確定し、続いて、その確定した話題に基づく語彙に限定した認識用辞書データを再構成し、その再構成した認識用辞書データに基づいて他の単語を認識するという処理を必要なだけ繰り返し実行する。
現在の話題に連関する話題に対応する語彙の一例を挙げれば、ショッピングという話題に対して、駐車場(手段)、レストラン(付随する行動)、バーゲン(よくある付帯事象)などの語彙が該当する。
まず図1は、実施形態の単語列認識装置について機能に着目して概念的に示したブロック図である。
以上は、処理の概略的な流れの説明であったので、続いて詳細内容を説明していく。但しここでは、漸進的階層探索、多段階処理、期待外時対応処理、誤認識対応処理という本発明の概念単位の順番に説明することにする。但し、説明の都合上、期待外時対応処理と誤認識対応処理については、[3.誤認識対応処理について]としてまとめ、その中で区別して説明している。
[1.漸進的階層探索について]
[1.1 概要]
漸進的階層探索は、図3のフローチャート中では、S130の選択肢を提示する処理に相当する。但し、1単語ずつ処理するために他の処理とは時間サイクルが異なるため、事前に漸進的階層探索を実行するモードに設定しておく必要がある。したがって、漸進的階層探索モードに設定されている場合に限り、図3のS130は実行されることとなる。
図4には漸進的階層探索の具体的な画面遷移例を示す。
(1)図4の最初の画面G1では、デフォルトモードにおいて東海4県の県名が表示されている状態において「愛知県」と発話した結果、愛知県にフォーカスされたことを示している。
[1.3 効果]
例えば「岡崎で食事したいなあ、インド料理がいいね」という発話が利用者からなされた場合、ワードスポッティングによる音声認識手法の出力結果は、「岡崎、食事、インド料理」という単語列になる。従来の音声認識手法では、これら3つが揃った段階で認識に対応するシステム側の処理が開示されていたが、本手法によれば、「岡崎」が入力された時点で、次に利用者に入力を期待する発話語彙を即座に提示できるため、利用者はとまどうことなく発話できるようになる。これによって、誤認識の原因となる認識辞書外の語彙を利用者が発話してしまうことを未然に防止できる。
[2.多段階処理について]
[2.1 概要]
(1)現状のワードスポッティング手法では1回の処理に対する認識語彙数は100語程度であり、連続単語認識の辞書のような大規模化は困難である。一方、実用的に見た場合、車室内において発生すると想定される特定の話題(例えば「食事に行く」など)にフォーカスする際には、例えば100語程度でも対応可能である。したがって、話題を的確に認識し、誤認識の際は話題の不連続性を検出し、これらに応じてワードスポッティングの語彙を切り替えていけばよい。そこで、多段階処理を行う。
(場所) (施設名) (要求対象) (要求キーワード)
したがって、まず、何が要求であるかを把握するため、第1段階では「くいたい」という要求キーワードをスポッティングし、話題を確定する。
ユーザの発話はたいていのコンテンツ検索の場合、『場所』『施設名』『要求対象』『要求キーワード』からなるか、その並び替え、あるいは省略形で基本形が構成されると考えられる。語順が変わる場合には要求キーワードが音声信号中のどこに存在するかは不明であるが、例えば本願出願人が特願平11−20349号にて提案したような適正単語列の推定手法を用いることにより、構文的な制約に基づいて複数の候補に対して優先順序を定めることはできる。
認識辞書は図2に示す認識語彙記憶部34に記憶されている認識語彙データベースから動的に構成し得るものとする。認識語彙データベースは、システムで扱う現実の話題に対応して予め各カテゴリ毎の語彙クラスタに分割しておく(図7参照)。なお、この各カテゴリ毎の語彙クラスタはクラスタ辞書と呼ばれる。また、カテゴリには例えば下記のような種類がある。
・ナビコマンド
・スケジュール帳
・アドレス帳
・電話
(2)要求キーワード(要求KW)
(3)施設名
1)レストラン名
・料理名
・雰囲気
・値段
2)スキー場名
3)ゴルフ場名
4)デパート名
5)遊園地名
6)公園名
7)映画館名
8)温泉
(4)イベント名
(5)検索結果
(6)地名
(7)鉄道駅名
(8)基本的な対話語彙
・肯定、否定
・問い合わせ
・説明、状況通知、確認、……
これらの構成語彙にはデータベースの要素となる固有名詞のみならず、対話上の同義語(はらへった、ごはんたべたい、etc)も含まれる。この各々からここでは1回のワードスポッティングの語彙即ち、目的地をべースとしたレストラン名と関連する料理名(ここではユーザプロファイルも参照する)で100語の大半を構成する。これをもとに『中華街』や『しゅうまい』などが認識語彙としてヒットする。
辞書の基本構造は上記の階層表現に準じて定義するが、その他の意味的関係などのネットワーク関係は随時、ユーザやデータベース供給者から提供される。例えば、ユーザ発話は下記のような属性の組(対話べクトルと呼ぶ)の集まりである対話データベース(図8)の中で位置づけられる。
対話ベクトルは無数に存在しうるが、あらゆるベクトル値を取るわけではなく、人間と機械との間の実際的なコミュニケーションの単位として、意味のある有限個のまとまりにクラスタリングできる。そこには単語の意味的な分類、文法的制約、話題の連続性、物理的・常識的制約、事象の連続性などが用いられる。したがって、
(A)あるユーザ発話を構成する単語列に用いられる語彙の範囲
(B)現在の発話から次の発話に至る際の語彙の制約
は対話ベクトルが張る空間を構成する主要因となる(話題、時間・位置、環境・状況、状態・要求)に大きく影響される。
(1)クラスタ辞書間の関係
(2)単語間の関係
(3)話題間の関係
(4)文脈の連続性
(5)ユーザの特性や状況
(6)アプリケーション間
以上の関係に基づいてある単語W1から別の単語W2が活性化され、これを次のユーザ発話に対する認識辞書の語彙に加える。さらに、認識結果に付随する尤度値LFKを高めるように音声認識モジュールのパラメータを調整する。ここで、(1)クラスタ辞書間の関係、(2)単語間の関係、(3)話題間の関係、(4)文脈の連続性、(5)ユーザの特性や状況に関して補足説明する。
基本的には、上述した[2.3]辞書の構成で述べた関係に準ずる。
(例)施設→スキー場→おんたけスキー場
[2.4.2 単語間の意味的関係]
[2.4.2.1 包含関係]
(例)中華料理→シュウマイ、ラーメン、ギョーザ、……
(例)スポーツ→テニス、スキー、スイミング、ジョギング、……
[2.4.2.2 連想関係]
(1)同一分類のオブジェクトを連想する場合
(例)うどん→麺類+ラーメン
(2)シーンの構成要素を連想する場合
(例)ゲレンデ→スキー→リフト、スノーボード、ゴーグル、……
(例)ゴルフ→ゴルフ場→ホール、キャデイ、フェアウェイ、クラブ……
(例)海辺→海水浴→水着、ビーチパラソル、青い空、白い雲、……
(3)シーンに関連する興味の対象を連想する場合
(例)スキー→ゲレンデ、雪質、リフト……
(例)ゴルフ→天気、経路、費用、スコア、……
(4)季節から代表的なシーンを連想する場合
(例)夏→プール、海水浴、かき氷、セミ、クーラー、……
(5)要求キーワード間に基づく連想
(例)はらへった→レストラン
[2.4.3 話題間の関係]
現在の話題に連関した話題のキーワードを活性化することにより、認識語彙を設定することができる。その連関のカテゴリは手段、付随する行動、よくある付帯事象、などがある。
→駐車場(手段)、レストラン(付随する行動)、バーゲン(付帯事象)……
[2.4.4 文脈の連続性]
[2.4.4.1 話題の連続性]
通常の自然な対話に見られるように、ある話題(たとえばショッピングなど)で閉じた認識語彙の範囲で対話が継続することが考えられる。このような話題の連続性という制約のもとで認識語彙を設定することができる。
車室内に代表される対話環境では、ある発話内容(ユーザもしくはエージェントによる)は、{呼びかけ、申告、通知、教示、解説、指示、依頼、警告、督促、問い合わせ}のいずれかに分類できると考えることができる。一方、この発話に対する応答は、{応答、確認、保留、判断、回答、その他応答}に分類できる。この発話と応答の組み合わせを発話対、あるいは対話ユニットと呼ぶ。この対話ユニットに基づいて話題の内容によらず、文脈の論理的な連続性を定義することができる。図9中に「○」で示した部分は対話ユニットとして成立する発話−応答の組み合わせを示す。この対話ユニットをもとにしてエージェントは次のユーザ発話に含まれる認識語彙を予想して設定することができる。
(1)呼びかけ
一般的な意味での呼びかけや挨拶などがこれに含まれる。
呼びかけ:「おい、XYZ。」
返事 :『はい、何ですか。』
(例)
呼びかけ:『おはようございます、今日はいい天気ですね。』
返事 :「ああ、おはよう。」
(2)申告
(例)
申告:「今日は家族とドライブ。」
確認:『御家族とドライブですね。』
(3)通知
(例)
通知 :『およそlkm先、渋滞です。』
無応答:「」、又は
確認 :「わかった。」
(例)
通知:『私の名前はXYZです。』
確認:「OK。」、「よろしく。」
(4)教示
(例)
教示:「今、雨が降ってきた。」
確認:『“現在、雨が降っている”というメッセージを確認しました。』
(5)解説
(例)
解説 :『操作方法がわからないときはへルプといってください。』
無応答:「」
(6)指示
(例)
指示:『ユーザパスワードをしゃべってください。』
確認:「わかった。 xxxxx」
(7)依頼
(例)
依頼:『そろそろガソリンが少なくなってきました。次の交差点のガソリン
スタンドで給油していただけませんか?』
保留:「いや、あとにしよう。」
(8)警告
(例)
警告:『10km先、○○トンネルで事故発生。次のインターで降りてくだ
さい。』
判断:「わかった、そうしよう。」
(9)督促
(例)
督促:『ユーザ名がまだ登録されていません。すぐに登録してください。』
確認:「わかった。」
(10)問い合わせ
問い合わせには次の4種類がある。
(例):『御出にならないので電話接続を中止します。よろしいですか?』
2)選択要請
(例)問い合わせ:『Aですか? Bですか?』
回答 :「Aです。」
3)問い合わせ
場所、時間、情報など特定データの問い合わせをするユニットである。
(例)問い合わせ:『これからどちらへいかれますか?』
4)話題の確認
文脈から外れた突然の話題遷移が発生したことをユーザに確認する。
:「12時に岡崎にいく。」「ねむい。」
問い合わせ:『”ねむい”と聞こえましたけど、岡崎の話はどうなりま
したか?』
[2.4・4・3 対話ユニット間の接続性]
上記の対話ユニット内の呼応関係のみならず、対話ユニット間の接続(話題の遷移や呼び出し、終了を含む)の妥当性に関する制約も認識語彙の設定において考慮することができる。
ユーザ発話に付随するユーザの環境・状況・要求・状態、ユーザプロファイルに基づいて次のユーザ発話に対応できる認識辞書を設定する。この場合、必ずしも上述の文脈の連続性が保たれるとは限らない。
例えば本願出願人が特願平10−184840号にて提案したような要求推定装置に基づくと共に、図2に示す要求・状態推定用データ記憶部36に記憶された要求・状態推定用データを参照し、ユーザの環境・状況・要求・状態、ユーザプロファイルから次の認識語彙を限定する。
不連続的に発生する予測不可能な緊急事態や警告の対象となる事態に際して、文脈の連続性を一時停止し、事態に必要な話題を割り込ませるべく認識語彙辞書を設定する。
エージェント:これからどうなさいますか?』
ユーザ :「○○駅前で買い物」
エージェント:『到着時刻は11時ごろです。駐車場はどこにしますか?』
(先行車が急停止したので急ブレーキをかけた)
ユーザ :「あー、危なかった。」
エージェント:『危なかったですね、安全運転にこころがけてください。お疲
れならば休みますか?』
(3)システムの機能移行
機能が切り替わったときにシステムが発話し、必要な対話を開始するべく認識語彙を設定する。
多段階処理の具体例を、図10,11のフローチャートを参照して説明する。
ここでは、まず使用頻度の高いローカル情報を優先するかどうかを判断して(S210)、認識処理を2つにわける。なお、分岐条件はこれ以外にも考えられ、対話戦略に依存する。
音声認識部から出力される認識語彙の尤度判定と語彙限定、ユーザからのへルプ要求、画面表示の支援に基づく入力の簡単化(スイッチ操作の併用)、不足条件の判定、サービス内容の有機的連関付けなどに基づきへルプ、選択肢の提示、初期化、問いかけを駆動する。
エージェントがユーザ発話を認識できていない状況は誤認識であり、以下のケースがある。
2)他の辞書にはあるが、現在使っている辞書にない言葉をユーザが発話
3)ユーザ以外の話者の発話内容に応答し、ユーザの意図に反してモード移行
このような状況は、エージェントの応答に対してユーザが「ちがう」、「わかってないね」、「全然だめ」といった発話をすることで検出される。この場合、下記のいずれかの対話内容をユーザの状況に応じて選択する。
(2)選択肢を出す
なお、例えば「ちがう」などの発話がユーザからK回以上繰り返されたときは初期状態
に戻る。Kは例えば5とする。
認識語に付随する尤度のしきい値処理に基づき、尤度が低い場合は音声認識の信頼度が低いため認識語彙以外の発話がなされたとして、[誤認識の可能性有り]と判定する。
ユーザ発話がエージェントの期待から外れているかどうかはそれまでの文脈に沿っているかどうか、即ちある話題の中で予想される発話かどうかで判定する。予想される発話は「2.4単語間のネットワーク」で示した単語間の関係をもとにして導出され、これに対応する語彙を認識辞書に設定する。これを便宜上ケースAと呼ぶ。それ以外の場合は、予想されない発話であり、それを構成する単語は下記のように分類できる。
(B2)認識語彙辞書に登録されているが、違う話題の単語
(B2a)現在の認識語彙範囲に含まれている単語
(B2b)現在の認識語彙範囲に含まれていない単語
このうち、(B1)と(B2b)は通常のワードスポッティングでは認識され得ないため、不用語とみなされるかあるいは信号処理的に近いとみなされる他の認識可能語彙に置き換えられて出力される。これらは後述の誤認認処理で対応する。
(1)文脈優先処理[(A)の場合]
出力された複数の認識候補(ラティス)間に尤度の差異があまり認められない(分散が小さい)とき、文脈に沿った認識候補が優先して選ばれる。
出力した認識候補が1個であり、ある一定しきい値以上の尤度を持つ場合、この話題に突然遷移したことを認める。
出力した認識候補が1個であるが、ある一定しきい値以上には満たない尤度を持つ場合、この話題に突然遷移したのかどうかを確認するため、ユーザに問い合わせる。
現在の話題とは異なる要求キーワードが認識された場合には話題が転換した可能性があるとみなす。
上記に基づき、システムはユーザに対して話題が転換したことを確認する問いかけの発話を生成する。
エージェント『□□駅前には3件のラーメン屋があります。』
ユーザ 「東京の○○さんに電話をかける」
エージェント『電話をかけますか?』
ユーザ 「うん。東京の○○さんに」
エージェント『東京の○○さんに電話をかけます』
[3.2.3 話題転換の発話]
話題が転換したことを宣言する発話を生成する(上記例参照)。
それまでの話題T(n)(n:発話対の通し番号)が継続していると仮定し、次回のエージェント発話もその話題に基づいて生成する。従って、今回のユーザ発話の解釈結果U(n)が話題T(n)に関連しない語彙であっても、それに即応せずに、話題T(n)からの文脈に沿って発話内容に限定処理を加える。
エージェント『○○駅前には3件のラーメン屋があります。』
・・・・・・・・・・・・・・・・・・・{T(n)=食事}
ユーザ 「あっ、電話かけなきゃ。」
・・・・・・・・・・・・・・・・・・・{「電話」が認識され
ればTnew=電話だが話題を更新しない}
エージェント『どのラーメン屋にしますか?』
・・・・・・・・・・・・・・{T(n+1) =T(n)=食事}
ユーザ 「えーと、□□」
エージェント『□□へのルートを表示します。』
なお、上述した話題転換と、ここで説明した文脈優先は相反する応答だが、例えば、その条件判断はU(n)の尤度情報LFKやU(n)で示される話題Tnew の連続出現回数Ntnewなどを用いる。即ち、Ntnew>2且つLFK>0.4ならば話題はT(n-1) からT(n)=Tnew に移行し、それ以外の場合はU(n)から得られたTnew は棄却し、T(n)=T(n-1) とする、といった条件分岐を用いる。
起こりやすい誤認識の例、代表的な要求キーワード、などの選択肢を表示したり音声で発話する。
・電話をかける場合は、「でんわをかける」で電話番号画面を表示し、相手先の電話番号を入力してください。登録されている相手先(例えば○○さん)の場合は「でんわをかける、○○」でも結構です。
・かっこ内の同義語でもう一度発話してください。
・目的地は市町村をつけて発話した方が正確です。(例 かりや→かりやし)
[3.5 選択肢の提示]
選択肢提示は既に説明した漸進的階層探索に相当する。
認識結果(認識語、尤度)をもとに誤認識が検出されなかった場合は通常の発話戦略が適用される。この通常の発話戦略の内容は本発明の主眼とするところではないので、ここでは詳細については言及しない。
[3.7.1 環境・状況への適応]
時間(季節、日時、時刻[朝昼夜])、空間(自車位置、地域[都道府県、市町村])、環境(道路環境[高速、一般道、トンネルなど]、道路状態[路面凍結、滑り易い、他]、交通環境[高速道路、速度制限など]、地理環境[海が近い、山の中、街中、駅前、など])、車外状況(天候、交通状況[渋滞など]、車外周辺状況[追い越し車あり、など])、車内状況(運転状態、乗車状態、移動目的、話題)などに応じて、話題の選定や対話管理、適切なメッセージの伝達などを行うことができる。なお、これらは表示系にも反映される。
(1)ドライブスケジュール
ユーザの設定した目的地や経由地に基づき、ドライブスケジュールを作成し、各イベントの意味(食事、ショッピング、観光など)と場所・時間に基づいて、話題の決定や対話管理、さらにはドライブスケジュールの空白部分について提案することができる。
PDAやPC用のインタフェースを介してPDAやPC上の個人スケジュールデータをダウンロードし、それに基づいて話題の決定や対話管理、さらには個人スケジュールの空白部分について提案することができる。
ユーザが「どういう意味」、「よくわからん」といった発話をしたとき、ユーザはエージェント応答の意味を理解できていないと判断し、次のいずれかの処理を行う。
(2)メニュー選択
(3)音声メニュー
[3.7.4 エージェントがユーザ要求に対応できないとき]
ユーザ発話を正常に認識できても、以下のような場合ではエージェントがユーザの要求に対応できないときがある。これらについてはその状況を音声メッセージで伝達する。
2)該当する機器がない、故障中あるいは準備されていない(電話が接続されていない、など)
3)操作対象となる機器の動作範囲を超えた制御命令が出されたとき
[3.8 音声メニューモード]
例えば本願出願人が特願平10−177667号にて提案したような機器操作モードに移行する。各操作モードにおいて必要なコマンドは必ず優先的に認識語彙辞書に加え、認識の尤度を高める。
問い返しは下記のようにいくつかの場合が考えられ、問い返す場合にはその内容に沿った語彙に限定した認識辞書が設定される。
エージェント『□□駅前には3件のラーメン屋があります。』
ユーザ 「東京の○○さんに電話をかける」
エージェント『電話をかけますか?』
(2)エージェントが話題を間違えて認識し、ちがう話題のもとで不足条件を問い合わせた場合、ユーザからの問い返し又は否定的発言(「ちがうよ」や「そうじゃない」など)により、正しい話題が何であるかを問い返す。これにより、それ以後の誤認識に歯止めをかける。
ユーザ 「東京の○○さんに電話をかける。」
エージェント『□□駅付近のレストランを表示します。どれにしますか?』
ユーザ 「そうじやない、電話をかける」
エージェント『電話ですか、食事ですか?』
ユーザ 「でんわ」
これは、すでにレストラン検索依頼が出ており、その検索をしている最中にユーザが電話をかけるという割り込み要求を行った場合である。2つの用件(電話か食事か)の優先順位を問い返した例と言える。
ユーザ 「東京の○○さんに電話をかける。」
エージェント『東京の○○さんに電話をかけるんですね。それは○○◇◇さん
ですか、それとも○○△△さんですか?』
ユーザ 「○○◇◇さん」
エージェント『○○◇◇さんに電話をかけます』
(例2)
ユーザ 「東京の○○さんに電話をかける」
エージェント『□□駅付近のレストランを表示します。どれにしますか?」
ユーザ 「あとにして。先に電話をかける。」
エージェント『東京の○○◇◇さんに電話をかけます.よろしいですね。」
ユーザ 「うん、そうして」
ここで説明した(例1)の場合は、エージェントが正しく認識し、電話をかけるという問題解決に向けて不足している条件を問い合わせた例である。
ユーザからの問い返しがK回(K>N)を超える場合、初期状態あるいはトップのメニュー画面に戻る。
ら3つが揃った段階で認識に対応するシステム側の処理が開示されているのに対し、本手法によれば、「岡崎」が入力された時点で、次に利用者に入力を期待する発話語彙を即座に提示できる。そのため、利用者はとまどうことなく発話できるようになる。これによって、誤認識の原因となる認識辞書外の語彙を利用者が発話してしまうことを未然に防止できる。
ところで、本実施形態においては、例えば自動車に搭載されて、ユーザとしての車両の乗員(主に、運転者)と音声にて対話しながら、その車両に搭載された様々な機器を制御するシステムとして説明したが、図1の概念図に示すように、その他の信号系認識部にて認識した結果としての単語列候補に対しても同様の処理が可能である。例えば、認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であってもよい。手書き文字に関してもやはり誤認識が発生し易いため、適正な単語列を推定することは有効性が高い。また、音声認識や文字認識のように、認識装置に入力される時点で直接的に単語列の内容となっているものに限らず、画像認識装置であってもよい。即ち、認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するような認識装置であれば実現できる。具体的には、例えば認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するようなものである。手話パターンについても、微妙な指使いによって表す単語が異なるため、手話をする者の個人差などによって、やはり誤認識は発生する。したがって、やはりこの場合も、誤認識が含まれる可能性の高い手話パターンの認識装置においても、上述した各種処理を実行することで、誤認識を防止したり、あるいは誤認識が発生した後の適切な対処を行うことができ、誤認識に起因して利用者が途方に暮れてしまう、といった不都合を防止することができる。
例えば、図3の処理概要を示すフローチャートにおいては、多段階処理(S30)が先に行われ、その後の誤認識対応処理の中で漸進的階層探索(S130が相当する)が実行されているが、そのような順番には限定されない。
Claims (3)
- 認識対象の動作内容が反映された情報を入力し、認識用辞書データと比較した一致度合いの高い単語列の候補を出力する単語列出力手段と、
その単語列出力手段から出力された単語列を構成する単語の内、所定の属性を持つ単語に基づいて話題を確定し、続いて、その確定した話題に基づく語彙に限定した前記認識用辞書データを再構成し、その再構成した認識用辞書データに基づいて他の単語を認識するという処理を必要なだけ繰り返し実行する多段階処理手段と
を備え、
前記多段階処理手段が最初に前記話題を確定するために扱う単語属性は、要求内容を示す属性であり、
さらに、認識対象の要求を推定する要求推定手段を備え、
前記話題に基づく語彙に限定した認識用辞書データを再構成する際には、
話題、時間・位置、ユーザの置かれた環境・状況、ユーザの状態・要求、ユーザ発話・エージェント発話・制御出力という属性の組で構成される対話ベクトルおよびその集まりである対話データベースの中でユーザ発話を位置づけ、
そのユーザ発話に関して、現在の話題に連関する話題に対応する語彙、文脈の連続性という観点から定まる語彙、前記要求推定手段にて推定した要求という観点から定まる語彙についても考慮すると共に、不連続的に発生する予測不可能な緊急事態や警告対象となる事態に対応する語彙として予め設定した語彙を含めることを特徴とする単語列認識装置。 - 認識対象の動作内容が反映された情報を入力し、認識用辞書データと比較した一致度合いの高い単語列の候補を出力する単語列出力手段と、
その単語列出力手段から出力された単語列を構成する単語の内、所定の属性を持つ単語に基づいて話題を確定し、続いて、その確定した話題に基づく語彙に限定した前記認識用辞書データを再構成し、その再構成した認識用辞書データに基づいて他の単語を認識するという処理を必要なだけ繰り返し実行する多段階処理手段と
を備え、
前記話題を確定するために扱う所定の属性を持つ単語が複数存在する場合は、構文位置に基づいていずれか1の単語を選択し、
さらに、認識対象の要求を推定する要求推定手段を備え、
前記話題に基づく語彙に限定した認識用辞書データを再構成する際には、
話題、時間・位置、ユーザの置かれた環境・状況、ユーザの状態・要求、ユーザ発話・エージェント発話・制御出力という属性の組で構成される対話ベクトルおよびその集まりである対話データベースの中でユーザ発話を位置づけ、
そのユーザ発話に関して、現在の話題に連関する話題に対応する語彙、文脈の連続性という観点から定まる語彙、前記要求推定手段にて推定した要求という観点から定まる語彙についても考慮すると共に、不連続的に発生する予測不可能な緊急事態や警告対象となる事態に対応する語彙として予め設定した語彙を含めることを特徴とする単語列認識装置。 - 認識対象の動作内容が反映された情報を入力し、認識用辞書データと比較した一致度合いの高い単語列の候補を出力する単語列出力手段と、
その単語列出力手段から出力された単語列を構成する単語の内、所定の属性を持つ単語に基づいて話題を確定し、続いて、その確定した話題に基づく語彙に限定した前記認識用辞書データを再構成し、その再構成した認識用辞書データに基づいて他の単語を認識するという処理を必要なだけ繰り返し実行する多段階処理手段と
を備え、
前記話題を確定するために扱う所定の属性を持つ単語は、所定レベル以上の尤度を備えている場合にのみ採用し、
さらに、認識対象の要求を推定する要求推定手段を備え、
前記話題に基づく語彙に限定した認識用辞書データを再構成する際には、
話題、時間・位置、ユーザの置かれた環境・状況、ユーザの状態・要求、ユーザ発話・エージェント発話・制御出力という属性の組で構成される対話ベクトルおよびその集まりである対話データベースの中でユーザ発話を位置づけ、
そのユーザ発話に関して、現在の話題に連関する話題に対応する語彙、文脈の連続性という観点から定まる語彙、前記要求推定手段にて推定した要求という観点から定まる語彙についても考慮すると共に、不連続的に発生する予測不可能な緊急事態や警告対象となる事態に対応する語彙として予め設定した語彙を含めることを特徴とする単語列認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004168777A JP4156563B2 (ja) | 2004-06-07 | 2004-06-07 | 単語列認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004168777A JP4156563B2 (ja) | 2004-06-07 | 2004-06-07 | 単語列認識装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11210819A Division JP2001034292A (ja) | 1999-01-28 | 1999-07-26 | 単語列認識装置 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006197990A Division JP4353212B2 (ja) | 2006-07-20 | 2006-07-20 | 単語列認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004334228A JP2004334228A (ja) | 2004-11-25 |
| JP4156563B2 true JP4156563B2 (ja) | 2008-09-24 |
Family
ID=33509297
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004168777A Expired - Lifetime JP4156563B2 (ja) | 2004-06-07 | 2004-06-07 | 単語列認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4156563B2 (ja) |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
| US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
| US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
| US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
| JP5576113B2 (ja) * | 2006-04-03 | 2014-08-20 | ヴォコレクト・インコーポレーテッド | 音声認識システムにモデルを適合させるための方法およびシステム |
| JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
| JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
| JP5434731B2 (ja) * | 2010-03-24 | 2014-03-05 | トヨタ自動車株式会社 | 音声認識システム及び自動検索システム |
| US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
| US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
| JP6280342B2 (ja) * | 2013-10-22 | 2018-02-14 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
| JP6176137B2 (ja) * | 2014-02-06 | 2017-08-09 | トヨタ自動車株式会社 | 音声対話装置、音声対話システム及びプログラム |
| CN103955534B (zh) | 2014-05-13 | 2017-08-04 | 百度在线网络技术(北京)有限公司 | 地图查询方法及装置 |
| JP6284462B2 (ja) * | 2014-09-22 | 2018-02-28 | 株式会社日立製作所 | 音声認識方法、及び音声認識装置 |
| US10504509B2 (en) * | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
| JP6664466B2 (ja) * | 2016-03-14 | 2020-03-13 | シャープ株式会社 | 処理実行装置、処理実行装置の制御方法、および制御プログラム |
| US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
| US10795641B2 (en) * | 2016-08-16 | 2020-10-06 | Sony Corporation | Information processing device and information processing method |
| JP6812843B2 (ja) | 2017-02-23 | 2021-01-13 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
| JP7151181B2 (ja) * | 2018-05-31 | 2022-10-12 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
| JP2020046163A (ja) * | 2018-09-21 | 2020-03-26 | リンナイ株式会社 | 加熱調理システム |
-
2004
- 2004-06-07 JP JP2004168777A patent/JP4156563B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004334228A (ja) | 2004-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4353212B2 (ja) | 単語列認識装置 | |
| JP4156563B2 (ja) | 単語列認識装置 | |
| US6556970B1 (en) | Apparatus for determining appropriate series of words carrying information to be recognized | |
| JP2001034292A (ja) | 単語列認識装置 | |
| JP4292646B2 (ja) | ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体 | |
| KR102562227B1 (ko) | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 | |
| US10347248B2 (en) | System and method for providing in-vehicle services via a natural language voice user interface | |
| US7826945B2 (en) | Automobile speech-recognition interface | |
| US10937424B2 (en) | Dialogue system and vehicle using the same | |
| KR102795892B1 (ko) | 대화 시스템 및 대화 처리 방법 | |
| US20010053956A1 (en) | Navigation system | |
| US20080235017A1 (en) | Voice interaction device, voice interaction method, and voice interaction program | |
| JP2006195637A (ja) | 車両用音声対話システム | |
| CN108346430A (zh) | 对话系统、具有对话系统的车辆以及对话处理方法 | |
| KR20190041569A (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 서비스 처리 방법 | |
| US11004450B2 (en) | Dialogue system and dialogue processing method | |
| KR102914685B1 (ko) | 대화 시스템 및 대화 처리 방법 | |
| JP4156080B2 (ja) | 要求推定装置 | |
| JP3890747B2 (ja) | 制御装置 | |
| CN110562260B (zh) | 对话系统和对话处理方法 | |
| JP5181533B2 (ja) | 音声対話装置 | |
| Minker et al. | The SENECA spoken language dialogue system | |
| JP2008089625A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| KR20250001013A (ko) | 음성 인식 기반 검색 결과 제공 방법 및 이를 위한 전자 장치 | |
| WO2021166504A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060523 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060720 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060912 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061108 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20061130 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20061222 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080709 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110718 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4156563 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120718 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120718 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130718 Year of fee payment: 5 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |