WO2023144573A1

WO2023144573A1 - 音声認識方法及び音声認識装置

Info

Publication number: WO2023144573A1
Application number: PCT/IB2022/000040
Authority: WO
Inventors: 充伸神沼
Original assignee: Renault SAS; Nissan Motor Co Ltd
Current assignee: Renault SAS; Nissan Motor Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-03
Anticipated expiration: 2024-07-26
Also published as: EP4470842A4; US20250104711A1; JPWO2023144573A1; EP4470842A1; WO2023144573A8; JP7722475B2; CN118613865A

Abstract

車両の利用者の発話内容を取得して発話内容で言及された対象物を推定する音声認識方法では、車両に搭載された機器の制御信号又は車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し（Ｓ１）、発話内容から状態又は位置を表す表現を認識し（Ｓ３）、入力信号に基づいて対象物の候補の状態又は位置を検出し（Ｓ５）、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する（Ｓ６）。

Description

音声認識方法及び音声認識装置

　本発明は、音声認識方法及び音声認識装置に関する。

　下記特許文献１には、メータパネルの警告灯が点灯すると、その点灯している警告灯に関する警告の内容説明や対処方法が表示装置に表示される車載システムが記載されている。

特開２００６−１９３１３８号公報

　近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う入力システムが提案されている。このようなシステムでは、システムに対して利用者が入力することを意図した指示を、利用者の発話内容から推定する。
　この場合に入力システムが正確に指示を特定するためには、いくつかのキーワードを正確に発話する必要がある。しかしながら全てのシーンで利用者が正確に指示を発話することは困難である。例えば、車両の運転をしている場合のように利用者が他の作業をしながら音声入力システムを利用する場合、指示を実行するためのキーワードを想像することが困難である。
　本発明では、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上することを目的とする。

　本発明の一態様によれば、車両の利用者の発話内容を取得して発話内容で言及された対象物を推定する音声認識方法が与えられる。音声認識方法では、車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、発話内容から状態又は位置を表す表現を認識し、入力信号に基づいて前記対象物の候補の状態又は位置を検出し、発話内容から認識された状態又は位置に適合する前記対象物の候補を、発話内容で言及された対象物と推定する。

　本発明によれば、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上できる。
　本発明の目的及び利点は、特許請求の範囲に示した要素及びその組合せを用いて具現化され達成される。前述の一般的な記述及び以下の詳細な記述の両方は、単なる例示及び説明であり、特許請求の範囲のように本発明を限定するものでないと解するべきである。

実施形態の音声認識装置を備えた車両の一例の概略構成図である。音声認識装置の機能構成の一例を示すブロック図である。コマンドリストの一例の模式図である。応答リストの一例の模式図である。実施形態の音声認識方法の一例のフローチャートである。

　（構成）
　図１は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両１には、車載機器２と、車載機器コントローラ３と、車内センサ４と、外部センサ５と、ヒューマンマシンインタフェース（以下「ＨＭＩ」と表記する）６と、音声認識装置７を備える。
　車載機器２は、車両１に搭載されている各種機器である。車載機器２は、例えば、車両１の運転席のインストルメントパネルやＡピラー付近に配置された警告灯であってよい。警告灯は、車両１の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の一例である。

　また例えば、車載機器２は、例えば車両１の利用者に警報音を出力する警報装置であってもよい。警報装置は、車両の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の一例である。
　また例えば、車載機器２は、車両１のドアに設けられた窓や、車両１のエンジン、制動装置であってもよい。

　車載機器コントローラ３は、車載機器２の動作を制御する電子制御ユニット（ＥＣＵ：Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）であり、車載機器２を制御するための制御信号を生成する。車載機器コントローラ３は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ−Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であってよい。
　記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等のメモリを含んでよい。

　なお、車載機器コントローラ３を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ３は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ３はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Ｆｉｅｌｄ−Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のプログラマブル・ロジック・デバイス（ＰＬＤ：Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）等を有していてもよい。

　車内センサ４は、車両１の車内の状態を検出するセンサである。例えば車内センサ４は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための圧力センサやシートベルトセンサであってもよく、乗員の生体情報を検出する生体センサであってもよく、車両１から発生する音を検出するためのマイクロフォンであってよい。
　外部センサ５は、車両１の周囲に存在する物体を検出するセンサである。例えば車内センサ４は、例えば車両１の周囲環境を撮影する外部カメラであってもよく、レーザレンジファインダ（ＬＲＦ）やレーダ、ＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）のレーザレーダなどの測距センサであってもよい。

　ＨＭＩ６は、音声認識装置７と利用者との間で情報を授受するインタフェース装置である。ＨＭＩ６は、車両１の利用者が視認可能な表示装置（例えば、ナビゲーションシステムの表示画面）や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
　またＨＭＩ６は、利用者からの音声入力を取得する音声入力装置（例えばマイクロフォン）を備える。

　音声認識装置７は、車両１の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する（ＥＣＵ：Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）である。音声認識装置７は、利用者の発話内容で言及された対象物を推定して、対象物に関連する情報をＨＭＩ６から出力して利用者に提供する。または音声認識装置７は、利用者の発話内容で言及された対象物を操作する。

　音声認識装置７は、プロセッサ８と、記憶装置９等の周辺部品とを含む。プロセッサ８は、例えばＣＰＵやＭＰＵであってよい。
　記憶装置９は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置９は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ及びＲＡＭ等のメモリを含んでよい。以下に説明する音声認識装置７の機能は、例えばプロセッサ８が、記憶装置９に格納されたコンピュータプログラムを実行することにより実現される。
　なお、音声認識装置７を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置７は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置７はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。

　図２は、音声認識装置７の機能構成の一例を示すブロック図である。音声認識装置７は、音声認識部１０と、自然言語理解部１１と、入力信号取得部１２と、分析部１３と、応答生成部１４として動作する。
　音声認識部１０は、ＨＭＩ６が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部１０は、音声入力を変換して生成した言語情報を音声認識部１０に出力する。

　自然言語理解部１１は、音声認識部１０から出力された言語情報を自然言語処理によって解析し、利用者の発話意図と、発話意図に関連するキーワードを抽出する。例えば自然言語理解部１１は、発話内容で言及された対象物の状態又は位置を示すキーワードを抽出する。また自然言語理解部１１は、対象物の態様（形状、色、位置）を示すキーワードを補助的に抽出してもよい。

　例えば、キーワードとその類義語を予め定義しておき、利用者の発話内容に含まれている類義語をキーワードに変換してよい。
　例えば、利用者が警告灯の意味を質問するために「今ついた赤い車のランプ何？」と発話した場合に、自然言語理解部１１は発話意図として「意味の照会」を抽出し、キーワードとして「赤」、「点灯」、「車」を抽出する。

　この場合、例えばキーワード「赤」の類義語として「赤い」、「赤」、「ｒｅｄ」、「朱色」等を予め定義し、キーワード「車」の類義語として「車」、「Ｃａｒ」、「自動車」、「乗用車」等を予め定義し、キーワード「点灯」の類義語として「ついた」、「今ついた」、「点灯」、「ついている」等を予め定義しておけばよい。

　また自然言語理解部１１が抽出する利用者の発話意図には、車載機器２の状態を質問する「状態の照会」や、車載機器２の操作を指示する操作指示（例えば「窓の開放」など）や、車両１から発生する異常音の原因を質問する「異常音の原因の照会」や、車両１の周囲の状況を質問する「周囲状況の質問」など様々な発話意図が含まれる。
　自然言語理解部１１は、抽出した発話意図の情報と抽出したキーワードの情報を分析部１３へ出力する。

　入力信号取得部１２は、車載機器コントローラ３が生成した車載機器２の制御信号を入力信号として取得する。例えば制御信号は、警告灯のオンオフ信号であってもよい。また例えば制御信号は、警報装置による警報音の出力及び停止を指示する信号であってよい。
　また、入力信号取得部１２は、車内センサ４及び外部センサ５の出力信号を入力信号として取得する。
　入力信号取得部１２は、取得した車載機器２の制御信号と車内センサ４及び外部センサ５の出力信号を、検出した状況を表現するために予め定めた特定のデータ形式に変換する。

　例えば入力信号取得部１２は、制御信号をフラグ情報に変換し、車載機器２の制御状態に応じてフラグの値を設定してよい。例えば、ＥＶ（Ｅｌｅｃｔｒｉｃ　Ｖｅｈｉｃｌｅ）システム警告灯が点灯している場合にフラグＦ１の値を「Ｔｒｕｅ」に設定し、点灯していない場合にフラグＦ１の値を「Ｆａｌｓｅ」に設定してよい。
　また例えば、警報装置が動作して警報音を出力したときにフラグＦ３の値を「Ｔｒｕｅ」に設定し、警報音を出力していない場合にフラグＦ３の値を「Ｆａｌｓｅ」に設定してよい。

　また例えば入力信号取得部１２は、車内センサ４及び外部センサ５の出力信号をフラグ情報に変換し、車内センサ４及び外部センサ５が検出した物体の状態や位置に応じてフラグの値を設定してよい。
　例えば、車内カメラ、圧力センサ、シートベルトセンサ、生体センサなどの車内センサ４の出力信号に基づいて検出した車内の利用者の位置に応じたフラグを設定してよい。例えば、利用者が運転席に座っている場合にフラグＦ４の値を「Ｔｒｕｅ」に設定し、助手席に座っている場合にフラグＦ４の値を「Ｆａｌｓｅ」に設定してよい。

　また例えば入力信号取得部１２は、外部カメラや測距センサなどの外部センサ５の出力信号に基づいて検出した車両１の周囲の物体の位置に応じたフラグを設定してよい。例えば、車両１の右後方において他車両が接近している場合にフラグＦ６の値を「Ｔｒｕｅ」に設定し、他車両が接近していない場合にフラグＦ６の値を「Ｆａｌｓｅ」に設定してよい。また例えば、車両１の右後方に他車両が走行している車両の速度が閾値Ｖｔｈを超える場合にフラグＦ６の値を「Ｔｒｕｅ」に設定し、閾値Ｖｔｈを超えない場合に「Ｆａｌｓｅ」に設定してもよい。
　また例えば入力信号取得部１２は、車内センサ４のマイクロフォンが出力した音情報を解析し、音情報の特徴に基づいて、車両１から発生する異常音の音源となる車載機器２と、この異常音の原因を推定してもよい。入力信号取得部１２は、音源となる車載機器２と異常音の原因とに基づいてフラグを設定してよい。例えば、異常音の音源が車両１のエンジンであり、異常音の原因がエンジンオイルの不足であると推定された場合にフラグＦ５の値を「Ｔｒｕｅ」に設定し、異常音を検出しない場合にフラグＦ５の値を「Ｆａｌｓｅ」に設定してよい。制動装置から発生した異常音についても同様にフラグを設定してもよい。また、同一の車載機器２が発生する複数の異なる原因の異常音について、それぞれフラグを別個に設定してもよい。ここで、異常音の原因の推定には、入力信号取得部１２が、車内センサ４のマイクロフォンから取得した音情報と、予め記憶された車載機器の正常状態の音情報とを周波数解析し、所定の周波数パターンまたは当該周波数パターンを含むパラメータのパターンが検出された場合には異常であると判定してもよい。また、異常音の音源がエンジンの場合、予めエンジンオイルが不足した状態の音情報を記憶しておき、マイクロフォンから取得した音情報との間で周波数解析を行うことにより、通常のエンジン音源の周波数パターンと比較し一定の範囲を超えた異なる周波数的特徴が得られた場合、原因がエンジンオイルの不足であることを判定してもよい。

　また入力信号取得部１２は、車載機器２の制御信号や車内センサ４及び外部センサ５の出力信号を、これらの抽出される情報を示す数値データや、識別情報、テキストデータ等に変換してもよい。例えば外部センサ５の出力信号に基づいて検出した他車両までの距離情報（例えば「１０ｍ」）や速度情報（例えば「６０ｋｍ／ｈ」）などの数値データや、車種を示す識別情報やテキストデータに変換してもよい。
　入力信号取得部１２は、変換後の入力信号（以下、単に「入力信号」と表記する）を分析部１３へ出力する。

　分析部１３は、入力信号取得部１２から出力された入力信号と、自然言語理解部１１から出力された発話意図の情報とキーワードの情報を受信する。
　分析部１３は、入力信号取得部１２から出力された入力信号に基づいて、利用者の発話内容で言及された対象物の候補の状態又は位置を検出する。
　例えば、分析部１３は、対象物の候補の状態として制御信号による車載機器２の制御状態を検出する。例えば分析部１３は、警告灯が点灯状態であるか消灯状態であるか（すなわち視覚情報提示機器による視覚情報の表示状態）を検出してよい。

　分析部１３は、対象物の候補の状態又は位置を検出する場合に、記憶装置９に格納されたコマンドリスト１５を参照する。図３は、コマンドリスト１５の一例の模式図である。
　コマンドリスト１５には、複数行のレコードが格納されている。各々のレコードには、コマンドＩＤと、対象物の候補の情報と、対象物の候補に関するキーワードと、対象物の候補の状態又は位置の検出に用いる入力信号を指定する情報とが記録されている。すなわち、コマンドリスト１５には、コマンドＩＤと、対象物の候補の情報と、キーワードと、入力信号を指定する情報とが関連付けて記録されている。なお、対象物の候補に関するキーワードとしては、対象物の候補の状態又は位置を示すキーワードが記録されている。対象物の候補によって対象物の態様を示すキーワードを記録してもよい。

　例えば第１行目のレコードは、警告灯の一例であるＥＶシステム警告灯の状態を示す入力情報として入力信号のフラグＦ１を指定している。分析部１３は、フラグＦ１に基づいてＥＶシステム警告灯が点灯状態であるか消灯状態であるかを検出する。
　また例えば分析部１３は、警報装置による警報の出力状態であるか停止状態であるか（すなわち聴覚情報提示機器による聴覚情報の報知状態）を検出する。
　例えばコマンドリスト１５の第３行目のレコードは、警報装置の状態を示す入力情報として入力信号のフラグＦ３を指定している。分析部１３はフラグＦ３に基づき警報装置が出力状態であるか停止状態であるかを検出する。

　また例えば分析部１３は、利用者の発話内容で言及された対象物の候補として特定の位置に配置された車載機器２を検出する。すなわち、対象物の候補となる車載機器２の位置を検出する。
　例えばコマンドリスト１５の第４行目のレコードは、対象物の候補となる窓が運転席窓であるか否かを示す情報として入力信号のフラグＦ４を指定している。フラグＦ４は利用者が運転席に座っている場合に「Ｔｒｕｅ」に設定され、座っていない場合に「Ｆａｌｓｅ」に設定される。分析部１３は、フラグＦ４が「Ｔｒｕｅ」である場合に運転席窓が対象物の候補の窓であると検出し、フラグＦ４が「Ｆａｌｓｅ」である場合に運転席窓が対象物の候補の窓でないと検出する。

　また例えば分析部１３は、車両１から発生する異常音の音源が特定の車載機器２であるか否かを検出してよい。すなわち対象物の候補である車載機器２が異常音の音源であるか否かを、対象物の候補の状態として検出してもよい。分析部１３は、異常音の原因についても推定してよい。
　例えばコマンドリスト１５の第５行目のレコードは、対象物の候補のエンジンが異常音の音源であるか否かを示す情報として入力信号のフラグＦ５を指定している。分析部１３は、フラグＦ５が「Ｔｒｕｅ」である場合にエンジンが異常音の音源であり、異常音の原因がエンジンオイルの不足である推定する。フラグＦ５が「Ｆａｌｓｅ」である場合にエンジンが異常音の音源でないと検出する。

　また例えば分析部１３は、車両１の周囲の物体の状態や位置を対象物の候補の状態又は位置として検出してよい。
　例えばコマンドリスト１５の第６行目のレコードは、車両１の右後方において他車両が接近するか否かを示す情報として、入力信号のフラグＦ６を指定している。分析部１３は、フラグＦ６が「Ｔｒｕｅ」である場合に右後方において他車両が接近していると検出し、「Ｆａｌｓｅ」である場合に右後方において他車両が接近していないと判定する。
　また、入力信号に含まれている距離情報（例えば「１０ｍ」）に基づいて車両１の右後方を走行する他車両までの距離（すなわち他車両の位置）を検出してもよい。また入力信号に含まれている速度情報（例えば「６０ｋｍ／ｈ」）に基づいて車両１の右後方を走行する他車両の速度（すなわち他車両の速度）を検出してもよい。
　なお、分析部１３は、受信した入力信号を記憶装置９に記憶してもよい。分析部１３は、現在入力されている入力信号に加えて又は代えて記憶装置９に記憶された入力信号に基づいて対象物の候補の状態又は位置を検出してもよい。また例えば、過去に入力された入力信号と現在入力されている入力信号との時系列に基づいて対象物の候補の状態又は位置を検出してもよい。過去に入力された入力信号を記憶しておき、現在の入力信号との差分（ＴｒｕｅとＦａｌｓｅの違い）を検出することにより対象物の候補の状態を推定してもよい。また、例えば過去の入力信号に含まれている右後方の他車両までの距離情報を記憶しておき、現在の距離情報が過去の距離情報よりも小さくなった場合に、右後方において他車両が接近していると推定してもよい。

　分析部１３は、自然言語理解部１１から出力されたキーワードの情報（すなわち、利用者の発話内容で言及された対象物の状態又は位置）が示す状態又は位置に適合する対象物の候補を、発話内容で言及された対象物であると推定する。
　具体的には、自然言語理解部１１から出力されたキーワードの情報が示す状態又は位置と、入力信号から検出した対象物の候補の状態又は位置と、が適合する場合に、この対象物の候補を発話内容で言及された対象物であると推定する。

　例えば、利用者が「今ついた赤い車のランプ何？」と発話し、自然言語理解部１１が対象物の候補の状態を示すキーワード「点灯」と、対象物の態様（形状、色、位置）を示すキーワード「赤」、「車」を抽出した場合を想定する。
　分析部１３は、コマンドリスト１５を参照して、自然言語理解部１１が抽出したキーワード「点灯」と同一のキーワードを含む第１行目のレコード（ＥＶシステム警告灯）と第２行目のレコード（水温警告灯）を選択する。

　分析部１３は、第１行目のレコードで指定されたフラグＦ１に基づいて、ＥＶシステム警告灯が点灯状態であるか否かを判定する。すなわち分析部１３は、対象物の候補の状態が、コマンドリスト１５に含まれる対象物の候補の状態を示すキーワード「点灯」と同じ状態であるか否かを判定する。
　対象物の候補の状態がコマンドリスト１５に含まれるキーワード「点灯」と同じ状態である場合に、分析部１３は、利用者の発話内容で言及された対象物の状態とＥＶシステム警告灯の状態とが適合すると判定し、発話内容で言及された対象物はＥＶシステム警告灯であると推定する。

　分析部１３は、第１行目のレコードのコマンドＩＤ「ｉｄ０００１」を応答生成部１４へ出力する。コマンドＩＤは、対象物の候補の情報、対象物の候補に関するキーワード、入力信号と関連付けられているため、コマンドＩＤに基づいて利用者の発話内容で言及された対象物と対象物の状態や位置を特定できる。
　また分析部１３は、自然言語理解部１１から出力された発話意図の情報を、応答生成部１４へ出力する。

　なお、ＥＶシステム警告灯に加えて水温警告灯も点灯状態である場合を想定する。すると水温警告灯の状態も、コマンドリスト１５に含まれるキーワード「点灯」と同じ状態になるため、対象物の候補の状態を示すキーワード「点灯」のみでは、発話内容で言及された対象物がＥＶシステム警告灯であるか水温警告灯であるかを区別できない。
　この場合には、分析部１３は、対象物の態様を示すキーワード「赤」、「車」を補助的に用いて、発話内容で言及された対象物を判定してよい。

　次に利用者が「今、ピッと鳴ったのは何？」と発話し、自然言語理解部１１が、対象物の候補の状態を示すキーワード「ピッと鳴る」を抽出した場合を想定する。分析部１３は、コマンドリスト１５を参照して、自然言語理解部１１が抽出したキーワード「ピッと鳴る」と同一のキーワードを含む第３行目のレコード（警報装置）を選択する。

　分析部１３は、第２行目のレコードで指定されたフラグＦ３に基づいて、警報装置が出力状態であるか否かを判定する。すなわち分析部１３は、対象物の候補の状態が、コマンドリスト１５に含まれる対象物の候補の状態を示すキーワード「ピッと鳴る」と同じ状態（動作状態）であるか否かを判定する。
　対象物の候補の状態がコマンドリスト１５に含まれるキーワードと同じ状態である場合に、分析部１３は、利用者の発話内容で言及された対象物の状態と警報装置の状態とが適合すると判定し、発話内容で言及された対象物は警報装置であると推定する。
　分析部１３は、第３行目のレコードのコマンドＩＤ「ｉｄ０００３」と、自然言語理解部１１から出力された発話意図の情報を、応答生成部１４へ出力する。

　また例えば、利用者が「ここの窓開けて」と発話し、自然言語理解部１１が、対象物の候補の位置を示すキーワード「ここ」を抽出した場合を想定する。
　分析部１３は、コマンドリスト１５を参照して、自然言語理解部１１が抽出したキーワード「ここ」と同一のキーワードを含む第４行目のレコード（運転席窓）を選択する。

　分析部１３は、第４行目のレコードで指定されたフラグＦ４に基づいて、対象物の候補（運転席窓）の位置（すなわち運転席近傍）が、コマンドリスト１５に含まれる対象物の候補の状態を示すキーワード「ここ」、すなわち利用者の着座近傍と同じであるか否かを判定する。フラグＦ４が「Ｔｒｕｅ」の場合、利用者の着座位置は運転席であるため対象物の候補の位置がコマンドリスト１５に含まれるキーワードと同じ位置であると判定する。

　対象物の候補の位置がコマンドリスト１５に含まれるキーワードと同じ位置である場合に、分析部１３は、利用者の発話内容で言及された対象物の位置と運転席窓の位置とが適合すると判定し、発話内容で言及された対象物は運転席窓であると推定する。
　分析部１３は、第３行目のレコードのコマンドＩＤ「ｉｄ０００４」と、自然言語理解部１１から出力された発話意図の情報を、応答生成部１４へ出力する。

　また例えば、利用者が「変な音出ているけど大丈夫」と発話し、自然言語理解部１１が、対象物の候補の状態を示すキーワード「変な音」を抽出した場合を想定する。
　分析部１３は、コマンドリスト１５を参照して、自然言語理解部１１が抽出したキーワード「変な音」と同一のキーワードを含む第５行目のレコード（エンジン）を選択する。

　分析部１３は、第５行目のレコードで指定されたフラグＦ５に基づいて、エンジンが異常音の音源となっているか否かを判定する。すなわち分析部１３は、対象物の候補（エンジン）の状態が、コマンドリスト１５に含まれる対象物の候補の状態を示すキーワード「変な音（を出している状態）」と同じ状態であるか否かを判定する。
　対象物の候補の状態がコマンドリスト１５に含まれるキーワードと同じ状態である場合に、分析部１３は、利用者の発話内容で言及された対象物の状態とエンジンの状態とが適合すると判定し、発話内容で言及された対象物はエンジンであると推定する。また、異常音の原因がエンジンオイルの不足であると推定する。
　分析部１３は、第３行目のレコードのコマンドＩＤ「ｉｄ０００５」と、自然言語理解部１１から出力された発話意図の情報を、応答生成部１４へ出力する。

　また例えば、利用者が「すごいスピードで近づいてくるのは何？」と発話し、自然言語理解部１１が、対象物の候補の状態を示すキーワード「近づいてくる」を抽出した場合を想定する。
　分析部１３は、コマンドリスト１５を参照して、自然言語理解部１１が抽出したキーワード「近づいてくる」と同一のキーワードを含む第６行目のレコード（右後方車両）を選択する。

　分析部１３は、第６行目のレコードで指定されたフラグＦ６に基づいて、右後方車両が車両１に接近しているか否かを判定する。すなわち分析部１３は、対象物の候補（右後方車両）の状態が、コマンドリスト１５に含まれる対象物の候補の状態を示すキーワード「近づいてくる」と同じ状態であるか否かを判定する。分析部１３は、第６行目のレコードで指定された位置情報や速度情報に基づいて右後方車両が車両１に接近しているか否かを判定してもよい。
　対象物の候補の状態がコマンドリスト１５に含まれるキーワードと同じ状態である場合に、分析部１３は、利用者の発話内容で言及された対象物の状態と右後方車両の状態とが適合すると判定し、発話内容で言及された対象物は右後方車両であると推定する。
　分析部１３は、第３行目のレコードのコマンドＩＤ「ｉｄ０００６」と、自然言語理解部１１から出力された発話意図の情報を、応答生成部１４へ出力する。

　図２を参照する。応答生成部１４は、自然言語理解部１１が抽出して分析部１３を経由して入力された発話意図の情報と、分析部１３から出力されたコマンドＩＤと、に基づいて、応答メッセージと応答コマンドを出力する。
　応答メッセージは、利用者の発話内容に対して利用者に提示されるメッセージの音声信号やテキスト情報である。応答コマンドは、利用者の発話内容に対してＨＭＩ６に応答メッセージを出力させたり、車載機器２の所定の動作を実行させる命令信号である。

　応答生成部１４は、応答メッセージと応答コマンドを生成する際に、記憶装置９に格納された応答リスト１６を参照する。図４は、応答リスト１６の一例の模式図である。
　応答リスト１６には、複数行のレコードが格納されている。各々のレコードには、発話意図の情報と、コマンドＩＤと、応答メッセージと、応答コマンドとが記録されている。すなわち応答リスト１６には、発話意図の情報と、コマンドＩＤと、応答メッセージと、応答コマンドとが関連付けて記録されている。

　例えば利用者が「今ついた赤い車のランプ何？」と発話した場合、上記のように自然言語理解部１１は、発話意図として「意味の照会」を抽出する。分析部１３は、コマンドＩＤ「ｉｄ０００１」を出力する。応答生成部１４は、発話意図「意味の照会」とコマンドＩＤ「ｉｄ０００１」に合致する第１行目のレコードを抽出する。
　応答生成部１４は、第１行目のレコードに記憶されていた警告灯の意味を通知するための応答コマンド「コマンドＣ００１」をＨＭＩ６に出力し、応答メッセージ「ＥＶシステムに異常が発生したという意味です」の音声情報やテキスト情報を、ＨＭＩ６のスピーカから放音または表示装置に表示させる。このように、コマンドＣ００１はＨＭＩ６に応答メッセージを出力させる命令信号であり、図４に示したコマンドＣ０００２、Ｃ００３、Ｃ００５及びＣ００６も同様である。

　また例えば利用者が「赤い温度計がついたけどどうしたの？」と発話した場合に、自然言語理解部１１が発話意図「状態の照会」を抽出し、分析部１３がコマンドＩＤ「ｉｄ０００２」を出力した場合を想定する。応答生成部１４は、発話意図「状態の照会」とコマンドＩＤ「ｉｄ０００２」に合致する第２行目のレコードを抽出する。

　応答生成部１４は、第２行目のレコードに記憶されていたラジエターの状態を通知する応答メッセージ「エンジン冷却水の温度が高いです」と、応答コマンド「コマンドＣ００２」をＨＭＩ６に出力する。
　なお応答リスト１６に、発話意図「意味の照会」に対して対象物の状態に関する応答メッセージを対応付けて記憶してもよい。この場合に応答生成部１４は、発話意図「意味の照会」の発話に対して、対象物の状態に関する応答メッセージを出力することができる。

　同様に、発話意図「意味の照会」に対して、対象物の状態に応じた対処方法に関する応答メッセージを対応付けて記憶してもよい。
　例えば、第３行目のレコードには、発話意図「意味の照会」とコマンドＩＤ「ｉｄ０００３」とが記憶されている。例えば利用者が「今ついた赤い温度計のランプ何？」と発話した場合に、自然言語理解部１１が発話意図「意味の照会」を抽出し、分析部１３がコマンドＩＤ「ｉｄ０００２」を出力した場合を想定する。
　この場合に、応答生成部１４は第３行目のレコードを選択して、応答メッセージ「車を安全な場所に停車して下さい」と、応答コマンド「コマンドＣ００３」をＨＭＩ６に出力することにより、エンジン冷却水の温度が高い場合に応じた対処方法を通知する。

　また、例えば利用者が「ここの窓開けて」と発話した場合に、自然言語理解部１１が発話意図「窓の開放」を出力し、分析部１３がコマンドＩＤ「ｉｄ０００４」を出力した場合を想定する。応答生成部１４は、発話意図「窓の開放」とコマンドＩＤ「ｉｄ０００４」に合致する第４行目のレコードを抽出する。
　応答生成部１４は、運転席窓を開放する命令信号である応答コマンド「コマンドＣ００４」を車載機器コントローラ３へ出力する。車載機器コントローラ３は、応答コマンド「コマンドＣ００４」に従って車載機器２の一例である運転席窓を開放する。なお、応答生成部１４は、利用者が「ここの窓閉めて」と発話した場合に、運転席窓を閉める応答コマンドを車載機器コントローラ３へ出力してもよい。

　また、利用者が「変な音出ているけど大丈夫」と発話し、自然言語理解部１１が発話意図「異常音の原因の照会」を抽出し、分析部１３がコマンドＩＤ「ｉｄ０００５」を出力した場合を想定する。応答生成部１４は、発話意図「異常音の原因の照会」とコマンドＩＤ「ｉｄ０００５」に合致する第５行目のレコードを抽出する。
　応答生成部１４は、第５行目のレコードに記憶されていた異常音の原因を通知する応答メッセージ「エンジンオイルが足りないようです」と、応答コマンド「コマンドＣ００５」をＨＭＩ６に出力する。

　また、利用者が「すごいスピードで近づいてくるのは何？」と発話し、自然言語理解部１１が発話意図「周囲状況の照会」を抽出し、分析部１３がコマンドＩＤ「ｉｄ０００６」を出力した場合を想定する。応答生成部１４は、発話意図「周囲状況の照会」とコマンドＩＤ「ｉｄ０００６」に合致する第６行目のレコードを抽出する。
　応答生成部１４は、第６行目のレコードに記憶されていた周囲状況を通知する応答メッセージ「右後方に車両が接近しています」と、応答コマンド「コマンドＣ００６」をＨＭＩ６に出力する。

　（動作）
　図５は、実施形態の音声認識方法の一例のフローチャートである。
　ステップＳ１において入力信号取得部１２は、車載機器コントローラ３が生成した車載機器２の制御信号や、車内センサ４及び外部センサ５の出力信号を入力信号として取得する。
　ステップＳ２において音声認識部１０は、ＨＭＩ６が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。自然言語理解部１１は、音声認識部１０から出力された言語情報を自然言語処理によって解析し、利用者の発話意図を抽出する。ステップＳ３において自然言語理解部１１は、音声認識部１０から出力された言語情報から、発話意図に関連するキーワードを抽出する。

　ステップＳ４において分析部１３は、入力信号取得部１２かが取得した入力信号に基づいて、利用者の発話内容で言及された対象物の候補の状態又は位置を検出する。
　ステップＳ５において分析部１３は、自然言語理解部１１が抽出したキーワードの情報に基づいて、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
　ステップＳ６において応答生成部１４は、自然言語理解部１１が抽出した発話意図と、分析部１３が推定した対象物に応じて、応答メッセージを出力する。または車載機器２を動作させる。

　（実施形態の効果）
（１）音声認識装置７は、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する。音声認識装置７は、車両１に搭載された機器の制御信号又は車両１に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、発話内容から状態又は位置を表す表現を認識し、入力信号に基づいて対象物の候補の状態又は位置を検出し、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
　これにより、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上できる。

　（２）例えば対象物の候補は、入力信号として取得した制御信号に制御される機器であってよい。音声認識装置７は、制御信号による制御状態を対象物の候補の状態として検出してよい。これにより、機器を制御する制御信号に基づいて対象物の候補の状態を判定できる。
　（３）例えば入力信号は、車両１の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の制御信号であってよく、制御状態は、視覚情報の表示状態であってよい。これにより、対象物の候補として視覚情報提示機器の状態を判定できる。
　（４）例えば視覚情報提示機器は警告灯であってよく、制御状態は警告灯の点灯状態又は消灯状態であってよい。これにより、対象物の候補として警告灯の状態を判定できる。

　（５）例えば入力信号は、車両１の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の制御信号であってよく、制御状態は、聴覚情報の報知状態であってよい。これにより対象物の候補として聴覚情報提示機器の状態を判定できる。
（６）例えば聴覚情報提示機器は警報装置であってよく、制御状態は警報の出力状態又は停止状態であってよい。これにより対象物の候補として警報装置の状態を判定できる。

　（７）音声認識装置７は、取得した入力信号を記憶し、記憶した過去の入力信号と現在取得している入力信号とに基づいて対象物の候補の状態又は位置を検出してもよい。これにより、利用者が発話する前に対象物の状態や位置が変化しても、発話前の過去の状態や位置に基づいて対象物を推定できる。
　（８）音声認識装置７は、発話内容で言及された対象物に関する情報を出力してもよく、発話内容で言及された対象物の状態に関する情報を出力してもよい。音声認識装置７は、対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶して、発話内容で言及された対象物の状態に応じた対処方法に関する情報を出力してもよい。
　これにより、利用者の発話内容で言及された対象物についての情報を提供できる。

　（９）対象物の候補は、車両１に搭載された機器であってよい。音声認識装置７は、入力信号として車両１の車内の状態を検出するセンサの出力信号を取得して、取得した出力信号に基づいて機器の状態又は位置を検出してよい。
　これにより、車両１の車内の状態を検出するセンサの出力信号に基づいて車両１に搭載された機器の状態又は位置を判定できる。
　（１０）音声認識装置７は、入力信号として、車両１の乗員の着座位置を検出するセンサの出力信号を取得し、対象物の候補となる窓が、着座位置の近傍の窓であると検出し、車両１の窓を開放するための開放指示を含んだ発話内容から、開放すべき窓の位置を表す表現を認識し、発話内容から認識された窓の位置が着座位置の近傍を示す場合に、着座位置の近傍の窓を対象物として推定してよい。
　乗員の着座位置を検出するセンサの出力信号と車両１の窓を開放するための開放指示を含んだ発話内容から、開放する対象の窓が利用者の着座位置の近傍の窓であると推定できる。
　（１１）音声認識装置７は、入力信号として、車両１からの異常音の音情報を検出するセンサの出力信号を取得し、音情報に基づいて、異常音の音源となる機器を推定することにより、対象物の候補となる機器が異常音を発生している状態を検出してもよい。これにより、音情報を検出するセンサの出力信号に基づいて、車両１に搭載された機器の状態を推定できる。
　（１２）例えば対象物の候補は、車両１の周囲の物体であってもよい。音声認識装置７は、入力信号として、周囲の物体を検出するセンサの出力信号を取得して、取得した出力信号に基づいて周囲の物体の状態又は位置を検出してもよい。
　例えば音声認識装置７は、入力信号として車両１の周囲を撮影するカメラが生成する撮像画像を取得し、撮像画像に基づいて、車両１に接近する物体を対象物の候補として認識してもよい。
　これにより、車両１の周囲の物体を検出するセンサの出力信号に基づいて車両１の周囲の物体の状態又は位置を判定できる。
　（１３）例えばセンサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含んでもよい。これにより、車内又は車外のさまざまな対象物の候補の状態や位置を検出できる。

　ここに記載されている全ての例及び条件的な用語は、読者が、本発明と技術の進展のために発明者により与えられる概念とを理解する際の助けとなるように、教育的な目的を意図したものであり、具体的に記載されている上記の例及び条件、並びに本発明の優位性及び劣等性を示すことに関する本明細書における例の構成に限定されることなく解釈されるべきものである。本発明の実施例は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であると解すべきである。

　１…車両、２…車載機器、３…車載機器コントローラ、４…車内センサ、５…外部センサ、６…ヒューマンマシンインタフェース、７…音声認識装置、８…プロセッサ、９…記憶装置、１０…音声認識部、１１…自然言語理解部、１２…入力信号取得部、１３…分析部、１４…応答生成部、１５…コマンドリスト、１６…応答リスト

Claims

　車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識方法であって、
　前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、
　前記発話内容から状態又は位置を表す表現を認識し、
　前記入力信号に基づいて前記対象物の候補の状態又は位置を検出し、
　前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する、
　ことを特徴とする音声認識方法。
　前記対象物の候補は、前記入力信号として取得した前記制御信号に制御される機器であり、
　前記制御信号による制御状態を前記対象物の候補の状態として検出する、ことを特徴とする請求項１に記載の音声認識方法。
　前記入力信号は、前記車両の車内に設けられて前記利用者に視覚情報を提示する視覚情報提示機器の制御信号であり、
　前記制御状態は、前記視覚情報の表示状態である、
　ことを特徴とする請求項２に記載の音声認識方法。
　前記視覚情報提示機器は警告灯であり、前記制御状態は前記警告灯の点灯状態又は消灯状態であることを特徴とする請求項３に記載の音声認識方法。
　前記入力信号は、前記車両の車内に設けられて前記利用者に聴覚情報を提示する聴覚情報提示機器の制御信号であり、
　前記制御状態は、前記聴覚情報の報知状態である、
　ことを特徴とする請求項２に記載の音声認識方法。
　前記聴覚情報提示機器は警報装置であって、前記制御状態は警報の出力状態又は停止状態であることを特徴とする鵜請求項５に記載の音声認識方法。
　取得した前記入力信号を記憶し、
　記憶した過去の前記入力信号と現在取得している前記入力信号とに基づいて前記対象物の候補の状態又は位置を検出する、
　ことを特徴とする請求項１~６のいずれか一項に記載の音声認識方法。
　前記発話内容で言及された対象物に関する情報を出力することを特徴とする請求項１~７のいずれか一項に記載の音声認識方法。
　前記発話内容で言及された対象物の状態に関する情報を出力することを特徴とする請求項１~７のいずれか一項に記載の音声認識方法。
　前記対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶し、
　前記発話内容で言及された対象物の状態に応じた前記対処方法に関する情報を出力することを特徴とする請求項１~７のいずれか一項に記載の音声認識方法。
　前記対象物の候補は、前記車両に搭載された機器であり、
　前記入力信号として前記車両の車内の状態を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記機器の状態又は位置を検出する、ことを特徴とする請求項１に記載の音声認識方法。
　前記入力信号として、前記車両の乗員の着座位置を検出するセンサの出力信号を取得し、
　前記対象物の候補となる窓が、前記着座位置の近傍の窓であると検出し、
　前記車両の窓を開閉するための開閉指示を含んだ前記発話内容から、開閉すべき窓の位置を表す表現を認識し、
　前記発話内容から認識された窓の位置が前記着座位置の近傍を示す場合に、前記着座位置の近傍の窓を前記対象物として推定する、
　ことを特徴とする請求項１１に記載の音声認識方法。
　前記入力信号として、前記車両からの異常音の音情報を検出するセンサの出力信号を取得し、
　前記音情報に基づいて、前記異常音の音源となる機器を推定することにより、前記対象物の候補となる前記機器が前記異常音を発生している状態を検出する、
　ことを特徴とする請求項１１に記載の音声認識方法。
　前記対象物の候補は、前記車両の周囲の物体であり、
　前記入力信号として、前記周囲の物体を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記周囲の物体の状態又は位置を検出する、ことを特徴とする請求項１に記載の音声認識方法。
　前記入力信号として前記車両の周囲を撮影するカメラが生成する撮像画像を取得し、
　前記撮像画像に基づいて、前記車両に接近する物体を前記対象物の候補として認識する、
　ことを特徴とする請求項１４に記載の音声認識方法。
　前記センサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含むことを特徴とする請求項１~１５のいずれか一項に記載の音声認識方法。
　車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識装置であって、
　前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得する処理と、
　前記発話内容から状態又は位置を表す表現を認識する処理と、
　前記入力信号に基づいて前記対象物の候補の状態又は位置を検出する処理と、
　前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する処理と、
　を実行するコントローラを備えることを特徴とする音声認識装置。