WO2021149594A1

WO2021149594A1 - 情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体

Info

Publication number: WO2021149594A1
Application number: PCT/JP2021/001126
Authority: WO
Inventors: 智也大石; 翔吾藤江; 祥子佐藤
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2020-01-21
Filing date: 2021-01-14
Publication date: 2021-07-29
Anticipated expiration: 2022-07-21
Also published as: JP2025105844A; EP4095490A1; JPWO2021149594A1; US20220405955A1; EP4095490A4; EP4095490B1; JP2023111989A

Abstract

情報提供装置３は、移動体の周囲を撮影した撮影画像を取得する画像取得部３２３と、撮影画像内における視線が集中する注目領域を抽出する領域抽出部３２４と、撮影画像内における注目領域に含まれる物体を認識する物体認識部３２５と、注目領域に含まれる物体に関する物体情報を提供する情報提供部３２６とを備える。

Description

情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体

　本発明は、情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体に関する。

　従来、車両の周囲に存在する対象物を特定し、当該対象物に関する名称等の情報を音声にて読み上げる対象物特定装置が知られている（例えば、特許文献１参照）。
　特許文献１に記載の対象物特定装置では、車両の乗員が手や指で指し示している指示方向に存在する地図上の施設等を対象物として特定している。

特開２００７－８００６０号公報

　しかしながら、特許文献１に記載の技術では、対象物に関する情報を得ることを望む車両の乗員に対して、当該対象物を手や指で指し示すという作業を行わせる必要があり、利便性を向上させることができない、という問題が一例として挙げられる。

　本発明は、上記に鑑みてなされたものであって、例えば利便性を向上させることができる情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体を提供することを目的とする。

　請求項１に記載の情報提供装置は、移動体の周囲を撮影した撮影画像を取得する画像取得部と、前記撮影画像内における視線が集中する注目領域を抽出する領域抽出部と、前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識部と、前記注目領域に含まれる物体に関する物体情報を提供する情報提供部とを備えることを特徴とする。

　また、請求項７に記載の情報提供方法は、情報提供装置が実行する情報提供方法であって、移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップとを含むことを特徴とする。

　また、請求項８に記載の情報提供プログラムは、移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップとをコンピュータに実行させるための情報提供プログラムである。

　また、請求項９に記載の記憶媒体は、移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップとをコンピュータに実行させるための情報提供プログラムを記憶したことを特徴とする。

図１は、実施の形態１に係る情報提供システムの構成を示すブロック図である。図２は、車載端末の構成を示すブロック図である。図３は、情報提供装置の構成を示すブロック図である。図４は、情報提供方法を示すフローチャートである。図５は、情報提供方法を説明する図である。図６は、実施の形態２に係る情報提供装置の構成を示すブロック図である。図７は、情報提供方法を示すフローチャートである。図８は、情報提供方法を説明する図である。図９は、実施の形態３に係る車載端末の構成を示すブロック図である。図１０は、実施の形態３に係る情報提供装置の構成を示すブロック図である。図１１は、情報提供方法を示すフローチャートである。図１２は、実施の形態４に係る情報提供装置の構成を示すブロック図である。図１３は、情報提供方法を示すフローチャートである。図１４は、情報提供方法を説明する図である。

　以下に、図面を参照しつつ、本発明を実施するための形態（以下、実施の形態）について説明する。なお、以下に説明する実施の形態によって本発明が限定されるものではない。さらに、図面の記載において、同一の部分には同一の符号を付している。

（実施の形態１）
　〔情報提供システムの概略構成〕
　図１は、実施の形態１に係る情報提供システム１の構成を示すブロック図である。
　情報提供システム１は、移動体である車両ＶＥ（図１）の乗員ＰＡ（図５参照）に対して、当該車両ＶＥの周囲に存在する建物等の物体に関する物体情報（例えば当該物体の名称等）を提供するシステムである。この情報提供システム１は、図１に示すように、車載端末２と、情報提供装置３とを備える。そして、これら車載端末２及び情報提供装置３は、無線通信網であるネットワークＮＥ（図１）を介して、通信を行う。
　なお、情報提供装置３と通信を行う車載端末２としては、図１では１台である場合を例示しているが、複数の車両にそれぞれ搭載された複数台であっても構わない。また、１台の車両に乗車している複数の乗員に対してそれぞれ物体情報を提供するために、１台の車両に車載端末２が複数台、搭載されていても構わない。

　〔車載端末の構成〕
　図２は、車載端末２の構成を示すブロック図である。
　車載端末２は、例えば、車両ＶＥに設置される据え置き型のナビゲーション装置またはドライブレコーダーである。なお、車載端末２としては、ナビゲーション装置またはドライブレコーダーに限らず、車両ＶＥの乗員ＰＡが利用するスマートフォン等の携帯型端末を採用しても構わない。この車載端末２は、図２に示すように、音声入力部２１と、音声出力部２２と、撮像部２３と、表示部２４と、端末本体２５とを備える。

　音声入力部２１は、音声を入力して電気信号に変換するマイクロフォン２１１（図５参照）を含み、当該電気信号にＡ／Ｄ（Analog／Digital）変換等を行うことにより音声情報を生成する。本実施の形態１において、音声入力部２１にて生成された音声情報は、デジタル信号である。そして、音声入力部２１は、当該音声情報を端末本体２５に出力する。
　音声出力部２２は、スピーカ２２１（図５参照）を含み、端末本体２５から入力したデジタルの音声信号をＤ／Ａ（Digital／Analog）変換によってアナログの音声信号に変換し、当該スピーカ２２１から当該アナログの音声信号に応じた音声を出力する。

　撮像部２３は、端末本体２５による制御の下、車両ＶＥの周囲を撮影して撮影画像を生成する。そして、撮像部２３は、生成した撮影画像を端末本体２５に出力する。
　表示部２４は、液晶または有機ＥＬ（Electro　Luminescence）等を用いた表示ディスプレイで構成され、端末本体２５による制御の下、各種の画像を表示する。

　端末本体２５は、図２に示すように、通信部２５１と、制御部２５２と、記憶部２５３とを備える。
　通信部２５１は、制御部２５２による制御の下、ネットワークＮＥを介して情報提供装置３との間で情報の送受信を行う。
　制御部２５２は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等のコントローラによって、記憶部２５３に記憶された各種のプログラムが実行されることにより実現され、車載端末２全体の動作を制御する。なお、制御部２５２は、ＣＰＵやＭＰＵに限らず、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路によって構成されても構わない。
　記憶部２５３は、制御部２５２が実行する各種のプログラムや、当該制御部２５２が処理を行うときに必要なデータ等を記憶する。

　〔情報提供装置の構成〕
　図３は、情報提供装置３の構成を示すブロック図である。
　情報提供装置３は、例えば、サーバ装置である。この情報提供装置３は、図３に示すように、通信部３１と、制御部３２と、記憶部３３とを備える。

　通信部３１は、制御部３２による制御の下、ネットワークＮＥを介して車載端末２（通信部２５１）との間で情報の送受信を行う。
　制御部３２は、ＣＰＵやＭＰＵ等のコントローラによって、記憶部３３に記憶された各種のプログラム（本実施の形態に係る情報提供プログラムを含む）が実行されることにより実現され、情報提供装置３全体の動作を制御する。なお、制御部３２は、ＣＰＵやＭＰＵに限らず、ＡＳＩＣやＦＰＧＡ等の集積回路によって構成されても構わない。この制御部３２は、図３に示すように、要求情報取得部３２１と、音声解析部３２２と、画像取得部３２３と、領域抽出部３２４と、物体認識部３２５と、情報提供部３２６とを備える。

　要求情報取得部３２１は、車両ＶＥの乗員ＰＡからの物体情報の提供を要求する要求情報を取得する。本実施の形態１では、当該要求情報は、車両ＶＥの乗員ＰＡが発した言葉（音声）を音声入力部２１が取り込み、当該音声に基づいて当該音声入力部２１にて生成された音声情報である。すなわち、要求情報取得部３２１は、通信部３１を介して車載端末２から当該要求情報（音声情報）を取得する。
　音声解析部３２２は、要求情報取得部３２１が取得した要求情報（音声情報）を解析する。

　画像取得部３２３は、撮像部２３にて生成された撮影画像を、通信部３１を介して車載端末２から取得する。
　領域抽出部３２４は、画像取得部３２３にて取得された撮影画像内における視線が集中する（視線が集中し易い）注目領域を抽出（予測）する。本実施の形態１では、領域抽出部３２４は、所謂、視覚的顕著性技術を利用して撮影画像内における注目領域を抽出する。より具体的に、領域抽出部３２４は、以下に示す第１の学習モデルを用いた画像認識（ＡＩ（Artificial　Intelligence）を用いた画像認識）により、撮影画像内における注目領域を抽出する。
　当該第１の学習モデルは、アイトラッカを用いて被験者の視線が集中する領域を判別し、当該領域が予めラベリングされた画像を教師画像とし、当該教師画像を利用して当該領域を機械学習（例えば深層学習等）することにより得られたモデルである。

　物体認識部３２５は、撮影画像内において、領域抽出部３２４にて抽出された注目領域に含まれる物体を認識する。本実施の形態１では、物体認識部３２５は、以下に示す第２の学習モデルを用いた画像認識（ＡＩを用いた画像認識）により、撮影画像内における注目領域に含まれる物体を認識する。
　当該第２の学習モデルは、動物、山、川、湖、及び施設等の各種の物体が撮影された撮影画像を教師画像とし、当該教師画像に基づいて当該物体の特徴を機械学習（例えば深層学習等）することにより得られたモデルである。

　情報提供部３２６は、物体認識部３２５にて認識された物体に関する物体情報を提供する。より具体的に、情報提供部３２６は、記憶部３３における物体情報ＤＢ（Data　Base：データベース）３３３から物体認識部３２５にて認識された物体に対応する物体情報を読み出す。そして、情報提供部３２６は、通信部３１を介して車載端末２に当該物体情報を送信する。

　記憶部３３は、制御部３２が実行する各種のプログラム（本実施の形態に係る情報提供プログラム）の他、制御部３２が処理を行うときに必要なデータ等を記憶する。この記憶部３３は、図３に示すように、第１の学習モデルＤＢ３３１と、第２の学習モデルＤＢ３３２と、物体情報ＤＢ３３３とを備える。
　第１の学習モデルＤＢ３３１は、上述した第１の学習モデルを記憶する。
　第２の学習モデルＤＢ３３２は、上述した第２の学習モデルを記憶する。
　物体情報ＤＢ３３３は、上述した物体情報を記憶する。ここで、物体情報ＤＢ３３３には、各種の物体に関連付けられた複数の物体情報が記憶されている。当該物体情報としては、物体の名称等の当該物体を説明する情報であって、文字データ、音声データ、あるいは、画像データによって構成されている。

　〔情報提供方法〕
　次に、情報提供装置３（制御部３２）が実行する情報提供方法について説明する。
　図４は、情報提供方法を示すフローチャートである。図５は、情報提供方法を説明する図である。具体的に、図５は、撮像部２３にて生成され、ステップＳ４にて取得される撮影画像ＩＭを示す図である。ここで、図５では、車両ＶＥ内からフロントガラスを介して当該車両ＶＥの前方が撮影されるように当該車両ＶＥ内に撮像部２３を設置した場合を例示している。また、図５では、撮影画像ＩＭ内に車両ＶＥの助手席に座った乗員ＰＡが被写体として含まれる場合を例示している。さらに、図５では、当該乗員ＰＡが「あれ何？」という言葉を発している場合を例示している。
　なお、撮像部２３の設置位置としては、上述した設置位置に限らない。例えば、車両ＶＥ内から当該車両ＶＥの左側方や右側方、あるいは、後方が撮影されるように当該車両ＶＥ内に撮像部２３を設置してもよく、車両ＶＥの周囲が撮影されるように当該車両ＶＥ外に撮像部２３を設置しても構わない。また、本実施の形態に係る車両の乗員としては、車両ＶＥの助手席に座った乗員に限らず、運転席や後部座席に座った乗員等を含むものである。また、撮像部２３の数としては、一つに限らず、複数としても構わない。

　先ず、要求情報取得部３２１は、通信部３１を介して車載端末２から要求情報（音声情報）を取得する（ステップＳ１）。
　ステップＳ１の後、音声解析部３２２は、当該ステップＳ１にて取得された要求情報（音声情報）を解析する（ステップＳ２）。
　ステップＳ２の後、音声解析部３２２は、当該ステップＳ２にて要求情報（音声情報）を解析した結果、当該要求情報（音声情報）に特定のキーワードが含まれているか否かを判定する(ステップＳ３)。
　ここで、当該特定のキーワードとしては、車両ＶＥの乗員ＰＡが物体情報の提供を要求する言葉であり、「なに」、「なんですか」、「なんだろう」、「おしえて」等の言葉を例示することができる。

　特定のキーワードが含まれていないと判定された場合（ステップＳ３：Ｎｏ）には、制御部３２は、ステップＳ１に戻る。
　一方、特定のキーワードが含まれていると判定された場合（ステップＳ３：Ｙｅｓ）には、画像取得部３２３は、通信部３１を介して車載端末２から撮像部２３にて生成された撮影画像ＩＭを取得する（ステップＳ４：画像取得ステップ）。
　なお、図４及び図５では、車両ＶＥの乗員ＰＡが「あれ何？」との言葉を発したタイミング（ステップＳ３：Ｙｅｓ）で画像取得部３２３が通信部３１を介して車載端末２から撮像部２３にて生成された撮影画像ＩＭを取得する構成としているが、これに限らない。例えば、情報提供装置３は、通信部３１を介して車載端末２から撮像部２３にて生成された撮影画像を順次、取得する。そして、画像取得部３２３は、当該順次、取得された撮影画像のうち、車両ＶＥの乗員ＰＡが「あれ何？」との言葉を発したタイミング（ステップＳ３：Ｙｅｓ）で取得された撮影画像をステップＳ４以降の処理に用いる撮影画像として取得する構成としても構わない。

　ステップＳ４の後、領域抽出部３２４は、第１の学習モデルＤＢ３３１に記憶された第１の学習モデルを用いた画像認識により、撮影画像ＩＭ内における視線が集中する注目領域Ａｒ１（図５）を抽出する（ステップＳ５：領域抽出ステップ）。
　ステップＳ５の後、物体認識部３２５は、第２の学習モデルＤＢ３３２に記憶された第２の学習モデルを用いた画像認識により、撮影画像ＩＭ内において、当該ステップＳ５にて抽出された注目領域Ａｒ１に含まれる物体ＯＢ１を認識する（ステップＳ６：物体認識ステップ）。
　ステップＳ６の後、情報提供部３２６は、物体情報ＤＢ３３３から当該ステップＳ６にて認識された物体ＯＢ１に対応する物体情報を読み出し、通信部３１を介して車載端末２に当該物体情報を送信する（ステップＳ７：情報提供ステップ）。そして、制御部２５２は、音声出力部２２及び表示部２４の少なくともいずれかの動作を制御し、情報提供装置３から送信された物体情報を音声、文字、及び画像の少なくともいずれかによって、車両ＶＥの乗員ＰＡに対して報知する。例えば、物体ＯＢ１が「ムーラン・ルージュ」である場合には、物体情報として「あれはムーラン・ルージュです。華やかなダンスショーを夜にやっています。」等の音声が車両ＶＥの乗員ＰＡに対して報知される。また、例えば、物体ＯＢ１が建物ではなく動物のバッファローである場合には、物体情報として「あれはバッファローです。バッファローは群れで行動します。」等の音声が車両ＶＥの乗員ＰＡに対して報知される。

　以上説明した本実施の形態１によれば、以下の効果を奏する。
　本実施の形態１に係る情報提供装置３は、車両ＶＥの周囲を撮影した撮影画像ＩＭを取得し、当該撮影画像ＩＭ内における視線が集中する注目領域Ａｒ１を抽出する。そして、情報提供装置３は、撮影画像ＩＭ内における注目領域Ａｒ１に含まれる物体ＯＢ１を認識し、当該物体ＯＢ１に関する物体情報を車載端末２に送信する。その結果、物体ＯＢ１に関する物体情報を得ることを望む車両ＶＥの乗員ＰＡは、車載端末２から物体情報が報知されることで、当該物体ＯＢ１に関する当該物体情報を認識する。
　したがって、物体ＯＢ１に関する物体情報を得ることを望む車両ＶＥの乗員ＰＡに対して、従来のように当該物体ＯＢ１を手や指で指し示すという作業を行わせる必要がなく、利便性を向上させることができる。

　特に、情報提供装置３は、所謂、視覚的顕著性技術を利用して、撮影画像ＩＭ内における視線が集中する注目領域Ａｒ１を抽出する。このため、車両ＶＥの乗員ＰＡが物体ＯＢ１を手や指で指し示さなくても、当該物体ＯＢ１を含む領域を注目領域Ａｒ１として精度良く抽出することができる。

　また、情報提供装置３は、車両ＶＥの乗員ＰＡからの物体情報の提供を要求する要求情報に応じて、当該物体情報を提供する。このため、当該要求情報によらず、常時、物体情報を提供する構成と比較して、情報提供装置３の処理負荷を軽減することができる。

（実施の形態２）
　次に、本実施の形態２について説明する。
　以下の説明では、上述した実施の形態１と同様の構成には同一符号を付し、その詳細な説明は省略または簡略化する。
　図６は、実施の形態２に係る情報提供装置３Ａの構成を示すブロック図である。
　本実施の形態２に係る情報提供装置３Ａでは、図６に示すように、上述した実施の形態１で説明した情報提供装置３（図３参照）に対して、制御部３２に姿勢検出部３２７の機能が追加されている。また、情報提供装置３Ａでは、物体認識部３２５の機能が変更されている。以下では、説明の便宜上、本実施の形態２に係る物体認識部を物体認識部３２５Ａ（図６参照）と記載する。さらに、情報提供装置３Ａでは、記憶部３３に第３の学習モデルＤＢ３３４（図６参照）が追加されている。

　姿勢検出部３２７は、車両ＶＥの乗員ＰＡの姿勢を検出する。本実施の形態２では、姿勢検出部３２７は、所謂、骨格検知により当該姿勢を検出する。より具体的に、姿勢検出部３２７は、以下に示す第３の学習モデルを用いた画像認識（ＡＩを用いた画像認識）により、撮影画像ＩＭ内に被写体として含まれる車両ＶＥの乗員ＰＡの骨格を検知することで当該乗員ＰＡの姿勢を検出する。
　当該第３の学習モデルは、人が撮影された撮影画像に対して当該人の関節点の位置が予めラベリングされた画像を教師画像とし、当該教師画像に基づいて当該関節点の位置を機械学習（例えば深層学習等）することにより得られたモデルである。
　そして、第３の学習モデルＤＢ３３４は、当該第３の学習モデルを記憶する。

　物体認識部３２５Ａは、上述した実施の形態１で説明した物体認識部３２５と同様の機能の他、領域抽出部３２４にて撮影画像ＩＭ内で複数の注目領域が抽出された場合に実行する機能（以下、追加機能と記載）を有する。当該追加機能は、以下の通りである。
　すなわち、物体認識部３２５Ａは、姿勢検出部３２７にて検出された乗員ＰＡの姿勢に基づいて、当該複数の注目領域のうちいずれか一つの注目領域を特定する。そして、物体認識部３２５Ａは、上述した実施の形態１で説明した物体認識部３２５と同様に、第２の学習モデルを用いた画像認識により、撮影画像ＩＭ内における当該特定した一つの注目領域に含まれる物体を認識する。

　次に、情報提供装置３Ａが実行する情報提供方法について説明する。
　図７は、情報提供方法を示すフローチャートである。図８は、情報提供方法を説明する図である。具体的に、図８は、図５に対応した図であって、撮像部２３にて生成され、ステップＳ４にて取得される撮影画像ＩＭを示している。
　本実施の形態２に係る情報提供方法では、図７に示すように、上述した実施の形態１で説明した情報提供方法（図４参照）に対して、ステップＳ６Ａ１～Ｓ６Ａ３が追加されている。このため、以下では、ステップＳ６Ａ１～Ｓ６Ａ３のみを主に説明する。当該ステップＳ６Ａ１～Ｓ６Ａ３，Ｓ６は、本実施の形態に係る物体認識ステップに相当する。

　ステップＳ６Ａ１は、ステップＳ５の後に実行される。
　具体的に、制御部３２は、ステップＳ６Ａ１において、ステップＳ５にて抽出された注目領域が複数であるか否かを判断する。なお、図８では、ステップＳ５において、３つの注目領域Ａｒ１～Ａｒ３が抽出された場合を例示している。
　注目領域が一つであると判断した場合（ステップＳ６Ａ１：Ｎｏ）には、制御部３２は、ステップＳ６に移行し、当該一つの注目領域（例えば、上述した実施の形態１と同様に注目領域Ａｒ１）に含まれる物体（例えば、物体ＯＢ１）を認識する。

　一方、注目領域が複数であると制御部３２が判断した場合（ステップＳ６Ａ１：Ｙｅｓ）には、制御部３２は、ステップＳ６Ａ２に移行する。
　そして、姿勢検出部３２７は、ステップＳ６Ａ２において、第３の学習モデルＤＢ３３４に記憶された第３の学習モデルを用いた画像認識により、撮影画像ＩＭ内に被写体として含まれる車両ＶＥの乗員ＰＡの骨格を検知することで当該乗員ＰＡの姿勢を検出する。

　ステップＳ６Ａ２の後、物体認識部３２５Ａは、当該ステップＳ６Ａ２にて検出された乗員ＰＡの姿勢から当該乗員ＰＡの顔ＦＡや指ＦＩの向きＤＩ（図８）を特定する。そして、物体認識部３２５Ａは、撮影画像ＩＭにおいて、ステップＳ５にて抽出された３つの注目領域Ａｒ１～Ａｒ３のうち、乗員ＰＡを基準として向きＤＩに位置する一つの注目領域Ａｒ２を特定する（ステップＳ６Ａ３）。
　そして、ステップＳ６Ａ３の後、制御部３２は、ステップＳ６に移行し、当該一つの注目領域Ａｒ２に含まれる物体ＯＢ２（図８）を認識する。

　以上説明した本実施の形態２によれば、上述した実施の形態１と同様の効果の他、以下の効果を奏する。
　本実施の形態２に係る情報提供装置３Ａは、撮影画像ＩＭ内に複数の注目領域Ａｒ１～Ａｒ３を抽出した場合に、車両ＶＥの乗員ＰＡの姿勢を検出し、当該姿勢に基づいて、複数の注目領域Ａｒ１～Ａｒ３から一つの注目領域Ａｒ２を特定する。そして、情報提供装置３は、当該特定した注目領域Ａｒ２に含まれる物体ＯＢ２を認識する。
　このため、撮影画像ＩＭ内に複数の注目領域Ａｒ１～Ａｒ３を抽出した場合であっても、車両ＶＥの乗員ＰＡが物体情報を得ることを望む物体ＯＢ２を含む領域を注目領域Ａｒ１として精度良く特定することができる。したがって、車両ＶＥの乗員ＰＡに対して、適切な物体情報を提供することができる。

　特に、情報提供装置３Ａは、所謂、骨格検知により車両ＶＥの乗員ＰＡの姿勢を検出する。このため、当該姿勢を高精度に検出することができ、撮影画像ＩＭ内に複数の注目領域Ａｒ１～Ａｒ３を抽出した場合であっても、車両ＶＥの乗員ＰＡに対して、適切な物体情報を提供することができる。

（実施の形態３）
　次に、本実施の形態３について説明する。
　以下の説明では、上述した実施の形態１と同様の構成には同一符号を付し、その詳細な説明は省略または簡略化する。
　図９は、実施の形態３に係る車載端末２Ｂの構成を示すブロック図である。
　本実施の形態３に係る車載端末２Ｂでは、図９に示すように、上述した実施の形態１で説明した車載端末２（図２参照）に対して、センサ部２６が追加されている。
　センサ部２６は、図９に示すように、ライダ２６１と、ＧＮＳＳ（Global　Navigation　Satellite　System）センサ２６２とを備える。
　ライダ２６１は、外界に存在する物体までの距離を離散的に測定し、当該物体の表面を３次元の点群として認識し、点群データを生成する。なお、外界に存在する物体までの距離を測定することができるセンサであれば、ライダ２６１に限らず、ミリ波レーダ及びソナー等の他の外界センサを採用しても構わない。
　ＧＮＳＳセンサ２６２は、ＧＮＳＳを利用して、航法衛星から送信された測位用データを含む電波を受信する。当該測位用データは、緯度及び経度情報等から車両ＶＥの絶対的な位置を検出するために用いられ、本実施の形態に係る位置情報に相当する。なお、利用されるＧＮＳＳは、例えば、ＧＰＳ（Global　Positioning　System）であってもよいし、他のシステムであっても構わない。
　そして、センサ部２６は、当該点群データや当該測位用データ等の出力データを端末本体２５に出力する。

　図１０は、実施の形態３に係る情報提供装置３Ｂの構成を示すブロック図である。
　また、本実施の形態３に係る情報提供装置３Ｂでは、上述した実施の形態１で説明した情報提供装置３（図３参照）に対して、物体認識部３２５の機能が変更されている。以下では、説明の便宜上、本実施の形態３に係る物体認識部を物体認識部３２５Ｂ（図１０参照）と記載する。また、情報提供装置３Ｂでは、第２の学習モデルＤＢ３３２が省略されているとともに、記憶部３３に地図ＤＢ３３５（図１０参照）が追加されている。

　地図ＤＢ３３５は、地図データを記憶する。当該地図データは、道路に相当するリンクと道路の接続部分（交差点）に相当するノードとにより表された道路データや、各施設と当該各施設の位置（以下、施設位置と記載）とがそれぞれ対応付けられた施設情報等を含む。
　物体認識部３２５Ｂは、通信部３１を介して車載端末２からセンサ部２６の出力データ（ライダ２６１にて生成された点群データ、ＧＮＳＳセンサ２６２にて受信した測位用データ）を取得する。そして、物体認識部３２５Ｂは、当該出力データと、撮影画像ＩＭと、地図ＤＢ３３５に記憶された地図データとに基づいて、当該撮影画像ＩＭ内において、領域抽出部３２４にて抽出された注目領域に含まれる物体を認識する。
　以上説明した物体認識部３２５Ｂは、本実施の形態に係る物体認識部の他、位置情報取得部及び施設情報取得部に相当する。

　次に、情報提供装置３Ｂが実行する情報提供方法について説明する。
　図１１は、情報提供方法を示すフローチャートである。
　本実施の形態３に係る情報提供方法では、図１１に示すように、上述した実施の形態１で説明した情報提供方法（図４参照）に対して、ステップＳ６の代わりに、ステップＳ６Ｂ１～Ｓ６Ｂ５が追加されている。このため、以下では、ステップＳ６Ｂ１～Ｓ６Ｂ５のみを主に説明する。当該ステップＳ６Ｂ１～Ｓ６Ｂ５は、本実施の形態に係る物体認識ステップに相当する。

　ステップＳ６Ｂ１は、ステップＳ５の後に実行される。
　具体的に、物体認識部３２５Ｂは、ステップＳ６Ｂ１において、通信部３１を介して車載端末２からセンサ部２６の出力データ（ライダ２６１にて生成された点群データ、ＧＮＳＳセンサ２６２にて生成された測位用データ）を取得する。
　なお、図１１では、車両ＶＥの乗員ＰＡが特定のキーワードを含む言葉を発したタイミング（ステップＳ３：Ｙｅｓ）で物体認識部３２５Ｂが通信部３１を介して車載端末２からセンサ部２６の出力データを取得する構成としているが、これに限らない。例えば、情報提供装置３Ｂは、通信部３１を介して車載端末２からセンサ部２６の出力データを順次、取得する。そして、物体認識部３２５Ｂは、当該順次、取得された出力データのうち、車両ＶＥの乗員ＰＡが特定のキーワードを含む言葉を発したタイミング（ステップＳ３：Ｙｅｓ）で取得された出力データをステップＳ６Ｂ１以降の処理に用いる出力データとして取得する構成としても構わない。

　ステップＳ６Ｂ１の後、物体認識部３２５Ｂは、当該ステップＳ６Ｂ１にて取得した出力データ（ＧＮＳＳセンサ２６２にて受信した測位用データ）及び地図ＤＢ３３５に記憶された地図データに基づいて、車両ＶＥの位置を推定する（ステップＳ６Ｂ２）。
　ステップＳ６Ｂ２の後、物体認識部３２５Ｂは、ステップＳ５にて抽出された撮影画像ＩＭにおける注目領域に含まれる物体の位置を推定する（ステップＳ６Ｂ３）。ここで、物体認識部３２５Ｂは、ステップＳ６Ｂ１にて取得した出力データ（点群データ）と、ステップＳ６Ｂ２にて推定した車両ＶＥの位置と、ステップＳ５にて抽出された撮影画像ＩＭ内での注目領域の位置とを利用して、当該物体の位置を推定する。

　ステップＳ６Ｂ３の後、物体認識部３２５Ｂは、地図ＤＢ３３５からステップＳ６Ｂ３にて推定した物体の位置と略同一の施設位置を含む施設情報を取得する（ステップＳ６Ｂ４）。
　ステップＳ６Ｂ４の後、物体認識部３２５Ｂは、ステップＳ６Ｂ４にて取得した施設情報に含まれる施設をステップＳ５にて抽出された撮影画像ＩＭにおける注目領域に含まれる物体として認識する（ステップＳ６Ｂ５）。
　そして、制御部３２は、ステップＳ６Ｂ５の後、ステップＳ７に移行する。

　以上説明した本実施の形態３によれば、上述した実施の形態１と同様の効果の他、以下の効果を奏する。
　本実施の形態３に係る情報提供装置３Ｂは、位置情報（ＧＮＳＳセンサ２６２にて受信した測位用データ）及び施設情報に基づいて、撮影画像ＩＭ内における注目領域に含まれる物体を認識する。言い換えれば、情報提供装置３Ｂは、ナビゲーション装置において汎用されている情報（位置情報及び施設情報）に基づいて、撮影画像ＩＭ内における注目領域に含まれる物体を認識する。
　このため、上述した実施の形態１で説明した第２の学習モデルＤＢ３３２を設ける必要がなく、情報提供装置３Ｂの構成の簡素化を図ることができる。

（実施の形態４）
　次に、本実施の形態４について説明する。
　以下の説明では、上述した実施の形態１と同様の構成には同一符号を付し、その詳細な説明は省略または簡略化する。
　図１２は、実施の形態４に係る情報提供装置３Ｃの構成を示すブロック図である。
　本実施の形態４に係る情報提供装置３Ｃでは、図１２に示すように、上述した実施の形態１で説明した情報提供装置３（図３参照）に対して、物体認識部３２５及び情報提供部３２６の機能が変更されている。以下では、説明の便宜上、本実施の形態４に係る物体認識部を物体認識部３２５Ｃ（図１２参照）と記載し、本実施の形態４に係る情報提供部を情報提供部３２６Ｃ（図１２参照）と記載する。

　物体認識部３２５Ｃは、上述した実施の形態１で説明した物体認識部３２５と同様の機能の他、領域抽出部３２４にて撮影画像ＩＭ内で複数の注目領域が抽出された場合に実行する機能（以下、追加機能と記載）を有する。当該追加機能は、以下の通りである。
　すなわち、物体認識部３２５Ｃは、第２の学習モデルを用いた画像認識により、撮影画像ＩＭ内における当該複数の注目領域にそれぞれ含まれる物体をそれぞれ認識する。

　情報提供部３２６Ｃは、上述した実施の形態１で説明した情報提供部３２６と同様の機能の他、領域抽出部３２４にて撮影画像ＩＭ内で複数の注目領域が抽出された場合に実行する機能（以下、追加機能と記載）を有する。当該追加機能は、以下の通りである。
　すなわち、情報提供部３２６Ｃは、音声解析部３２２による解析結果と、物体情報ＤＢ３３３に記憶された物体情報とに基づいて、物体認識部３２５Ｃにて認識された各物体から一つの物体を特定する。そして、情報提供部３２６Ｃは、通信部３１を介して車載端末２に当該特定した一つの物体に対応する物体情報を送信する。

　次に、情報提供装置３Ｃが実行する情報提供方法について説明する。
　図１３は、情報提供方法を示すフローチャートである。図１４は、情報提供方法を説明する図である。具体的に、図１４は、図５に対応した図であって、撮像部２３にて生成され、ステップＳ４にて取得される撮影画像ＩＭを示している。ここで、図１４では、図５の例とは異なり、車両ＶＥの助手席に座った乗員ＰＡが「あの赤い建物何？」という言葉を発している場合を例示している。
　本実施の形態４に係る情報提供方法では、図１３に示すように、上述した実施の形態１で説明した情報提供方法（図４参照）に対して、ステップＳ６Ｃ１，Ｓ６Ｃ２，Ｓ７Ｃが追加されている。このため、以下では、ステップＳ６Ｃ１，Ｓ６Ｃ２，Ｓ７Ｃのみを主に説明する。当該ステップＳ６Ｃ１，Ｓ６Ｃ２とステップＳ６とは、それぞれ本実施の形態に係る物体認識ステップに相当する。また、当該ステップＳ７ＣとステップＳ７とは、それぞれ本実施の形態に係る情報提供ステップに相当する。

　ステップＳ６Ｃ１は、ステップＳ５の後に実行される。
　具体的に、制御部３２は、ステップＳ６Ｃ１において、上述した実施の形態２で説明したステップＳ６Ａ１と同様に、ステップＳ５にて抽出された注目領域が複数であるか否かを判断する。なお、図１４では、図８と同様に、ステップＳ５において、３つの注目領域Ａｒ１～Ａｒ３が抽出された場合を例示している。
　注目領域が一つであると判断した場合（ステップＳ６Ｃ１：Ｎｏ）には、制御部３２は、ステップＳ６に移行し、当該一つの注目領域（例えば、上述した実施の形態１と同様に注目領域Ａｒ１）に含まれる物体（例えば、物体ＯＢ１）を認識する。

　一方、注目領域が複数であると判断した場合（ステップＳ６Ｃ１：Ｙｅｓ）には、制御部３２は、ステップＳ６Ｃ２に移行する。
　そして、物体認識部３２５Ｃは、第２の学習モデルＤＢ３３２に記憶された第２の学習モデルを用いた画像認識により、撮影画像ＩＭ内において、ステップＳ５にて抽出された３つの注目領域Ａｒ１～Ａｒ３にそれぞれ含まれる物体ＯＢ１～ＯＢ３をそれぞれ認識する（ステップＳ６Ｃ２）。

　ステップＳ６Ｃ２の後、情報提供部３２６Ｃは、ステップＳ７Ｃを実行する。
　具体的に、情報提供部３２６Ｃは、ステップＳ７Ｃにおいて、ステップＳ６Ｃ２にて認識された各物体から一つの物体を特定する。ここで、情報提供部３２６Ｃは、要求情報（音声情報）に含まれる物体の属性と、物体情報ＤＢ３３３に記憶された物体情報のうち、ステップＳ６Ｃ２にて認識された各物体ＯＢ１～ＯＢ３に対応する３つの物体情報とに基づいて、当該一つの物体を特定する。
　なお、要求情報（音声情報）に含まれる物体の属性とは、ステップＳ２にて当該要求情報（音声情報）が解析されることで生成されるものである。例えば、図１４に示すように、車両ＶＥの乗員ＰＡが「あの赤い建物何？」との言葉を発した場合には、「赤い」との言葉と、「建物」との言葉とが物体の属性となる。具体的に、物体の属性とは、赤等の色、四角等の形状、建物等の種別を示す情報である。そして、情報提供部３２６Ｃは、ステップＳ７Ｃにおいて、各物体ＯＢ１～ＯＢ３に対応する３つの物体情報を参照し、「赤い」及び「建物」の文字データを含む物体情報に対応する一つの物体（例えば、物体ＯＢ３）を特定する。また、情報提供部３２６Ｃは、通信部３１を介して車載端末２に当該特定した一つの物体に対応する物体情報を送信する。

　以上説明した本実施の形態４によれば、上述した実施の形態１と同様の効果の他、以下の効果を奏する。
　本実施の形態４に係る情報提供装置３Ｃは、撮影画像ＩＭ内に複数の注目領域Ａｒ１～Ａｒ３を抽出した場合に、要求情報（音声情報）の解析結果に基づいて、当該複数の注目領域Ａｒ１～Ａｒ３にそれぞれ含まれる物体ＯＢ１～ＯＢ３のうち一つの物体に関する物体情報を提供する。
　このため、撮影画像ＩＭ内に複数の注目領域Ａｒ１～Ａｒ３を抽出した場合であっても、車両ＶＥの乗員ＰＡが物体情報を得ることを望む物体ＯＢ３を精度良く特定することができる。したがって、車両ＶＥの乗員ＰＡに対して、適切な物体情報を提供することができる。

（その他の実施形態）
　ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態１～４によってのみ限定されるべきものではない。
　上述した実施の形態１～４に係る情報提供装置３，３Ａ～３Ｃは、特定のキーワードを含む要求情報（音声情報）を取得したことをトリガとして、画像取得ステップ、領域抽出ステップ、物体認識ステップ、及び情報提供ステップ等の各処理を実行していた。しかしながら、本実施の形態に係る情報提供装置としては、特定のキーワードを含む要求情報（音声情報）を取得しなくても、常時、当該各処理を実行する構成としても構わない。また、本実施の形態に係る要求情報としては、音声情報に限らず、車両ＶＥの乗員ＰＡによる車載端末２，２Ｂに設けられたスイッチ等の操作部への操作に応じた操作情報であっても構わない。

　上述した実施の形態１～４において、情報提供装置３，３Ａ～３Ｃの全ての構成を車載端末２，２Ｂに設けても構わない。この場合には、当該車載端末２，２Ｂは、本実施の形態に係る情報提供装置に相当する。また、情報提供装置３，３Ａ～３Ｃにおける制御部３２の一部の機能、及び記憶部３３の一部を車載端末２，２Ｂに設けても構わない。この場合には、情報提供システム１全体が本実施の形態に係る情報提供装置に相当する。

　３，３Ａ～３Ｃ　情報提供装置
　３２１　要求情報取得部
　３２２　音声解析部
　３２３　画像取得部
　３２４　領域抽出部
　３２５，３２５Ａ～３２５Ｃ　物体認識部
　３２６，３２６Ｃ　情報提供部
　３２７　姿勢検出部

Claims

　移動体の周囲を撮影した撮影画像を取得する画像取得部と、
　前記撮影画像内における視線が集中する注目領域を抽出する領域抽出部と、
　前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識部と、
　前記注目領域に含まれる物体に関する物体情報を提供する情報提供部とを備える
　ことを特徴とする情報提供装置。
　前記移動体内における乗員の姿勢を検出する姿勢検出部をさらに備え、
　前記領域抽出部は、
　複数の前記注目領域を抽出し、
　前記物体認識部は、
　前記姿勢に基づいて、前記複数の注目領域のうちいずれか一つの注目領域を特定し、当該特定した注目領域に含まれる物体を認識する
　ことを特徴とする請求項１に記載の情報提供装置。
　前記撮影画像は、
　前記移動体内における乗員を被写体として含み、
　前記姿勢検出部は、
　前記撮影画像に基づいて、前記乗員の骨格を検知することで前記姿勢を検出する
　ことを特徴とする請求項２に記載の情報提供装置。
　前記移動体の位置に関する位置情報を取得する位置情報取得部と、
　施設に関する施設情報を取得する施設情報取得部とをさらに備え、
　前記物体認識部は、
　前記位置情報及び前記施設情報に基づいて、前記注目領域に含まれる物体を認識する
　ことを特徴とする請求項１～３のいずれか一つに記載の情報提供装置。
　前記移動体内における乗員からの前記物体情報の提供を要求する要求情報を取得する要求情報取得部をさらに備え、
　前記情報提供部は、
　前記要求情報に応じて前記物体情報を提供する
　ことを特徴とする請求項１～４のいずれか一つに記載の情報提供装置。
　前記要求情報は、
　前記乗員が発した音声に関する音声情報であり、
　前記音声情報を解析する音声解析部をさらに備え、
　前記領域抽出部は、
　複数の前記注目領域を抽出し、
　前記物体認識部は、
　前記複数の注目領域に含まれる物体をそれぞれ認識し、
　前記情報提供部は、
　前記音声情報の解析結果に基づいて、前記複数の注目領域にそれぞれ含まれる物体のうちいずれか一つの物体に関する前記物体情報を提供する
　ことを特徴とする請求項５に記載の情報提供装置。
　情報提供装置が実行する情報提供方法であって、
　移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、
　前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、
　前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、
　前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップとを含む
　ことを特徴とする情報提供方法。
　移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、
　前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、
　前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、
　前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップと
　をコンピュータに実行させるための情報提供プログラム。
　移動体の周囲を撮影した撮影画像を取得する画像取得ステップと、
　前記撮影画像内における視線が集中する注目領域を抽出する領域抽出ステップと、
　前記撮影画像内における前記注目領域に含まれる物体を認識する物体認識ステップと、
　前記注目領域に含まれる物体に関する物体情報を提供する情報提供ステップとをコンピュータに実行させるための情報提供プログラムを記憶した
　ことを特徴とする記憶媒体。