WO2021153201A1

WO2021153201A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2021153201A1
Application number: PCT/JP2021/000600
Authority: WO
Inventors: 祐平滝; 泰生可部; 広岩瀬; 邦仁澤井
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-01-31
Filing date: 2021-01-12
Publication date: 2021-08-05
Anticipated expiration: 2022-07-31
Also published as: US20230064042A1; US12198694B2; JPWO2021153201A1; EP4099321A4; EP4099321A1; JP7597040B2

Abstract

本開示に係る情報処理装置は、ユーザの吸気を示す吸気情報を取得する取得部と、前記取得部により取得された前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する予測部と、を備える。

Description

情報処理装置及び情報処理方法

　本開示は、情報処理装置及び情報処理方法に関する。

　近年、ユーザと音声によるコミュニケーション（対話）を行う音声対話システムの技術が提供されている。例えば、音声対話システムにおいて発話タイミングを決定する技術が知られている（例えば特許文献１）。

特開２０１７－２１１５９６号公報

　従来技術によれば、ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて音声対話システムの発話タイミングを決定する。

　しかしながら、従来技術では、ユーザの発話有無を適切に予測することができるとは限らない。例えば、従来技術では、ユーザにシステム側が発話するタイミングを決定しているに過ぎず、このような技術では、ユーザが発話を行うかを予測することは難しい。そのため、ユーザの発話有無を適切に予測することが望まれている。

　そこで、本開示では、ユーザの発話有無を適切に予測することができる情報処理装置及び情報処理方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、ユーザの吸気を示す吸気情報を取得する取得部と、前記取得部により取得された前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する予測部と、を備える。

本開示の実施形態に係る情報処理の一例を示す図である。ユーザの吸気情報の一例を示す図である。ユーザの吸気を用いた予測の一例を示す図である。ユーザの吸気と発話の関係の一例を示す図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係るサーバ装置の構成例を示す図である。本開示の実施形態に係る閾値情報記憶部の一例を示す図である。本開示の実施形態に係る端末装置の構成例を示す図である。本開示の実施形態に係る情報処理装置の処理手順を示すフローチャートである。本開示の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。吸気の分類結果を用いた処理の一例を示す図である。ユーザの吸気情報の一例を示す図である。ユーザの吸気を用いた予測の一例を示す図である。吸気の分類結果を用いた処理の一例を示す図である。ユーザの吸気情報の一例を示す図である。ユーザの吸気を用いた予測の一例を示す図である。吸気の分類結果を用いた処理の一例を示す図である。ユーザの吸気情報の一例を示す図である。ユーザの吸気を用いた予測の一例を示す図である。吸気の分類結果を用いた処理の一例を示す図である。吸気の分類結果を用いた処理の一例を示す図である。吸気の分類結果を用いた処理の一例を示す図である。ユーザの吸気情報の一例を示す図である。ユーザの吸気を用いた予測の一例を示す図である。ユーザの発話の長さと文字数の関係の一例を示す図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．本開示の実施形態に係る情報処理の概要
　　　　１－１－１．背景及び効果等
　　　　１－１－２．センサ例
　　　　　１－１－２－１．接触型
　　　　　１－１－２－２．非接触型
　　　１－２．実施形態に係る情報処理システムの構成
　　　１－３．実施形態に係る情報処理装置の構成
　　　１－４．実施形態に係る端末装置の構成
　　　１－５．実施形態に係る情報処理の手順
　　　　１－５－１．情報処理装置に係る処理の手順
　　　　１－５－２．情報処理システムに係る処理の手順
　　　１－６．分類結果を用いた処理例
　　　　１－６－１．呼吸状態による起動ワードの省略例
　　　　１－６－２．ローカル／クラウド音声認識の切替え例
　　　　１－６－３．音声認識辞書の変更例
　　　　１－６－４．吸気状態により選択されるＵＩの変更例
　　　　１－６－５．システムレスポンスの変更例
　　２．その他の実施形態
　　　２－１．クライアント側で予測処理等を行う構成例
　　　２－２．その他の構成例
　　　２－３．その他
　　３．本開示に係る効果
　　４．ハードウェア構成

［１．実施形態］
［１－１．本開示の実施形態に係る情報処理の概要］
　図１は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、サーバ装置１００（図６参照）や端末装置１０（図８参照）を含む情報処理システム１（図５参照）によって実現される。

　サーバ装置１００は、実施形態に係る情報処理を実行する情報処理装置である。サーバ装置１００は、ユーザの吸気を示す吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する。図１の例では、ユーザが利用する端末装置１０の呼吸センサ１７１（図８参照）により検知されたセンサ情報を吸気情報として用いる場合を示す。なお、図１の例では、ミリ波レーダを用いた呼吸センサ１７１によりユーザの吸気を示す吸気情報を検知する場合を示すが、ミリ波レーダに限らず、ユーザの吸気情報を検知可能であれば、どのようなセンサが用いられてもよい。この点については後述する。

　以下、図１について具体的に説明する。以下では、端末装置１０により検知されたユーザＵ１の吸気を示す吸気情報を用いて、サーバ装置１００がユーザＵ１の吸気の後にユーザＵ１が発話するか否かを予測する予測処理を行う場合を一例として説明する。なお、図１では、サーバ装置１００が予測処理（情報処理）を行う場合を一例として説明するが、端末装置１０が予測処理（情報処理）を行ってもよい。この点については後述する。

　まず、図１の例では、サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報ＢＩＮＦ１を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報ＢＩＮＦ１を取得する。図１の例では、端末装置１０がスマートスピーカである場合を示す。なお、端末装置１０は、スマートスピーカに限らず、スマートフォンなどどのような機器であってもよいが、この点についての詳細は後述する。

　サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報ＢＩＮＦ１を用いて、予測処理を行う（ステップＳ１）。サーバ装置１００は、吸気情報ＢＩＮＦ１を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、吸気情報ＢＩＮＦ１に対応する吸気の後にユーザＵ１が発話するか否かを予測する。サーバ装置１００は、算出したスコアが閾値よりも大きい場合、吸気情報ＢＩＮＦ１に対応する吸気の後にユーザＵ１が発話すると予測する。

　以下、サーバ装置１００が行う上述の予測処理について、図２及び図３を用いて具体的に説明する。図２は、ユーザの吸気情報の一例を示す図である。図３は、ユーザの吸気を用いた予測の一例を示す図である。

　図２中のグラフＧＲ１は、時間と吸気量との関係を示すグラフであり、横軸が時間を示し、縦軸が吸気量を示すグラフである。グラフＧＲ１中の線ＬＮ１と線ＬＮ２との間の範囲は、ユーザＵ１の通常時の呼吸の範囲（通常呼吸範囲）を示す。例えば、線ＬＮ１に対応する呼吸量は、通常呼吸時の吸気量の下限値を示す。また、例えば、線ＬＮ２に対応する呼吸量は、通常呼吸時の吸気量の上限値を示す。例えば、ユーザＵ１の通常時には、線ＬＮ１と線ＬＮ２との呼吸の範囲（通常呼吸範囲）の吸気量で呼吸を繰り返す。

　また、グラフＧＲ１中の現時点ＣＲ１の吸気量である現在吸気量「Ｂ＿ｃｕｒｒｅｎｔ」が、吸気情報ＢＩＮＦ１の検知時点（現時点）での最新の吸気量を示す。また、例えば、グラフＧＲ１中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、現在値ＣＲ１における吸気量の変化（増加量）を示す。

　例えば、吸気情報ＢＩＮＦ１には、図２中の現在値ＣＲ１の吸気量である現在吸気量「Ｂ＿ｃｕｒｒｅｎｔ」と、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」が含まれる。なお、吸気情報ＢＩＮＦ１には、図２中の現在値ＣＲ１の直前の吸気開始時点ＩＳ１と現在値ＣＲ１との間の吸気量の推移が含まれてもよい。この場合、サーバ装置１００は、吸気量の推移から増加量「Ｂ＿ｉｎｃｒｅａｓｅ」を算出してもよい。なお、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、時間の経過（増加量）に対する吸気量の増加量の比率を示す情報であってもよい。例えば、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、傾き（変化の割合）であってもよい。

　サーバ装置１００は、現在吸気量「Ｂ＿ｃｕｒｒｅｎｔ」と増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と以下の式（１）を用いて、発話予測に用いるスコアである発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」を算出する。

　上記の式（１）中の「ａ」や「ｂ」は、所定の定数を示す。なお、上記の式（１）は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」の算出の一例であり、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」の算出には種々の数式が用いられてもよい。

　そして、サーバ装置１００は、発話有無の予測に用いる閾値である発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」を用いて、ユーザＵ１が発話するか否かを予測する。サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」と発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」との比較により、ユーザＵ１が発話するか否かを予測する。すなわち、サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」の値による発話タイプを分類する。

　サーバ装置１００は、図３中の予測結果ＰＤ１に示すように、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」と発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」との比較により、ユーザＵ１が発話するか否かを予測する。

　図３の例では、サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」よりも大きい場合、ユーザＵ１が発話すると予測する。この場合、サーバ装置１００は、現在の吸気の後に発話がされる可能性が高いとして、音声認識に必要な事前処理を実行する。サーバ装置１００は、ユーザＵ１が吸気を終了後に発話すると予測し次第、音声認識に必要な事前処理を実行する。図２の例では、サーバ装置１００は、ユーザＵ１が吸気を終了する前（最大吸気量「Ｂ＿ｍａｘ」に到達する前）に、音声認識に必要な事前処理を実行する。

　また、図３の例では、サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」以下である場合、ユーザＵ１が発話しないと予測する。この場合、サーバ装置１００は、現在の吸気の後に発話が想定されないとして、事前起動は行わない。

　なお、閾値と等しい場合をいずれに含めるかは適宜設定されてもよい。サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」以上である場合、ユーザＵ１が発話すると予測し、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」未満である場合、ユーザＵ１が発話しないと予測してもよい。

　このように、サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」と発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」とを比較することにより、吸気情報ＢＩＮＦ１に対応する吸気の後にユーザＵ１が発話するか否かを予測する。なお、発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」等の各閾値はユーザの運動状態などの変化により通常呼吸範囲の変化に合わせて増減させてもよい。

　上述のように、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」は、現在呼吸量や増加量を加味した値となる。サーバ装置１００は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」を用いることで、現在の吸気量と増加量からその後に発話がある可能性を予測する。これにより、サーバ装置１００は、吸気の最大点到達前でも発話可能性を判断でき、事前のシステム準備に利用することを可能にする。

　ここで、ユーザの吸気と発話の関係について、図４を用いて簡単に説明する。図４は、ユーザの吸気と発話の関係の一例を示す図である。図４に示す波形は、ユーザの通常の呼吸（定常呼吸）から発話を行いその発話が終了するまでの吸気量の推移の一例を示す。このように、吸気量は、ユーザが発話する際は定常呼吸よりも増加し、発話とともに減少するように推移する。例えば、吸気に関する吸気情報のうち、吸気増加度は、急ぎ度合い等と関係がある。また、例えば、吸気に関する吸気情報のうち、最大吸気量は、発話文章量や発話音量等と関係がある。また、例えば、吸気に関する吸気情報のうち、吸気減少度は、発話終了予測等に用いることができる。また、例えば、吸気に関する吸気情報のうち、発話終了時吸気量は、発話継続の可能性の予測等に用いることができる。

　また、発話に関係する呼吸から予測（推定）できる可能性があるものとしては、例えば以下のような情報が挙げられる。例えば、発話前においては、機器操作のための発話かどうかや発話文章量や急ぎ度合い等が一例として挙げられる。また、例えば、発話中においては、発話の終了が近づいているかどうか等が一例として挙げられる。また、例えば、発話後においては、次発話が連続する可能性があるかどうか等が一例として挙げられる。なお、上記は一例であり、サーバ装置１００は、上述のようにユーザの吸気の情報を用いて、ユーザの発話に関する種々の情報を予測（推定）してもよい。このように、サーバ装置１００は、上述のようにユーザの吸気の情報を用いることで、ユーザの発話に関する種々の情報を予測（推定）することができる。

　また、図２中のグラフＧＲ１中の２点鎖線で示す現時点ＣＲ１よりも先の時点での波形は、呼吸量の予測値を示す。サーバ装置１００は、現時点ＣＲ１までの吸気量の推移や、過去のユーザＵ１の呼吸の履歴に基づいて、現時点ＣＲ１よりも先の時点の呼吸量を予測してもよい。この場合、サーバ装置１００は、現時点ＣＲ１に対応する吸気により到達する最大の吸気量を示す最大吸気量「Ｂ＿ｍａｘ」を予測することができる。これにより、サーバ装置１００は、後述する最大呼吸量（最大吸気量）を用いた処理を事前に行うことができる。また、サーバ装置１００は、ユーザが呼気（排気）を終えて、吸気を開始した時点の吸気量（初期吸気量）と、その時点からの呼気の増加量とを用いて、ユーザが発話するか否かを予測してもよい。この場合、図２の例では、サーバ装置１００は、吸気開始時点ＩＳ１の吸気量（初期吸気量）と、吸気開始時点ＩＳ１からの増加量とを用いて、ユーザが発話するか否かを予測する。これにより、サーバ装置１００は、ユーザが呼気を開始してから短い時間で、ユーザが発話するか否かを予測することが可能となる。

　なお、サーバ装置１００は、上述の式（１）を用いた処理は一例であり、上述した処理に限らず、種々の手法により予測処理を行ってもよい。例えば、サーバ装置１００は、機械学習に関する技術を用いて、予測処理を行ってもよい。この場合、サーバ装置１００は、吸気情報を入力した場合にスコアを出力するモデルを用いて、予測処理を行ってもよい。サーバ装置１００は、吸気情報に対応する吸気の後にユーザが発話する可能性が高い程、高いスコアを出力するモデルを用いて、予測処理を行ってもよい。例えば、サーバ装置１００は、ユーザの吸気を示す吸気情報と、その吸気の後の発話の有無を示す情報との組合せを含む学習データを用いてモデルを学習してもよいし、モデルを外部の情報処理装置から取得してもよい。

　ここから、図１に戻って説明を続ける。ステップＳ１において発話有と予測された場合、情報処理システム１は、起動処理を開始する（ステップＳ１１）。情報処理システム１は、音声認識に必要な事前処理を行う。例えば、情報処理システム１は、マイク起動やクライアントとサーバ間の通信接続（クラウドへの接続）などの処理を行う。例えば、サーバ装置１００は、端末装置１０にマイクの起動や音声認識の起動を指示する。端末装置１０は、マイクの起動や音声認識の起動を行う。このように、情報処理システム１は、発話有と予測された場合、音声認識に必要な事前処理を先読みで実行する。

　そして、情報処理システム１は、ユーザＵ１に起動を認識させる（ステップＳ１２）。情報処理システム１は、端末装置１０から音や光を出力することにより音声認識等の起動を明示する処理を行う。端末装置１０は、音声認識の起動を示す通知音や光の放射を行うことにより、ＷａｋｅＵｐＲｅｓｐｏｎｓｅ（以下単に「起動通知」ともいう）を行う。図１の例では、端末装置１０は、光源部１８を点灯させることにより、ユーザＵ１に起動を認識させる。これにより、ユーザＵ１は、音声による入力が可能になったと認識することができる。

　そして、ユーザＵ１が発話を行う（ステップＳ１３）。例えば、ユーザＵ１は、端末装置１０に対して所定の情報を要求する音声入力を行う。ユーザＵ１は、端末装置１０に対して検索処理を要求する音声入力を行う。

　そして、情報処理システム１は、ユーザＵ１による入力に対して従来処理（音声対話システムの処理）を行う（ステップＳ１４）。例えば、情報処理システム１は、自然言語理解（ＮＬＵ：Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）により、ユーザの入力を解釈し、対応する処理（Ａｃｔｉｏｎ）を実行する。サーバ装置１００または端末装置１０は、自然言語理解（ＮＬＵ）によりユーザの入力を解釈し、対応する処理（Ａｃｔｉｏｎ）を実行する。図１の例では、端末装置１０は、「ＯＫ.　Ｈｅｒｅ’ｓ　ｔｈｅ　ｒｅｓｕｌｔ.…」とユーザＵ１の要求に対する音声出力の処理を行う。

　一方、ステップＳ１において発話無と予測された場合、情報処理システム１は、起動処理を開始しない（ステップＳ１１）。情報処理システム１は、音声認識を起動しない。端末装置１０は、音声認識の起動を行わない。

　このように、情報処理システム１は、ユーザの吸気に基づく発話予測結果を用いて、音声認識などを起動するか否かを決定することで、発話前呼吸状態による起動ワードの省略を可能にすることができる。

［１－１－１．背景及び効果等］
　既存の音声ＵＩ（User　Interface）では、発話するユーザの状態を考慮していないため、様々なユーザ負担を強いている場合がある。例えば、ユーザは起動ワードを（音声）入力したり、起動ボタンを操作したりする必要がある。

　一方で、情報処理システム１は、ユーザが発話を行う前の呼吸状態を検知し、その状態に合わせた音声ＵＩシステムの動的な変更を行う。これにより、情報処理システム１は、システムへの依頼発話を行う前の呼吸時には起動ワードを省略することができる。したがって、情報処理システム１は、ユーザビリティを向上させることができる。

［１－１－２．センサ例］
　図１の例では、ユーザの吸気を示す吸気情報を検知する呼吸センサ１７１の一例としてミリ波レーダを用いた場合を説明したが、呼吸センサ１７１は、ミリ波レーダに限らず、ユーザの吸気情報を検知可能であれば、どのようなセンサであってもよい。この点について以下、例示を記載する。

［１－１－２－１．接触型］
　図１の例では、ミリ波レーダを用いた呼吸センサ１７１、すなわち非接触型のセンサを用いた吸気情報の検知を例として説明したが、吸気情報の検知（取得）に用いるセンサは、非接触型に限らず接触型であってもよい。以下、接触型のセンサの例示を記載する。

　呼吸センサ１７１は、ウェアラブルセンサであってもよい。呼吸センサ１７１は、バンド式、ジャケット式、マスク式等の種々の態様の接触型のセンサが用いられてもよい。

　呼吸センサ１７１にバンド式のセンサが用いられる場合、情報処理システム１は、ユーザの胸や腹に巻いたバンドの伸縮から呼吸の変位量を取得する。呼吸センサ１７１にジャケット式のセンサが用いられる場合、情報処理システム１は、ユーザが着用するジャケット内にバンドを埋め込む。また、複数個所（方向）へのセンサを装備することにより呼吸検出の精度を向上させることができる。

　また、呼吸センサ１７１に加速度センサが用いられる場合、情報処理システム１は、首掛け機器やユーザの上半身に装着したスマートフォンなどのウェアラブル機器に搭載されている加速度センサにより胸部の動きを観測し、呼吸量を推定してもよい。また、呼吸センサ１７１にマスク式のセンサが用いられる場合、情報処理システム１は、マスクに搭載された風量センサもしくは気圧センサにより呼気及び吸気の速度を検知し、累積した変位量から深さと周期を推定する。

　また、呼吸センサ１７１にユーザの口まで覆うＶＲ（Virtual　Reality）ヘッドセットが用いられてもよい。この場合、ノイズ遮断マイク付きの呼吸センシングを行う呼吸センサ１７１により、ＶＲ使用中なので実世界での不利益は無視することができる。また、呼吸センサ１７１に近接マイクが用いられる場合、情報処理システム１は、近接マイクにより吐く息の音を認識して、呼気の時間変化量を認識し、呼吸の深さ・速度を推定する。例えば、情報処理システム１は、近接マイクにより吐く息がマイクにあたった時に発生するノイズの音を認識して、呼気の時間変化量を認識し、呼吸の深さ・速度を推定する。

［１－１－２－２．非接触型］
　また、非接触型のセンサもミリ波レーダに限らず、呼吸センサ１７１には、種々の非接触型のセンサが用いられてもよい。以下、ミリ波レーダ以外の非接触型のセンサの例示を記載する。

　呼吸センサ１７１は、画像センシングの手法、鼻周辺の温度からの呼吸検出の手法、近接センサ、ミリ波レーダ以外のレーダが用いられてもよい。

　呼吸センサ１７１に画像センシングが用いられる場合、情報処理システム１は、サーモカメラで温度の異なる呼気と吸気の時間変化量を認識し、呼吸の深さ・周期・速度を推定する。また、情報処理システム１は、寒い時に白くなる吐く息を画像センシングして呼気の時間変化量を認識し、呼吸の深さ・周期・速度を推定してもよい。

　例えば、鼻周辺の温度からの呼吸検出の手法に関しては、下記のような開示がされている。
　・煩わしさのない呼吸センシング方法＜https://shingi.jst.go.jp/past_abst/abst/p/09/919/tama2.pdf＞

　例えば、近接センサを用いた呼吸検知に関しては、下記のような開示がされている。
　・人の動きや呼吸を見守る静電容量型フィルム状近接センサ＜https://www.aist.go.jp/aist_j/press_release/pr2016/pr20160125/pr20160125.html＞

　例えば、レーダを用いた呼吸検知に関しては、下記のような開示がされている。
　・心拍・呼吸検出センサー『GZS-350シリーズ』＜https://www.ipros.jp/product/detail/2000348329/＞

　また、図１のように、呼吸センサ１７１にミリ波レーダを用いる場合、情報処理システム１は、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定する。例えば、端末装置１０は、呼吸センサ１７１により検知されたセンサ情報を用いて、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定することにより、ユーザの吸気情報を生成する。そして、端末装置１０は、生成したユーザの吸気情報をサーバ装置１００に送信する。

　また、サーバ装置１００がユーザの吸気情報を生成してもよい。この場合、端末装置１０は、呼吸センサ１７１により検知されたセンサ情報をサーバ装置１００に送信する。そして、センサ情報を受信したサーバ装置１００が受信したセンサ情報を用いて、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定することにより、ユーザの吸気情報を生成してもよい。

　なお、上記のセンサは、吸気情報を取得するための用いるセンサの例示に過ぎす、吸気情報を取得可能であれば、どのようなセンサが用いられてもよい。ユーザの吸気を示す吸気情報を検知可能であれば、情報処理システム１は、どのようなセンサを用いて吸気情報を検知してもよい。

　端末装置１０のセンサ部１７は、上述したセンサの少なくとも１つを有し、そのセンサにより吸気情報を検知する。なお、情報処理システム１は、センサ部１７のセンサにより検知されたセンサ情報を用いて吸気情報を生成してもよい。例えば、端末装置１０やサーバ装置１００は、呼吸センサ１７１（ミリ波レーダ）により検知されたセンサ情報（点群データ）を用いて、吸気情報を生成してもよい。この場合、端末装置１０やサーバ装置１００は、種々の技術を適宜用いて、呼吸センサ１７１（ミリ波レーダ）により検知されたセンサ情報（点群データ）から吸気情報を生成してもよい。

［１－２．実施形態に係る情報処理システムの構成］
　図５に示す情報処理システム１について説明する。図５に示すように、情報処理システム１は、端末装置１０と、サーバ装置１００とが含まれる。端末装置１０と、サーバ装置１００とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。図５は、実施形態に係る情報処理システムの構成例を示す図である。なお、図５に示した情報処理システム１には、複数台の端末装置１０や、複数台のサーバ装置１００が含まれてもよい。

　サーバ装置１００は、ユーザの吸気を示す吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測するコンピュータである。サーバ装置１００は、ユーザの吸気情報に基づいて、ユーザの吸気を分類する。また、サーバ装置１００は、各種情報を端末装置１０に送信するコンピュータである。サーバ装置１００は、各種機能に関するサービスを提供するために用いられるサーバ装置である。

　また、サーバ装置１００は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。サーバ装置１００は、音声認識の機能を有してもよい。例えば、サーバ装置１００は、自然言語理解（ＮＬＵ）や自動音声認識（ＡＳＲ：Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）の機能を有してもよい。例えば、サーバ装置１００は、ユーザの発話による入力情報からユーザのインテント（意図）やエンティティ（対象）に関する情報を推定してもよい。サーバ装置１００は、自然言語理解や自動音声認識の機能を有する音声認識サーバとして機能する。

　端末装置１０は、センサによりユーザの吸気を示す吸気情報を検知する端末装置である。例えば、端末装置１０は、呼吸センサ１７１によりユーザの吸気を示す吸気情報を検知する。端末装置１０は、ユーザの吸気情報をサーバ装置１００等のサーバ装置へ送信する情報処理装置である。また、端末装置１０は、自然言語理解や自動音声認識等の音声認識の機能を有してもよい。例えば、端末装置１０は、ユーザの発話による入力情報からユーザのインテント（意図）やエンティティ（対象）に関する情報を推定してもよい。

　端末装置１０は、ユーザによって利用されるデバイス装置である。端末装置１０は、ユーザによる入力を受け付ける。端末装置１０は、ユーザの発話による音声入力や、ユーザの操作による入力を受け付ける。端末装置１０は、ユーザの入力に応じた情報を表示する。端末装置１０は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置１０は、ユーザの吸気情報を検知し、サーバ装置１００へ送信する機能を有する構成であれば、どのような装置であってもよい。例えば、端末装置１０は、スマートスピーカや、テレビや、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal　Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等の装置であってもよい。端末装置１０は、ユーザが身に着けるウェアラブル端末（Wearable　Device）等であってもよい。例えば、端末装置１０は、腕時計型端末やメガネ型端末等であってもよい。

［１－３．実施形態に係る情報処理装置の構成］
　次に、実施形態に係る情報処理を実行する情報処理装置の一例であるサーバ装置１００の構成について説明する。図６は、本開示の実施形態に係るサーバ装置１００の構成例を示す図である。

　図６に示すように、サーバ装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、サーバ装置１００は、サーバ装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図５参照）と有線または無線で接続され、端末装置１０等の他の情報処理装置との間で情報の送受信を行う。また、通信部１１０は、ユーザが利用するユーザ端末（図示省略）との間で情報の送受信を行ってもよい。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図６に示すように、吸気情報記憶部１２１と、ユーザ情報記憶部１２２と、閾値情報記憶部１２３と、機能情報記憶部１２４とを有する。

　記憶部１２０は、上記以外にも各種情報を記憶する。記憶部１２０は、音声認識機能を実現する音声認識アプリケーション（プログラム）の情報を記憶する。例えば、サーバ装置１００は、音声認識アプリケーション（単に「音声認識」ともいう）を起動することにより、音声認識が実行可能になる。記憶部１２０は、音声認識に用いる各種情報を記憶する。記憶部１２０は、音声認識辞書に用いる辞書（音声認識辞書）の情報を記憶する。記憶部１２０は、複数の音声認識辞書の情報を記憶する。記憶部１２０は、長文用の音声認識辞書（長文用辞書）や中文用の音声認識辞書（中文用辞書）や短文用の音声認識辞書（単語・語句用辞書）等の情報を記憶する。

　実施形態に係る吸気情報記憶部１２１は、ユーザの吸気に関する各種情報を記憶する。吸気情報記憶部１２１は、各ユーザの識別情報（ユーザＩＤ）に対応付けて各ユーザの吸気情報等の各種情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の増加量を含む吸気情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の吸気量を含む吸気情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の開始時点の初期吸気量を含む吸気情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の最大吸気量を含む吸気情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の後の発話開始時点を示す時点情報を記憶する。吸気情報記憶部１２１は、ユーザの吸気の後の発話の長さと文字数を含む発話情報を記憶する。

　なお、吸気情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、吸気情報記憶部１２１は、吸気情報に限らず、ユーザの呼吸に関する情報を記憶してもよい。吸気情報記憶部１２１は、ユーザの吸気に関する情報を記憶してもよい。例えば、吸気情報記憶部１２１は、グラフＧＲ１～ＧＲ５の生成に必要な各種の情報を記憶してもよい。例えば、吸気情報記憶部１２１は、グラフＧＲ１～ＧＲ５に示す各種の情報を記憶してもよい。

　実施形態に係るユーザ情報記憶部１２２は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部１２２は、各ユーザの属性情報等の種々の情報を記憶する。

　ユーザ情報記憶部１２２は、ユーザＩＤ、年齢、性別、居住地といったユーザに関する情報を記憶する。例えば、ユーザ情報記憶部１２２は、ユーザＵ１を識別するユーザＩＤ「Ｕ１」に対応付けて、ユーザＵ１の年齢、性別、居住地といったユーザＵ１に関する情報を記憶する。

　また、ユーザ情報記憶部１２２は、各ユーザが利用する装置（テレビやスマートフォン等）を識別する情報をユーザに対応付けて記憶する。ユーザ情報記憶部１２２は、各ユーザが利用する端末装置１０を識別する情報（端末ＩＤ等）をユーザに対応付けて記憶する。

　なお、ユーザ情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部１２２は、年齢や性別に限らず他のデモグラフィック属性情報やサイコグラフィック属性情報を記憶してもよい。例えば、ユーザ情報記憶部１２２は、氏名、自宅、勤務地、興味、家族構成、収入、ライフスタイル等の情報を記憶してもよい。

　実施形態に係る閾値情報記憶部１２３は、閾値に関する各種情報を記憶する。閾値情報記憶部１２３は、予測処理や分類処理に用いる閾値に関する各種情報を記憶する。図７は、実施形態に係る閾値情報記憶部の一例を示す図である。図７に示す閾値情報記憶部１２３には、「閾値ＩＤ」、「用途」、「閾値名」、「値」といった項目が含まれる。

　「閾値ＩＤ」は、閾値を識別するための識別情報を示す。「用途」は、閾値の用途を示す。「閾値名」は、対応する閾値ＩＤにより識別される閾値として用いられる閾値（変数）の名称（文字列）を示す。「値」は、対応する閾値ＩＤにより識別される閾値の具体的な値を示す。

　図７の例では、閾値ＩＤ「ＴＨ１」により識別される閾値（閾値ＴＨ１）の用途は、発話有無予測であることを示す。閾値ＴＨ１は、閾値名「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」として用いられることを示す。閾値ＴＨ１の値は、「ＶＬ１」であることを示す。なお、図７では、値を「ＶＬ１」等の抽象的な符号で示すが、値は、「０．５」や「１．８」等の具体的な数値であるものとする。

　なお、図７では、発話有無予測に用いる閾値ＴＨ１のみを図示するが、閾値情報記憶部１２３には、分類処理に用いられる各種閾値も記憶される。例えば、閾値情報記憶部１２３には、図１３に示すＴｈｒｅｓｈｏｌｄ＿ｕｔｔｒやＴｈｒｅｓｈｏｌｄ＿ａｓｋ等に対応する各種の閾値が記憶される。また、閾値情報記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　実施形態に係る機能情報記憶部１２４は、機能に関する各種情報を記憶する。機能情報記憶部１２４は、ユーザの入力に応じて実行される各機能に関する情報を記憶する。機能情報記憶部１２４は、機能の実行に必要な入力に関する情報を記憶する。機能情報記憶部１２４は、各機能の実行に必要な入力項目を記憶する。なお、機能情報記憶部１２４は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　図６に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、サーバ装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム等）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図６に示すように、制御部１３０は、取得部１３１と、予測部１３２と、選択部１３３と、実行部１３４と、送信部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図６に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図６に示した接続関係に限られず、他の接続関係であってもよい。

　取得部１３１は、各種情報を取得する。取得部１３１は、外部の情報処理装置から各種情報を取得する。取得部１３１は、端末装置１０から各種情報を取得する。取得部１３１は、端末装置１０のセンサ部１７が検知した情報を端末装置１０から各種情報を取得する。取得部１３１は、センサ部１７の呼吸センサ１７１が検知した情報を端末装置１０から各種情報を取得する。

　取得部１３１は、記憶部１２０から各種情報を取得する。取得部１３１は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４から各種情報を取得する。取得部１３１は、予測部１３２が予測した各種情報を取得する。取得部１３１は、選択部１３３が選択した各種情報を取得する。

　取得部１３１は、ユーザの吸気を示す吸気情報を取得する。取得部１３１は、ユーザの吸気の増加量を含む吸気情報を取得する。取得部１３１は、ユーザの吸気の吸気量を含む吸気情報を取得する。取得部１３１は、ユーザの吸気の開始時点の初期吸気量を含む吸気情報を取得する。取得部１３１は、ユーザの吸気の最大吸気量を含む吸気情報を取得する。取得部１３１は、ユーザの吸気の後の発話開始時点を示す時点情報を取得する。取得部１３１は、ユーザの吸気の後の発話の長さと文字数を含む発話情報を取得する。例えば、取得部１３１は、ユーザＵ１の吸気を示す吸気情報ＢＩＮＦ１を取得する。

　予測部１３２は、各種情報を予測する。予測部１３２は、各種情報を分類する。予測部１３２は、各種情報を算出する。予測部１３２は、各種情報を決定する。予測部１３２は、各種の判断を行う。予測部１３２は、各種情報を判定する。例えば、予測部１３２は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を予測する。予測部１３２は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を予測する。予測部１３２は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４に記憶された情報に基づいて、各種情報を予測する。予測部１３２は、各種情報を分類する。例えば、予測部１３２は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を分類する。

　予測部１３２は、取得部１３１により取得された各種情報に基づいて、各種情報を予測する。予測部１３２は、選択部１３３により選択された各種情報に基づいて、各種情報を予測する。予測部１３２は、予測に基づいて、各種の判断を行う。取得部１３１により取得された情報に基づいて、各種の判断を行う。予測部１３２は、吸気情報に基づいてスコアを算出する。予測部１３２は、吸気情報に基づいて、ユーザの発話予測に用いるスコアを算出する。

　予測部１３２は、取得部１３１により取得された吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する。予測部１３２は、増加量に基づいて、吸気の後にユーザが発話するか否かを予測する。予測部１３２は、吸気量に基づいて、吸気の後にユーザが発話するか否かを予測する、予測部１３２は、初期吸気量に基づいて、吸気の後にユーザが発話するか否かを予測する。

　予測部１３２は、吸気情報と所定の式を用いてスコアを算出する。予測部１３２は、吸気情報に基づいて算出されるスコアを用いて、吸気の後にユーザが発話するか否かを予測する。予測部１３２は、スコアと閾値とを比較し、比較結果を基に吸気の後に吸気の後にユーザが発話するか否かを予測する。予測部１３２は、スコアと閾値との比較結果が所定の条件を満たす場合、吸気の後にユーザが発話すると予測する。予測部１３２は、スコアが閾値より大きい場合、吸気の後にユーザが発話すると予測する。例えば、予測部１３２は、現在吸気量「Ｂ＿ｃｕｒｒｅｎｔ」と増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と式（１）を用いて、発話予測に用いるスコアである発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」を算出する。例えば、予測部１３２は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」よりも大きい場合、ユーザＵ１が発話すると予測する。例えば、予測部１３２は、発話予測スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｐｒ」が発話有無予測閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｐｒ」以下である場合、ユーザＵ１が発話しないと予測する。

　予測部１３２は、吸気情報に基づいて、ユーザの吸気を分類する。予測部１３２は、最大吸気量に基づいて、ユーザの吸気を分類する。予測部１３２は、最大吸気量の時点と発話開始時点との間隔に基づいて、ユーザの吸気を分類する。予測部１３２は、発話の長さと文字数とに基づいて、ユーザの吸気を分類する。

　予測部１３２は、ユーザの吸気を、少なくとも依頼型吸気及び非依頼型吸気を含む複数のタイプのうちのいずれかに分類する。予測部１３２は、ユーザの吸気を、少なくとも長文型吸気及び短文型吸気を含む複数のタイプのうちのいずれかに分類する。予測部１３２は、ユーザの吸気を、少なくとも通常処理希望型吸気及び短縮処理希望型吸気を含む複数のタイプのうちのいずれかに分類する。

　選択部１３３は、各種情報を選択する。選択部１３３は、各種情報を抽出する。選択部１３３は、各種情報を特定する。選択部１３３は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を選択する。選択部１３３は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を選択する。選択部１３３は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４に記憶された情報に基づいて、各種情報を選択する。

　選択部１３３は、取得部１３１により取得された各種情報に基づいて、各種情報を選択する。選択部１３３は、予測部１３２により予測された各種情報に基づいて、各種情報を選択する。選択部１３３は、実行部１３４により実行された処理に基づいて、各種情報を選択する。

　選択部１３３は、予測部１３２による分類結果に応じた選択処理を行う。選択部１３３は、予測部１３２による分類結果に応じて、実行する処理を選択する。選択部１３３は、予測部１３２による分類結果に応じて、ユーザの発話に対する処理に用いる情報を選択する。

　実行部１３４は、各種処理を実行する。実行部１３４は、各種処理の実行を決定する。実行部１３４は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部１３４は、記憶部１２０に記憶された情報に基づいて、各種処理を実行する。実行部１３４は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４に記憶された情報に基づいて、各種処理を実行する。

　実行部１３４は、取得部１３１により取得された各種情報に基づいて、各種処理を実行する。実行部１３４は、予測部１３２により予測された各種情報に基づいて、各種処理を実行する。実行部１３４は、選択部１３３により選択された各種情報に基づいて、各種処理を実行する。

　実行部１３４は、各種情報を生成する。実行部１３４は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を生成する。実行部１３４は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を生成する。実行部１３４は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４に記憶された情報に基づいて、各種情報を生成する。

　実行部１３４は、予測部１３２による予測結果に応じて処理を実行する。実行部１３４は、予測部１３２により吸気の後にユーザが発話すると予測された場合、音声認識に関する事前処理を実行する。実行部１３４は、ユーザの吸気が終了する前に、事前処理を実行する。

　実行部１３４は、予測部１３２により吸気の後にユーザが発話すると予測された場合、音声認識の起動を実行する。実行部１３４は、予測部１３２により吸気の後にユーザが発話すると予測された場合、ユーザの吸気が終了する前に、音声認識を起動示する事前処理を実行する。例えば、実行部１３４は、ユーザＵ１が発話すると予測された場合、現在の吸気の後に発話がされる可能性が高いとして、音声認識に必要な事前処理を実行する。

　実行部１３４は、予測部１３２により吸気の後にユーザが発話すると予測された場合、端末装置１０に音声認識の起動を指示する事前処理を実行する。実行部１３４は、予測部１３２により吸気の後にユーザが発話すると予測された場合、ユーザの吸気が終了する前に、端末装置１０に音声認識の起動を指示する事前処理を実行する。

　送信部１３５は、各種情報を送信する。送信部１３５は、外部の情報処理装置へ各種情報を送信する。送信部１３５は、外部の情報処理装置へ各種情報を提供する。例えば、送信部１３５は、端末装置１０等の他の情報処理装置へ各種情報を送信する。送信部１３５は、記憶部１２０に記憶された情報を提供する。送信部１３５は、記憶部１２０に記憶された情報を送信する。

　送信部１３５は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部１３５は、記憶部１２０に記憶された情報に基づいて、各種情報を提供する。送信部１３５は、吸気情報記憶部１２１やユーザ情報記憶部１２２や閾値情報記憶部１２３や機能情報記憶部１２４に記憶された情報に基づいて、各種情報を提供する。

　送信部１３５は、端末装置１０に実行させる機能を示す情報を端末装置１０に送信する。送信部１３５は、実行部１３４による実行が決定された機能を示す情報を端末装置１０に送信する。送信部１３５は、実行部１３４による指示に応じて、端末装置１０に各種の情報を送信する。送信部１３５は、端末装置１０に音声認識アプリケーションの起動を指示する情報を送信する。送信部１３５は、予測部１３２により吸気の後にユーザが発話すると予測された場合、端末装置１０に音声認識の起動を指示する情報を送信する。送信部１３５は、予測部１３２により吸気の後にユーザが発話すると予測された場合、ユーザの吸気が終了する前に、端末装置１０に音声認識の起動を指示する情報を送信する。

［１－４．実施形態に係る端末装置の構成］
　次に、実施形態に係る情報処理を実行する情報処理装置の一例である端末装置１０の構成について説明する。図８は、本開示の実施形態に係る端末装置の構成例を示す図である。

　図８に示すように、端末装置１０は、通信部１１と、入力部１２と、出力部１３と、記憶部１４と、制御部１５と、表示部１６と、センサ部１７と、光源部１８とを有する。

　通信部１１は、例えば、ＮＩＣや通信回路等によって実現される。通信部１１は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、サーバ装置１００等の他の装置等との間で情報の送受信を行う。

　入力部１２は、各種入力を受け付ける。入力部１２は、センサ部１７による検知を入力として受け付ける。入力部１２は、ユーザの吸気を示す吸気情報の入力を受け付ける。入力部１２は、センサ部１７により検知された吸気情報の入力を受け付ける。入力部１２は、呼吸センサ１７１により検知された吸気情報の入力を受け付ける。入力部１２は、呼吸センサ１７１により検知された点群データに基づく吸気情報の入力を受け付ける。入力部１２は、ユーザの発話情報の入力を受け付ける。入力部１２は、身体動作により入力を行うユーザの吸気情報の入力を受け付ける。入力部１２は、ユーザのジェスチャや視線を入力として受け付ける。

　入力部１２は、ユーザから各種操作が入力される。入力部１２は、音声を検知する機能を有するセンサ部１７により音を入力として受け付ける。入力部１２は、音声を検知するマイク（音センサ）により検知された音声情報を入力情報として受け付ける。入力部１２は、ユーザの発話による音声を入力情報として受け付ける。

　また、入力部１２は、ユーザが利用する端末装置１０への操作（ユーザ操作）をユーザによる操作入力として受け付けてもよい。入力部１２は、通信部１１を介して、リモコン（リモートコントローラー：remote　controller）を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部１２は、端末装置１０に設けられたボタンや、端末装置１０に接続されたキーボードやマウスを有してもよい。

　例えば、入力部１２は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部１２は、表示部１６を介して各種情報が入力される。入力部１２は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部１２は、端末装置１０の表示部１６を介してユーザから各種操作を受け付ける。例えば、入力部１２は、端末装置１０の表示部１６を介してユーザの指定操作等の操作を受け付ける。例えば、入力部１２は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部１２と受付部１５３とは一体であってもよい。なお、入力部１２によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。

　例えば、入力部１２は、ユーザＵ１の発話を入力として受け付ける。入力部１２は、センサ部１７により検知されたユーザＵ１の発話を入力として受け付ける。入力部１２は、センサ部１７の音センサにより検知されたユーザＵ１の発話を入力として受け付ける。

　出力部１３は、各種情報を出力する。出力部１３は、音声を出力する機能を有する。例えば、出力部１３は、音声を出力するスピーカーを有する。出力部１３は、実行部１５２による制御に応じて、各種情報を音声出力する。出力部１３は、ユーザに対して音声による情報の出力を行う。出力部１３は、表示部１６に表示される情報を音声により出力する。

　記憶部１４は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４は、音声認識機能を実現する音声認識アプリケーション（プログラム）の情報を記憶する。例えば、端末装置１０は、音声認識アプリケーションを起動することにより、音声認識が実行可能になる。記憶部１４は、情報の表示に用いる各種情報を記憶する。記憶部１４は、音声認識に用いる各種情報を記憶する。記憶部１４は、音声認識辞書に用いる辞書（音声認識辞書）の情報を記憶する。

　図８に戻り、説明を続ける。制御部１５は、例えば、ＣＰＵやＭＰＵ等によって、端末装置１０内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１５は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　図８に示すように、制御部１５は、受信部１５１と、実行部１５２と、受付部１５３と、送信部１５４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図８に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　受信部１５１は、各種情報を受信する。受信部１５１は、外部の情報処理装置から各種情報を受信する。受信部１５１は、サーバ装置１００等の他の情報処理装置から各種情報を受信する。

　受信部１５１は、サーバ装置１００から音声認識の起動を指示する情報を受信する。受信部１５１は、サーバ装置１００から音声認識アプリケーションの起動を指示する情報を受信する。

　受信部１５１は、サーバ装置１００から各種機能の実行指示を受信する。例えば、受信部１５１は、サーバ装置１００から機能を指定する情報を機能の実行指示として受信する。受信部１５１は、コンテンツを受信する。受信部１５１は、サーバ装置１００から表示するコンテンツを受信する。

　実行部１５２は、各種処理を実行する。実行部１５２は、各種処理の実行を決定する。実行部１５２は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部１５２は、サーバ装置１００からの情報に基づいて、各種処理を実行する。実行部１５２は、サーバ装置１００からの指示に応じて、各種処理を実行する。実行部１５２は、記憶部１４に記憶された情報に基づいて、各種処理を実行する。実行部１５２は、音声認識を起動する。

　実行部１５２は、各種出力を制御する。実行部１５２は、出力部１３による音声出力を制御する。実行部１５２は、光源部１８の点灯を制御する。実行部１５２は、各種表示を制御する。実行部１５２は、表示部１６の表示を制御する。実行部１５２は、受信部１５１による受信に応じて、表示部１６の表示を制御する。実行部１５２は、受信部１５１により受信された情報に基づいて、表示部１６の表示を制御する。実行部１５２は、受付部１５３により受け付けられた情報に基づいて、表示部１６の表示を制御する。実行部１５２は、受付部１５３による受付けに応じて、表示部１６の表示を制御する。

　受付部１５３は、各種情報を受け付ける。受付部１５３は、入力部１２を介してユーザによる入力を受け付ける。受付部１５３は、ユーザによる発話を入力として受け付ける。受付部１５３は、ユーザによる操作を受け付ける。受付部１５３は、表示部１６により表示された情報に対するユーザの操作を受け付ける。受付部１５３は、ユーザによる文字入力を受け付ける。

　送信部１５４は、外部の情報処理装置へ各種情報を送信する。例えば、送信部１５４は、端末装置１０等の他の情報処理装置へ各種情報を送信する。送信部１５４は、記憶部１４に記憶された情報を送信する。

　送信部１５４は、サーバ装置１００等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部１５４は、記憶部１４に記憶された情報に基づいて、各種情報を送信する。

　送信部１５４は、センサ部１７により検知されたセンサ情報をサーバ装置１００へ送信する。送信部１５４は、センサ部１７の呼吸センサ１７１により検知されたユーザＵ１の吸気情報をサーバ装置１００へ送信する。

　送信部１５４は、ユーザにより入力された入力情報をサーバ装置１００へ送信する。送信部１５４は、ユーザにより音声入力された入力情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの操作により入力された入力情報をサーバ装置１００へ送信する。

　送信部１５４は、ユーザの吸気を示す吸気情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の増加量を含む吸気情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の吸気量を含む吸気情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の開始時点の初期吸気量を含む吸気情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の最大吸気量を含む吸気情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の後の発話開始時点を示す時点情報をサーバ装置１００へ送信する。送信部１５４は、ユーザの吸気の後の発話の長さと文字数を含む発話情報をサーバ装置１００へ送信する。

　表示部１６は、端末装置１０に設けられ各種情報を表示する。表示部１６は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。表示部１６は、サーバ装置１００から提供される情報を表示可能であれば、どのような手段により実現されてもよい。表示部１６は、実行部１５２による制御に応じて、各種情報を表示する。

　表示部１６は、コンテンツを表示する。表示部１６は、受信部１５１により受信されたコンテンツを表示する。

　センサ部１７は、所定の情報を検知する。センサ部１７は、ユーザの吸気情報を検知する。センサ部１７は、ユーザの吸気を示す吸気情報を検知する手段として呼吸センサ１７１を有する。センサ部１７は、呼吸センサ１７１により吸気情報を検知する。

　センサ部１７は、呼吸センサ１７１により吸気情報を検知する。センサ部１７は、ミリ波レーダを用いた呼吸センサ１７１により吸気情報を検知する。また、センサ部１７は、ミリ波レーダに限らず、ユーザの吸気情報を検知可能であれば、どのような構成の呼吸センサ１７１を有してもよい。呼吸センサ１７１は、画像センサであってもよい。呼吸センサ１７１は、ウェアラブルセンサであってもよい。呼吸センサ１７１は、接触型及び非接触型のいずれのセンサが用いられてもよい。

　また、センサ部１７は、上記に限らず、各種センサを有してもよい。センサ部１７は、ＧＰＳ（Global　Positioning　System）センサ等の位置情報を検知するセンサ（位置センサ）を有してもよい。なお、センサ部１７は、上記に限らず、種々のセンサを有してもよい。

　光源部１８は、ＬＥＤ（Light　Emitting　Diode）等の光源を有する。光源部１８は、発光する。光源部１８は、所望の点灯態様を実現する。光源部１８は、実行部１５２による制御に応じて、所望の点灯態様を実現する。光源部１８は、実行部１５２による制御に応じて、点灯する。光源部１８は、実行部１５２による制御に応じて、消灯する。光源部１８は、実行部１５２による制御に応じて、点滅する。

［１－５．実施形態に係る情報処理の手順］
　次に、図９、図１０を用いて、実施形態に係る各種情報処理の手順について説明する。

［１－５－１．情報処理装置に係る処理の手順］
　まず、図９を用いて、本開示の実施形態に係る情報処理装置に係る処理の流れについて説明する。図９は、本開示の実施形態に係る情報処理装置の処理手順を示すフローチャートである。具体的には、図９は、サーバ装置１００による情報処理の手順を示すフローチャートである。

　図９に示すように、サーバ装置１００は、ユーザの吸気を示す吸気情報を取得する（ステップＳ１０１）。そして、サーバ装置１００は、吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する（ステップＳ１０２）。

［１－５－２．情報処理システムに係る処理の手順］
　次に、図１０を用いて、本開示の実施形態に係る情報処理システムに係る処理の流れについて説明する。図１０は、本開示の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。

　図１０に示すように、端末装置１０は、ユーザの吸気を示す吸気情報を検知する（ステップＳ２０１）。例えば、端末装置１０は、呼吸センサ１７１により検知されたユーザの吸気情報を取得する。そして、端末装置１０は、ユーザの吸気を示す吸気情報をサーバ装置１００へ送信する（ステップＳ２０２）。

　サーバ装置１００は、端末装置１０から取得した吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する（ステップＳ２０３）。図１０の例では、サーバ装置１００は、端末装置１０から取得した吸気情報に基づいて、ユーザの吸気の後にユーザが発話すると予測する。

　そして、サーバ装置１００は、ユーザが発話すると予測したため、端末装置１０に音声認識の起動指示を実行する（ステップＳ２０４）。サーバ装置１００は、音声認識の起動を指示する情報を端末装置１０に送信することにより、音声認識の起動の実行を端末装置１０に指示する。そして、端末装置１０は、サーバ装置１００からの指示に応じて音声認識の起動処理を実行する（ステップＳ２０５）。そして、端末装置１０は、音声認識の起動に対応する音声を出力行する（ステップＳ２０６）。端末装置１０は、音声認識の起動に対応する音声を出力したり、光を放射したりする。例えば、端末装置１０は、音声認識の起動に対応するＷａｋｅＵｐＲｅｓｐｏｎｓｅ（起動通知）を出力部１３により音声出力する。また、例えば、端末装置１０は、音声認識の起動に対応する点等を光源部１８により実行する。

［１－６．分類結果を用いた処理例］
　サーバ装置１００は、上述した予測処理に限らず、種々の処理を行ってもよい。例えば、サーバ装置１００は、ユーザの吸気を分類する分類処理を行ってもよい。この点について、以下説明する。なお、以下の説明では、図１と同様の点については適宜説明を省略する。

［１－６－１．呼吸状態による起動ワードの省略例］
　分類処理の一例について、図１１を用いて説明する。図１１は、吸気の分類結果を用いた処理の一例を示す図である。図１１は、呼吸状態による起動ワードの省略例を示す。

　まず、図１１の例では、サーバ装置１００は、ユーザＵ１の発話前の吸気を示す吸気情報を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報を取得する。

　サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報を用いて、分類処理を行う（ステップＳ３０１）。サーバ装置１００は、吸気情報を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、ユーザＵ１の吸気を分類する。サーバ装置１００は、算出したスコアと各閾値との大小関係を基に、ユーザＵ１の吸気を分類する。

　以下、サーバ装置１００が行う上述の分類処理について、図１２及び図１３を用いて具体的に説明する。図１２は、ユーザの吸気情報の一例を示す図である。図１３は、ユーザの吸気を用いた予測の一例を示す図である。

　図１２中のグラフＧＲ２は、時間と吸気量との関係を示すグラフであり、横軸が時間を示し、縦軸が吸気量を示すグラフである。なお、グラフＧＲ２について、図２中のグラフＧＲ１と同様の点については説明を省略する。

　例えば、グラフＧＲ２中の最大呼吸量「Ｂ＿ｍａｘ」は、発話前の吸気により到達する最大の吸気量（最大吸気量）を示す。最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」は、最大吸気量に達した時間から発話が開始された時間（発話開始時間）までの間隔（発話前時間）を示す。図１２の例では、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」は、発話が開始された時間（発話開始時間）を示す時間ｔ２と最大吸気量に達した時間を示す時間ｔ１との差を示す。

　例えば、グラフＧＲ２中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、最大呼吸量「Ｂ＿ｍａｘ」に到達する前の吸気量の変化（増加量）を示す。なお、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、吸気情報を取得時点（現時点）における吸気量の変化（増加量）であってもよい。

　例えば、吸気情報には、図１２中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と、最大呼吸量「Ｂ＿ｍａｘ」と、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」とが含まれる。なお、吸気情報には、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」が含まれなくてもよい。この場合、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」に係る項（第３項）である「ｃ＊（１／Ｔ＿ｂｍａｘ＿ｕｔｔｒ）」は、「０」としてスコアを算出してもよい。また、最大呼吸量「Ｂ＿ｍａｘ」が含まれなくてもよい。この場合、サーバ装置１００は、図２で説明したように最大呼吸量「Ｂ＿ｍａｘ」を予測し、予測した最大呼吸量「Ｂ＿ｍａｘ」を用いて、スコアを算出してもよい。

　サーバ装置１００は、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と最大呼吸量「Ｂ＿ｍａｘ」と最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」と以下の式（２）を用いて、発話予測に用いるスコアである発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」を算出する。

　上記の式（２）中の「ａ」や「ｂ」や「ｃ」は、所定の定数を示す。なお、上記の式（２）は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」の算出の一例であり、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」の算出には種々の数式が用いられてもよい。

　そして、サーバ装置１００は、発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」と、依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」との２つの閾値を、ユーザＵ１の吸気を分類する。サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」と各閾値との比較により、ユーザＵ１の吸気を分類する。すなわち、サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」の値による発話タイプを分類する。

　サーバ装置１００は、図１３中の分類結果ＰＤ２に示すように、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」と、発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」及び依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」との比較により、ユーザＵ１の吸気を分類する。図１３の例では、発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」は、依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」より小さい。

　図１３の例では、サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」が依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」よりも大きい場合、ユーザＵ１の吸気を依頼発話の可能性が高い吸気（「依頼型吸気」ともいう）に分類する。この場合、情報処理システム１は、例えば、明示的な起動通知を伴って音声ＵＩ（音声認識）を起動し、通常フロー（処理）を行う。

　また、図１３の例では、サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」が依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」以下であり、発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」よりも大きい場合、ユーザＵ１の吸気を依頼発話の可能性が考えられるが、確度が高くない吸気（「中間値」ともいう）に分類する。この場合、情報処理システム１は、例えば、明示的な起動通知なしで音声認識を起動し、通知型レスポンスフローを起動する。

　また、図１３の例では、サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」が発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」以下である場合、ユーザＵ１の吸気を発話が想定されない吸気（「完全非依頼型吸気」ともいう）に分類する。この場合、情報処理システム１は、音声ＵＩ（音声認識）を起動しない。

　このように、サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」と発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」及び依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」とを比較することにより、ユーザＵ１の吸気を分類する。なお、発話有無閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ」や依頼型発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ａｓｋ」等の各閾値はユーザの運動状態などの変化により通常呼吸範囲の変化に合わせて増減させてもよい。

　上述のように、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」は、最大呼吸量や増加量や呼吸最大から発話間の時間（最大吸気－発話間時間）を加味した値となる。サーバ装置１００は、発話スコア「Ｓｃｏｒｅ＿ｕｔｔｒ」を用いることで、ユーザの呼吸を分類する。これにより、サーバ装置１００は、ユーザの吸気を適切に分類し、処理の選択に利用することを可能にする。

　ここから、図１１に戻って説明を続ける。ステップＳ３０１においてユーザＵ１の吸気が依頼型吸気に分類された場合、情報処理システム１は、起動処理を行い、ユーザＵ１に起動を認識させる（ステップＳ３１１）。図１１の例では、端末装置１０は、光源部１８を点灯させることにより、ユーザＵ１に起動を認識させる。これにより、ユーザＵ１は、音声による入力が可能になったと認識することができる。

　そして、ユーザＵ１が発話を行う（ステップＳ３１２）。例えば、ユーザＵ１は、端末装置１０に対して所定の情報を要求する音声入力を行う。

　そして、情報処理システム１は、ユーザＵ１による入力に対して従来処理（音声対話システムの処理）を行う（ステップＳ３１３）。例えば、情報処理システム１は、自然言語理解（ＮＬＵ）により、ユーザの入力を解釈し、対応する処理（Ａｃｔｉｏｎ）を実行する。図１１の例では、端末装置１０は、「ＯＫ.　Ｈｅｒｅ’ｓ　ｔｈｅ　ｒｅｓｕｌｔ.…」とユーザＵ１の要求に対する音声出力の処理を行う。

　また、ステップＳ３０１においてユーザＵ１の吸気が中間値に分類された場合、情報処理システム１は、Ｒｅｓｐｏｎｓｅ（応答）無しで、音声認識を開始する（ステップＳ３２１）。

　そして、ユーザＵ１が発話を行う（ステップＳ３２２）。例えば、ユーザＵ１は、端末装置１０に対して所定の情報を要求する音声入力を行う。

　そして、情報処理システム１は、Ｒｅｓｐｏｎｓｅ（応答）無しで、自然言語理解（ＮＬＵ）により、Ｉｎｔｅｎｔ（意図）の取得を実行する（ステップＳ３２３）。

　そして、情報処理システム１は、通知型Ｒｅｓｐｏｎｓｅ（応答）を行う（ステップＳ３２４）。図１１の例では、端末装置１０は、「Ｉ　ｈａｖｅ　ａｎ　ｉｄｅａ　ｆｏｒ　ｙｏｕｒ…」とユーザＵ１に対して音声出力の処理を行う。なお、情報処理システム１は、ユーザが同じトピックを継続しているか、会話が継続中かを判断して通知可否を決定してもよい。

　一方、ステップＳ３０１においてユーザＵ１の吸気が完全非依頼型吸気に分類された場合、情報処理システム１は、起動処理を開始しない（ステップＳ３３１）。情報処理システム１は、音声認識を起動しない。端末装置１０は、音声認識の起動を行わない。

　このように、情報処理システム１は、ユーザの吸気の分類結果を用いて、処理を選択することで、発話前呼吸状態に応じて、適切な処理を行うことができる。例えば、情報処理システム１は、ユーザの吸気の分類結果を用いて、発話前呼吸状態による起動ワードの省略を可能にすることができる。

［１－６－２．ローカル／クラウド音声認識の切替え例］
　分類処理の一例について、図１４を用いて説明する。図１４は、吸気の分類結果を用いた処理の一例を示す図である。図１４は、ローカル／クラウド音声認識の切替え例を示す。

　まず、図１４の例では、サーバ装置１００は、ユーザＵ１の発話前の吸気を示す吸気情報を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報を取得する。

　サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報を用いて、分類処理を行う（ステップＳ４０１）。サーバ装置１００は、吸気情報を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、ユーザＵ１の吸気を分類する。サーバ装置１００は、算出したスコアと各閾値との大小関係を基に、ユーザＵ１の吸気を分類する。

　以下、サーバ装置１００が行う上述の分類処理について、図１５及び図１６を用いて具体的に説明する。図１５は、ユーザの吸気情報の一例を示す図である。図１６は、ユーザの吸気を用いた予測の一例を示す図である。

　図１５中のグラフＧＲ３は、時間と吸気量との関係を示すグラフであり、横軸が時間を示し、縦軸が吸気量を示すグラフである。なお、グラフＧＲ３について、図２中のグラフＧＲ１や図１２中のグラフＧＲ２と同様の点については説明を省略する。

　例えば、グラフＧＲ３中の最大呼吸量「Ｂ＿ｍａｘ」は、発話前の吸気により到達する最大の吸気量（最大吸気量）を示す。最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」は、最大吸気量に達した時間から発話が開始された時間（発話開始時間）までの間隔を示す。

　例えば、グラフＧＲ３中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、最大呼吸量「Ｂ＿ｍａｘ」に到達する前の吸気量の変化（増加量）を示す。なお、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、吸気情報を取得時点（現時点）における吸気量の変化（増加量）であってもよい。

　例えば、吸気情報には、図１５中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と、最大呼吸量「Ｂ＿ｍａｘ」と、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」とが含まれる。なお、吸気情報には、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」が含まれなくてもよい。この場合、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」に係る項（第３項）である「ｃ＊（１／Ｔ＿ｂｍａｘ＿ｕｔｔｒ）」は、「０」としてスコアを算出してもよい。また、最大呼吸量「Ｂ＿ｍａｘ」が含まれなくてもよい。この場合、サーバ装置１００は、図２で説明したように最大呼吸量「Ｂ＿ｍａｘ」を予測し、予測した最大呼吸量「Ｂ＿ｍａｘ」を用いて、スコアを算出してもよい。

　サーバ装置１００は、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と最大呼吸量「Ｂ＿ｍａｘ」と最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」と以下の式（３）を用いて、発話予測に用いるスコアである発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」を算出する。

　上記の式（３）中の「ａ」や「ｂ」や「ｃ」は、所定の定数を示す。上記の式（３）は、上記の式（２）と同様であるが、「ａ」や「ｂ」や「ｃ」の値は異なり、吸気最大量の関連が大きいと考えられるため、例えば上記の式（２）と比較して、係数「ａ」が相対的に大きい。なお、上記の式（３）は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」の算出の一例であり、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」の算出には種々の数式が用いられてもよい。

　そして、サーバ装置１００は、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」と、長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」との２つの閾値を、ユーザＵ１の吸気を分類する。サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」と各閾値との比較により、ユーザＵ１の吸気を分類する。すなわち、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」の値による発話タイプを分類する。

　サーバ装置１００は、図１６中の分類結果ＰＤ３に示すように、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」と、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」及び長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」との比較により、ユーザＵ１の吸気を分類する。図１６の例では、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」は、長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」より小さい。

　図１６の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」よりも大きい場合、長文発話の可能性が高い吸気（「長文型吸気」ともいう）に分類する。この場合、情報処理システム１は、クラウド音声認識の起動準備を行い、発話に対する処理を行う。例えば、情報処理システム１は、サーバ装置１００の音声認識を起動し、サーバ装置１００により発話に対する処理を行う。

　また、図１６の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」以下であり、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」よりも大きい場合、明確に長文であるか短文であるか推測が難しい吸気（「中文型吸気」ともいう）に分類する。この場合、情報処理システム１は、例えば、クラウド型ローカル型双方を準備する。例えば、情報処理システム１は、サーバ装置１００及び端末装置１０の音声認識を起動する。この場合、例えば、情報処理システム１は、発話初期はローカル認識、必要に応じてクラウド認識結果を利用する。

　また、図１６の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」以下である場合、短文発話の可能性が高い吸気（「短文型吸気」ともいう）に分類する。この場合、情報処理システム１は、ローカル音声認識の起動準備を行い、発話に対する処理を行う。例えば、情報処理システム１は、端末装置１０の音声認識を起動し、端末装置１０により発話に対する処理を行う。

　このように、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」と短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」及び長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」とを比較することにより、ユーザＵ１の吸気を分類する。なお、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」や長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」等の各閾値はユーザの運動状態などの変化により通常呼吸範囲の変化に合わせて増減させてもよい。

　上述のように、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」は、最大呼吸量や増加量や呼吸最大から発話間の時間（最大吸気－発話間時間）を加味した値となる。サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」を用いることで、ユーザの呼吸を分類する。これにより、サーバ装置１００は、ユーザの吸気を適切に分類し、処理の選択に利用することを可能にする。

　ここから、図１４に戻って説明を続ける。ステップＳ４０１においてユーザＵ１の吸気が長文型吸気に分類された場合、情報処理システム１は、クラウドＣＬ（サーバ型）大語彙音声認識を開始する（ステップＳ４１１）。図１４の例では、情報処理システム１は、ＷｅｂＳｏｃｋｅｔ等によるサーバ装置１００と端末装置１０との接続（Connection）を行う。

　そして、ユーザＵ１が発話を行う（ステップＳ４１２）。そして、情報処理システム１は、クラウド（サーバ型）大語彙音声認識を用いてユーザＵ１の発話に対する処理を行う（ステップＳ４１３）。例えば、情報処理システム１は、クラウド（サーバ型）大語彙音声認識を用いて、ユーザの発話に対する処理を行う。これにより、情報処理システム１は、大語彙音声認識による長文性能を向上させることができる。

　また、ステップＳ４０１においてユーザＵ１の吸気が中文型吸気に分類された場合、情報処理システム１は、クラウドＣＬ及びローカルの両方を準備する（ステップＳ４２１）。例えば、情報処理システム１は、サーバ装置１００及び端末装置１０の音声認識を起動する。

　そして、ユーザＵ１が発話を行う（ステップＳ４２２）。そして、情報処理システム１は、発話中の初期応答として高レスポンスのローカル結果を応答する（ステップＳ４２３）。例えば、情報処理システム１は、端末装置１０の音声認識により初期応答を行う。

　そして、情報処理システム１は、一定発話長さ以上になったらクラウドＣＬ結果に変更する（ステップＳ４２４）。例えば、情報処理システム１は、一定発話長さ以上になった場合、サーバ装置１００の音声認識による応答に変更する。このように、情報処理システム１は、初期レスポンスはローカルで処理を行い、長文だった場合のバックアップデータ量が多いクラウドＣＬ側で処理を行う。

　また、ステップＳ４０１においてユーザＵ１の吸気が短文型吸気に分類された場合、情報処理システム１は、ローカル端末音声認識の起動処理を行う（ステップＳ４３１）。図１４の例では、情報処理システム１は、端末装置１０の音声認識を起動する処理を行う。

　そして、ユーザＵ１が発話を行う（ステップＳ４３２）。そして、情報処理システム１は、端末装置１０の音声認識により発話に対する処理を行う（ステップＳ４３３）。この場合、情報処理システム１は、高応答レスポンスが可能、かつデータ通信不要となる。

　このように、情報処理システム１は、ユーザの吸気の分類結果を用いて、処理を選択することで、発話前呼吸状態に応じて、適切な処理を行うことができる。例えば、情報処理システム１は、ユーザの吸気の分類結果を用いて、ローカル及びクラウド音声認識の切替える（選択する）ことができる。これにより、情報処理システム１は、ローカル音声認識の高応答レスポンス・データ通信不要性を加味したり、クラウド音声認識の長文認識性能を条件に合わせて適切に利用したりすることができる。

［１－６－３．音声認識辞書の変更例］
　分類処理の一例について、図１７を用いて説明する。図１７は、吸気の分類結果を用いた処理の一例を示す図である。図１７は、音声認識辞書の変更例を示す。

　まず、図１７の例では、サーバ装置１００は、ユーザＵ１の発話前の吸気を示す吸気情報を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報を取得する。

　サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報を用いて、分類処理を行う（ステップＳ５０１）。サーバ装置１００は、吸気情報を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、ユーザＵ１の吸気を分類する。サーバ装置１００は、算出したスコアと各閾値との大小関係を基に、ユーザＵ１の吸気を分類する。

　以下、サーバ装置１００が行う上述の分類処理について、図１８及び図１９を用いて具体的に説明する。図１８は、ユーザの吸気情報の一例を示す図である。図１９は、ユーザの吸気を用いた予測の一例を示す図である。

　図１８中のグラフＧＲ４は、時間と吸気量との関係を示すグラフであり、横軸が時間を示し、縦軸が吸気量を示すグラフである。なお、グラフＧＲ４について、図２中のグラフＧＲ１や図１２中のグラフＧＲ２と同様の点については説明を省略する。

　例えば、グラフＧＲ４中の最大呼吸量「Ｂ＿ｍａｘ」は、発話前の吸気により到達する最大の吸気量（最大吸気量）を示す。最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」は、最大吸気量に達した時間から発話が開始された時間（発話開始時間）までの間隔を示す。

　例えば、グラフＧＲ４中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、最大呼吸量「Ｂ＿ｍａｘ」に到達する前の吸気量の変化（増加量）を示す。なお、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、吸気情報を取得時点（現時点）における吸気量の変化（増加量）であってもよい。

　例えば、吸気情報には、図１８中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と、最大呼吸量「Ｂ＿ｍａｘ」と、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」とが含まれる。なお、吸気情報には、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」が含まれなくてもよい。この場合、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」に係る項（第３項）である「ｃ＊（１／Ｔ＿ｂｍａｘ＿ｕｔｔｒ）」は、「０」としてスコアを算出してもよい。また、最大呼吸量「Ｂ＿ｍａｘ」が含まれなくてもよい。この場合、サーバ装置１００は、図２で説明したように最大呼吸量「Ｂ＿ｍａｘ」を予測し、予測した最大呼吸量「Ｂ＿ｍａｘ」を用いて、スコアを算出してもよい。

　サーバ装置１００は、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と最大呼吸量「Ｂ＿ｍａｘ」と最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」と以下の式（４）を用いて、発話予測に用いるスコアである発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」を算出する。

　上記の式（４）中の「ａ」や「ｂ」や「ｃ」は、所定の定数を示す。上記の式（４）は、上記の式（２）と同様であるが、「ａ」や「ｂ」や「ｃ」の値は異なり、吸気最大量の関連が大きいと考えられるため、例えば上記の式（２）と比較して、係数「ａ」が相対的に大きい。なお、上記の式（４）は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」の算出の一例であり、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」の算出には種々の数式が用いられてもよい。

　サーバ装置１００は、図１９中の分類結果ＰＤ４に示すように、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」と、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」及び長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」との比較により、ユーザＵ１の吸気を分類する。図１９の例では、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」は、長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」より小さい。

　図１９の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」よりも大きい場合、長文発話の可能性が高い吸気（「長文型吸気」ともいう）に分類する。この場合、情報処理システム１は、長文型の音声認識辞書を準備する。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、長文用辞書の情報を取得し、取得した情報を用いて音声認識の処理を行う。

　また、図１９の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が長文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｌｏｎｇ」以下であり、短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」よりも大きい場合、明確に長文であるか短文であるか推測が難しい吸気（「中文型吸気」ともいう）に分類する。この場合、情報処理システム１は、中文型の音声認識辞書を準備する。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、中文用辞書の情報を取得し、取得した情報を用いて音声認識の処理を行う。

　また、図１９の例では、サーバ装置１００は、発話長さ想定スコア「Ｓｃｏｒｅ＿ｕｔｔｒ＿ｌｅｎｇｔｈ」が短文発話閾値「Ｔｈｒｅｓｈｏｌｄ＿ｕｔｔｒ＿ｓｈｏｒｔ」以下である場合、短文発話の可能性が高い吸気（「短文型吸気」ともいう）に分類する。この場合、情報処理システム１は、短文型音声認識辞書（単語・語句）を準備する。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、単語・語句用辞書の情報を取得し、取得した情報を用いて音声認識の処理を行う。

　ここから、図１７に戻って説明を続ける。ステップＳ５０１においてユーザＵ１の吸気が長文型吸気に分類された場合、情報処理システム１は、長文用辞書を選択する（ステップＳ５１１）。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、長文用辞書の情報を選択する。

　そして、ユーザＵ１が発話を行う（ステップＳ５４１）。そして、情報処理システム１は、選択した辞書を用いた音声認識結果を取得する（ステップＳ５４２）。例えば、情報処理システム１は、長文用辞書を用いた音声認識結果を取得する。

　また、ステップＳ５０１においてユーザＵ１の吸気が中文型吸気に分類された場合、中文用辞書を選択する（ステップＳ５２１）。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、中文用辞書の情報を選択する。

　そして、ユーザＵ１が発話を行う（ステップＳ５４１）。そして、情報処理システム１は、選択した辞書を用いた音声認識結果を取得する（ステップＳ５４２）。例えば、情報処理システム１は、中文用辞書を用いた音声認識結果を取得する。

　また、ステップＳ５０１においてユーザＵ１の吸気が短文型吸気に分類された場合、単語・語句用辞書を選択する（ステップＳ５２１）。例えば、サーバ装置１００は、記憶部１２０に記憶された辞書のうち、短文用の単語・語句用辞書の情報を選択する。

　そして、ユーザＵ１が発話を行う（ステップＳ５４１）。そして、情報処理システム１は、選択した辞書を用いた音声認識結果を取得する（ステップＳ５４２）。例えば、情報処理システム１は、単語・語句用辞書を用いた音声認識結果を取得する。

　このように、情報処理システム１は、音声認識で利用する辞書を発話長さによって変更し、音声認識性能を高めることができる。

　発話内容と認識エンジンの特性不一致である場合、例えば、一語や単語単位の発話で精度が下がる等が生じる。例えば、単語発話に長文用の音声認識辞書を利用すると認識性能が大きく低下する場合がある。

　しかしながら、情報処理システム１は、呼吸状態から短い発話か長い発話かを推定し音声認識エンジン辞書を変更する。このように、情報処理システム１は、吸気の分類に応じて辞書を選択することで、上記のような性能の低下を抑制することができる。

［１－６－４．吸気状態により選択されるＵＩの変更例］
　なお、情報処理システム１は、上述した例に限らず、長文型吸気～短文型吸気の分類に基づいて、種々の情報や処理を選択してもよい。この点について図２０を用いて説明する。図２０は、吸気の分類結果を用いた処理の一例を示す図である。

　具体的には、図２０は、吸気状態による発話長さの推定から選択されるＵＩを変更する場合を示す。情報処理システム１は、図２０中のコンテンツＣＴ１に示すように、無作為にレイアウトされたようなＵＩエレメントであっても、想定される発話量に応じて適するＵＩエレメントを選択する。

　図２０中のコンテンツＣＴ１には、例えば端末装置１０の表示部１６（スクリーン）に表示される。コンテンツＣＴ１には、ＩＤに対応するエレメントＥＬ１とＴｉｔｌｅに対応するエレメントＥＬ２と、ＭｅｓｓａｇｅＢｏｄｙ（本文）に対応するエレメントＥＬ３とがランダムに配置される。ＩＤは、数字などの短い入力が想定される。また、Ｔｉｔｌｅは、単語数語程度の中文の入力が想定される。また、ＭｅｓｓａｇｅＢｏｄｙは、自由文章などの長文の入力が想定される。そのため、図２０に示すように、エレメントＥＬ１、エレメントＥＬ２、エレメントＥＬ３の順に占める領域が大きくなる。

　サーバ装置１００は、ユーザＵ１の吸気を示す吸気情報を用いて、分類処理を行う（ステップＳ６０１）。なお、ステップＳ６０１は、ステップＳ５０１と同様であるため説明を省略する。

　ステップＳ６０１においてユーザＵ１の吸気が長文型吸気に分類された場合、情報処理システム１は、コンテンツＣＴ１中のエレメントＥＬ１～ＥＬ３のうち、ＭｅｓｓａｇｅＢｏｄｙに対応するエレメントＥＬ３を選択する（ステップＳ６１１）。例えば、端末装置１０は、ＭｅｓｓａｇｅＢｏｄｙに対応するエレメントＥＬ３を入力の対象として選択する。

　ステップＳ６０１においてユーザＵ１の吸気が中文型吸気に分類された場合、情報処理システム１は、コンテンツＣＴ１中のエレメントＥＬ１～ＥＬ３のうち、Ｔｉｔｌｅに対応するエレメントＥＬ２を選択する（ステップＳ６２１）。例えば、端末装置１０はＴｉｔｌｅに対応するエレメントＥＬ２を入力の対象として選択する。

　ステップＳ６０１においてユーザＵ１の吸気が短文型吸気に分類された場合、情報処理システム１は、コンテンツＣＴ１中のエレメントＥＬ１～ＥＬ３のうち、ＩＤに対応するエレメントＥＬ１を選択する（ステップＳ６３１）。例えば、端末装置１０はＩＤに対応するエレメントＥＬ１を入力の対象として選択する。

　なお、上記は一例であり、情報処理システム１は、種々の情報を適宜用いてエレメントを決定してもよい。情報処理システム１は、ＵＩエレメントが一意に決まる場合は自動的に入力先を決定するが、同じ長さ程度の入力が想定されるＵＩエレメントが複数あったり、システム側で自動的に判断できかったりする場合は、ユーザに問い合わせる等の処理を行い、入力エレメントを決定しても良い。

［１－６－５．システムレスポンスの変更例］
　分類処理の一例について、図２１及び図２２を用いて説明する。図２１及び図２２は、吸気の分類結果を用いた処理の一例を示す図である。まず、図２１の例について説明する。図２１は、システムレスポンス（Text-To-Speech）の変更例を示す。具体的には、図２１は、Ｗｕｗ（Wake　up　Word）時のレスポンス変化の例を示す。

　まず、図２１の例では、サーバ装置１００は、ユーザＵ１の発話前の吸気を示す吸気情報を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報を取得する。

　ユーザＵ１の発話前吸気が行われ（ステップＳ７０１）、その後ユーザＵ１がＷＵＷを発話する（ステップＳ７０２）。サーバ装置１００は、ユーザＵ１の吸気情報を用いて分類処理を行う。サーバ装置１００は、吸気情報を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、ユーザＵ１の吸気を分類する。サーバ装置１００は、算出したスコアと各閾値との大小関係を基に、ユーザＵ１の吸気を分類する。

　以下、サーバ装置１００が行う上述の分類処理について、図２３及び図２４を用いて具体的に説明する。図２３は、ユーザの吸気情報の一例を示す図である。図２４は、ユーザの吸気を用いた予測の一例を示す図である。

　図２３中のグラフＧＲ５は、時間と吸気量との関係を示すグラフであり、横軸が時間を示し、縦軸が吸気量を示すグラフである。なお、グラフＧＲ５について、図２中のグラフＧＲ１や図１２中のグラフＧＲ２と同様の点については説明を省略する。

　例えば、グラフＧＲ５中の最大呼吸量「Ｂ＿ｍａｘ」は、発話前の吸気により到達する最大の吸気量（最大吸気量）を示す。最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」は、最大吸気量に達した時間から発話が開始された時間（発話開始時間）までの間隔を示す。

　例えば、グラフＧＲ５中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、最大呼吸量「Ｂ＿ｍａｘ」に到達する前の吸気量の変化（増加量）を示す。なお、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」は、吸気情報を取得時点（現時点）における吸気量の変化（増加量）であってもよい。

　例えば、吸気情報には、図２３中の増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と、最大呼吸量「Ｂ＿ｍａｘ」と、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」とが含まれる。なお、吸気情報には、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」が含まれなくてもよい。この場合、最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」に係る項（第３項）である「ｃ＊（１／Ｔ＿ｂｍａｘ＿ｕｔｔｒ）」は、「０」としてスコアを算出してもよい。また、最大呼吸量「Ｂ＿ｍａｘ」が含まれなくてもよい。この場合、サーバ装置１００は、図２で説明したように最大呼吸量「Ｂ＿ｍａｘ」を予測し、予測した最大呼吸量「Ｂ＿ｍａｘ」を用いて、スコアを算出してもよい。

　サーバ装置１００は、増加量「Ｂ＿ｉｎｃｒｅａｓｅ」と最大呼吸量「Ｂ＿ｍａｘ」と最大吸気－発話間時間「Ｔ＿ｂｍａｘ＿ｕｔｔｒ」と以下の式（５）を用いて、発話予測に用いるスコアである発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」を算出する。

　上記の式（５）中の「ａ」や「ｂ」や「ｃ」は、所定の定数を示す。上記の式（５）は、上記の式（２）～（４）と同様であるが、「ａ」や「ｂ」や「ｃ」の値は異なり、より吸気の急激な上昇を大きく反映させるために、上記の式２）～（４）と比較して、係数「ｂ」が相対的に大きい。なお、上記の式（５）は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の算出の一例であり、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の算出には種々の数式が用いられてもよい。

　そして、サーバ装置１００は、急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」と、急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」との２つの閾値を、ユーザＵ１の吸気を分類する。サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」と各閾値との比較により、ユーザＵ１の吸気を分類する。すなわち、サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の値による発話タイプを分類する。

　サーバ装置１００は、図２４中の分類結果ＰＤ５に示すように、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」と、急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」及び急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」との比較により、ユーザＵ１の吸気を分類する。図２４の例では、急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」は、急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」より小さい。

　図２４の例では、サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」が急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」よりも大きい場合、長文発話の可能性が高い吸気（「最短型吸気」ともいう）に分類する。この場合、情報処理システム１は、ユーザが最短での処理を希望していると予測して、最短の処理を実行する。例えば、情報処理システム１は、ユーザが急いでタスク実行しようとしている場合、ＴＴＳ（Text-To-Speech）発話は短縮しＳＥ（効果音）を出力する。

　また、図２４の例では、サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」が急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」以下であり、急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」よりも大きい場合、明確に長文であるか短文であるか推測が難しい吸気（「中間型吸気」ともいう）に分類する。この場合、情報処理システム１は、ユーザが最短と通常との間の中間での処理を希望していると予測して、中間の処理を実行する。例えば、情報処理システム１は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の値に応じてＴＴＳ発話文章を要約して提示する。なお、中間での処理についての詳細は後述する。

　また、図２４の例では、サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」が急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」以下である場合、短文発話の可能性が高い吸気（「通常型吸気」ともいう）に分類する。この場合、情報処理システム１は、ユーザが通常の処理を希望していると予測して、最短の処理を実行する。例えば、情報処理システム１は、ユーザが特段急いだ発話ではないため、最も詳しく情報がユーザに伝わるＴＴＳ発話を実行する。

　このように、サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」と急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」及び急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」とを比較することにより、ユーザＵ１の吸気を分類する。なお、急ぎ低閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｌｏｗ」や急ぎ高閾値「Ｔｈｒｅｓｈｏｌｄ＿ｈｕｒｒｙ＿ｈｉｇｈ」等の各閾値はユーザの運動状態などの変化により通常呼吸範囲の変化に合わせて増減させてもよい。

　上述のように、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」は、最大呼吸量や増加量や呼吸最大から発話間の時間（最大吸気－発話間時間）を加味した値となる。サーバ装置１００は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」を用いることで、ユーザの呼吸を分類する。これにより、サーバ装置１００は、ユーザの吸気を適切に分類し、処理の選択に利用することを可能にする。なお、呼吸状態と発話の速さを合わせて判断しても良いが、この点についての詳細は後述する。

　ここから、図２１に戻って説明を続ける。ユーザＵ１の吸気が通常型吸気に分類された場合、情報処理システム１は、ユーザＵ１が通常処理を希望と予測し、通常処理を選択する（ステップＳ７１１）。図２１の例では、端末装置１０は、「Ｈｏｗ　ｃａｎ　Ｉ　ｈｅｌｐ　？」といった通常処理での出力を行う。そして、ユーザＵ１が発話を行う（ステップＳ７３１）。

　また、ユーザＵ１の吸気が最短型吸気に分類された場合、情報処理システム１は、ユーザＵ１が最短での処理を希望と予測し、最短処理を選択する（ステップＳ７２１）。図２１の例では、端末装置１０は、所定のＳＥ（効果音）のみを出力する。そして、ユーザＵ１が発話を行う（ステップＳ７３１）。

　また、ユーザＵ１の吸気が中間型吸気に分類された場合、ユーザが最短と通常との間の中間での処理を希望していると予測して、中間の処理を実行する。この点について、以下説明する。

　ユーザＵ１の吸気が中間型吸気に分類された場合、情報処理システム１は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の値に応じてＴＴＳ発話文章を要約して提示する。例えば、情報処理システム１は、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の値を利用したＴＴＳ発話の要約を行う。

　なお、情報処理システム１は、上記の式（５）に代えて、下記の式（６）を用いて、発話予測に用いるスコアである発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」を算出してもよい。

　上記の式（６）中の「ａ」や「ｂ」や「ｃ」や「ｄ」は、所定の定数を示す。上記の式（６）中の「Ｖ＿ｕｔｔｒ」は、時間当たり何文字発話したかの指標（単位時間発話数）を示し、例えば、下記の式（７）を用いて算出される。

　上記の式（７）について、図２５を用いて説明する。図２５は、ユーザの発話の長さと文字数の関係の一例を示す図である。図２５中の発話ＵＴは、ユーザによる発話を概念的に示す。図２５では、発話ＵＴが開始時間「Ｔ＿ｕｔｔｒ＿ｓｔａｒｔ」から終了時間「Ｔ＿ｕｔｔｒ＿ｅｎｄ」まで行われたことを示す。すなわち、終了時間「Ｔ＿ｕｔｔｒ＿ｅｎｄ」から開始時間「Ｔ＿ｕｔｔｒ＿ｓｔａｒｔ」を減算した値である式（７）中の「Ｔ＿ｕｔｔｒ＿ｅｎｄ－Ｔ＿ｕｔｔｒ＿ｓｔａｒｔ」が発話の長さを示す。式（７）中の「Ｃｈａｒａｃｔｅｒ　ｎｕｍｂｅｒ　ｏｆ　ｔｈｅ　ｕｔｔｅｒａｎｃｅ」は、発話ＵＴに含まれる単語数を示す。

　このように、上記の式（７）の「Ｖ＿ｕｔｔｒ」は、発話ＵＴにおいて、時間当たり何文字発話したかの指標（単位時間発話数）を示す。例えば、「Ｖ＿ｕｔｔｒ」が大きい場合、早い発話であることを示し、「Ｖ＿ｕｔｔｒ」が小さい場合、ゆっくりな発話であることを示す。情報処理システム１は、上記の式（６）を用いることにより、発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」の算出に発話速度も加味してもよい。

　情報処理システム１は、上記の式（５）または上記の式（６）のいずれかを用いて算出した発話急ぎスコア「Ｓｃｏｒｅ＿ｈｕｒｒｙ」を用いて、ＴＴＳ発話の要約を行う。なお、情報処理システム１は、文章の要約を行ってもよいし、外部のサービスが提供するＡＰＩ（Application　Programming　Interface）等を用いて行ってもよい。

　情報処理システム１は、下記の式（８）を用いて、短縮目標値を算出してもよい。

　上記の式（８）中の「ｅ」は、所定の定数を示す。上記の式（６）中の「Ａｂｂｒｅｖ＿ｔａｒｇｅｔ」の値が、短縮目標値となる。「Ａｂｂｒｅｖ＿ｔａｒｇｅｔ」は、ユーザが急いでいるほど短く（小さく）なるように算出される。

　そして、情報処理システム１は、「Ａｂｂｒｅｖ＿ｔａｒｇｅｔ」の値を基にＴＴＳ発話の要約を行う。例えば、情報処理システム１は、下記の式（９）を用いて、ＴＴＳ発話の要約を行う。

　上記の式（９）中の「Ｓｈｏｒｔｅｎ＿ＡＰＩ」は、要約生成に用いる所定の関数（ＡＰＩ）を示す。また、上記の式（９）中の「ｏｒｉｇｉｎａｌ＿ｒｅｓｐｏｎｓｅ」は、要約前のＴＴＳ応答を示す。上記の式（９）中の「Ｒｅｓｐｏｎｓｅ＿ａｂｂｒｅｖ」は、Ｓｈｏｒｔｅｎ＿ＡＰＩが出力するＴＴＳ発話の要約を示す。この場合、情報処理システム１は、Ｓｈｏｒｔｅｎ＿ＡＰＩが出力した「Ｒｅｓｐｏｎｓｅ＿ａｂｂｒｅｖ」をＴＴＳ要約として用いる。

　例えば、ユーザＵ１の吸気が中間型吸気に分類された場合、情報処理システム１は、Ｓｈｏｒｔｅｎ＿ＡＰＩが出力した「Ｒｅｓｐｏｎｓｅ＿ａｂｂｒｅｖ」を出力する。例えば、端末装置１０は、「Ｒｅｓｐｏｎｓｅ＿ａｂｂｒｅｖ」に対応するＴＴＳ要約の出力を行う。

　このように、情報処理システム１は、発話前の吸気状態からユーザがどのような速度のターンテイクを望んでいる状態か推定し、ＴＴＳレスポンス長さを調整する。また、情報処理システム１は、ユーザが急いでタスクを完了したい場合は短いＴＴＳ応答やＳＥでの応答に切替え、タスク達成時間を短縮する。これにより、情報処理システム１は、ユーザビリティを向上させることができる。なお、文章によっては期待通りの長さに要約できなかったりするため、その場合、情報処理システム１は、ＴＴＳの再生スピードを調整して時間短縮を合わせて行うなどしても良い。

　次に、図２２の例について説明する。図２２は、システムレスポンス（Text-To-Speech）の変更例を示す。具体的には、図２２は、発話受付時のアクションレスポンス変化の例を示す。

　まず、図２２の例では、サーバ装置１００は、ユーザＵ１の発話前の吸気を示す吸気情報を取得する。例えば、サーバ装置１００は、ユーザＵ１が利用する端末装置１０からユーザＵ１の吸気を示す吸気情報を取得する。

　ユーザＵ１の発話前吸気が行われ（ステップＳ８０１）、その後ユーザＵ１がＷＵＷを発話する（ステップＳ８０２）。サーバ装置１００は、ユーザＵ１の吸気情報を用いて分類処理を行う。サーバ装置１００は、吸気情報を用いてスコアを算出する。そして、サーバ装置１００は、算出したスコアと閾値とを比較することにより、ユーザＵ１の吸気を分類する。サーバ装置１００は、算出したスコアと各閾値との大小関係を基に、ユーザＵ１の吸気を分類する。なお、分類処理については図２１と同様のため説明を省略する。

　ユーザＵ１の吸気が通常型吸気に分類された場合、情報処理システム１は、ユーザＵ１が通常処理を希望と予測し、通常処理を選択する（ステップＳ８１１）。図２２の例では、端末装置１０は、ディスプレイＤＰ（表示部１６）に情報を表示するとともに、「ＯＫ,　ｈｅｒｅ’ｓ　ｔｈｅ　ｒｅｓｕｌｔ.　Ｏｎｅ　ｎｅｗ　ｍｏｖｉｅ　ａｎｄ　ｔｗｏ　ｍｕｓｉｃ」といった通常処理での出力を行う。このように、通常処理では、端末装置１０は、ユーザの要求に対する情報の表示とともに、その情報（ＴＴＳ発話）に関する音声出力も行う。

　また、ユーザＵ１の吸気が最短型吸気に分類された場合、情報処理システム１は、ユーザＵ１が最短での処理を希望と予測し、最短処理を選択する（ステップＳ８２１）。図２２の例では、端末装置１０は、ディスプレイＤＰ（表示部１６）に情報を表示するとともに、所定のＳＥ（効果音）のみを出力する。このように、通常処理では、端末装置１０は、ユーザの要求に対する情報の表示とともに、ユーザへの通知音のみの出力を行う。

　また、ユーザＵ１の吸気が中間型吸気に分類された場合、ユーザが最短と通常との間の中間での処理を希望していると予測して、上述したような中間の処理を実行する。例えば、ユーザＵ１の吸気が中間型吸気に分類された場合、端末装置１０は、ユーザの要求に対する情報の表示とともに、ＴＴＳ発話の要約の音声出力も行う。

　上述のように、ディスプレイＤＰを備えた端末であれば、最短レスポンスはＳＥである。なお、ディスプレイがない端末の場合、最短レスポンスは状態が分かる最少量のＴＴＳ発話であってもよい。

　このように、情報処理システム１は、発話前の吸気状態からユーザがどのような速度のターンテイクを望んでいる状態か推定し、急いでいる時はアクション実行後のＴＴＳレスポンスを要約して短縮したり、ＳＥで通知したりする。これにより、情報処理システム１は、ユーザビリティを向上させることができる。

［２．その他の実施形態］
　上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

［２－１．クライアント側で予測処理等を行う構成例］
　実施形態においては、システム構成の一例として、サーバ装置１００が予測処理や分類処理等を行う場合を示したが、端末装置１０が予測処理や分類処理を行ってもよい。すなわち、クライアント側の装置である端末装置１０が上述した予測処理や分類処理を行う情報処理装置であってもよい。このように、情報処理システム１のシステム構成は、サーバ側の装置であるサーバ装置１００が予測処理や分類処理を行う構成に限らず、クライアント側の装置である端末装置１０が上述した予測処理や分類処理を行う構成であってもよい。

　端末装置１０が上述した予測処理や分類処理を行う情報処理装置である場合、情報処理システム１では、クライアント側（端末装置１０）で発話の予測や吸気の分類を行う。そして、サーバ側（サーバ装置１００）は、その予測結果や分類結果の情報を端末装置１０から取得して、各種の処理を行う。この場合、端末装置１０は、上述した予測部１３２と同様の機能を実現する予測部や、選択部１３３と同様の機能を実現する選択部を有してもよい。また、この場合、サーバ装置１００は、予測部１３２や選択部１３３を有しなくてもよい。

　また、情報処理システム１は、クライアント側（端末装置１０）で発話の予測を行い、サーバ側（サーバ装置１００）で吸気の分類を行うシステム構成であってもよい。この場合、クライアント側の装置である端末装置１０が上述した予測処理を行う情報処理装置であり、サーバ側の装置であるサーバ装置１００が上述した分類処理を行う情報処理装置であってもよい。この場合、端末装置１０の予測部が予測処理を行い、サーバ装置１００の予測部１３２が分類処理を行う。

　なお、上記は一例であり、情報処理システム１においては、各処理をいずれの装置が行ってもよい。このように、情報処理システム１は、各処理について、クライアント側の装置（端末装置１０）及びサーバ側の装置（サーバ装置１００）のいずれが行うシステム構成であってもよい。

［２－２．その他の構成例］
　なお、上記の例では、サーバ装置１００と端末装置１０とが別体である場合を示したが、これらの装置は一体であってもよい。

［２－３．その他］
　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［３．本開示に係る効果］
　上述のように、本開示に係る情報処理装置（実施形態ではサーバ装置１００）は、取得部（実施形態では取得部１３１）と、予測部（実施形態では予測部１３２）とを備える。取得部は、ユーザの吸気を示す吸気情報を取得する。予測部は、取得部により取得された吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する。

　このように、本開示に係る情報処理装置は、ユーザの吸気を示す吸気情報に基づいて、ユーザの吸気の後にユーザが発話するか否かを予測する。このように、情報処理装置は、ユーザの吸気の状態を基に、その後のユーザの発話があるかを予測することで、ユーザの発話有無を適切に予測することができる。

　また、取得部は、ユーザの吸気の増加量を含む吸気情報を取得する。予測部は、増加量に基づいて、吸気の後にユーザが発話するか否かを予測する。このように、情報処理装置は、ユーザの吸気の増加量を用いることで、精度よくユーザの発話有無を予測することができる。

　また、取得部は、ユーザの吸気の吸気量を含む吸気情報を取得する。予測部は、吸気量に基づいて、吸気の後にユーザが発話するか否かを予測する。このように、情報処理装置は、ユーザの吸気の吸気量を用いることで、精度よくユーザの発話有無を予測することができる。

　また、取得部は、ユーザの吸気の開始時点の初期吸気量を含む吸気情報を取得する。予測部は、初期吸気量に基づいて、吸気の後にユーザが発話するか否かを予測する。このように、情報処理装置は、ユーザの吸気の初期吸気量を用いることで、精度よくユーザの発話有無を予測することができる。

　また、予測部は、吸気情報に基づいて算出されるスコアを用いて、吸気の後にユーザが発話するか否かを予測する。このように、情報処理装置は、吸気情報に基づいて算出されるスコアを用いることで、ユーザの発話有無を適切に予測することができる。

　また、予測部は、スコアと閾値との比較結果が所定の条件を満たす場合、吸気の後にユーザが発話すると予測する。このように、情報処理装置は、スコアと閾値との比較に基づいてユーザの発話を予測することで、ユーザの発話有無を適切に予測することができる。

　また、本開示に係る情報処理装置は、実行部（実施形態では実行部１３４）を備える。実行部は、予測部による予測結果に応じて処理を実行する。このように、情報処理装置は、ユーザの発話有無の予測結果に応じた処理を実行することで、ユーザが発話するかどうかに応じて適切な処理を実行することができる。

　また、実行部は、予測部により吸気の後にユーザが発話すると予測された場合、ユーザの吸気が終了する前に、音声認識に関する事前処理を実行する。このように、情報処理装置は、ユーザが発話すると予測された場合、吸気の終了前に、音声認識に関する事前処理を実行することで、ユーザの発話に先立って音声認識の準備を行うことができ、ユーザビリティを向上させることができる。

　また、実行部は、予測部により吸気の後にユーザが発話すると予測された場合、音声認識に関する事前処理を実行する。このように、情報処理装置は、ユーザが発話すると予測された場合、音声認識に関する事前処理を実行することで、予測に応じて音声認識の準備を行うことができ、ユーザビリティを向上させることができる。

　また、実行部は、ユーザの吸気が終了する前に、事前処理を実行する。このように、情報処理装置は、ユーザが発話すると予測された場合、吸気の終了前に、音声認識に関する事前処理を実行することで、ユーザの発話に先立って音声認識の準備を行うことができ、ユーザビリティを向上させることができる。

　また、予測部は、吸気情報に基づいて、ユーザの吸気を分類する。このように、情報処理装置は、ユーザの吸気を分類することで、ユーザの吸気状況を分類した結果を用いて、その後の処理を実行することができる。

　また、取得部は、ユーザの吸気の最大吸気量を含む吸気情報を取得する。予測部は、最大吸気量に基づいて、ユーザの吸気を分類する。このように、情報処理装置は、ユーザの吸気の最大吸気量を用いることで、精度よくユーザの吸気を分類することができる。

　また、取得部は、ユーザの吸気の後の発話開始時点を示す時点情報を取得する。予測部は、最大吸気量の時点と発話開始時点との間隔に基づいて、ユーザの吸気を分類する。このように、情報処理装置は、最大吸気量の時点と発話開始時点との間隔の情報を用いることで、精度よくユーザの吸気を分類することができる。

　また、取得部は、ユーザの吸気の後の発話の長さと文字数を含む発話情報を取得する。予測部は、発話の長さと文字数とに基づいて、ユーザの吸気を分類する。このように、情報処理装置は、ユーザの吸気の後の発話の長さと文字数を用いることで、精度よくユーザの吸気を分類することができる。

　また、予測部は、ユーザの吸気を、少なくとも依頼型吸気及び非依頼型吸気を含む複数のタイプのうちのいずれかに分類する。このように、情報処理装置は、ユーザの吸気を依頼型吸気及び非依頼型吸気を含む複数のタイプのいずれかに分類することで、ユーザの吸気状況を適切に分類することができる。

　また、予測部は、ユーザの吸気を、少なくとも長文型吸気及び短文型吸気を含む複数のタイプのうちのいずれかに分類する。このように、情報処理装置は、ユーザの吸気を長文型吸気及び短文型吸気を含む複数のタイプのいずれかに分類することで、ユーザの吸気状況を適切に分類することができる。

　また、予測部は、ユーザの吸気を、少なくとも通常処理希望型吸気及び短縮処理希望型吸気を含む複数のタイプのうちのいずれかに分類する。このように、情報処理装置は、ユーザの吸気を通常処理希望型吸気及び短縮処理希望型吸気を含む複数のタイプのいずれかに分類することで、ユーザの吸気状況を適切に分類することができる。

　また、本開示に係る情報処理装置は、選択部（実施形態では選択部１３３）を備える。選択部は、予測部による分類結果に応じた選択処理を行う。このように、情報処理装置は、ユーザの発話有無の予測結果に応じた選択処理を実行することで、ユーザが発話するかどうかに応じて適切な選択を行うことができる。

　また、選択部は、予測部による分類結果に応じて、実行する処理を選択する。このように、情報処理装置は、予測部による分類結果に応じて、実行する処理を選択することで、ユーザが発話するかどうかに応じて、実行する処理を適切に選択することができる。

　また、選択部は、予測部による分類結果に応じて、ユーザの発話に対する処理に用いる情報を選択する。このように、情報処理装置は、予測部による分類結果に応じて、ユーザの発話に対する処理に用いる情報を選択することで、ユーザが発話するかどうかに応じて、用いる情報を適切に選択することができる。

［４．ハードウェア構成］
　上述してきた各実施形態に係るサーバ装置１００や端末装置１０等の情報機器は、例えば図２６に示すような構成のコンピュータ１０００によって実現される。図２６は、情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係るサーバ装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係るサーバ装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザの吸気を示す吸気情報を取得する取得部と、
　前記取得部により取得された前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する予測部と、
　を備える情報処理装置。
（２）
　前記取得部は、
　前記ユーザの前記吸気の増加量を含む前記吸気情報を取得し、
　前記予測部は、
　前記増加量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　（１）に記載の情報処理装置。
（３）
　前記取得部は、
　前記ユーザの前記吸気の吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記吸気量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　（１）または（２）に記載の情報処理装置。
（４）
　前記取得部は、
　前記ユーザの前記吸気の開始時点の初期吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記初期吸気量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記予測部は、
　前記吸気情報に基づいて算出されるスコアを用いて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　（１）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記予測部は、
　前記スコアと閾値との比較結果が所定の条件を満たす場合、前記吸気の後に前記ユーザが発話すると予測する、
　（５）に記載の情報処理装置。
（７）
　前記予測部による予測結果に応じて処理を実行する実行部、
　（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記実行部は、
　前記予測部により前記吸気の後に前記ユーザが発話すると予測された場合、音声認識に関する事前処理を実行する
　（７）に記載の情報処理装置。
（９）
　前記実行部は、
　前記ユーザの前記吸気が終了する前に、前記事前処理を実行する
　（８）に記載の情報処理装置。
（１０）
　前記予測部は、
　前記吸気情報に基づいて、前記ユーザの前記吸気を分類する、
　（１）～（９）のいずれか１項に記載の情報処理装置。
（１１）
　前記取得部は、
　前記ユーザの前記吸気の最大吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記最大吸気量に基づいて、前記ユーザの前記吸気を分類する、
　（１０）に記載の情報処理装置。
（１２）
　前記取得部は、
　前記ユーザの前記吸気の後の発話開始時点を示す時点情報を取得し、
　前記予測部は、
　前記最大吸気量の時点と前記発話開始時点との間隔に基づいて、前記ユーザの前記吸気を分類する、
　（１１）に記載の情報処理装置。
（１３）
　前記取得部は、
　前記ユーザの前記吸気の後の発話の長さと文字数を含む発話情報を取得し、
　前記予測部は、
　前記発話の長さと文字数とに基づいて、前記ユーザの前記吸気を分類する、
　（１０）～（１２）のいずれか１項に記載の情報処理装置。
（１４）
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも依頼型吸気及び非依頼型吸気を含む複数のタイプのうちのいずれかに分類する、
　（１０）～（１３）のいずれか１項に記載の情報処理装置。
（１５）
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも長文型吸気及び短文型吸気を含む複数のタイプのうちのいずれかに分類する、
　（１０）～（１３）のいずれか１項に記載の情報処理装置。
（１６）
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも通常処理希望型吸気及び短縮処理希望型吸気を含む複数のタイプのうちのいずれかに分類する、
　（１０）～（１３）のいずれか１項に記載の情報処理装置。
（１７）
　前記予測部による分類結果に応じた選択処理を行う選択部、
　をさらに備える（１０）～（１６）のいずれか１項に記載の情報処理装置。
（１８）
　前記選択部は、
　前記予測部による分類結果に応じて、実行する処理を選択する、
　（１７）に記載の情報処理装置。
（１９）
　前記選択部は、
　前記予測部による分類結果に応じて、前記ユーザの発話に対する処理に用いる情報を選択する、
　（１７）または（１８）に記載の情報処理装置。
（２０）
　ユーザの吸気を示す吸気情報を取得し、
　取得した前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する、
　処理を実行する情報処理方法。

　１　情報処理システム
　１００　サーバ装置（情報処理装置）
　１１０　通信部
　１２０　記憶部
　１２１　吸気情報記憶部
　１２２　ユーザ情報記憶部
　１２３　閾値情報記憶部
　１２４　機能情報記憶部
　１３０　制御部
　１３１　取得部
　１３２　予測部
　１３３　選択部
　１３４　実行部
　１３５　送信部
　１０　端末装置
　１１　通信部
　１２　入力部
　１３　出力部
　１４　記憶部
　１５　制御部
　１５１　受信部
　１５２　実行部
　１５３　受付部
　１５４　送信部
　１６　表示部
　１７　センサ部
　１７１　呼吸センサ
　１８　光源部

Claims

　ユーザの吸気を示す吸気情報を取得する取得部と、
　前記取得部により取得された前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する予測部と、
　を備える情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の増加量を含む前記吸気情報を取得し、
　前記予測部は、
　前記増加量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記吸気量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の開始時点の初期吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記初期吸気量に基づいて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　請求項１に記載の情報処理装置。
　前記予測部は、
　前記吸気情報に基づいて算出されるスコアを用いて、前記吸気の後に前記ユーザが発話するか否かを予測する、
　請求項１に記載の情報処理装置。
　前記予測部は、
　前記スコアと閾値との比較結果が所定の条件を満たす場合、前記吸気の後に前記ユーザが発話すると予測する、
　請求項５に記載の情報処理装置。
　前記予測部による予測結果に応じて処理を実行する実行部、
　請求項１に記載の情報処理装置。
　前記実行部は、
　前記予測部により前記吸気の後に前記ユーザが発話すると予測された場合、音声認識に関する事前処理を実行する
　請求項７に記載の情報処理装置。
　前記実行部は、
　前記ユーザの前記吸気が終了する前に、前記事前処理を実行する
　請求項８に記載の情報処理装置。
　前記予測部は、
　前記吸気情報に基づいて、前記ユーザの前記吸気を分類する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の最大吸気量を含む前記吸気情報を取得し、
　前記予測部は、
　前記最大吸気量に基づいて、前記ユーザの前記吸気を分類する、
　請求項１０に記載の情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の後の発話開始時点を示す時点情報を取得し、
　前記予測部は、
　前記最大吸気量の時点と前記発話開始時点との間隔に基づいて、前記ユーザの前記吸気を分類する、
　請求項１１に記載の情報処理装置。
　前記取得部は、
　前記ユーザの前記吸気の後の発話の長さと文字数を含む発話情報を取得し、
　前記予測部は、
　前記発話の長さと文字数とに基づいて、前記ユーザの前記吸気を分類する、
　請求項１０に記載の情報処理装置。
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも依頼型吸気及び非依頼型吸気を含む複数のタイプのうちのいずれかに分類する、
　請求項１０に記載の情報処理装置。
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも長文型吸気及び短文型吸気を含む複数のタイプのうちのいずれかに分類する、
　請求項１０に記載の情報処理装置。
　前記予測部は、
　前記ユーザの前記吸気を、少なくとも通常処理希望型吸気及び短縮処理希望型吸気を含む複数のタイプのうちのいずれかに分類する、
　請求項１０に記載の情報処理装置。
　前記予測部による分類結果に応じた選択処理を行う選択部、
　をさらに備える請求項１０に記載の情報処理装置。
　前記選択部は、
　前記予測部による分類結果に応じて、実行する処理を選択する、
　請求項１７に記載の情報処理装置。
　前記選択部は、
　前記予測部による分類結果に応じて、前記ユーザの発話に対する処理に用いる情報を選択する、
　請求項１７に記載の情報処理装置。
　ユーザの吸気を示す吸気情報を取得し、
　取得した前記吸気情報に基づいて、前記ユーザの前記吸気の後に前記ユーザが発話するか否かを予測する、
　処理を実行する情報処理方法。