JP2004347943A

JP2004347943A - データ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラム

Info

Publication number: JP2004347943A
Application number: JP2003146099A
Authority: JP
Inventors: Yoshihisa Takeda; 能久武田; Naoya Koga; 直哉古賀; Akira Inoue; 明井上; Kazuyoshi Sukai; 和義須貝
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2003-05-23
Filing date: 2003-05-23
Publication date: 2004-12-09

Abstract

【課題】操作性を向上させる。
【解決手段】ユーザからの音声入力に基づいて楽曲を選曲し再生する車載用楽曲再生装置１００において、選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数のレイヤ３００〜３０４に分けて記憶する記憶部１３０を備え、あるレイヤに属する質問を音声により再生して、ユーザに応答を促した後、一定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい表現しか得られなかった場合に、当該レイヤあるいは他のレイヤに属する質問を音声により再生してユーザに応答を促す構成とした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザの音声入力に基づいてデータ処理を実行するデータ処理装置、楽曲再生装置、および、これらの制御プログラムに関する。
【０００２】
【従来の技術】
従来から、装置操作を、より簡便なものとすべく、ユーザの手操作に代えて音声入力による操作を可能にしたデータ処理装置が知られている。また、この種の装置としては、ユーザとの複数回の対話に基づいて、実行すべきデータ処理を絞り込むようになされたものが提案されている（例えば、特許文献１参照）。
【０００３】
このような装置にあっては、対話中にユーザが、黙り込むなどして、ユーザからの応答が得られなくなった場合、対話を進めずに待機するのが一般的である。
【０００４】
【特許文献１】
特開２００３−１０８１７５号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、上記のように、対話の進行が止まってしまうと、操作性が悪くなるといった問題がある。具体的には、装置が対話を止めたままにしてしまうと、ユーザが操作を再開したい場合には、どこまで対話が進んでいたかを覚えておくか、その都度確認する必要がある。
【０００６】
本発明は、上述した事情に鑑みてなされたものであり、より操作性の良いデータ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
上記課題を解決するために、請求項１に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、データ処理ごとに、ユーザに音声入力を促すための音声データを記憶する記憶手段とを備え、これらの音声データの中から１つを再生しユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促すことを特徴とする。
【０００８】
請求項２に記載の発明は、請求項１に記載のデータ処理装置において、ユーザからの音声入力があるまで、先に再生した音声データと異なる音声データを再生し、ユーザに音声入力を促すことを特徴とする。
【０００９】
請求項３に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生し、ユーザに応答を促すことを特徴とする。
【００１０】
請求項４に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得るデータ処理を順次実行することを特徴とする。
【００１１】
請求項５に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、楽曲ごとに、当該楽曲の再生を指示する旨の音声入力をユーザに促すための音声データを記憶する記憶手段を備え、これらの音声データの中の１つを再生して、ユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促すことを特徴とする。
【００１２】
請求項６に記載の発明は、請求項５に記載の楽曲再生装置において、ユーザからの音声入力があるまで、先に再生した音声データと異なる音声データを再生することを特徴とする。
【００１３】
請求項７に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生してユーザに応答を促すことを特徴とする。
【００１４】
請求項８に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得る楽曲を順次選曲し再生することを特徴とする。
【００１５】
請求項９に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置を、データ処理ごとに、ユーザに音声入力を促すための音声データを記憶する手段、および、これらの音声データの中から１つを再生しユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す手段として機能させることを特徴とするデータ処理装置の制御プログラムを提供する。
【００１６】
請求項１０に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生し、ユーザに応答を促す手段として機能させることを特徴とするデータ処理装置の制御プログラムを提供する。
【００１７】
請求項１１に記載の発明は、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置を、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得るデータ処理を順次実行する手段として機能させることを特徴とするデータ処理装置の制御プログラムを提供する。
【００１８】
請求項１２に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、楽曲ごとに、当該楽曲の再生を指示する旨の音声入力をユーザに促すための音声データを記憶する手段、および、これらの音声データの中の１つを再生して、ユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す手段として機能させることを特徴とする楽曲再生装置の制御プログラムを提供する。
【００１９】
請求項１３に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生してユーザに応答を促す手段として機能させることを特徴とする楽曲再生装置の制御プログラムを提供する。
【００２０】
請求項１４に記載の発明は、ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得る楽曲を順次選曲し再生する手段として機能させることを特徴とする楽曲再生装置の制御プログラムを提供する。
【００２１】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。本実施形態では、楽曲再生装置として自動車などの車両に搭載される車載用楽曲再生装置を例示する。
【００２２】
＜第１実施形態＞
図１は、本実施形態にかかる車載用楽曲再生装置１００の機能的構成を、この車載用楽曲再生装置１００に楽曲データなどのマルチメディアデータを配信するための配信システム１と共に示す図である。この図に示すように、配信システム１は、配信サーバ１０と、車載用楽曲再生装置１００とを備え、これらがインターネット２および無線通信網３からなるネットワーク４を介して互いにデータ通信可能に接続されている。なお、同図には、配信サーバ１０と車載用楽曲再生装置１００とを、各々１台ずつ例示しているが、その台数は任意である。
【００２３】
配信サーバ１０は、一般的なコンピュータシステムから構成され、楽曲データや映像データ、テキストデータなどのマルチメディアデータをネットワーク４を介して車載用楽曲再生装置１００に配信するものであり、多数のマルチメディアデータが格納されたデータベース１１を備えている。
【００２４】
車載用楽曲再生装置１００は、自動車などの車両に搭載され、配信サーバ１０から配信されたマルチメディアデータを再生するものである。図示のように、車載用楽曲再生装置１００は、制御部１１０と、記憶部１３０とを備えている。この制御部１１０は、ＣＰＵや、ＲＯＭ、ＲＡＭなどを備え、車載用楽曲再生装置１００の各部を制御する。
【００２５】
通信装置１２０は、制御部１１０の制御の下、ネットワーク４に接続された各種端末装置とデータ通信するものである。より具体的には、通信装置１２０は、例えば携帯電話機あるいは無線ＬＡＮ通信装置（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの移動通信装置に相当し、無線通信網３を介して当該無線通信網３あるいはインターネット２に接続された各種端末とデータ通信する。本実施形態では、この通信装置１２０は、特に配信サーバ１０とデータ通信することで、この配信サーバ１０から楽曲データや映像データなどのマルチメディアデータを受信する。
【００２６】
記憶部１３０は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの主記憶装置を備え、制御部１１０により実行される各種制御プログラムや、配信サーバ１０から受信したマルチメディアデータ（楽曲データや映像データなど）、合成音声により出力されるテキストデータなどの各種データを記憶するものである。また、記憶部１３０は、マルチメディアの種類（楽曲、テキスト、映像など）ごとに、当該記憶部１３０に格納されているデータを管理するためのテーブルデータを記憶している。
【００２７】
図２は、マルチメディアデータの１つである楽曲データを管理するための楽曲テーブル２００の構成を模式的に示す図である。この図に示すように、楽曲テーブル２００の１件のレコードには、楽曲ＩＤと、ジャンル情報と、アーティスト情報と、曲名情報と、新曲フラグとが含まれている。
【００２８】
楽曲ＩＤは、楽曲データの識別子であり、ジャンル情報は、楽曲が属するジャンルを示すものであり、このジャンルとしては、例えばＪＰＯＰ（日本のポピュラー音楽）、演歌、ロック、クラシックなどがある。アーティスト情報は、楽曲が歌であれば歌手の情報、クラシックのような演奏のみの楽曲であれば指揮者や演奏楽団の情報を示すものである。例えば楽曲が歌である場合には、アーティスト情報として、グループかソロかを示す情報、ボーカルが男性か女性かを示す情報、および、アーティスト名（もしくはグループ名）が含まれている。また、同図に示す曲名情報は、楽曲の曲目を示すものであり、新曲フラグは、楽曲を新曲として扱うか否かを示す情報であり、新曲であれば「ＹＥＳ」、新曲でなければ「ＮＯ」が示される。
【００２９】
この楽曲テーブル２００は、車載用楽曲再生装置１００が配信サーバ１０から楽曲データを受信し、記憶部１３０に格納するごとに、この楽曲データに対応するレコードを生成しレコードを追加することで更新される。楽曲データ以外のマルチメディアデータ（例えば、映像データなど）を管理するためのテーブルデータについても、楽曲テーブル２００と同様に、配信サーバ１０からデータを受信するごとに更新されるが、その詳細な説明については割愛することにする。
【００３０】
なお、楽曲テーブル２００には、上記の情報の他にも、例えばアーティスト情報として、作詞者あるいは作曲者名を含めるようにしても良いし、また、レコードに視聴人気ランキング情報や販売実績ランキング情報といった情報を含める構成としても良い。また、配信サーバ１０が楽曲テーブル２００などのマルチメディアデータを管理するためのテーブルデータを生成し、これらを車載用楽曲再生装置１００がネットワーク４を介して受信する構成としても良い。
【００３１】
さて、再び図１に戻り、楽曲再生部１４０は、制御部１１０の制御の下、マルチメディアデータの１つである楽曲データに基づいてアナログ信号を生成し、ミキサ１４１を介してアンプ１４２に出力するものである。アンプ１４２は、ミキサ１４１からのアナログ信号を増幅してスピーカ１４３に出力する。スピーカ１４３は、アンプ１４２から入力されたアナログ信号に応じて放音するものである。この構成の下、制御部１１０が記憶部１３０に記憶された楽曲データを楽曲再生部１４０に出力することで、スピーカ１４３から楽曲音が出力される。
【００３２】
マイク１５０は、収音装置であり、本実施形態では、ユーザが発した音声を収音し、アナログ信号をアンプ１５１に出力する。アンプ１５１は、入力されたアナログ信号を増幅してＡ／Ｄ変換器１５２に出力するものである。Ａ／Ｄ変換器１５２は、入力されたアナログ信号を所定ビットに量子化してデジタル信号に変換し、音声入力信号としてＶＲ１５３に出力するものである。
【００３３】
ＶＲ（ＶｏｉｃｅＲｅｃｏｇｎｉｔｉｏｎ：音声認識部）１５３は、音声入力信号に基づいて音声認識処理を実行し、その認識結果を制御部１１０に出力するものであり、音声認識処理用の回路（例えばＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ））を備え、制御部１１０が音声認識処理を実行するよりも、高速処理が可能となっている。
【００３４】
ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ：音声変換部）１６０は、制御部１１０から入力されたテキストデータに基づいて、テキスト内容に即した合成音声を生成すべく、デジタル信号である合成音声データを生成し、Ｄ／Ａ変換器１６１に出力するものである。Ｄ／Ａ変換器１６１は、合成音声データをアナログ信号に変換し、ミキサ１４１を介してアンプ１４２に出力する。これにより、スピーカ１４３から合成音声が出力される。なお、上記のように、ミキサ１４１には、楽曲データに基づくアナログ信号と、合成音声データに基づくアナログ信号とが入力されており、両者が同時に入力されている場合には、楽曲と合成音声との音量比率が調整されスピーカ１４３から出力される。
【００３５】
操作部１５４は、電源のオン／オフなどに用いられるものであり、押下式ボタンなどの複数の操作子を備え、ユーザによる操作子の操作を検出し、制御部１１０に出力する。また、車載用楽曲再生装置１００は、この他にも、各種情報が表示される表示部（例えば液晶ディスプレイ）を備え、再生中の楽曲に関する情報や映像などが表示される。また、ユーザが音声により車載用楽曲再生装置１００を操作している間、あたかも自然人と対話しているかの印象をユーザに与えることができるように、この表示部には、ＣＧ合成映像あるいは実写映像からなる人物映像が表示されるようになっている。
【００３６】
さて上記のように、車載用楽曲再生装置１００は、ユーザの音声を認識する構成を備え、音声指示による装置の各種操作が可能となっている。音声により操作されるものとしては、例えば、車載用楽曲再生装置１００の初期設定（時刻設定など）や、楽曲選択操作などがある。以下では、説明が煩雑になるのを避けるべく、ユーザが音声を入力することによって楽曲を選択する際の操作について詳述する。
【００３７】
車載用楽曲再生装置１００にあっては、音声入力による楽曲選択は、車載用楽曲再生装置１００から出力される複数の質問音声に対して、ユーザが順次応答を音声により入力することで行われる構成となっている。この車載用楽曲再生装置１００から出力される質問は、ユーザが所望する楽曲を特定するための質問であり、楽曲を絞り込むために、大項目から小項目の順にレイヤ（階層）に分けられている。
【００３８】
図３は、楽曲選択操作の際に用いられる質問レイヤ構造の一例を示す図である。この図に示すように、質問は、その内容に応じて、第１レイヤ３００〜第５レイヤ３０４に分けられている。具体的には、第１レイヤ３００には、再生すべき楽曲のジャンルを特定するための質問が含まれ、これらの質問に対してユーザが応答することで所望する楽曲のジャンルが絞り込まれる。第２レイヤ３０１および第３レイヤ３０２には、アーティストを絞り込むための質問が含まれている。例えば第２レイヤ３０１には、ユーザが所望するアーティストがソロかグループかを特定するための質問が含まれ、第３レイヤ３０２には、ボーカルの性別を特定するための質問が含まれている。第４レイヤ３０３には、第１レイヤ３００〜第３レイヤ３０２に含まれる質問に対する応答から特定されるアーティスト候補を順次ユーザに提示し、これらの候補の中から所望のアーティストをユーザに選択させるための質問が含まれる。また、第５レイヤ３０４には、第４レイヤ３０３の質問にてユーザが選択したアーティストに属する曲目を順次ユーザに提示し、これらの候補の中から所望の曲をユーザに選択させるための質問が含まれている。
【００３９】
これら各レイヤ３００〜３０４に属する質問は、楽曲選択用の質問テーブル（以下、単に「質問テーブル」と称する）４００に予め登録されている。具体的には、質問テーブル４００は、記憶部１３０に予め記憶され、図４に示すように、質問文を示すテキストデータを、当該質問が属するレイヤごとに記録するものである。例えば、この図に一例を示すように、ユーザが所望する楽曲のジャンルを特定するための質問が属する第１レイヤ３００には、質問文として、「新曲を紹介しますか」や、「ＪＰＯＰを聴きますか」、「演歌を聴きますか」といった内容のテキストデータが登録されている。
【００４０】
また、質問に対してユーザが応答に使用するであろうフレーズは、応答テーブル５００として登録されている。この応答テーブル５００は、記憶部１３０に予め記憶されており、図５に示すように、応答フレーズが意味ごとに登録されている。本実施形態では、フレーズがとり得る意味として、肯定表現、否定表現、および、あいまい表現（あいまい言葉）が予め設定されている。肯定表現は、車載用楽曲再生装置１００が出力した質問に対するユーザの同意を意味するフレーズであり、例えば、「はい」、「うん」、「そう」などがある。否定表現は、肯定表現とは逆に、ユーザの拒否を意味するフレーズであり、例えば、「いいえ」、「ちがう」、「だめ」などがある。また、あいまい表現は、質問に対して否定とは限らないが、肯定ではないということが明らかな応答を示すものであり、例えば「えーと」、「うーん」、「あれ」などがある。
【００４１】
このような構成の下、車載用楽曲再生装置１００は、ユーザに対して質問を、合成音声にて出力した後、ユーザの応答（音声）をマイク１５０から収音し、音声入力信号に対して音声認識を施して、ユーザの応答が肯定表現、否定表現、および、あいまい表現のいずれかを判断することとなる。
【００４２】
次いで、このような車載用楽曲再生装置１００からの質問と、この質問に対するユーザの応答とからなる対話によって楽曲が選択される際の動作について説明する。
【００４３】
図６は、車載用楽曲再生装置１００の制御部１１０が、楽曲選曲・再生のために実行する選曲・再生処理の処理手順を示すフローチャートである。この図に示すように、制御部１１０は、先ず、レイヤ変数Ｎを「１」に初期化する（ステップＳａ１）。レイヤ変数Ｎは、現在の質問がどのレイヤ（図３参照）に属しているかを識別するためのものである。次いで、制御部１１０は、レイヤ変数Ｎにて示される第Ｎレイヤに属する質問の各々をユーザに合成音声にて順次出力し、これらの質問に対するユーザの応答を識別する質問処理を実行する（ステップＳａ２）。なお、この質問処理の具体的な処理内容については、後に詳述する。
【００４４】
次いで、制御部１１０は、ステップＳａ２にて、ユーザの応答として肯定表現の応答があったかを判別し（ステップＳａ３）、この判別結果がＮＯであれば、再度、同一のレイヤに属する質問をユーザに与えるべく、処理手順をステップＳａ２に戻す。
【００４５】
一方、ステップＳａ３における判別結果がＹＥＳである場合には、制御部１１０は、レイヤ変数Ｎを「１」だけインクリメントし（ステップＳａ４）、レイヤ変数Ｎが全レイヤ数（本実施形態では「４」）より大であるかを判別する（ステップＳａ５）。この判別結果がＮＯであれば、制御部１１０は、レイヤ変数Ｎで指定された第Ｎレイヤに属する質問をユーザに与えるべく、処理手順をステップＳａ２に戻す。また、この判別結果がＹＥＳであれば、レイヤごとに、肯定表現の応答が得られたこととなり、ユーザが所望する楽曲データが特定されるから、制御部１１０は、この特定された楽曲データを再生する（ステップＳａ６）。
【００４６】
次いで、上記ステップＳａ２における質問処理について図７に示すフローチャートを参照して、より詳細に説明する。
【００４７】
この図に示すように、質問処理にあっては、第Ｎレイヤに属する質問が順番にユーザに対して合成音声出力される。具体的には、制御部１１０は、先ず、質問変数Ｑを「１」に初期化する（ステップＳｂ１）。この質問変数Ｑは、レイヤに属する質問のうち、現在、どの質問まで出力が完了したかを示すものである。次いで、制御部１１０は、質問変数Ｑにて指定された質問をユーザに与えるべく、合成音声出力する（ステップＳｂ２）。そして、制御部１１０は、質問を合成音声出力してから一定時間内にユーザから応答があったか（音声入力があったか）を判別する（ステップＳｂ３）。
【００４８】
具体的には、ステップＳｂ３において、制御部１１０は、ステップＳｂ２を実行した後に、タイマカウントを開始すると共に、音声入力を受付け続ける。そして、一定時間が経過してタイマカウントがタイムアウトする前に、制御部１１０がユーザからの音声入力を取得した場合、ステップＳｂ３の判別結果がＹＥＳとなり、また、音声入力を取得せずにタイムアウトした場合には、ステップＳｂ３の判別結果がＮＯとる。なお、より詳細には、制御部１１０は、タイマカウントがタイムアウトする前に、音声入力があったとしても、その音声入力に対して音声識別処理を施した結果、その音声が応答テーブル５００（図５参照）に登録された各フレーズのいずれにも該当しない場合には、音声入力がなかったものとする。すなわち、このステップＳｂ３にあっては、質問の応答として取り得る音声入力（応答テーブル５００に登録されているフレーズ）があった場合にだけ、判別結果がＹＥＳとなる。
【００４９】
ステップＳｂ３の判別結果がＹＥＳである場合には、制御部１１０は、音声入力として得られた応答が肯定表現フレーズを含むものであるかを判別し（ステップＳｂ４）、この判別結果がＹＥＳであれば、現在のレイヤに属する他の質問をユーザに与える必要が無いため、質問処理を終了し、処理手順をステップＳａ３に進める。また、制御部１１０は、音声入力として得られた応答が否定表現、あるいは、あいまい表現であれば（ステップＳｂ４：ＮＯ）、現在のレイヤに属する次の質問をユーザに与えるべく、次の処理を実行する。すなわち、制御部１１０は、次の質問を指定すべく質問変数Ｑを「１」だけインクリメントした後（ステップＳｂ５）、質問変数Ｑが全質問数より大きいかを判別し（ステップＳｂ６）、この判別結果がＮＯである場合に、処理手順をステップＳｂ２に戻し、次の質問をユーザに与える。また、ステップＳｂ６の判別結果がＹＥＳである場合、すなわち、現在のレイヤに属する全ての質問がユーザに与えられている場合には、質問処理を終了し、処理手順をステップＳａ３に進める。そして、現在のレイヤにおいて肯定表現の応答が得られていないため、ステップＳａ３における判別結果がＮＯとなり、現在のレイヤに属する質問を最初からユーザに与えるべく、処理手順がステップＳａ２に戻る。
【００５０】
さて、上記ステップＳｂ３の判別結果がＮＯの場合、すなわち、質問をユーザに与えた後、一定時間が経過しても、ユーザから、肯定表現、否定表現およびあいまい表現のいずれかに属する音声入力が応答として得られなかった場合には、制御部１１０は、処理手順をステップＳｂ５に進め、現在のレイヤに属する他の質問をユーザに与え、応答を促す。
【００５１】
つまり、制御部１１０は、ユーザに質問を与えてから一定時間が経過した後、応答が得られなかった場合（ステップＳｂ３：ＮＯ）、および、応答として、あいまい表現が得られた場合（ステップＳｂ４：ＮＯ）には、現在のレイヤに属する他の質問をユーザに順次与えることとなる。
【００５２】
これにより、質問に対してユーザが肯定的な応答をしなかった場合、車載用楽曲再生装置１００が対話の進行をとめるのではなく、質問に応答することで明らかにすべき事項（例えば、所望する楽曲のジャンルやアーティストなど）に関した他の質問がユーザに与えられることで、あたかも、自然人と対話しているかのような自然な対話が実現される。
【００５３】
また、一般的に、ユーザが質問の応答に思案する場合、すなわち、応答に対して黙り込んでしまうか、あるいは、あいまいな応答しかできない場合、ユーザが、その質問に同意していないことが大半である。そこで、上記のように、他の質問を順次与える構成とすることで、ユーザは、所望する質問に対してのみ応答すれば良く、操作性を向上させることができる。
【００５４】
さらにまた、ユーザが車両の運転者であるような場合、車載用楽曲再生装置１００の対話操作を、運転している最中に行うことがある。従って、運転の状況によっては、運転者は、対話操作の途中で、運転に集中することが多々あり、質問に対して一定時間応答しない場合がある。このような場合、対話の進行が止まったままであると、運転者は、再度、対話を再開する場合に、どこまで進行していたかを覚えておく必要があり、これを忘れてしまった場合には、結局最初から対話をやり直さなければならなくなる。これに対して、本実施形態によれば、車載用楽曲再生装置１００は、ユーザからの応答が質問を出力してから一定時間得られなかった場合、質問を順次出力するから、ユーザは、対話操作を再開したい場合に、対話の進行を覚えておかなくとも、所望の質問が出力されたときに応答するだけで良く、操作が容易となる。
【００５５】
＜第２実施形態＞
上述した実施形態では、車載用楽曲再生装置１００は、質問を出力した後、一定時間が経過しても、ユーザから応答が得られなかった場合、あるいは、あいまい表現しか得られなかった場合に、同一のレイヤに属する他の質問を出力する構成について説明した。
【００５６】
しかしながら、ユーザが質問に対する応答する際に、車載用楽曲再生装置１００に現在のレイヤに属する処理ではなく、他のレイヤに属する処理させるべく、応答に思案して黙り込んでしまう、あるいは、あいまい表現を使用する場合がある。この場合の具体例としては、ユーザが、図３に示す第１レイヤ３００に属する質問に応答することで所望の楽曲ジャンルとして「演歌」を選択した上で、第２レイヤ３０１、第３レイヤ３０２と対話を進めたものの、第３レイヤ３０２にて楽曲ジャンルを「ＪＰＯＰ」に変更したいと思った場合などがある。
【００５７】
そこで、本実施形態では、図８に示すように、第１実施形態にて説明した質問処理において、車載用楽曲再生装置１００の制御部１１０は、質問が出力されてから一定時間内に応答がなかった場合（ステップＳｂ３：ＮＯ）、次に出力する質問を上位のレイヤに属する質問（すなわち、先の対話で確定した事項に関する質問）とすべく、レイヤ変数Ｎが「１」より大きいかを判別した後に（ステップＳｃ１）、この判別結果がＹＥＳであれば、レイヤ変数Ｎを「１」だけデクリメントし（ステップＳｃ２）、処理手順をステップＳａ３に進める。これにより、ユーザから一定時間応答がなかった場合の次の質問が、上位のレイヤに属する質問となる。
【００５８】
なお、ステップＳｃ１における判別結果がＮＯである場合には、それ以上上位のレイヤが無いことを示すため、現在のレイヤに属する質問を最初から繰り返すべく、処理手順をステップＳａ３に進める。
【００５９】
また、質問から一定時間内に応答があった場合であっても、制御部１１０は、その応答が、あいまい表現であるかを判別し（ステップＳｂ４）、この判別結果がＹＥＳであれば、一定時間応答が無かった場合と同様に、上位のレイヤに属する質問を次に出力すべく、処理手順をステップＳｃ１に進める。
【００６０】
このように、本実施形態によれば、他のレイヤに属する処理を所望するためにユーザが質問に対して沈黙、あるいは、あいまい表現を使用した場合に、次の質問が自動的に上位のレイヤに属するものとなるから、ユーザは、はじめから対話をやり直しするなどの操作をしなくとも、所望するレイヤの質問が出力されたときに応答すれば、所望の操作を装置に実行させることができる。
【００６１】
なお、本実施形態では、質問を上位のレイヤに属するものにする構成について例示したが、下位のレイヤに属する質問としても良い。上位および下位のレイヤのどちらに移行するかは、質問のレイヤ構造に応じて適宜に選択可能である。
【００６２】
＜第３実施形態＞
上述した第１あるいは第２実施形態にあっては、車載用楽曲再生装置１００は、質問を出力してから一定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、他の質問を出力する構成について説明した。
【００６３】
しかしながら、楽曲の選曲・再生操作のように、楽曲を特定するための対話がある程度進行しているような場合には、ユーザの所望する楽曲候補は、大まかに特定される。
【００６４】
そこで、本実施形態にあっては、図９に示すように、車載用楽曲再生装置１００の制御部１１０は、質問を出力してから一定時間が経過しても、この質問に対してユーザから応答が得られなかった場合（ステップＳｂ３：ＮＯ）、あるいは、音声入力による応答として、あいまい言葉しか得られなかった場合に（ステップＳｃ３：ＹＥＳ）、現在のレイヤから特定され得る全ての楽曲を順次再生する（ステップＳｄ２）。
【００６５】
このように、本実施形態では、車載用楽曲再生装置１００は、質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合、対話の進行を止めるのではなく、現在までの対話にて確定した事項の中の処理（すなわち、特定され得る楽曲の再生）を順次実行するため、少なくとも、ユーザが所望する処理を含む各種処理が実行されることとなる。
【００６６】
これにより、例えば、ユーザが楽曲のジャンルは特定するものの、その他はランダムに再生させたいといった場合に、質問にあえて一定時間応答しないようにするか、または、あいまいな表現をするといった操作の態様も可能となり、操作性が向上することとなる。
【００６７】
＜変形例＞
上述した各実施形態は、あくまでも本発明の一態様にすぎず、本発明の範囲内で任意に変形可能である。
【００６８】
例えば、上述した各実施形態では、本発明が車載用の楽曲再生装置を適用する場合について例示したが、車載用に限らず、家庭用のものであっても良いし、携帯用のものであっても良い。さらには、ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行する装置であれば、任意の装置に適用することが可能である。
【００６９】
また例えば、上述した各実施形態において、質問に対するユーザからの応答として、あいまい表現が得られた場合に、実際にユーザが、どのような処理を所望しているかを学習する構成としても良い。
【００７０】
具体的には、第１および第２実施形態にて説明したように、車載用楽曲再生装置１００は、質問に対するユーザの応答があいまい表現であった場合には、一定時間応答が得られなかった場合と同様に、他の質問を順次出力する構成となっている。そこで、車載用楽曲再生装置１００が、ある質問に対する応答として、あいまい表現を得た場合、順次出力する質問のうち、ユーザが、どの質問に対して肯定したかを学習（対応付け）しておき、再度、同じ質問であいまい表現が使われた場合に、学習した質問を次に出力する構成としても良い。これにより、ユーザごとの趣向に合った質問を出力することが可能となる。
【００７１】
【発明の効果】
以上説明したように、本発明によれば、より操作性の良いデータ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラムが提供される。
【図面の簡単な説明】
【図１】本発明の第１実施形態にかかる車載用楽曲再生装置の機能的構成を、当該車載用楽曲再生装置に楽曲データなどのマルチメディアデータを配信するための配信システムと共に示す図である。
【図２】楽曲テーブルの構成を模式的に示す図である。
【図３】楽曲選択操作の際に用いられる質問レイヤ構造の一例を示す図である。
【図４】質問テーブルの構成を模式的に示す図である。
【図５】応答テーブルの構成を模式的に示す図である。
【図６】第１実施形態にかかる選曲・再生処理の処理手順を示すフローチャートである。
【図７】第１実施形態にかかる質問処理の処理手順を示すフローチャートである。
【図８】本発明の第２実施形態にかかる質問処理の処理手順を示すフローチャートである。
【図９】本発明の第３実施形態にかかる質問処理の処理手順を示すフローチャートである。
【符号の説明】
１００車載用楽曲再生装置
１１０制御部
１３０記憶部
１４０楽曲再生部
１４３スピーカ
１５０マイク
２００楽曲テーブル
３００〜３０４レイヤ
４００質問テーブル
５００応答テーブル

Claims

ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、
データ処理ごとに、ユーザに音声入力を促すための音声データを記憶する記憶手段とを備え、
これらの音声データの中から１つを再生しユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す
ことを特徴とするデータ処理装置。
ユーザからの音声入力があるまで、先に再生した音声データと異なる音声データを再生し、ユーザに音声入力を促す
ことを特徴とする請求項１に記載のデータ処理装置。
ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、
ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生し、ユーザに応答を促す
ことを特徴とするデータ処理装置。
ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、
ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得るデータ処理を順次実行する
ことを特徴とするデータ処理装置。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、
楽曲ごとに、当該楽曲の再生を指示する旨の音声入力をユーザに促すための音声データを記憶する記憶手段を備え、
これらの音声データの中の１つを再生して、ユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す
ことを特徴とする楽曲再生装置。
ユーザからの音声入力があるまで、先に再生した音声データと異なる音声データを再生する
ことを特徴とする請求項５に記載の楽曲再生装置。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、
選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生してユーザに応答を促す
ことを特徴とする楽曲再生装置。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置において、
選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する記憶手段を備え、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得る楽曲を順次選曲し再生する
ことを特徴とする楽曲再生装置。
ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置を、
データ処理ごとに、ユーザに音声入力を促すための音声データを記憶する手段、および、
これらの音声データの中から１つを再生しユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す手段
として機能させることを特徴とするデータ処理装置の制御プログラム。
ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置において、
ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生し、ユーザに応答を促す手段
として機能させることを特徴とするデータ処理装置の制御プログラム。
ユーザからの音声入力に基づいて複数のデータ処理のいずれか一を実行するデータ処理装置を、
ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得るデータ処理を順次実行する手段
として機能させることを特徴とするデータ処理装置の制御プログラム。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、
楽曲ごとに、当該楽曲の再生を指示する旨の音声入力をユーザに促すための音声データを記憶する手段、および、
これらの音声データの中の１つを再生して、ユーザに音声入力を促した後、所定時間が経過しても、この促しに対してユーザから音声入力が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、前記音声データの中の他の音声データを再生し、ユーザに音声入力を促す手段
として機能させることを特徴とする楽曲再生装置の制御プログラム。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、
選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは他の階層に属する質問を音声により再生してユーザに応答を促す手段
として機能させることを特徴とする楽曲再生装置の制御プログラム。
ユーザからの音声入力に基づいて楽曲を選曲し再生する楽曲再生装置を、
選曲すべき楽曲を特定すべく、ユーザからの音声入力を応答として得るための質問を複数の階層に分けて記憶する手段、および、
ある階層に属する質問を音声により再生して、ユーザに応答を促した後、所定時間が経過しても、この質問に対してユーザから応答が得られなかった場合、あるいは、音声入力として所定のあいまい言葉しか得られなかった場合に、当該階層あるいは当該階層から下に属する質問から特定され得る楽曲を順次選曲し再生する手段
として機能させることを特徴とする楽曲再生装置の制御プログラム。