JP2014207568A

JP2014207568A - 情報処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2014207568A
Application number: JP2013084162A
Authority: JP
Inventors: 幹篤 ▲角▼岡; Motoshi Sumioka; 佐々木　和雄; Kazuo Sasaki; 和雄佐々木; 政秀野田; Masahide Noda; 大谷　武; Takeshi Otani; 武大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2014-10-30
Anticipated expiration: 2033-04-12
Also published as: JP6056625B2; US20140307877A1; US9386390B2

Abstract

【課題】適切な音声出力を実現する。【解決手段】情報処理装置において、ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有する。【選択図】図１

Description

本発明は、情報処理装置、音声処理方法、及び音声処理プログラムに関する。

ある地点を基準にした周囲の音声環境を、限られた数の仮想スピーカ（仮想音源）で集約し、別の地点で再現する音声ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ（ＡＲ、拡張現実）技術が検討されている。音声ＡＲ技術では、周囲の多数の方向（例えば、８方向）からの音を他の空間上で再現するため、それぞれの方向で捉えた多数の音声ストリームを再生装置側に伝送する通信帯域が必要になる。

例えば、サーバからユーザ端末にコンテンツを配信する場合に、ユーザの注目が向けられている部分にはネットワークで大きな通信帯域を割り当て、注目が向けられていない部分には小さな通信帯域を割り当てる手法がある（例えば、特許文献１参照）。

特開２０１１−１７２２５０号公報

上述したように、多数の音を伝送するには、多くの通信帯域が必要になる。そのため、例えばＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ＷＬＡＮ）やキャリア網等の帯域が制限される環境では、音声ＡＲ技術を利用することが難しい。

なお、通信するデータ量を削減するために、伝送前の音声に対して、可逆圧縮や不可逆圧縮等を行うことが考えられ、圧縮率等を考慮すると高圧縮が可能な不可逆圧縮が好ましい。しかしながら、不可逆圧縮は、音質が劣化し、例えば音源の上下方向を判定するキーとなる高周波成分が脱落することにより、ユーザ（聴取者）の前方の音像定位感が悪化する。そのため、ユーザに対する前方の音が仮想音源として割り当てた位置より上方に聞こえてしまう等の現象が生じ、前方の音像定位感が適切に定位されない。

１つの側面では、本発明は、適切な音声出力を実現することを目的とする。

一態様における情報処理装置は、ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有する。

適切な音声出力を実現することができる。

第１実施形態における音声処理システムの構成例を示す図である。再生装置のハードウェア構成例を示す図である。提供サーバのハードウェア構成例を示す図である。音声処理システムの処理の一例を示すシーケンス図である。音声処理システムで用いられる各種データ例を説明するための図である、仮想スピーカの配置例を説明するための図である。第２実施形態における音声処理システムの構成例を示す図である。第２実施形態における音声処理システムの動作を説明するための図である。第２実施形態における圧縮手段の処理の一例を示すフローチャートである。第２実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。第２実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。第３実施形態における音声処理システムの構成例を示す図である。第３実施形態における音声処理システムの動作を説明するための図である。第３実施形態における圧縮手段及び抽出手段の処理の一例を示すフローチャートである。第３実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。第３実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。第３実施形態における再生装置の復号手段の処理の一例を示すフローチャートである。

以下、添付図面を参照しながら実施例について詳細に説明する。

＜第１実施形態における音声処理システムの概略構成例＞
図１は、第１実施形態における音声処理システムの構成例を示す図である。第１実施形態では、サンプリングレート（サンプリング周波数）を変えて音声通信を行う例を示している。例えば、第１実施形態では、データ圧縮機能としてダウンサンプリング（サンプリング周波数を下げる変換）を用いる。

図１に示す音声処理システム１０は、通信端末の一例としての再生装置１１と、情報処理装置の一例としての提供サーバ１２とを有する。再生装置１１と、提供サーバ１２とは、例えばインターネットやＷＬＡＮ、ＬＡＮ等に代表される通信ネットワーク１３により、データの送受信が可能な状態で接続されている。

再生装置１１は、提供サーバ１２から送信された音声データを受信し、受信した音声データを再生する。音声データとは、例えば音声ＡＲ用の音データ、音楽データであるが、これに限定されるものではなく、その他の音響データでもよい。

再生装置１１は、ユーザの頭部の姿勢を検出する姿勢検出手段の一例としての頭部姿勢センサ１４、及び音声を出力する音声出力手段の一例としてのイヤホン１５と接続されている。再生装置１１は、例えば頭部姿勢センサ１４からリアルタイムにユーザの正面方向等の姿勢情報を取得し、取得した姿勢情報を、通信ネットワーク１３を介して提供サーバ１２に送信する。更に、再生装置１１は、提供サーバ１２により姿勢情報に基づいて生成された音声ＡＲを実現する複数の仮想スピーカ（仮想音源）に対応する複数チャンネル（複数ｃｈ）の音声データを受信し、受信した各音声データを復号する。再生装置１１は、復号した各音声データを右耳用、左耳用に集約してイヤホン１５から音の出力を行う。

提供サーバ１２は、通信ネットワーク１３を介して再生装置１１から得られるユーザの姿勢情報等に基づいて、ユーザの前方の向きを判断する。更に、提供サーバ１２は、判断されたユーザの前方に配置される仮想スピーカに対応する音声データには高周波成分の情報を有する音声データを再生装置１１に送信する。また、提供サーバ１２は、ユーザの後方（前方以外）に相当する音声データには高周波成分の情報を削減した高圧縮（低周波成分）の音声データを再生装置１１に送信する。

ここで、ユーザの前方とは、ユーザの頭部を軸として回転させた３６０°の範囲において、ユーザの頭部の両耳を結んだ直線を基準としたときの前側１８０°の範囲とすることができるが、これに限定されるものではない。例えば、ユーザの前方とは、ユーザの正面方向を基準として左右に所定の角度（±４５°）を基準とした範囲としてもよい。また、ユーザの後方とは、上述した前方以外の範囲であるが、これに限定されるものではない。例えば、ユーザの周囲３６０°のうち、ユーザの視界の範囲を前方とし、視界の範囲外を後方としてもよい。

高周波成分とは、例えば約１１〜１２ｋＨｚ以上の周波数成分である。また、低周波成分とは、高周波成分よりも低い、例えば約１１〜１２ｋＨｚ未満の周波数成分であるが、各成分については、これに限定されるものではない。

頭部姿勢センサ１４は、例えばリアルタイム、所定時間間隔毎、又は頭部の移動を検知する毎に、ユーザの頭部の姿勢を取得する。頭部姿勢センサ１４は、例えば加速度センサや方位センサ等をユーザの頭部に取り付けることで頭部姿勢（方位）を取得してもよく、例えばカメラ等の撮像手段により撮影した映像に映っている被写体（例えば、構造物等）等からユーザの頭部姿勢を取得してもよいが、これに限定されるものではない。

イヤホン１５は、ユーザ（聴取者）の耳等に装着することで、左右の耳からユーザに仮想スピーカによる音声ＡＲの音を出力する。なお、音声出力手段としては、イヤホン１５に限定されるものではなく、例えばヘッドホンやサラウンドスピーカ等を用いることができるが、これに限定されるものではない。姿勢検出手段と、音声出力手段とは、例えば、イヤホン１５やヘッドホンとして一体に形成されていてもよい。

音声処理システム１０において、再生装置１１及び提供サーバ１２の数は、図１の例に限定されるものではなく、例えば１つの提供サーバ１２に対して複数の再生装置１１が通信ネットワーク１３を介して接続されていてもよい。また、提供サーバ１２は、１以上の情報処理装置を有するクラウドコンピューティングにより構成されてもよい。

上述したように、第１実施形態では、例えば人間の特性と、圧縮の特性とを鑑みて、音像定位の維持とデータ圧縮を両立することで、適切な音声出力を実現する。なお、人間の特性とは、例えば音像の定位感には方向毎に異なった周波数特性があり、前方の定位感には高周波数成分が必要であること等をいう。また、圧縮の特性とは、例えば音声圧縮では高周波成分の情報量の削減が音質を維持しつつ圧縮率を高めるのに効果的であること等をいうが、これらの特性については、これに限定されるものではない。

次に、上述した音声処理システム１０における再生装置１１及び提供サーバ１２の機能構成例について説明する。

＜再生装置１１の機能構成例＞
図１に示す再生装置１１は、頭部姿勢取得手段２１と、通信手段２２と、復号手段２３と、音像定位手段２４と、記憶手段２５とを有する。記憶手段２５は、仮想スピーカ配置情報２５−１を有している。

頭部姿勢取得手段２１は、頭部姿勢センサ１４からユーザの頭部の姿勢情報（方位）を取得する。頭部姿勢センサ１４の出力値は、例えばある方向（例えば「北」）を基準（θ＝０°）として、左右何れかの方向に回転させたときの角度に対応させることができる。例えば、北を基準として右回りに回転させた角度の場合、ユーザが「東」を向いているときの頭部姿勢センサ１４の出力値θは、９０°となる。

頭部姿勢取得手段２１は、例えば頭部姿勢センサ１４から約１００ｍｓ毎等の周期的なタイミングで姿勢情報を取得してもよく、またユーザからの取得要求があった場合や頭部の変位量が所定数以上の場合に姿勢情報を取得してもよい。

通信手段２２は、頭部姿勢取得手段２１から得られた姿勢情報を、通信ネットワーク１３を介して提供サーバ１２に送信する。通信手段２２は、通信ネットワーク１３を介して提供サーバ１２から音声ＡＲを実現する複数の仮想スピーカに対応して所定の形式で圧縮（符号化）された各音声データ（例えば、圧縮デジタル音声（８ｃｈステレオ）等）を受信する。

通信手段２２は、提供サーバ１２から、音声データの他にも例えば各種パラメータ等を受信してもよい。例えば、通信手段２２は、提供サーバ１２から音声データ、音声データを識別するシーケンス番号、音声データに対するコーデック情報等をパケットから読み取る。コーデック情報とは、例えば音声ＡＲを実現する複数の仮想スピーカに対応する各音声データに対する圧縮の有無、又はどのような形式（例えば、符号化方式等）で圧縮したかを示す情報等であるが、これに限定されるものではない。

復号手段２３は、通信手段２２で受信したデータに対して、コーデック（符号化方式）に対応するデコーデック（復号化方式）や各種パラメータ等を用いて復号する。例えば、復号手段２３は、予め設定された複数の仮想スピーカ（仮想音源）＃１〜＃８のそれぞれについて、コーデック情報から仮想スピーカの識別情報（例えば、ＩＤ等）に合ったコーデックとパラメータを取得し、取得した内容に合わせて音声データを復号する。復号手段２３により、低圧縮又は無圧縮の音声データに対しては、高周波成分を有する音声データが復元され、高圧縮の音声データに対しては、低周波成分（高周波成分を含まない）の音声データが復元される。

音像定位手段２４は、頭部姿勢取得手段２１から取得したユーザの姿勢情報と、予め記憶手段２５に記憶された仮想スピーカ配置情報２５−１とに基づいて、復号手段２３から得られる各音声データを集約して音声ＡＲ再生用の音像定位を行う。更に、音像定位手段２４は、音像が定位された音声データをアナログ音声（例えば、２ｃｈステレオ）等により、イヤホン１５に出力する。

ここで、音像定位手段２４は、例えばＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ（ＨＲＴＦ、頭部伝達関数）等を用いて、任意の方角に対応するＨＲＴＦを音声データ（音源信号）に畳み込む処理を行う。これにより、あたかも音声が任意の方角から聞こえたような効果を得ることができる。

音像定位手段２４は、複数の仮想スピーカのそれぞれに対し、ユーザの前方に対する方向に応じて伝達関数を畳み込むことにより、イヤホン１５に出力可能な左右の音（例えば、２ｃｈステレオ）を生成する。この場合、音像定位手段２４は、例えばユーザの前方に対応する予め設定された仮想スピーカに対応する音声データに高周波成分を出力させるが、これに限定されるものではない。

記憶手段２５の仮想スピーカ配置情報２５−１は、音声ＡＲを実現するために予め設定された多方向に配置される仮想スピーカの配置情報である。この仮想スピーカ配置情報２５−１は、例えば提供サーバ１２でも管理されており、再生装置１１と提供サーバ１２とでデータの同期が取られている。

また、記憶手段２５は、再生装置１１が第１実施形態における各処理を実行するための各種情報（例えば、設定情報等）を記憶するが、記憶される情報としては、これに限定されるものではない。例えば、記憶手段２５には、頭部姿勢センサ１４により取得した頭部姿勢情報、提供サーバ１２より得られる音声データ、コーデック情報を記憶することができる。

上述した再生装置１１における各処理は、例えば再生装置１１にインストールされた専用のアプリケーション（プログラム）を実行することにより実現することができる。

＜提供サーバ１２の機能構成例＞
図１に示す提供サーバ１２は、通信手段３１と、前方判断手段３２と、コーデック制御手段３３と、音声取得手段３４と、音声生成手段３５と、圧縮手段３６と、記憶手段３７とを有する。記憶手段３７は、仮想スピーカ配置情報３７−１と、前方情報３７−２と、コーデック表３７−３と、コーデック情報３７−４とを有する。

通信手段３１は、再生装置１１から通信ネットワーク１３を介してユーザ（聴取者）の頭部の姿勢情報を受信する。また、通信手段３１は、圧縮手段３６等により所定の符号化方式に圧縮された仮想スピーカに対応した各音声データ（例えば、圧縮デジタル音声（８ｃｈステレオ）等）を再生装置１１に送信する。

通信手段３１が再生装置１１に送信する情報としては、例えばシーケンス番号、コーデック情報、音声データ（バイナリ列）等であるが、これに限定されるものではなく、またそれぞれの情報の組を送信してもよい。例えば、通信手段３１は「シーケンス番号，コーデック情報，音声データ（バイナリ列）」＝「１，｛（＃１，圧縮なし，４４ｋＨｚ・・・），・・・，（＃８，サンプリング，２２ｋＨｚ・・・）｝，｛（３Ｒ１Ｔ０００５・・・），・・・，（４Ｆ１１９１・・・）｝」等の情報を送信する。

前方判断手段３２は、通信手段３１が受信した姿勢情報からユーザの前方の方向を判断する。前方判断手段３２は、ユーザの姿勢情報と仮想スピーカ配置情報３７−１とを比較し、ユーザの前方（正面方向）に最も近い仮想スピーカを所定数（例えば、２つ）選択する。前方判断手段３２は、選択した前方の仮想スピーカを識別するための識別情報（仮想スピーカＩＤ）等をコーデック制御手段３３に出力したり、前方情報３７−２として記憶手段３７に記憶する。

コーデック制御手段３３は、記憶手段３７に記憶された前方情報３７−２及びコーデック表３７−３等を参照し、全ての仮想スピーカ（例えば＃１〜＃８の８チャンネル）に対するコーデック（符号化情報等）とパラメータ（符号化パラメータ等）とを取得する。例えば、コーデック制御手段３３は、前方の仮想スピーカと、それ以外の仮想スピーカにそれぞれ対応する音声データに対し、コーデックやパラメータ等を用いた符号化等による圧縮手法（符号化手法）を、圧縮手段３６に出力する。

例えば、コーデック制御手段３３は、処理対象の仮想スピーカがユーザの前方であるか否かを判断し、前方である場合にはコーデック表３７−３から、前方用のコーデックとパラメータとを取得し、圧縮手段３６に出力する。また、コーデック制御手段３３は、処理対象の仮想スピーカが前方でない場合にはコーデック表３７−３から前方以外の他スピーカ用のコーデックとパラメータとを取得し、圧縮手段３６に出力する。

コーデック制御手段３３は、ユーザの正面方向の変化に対して音声が途切れないようなタイミングで仮想スピーカ＃１〜＃８に対する圧縮手法を切り替える。また、コーデック制御手段３３は、各仮想スピーカ（各方位）のコーデック（符号化情報）とパラメータとを記憶手段３７のコーデック情報３７−４に記憶することもできる。

音声取得手段３４は、再生装置１１側で音声ＡＲを実現するための音声データを取得する。例えば、音声取得手段３４は、実際の空間上に多方向に配置した複数のマイクロホン（以下、「マイク」と略称する）から同時に音を取得してもよい。また、音声取得手段３４は、例えばアプリケーションを用いて、仮想空間で出力された音声をその空間上の所定の位置に配置された複数の仮想マイクから得られる音声データを取得してもよい。

音声生成手段３５は、音声取得手段３４で取得された各方向からの音声データに対応させて、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する。例えば、音声生成手段３５は、音声取得手段３４で取得された各方向からの音声データに対応させた仮想スピーカ（仮想音源）の配置位置から音声データを出力させるための音声データを生成する。

圧縮手段３６は、音声生成手段３５から得られる仮想スピーカ毎の音声データに対して、コーデック制御手段３３で制御されたコーデック及びパラメータの組み合わせに基づいて圧縮（この場合は、リサンプリング）する。例えば、圧縮手段３６は、前方判断手段３２により得られるユーザの前方に対応する音声データと、ユーザの前方以外の音声データとで、異なる圧縮を行う。

例えば、圧縮手段３６は、音声生成手段３５から複数の仮想スピーカ（例えば、＃１〜＃８）に対応する音声データを取得すると、各音声データについて、コーデック情報３７−４から仮想スピーカのＩＤに合ったコーデックとパラメータとを参照する。圧縮手段３６は、参照したパラメータ等に基づいて各音声データを圧縮する。

例えば、圧縮手段３６は、ユーザの前方に対応する音声データに対して、再生装置１１側で高周波数成分が復元可能な圧縮（低圧縮）を行い、前方以外の音声データに対して、再生装置１１側で低周波数成分のみが復元可能な圧縮（高圧縮）を行う。なお、圧縮手段３６は、ユーザの前方に対応する仮想スピーカの音声データに対し、高周波成分を残すために圧縮を行わなくてもよい（無圧縮）。

圧縮手段３６は、例えば元の音声データに対する圧縮手法としてＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ（ＰＣＭ）等を用いることができる。また、圧縮手段３６は、可逆圧縮としてＦｒｅｅＬｏｓｓｌｅｓｓＡｕｄｉｏＣｏｄｅｃ（ＦＬＡＣ）等を用いることができる。また、圧縮手段３６は、例えば不可逆（音声用）としてＧ．７１１、Ｇ．７２２．１、Ｇ．７１９等を用いたり、不可逆（音楽用）としてＭＰ３、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）等を用いることができる。圧縮手段３６は、コーデック制御手段３３による制御により上述した圧縮手法のうち、少なくとも１つを用いて圧縮を行うが、圧縮手法はこれらに限定されるものではない。

通信手段３１は、圧縮手段３６により圧縮された仮想スピーカの音声データと、コーデック情報３７−４等とを関連付けて、再生装置１１に送信する。例えば、通信手段３１は、圧縮手段３６から所定の符号化方式により圧縮された、又は無圧縮の音声データを取得し、シーケンス番号やコーデック情報等をパケットに含めて、音声データの各チャンネル（ｃｈ）に対し、コーデックに合わせた音声データ領域を設定する。通信手段３１は、設定した各領域を用いて各チャンネルの音声データを、通信ネットワーク１３を介して再生装置１１に送信する。

記憶手段３７は、上述した仮想スピーカ配置情報３７−１、前方情報３７−２、コーデック表３７−３、及びコーデック情報３７−４等のうち、少なくとも１つの情報を記憶する。記憶手段３７は、提供サーバ１２が第１実施形態における各処理を実行するための各種情報（例えば、設定情報等）を記憶するが、記憶される情報としては、これに限定されるものではない。例えば、記憶手段３７は、再生装置１１を使用するユーザの識別情報や、再生装置１１から得られる姿勢情報等を記憶してもよい。

第１実施形態では、上述した提供サーバ１２の処理により、定位感を維持したままの音声データを圧縮して通信することができる。上述した提供サーバ１２における各処理は、例えば提供サーバ１２にインストールされた専用のアプリケーション（プログラム）を実行することにより実現することができる。

上述した再生装置１１は、例えばＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ（ＰＣ）であるが、これに限定されるものではなく、例えばタブレット端末、スマートフォン等の通信端末でもよく、音楽再生装置、ゲーム機器等でもよい。また、提供サーバ１２は、例えばＰＣやサーバ等であるが、これに限定されるものではない。

＜再生装置１１のハードウェア構成例＞
図２は、再生装置のハードウェア構成の一例を示す図である。図２に示す再生装置１１は、入力装置４１と、出力装置４２と、通信インタフェース４３と、オーディオインタフェース４４と、主記憶装置４５と、補助記憶装置４６と、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）４７と、ネットワーク接続装置４８とを有し、これらはシステムバスＢで相互に接続されている。

入力装置４１は、再生装置１１のユーザからのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。入力装置４１は、例えばタッチパネルや所定の操作キー等である。入力装置４１に対する操作に応じた信号がＣＰＵ４７に送信される。

出力手段４２は、本実施形態における再生装置１１を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ４７が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

通信インタフェース４３は、上述した頭部姿勢センサ１４によるユーザの頭部の姿勢情報を取得する。オーディオインタフェース４４は、ＣＰＵ４７から送信されたデジタル音声をアナログ音声に変換したり、変換したアナログ音声を増幅して、上述したイヤホン１５等に出力する。

主記憶装置４５は、ＣＰＵ４７に実行させるＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ（ＯＳ）プログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、主記憶装置４５は、ＣＰＵ４７による処理に必要な各種データを記憶する。主記憶装置４５は、例えばＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）やＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等である。

補助記憶装置４６は、内蔵した磁気ディスクに対して、磁気的にデータの書き込み及び読み出し等を行う。補助記憶装置４６は、ＯＳプログラム、アプリケーションプログラム、及び各種データをお記憶する。補助記憶装置４６は、例えばフラッシュメモリや、ＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）等のストレージ手段等である。主記憶装置４５及び補助記憶装置４６は、例えば上述した記憶手段２５に対応している。

ＣＰＵ４７は、ＯＳ等の制御プログラム、及び主記憶装置４５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、再生装置１１等のコンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、例えば補助記憶装置４６から取得することができ、また実行結果等を格納することもできる。

例えば、ＣＰＵ４７は、例えば入力装置４１から得られるプログラムの実行指示等に基づき、補助記憶装置４６にインストールされたプログラム（例えば、音声処理プログラム）を実行させることにより、主記憶装置４５上でプログラムに対応する処理を行う。

例えば、ＣＰＵ４７は、音声処理プログラムを実行させることで、上述した頭部姿勢取得手段２１による頭部姿勢の取得、通信手段２２における各種データの送受信、復号手段２３による復号、音像定位手段２４による音像定位等の処理を行う。なお、ＣＰＵ４７における処理内容は、これに限定されるものではない。ＣＰＵ４７により実行された内容は、必要に応じて補助記憶装置４６に記憶される。

ネットワーク接続装置４８は、ＣＰＵ４７からの制御信号に基づき、通信ネットワーク１３等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワーク１３に接続されている外部装置（例えば、提供サーバ１２等）等から取得する。ネットワーク接続装置４８は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。また、ネットワーク接続装置４８は、例えばＷｉ−Ｆｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）等による通信を可能にする通信手段を有していてもよい。また、ネットワーク接続装置４８は、電話端末との通話を可能にする通話手段を有していてもよい。

上述したようなハードウェア構成により、本実施形態における音声処理を実行することができる。本実施形態は、各機能をコンピュータに実行させることができる実行プログラム（音声処理プログラム）を例えば通信端末等にインストールすることで、本実施形態における音声処理を容易に実現することができる。

更に、ネットワーク接続装置４７は、例えばＷｉ−Ｆｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）等による通信を可能にする通信手段を有していてもよい。また、ネットワーク接続装置４７は、電話端末との通話を可能にする通話手段を有していてもよい。

＜提供サーバ１２のハードウェア構成例＞
図３に示す提供サーバ１２は、入力装置５１と、出力装置５２と、ドライブ装置５３と、主記憶装置５４と、補助記憶装置５５と、ＣＰＵ５６と、ネットワーク接続装置５７とを有し、これらはシステムバスＢで相互に接続されている。

入力装置５１は、提供サーバ１２の管理者等のユーザからのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。入力装置５１は、提供サーバ１２のユーザ等が操作するキーボード及びマウス等のポインティングデバイスや、マイク等の音声入力デバイスを有する。

出力装置５２は、本実施形態における提供サーバ１２を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ５６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、提供サーバ１２等のコンピュータ本体にインストールされる実行プログラムは、例えばＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）メモリやＣＤ−ＲＯＭ、ＤＶＤ等の可搬型の記録媒体５８等により提供される。プログラムを記録した記録媒体５８は、ドライブ装置５３にセット可能であり、ＣＰＵ５６からの制御信号に基づき、記録媒体５８に含まれる実行プログラムが、記録媒体５８からドライブ装置５３を介して補助記憶装置５５にインストールされる。

主記憶装置５４は、ＣＰＵ５６に実行させるＯＳプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、主記憶装置５４は、ＣＰＵ５６による処理に必要な各種データを記憶する。主記憶装置５４は、ＲＯＭやＲＡＭ等である。

補助記憶装置５５は、ＣＰＵ５６からの制御信号に基づき、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行う。補助記憶装置５５は、ＣＰＵ５６からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込んだりすることができる。補助記憶装置５５は、例えばＨＤＤやＳＳＤ等のストレージ手段等である。主記憶装置５４及び補助記憶装置５５は、例えば上述した記憶手段３７に対応している。

ＣＰＵ５６は、ＯＳ等の制御プログラム、及び主記憶装置５４に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、提供サーバ１２等のコンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、例えば補助記憶装置５５から取得することができ、また実行結果等を格納することもできる。

例えば、ＣＰＵ５６は、例えば入力装置５１から得られるプログラムの実行指示等に基づき、補助記憶装置５５にインストールされたプログラム（例えば、音声処理プログラム）を実行させることにより、主記憶装置５４上でプログラムに対応する処理を行う。

例えば、ＣＰＵ５６は、音声処理プログラムを実行させることで、上述した前方判断手段３２による前方判断、コーデック制御手段３３によるコーデック制御、音声取得手段３４による音声データの取得等の処理を行う。更に、ＣＰＵ５６は、音声生成手段３５による仮想スピーカ音声生成、圧縮手段３６による圧縮等の処理を行う。なお、ＣＰＵ５６における処理内容は、これに限定されるものではない。ＣＰＵ５６により実行された内容は、必要に応じて補助記憶装置５５に記憶される。

ネットワーク接続装置５７は、ＣＰＵ５６からの制御信号に基づき、通信ネットワーク１３等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワーク１３に接続されている外部装置等から取得する。また、ネットワーク接続装置５７は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。

上述したようなハードウェア構成により、本実施形態における音声処理を実行することができる。本実施形態は、各機能をコンピュータに実行させることができる実行プログラム（音声処理プログラム）を例えば汎用のＰＣ等にインストールすることで、本実施形態における音声処理を容易に実現することができる。

＜音声処理システム１０における処理の一例＞
次に、上述した音声処理システム１０における処理（音声通信処理）の一例についてシーケンス図を用いて説明する。図４は、音声処理システムの処理の一例を示すシーケンス図である。図４の例では、上述した再生装置１１と提供サーバ１２とを有している。

図４の例において、再生装置１１の頭部姿勢取得手段２１は、頭部姿勢センサ１４等からユーザの頭部姿勢情報を取得する（Ｓ０１）。再生装置１１の通信手段２２は、Ｓ０１の処理により取得した頭部姿勢情報を提供サーバ１２に送信する（Ｓ０２）。

提供サーバ１２の前方判断手段３２は、Ｓ０２の処理により取得した再生装置１１からの頭部姿勢情報や予め記憶手段３７に記憶されている仮想スピーカ配置情報３７−１に基づいて、ユーザの前方判断を行い、前方に対応する仮想スピーカを選択する（Ｓ０３）。

次に、提供サーバ１２のコーデック制御手段３３は、前方判断結果に基づいて各仮想スピーカに対応する音声データの圧縮時のコーデック制御を行う（Ｓ０４）。次に、提供サーバ１２の音声取得手段３４は、再生装置１１で実現される音声ＡＲに対応する複数の仮想スピーカから出力させる元となる音声データを取得する（Ｓ０５）。次に、提供サーバ１２の音声生成手段３５は、Ｓ０５の処理により取得した音声データから仮想スピーカ用の音声データを生成する（Ｓ０６）。

次に、提供サーバ１２の圧縮手段３６は、記憶手段３７に記憶されているコーデック表３７−３に基づいて、各仮想スピーカに対応する圧縮手法を用いて各音声データを圧縮（符号化）する（Ｓ０７）。Ｓ０７の処理では、例えば上述したＳ０３の処理で得られた前方に対応するチャンネルに対して、例えば高周波成分を有する音声データの圧縮（低圧縮又は無圧縮）を行い、前方以外のチャンネルに対して、例えば高周波成分が復元されない程度の高圧縮を行う。

また、提供サーバ１２の通信手段３１は、Ｓ０７の処理により圧縮された音声データやコーデック情報等をパケットデータ等により通信ネットワーク１３を介して再生装置１１に送信する（Ｓ０８）。

再生装置１１の通信手段２２は、Ｓ０８の処理により提供サーバ１２から送信された情報を受信する。再生装置１１の復号手段２３は、受信した情報からＳ０７の処理で圧縮された音声データを取得し、取得した音声データをコーデック情報に対応させた復号手法で復号する（Ｓ０９）。なお、Ｓ０９の処理は、Ｓ０８の処理において、音声データと共に送信されたチャンネル毎のコーデック情報等を用いることで、適切な復号を実現できる。

また、再生装置１１の音像定位手段２４は、Ｓ０９の処理で復号された各チャンネルの音声データを左右の耳用に集約してイヤホン１５から音声ＡＲによる出力ができるように音像の定位処理を行い（Ｓ１０）、処理された音声データをイヤホン１５等に出力する（Ｓ１１）。

なお、上述の処理は、再生装置１１から再生される音声が終了するまで、又は、ユーザの指示により第１実施形態における音声通信処理が終了されるまで繰り返し行われる。したがって、ユーザの頭部姿勢のリアルタイムな動きに対応させて音像定位された音声データをユーザに提供することができる。

＜各種データ例等＞
次に、上述した音声処理システム１０における各種データ例等について、図を用いて説明する。図５は、音声処理システムで用いられる各種データ例を説明するための図である。図５（Ａ）は、頭部姿勢情報の一例を示す。図５（Ｂ）は、仮想スピーカ配置情報２５−１，３７−１の一例を示す。図５（Ｃ）は、前方情報３７−２の一例を示す。図５（Ｄ）は、コーデック表３７−３の一例を示す。図５（Ｅ）は、コーデック情報の一例を示す。

図５（Ａ）に示す頭部姿勢情報の項目としては、例えば「識別情報」、「時間」、「姿勢情報」等であるが、これに限定されるものではない。図５（Ａ）に示す「識別情報」は、提供サーバ１２が再生装置１１を識別するための識別情報である。図５（Ａ）に示す「時間」は、頭部姿勢センサ１４からユーザの頭部の姿勢情報を取得した時間である。図５（Ａ）に示す「姿勢情報」は、頭部姿勢センサ１４により取得したユーザの頭部の姿勢情報が示されている。なお、図５（Ａ）の例では、姿勢情報として、ユーザの前方（真正面）の角度が示されているが、これに限定されるものではない。

図５（Ｂ）に示す仮想スピーカ配置情報２５−１，３７−１の項目としては、例えば「仮想スピーカＩＤ」、「配置位置ｘ」、「配置位置ｙ」等があるが、これに限定されるものではなく、角度情報であってもよい。図５（Ｂ）の例では、８つの仮想スピーカ（ＩＤ：＃１〜＃８）に対する配置情報を座標で設定しているが、これに限定されるものではなく、各仮想スピーカに対応する設置角度を設定してもよい。

ここで、図６は、仮想スピーカの配置例を説明するための図である。図６の例では、８つの仮想スピーカがユーザ（聴取者）の頭部の位置を中心として、半径１の円形状に４５°間隔で配置された例を示している。図５（Ｂ）に示す仮想スピーカ配置情報２５−１，３７−１では、図６に示す配置例に対応する仮想スピーカのｘｙ座標が記憶されている。

第１実施形態では、前方判断手段３２が、図５（Ａ）に示す頭部姿勢情報と、図５（Ｂ）に示す仮想スピーカ配置情報とを比較し、ユーザの前方を基準にして最も近い仮想スピーカを判断し、更に近い順に所定数の仮想スピーカを選択する。

例えば、前方判断手段３２は、姿勢情報と同一の角度に仮想スピーカが割り当てられている場合には、その仮想スピーカ１つを選択し、姿勢情報と同一の角度に仮想スピーカが割り当てられていない場合には、その角度に近い方から２つの仮想スピーカを選択する。

例えば、図６に示す配置例を基準に前方にある仮想スピーカを判断すると、θ＝１５°の場合、前方判断手段３２は、その前方（正面）に仮想スピーカが存在していないと判断し、例えば正面に近い方から２つの仮想スピーカ＃１、＃２を選択する。また、θ＝９０°の場合、前方判断手段３２は、その前方（正面）に仮想スピーカ＃３が存在していると判断し、例えば仮想スピーカ＃３を選択する。

なお、仮想スピーカの選択については、上述した例に限定されるものではない。例えば、前方判断手段３２は、姿勢正面に仮想スピーカが割り当てられていない場合には、前方を基準に左右のスピーカを２個ずつ（計４個）を選択してもよい。また、前方判断手段３２は、姿勢正面に仮想スピーカが割り当てられている場合には、その仮想スピーカと、その両側にある仮想スピーカ（計３個）を選択してもよい。

図５（Ｃ）に示す前方情報３７−２の項目としては、例えば「前方の仮想スピーカ」等があるが、これに限定されるものではなく、例えば「後方の仮想スピーカ」の情報を有していてもよい。また、前方情報３７−２として、例えば前方と後方の両方の仮想スピーカの情報を有していてもよいが、この場合には、例えば前方と後方のどちらの仮想スピーカであるかを識別する識別情報を有する。図５（Ｃ）の例では、前方判断手段３２により判断された前方の仮想スピーカＩＤとして＃１、＃２が記憶されている。

図５（Ｄ）に示すコーデック表３７−３の項目としては、例えば「仮想スピーカ種別」、「コーデック」、「パラメータ」等であるが、これに限定されるものではない。コーデック表３７−３は、コーデック制御手段３３により制御される情報である。図５（Ｄ）に示す「仮想スピーカ種別」は、コーデック及びパラメータ等を設定する対象の仮想スピーカを識別する情報である。図５（Ｄ）の例では、「前方」と「その他」とで識別されているが、これに限定されるものではなく、例えば仮想スピーカ毎に識別してもよい。コーデック表３７−３を用いることで、仮想スピーカ種別毎にコーデックやパラメータを任意に設定することができる。

図５（Ｄ）に示す「コーデック」は、例えば仮想スピーカ種別毎に設定されるコーデック手法である。「コーデック」において、"圧縮なし"とは無圧縮（ＮｕｌｌＣｏｄｅｃ）を示し、"サンプリング"とは例えばパラメータ等で設定された条件で圧縮（ダウンサンプリング）することを意味するが、これに限定されるものではない。

図５（Ｄ）に示す「パラメータ」は、「コーデック」で設定された条件で圧縮する時の各種パラメータである。例えば、図５（Ｄ）の例では、パラメータとして周波数（例えば、４４ｋＨｚ等）、データ量（例えば、１６ｂｉｔ）、及びフレーム量（例えば、１０２４ｆｒａｍｅ）等が設定される。なお、パラメータは、これに限定されるものではなく、例えば上述した周波数、データ量、及びフレーム量のうち、少なくとも１つでもよく、その他の情報が含まれていてもよい。

図５（Ｅ）に示すコーデック情報の項目としては、例えば「コーデック情報」等であるが、これに限定されるものではない。図５（Ｅ）に示す「コーデック情報」は、上述した図５（Ｄ）に示すコーデック表３７−３に基づいて、仮想スピーカ種別毎に圧縮手段３６で各音声データを圧縮したときの内容等であるが、これに限定されるものではない。

図５（Ｅ）に示すコーデック情報では、例えばＩＤが＃１，＃２の仮想スピーカに対しては、圧縮なしの高周波成分（４４ｋＨｚ）の音声データであることを示している。また、図５（Ｅ）に示すコーデック情報では、例えばＩＤが＃３〜＃８の仮想スピーカに対しては、サンプリングレート（周波数）を２２ｋＨｚに圧縮（ダウンサンプリング）した音声データであることを示している。

上述したように、第１実施形態では、適切な音声出力を実現することができる。また、第１実施形態では、提供サーバ１２から送信される全ての音声データ（チャンネル）において高周波成分を含む場合と比較して通信帯域を削減することができる。また、第１実施形態では、再生装置１１において、前方の音像定位感が適切に定位された音声出力を実現することができる。

＜第２実施形態における音声処理システムの概略構成例＞
次に、音声処理システムの第２実施形態について説明する。図７は、第２実施形態における音声処理システムの構成例を示す図である。上述した第１実施形態では、ダウンサンプリングによる圧縮例を示したが、第２実施形態では、音声ストリームの切り替え例を示す。

なお、図７に示す音声処理システム６０において、上述した音声処理システム１０と同様の構成等については、同一の符号を付するものとし、ここでの具体的な説明は省略する。また、音声処理システム６０における再生装置や提供サーバのハードウェア構成も上述した第１実施形態におけるハードウェア構成を適用することができるため、ここでの具体的な説明は省略する。

図７に示す音声処理システム６０は、再生装置６１と、提供サーバ６２とを有する。再生装置６１と、提供サーバ６２とは、例えばインターネットやＷＬＡＮ、ＬＡＮ等に代表される通信ネットワーク１３により、データの送受信が可能な状態で接続されている。第２実施形態における通信ネットワーク１３は、コネクション接続により常時接続されているネットワーク形態を示している。

再生装置６１は、頭部姿勢取得手段２１と、通信手段７１と、復号手段７２と、音像定位手段２４と、記憶手段７３とを有する。記憶手段７３は、仮想スピーカ配置情報２５−１と、コーデック表７３−１とを有する。第２実施形態における再生装置６１は、上述した第１実施形態における再生装置１１と同一の構成であるが、通信手段７１、復号手段７２による処理が異なる。また、記憶手段７３は、再生装置６１が、提供サーバ６２とのセッション開始後に提供サーバ６２から取得されるコーデック表７３−１が記憶される。

提供サーバ６２は、通信手段８１と、前方判断手段３２と、コーデック制御手段３３と、音声取得手段３４と、音声生成手段３５と、振り分け手段８２と、圧縮手段８３と、記憶手段３７とを有する。第２実施形態における提供サーバ６２は、上述した第１実施形態における提供サーバ１２と比較すると、振り分け手段８２を有しており、通信手段８１、圧縮手段８３の処理も異なる。

第２実施形態において、提供サーバ６２の通信手段８１は、圧縮手段８２により得られるユーザの前方に対応する音声データと、前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信する。例えば、通信手段８１は、通信ネットワーク１３を介して再生装置６１と通信する際、予め圧縮率の高い（高圧縮）通信路と、圧縮率の低い（低圧縮）通信路（無圧縮でもよい）とによるコネクションを確立する。

更に、通信手段８１は、再生装置６１に対してコーデック表３７−３を送信する。第２実施形態におけるコーデック表３７−３には、どの通信路でどのようなコーデック及びパラメータを用いるかの情報等を有するが、コーデック表３７−３の情報としては、これに限定されるものではなく、例えば仮想スピーカ種別等が含まれていてもよい。

提供サーバ６２の振り分け手段８２は、コーデック制御手段３３により生成されたコーデック表３７−３に基づいて、音声生成手段３５から得られる各仮想スピーカ（各チャンネル）に対応する音声データを２種類の圧縮条件のうちの何れかに振り分ける。圧縮手段８３は、振り分け手段８２により振り分けた各仮想スピーカに対応する圧縮条件で圧縮を行う。

例えば、振り分け手段８２は、再生装置６１から得られるユーザの姿勢情報からユーザの前方にある所定数の仮想スピーカに対しては、低圧縮の圧縮条件とし、前方以外の仮想スピーカに対しては、高圧縮の圧縮条件となるように振り分けを行う。なお、前方の仮想スピーカの判断手法については、上述した第１実施形態と同様であるため、ここでの説明は省略する。

ここで、図８は、第２実施形態における音声処理システムの動作を説明するための図である。なお、図８の例では、第２実施形態における音声処理システム６０の概略的な部分のみを記載している。

第２実施形態では、図８の例に示すように、再生装置６１と提供サーバ６２との間のデータ通信において、所定数の高圧縮データ用の通信路と、所定数の低圧縮データ用の通信路とを用いたコネクションを確立する。例えば、第２実施形態では、再生装置６１側の通信手段７１と、提供サーバ６２側の通信手段８１とにおいて、例えば８チャンネルの仮想スピーカに対応する音声データを通信するためのコネクションを確立する。例えば、通信手段７１，８１は、高圧縮の音声データを送信するための６つの狭帯域の通信路ａ〜ｆと、低圧縮の音声データを送信するための２つの広帯域の通信路Ａ，Ｂとを用いたコネクションを確立する。なお、第２実施形態におけるコネクションの数については、これに限定されるものではない。

振り分け手段８２では、例えば多方向（８チャンネル）の仮想スピーカに対する音声データを生成し、生成した各音声データに対して、前方の音声データであるか否かに基づいて振り分け処理を行う。

圧縮手段８３は、２つの通信路Ａ，Ｂで通信させる前方の音声データに対して低圧縮を行うか、又は圧縮しない（無圧縮）。したがって、復元時に高周波成分が残ったままの音声データとなる。また、圧縮手段８３は、６つの通信路ａ〜ｆで通信させる前方以外の音声データに対して高圧縮を行う。したがって、復元時に高周波成分を含まない音声データとなる。

例えば、図８の例において、頭部姿勢情報θが北を０°にした方位を基準にして、頭部姿勢センサ１４の値が最初θ＝１５°であり、所定時間経過後にθ＝６０°に変化したとする。この場合、前方判断手段３２は、上述した図５（Ｂ）や図６を参照すると、最初θ＝１５°に対応して２つの仮想スピーカ＃１及び＃２を選択する。したがって、２つの通信路Ａ，Ｂには、＃１及び＃２に対する音声データが送信される。また、６つの通信路ａ〜ｆは、他の仮想スピーカ＃３〜＃８に対する高圧縮された音声データが送信される。

また、その後の姿勢情報θ＝６０°となった場合に、前方判断手段３２は、前方の仮想スピーカとして＃２及び＃３を選択する。つまり、選択される２つの仮想スピーカは、「＃１、＃２」から「＃２、＃３」に変化する。このような場合に、振り分け手段８２は、姿勢情報が変化するタイミングに対応させて、通信路Ａ，Ｂと、通信路ａ〜ｆとに対する音声データの振り分けを変えることで、シームレスに情報を送信することができる。

例えば、通信手段８１は、２つの通信路Ａ，Ｂを用いて、仮想スピーカ＃２及び＃３に対する音声データを送信する。また、通信手段８１は、６つの通信路ａ〜ｆを用いて、他の仮想スピーカ＃１、＃４〜＃８に対する高圧縮された音声データを送信する。

なお、第２実施形態では、通信ネットワーク１３の回線がコネクション状態のままであるため、コーデック情報の送受信を１回で済ませることができる。また、第２実施形態では、使用する通信路が固定となるため、そのためのメモリの確保を固定にすることができる。

第２実施形態における再生装置６１では、通信手段７１が、上述した２種類の通信路で送信される音声データを受信する。復号手段７２は、それぞれの通信路から送られたデータに対して予め受信したコーデック表７３−１を用いて、通信路毎の復号化方式により復号し、その結果を集約して、音像が定位された音声データをイヤホン１５から出力する。

＜第２実施形態における圧縮手段８３の処理の一例＞
図９は、第２実施形態における圧縮手段の処理の一例を示すフローチャートである。図９の例において、圧縮手段８３は、コーデック制御手段３３から再生装置６１とのセッション開始が通知される（Ｓ２１）。次に、圧縮手段８３は、記憶手段３７に記憶されたコーデック表３７−３のコーデックを準備する（Ｓ２２）。

次に、圧縮手段８３は、音声生成手段３５から仮想スピーカ用の音声データを取得すると（Ｓ２３）、前方情報３７−２を参照し、前方以外の仮想スピーカの音声データを圧縮する（Ｓ２４）。この場合、前方の仮想スピーカの音声データは無圧縮とする。

次に、圧縮手段８３は、通信手段３１に仮想スピーカの識別情報（仮想スピーカＩＤ）と、ＩＤに対応する音声データと、ＩＤに対して前方か否か示す情報とを通信手段８１に出力する（Ｓ２５）。

＜第２実施形態における提供サーバ６２の通信手段８１の処理の一例＞
図１０は、第２実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。なお、以下の処理では、上述したように８チャンネルの音声データのうち、低圧縮（無圧縮）の音声データを２つのコネクション（通信路）Ａ，Ｂで伝送し、高圧縮の音声データを６つのコネクションａ〜ｆで伝送する例について説明するが、これに限定されるものではない。

図１０の例において、通信手段８１は、再生装置６１とセッションと開始し（Ｓ３１）、再生装置６１にコーデック表３７−３を送信する(Ｓ３２)。次に、通信手段８１は、例えば高圧縮の音声データ用のコネクションａ〜ｆと、無圧縮の音声データ用のコネクションＡ，Ｂを確立する（Ｓ３２）。

次に、通信手段８１は、圧縮手段８３から仮想スピーカ毎に圧縮又は無圧縮の音声データを取得し（Ｓ３４）、コネクションＡ，Ｂ、コネクションａ〜ｆにそれぞれ未使用フラグを付与する（Ｓ３５）。次に、通信手段８１は、所定の仮想スピーカに対応する音声データを取得し（Ｓ３６）、その音声データは、前方か否かを判断する（Ｓ３７）。所定の仮想のスピーカとは、例えば全ての仮想スピーカ（＃１〜＃８）のうち、まだ再生装置６１に送信していない音声データに対応する仮想スピーカである。

Ｓ３７の処理において、通信手段８１は、音声データが前方の場合（Ｓ３７において、ＹＥＳ）、コネクションＡ，Ｂのうち、未使用フラグのついたコネクションを１つ割り当て、そのコネクションの未使用フラグを消す（Ｓ３８）。未使用フラグを消すとは、そのコネクションを使用したことを示す。

また、通信手段８１は、音声データが前方でない場合（Ｓ３７において、ＮＯ）、コネクションａ〜ｆのうち、未使用フラグのついたコネクションを１つ割り当て、そのコネクションの未使用フラグを消す（Ｓ３９）。

次に、通信手段８１は、割り当てられたコネクションに｛仮想スピーカＩＤ，音声データ｝の組を有する通信データを設定し（Ｓ４０）、その通信データを割り当てたコネクションを用いて再生装置６１に送信する（Ｓ４１）。

ここで、通信手段８１は、全ての音声データに対して処理を実行したか否かを判断し（Ｓ４２）、全ての音声データに対して処理を実行していない場合（Ｓ４２において、ＮＯ）、Ｓ３６に戻り、未処理の音声データに対して処理を行う。また、通信手段８１は、全ての音声データに対して処理を実行した場合（Ｓ４２において、ＹＥＳ）、処理を終了する。

＜第２実施形態における再生装置６１の通信手段７１の処理の一例＞
次に、第２実施形態における再生装置６１の通信手段７１の処理の一例について、フローチャートを用いて説明する。図１１は、第２実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。なお、図１１の例では、上述した図１０に示す処理により提供サーバ６２から送信された通信データに対応する処理について説明するが、これに限定されるものではない。

図１１の例において、通信手段７１は、提供サーバ６２とのセッションを開始し（Ｓ５１）、提供サーバ６２からコーデック表３７−３を受信する（Ｓ５２）。また、通信手段７１は、高圧縮の音声データ用のコネクションａ〜ｆと、無圧縮の音声データ用のコネクションＡ，Ｂを確立する（Ｓ５３）。次に、通信手段７１は、復号手段７２にコーデック表３７−３の情報を出力する（Ｓ５４）。なお、コーデック表３７−３は、コーデック表７３−１として記憶手段７３に記憶しておき、復号手段７２による復号時に記憶手段７３からコーデック表７３−１を参照してもよい。

次に、通信手段７１は、提供サーバ６２からの通信データを受信すると（Ｓ５５）、その通信データをコネクションＡ，Ｂから受信したか否かを判断する（Ｓ５６）。通信手段７１は、通信データをコネクションＡ，Ｂから受信した場合（Ｓ５６において、ＹＥＳ）、前方用のフラグを付けて復号手段７２に出力する（Ｓ５７）。また、通信手段７１は、通信データをコネクションＡ，Ｂから受信していない場合（Ｓ５６において、ＮＯ）、前方用でない（前方以外である）ことを示すフラグを付けて復号手段７２に出力する（Ｓ５８）。なお、Ｓ５７の処理において、前方用のフラグを付けているため、そのフラグがついていない通信データは、前方用ではないと判断ができる。したがって、上述したＳ５８の処理は、省略してもよい。

これにより、復号手段７２は、例えば前方用のフラグがある通信データは、無圧縮であるため復号を行わず、前方以外の通信データはコーデック表７３−１等のコーデックに対応する復号化方式（デコーデック）で復号を行う。また、復号手段７２は、復号された音声データ等を音像定位手段２４に出力する。これにより、音像定位手段２４は、復号手段７２から得られる音声データを集約して前方に高周波数成分を有し、音像が定位された適切な音声データをイヤホン１５から出力することができる。

上述したように、第２実施形態では、適切な音声出力を実現することができる。また、第２実施形態では、高圧縮の通信路（低域）と、低圧縮の通信路（高域）を固定で用意しておくことで、コーデック情報の送受信を１回で済ませることができる。また、第２実施形態では、メモリの確保を固定にすることができる。

＜第３実施形態における音声処理システムの概略構成例＞
次に、第３実施形態について説明する。図１２は、第３実施形態における音声処理システムの構成例を示す図である。第３実施形態では、上述した第２実施形態とは異なる音声ストリームの切り替え例を示している。

図１２に示す音声処理システム９０において、上述した音声処理システム１０，８０と同様の構成等については、同一の符号を付するものとし、ここでの具体的な説明は省略する。また、音声処理システム９０における再生装置や提供サーバのハードウェア構成も上述した第１実施形態におけるハードウェア構成を適用することができるため、ここでの具体的な説明は省略する。

図１２に示す音声処理システム９０は、再生装置９１と、提供サーバ９２とを有する。再生装置９１と、提供サーバ９２とは、例えばインターネットやＷＬＡＮ等に代表される通信ネットワーク１３により、データの送受信が可能な状態で接続されている。なお、第３実施形態における通信ネットワーク１３は、コネクション接続により常時接続されているネットワーク形態を示している。

再生装置９１は、頭部姿勢取得手段２１と、前方判断手段１０１と、通信手段１０２と、復号手段１０３と、音像定位手段２４と、記憶手段１０４とを有する。記憶手段１０４は、仮想スピーカ配置情報２５−１と、コーデック表７３−１と、前方情報１０４−１とを有する。

また、提供サーバ９２は、通信手段１１１と、前方判断手段３２と、コーデック制御手段３３と、音声取得手段３４と、音声生成手段３５と、圧縮手段１１２、抽出手段１１３と、記憶手段３７とを有する。

第３実施形態では、図１２に示すように、再生装置９１及び提供サーバ９２の両方に前方判断手段３２，１０１を有し、両方でユーザの前方を判断し、前方に対応する仮想スピーカを選択する。これにより、第３実施形態は、再生装置９１と提供サーバ９２との間で前方に対応する音声がどれであるかという情報の送受信を省略することができるため、通信量を削減して通信効率を向上させることができる。

また、第３実施形態では、音声生成手段３５で生成された各仮想スピーカに対応する音声データを圧縮する際、低周波成分と高周波成分とに分離して圧縮を行う。更に、第３実施形態では、全ての仮想スピーカに対応する低周波成分の音声データを再生装置９１に送信すると共に、ユーザの前方に対応する仮想スピーカに対して高周波成分の音声データを送信する。

ここで、図１３は、第３実施形態における音声処理システムの動作を説明するための図である。なお、図１３の例では、第３実施形態における音声処理システム９０の概略的な部分のみを記載している。

第３実施形態では、再生装置９１における通信手段１０２と、提供サーバ９２における通信手段１１１とにおけるセッション開始時に、例えば低周波成分用のコネクション（通信路）８つ（ａ〜ｈ）と、高周波成分用のコネクション２つ（Ａ，Ｂ）を確立する。なお、第３実施形態におけるコネクションの数については、これに限定されるものではない。

提供サーバ９２の圧縮手段１１２は、音声生成手段３５により生成される仮想スピーカ毎の音声データ（例えば、８チャンネル）の全てに対して高周波成分と低周波成分とに分離して圧縮を行う。圧縮手段１１２による圧縮手法は、例えばＭＰＥＧ２−ＡＡＣのＳｃａｌａｂｌｅＳａｍｐｌｅＲａｔｅ（ＳＳＲ）等のスケーラブルな音声符号化を用いることができるが、これに限定されるものではない。

抽出手段１１３は、前方判断手段３２による判断結果に応じて、圧縮手段１１２により得られる各仮想スピーカに対応する高周波成分の圧縮音声データから、ユーザの前方に対応するデータを抽出する。第３実施形態では、図１３に示すように、８つのコネクションａ〜ｈでは、８チャンネル全ての低周波成分の音声データを再生装置９１に送信し、その他に２つのコネクションＡ，Ｂに対して前方のチャンネル用の高周波成分の音声データを再生装置９１に送信する。

再生装置９１では、頭部姿勢取得手段２１により得られる頭部姿勢センサ１４からの取得情報に基づいて、前方判断手段１０１により前方を判断し、仮想スピーカ配置情報２５−１を参照して、前方に対応する仮想スピーカを選択する。なお、選択された前方情報１０４−１は、記憶手段１０４に記憶される。

復号手段１０３は、前方情報１０４−１を用いて、上述したコネクションＡ，Ｂの２つの高周波成分の音声データを、コネクションンａ〜ｈの８つの低周波成分の音声データのうち、前方に対応する音声データに付加して復号する。また、復号手段１０３は、これらの復号結果を音像定位手段２４に出力する。音像定位手段２４は、得られた音声データを集約して音像が定位された音声データをイヤホン１５から出力する。

例えば、図１３の例では、頭部姿勢情報θが、北を０°にした方位を基準にして、頭部姿勢センサ１４の値が最初θ＝１５°であり、所定時間経過後にθ＝６０°に変化したとする。この場合、上述した第２実施形態と同様に、図６や図５（Ｂ）の例を参照すると、前方の仮想スピーカは、最初「＃１、＃２」であり、その後「＃２、＃３」に変化する。

このような場合、抽出手段１１３は、圧縮手段１１２によりそれぞれの周波数成分（高周波、低周波）で圧縮した音声データのうちの高周波成分について、最初は、前方と判断された仮想スピーカ＃１、＃２に対応する高周波成分の音声データを抽出する。また、抽出手段１１３は、上述した頭部姿勢情報の変化（例えば、θ＝１５°→６０°）により、仮想スピーカ＃２、＃３に対応する高周波成分の音声データを抽出する。

通信手段１１１は、全ての仮想スピーカ＃１〜＃８に対応する低周波成分の音声データを送信すると共に、抽出手段１１３により抽出された高周波成分の音声データを切り替えながら送信する。

これにより、第３実施形態では、低周波成分の音声データが継続的に送信されるため、音声データをシームレスに出力することができる。また、第３実施形態では、通信回線がコネクション状態のままであるため、コーデック表３７−３の送受信を１回で済ませることができる。また、第３実施形態では、前方判断を再生装置９１と、提供サーバ９２の両方で行うため、例えば前方情報に対応する情報等の送受信が不要となり、通信効率を向上させることができる。

上述したよう、第３実施形態では、高周波成分用のコネクションＡ，Ｂに、コネクションａ〜ｈで送信される低周波成分の音声データと元の音声データとの差分情報（高周波成分）を送ることで、再生装置９１において適切な音声出力を実現することができる。

＜第３実施形態における圧縮手段１１２及び抽出手段１１３の処理の一例＞
図１４は、第３実施形態における圧縮手段及び抽出手段の処理の一例を示すフローチャートである。図１４の例において、圧縮手段１１２は、コーデック制御手段３３から再生装置９１とのセッション開始が通知されると（Ｓ６１）、コーデック表３７−３のコーデックを準備する（Ｓ６２）。

次に、圧縮手段１１２は、音声生成手段３５から仮想スピーカ用の音声データを取得し（Ｓ６３）、低周波数成分と高周波数成分とに分離して圧縮する（Ｓ６４）。なお、Ｓ６４の処理では、予め設定された仮想スピーカの各チャンネルに対応する全ての音声データに対して低周波数成分と、高周波数成分とに分離して圧縮する。なお、圧縮形式は、低周波成分と高周波成分とで同一でもよく異なっていてもよい。圧縮形式は、低周波成分及び高周波成分の成分毎に選択することができる。次に、圧縮手段１１２は、圧縮された低周波数成分の音声データを通信手段１１１等に出力する（Ｓ６５）。

次に、抽出手段１１３は、前方情報判断手段３２により判断された前方情報３７−２を参照し（Ｓ６６）、圧縮された高周波成分の音声データのうち、前方に対応する音声データを抽出し、抽出した音声データに高周波成分フラグを付与して通信手段１１１等に出力する（Ｓ６７）。なお、Ｓ６７の処理では、再生装置９１側においてどのコネクションから受信したかを検出することにより高周波成分の音声データか否かを判断することが可能である。したがって、その場合には、Ｓ６７の処理において高周波成分フラグを付与しなくてもよい。

＜第３実施形態における提供サーバ９２の通信手段１１１の処理の一例＞
図１５は、第３実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。図１５の例において、通信手段１１１は、再生装置９１とセッションを開始し（Ｓ７１）、再生装置９１にコーデック表３７−３を送信する（Ｓ７２）。また、通信手段１１１は、低周波成分の音声データ用のコネクションａ〜ｈと、高周波成分の音声データ用のコネクションＡ，Ｂを確立する（Ｓ７３）。

次に、通信手段１１１は、圧縮手段１１２から圧縮された音声データを取得し（Ｓ７４）、低周波成分の音声データ８つをコネクションａ〜ｈに割り当て、前方の高周波成分の音声データ２つをコネクションＡ，Ｂに割り当てる（Ｓ７５）。次に、通信手段１１１は、コネクションを通じてデータを再生装置９１に送信する（Ｓ７６）。

＜第３実施形態における再生装置９１の通信手段１０２の処理の一例＞
図１６は、第３実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。上述した提供サーバ９２により送信された通信データに対応する処理ついて説明するが、これに限定されるものではない。

図１６の例において、通信手段８１は、提供サーバ９２とのセッションを開始し（Ｓ８１）、提供サーバ９２からコーデック表を受信する（Ｓ８２）。また、通信手段８１は、低周波成分の音声データ用のコネクションａ〜ｆと、高周波成分の音声データ用のコネクションＡ，Ｂを確立する（Ｓ８３）。

次に、通信手段８１は、復号手段１０３にコーデック表３７−３の情報を出力する（Ｓ８４）。なお、コーデック表３７−３は、コーデック表７３−１として記憶手段１０４に記憶しておき、復号手段１０３による復号時に記憶手段１０４からコーデック表７３−１を参照してもよい。

次に、通信手段８１は、提供サーバ９２から通信データを受信し（Ｓ８５）、通信データをコネクションＡ，Ｂから受信したか否かを判断する（Ｓ８６）。なお、Ｓ８６の処理では、受信した通信データに対して、上述した高周波成分フラグが付与されているか否かで判断してもよい。

通信手段８１は、通信データをコネクションＡ，Ｂから受信した場合（Ｓ８６において、ＹＥＳ）、再生装置９１の前方情報１０４−１から前方の仮想スピーカＩＤを取得する（Ｓ８７）。なお、Ｓ８７の処理では、予め頭部姿勢取得手段２１により頭部姿勢センサ１４から頭部姿勢情報を取得し、取得した頭部姿勢情報から前方判断手段１０１により前方がどこであるかが判断され、その結果が前方情報１０４−１に記憶されている。

次に、通信手段８１は、仮想スピーカＩＤに一致する復号手段１０３の高周波用の入力に、コネクションＡ，Ｂからの音声データを割り当てて復号手段１０３に出力する（Ｓ８８）。また、Ｓ８６の処理において、通信手段８１は、通信データをコネクションＡ，Ｂから受信していない場合（Ｓ８６において、ＮＯ）、低周波成分用のコネクションａ〜ｈから受信したものと判断し、コネクションａ〜ｈからの音声データを復号手段１０３の低周波成分用の入力１〜８に割り当てて復号手段１０３に出力する（Ｓ８９）。

＜第３実施形態における再生装置９１の復号手段１０３の処理の一例＞
図１７は、第３実施形態における再生装置の復号手段の処理の一例を示すフローチャートである。図１７の例において、復号手段１０３は、コーデック表７３−１を取得すると（Ｓ９１）、復号用のコーデックを準備し、低周波成分用の入力口１〜８と、高周波成分用の入力口１'〜８'を設定する（Ｓ９２）。

次に、復号手段１０３は、通信手段１０２から音声データを取得し（Ｓ９３）、低周波成分の音声データのみが通知された場合、低周波成分のみで復号し、低周波成分と高周波成分の情報が両方通知された場合は、両方を用いて復号する（Ｓ９４）。

次に、復号手段１０３は、復号した音声データを音像定位手段２４に出力する（Ｓ９５）。これにより、音像定位手段２４は、取得した音声データを集約してユーザの前方に高周波数成分を有する音像が定位した音声データをイヤホン１５から出力することができる。

上述したように第３実施形態では、再生装置９１と提供サーバ９２との両側で前方を判断することで、前方がどれであるかという情報を送信する必要がなくなる。このため、通信量を削減し、通信効率を向上させることができる。

なお、上述した第１〜第３実施形態は、複数の実施形態の一部又は全部を組み合わせることができる。また、上述した実施形態に限定されるものではなく、例えば音源に高周波数成分を含めて圧縮や伸長（復号）するのではなく、例えば提供サーバ側から低周波数成分の音声と音源の位置だけを送信する。そして、再生装置側で、ユーザの前方に対応する低周波数の音声を用いて高周波数の音声を生成し、それらを集約することで音像に定位感を与えることができる。

上述したように本実施形態によれば、適切な音声出力を実現することができる。例えば、本実施形態では、人間の特性と、圧縮の特性を鑑みて、音像定位の維持と圧縮を両立する。例えば、本実施形態では、ユーザの姿勢情報に対応させて高周波数成分の音声データを処理する。また、本実施形態では、第２実施形態や第３実施形態に示すように、同じ帯域幅を用いて、帯域幅を変更する仮想スピーカを切り替える。このとき、例えば、ユーザの前方に存在する音源は高周波成分を含めて通信し、それ以外（後方）は圧縮した低周波の音源を伝送することで、圧縮と音質を両立させた適切な音声通信を実現することができる。

また、本実施形態では、通信量を削減しつつ、ある地点の周囲の音声を、方向感を含めて別の地点で適切に再現することができる。したがって、本実施形態は、例えば博物館や美術館、展示会、テーマパーク等において、イヤホンやヘッドホン等の耳装着型の再生装置を用いた聴取者が、展示物等の方向から、その展示物に係る展示案内の音声や音楽を聴取可能にするシステム等に適用可能である。

以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。

なお、以上の実施例に関し、更に以下の付記を開示する。
（付記１）
ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、
前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、
前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有することを特徴とする情報処理装置。
（付記２）
前記圧縮手段は、
前記ユーザの前方に対応する音声データに対して、高周波数成分が復元可能な圧縮を行い、前記ユーザの前方以外の方向に対応する音声データに対して低周波数成分が復元可能な圧縮を行うことを特徴とする付記１に記載の情報処理装置。
（付記３）
前記通信手段は、
前記圧縮手段により得られる前記ユーザの前方に対応する音声データと、前記前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信することを特徴とする付記１又は２に記載の情報処理装置。
（付記４）
前記前方判断手段により得られる前方情報に対応させて、前記音声生成手段により得られる前記音声データを振り分ける振り分け手段を有し、
前記圧縮手段は、前記振り分け手段により振り分けられた音声データ毎に、前記異なる圧縮を行うことを特徴とする１乃至３の何れか１項に記載の情報処理装置。
（付記５）
前記圧縮手段は、
前記音声生成手段により生成された全ての仮想音源に対応する音声データを低周波数成分と高周波成分とに分離して圧縮し、
前記圧縮手段により得られる前記高周波成分の音声データから、前記前方判断手段により得られる前記ユーザの前方に対応する前記高周波成分の音声データを抽出する抽出手段を有し、
前記通信手段は、前記圧縮手段により圧縮された前記低周波成分の音声データの全てと、前記抽出手段により抽出された前記ユーザの前方に対応する前記高周波成分の音声データとを送信することを特徴とする付記１乃至４の何れか１項に記載の情報処理装置。
（付記６）
前記前方判断手段は、
前記ユーザの姿勢情報と、予め前記仮想音源の配置位置が設定された配置情報とを用いて、前記ユーザの前方に最も近い少なくとも１つの仮想音源を選択することを特徴とする付記１乃至５の何れか１項に記載の情報処理装置。
（付記７）
前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとに対する圧縮時の符号化情報及び符号化パラメータを制御する制御手段を有することを特徴とする付記１乃至６の何れか１項に記載の情報処理装置。
（付記８）
情報処理装置が、
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信することを特徴とする音声処理方法。
（付記９）
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信する、処理をコンピュータに実行させるための音声処理プログラム。

１０，６０，９０音声処理システム
１１，６１，９１再生装置（通信端末）
１２，６２，９２提供サーバ（情報処理装置）
１３通信ネットワーク
１４頭部姿勢センサ（姿勢検出手段）
１５イヤホン（音声出力手段）
２１頭部姿勢取得手段
２２，３１，７１，８１，１０２，１１１通信手段
２３，７２復号手段
２４音像定位手段
２５，３７，７３，９４記憶手段
３２，１０１前方判断手段
３３コーデック制御手段
３４音声取得手段
３５音声生成手段
３６，８３，１１２圧縮手段
４１，５１入力装置
４２，５２出力装置
４３通信インタフェース
４４オーディオインタフェース
４５，５４主記憶装置
４６，５５補助記憶装置
４７，５６ＣＰＵ
４８，５７ネットワーク接続装置
５３ドライブ装置
５８記録媒体
８２振り分け手段
１１３抽出手段

Claims

ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、
前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、
前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有することを特徴とする情報処理装置。
前記圧縮手段は、
前記ユーザの前方に対応する音声データに対して、高周波数成分が復元可能な圧縮を行い、前記ユーザの前方以外の方向に対応する音声データに対して低周波数成分が復元可能な圧縮を行うことを特徴とする請求項１に記載の情報処理装置。
前記通信手段は、
前記圧縮手段により得られる前記ユーザの前方に対応する音声データと、前記前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信することを特徴とする請求項１又は２に記載の情報処理装置。
前記前方判断手段により得られる前方情報に対応させて、前記音声生成手段により得られる前記音声データを振り分ける振り分け手段を有し、
前記圧縮手段は、前記振り分け手段により振り分けられた音声データ毎に、前記異なる圧縮を行うことを特徴とする１乃至３の何れか１項に記載の情報処理装置。
前記圧縮手段は、
前記音声生成手段により生成された全ての仮想音源に対応する音声データを低周波数成分と高周波成分とに分離して圧縮し、
前記圧縮手段により得られる前記高周波成分の音声データから、前記前方判断手段により得られる前記ユーザの前方に対応する前記高周波成分の音声データを抽出する抽出手段を有し、
前記通信手段は、前記圧縮手段により圧縮された前記低周波成分の音声データの全てと、前記抽出手段により抽出された前記ユーザの前方に対応する前記高周波成分の音声データとを送信することを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
情報処理装置が、
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信することを特徴とする音声処理方法。
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信する、処理をコンピュータに実行させるための音声処理プログラム。