JP2014207568A - 情報処理装置、音声処理方法、及び音声処理プログラム - Google Patents

情報処理装置、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP2014207568A
JP2014207568A JP2013084162A JP2013084162A JP2014207568A JP 2014207568 A JP2014207568 A JP 2014207568A JP 2013084162 A JP2013084162 A JP 2013084162A JP 2013084162 A JP2013084162 A JP 2013084162A JP 2014207568 A JP2014207568 A JP 2014207568A
Authority
JP
Japan
Prior art keywords
audio data
user
unit
compression
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013084162A
Other languages
English (en)
Other versions
JP6056625B2 (ja
Inventor
幹篤 ▲角▼岡
幹篤 ▲角▼岡
Motoshi Sumioka
佐々木 和雄
Kazuo Sasaki
和雄 佐々木
政秀 野田
Masahide Noda
政秀 野田
大谷 武
Takeshi Otani
武 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013084162A priority Critical patent/JP6056625B2/ja
Priority to US14/220,833 priority patent/US9386390B2/en
Publication of JP2014207568A publication Critical patent/JP2014207568A/ja
Application granted granted Critical
Publication of JP6056625B2 publication Critical patent/JP6056625B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】適切な音声出力を実現する。【解決手段】情報処理装置において、ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有する。【選択図】図1

Description

本発明は、情報処理装置、音声処理方法、及び音声処理プログラムに関する。
ある地点を基準にした周囲の音声環境を、限られた数の仮想スピーカ(仮想音源)で集約し、別の地点で再現する音声Augmented Reality(AR、拡張現実)技術が検討されている。音声AR技術では、周囲の多数の方向(例えば、8方向)からの音を他の空間上で再現するため、それぞれの方向で捉えた多数の音声ストリームを再生装置側に伝送する通信帯域が必要になる。
例えば、サーバからユーザ端末にコンテンツを配信する場合に、ユーザの注目が向けられている部分にはネットワークで大きな通信帯域を割り当て、注目が向けられていない部分には小さな通信帯域を割り当てる手法がある(例えば、特許文献1参照)。
特開2011−172250号公報
上述したように、多数の音を伝送するには、多くの通信帯域が必要になる。そのため、例えばWireless Local Area Network(WLAN)やキャリア網等の帯域が制限される環境では、音声AR技術を利用することが難しい。
なお、通信するデータ量を削減するために、伝送前の音声に対して、可逆圧縮や不可逆圧縮等を行うことが考えられ、圧縮率等を考慮すると高圧縮が可能な不可逆圧縮が好ましい。しかしながら、不可逆圧縮は、音質が劣化し、例えば音源の上下方向を判定するキーとなる高周波成分が脱落することにより、ユーザ(聴取者)の前方の音像定位感が悪化する。そのため、ユーザに対する前方の音が仮想音源として割り当てた位置より上方に聞こえてしまう等の現象が生じ、前方の音像定位感が適切に定位されない。
1つの側面では、本発明は、適切な音声出力を実現することを目的とする。
一態様における情報処理装置は、ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有する。
適切な音声出力を実現することができる。
第1実施形態における音声処理システムの構成例を示す図である。 再生装置のハードウェア構成例を示す図である。 提供サーバのハードウェア構成例を示す図である。 音声処理システムの処理の一例を示すシーケンス図である。 音声処理システムで用いられる各種データ例を説明するための図である、 仮想スピーカの配置例を説明するための図である。 第2実施形態における音声処理システムの構成例を示す図である。 第2実施形態における音声処理システムの動作を説明するための図である。 第2実施形態における圧縮手段の処理の一例を示すフローチャートである。 第2実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。 第2実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。 第3実施形態における音声処理システムの構成例を示す図である。 第3実施形態における音声処理システムの動作を説明するための図である。 第3実施形態における圧縮手段及び抽出手段の処理の一例を示すフローチャートである。 第3実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。 第3実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。 第3実施形態における再生装置の復号手段の処理の一例を示すフローチャートである。
以下、添付図面を参照しながら実施例について詳細に説明する。
<第1実施形態における音声処理システムの概略構成例>
図1は、第1実施形態における音声処理システムの構成例を示す図である。第1実施形態では、サンプリングレート(サンプリング周波数)を変えて音声通信を行う例を示している。例えば、第1実施形態では、データ圧縮機能としてダウンサンプリング(サンプリング周波数を下げる変換)を用いる。
図1に示す音声処理システム10は、通信端末の一例としての再生装置11と、情報処理装置の一例としての提供サーバ12とを有する。再生装置11と、提供サーバ12とは、例えばインターネットやWLAN、LAN等に代表される通信ネットワーク13により、データの送受信が可能な状態で接続されている。
再生装置11は、提供サーバ12から送信された音声データを受信し、受信した音声データを再生する。音声データとは、例えば音声AR用の音データ、音楽データであるが、これに限定されるものではなく、その他の音響データでもよい。
再生装置11は、ユーザの頭部の姿勢を検出する姿勢検出手段の一例としての頭部姿勢センサ14、及び音声を出力する音声出力手段の一例としてのイヤホン15と接続されている。再生装置11は、例えば頭部姿勢センサ14からリアルタイムにユーザの正面方向等の姿勢情報を取得し、取得した姿勢情報を、通信ネットワーク13を介して提供サーバ12に送信する。更に、再生装置11は、提供サーバ12により姿勢情報に基づいて生成された音声ARを実現する複数の仮想スピーカ(仮想音源)に対応する複数チャンネル(複数ch)の音声データを受信し、受信した各音声データを復号する。再生装置11は、復号した各音声データを右耳用、左耳用に集約してイヤホン15から音の出力を行う。
提供サーバ12は、通信ネットワーク13を介して再生装置11から得られるユーザの姿勢情報等に基づいて、ユーザの前方の向きを判断する。更に、提供サーバ12は、判断されたユーザの前方に配置される仮想スピーカに対応する音声データには高周波成分の情報を有する音声データを再生装置11に送信する。また、提供サーバ12は、ユーザの後方(前方以外)に相当する音声データには高周波成分の情報を削減した高圧縮(低周波成分)の音声データを再生装置11に送信する。
ここで、ユーザの前方とは、ユーザの頭部を軸として回転させた360°の範囲において、ユーザの頭部の両耳を結んだ直線を基準としたときの前側180°の範囲とすることができるが、これに限定されるものではない。例えば、ユーザの前方とは、ユーザの正面方向を基準として左右に所定の角度(±45°)を基準とした範囲としてもよい。また、ユーザの後方とは、上述した前方以外の範囲であるが、これに限定されるものではない。例えば、ユーザの周囲360°のうち、ユーザの視界の範囲を前方とし、視界の範囲外を後方としてもよい。
高周波成分とは、例えば約11〜12kHz以上の周波数成分である。また、低周波成分とは、高周波成分よりも低い、例えば約11〜12kHz未満の周波数成分であるが、各成分については、これに限定されるものではない。
頭部姿勢センサ14は、例えばリアルタイム、所定時間間隔毎、又は頭部の移動を検知する毎に、ユーザの頭部の姿勢を取得する。頭部姿勢センサ14は、例えば加速度センサや方位センサ等をユーザの頭部に取り付けることで頭部姿勢(方位)を取得してもよく、例えばカメラ等の撮像手段により撮影した映像に映っている被写体(例えば、構造物等)等からユーザの頭部姿勢を取得してもよいが、これに限定されるものではない。
イヤホン15は、ユーザ(聴取者)の耳等に装着することで、左右の耳からユーザに仮想スピーカによる音声ARの音を出力する。なお、音声出力手段としては、イヤホン15に限定されるものではなく、例えばヘッドホンやサラウンドスピーカ等を用いることができるが、これに限定されるものではない。姿勢検出手段と、音声出力手段とは、例えば、イヤホン15やヘッドホンとして一体に形成されていてもよい。
音声処理システム10において、再生装置11及び提供サーバ12の数は、図1の例に限定されるものではなく、例えば1つの提供サーバ12に対して複数の再生装置11が通信ネットワーク13を介して接続されていてもよい。また、提供サーバ12は、1以上の情報処理装置を有するクラウドコンピューティングにより構成されてもよい。
上述したように、第1実施形態では、例えば人間の特性と、圧縮の特性とを鑑みて、音像定位の維持とデータ圧縮を両立することで、適切な音声出力を実現する。なお、人間の特性とは、例えば音像の定位感には方向毎に異なった周波数特性があり、前方の定位感には高周波数成分が必要であること等をいう。また、圧縮の特性とは、例えば音声圧縮では高周波成分の情報量の削減が音質を維持しつつ圧縮率を高めるのに効果的であること等をいうが、これらの特性については、これに限定されるものではない。
次に、上述した音声処理システム10における再生装置11及び提供サーバ12の機能構成例について説明する。
<再生装置11の機能構成例>
図1に示す再生装置11は、頭部姿勢取得手段21と、通信手段22と、復号手段23と、音像定位手段24と、記憶手段25とを有する。記憶手段25は、仮想スピーカ配置情報25−1を有している。
頭部姿勢取得手段21は、頭部姿勢センサ14からユーザの頭部の姿勢情報(方位)を取得する。頭部姿勢センサ14の出力値は、例えばある方向(例えば「北」)を基準(θ=0°)として、左右何れかの方向に回転させたときの角度に対応させることができる。例えば、北を基準として右回りに回転させた角度の場合、ユーザが「東」を向いているときの頭部姿勢センサ14の出力値θは、90°となる。
頭部姿勢取得手段21は、例えば頭部姿勢センサ14から約100ms毎等の周期的なタイミングで姿勢情報を取得してもよく、またユーザからの取得要求があった場合や頭部の変位量が所定数以上の場合に姿勢情報を取得してもよい。
通信手段22は、頭部姿勢取得手段21から得られた姿勢情報を、通信ネットワーク13を介して提供サーバ12に送信する。通信手段22は、通信ネットワーク13を介して提供サーバ12から音声ARを実現する複数の仮想スピーカに対応して所定の形式で圧縮(符号化)された各音声データ(例えば、圧縮デジタル音声(8chステレオ)等)を受信する。
通信手段22は、提供サーバ12から、音声データの他にも例えば各種パラメータ等を受信してもよい。例えば、通信手段22は、提供サーバ12から音声データ、音声データを識別するシーケンス番号、音声データに対するコーデック情報等をパケットから読み取る。コーデック情報とは、例えば音声ARを実現する複数の仮想スピーカに対応する各音声データに対する圧縮の有無、又はどのような形式(例えば、符号化方式等)で圧縮したかを示す情報等であるが、これに限定されるものではない。
復号手段23は、通信手段22で受信したデータに対して、コーデック(符号化方式)に対応するデコーデック(復号化方式)や各種パラメータ等を用いて復号する。例えば、復号手段23は、予め設定された複数の仮想スピーカ(仮想音源)#1〜#8のそれぞれについて、コーデック情報から仮想スピーカの識別情報(例えば、ID等)に合ったコーデックとパラメータを取得し、取得した内容に合わせて音声データを復号する。復号手段23により、低圧縮又は無圧縮の音声データに対しては、高周波成分を有する音声データが復元され、高圧縮の音声データに対しては、低周波成分(高周波成分を含まない)の音声データが復元される。
音像定位手段24は、頭部姿勢取得手段21から取得したユーザの姿勢情報と、予め記憶手段25に記憶された仮想スピーカ配置情報25−1とに基づいて、復号手段23から得られる各音声データを集約して音声AR再生用の音像定位を行う。更に、音像定位手段24は、音像が定位された音声データをアナログ音声(例えば、2chステレオ)等により、イヤホン15に出力する。
ここで、音像定位手段24は、例えばHead Related Transfer Function(HRTF、頭部伝達関数)等を用いて、任意の方角に対応するHRTFを音声データ(音源信号)に畳み込む処理を行う。これにより、あたかも音声が任意の方角から聞こえたような効果を得ることができる。
音像定位手段24は、複数の仮想スピーカのそれぞれに対し、ユーザの前方に対する方向に応じて伝達関数を畳み込むことにより、イヤホン15に出力可能な左右の音(例えば、2chステレオ)を生成する。この場合、音像定位手段24は、例えばユーザの前方に対応する予め設定された仮想スピーカに対応する音声データに高周波成分を出力させるが、これに限定されるものではない。
記憶手段25の仮想スピーカ配置情報25−1は、音声ARを実現するために予め設定された多方向に配置される仮想スピーカの配置情報である。この仮想スピーカ配置情報25−1は、例えば提供サーバ12でも管理されており、再生装置11と提供サーバ12とでデータの同期が取られている。
また、記憶手段25は、再生装置11が第1実施形態における各処理を実行するための各種情報(例えば、設定情報等)を記憶するが、記憶される情報としては、これに限定されるものではない。例えば、記憶手段25には、頭部姿勢センサ14により取得した頭部姿勢情報、提供サーバ12より得られる音声データ、コーデック情報を記憶することができる。
上述した再生装置11における各処理は、例えば再生装置11にインストールされた専用のアプリケーション(プログラム)を実行することにより実現することができる。
<提供サーバ12の機能構成例>
図1に示す提供サーバ12は、通信手段31と、前方判断手段32と、コーデック制御手段33と、音声取得手段34と、音声生成手段35と、圧縮手段36と、記憶手段37とを有する。記憶手段37は、仮想スピーカ配置情報37−1と、前方情報37−2と、コーデック表37−3と、コーデック情報37−4とを有する。
通信手段31は、再生装置11から通信ネットワーク13を介してユーザ(聴取者)の頭部の姿勢情報を受信する。また、通信手段31は、圧縮手段36等により所定の符号化方式に圧縮された仮想スピーカに対応した各音声データ(例えば、圧縮デジタル音声(8chステレオ)等)を再生装置11に送信する。
通信手段31が再生装置11に送信する情報としては、例えばシーケンス番号、コーデック情報、音声データ(バイナリ列)等であるが、これに限定されるものではなく、またそれぞれの情報の組を送信してもよい。例えば、通信手段31は「シーケンス番号,コーデック情報,音声データ(バイナリ列)」=「1,{(#1,圧縮なし,44kHz・・・),・・・,(#8,サンプリング,22kHz・・・)},{(3R1T0005・・・),・・・,(4F1191・・・)}」等の情報を送信する。
前方判断手段32は、通信手段31が受信した姿勢情報からユーザの前方の方向を判断する。前方判断手段32は、ユーザの姿勢情報と仮想スピーカ配置情報37−1とを比較し、ユーザの前方(正面方向)に最も近い仮想スピーカを所定数(例えば、2つ)選択する。前方判断手段32は、選択した前方の仮想スピーカを識別するための識別情報(仮想スピーカID)等をコーデック制御手段33に出力したり、前方情報37−2として記憶手段37に記憶する。
コーデック制御手段33は、記憶手段37に記憶された前方情報37−2及びコーデック表37−3等を参照し、全ての仮想スピーカ(例えば#1〜#8の8チャンネル)に対するコーデック(符号化情報等)とパラメータ(符号化パラメータ等)とを取得する。例えば、コーデック制御手段33は、前方の仮想スピーカと、それ以外の仮想スピーカにそれぞれ対応する音声データに対し、コーデックやパラメータ等を用いた符号化等による圧縮手法(符号化手法)を、圧縮手段36に出力する。
例えば、コーデック制御手段33は、処理対象の仮想スピーカがユーザの前方であるか否かを判断し、前方である場合にはコーデック表37−3から、前方用のコーデックとパラメータとを取得し、圧縮手段36に出力する。また、コーデック制御手段33は、処理対象の仮想スピーカが前方でない場合にはコーデック表37−3から前方以外の他スピーカ用のコーデックとパラメータとを取得し、圧縮手段36に出力する。
コーデック制御手段33は、ユーザの正面方向の変化に対して音声が途切れないようなタイミングで仮想スピーカ#1〜#8に対する圧縮手法を切り替える。また、コーデック制御手段33は、各仮想スピーカ(各方位)のコーデック(符号化情報)とパラメータとを記憶手段37のコーデック情報37−4に記憶することもできる。
音声取得手段34は、再生装置11側で音声ARを実現するための音声データを取得する。例えば、音声取得手段34は、実際の空間上に多方向に配置した複数のマイクロホン(以下、「マイク」と略称する)から同時に音を取得してもよい。また、音声取得手段34は、例えばアプリケーションを用いて、仮想空間で出力された音声をその空間上の所定の位置に配置された複数の仮想マイクから得られる音声データを取得してもよい。
音声生成手段35は、音声取得手段34で取得された各方向からの音声データに対応させて、予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する。例えば、音声生成手段35は、音声取得手段34で取得された各方向からの音声データに対応させた仮想スピーカ(仮想音源)の配置位置から音声データを出力させるための音声データを生成する。
圧縮手段36は、音声生成手段35から得られる仮想スピーカ毎の音声データに対して、コーデック制御手段33で制御されたコーデック及びパラメータの組み合わせに基づいて圧縮(この場合は、リサンプリング)する。例えば、圧縮手段36は、前方判断手段32により得られるユーザの前方に対応する音声データと、ユーザの前方以外の音声データとで、異なる圧縮を行う。
例えば、圧縮手段36は、音声生成手段35から複数の仮想スピーカ(例えば、#1〜#8)に対応する音声データを取得すると、各音声データについて、コーデック情報37−4から仮想スピーカのIDに合ったコーデックとパラメータとを参照する。圧縮手段36は、参照したパラメータ等に基づいて各音声データを圧縮する。
例えば、圧縮手段36は、ユーザの前方に対応する音声データに対して、再生装置11側で高周波数成分が復元可能な圧縮(低圧縮)を行い、前方以外の音声データに対して、再生装置11側で低周波数成分のみが復元可能な圧縮(高圧縮)を行う。なお、圧縮手段36は、ユーザの前方に対応する仮想スピーカの音声データに対し、高周波成分を残すために圧縮を行わなくてもよい(無圧縮)。
圧縮手段36は、例えば元の音声データに対する圧縮手法としてPulse Code Modulation(PCM)等を用いることができる。また、圧縮手段36は、可逆圧縮としてFree Lossless Audio Codec(FLAC)等を用いることができる。また、圧縮手段36は、例えば不可逆(音声用)としてG.711、G.722.1、G.719等を用いたり、不可逆(音楽用)としてMP3、Advanced Audio Coding(AAC)等を用いることができる。圧縮手段36は、コーデック制御手段33による制御により上述した圧縮手法のうち、少なくとも1つを用いて圧縮を行うが、圧縮手法はこれらに限定されるものではない。
通信手段31は、圧縮手段36により圧縮された仮想スピーカの音声データと、コーデック情報37−4等とを関連付けて、再生装置11に送信する。例えば、通信手段31は、圧縮手段36から所定の符号化方式により圧縮された、又は無圧縮の音声データを取得し、シーケンス番号やコーデック情報等をパケットに含めて、音声データの各チャンネル(ch)に対し、コーデックに合わせた音声データ領域を設定する。通信手段31は、設定した各領域を用いて各チャンネルの音声データを、通信ネットワーク13を介して再生装置11に送信する。
記憶手段37は、上述した仮想スピーカ配置情報37−1、前方情報37−2、コーデック表37−3、及びコーデック情報37−4等のうち、少なくとも1つの情報を記憶する。記憶手段37は、提供サーバ12が第1実施形態における各処理を実行するための各種情報(例えば、設定情報等)を記憶するが、記憶される情報としては、これに限定されるものではない。例えば、記憶手段37は、再生装置11を使用するユーザの識別情報や、再生装置11から得られる姿勢情報等を記憶してもよい。
第1実施形態では、上述した提供サーバ12の処理により、定位感を維持したままの音声データを圧縮して通信することができる。上述した提供サーバ12における各処理は、例えば提供サーバ12にインストールされた専用のアプリケーション(プログラム)を実行することにより実現することができる。
上述した再生装置11は、例えばPersonal Computer(PC)であるが、これに限定されるものではなく、例えばタブレット端末、スマートフォン等の通信端末でもよく、音楽再生装置、ゲーム機器等でもよい。また、提供サーバ12は、例えばPCやサーバ等であるが、これに限定されるものではない。
<再生装置11のハードウェア構成例>
図2は、再生装置のハードウェア構成の一例を示す図である。図2に示す再生装置11は、入力装置41と、出力装置42と、通信インタフェース43と、オーディオインタフェース44と、主記憶装置45と、補助記憶装置46と、Central Processing Unit(CPU)47と、ネットワーク接続装置48とを有し、これらはシステムバスBで相互に接続されている。
入力装置41は、再生装置11のユーザからのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。入力装置41は、例えばタッチパネルや所定の操作キー等である。入力装置41に対する操作に応じた信号がCPU47に送信される。
出力手段42は、本実施形態における再生装置11を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU47が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
通信インタフェース43は、上述した頭部姿勢センサ14によるユーザの頭部の姿勢情報を取得する。オーディオインタフェース44は、CPU47から送信されたデジタル音声をアナログ音声に変換したり、変換したアナログ音声を増幅して、上述したイヤホン15等に出力する。
主記憶装置45は、CPU47に実行させるOperating System(OS)プログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、主記憶装置45は、CPU47による処理に必要な各種データを記憶する。主記憶装置45は、例えばRead Only Memory(ROM)やRandom Access Memory(RAM)等である。
補助記憶装置46は、内蔵した磁気ディスクに対して、磁気的にデータの書き込み及び読み出し等を行う。補助記憶装置46は、OSプログラム、アプリケーションプログラム、及び各種データをお記憶する。補助記憶装置46は、例えばフラッシュメモリや、Hard Disk Drive(HDD)、Solid State Drive(SSD)等のストレージ手段等である。主記憶装置45及び補助記憶装置46は、例えば上述した記憶手段25に対応している。
CPU47は、OS等の制御プログラム、及び主記憶装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、再生装置11等のコンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、例えば補助記憶装置46から取得することができ、また実行結果等を格納することもできる。
例えば、CPU47は、例えば入力装置41から得られるプログラムの実行指示等に基づき、補助記憶装置46にインストールされたプログラム(例えば、音声処理プログラム)を実行させることにより、主記憶装置45上でプログラムに対応する処理を行う。
例えば、CPU47は、音声処理プログラムを実行させることで、上述した頭部姿勢取得手段21による頭部姿勢の取得、通信手段22における各種データの送受信、復号手段23による復号、音像定位手段24による音像定位等の処理を行う。なお、CPU47における処理内容は、これに限定されるものではない。CPU47により実行された内容は、必要に応じて補助記憶装置46に記憶される。
ネットワーク接続装置48は、CPU47からの制御信号に基づき、通信ネットワーク13等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワーク13に接続されている外部装置(例えば、提供サーバ12等)等から取得する。ネットワーク接続装置48は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。また、ネットワーク接続装置48は、例えばWi−Fi(登録商標)やBluetooth(登録商標)等による通信を可能にする通信手段を有していてもよい。また、ネットワーク接続装置48は、電話端末との通話を可能にする通話手段を有していてもよい。
上述したようなハードウェア構成により、本実施形態における音声処理を実行することができる。本実施形態は、各機能をコンピュータに実行させることができる実行プログラム(音声処理プログラム)を例えば通信端末等にインストールすることで、本実施形態における音声処理を容易に実現することができる。
更に、ネットワーク接続装置47は、例えばWi−Fi(登録商標)やBluetooth(登録商標)等による通信を可能にする通信手段を有していてもよい。また、ネットワーク接続装置47は、電話端末との通話を可能にする通話手段を有していてもよい。
<提供サーバ12のハードウェア構成例>
図3に示す提供サーバ12は、入力装置51と、出力装置52と、ドライブ装置53と、主記憶装置54と、補助記憶装置55と、CPU56と、ネットワーク接続装置57とを有し、これらはシステムバスBで相互に接続されている。
入力装置51は、提供サーバ12の管理者等のユーザからのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。入力装置51は、提供サーバ12のユーザ等が操作するキーボード及びマウス等のポインティングデバイスや、マイク等の音声入力デバイスを有する。
出力装置52は、本実施形態における提供サーバ12を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU56が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
ここで、提供サーバ12等のコンピュータ本体にインストールされる実行プログラムは、例えばUniversal Serial Bus(USB)メモリやCD−ROM、DVD等の可搬型の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、CPU56からの制御信号に基づき、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置53を介して補助記憶装置55にインストールされる。
主記憶装置54は、CPU56に実行させるOSプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、主記憶装置54は、CPU56による処理に必要な各種データを記憶する。主記憶装置54は、ROMやRAM等である。
補助記憶装置55は、CPU56からの制御信号に基づき、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行う。補助記憶装置55は、CPU56からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込んだりすることができる。補助記憶装置55は、例えばHDDやSSD等のストレージ手段等である。主記憶装置54及び補助記憶装置55は、例えば上述した記憶手段37に対応している。
CPU56は、OS等の制御プログラム、及び主記憶装置54に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、提供サーバ12等のコンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、例えば補助記憶装置55から取得することができ、また実行結果等を格納することもできる。
例えば、CPU56は、例えば入力装置51から得られるプログラムの実行指示等に基づき、補助記憶装置55にインストールされたプログラム(例えば、音声処理プログラム)を実行させることにより、主記憶装置54上でプログラムに対応する処理を行う。
例えば、CPU56は、音声処理プログラムを実行させることで、上述した前方判断手段32による前方判断、コーデック制御手段33によるコーデック制御、音声取得手段34による音声データの取得等の処理を行う。更に、CPU56は、音声生成手段35による仮想スピーカ音声生成、圧縮手段36による圧縮等の処理を行う。なお、CPU56における処理内容は、これに限定されるものではない。CPU56により実行された内容は、必要に応じて補助記憶装置55に記憶される。
ネットワーク接続装置57は、CPU56からの制御信号に基づき、通信ネットワーク13等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワーク13に接続されている外部装置等から取得する。また、ネットワーク接続装置57は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。
上述したようなハードウェア構成により、本実施形態における音声処理を実行することができる。本実施形態は、各機能をコンピュータに実行させることができる実行プログラム(音声処理プログラム)を例えば汎用のPC等にインストールすることで、本実施形態における音声処理を容易に実現することができる。
<音声処理システム10における処理の一例>
次に、上述した音声処理システム10における処理(音声通信処理)の一例についてシーケンス図を用いて説明する。図4は、音声処理システムの処理の一例を示すシーケンス図である。図4の例では、上述した再生装置11と提供サーバ12とを有している。
図4の例において、再生装置11の頭部姿勢取得手段21は、頭部姿勢センサ14等からユーザの頭部姿勢情報を取得する(S01)。再生装置11の通信手段22は、S01の処理により取得した頭部姿勢情報を提供サーバ12に送信する(S02)。
提供サーバ12の前方判断手段32は、S02の処理により取得した再生装置11からの頭部姿勢情報や予め記憶手段37に記憶されている仮想スピーカ配置情報37−1に基づいて、ユーザの前方判断を行い、前方に対応する仮想スピーカを選択する(S03)。
次に、提供サーバ12のコーデック制御手段33は、前方判断結果に基づいて各仮想スピーカに対応する音声データの圧縮時のコーデック制御を行う(S04)。次に、提供サーバ12の音声取得手段34は、再生装置11で実現される音声ARに対応する複数の仮想スピーカから出力させる元となる音声データを取得する(S05)。次に、提供サーバ12の音声生成手段35は、S05の処理により取得した音声データから仮想スピーカ用の音声データを生成する(S06)。
次に、提供サーバ12の圧縮手段36は、記憶手段37に記憶されているコーデック表37−3に基づいて、各仮想スピーカに対応する圧縮手法を用いて各音声データを圧縮(符号化)する(S07)。S07の処理では、例えば上述したS03の処理で得られた前方に対応するチャンネルに対して、例えば高周波成分を有する音声データの圧縮(低圧縮又は無圧縮)を行い、前方以外のチャンネルに対して、例えば高周波成分が復元されない程度の高圧縮を行う。
また、提供サーバ12の通信手段31は、S07の処理により圧縮された音声データやコーデック情報等をパケットデータ等により通信ネットワーク13を介して再生装置11に送信する(S08)。
再生装置11の通信手段22は、S08の処理により提供サーバ12から送信された情報を受信する。再生装置11の復号手段23は、受信した情報からS07の処理で圧縮された音声データを取得し、取得した音声データをコーデック情報に対応させた復号手法で復号する(S09)。なお、S09の処理は、S08の処理において、音声データと共に送信されたチャンネル毎のコーデック情報等を用いることで、適切な復号を実現できる。
また、再生装置11の音像定位手段24は、S09の処理で復号された各チャンネルの音声データを左右の耳用に集約してイヤホン15から音声ARによる出力ができるように音像の定位処理を行い(S10)、処理された音声データをイヤホン15等に出力する(S11)。
なお、上述の処理は、再生装置11から再生される音声が終了するまで、又は、ユーザの指示により第1実施形態における音声通信処理が終了されるまで繰り返し行われる。したがって、ユーザの頭部姿勢のリアルタイムな動きに対応させて音像定位された音声データをユーザに提供することができる。
<各種データ例等>
次に、上述した音声処理システム10における各種データ例等について、図を用いて説明する。図5は、音声処理システムで用いられる各種データ例を説明するための図である。図5(A)は、頭部姿勢情報の一例を示す。図5(B)は、仮想スピーカ配置情報25−1,37−1の一例を示す。図5(C)は、前方情報37−2の一例を示す。図5(D)は、コーデック表37−3の一例を示す。図5(E)は、コーデック情報の一例を示す。
図5(A)に示す頭部姿勢情報の項目としては、例えば「識別情報」、「時間」、「姿勢情報」等であるが、これに限定されるものではない。図5(A)に示す「識別情報」は、提供サーバ12が再生装置11を識別するための識別情報である。図5(A)に示す「時間」は、頭部姿勢センサ14からユーザの頭部の姿勢情報を取得した時間である。図5(A)に示す「姿勢情報」は、頭部姿勢センサ14により取得したユーザの頭部の姿勢情報が示されている。なお、図5(A)の例では、姿勢情報として、ユーザの前方(真正面)の角度が示されているが、これに限定されるものではない。
図5(B)に示す仮想スピーカ配置情報25−1,37−1の項目としては、例えば「仮想スピーカID」、「配置位置x」、「配置位置y」等があるが、これに限定されるものではなく、角度情報であってもよい。図5(B)の例では、8つの仮想スピーカ(ID:#1〜#8)に対する配置情報を座標で設定しているが、これに限定されるものではなく、各仮想スピーカに対応する設置角度を設定してもよい。
ここで、図6は、仮想スピーカの配置例を説明するための図である。図6の例では、8つの仮想スピーカがユーザ(聴取者)の頭部の位置を中心として、半径1の円形状に45°間隔で配置された例を示している。図5(B)に示す仮想スピーカ配置情報25−1,37−1では、図6に示す配置例に対応する仮想スピーカのxy座標が記憶されている。
第1実施形態では、前方判断手段32が、図5(A)に示す頭部姿勢情報と、図5(B)に示す仮想スピーカ配置情報とを比較し、ユーザの前方を基準にして最も近い仮想スピーカを判断し、更に近い順に所定数の仮想スピーカを選択する。
例えば、前方判断手段32は、姿勢情報と同一の角度に仮想スピーカが割り当てられている場合には、その仮想スピーカ1つを選択し、姿勢情報と同一の角度に仮想スピーカが割り当てられていない場合には、その角度に近い方から2つの仮想スピーカを選択する。
例えば、図6に示す配置例を基準に前方にある仮想スピーカを判断すると、θ=15°の場合、前方判断手段32は、その前方(正面)に仮想スピーカが存在していないと判断し、例えば正面に近い方から2つの仮想スピーカ#1、#2を選択する。また、θ=90°の場合、前方判断手段32は、その前方(正面)に仮想スピーカ#3が存在していると判断し、例えば仮想スピーカ#3を選択する。
なお、仮想スピーカの選択については、上述した例に限定されるものではない。例えば、前方判断手段32は、姿勢正面に仮想スピーカが割り当てられていない場合には、前方を基準に左右のスピーカを2個ずつ(計4個)を選択してもよい。また、前方判断手段32は、姿勢正面に仮想スピーカが割り当てられている場合には、その仮想スピーカと、その両側にある仮想スピーカ(計3個)を選択してもよい。
図5(C)に示す前方情報37−2の項目としては、例えば「前方の仮想スピーカ」等があるが、これに限定されるものではなく、例えば「後方の仮想スピーカ」の情報を有していてもよい。また、前方情報37−2として、例えば前方と後方の両方の仮想スピーカの情報を有していてもよいが、この場合には、例えば前方と後方のどちらの仮想スピーカであるかを識別する識別情報を有する。図5(C)の例では、前方判断手段32により判断された前方の仮想スピーカIDとして#1、#2が記憶されている。
図5(D)に示すコーデック表37−3の項目としては、例えば「仮想スピーカ種別」、「コーデック」、「パラメータ」等であるが、これに限定されるものではない。コーデック表37−3は、コーデック制御手段33により制御される情報である。図5(D)に示す「仮想スピーカ種別」は、コーデック及びパラメータ等を設定する対象の仮想スピーカを識別する情報である。図5(D)の例では、「前方」と「その他」とで識別されているが、これに限定されるものではなく、例えば仮想スピーカ毎に識別してもよい。コーデック表37−3を用いることで、仮想スピーカ種別毎にコーデックやパラメータを任意に設定することができる。
図5(D)に示す「コーデック」は、例えば仮想スピーカ種別毎に設定されるコーデック手法である。「コーデック」において、"圧縮なし"とは無圧縮(NullCodec)を示し、"サンプリング"とは例えばパラメータ等で設定された条件で圧縮(ダウンサンプリング)することを意味するが、これに限定されるものではない。
図5(D)に示す「パラメータ」は、「コーデック」で設定された条件で圧縮する時の各種パラメータである。例えば、図5(D)の例では、パラメータとして周波数(例えば、44kHz等)、データ量(例えば、16bit)、及びフレーム量(例えば、1024frame)等が設定される。なお、パラメータは、これに限定されるものではなく、例えば上述した周波数、データ量、及びフレーム量のうち、少なくとも1つでもよく、その他の情報が含まれていてもよい。
図5(E)に示すコーデック情報の項目としては、例えば「コーデック情報」等であるが、これに限定されるものではない。図5(E)に示す「コーデック情報」は、上述した図5(D)に示すコーデック表37−3に基づいて、仮想スピーカ種別毎に圧縮手段36で各音声データを圧縮したときの内容等であるが、これに限定されるものではない。
図5(E)に示すコーデック情報では、例えばIDが#1,#2の仮想スピーカに対しては、圧縮なしの高周波成分(44kHz)の音声データであることを示している。また、図5(E)に示すコーデック情報では、例えばIDが#3〜#8の仮想スピーカに対しては、サンプリングレート(周波数)を22kHzに圧縮(ダウンサンプリング)した音声データであることを示している。
上述したように、第1実施形態では、適切な音声出力を実現することができる。また、第1実施形態では、提供サーバ12から送信される全ての音声データ(チャンネル)において高周波成分を含む場合と比較して通信帯域を削減することができる。また、第1実施形態では、再生装置11において、前方の音像定位感が適切に定位された音声出力を実現することができる。
<第2実施形態における音声処理システムの概略構成例>
次に、音声処理システムの第2実施形態について説明する。図7は、第2実施形態における音声処理システムの構成例を示す図である。上述した第1実施形態では、ダウンサンプリングによる圧縮例を示したが、第2実施形態では、音声ストリームの切り替え例を示す。
なお、図7に示す音声処理システム60において、上述した音声処理システム10と同様の構成等については、同一の符号を付するものとし、ここでの具体的な説明は省略する。また、音声処理システム60における再生装置や提供サーバのハードウェア構成も上述した第1実施形態におけるハードウェア構成を適用することができるため、ここでの具体的な説明は省略する。
図7に示す音声処理システム60は、再生装置61と、提供サーバ62とを有する。再生装置61と、提供サーバ62とは、例えばインターネットやWLAN、LAN等に代表される通信ネットワーク13により、データの送受信が可能な状態で接続されている。第2実施形態における通信ネットワーク13は、コネクション接続により常時接続されているネットワーク形態を示している。
再生装置61は、頭部姿勢取得手段21と、通信手段71と、復号手段72と、音像定位手段24と、記憶手段73とを有する。記憶手段73は、仮想スピーカ配置情報25−1と、コーデック表73−1とを有する。第2実施形態における再生装置61は、上述した第1実施形態における再生装置11と同一の構成であるが、通信手段71、復号手段72による処理が異なる。また、記憶手段73は、再生装置61が、提供サーバ62とのセッション開始後に提供サーバ62から取得されるコーデック表73−1が記憶される。
提供サーバ62は、通信手段81と、前方判断手段32と、コーデック制御手段33と、音声取得手段34と、音声生成手段35と、振り分け手段82と、圧縮手段83と、記憶手段37とを有する。第2実施形態における提供サーバ62は、上述した第1実施形態における提供サーバ12と比較すると、振り分け手段82を有しており、通信手段81、圧縮手段83の処理も異なる。
第2実施形態において、提供サーバ62の通信手段81は、圧縮手段82により得られるユーザの前方に対応する音声データと、前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信する。例えば、通信手段81は、通信ネットワーク13を介して再生装置61と通信する際、予め圧縮率の高い(高圧縮)通信路と、圧縮率の低い(低圧縮)通信路(無圧縮でもよい)とによるコネクションを確立する。
更に、通信手段81は、再生装置61に対してコーデック表37−3を送信する。第2実施形態におけるコーデック表37−3には、どの通信路でどのようなコーデック及びパラメータを用いるかの情報等を有するが、コーデック表37−3の情報としては、これに限定されるものではなく、例えば仮想スピーカ種別等が含まれていてもよい。
提供サーバ62の振り分け手段82は、コーデック制御手段33により生成されたコーデック表37−3に基づいて、音声生成手段35から得られる各仮想スピーカ(各チャンネル)に対応する音声データを2種類の圧縮条件のうちの何れかに振り分ける。圧縮手段83は、振り分け手段82により振り分けた各仮想スピーカに対応する圧縮条件で圧縮を行う。
例えば、振り分け手段82は、再生装置61から得られるユーザの姿勢情報からユーザの前方にある所定数の仮想スピーカに対しては、低圧縮の圧縮条件とし、前方以外の仮想スピーカに対しては、高圧縮の圧縮条件となるように振り分けを行う。なお、前方の仮想スピーカの判断手法については、上述した第1実施形態と同様であるため、ここでの説明は省略する。
ここで、図8は、第2実施形態における音声処理システムの動作を説明するための図である。なお、図8の例では、第2実施形態における音声処理システム60の概略的な部分のみを記載している。
第2実施形態では、図8の例に示すように、再生装置61と提供サーバ62との間のデータ通信において、所定数の高圧縮データ用の通信路と、所定数の低圧縮データ用の通信路とを用いたコネクションを確立する。例えば、第2実施形態では、再生装置61側の通信手段71と、提供サーバ62側の通信手段81とにおいて、例えば8チャンネルの仮想スピーカに対応する音声データを通信するためのコネクションを確立する。例えば、通信手段71,81は、高圧縮の音声データを送信するための6つの狭帯域の通信路a〜fと、低圧縮の音声データを送信するための2つの広帯域の通信路A,Bとを用いたコネクションを確立する。なお、第2実施形態におけるコネクションの数については、これに限定されるものではない。
振り分け手段82では、例えば多方向(8チャンネル)の仮想スピーカに対する音声データを生成し、生成した各音声データに対して、前方の音声データであるか否かに基づいて振り分け処理を行う。
圧縮手段83は、2つの通信路A,Bで通信させる前方の音声データに対して低圧縮を行うか、又は圧縮しない(無圧縮)。したがって、復元時に高周波成分が残ったままの音声データとなる。また、圧縮手段83は、6つの通信路a〜fで通信させる前方以外の音声データに対して高圧縮を行う。したがって、復元時に高周波成分を含まない音声データとなる。
例えば、図8の例において、頭部姿勢情報θが北を0°にした方位を基準にして、頭部姿勢センサ14の値が最初θ=15°であり、所定時間経過後にθ=60°に変化したとする。この場合、前方判断手段32は、上述した図5(B)や図6を参照すると、最初θ=15°に対応して2つの仮想スピーカ#1及び#2を選択する。したがって、2つの通信路A,Bには、#1及び#2に対する音声データが送信される。また、6つの通信路a〜fは、他の仮想スピーカ#3〜#8に対する高圧縮された音声データが送信される。
また、その後の姿勢情報θ=60°となった場合に、前方判断手段32は、前方の仮想スピーカとして#2及び#3を選択する。つまり、選択される2つの仮想スピーカは、「#1、#2」から「#2、#3」に変化する。このような場合に、振り分け手段82は、姿勢情報が変化するタイミングに対応させて、通信路A,Bと、通信路a〜fとに対する音声データの振り分けを変えることで、シームレスに情報を送信することができる。
例えば、通信手段81は、2つの通信路A,Bを用いて、仮想スピーカ#2及び#3に対する音声データを送信する。また、通信手段81は、6つの通信路a〜fを用いて、他の仮想スピーカ#1、#4〜#8に対する高圧縮された音声データを送信する。
なお、第2実施形態では、通信ネットワーク13の回線がコネクション状態のままであるため、コーデック情報の送受信を1回で済ませることができる。また、第2実施形態では、使用する通信路が固定となるため、そのためのメモリの確保を固定にすることができる。
第2実施形態における再生装置61では、通信手段71が、上述した2種類の通信路で送信される音声データを受信する。復号手段72は、それぞれの通信路から送られたデータに対して予め受信したコーデック表73−1を用いて、通信路毎の復号化方式により復号し、その結果を集約して、音像が定位された音声データをイヤホン15から出力する。
<第2実施形態における圧縮手段83の処理の一例>
図9は、第2実施形態における圧縮手段の処理の一例を示すフローチャートである。図9の例において、圧縮手段83は、コーデック制御手段33から再生装置61とのセッション開始が通知される(S21)。次に、圧縮手段83は、記憶手段37に記憶されたコーデック表37−3のコーデックを準備する(S22)。
次に、圧縮手段83は、音声生成手段35から仮想スピーカ用の音声データを取得すると(S23)、前方情報37−2を参照し、前方以外の仮想スピーカの音声データを圧縮する(S24)。この場合、前方の仮想スピーカの音声データは無圧縮とする。
次に、圧縮手段83は、通信手段31に仮想スピーカの識別情報(仮想スピーカID)と、IDに対応する音声データと、IDに対して前方か否か示す情報とを通信手段81に出力する(S25)。
<第2実施形態における提供サーバ62の通信手段81の処理の一例>
図10は、第2実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。なお、以下の処理では、上述したように8チャンネルの音声データのうち、低圧縮(無圧縮)の音声データを2つのコネクション(通信路)A,Bで伝送し、高圧縮の音声データを6つのコネクションa〜fで伝送する例について説明するが、これに限定されるものではない。
図10の例において、通信手段81は、再生装置61とセッションと開始し(S31)、再生装置61にコーデック表37−3を送信する(S32)。次に、通信手段81は、例えば高圧縮の音声データ用のコネクションa〜fと、無圧縮の音声データ用のコネクションA,Bを確立する(S32)。
次に、通信手段81は、圧縮手段83から仮想スピーカ毎に圧縮又は無圧縮の音声データを取得し(S34)、コネクションA,B、コネクションa〜fにそれぞれ未使用フラグを付与する(S35)。次に、通信手段81は、所定の仮想スピーカに対応する音声データを取得し(S36)、その音声データは、前方か否かを判断する(S37)。所定の仮想のスピーカとは、例えば全ての仮想スピーカ(#1〜#8)のうち、まだ再生装置61に送信していない音声データに対応する仮想スピーカである。
S37の処理において、通信手段81は、音声データが前方の場合(S37において、YES)、コネクションA,Bのうち、未使用フラグのついたコネクションを1つ割り当て、そのコネクションの未使用フラグを消す(S38)。未使用フラグを消すとは、そのコネクションを使用したことを示す。
また、通信手段81は、音声データが前方でない場合(S37において、NO)、コネクションa〜fのうち、未使用フラグのついたコネクションを1つ割り当て、そのコネクションの未使用フラグを消す(S39)。
次に、通信手段81は、割り当てられたコネクションに{仮想スピーカID,音声データ}の組を有する通信データを設定し(S40)、その通信データを割り当てたコネクションを用いて再生装置61に送信する(S41)。
ここで、通信手段81は、全ての音声データに対して処理を実行したか否かを判断し(S42)、全ての音声データに対して処理を実行していない場合(S42において、NO)、S36に戻り、未処理の音声データに対して処理を行う。また、通信手段81は、全ての音声データに対して処理を実行した場合(S42において、YES)、処理を終了する。
<第2実施形態における再生装置61の通信手段71の処理の一例>
次に、第2実施形態における再生装置61の通信手段71の処理の一例について、フローチャートを用いて説明する。図11は、第2実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。なお、図11の例では、上述した図10に示す処理により提供サーバ62から送信された通信データに対応する処理について説明するが、これに限定されるものではない。
図11の例において、通信手段71は、提供サーバ62とのセッションを開始し(S51)、提供サーバ62からコーデック表37−3を受信する(S52)。また、通信手段71は、高圧縮の音声データ用のコネクションa〜fと、無圧縮の音声データ用のコネクションA,Bを確立する(S53)。次に、通信手段71は、復号手段72にコーデック表37−3の情報を出力する(S54)。なお、コーデック表37−3は、コーデック表73−1として記憶手段73に記憶しておき、復号手段72による復号時に記憶手段73からコーデック表73−1を参照してもよい。
次に、通信手段71は、提供サーバ62からの通信データを受信すると(S55)、その通信データをコネクションA,Bから受信したか否かを判断する(S56)。通信手段71は、通信データをコネクションA,Bから受信した場合(S56において、YES)、前方用のフラグを付けて復号手段72に出力する(S57)。また、通信手段71は、通信データをコネクションA,Bから受信していない場合(S56において、NO)、前方用でない(前方以外である)ことを示すフラグを付けて復号手段72に出力する(S58)。なお、S57の処理において、前方用のフラグを付けているため、そのフラグがついていない通信データは、前方用ではないと判断ができる。したがって、上述したS58の処理は、省略してもよい。
これにより、復号手段72は、例えば前方用のフラグがある通信データは、無圧縮であるため復号を行わず、前方以外の通信データはコーデック表73−1等のコーデックに対応する復号化方式(デコーデック)で復号を行う。また、復号手段72は、復号された音声データ等を音像定位手段24に出力する。これにより、音像定位手段24は、復号手段72から得られる音声データを集約して前方に高周波数成分を有し、音像が定位された適切な音声データをイヤホン15から出力することができる。
上述したように、第2実施形態では、適切な音声出力を実現することができる。また、第2実施形態では、高圧縮の通信路(低域)と、低圧縮の通信路(高域)を固定で用意しておくことで、コーデック情報の送受信を1回で済ませることができる。また、第2実施形態では、メモリの確保を固定にすることができる。
<第3実施形態における音声処理システムの概略構成例>
次に、第3実施形態について説明する。図12は、第3実施形態における音声処理システムの構成例を示す図である。第3実施形態では、上述した第2実施形態とは異なる音声ストリームの切り替え例を示している。
図12に示す音声処理システム90において、上述した音声処理システム10,80と同様の構成等については、同一の符号を付するものとし、ここでの具体的な説明は省略する。また、音声処理システム90における再生装置や提供サーバのハードウェア構成も上述した第1実施形態におけるハードウェア構成を適用することができるため、ここでの具体的な説明は省略する。
図12に示す音声処理システム90は、再生装置91と、提供サーバ92とを有する。再生装置91と、提供サーバ92とは、例えばインターネットやWLAN等に代表される通信ネットワーク13により、データの送受信が可能な状態で接続されている。なお、第3実施形態における通信ネットワーク13は、コネクション接続により常時接続されているネットワーク形態を示している。
再生装置91は、頭部姿勢取得手段21と、前方判断手段101と、通信手段102と、復号手段103と、音像定位手段24と、記憶手段104とを有する。記憶手段104は、仮想スピーカ配置情報25−1と、コーデック表73−1と、前方情報104−1とを有する。
また、提供サーバ92は、通信手段111と、前方判断手段32と、コーデック制御手段33と、音声取得手段34と、音声生成手段35と、圧縮手段112、抽出手段113と、記憶手段37とを有する。
第3実施形態では、図12に示すように、再生装置91及び提供サーバ92の両方に前方判断手段32,101を有し、両方でユーザの前方を判断し、前方に対応する仮想スピーカを選択する。これにより、第3実施形態は、再生装置91と提供サーバ92との間で前方に対応する音声がどれであるかという情報の送受信を省略することができるため、通信量を削減して通信効率を向上させることができる。
また、第3実施形態では、音声生成手段35で生成された各仮想スピーカに対応する音声データを圧縮する際、低周波成分と高周波成分とに分離して圧縮を行う。更に、第3実施形態では、全ての仮想スピーカに対応する低周波成分の音声データを再生装置91に送信すると共に、ユーザの前方に対応する仮想スピーカに対して高周波成分の音声データを送信する。
ここで、図13は、第3実施形態における音声処理システムの動作を説明するための図である。なお、図13の例では、第3実施形態における音声処理システム90の概略的な部分のみを記載している。
第3実施形態では、再生装置91における通信手段102と、提供サーバ92における通信手段111とにおけるセッション開始時に、例えば低周波成分用のコネクション(通信路)8つ(a〜h)と、高周波成分用のコネクション2つ(A,B)を確立する。なお、第3実施形態におけるコネクションの数については、これに限定されるものではない。
提供サーバ92の圧縮手段112は、音声生成手段35により生成される仮想スピーカ毎の音声データ(例えば、8チャンネル)の全てに対して高周波成分と低周波成分とに分離して圧縮を行う。圧縮手段112による圧縮手法は、例えばMPEG2−AACのScalable Sample Rate(SSR)等のスケーラブルな音声符号化を用いることができるが、これに限定されるものではない。
抽出手段113は、前方判断手段32による判断結果に応じて、圧縮手段112により得られる各仮想スピーカに対応する高周波成分の圧縮音声データから、ユーザの前方に対応するデータを抽出する。第3実施形態では、図13に示すように、8つのコネクションa〜hでは、8チャンネル全ての低周波成分の音声データを再生装置91に送信し、その他に2つのコネクションA,Bに対して前方のチャンネル用の高周波成分の音声データを再生装置91に送信する。
再生装置91では、頭部姿勢取得手段21により得られる頭部姿勢センサ14からの取得情報に基づいて、前方判断手段101により前方を判断し、仮想スピーカ配置情報25−1を参照して、前方に対応する仮想スピーカを選択する。なお、選択された前方情報104−1は、記憶手段104に記憶される。
復号手段103は、前方情報104−1を用いて、上述したコネクションA,Bの2つの高周波成分の音声データを、コネクションンa〜hの8つの低周波成分の音声データのうち、前方に対応する音声データに付加して復号する。また、復号手段103は、これらの復号結果を音像定位手段24に出力する。音像定位手段24は、得られた音声データを集約して音像が定位された音声データをイヤホン15から出力する。
例えば、図13の例では、頭部姿勢情報θが、北を0°にした方位を基準にして、頭部姿勢センサ14の値が最初θ=15°であり、所定時間経過後にθ=60°に変化したとする。この場合、上述した第2実施形態と同様に、図6や図5(B)の例を参照すると、前方の仮想スピーカは、最初「#1、#2」であり、その後「#2、#3」に変化する。
このような場合、抽出手段113は、圧縮手段112によりそれぞれの周波数成分(高周波、低周波)で圧縮した音声データのうちの高周波成分について、最初は、前方と判断された仮想スピーカ#1、#2に対応する高周波成分の音声データを抽出する。また、抽出手段113は、上述した頭部姿勢情報の変化(例えば、θ=15°→60°)により、仮想スピーカ#2、#3に対応する高周波成分の音声データを抽出する。
通信手段111は、全ての仮想スピーカ#1〜#8に対応する低周波成分の音声データを送信すると共に、抽出手段113により抽出された高周波成分の音声データを切り替えながら送信する。
これにより、第3実施形態では、低周波成分の音声データが継続的に送信されるため、音声データをシームレスに出力することができる。また、第3実施形態では、通信回線がコネクション状態のままであるため、コーデック表37−3の送受信を1回で済ませることができる。また、第3実施形態では、前方判断を再生装置91と、提供サーバ92の両方で行うため、例えば前方情報に対応する情報等の送受信が不要となり、通信効率を向上させることができる。
上述したよう、第3実施形態では、高周波成分用のコネクションA,Bに、コネクションa〜hで送信される低周波成分の音声データと元の音声データとの差分情報(高周波成分)を送ることで、再生装置91において適切な音声出力を実現することができる。
<第3実施形態における圧縮手段112及び抽出手段113の処理の一例>
図14は、第3実施形態における圧縮手段及び抽出手段の処理の一例を示すフローチャートである。図14の例において、圧縮手段112は、コーデック制御手段33から再生装置91とのセッション開始が通知されると(S61)、コーデック表37−3のコーデックを準備する(S62)。
次に、圧縮手段112は、音声生成手段35から仮想スピーカ用の音声データを取得し(S63)、低周波数成分と高周波数成分とに分離して圧縮する(S64)。なお、S64の処理では、予め設定された仮想スピーカの各チャンネルに対応する全ての音声データに対して低周波数成分と、高周波数成分とに分離して圧縮する。なお、圧縮形式は、低周波成分と高周波成分とで同一でもよく異なっていてもよい。圧縮形式は、低周波成分及び高周波成分の成分毎に選択することができる。次に、圧縮手段112は、圧縮された低周波数成分の音声データを通信手段111等に出力する(S65)。
次に、抽出手段113は、前方情報判断手段32により判断された前方情報37−2を参照し(S66)、圧縮された高周波成分の音声データのうち、前方に対応する音声データを抽出し、抽出した音声データに高周波成分フラグを付与して通信手段111等に出力する(S67)。なお、S67の処理では、再生装置91側においてどのコネクションから受信したかを検出することにより高周波成分の音声データか否かを判断することが可能である。したがって、その場合には、S67の処理において高周波成分フラグを付与しなくてもよい。
<第3実施形態における提供サーバ92の通信手段111の処理の一例>
図15は、第3実施形態における提供サーバの通信手段の処理の一例を示すフローチャートである。図15の例において、通信手段111は、再生装置91とセッションを開始し(S71)、再生装置91にコーデック表37−3を送信する(S72)。また、通信手段111は、低周波成分の音声データ用のコネクションa〜hと、高周波成分の音声データ用のコネクションA,Bを確立する(S73)。
次に、通信手段111は、圧縮手段112から圧縮された音声データを取得し(S74)、低周波成分の音声データ8つをコネクションa〜hに割り当て、前方の高周波成分の音声データ2つをコネクションA,Bに割り当てる(S75)。次に、通信手段111は、コネクションを通じてデータを再生装置91に送信する(S76)。
<第3実施形態における再生装置91の通信手段102の処理の一例>
図16は、第3実施形態における再生装置の通信手段の処理の一例を示すフローチャートである。上述した提供サーバ92により送信された通信データに対応する処理ついて説明するが、これに限定されるものではない。
図16の例において、通信手段81は、提供サーバ92とのセッションを開始し(S81)、提供サーバ92からコーデック表を受信する(S82)。また、通信手段81は、低周波成分の音声データ用のコネクションa〜fと、高周波成分の音声データ用のコネクションA,Bを確立する(S83)。
次に、通信手段81は、復号手段103にコーデック表37−3の情報を出力する(S84)。なお、コーデック表37−3は、コーデック表73−1として記憶手段104に記憶しておき、復号手段103による復号時に記憶手段104からコーデック表73−1を参照してもよい。
次に、通信手段81は、提供サーバ92から通信データを受信し(S85)、通信データをコネクションA,Bから受信したか否かを判断する(S86)。なお、S86の処理では、受信した通信データに対して、上述した高周波成分フラグが付与されているか否かで判断してもよい。
通信手段81は、通信データをコネクションA,Bから受信した場合(S86において、YES)、再生装置91の前方情報104−1から前方の仮想スピーカIDを取得する(S87)。なお、S87の処理では、予め頭部姿勢取得手段21により頭部姿勢センサ14から頭部姿勢情報を取得し、取得した頭部姿勢情報から前方判断手段101により前方がどこであるかが判断され、その結果が前方情報104−1に記憶されている。
次に、通信手段81は、仮想スピーカIDに一致する復号手段103の高周波用の入力に、コネクションA,Bからの音声データを割り当てて復号手段103に出力する(S88)。また、S86の処理において、通信手段81は、通信データをコネクションA,Bから受信していない場合(S86において、NO)、低周波成分用のコネクションa〜hから受信したものと判断し、コネクションa〜hからの音声データを復号手段103の低周波成分用の入力1〜8に割り当てて復号手段103に出力する(S89)。
<第3実施形態における再生装置91の復号手段103の処理の一例>
図17は、第3実施形態における再生装置の復号手段の処理の一例を示すフローチャートである。図17の例において、復号手段103は、コーデック表73−1を取得すると(S91)、復号用のコーデックを準備し、低周波成分用の入力口1〜8と、高周波成分用の入力口1'〜8'を設定する(S92)。
次に、復号手段103は、通信手段102から音声データを取得し(S93)、低周波成分の音声データのみが通知された場合、低周波成分のみで復号し、低周波成分と高周波成分の情報が両方通知された場合は、両方を用いて復号する(S94)。
次に、復号手段103は、復号した音声データを音像定位手段24に出力する(S95)。これにより、音像定位手段24は、取得した音声データを集約してユーザの前方に高周波数成分を有する音像が定位した音声データをイヤホン15から出力することができる。
上述したように第3実施形態では、再生装置91と提供サーバ92との両側で前方を判断することで、前方がどれであるかという情報を送信する必要がなくなる。このため、通信量を削減し、通信効率を向上させることができる。
なお、上述した第1〜第3実施形態は、複数の実施形態の一部又は全部を組み合わせることができる。また、上述した実施形態に限定されるものではなく、例えば音源に高周波数成分を含めて圧縮や伸長(復号)するのではなく、例えば提供サーバ側から低周波数成分の音声と音源の位置だけを送信する。そして、再生装置側で、ユーザの前方に対応する低周波数の音声を用いて高周波数の音声を生成し、それらを集約することで音像に定位感を与えることができる。
上述したように本実施形態によれば、適切な音声出力を実現することができる。例えば、本実施形態では、人間の特性と、圧縮の特性を鑑みて、音像定位の維持と圧縮を両立する。例えば、本実施形態では、ユーザの姿勢情報に対応させて高周波数成分の音声データを処理する。また、本実施形態では、第2実施形態や第3実施形態に示すように、同じ帯域幅を用いて、帯域幅を変更する仮想スピーカを切り替える。このとき、例えば、ユーザの前方に存在する音源は高周波成分を含めて通信し、それ以外(後方)は圧縮した低周波の音源を伝送することで、圧縮と音質を両立させた適切な音声通信を実現することができる。
また、本実施形態では、通信量を削減しつつ、ある地点の周囲の音声を、方向感を含めて別の地点で適切に再現することができる。したがって、本実施形態は、例えば博物館や美術館、展示会、テーマパーク等において、イヤホンやヘッドホン等の耳装着型の再生装置を用いた聴取者が、展示物等の方向から、その展示物に係る展示案内の音声や音楽を聴取可能にするシステム等に適用可能である。
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。
なお、以上の実施例に関し、更に以下の付記を開示する。
(付記1)
ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、
前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、
前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有することを特徴とする情報処理装置。
(付記2)
前記圧縮手段は、
前記ユーザの前方に対応する音声データに対して、高周波数成分が復元可能な圧縮を行い、前記ユーザの前方以外の方向に対応する音声データに対して低周波数成分が復元可能な圧縮を行うことを特徴とする付記1に記載の情報処理装置。
(付記3)
前記通信手段は、
前記圧縮手段により得られる前記ユーザの前方に対応する音声データと、前記前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信することを特徴とする付記1又は2に記載の情報処理装置。
(付記4)
前記前方判断手段により得られる前方情報に対応させて、前記音声生成手段により得られる前記音声データを振り分ける振り分け手段を有し、
前記圧縮手段は、前記振り分け手段により振り分けられた音声データ毎に、前記異なる圧縮を行うことを特徴とする1乃至3の何れか1項に記載の情報処理装置。
(付記5)
前記圧縮手段は、
前記音声生成手段により生成された全ての仮想音源に対応する音声データを低周波数成分と高周波成分とに分離して圧縮し、
前記圧縮手段により得られる前記高周波成分の音声データから、前記前方判断手段により得られる前記ユーザの前方に対応する前記高周波成分の音声データを抽出する抽出手段を有し、
前記通信手段は、前記圧縮手段により圧縮された前記低周波成分の音声データの全てと、前記抽出手段により抽出された前記ユーザの前方に対応する前記高周波成分の音声データとを送信することを特徴とする付記1乃至4の何れか1項に記載の情報処理装置。
(付記6)
前記前方判断手段は、
前記ユーザの姿勢情報と、予め前記仮想音源の配置位置が設定された配置情報とを用いて、前記ユーザの前方に最も近い少なくとも1つの仮想音源を選択することを特徴とする付記1乃至5の何れか1項に記載の情報処理装置。
(付記7)
前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとに対する圧縮時の符号化情報及び符号化パラメータを制御する制御手段を有することを特徴とする付記1乃至6の何れか1項に記載の情報処理装置。
(付記8)
情報処理装置が、
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信することを特徴とする音声処理方法。
(付記9)
ユーザの姿勢情報から前記ユーザの前方を判断し、
予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
前記異なる圧縮により圧縮された前記音声データを送信する、処理をコンピュータに実行させるための音声処理プログラム。
10,60,90 音声処理システム
11,61,91 再生装置(通信端末)
12,62,92 提供サーバ(情報処理装置)
13 通信ネットワーク
14 頭部姿勢センサ(姿勢検出手段)
15 イヤホン(音声出力手段)
21 頭部姿勢取得手段
22,31,71,81,102,111 通信手段
23,72 復号手段
24 音像定位手段
25,37,73,94 記憶手段
32,101 前方判断手段
33 コーデック制御手段
34 音声取得手段
35 音声生成手段
36,83,112 圧縮手段
41,51 入力装置
42,52 出力装置
43 通信インタフェース
44 オーディオインタフェース
45,54 主記憶装置
46,55 補助記憶装置
47,56 CPU
48,57 ネットワーク接続装置
53 ドライブ装置
58 記録媒体
82 振り分け手段
113 抽出手段

Claims (7)

  1. ユーザの姿勢情報から前記ユーザの前方を判断する前方判断手段と、
    予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成する音声生成手段と、
    前記音声生成手段により生成された前記音声データに対し、前記前方判断手段により得られる前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行う圧縮手段と、
    前記圧縮手段により圧縮された前記音声データを送信する通信手段とを有することを特徴とする情報処理装置。
  2. 前記圧縮手段は、
    前記ユーザの前方に対応する音声データに対して、高周波数成分が復元可能な圧縮を行い、前記ユーザの前方以外の方向に対応する音声データに対して低周波数成分が復元可能な圧縮を行うことを特徴とする請求項1に記載の情報処理装置。
  3. 前記通信手段は、
    前記圧縮手段により得られる前記ユーザの前方に対応する音声データと、前記前方以外の方向に対応する音声データとを、それぞれ異なる通信路を用いて送信することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記前方判断手段により得られる前方情報に対応させて、前記音声生成手段により得られる前記音声データを振り分ける振り分け手段を有し、
    前記圧縮手段は、前記振り分け手段により振り分けられた音声データ毎に、前記異なる圧縮を行うことを特徴とする1乃至3の何れか1項に記載の情報処理装置。
  5. 前記圧縮手段は、
    前記音声生成手段により生成された全ての仮想音源に対応する音声データを低周波数成分と高周波成分とに分離して圧縮し、
    前記圧縮手段により得られる前記高周波成分の音声データから、前記前方判断手段により得られる前記ユーザの前方に対応する前記高周波成分の音声データを抽出する抽出手段を有し、
    前記通信手段は、前記圧縮手段により圧縮された前記低周波成分の音声データの全てと、前記抽出手段により抽出された前記ユーザの前方に対応する前記高周波成分の音声データとを送信することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 情報処理装置が、
    ユーザの姿勢情報から前記ユーザの前方を判断し、
    予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
    生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
    前記異なる圧縮により圧縮された前記音声データを送信することを特徴とする音声処理方法。
  7. ユーザの姿勢情報から前記ユーザの前方を判断し、
    予め設定した複数の方向に配置される仮想音源のそれぞれに割り当てた音声データを生成し、
    生成された前記音声データに対し、前記ユーザの前方に対応する音声データと、前記ユーザの前方以外の方向に対応する音声データとで異なる圧縮を行い、
    前記異なる圧縮により圧縮された前記音声データを送信する、処理をコンピュータに実行させるための音声処理プログラム。
JP2013084162A 2013-04-12 2013-04-12 情報処理装置、音声処理方法、及び音声処理プログラム Expired - Fee Related JP6056625B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013084162A JP6056625B2 (ja) 2013-04-12 2013-04-12 情報処理装置、音声処理方法、及び音声処理プログラム
US14/220,833 US9386390B2 (en) 2013-04-12 2014-03-20 Information processing apparatus and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013084162A JP6056625B2 (ja) 2013-04-12 2013-04-12 情報処理装置、音声処理方法、及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2014207568A true JP2014207568A (ja) 2014-10-30
JP6056625B2 JP6056625B2 (ja) 2017-01-11

Family

ID=51686820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013084162A Expired - Fee Related JP6056625B2 (ja) 2013-04-12 2013-04-12 情報処理装置、音声処理方法、及び音声処理プログラム

Country Status (2)

Country Link
US (1) US9386390B2 (ja)
JP (1) JP6056625B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016100677A (ja) * 2014-11-19 2016-05-30 株式会社国際電気通信基礎技術研究所 臨場感伝達システムおよび臨場感再現装置
JP2024517503A (ja) * 2021-05-17 2024-04-22 華為技術有限公司 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ
JP2024518846A (ja) * 2021-05-17 2024-05-07 華為技術有限公司 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
JP7680092B1 (ja) 2024-06-21 2025-05-20 株式会社リプロネクスト 連動オブジェクト制御システム、連動オブジェクト制御システムのデータ処理方法、及びプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165338A1 (en) * 2014-12-05 2016-06-09 Stages Pcs, Llc Directional audio recording system
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US20160165350A1 (en) * 2014-12-05 2016-06-09 Stages Pcs, Llc Audio source spatialization
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US10602298B2 (en) * 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN115376528B (zh) * 2021-05-17 2026-04-07 华为技术有限公司 三维音频信号编码方法、装置和编码器
US11877143B2 (en) 2021-12-03 2024-01-16 Microsoft Technology Licensing, Llc Parameterized modeling of coherent and incoherent sound

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006254064A (ja) * 2005-03-10 2006-09-21 Pioneer Electronic Corp 遠隔会議システム、音像位置割当方法および音質設定方法
JP2006254166A (ja) * 2005-03-11 2006-09-21 Hitachi Ltd ビデオ会議システム、会議端末および映像サーバ

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195825A (ja) * 1999-10-29 2001-07-19 Sony Corp 記録再生装置および方法
US7284201B2 (en) 2001-09-20 2007-10-16 Koninklijke Philips Electronics N.V. User attention-based adaptation of quality level to improve the management of real-time multi-media content delivery and distribution
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US20070028286A1 (en) * 2005-07-28 2007-02-01 Greene David P Systems, methods, and media for detecting content change in a streaming image system
US8243970B2 (en) * 2008-08-11 2012-08-14 Telefonaktiebolaget L M Ericsson (Publ) Virtual reality sound for advanced multi-media applications
US8494841B2 (en) * 2008-10-09 2013-07-23 Telefonaktiebolaget Lm Ericsson (Publ) Common scene based conference system
US8351589B2 (en) * 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
JP5561098B2 (ja) 2010-10-25 2014-07-30 富士ゼロックス株式会社 筐体ユニット及び画像形成装置
JP5691816B2 (ja) 2011-05-11 2015-04-01 日立金属株式会社 太陽電池パネルの異常検知装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006254064A (ja) * 2005-03-10 2006-09-21 Pioneer Electronic Corp 遠隔会議システム、音像位置割当方法および音質設定方法
JP2006254166A (ja) * 2005-03-11 2006-09-21 Hitachi Ltd ビデオ会議システム、会議端末および映像サーバ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016100677A (ja) * 2014-11-19 2016-05-30 株式会社国際電気通信基礎技術研究所 臨場感伝達システムおよび臨場感再現装置
JP2024517503A (ja) * 2021-05-17 2024-04-22 華為技術有限公司 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ
JP2024518846A (ja) * 2021-05-17 2024-05-07 華為技術有限公司 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
JP7703692B2 (ja) 2021-05-17 2025-07-07 華為技術有限公司 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
JP7680092B1 (ja) 2024-06-21 2025-05-20 株式会社リプロネクスト 連動オブジェクト制御システム、連動オブジェクト制御システムのデータ処理方法、及びプログラム
JP2026002308A (ja) * 2024-06-21 2026-01-08 株式会社リプロネクスト 連動オブジェクト制御システム、連動オブジェクト制御システムのデータ処理方法、及びプログラム

Also Published As

Publication number Publication date
JP6056625B2 (ja) 2017-01-11
US20140307877A1 (en) 2014-10-16
US9386390B2 (en) 2016-07-05

Similar Documents

Publication Publication Date Title
JP6056625B2 (ja) 情報処理装置、音声処理方法、及び音声処理プログラム
CN109313907B (zh) 合并音频信号与空间元数据
CN104871558B (zh) 用于协作式声音系统的图像产生的方法和装置
CN101035396B (zh) 使用有线/无线设备再现多声道声音的方法和装置
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US10231074B2 (en) Cloud hosted audio rendering based upon device and environment profiles
RU2661775C2 (ru) Передача сигнальной информации рендеринга аудио в битовом потоке
US10834503B2 (en) Recording method, recording play method, apparatuses, and terminals
CN110915220B (zh) 具有流式传输能力的音频输入和输出装置
US10129682B2 (en) Method and apparatus to provide a virtualized audio file
CN107277691B (zh) 基于云的多声道音频播放方法、系统及音频网关装置
JP2017055149A (ja) 音声処理装置および方法、符号化装置、並びにプログラム
WO2022262758A1 (zh) 音频渲染系统、方法和电子设备
CN110191745B (zh) 利用空间音频的游戏流式传输
CN105959841A (zh) 移动终端音频的播放方法、装置及耳机
JP2016005268A (ja) 情報伝送システム、情報伝送方法、及びプログラム
WO2020017518A1 (ja) 音声信号処理装置
JP2017156671A (ja) システム
KR20120139666A (ko) 복수의 내장형 오디오 제어기를 포함하는 휴대용 컴퓨터
CN115039421B (zh) 用于处理空间音频信息的装置、系统、方法和介质
CN111988721A (zh) 一种扩音方法、装置、系统、介质和设备
CN115550831B (zh) 通话音频的处理方法、装置、设备、介质及程序产品
US20260099296A1 (en) Audio processing method and related apparatus
JP2015163909A (ja) 音響再生装置、音響再生方法及び音響再生プログラム
HK40029821B (en) Audio input and output device with streaming capabilities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161121

R150 Certificate of patent or registration of utility model

Ref document number: 6056625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees