JP2000207170A

JP2000207170A - 情報処理装置および情報処理方法

Info

Publication number: JP2000207170A
Application number: JP11008195A
Authority: JP
Inventors: Takashi Sasai; 崇司笹井; Masakazu Hattori; 雅一服部; Hiroshi Tsunoda; 弘史角田; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-01-14
Filing date: 1999-01-14
Publication date: 2000-07-28

Abstract

(57)【要約】【課題】利用者には理解しやすい情報提示を行うと共
に、装置間では付加的な情報や誤りの少ない精度の高い
情報のやり取りを実現する。【解決手段】ＣＰＵ２１は、音声信号に対して、その音
声信号による音声の聞き取りに影響しない態様で付加情
報を付加し、出力音声信号を生成する。付加情報は、例
えば音声信号と関連する情報である。この出力音声信号
による音声をスピーカ１２より相手装置に向けて出力す
る。相手装置は、その音声をマイクロフォン１３より取
り入れて入力音声信号を得、この音声信号をＣＰＵ２１
に供給する。ＣＰＵ２１は、その入力音声信号より付加
情報を抽出し、その付加情報に基づく処理をする。例え
ば、音声が表現する自然言語に含まれる語句を表示部１
５に表示する。また例えば、音声が表現する自然言語の
対象領域を付加情報で限定して音声認識処理をする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声による情報
の通信を可能とする情報処理装置および情報処理方法に
関する。詳しくは、音声信号に対しその音声信号による
音声の聞き取りに影響しない態様で付加情報を付加して
出力音声信号を生成し、その出力音声信号を音声に変換
して出力することによって、利用者には音声により理解
しやすい情報提示を行うことができ、装置間では付加的
な情報や誤りの少ない精度の高い情報のやり取りを実現
できるようにした情報処理装置等に係るものである。

【０００２】

【従来の技術】複数の情報処理装置間の通信方法として
は、ケーブルなどによって装置間を接続したり、赤外線
や電波などを用いて無線で通信を行う方法がある。一般
には、二つの装置を一対一で接続するが、途中でハブな
どの特別な装置を用いることにより、三つ以上の装置間
での通信を行うこともできる。

【０００３】利用者から情報処理装置への入力において
は、音声認識技術を用いることにより、自然言語を介し
た情報伝達を行うことができる。さらに、受信側でその
自然言語を構文解析や意味解析を行うことにより、利用
者に様々なサービスを提供することも可能である。

【０００４】また、広範囲の利用者への出力としては、
スピーカを介した音声出力が広く用いられている。音声
が広範囲に伝搬すること、スピーカなど必要となる装置
が比較的安価に実現可能であることなどから、例えば、
駅や店内などの構内アナウンスのシステムなどで実施さ
れている。

【０００５】

【発明が解決しようとする課題】ところが、ケーブルな
ど有線によって装置間を接続する方法では、装置にケー
ブルを接続するための端子が必要になり、また、接続の
ためのケーブルが必要になる。さらに、三つ以上の装置
間で通信を行うには、加えてハブ等の特別な装置が必要
になる。このように、通信を行うには事前の準備が必要
となり、即座に通信が行えないという課題があった。

【０００６】また、赤外線や電波などを用いる方法で
は、通信を行うためだけに特別な機構を備える必要があ
り、装置の小型化や低価格化の妨げとなるという課題が
あった。

【０００７】また一般に、装置間でどのようなデータが
やりとりされているのかは、利用者にはわからない。こ
れを利用者にわかるようにするには、画面表示や音声出
力など、通信路とは別の手段を用いなければならないと
いう課題があった。

【０００８】また情報処理装置への入力インタフェース
として音声入力を用いた場合、現状の技術では利用者の
発話を完全に正しく認識することはできない。特に、認
識語彙数が認識性能に大きな影響を与えるため、精度の
高い認識を行うにはなるべく語彙数を制限する必要があ
り、認識の対象を絞り込むなどの工夫を行う必要があっ
た。また、現状の音声認識では、利用者の発話に内在す
る感情などの情報はほとんど得ることはできない。さら
に、構文解析や意味解析においても、発話者の入力意図
を完全に反映したものを導くことは非常に困難である。

【０００９】また、音声入出力を備えた情報処理装置に
おいては、対話的に情報交換を行うことが可能であり、
互いに問い合わせをやり取りすることで装置間の情報交
換ができるが、問い合わせの結果わからなかった場合に
は何も情報交換がなされない。このため、再度問い合わ
せるには、利用者は再び音声入力する必要があり、そこ
では認識誤りなどが生じる可能性があり、利用者にとっ
て負担になるという問題があった。

【００１０】また利用者への情報提示手段として音声出
力を用いた場合、例えば、現状のアナウンスでは、耳が
聞こえない人には全く情報が伝わらない。さらに自然言
語で表現されているため、利用者が使用する言語の違い
がある場合にも情報が伝わらない。また、音声による店
内アナウンスでは利用者がその場所の地理に精通してい
ない場合が多く、言葉で表現された場所などもわかりに
くい。

【００１１】そこで、この発明では、上述した課題を解
決し得る情報処理装置および情報処理方法を提供するこ
とを目的とする。

【００１２】

【課題を解決するための手段】請求項１の発明に係る情
報処理装置は、音声信号を発生する音声信号発生手段
と、付加情報を発生する付加情報発生手段と、音声信号
に対しその音声信号による音声の聞き取りに影響しない
態様で付加情報を付加して出力音声信号を生成する情報
付加手段と、出力音声信号による音声を出力する音声出
力手段とを備えるものである。

【００１３】請求項１７の発明に係る情報処理装置は、
音声を入力しその音声に対応する入力音声信号を得る音
声入力手段と、入力音声信号に付加されている付加情報
を抽出する付加情報抽出手段と、抽出された付加情報を
使用した処理をする情報処理手段とを備えるものであ
る。

【００１４】請求項３８の発明に係る情報処理装置は、
音声信号を発生する音声信号発生手段と、付加情報を発
生する付加情報発生手段と、音声信号に対しその音声信
号による音声の聞き取りに影響しない態様で付加情報を
付加して出力音声信号を得る情報付加手段と、出力音声
信号による音声を出力する音声出力手段と、音声を入力
しその音声に対応する入力音声信号を得る音声入力手段
と、入力音声信号に付加されている付加情報を抽出する
付加情報抽出手段と、抽出された付加情報を使用した処
理をする情報処理手段とを備えるものである。

【００１５】この発明においては、音声による通信が可
能となる。この場合の音声は、本来の音声信号に対しそ
の音声信号による音声の聞き取りに影響しない態様で付
加情報を付加することで得られる出力音声信号によるも
のである。付加情報は、例えば本来の音声信号と関連す
る情報である。例えば、付加情報の付加は、音声信号中
の、アタック部分を除くと共に、広帯域である部分に瞬
断区間を形成し、その瞬断区間を用いて行われる。また
例えば、付加情報は、スペクトル拡散信号として音声信
号に付加される。これにより、利用者には音声により理
解しやすい情報提示を行うことができ、装置間では付加
的な情報や誤りの少ない精度の高い情報のやりとりを実
現することが可能となる。

【００１６】

【発明の実施の形態】以下、図面を参照しながら、この
発明の実施の形態について説明する。図１は、第１の実
施の形態としての情報処理装置１０の概観を示してい
る。この情報処理装置１０の本体１１には、音声を出力
するためのスピーカ１２が設けられていると共に、音声
を入力するためのマイクロフォン１３が設けられてい
る。また、この本体１１には、マイクロフォン１３を介
して音声を入力するとき操作されるトークスイッチ１４
が設けられている。この場合、トークスイッチ１４が利
用者に操作されたとき、マイクロフォン１３からの音声
入力が可能となる。

【００１７】また、本体１１には、その中央部に、プロ
グラムのＧＵＩ（Graphical User Interface）を表示す
るために表示部１５が設けられている。さらに、この表
示部１５の表面上には、利用者がタッチペン１または指
などを用いて接触することにより、指示された位置に対
応する信号を出力する、いわゆるタッチパネル（タッチ
タブレット）１６が配置されている。

【００１８】ここで、タッチパネル１６は、ガラスまた
は樹脂等の透明な材料により構成されている。そのた
め、利用者は、表示部１５に表示される画像を、タッチ
パネル１６を通して見ることができる。また、利用者
は、タッチペン１７を用いてタッチパネル１６に所定の
文字を入力したり、表示部１５に表示されている所定の
オブジェクト（アイコン）の選択または実行などを行う
ことができる。

【００１９】図２は、情報処理装置１０の回路構成を示
している。内部バス２０は、ＣＰＵ（central processi
ng unit）２１、ＲＯＭ（read only memory）２２、Ｒ
ＡＭ（random access memory）２３、表示制御部２４、
入力インタフェース２５、および音声合成部２６を相互
に接続している。これにより、各部は、内部バス２０を
介してデータの授受を行うことができる。ＣＰＵ２１
は、ＲＯＭ２２またはＲＡＭ２３に記憶されているプロ
グラムまたは各種のデータに従って、各種の処理を実行
するようになされている。

【００２０】表示制御部２４は、ＣＰＵ２１より供給さ
れた情報に対応して、表示部１５に表示する画像のデー
タを生成し、表示部１５にその画像を表示させる。入力
検出部２７は、タッチパネル１６やトークスイッチ１４
の入力を検出し、対応する操作信号を入力インタフェー
ス２５に供給するようになされている。Ａ／Ｄ変換部２
８は、マィクロフォン１３より出力される音声信号を、
アナログ信号からデジタル信号に変換し、入力インタフ
ェース２５に供給するようになされている。

【００２１】入力インタフェース２５は、Ａ／Ｄ変換部
２８より供給された音声信号、または入力検出部２７よ
り供給された操作信号を受け付け、ＣＰＵ２１に供給す
るようになされている。マイクロフォン１３、Ａ／Ｄ変
換部２８および入力インタフェース２５を介して音声信
号が入力されると、ＣＰＵ２１は、ＲＯＭ２２またはＲ
ＡＭ２３に記憶されているデータを参照して、音声信号
に付加されている付加情報の抽出処理を実行する。

【００２２】音声合成部２６は、ＣＰＵ２１より供給さ
れる音声合成に必要なパラメータやテキストデータに基
づいて合成音声を生成し、スピーカ１２を介して出力さ
せる。また、音声合成部２６は、マイクロフォン１３を
介してＲＡＭ２３に録音された音声を再生する場合にも
用いられる。さらに、音声合成部２６は、ＣＰＵ２１よ
り他の装置へ送信すべき付加情報が供給されている場合
には、合成音声あるいは録音された音声への付加情報の
付加処理を行い、スピーカ１２を介して出力させる。

【００２３】図３は、上述したＣＰＵ２１の内部動作の
機能ブロック図を示している。情報処理部３０は、様々
な情報処理を行うものであり、本実施の形態において
は、個人のスケジュール管理を行うアプリケーションプ
ログラムとしての処理を行う。

【００２４】情報付加部３１は、情報処理部３０から提
供された音声信号ＳＡａに対して、情報処理部３０から
提供された特定の付加情報ＩＦａを付加して出力音声信
号ＳＡoutを生成する。ここで、音声信号ＳＡａに対す
る付加情報ＩＦａの付加は、その音声信号ＳＡａによる
音声の聞き取りに影響しない態様で行われる。

【００２５】例えば、特開平１０−１６２５０１号公報
に記載される方法を用いて付加処理が行われる。この場
合、情報付加部３１では、以下のような付加処理が行わ
れる。まず、音声信号ＳＡａの急激な立ち上がりかつ大
振幅部分をアタックとして検出すると共に、音声信号Ｓ
Ａａの予め定められた長さの区間についてスペクトル分
析をする。そして、音声信号ＳＡａ中の、アタック部分
を除くと共に、広帯域である部分に瞬断区間を形成し、
その遮断区間を用いて付加情報ＩＦａを付加して出力音
声信号ＳＡoutを生成する。アタック部分は音質に与え
る影響が大きい。また、帯域幅が広いほどクリック音は
聞こえにくくなる。したがって、上述のように付加処理
をすることで、瞬断によるクリック音をほとんど聞こえ
なくすることができ、音質の劣化がなく音声信号ＳＡａ
に付加情報ＩＦａを付加することが可能となる。

【００２６】また例えば、人間の聴覚特性のなかの、あ
る大きな音声信号が存在するときにはその周波数の近傍
の低レベルの信号は聞こえない、若しくは非常に聞こえ
にくいという「聴覚マスキング特性」を利用した付加処
理を行うようにしてもよい。さらに例えば、最近注目さ
れているスペクトル拡散により、付加情報を音声信号に
重畳するようにしてもよい。この場合、付加情報ＩＦａ
をスペクトル拡散信号として音声信号ＳＡａに付加する
ものである。

【００２７】情報抽出部３２は、入力音声信号ＳＡin
（上述した出力音声信号ＳＡoutに対応）より付加情報
ＩＦｂを抽出する処理をする。この情報抽出部３２で行
われる処理は、情報付加部３１においてなされた処理方
法に依存する。またここでは、付加情報が挿入されてい
ない場合もある。

【００２８】情報処理部３０は、実際のアプリケーショ
ン処理を行う部分であり、情報付加部３１に音声信号Ｓ
Ａａと付加情報ＩＦａを供給し、また、情報抽出部３２
から付加情報ＩＦｂまたは音声信号ＳＡｂが供給される
ようになされている。

【００２９】次に、スケジュール管理を目的とする情報
処理を例として、図３に示した機能ブロック図で行われ
る処理の流れを説明する。図４および図５は、その処理
の流れを示したものであり、それぞれ外部に音声（情
報）を送出する場合、外部から音声（情報）を入力する
場合を表している。なお、以下の説明では、個人のスケ
ジュール管理を行う処理を用いるが、他の適用例におい
ても同様の手順で行うことができる。

【００３０】図４を参照して、音声出力動作を説明す
る。まず、ステップＳ４０において、利用者は、表示部
１５、タッチパネル１６およびタッチペン１７などの入
力インタフェースを用いて、送信すべき情報の選択を行
う。例えば、表示部１５のスケジュールの一項目を表す
オブジェクト「５／５１５：００会議」を選択する。
そして、ステップＳ４１において、情報処理部３０では
利用者によって選択された項目を表現するような自然な
文章（発話文）、例えば「５月５日の１５時から会議の
予定です」を生成し、さらに、システム内部で識別可能
なデータ表現の付加情報を生成する。

【００３１】続くステップＳ４２において、音声合成部
２６ではステップＳ４１で生成した発話文を読み上げる
ための合成音声信号ＳＡａを生成する。さらに、ステッ
プＳ４３において、情報付加部３１では音声合成部２６
で生成した合成音声信号ＳＡａに、ステップＳ４１で生
成した付加情報ＩＦａを付加する。この際、付加処理
は、上述したように、合成音声信号ＳＡａによる音声の
聞き取りに影響しない態様で行われる。つまり、付加情
報ＩＦａの付加による音声信号ＳＡａの変化が、人間の
聴覚では識別不可能あるいは識別困難であるような手法
によって付加処理が行われる。

【００３２】最後に、ステップＳ４４において、ステッ
プＳ４３で生成された付加情報ＩＦａを含む出力音声信
号ＳＡoutをスピーカ１２に供給し、このスピーカ１２
より出力音声信号ＳＡoutによる音声を出力する。こう
して出力される音声はそれを聴く人間が上述した発話文
を自然言語によって理解することが可能なものである。
また他の情報処理装置１０では、その音声に係る入力音
声信号ＳＡinより付加情報ＩＦｂ（ＩＦａと同じ）を抽
出することで、上述した発話文を理解することが可能と
なる。

【００３３】次に、図５を参照して、音声入力動作を説
明する。まず、ステップＳ５０において、マイクロフォ
ン１３で外部音声を取り入れて入力音声信号ＳＡinを得
る。外部音声の取り入れは、トークスイッチ１４が利用
者によって押されることを開始合図としたり、押されて
いる間を取り入れ区間としたり、あるレベル以上の音声
を検出したりする等して、その処理を行う。

【００３４】続く、ステップＳ５１において、情報抽出
部３２で入力音声信号ＳＡinに含まれている付加情報Ｉ
Ｆｂの抽出処理を行う。処理の結果、付加情報ＩＦｂが
抽出されなかった場合には処理を終了する。付加情報Ｉ
Ｆｂが抽出された場合、ステップＳ５２に進み、その付
加情報ＩＦｂに基づいた処理が情報処理部３０において
なされる。例えば、図４で説明したような音声がマイク
ロフォン１３で取り入れられた場合、入力音声信号ＳＡ
inには、「５／５１５：００会議」を表現するデータ
が付加情報ＩＦｂとして挿入されており、この付加情報
ＩＦｂを抽出することで、情報の追加／更新のための処
理がなされたり、利用者へのデータ更新許可を問い合わ
せるような処理がなされる。

【００３５】次に、図６を参照して、第１の情報処理装
置１０（装置Ａ）と第２の情報処理装置１０（装置Ｂ）
との間の相互通信動作を説明する。装置Ａはスケジュー
ルに関して問い合わせを行う側の装置であり、装置Ｂは
その問い合わせに応答する側の装置である。

【００３６】まず、装置Ａでは、利用者Ｕａは「明日の
会議が何時であるか」を問い合わせるような命令を入力
する。この命令の入力は、表示部１５、タッチパネル１
６およびタッチペン１７を用いて行われる。なお、装置
Ａに音声認識機能があるときは、マイクロフォン１３よ
り音声によって上述の命令を入力するようにしてもよ
い。ステップＳ６０において、装置Ａでは、利用者Ｕａ
の入力操作に従って、上述の図４の例で示した動作と同
様の手順で、「明日の会議は何時ですか」という付加情
報ＩＦａを含んだ出力音声信号ＳＡoutを生成し、その
出力音声信号ＳＡoutによる音声を装置Ｂ側に向けて出
力する。装置Ａの利用者Ｕａおよび装置Ｂの利用者Ｕｂ
はその音声信号を聞くことにより、装置Ａが行おうとす
る処理を明確に理解することができる。

【００３７】装置Ｂでは、ステップＳ６１において、装
置Ａより出力された音声をマイクロフォン１３より取り
入れ、図５で示した例と同様な動作によって処理する。
入力音声信号ＳＡinには「明日の会議が何時であるか」
を問い合わせる命令が付加情報ＩＦｂとして挿入されて
おり、装置Ｂでは、ステップＳ６２において、この命令
の付加情報ＩＦｂを抽出する。そして、装置Ｂでは、続
くステップＳ６３において、抽出した命令の付加情報Ｉ
Ｆｂに基づいた情報処理、ここでは明日の会議の時間に
対する情報検索が行われ、問い合わせの結果として「１
５時から」という結果を得る。

【００３８】ステップＳ６３で得られた問い合わせの結
果は、そのまま図４のステップＳ４０における送信すべ
き情報として自動的に選択されるようになされている。
あるいは、装置Ｂが利用者Ｕｂの許可を求め、それが許
されたときにのみ選択されるようになされていてもよ
い。装置Ｂでは、送信すべき情報が決まると、続くステ
ップＳ６４において、図４と同様の動作によって、出力
音声信号ＳＡoutの生成が行われる。図６では、例とし
て、Ｓ６４において、「わかりません」、「１５時
からです」という応答文が生成された場合を示してい
る。ここでは単なる音声信号だけでなく、明確なスケジ
ュールを表現する付加情報ＩＦａを含んだ出力音声信号
ＳＡoutを生成し、ステップＳ６５において、その出力
音声信号ＳＡoutによる音声を装置Ａ側に向けて出力す
る。

【００３９】装置Ａでは、ステップＳ６６において、装
置Ｂより出力された音声をマイクロフォン１３より取り
入れ、続いてステップ６７において、入力音声信号ＳＡ
inに含まれるスケジュールを表現する付加情報ＩＦｂを
抽出する。そして、その付加情報ＩＦｂが「１５時か
ら」という情報であった場合は、ステップＳ６８に進
み、自動的に、もしくは利用者Ｕａの許可のもとに、装
置Ｂのスケジュール情報への追加／更新を行う。以上の
ような装置Ａと装置Ｂの対話的なやり取りによって、も
ともと装置Ｂに格納されていた情報を装置Ａからの問い
かけに従って装置Ａへと取り込むような処理を実現する
ことができる。

【００４０】さらに、抽出した付加情報が「わかりま
せん」という情報であった場合は、ステップＳ６９に進
み、問い合わせが未解決であるという情報とともに装置
Ａが生成した問い合わせの出力音声信号ＳＡoutあるい
はそれを生成するために必要な情報を装置Ａ内のＲＡＭ
２３に格納する。格納された情報は表示部１５を介して
利用者Ｕａが見ることができると共に、タッチパネル１
６を介してその情報を選択することで、その出力音声信
号ＳＡoutによる音声を再出力するようになされてい
る。このように、装置間の対話において解決されなかっ
た問い合わせを装置内に格納しておき、その後の任意の
時点でその問い合わせに係る音声を再出力できるように
することで、利用者の作業を軽減することが可能とな
る。

【００４１】なお、図６では１対１の相互通信動作を説
明したが、情報伝送媒体として音声を用いているので、
同時に１対多の通信を行うこともできる。これにより、
先の図４および５で上げた例のように、一つの情報処理
装置１０から発せられる「５／５１５：００会議」と
いうスケジュール情報を、複数の情報処理装置１０に同
時に伝送することが可能となる。

【００４２】また、音声信号に付加する付加情報とし
て、その音声信号による音声を出力する情報処理装置１
０の識別子を含むようにしてもよい。これにより、音声
をマイクロフォン１３より取り入れた情報処理装置１０
はその音声を出力した情報処理装置１０がどれであるか
を知ることができ、これに応じて情報処理部３０での処
理を行うことができる。例えば、上述の例において、信
頼できる情報処理装置１０からのスケジュール更新情報
であれば自動的に情報を更新し、そうでなければ、利用
者への許可確認を問い合わせるようにする。また、上述
の複数の装置間での通信においても、どの装置からの音
声かを各装置が知ることができる。

【００４３】さらに、図６で例としてあげたような対話
的なデータ伝送も可能である。このような対話を複数装
置間で行う際には、複数の装置が同時に音声を出力する
可能性が生じてしまうため、付加情報として次の発話を
許可する権利を与える装置の識別子を含むようにする。
音声を取り込んだ装置は入力音声信号ＳＡinに含まれて
いる識別子が自分の識別子と異なっていれば音声出力を
しないようになされており、この付加情報を用いて複数
の装置が同時に音声出力するのを防ぐことができる。

【００４４】また、本発明を適用した複数の情報処理装
置１０間において、メモを音声によってやりとりするこ
とでも可能である。この場合、メモを表す音声信号に、
メモの内容が属するいくつかのキーワードを付加情報と
して付加することにより、受信側の装置はその音声によ
り表現されたメモが属する領域を知ることができ、受信
側で自動的にそのメモを分類整理することができる。

【００４５】さらに、本発明によれば音声メディアを媒
体とした長距離あるいは広範囲の通信を行うことが可能
である。本発明では、情報伝送に音声を用いているた
め、音声を用いたメディア、例えば、テレビやラジオな
どを介して、広範囲の情報提供を行うことが可能とな
る。例えば、テレビやラジオ中に挿入されるＣＭからそ
の商品の情報を得たりすることができる。

【００４６】次に、この発明の第２の実施の形態につい
て説明する。

【００４７】上述した第１の実施の形態としての情報処
理装置１０は音声認識機能を備えていないが、この第２
の実施の形態としての情報処理装置１０は音声認識機能
を備えている。この第２の実施の形態における情報処理
装置１０の回路構成は、第１の実施の形態における情報
処理装置１０と同様である（図２参照）。マィクロフォ
ン１３、Ａ／Ｄ変換部２８および入力インタフェース２
５を介して音声信号が入力されると、第１の実施の形態
と同様にして入力音声信号ＳＡinより付加情報ＩＦｂを
抽出する処理が行われた後、ＣＰＵ２１は、ＲＯＭ２２
またはＲＡＭ２３に記憶されている音声学習データや辞
書情報を参照して、音声信号ＳＡｂに対して音声認識処
理を実行するようになされている。

【００４８】現状の音声認識技術では、認識率が１００
％ではなく、多くの場合、誤りを含んでしまう。さら
に、音声に含まれている微妙な意図や感情をシステム側
で抽出することは非常に困難である。例えば、「明日は
五時から会議です」と「明日は五時から会議ですか」と
いう二つの文章は、末尾に「か」が付いているかいない
かでその意味が大きく異なるが、音声認識においてはわ
ずか一音分の差でしかなく、認識誤りが生じやすい。

【００４９】そこで、音声認識機能を持つ情報処理装置
１０において、「問い合わせ」や「疑問」などの意図を
判別するための付加情報ＩＦａを音声信号ＳＡａに付加
する。装置間の相互通信動作を説明するために用いた上
述の図６を参照して説明すると、装置Ａから装置Ｂへの
音声信号ＳＡａに付加情報ＩＦａとして「問い合わせ」
の意図を示す情報を付加することにより、受信側の情報
処理装置１０で、末尾の「か」が音声認識時に見落とさ
れても、「断定」の意図だと解釈されることがなく、問
い合わせの文だとして解釈／処理を実行することができ
る。

【００５０】また、さらに、利用者から情報処理装置１
０への情報入力時に用いる場合は利用者の音声を用い、
装置間では利用者の音声を録音したものあるいは装置内
で生成された合成音声を用いる。これらの音声信号は音
声の特性が異なるので、精度の良い音声認識を行うため
にはＲＯＭ２２またはＲＡＭ２３にはそれぞれ別の音声
学習データが必要となり、大きな記憶容量が必要にな
る。そこで、人間と情報処理装置１０間の通信において
は音声認識を用い、装置間の通信においては処理に必要
な情報を全て付加情報で与えたり、もしくは、認識誤り
が生じることを回避あるいは軽減させるための付加情
報、例えば、意図や文章が含まれる対象領域を表すキー
ワードあるいは認識に必要な辞書を明示する情報などを
与えるようにする。

【００５１】例えば、情報処理装置からの音声出力が
「旅行」に関するものであり、しかも、「問い合わせ」
を意図したものである場合、付加情報として「旅行」と
いうキーワードと「問い合わせ」という意図情報を音声
信号に挿入する。その音声信号による音声を取り入れる
情報処理装置１０では、まず付加情報として「旅行」と
「問い合わせ」を抽出し、続いて、音声認識のための辞
書情報として「旅行」と「問い合わせ」に適したものを
選択し、音声認識を実行する。これにより対象領域を制
限することになり、より精度よく音声認識を実行するこ
とができる。

【００５２】次に、この発明の第３の実施の形態につい
て説明する。

【００５３】上述した第１および第２の実施の形態にお
いてこの発明を個人情報管理装置に適用したものであっ
たが、この発明はロボットに適用することも可能であ
る。

【００５４】ロボットには音声認識機構および音声合成
機構が備えられており、互いに自然言語を用いて対話を
行うことができる。人間からロボットへの発話において
は、音声認識技術を用いることで互いの意思疏通を図る
ようになされている。ただし、ロボット同士の対話は、
見かけ上は自然言語によってなされているように見える
が、実際には、音声信号に付加された付加情報に基づい
て情報交換を行うようになされている。これにより、ロ
ボット間では音声認識の誤りを回避した信頼性の高い情
報伝達を行い得ると共に、それを観察している人間もそ
の内容を合成音声として聞き取ることができ、より親和
性および信頼性の高いコミュニケーションを実現するこ
とができる。

【００５５】産業界においても、複数のロボットでチー
ムを編成し、２チームによりサッカーの試合を行うとい
うロボカップ（RoboCup）というイベントが毎年開催さ
れている。ここでは、様々な形態のロボットによってサ
ッカーの試合が行われているが、それを観察する観客に
は、ロボットが何を考え、どのような情報を交換して動
いているのかはわからない。ロボット同士では様々な情
報交換がなされているが、それを観客側からは知ること
ができない。

【００５６】図７に、この発明を適用したロボットによ
るサッカーの試合の概観を示している。サッカーを行う
ためにフィールド７０にはゴール７１が備えられてお
り、ボール７２をめぐってロボット７３，７４，７５が
プレーを行っている。なお、図７はフィールド７０の一
部のみを示したものであり、図７に表れていないロボッ
トやゴールが存在する。

【００５７】ロボット７３，７４，７５には音声入出力
部が備えられており、互いに音声を発して情報交換を行
うようにすることで、ロボットたちが何を考え、どんな
情報交換をしているのか、観客７６が知るようになされ
ている。図７では、ロボット７３からロボット７４に
「ゴール前に走れ」という発話がなされており、観客７
６はそれを音声として聞くことで知ることができる。さ
らに、ロボット７３の発する音声を出力するための出力
音声信号ＳＡoutに付加情報ＩＦａが付加されており、
ロボット７３からロボット７４への情報伝達を高い精度
で行うことができる。

【００５８】例えば、ロボット７３からロボット７４へ
の「ゴール前に走れ」という音声を出力するための出力
音声信号ＳＡoutに、付加情報ＩＦａとして、発話した
ロボット７３を表す識別子、命令の対象とされたロボッ
ト７４を表す識別子、その具体的な命令などを付加する
ことにより、ロボット間で必要な情報伝達を行うように
する。さらに、「ゴール前」という音声に対応して、付
加情報ＩＦａとしてその位置座標を与えることにより、
ロボット間の相互の位置情報の交換を行うことも可能で
ある。音声はある程度の指向性をもつものの、広い範囲
に伝搬する性質をもつ。そのため、図７におけるロボッ
ト７５においても音声を取り入れ、その付加情報を抽出
することが可能である。ところが、図７に現れていない
さらに離れたロボットにおいては、十分に音声を取り入
れることはできず、ロボット７３からの音声による情報
交換は行えない。これは、実際の人間による試合と同様
の性質であり、より現実に近いゲームをロボットを用い
て実現することが可能である。

【００５９】また、動物型のロボットなどのように、自
然言語を発声しない方が望ましいと考えられる場合、音
声として鳴き声などを用いてもよい。この場合、現状の
音声認識技術では自然な鳴き声を認識して、その内容を
判別することは非常に困難である。鳴き声を出力するた
めの出力音声信号ＳＡoutに付加情報ＩＦａとしてその
鳴き声の意図や感情を示す情報を付加することで、人間
には鳴き声から判断するのみで明確な言語としてはわか
らないが、ロボット間ではより明確な意思疏通を図るこ
とができる。これにより、動物間では何らかの言語が交
されているが、人間には詳しくはわからないという、実
際の人間と動物の関係に近いロボットを実現することが
できる。

【００６０】また、この発明を適用することで仮想的な
動物園を実現することができる。この仮想動物園では、
実際の動物ではなく、動物の鳴き声と映像、あるいはロ
ボットによって構成されるものである。ここでは様々な
種類の動物が情報として蓄えられており、利用者は、普
段見ることができないような動物を見ることができる。

【００６１】人間は動物の鳴き声からある程度動物の種
類を見分けることはできるが、現状の音声認識では主に
人間の言語の認識を対象としており、鳴き声などの音声
に対してはほとんど考慮されていない。そのため、鳴き
声から種類を識別するのは困難である。また、利用者も
あまりなじみのない動物ではその種類や名称がわからな
い。

【００６２】そこで、鳴き声を出力する出力音声信号Ｓ
Ａoutに、その動物の種類や名称などの情報を付加情報
ＩＦａとして付加するようにする。利用者はこの発明に
おける情報処理装置１０を持ち、これによりそれぞれの
動物の鳴き声から、付加情報として付加されたそのその
種類や名称を得ることができる。さらに、その種類や名
称をもとに、情報処理装置ではより詳細な情報を利用者
に提示することができる。これにより、動物の鳴き声を
キーとして、その動物の種類や名称さらにはより詳細な
情報を利用者に提示するような仮想動物園を実現するこ
とができる。

【００６３】なお、上述では、ロボット間の情報伝達に
付加情報のみを用いた場合を述べたが、勿論、音声認識
を行い、その補助として付加情報を用いる形態であって
もかまわない。

【００６４】次に、この発明の第４の実施の形態につい
て説明する。

【００６５】上述した情報処理装置を用いたシステム例
として、駅や店内などの構内アナウンスで用いるアナウ
ンスシステムが考えられる。図８に、そのアナウンスシ
ステムの概観を示している。サーバ８０は構内アナウン
スを行うためのものであり、構内各所に設置されたスピ
ーカ８１などと接続するようになされている。利用者８
２は、クライアント側となる情報処理装置８３を携帯し
ており、スピーカ８１から出力された音声を自らの耳で
聞くと共に、情報処理装置８３でその音声を取り入れ
る。

【００６６】サーバ８０は、図２に示す情報処理装置１
０の音声出力側の機能を備えており、出力インタフェー
ス部分は複数のスピーカ８１と接続されている。サーバ
８０は、例えば、迷子のお知らせ、次の電車の到着時間
および特売などの商品情報など、構内の広範囲に提供す
る必要のある様々な情報を音声としてスピーカ８１を介
して利用者８２に伝達する機能を持つ。一方、情報処理
装置８３は、図２に示す情報処理装置１０の音声入力側
の機能を備えており、例えば図１に示した概観を持つも
のである。

【００６７】サーバ８０はオペレータが操作しており、
随時、アナウンスすべき事象が発生したときにそれにあ
った処理操作を行う。サーバ８０が送信しスピーカ８１
を通して構内の利用者８２に提供される自然言語による
音声は、オペレータの発声もしくはあらかじめ録音され
ている音声もしくは必要に応じて作成する合成音声であ
る。ただし、例えば、駅構内での時刻表のアナウンスや
店の開店閉店のアナウンスなど、あらかじめ定められた
スケジュールに従って自動的に音声出力しても構わない
ものについては、オペレータを必要とせず自動的に出力
されるようにしてもよい。

【００６８】これら音声に係る音声信号に付加する付加
情報としては、例えば、その自然言語が意味する内容を
表現するような情報を用いることができる。アナウンス
の音声自体を情報処理装置８３において音声認識するこ
とは非常に困難であるが、その意味する内容を付加情報
として付加することで、そのアナウンス内容を情報処理
装置８３の表示部１５を用いて確認することができる。
さらに、耳が聞こえない、あるいは、聞こえにくい人に
も同時にアナウンスを行うことが可能であるという効果
もある。

【００６９】また、迷子のお知らせでなされるよう
な「．．．３階エレベータ前までお越し下さい」のよう
なアナウンスでは、その場所をみつけるのに時間を費や
すという問題がある。このようなアナウンスへの付加情
報として、この場合、「３階エレベータ前」の位置情報
を提供することができる。それを受信した情報処理装置
８３では、その位置情報に基づく地図情報を表示部１５
に表示することにより、利用者８２へのより具体的な情
報提示を行うことが可能である。

【００７０】また、付加情報としてアナウンスを表現す
る自然言語とは異なる言語、例えば、日本語のアナウン
スに対して英語やフランス語などの言語を表現する情報
を持たせるようにする。これにより、その国の言語がわ
からない外国人に対しても同じ情報を音声で送信するこ
とができる。言語の違いから、構内においてアナウンス
される音声自体の意味を理解することができない利用者
８２は、情報処理装置８３を用いることで、音声信号に
母国語への翻訳を表現する情報が付加されていれば、そ
れを表示部１５あるいはスピーカ１２を介して母国語と
して理解することができる。

【００７１】なお、上述実施の形態においては、この発
明を、図１に示すような携帯型の情報処理装置１０やロ
ボット７３〜７５あるいはサーバ８０に適用したが、こ
の発明は他の装置にも同様に適用できることは勿論であ
る。

【００７２】

【発明の効果】この発明によれば、音声信号に対しその
音声信号による音声の聞き取りに影響しない態様で付加
情報を付加して出力音声信号を生成し、その出力音声信
号を音声に変換して出力するものであり、利用者には音
声により理解しやすい情報提示を行うことができ、装置
間では付加的な情報や誤りの少ない精度の高い情報のや
り取りを実現できる。また、通信媒体として音声を用い
ているので、指向性のある一対一の通信ではなく、近傍
の複数の装置間で同時に情報のやり取りを行うことがで
きる。さらに、通信路として、テレビ、ラジオ、電話な
どの音声メディアを用いることで、長距離の通信や、大
規模人数を対象とした通信を行うことができる。

【図面の簡単な説明】

【図１】実施の形態としての情報処理装置の概観を示す
図である。

【図２】情報処理装置の回路構成を示すブロック図であ
る。

【図３】ＣＰＵの内部動作を示す機能ブロック図であ
る。

【図４】情報処理装置の音声出力動作（送信動作）の説
明に供するフローチャートである。

【図５】情報処理装置の音声入力動作（受信動作）の説
明に供するフローチャートである。

【図６】情報処理装置間の相互通信動作例を説明するた
めの図である。

【図７】ロボットによるサッカーの試合の概観を示す図
である。

【図８】アナウンスシステムの概観を示す図である。

【符号の説明】

１０・・・情報処理装置、１１・・・本体、１２・・・
スピーカ、１３・・・マイクロフォン、１４・・・トー
クスイッチ、１５・・・表示部、１６・・・タッチパネ
ル、２０・・・内部バス、２１・・・ＣＰＵ、２２・・
・ＲＯＭ、２３・・・ＲＡＭ、２４・・・表示制御部、
２５・・・入力インタフェース、２６・・・音声合成
部、２７・・・入力検出部、２８・・・Ａ／Ｄ変換部、
３０・・・情報処理部、３１・・・情報付加部、３２・
・・情報抽出部

フロントページの続き (72)発明者角田弘史東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者加藤靖彦東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 9A001 BB04 DD13 EE07 HH17 HH18 HH19 JJ38 JZ76

Claims

【特許請求の範囲】

【請求項１】音声信号を発生する音声信号発生手段
と、付加情報を発生する付加情報発生手段と、上記音声信号に対しその音声信号による音声の聞き取り
に影響しない態様で上記付加情報を付加して出力音声信
号を生成する情報付加手段と、上記出力音声信号による音声を出力する音声出力手段と
を備えることを特徴とする情報処理装置。
【請求項２】上記付加情報は、上記音声信号と関連す
る情報であることを特徴とする請求項１に記載の情報処
理装置。
【請求項３】上記音声信号は所定の自然言語を表現す
るものであって、上記付加情報は上記自然言語に含まれ
る語句を示す情報であることを特徴とする請求項２に記
載の情報処理装置。
【請求項４】上記音声信号は所定の自然言語を表現す
るものであって、上記付加情報は上記自然言語の認識あ
るいは解釈に利用される情報であることを特徴とする請
求項２に記載の情報処理装置。
【請求項５】上記付加情報は上記自然言語に関連する
キーワードを示す情報であることを特徴とする請求項４
に記載の情報処理装置。
【請求項６】上記付加情報は上記自然言語によって表
現される意図または感情を示す情報であることを特徴と
する請求項４に記載の情報処理装置。
【請求項７】上記付加情報は上記自然言語が含まれる
対象領域を識別するための情報であることを特徴とする
請求項４に記載の情報処理装置。
【請求項８】上記音声信号は場所を自然言語で表現し
たものであって、上記付加情報は上記場所を示す位置情
報であることを特徴とする請求項２に記載の情報処理装
置。
【請求項９】上記音声信号は所定の自然言語を表現す
るものであって、上記付加情報は上記自然言語に対応す
る他国語の情報であることを特徴とする請求項２に記載
の情報処理装置。
【請求項１０】上記音声信号は人間や動物の声に対応
したものであって、上記付加情報は上記声によって表現
される意図または感情を示す情報であることを特徴とす
る請求項２に記載の情報処理装置。
【請求項１１】上記音声信号は動物の鳴き声に対応し
たものであって、上記付加情報は上記動物の種類や名称
を示す情報であることを特徴とする請求項２に記載の情
報処理装置。
【請求項１２】上記付加情報は自己の装置を示す識別
情報であることを特徴とする請求項１に記載の情報処理
装置。
【請求項１３】上記付加情報は次に上記音声を出力す
る権利を有する装置を識別するための情報であることを
特徴とする請求項１に記載の情報処理装置。
【請求項１４】上記情報付加手段は、音声信号の急激な立ち上がりかつ大振幅部分をアタック
として検出するアタック検出部と、上記音声信号の、予め定められた長さの区間についてス
ペクトル分析するスペクトル分析部と、上記アタック検出部の出力と上記スペクトル分析部の出
力とから上記音声信号中の、上記アタック部分を除くと
共に、広帯域である部分に瞬断区間を形成する瞬断区間
形成部と、形成された上記瞬断区間を用いて上記付加情報を付加す
る情報付加部とを有してなることを特徴とする請求項１
に記載の情報処理装置。
【請求項１５】上記情報付加手段は、上記付加情報を
スペクトル拡散信号として上記音声信号に付加すること
を特徴とする請求項１に記載の情報処理装置。
【請求項１６】音声信号を発生する工程と、付加情報を発生する工程と、上記音声信号に対しその音声信号による音声の聞き取り
に影響しない態様で上記付加情報を付加して出力音声信
号を生成する工程と、上記出力音声信号を音声に変換して出力する工程とを備
えることを特徴とする情報処理方法。
【請求項１７】音声を入力し、その音声に対応する入
力音声信号を得る音声入力手段と、上記入力音声信号に付加されている付加情報を抽出する
付加情報抽出手段と、抽出された上記付加情報を使用した処理をする情報処理
手段とを備えることを特徴とする情報処理装置。
【請求項１８】上記付加情報は、上記音声と関連する
情報であることを特徴とする請求項１７に記載の情報処
理装置。
【請求項１９】上記音声は所定の自然言語を表現する
ものであって、上記付加情報は上記自然言語に含まれる
語句を示す情報であることを特徴とする請求項１８に記
載の情報処理装置。
【請求項２０】上記情報処理手段は、上記付加情報を
使用して表示部に上記語句を表示させることを特徴とす
る請求項１９に記載の情報処理装置。
【請求項２１】上記音声は所定の自然言語を表現する
ものであって、上記付加情報は上記自然言語の認識に必
要な情報であることを特徴とする請求項１８に記載の情
報処理装置。
【請求項２２】上記付加情報は、上記自然言語に関連
するキーワードであることを特徴とする請求項２１に記
載の情報処理装置。
【請求項２３】上記付加情報は、上記自然言語によっ
て表現される意図または感情を示す情報であることを特
徴とする請求項２１に記載の情報処理装置。
【請求項２４】上記情報処理手段は、上記入力音声信
号より上記自然言語を認識する音声認識処理を行うこと
を特徴とする請求項２１に記載の情報処理装置。
【請求項２５】上記付加情報は、上記音声認識に必要
な辞書を明示する情報であることを特徴とする請求項２
４に記載の情報処理措置。
【請求項２６】上記付加情報は、上記自然言語が含ま
れる対象領域を識別するための情報であることを特徴と
する請求項２４に記載の情報処理装置。
【請求項２７】上記音声は場所を自然言語で表現した
ものであって、上記付加情報は上記場所を示す位置情報
であることを特徴とする請求項１８に記載の情報処理装
置。
【請求項２８】上記情報処理手段は、上記付加情報を
使用して、表示部に上記場所を表示させることを特徴と
する請求項２７に記載の情報処理装置。
【請求項２９】上記音声は所定の自然言語を表現する
ものであって、上記付加情報は上記自然言語に対応する
他国語の情報であることを特徴とする請求項１８に記載
の情報処理装置。
【請求項３０】上記情報処理手段は、上記付加情報を
使用して、表示部に、上記他国語を表示させることを特
徴とする請求項２９に記載の情報処理装置。
【請求項３１】上記音声は人間や動物の声であって、
上記付加情報は上記音声によって表現される意図または
感情を示す情報であることを特徴とする請求項１８に記
載の情報処理装置。
【請求項３２】上記音声は動物の鳴き声であって、上
記付加情報は上記動物の種類や名称を示す情報であるこ
とを特徴とする請求項１８に記載の情報処理装置。
【請求項３３】上記情報処理手段は、上記付加情報を
使用して、表示部に、上記動物の種類や名称を表示させ
ることを特徴とする請求項３２に記載の情報処理装置。
【請求項３４】上記付加情報は、上記音声を出力した
装置を識別するための情報であることを特徴とする請求
項１７に記載の情報処理装置。
【請求項３５】上記付加情報は、次に上記音声を出力
する権利を有する装置を識別するための情報であること
を特徴とする請求項１７に記載の情報処理装置。
【請求項３６】上記情報処理手段は、生物を模したロ
ボットの動作を制御する制御手段であることを特徴とす
る請求項１７に記載の情報処理装置。
【請求項３７】入力される音声を変換して入力音声信
号を得る工程と、上記入力音声信号に付加されている付加情報を抽出する
工程と、抽出された上記付加情報を使用した処理を行う工程とを
備えることを特徴とする情報処理方法。
【請求項３８】音声信号を発生する音声信号発生手段
と、付加情報を発生する付加情報発生手段と、上記音声信号に対し、その音声信号による音声の聞き取
りに影響しない態様で上記付加情報を付加して出力音声
信号を得る情報付加手段と、上記出力音声信号による音声を出力する音声出力手段
と、音声を入力し、その音声に対応する入力音声信号を得る
音声入力手段と、上記入力音声信号に付加されている付加情報を抽出する
付加情報抽出手段と、抽出された上記付加情報を使用した処理をする情報処理
手段とを備えることを特徴とする情報処理装置。
【請求項３９】上記情報処理手段は、生物を模したロ
ボットの動作を制御する制御手段であることを特徴とす
る請求項３８に記載の情報処理装置。
【請求項４０】問い合わせに係る上記出力音声信号に
よる音声を上記音声出力手段より出力した後に上記音声
入力手段より上記問い合わせを解決する情報を含む上記
入力音声信号が得られないとき、上記問い合わせの情報
を未解決の問い合わせの情報として格納しておく情報格
納手段と、上記情報格納手段に格納されている上記未解決の問い合
わせの情報に基づいて、任意のタイミングで上記音声出
力手段より上記未解決の問い合わせに係る上記出力音声
信号による音声を出力させる再出力制御手段とをさらに
備えることを特徴とする請求項３８に記載の情報処理装
置。