JP2003143256A

JP2003143256A - 端末装置と通信制御方法

Info

Publication number: JP2003143256A
Application number: JP2001332769A
Authority: JP
Inventors: Naoki Hikishima; 直樹疋島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-10-30
Filing date: 2001-10-30
Publication date: 2003-05-16
Also published as: US7489767B2; CN1422098A; HK1054834A1; GB0225247D0; GB2382208A; US20030081739A1; CN1253040C

Abstract

(57)【要約】【課題】音声認識を利用することで、相手の会話の内容
を明確に知ることができ、聴き取りが困難な環境下でも
通話可能とする端末装置及び通信制御方法の提供。【解決手段】圧縮符号化されて伝送された通話相手の音
声信号を受信回路８で受信し、復調回路９及び伸長回路
１０で復調及び伸長されたデジタル音声信号を受け取っ
て音声認識し、テキストデータに変換する音声認識回路
１５を備え、制御部１４は、音声認識回路１５で変換さ
れたテキストデータを受けとり該テキストデータを表示
部１６に表示させる制御を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、移動体通信システ
ムに関し、特に、移動体通信網等において通話相手の会
話を音声認識する機能を具備した端末装置及び通信制御
方法に関する。

【０００２】

【従来の技術】移動体通信設備をなす基地局と無線回線
にて接続し交換局、電話網等を介して接続相手の電話端
末と接続する携帯電話装置（移動局（MS（mobile stat
ion）），あるいは「mobile phone」ともいう）等の通
信端末装置を用いて、騒音環境で通話する場合、接続相
手の通話内容が周囲騒音に妨害され、聞き取りにくい場
合がある。騒音環境下でも、相手の会話の内容を知るこ
とができ、聞き取りが困難な環境下でも通話可能とした
携帯電話装置の実現により、その利用範囲、利便性を増
大する。

【０００３】なお、音声信号を文字データに変換する音
声認識手段を備えた携帯電話装置として、例えば特開平
１１−１６８５５２号公報には、通話中の会話の内容等
を録音する音声メモ機能を有する携帯電話装置におい
て、音声データを文字データに変換する音声認識手段を
備え、変換された文字データをメモリに書き込むこと
で、一件あたりの音声メモに必要なデータサイズを大幅
に縮減するようにした携帯電話装置が開示されている。
上記特開平１１−１６８５５２号公報に記載された装置
は、音声メモ用のメモリの有効利用を図るために、文字
データに変換してメモリに格納するというものであり、
利用者が相手の会話を即時に出力するための手段を欠い
ている。

【０００４】

【発明が解決しようとする課題】したがって、本発明が
解決しようとする課題は、音声認識を利用することで、
相手の会話の内容を明確に知ることができ、例えば聞き
取りが困難な環境下でも通話可能とする端末装置及び通
信制御方法を提供することにある。

【０００５】

【課題を解決するための手段】上記課題を解決するため
の手段を提供する本発明に係る装置は、接続相手の端末
と通話接続時に、音声認識モードに設定されている場
合、前記接続相手の端末から送信された通話相手の音声
をデジタル音声信号として受け取って音声認識しテキス
トデータに変換する音声認識手段と、前記音声認識手段
で変換されたテキストデータを出力手段から出力させる
制御を行う制御手段と、を備えている。

【０００６】本発明に係る装置においては、音声認識の
開始を指示するための操作キーを備え、前記操作キーの
操作を受けて、前記操作キーの操作時点から、前記通話
相手の会話を、前記音声認識手段にて音声認識し、テキ
ストデータへの変換を開始するように制御する手段を備
えた構成としてもよい。

【０００７】本発明に係る装置においては、接続相手の
音声信号を音声認識してテキストデータに変換する音声
認識手段と、前記接続相手の音声信号の音声認識結果の
テキストデータを前記接続相手の端末に送信する手段
と、を備え、前記接続相手の端末から送信された音声認
識結果のテキストデータを表示手段に表示する構成とし
てもよい。

【０００８】本発明に係る装置においては、利用者が音
声入力手段より入力した音声を音声認識してテキストデ
ータに変換する音声認識手段と、前記音声認識結果であ
るテキストデータを接続相手の端末に送信する手段と、
を備えた構成としてもよい。

【０００９】本発明の他のアスペクトに係るシステム
は、一の端末と他の端末との間で送受される音声信号を
伝送する通信網上の少なくとも一のノードが、前記伝送
される音声信号を受け取って音声認識しテキストデータ
に変換する手段を備え、前記変換されたテキストデータ
が、前記通信網上のノードから前記音声信号の受け手側
の端末、又は、前記音声信号の受け手と送り手側の双方
の端末に伝送される、構成とされている。

【００１０】本発明の他のアスペクトに係る通信制御方
法は、互いに通信接続する複数の端末のうちの一の端末
が、他の端末から送信された通話相手の音声を復調及び
伸張してなるデジタル音声信号を受け取って音声認識し
テキストデータに変換するステップと、前記一の端末に
おいて前記テキストデータを出力手段から出力するステ
ップと、を有する。

【００１１】以下の実施の形態の説明からも、当業者に
は明らかであるように、上記課題は、特許請求の範囲の
各請求項の発明によっても同様にして解決される。

【００１２】

【発明の実施の形態】本発明の実施の形態について説明
する。本発明に係る端末装置は、その好ましい一実施の
形態において、図１を参照すると、接続相手の端末と通
話接続時、受信回路で受信された通話相手の会話の音声
信号を、復調回路及び伸張回路で復調及び伸張したデジ
タル音声信号を受け取って音声認識し、テキストデータ
に変換する音声認識手段（１５）を備え、音声認識手段
（１５）から出力されるテキストデータを受け取り、表
示手段（１６）に供給して表示するように制御する制御
手段（１４）を備えている。

【００１３】より詳細には、本発明に係る端末装置は、
その好ましい一実施の形態において、図１を参照する
と、音声入力手段（図１の７、２８）から入力されデジ
タル信号に変換された音声信号を圧縮して出力する音声
圧縮手段（５）と、音声圧縮手段（５）からの出力信号
を変調して出力する変調手段（４）と、変調手段の出力
信号を受けて無線送信する無線送信手段（３、２、１）
と、無線受信手段（１、２、８）で受信された信号を復
調して出力する復調手段（９）と、復調手段（９）で復
調された信号を受け取って伸張しデジタル音声信号を出
力する音声伸張手段（１０）と、音声伸張手段（１０）
から出力されるデジタル音声信号を音声認識してテキス
トデータに変換して出力する音声認識手段（１５）と、
前記音声伸張手段（１０）から出力されるデジタル音声
信号をアナログ信号に変換した信号を受け取って音声出
力する音声出力手段（１２、２８）と、音声認識モード
に設定されている場合に、前記音声伸張手段（１０）で
伸張されたデジタル音声信号は、音声認識手段（１５）
に入力されて音声認識が行われ、音声認識手段（１５）
から出力されるテキストデータを、表示手段（１６）に
供給して表示させる制御を行う制御手段（１４）と、を
備えている。

【００１４】本発明に係る端末装置は、その好ましい一
実施の形態において、操作キーとして、音声認識開始ボ
タン（１７）を備えており、音声認識開始ボタン（１
７）が押下された際に、制御手段（１４）は、このボタ
ンの押下時点からの通話相手の会話を、音声認識手段
（１５）にて音声認識し、テキストデータへの変換を開
始するように制御する。

【００１５】あるいは、本発明に係る端末装置は、その
好ましい一実施の形態において、周囲の騒音レベルを監
視し騒音レベルが所定の閾値を超えたと判断したとき、
自動で、音声認識手段（１５）による音声認識処理を起
動する構成としてもよい。

【００１６】さらに、本発明に係る端末装置は、その好
ましい別の実施の形態において、図３を参照すると、通
話相手の会話を音声認識してテキストデータに変換する
音声認識手段（１５）と、通話相手の会話の音声認識結
果を、テキストデータにて通話相手の端末に送信する手
段（１４、２４）を備え、テキストデータを受け取った
通話相手の端末では、その表示手段（１６）に、前記テ
キストデータが表示される。本発明に係る端末装置は、
その好ましい別の実施の形態において、携帯テレビ電話
機能付きである場合に、音声認識結果のテキストデータ
を接続相手の端末に送信される映像情報に多重して、前
記接続相手の端末に送信する。

【００１７】より詳細には、本発明に係る端末装置の別
の実施の形態において、図３を参照すると、入力された
音声信号を音声認識しテキストデータに変換して出力す
る音声認識手段（１５）と、音声認識結果のテキストデ
ータと、映像入力手段（２１）から入力され第１のアナ
ログデジタル変換手段（２０）でデジタル信号に変換さ
れた映像情報とを入力しこれらを多重して出力する第１
の多重手段（２４）と、第１の多重手段（２４）の出力
を受けて圧縮する映像圧縮手段（１９）と、音声入力手
段（７、２８）から入力され第２のアナログデジタル変
換手段（６）でデジタル信号に変換された音声信号を圧
縮する音声圧縮手段（５）と、映像圧縮手段（１９）の
出力と音声圧縮手段（５）の出力とを入力しこれらを多
重して出力する第２の多重手段（１８）と、第２の多重
手段（１８）の出力を変調する変調手段（４）と、変調
手段（４）の出力を受けて無線送信する無線送信手段
（３、２、１）と、無線受信手段（１、２、８）で受信
された信号を復調する復調手段（９）と、復調手段
（９）で復調された信号を入力し映像信号と音声信号と
に分離して出力する分離手段（２２）と、分離手段（２
２）で分離された映像信号を受け取り該映像信号を伸張
して出力する映像伸張手段（２３）と、分離手段（２
２）で分離された前記音声信号を受け取り前記音声信号
を伸張して出力する音声伸張手段（１０）と、映像伸張
手段（２３）で伸張されたデジタル映像信号をアナログ
映像信号に変換する第１のデジタルアナログ変換手段
（２５）と、第１のデジタルアナログ変換手段（２５）
からのアナログ映像信号を表示する表示手段（１６）
と、音声伸張手段（１０）で伸張されたデジタル音声信
号をアナログ音声信号に変換する第２のデジタルアナロ
グ変換手段（１１）と、第２のデジタルアナログ変換手
段（１１）からの音声信号を出力する音声出力手段（１
２、２８）と、を備え、音声認識モードに設定されてい
る場合、音声伸張手段（１０）で伸張されたデジタル音
声信号は、音声認識手段（１５）に入力されて音声認識
が行われ、音声認識手段（１５）から出力されるテキス
トデータを、第１の多重手段（２４）に供給するように
制御する制御手段（１４）を備えている。この実施の形
態においても、音声認識開始ボタン（１７）が押下され
た場合に、音声認識手段（１５）によって音声認識が行
われる。

【００１８】本発明は、第３の実施の形態において、図
７を参照すると、音声入力手段（７、２８）から入力さ
れアナログデジタル変換手段（６）でデジタル信号に変
換された音声信号を圧縮して出力する音声圧縮手段
（５）と、デジタル信号に変換された音声信号を音声認
識してテキストデータに変換して出力する音声認識手段
（１５）と、音声圧縮手段（５）の出力を変調する第１
の変調手段（４）と、テキストデータを変調する第２の
変調手段（３１）と、第１、第２の変調手段（４、３
１）の出力を受けて多重する多重手段（３０）と、多重
手段（３０）の出力を受けて無線送信する無線送信手段
（３、２、１）と、無線受信手段（１、２、８）で受信
された信号をテキストデータと音声データに分離する分
離手段（３３）と、分離手段（３３）で分離された前記
音声信号を受け取り前記音声信号を復調する第１の復調
手段（９）と、分離手段（３３）で分離された前記テキ
ストデータを受け取り復調する第２の復調手段（３２）
と、前記第１の復調手段の出力を伸張して出力する音声
伸張手段（１０）と、音声伸張手段（１０）で伸張され
たデジタル音声信号をデジタルアナログ変換手段（１
１）でアナログ信号に変換した信号を入力して出力する
音声出力手段（１２、２８）と、を備え、第２の復調手
段（３２）は復調したテキストデータを、制御手段（１
４）にわたし、制御手段（１４）は、第２の復調手段
（３２）で復調したテキストデータを受け取り、表示手
段（１６）にテキストデータを表示し、前記第２の変調
手段（３１）に供給し、音声認識手段（１５）からのテ
キストデータを前記第２の変調手段（３１）に供給する
制御を行う。

【００１９】さらに本発明は、第４の実施の形態におい
て、図１０を参照すると、音声入力手段（７、２８）か
ら入力されアナログデジタル変換手段（６）でデジタル
信号に変換された音声信号を圧縮して出力する音声圧縮
手段（５）と、デジタル信号に変換された音声信号を音
声認識してテキストデータに変換して出力する音声認識
手段（１５）と、前記テキストデータと、映像入力手段
（２１）から入力されアナログデジタル変換手段（２
０）でデジタル信号に変換された映像情報と、を入力
し、これらを多重して出力する第１の多重手段（２４）
と、第１の多重手段（２４）の出力を受けて圧縮して出
力する映像圧縮手段（１９）と、前記映像圧縮手段の出
力と前記音声圧縮手段の出力とを入力し、これらを多重
して出力する第２の多重手段（１８）と、第２の多重手
段（１８）の出力を変調する変調手段（４）と、変調手
段（４）の出力を受けて無線送信する無線送信手段
（３、２、１）と、無線受信手段（１、２、８）で受信
された信号を復調する復調手段（９）と、復調手段
（９）で復調された信号を入力し映像信号と音声信号と
に分離して出力する分離手段（２２）と、分離手段（２
２）で分離された前記映像信号を受け取り前記映像信号
を伸張して出力する映像伸張手段（２３）と、分離手段
（２２）で分離された前記音声信号を受け取り前記音声
信号を伸張して出力する音声伸張手段（１０）と、映像
伸張手段（２３）で伸張されたデジタル映像信号をデジ
タルアナログ変換手段（２５）でアナログ信号に変換し
た信号を入力して表示する表示手段（１６）と、前記音
声伸張手段で伸張されたデジタル音声信号をデジタルア
ナログ変換手段（１１）でアナログ信号に変換した信号
を入力して出力する音声出力手段（１２）と、音声認識
モードに設定されている場合、音声認識手段（１５）に
入力されて音声認識が行われたテキストデータを入力し
前記第１の多重手段（２４）に供給する制御を行う制御
手段（１４）を備えている。制御手段（１４）は、テキ
ストデータを表示手段（１６）にも出力する。

【００２０】本発明は、第５の実施の形態において、図
１３を参照すると、通信網上の一ノードをなす交換局
（３６）で、音声通話接続がなされている音声信号を入
力して音声認識し、音声認識結果であるテキストデータ
を、音声信号に多重して、音声信号の受け手側の端末
と、音声信号の送り手側の端末に送信する手段（４２、
４３、３８、３９）を備えている。あるいは、音声認識
を端末側で行い、端末のバットリ残量あるいは負荷状況
に応じて、もしくは端末からの要求に応じて、通信網上
で音声認識を行うように切替制御する構成としてもよ
い。

【００２１】本発明に係る方法は、その一実施の形態に
おいて、以下のステップよりなる。

【００２２】ステップ１：互いに通信接続する複数の端
末のうち一の端末が、他の端末から送信された通話相手
の音声を復調及び伸張してなるデジタル音声信号を受け
取って音声認識しテキストデータに変換する。

【００２３】ステップ２：一の端末においてテキストデ
ータを表示部に表示する。

【００２４】さらに次のステップ３を有する構成として
もよい。

【００２５】ステップ３：前記一の端末が前記テキスト
データを前記他の端末に送信する。これにより、通話相
手の会話を音声認識した結果が前記通話相手に返送さ
れ、通話相手は、端末上で、通話相手の会話の内容を確
認することができる。

【００２６】本発明に係る方法は、他の実施の形態にお
いて、以下のステップよりなる。

【００２７】ステップ１：利用者の端末より利用者が入
力した音声を音声認識してテキストデータに変換する。

【００２８】ステップ２：前記音声認識結果であるテキ
ストデータを接続相手の端末に送信する。

【００２９】本発明に係る方法の前記他の実施の形態に
おいて、上記音声認識結果であるテキストデータは、利
用者の端末の表示部に表示される。また接続相手の端末
では、前記利用者の端末より送信されたテキストデータ
が表示部に表示される。また利用者の端末より、音声認
識結果であるテキストデータは、接続相手の端末に送信
される音声信号又は映像信号に多重して、接続相手の端
末に送信される。

【００３０】

【実施例】本発明の実施の形態についてさらに詳細に説
明すべく、本発明の実施例について図面を参照して説明
する。以下では、本発明が実施される端末装置として携
帯電話装置を用いた例に即して説明する。図１は、本発
明の第１の実施例の構成を示す図である。

【００３１】図１を参照すると、本発明の第１の実施例
をなす携帯電話装置は、送受信兼用のアンテナ１と、送
信信号と受信信号を切り換えるアンテナスイッチ２と、
送信する音声信号を入力するマイクロホン７と、マイク
ロホン７からのアナログ音声信号をデジタル変換するＡ
／Ｄコンバータ６と、Ａ／Ｄコンバータ６から出力され
るデジタル音声信号を圧縮する音声圧縮回路５と、音声
圧縮回路５から出力される送信信号をＱＰＳＫ（Quadra
ture Phase Shift Keying）変調する変調回路４と、
変調回路４から出力される送信信号を送信周波数に変換
する送信部３と、を備えている。さらに、本発明の第１
の実施例をなす携帯電話装置は、受信電波の増幅と周波
数同調検波を行う受信回路８と、受信回路８からの信号
をＱＰＳＫ復調する復調回路９と、復調回路９から出力
される圧縮音声信号を伸張する音声伸張回路１０と、音
声伸張回路１０から出力されるデジタル受信音声信号を
アナログ音声信号に変換するＤ／Ａコンバータ１１と、
Ｄ／Ａコンバータ１１から出力されるアナログ信号を受
け、音声信号を出力するスピーカ１２と、音声伸張回路
１０で伸張された信号（通話相手からのデジタル受信音
声信音）を入力して音声認識を行いテキストデータに変
換する音声認識回路１５と、制御部１４からの文字や画
像を表示するＬＣＤ（Liquid Crystal Display）等の
表示部１６と、全体の制御を行う制御部１４と、キー、
ボタン等を有する操作部１３と、音声認識を開始する音
声認識開始ボタン１７と、周囲騒音が大きいときに、利
用者が装着して通話を行うためのイヤホンマイク２８
と、を備えている。以下の実施例において、音声認識回
路１５は、音響特徴量を抽出し辞書とのマッチングをと
る公知の音声認識エンジンよりなり、特定話者、及び不
特定話者に対応可能な構成とされている。

【００３２】図２は、本発明の一実施例の携帯電話装置
の外観を示す正面図である。図２において、騒音環境等
で通話する通話者の携帯電話端末２６であり、参照符号
は、図１と対応しており、１は送受信兼用のアンテナ、
７はマイクロホン、１２はスピーカ、１３は操作部、１
６は表示部、１７は音声認識開始ボタン、２８はイヤホ
ンである。通話相手の話す音声信号を音声認識により、
テキストに変換して、表示部１６に２７（「さんじにあ
おう」）のように表示を行う。

【００３３】本発明の一実施例の携帯電話装置の動作に
ついて説明する。まず、本発明の一実施例の携帯電話装
置の送信動作について説明する。この携帯電話装置は、
基地局、基地局制御局を介して移動体交換局との間で通
話チャネルが確立され、さらに接続先と通信接続がなさ
れているものとする。図１において、マイクロホン７、
イヤホンマイク２８からのアナログ音声信号はＡ／Ｄコ
ンバータ６でデジタル音声信号に変換され、音声圧縮回
路５で帯域圧縮され、変調回路４でＱＰＳＫ変調され、
送信回路３で送信周波数に変換され増幅され、アンテナ
スイッチ２を経由してアンテナ部１より無線送信され
る。

【００３４】次に、本発明の一実施例の携帯電話装置の
受信動作について説明する。アンテナ１で受信された通
信電波は、アンテナスイッチ２を経て、受信回路８に入
力され、受信回路８にて、受信電波の増幅と周波数同調
が行われ、受信回路８から取り出された変調信号は、復
調回路９に送られる。

【００３５】復調回路９でＱＰＳＫ復調されたデジタル
音声信号は、伸張回路１０で伸張され、Ｄ／Ａコンバー
タ１１でアナログ音声信号に変換されてスピーカ１２か
ら出力される。

【００３６】図５は、本発明の一実施例の携帯電話装置
を用いて音声認識を行う場合の通話開始からの動作を示
したフローチャートである。図１及び図５を参照して、
本発明の一実施例の携帯電話装置で音声認識を行う場合
の処理を説明する。通話を開始したとき、騒音環境か否
かを通話者が判断し（ステップＳ１）、騒音環境にな
く、通話相手の会話が明瞭に聞き取ることができるとき
は、そのまま通話を継続する（ステップＳ３）。

【００３７】一方、通話者が騒音環境にあると判断した
ときには、通話者は、イヤホンマイク２８を装着する
（ステップＳ２）。イヤホンマイク２８を装着したと
き、通話相手の会話が明瞭に聞こえるときは、そのまま
会話を続ける（ステップＳ６）。

【００３８】通話者がイヤホンマイク２８を使っても、
通話相手の声が明瞭に聞き取ることができないときは、
通話者は音声認識開始ボタン１７を押下し（ステップＳ
５）、音声認識部１５で通話相手の声の音声認識を開始
し、認識結果を、テキスト表示２７として、携帯電話装
置の表示部１６の画面に表示する（ステップＳ７）。

【００３９】このとき、通話相手の通話データが、受信
回路８で受信され、復調回路９でＱＰＳＫ復調された
後、伸張回路１０で帯域伸張され、伸張されたデジタル
音声データが音声認識部１５に入力されて、音声認識処
理が行われ、その音声認識結果は、制御部１４により、
表示部１６の画面上に、図２の２７のようにテキスト表
示される。

【００４０】なお、音声認識開始ボタン１７の押下によ
って音声認識部１５での音声認識を起動するというマニ
ュアル操作の代わりに、携帯電話装置内部で背景の騒音
の音量（雑音レベル）等を監視し、雑音レベルを予め定
められた閾値と比較判定し、雑音レベルが閾値を超えて
いる場合に、音声認識部１５による音声認識とテキスト
表示を行うように自動で制御する構成としてもよい。あ
るいは、イヤホンマイクの装着を検出し、音声認識部１
５による音声認識とテキスト表示を行うようにしてもよ
い。

【００４１】テキスト表示は、表示部１６の一行に横ス
クロールで表示する代わりに、表示画面中の所定のウイ
ンドウに複数行にわたって縦にスクロール表示するよう
にしてもよい。

【００４２】さらに音声認識結果であるテキストデータ
を、図示されないメモリに格納しておき、後に、電子メ
ールで送信する等の機能を具備してもよい。

【００４３】次に、本発明の第２の実施例について説明
する。本発明の第２の実施例の携帯電話装置は、携帯テ
レビ電話を用いて、音声認識を用いた騒音環境にある携
帯テレビ電話を実現したものである。図３は、本発明の
第２の実施例の携帯電話装置の構成を示す図であり、図
４は、その外観を示す正面図である。

【００４４】図３を参照すると、本発明の第２の実施例
をなす携帯テレビ電話装置は、送受信兼用のアンテナ１
と、送信信号と受信信号を切り換えるアンテナスイッチ
２と、送信するための映像を撮影するカメラ２１と、カ
メラ２１からのアナログ映像信号をデジタル信号に変換
するＡ／Ｄコンバータ２０と、音声認識の結果得られた
テキストデータを映像信号に重畳する（例えばテキスト
データを予め決められたタイミング（画面上の位置及び
大きさ）でビデオ信号にスーパーインポーズする）多重
回路２４と、Ａ／Ｄコンバータ２０から出力されるデジ
タル映像信号を圧縮する映像圧縮回路１９と、送信する
音声信号を入力するマイクロホン７と、マイクロホン
７、イヤホンマイク２８からのアナログ音声信号をデジ
タル変換するＡ／Ｄコンバータ６と、Ａ／Ｄコンバータ
６から出力されるデジタル音声信号を圧縮する音声圧縮
回路５と、映像圧縮回路１９からの映像信号と音声圧縮
回路５からの音声信号を多重する多重回路１８と、多重
回路１８から出力される送信信号をＱＰＳＫ変調する変
調回路４と、変調回路４から出力される送信信号を送信
周波数に変換する送信回路３と、を備えている。

【００４５】さらに、第２の実施例の携帯テレビ電話装
置は、受信電波の増幅と周波数同調検波を行う受信回路
８と、受信回路８からの信号をＱＰＳＫ復調する復調回
路９と、復調回路９で復調された信号を入力し音声信号
と映像信号を分離する分離回路２２と、分離回路２２で
分離された圧縮音声信号を伸張する音声伸張回路１０
と、音声伸張回路１０から出力されるデジタル化されて
いる受信音声信号をアナログ音声信号に変換するＤ／Ａ
コンバータ１１と、音声信号を出力するスピーカ１２
と、分離回路２２で分離された圧縮映像信号を伸張する
映像伸張回路２３と、映像伸張回路２３から出力される
デジタル化されている受信映像信号をアナログ映像信号
に変換するＤ／Ａコンバータ２５と、受信映像や制御部
１４からの文字や映像を表示する表示部１６と、全体の
制御を行う制御部１４と、携帯電話の操作回路１３と、
通話相手からのデジタル音声信号を音声認識を行うこと
により、テキストデータに変換する音声認識回路１５
と、音声認識を開始する音声認識開始ボタン１７と、を
備えている。

【００４６】図４には、本発明の第２の実施例として、
騒音環境で通話する通話者の携帯テレビ電話装置２６Ａ
（図４（ｂ）参照）と、通話相手の携帯テレビ電話装置
２６Ｂ（図４（ａ）参照）が示されている。携帯テレビ
電話装置２６Ａは、通話相手の話す音声信号を音声認識
により、テキストデータに変換して、表示部１６に符号
２７に示すように表示を行うと同時に、通話相手の携帯
テレビ電話装置２６Ｂにテキストデータを送信し、携帯
テレビ電話装置２６Ｂにも、表示部１６に符号２９に示
すように表示を行う。

【００４７】本発明の第２の実施例の携帯テレビ電話装
置の動作について、図３を参照して説明する。本発明の
第２の実施例における携帯テレビ電話装置の送信動作は
次のようにして行われる。マイクロホン７、イヤホンマ
イク２８からのアナログ音声信号はＡ／Ｄコンバータ６
でデジタル信号に変換され、音声圧縮回路５で帯域圧縮
される。ビデオカメラ２１で撮影されたアナログ映像信
号は、Ａ／Ｄコンバータ２０でデジタル信号に変換さ
れ、映像圧縮回路１９で帯域圧縮される。帯域圧縮され
た映像信号は、多重回路１８で、圧縮された音声信号と
多重され、以降は、音声通話のみの前記実施例の場合と
同様の経路で送信される。

【００４８】次に本発明の第２の実施例における携帯テ
レビ電話装置の受信動作について説明する。受信された
音声信号は、受信回路８、復調回路９を経て、分離回路
２２を経由し、分離回路２２で分離された音声信号は音
声伸張回路１０で伸張され、Ｄ／Ａコンバータ１１でア
ナログ音声信号に変換されてスピーカ１２から出力され
る。

【００４９】分離回路２２で音声信号から分離された映
像信号は、映像伸張回路２３で、送信時圧縮された映像
信号を伸張する。

【００５０】映像伸張回路２３で伸張されたデジタル映
像信号は、Ｄ／Ａコンバータ２５でアナログ映像信号に
変換され、表示部１６に表示される。

【００５１】図６は、本発明の第２の実施例の携帯テレ
ビ電話装置が、通話開始からの動作を示したフローチャ
ートである。図３、図４、及び図６を参照して、本発明
の第２の実施例の動作について説明する。通話を開始し
たとき、騒音環境かどうかを通話者が判断し（図６のス
テップＳ１）、騒音環境になく、通話相手の会話が明瞭
に聞き取ることができるときは、そのまま通話を継続す
る（ステップＳ３）。騒音環境にあると判断したときに
は、通話者はイヤホンマイク２８を装着する（ステップ
Ｓ２）。通話者がイヤホンマイク２８を装着したとき、
通話相手の会話が明瞭に聞こえるときはそのまま会話を
続ける（ステップＳ６）。

【００５２】通話者がイヤホンマイク２８を使っても通
話相手の声が明瞭に聞き取ることができないときは（ス
テップＳ４のＮＯ分岐）、音声認識開始ボタン１７を押
下して（ステップＳ５）、通話相手の声の音声認識を開
始し、その結果をテキスト表示２７として携帯電話装置
２６の表示部１６に表示する（ステップＳ７）。

【００５３】通話相手の通話データが、受信回路８で受
信され、復調回路９でＱＰＳＫ復調された後、伸張回路
１０で帯域伸張され、伸張されたデジタル音声データ
は、音声認識部１５で音声認識処理が行われ、その結果
は、制御部１４により、表示部１６において、図４
（ｂ）の２７のようにテキスト表示される。

【００５４】また、テレビ電話モードに設定されている
場合において（ステップＳ８のＹＥＳ分岐）、送信映像
にテキストを重畳する場合（ステップＳ９のＹＥＳ分
岐）、制御部１４により、ビデオカメラ２１で撮影さ
れ、Ａ／Ｄコンバータ２０でデジタル変換された映像信
号に、音声認識されたテキスト信号がテキスト多重回路
２４で、重畳される。

【００５５】テキストが重畳された映像信号は、通話相
手の携帯電話装置に送られ、図４（ａ）の２９のように
表示される（ステップＳ１０）。テレビ電話モードに設
定されていない場合（ステップＳ８のＮＯ分岐）と、テ
レビ電話モードに設定されているが、送信映像に重畳し
ない場合（ステップＳ９のＮＯ分岐）、テキストの映像
信号への重畳、通話相手の携帯電話装置への送信は行わ
れない（ステップＳ１１）。

【００５６】なお上記実施例において、音声認識開始ボ
タン１７を再度押下することで、音声認識機能を停止さ
せるように制御してもよいことは勿論である。

【００５７】上記した本発明の第１、第２の実施例の作
用効果について説明する。

【００５８】本発明の実施例においては、デジタル移動
体通信網を介して伝送された通話相手の音声信号から、
テキストデータに変換する音声認識手段を備え、通話相
手の音声は、圧縮符号化されたデジタルデータとして伝
送されてくるため、アナログからデジタルに変換する必
要がなく、そのまま、音声認識し、テキストデータに変
換することができる。

【００５９】音声信号から、音声認識手段により変換さ
れた、テキストデータを表示手段で表示することによ
り、通話相手の会話内容を理解するための補助データと
することができ、騒音環境でも会話を行うことができ
る。

【００６０】通話中に、操作キーを制御することによ
り、その時点からの通話相手の会話を音声認識によりテ
キストデータへの変換を開始する操作キーを備え、騒音
環境で通話中、相手の会話内容が聞き取ることができな
い場合、キー入力により簡易に、音声認識を開始するこ
とができる。

【００６１】上記実施例によれば、通話相手の会話を音
声認識によりテキストデータへの変換をし、表示部に表
示することにより、騒音環境下で音声通話の理解しにく
い部分を、音声認識されたテキスト表示を見ることによ
り、通話相手の会話の内容の理解を助けることができ
る。また、かかるテキスト表示機能は、聴覚障害者、難
聴のユーザに対しても、携帯電話装置の利便性を向上し
ている。

【００６２】通話相手の会話を音声認識によりテキスト
データへの変換をし、そのテキストデータを通話相手に
も伝送し、通話相手の端末の表示部に表示することがで
きる構成とされ、騒音環境下にいる通話者の携帯電話装
置に表示されている相手の通話を音声認識し変換後のテ
キストデータを通話相手の電話機に伝送して表示し、通
話相手側でも、自分が話した内容を、テキストに変換さ
れている内容を通して確認することができる。

【００６３】携帯テレビ電話装置を利用したテレビ会議
等において、通話相手の音声認識結果であるテキストデ
ータを、図示されないメモリに格納しておき，後に、会
議の議事録の一部として利用することもできる。このテ
キストデータを電子メールで配布してもよい。

【００６４】なお、接続相手に伝送される音声認識結果
のテキストデータは、音声情報、映像情報等に多重化し
て情報チャネル（ＴＣＨ）を用いて転送される。音声認
識結果のテキストデータは例えば日本語１文字（例えば
ＪＩＳ）で２バイト、英数字等は１文字で１バイトと、
そのデータ容量（バイト数）は小さいことから、情報チ
ャネルで本来転送されるべき情報を圧迫することはな
い。また音声認識結果のテキストデータは、基地局と携
帯電話装置との間の無線チャネルのうち、制御チャネル
（ＣＣＨ）等に付加して伝送してもよい。

【００６５】次に本発明の第３の実施例について説明す
る。前記第１及び第２の実施例では、騒音環境下にある
携帯電話装置の側で受信音声の音声認識を行っている
が、送信側の端末で話者が入力した音声を認識し、音声
認識の結果得たテキストデータを、制御チャネルを用い
て、あるいは、音声信号に多重し、騒音環境下の携帯電
話に送り、表示するようにしている。

【００６６】図７は、本発明の第３の実施例の構成を示
す図である。図７を参照すると、本発明の第３の実施例
をなす携帯電話装置は、送受信兼用のアンテナ１と、送
信信号と受信信号を切り換えるアンテナスイッチ２と、
送信する音声信号を入力するマイクロホン７と、マイク
ロホン７からのアナログ音声信号をデジタル変換するＡ
／Ｄコンバータ６と、Ａ／Ｄコンバータ６から出力され
るデジタル音声信号を圧縮する音声圧縮回路５と、音声
圧縮回路５から出力される送信信号を例えばＱＰＳＫ変
調する変調回路４と、制御部１４から出力されるテキス
トデータを受け取り変調する変調回路３１と、変調回路
４からの信号と変調回路３１から出力されるテキスト変
調信号を入力して多重化して出力する多重回路３０と、
多重回路３０から出力される送信信号を送信周波数に変
換する送信部３と、を備えている。

【００６７】さらに、この第３の実施例の携帯電話装置
は、受信電波の増幅と周波数同調検波を行う受信回路８
と、受信回路８からの信号を音声変調信号とテキスト変
調信号に分離する分離回路３３と、分離回路３３で分離
された音声変調信号をＱＰＳＫ復調する復調回路９と、
分離回路３３で分離されたテキスト変調信号を復調する
復調回路３２と、復調回路９から出力される圧縮音声信
号を伸張する音声伸張回路１０と、音声伸張回路１０か
ら出力されるデジタル受信音声信号をアナログ音声信号
に変換するＤ／Ａコンバータ１１と、Ｄ／Ａコンバータ
１１から出力されるアナログ信号を受け、音声信号を出
力するスピーカ１２と、Ａ／Ｄコンバータ６から出力さ
れるデジタル音声信号を入力して音声認識を行いテキス
トデータに変換する音声認識回路１５と、制御部１４か
らの文字や画像を表示する、ＬＣＤ（Liquid Crystal
Display）等の表示部１６と、キー、ボタン等を有す
る操作部１３と、音声認識を開始する音声認識開始ボタ
ン１７と、利用者が装着して通話を行うためのイヤホン
マイク２８と、全体の制御を行う制御部１４とを備えて
いる。制御部１４は、音声認識開始ボタン１７の入力、
操作部１３の入力を受け取る。また制御部１４は、復調
回路３２で復調されたテキストデータを受け取り、表示
部１６への表示を制御する。また制御部１４は、音声認
識回路１５で音声認識されたテキストデータを受け取
り、表示部１６へ出力する。制御部１４は、音声認識回
路１５で音声認識されたテキストデータを変調回路３１
へ出力する。

【００６８】図８は、本発明の第３の実施例の携帯電話
装置の外観を示す図である。図８の２６Ｃは、マイクロ
ホン７からの音声入力を音声認識して送信する側の携帯
電話装置、２６Ｄは、騒音下にありイヤホンマイク２８
を用いて通話し、携帯電話装置２６Ｃから音声認識され
たテキストデータを表示部１６に表示している携帯電話
装置である。なお、携帯電話装置の参照符号は図５に示
したものと同様とされる。図９は、本発明の第３の実施
例の動作を説明するための流れ図である。

【００６９】図７乃至図９を参照すると、騒音環境にあ
り、イヤホンマイク２８を装着した状態で、相手の声が
明瞭に聞こえない場合（図９のステップＳ４がＮＯの場
合）、通話相手の携帯電話装置の音声認識開始ボタン１
７を押してもらう（ステップＳ１２）。

【００７０】すると、相手端末において、マイクロホン
７からのアナログ音声信号がＡ／Ｄコンバータ６でデジ
タル変換された後、音声認識部１５で音声認識され、認
識された結果であるテキストデータは制御部１４を経由
し、図８（ａ）に示すように、端末２６Ｃにおいて、表
示部１６に、符号２９で示すように表示される（ステッ
プＳ１３）。

【００７１】テキストデータは、変調回路３１で変調さ
れ多重回路３０で変調された音声信号と多重される。多
重された信号は送信回路３で送信周波数に変換され、増
幅されてアンテナスイッチ２を経由してアンテナ部１よ
り送信される。

【００７２】騒音環境下の端末では、アンテナ１で受信
した通信電波はアンテナスイッチ２を経て受信回路８に
入力される。受信回路８で受信電波の増幅と周波数同調
が行われる。受信回路８から取り出された後、変調信号
は分離回路３３で音声変調信号とテキスト変調信号とに
分離される。分離されたテキスト変調信号は、復調回路
３２でテキストデータに復調され、復調されたテキスト
データは、図８（ｂ）に示すように、端末２６Ｄにおい
て、制御部１４を経由して表示部１６で符号２７で示す
ように表示される。

【００７３】次に、本発明の第４の実施例について説明
する。この第４の実施例は、前記第３の実施例の機能
を、携帯テレビ電話の場合に適用したものである。図１
０は、本発明の第４の実施例の携帯電話装置の構成を示
す図であり、図１１は、その外観の一例を示す正面図で
ある。

【００７４】図１０を参照すると、本発明の第４の実施
例をなす携帯テレビ電話装置は、送受信兼用のアンテナ
１と、送信信号と受信信号を切り換えるアンテナスイッ
チ２と、送信するための映像を撮影するビデオカメラ２
１と、ビデオカメラ２１からのアナログ映像信号をデジ
タル信号に変換するＡ／Ｄコンバータ２０と、送信する
音声信号を入力するマイクロホン７と、マイクロホン７
又はイヤホンマイク２８からのアナログ音声信号をデジ
タル変換するＡ／Ｄコンバータ６と、Ａ／Ｄコンバータ
６から出力されるデジタル音声信号を圧縮する音声圧縮
回路５と、Ａ／Ｄコンバータ６から出力されるデジタル
音声信号を音声認識してテキストデータに変換し制御部
１４に出力する音声認識回路１５と、制御部１４から供
給される音声認識結果であるテキストデータを、Ａ／Ｄ
コンバータ２０から出力されるデジタル映像信号に重畳
するテキスト多重回路２４と、テキスト多重回路２４か
ら出力されるデジタル映像信号を圧縮する映像圧縮回路
１９と、映像圧縮回路１９からの映像信号と、音声圧縮
回路５からの音声信号を多重する多重回路１８と、多重
回路１８から出力される送信信号をＱＰＳＫ変調する変
調回路４と、変調回路４から出力される送信信号を送信
周波数に変換する送信回路３と、を備えている。

【００７５】さらに、この第４の実施例の携帯電話装置
は、受信電波の増幅と周波数同調検波を行う受信回路８
と、受信回路８からの信号をＱＰＳＫ復調する復調回路
９と、復調回路９で復調された信号を入力し音声信号と
映像信号を分離する分離回路２２と、分離回路２２で分
離された圧縮音声信号を伸張する音声伸張回路１０と、
音声伸張回路１０から出力されるデジタル化されている
受信音声信号をアナログ音声信号に変換するＤ／Ａコン
バータ１１と、音声信号を出力するスピーカ１２と、分
離回路２２で分離された圧縮映像信号を伸張する映像伸
張回路２３と、映像伸張回路２３から出力されるデジタ
ル化されている受信映像信号をアナログ映像信号に変換
するＤ／Ａコンバータ２５と、受信映像や制御部１４か
らの文字や映像を表示する表示部１６と、全体の制御を
行う制御部１４と、携帯電話の操作回路１３と、音声認
識を開始する音声認識開始ボタン１７と、を備えてい
る。

【００７６】図１２は、本発明の第４の実施例の動作を
説明するための流れ図である。図１０乃至図１２を参照
して、本発明の第４の実施例の動作について説明する。
騒音環境下で、通話相手の声が明瞭に聞こえない場合
（図１２のステップＳ４のＮＯ）で、テレビ電話モード
の場合（ステップＳ１４のＹＥＳ）、通話相手に、音声
認識開始ボタン１７を押してもらう（ステップＳ１
５）。

【００７７】通話相手の端末では、マイクロホン７から
のアナログ音声信号をＡ／Ｄコンバータ６でデジタル変
換されたデジタル音声信号は、音声認識回路１５で音声
認識される。

【００７８】音声認識の結果として出力されるテキスト
データは、図１１（ａ）の装置２６Ｅにおいて、制御部
１４を経由して表示部１６に２９のように表示する（ス
テップＳ１６）。音声認識の結果として制御部１４から
出力されるテキストデータはテキスト重畳回路２４に入
力され、ビデオカメラ２１で撮影され、Ａ／Ｄコンバー
タ２０でデジタル変換された映像信号に重畳される。そ
の後、テキスト重畳された映像信号は、映像圧縮回路１
９で帯域圧縮された後、多重回路１８で音声信号と多重
されて相手端末に送信される。

【００７９】次に、テキストデータと映像信号と音声信
号が多重化されて伝送される信号を受け取る側の端末の
受信動作の経路について説明する。受信回路８、復調回
路９を経て、分離回路２２を経由し、デジタルの映像信
号と音声信号に分離され、映像信号は、映像伸張回路２
３で、送信時圧縮された映像信号を伸張する。伸張され
た映像信号はＤ／Ａコンバータ２５でアナログ映像信号
に変換され、表示部１６に表示される。映像信号に多重
されたテキストデータは、図１１（ｂ）の装置２６Ｆに
おいて、表示部１６に２７のように表示される（ステッ
プ１２のＳ１７）。

【００８０】この実施例では、話者側で音声認識した結
果のテキストデータを相手側端末に送信する構成とした
ことにより、伝送系等でのノイズを受けることなく、相
手側端末に表示させることができる。

【００８１】次に、第５の実施例について説明する。前
記各実施例では、通信端末側で音声認識を行っている
が、端末間の通信網で音声信号の音声認識を行ってもよ
いことは勿論である。音声認識の開始は、通信端末から
の指示で行う場合、通信事業者が通信網で常時行うよう
にしてもよい。あるいは、通信端末と通信網側で分散処
理して行ってもよい。

【００８２】図１３は、本発明の第５の実施例として、
交換局３６で音声認識を行う場合の構成の一例を示して
いる。交換局３６は、基地局３５に接続する側から、交
換局インタフェース３７、交換機４０、交換局インタフ
ェース４１を備え、交換機４０と交換局インタフェース
３７の間の双方の経路に、音声認識回路４２による音声
認識結果をテキスト変換回路４３でテキストデータに変
換したものと音声信号を多重する多重回路３８、３９を
備えている。

【００８３】騒音環境下の端末２６と通話している端末
２６’からの音声データは、交換機４０で交換された
後、音声認識回路４２で、音声認識され、テキスト変換
回路４３でテキストデータに変換され、多重回路３８
で、交換機４０から出力された音声信号と多重される。

【００８４】テキストデータが多重された音声信号は、
交換局インタフェース３７を経由して騒音環境下の端末
２６に送られ、前記第１の実施例と同様にして、端末２
６の表示部にテキストデータが表示される。

【００８５】交換局３６で、騒音環境下の端末２６から
の音声信号に、テキスト変換回路４３からのテキストデ
ータが重畳され、端末２６’の表示部でも、テキストデ
ータが表示され、端末２６’側の話者も音声認識結果を
確認することができる。なお、騒音環境下の端末２６
が、前記第１の実施例の携帯電話装置よりなり、交換局
３６側では、端末２６の負荷状況に基づき、あるいは、
端末２６からの要求により、音声認識回路４２で音声認
識を行い、テキスト変換回路４３でテキストデータに変
換する構成としてもよい。

【００８６】現在のＰＤＣ移動体パケット通信システム
（第２世代）、及び次世代移動通信ＩＭＴ−２０００で
はインターネットへの簡易なアクセス能力が提供され
る。したがって、本発明において、音声認識が行われる
通信網上のノードとしては、上記した交換局に限定され
るものでなく、音声信号等をパケット化して伝送するゲ
ートウエイ、ルータ等で音声認識を行い、音声認識結果
をパケットに挿入して相手端末宛てに経路選択して伝送
構成としてもよい。例えば３ＧＰＰ（Third Generatio
n Partnership Project）のコアネットワーク方式で
は、図１４に示すように、回線交換機能（ＭＳＣ（Mobi
le services Switching Center）／ＧＭＳＣ（Gatew
ay MSC））とパケット交換機能（ＰＤＳＮ（Packet D
ata Serving Node）／ＰＤＧＮ（Packet Data Gate
way Node））を単一ノードに統合化することで、音声
トラフィックから各種メディアを統合的に交換・伝送で
きることが知られている。ユーザＩＰ（internet prot
ocol）パケットをノードＡＴＭ（Asynchronous Transf
er Mode）アドレスに基づくＡＴＭ−ＳＶＣ（Switched
Virtual Connection）によりトネリングし、QoS（Qual
ity of Services）を提供しているが、このコアネッ
トワークで音声の認識を行い、回線交換又はパケット交
換で交換・伝送される音声データに、音声認識結果であ
るテキストデータを付加して宛先端末に伝送するように
してもよい。図１４に示したコアネットワークは、立川
敬二監修、「Ｗ−ＣＤＭＡ移動通信方式」、丸善（株）
発行、平成１３年６月２５日発行の第２３９頁の図４．
２、あるいは、木下耕太著、「やさしいＩＭＴ−２０
００第３世代移動通信方式」、電気通信協会、平成１
3年５月１０日発行、第８１頁の図５．２が参照され
る。

【００８７】上記実施例によれば、通信網側で、音声認
識した結果のテキストデータを接続先端末に送信する構
成としたことにより、音声認識処理を実行するＤＳＰ
（デジタル信号プロセッサ）等の処理負荷を削減し、バ
ッテリ駆動の端末の消費電流の増大を抑止することがで
きる。

【００８８】上記した各実施例では、携帯電話装置の構
成として、表示部と音声通話部とが一体型とされた例に
基づき説明したが、音声通話部と、映像表示のための表
示部とを着脱自在な構成とし、音声通話部と、表示部を
分離し単独に使用可能とした構成としてもよい。音声通
話部を映像表示／撮像部から分離独立させた携帯電話装
置については、本願発明者による特開２０００−５０２
２３号公報等が参照される。映像表示／撮像部と、音声
通話部は、赤外線、Bluetooth等の無線で通信する構成
としてもよい。音声通話部と、表示部を分離し単独に使
用可能とした構成の場合、利用者はイヤホンマイクを装
着することなく、表示部に表示されるテキストを見るこ
とができる。

【００８９】携帯電話装置は、ＰＨＳ（Personal Hand
yphone System）端末、携帯情報端末（ＰＤＡ）等であ
ってもよいことは勿論である。あるいは、VoIP（Voice
OverIP）機能を備えたパソコン等の端末であってもよ
い。以上本発明を上記実施例に即して説明したが、本発
明は、上記実施例の構成にのみ限定されるものでなく、
特許請求の範囲の各請求項の発明の範囲内で、当業者で
あればなし得るであろう各種変形、修正を含むことは勿
論である。

【００９０】

【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。

【００９１】本発明によれば、通話相手の音声信号をテ
キストデータに変換する音声認識手段を備えたことによ
り、通話相手の会話内容の理解を助け、例えば騒音環境
でも会話を行うことができる、という効果を奏する。

【００９２】本発明によれば、通話中に、キーの操作時
点からの通話相手の会話を音声認識によりテキストデー
タへの変換を開始する操作キーを備え、騒音環境で通話
中、相手の会話内容が聞き取ることができない場合、キ
ー入力により簡易に、音声認識を開始することができ
る、という効果を奏する。

【００９３】さらに、本発明によれば、通話相手の会話
を音声認識によりテキストデータへ変換して、該テキス
トデータを通話相手に伝送し、通話相手の端末の表示部
にも表示できるようにしたことにより、通話相手側でも
自分が話した内容を、テキストに変換されている内容を
通して知ることができ、利便性を向上している。

【００９４】本発明によれば、話者側で音声認識した結
果のテキストデータを相手側端末に送信する構成とした
ことにより、伝送系等でのノイズを受けることなく、相
手側端末に表示させることができる。

【００９５】本発明によれば、通信網側で、音声認識し
た結果のテキストデータを接続先端末に送信する構成と
したことにより、端末での処理負荷を低減し、バッテリ
駆動の端末の消費電力の増大を抑止低減することができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例の携帯電話装置の構成を
示す図である。

【図２】本発明の第１の実施例の携帯電話装置の外観を
示す図である。

【図３】本発明の第２の実施例の携帯電話装置の構成を
示す図である。

【図４】本発明の第２の実施例の携帯電話装置の外観を
示す図である。

【図５】本発明の第１の実施例の携帯電話装置の動作を
説明するための流れ図である。

【図６】本発明の第２の実施例の携帯電話装置の動作を
説明するための流れ図である。

【図７】本発明の第３の実施例の携帯電話装置の構成を
示す図である。

【図８】本発明の第３の実施例の携帯電話装置の外観を
示す図である。

【図９】本発明の第３の実施例の携帯電話装置の動作を
説明するための流れ図である。

【図１０】本発明の第４の実施例の携帯電話装置の構成
を示す図である。

【図１１】本発明の第４の実施例の携帯電話装置の外観
を示す図である。

【図１２】本発明の第４の実施例の携帯電話装置の動作
を説明するための流れ図である。

【図１３】本発明の第５の実施例の交換局の構成を示す
図である。

【図１４】本発明が適用される３GPPコアネットワーク
の構成を示す図である。

【符号の説明】

１送受信兼用のアンテナ２アンテナスイッチ３送信部４変調回路５音声圧縮回路６、２０Ａ／Ｄコンバータ７マイクロホン８受信回路９復調回路１０音声伸張回路１１、２５Ｄ／Ａコンバータ１２スピーカ１３操作部１４制御部１５音声認識回路１６表示部１７音声認識開始ボタン１８多重回路１９映像圧縮回路２１ビデオカメラ２２分離回路２３映像伸張回路２４多重回路２６、２６Ｃ、２６Ｄ携帯電話装置２６Ａ、２６Ｂ、２６Ｅ、２６Ｆ携帯テレビ電話装置２７、２９テキスト表示２８イヤホンマイク３０多重回路３１変調回路３２復調回路３３分離回路３５基地局３６交換局３７、４１交換局インタフェース３８、３９多重回路４０交換機４２音声認識回路４３テキスト変換回路

Claims

【特許請求の範囲】

【請求項１】接続相手の端末と通話接続時に、音声認識
モードに設定されている場合、前記接続相手の端末から
送信された通話相手の音声をデジタル音声信号として受
け取って音声認識しテキストデータに変換する音声認識
手段と、前記音声認識手段で変換されたテキストデータを出力手
段から出力させる制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項２】前記出力手段が、表示手段よりなり、前記
テキストデータが前記表示手段に表示される、ことを特
徴とする請求項１に記載の端末装置。
【請求項３】前記出力手段として、前記音声認識手段か
ら出力される前記テキストデータを前記接続相手の端末
に送信する手段を備えている、ことを特徴とする請求項
１又は２に記載の端末装置。
【請求項４】接続相手の端末から送信された音声信号を
音声認識してテキストデータに変換する音声認識手段
と、前記音声認識結果のテキストデータを前記接続相手の端
末に送信する手段と、を備えている、ことを特徴とする端末装置。
【請求項５】請求項４に記載の前記端末装置と通信接続
する端末装置であって、請求項４に記載の前記端末装置から送信される前記テキ
ストデータを受け取り表示手段に表示する制御を行う手
段を備えている、ことを特徴とする端末装置。
【請求項６】接続相手の端末から送信された音声信号を
音声認識してテキストデータに変換する音声認識手段
と、前記音声認識結果のテキストデータを前記接続相手の端
末に送信する手段と、接続相手の端末から送信された信号からテキストデータ
を取りだし前記テキストデータを表示手段に表示させる
制御を行う手段と、を備えている、ことを特徴とする端末装置。
【請求項７】前記音声認識結果のテキストデータを、前
記接続相手の端末に送信される信号に多重して前記接続
相手の端末に送信する手段を備えている、ことを特徴と
する請求項６に記載の端末装置。
【請求項８】前記音声認識結果のテキストデータを、前
記接続相手の端末に送信される映像情報に多重して前記
接続相手の端末に送信する手段を備えている、ことを特
徴とする請求項６に記載の端末装置。
【請求項９】前記音声認識手段は、前記接続相手の端末
から送信された通話相手の音声を復調手段で復調し伸張
手段で伸張してなるデジタル音声信号を入力として受け
取り音声認識を行う、ことを特徴とする請求項１乃至
４、請求項６乃至８のいずれか一に記載の端末装置。
【請求項１０】音声入力手段から入力されデジタル信号
に変換された音声信号を圧縮して出力する音声圧縮手段
と、前記音声圧縮手段からの出力信号を変調して出力する変
調手段と、前記変調手段の出力信号を受けて無線送信する無線送信
手段と、無線受信手段で受信された信号を復調して出力する復調
手段と、前記復調手段で復調された信号を受け取って伸張しデジ
タル音声信号を出力する音声伸張手段と、前記音声伸張手段から出力されるデジタル音声信号を音
声認識してテキストデータに変換して出力する音声認識
手段と、前記音声伸張手段から出力されるデジタル音声信号をア
ナログ信号に変換した信号を受け取って音声出力する音
声出力手段と、音声認識モードに設定されている場合に、前記音声伸張
手段で伸張された前記デジタル音声信号は、前記音声認
識手段に入力されて音声認識が行われ、前記音声認識手
段から出力されるテキストデータを、表示手段に供給し
て表示させる制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項１１】入力された音声信号を音声認識してテキ
ストデータに変換して出力する音声認識手段と、前記音声認識手段から出力される音声認識結果のテキス
トデータと、映像入力手段から入力されデジタル信号に
変換された映像情報とを入力し、これらを多重して出力
する第１の多重手段と、前記第１の多重手段の出力信号を受け圧縮して出力する
映像圧縮手段と、音声入力手段から入力されデジタル信号に変換された音
声信号を圧縮して出力する音声圧縮手段と、前記映像圧縮手段からの出力信号と前記音声圧縮手段か
らの出力信号とを入力し、これらの信号を多重して出力
する第２の多重手段と、前記第２の多重手段の出力信号を変調して出力する変調
手段と、前記変調手段の出力信号を受けて無線送信する無線送信
手段と、無線受信手段で受信された信号を復調して出力する復調
手段と、前記復調手段で復調された信号を入力し映像信号と音声
信号とに分離して出力する分離手段と、前記分離手段で分離された前記映像信号を受け取って伸
張しデジタル映像信号を出力する映像伸張手段と、前記分離手段で分離された前記音声信号を受け取って伸
張しデジタル音声信号を出力する音声伸張手段と、前記映像伸張手段から出力されるデジタル映像信号をア
ナログ信号に変換した信号を受け取って表示する表示手
段と、前記音声伸張手段から出力されるデジタル音声信号をア
ナログ信号に変換した信号を受け取って音声出力する音
声出力手段と、音声認識モードに設定されている場合に、前記音声伸張
手段で伸張された前記デジタル音声信号は、前記音声認
識手段に入力されて音声認識が行われ、前記音声認識手
段から出力されるテキストデータを、前記第１の多重手
段に供給する制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項１２】前記制御手段が、前記音声認識手段から
出力されるテキストデータを表示手段に供給して表示さ
せるように制御する手段を備えている、ことを特徴とす
る請求項１１に記載の端末装置。
【請求項１３】利用者が音声入力手段より入力した音声
を音声認識してテキストデータに変換する音声認識手段
と、前記音声認識結果であるテキストデータを接続相手の端
末装置に送信する手段と、を備えている、ことを特徴とする端末装置。
【請求項１４】前記音声認識結果であるテキストデータ
が表示手段に表示される、ことを特徴とする端末装置。
【請求項１５】請求項１３又は１４に記載の端末装置に
接続する前記接続相手の端末装置であって、請求項１３又は１４に記載の前記端末装置から送信され
た信号からテキストデータを抽出し前記テキストデータ
を表示手段に表示する制御を行う手段を備えている、こ
とを特徴とする端末装置。
【請求項１６】前記音声認識結果であるテキストデータ
を、前記接続相手の端末装置に送信する音声信号、又
は、前記接続相手の端末装置に送信する映像信号に多重
して前記接続相手の端末装置に送信する手段を備えてい
る、ことを特徴とする請求項１３又は１４に記載の端末
装置。
【請求項１７】音声入力手段から入力されデジタル信号
に変換された音声信号を圧縮して出力する音声圧縮手段
と、前記音声入力手段から入力されデジタル信号に変換され
た音声信号を音声認識してテキストデータに変換して出
力する音声認識手段と、前記音声圧縮手段の出力信号を変調して出力する第１の
変調手段と、入力されたテキストデータを変調して出力する第２の変
調手段と、前記第１及び第２の変調手段の出力信号を受け、これら
の信号を多重して出力する多重手段と、前記多重手段の出力信号を受けて無線送信する無線送信
手段と、無線受信手段で受信された信号をテキスト信号と音声信
号に分離して出力する分離手段と、前記分離手段で分離された前記音声信号を受け取り前記
音声信号を復調して出力する第１の復調手段と、前記分離手段で分離された前記テキスト信号を受け取り
前記テキスト信号を復調しテキストデータを出力する第
２の復調手段と、前記第１の復調手段の出力信号を受け取って伸張しデジ
タル音声信号を出力する音声伸張手段と、前記音声伸張手段で伸張されたデジタル音声信号をアナ
ログ信号に変換した信号を受け取り音声出力する音声出
力手段と、を備え、前記第２の復調手段は、復調した前記テキストデータを
制御手段に受けわたし、前記制御手段は、前記第２の復調手段で復調された前記
テキストデータを受け取り、表示手段に前記テキストデ
ータを表示するとともに、前記第２の変調手段に供給
し、さらに、前記制御手段は、前記音声認識手段からのテキ
ストデータを受け取り前記第２の変調手段に供給する制
御を行う、ことを特徴とする端末装置。
【請求項１８】音声入力手段から入力されデジタル信号
に変換された音声信号を圧縮して出力する音声圧縮手段
と、前記音声入力手段から入力されデジタル信号に変換され
た音声信号を音声認識してテキストデータに変換して出
力する音声認識手段と、前記テキストデータと、映像入力手段から入力されデジ
タル信号に変換された映像情報とを入力し、これらを多
重して出力する第１の多重手段と、前記第１の多重手段の出力信号を受け取り圧縮した映像
信号を出力する映像圧縮手段と、前記映像圧縮手段からの出力信号と前記音声圧縮手段か
らの出力信号とを入力し、これらの信号を多重して出力
する第２の多重手段と、前記第２の多重手段の出力信号を変調して出力する変調
手段と、前記変調手段の出力信号を受けて無線送信する無線送信
手段と、無線受信手段で受信された信号を復調して出力する復調
手段と、前記復調手段で復調された信号を入力し映像信号と音声
信号とに分離して出力する分離手段と、前記分離手段で分離された前記映像信号を受け取って伸
張しデジタル映像信号を出力する映像伸張手段と、前記分離手段で分離された前記音声信号を受け取って伸
張しデジタル音声信号を出力する音声伸張手段と、前記映像伸張手段で伸張されたデジタル映像信号をアナ
ログ信号に変換した信号を受け取り表示する表示手段
と、前記音声伸張手段で伸張されたデジタル音声信号をアナ
ログ信号に変換した信号を受け取り音声出力する音声出
力手段と、音声認識モードに設定されている場合に、前記音声認識
手段で音声認識が行われて出力されるテキストデータを
前記第１の多重手段に供給する制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項１９】前記制御手段が、前記テキストデータ
を、前記表示手段に供給して表示する、ことを特徴とす
る請求項１８に記載の端末装置。
【請求項２０】音声認識の開始を指示するための操作キ
ーを備え、前記操作キーの所定の操作が行われた際に、前記音声認
識手段による音声のテキストデータへの変換処理を開始
させる手段を備えている、ことを特徴とする請求項１乃
至４、請求項６乃至１４、請求項１６乃至１９のいずれ
か一に記載の端末装置。
【請求項２１】監視対象の所定の信号の状態が予め定め
られた条件を満たしている場合に、前記音声認識手段に
よる音声のテキストデータへの変換処理を開始させる手
段を備えている、ことを特徴とする請求項１乃至４、請
求項６乃至１４、請求項１６乃至１９のいずれか一に記
載の端末装置。
【請求項２２】一の端末と他の端末との間で送受される
音声信号を伝送する通信網上の少なくとも一のノード
が、前記伝送される音声信号を受け取って音声認識しテ
キストデータに変換する手段を備え、前記変換されたテキストデータが、前記通信網上の前記
一のノードから前記音声信号の受け手側の端末、又は、
前記音声信号の受け手と送り手側の双方の端末に伝送さ
れる、ことを特徴とする通信システム。
【請求項２３】前記音声信号の受け手、又は、前記音声
信号の受け手と送り手の端末が、音声信号を音声認識し
てテキストデータに変換する手段を備え、前記音声信号の受け手及び／又は送り手の端末の負荷状
況に基づき、あるいは、前記音声信号の受け手及び／又
は送り手の端末からの要求により、前記通信網側で音声
認識を行う、ことを特徴とする請求項２２に記載の通信
システム。
【請求項２４】請求項１乃至４、請求項６乃至１４、請
求項１６乃至２１のいずれか一に記載の端末装置におい
て、前記端末装置が、基地局と無線通信する移動局である、
ことを特徴とする端末装置。
【請求項２５】請求項２２又は２３に記載の前記通信網
に接続する端末が、基地局と無線通信する移動局であ
る、ことを特徴とする端末装置。
【請求項２６】請求項１乃至４、請求項６乃至１４、請
求項１６乃至２１のいずれか一に記載の端末装置におい
て、音声入力手段と音声出力手段とを備えた第１のユニット
と、表示手段を備えた第２のユニットとに互いに分離自在と
されている、ことを特徴とする端末装置。
【請求項２７】互いに通信接続する複数の端末のうち一
の端末が、他の端末から送信された通話相手の音声を復
調及び伸張してなるデジタル音声信号を受け取って音声
認識しテキストデータに変換するステップと、前記一の端末において前記テキストデータを出力手段か
ら出力するステップと、を含む、ことを特徴とする通信制御方法。
【請求項２８】前記テキストデータを、前記一の端末に
おいて前記出力手段をなす表示部に表示する、ことを特
徴とする請求項２７に記載の通信制御方法。
【請求項２９】前記一の端末が前記テキストデータを前
記他の端末に送信するステップを有し、通話相手の会話
を音声認識した結果が前記通話相手に返送される、こと
を特徴とする請求項２７又は２８に記載の通信制御方
法。
【請求項３０】前記他の端末において、前記一の端末か
ら送信される前記テキストデータを前記他の端末の表示
部に表示するステップを有する、ことを特徴とする請求
項２７又は２８に記載の通信制御方法。
【請求項３１】前記一の端末上での予め定められた所定
の操作キーの操作により、あるいは、予め定められた監
視対象の信号が所定の条件を満たしている場合に、前記
一の端末において、通話相手の会話を音声認識し、テキ
ストデータへの変換を開始するように制御する、ことを
特徴とする請求項２７乃至３０のいずれか一に記載の通
信制御方法。
【請求項３２】一の端末が、接続相手の端末から送信さ
れた音声信号を音声認識してテキストデータに変換する
ステップと、前記一の端末が、音声認識結果のテキストデータを、前
記接続相手の端末に送信するステップと、前記一の端末が、接続相手の端末から送信された音声認
識結果のテキストデータを表示手段に表示させる制御を
行うステップと、を含む、ことを特徴とする通信制御方法。
【請求項３３】前記各端末が携帯テレビ電話機能付きの
端末よりなり、前記一の端末は、前記音声認識結果のテキストデータを
前記接続相手の端末に送信される映像情報に多重して前
記接続相手の端末に送信する、ことを特徴とする請求項
３２記載の通信制御方法。
【請求項３４】利用者が一の端末より入力した音声を音
声認識してテキストデータに変換するステップと、前記音声認識結果であるテキストデータを接続相手の端
末に送信するステップと、を含む、ことを特徴とする通信制御方法。
【請求項３５】前記音声認識結果であるテキストデータ
が前記一の端末の表示部に表示される、ことを特徴とす
る請求項３４記載の通信制御方法。
【請求項３６】前記接続相手の端末では、前記一の端末
より送信されたテキストデータを表示部に表示する、こ
とを特徴とする請求項３４又は３５記載の通信制御方
法。
【請求項３７】前記一の端末より、音声認識結果である
テキストデータを、前記接続相手の端末に送信される音
声信号又は映像信号に多重して、前記接続相手の端末に
送信するステップを含む、ことを特徴とする請求項３４
又は３５記載の通信制御方法。
【請求項３８】少なくとも話者の音声信号を伝送する送
信側端末と受信側端末との間の通信網に設けられている
音声認識装置が前記音声信号を受け取って音声認識しテ
キストデータに変換するステップと、前記通信網上の音声認識装置で変換されたテキストデー
タが、受信側の端末、又は、受信側の端末と送信側の端
末に伝送されるステップと、を含む、ことを特徴とする通信制御方法。