JPH10149193A - 情報処理装置および方法 - Google Patents

情報処理装置および方法

Info

Publication number
JPH10149193A
JPH10149193A JP8310246A JP31024696A JPH10149193A JP H10149193 A JPH10149193 A JP H10149193A JP 8310246 A JP8310246 A JP 8310246A JP 31024696 A JP31024696 A JP 31024696A JP H10149193 A JPH10149193 A JP H10149193A
Authority
JP
Japan
Prior art keywords
signal
data
speech
video
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8310246A
Other languages
English (en)
Inventor
Nobuyuki Sadanaka
信行 定仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP8310246A priority Critical patent/JPH10149193A/ja
Publication of JPH10149193A publication Critical patent/JPH10149193A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 【課題】 オーディオ信号から台詞に対応するテキスト
データを正確に生成する。 【解決手段】 DVD111より再生された5.1チャン
ネル分のオーディオデータのうち、台詞信号が含まれて
いるセンターチャンネルのオーディオ信号を音声認識部
120で音声認識し、テキストデータを生成する。アド
レス生成部121で、このテキストデータに対応するア
ドレスを生成し、ビットマップデータROM122からテ
キストに対応するビットマップデータを出力し、フレー
ムメモリ114に、字幕として、MPEG2デコーダ113
より出力されるビデオデータの画像に重畳させる。フレ
ームメモリ114に書き込まれたビデオデータを、ビデ
オエンコーダ115でエンコードし、NTSC方式のビデオ
信号に変換して、ディスプレイ133に出力し、表示さ
せる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法に関し、特に、ビデオ信号に対応するオーディオ
信号からテキストデータを生成することができるように
した情報処理装置および方法に関する。
【0002】
【従来の技術】最近、DVD(Digital Versatile Disc)が
開発され、普及しつつある。このDVDにおいては、ビデ
オデータと、それに対応するオーディオデータの他に、
サブピクチャデータが記録できるようになされている。
そして、このサブピクチャデータとして、字幕のデータ
を記録しておくことで、必要に応じて、字幕を本来の画
像に重畳して表示することができるようになされてい
る。
【0003】
【発明が解決しようとする課題】しかしながら、多くの
場合、例えば、音声で英語の言語が話されている場合、
字幕の言語は、英語以外の、例えば、日本語、フランス
語などの、英語を理解できない視聴者のための言語とさ
れるのが一般的である。その結果、例えば、文字による
英語は理解することができるが、音声を聞くことが困難
な聴覚障害者などは、そのプログラムを楽しむことがで
きない課題があった。
【0004】また、米国においては、聴覚障害者のため
に、英語の字幕を表示することが義務付けられている
が、サブピクチャデータに英語を付加すれば、その分だ
け他の言語をサブピクチャに付加する余裕がなくなり、
同一のDVDを、多くの国に配布することが困難になる。
【0005】そこで、例えば、ビデオ信号に付随するオ
ーディオ信号を音声認識することにより、テキストデー
タを生成し、字幕として表示することも考えられる。し
かしながら、一般的に、オーディオ信号には、台詞だけ
ではなく、音楽や効果音などが合成されており、このオ
ーディオ信号から台詞だけを正しく音声認識することは
困難である課題があった。
【0006】本発明はこのような状況に鑑みてなされた
ものであり、簡単かつ確実に、台詞に対応するテキスト
データを生成することができるようにするものである。
【0007】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、ビデオ信号とビデオ信号に対応する台詞信号
とが多重化されている多重化信号から台詞信号を分離す
る分離手段と、分離された台詞信号を音声認識する音声
認識手段と、音声認識結果に対応してテキストデータを
発生する発生手段とを備えることを特徴とする。
【0008】請求項6に記載の情報処理方法は、ビデオ
信号とビデオ信号に対応する台詞信号とが多重化されて
いる多重化信号から台詞信号を分離する分離ステップ
と、分離された台詞信号を音声認識する音声認識ステッ
プと、音声認識結果に対応してテキストデータを発生す
る発生ステップとを備えることを特徴とする。
【0009】請求項1に記載の情報処理装置および請求
項6に記載の情報処理方法においては、ビデオ信号とビ
デオ信号に対応する台詞信号とが多重化されている多重
化信号から台詞信号が分離され、分離された台詞信号が
音声認識される。そして、音声認識結果に対応してテキ
ストデータが発生される。その結果、正確な音声認識が
可能となり、正確なテキストデータを得ることができ
る。
【0010】
【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
【0011】請求項1に記載の情報処理装置は、ビデオ
信号とビデオ信号に対応する台詞信号とが多重化されて
いる多重化信号から台詞信号を分離する分離手段(例え
ば、図1のデマルチプレクサ112)と、分離された台
詞信号を音声認識する音声認識手段(例えば、図1の音
声認識部120)と、音声認識結果に対応してテキスト
データを発生する発生手段(例えば、図1の音声認識部
120)とを備えることを特徴とする。
【0012】請求項2に記載の情報処理装置は、ビデオ
信号をデコードするデコード手段(例えば、図1のMPEG
2デコーダ113)と、デコードされた画像に、テキス
トデータに対応するテキストを合成する合成手段(例え
ば、図1のフレームメモリ114)とをさらに備えるこ
とを特徴とする。
【0013】請求項3に記載の情報処理装置は、テキス
トデータを記憶する記憶手段(例えば、図6のHDD8
0)をさらに備えることを特徴とする。
【0014】図1は、本発明の情報処理装置を適用した
DVDプレーヤの構成例を表している。このDVDプレーヤ1
00においては、DVD111より再生された信号がデマ
ルチプレクサ112に供給され、ビデオデータ、オーデ
ィオデータ、およびサブピクチャデータに分離されるよ
うになされている。MPEG(Moving Pictures Experts Gro
up)2デコーダ113は、入力されたビデオデータをデ
コードした後、フレームメモリ114に出力するように
なされている。
【0015】また、サブピクチャデコーダ118は、デ
マルチプレクサ112より供給されたサブピクチャデー
タをデコードし、スイッチ119の接点Aを介して、フ
レームメモリ114に供給するようになされている。フ
レームメモリ114より読み出されたデータは、ビデオ
エンコーダ115に入力され、NTSC方式またはPAL方式
などのビデオ信号に変換された後、ディスプレイ133
に供給されるようになされている。
【0016】デマルチプレクサ112から出力されるオ
ーディオデータは、ドルビーAC−3(商標)方式でエ
ンコードされており、AC−3デコーダ116は、これ
をデコードし、5.1チャンネルのマルチトラックオー
ディオデータとして出力するようになされている。D/A
変換器117は、AC−3デコーダ116より出力され
た5.1チャンネル分のオーディオデータをD/A変換し
た後、マルチチャンネルアンプ131に出力している。
マルチチャンネルアンプ131は、入力された5.1チ
ャンネル分のオーディオ信号を増幅した後、スピーカシ
ステム132に出力している。スピーカシステム132
は、5チャンネル分のスピーカとしての、前左側のスピ
ーカ141、前右側のスピーカ142、後ろ左側のスピ
ーカ143、後ろ右側のスピーカ144、および前セン
ターのスピーカ145と、0.1チャンネル分のスピー
カとしての、重低音用のスピーカ(ウーハー)146に
より構成されている。
【0017】音声認識部120は、AC−3デコーダ1
16より出力された5.1チャンネルのデータのうち、
センターチャンネルのオーディオデータ(スピーカシス
テム132のスピーカ145に供給されるオーディオデ
ータ)を音声認識し、音声認識した結果に対応してテキ
ストデータを生成し、アドレス生成部121に出力して
いる。アドレス生成部121は、テキストデータに対応
するアドレスを発生し、ビットマップデータROM122
に出力する。ビットマップデータROM122には、テキ
ストデータに対応するビットマップデータが記憶されて
おり、そのビットマップデータが、スイッチ119の接
点Bを介して、フレームメモリ114に供給されるよう
になされている。
【0018】例えば、マイクロコンピュータなどにより
構成される制御回路124は、操作部123からの入力
に対応して、スイッチ119を切り替える他、各部を制
御するようになされている。
【0019】次に、その動作について説明する。ユーザ
が、操作部123を操作して、DVD111の再生を指令
すると、制御回路124は、各部を制御して、再生を開
始させる。DVD111より再生された信号は、デマルチ
プレクサ112に入力され、デマルチプレクサ112
は、この再生信号から、ビデオ信号、オーディオ信号、
およびサブピクチャ信号を分離し、それぞれMPEG2デコ
ーダ113、AC−3デコーダ116、またはサブピク
チャデコーダ118に出力する。
【0020】MPEG2デコーダ113は、入力されたビデ
オデータを、MPEG2方式でデコードし、4:2:2のデ
ジタルビデオデータとして復号し、フレームメモリ11
4に出力し、記憶させる。
【0021】一方、サブピクチャデコーダ118は、入
力されたサブピクチャデータをデコードし、スイッチ1
19の接点Aを介して、フレームメモリ114に出力
し、記憶させる。その結果、フレームメモリ114にお
いて、オリジナルの画像に字幕が重畳された画像が得ら
れ、これがビデオエンコーダ115に入力され、例え
ば、NTSC方式のビデオ信号に変換され、ディスプレイ1
33に供給され、表示される。
【0022】AC−3デコーダ116は、入力された
5.1チャンネル分のオーディオデータをデコードし、
D/A変換器117に出力する。D/A変換器117は、入力
されたオーディオデータをD/A変換した後、マルチチャ
ンネルアンプ131に出力する。マルチチャンネルアン
プ131は、入力された5.1チャンネル分のオーディ
オ信号を増幅し、それぞれ対応するスピーカ141乃至
146に出力する。
【0023】以上のようにして、通常の再生が行われ
る。ユーザは、サブピクチャによる字幕を必要としない
場合には、操作部123を操作して、制御回路124を
介して、スイッチ119を接点C側に切り替えさせるこ
とで、字幕を表示させないようにすることができる。あ
るいはまた、サブピクチャデータとして、独立した複数
の言語の字幕が用意されている場合には、操作部123
を操作することで、その中から1つの所望の字幕を選択
し、サブピクチャデコーダ118にデコードさせ、ディ
スプレイ133に表示させることができる。
【0024】さらに、ユーザは、スピーカシステム13
2より出力される音声の言語に対応するテキストを字幕
として表示させたい場合には、操作部123を制御し、
制御回路124に、スイッチ119を接点B側に切り替
えさせる。このとき、音声認識部120は、AC−3デ
コーダ116が出力する5.1チャンネル分のオーディ
オデータのうち、センターチャンネルに対応する音声デ
ータの音声認識処理を実行する。このセンターチャンネ
ルには、通常、ディスプレイ133に表示されている画
像に対応するオーディオ成分のうち、台詞のみが含まれ
ており、音楽、効果音などは、他のスピーカ141乃至
144、およびスピーカ146に対応するチャンネルに
のみ含まれており、センターチャンネルには含まれてい
ない。従って、音声認識部120は、音楽や効果音など
に影響されずに、台詞だけを正確に音声認識することが
できる。
【0025】音声認識部120は、音声認識した結果に
対応するテキストデータを生成し、これをアドレス生成
部121に供給する。アドレス生成部121は、入力さ
れたテキストデータに対応するアドレスを発生し、ビッ
トマップデータROM122に出力する。ビットマップデ
ータROM122は、アドレス生成部121より入力され
たアドレスに対応するビットマップデータを読み出し、
出力する。例えば、アドレス生成部121が、アルファ
ベット文字Aに対応するアドレスを出力した場合には、
アルファベット文字Aに対応するビットマップデータが
読み出され、出力される。
【0026】ビットマップデータROM122より出力さ
れたビットマップデータは、スイッチ119の接点Bを
介して、フレームメモリ114に供給され、MPEG2デコ
ーダ113より供給されている画像データ上に、字幕と
して重畳される。そして、このフレームメモリ114上
のデータが、ビデオエンコーダ115において、NTSC方
式あるいはPAL方式などのビデオデータに変換され、デ
ィスプレイ133に出力され、表示される。
【0027】以上のようにして、聴覚障害者であったと
しても、操作部123を操作することで、スピーカシス
テム132より出力される音声の言語と同一の言語の字
幕を見ながら、プログラムを楽しむことができる。
【0028】図2は、本発明の情報処理装置を応用し
た、AVシステムの構成例を示している。この実施の形
態においては、パーソナルコンピュータ1が、チュー
ナ、アンプ、ビデオディスクプレーヤなどのAV機器2
とともに、テレビジョン受像機3に接続されている。テ
レビジョン受像機3は、画像を表示するCRT4と、オー
ディオ信号を出力するスピーカ5とを有している。
【0029】また、キーボード11は、複数のキー12
とタッチパッド13を有し、それらの操作に対応する赤
外線信号を、赤外線発信部14からパーソナルコンピュ
ータ1に出射するようになされている。
【0030】図3は、パーソナルコンピュータ1の外観
形状を表している。パーソナルコンピュータ1は、その
幅が225mm、高さが94mm、奥行きが350mmとされ
ている。また、パーソナルコンピュータ1の前面には、
開閉自在なドア21が設けられ、ドア21の左右には、
面22が設けられている。図中、左側の面22には、電
源をオンまたはオフするとき操作されるパワースイッチ
23と、キーボード11の赤外線発信部14より出射さ
れた赤外線を受信する赤外線受信部24が形成されてい
る。
【0031】また、パーソナルコンピュータ1の上面に
は、パーソナルコンピュータ1に対して接続される周辺
機器を載置した場合に、その周辺機器の脚部が上面に安
定して配置されるように、周辺機器の脚部に対応する位
置に、凹部25が形成されている。
【0032】図4は、パーソナルコンピュータ1のドア
21を開放した状態を示している。同図に示すように、
ドア21を開放すると、DVD(Digital Versatile Disc)
ドライブ33が露出するようになされている。また、こ
のDVDドライブ33の下方には、シリアルインタフェー
スとしてのUSB端子31とIEEE(Institute of Electrica
l and Electronics Engineers)1394規格の1394
端子32が設けられている。
【0033】図5は、パーソナルコンピュータ1の背面
のドア41を開放した状態を示している。同図に示すよ
うに、ドア41を開放すると、PCカード挿入口42が露
出するようになされている。また、PCカード挿入口42
の下方には、USB端子43、1394端子44の他、プ
リンタを接続するプリンタ端子45と、コンピュータグ
ラフィックスデータを出力するVGA端子46が設けられ
ている。
【0034】図6は、パーソナルコンピュータ1の内部
の構成例を表している。CPU(Central Processing Unit)
71は、例えば、Intel社のPentium(商標)が用いられ
る。このCPUは、166MHzの周波数の内部クロック、ま
たは66MHzの周波数の外部クロックにより動作する。R
AM72は、16MBのメインメモリであり、CPU71によ
り処理されるデータ、プログラムなどを、適宜記憶す
る。ROM73は、CPU71が各種の処理を実行する上にお
いて必要なプログラムを記憶している。EEPROM(Electri
cally Erasable Programmable Read Only Memory)74
は、パーソナルコンピュータ1の電源をオフした後も記
憶する必要があるデータなどを、適宜記憶する。
【0035】グラフィックス処理部75は、動画処理
(動画データの表示形式であるYUV信号からグラフィッ
クス信号データ形式のRGB信号へ変換する色空間変換、
所望の画面寸法で表示するためのスケーリング(拡大ま
たは縮小)処理など)を行う他、3次元グラフィックス
処理(例えば、3次元の物体を2次画面の画面に投影す
るためのラスタライズ処理、オブジェクトの表面を滑ら
かに見せるためのグローシェーディング処理、半透明の
オブジェクトを表現するためのアルファブレンディング
処理など)を行ったり、さらに、その処理結果をディス
プレイメモリ76に書き込み、合成回路85に出力する
処理などを行う。このグラフィックス処理部75はま
た、テキストデータに対応するビットマップデータも生
成する。
【0036】MPEG2ビデオデコーダ77は、DVDドライ
ブ33によりDVDから再生されたビデオデータをデコー
ドし、合成回路85に出力する。サブピクチャデコーダ
88は、DVDから再生されたサブピクチャデータをデコ
ードし、合成回路85に出力する。デジタルサウンド処
理部81は、ADPCM(Adaptive Difference Pulse Code M
odulation)音源の伸長、MPEGオーディオデータの伸長、
残響音やサラウンドなどの効果音生成のためのFM(Frequ
ency Modulation)サウンド構成(すなわち、異なる周波
数と振幅の複数の正弦波を合成することによりオーディ
オ信号を生成する処理)、あるいはMIDI(Musical Instr
ument Digital Interface)ウエーブテーブル合成処理、
AC−3デコード処理などを行う。MIDIウエーブテーブ
ル合成処理とは、楽器音の音素となるデジタルデータを
記憶したウエーブテーブルを用いて、内蔵するシンセサ
イザで、MIDIデータの再生を行う処理である。それぞれ
の処理されたオーディオ信号は、内蔵されているオーデ
ィオミキサによってミキシングされ、アナログオーディ
オ信号に変換され、テレビジョン受像機3のスピーカ5
に出力される。音声認識回路87は、音声認識処理を行
う。
【0037】Intercast(商標)用ボード78は、イン
ターキャストの放送をアンテナ91を介して受信し、復
調する処理を行うボードである。インターキャストにお
いては、映像信号の垂直帰線期間に、World Wide Web(W
WW)のページの基となるHTML(Hyper Text Markup Langua
ge)データを挿入して送信する。受信されたデータは、
ハードディスクドライブ(HDD)80で駆動されるハード
ディスクに蓄積される。ハードディスクドライブ80の
HTMLデータの中を行き来することで、使用者は、疑似的
に、インターラクティブな環境を手にすることができ
る。
【0038】例えば、スポーツ番組の場合、番組の内容
にあわせて、スコアや決定的なシーンの静止画、ビデオ
クリップなどが、このインターキャストで送信される。
これらの静止画やビデオクリップは、関連情報とリンク
されており、例えばアナログ電話回線を介してリンク先
にアクセスし、その関連情報を得ることができるように
なされている。このインターキャストは、Intel社が開
発したものである。
【0039】DSVD(Digital Simultaneous Voice & Dat
a)モデム79は、Intel社の開発したDSVD方式で音声と
データとを時分割多重して、モジュラージャック92を
介して電話回線に出力するとともに、電話回線を介して
入力されたDSVD方式の信号から、オーディオ信号とデー
タとを復調分離する処理を行う。この方式においては、
デジタル圧縮したオーディオ信号と通常のオーディオ信
号とが、V.42プロトコルのヘッダを使って多重化さ
れる。オーディオ信号が存在しない場合、最大のデータ
転送速度は28.8kビット/秒となり、オーディオ信
号がある場合、19.2kビット/秒となる。また、オ
ーディオ信号の伝送速度は、9.6kビット/秒とな
る。オーディオ信号の圧縮伸長方式は、ロックウエル社
のDigiTalk(商標)や、DSPグループのTrueSpeech(商
標)などが用いられる。
【0040】キーボードコントローラ84は、赤外線受
信部24からの信号を受け取り、その受信信号に対応す
る信号をCPU71に出力するようになされている。
【0041】合成回路85は、グラフィックス処理部7
5の出力、MPEG2ビデオデコーダ77の出力、およびサ
ブピクチャデコーダ88の出力を必要に応じて合成し、
NTSCエンコーダ86に出力するようになされている。NT
SCエンコーダ86は、合成回路85より入力されたビデ
オデータをNTSC方式のアナログビデオ信号に変換して、
テレビジョン受像機3に出力するようになされている。
【0042】バスは、便宜上、1つのみが示されている
が、実際には、CPU71とRAM72を接続するローカルバ
ス、キーボードコントローラ84に接続されているISA
(Industry Standard Architecture)バス、およびその他
のROM73乃至HDD80などが接続されているPCI(Periph
eral Component Interconnect)バスにより構成されてい
る。ISAバスは、8ビットまたは16ビットのバスであ
り、PCIバスは32ビットまたは64ビットのバスであ
る。PCIバスは、25MHz乃至66MHzの間の速度で動作
し、最大528KB/秒のスループットを実現する。この
速度は、ISAバスの42倍以上の速度である。
【0043】拡張スロット82は、PCIバスのための拡
張スロットであり、拡張スロット83は、ISAバスのた
めの拡張スロットである。この拡張スロットに、適宜、
所定の機能の周辺回路(例えばSCSIボード)を接続する
ことで、所望の機能を実現することができる。
【0044】なお、ローカルバスとPCIバスの間、およ
びPCIバスとISAバスの間には、それぞれ専用のバスブリ
ッジ回路(図示せず)が設けられている。
【0045】図7は、キーボード11の内部の構成例を
表している。検出回路141は、キー12の中から操作
されたキーを検出するようになされている。また、検出
回路141は、タッチパッド13の操作された点Pの座
標データ(X,Y)を検出する。そして、検出回路14
1は、検出結果を送信モジュール142に出力する。送
信モジュール142は、検出回路141より入力された
信号を送信信号に変換し、赤外線発信部14に出力し、
赤外線信号として発信させる。
【0046】電池143は、電源回路144に所定の電
力を供給している。電源回路144は、検出回路141
と送信モジュール142に対して必要な電力を供給して
いる。電源スイッチ145は、キーボード11を使用し
たり、使用を中止するとき操作される。
【0047】次に、このパーソナルコンピュータ1にお
いて、DVDの再生を指令した場合の動作について説明す
る。キーボード11のキー12のうち、DVDの再生の指
令を入力するキーを操作すると、その操作が検出回路1
41で検出される。送信モジュール142は、検出され
たキーに対応する信号を赤外線発信部14に出力し、赤
外線信号として出力させる。
【0048】この赤外線信号は、パーソナルコンピュー
タ1の赤外線受信部24で受信される。キーボードコン
トローラ84は、赤外線受信部24より検出信号の入力
を受けると、検出結果をバスを介してCPU71に出力す
る。CPU71は、このようにして、DVDの再生の指令を受
けると、DVDドライバ33を制御し、そこに装着されて
いるDVDを再生させる。
【0049】DVDドライバ33でDVDより再生された再生
信号のうち、ビデオデータは、MPEG2ビデオデコーダ7
7に供給され、デコードされる。また、DVDより再生さ
れたサブピクチャデータは、サブピクチャデコーダ88
に入力され、デコードされる。合成回路85は、MPEG2
ビデオデコーダ77より出力されたビデオデータと、サ
ブピクチャデコーダ88より出力された字幕データとを
合成し、合成したデータをNTSCエンコーダ86に出力す
る。NTSCエンコーダ86は、入力されたデータをNTSC方
式のビデオデータに変換し、テレビジョン受像機3のCR
T4に出力し、表示させる。
【0050】また、DVDより再生されたオーディオデー
タは、デジタルサウンド処理部81に入力され、AC−
3方式でデコードされる。そして、デコードされたオー
ディオ信号は、アナログ信号に変換された後、テレビジ
ョン受像機3のスピーカ5に出力され、放音される。
【0051】但し、この場合において、デジタルサウン
ド処理部81は、前左側と前右側の2チャンネルのオー
ディオ信号のみをスピーカ5に出力する。
【0052】以上のようにして、DVDより再生された画
像と音声を楽しむことができ、必要に応じて、予めDVD
に記録されている字幕も見ることができる。
【0053】一方、ユーザが、キーボード11を操作
し、センターチャンネルの台詞に対応する字幕の表示を
指令したとき、CPU71は、デジタルサウンド処理部8
1を制御し、そこに入力されている5.1チャンネル分
のオーディオデータのうち、センターチャンネルのオー
ディオデータを音声認識回路87に供給させる。音声認
識回路87は、入力されたセンターチャンネルの台詞信
号を音声認識し、テキストデータを生成し、グラフィッ
クス処理部75に出力する。グラフィックス処理部75
は、入力されたテキストデータに対応するビットマップ
データを生成し、合成回路85に出力し、MPEG2ビデオ
デコーダ77の出力する画像に字幕として重畳させる。
その結果、テレビジョン受像機3のCRT4には、センタ
ーチャンネルの台詞が字幕として重畳された画像が表示
される。
【0054】さらに、キーボード11を操作し、音声認
識された結果得られたテキストデータの記録を指令する
と、CPU71は、音声認識回路87より出力されたテキ
ストデータをHDD80に供給し、ハードディスクに記録
させる。
【0055】CPU71は、このようにして、ハードディ
スクに記録されたテキストデータを翻訳のアプリケーシ
ョンソフトに従って翻訳させたり、図示せぬプリンタに
出力し、プリントさせたり、DSVDモデム79を介して、
ネットワーク上に伝送させたりして利用する。
【0056】
【発明の効果】以上の如く、請求項1に記載の情報処理
装置および請求項6に記載の情報処理方法によれば、多
重化信号から分離された台詞信号を音声認識し、音声認
識結果に対応するテキストデータを発生するようにした
ので、音楽や効果音などに影響されずに、正確に、台詞
をテキストデータに変換することができる。従って、そ
れを字幕として表示させたり、他の言語に翻訳したり、
再利用することが可能となる。
【図面の簡単な説明】
【図1】本発明の情報処理装置を応用したDVDプレーヤ
の構成例を示すブロック図である。
【図2】本発明の情報処理装置を応用したAVシステム
の構成例を示す斜視図である。
【図3】図2のパーソナルコンピュータの前面から見た
外観の構成を示す斜視図である。
【図4】図3のパーソナルコンピュータのドアを開放し
た状態を示す斜視図である。
【図5】図2のパーソナルコンピュータの後面のドアを
開放した状態を示す斜視図である。
【図6】図2のパーソナルコンピュータの内部の構成例
を示すブロック図である。
【図7】図2のキーボードの内部の構成例を示すブロッ
ク図である。
【符号の説明】
1 パーソナルコンピュータ, 3 テレビジョン受像
機, 4 CRT, 5スピーカ, 11 キーボード,
12 キー, 13 タッチパッド, 14 赤外線
発信部, 24 赤外線受信部, 33 DVDドライ
ブ, 75 グラフィックス処理部, 77 MPEG2ビ
デオデコーダ, 85 合成回路, 86 NTSCエンコ
ーダ, 111 DVD, 112 デマルチプレクサ,
113MPEG2デコーダ, 114 フレームメモリ,
115 ビデオエンコーダ,116 AC−3デコー
ダ, 118 サブピクチャデコーダ, 120 音声
認識部, 122 ビットマップデータROM

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ビデオ信号と前記ビデオ信号に対応する
    台詞信号とが多重化されている多重化信号から前記台詞
    信号を分離する分離手段と、 分離された前記台詞信号を音声認識する音声認識手段
    と、 音声認識結果に対応してテキストデータを発生する発生
    手段とを備えることを特徴とする情報処理装置。
  2. 【請求項2】 前記ビデオ信号をデコードするデコード
    手段と、 デコードされた前記ビデオ信号に対応する画像に、前記
    テキストデータに対応するテキストを合成する合成手段
    とをさらに備えることを特徴とする請求項1に記載の情
    報処理装置。
  3. 【請求項3】 前記テキストデータを記憶する記憶手段
    をさらに備えることを特徴とする請求項1に記載の情報
    処理装置。
  4. 【請求項4】 前記多重化信号は、DVDからの再生信号
    であることを特徴とする請求項1に記載の情報処理装
    置。
  5. 【請求項5】 前記台詞信号は、ドルビーAC−3でエ
    ンコードされているオーディオ信号のうちのセンタチャ
    ンネルの信号であることを特徴とする請求項1に記載の
    情報処理装置。
  6. 【請求項6】 ビデオ信号と前記ビデオ信号に対応する
    台詞信号とが多重化されている多重化信号から前記台詞
    信号を分離する分離ステップと、 分離された前記台詞信号を音声認識する音声認識ステッ
    プと、 音声認識結果に対応してテキストデータを発生する発生
    ステップとを備えることを特徴とする情報処理方法。
JP8310246A 1996-11-21 1996-11-21 情報処理装置および方法 Withdrawn JPH10149193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8310246A JPH10149193A (ja) 1996-11-21 1996-11-21 情報処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8310246A JPH10149193A (ja) 1996-11-21 1996-11-21 情報処理装置および方法

Publications (1)

Publication Number Publication Date
JPH10149193A true JPH10149193A (ja) 1998-06-02

Family

ID=18002942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8310246A Withdrawn JPH10149193A (ja) 1996-11-21 1996-11-21 情報処理装置および方法

Country Status (1)

Country Link
JP (1) JPH10149193A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100326400B1 (ko) * 1999-05-19 2002-03-12 김광수 자막지향 탐색정보 생성 및 탐색방법과, 이를 사용하는 재생장치
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
KR100466931B1 (ko) * 2002-03-20 2005-01-24 엘지전자 주식회사 캡션 데이터 재생 및 탐색방법
JP2013179570A (ja) * 2012-02-03 2013-09-09 Panasonic Corp 再生装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100326400B1 (ko) * 1999-05-19 2002-03-12 김광수 자막지향 탐색정보 생성 및 탐색방법과, 이를 사용하는 재생장치
KR100466931B1 (ko) * 2002-03-20 2005-01-24 엘지전자 주식회사 캡션 데이터 재생 및 탐색방법
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
JP2013179570A (ja) * 2012-02-03 2013-09-09 Panasonic Corp 再生装置

Similar Documents

Publication Publication Date Title
JPH0561491A (ja) カラオケ装置及びその記録媒体
TW510144B (en) Method and structure to output four-channel analog signal using two channel audio hardware
JP2003255935A (ja) 再生切替装置及びプログラム
JPH10149193A (ja) 情報処理装置および方法
JP4471640B2 (ja) 音楽再生装置
CN113454712B (zh) 发送装置、发送方法、接收装置和接收方法
JPH07226017A (ja) 演奏記録再生装置
JPH1169228A (ja) 楽音再生装置
KR0160642B1 (ko) 영상반주기 내장형 텔레비젼의 노래연습방법
JP2002300434A (ja) 番組送出システム及びこれに用いる番組送出装置
JP2002157867A (ja) オーディオシステム及びオーディオ装置の制御方法
JPH10149150A (ja) 画像表示制御装置および方法、並びに記録媒体
JPH10319977A (ja) カラオケ演奏装置およびカラオケ用携帯型試聴端末
JP3698874B2 (ja) カラオケ装置および文字表示装置
JP2977855B2 (ja) 文字放送システム
JP4561561B2 (ja) カラオケ装置
JP3037015U (ja) カラーテレビ用カラオケ装置
JPH10161900A (ja) 情報処理装置および方法
JP3899595B2 (ja) 映像再生装置
KR100761568B1 (ko) 외부 음향기기 접속 기능을 갖는 노래방 장치
JPH09284662A (ja) テレビジョン受像機
KR100270625B1 (ko) 콤팩트디스크 가요반주기에서의 엠펙 오디오 합성장치
KR0141208B1 (ko) 영상반주기 내장형 텔레비젼
JPS63159898A (ja) 音楽情報再生装置
KR0176480B1 (ko) 영상반주기 내장형 텔레비젼

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040203