JP2004302175A - 音声認識システム、音声認識方法及び音声認識プログラム - Google Patents

音声認識システム、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP2004302175A
JP2004302175A JP2003095410A JP2003095410A JP2004302175A JP 2004302175 A JP2004302175 A JP 2004302175A JP 2003095410 A JP2003095410 A JP 2003095410A JP 2003095410 A JP2003095410 A JP 2003095410A JP 2004302175 A JP2004302175 A JP 2004302175A
Authority
JP
Japan
Prior art keywords
text
collation
phoneme
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003095410A
Other languages
English (en)
Inventor
Yasumasa Nakada
安優 中田
Takeshi Osawa
岳史 大澤
Tetsuji Osaka
哲司 大坂
Isao Sato
功 佐藤
Hironobu Takahashi
裕信 高橋
Hiroo Yamashita
浩生 山下
Kenshin Cho
建新 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIMIKKU KK
Fuji Television Network Inc
Original Assignee
FUJIMIKKU KK
Fuji Television Network Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUJIMIKKU KK, Fuji Television Network Inc filed Critical FUJIMIKKU KK
Priority to JP2003095410A priority Critical patent/JP2004302175A/ja
Publication of JP2004302175A publication Critical patent/JP2004302175A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】既存の音声認識技術を利用し、放送中に発話される音声を精度良く検出する。
【解決手段】音声信号を入力する音声入力部601と、テキストデータを含む原稿データを入力する原稿/台本入力部604と、音声入力部601から入力された音声を音声音素列に変換する音声音素変換部603と、原稿/台本入力部604から入力されたテキストデータをテキスト音素列に変換するテキスト音素変換部606と、音声音素列とテキスト音素列との一致不一致を照合する照合部(第1検出照合部608及び第2検出照合部610)と、音声音素列とテキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力する照合結果出力部611とを備える。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
本発明は、ビデオストリームや音声ストリームなどからなるマルチメディアコンテンツに含まれる音声信号を認識する音声認識システム、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
従来、マルチメディアコンテンツは、ビデオストリームと音声ストリームから構成されるのが一般的である。近年にあっては、このビデオストリームに関する応用方法が進み、その一つとして、ビデオストリームにインデックスを付与するいわゆるインデキシング技術がある。このインデキシングとしては、例えば、ビデオストリームに対して、ビデオストリームの検出情報と同期したタイムコードを付与し、このタイムコードに基づいて映像の頭出しができ、このタイムコードをサムネイル表示等のインターフェースと連携させることにより、シーンチェンジ検出やハイライトシーンなど映像上の特徴を、簡単なユーザー操作で検索することが可能となる。
【0003】
近年、このインデキシングの解析方法は盛んに研究されており、この技術を応用して、「このCM」、「こんなイメージのシーン」等の抽象的なキーワードを用いて、希望する映像が写っているシーンの再生するなどの検索要求に答えられるものとなっている。
【0004】
一方、音声ストリームに対しても同様に、音声認識などの技術を利用したインデキシング技術の開発もなされている。この音声ストリームに対するインデキシングとしては、例えば、事前に作成された電子化原稿を解析し、実際に放送されたテレビ番組のナレーションの音声認識を行うなど、テレビ放送の分野において良好な結果を得ている。このような音声認識によるインデキシングを応用することにより、特定発話語が認識された段階で警告を鳴らしたり、電子化原稿に対してその文を字幕として表示するなどのサービスを実行することが可能となる(例えば、特許文献1参照)。
【0005】
【特許文献1】
特開2002−244694号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上述したテレビ放送の分野におけるインデキシング技術は、例えばドキュメンタリー番組など予め放送内容が決定され、発話者も発話訓練を受けたアナウンサーやレポーターであり、良好な録音環境など、音声認識にとって好適に管理された環境に限定されて使用されている。
【0007】
ところが、一般に連続発話に対する音声認識は、不特定話者対応、不特定内容対応、発話者の発声不完全性(例えば、「東京」を「とーきょー」と発話することが多い)、発話の多様性(「110番」は「いちいちぜろばん」、「ひゃくじゅうばん」、「ひゃくとうばん」)、背景音や発話の重畳、環境ノイズなどより、正確に認識することが困難であり、実用には至っておらず、まだ研究段階にある。
【0008】
このため、例えばニュース報道の現場は、ドキュメンタリーのナレーションなどの理想的な環境と異なり、背景ノイズが多かったり、放送時間に追われ早口で話したりする場合があり、インタビューなどにおいては発話訓練を受けていない者を対象とする場合も多く、このような場合にまで上述した音声認識を適用するのは困難であるのが現状である。
【0009】
また、ビデオストリームは早送りによって見る時間が短縮できるのに対して、音声ストリームでは、早送りなど時間を短縮した場合、人間による認識が困難となり、画像認識の技術をそのまま応用することができないという問題がある。
【0010】
そこで、本発明は、以上の点に鑑みてなされたもので、既存の音声認識技術を利用し、放送中に発話される音声をリアルタイムに且つ高精度で、検出することのできる音声認識システム、音声認識方法及び音声認識プログラムを提供することをその目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明は、音声信号を入力するとともに、テキストデータを含む原稿データを入力し、入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換し、音声音素列とテキスト音素列との一致不一致を照合し、音声音素列とテキスト音素列とが一致する場合に、一致する音素列に対応するテキストデータを検出結果として出力する。
【0012】
本発明によれば、音声情報をセンシングし、事前に準備した特定発話語若しくは電子化原稿に基づき、放送中の発話に一致する発話語若しくは発話文を検出・照合することができる。すなわち、本発明は、原稿や台本などの原稿データに基づいて発話される音声に対して、その電子化原稿の文と発話音声との照合処理を行い、その発話タイミングで、原稿の文をリアルタイムで検出する。
【0013】
なお、本発明では、不特定話者、不特定内容並びにリアルタイムでの処理を行うために、照合処理に際し、音素処理を採用する。これにより、発話の淀み、言い直し、未知語に対応することができ、発話内容が決められないジャンルに対しても、本発明を適用することができる。
【0014】
また、本発明では、検出照合処理にあたり、電子化原稿はテキスト−音素変換処理によってテキスト音素列に変換し、音声は音声−音素変換処理により音声音素列に変換する。そして、この両者の音素列を、例えば、連続動的計画法(連続DP:Continuous Dynamic Programming)により比較し、音声音素列と適合するテキスト音素列を検出する。
【0015】
上記発明において、原稿データは、原稿の内容に応じて項目分けがされ、項目に応じてテキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、範囲内の文字列を照合対象テキストとして抽出することが好ましい。
【0016】
この場合には、電子化原稿は、項節若しくは章節のように項目分けし、構造化文書形態を採ることにより、文書の順番と発話の順番を保証することができ、これの特徴を利用し、全文を照合対象とすることなく、効率の良くしかも高速な照合処理が可能となる。
【0017】
また、構造化文書で節(分割されたテキストデータ)にあたるテキストを一区切り単位(一息で発話できる文書量若しくは曖昧さを防ぐために設けられる間:ポーズで区切られる文書。以下、適宜「区切りテキスト」と称する。)で管理し、その文の先頭からの音節片(例えば、8音節程度とした)を、照合対象テキストとし、この照合対象テキストの音素列を検査音素列として照合処理を行うことにより、処理の高速化を図ることができ、発話に対してリアルタイムでテキストデータの検出を行うことが可能となる。
【0018】
上記発明において、前記分割された各テキストデータには、優先度に応じた重み係数を付与し、重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことが好ましい。なお、上記発明においては、照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された重み係数を逐次変動させることが好ましい。
【0019】
この場合には、精度を低下させるいくつかの要因の内、総当りのテキスト音素照合における誤検出を防止することができる。すなわち、前者において、同じような内容が多く含まれている文は誤検出を生じ易い。照合精度を高めるため、前述の照合処理において、区切りテキストに対して原稿の順番に沿った優先順位を与えて誤検出に対応した。これにより、例えば原稿が「内閣は今日・・・」、「総理は今日・・・」の順番で用意されている場合、早く出現するテキストは後に現れるテキストよりも優先順位を高くすることにより、誤検出を回避することができる。
【0020】
上記発明においては、照合対象テキストと、音声音素列との一致不一致を照合し、所定数の該当する照合対象テキストを検出候補として出力し、この出力された検出候補と音声音素列との一致不一致を照合し、検出結果を出力することが好ましい。
【0021】
この場合には、一次照合で検出した照合候補に対して、文全体の照合を行う2段階で処理を行うことにより、処理の高速化を図ることができ、リアルタイムに電子化原稿文と音声の同期タイミングを図ることができる。
【0022】
上記発明においては、音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより照合精度を調整することが好ましい。
【0023】
例えばニュース報道の現場は、ドキュメンタリーのナレーションなどの理想的な環境と異なり、背景ノイズが多い場合であっても、連続DPの閾値調整により、状況に応じた精度で認識を行うことができる。
【0024】
上記発明においては、原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、発話状況情報に基づいて、音声の継続長を変化させることにより、変換速度を調整することが好ましい。
【0025】
この場合には、例えば、テキストから音素列を生成するに際し、標準となるATR503文の発話データから求められた音素継続長に対して、母音の継続長を早さに合わせ短くすることが可能となり、放送時間に追われ早口で話したりするようなときであっても、検出漏れを防止することができ、高い照合精度を得ることができる。
【0026】
上記発明においては、出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うことが好ましい。これにより、特定の発話に対して警告を行うことができるため、不適切な発話が放送されるのを未然に防止することができる。
【0027】
また、上記発明においては、検出結果を照合ログとして蓄積するとともに、音声信号が含まれる素材データを蓄積し、蓄積されたテキストデータと、素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力することが好ましい。さらに、上記発明においては、原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、検出結果を照合ログとして蓄積するとともに、音声信号が含まれる素材データを蓄積し、照合ログに含まれるキーワードと、素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力することが好ましい。
【0028】
このようなユーザーインターフェースを設けることにより、例えば、放送される映像に対して原稿データに基づいた字幕付与したり、映像にインデックスを付与しつつリアルタイムにMPEG2エンコードを行い、装置内に素材データ(ビデオファイル)として蓄積することができる。また、検出したタイミングは、即ち照合ログ(発話テキスト)は、例えば、映像と同期してMPEG7などのメタ情報としてファイル保存することが可能であり、このメタファイルとビデオファイルに基づいて、ユーザーが希望するシーンを表示することができる。
【0029】
この結果、再生映像に合わせ、字幕のようにテキストを表示する機能、そのテキストが発話されている映像を表示する機能、検索によって希望する映像シーンを表示する機能などの機能が可能となる。
【0030】
【発明の実施の形態】
[第1実施形態]
(システムの構成)
以下に、本発明の実施形態に係る音声認識システムについて詳細に説明する。図1は、本実施形態に係る音声認識システムの概略構成を示すブロック図である。
【0031】
本実施形態に係る音声認識システムは、図1に示すように、蓄積PC1と、照合PC2と、時計サーバー3とがネットワーク4により接続されて構成される。
【0032】
蓄積PC1は、映像信号と音声信号をMPEG2エンコーダーに入力し、MPEG2フォーマットのデジタルビデオとしてファイル化し、蓄積する機能を有するとともに、照合用の電子化原稿、照合ログファイルなどシステムに関連するファイルを保持するサーバーとしての役割も果たす。照合PC2は、音声信号をPCのマイク入力から取り込み、デジタル化して音声処理を行う機能を有する。
【0033】
時計サーバー3は、2台のPC1及び2の時間を一致させるサーバー装置であり、基準時計サーバー装置や標準時計サーバーを用いることができる。なお、絶対時間を一致させる必要がない場合、時計サーバーを設けず、2台のPC1,2間で時計同期を取る機能で代用することができる。
【0034】
(蓄積PC1の構成)
蓄積PC1は、図2に示すように、ビデオ保存・音声照合結果保存プログラム8、照合結果再現プログラム10を実行する。ビデオ保存・音声照合結果保存プログラム8は、照合処理の対象となる原稿データを原稿データベース9aに蓄積する機能と、音声検出照合プログラム6と連動して、映像音声をデジタル化しデジタルビデオファイルとしてビデオファイルデータベース9cに保存する機能とを有するとともに、音声検出照合プログラム6による照合結果を照合ログファイルとして照合ログデータベース9bに保存する機能を有する。照合ログファイル並びにビデオファイルのファイル名は年月日時分を組み入れユニークな名前を自動的に発生して管理している。
【0035】
照合結果再現プログラム10は、照合ログファイルを用いてその発話があった時間を確認したり(精度確認のデバッグとして利用)、ビデオを再生しながら字幕を表示したりするプログラムである。
【0036】
この照合ログファイルの内容は、連動するビデオファイル名などの設定情報と、発話テキスト、発話された標準時刻、音声検出照合プログラムのスタートを開始時間とする経過時間などの発話情報から構成される。標準時刻は、何時何分何秒にその発話があったかの確認を行う基準となるものである。また経過時間は、ビデオファイルと同期し、この時間を用いてタイムコードが示す時間のビデオ頭出しができる。
【0037】
(照合PC2の構成)
照合PC2は、図2に示すように、音声検出照合プログラム6と照合結果出力プログラム7を実行する。音声検出照合プログラム6は、原稿データに基づいて音声を処理し、照合結果である照合ログを出力する機能を有するプログラムである。
【0038】
照合結果出力プログラム7は、発話と同期して、その発話内容を業務に適した形で出力するプログラムである。本実施形態では、照合する原稿データが特定発話語若しくは特定発話文であった場合、それらの言葉が発せられたことを知らしめるため、アラームを鳴らす、パトランプを回す、音声ガイダンスを流すなどの警告処理を行う。また、照合結果出力プログラム7は、照合する原稿がアナウンサー原稿や台本の場合、発話に合わせ発話文を字幕として表示をする字幕放送に適応できる機能を有する。
【0039】
ここで、照合PC2上で実行される音声検出照合プログラム6による音声検出照合処理機能について説明する。図3は、音声検出照合処理の機能を示すブロック図である。
【0040】
同図に示すように、音声検出照合プログラム6は、照合PC2上で実行されることにより、照合PC2上に、音声入力部601と、音声分析部602と、音声音素変換部603と、原稿/台本入力部604と、照合範囲決定部605と、テキスト音素変換部606と、発話速度調整処理部607と、第1検出照合部608と、感度調整制御処理部609と、第2検出照合部610と、照合結果出力部611とを仮想的に構築する。各部の構成及び機能について、処理毎に説明する。
【0041】
(音声入力〜音声音素変換)
音声入力部601は、生放送などの送出信号に含まれる音声5aや、VTR、LDあるいはDVDなどの記録媒体5bなどから取得され、音声を含んだ映像番組データからアナウンサー、ナレータ、出演者の音声信号を照合PC2において、16KHz(サンプリングレート)、16ビット(量子化)で抽出するモジュールである。この音声入力部601に開始指令が入力されると同時に、蓄積PC1のMPEG2エンコーダーが起動され、ビデオファイルの作成及び蓄積が始まる。
【0042】
音声分析部602は、音声中から認識に有効な特徴量を抽出する部分である。音声信号が1次元配列の信号列として取得された場合、その分析方法としては、図4に示すような、取得された音声信号の時間的な変化を、音声波形としてサンプリングし、そのままデジタル化する方法と、図5に示すような、音声信号に含まれている周波数成分を分離抽出し、個々の成分についてデジタル化する方法である。
【0043】
この図5に示すような、周波数成分を用いて音声信号の分析を行う方法を一般にスペクトル分析と呼んでおり、現在の音声分析法の主流となっている。スペクトル分析の効果として、時間領域の波形は外部環境の変化に対して、変動しやすいが、スペクトル波形は変動が比較的少なく、また、スペクトル分析により、その音声を特徴づける情報が容易に得られる。本実施形態では、音声分析部602において、図5に示すスペクトル分析方法により音声分析を行い、認識に必要な特徴量を抽出している。ただし、本実施形態は例示であり、本発明の実施においては、上述した図4に示す方法の他、種々の音声分析方法を採用することができる。
【0044】
前記音声音素変換部603は、音声から音素を抽出し、抽出した音素を出力するモジュールであり、本実施形態では、ベイズ識別関数によるフレーム音素認識を用い、音声分析部602から入力された音声特徴量と、音素モデル辞書603aから取得される音素モデルとから、フレーム単位(1フレームは8msec)で第N位まで(N≦音素数)の音素認識結果を出力するモジュールである。なお、この音声音素変換における音素継続長は、表1に示す、発音記号・継続長対応表から取得される。
【0045】
【表1】
Figure 2004302175
なお、表1に示す音素継続長は、ATR音素バランス文の発話データを分析して求めたものである。このATRが提供する研究用日本語音声データベースセットB(文音声データベース)は、ATR音素バランス文(503文)を10話者(男女のアナウンサー及びナレータ)が読み上げた発話データとラベル付けしたデータから構成され、音声処理基本データとなっている。本実施形態では、このデータを音素モデル辞書として利用する。
【0046】
(原稿/台本入力〜テキスト音素変換)
原稿/台本入力部604は、文字列を含むテキストデータを入力するテキストデータ入力部であり、本実施形態では、放送番組の原稿や台本が電子化されたテキストデータを入力する。なお、このテキストデータが電子化されていない場合は、テキスト入力支援システムにおいてその電子化を行う。
【0047】
原稿/台本入力部604は、蓄積PC2上の原稿データベース9a内にある原稿/台本フォルダにある所定の原稿ファイルを読み込む。この原稿ファイルは、発話スピードレベル、背景音レベル、環境ノイズの状況など、放送番組の種類に応じた発話状況情報と、テキストデータである発話台本情報から構成される。
【0048】
発話状況情報は、音声照合のレベル設定に用いられるデータであり、このうち、発話スピードレベルは番組の内容に応じて記述され、例えばニュース番組やバラエティ番組にあっては、一般に早口で話され、ドキュメンタリー番組などではゆっくり話され、ドラマ番組にあっては、早口で話すシーン、ゆっくり話すシーンである旨が記述される。また、背景音レベル情報には、例えば、ニュースやドキュメンタリー番組にあっては、屋外の撮影である場合や、ドラマや映画番組にあっては背景音楽が多いシーンなどが記述される。
【0049】
発話速度調整処理部607は、原稿ファイルに含まれた発話状況情報に応じて、テキスト音素変換部606における発話スピードを調整するモジュールである。この発話速度調整処理部607により、発話状況並びに発話環境に応じた音声照合を行い、音声認識の精度を向上させることができる。
【0050】
照合範囲決定部605は、原稿/台本入力部604で読み込んだ原稿に基づき、これらから発話されようとする項目(章)のテキストデータを、テキスト音素変換部に出力するモジュールである。この際、照合範囲決定部605は、これから発話されようとする項目(章)の内容、後続の項目の先頭文字列の範囲を決定し、この範囲内に含まれるテキスト情報(文字列)をテキスト音素変換部606に出力する。通常、放送番組では、これから発話される項目は事前に定められた順序に従い、状況に応じて、項目の入れ替えも生じるが、放送前において予測される範囲であり、照合範囲決定部605は、この範囲に関する情報を保持しており、この情報に基づいて項目の戦闘情報を決定する。
【0051】
なお、本実施形態に係る照合範囲決定部605での照合範囲決定についてさらに詳述する。原稿データは、通常の文書と同じように一定の文書構造を有するという特徴を有している。この文書構造は、大きな括りとしていくつかの大項目があり、その一つの大項目にはいくつかの中項目があり、その一つの中項目にはいくつかの小項目があるというような階層構造を有している。
【0052】
照合範囲決定部605は、この文書構造に注目し、発話単位毎に文を細分化した文節毎に原稿データを管理する。ここで、原稿データの例として、ニュース原稿の構造、ニュース原稿の制作から送出までについて述べる。
【0053】
(1)ニュース原稿の構成
ここで、原稿の構造について説明する。図6は、原稿データとして、ニュース番組の報道用原稿を例示する説明図である。この原稿において、ニュースは、階層L1において、いくつかの項目に分けられ、制作管理されている。階層L1の下層には、階層L2、L3が関連付けられて階層構造をなしている。
【0054】
例えば、放送されるニュースの項目には、政治情報、国際情勢、経済情報、事件・事故などの社会情報、ローカルニュース、気象情報などがある。これらの項目を基にしてニュースが送出され、その順番は、階層L1中の項目1〜nのようにヘッドラインや挨拶(「こんばんは、7月7日、夜7時のニュースです。」と簡単な挨拶等)、ニュース項目中で最も話題性の高い項目がトップニュースとなり、その後政治情報、国際情勢、経済情報、社会情報、ローカルニュース、気象情報へと続く(話題性、祭事、節目などの事情により順番が異なる)。また、現在の項目から次の項目に移る場合、次の項目の案内を入れることがある。例えば、「今夜は先ず、内閣誕生のニュースからお伝えいたします。」、「次は地震のニュースです。」、「続いて環境に関するニュースです。」などがある。これらの項目案内は、時間の都合により省略されることもある。
【0055】
本実施形態において、階層L1内の各情報の一括りとなるニュース単位を、ニュース項目と呼ぶ。また、放送当日のニュースの状況により、各項目の中が、いくつかに分かれていることもあり、これらの子項目と呼んでいる。このように派生した項目(子項目)は、上位階層L1の親項目と関連付けされ、下層階層L2以下で管理されている。
【0056】
階層L1に含まれる一つのニュース項目は、通常400字程度のテキスト(気象情報など長いものでは800文字程度)からなり、25区切り程度(長いもので50区切り程度、区切りとは一息で発話されるテキスト量)程度の量である。本実施形態において、この区切られたテキストを区切りテキストと呼ぶものとする。
【0057】
なお、ここではニュースを取り上げたが、ドラマやドキュメンタリーなどにおいても、その原稿若しくは台本はニュースの項目構造と同じで、章節で示されるようにいくつかの括りから階層構造をなす。
【0058】
(2)ニュース原稿の制作から送出までの処理
ニュース原稿制作は、先ず、ニュース項目担当部門の担当記者が取材した内容に基づいて、期日までに原稿を作成する。出来上がった記者原稿は担当デスクによって校正が行われる。担当デスクで印刷された印刷物がアナウンサー原稿となり、報道制作関係部門に配布される。
【0059】
ドラマやドキュメンタリーなどの番組は事前に作成された原稿若しくは台本に従い、時間と共に進行して収録される。しかしニュースは生放送でしかも時間枠が定められている。ニュース番組の進行状況によっては番組内での時間調整が必要となることもある。このような状況において、制作担当者は、アナウンサー原稿に対して部分削除や追加などの編集を手作業で行うことがある。従って、実際の放送ではこのように、アナウンサー発話が事前に電子化された原稿と必ずしも一致しないことがあり得る。またニュース放送では、できるだけ鮮度の高い情報を提供するため、取材並びに原稿の準備など理由により、当初予定の項目順番が入れ替わることもよくある。この項目順番変更は、アナウンサーがその原稿を読む前に原稿を管理するコンピュータシステムに反映されるため、音声検出処理に影響を与えない。
【0060】
(3)照合範囲決定と優先順位付与
本実施形態において、原稿データは、原稿の内容に応じて項目分けがされており、これらの項目に応じてテキストデータが分割され、分割されたテキストデータには、優先度に応じた重み係数が付与されている。すなわち、図7に示すように、上位階層L1において、n個の項目Fi(i=1,n)があり、各項目は複数の区切りテキストにより構成される。これらの区切りテキストは音素変換処理によって音素列が生成される。ここでi番目の項目全体に対応する音素列をFiとし、その中の区切りテキストに対応する音素列をFij(i=1,n j=1,mi)とする。
【0061】
現在、i番目の項目が発話されようとする時点において、照合範囲決定部605の処理は次のようになる。この範囲決定処理において、項目Fi中の区切りテキストが、最優先の候補となり、放送時間の都合などにより、この項目発話途中で別の項目に移ることも考えられるため、この項目以降の各項目の先頭区切りテキストFk1(k=i+1,n)が次の候補となる。
【0062】
項目FiにおいてFij(j=1,m)の区切りテキストがあり、これからj=1の区切りテキストが発話されようとしているとすると、この候補jの優先順位が最も高く、j+1、j+2と優先度が低くなる。優先度は数値(ウェイト:w1、w2、w3、・・・)で示され、第2検出照合部610での判定閾値レベルに反映される。
【0063】
図3に示した前記テキスト音素変換部606は、図8のステップS101〜S103に示すように、テキスト中に混在する漢字、かな、カタカナ、数字、数値を、先ずカタカナに変換し、このカタカナ文から発音記号を求め、音素列へと変換するモジュールである。
【0064】
このテキスト音素変換部606では、照合範囲決定部605で決められた区切りテキスト全文を音素列に変換する。また第1検出照合部608の処理を高速に行うための検査音素列(区切りテキストの先頭からの音節片:本実施形態では8音節とする)を生成する。図9に、テキストと音素列の具体的なサンプルを示す。同図に示すように、発話の多様性対応のため、数値などはひらがなで表記することが必要となる。
【0065】
このテキスト音素変換部606における漢字−カタカナ変換処理では、漢字かな混じりのテキストを形態素解析(文を品詞毎に分割する技術)して品詞毎に分割し、さらにすべてカタカナからなる文字列に変換する。
【0066】
(例) 私は太郎です―――>ワタシワタローデス
また、このテキスト音素変換部606におけるカタカナ−発音記号変換処理では、カタカナからなる文字列を、表2の「カタカナ・発音記号対応表」を用いて、発音記号列に変換する。
【0067】
【表2】
Figure 2004302175
(例) ワタシワ―――>watashiwa
また、このテキスト音素変換部606においける発音記号−音素列変換処理では、前述した表1の発音記号・継続長対応表を用いて各発音記号を継続長分連続させ、音素列を生成する。ここで、継続長とは、発音記号の継続する長さで単位はフレーム。フレームとは,サンプリングされた音声信号(例えば 16 kHz でサンプリングすると1秒間に 16000 個のデータとなる)を等間隔に切り出した単位で、8ミリ秒おきに切り出している場合は1フレームの時間長は8ミリ秒となる。
【0068】
Figure 2004302175
なお、表1中の数値は、フレーム数を示す。
【0069】
この例において「watashiwa」の発話の継続長は、wが7フレーム、以下a(10)、t(2)、a(10)、sh(15)、i(9)、w(7)、a(10)を累積した70フレームとなり、70フレーム×8msec=0.56secとなる。即ち標準発話において「わたしは」は0.56秒で発話されることになる。
【0070】
発話速度調整処理部607は、アナウンサーが最適な環境の下、標準発話口調で発話しているため、民放各社の報道アナウンサーの発話に比べ、ゆっくりした口調で原稿を読み上げている。その発話速度は約1.5倍の違いとなる。また、発話速度調整処理部607は、第1検出照合部608の精度を向上させるため、発話速度の変化は主として母音の長さに反映されるという音響的な特徴(早口発話において母音の長さが短くなる)を着目し、原稿から音素に変換する段階で母音の継続長を調整する処理が設けられている。
【0071】
(検出照合〜照合結果出力)
第1検出照合部608は、音声音素変換部603で得た入力音声の音素列に対して、テキスト音素変換部6から得た照合範囲にあるテキスト音素列群を連続DPで比較を行い、累積距離の小さな第4位までの候補を求める。
【0072】
原稿にある全文を照合対象とする計算量が多くなりリアルタイムでの処理が不可能となるため、照合範囲決定部で求められた対象項目のテキスト並びに後続項目の先頭文を対象とし、それらの文から求めた検査音素列と入力音声音素列との照合を行う。
【0073】
本実施形態におけるDPマッチングと連続DPについて、図10を用いて、以下に説明する。DPマッチングは2つのデータ列の類似度を測るアルゴリズムである。ここに2つのデータ列R、Qがあるとする。データ列Rはデータr1,r2,r3,,,,,,,rmからなり、データ列Qはデータq1,q2,q3,,,,qnからなる。同図において、横軸にデータ列Rを、縦軸にデータ列Qをとる。先ず全格子点上で、各データ間の距離値(近さの逆)を求める。例えば格子点Pはデータr2とデータq3との距離値を持つ。次に始点Sから終点Eを格子点を通るようにつなげ(これをパスと言う)、通る格子点の距離値を全部足し合わせ、パスの累積距離を求める。すべてのパスの中で最小の累積距離を持つパスを選択する(このパスを最適パスと言う)。さらにこの累積距離を正規化する(パスの長さ又は縦軸の長さで累積距離を割る)。この正規化した累積距離(以下、累積距離と言う)が小さいほどデータ列間の類似度が大きいと言える。
【0074】
連続DPは、DPマッチングを拡張し、検索対象とするデータ列の中に入力データ列に類似する区間があるかを調べるアルゴリズムである。
【0075】
検索対象データ列Rはデータr1,r2,r3,,,,,,,rmからなり、入力データ列Qはデータq1,q2,q3,,,,qnからなるとする。図11において横軸にデータ列Rを、縦軸にデータ列Qをとる。次のようにして類似区間を求める。ある時点での最適パスを求める(下図では始点がS1、終点がE1のパス)。このパスの累積距離D1を求める。次に終点を右に1単位(データ1個分)ずらし(終点E2)、最適パスとその累積距離D2を求める。これを最後まで繰り返す。累積距離が最も小さいパスの区間が、入力データ列に最も類似している区間である。例えば下図でパスS−Eが最も累積距離が小さいとすると、区間Kが、入力データ列に最も類似している区間である。
【0076】
また、横軸を終点位置、縦軸を累積距離とすると図12のようなグラフになる。なお、本実施形態では、このグラフを累積距離曲線と称する。この累積距離曲線において、閾値を設定し、累積距離が閾値以下で極小となる点が類似区間候補の終点である。図12の場合、終点E1とEがこれに相当するので、これらの2終点で終わる2区間が類似区間の候補となる。E1よりEにおける累積距離が小さいので、Eで終わる区間(図11で区間K)が類似区間として検出される。
【0077】
感度調整制御処理部609は、誤検出や検出漏れに対処するもので、連続DPの判定閾値を調整するものである。感度はウェイトとして与えられ、全体若しくは部分的に判定の閾値(図12中)を調整するものである。ウェイトが小さいほど累積距離は閾値に近寄り、検出し易くなる。
【0078】
第2検出照合部610は、前段の第1検出照合部608で候補となった対象テキスト4候補について、引き続き連続DPによる照合を行うもので、音声音素列と対象テキストの音素列を用いる。ここで行う連続DPは対象テキストが4つあるため、同時に4つの連続DPを行うことになる。4つの連続DPのいくつかで類似区間が検出されたとき、連続DP累積距離が最小のテキストを検出テキストとする。4つのテキストは原稿の出現順番を考慮して、その順にw1,w2,w3,w4の重み係数を持つ(1.0 = w1<w2<w3<w4)。但しこの重み係数はテキストの出現順位を強固に保持させるような値を選択すると、発話内容の変更などに追従できなくなるため、緩やかな重み付けを行う。また図7においてウェイトがゼロのテキストは照合範囲決定部605において範囲対象外として扱う。累積距離に重み係数を掛けることにより、順番が早いテキストほど検出し易くしている。
【0079】
この第2検出照合部610における処理の具体例を以下に示す。照合開始時点では4つのテキストの累積距離は、図13に示すように、閾値以上である。そして、時間を進め、ある時点でテキスト1の累積距離が閾値以下になったとすると、図14に示すように、テキスト1を検出テキスト候補とし、この時点Aから検出テキストとその類似区間を求める処理が始まる。
【0080】
さらに、時間を進め、テキスト1の類似区間候補が見つかった(累積距離曲線が極小になった)場合、図15に示すように、この時点をB1点とする。
【0081】
時間を進め、テキスト1の新しい類似区間候補が見つかり、B1点より累積距離が小さい場合、図16に示すように、この点を新しいB2点とする。
【0082】
他のテキストについても類似区間候補が見つかり、B1点 、B2点より累積距離が小さい場合新しいB3点とし、このテキストを検出テキスト候補とする。図17ではテキスト3が検出テキスト候補となっている。
【0083】
そして、B3点から一定時間L(遅延時間、例えば1秒)新しいB点が見つからない場合、図18に示すように、現在の最小の累積距離を有するテキスト候補を検出テキスト(ここではテキスト3)とし、B3点を類似区間の終点とする。
【0084】
照合結果出力部611は、第2検出照合部610による検出結果を、照合結果出力プログラム7や、ビデオ保存・音声照合結果保存プログラム8などの他のプログラムに出力する外部出力インターフェースである。
【0085】
(照合処理処理)
本実施形態に係る照合処理は、第1検出照合部608と第2検出照合部610の2段階において実行される。図19は、本実施形態に係る照合処理を示すフローチャート図である。
【0086】
先ず、音声入力部601により音声の入力が行われ(S206)、この入力された音声は、音声分析部602による音声分析の後(S207)、音声音素変換部603により音声音素に変換され(S208)、音声音素バッファに格納される(S209)。なお、本実施形態における音声音素バッファへの書き込みは、フレーム単位(8msec)で行われる。
【0087】
一方、照合する原稿や台本は、原稿/台本入力部604から電子化されたデータとして入力され(S201)、照合範囲決定部605において、原稿の構造に基づいて区切りテキストが抽出され(S202)、これから放送において発話されるようとしているニュース項目の全テキスト(項目中の区切りテキスト)並びに後続の項目の先頭文を、テキスト音素変換部606におてテキスト音素変換し(S204)、テキスト音素バッファに格納される(S205)。このステップS204でのテキスト音素変換においては、早口発話に対応するため、適宜、発話即調整処理を行う(S203)。テキスト音素バッファに格納される情報は、区切りテキスト、その音素列、並びに高速に検出を行うための検査音素列(区切りテキスト音素列の先頭からの音節片:本装置では8音節とした)から構成される。
【0088】
このように音声音素バッファに格納された音声音素に対して、テキスト音素バッファに格納されたテキスト音素群を、第1検出照合部608において検出照合処理を行う(S210)。具体的には、連続DPによりDPの累積距離が小さい、即ち類似度の高いテキストを検出する。本実施形態では、ステップS210及びステップS213に示すように、連続DP照合は2段階で構成され、1段目が第1検出照合部608に、2段目が第2検出照合部610に対応する。
【0089】
先ず、1段目の第1検出照合部608にでは、比較する対象となる区切りテキストが約50個になり、連続DPがこの個数分作動することとなる。またリアルタイムで照合処理を実現するためには、これらのテキスト音素を8msec以内で処理しなければならないことから、この第1検出照合部608における処理は、上述の検査音素列により高速に行われる。
【0090】
放送音源には背景音楽などが含まれるため、音声区間、非音声区間を正確に判別することが難しい。また、音声区間で発話される内容が、事前に作成された原稿に含まれていないこともある。また、中継などの情報は事前原稿に含まれない内容である。このような音声音素列は検査音素列と類似しないため、この1段目の連続DPでは、それら類似しない照合をスキップし、音声音素バッファから次の音声音素列を取り込む。
【0091】
なお、一段目の照合は8音節程度と短いため、例えば「総理大臣は」と言う文が4箇所存在する場合、これらがすべて候補となる。ただし、ステップS202における照合範囲決定時の優先順位により、これら4候補は等確率ではなく、項目順番を考慮したウェイトが掛けられ、「総理大臣は」に続く後続のテキスト検出の誤検出を防止している。
【0092】
これら検査音素列との照合結果に基づいて、候補が4つとなるまで、ループ処理を繰り返す(S212)。すなわち、ステップS212において、検査音素列と入力音素列とが一致する場合は、iに1を加算し、次の検査音素列をテキスト音素バッファから取得し、ステップS210を実行する。一方、ステップS212において、検査音素列と入力音素列とが一致しない場合には、音声音素バッファから音声音素を取得し、ステップS210において現在の検査音素列との照合を繰り返す。この処理を、iが4となるまで繰り返す。
【0093】
そして、これらの検査音素列で音声音素と類似度の高い4候補を求め、次段の第2検出照合部610の処理に進む(S213)。この2段目の処理は、第2検出照合部610において、1段目で候補となった検査音素列に対応する区切りテキスト音素列と音声音素列との連続DP処理を行う。区切りテキスト音素列の一部は既に連続DPが作動しているため、この情報を引き継いで連続DPが作動する。
【0094】
この処理はフレーム(8msec)毎に処理され、その時点時点での累積距離が求められ、累積距離曲線が得られる。この曲線から極小値を求める。この極小値がローカルミニマかグローバルミニマであるかを判定するため、一定時間(例えば1秒)新しい極小値が見つからなければ、最も小さい極小値(最も一致している)を持つ区切りテキストが検出したテキストとなる(S214)。
【0095】
検出したテキストについて、表示処理(S215)を行う。例えば、検出したテキストデータを、照合結果再現プログラム10等の別のアプリケーションに出力し、例えば、字幕装置においては字幕放送ができ、またMPEG7形式の蓄積装置においては新しい形態のビデオコンテンツを形成することができる。
【0096】
次いで、項目内の次の区切りテキストに進む(S216)。このとき、次項目若しくは以後の項目の先頭区切りテキストが存在するか否かについて判断を行い、新たな項目に遷移するような場合(ステップS216における”Yes”)には、ステップS202に戻り、照合範囲の決定〜テキスト音素バッファへの蓄積(S202〜S205)の処理を実行する。
【0097】
一方、ステップS216において、次項目への遷移ではないと判断した場合に(ステップS218における”No”)は、テキスト音素バッファから適合テキストの削除処理を行い(S217)、テキスト音素バッファが空になっているか否かについて判断を行い(S218)、空になっている場合(ステップS218における”Yes”)には、ステップS202に戻り、照合範囲の決定〜テキスト音素バッファへの蓄積(S202〜S205)の処理を実行し、空になっていない場合には(ステップS218における”No”)、上記ステップS210〜S216の処理を実行する。
【0098】
[第2実施形態]
次いで、本発明の第2実施形態について説明する。本実施形態では、上述した音声認識システムを、特定発話検知アーカイブシステムに応用した例である。図20は、本実施形態に係る特定発話検知アーカイブシステムの構成を示すブロック図である。
【0099】
本実施形態に係る特定発話検知アーカイブシステムは、図20に示すように、照合PC2で実行される特定発話検知システム21と、検出結果出力システム22とを備えるとともに、蓄積PC1で実行される特定発話検知用アーカイブシステム11と、特定キーワードデータベース9dと、照合ログデータベース9bと、MPEG2データベース9eと、音声処理再生システム12とから構成される。
【0100】
検出結果出力システム22は、検出結果を、逐次表示するシステムである。音声処理再生システム12は、照合ログファイルから対応するMPEG2ファイルの再生を行うと共に、再生時間に合わせ照合したテキストを画面に表示したり、このテキストからそのシーンを表示したりするシステムである。特定発話検知システム21は、上述した第1実施形態で説明した音声検出照合プログラム6を検索エンジンとして内蔵しており、前述した原稿ファイルに替えて、ユーザーが指定したキーワードを、ビデオファイルから検索する機能を有する。
【0101】
そして、このようなアーカイブシステムに対する操作は、照合PC2の画面に表示されるインターフェースを介して行うことができる。図21は、このアーカイブシステムのユーザーインターフェースである操作画面を示す構成図である。
【0102】
先ず、特定発話検知用アーカイブシステムを起動する。次に、照合させるテキストデータを読み込み、アーカイブシステムのMPEG2ファイル作成を行う。
【0103】
次いで、操作画面のテキストボックスTB1において、検索するキーワードを入力する。キーワードは1ページあたり20個の言葉を入力できる。このテキストボックスTB1では、直接キーワードを入力することもでき、また、特定キーワードデータベース9dからキーワード群を読み込むことも可能であり、読み込んだキーワードの編集も行うこともできる。なお、本実施形態では、各テキストボックスTB1に対応してチェックボックスCB1が設けられており、入力したキーワードのうち、任意のキーワードを選択して検出対象とすることができる。
また、本実施形態では、各テキストボックスTB1に対応させて、トラックバーTBR1が設けられており、各トラックバーTBR1を操作することにより、各キーワードに対する感度を設定する。感度は検出時のマッチング距離の閾値であり、0.0から5.0の範囲で、標準の閾値は2.5である。
【0104】
さらに、本実施形態では、各テキストボックスTB1に対応させて、トラックバーTBR2が設けられており、このトラックバーTBR2を操作することによってキーワードの発話速度を調整することができる。0.5倍から2.0倍の範囲で、大変ゆっくりした発話から相当な早口発話に対応することができる。1倍は標準発話に対応する。
【0105】
また、本実施形態では、キーワードを検出する最小間隔(単位秒)を設定するテキストボックスTB2、発話リストファイルをPCから読み込むためのボタンB1、入力・編集したキーワードや、各キーワードの感度、発話速度などの条件を発話リストファイルに書き込むためのボタンB2、キーワードをソートするためのボタンB3、検知したキーワードに対応した発話出力を実行するチェックボックスCB2、処理を開始するためのボタンB4、処理を終了するためのボタンB5が設けられている。
【0106】
さらに、この操作画面には、全体の感度を調整するトラックバーTBR3が設けられている。本実施形態において、この感度調整の範囲は−2.5から2.5である。全体の感度の効果は各キーワードの感度に加算として表れ、各キーワードの感度の最大範囲は−2.5から7.5となる。また、全体の発話速度を調整するトラックバーTBR4も設けられている。本実施形態において、調整範囲は0.5倍から2.0倍である。全体のスピードの効果は各キーワードのスピードに乗算として表れ、各キーワードの速度範囲は0.25倍から4.0倍になる。
【0107】
そして、検出結果は、リストボックスLB1に表示される。図において、左から、「検出絶対時刻」、「処理を開始してからの時間(時:分:秒)」、「キーワードの発話時間(単位秒)」、それに検出されたキーワード文字列である。このリストボックスLB1に表示されるデータは、ログファイルとして、照合ログデータベース9bに蓄積される。
【0108】
このようにして生成された照合ログは、ログファイルとして、検出結果出力システム22において読み込まれる。このとき、検出結果出力システムでは、併せて、ログファイルに対応するMPEGファイルを読み込む。この検出結果出力システム22は、ログファイルの印刷、インデックスに基づく頭出し再生、ログデータのソート(時刻、類似度、キーワード順)等を行う。
【0109】
[第3実施形態]
次いで、本発明の第3実施形態について説明する。本実施形態では、上述した音声認識システムを原稿に基づく音声インデキシングシステムに応用した例である。図22は、本実施形態に係る音声インデキシングシステムの構成を示すブロック図である。
【0110】
本実施形態に係るインデキシングシステムは、図22に示すように、照合PC2で実行される音声インデキシングシステム23と、検出結果出力システム22とを備えるとともに、蓄積PC1で実行される音声インデキシング用アーカイブシステム13と、原稿データベース9aと、照合ログデータベース9bと、MPEG2データベース9eと、音声処理再生システム12とから構成される。
【0111】
検出結果出力システム22は、検出結果を、逐次表示するシステムである。音声処理再生システム12は、照合ログファイルから対応するMPEG2ファイルの再生を行うと共に、再生時間に合わせ照合したテキストを画面に表示したり、このテキストからそのシーンを表示したりするシステムである。
【0112】
音声インデキシングシステム23は、上述した第1実施形態で説明した音声検出照合プログラム6を検索エンジンとして内蔵しており、前述した原稿ファイルに基づいて、原稿ファイル内のテキストを、ビデオファイルから検索する機能を有する。
【0113】
そして、このようなインデキシングシステムに対する操作は、照合PC2の画面に表示されるインターフェースを介して行うことができる。図23は、このインデキシングシステムのユーザーインターフェースである操作画面を示す構成図である。
【0114】
同図に示すように、この操作画面上には、入力した原稿を表示するリストボックスLB2が備えられている。本実施形態では、このリストボックスLB2において検出したテキストは赤色で表示される。
【0115】
また、この操作画面には、検出時に一度に処理する文の数を指定するテキストボックスTB3と、検出する文に対する重みを設定するテキストボックスTB4と、検出遅延時間を設定するテキストボックスTB5が設けられている。
【0116】
テキストボックスTB4では、例えば、重み係数が0.4の場合、最初の文の重みは1.0、次の文の重みは1.4、その次の文の重みは1.44となる。重みが大きいほど検出感度が低くなる。また、テキストボックスTB5では、新たに文を検出する際、直前(検出遅延時間以内)に検出した文と類似度を比較し類似度がより大きい場合、出力候補とする。検出遅延時間内に新たな検出文がない場合、前の検出文をログに出力する。
【0117】
そして、検出結果のログは、リストボックスLB1に表示される。このリストボックスLB1において、左から、「検出絶対時刻」、「処理を開始してからの時間(時:分:秒)」、「区切りテキストの発話時間(単位秒)」、それに検出された区切りテキストである。
【0118】
そして、このようなインデキシングシステムによれば、原稿ファイルから抽出された区切りテキストをキーワードとして、該当するキーワードが発話された時刻等を照合ログとしてリストボックスLB1に表示し、このリストは、照合ログファイルとして、照合ログデータベース9bに蓄積される。
【0119】
このようにして生成された照合ログファイルは、検出結果出力システム22において読み込まれる。このとき、検出結果出力システムでは、併せて、ログファイルに対応するMPEGファイルを読み込む。そして、この検出結果出力システム22は、ログファイルの印刷、インデックスに基づく頭出し再生、ログデータのソート(時刻、類似度、キーワード順)等を行う。
【0120】
[第4実施形態]
なお、上述した実施形態及びその応用例に係る音声認識システム及び方法は、所定のコンピュータ言語で記述されたプログラムとすることができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピュータやICチップにインストールすることにより、上述した各機能を有する音声検出照合プログラムや照合結果出力プログラム等を容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
【0121】
そして、このようなプログラムは、図24に示すような、汎用コンピュータ120で読み取り可能な記録媒体116〜119に記録することができる。具体的には、同図に示すような、フレキシブルディスク116やカセットテープ119等の磁気記録媒体、若しくはCD−ROMやDVD−ROM117等の光ディスクの他、RAMカード118など、種々の記録媒体に記録することができる。本実施形態は書き込み不可のCD−ROMやDVD−ROM117中にあるコンテンツに対してリンクを設けることができる特徴を有する。
【0122】
そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述した音声認識システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
【0123】
【発明の効果】
以上述べたように、この発明によれば、既存の音声認識技術を利用し、放送中に発話される音声を、リアルタイムで且つ精度良く検出することができる。この検出結果を利用することにより、放送される映像に対して原稿に基づいた字幕付与したり、発話されている原稿に応じた映像を表示したり、キーワードによる検索によって希望する映像シーンを表示させたりなど、多様なサービスが可能となり、万人に対する様々なユニバーサルサービスを実現することが可能となる。
【図面の簡単な説明】
【図1】第1実施形態に係る音声認識システムの概略構成を示すブロック図である。
【図2】第1実施形態に係る照合PC及び蓄積PCの内部構造及び関係を示すブロック図である。
【図3】第1実施形態に係る音声検出照合プログラムの機能を示すブロック図である。
【図4】第1実施形態に係る音声信号の時間波形を示すグラフ図である。
【図5】第1実施形態に係る音声信号のスペクトル波形を示すグラフ図である。
【図6】第1実施形態に係るニュース原稿の構造を示す説明図である。
【図7】第1実施形態に係る原稿内部の項目の記述を示す説明図である。
【図8】第1実施形態に係るテキスト音素変換部における処理を示すフローチャート図である。
【図9】第1実施形態に係るテキストと音素列の説明図である。
【図10】第1実施形態に係るDPマッチングにおけるDPパスを示すパス図である。
【図11】第1実施形態に係る連続DPマッチングにおけるDPパスを示すパス図である。
【図12】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図13】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図14】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図15】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図16】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図17】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図18】第1実施形態に係る連続DPマッチングにおける累積距離曲線図である。
【図19】第1実施形態に係る照合処理を示すフローチャート図である。
【図20】第2実施形態に係る特定発話検知システムの構成を示すブロック図である。
【図21】第2実施形態に係るインターフェースの操作画面を示す構成図である。
【図22】第3実施形態に係る音声インデキシングシステムの構成を示すブロック図である。
【図23】第3実施形態に係るインターフェースの操作画面を示す構成図である。
【図24】第4実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。
【符号の説明】
1…蓄積PC
2…照合PC
3…時計サーバー
4…ネットワーク
5a…音声
5b…記録媒体
6…音声検出照合プログラム
7…照合結果出力プログラム
8…音声照合結果保存プログラム
9a…原稿データベース
9b…照合ログデータベース
9c…ビデオファイルデータベース
9d…特定キーワードデータベース
9e…MPEG2データベース
10…照合結果再現プログラム
11…特定発話検知用アーカイブシステム
12…音声処理再生システム
13…音声インデキシング用アーカイブシステム
21…特定発話検知システム
22…検出結果出力システム
23…音声インデキシングシステム
116…フレキシブルディスク
117…ROM
118…RAMカード
119…カセットテープ
120…汎用コンピュータ
601…音声入力部
602…音声分析部
603…音声音素変換部
603a…音素モデル辞書
604…原稿/台本入力部
605…照合範囲決定部
606…テキスト音素変換部
607…発話速度調整処理部
608…第1検出照合部
609…感度調整制御処理部
610…第2検出照合部
611…照合結果出力部

Claims (30)

  1. 音声信号を入力する音声入力部と、
    テキストデータを含む原稿データを入力する原稿データ入力部と、
    前記音声入力部から入力された音声を音声音素列に変換する音声音素変換部と、
    前記原稿データ入力部から入力されたテキストデータをテキスト音素列に変換するテキスト音素変換部と、
    前記音声音素列と前記テキスト音素列との一致不一致を照合する照合部と、
    前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力する照合結果出力部と
    を備えることを特徴とする音声認識システム。
  2. 前記原稿データは、原稿の内容に応じて項目分けがされており、
    前記項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出する照合範囲決定部を備えることを特徴とする請求項1に記載の音声認識システム。
  3. 前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
    前記照合範囲決定部は、前記重み係数に応じた順序で、前記照合対象テキストを前記テキスト音素変換部に出力し、該照合部は、該照合対象テキストの音素と音声音素との照合を行うことを特徴とする請求項2に記載の音声認識システム。
  4. 前記照合部は、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項3に記載の音声認識システム。
  5. 前記照合部は、
    前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力する第1検出照合部と、
    前記第1検出照合部から出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する前記第2検出照合部と
    を備えることを特徴とする請求項1又は2に記載の音声認識システム。
  6. 音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記照合部における照合精度を調整する感度調整制御処理部を備えることを特徴とする請求項1に記載の音声認識システム。
  7. 前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
    前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記テキスト音素変換部における変換速度を調整する発話速度調整処理部を備えることを特徴とする請求項1に記載の音声認識システム。
  8. 前記照合結果出力部は、出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行う機能を備えることを特徴とする請求項1に記載の音声認識システム。
  9. 前記照合結果出力部から出力される検出結果を照合ログとして蓄積する照合ログデータベースと、
    前記音声信号が含まれる素材データを蓄積する素材データ蓄積部と、
    前記照合ログに含まれるテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力する照合結果再現部を備えることを特徴とする請求項1に記載の音声認識システム。
  10. 前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
    前記照合結果出力部から出力される検出結果を照合ログとして蓄積する照合ログデータベースと、
    前記音声信号が含まれる素材データを蓄積する素材データ蓄積部と、
    前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力する照合結果再現部を備えることを特徴とする請求項1に記載の音声認識システム。
  11. 音声信号を入力するとともに、テキストデータを含む原稿データを入力するステップ(1)と、
    入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換するステップ(2)と、
    前記音声音素列と前記テキスト音素列との一致不一致を照合し、前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力するステップ(3)と
    を備えることを特徴とする音声認識方法。
  12. 前記原稿データは、原稿の内容に応じて項目分けがされており、
    前記ステップ(3)では、項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出することを特徴とする請求項11に記載の音声認識方法。
  13. 前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
    前記ステップ(3)では、前記重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことを特徴とする請求項12に記載の音声認識方法。
  14. 前記ステップ(3)では、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項13に記載の音声認識方法。
  15. 前記ステップ(3)では、
    前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力し、
    この出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する
    ことを特徴とする請求項11又は12に記載の音声認識方法。
  16. 音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記ステップ(3)における照合精度を調整することを特徴とする請求項11に記載の音声認識方法。
  17. 前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
    前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記ステップ(2)における変換速度を調整することを特徴とする請求項11に記載の音声認識方法。
  18. 出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うステップをさらに有することを特徴とする請求項11に記載の音声認識方法。
  19. 前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
    蓄積されたテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項11に記載の音声認識方法。
  20. 前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
    前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
    前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項11に記載の音声認識方法。
  21. コンピュータに、
    音声信号を入力するとともに、テキストデータを含む原稿データを入力するステップ(1)と、
    入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換するステップ(2)と、
    前記音声音素列と前記テキスト音素列との一致不一致を照合し、前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力するステップ(3)と
    を備える処理を実行させることを特徴とする音声認識プログラム。
  22. 前記原稿データは、原稿の内容に応じて項目分けがされており、
    前記ステップ(3)では、項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出することを特徴とする請求項21に記載の音声認識プログラム。
  23. 前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
    前記ステップ(3)では、前記重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことを特徴とする請求項22に記載の音声認識プログラム。
  24. 前記ステップ(3)では、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項23に記載の音声認識プログラム。
  25. 前記ステップ(3)では、
    前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力し、
    この出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する
    ことを特徴とする請求項21又は22に記載の音声認識プログラム。
  26. 音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記ステップ(3)における照合精度を調整することを特徴とする請求項21に記載の音声認識プログラム。
  27. 前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
    前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記ステップ(2)における変換速度を調整することを特徴とする請求項21に記載の音声認識プログラム。
  28. 出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うステップをさらに有することを特徴とする請求項21に記載の音声認識プログラム。
  29. 前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
    蓄積されたテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項21に記載の音声認識プログラム。
  30. 前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
    前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
    前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項21に記載の音声認識プログラム。
JP2003095410A 2003-03-31 2003-03-31 音声認識システム、音声認識方法及び音声認識プログラム Pending JP2004302175A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003095410A JP2004302175A (ja) 2003-03-31 2003-03-31 音声認識システム、音声認識方法及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003095410A JP2004302175A (ja) 2003-03-31 2003-03-31 音声認識システム、音声認識方法及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2004302175A true JP2004302175A (ja) 2004-10-28

Family

ID=33407745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003095410A Pending JP2004302175A (ja) 2003-03-31 2003-03-31 音声認識システム、音声認識方法及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2004302175A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2006251892A (ja) * 2005-03-08 2006-09-21 Iij Technology:Kk ウェブ・コンテンツ更新履歴管理システム及び方法
JP2007305054A (ja) * 2006-05-15 2007-11-22 Nippon Hoso Kyokai <Nhk> コンテンツ受信装置およびコンテンツ受信プログラム
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム
US7729917B2 (en) 2006-03-24 2010-06-01 Nuance Communications, Inc. Correction of a caption produced by speech recognition
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
US8311832B2 (en) 2005-12-04 2012-11-13 International Business Machines Corporation Hybrid-captioning system
US20150066504A1 (en) * 2013-08-28 2015-03-05 Verint Systems Ltd. System and Method for Determining the Compliance of Agent Scripts
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
CN113823265A (zh) * 2021-07-19 2021-12-21 腾讯科技(深圳)有限公司 一种语音识别方法、装置和计算机设备
CN114648977A (zh) * 2022-04-25 2022-06-21 山东声智物联科技有限公司 语音唤醒方法、装置、电子设备、存储介质及产品

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2006251892A (ja) * 2005-03-08 2006-09-21 Iij Technology:Kk ウェブ・コンテンツ更新履歴管理システム及び方法
US8311832B2 (en) 2005-12-04 2012-11-13 International Business Machines Corporation Hybrid-captioning system
US7729917B2 (en) 2006-03-24 2010-06-01 Nuance Communications, Inc. Correction of a caption produced by speech recognition
JP2007305054A (ja) * 2006-05-15 2007-11-22 Nippon Hoso Kyokai <Nhk> コンテンツ受信装置およびコンテンツ受信プログラム
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
US11227584B2 (en) 2013-08-28 2022-01-18 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US11527236B2 (en) 2013-08-28 2022-12-13 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US11545139B2 (en) 2013-08-28 2023-01-03 Verint Systems Inc. System and method for determining the compliance of agent scripts
US10573297B2 (en) 2013-08-28 2020-02-25 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US9412362B2 (en) * 2013-08-28 2016-08-09 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US11430430B2 (en) 2013-08-28 2022-08-30 Verint Systems Inc. System and method for determining the compliance of agent scripts
US20150066504A1 (en) * 2013-08-28 2015-03-05 Verint Systems Ltd. System and Method for Determining the Compliance of Agent Scripts
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
CN112562687B (zh) * 2020-12-11 2023-08-04 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
CN113823265A (zh) * 2021-07-19 2021-12-21 腾讯科技(深圳)有限公司 一种语音识别方法、装置和计算机设备
CN113823265B (zh) * 2021-07-19 2025-06-24 腾讯科技(深圳)有限公司 一种语音识别方法、装置和计算机设备
CN114648977A (zh) * 2022-04-25 2022-06-21 山东声智物联科技有限公司 语音唤醒方法、装置、电子设备、存储介质及产品

Similar Documents

Publication Publication Date Title
US7117231B2 (en) Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
US6505153B1 (en) Efficient method for producing off-line closed captions
AU2005200340B2 (en) Database annotation and retrieval
JP2986345B2 (ja) 音声記録指標化装置及び方法
US6434520B1 (en) System and method for indexing and querying audio archives
US8972840B2 (en) Time ordered indexing of an information stream
US7292979B2 (en) Time ordered indexing of audio data
US6816858B1 (en) System, method and apparatus providing collateral information for a video/audio stream
EP1692629B1 (en) System &amp; method for integrative analysis of intrinsic and extrinsic audio-visual data
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
JP2001515634A (ja) ストーリーセグメンテーション機能を有するマルチメディアコンピュータシステム及びその動作プログラム
JP2004302175A (ja) 音声認識システム、音声認識方法及び音声認識プログラム
Gauvain et al. Transcribing broadcast news for audio and video indexing
Roy et al. Speaker identification based text to audio alignment for an audio retrieval system
Amaral et al. A prototype system for selective dissemination of broadcast news in European Portuguese
Nouza et al. System for automatic collection, annotation and indexing of Czech broadcast speech with full-text search
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
Neto et al. A system for selective dissemination of multimedia information resulting from the alert project
Wactlar et al. Informedia News-on Demand: Using speech recognition to create a digital video library
Nouza et al. A system for information retrieval from large records of Czech spoken data
Hauptmann et al. Informedia news-on-demand: Using speech recognition to create a digital video library
Viswanathan et al. Multimedia document retrieval using speech and speaker recognition
Meng et al. Spoken document retrieval for the languages of Hong Kong
Amaral et al. The development of a portuguese version of a media watch system.
Rigoll The ALERT system: Advanced broadcast speech recognition technology for selective dissemination of multimedia information