JP2004302175A

JP2004302175A - 音声認識システム、音声認識方法及び音声認識プログラム

Info

Publication number: JP2004302175A
Application number: JP2003095410A
Authority: JP
Inventors: Yasumasa Nakada; 安優中田; Takeshi Osawa; 岳史大澤; Tetsuji Osaka; 哲司大坂; Isao Sato; 功佐藤; Hironobu Takahashi; 裕信高橋; Hiroo Yamashita; 浩生山下; Kenshin Cho; 建新張
Original assignee: FUJIMIKKU KK; Fuji Television Network Inc
Current assignee: FUJIMIKKU KK; Fuji Television Network Inc
Priority date: 2003-03-31
Filing date: 2003-03-31
Publication date: 2004-10-28

Abstract

【課題】既存の音声認識技術を利用し、放送中に発話される音声を精度良く検出する。
【解決手段】音声信号を入力する音声入力部６０１と、テキストデータを含む原稿データを入力する原稿／台本入力部６０４と、音声入力部６０１から入力された音声を音声音素列に変換する音声音素変換部６０３と、原稿／台本入力部６０４から入力されたテキストデータをテキスト音素列に変換するテキスト音素変換部６０６と、音声音素列とテキスト音素列との一致不一致を照合する照合部（第１検出照合部６０８及び第２検出照合部６１０）と、音声音素列とテキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力する照合結果出力部６１１とを備える。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオストリームや音声ストリームなどからなるマルチメディアコンテンツに含まれる音声信号を認識する音声認識システム、音声認識方法及び音声認識プログラムに関する。
【０００２】
【従来の技術】
従来、マルチメディアコンテンツは、ビデオストリームと音声ストリームから構成されるのが一般的である。近年にあっては、このビデオストリームに関する応用方法が進み、その一つとして、ビデオストリームにインデックスを付与するいわゆるインデキシング技術がある。このインデキシングとしては、例えば、ビデオストリームに対して、ビデオストリームの検出情報と同期したタイムコードを付与し、このタイムコードに基づいて映像の頭出しができ、このタイムコードをサムネイル表示等のインターフェースと連携させることにより、シーンチェンジ検出やハイライトシーンなど映像上の特徴を、簡単なユーザー操作で検索することが可能となる。
【０００３】
近年、このインデキシングの解析方法は盛んに研究されており、この技術を応用して、「このＣＭ」、「こんなイメージのシーン」等の抽象的なキーワードを用いて、希望する映像が写っているシーンの再生するなどの検索要求に答えられるものとなっている。
【０００４】
一方、音声ストリームに対しても同様に、音声認識などの技術を利用したインデキシング技術の開発もなされている。この音声ストリームに対するインデキシングとしては、例えば、事前に作成された電子化原稿を解析し、実際に放送されたテレビ番組のナレーションの音声認識を行うなど、テレビ放送の分野において良好な結果を得ている。このような音声認識によるインデキシングを応用することにより、特定発話語が認識された段階で警告を鳴らしたり、電子化原稿に対してその文を字幕として表示するなどのサービスを実行することが可能となる（例えば、特許文献１参照）。
【０００５】
【特許文献１】
特開２００２−２４４６９４号公報
【０００６】
【発明が解決しようとする課題】
しかしながら、上述したテレビ放送の分野におけるインデキシング技術は、例えばドキュメンタリー番組など予め放送内容が決定され、発話者も発話訓練を受けたアナウンサーやレポーターであり、良好な録音環境など、音声認識にとって好適に管理された環境に限定されて使用されている。
【０００７】
ところが、一般に連続発話に対する音声認識は、不特定話者対応、不特定内容対応、発話者の発声不完全性（例えば、「東京」を「とーきょー」と発話することが多い）、発話の多様性（「１１０番」は「いちいちぜろばん」、「ひゃくじゅうばん」、「ひゃくとうばん」）、背景音や発話の重畳、環境ノイズなどより、正確に認識することが困難であり、実用には至っておらず、まだ研究段階にある。
【０００８】
このため、例えばニュース報道の現場は、ドキュメンタリーのナレーションなどの理想的な環境と異なり、背景ノイズが多かったり、放送時間に追われ早口で話したりする場合があり、インタビューなどにおいては発話訓練を受けていない者を対象とする場合も多く、このような場合にまで上述した音声認識を適用するのは困難であるのが現状である。
【０００９】
また、ビデオストリームは早送りによって見る時間が短縮できるのに対して、音声ストリームでは、早送りなど時間を短縮した場合、人間による認識が困難となり、画像認識の技術をそのまま応用することができないという問題がある。
【００１０】
そこで、本発明は、以上の点に鑑みてなされたもので、既存の音声認識技術を利用し、放送中に発話される音声をリアルタイムに且つ高精度で、検出することのできる音声認識システム、音声認識方法及び音声認識プログラムを提供することをその目的とする。
【００１１】
【課題を解決するための手段】
上記課題を解決するために、本発明は、音声信号を入力するとともに、テキストデータを含む原稿データを入力し、入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換し、音声音素列とテキスト音素列との一致不一致を照合し、音声音素列とテキスト音素列とが一致する場合に、一致する音素列に対応するテキストデータを検出結果として出力する。
【００１２】
本発明によれば、音声情報をセンシングし、事前に準備した特定発話語若しくは電子化原稿に基づき、放送中の発話に一致する発話語若しくは発話文を検出・照合することができる。すなわち、本発明は、原稿や台本などの原稿データに基づいて発話される音声に対して、その電子化原稿の文と発話音声との照合処理を行い、その発話タイミングで、原稿の文をリアルタイムで検出する。
【００１３】
なお、本発明では、不特定話者、不特定内容並びにリアルタイムでの処理を行うために、照合処理に際し、音素処理を採用する。これにより、発話の淀み、言い直し、未知語に対応することができ、発話内容が決められないジャンルに対しても、本発明を適用することができる。
【００１４】
また、本発明では、検出照合処理にあたり、電子化原稿はテキスト−音素変換処理によってテキスト音素列に変換し、音声は音声−音素変換処理により音声音素列に変換する。そして、この両者の音素列を、例えば、連続動的計画法（連続ＤＰ：ＣｏｎｔｉｎｕｏｕｓＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）により比較し、音声音素列と適合するテキスト音素列を検出する。
【００１５】
上記発明において、原稿データは、原稿の内容に応じて項目分けがされ、項目に応じてテキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、範囲内の文字列を照合対象テキストとして抽出することが好ましい。
【００１６】
この場合には、電子化原稿は、項節若しくは章節のように項目分けし、構造化文書形態を採ることにより、文書の順番と発話の順番を保証することができ、これの特徴を利用し、全文を照合対象とすることなく、効率の良くしかも高速な照合処理が可能となる。
【００１７】
また、構造化文書で節（分割されたテキストデータ）にあたるテキストを一区切り単位（一息で発話できる文書量若しくは曖昧さを防ぐために設けられる間：ポーズで区切られる文書。以下、適宜「区切りテキスト」と称する。）で管理し、その文の先頭からの音節片（例えば、８音節程度とした）を、照合対象テキストとし、この照合対象テキストの音素列を検査音素列として照合処理を行うことにより、処理の高速化を図ることができ、発話に対してリアルタイムでテキストデータの検出を行うことが可能となる。
【００１８】
上記発明において、前記分割された各テキストデータには、優先度に応じた重み係数を付与し、重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことが好ましい。なお、上記発明においては、照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された重み係数を逐次変動させることが好ましい。
【００１９】
この場合には、精度を低下させるいくつかの要因の内、総当りのテキスト音素照合における誤検出を防止することができる。すなわち、前者において、同じような内容が多く含まれている文は誤検出を生じ易い。照合精度を高めるため、前述の照合処理において、区切りテキストに対して原稿の順番に沿った優先順位を与えて誤検出に対応した。これにより、例えば原稿が「内閣は今日・・・」、「総理は今日・・・」の順番で用意されている場合、早く出現するテキストは後に現れるテキストよりも優先順位を高くすることにより、誤検出を回避することができる。
【００２０】
上記発明においては、照合対象テキストと、音声音素列との一致不一致を照合し、所定数の該当する照合対象テキストを検出候補として出力し、この出力された検出候補と音声音素列との一致不一致を照合し、検出結果を出力することが好ましい。
【００２１】
この場合には、一次照合で検出した照合候補に対して、文全体の照合を行う２段階で処理を行うことにより、処理の高速化を図ることができ、リアルタイムに電子化原稿文と音声の同期タイミングを図ることができる。
【００２２】
上記発明においては、音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより照合精度を調整することが好ましい。
【００２３】
例えばニュース報道の現場は、ドキュメンタリーのナレーションなどの理想的な環境と異なり、背景ノイズが多い場合であっても、連続ＤＰの閾値調整により、状況に応じた精度で認識を行うことができる。
【００２４】
上記発明においては、原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、発話状況情報に基づいて、音声の継続長を変化させることにより、変換速度を調整することが好ましい。
【００２５】
この場合には、例えば、テキストから音素列を生成するに際し、標準となるＡＴＲ５０３文の発話データから求められた音素継続長に対して、母音の継続長を早さに合わせ短くすることが可能となり、放送時間に追われ早口で話したりするようなときであっても、検出漏れを防止することができ、高い照合精度を得ることができる。
【００２６】
上記発明においては、出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うことが好ましい。これにより、特定の発話に対して警告を行うことができるため、不適切な発話が放送されるのを未然に防止することができる。
【００２７】
また、上記発明においては、検出結果を照合ログとして蓄積するとともに、音声信号が含まれる素材データを蓄積し、蓄積されたテキストデータと、素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力することが好ましい。さらに、上記発明においては、原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、検出結果を照合ログとして蓄積するとともに、音声信号が含まれる素材データを蓄積し、照合ログに含まれるキーワードと、素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力することが好ましい。
【００２８】
このようなユーザーインターフェースを設けることにより、例えば、放送される映像に対して原稿データに基づいた字幕付与したり、映像にインデックスを付与しつつリアルタイムにＭＰＥＧ２エンコードを行い、装置内に素材データ（ビデオファイル）として蓄積することができる。また、検出したタイミングは、即ち照合ログ（発話テキスト）は、例えば、映像と同期してＭＰＥＧ７などのメタ情報としてファイル保存することが可能であり、このメタファイルとビデオファイルに基づいて、ユーザーが希望するシーンを表示することができる。
【００２９】
この結果、再生映像に合わせ、字幕のようにテキストを表示する機能、そのテキストが発話されている映像を表示する機能、検索によって希望する映像シーンを表示する機能などの機能が可能となる。
【００３０】
【発明の実施の形態】
［第１実施形態］
（システムの構成）
以下に、本発明の実施形態に係る音声認識システムについて詳細に説明する。図１は、本実施形態に係る音声認識システムの概略構成を示すブロック図である。
【００３１】
本実施形態に係る音声認識システムは、図１に示すように、蓄積ＰＣ１と、照合ＰＣ２と、時計サーバー３とがネットワーク４により接続されて構成される。
【００３２】
蓄積ＰＣ１は、映像信号と音声信号をＭＰＥＧ２エンコーダーに入力し、ＭＰＥＧ２フォーマットのデジタルビデオとしてファイル化し、蓄積する機能を有するとともに、照合用の電子化原稿、照合ログファイルなどシステムに関連するファイルを保持するサーバーとしての役割も果たす。照合ＰＣ２は、音声信号をＰＣのマイク入力から取り込み、デジタル化して音声処理を行う機能を有する。
【００３３】
時計サーバー３は、２台のＰＣ１及び２の時間を一致させるサーバー装置であり、基準時計サーバー装置や標準時計サーバーを用いることができる。なお、絶対時間を一致させる必要がない場合、時計サーバーを設けず、２台のＰＣ１，２間で時計同期を取る機能で代用することができる。
【００３４】
（蓄積ＰＣ１の構成）
蓄積ＰＣ１は、図２に示すように、ビデオ保存・音声照合結果保存プログラム８、照合結果再現プログラム１０を実行する。ビデオ保存・音声照合結果保存プログラム８は、照合処理の対象となる原稿データを原稿データベース９ａに蓄積する機能と、音声検出照合プログラム６と連動して、映像音声をデジタル化しデジタルビデオファイルとしてビデオファイルデータベース９ｃに保存する機能とを有するとともに、音声検出照合プログラム６による照合結果を照合ログファイルとして照合ログデータベース９ｂに保存する機能を有する。照合ログファイル並びにビデオファイルのファイル名は年月日時分を組み入れユニークな名前を自動的に発生して管理している。
【００３５】
照合結果再現プログラム１０は、照合ログファイルを用いてその発話があった時間を確認したり（精度確認のデバッグとして利用）、ビデオを再生しながら字幕を表示したりするプログラムである。
【００３６】
この照合ログファイルの内容は、連動するビデオファイル名などの設定情報と、発話テキスト、発話された標準時刻、音声検出照合プログラムのスタートを開始時間とする経過時間などの発話情報から構成される。標準時刻は、何時何分何秒にその発話があったかの確認を行う基準となるものである。また経過時間は、ビデオファイルと同期し、この時間を用いてタイムコードが示す時間のビデオ頭出しができる。
【００３７】
（照合ＰＣ２の構成）
照合ＰＣ２は、図２に示すように、音声検出照合プログラム６と照合結果出力プログラム７を実行する。音声検出照合プログラム６は、原稿データに基づいて音声を処理し、照合結果である照合ログを出力する機能を有するプログラムである。
【００３８】
照合結果出力プログラム７は、発話と同期して、その発話内容を業務に適した形で出力するプログラムである。本実施形態では、照合する原稿データが特定発話語若しくは特定発話文であった場合、それらの言葉が発せられたことを知らしめるため、アラームを鳴らす、パトランプを回す、音声ガイダンスを流すなどの警告処理を行う。また、照合結果出力プログラム７は、照合する原稿がアナウンサー原稿や台本の場合、発話に合わせ発話文を字幕として表示をする字幕放送に適応できる機能を有する。
【００３９】
ここで、照合ＰＣ２上で実行される音声検出照合プログラム６による音声検出照合処理機能について説明する。図３は、音声検出照合処理の機能を示すブロック図である。
【００４０】
同図に示すように、音声検出照合プログラム６は、照合ＰＣ２上で実行されることにより、照合ＰＣ２上に、音声入力部６０１と、音声分析部６０２と、音声音素変換部６０３と、原稿／台本入力部６０４と、照合範囲決定部６０５と、テキスト音素変換部６０６と、発話速度調整処理部６０７と、第１検出照合部６０８と、感度調整制御処理部６０９と、第２検出照合部６１０と、照合結果出力部６１１とを仮想的に構築する。各部の構成及び機能について、処理毎に説明する。
【００４１】
（音声入力〜音声音素変換）
音声入力部６０１は、生放送などの送出信号に含まれる音声５ａや、ＶＴＲ、ＬＤあるいはＤＶＤなどの記録媒体５ｂなどから取得され、音声を含んだ映像番組データからアナウンサー、ナレータ、出演者の音声信号を照合ＰＣ２において、１６ＫＨｚ（サンプリングレート）、１６ビット（量子化）で抽出するモジュールである。この音声入力部６０１に開始指令が入力されると同時に、蓄積ＰＣ１のＭＰＥＧ２エンコーダーが起動され、ビデオファイルの作成及び蓄積が始まる。
【００４２】
音声分析部６０２は、音声中から認識に有効な特徴量を抽出する部分である。音声信号が１次元配列の信号列として取得された場合、その分析方法としては、図４に示すような、取得された音声信号の時間的な変化を、音声波形としてサンプリングし、そのままデジタル化する方法と、図５に示すような、音声信号に含まれている周波数成分を分離抽出し、個々の成分についてデジタル化する方法である。
【００４３】
この図５に示すような、周波数成分を用いて音声信号の分析を行う方法を一般にスペクトル分析と呼んでおり、現在の音声分析法の主流となっている。スペクトル分析の効果として、時間領域の波形は外部環境の変化に対して、変動しやすいが、スペクトル波形は変動が比較的少なく、また、スペクトル分析により、その音声を特徴づける情報が容易に得られる。本実施形態では、音声分析部６０２において、図５に示すスペクトル分析方法により音声分析を行い、認識に必要な特徴量を抽出している。ただし、本実施形態は例示であり、本発明の実施においては、上述した図４に示す方法の他、種々の音声分析方法を採用することができる。
【００４４】
前記音声音素変換部６０３は、音声から音素を抽出し、抽出した音素を出力するモジュールであり、本実施形態では、ベイズ識別関数によるフレーム音素認識を用い、音声分析部６０２から入力された音声特徴量と、音素モデル辞書６０３ａから取得される音素モデルとから、フレーム単位（１フレームは８ｍｓｅｃ）で第Ｎ位まで（Ｎ≦音素数）の音素認識結果を出力するモジュールである。なお、この音声音素変換における音素継続長は、表１に示す、発音記号・継続長対応表から取得される。
【００４５】
【表１】

なお、表１に示す音素継続長は、ＡＴＲ音素バランス文の発話データを分析して求めたものである。このＡＴＲが提供する研究用日本語音声データベースセットＢ（文音声データベース）は、ＡＴＲ音素バランス文（５０３文）を１０話者（男女のアナウンサー及びナレータ）が読み上げた発話データとラベル付けしたデータから構成され、音声処理基本データとなっている。本実施形態では、このデータを音素モデル辞書として利用する。
【００４６】
（原稿／台本入力〜テキスト音素変換）
原稿／台本入力部６０４は、文字列を含むテキストデータを入力するテキストデータ入力部であり、本実施形態では、放送番組の原稿や台本が電子化されたテキストデータを入力する。なお、このテキストデータが電子化されていない場合は、テキスト入力支援システムにおいてその電子化を行う。
【００４７】
原稿／台本入力部６０４は、蓄積ＰＣ２上の原稿データベース９ａ内にある原稿／台本フォルダにある所定の原稿ファイルを読み込む。この原稿ファイルは、発話スピードレベル、背景音レベル、環境ノイズの状況など、放送番組の種類に応じた発話状況情報と、テキストデータである発話台本情報から構成される。
【００４８】
発話状況情報は、音声照合のレベル設定に用いられるデータであり、このうち、発話スピードレベルは番組の内容に応じて記述され、例えばニュース番組やバラエティ番組にあっては、一般に早口で話され、ドキュメンタリー番組などではゆっくり話され、ドラマ番組にあっては、早口で話すシーン、ゆっくり話すシーンである旨が記述される。また、背景音レベル情報には、例えば、ニュースやドキュメンタリー番組にあっては、屋外の撮影である場合や、ドラマや映画番組にあっては背景音楽が多いシーンなどが記述される。
【００４９】
発話速度調整処理部６０７は、原稿ファイルに含まれた発話状況情報に応じて、テキスト音素変換部６０６における発話スピードを調整するモジュールである。この発話速度調整処理部６０７により、発話状況並びに発話環境に応じた音声照合を行い、音声認識の精度を向上させることができる。
【００５０】
照合範囲決定部６０５は、原稿／台本入力部６０４で読み込んだ原稿に基づき、これらから発話されようとする項目（章）のテキストデータを、テキスト音素変換部に出力するモジュールである。この際、照合範囲決定部６０５は、これから発話されようとする項目（章）の内容、後続の項目の先頭文字列の範囲を決定し、この範囲内に含まれるテキスト情報（文字列）をテキスト音素変換部６０６に出力する。通常、放送番組では、これから発話される項目は事前に定められた順序に従い、状況に応じて、項目の入れ替えも生じるが、放送前において予測される範囲であり、照合範囲決定部６０５は、この範囲に関する情報を保持しており、この情報に基づいて項目の戦闘情報を決定する。
【００５１】
なお、本実施形態に係る照合範囲決定部６０５での照合範囲決定についてさらに詳述する。原稿データは、通常の文書と同じように一定の文書構造を有するという特徴を有している。この文書構造は、大きな括りとしていくつかの大項目があり、その一つの大項目にはいくつかの中項目があり、その一つの中項目にはいくつかの小項目があるというような階層構造を有している。
【００５２】
照合範囲決定部６０５は、この文書構造に注目し、発話単位毎に文を細分化した文節毎に原稿データを管理する。ここで、原稿データの例として、ニュース原稿の構造、ニュース原稿の制作から送出までについて述べる。
【００５３】
（１）ニュース原稿の構成
ここで、原稿の構造について説明する。図６は、原稿データとして、ニュース番組の報道用原稿を例示する説明図である。この原稿において、ニュースは、階層Ｌ１において、いくつかの項目に分けられ、制作管理されている。階層Ｌ１の下層には、階層Ｌ２、Ｌ３が関連付けられて階層構造をなしている。
【００５４】
例えば、放送されるニュースの項目には、政治情報、国際情勢、経済情報、事件・事故などの社会情報、ローカルニュース、気象情報などがある。これらの項目を基にしてニュースが送出され、その順番は、階層Ｌ１中の項目１〜ｎのようにヘッドラインや挨拶（「こんばんは、７月７日、夜７時のニュースです。」と簡単な挨拶等）、ニュース項目中で最も話題性の高い項目がトップニュースとなり、その後政治情報、国際情勢、経済情報、社会情報、ローカルニュース、気象情報へと続く（話題性、祭事、節目などの事情により順番が異なる）。また、現在の項目から次の項目に移る場合、次の項目の案内を入れることがある。例えば、「今夜は先ず、内閣誕生のニュースからお伝えいたします。」、「次は地震のニュースです。」、「続いて環境に関するニュースです。」などがある。これらの項目案内は、時間の都合により省略されることもある。
【００５５】
本実施形態において、階層Ｌ１内の各情報の一括りとなるニュース単位を、ニュース項目と呼ぶ。また、放送当日のニュースの状況により、各項目の中が、いくつかに分かれていることもあり、これらの子項目と呼んでいる。このように派生した項目（子項目）は、上位階層Ｌ１の親項目と関連付けされ、下層階層Ｌ２以下で管理されている。
【００５６】
階層Ｌ１に含まれる一つのニュース項目は、通常４００字程度のテキスト（気象情報など長いものでは８００文字程度）からなり、２５区切り程度（長いもので５０区切り程度、区切りとは一息で発話されるテキスト量）程度の量である。本実施形態において、この区切られたテキストを区切りテキストと呼ぶものとする。
【００５７】
なお、ここではニュースを取り上げたが、ドラマやドキュメンタリーなどにおいても、その原稿若しくは台本はニュースの項目構造と同じで、章節で示されるようにいくつかの括りから階層構造をなす。
【００５８】
（２）ニュース原稿の制作から送出までの処理
ニュース原稿制作は、先ず、ニュース項目担当部門の担当記者が取材した内容に基づいて、期日までに原稿を作成する。出来上がった記者原稿は担当デスクによって校正が行われる。担当デスクで印刷された印刷物がアナウンサー原稿となり、報道制作関係部門に配布される。
【００５９】
ドラマやドキュメンタリーなどの番組は事前に作成された原稿若しくは台本に従い、時間と共に進行して収録される。しかしニュースは生放送でしかも時間枠が定められている。ニュース番組の進行状況によっては番組内での時間調整が必要となることもある。このような状況において、制作担当者は、アナウンサー原稿に対して部分削除や追加などの編集を手作業で行うことがある。従って、実際の放送ではこのように、アナウンサー発話が事前に電子化された原稿と必ずしも一致しないことがあり得る。またニュース放送では、できるだけ鮮度の高い情報を提供するため、取材並びに原稿の準備など理由により、当初予定の項目順番が入れ替わることもよくある。この項目順番変更は、アナウンサーがその原稿を読む前に原稿を管理するコンピュータシステムに反映されるため、音声検出処理に影響を与えない。
【００６０】
（３）照合範囲決定と優先順位付与
本実施形態において、原稿データは、原稿の内容に応じて項目分けがされており、これらの項目に応じてテキストデータが分割され、分割されたテキストデータには、優先度に応じた重み係数が付与されている。すなわち、図７に示すように、上位階層Ｌ１において、ｎ個の項目Ｆｉ（ｉ＝１，ｎ）があり、各項目は複数の区切りテキストにより構成される。これらの区切りテキストは音素変換処理によって音素列が生成される。ここでｉ番目の項目全体に対応する音素列をＦｉとし、その中の区切りテキストに対応する音素列をＦｉｊ（ｉ＝１，ｎｊ＝１，ｍｉ）とする。
【００６１】
現在、ｉ番目の項目が発話されようとする時点において、照合範囲決定部６０５の処理は次のようになる。この範囲決定処理において、項目Ｆｉ中の区切りテキストが、最優先の候補となり、放送時間の都合などにより、この項目発話途中で別の項目に移ることも考えられるため、この項目以降の各項目の先頭区切りテキストＦｋ１（ｋ＝ｉ＋１，ｎ）が次の候補となる。
【００６２】
項目ＦｉにおいてＦｉｊ（ｊ＝１，ｍ）の区切りテキストがあり、これからｊ＝１の区切りテキストが発話されようとしているとすると、この候補ｊの優先順位が最も高く、ｊ＋１、ｊ＋２と優先度が低くなる。優先度は数値（ウェイト：ｗ１、ｗ２、ｗ３、・・・）で示され、第２検出照合部６１０での判定閾値レベルに反映される。
【００６３】
図３に示した前記テキスト音素変換部６０６は、図８のステップＳ１０１〜Ｓ１０３に示すように、テキスト中に混在する漢字、かな、カタカナ、数字、数値を、先ずカタカナに変換し、このカタカナ文から発音記号を求め、音素列へと変換するモジュールである。
【００６４】
このテキスト音素変換部６０６では、照合範囲決定部６０５で決められた区切りテキスト全文を音素列に変換する。また第１検出照合部６０８の処理を高速に行うための検査音素列（区切りテキストの先頭からの音節片：本実施形態では８音節とする）を生成する。図９に、テキストと音素列の具体的なサンプルを示す。同図に示すように、発話の多様性対応のため、数値などはひらがなで表記することが必要となる。
【００６５】
このテキスト音素変換部６０６における漢字−カタカナ変換処理では、漢字かな混じりのテキストを形態素解析（文を品詞毎に分割する技術）して品詞毎に分割し、さらにすべてカタカナからなる文字列に変換する。
【００６６】
（例）私は太郎です―――＞ワタシワタローデス
また、このテキスト音素変換部６０６におけるカタカナ−発音記号変換処理では、カタカナからなる文字列を、表２の「カタカナ・発音記号対応表」を用いて、発音記号列に変換する。
【００６７】
【表２】

（例）ワタシワ―――＞ｗａｔａｓｈｉｗａ
また、このテキスト音素変換部６０６においける発音記号−音素列変換処理では、前述した表１の発音記号・継続長対応表を用いて各発音記号を継続長分連続させ、音素列を生成する。ここで、継続長とは、発音記号の継続する長さで単位はフレーム。フレームとは，サンプリングされた音声信号（例えば１６ｋＨｚでサンプリングすると１秒間に１６０００個のデータとなる）を等間隔に切り出した単位で、８ミリ秒おきに切り出している場合は１フレームの時間長は８ミリ秒となる。
【００６８】

なお、表１中の数値は、フレーム数を示す。
【００６９】
この例において「ｗａｔａｓｈｉｗａ」の発話の継続長は、ｗが７フレーム、以下ａ（１０）、ｔ（２）、ａ（１０）、ｓｈ（１５）、ｉ（９）、ｗ（７）、ａ（１０）を累積した７０フレームとなり、７０フレーム×８ｍｓｅｃ＝０．５６ｓｅｃとなる。即ち標準発話において「わたしは」は０．５６秒で発話されることになる。
【００７０】
発話速度調整処理部６０７は、アナウンサーが最適な環境の下、標準発話口調で発話しているため、民放各社の報道アナウンサーの発話に比べ、ゆっくりした口調で原稿を読み上げている。その発話速度は約１．５倍の違いとなる。また、発話速度調整処理部６０７は、第１検出照合部６０８の精度を向上させるため、発話速度の変化は主として母音の長さに反映されるという音響的な特徴（早口発話において母音の長さが短くなる）を着目し、原稿から音素に変換する段階で母音の継続長を調整する処理が設けられている。
【００７１】
（検出照合〜照合結果出力）
第１検出照合部６０８は、音声音素変換部６０３で得た入力音声の音素列に対して、テキスト音素変換部６から得た照合範囲にあるテキスト音素列群を連続ＤＰで比較を行い、累積距離の小さな第４位までの候補を求める。
【００７２】
原稿にある全文を照合対象とする計算量が多くなりリアルタイムでの処理が不可能となるため、照合範囲決定部で求められた対象項目のテキスト並びに後続項目の先頭文を対象とし、それらの文から求めた検査音素列と入力音声音素列との照合を行う。
【００７３】
本実施形態におけるＤＰマッチングと連続ＤＰについて、図１０を用いて、以下に説明する。ＤＰマッチングは２つのデータ列の類似度を測るアルゴリズムである。ここに２つのデータ列Ｒ、Ｑがあるとする。データ列Ｒはデータｒ１，ｒ２，ｒ３，，，，，，，ｒｍからなり、データ列Ｑはデータｑ１，ｑ２，ｑ３，，，，ｑｎからなる。同図において、横軸にデータ列Ｒを、縦軸にデータ列Ｑをとる。先ず全格子点上で、各データ間の距離値（近さの逆）を求める。例えば格子点Ｐはデータｒ２とデータｑ３との距離値を持つ。次に始点Ｓから終点Ｅを格子点を通るようにつなげ（これをパスと言う）、通る格子点の距離値を全部足し合わせ、パスの累積距離を求める。すべてのパスの中で最小の累積距離を持つパスを選択する（このパスを最適パスと言う）。さらにこの累積距離を正規化する（パスの長さ又は縦軸の長さで累積距離を割る）。この正規化した累積距離（以下、累積距離と言う）が小さいほどデータ列間の類似度が大きいと言える。
【００７４】
連続ＤＰは、ＤＰマッチングを拡張し、検索対象とするデータ列の中に入力データ列に類似する区間があるかを調べるアルゴリズムである。
【００７５】
検索対象データ列Ｒはデータｒ１，ｒ２，ｒ３，，，，，，，ｒｍからなり、入力データ列Ｑはデータｑ１，ｑ２，ｑ３，，，，ｑｎからなるとする。図１１において横軸にデータ列Ｒを、縦軸にデータ列Ｑをとる。次のようにして類似区間を求める。ある時点での最適パスを求める（下図では始点がＳ１、終点がＥ１のパス）。このパスの累積距離Ｄ１を求める。次に終点を右に１単位（データ１個分）ずらし（終点Ｅ２）、最適パスとその累積距離Ｄ２を求める。これを最後まで繰り返す。累積距離が最も小さいパスの区間が、入力データ列に最も類似している区間である。例えば下図でパスＳ−Ｅが最も累積距離が小さいとすると、区間Ｋが、入力データ列に最も類似している区間である。
【００７６】
また、横軸を終点位置、縦軸を累積距離とすると図１２のようなグラフになる。なお、本実施形態では、このグラフを累積距離曲線と称する。この累積距離曲線において、閾値を設定し、累積距離が閾値以下で極小となる点が類似区間候補の終点である。図１２の場合、終点Ｅ１とＥがこれに相当するので、これらの２終点で終わる２区間が類似区間の候補となる。Ｅ１よりＥにおける累積距離が小さいので、Ｅで終わる区間（図１１で区間Ｋ）が類似区間として検出される。
【００７７】
感度調整制御処理部６０９は、誤検出や検出漏れに対処するもので、連続ＤＰの判定閾値を調整するものである。感度はウェイトとして与えられ、全体若しくは部分的に判定の閾値（図１２中）を調整するものである。ウェイトが小さいほど累積距離は閾値に近寄り、検出し易くなる。
【００７８】
第２検出照合部６１０は、前段の第１検出照合部６０８で候補となった対象テキスト４候補について、引き続き連続ＤＰによる照合を行うもので、音声音素列と対象テキストの音素列を用いる。ここで行う連続ＤＰは対象テキストが４つあるため、同時に４つの連続ＤＰを行うことになる。４つの連続ＤＰのいくつかで類似区間が検出されたとき、連続ＤＰ累積距離が最小のテキストを検出テキストとする。４つのテキストは原稿の出現順番を考慮して、その順にｗ１，ｗ２，ｗ３，ｗ４の重み係数を持つ（１．０＝ｗ１＜ｗ２＜ｗ３＜ｗ４）。但しこの重み係数はテキストの出現順位を強固に保持させるような値を選択すると、発話内容の変更などに追従できなくなるため、緩やかな重み付けを行う。また図７においてウェイトがゼロのテキストは照合範囲決定部６０５において範囲対象外として扱う。累積距離に重み係数を掛けることにより、順番が早いテキストほど検出し易くしている。
【００７９】
この第２検出照合部６１０における処理の具体例を以下に示す。照合開始時点では４つのテキストの累積距離は、図１３に示すように、閾値以上である。そして、時間を進め、ある時点でテキスト１の累積距離が閾値以下になったとすると、図１４に示すように、テキスト１を検出テキスト候補とし、この時点Ａから検出テキストとその類似区間を求める処理が始まる。
【００８０】
さらに、時間を進め、テキスト１の類似区間候補が見つかった（累積距離曲線が極小になった）場合、図１５に示すように、この時点をＢ１点とする。
【００８１】
時間を進め、テキスト１の新しい類似区間候補が見つかり、Ｂ１点より累積距離が小さい場合、図１６に示すように、この点を新しいＢ２点とする。
【００８２】
他のテキストについても類似区間候補が見つかり、Ｂ１点、Ｂ２点より累積距離が小さい場合新しいＢ３点とし、このテキストを検出テキスト候補とする。図１７ではテキスト３が検出テキスト候補となっている。
【００８３】
そして、Ｂ３点から一定時間Ｌ（遅延時間、例えば１秒）新しいＢ点が見つからない場合、図１８に示すように、現在の最小の累積距離を有するテキスト候補を検出テキスト（ここではテキスト３）とし、Ｂ３点を類似区間の終点とする。
【００８４】
照合結果出力部６１１は、第２検出照合部６１０による検出結果を、照合結果出力プログラム７や、ビデオ保存・音声照合結果保存プログラム８などの他のプログラムに出力する外部出力インターフェースである。
【００８５】
（照合処理処理）
本実施形態に係る照合処理は、第１検出照合部６０８と第２検出照合部６１０の２段階において実行される。図１９は、本実施形態に係る照合処理を示すフローチャート図である。
【００８６】
先ず、音声入力部６０１により音声の入力が行われ（Ｓ２０６）、この入力された音声は、音声分析部６０２による音声分析の後（Ｓ２０７）、音声音素変換部６０３により音声音素に変換され（Ｓ２０８）、音声音素バッファに格納される（Ｓ２０９）。なお、本実施形態における音声音素バッファへの書き込みは、フレーム単位（８ｍｓｅｃ）で行われる。
【００８７】
一方、照合する原稿や台本は、原稿／台本入力部６０４から電子化されたデータとして入力され（Ｓ２０１）、照合範囲決定部６０５において、原稿の構造に基づいて区切りテキストが抽出され（Ｓ２０２）、これから放送において発話されるようとしているニュース項目の全テキスト（項目中の区切りテキスト）並びに後続の項目の先頭文を、テキスト音素変換部６０６におてテキスト音素変換し（Ｓ２０４）、テキスト音素バッファに格納される（Ｓ２０５）。このステップＳ２０４でのテキスト音素変換においては、早口発話に対応するため、適宜、発話即調整処理を行う（Ｓ２０３）。テキスト音素バッファに格納される情報は、区切りテキスト、その音素列、並びに高速に検出を行うための検査音素列（区切りテキスト音素列の先頭からの音節片：本装置では８音節とした）から構成される。
【００８８】
このように音声音素バッファに格納された音声音素に対して、テキスト音素バッファに格納されたテキスト音素群を、第１検出照合部６０８において検出照合処理を行う（Ｓ２１０）。具体的には、連続ＤＰによりＤＰの累積距離が小さい、即ち類似度の高いテキストを検出する。本実施形態では、ステップＳ２１０及びステップＳ２１３に示すように、連続ＤＰ照合は２段階で構成され、１段目が第１検出照合部６０８に、２段目が第２検出照合部６１０に対応する。
【００８９】
先ず、１段目の第１検出照合部６０８にでは、比較する対象となる区切りテキストが約５０個になり、連続ＤＰがこの個数分作動することとなる。またリアルタイムで照合処理を実現するためには、これらのテキスト音素を８ｍｓｅｃ以内で処理しなければならないことから、この第１検出照合部６０８における処理は、上述の検査音素列により高速に行われる。
【００９０】
放送音源には背景音楽などが含まれるため、音声区間、非音声区間を正確に判別することが難しい。また、音声区間で発話される内容が、事前に作成された原稿に含まれていないこともある。また、中継などの情報は事前原稿に含まれない内容である。このような音声音素列は検査音素列と類似しないため、この１段目の連続ＤＰでは、それら類似しない照合をスキップし、音声音素バッファから次の音声音素列を取り込む。
【００９１】
なお、一段目の照合は８音節程度と短いため、例えば「総理大臣は」と言う文が４箇所存在する場合、これらがすべて候補となる。ただし、ステップＳ２０２における照合範囲決定時の優先順位により、これら４候補は等確率ではなく、項目順番を考慮したウェイトが掛けられ、「総理大臣は」に続く後続のテキスト検出の誤検出を防止している。
【００９２】
これら検査音素列との照合結果に基づいて、候補が４つとなるまで、ループ処理を繰り返す（Ｓ２１２）。すなわち、ステップＳ２１２において、検査音素列と入力音素列とが一致する場合は、ｉに１を加算し、次の検査音素列をテキスト音素バッファから取得し、ステップＳ２１０を実行する。一方、ステップＳ２１２において、検査音素列と入力音素列とが一致しない場合には、音声音素バッファから音声音素を取得し、ステップＳ２１０において現在の検査音素列との照合を繰り返す。この処理を、ｉが４となるまで繰り返す。
【００９３】
そして、これらの検査音素列で音声音素と類似度の高い４候補を求め、次段の第２検出照合部６１０の処理に進む（Ｓ２１３）。この２段目の処理は、第２検出照合部６１０において、１段目で候補となった検査音素列に対応する区切りテキスト音素列と音声音素列との連続ＤＰ処理を行う。区切りテキスト音素列の一部は既に連続ＤＰが作動しているため、この情報を引き継いで連続ＤＰが作動する。
【００９４】
この処理はフレーム（８ｍｓｅｃ）毎に処理され、その時点時点での累積距離が求められ、累積距離曲線が得られる。この曲線から極小値を求める。この極小値がローカルミニマかグローバルミニマであるかを判定するため、一定時間（例えば１秒）新しい極小値が見つからなければ、最も小さい極小値（最も一致している）を持つ区切りテキストが検出したテキストとなる（Ｓ２１４）。
【００９５】
検出したテキストについて、表示処理（Ｓ２１５）を行う。例えば、検出したテキストデータを、照合結果再現プログラム１０等の別のアプリケーションに出力し、例えば、字幕装置においては字幕放送ができ、またＭＰＥＧ７形式の蓄積装置においては新しい形態のビデオコンテンツを形成することができる。
【００９６】
次いで、項目内の次の区切りテキストに進む（Ｓ２１６）。このとき、次項目若しくは以後の項目の先頭区切りテキストが存在するか否かについて判断を行い、新たな項目に遷移するような場合（ステップＳ２１６における”Ｙｅｓ”）には、ステップＳ２０２に戻り、照合範囲の決定〜テキスト音素バッファへの蓄積（Ｓ２０２〜Ｓ２０５）の処理を実行する。
【００９７】
一方、ステップＳ２１６において、次項目への遷移ではないと判断した場合に（ステップＳ２１８における”Ｎｏ”）は、テキスト音素バッファから適合テキストの削除処理を行い（Ｓ２１７）、テキスト音素バッファが空になっているか否かについて判断を行い（Ｓ２１８）、空になっている場合（ステップＳ２１８における”Ｙｅｓ”）には、ステップＳ２０２に戻り、照合範囲の決定〜テキスト音素バッファへの蓄積（Ｓ２０２〜Ｓ２０５）の処理を実行し、空になっていない場合には（ステップＳ２１８における”Ｎｏ”）、上記ステップＳ２１０〜Ｓ２１６の処理を実行する。
【００９８】
［第２実施形態］
次いで、本発明の第２実施形態について説明する。本実施形態では、上述した音声認識システムを、特定発話検知アーカイブシステムに応用した例である。図２０は、本実施形態に係る特定発話検知アーカイブシステムの構成を示すブロック図である。
【００９９】
本実施形態に係る特定発話検知アーカイブシステムは、図２０に示すように、照合ＰＣ２で実行される特定発話検知システム２１と、検出結果出力システム２２とを備えるとともに、蓄積ＰＣ１で実行される特定発話検知用アーカイブシステム１１と、特定キーワードデータベース９ｄと、照合ログデータベース９ｂと、ＭＰＥＧ２データベース９ｅと、音声処理再生システム１２とから構成される。
【０１００】
検出結果出力システム２２は、検出結果を、逐次表示するシステムである。音声処理再生システム１２は、照合ログファイルから対応するＭＰＥＧ２ファイルの再生を行うと共に、再生時間に合わせ照合したテキストを画面に表示したり、このテキストからそのシーンを表示したりするシステムである。特定発話検知システム２１は、上述した第１実施形態で説明した音声検出照合プログラム６を検索エンジンとして内蔵しており、前述した原稿ファイルに替えて、ユーザーが指定したキーワードを、ビデオファイルから検索する機能を有する。
【０１０１】
そして、このようなアーカイブシステムに対する操作は、照合ＰＣ２の画面に表示されるインターフェースを介して行うことができる。図２１は、このアーカイブシステムのユーザーインターフェースである操作画面を示す構成図である。
【０１０２】
先ず、特定発話検知用アーカイブシステムを起動する。次に、照合させるテキストデータを読み込み、アーカイブシステムのＭＰＥＧ２ファイル作成を行う。
【０１０３】
次いで、操作画面のテキストボックスＴＢ１において、検索するキーワードを入力する。キーワードは１ページあたり２０個の言葉を入力できる。このテキストボックスＴＢ１では、直接キーワードを入力することもでき、また、特定キーワードデータベース９ｄからキーワード群を読み込むことも可能であり、読み込んだキーワードの編集も行うこともできる。なお、本実施形態では、各テキストボックスＴＢ１に対応してチェックボックスＣＢ１が設けられており、入力したキーワードのうち、任意のキーワードを選択して検出対象とすることができる。
また、本実施形態では、各テキストボックスＴＢ１に対応させて、トラックバーＴＢＲ１が設けられており、各トラックバーＴＢＲ１を操作することにより、各キーワードに対する感度を設定する。感度は検出時のマッチング距離の閾値であり、０．０から５．０の範囲で、標準の閾値は２．５である。
【０１０４】
さらに、本実施形態では、各テキストボックスＴＢ１に対応させて、トラックバーＴＢＲ２が設けられており、このトラックバーＴＢＲ２を操作することによってキーワードの発話速度を調整することができる。０．５倍から２．０倍の範囲で、大変ゆっくりした発話から相当な早口発話に対応することができる。１倍は標準発話に対応する。
【０１０５】
また、本実施形態では、キーワードを検出する最小間隔（単位秒）を設定するテキストボックスＴＢ２、発話リストファイルをＰＣから読み込むためのボタンＢ１、入力・編集したキーワードや、各キーワードの感度、発話速度などの条件を発話リストファイルに書き込むためのボタンＢ２、キーワードをソートするためのボタンＢ３、検知したキーワードに対応した発話出力を実行するチェックボックスＣＢ２、処理を開始するためのボタンＢ４、処理を終了するためのボタンＢ５が設けられている。
【０１０６】
さらに、この操作画面には、全体の感度を調整するトラックバーＴＢＲ３が設けられている。本実施形態において、この感度調整の範囲は−２．５から２．５である。全体の感度の効果は各キーワードの感度に加算として表れ、各キーワードの感度の最大範囲は−２．５から７．５となる。また、全体の発話速度を調整するトラックバーＴＢＲ４も設けられている。本実施形態において、調整範囲は０．５倍から２．０倍である。全体のスピードの効果は各キーワードのスピードに乗算として表れ、各キーワードの速度範囲は０．２５倍から４．０倍になる。
【０１０７】
そして、検出結果は、リストボックスＬＢ１に表示される。図において、左から、「検出絶対時刻」、「処理を開始してからの時間（時：分：秒）」、「キーワードの発話時間（単位秒）」、それに検出されたキーワード文字列である。このリストボックスＬＢ１に表示されるデータは、ログファイルとして、照合ログデータベース９ｂに蓄積される。
【０１０８】
このようにして生成された照合ログは、ログファイルとして、検出結果出力システム２２において読み込まれる。このとき、検出結果出力システムでは、併せて、ログファイルに対応するＭＰＥＧファイルを読み込む。この検出結果出力システム２２は、ログファイルの印刷、インデックスに基づく頭出し再生、ログデータのソート（時刻、類似度、キーワード順）等を行う。
【０１０９】
［第３実施形態］
次いで、本発明の第３実施形態について説明する。本実施形態では、上述した音声認識システムを原稿に基づく音声インデキシングシステムに応用した例である。図２２は、本実施形態に係る音声インデキシングシステムの構成を示すブロック図である。
【０１１０】
本実施形態に係るインデキシングシステムは、図２２に示すように、照合ＰＣ２で実行される音声インデキシングシステム２３と、検出結果出力システム２２とを備えるとともに、蓄積ＰＣ１で実行される音声インデキシング用アーカイブシステム１３と、原稿データベース９ａと、照合ログデータベース９ｂと、ＭＰＥＧ２データベース９ｅと、音声処理再生システム１２とから構成される。
【０１１１】
検出結果出力システム２２は、検出結果を、逐次表示するシステムである。音声処理再生システム１２は、照合ログファイルから対応するＭＰＥＧ２ファイルの再生を行うと共に、再生時間に合わせ照合したテキストを画面に表示したり、このテキストからそのシーンを表示したりするシステムである。
【０１１２】
音声インデキシングシステム２３は、上述した第１実施形態で説明した音声検出照合プログラム６を検索エンジンとして内蔵しており、前述した原稿ファイルに基づいて、原稿ファイル内のテキストを、ビデオファイルから検索する機能を有する。
【０１１３】
そして、このようなインデキシングシステムに対する操作は、照合ＰＣ２の画面に表示されるインターフェースを介して行うことができる。図２３は、このインデキシングシステムのユーザーインターフェースである操作画面を示す構成図である。
【０１１４】
同図に示すように、この操作画面上には、入力した原稿を表示するリストボックスＬＢ２が備えられている。本実施形態では、このリストボックスＬＢ２において検出したテキストは赤色で表示される。
【０１１５】
また、この操作画面には、検出時に一度に処理する文の数を指定するテキストボックスＴＢ３と、検出する文に対する重みを設定するテキストボックスＴＢ４と、検出遅延時間を設定するテキストボックスＴＢ５が設けられている。
【０１１６】
テキストボックスＴＢ４では、例えば、重み係数が０．４の場合、最初の文の重みは１．０、次の文の重みは１．４、その次の文の重みは１．４４となる。重みが大きいほど検出感度が低くなる。また、テキストボックスＴＢ５では、新たに文を検出する際、直前（検出遅延時間以内）に検出した文と類似度を比較し類似度がより大きい場合、出力候補とする。検出遅延時間内に新たな検出文がない場合、前の検出文をログに出力する。
【０１１７】
そして、検出結果のログは、リストボックスＬＢ１に表示される。このリストボックスＬＢ１において、左から、「検出絶対時刻」、「処理を開始してからの時間（時：分：秒）」、「区切りテキストの発話時間（単位秒）」、それに検出された区切りテキストである。
【０１１８】
そして、このようなインデキシングシステムによれば、原稿ファイルから抽出された区切りテキストをキーワードとして、該当するキーワードが発話された時刻等を照合ログとしてリストボックスＬＢ１に表示し、このリストは、照合ログファイルとして、照合ログデータベース９ｂに蓄積される。
【０１１９】
このようにして生成された照合ログファイルは、検出結果出力システム２２において読み込まれる。このとき、検出結果出力システムでは、併せて、ログファイルに対応するＭＰＥＧファイルを読み込む。そして、この検出結果出力システム２２は、ログファイルの印刷、インデックスに基づく頭出し再生、ログデータのソート（時刻、類似度、キーワード順）等を行う。
【０１２０】
［第４実施形態］
なお、上述した実施形態及びその応用例に係る音声認識システム及び方法は、所定のコンピュータ言語で記述されたプログラムとすることができる。すなわち、このプログラムを、ユーザー端末やＷｅｂサーバ等のコンピュータやＩＣチップにインストールすることにより、上述した各機能を有する音声検出照合プログラムや照合結果出力プログラム等を容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
【０１２１】
そして、このようなプログラムは、図２４に示すような、汎用コンピュータ１２０で読み取り可能な記録媒体１１６〜１１９に記録することができる。具体的には、同図に示すような、フレキシブルディスク１１６やカセットテープ１１９等の磁気記録媒体、若しくはＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ１１７等の光ディスクの他、ＲＡＭカード１１８など、種々の記録媒体に記録することができる。本実施形態は書き込み不可のＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ１１７中にあるコンテンツに対してリンクを設けることができる特徴を有する。
【０１２２】
そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述した音声認識システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
【０１２３】
【発明の効果】
以上述べたように、この発明によれば、既存の音声認識技術を利用し、放送中に発話される音声を、リアルタイムで且つ精度良く検出することができる。この検出結果を利用することにより、放送される映像に対して原稿に基づいた字幕付与したり、発話されている原稿に応じた映像を表示したり、キーワードによる検索によって希望する映像シーンを表示させたりなど、多様なサービスが可能となり、万人に対する様々なユニバーサルサービスを実現することが可能となる。
【図面の簡単な説明】
【図１】第１実施形態に係る音声認識システムの概略構成を示すブロック図である。
【図２】第１実施形態に係る照合ＰＣ及び蓄積ＰＣの内部構造及び関係を示すブロック図である。
【図３】第１実施形態に係る音声検出照合プログラムの機能を示すブロック図である。
【図４】第１実施形態に係る音声信号の時間波形を示すグラフ図である。
【図５】第１実施形態に係る音声信号のスペクトル波形を示すグラフ図である。
【図６】第１実施形態に係るニュース原稿の構造を示す説明図である。
【図７】第１実施形態に係る原稿内部の項目の記述を示す説明図である。
【図８】第１実施形態に係るテキスト音素変換部における処理を示すフローチャート図である。
【図９】第１実施形態に係るテキストと音素列の説明図である。
【図１０】第１実施形態に係るＤＰマッチングにおけるＤＰパスを示すパス図である。
【図１１】第１実施形態に係る連続ＤＰマッチングにおけるＤＰパスを示すパス図である。
【図１２】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１３】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１４】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１５】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１６】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１７】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１８】第１実施形態に係る連続ＤＰマッチングにおける累積距離曲線図である。
【図１９】第１実施形態に係る照合処理を示すフローチャート図である。
【図２０】第２実施形態に係る特定発話検知システムの構成を示すブロック図である。
【図２１】第２実施形態に係るインターフェースの操作画面を示す構成図である。
【図２２】第３実施形態に係る音声インデキシングシステムの構成を示すブロック図である。
【図２３】第３実施形態に係るインターフェースの操作画面を示す構成図である。
【図２４】第４実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。
【符号の説明】
１…蓄積ＰＣ
２…照合ＰＣ
３…時計サーバー
４…ネットワーク
５ａ…音声
５ｂ…記録媒体
６…音声検出照合プログラム
７…照合結果出力プログラム
８…音声照合結果保存プログラム
９ａ…原稿データベース
９ｂ…照合ログデータベース
９ｃ…ビデオファイルデータベース
９ｄ…特定キーワードデータベース
９ｅ…ＭＰＥＧ２データベース
１０…照合結果再現プログラム
１１…特定発話検知用アーカイブシステム
１２…音声処理再生システム
１３…音声インデキシング用アーカイブシステム
２１…特定発話検知システム
２２…検出結果出力システム
２３…音声インデキシングシステム
１１６…フレキシブルディスク
１１７…ＲＯＭ
１１８…ＲＡＭカード
１１９…カセットテープ
１２０…汎用コンピュータ
６０１…音声入力部
６０２…音声分析部
６０３…音声音素変換部
６０３ａ…音素モデル辞書
６０４…原稿／台本入力部
６０５…照合範囲決定部
６０６…テキスト音素変換部
６０７…発話速度調整処理部
６０８…第１検出照合部
６０９…感度調整制御処理部
６１０…第２検出照合部
６１１…照合結果出力部

Claims

音声信号を入力する音声入力部と、
テキストデータを含む原稿データを入力する原稿データ入力部と、
前記音声入力部から入力された音声を音声音素列に変換する音声音素変換部と、
前記原稿データ入力部から入力されたテキストデータをテキスト音素列に変換するテキスト音素変換部と、
前記音声音素列と前記テキスト音素列との一致不一致を照合する照合部と、
前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力する照合結果出力部と
を備えることを特徴とする音声認識システム。
前記原稿データは、原稿の内容に応じて項目分けがされており、
前記項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出する照合範囲決定部を備えることを特徴とする請求項１に記載の音声認識システム。
前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
前記照合範囲決定部は、前記重み係数に応じた順序で、前記照合対象テキストを前記テキスト音素変換部に出力し、該照合部は、該照合対象テキストの音素と音声音素との照合を行うことを特徴とする請求項２に記載の音声認識システム。
前記照合部は、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項３に記載の音声認識システム。
前記照合部は、
前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力する第１検出照合部と、
前記第１検出照合部から出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する前記第２検出照合部と
を備えることを特徴とする請求項１又は２に記載の音声認識システム。
音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記照合部における照合精度を調整する感度調整制御処理部を備えることを特徴とする請求項１に記載の音声認識システム。
前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記テキスト音素変換部における変換速度を調整する発話速度調整処理部を備えることを特徴とする請求項１に記載の音声認識システム。
前記照合結果出力部は、出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行う機能を備えることを特徴とする請求項１に記載の音声認識システム。
前記照合結果出力部から出力される検出結果を照合ログとして蓄積する照合ログデータベースと、
前記音声信号が含まれる素材データを蓄積する素材データ蓄積部と、
前記照合ログに含まれるテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力する照合結果再現部を備えることを特徴とする請求項１に記載の音声認識システム。
前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
前記照合結果出力部から出力される検出結果を照合ログとして蓄積する照合ログデータベースと、
前記音声信号が含まれる素材データを蓄積する素材データ蓄積部と、
前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力する照合結果再現部を備えることを特徴とする請求項１に記載の音声認識システム。
音声信号を入力するとともに、テキストデータを含む原稿データを入力するステップ（１）と、
入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換するステップ（２）と、
前記音声音素列と前記テキスト音素列との一致不一致を照合し、前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力するステップ（３）と
を備えることを特徴とする音声認識方法。
前記原稿データは、原稿の内容に応じて項目分けがされており、
前記ステップ（３）では、項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出することを特徴とする請求項１１に記載の音声認識方法。
前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
前記ステップ（３）では、前記重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことを特徴とする請求項１２に記載の音声認識方法。
前記ステップ（３）では、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項１３に記載の音声認識方法。
前記ステップ（３）では、
前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力し、
この出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する
ことを特徴とする請求項１１又は１２に記載の音声認識方法。
音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記ステップ（３）における照合精度を調整することを特徴とする請求項１１に記載の音声認識方法。
前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記ステップ（２）における変換速度を調整することを特徴とする請求項１１に記載の音声認識方法。
出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うステップをさらに有することを特徴とする請求項１１に記載の音声認識方法。
前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
蓄積されたテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項１１に記載の音声認識方法。
前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項１１に記載の音声認識方法。
コンピュータに、
音声信号を入力するとともに、テキストデータを含む原稿データを入力するステップ（１）と、
入力された音声を音声音素列に変換するとともに、入力されたテキストデータをテキスト音素列に変換するステップ（２）と、
前記音声音素列と前記テキスト音素列との一致不一致を照合し、前記音声音素列と前記テキスト音素列とが一致する場合に、一致する音素列に対応する前記テキストデータを検出結果として出力するステップ（３）と
を備える処理を実行させることを特徴とする音声認識プログラム。
前記原稿データは、原稿の内容に応じて項目分けがされており、
前記ステップ（３）では、項目に応じて前記テキストデータを分割し、分割された各テキストデータの先頭文字列の範囲を決定し、該範囲内の文字列を照合対象テキストとして抽出することを特徴とする請求項２１に記載の音声認識プログラム。
前記分割された各テキストデータには、優先度に応じた重み係数が付与されており、
前記ステップ（３）では、前記重み係数に応じた順序で、照合対象テキストと音声音素との照合を行うことを特徴とする請求項２２に記載の音声認識プログラム。
前記ステップ（３）では、前記照合処理の進捗に応じて、照合済みの照合対象テキストを削除するとともに、未だ照合されていない照合対象テキストに付与された前記重み係数を逐次変動させることを特徴とする請求項２３に記載の音声認識プログラム。
前記ステップ（３）では、
前記照合対象テキストと、前記音声音素列との一致不一致を照合し、所定数の該当する該照合対象テキストを検出候補として出力し、
この出力された検出候補と前記音声音素列との一致不一致を照合し、前記検出結果を出力する
ことを特徴とする請求項２１又は２２に記載の音声認識プログラム。
音素列同士の一致度を比較するための閾値を保持し、この閾値を変動させることにより前記ステップ（３）における照合精度を調整することを特徴とする請求項２１に記載の音声認識プログラム。
前記原稿データには、テキストデータの発話状況に関する発話状況情報が含まれ、
前記発話状況情報に基づいて、音声の継続長を変化させることにより、前記ステップ（２）における変換速度を調整することを特徴とする請求項２１に記載の音声認識プログラム。
出力されるテキストデータが所定の文字列に該当する場合に、警告処理を行うステップをさらに有することを特徴とする請求項２１に記載の音声認識プログラム。
前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
蓄積されたテキストデータと、前記素材データ中における当該テキストデータの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項２１に記載の音声認識プログラム。
前記原稿データとして、ユーザーが任意に設定した文字列であるキーワードを入力し、
前記検出結果を照合ログとして蓄積するとともに、前記音声信号が含まれる素材データを蓄積し、
前記照合ログに含まれる前記キーワードと、前記素材データ中における当該キーワードの位置とに基づいて、当該素材データを所望する位置から出力するステップをさらに備えることを特徴とする請求項２１に記載の音声認識プログラム。