JPH10312389A

JPH10312389A - 音声データベースシステムおよび記録媒体

Info

Publication number: JPH10312389A
Application number: JP9122264A
Authority: JP
Inventors: Hiroshi Shibazaki; 博柴崎
Original assignee: Dainippon Screen Manufacturing Co Ltd
Current assignee: Dainippon Screen Manufacturing Co Ltd
Priority date: 1997-05-13
Filing date: 1997-05-13
Publication date: 1998-11-24

Abstract

(57)【要約】【課題】オペレータの所望する音声データを迅速かつ
効率的に確実に得ることができること。【解決手段】音声データベースシステムに登録する全
ての音声データに対して、キーフレーズを設定してお
く。キーフレーズとは、音声データの示す音声の特徴的
な部分の区間音声情報である。そして、音声データベー
スシステムにおいて任意の条件に基づいて音声データの
検索が行われる。そして、検索の結果抽出された全ての
音声データについて、キーフレーズを繰り返した音声波
形ＷＡＶ４，ＷＡＶ５を生成する。そして、キーフレー
ズが繰り返された全ての音声波形を総和合成した音声波
形ＷＡＶ６を生成する。さらに、音声波形ＷＡＶ６をレ
ベル調整して音声波形ＷＡＶ７を生成する。そして、検
索結果の表示を行う際に、音声波形ＷＡＶ７に対応する
音声を再生することにより、音声データの特定が容易に
なる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声データを取
り扱うコンピュータにおいて、多量の音声データを保管
し、その中から所望の音声データを検索し、さらに抽出
された音声データを表示・再生する音声データベースシ
ステムおよび記録媒体に関する。

【０００２】

【従来の技術】音声データをコンピュータ内に多量に保
管管理して利用する場合、保管データ数が多量になるほ
ど、効率の良い検索や迅速な確認ができる音声データベ
ースシステムが要求される。

【０００３】しかし、音声データは聴覚において認識さ
れる音声についてのデータであるため、テキストデータ
や画像データのように表示装置にデータの内容を表示さ
せるだけでオペレータが視覚的に認識できるものではな
い。

【０００４】そこで、従来の音声データベースシステム
では、効率の良い検索を行うために音声データにキーワ
ードなどの属性情報を対応付けておき、多量の音声デー
タの中からその属性情報に基づいて検索を行うように構
成されている。属性情報には、キーワードの他にタイト
ル名，作成者／録音者，収録場所，収録日時，収録時間
などがある。そして、検索の結果抽出された音声データ
は、一覧形式で表示装置の画面上に表示される。

【０００５】図１６は、このような従来の音声データベ
ースシステムにおける操作手順を表示装置に表示される
画面で示した説明図である。図１６に示すように、オペ
レータは所望の音声データを得るために検索画面Ｐ１の
検索条件入力領域２５にキーワードなどの属性情報を入
力する。例えば、オペレータが猫の鳴き声の音声データ
を要求している場合には、キーワードに「猫」などとい
う言葉を入力し、コンピュータに検索を実行させる。

【０００６】そして、コンピュータが検索を終了する
と、表示装置において検索結果が表示される。図１６に
示す検索結果表示画面Ｐ２は、抽出された音声データが
６個ある場合を示している。検索結果表示画面Ｐ２で
は、音声データを「アイコン」と「ファイル名」とによ
り表示している。ここで、「ファイル名」とは、データ
やプログラムに対応付けられた名称であり、「アイコ
ン」とは、画面上でファイルをシンボル化して表示する
絵記号である。そして音声データを示すアイコンとして
スピーカの絵柄を採用している。

【０００７】

【発明が解決しようとする課題】しかし、一般的に、オ
ペレータは、他人が設定したファイル名について、それ
がどのようなファイルであるのか判断できない場合が多
く、上記のように検索結果が表示されても、オペレータ
がファイル名を認識していない限り、最終的な音声デー
タの特定をすることができない。

【０００８】従って、オペレータが所望する音声データ
を確定するためには、属性情報を表示させ、それを詳細
に確認することにより決定しなければならない。このよ
うに属性情報を確認しながら音声データを特定すること
は、容易な作業ではなく、効率が非常に悪いとともに、
実際の音声の再生を伴わないためオペレータに不安感が
残ることもある。

【０００９】そして、属性情報の確認で不安感が残る場
合には、オペレータは音声データの再生アプリケーショ
ンを起動させて、実際の音声を再生することにより確認
する。この作業は、検索結果表示画面Ｐ２から意図的に
再生アプリケーションを起動させ、さらに再生アプリケ
ーション画面Ｐ３についての操作を行わなければならな
ず、操作に手間がかかることとなる。また、音声データ
が長い場合には、音声データを再生してもその音声の特
徴部分にたどり着くまで時間がかかることがあり、効率
的な特定を行うことができない。

【００１０】この発明は、上記課題に鑑みてなされたも
のであって、オペレータの所望する音声データを迅速か
つ効率的に確実に得ることができる音声データベースシ
ステムおよび記録媒体を提供することを目的とする。

【００１１】

【課題を解決するための手段】上記目的を達成するため
に、請求項１に記載の発明は、音声データを取り扱うコ
ンピュータにおいて、(a)音声データの示す音声の任意
の特徴的な部分についての区間音声情報を前記音声デー
タに対応付けて記憶する記憶手段と、(b)複数の音声デ
ータの中から所定の情報に基づいて音声データの検索を
行う検索手段と、(c)検索手段によって抽出された音声
データを区間音声情報に基づいて再生し、音声として出
力する出力手段とを備えている。

【００１２】請求項２に記載の発明は、請求項１に記載
のシステムにおいて、記憶手段は、１つの音声データに
ついて複数の区間音声情報を対応付けて記憶することが
可能であることを特徴としている。

【００１３】請求項３に記載の発明は、請求項１または
２に記載のシステムにおいて、出力手段で出力されてい
る音声データに対応する表示が、当該音声データの区間
音声情報に基づく再生に伴って変化することを特徴とし
ている。

【００１４】請求項４に記載の発明は、請求項１ないし
３のいずれかに記載のシステムにおいて、検索手段によ
って抽出された音声データについて、特徴的な部分の発
音の擬音語または当該音声データについての客観的対象
物を含む文字で表現した音声データ認識ワードを表示す
ることを特徴としている。

【００１５】請求項５に記載の発明は、コンピュータ
を、(a)音声データの示す音声の任意の特徴的な部分に
ついての区間音声情報を前記音声データに対応付けて記
憶する記憶手段、(b)複数の音声データの中から所定の
情報に基づいて音声データの検索を行う検索手段、(c)
検索手段によって抽出された音声データを区間音声情報
に基づいて再生し、音声として出力する出力手段として
機能させるための音声データベースプログラムが記録さ
れている。

【００１６】

【発明の実施の形態】

＜１．装置の構成＞まず、この発明の実施の形態におけ
る音声データベースシステムの概要について説明する。
図１は、この発明の実施の形態である音声データベース
システムの構成を示す概略図である。図１に示すよう
に、この装置において入出力装置１１，ＣＰＵ１２，メ
モリ１３，記憶部１４，インタフェース１５，１６，１
７がバスラインＢＬを介して相互に接続されている。入
出力装置１１は、フレキシブルディスク，光磁気ディス
ク，ＣＤ−ＲＯＭなどのコンピュータ読み取り可能な可
搬性記録媒体Ｄからデータを読み込んだり、それらに対
してデータを書き込んだりする装置である。ＣＰＵ１２
は、演算処理を行う処理部である。メモリ１３は、デー
タを一時的に記憶保持しておくための装置であり、記憶
部１４は、磁気ディスクなどのコンピュータ読み取り可
能な固定の記録媒体である。そして、インタフェース１
５にはさらにＣＲＴや液晶ディスプレイなどのような表
示装置１８が接続されており、インタフェース１６には
キーボード１９，マウス２０が接続されている。さら
に、インタフェース１７には音声データについての音声
を発生させるスピーカ２１が接続されている。また、こ
の音声データベースシステムは、必要に応じてネットワ
ークに接続することもでき、そのネットワークに接続さ
れている他の機器から音声データを獲得することもでき
る。

【００１７】このように、この実施の形態の音声データ
ベースシステムは、一般的な１台のコンピュータにおい
て内部のＣＰＵ１２が音声データベースプログラムを実
行することにより、実現される装置である。なお、上記
の音声データベースプログラムは、可搬性記録媒体Ｄか
ら読み込まれても良いし、予め記憶部１４に記憶させて
おいても良い。すなわち、この音声データベースプログ
ラムが格納される対象は、可搬性記録媒体であるか、固
定の記録媒体であるかを問わない。

【００１８】＜２．音声データの登録＞この実施の形態
の音声データベースシステムにおいて、音声データを登
録する際に、オペレータは、属性情報と音声データ認識
ワードを設定する。属性情報に含まれる情報としては、
音声データについてのタイトル名，作成者／収録者，収
録場所，収録日時，収録時間，キーワード，コメントな
どである。なお、キーワードは複数個設定することが可
能である。この属性情報は、音声データの検索の際に使
用される情報である。また、「音声データ認識ワード」
とは、音声データがどのような音声についてのデータで
あるかを具体的かつ簡潔に示すような任意の言葉であ
る。例えば、鈴虫の鳴き声の音声データである場合は、
「リーンリーン」という擬音語や「鈴虫の鳴き声」とい
う具体的名称、さらには「鈴虫」という当該音声の源で
ある客観的対象物の名称などの音声データ認識ワードが
入力される。なお、この音声データ認識ワードは、検索
結果の表示の際に用いられる文字データであるため、音
声データの内容を誰もが認識できるような曲名や擬音な
どの言葉で入力することが好ましい。

【００１９】そして、オペレータが属性情報と音声デー
タ認識ワードとの入力を行う際は、キーボード１９やマ
ウス２０から行う。そして入力された属性情報と音声デ
ータ認識ワードは記憶部１４に保存される。また、多量
の音声データがＣＤ−ＲＯＭなどの記録媒体に格納され
ている場合などには、属性情報，音声データ認識ワー
ド，および記録媒体の音声データとを相互に関連づけた
状態で属性情報，音声データ認識ワードを記憶部１４に
保存する。これにより、大容量を必要とする音声データ
を記憶部１４内に保持する必要がなくなる。

【００２０】また、オペレータは、音声データを登録す
る際に、音声データのキーフレーズを設定する。「キー
フレーズ」とは、音声データの示す音声の任意の特徴的
な部分の区間音声情報である。なお、１つの音声データ
について複数のキーフレーズを設定することも可能であ
り、複数のキーフレーズを設定することにより音声デー
タの特定がより確実なものとなる。キーフレーズの設定
は、音声データについて識別性のある特徴的な部分の開
始点と終了点とを入力することにより行われる。

【００２１】図２は、この実施の形態における音声デー
タのキーフレーズの設定方法を説明するための説明図で
ある。図２に示すように、時刻ｔ１に音声データの再生
を開始した場合、時刻ｔ２に終了する。なお、図２にお
いて音声波形ＷＡＶ１は、音声データを再生した際の音
声の波形を示している。このような音声波形ＷＡＶ１
は、キーフレーズの設定の際に表示装置１８に表示さ
れ、音声データを視覚的に認識することができるととも
に、音声データの再生に伴って再生位置表示２２が時刻
ｔ１の位置から時刻ｔ２の位置まで移動するように構成
されている。そして、音声データの特徴的な部分が時刻
ｔａから時刻ｔｂの間の音声であるとすると、オペレー
タは、音声データを再生し始めてから時刻ｔａに差し掛
かったところでキーボード１９などから開始点の入力を
行い、時刻ｔｂに差し掛かったところでキーボード１９
などから終了点の入力を行う。このようにして音声デー
タについて、時刻ｔａからｔｂの間の音声の特徴的な部
分がキーフレーズとして設定される。

【００２２】このようなキーフレーズの設定は、一つの
音声データに対して複数個の指定が可能である。キーフ
レーズを複数個設定する場合は、上記の開始点と終了点
とのキーフレーズの区間の入力を繰り返し行えば良い。
また、キーフレーズの設定が行われない場合は、その音
声データについて全区間が自動的にキーフレーズとして
設定される。そして、キーフレーズについても属性情
報，音声データ認識ワード，音声データと相互に関連づ
けられた状態で記憶部１４に記憶される。この記憶部１
４への記憶は、キーフレーズの開始点・終了点を示す情
報を記憶しても良いが、キーフレーズとして設定された
区間の実際の音声データを取り出して記憶しても良い。

【００２３】次に、この音声データベースシステムにお
ける音声データの登録の処理手順について説明する。図
３は、この実施の形態の音声データベースシステムにお
ける音声データの登録の処理を示すフローチャートであ
る。

【００２４】まず、ＣＰＵ１２において、オペレータの
指示により音声データベースプログラムのうちの音声デ
ータの登録に関するプログラムを起動する（ステップＳ
１１）。次にステップＳ１２においてオペレータは、Ｃ
Ｄ−ＲＯＭなどの記録媒体や記憶部１４に保持されてい
る音声データのうちで未登録のものを選択する。この選
択は、オペレータが表示装置１８に表示されている音声
データの一覧を参照しながら行う。そして、ステップＳ
１３においてＣＰＵ１２は、オペレータの選択した音声
データを再生し、スピーカ２１より音声を発生させる。
そしてオペレータがスピーカ２１からの音声を聞き、音
声データベースシステムに登録する音声データであるか
否かを判断し、キーボード１９やマウス２０より「ＹＥ
Ｓ」または「ＮＯ」に対応する入力を行う（ステップＳ
１４）。そして、ステップＳ１４でのオペレータの入力
によって登録処理を進めるのであれば、ステップＳ１５
に進み、登録処理を行わないのであればステップＳ１２
に戻り、他の音声データの選択を行うこととなる。

【００２５】ステップＳ１５では、登録の対象となって
いる音声データの属性情報と音声データ認識ワードなど
の入力を行う。この入力もオペレータが表示装置１８を
参照しながらキーボード１９等より行う。そして次に、
キーフレーズの設定を行う（ステップＳ１６）。キーフ
レーズの設定は、先述のように、表示装置１８に表示さ
れる内容と、スピーカ２１から聞こえる音声に基づいて
音声データの特徴的な部分の開始点と終了点を入力する
ことにより行われる。そして、ステップＳ１７では、ス
テップＳ１５，Ｓ１６で入力・設定した内容について、
オペレータが登録の指示を行う。この登録の指示がある
と、ＣＰＵ１２は音声データと属性情報と音声データ認
識ワードとキーフレーズとを相互に対応付け、記憶部１
４にその内容を保存する。そして、ステップＳ１８にお
いてオペレータが登録処理を終了するか否かの判断を行
い、それぞれに対応する入力を行う。ＣＰＵ１２は、ス
テップＳ１８での入力に基づいてステップＳ１２やステ
ップＳ１９に処理を進める。そして、ステップＳ１９で
は、ＣＰＵ１２において音声データの登録に関するプロ
グラムを終了する。

【００２６】以上のような処理によって、この実施の形
態の音声データベースシステムでは、音声データについ
て属性情報，音声データ認識ワード，キーフレーズの設
定を行うことができる。

【００２７】＜３．音声データの検索および検索結果の
表示＞次に、音声データの検索および検索結果の表示に
ついて説明する。

【００２８】音声データの検索においては、従来からの
検索と同様に、タイトル名，キーワード，コメントなど
の属性情報やファイル名に基づく検索が行われる。例え
ば、オペレータが猫の鳴き声の音声データを要求する場
合は、検索時に「動物」や「猫」という検索語を入力す
れば、そのような検索語を属性情報やファイル名に有す
る音声データを得ることができる。また、検索はＣＰＵ
１２によって記憶部１４に保存されている属性情報など
を基に行われ、登録の際に対応付けられている音声デー
タを特定することができる。

【００２９】そして、検索の結果得られた音声データ
は、表示装置１８に表示される。図４は、この実施の形
態の音声データべースシステムにおける検索結果の表示
の一例を示す図である。図４に示すように、検索結果表
示画面Ｐ２には４個の音声データのアイコンＩＣ１〜Ｉ
Ｃ４が表示されている。そして、それぞれのアイコンＩ
Ｃ１からＩＣ４の下欄には音声データ認識ワードが表示
されている。アイコンＩＣ１には「リーンリーン」が、
アイコンＩＣ２には「わんわん」が、アイコンＩＣ３に
は「石がころころ」が、アイコンＩＣ４には「ポロネー
ズ」が音声データ認識ワードとして表示されている。音
声データの登録の際に音声データ認識ワードは、音声デ
ータがどのような音声についての音声データであるかを
判断しやすい言葉で登録されているため、図４に示す検
索結果表示画面Ｐ２についても４個の音声データがそれ
ぞれどのような音声であるかを推定することが容易であ
る。

【００３０】さらに、この実施の形態では、オペレータ
の所望する音声データの特定を容易にするために、「非
選択状態」と「仮選択状態」という２つの状態に基づい
て検索結果の表示の状態やスピーカ２１から発生させる
音声の制御を行っている。この非選択状態と仮選択状態
の設定は、例えば図４のように表示された４個の音声デ
ータのそれぞれについて行うことができる。そして、そ
れぞれについての非選択状態／仮選択状態の切り替え
は、マウス２０などの操作によりマウスポインタをアイ
コンＩＣ１〜ＩＣ４と重なる位置に移動させ、その位置
でマウス２０をクリックすること等により行うことがで
きる。また、非選択状態の音声データのアイコンに重な
る位置にマウスポインタを位置させると、そのアイコン
に対応する音声データは仮選択状態となる。このよう
に、オペレータの意図的な切り替えとダイナミックな切
り替えとを併存させている。図５は、検索結果表示画面
Ｐ２の非選択状態と仮選択状態と示す図である。図５に
示すアイコンＩＣ１，ＩＣ３，ＩＣ４は非選択状態の音
声データを示しており、アイコンＩＣ２は仮選択状態の
音声データを示している。すなわち、マウス２０などの
操作によって仮選択状態となった場合は、アイコンの枠
が太枠で表示される。

【００３１】この「非選択状態」と「仮選択状態」につ
いて説明する。

【００３２】ａ）非選択状態での表示などの制御検索結果の表示の際に、検索条件と一致した音声データ
がすべて非選択状態の場合について説明する。この場合
には、「モード１」と「モード２」の２通りの再生モー
ドが準備されており、当該音声データベースシステムの
初期設定において任意のモードを選択することができ
る。

【００３３】a-1）モード１について「モード１」としては、検索条件と一致した音声データ
のそれぞれについて設定されているキーフレーズの区間
を繰り返し、そして全ての音声データの繰り返されたキ
ーフレーズを総和合成し、平均の２分の１の音量になる
ようにレベル調整した後に再生し、スピーカ２１より合
成された音声を発生させる機能である。このことを図６
と図７とを参照して説明する。

【００３４】図６は、２つの音声データのキーフレーズ
を示す図である。図６（ａ）に示す音声データの音声波
形ＷＡＶ２について設定されているキーフレーズは、区
間ｋａの範囲の音声データである。図６（ｂ）に示す音
声データの音声波形ＷＡＶ３について設定されているキ
ーフレーズは、区間ｋｂの範囲の音声データである。

【００３５】図７は、キーフレーズの総和合成を示す説
明図である。図７に示す音声波形ＷＡＶ４は、図６
（ａ）に示す音声波形ＷＡＶ２のキーフレーズ区間ｋａ
の繰り返しを示している。また、図７に示す音声波形Ｗ
ＡＶ５は、図６（ｂ）に示す音声波形ＷＡＶ３のキーフ
レーズ区間ｋｂの繰り返しを示している。なお、一つの
音声データに複数のキーフレーズが設定されている場合
には、それらは順次に繰り返される。検索の結果抽出さ
れた音声データが他にもある場合には、それらについて
もキーフレーズ区間を繰り返した音声データを生成す
る。各キーフレーズを繰り返す際に、キーフレーズとキ
ーフレーズのつなぎの部分には、レベル調整が施され、
フェードインやフェードアウトの効果が効かされる。
「フェードイン」とはキーフレーズの始まりの部分にお
いて音声レベルを徐々に大きくしていくことであり、
「フェードアウト」とはキーフレーズの終わりの部分で
音声レベルを徐々に小さくしていくことである。

【００３６】そして、検索によって抽出された音声デー
タの全ての音声データのキーフレーズを繰り返した音声
データを総和合成し、平均化した音声波形ＷＡＶ６を生
成する。そして、平均化された音声波形ＷＡＶ６の音声
レベルを、「１／２」になるようにレベル調整し、音声
波形ＷＡＶ７を生成する。このようにしてＣＰＵ１２に
よって抽出された全ての音声データの総和合成，平均
化，レベル調整が行われて生成された音声波形ＷＡＶ７
が再生され、スピーカ２１により音声波形ＷＡＶ７に基
づいた音声を発生させる。

【００３７】このように「モード１」においては、検索
の結果抽出された音声データの数が少ない場合、どのよ
うな音声の音声データが検索されたかを音声波形ＷＡＶ
７に基づく音声によって推定することができる。また、
検索の結果抽出された音声データの数が多い場合は、全
ての音声データのキーフレーズが同時に再生されること
となり、雑音に近い音声となる。なお、「モード１」に
おける表示画面は図４に示したものと同様である。

【００３８】a-2）モード２について「モード２」としては、検索条件と一致して抽出された
全ての音声データについて設定されているキーフレーズ
の区間を順次に連続させるとともに、２分の１の音量に
なるようにレベル調整した後に再生し、スピーカ２１よ
り合成された音声を発生させる機能である。このことを
図８を参照して説明する。

【００３９】図８は、「モード２」についての音声デー
タの再生モードの説明図であり、検索の結果抽出された
音声データが３個である場合を例示している。図８
（ａ）に示す音声データについて設定されているキーフ
レーズは区間ｋａの範囲の音声データであり、図８
（ｂ）に示す音声データについて設定されているキーフ
レーズは区間ｋｂの範囲の音声データであり、図８
（ｃ）に示す音声データについて設定されているキーフ
レーズは区間ｋｃの範囲の音声データである。

【００４０】そして、これら図８（ａ）〜（ｃ）に示す
キーフレーズを順次に連続して再生するために、図８
（ｄ）に示す音声波形ＷＡＶ８を生成する。音声波形Ｗ
ＡＶ８は単に図８（ａ）〜（ｃ）に示すそれぞれのキー
フレーズ区間ｋａ，ｋｂ，ｋｃを連続してつなげたもの
である。各キーフレーズのつなぎの部分には、レベル調
整が施され、フェードインやフェードアウトの効果が効
かされる。

【００４１】そして、得られた音声波形ＷＡＶ８の音声
レベルを、「１／２」になるようにレベル調整し、音声
波形ＷＡＶ９を生成する。このようにしてＣＰＵ１２に
よって抽出された全ての音声データのキーフレーズの連
続化，レベル調整が行われて生成された音声波形ＷＡＶ
９が再生され、スピーカ２１により音声波形ＷＡＶ９に
基づいた音声を発生させる。すなわち、「モード２」に
おいては、抽出された音声データのキーフレーズが一つ
ずつ順次に繰り返し再生されることとなる。

【００４２】そして、キーフレーズが再生されている音
声データについて、表示装置１８で表示されているアイ
コンの色が変化するとともに、そのアイコンの大きさが
音量のに応じてダイナミックに変化する。これにより、
スピーカ２１より再生されているキーフレーズが表示装
置１８に表示されている音声データのアイコンのうちで
どの音声データを再生しているかの認識が視覚的にも容
易となる。

【００４３】図９は、キーフレーズの再生に伴う音声デ
ータのアイコンの変化を示す図であり、音声データ認識
ワードが「わんわん」と設定されている音声データのキ
ーフレーズが再生されている場合を示している。図９
（ａ）は再生されるキーフレーズの音量が大きいときの
アイコンＩＣ２を示しており、図９（ｂ）は音量が小さ
いときのアイコンＩＣ２を示している。また、図９
（ａ），（ｂ）に示すアイコンＩＣ２は、他のアイコン
と比べると色が異なり、再生されているアイコンを特定
しやすくしている。このようにスピーカ２１から発せら
れるキーフレーズの音量に応じてアイコンの大きさがダ
イナミックに変化するとともに、アイコンの色も変化さ
せるため、再生している音声データの特定を視覚的に容
易に認識できるように実現されている。

【００４４】さらに、この実施の形態における「モード
２」では、再生しているキーフレーズに対応する音声デ
ータについて設定されている音声データ認識ワードが流
れ表示になる。「流れ表示」とは、表示装置１８に表示
されている文字などが画面上を流れるように移動するこ
とをいう。この例を図１０に示す。図１０は、この実施
の形態における音声データ認識ワードの流れ表示を示す
図である。図１０（ａ）は、音声データ認識ワードが流
れ表示となる第１段階を示しており、図１０（ｂ）は第
２段階を示している。そして、図１０（ｃ）は第３段階
を示している。まず、第１段階では、音声データ認識ワ
ードとして設定されている「リーンリーン」が全て表示
されている。第２段階では、音声データ認識ワードが左
に１文字分移動し、「リーンリーン」の最初の「リ」が
消えている。さらに、第３段階では、第２段階からさら
に左に１文字分移動し、「リーンリーン」の最初の「リ
ー」が消えるとともに、右欄に「リ」が現れている。以
下同様に音声データ認識ワードが左に少しずつ移動し、
左端から文字が消えていく一方で右端から文字が出現す
るように実現されている。このように音声データ認識ワ
ードを流れ表示とすることによっても再生されているキ
ーフレーズの音声データがどれであるを視覚的に特定し
やすくなっている。

【００４５】このように「モード２」によれば、検索に
よって抽出された音声データのキーフレーズを順次に再
生するとともに、再生されている音声データを特定する
ことを視覚的に容易となるように実現したため、抽出さ
れた複数の音声データの中から確実にオペレータの所望
する音声データを特定することができる。しかし、「モ
ード２」において抽出された音声データが多い場合は、
全ての音声データのキーフレーズを再生するのに要する
時間が長くなるということがある。

【００４６】a-3）モードの切り替えについて先述したように、「モード１」と「モード２」の切換
は、当該音声データベースシステムの初期設定において
任意のモードを選択することも可能であるが、自動でモ
ードを切り替えることも可能である。自動でモードを切
り替える方法としては、検索の結果抽出された音声デー
タが予め設定されている指定個数以上である場合は「モ
ード１」による再生・表示となり、指定個数未満である
場合は「モード２」による再生・表示となる。指定個数
は予めオペレータが設定することが可能である。

【００４７】ｂ）仮選択状態での表示などの制御検索結果の表示の際に、検索条件と一致した音声データ
の中に少なくとも１つの仮選択された音声データがある
場合について説明する。非選択状態の場合の再生におい
てスピーカ２１から発せられる音量は「１／２」にレベ
ル調整された音量であったが、この仮選択状態の場合の
再生においてスピーカ２１から発せられる音量にはレベ
ル調整を施さずに本来の音声データの示す音量で出力さ
れる。すなわち、仮選択状態における表示や再生は、非
選択状態の「モード２」で説明した内容と同様であり、
異なる点はレベル調整を行わないことである。

【００４８】オペレータの操作によって設定された仮選
択状態の音声データの全てについてのキーフレーズが順
番に連続した状態で再生される。一つの音声データにつ
いて複数のキーフレーズが設定されている場合には、そ
れらは順に繰り返される。また、キーフレーズとキーフ
レーズのつなぎの部分にはフェードインとフェードアウ
トの効果が効かされている。そして、再生しているキー
フレーズに対応した音声データのアイコンの色が変化す
るとともに、そのアイコンの大きさが音量に応じてダイ
ナミックに変化するように実現されている。さらに、再
生しているキーフレーズに対応した音声データの音声デ
ータ認識ワードが流れ表示になる。

【００４９】このように、仮選択状態とされて表示・再
生されると、キーフレーズが順次に連続して再生される
とともに、音声データに対応するアイコンの表示や音声
データ認識ワードの表示が変化するため、再生されてい
る音声データを視覚的に容易に認識することが可能とな
る。なお、仮選択状態とする音声データは複数個設定す
ることも可能である。

【００５０】また、例えば、非選択状態において検索の
結果抽出された音声データが「モード２」で表示・再生
されている場合において、任意の音声データをマウス操
作によって仮選択とすることにより、オペレータの所望
する音声データを絞り込んでいくことが可能となる。

【００５１】これまで説明した非選択状態と仮選択状態
とでオペレータが所望の音声データを確定できない場合
には、さらに、属性情報を表示装置１８に表示させるこ
とも可能である。図４に示すような検索結果が表示され
ている画面の任意の音声データのアイコンをマウス２０
でダブルクリックすることにより、その音声データにつ
いて、図１１に示すような属性情報表示画面Ｐ４を表示
装置１８に表示させることができる。オペレータは、図
１１の属性情報表示画面Ｐ４から当該音声データにの属
性情報を確認することができる。また、マウス２０の操
作によって属性情報表示画面Ｐ４に表示された再生ボタ
ンＢ２１をクリックすることにより当該音声データの全
区間が再生され、スピーカ２１から音声が発せられる。
非選択状態および仮選択状態における再生は、設定され
たキーフレーズの区間のみの再生であったが、再生ボタ
ンＢ２１をクリックすることにより音声データの全てが
再生されることとなる。

【００５２】そして、オペレータは、属性情報の確認や
音声データの再生によって当該音声データが所望する音
声データであることを認識すると、取出しボタンＢ２２
をクリックすることにより、当該音声データを取り出す
ことができる。「音声データを取り出す」とは、音声デ
ータベースから音声データをコピーし、他のプログラム
などでその音声データを活用することができるようにす
ることをいう。また、オペレータは、属性情報の確認や
音声データの再生によって当該音声データが所望する音
声データでないことを認識した場合は、キャンセルボタ
ンＢ２３をクリックして属性情報表示画面Ｐ４を終了さ
せて検索結果表示画面などに戻り、再び所望の音声デー
タの特定作業を行うこととなる。

【００５３】このように、この実施の形態の音声データ
ベースシステムの音声データの検索結果の表示を行う際
には、検索によって抽出された音声データの再生を自動
的に行うため、従来のように再生を伴わない検索結果の
表示に比して容易に音声データの特定を行うことが可能
であり、オペレータに不安感が残ることもない。また、
検索結果の表示の際には、ファイル名ではなくて、音声
データがどのような音声についてのデータであるかを具
体的かつ簡潔に示した音声データ認識ワードを音声デー
タのアイコンの下欄に表示しているため、従来に比較し
て容易に音声データの内容を推定することができ、作業
の効率化を図ることができる。さらに、検索結果の表示
の際に行う再生については、音声データの全てを再生す
るのではなく、音声データについて設定されたキーフレ
ーズを繰り返し再生するため、短時間で所望の音声デー
タを特定することが可能となる。このように、オペレー
タの所望する音声データを迅速かつ効率的に確実に得る
ことができる。

【００５４】＜４．フローチャート＞次に、この実施の
形態の音声データベースシステムにおける検索から音声
データを特定するまでの処理について説明する。

【００５５】図１２は、この実施の形態の音声データベ
ースシステムにおける検索から音声データを特定するま
での処理を示すフローチャートである。まず、ステップ
Ｓ２１では、ＣＰＵ１２においてオペレータの指示によ
り音声データベースプログラムのうちの音声データの検
索／取り出しに関するプログラムを起動する。そして、
初期設定の画面で、非選択状態での再生モードとしてモ
ード１とモード２のどちらか一方を選択し、設定する
（ステップＳ２２）。そして、ステップＳ２３におい
て、音声データの検索を行うための条件（例えば、キー
ワードなど）を入力する。そしてオペレータは、ステッ
プＳ２４において検索開始の指示を入力する。これによ
り、ＣＰＵ１２は入力された検索条件に一致する音声デ
ータの検索を開始する。そして、検索の結果抽出された
音声データは、表示装置１８に表示されるとともに、非
選択状態における「モード１」または「モード２」の再
生モードで抽出された音声データのキーフレーズが再生
される（ステップＳ２５）。そして、オペレータは特定
の音声データのみを確認する必要があるか否かの判断を
行う（ステップＳ２６）。ここで「ＹＥＳ」と判断した
場合はステップＳ２７に進み、「ＮＯ」と判断した場合
はステップＳ２９に進む。

【００５６】ステップＳ２７では、オペレータは特定の
音声データのアイコンに対してマウス操作によるクリッ
クやマウスポインタの移動を行い、非選択状態から仮選
択状態に変更させる。そして、ステップＳ２８では、仮
選択状態での表示・再生が行われる。

【００５７】そして、所望する音声データに該当する候
補の音声データがある場合はステップＳ３０に進み、候
補の音声データがない場合にはステップＳ３６に進む
（ステップＳ２９）。そして、オペレータは候補の音声
データを選択し、マウス操作を行ってその音声データに
ついての属性情報表示画面を表示させる（ステップＳ３
０）。そして、属性情報表示画面により音声データの最
終確認を行う（ステップＳ３１）。そしてステップＳ３
２においては音声データの全ての再生を行う場合にはス
テップＳ３３の処理を行う。ステップＳ３３では、属性
情報表示画面の再生ボタンを句陸することにより再生指
示を行う。そして、音声データの確認の結果、当該音声
データを取り出すか否かの判断を行う（ステップＳ３
４）。そして当該音声データを取り出す場合には取り出
しの操作を行う（ステップＳ３５）。

【００５８】そして、次の検索を行う場合は、ステップ
Ｓ２２からの処理を繰り返し、行わない場合はステップ
Ｓ３７に進み、音声データの検索／取り出しに関するプ
ログラムを終了する。

【００５９】次に、非選択状態の「モード１」での自動
再生処理について説明する。図１３は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード１」での再生処理を示すフローチャートである。ま
ず、ステップＳ４１において検索の結果抽出された音声
データのリストを作成し、メモリ１３に記憶する。そし
てステップＳ４１で作成したリストに基づいて、音声デ
ータのキーフレーズの再生プロセスを検索の結果抽出さ
れた音声データの個数分起動する。

【００６０】例えば、検索の結果抽出された音声データ
の数がＮ個（ただし、Ｎは任意の整数）であったとする
と、抽出された音声データのそれぞれのキーフレーズを
「１／（２・Ｎ）」の音量にレベル調整して再生プロセ
スを起動する。これにより、抽出された全ての音声デー
タのキーフレーズが総和合成されるとともに、「１／
２」の音量レベルにレベル調整することができる。

【００６１】そして、ステップＳ４３で「ＮＯ」と判断
されるまで「モード１」による再生を繰り返す。再生を
終了する場合は、ステップＳ４４で各再生プロセスを停
止させることにより行われる。

【００６２】次に、非選択状態の「モード２」での自動
再生処理について説明する。図１４は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード２」での再生処理を示すフローチャートである。ま
ず、ステップＳ５１において検索の結果抽出された音声
データのリストを作成し、メモリ１３に記憶する。そし
て、以前に再生していたキーフレーズが終了したか否か
の判断が行われる（ステップＳ５２）。再生中である場
合は、ステップＳ５８に進み、終了している場合にはス
テップＳ５３に進む。ステップＳ５３では、再生が終了
した音声データのキーフレーズの再生にかかわっていた
各プロセスを停止させる。ステップＳ５４では、ステッ
プＳ５１で作成したリストに基づいて次に再生する音声
データを特定する。ステップＳ５５では、ステップＳ５
４で特定された音声データの音声データ認識ワードを流
れ表示にするために流れ表示プロセスを起動する。ステ
ップＳ５６では、ステップＳ５４で特定された音声デー
タのキーフレーズの再生を行うための再生プロセスを起
動する。ステップＳ５７では、ステップＳ５４で特定さ
れた音声データのアイコン表示をダイナミックに変化す
るようにアイコン表示プロセスを起動する。そしてステ
ップＳ５８に進む。なお、ステップＳ５５〜Ｓ５７につ
いては、他の順序で行われても良い。

【００６３】ステップＳ５８では、「モード２」での再
生を継続するか否かを決定する。オペレータによる入力
がない場合はステップＳ５２に進み、再生を継続する。
「モード２」での再生を終了する場合は、ステップＳ５
９で音声データのキーフレーズの再生にかかわっていた
各プロセス（ステップＳ５５〜Ｓ５７で起動したプロセ
ス）を停止させて処理を終了する。

【００６４】次に、仮選択状態での自動再生処理につい
て説明する。図１５は、この実施の形態における音声デ
ータベースシステムの仮選択状態での再生処理を示すフ
ローチャートである。まず、ステップＳ６１において検
索の結果抽出された音声データのリストを作成し、メモ
リ１３に記憶する。そして、以前に再生していたキーフ
レーズが終了したか否かの判断が行われる（ステップＳ
６２）。再生中である場合は、ステップＳ６８に進み、
終了している場合にはステップＳ６３に進む。ステップ
Ｓ６３では、再生が終了した音声データのキーフレーズ
の再生にかかわっていた各プロセスを停止させる。ステ
ップＳ６４では、ステップＳ６１で作成したリストに基
づいて次に再生する音声データを特定する。ステップＳ
６５では、ステップＳ６４で特定された音声データの音
声データ認識ワードを流れ表示にするために流れ表示プ
ロセスを起動する。ステップＳ６６では、ステップＳ６
４で特定された音声データのキーフレーズの再生を行う
ための再生プロセスを起動する。ステップＳ６７では、
ステップＳ６４で特定された音声データのアイコン表示
をダイナミックに変化するようにアイコン表示プロセス
を起動する。そしてステップＳ６８に進む。なお、ステ
ップＳ６５〜Ｓ６７については、他の順序で行われても
良い。

【００６５】ステップＳ６８では、仮選択状態での再生
を継続するか否かを決定する。オペレータによる入力が
ない場合はステップＳ６２に進み、再生を継続する。仮
選択状態での再生を終了する場合は、ステップＳ６９で
音声データのキーフレーズの再生にかかわっていた各プ
ロセス（ステップＳ６５〜Ｓ６７で起動したプロセス）
を停止させて処理を終了する。

【００６６】＜５．変形例＞上記の実施の形態で示した
音声データのアイコンは、スピーカの絵柄で示したがこ
れに限定するものではなく、オペレータが自由に音声デ
ータごとに設定することが可能である。例えば、音声デ
ータの内容に応じた絵柄をアイコンとして設定すれば、
視覚的な効果が高まり、より効率的に音声データの特定
を行うことが可能となる。

【００６７】また、非選択状態における再生では、音量
が「１／２」となるようにレベル調整していたが、これ
に限定するものでもない。仮選択状態がオペレータが意
図的に特定の音声データの音声を出力させるものである
ため、音量を大きくして良い。しかし、非選択状態にお
ける再生は検索結果の表示とほぼ同時に自動的に行われ
るため、音量が大きいとオペレータに不快感を与える可
能性がある。そこで、意図的な再生でない非選択状態で
の再生の音量を小さくすることにより、そのような問題
を解決している。従って、音量を小さくするのであれ
ば、「１／２」以外の数値でも良い。

【００６８】

【発明の効果】以上説明したように、請求項１に記載の
発明によれば、音声データの示す音声の任意の特徴的な
部分についての開始点と終了点に基づく区間音声情報を
音声データに対応付けて記憶し、複数の音声データの中
から所定の情報に基づいて音声データの検索を行い、検
索によって抽出された音声データを区間音声情報に基づ
いて再生して音声として出力するため、容易に音声デー
タの特定を行うことが可能であり、オペレータに不安感
が残ることもないとともに、短時間で所望の音声データ
を特定することが可能となり、オペレータの所望する音
声データを迅速かつ効率的に確実に得ることができる。

【００６９】請求項２に記載の発明によれば、１つの音
声データについて複数の区間音声情報を対応付けて記憶
することが可能であるため、音声データの特定をより確
実かつ容易なものとすることができる。

【００７０】請求項３に記載の発明によれば、出力手段
で出力されている音声データに対応する表示が、当該音
声データの区間音声情報に基づく再生に伴って変化する
ため、再生されている音声データを視覚的に特定するこ
とが容易となり、オペレータの所望する音声データを迅
速かつ効率的に確実に得ることができる。

【００７１】請求項４に記載の発明によれば、検索手段
によって抽出された音声データについて、特徴的な部分
の発音の擬音語または当該音声データについての客観的
対象物を含む文字で表現した音声データ認識ワードを表
示するため、検索の結果抽出された音声データがそれぞ
れどのような音声であるかを推定することが容易とな
る。

【００７２】請求項５に記載の発明によれば、コンピュ
ータ読み取り可能な記録媒体に記録された音声データベ
ースプログラムをコンピュータが読み取り実行すること
により、容易に音声データの特定を行うことが可能であ
り、オペレータに不安感が残ることもないとともに、短
時間で所望の音声データを特定することが可能となり、
オペレータの所望する音声データを迅速かつ効率的に確
実に得ることができる音声データベースシステムを実現
することが可能となる。

【図面の簡単な説明】

【図１】この発明の実施の形態である音声データベース
システムの構成を示す概略図である。

【図２】この発明の実施の形態における音声データのキ
ーフレーズの設定方法を説明するための説明図である。

【図３】この発明の実施の形態の音声データベースシス
テムにおける音声データの登録の処理を示すフローチャ
ートである。

【図４】この発明の実施の形態の音声データべースシス
テムにおける検索結果の表示の一例を示す図である。

【図５】この発明の実施の形態の音声データベースシス
テムの非選択状態と仮選択状態と示す図である。

【図６】２つの音声データのキーフレーズを示す図であ
る。

【図７】この発明の実施の形態の音声データベースシス
テムのキーフレーズの総和合成を示す説明図である。

【図８】この発明の実施の形態の音声データベースシス
テムの「モード２」についての音声データの再生モード
の説明図である。

【図９】この発明の実施の形態の音声データベースシス
テムにおけるキーフレーズの再生に伴う音声データのア
イコンの変化を示す図である。

【図１０】この発明の実施の形態における音声データ認
識ワードの流れ表示を示す図である。

【図１１】この発明の実施の形態における属性情報表示
画面を示す概念図である。

【図１２】この発明の実施の形態の音声データベースシ
ステムにおける検索から音声データを特定するまでの処
理を示すフローチャートである。

【図１３】この発明の実施の形態における音声データベ
ースシステムの非選択状態の「モード１」での再生処理
を示すフローチャートである。

【図１４】この発明の実施の形態における音声データベ
ースシステムの非選択状態の「モード２」での再生処理
を示すフローチャートである。

【図１５】この発明の実施の形態における音声データベ
ースシステムの仮選択状態での再生処理を示すフローチ
ャートである。

【図１６】従来の音声データベースシステムにおける操
作手順を表示装置に表示される画面で示した説明図であ
る。

【符号の説明】

１１入出力装置１２ＣＰＵ１３メモリ１４記憶部１５，１６，１７インタフェース１８表示装置１９キーボード２０マウス２１スピーカＤ可搬性記録媒体

Claims

【特許請求の範囲】

【請求項１】音声データを取り扱うコンピュータにお
いて、 (a) 音声データの示す音声の任意の特徴的な部分につい
ての区間音声情報を前記音声データに対応付けて記憶す
る記憶手段と、 (b) 複数の音声データの中から所定の情報に基づいて音
声データの検索を行う検索手段と、 (c) 前記検索手段によって抽出された音声データを前記
区間音声情報に基づいて再生し、音声として出力する出
力手段と、を備えることを特徴とする音声データベース
システム。
【請求項２】請求項１に記載のシステムにおいて、前記記憶手段は、１つの音声データについて複数の前記
区間音声情報を対応付けて記憶することが可能であるこ
とを特徴とする音声データベースシステム。
【請求項３】請求項１または２に記載のシステムにお
いて、前記出力手段で出力されている音声データに対応する表
示が、当該音声データの前記区間音声情報に基づく再生
に伴って変化することを特徴とする音声データベースシ
ステム。
【請求項４】請求項１ないし３のいずれかに記載のシ
ステムにおいて、前記検索手段によって抽出された音声データについて、
特徴的な部分の発音の擬音語または当該音声データにつ
いての客観的対象物を含む文字で表現した音声データ認
識ワードを表示することを特徴とする音声データベース
システム。
【請求項５】コンピュータを、 (a) 音声データの示す音声の任意の特徴的な部分につい
ての区間音声情報を前記音声データに対応付けて記憶す
る記憶手段、 (b) 複数の音声データの中から所定の情報に基づいて音
声データの検索を行う検索手段、 (c) 前記検索手段によって抽出された音声データを前記
区間音声情報に基づいて再生し、音声として出力する出
力手段、として機能させるための音声データベースプロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。