JPH10312389A - 音声データベースシステムおよび記録媒体 - Google Patents
音声データベースシステムおよび記録媒体Info
- Publication number
- JPH10312389A JPH10312389A JP9122264A JP12226497A JPH10312389A JP H10312389 A JPH10312389 A JP H10312389A JP 9122264 A JP9122264 A JP 9122264A JP 12226497 A JP12226497 A JP 12226497A JP H10312389 A JPH10312389 A JP H10312389A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- audio data
- audio
- data
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 101100520141 Arabidopsis thaliana PIN2 gene Proteins 0.000 abstract description 4
- 101100057988 Arabidopsis thaliana AUX1 gene Proteins 0.000 abstract 1
- 238000000034 method Methods 0.000 description 53
- 238000010586 diagram Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000006257 total synthesis reaction Methods 0.000 description 3
- 101100102875 Arabidopsis thaliana WAV2 gene Proteins 0.000 description 2
- 101100102876 Arabidopsis thaliana WAV3 gene Proteins 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 オペレータの所望する音声データを迅速かつ
効率的に確実に得ることができること。 【解決手段】 音声データベースシステムに登録する全
ての音声データに対して、キーフレーズを設定してお
く。キーフレーズとは、音声データの示す音声の特徴的
な部分の区間音声情報である。そして、音声データベー
スシステムにおいて任意の条件に基づいて音声データの
検索が行われる。そして、検索の結果抽出された全ての
音声データについて、キーフレーズを繰り返した音声波
形WAV4,WAV5を生成する。そして、キーフレー
ズが繰り返された全ての音声波形を総和合成した音声波
形WAV6を生成する。さらに、音声波形WAV6をレ
ベル調整して音声波形WAV7を生成する。そして、検
索結果の表示を行う際に、音声波形WAV7に対応する
音声を再生することにより、音声データの特定が容易に
なる。
効率的に確実に得ることができること。 【解決手段】 音声データベースシステムに登録する全
ての音声データに対して、キーフレーズを設定してお
く。キーフレーズとは、音声データの示す音声の特徴的
な部分の区間音声情報である。そして、音声データベー
スシステムにおいて任意の条件に基づいて音声データの
検索が行われる。そして、検索の結果抽出された全ての
音声データについて、キーフレーズを繰り返した音声波
形WAV4,WAV5を生成する。そして、キーフレー
ズが繰り返された全ての音声波形を総和合成した音声波
形WAV6を生成する。さらに、音声波形WAV6をレ
ベル調整して音声波形WAV7を生成する。そして、検
索結果の表示を行う際に、音声波形WAV7に対応する
音声を再生することにより、音声データの特定が容易に
なる。
Description
【0001】
【発明の属する技術分野】この発明は、音声データを取
り扱うコンピュータにおいて、多量の音声データを保管
し、その中から所望の音声データを検索し、さらに抽出
された音声データを表示・再生する音声データベースシ
ステムおよび記録媒体に関する。
り扱うコンピュータにおいて、多量の音声データを保管
し、その中から所望の音声データを検索し、さらに抽出
された音声データを表示・再生する音声データベースシ
ステムおよび記録媒体に関する。
【0002】
【従来の技術】音声データをコンピュータ内に多量に保
管管理して利用する場合、保管データ数が多量になるほ
ど、効率の良い検索や迅速な確認ができる音声データベ
ースシステムが要求される。
管管理して利用する場合、保管データ数が多量になるほ
ど、効率の良い検索や迅速な確認ができる音声データベ
ースシステムが要求される。
【0003】しかし、音声データは聴覚において認識さ
れる音声についてのデータであるため、テキストデータ
や画像データのように表示装置にデータの内容を表示さ
せるだけでオペレータが視覚的に認識できるものではな
い。
れる音声についてのデータであるため、テキストデータ
や画像データのように表示装置にデータの内容を表示さ
せるだけでオペレータが視覚的に認識できるものではな
い。
【0004】そこで、従来の音声データベースシステム
では、効率の良い検索を行うために音声データにキーワ
ードなどの属性情報を対応付けておき、多量の音声デー
タの中からその属性情報に基づいて検索を行うように構
成されている。属性情報には、キーワードの他にタイト
ル名,作成者/録音者,収録場所,収録日時,収録時間
などがある。そして、検索の結果抽出された音声データ
は、一覧形式で表示装置の画面上に表示される。
では、効率の良い検索を行うために音声データにキーワ
ードなどの属性情報を対応付けておき、多量の音声デー
タの中からその属性情報に基づいて検索を行うように構
成されている。属性情報には、キーワードの他にタイト
ル名,作成者/録音者,収録場所,収録日時,収録時間
などがある。そして、検索の結果抽出された音声データ
は、一覧形式で表示装置の画面上に表示される。
【0005】図16は、このような従来の音声データベ
ースシステムにおける操作手順を表示装置に表示される
画面で示した説明図である。図16に示すように、オペ
レータは所望の音声データを得るために検索画面P1の
検索条件入力領域25にキーワードなどの属性情報を入
力する。例えば、オペレータが猫の鳴き声の音声データ
を要求している場合には、キーワードに「猫」などとい
う言葉を入力し、コンピュータに検索を実行させる。
ースシステムにおける操作手順を表示装置に表示される
画面で示した説明図である。図16に示すように、オペ
レータは所望の音声データを得るために検索画面P1の
検索条件入力領域25にキーワードなどの属性情報を入
力する。例えば、オペレータが猫の鳴き声の音声データ
を要求している場合には、キーワードに「猫」などとい
う言葉を入力し、コンピュータに検索を実行させる。
【0006】そして、コンピュータが検索を終了する
と、表示装置において検索結果が表示される。図16に
示す検索結果表示画面P2は、抽出された音声データが
6個ある場合を示している。検索結果表示画面P2で
は、音声データを「アイコン」と「ファイル名」とによ
り表示している。ここで、「ファイル名」とは、データ
やプログラムに対応付けられた名称であり、「アイコ
ン」とは、画面上でファイルをシンボル化して表示する
絵記号である。そして音声データを示すアイコンとして
スピーカの絵柄を採用している。
と、表示装置において検索結果が表示される。図16に
示す検索結果表示画面P2は、抽出された音声データが
6個ある場合を示している。検索結果表示画面P2で
は、音声データを「アイコン」と「ファイル名」とによ
り表示している。ここで、「ファイル名」とは、データ
やプログラムに対応付けられた名称であり、「アイコ
ン」とは、画面上でファイルをシンボル化して表示する
絵記号である。そして音声データを示すアイコンとして
スピーカの絵柄を採用している。
【0007】
【発明が解決しようとする課題】しかし、一般的に、オ
ペレータは、他人が設定したファイル名について、それ
がどのようなファイルであるのか判断できない場合が多
く、上記のように検索結果が表示されても、オペレータ
がファイル名を認識していない限り、最終的な音声デー
タの特定をすることができない。
ペレータは、他人が設定したファイル名について、それ
がどのようなファイルであるのか判断できない場合が多
く、上記のように検索結果が表示されても、オペレータ
がファイル名を認識していない限り、最終的な音声デー
タの特定をすることができない。
【0008】従って、オペレータが所望する音声データ
を確定するためには、属性情報を表示させ、それを詳細
に確認することにより決定しなければならない。このよ
うに属性情報を確認しながら音声データを特定すること
は、容易な作業ではなく、効率が非常に悪いとともに、
実際の音声の再生を伴わないためオペレータに不安感が
残ることもある。
を確定するためには、属性情報を表示させ、それを詳細
に確認することにより決定しなければならない。このよ
うに属性情報を確認しながら音声データを特定すること
は、容易な作業ではなく、効率が非常に悪いとともに、
実際の音声の再生を伴わないためオペレータに不安感が
残ることもある。
【0009】そして、属性情報の確認で不安感が残る場
合には、オペレータは音声データの再生アプリケーショ
ンを起動させて、実際の音声を再生することにより確認
する。この作業は、検索結果表示画面P2から意図的に
再生アプリケーションを起動させ、さらに再生アプリケ
ーション画面P3についての操作を行わなければならな
ず、操作に手間がかかることとなる。また、音声データ
が長い場合には、音声データを再生してもその音声の特
徴部分にたどり着くまで時間がかかることがあり、効率
的な特定を行うことができない。
合には、オペレータは音声データの再生アプリケーショ
ンを起動させて、実際の音声を再生することにより確認
する。この作業は、検索結果表示画面P2から意図的に
再生アプリケーションを起動させ、さらに再生アプリケ
ーション画面P3についての操作を行わなければならな
ず、操作に手間がかかることとなる。また、音声データ
が長い場合には、音声データを再生してもその音声の特
徴部分にたどり着くまで時間がかかることがあり、効率
的な特定を行うことができない。
【0010】この発明は、上記課題に鑑みてなされたも
のであって、オペレータの所望する音声データを迅速か
つ効率的に確実に得ることができる音声データベースシ
ステムおよび記録媒体を提供することを目的とする。
のであって、オペレータの所望する音声データを迅速か
つ効率的に確実に得ることができる音声データベースシ
ステムおよび記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するため
に、請求項1に記載の発明は、音声データを取り扱うコ
ンピュータにおいて、(a)音声データの示す音声の任意
の特徴的な部分についての区間音声情報を前記音声デー
タに対応付けて記憶する記憶手段と、(b)複数の音声デ
ータの中から所定の情報に基づいて音声データの検索を
行う検索手段と、(c)検索手段によって抽出された音声
データを区間音声情報に基づいて再生し、音声として出
力する出力手段とを備えている。
に、請求項1に記載の発明は、音声データを取り扱うコ
ンピュータにおいて、(a)音声データの示す音声の任意
の特徴的な部分についての区間音声情報を前記音声デー
タに対応付けて記憶する記憶手段と、(b)複数の音声デ
ータの中から所定の情報に基づいて音声データの検索を
行う検索手段と、(c)検索手段によって抽出された音声
データを区間音声情報に基づいて再生し、音声として出
力する出力手段とを備えている。
【0012】請求項2に記載の発明は、請求項1に記載
のシステムにおいて、記憶手段は、1つの音声データに
ついて複数の区間音声情報を対応付けて記憶することが
可能であることを特徴としている。
のシステムにおいて、記憶手段は、1つの音声データに
ついて複数の区間音声情報を対応付けて記憶することが
可能であることを特徴としている。
【0013】請求項3に記載の発明は、請求項1または
2に記載のシステムにおいて、出力手段で出力されてい
る音声データに対応する表示が、当該音声データの区間
音声情報に基づく再生に伴って変化することを特徴とし
ている。
2に記載のシステムにおいて、出力手段で出力されてい
る音声データに対応する表示が、当該音声データの区間
音声情報に基づく再生に伴って変化することを特徴とし
ている。
【0014】請求項4に記載の発明は、請求項1ないし
3のいずれかに記載のシステムにおいて、検索手段によ
って抽出された音声データについて、特徴的な部分の発
音の擬音語または当該音声データについての客観的対象
物を含む文字で表現した音声データ認識ワードを表示す
ることを特徴としている。
3のいずれかに記載のシステムにおいて、検索手段によ
って抽出された音声データについて、特徴的な部分の発
音の擬音語または当該音声データについての客観的対象
物を含む文字で表現した音声データ認識ワードを表示す
ることを特徴としている。
【0015】請求項5に記載の発明は、コンピュータ
を、(a)音声データの示す音声の任意の特徴的な部分に
ついての区間音声情報を前記音声データに対応付けて記
憶する記憶手段、(b)複数の音声データの中から所定の
情報に基づいて音声データの検索を行う検索手段、(c)
検索手段によって抽出された音声データを区間音声情報
に基づいて再生し、音声として出力する出力手段として
機能させるための音声データベースプログラムが記録さ
れている。
を、(a)音声データの示す音声の任意の特徴的な部分に
ついての区間音声情報を前記音声データに対応付けて記
憶する記憶手段、(b)複数の音声データの中から所定の
情報に基づいて音声データの検索を行う検索手段、(c)
検索手段によって抽出された音声データを区間音声情報
に基づいて再生し、音声として出力する出力手段として
機能させるための音声データベースプログラムが記録さ
れている。
【0016】
<1.装置の構成>まず、この発明の実施の形態におけ
る音声データベースシステムの概要について説明する。
図1は、この発明の実施の形態である音声データベース
システムの構成を示す概略図である。図1に示すよう
に、この装置において入出力装置11,CPU12,メ
モリ13,記憶部14,インタフェース15,16,1
7がバスラインBLを介して相互に接続されている。入
出力装置11は、フレキシブルディスク,光磁気ディス
ク,CD−ROMなどのコンピュータ読み取り可能な可
搬性記録媒体Dからデータを読み込んだり、それらに対
してデータを書き込んだりする装置である。CPU12
は、演算処理を行う処理部である。メモリ13は、デー
タを一時的に記憶保持しておくための装置であり、記憶
部14は、磁気ディスクなどのコンピュータ読み取り可
能な固定の記録媒体である。そして、インタフェース1
5にはさらにCRTや液晶ディスプレイなどのような表
示装置18が接続されており、インタフェース16には
キーボード19,マウス20が接続されている。さら
に、インタフェース17には音声データについての音声
を発生させるスピーカ21が接続されている。また、こ
の音声データベースシステムは、必要に応じてネットワ
ークに接続することもでき、そのネットワークに接続さ
れている他の機器から音声データを獲得することもでき
る。
る音声データベースシステムの概要について説明する。
図1は、この発明の実施の形態である音声データベース
システムの構成を示す概略図である。図1に示すよう
に、この装置において入出力装置11,CPU12,メ
モリ13,記憶部14,インタフェース15,16,1
7がバスラインBLを介して相互に接続されている。入
出力装置11は、フレキシブルディスク,光磁気ディス
ク,CD−ROMなどのコンピュータ読み取り可能な可
搬性記録媒体Dからデータを読み込んだり、それらに対
してデータを書き込んだりする装置である。CPU12
は、演算処理を行う処理部である。メモリ13は、デー
タを一時的に記憶保持しておくための装置であり、記憶
部14は、磁気ディスクなどのコンピュータ読み取り可
能な固定の記録媒体である。そして、インタフェース1
5にはさらにCRTや液晶ディスプレイなどのような表
示装置18が接続されており、インタフェース16には
キーボード19,マウス20が接続されている。さら
に、インタフェース17には音声データについての音声
を発生させるスピーカ21が接続されている。また、こ
の音声データベースシステムは、必要に応じてネットワ
ークに接続することもでき、そのネットワークに接続さ
れている他の機器から音声データを獲得することもでき
る。
【0017】このように、この実施の形態の音声データ
ベースシステムは、一般的な1台のコンピュータにおい
て内部のCPU12が音声データベースプログラムを実
行することにより、実現される装置である。なお、上記
の音声データベースプログラムは、可搬性記録媒体Dか
ら読み込まれても良いし、予め記憶部14に記憶させて
おいても良い。すなわち、この音声データベースプログ
ラムが格納される対象は、可搬性記録媒体であるか、固
定の記録媒体であるかを問わない。
ベースシステムは、一般的な1台のコンピュータにおい
て内部のCPU12が音声データベースプログラムを実
行することにより、実現される装置である。なお、上記
の音声データベースプログラムは、可搬性記録媒体Dか
ら読み込まれても良いし、予め記憶部14に記憶させて
おいても良い。すなわち、この音声データベースプログ
ラムが格納される対象は、可搬性記録媒体であるか、固
定の記録媒体であるかを問わない。
【0018】<2.音声データの登録>この実施の形態
の音声データベースシステムにおいて、音声データを登
録する際に、オペレータは、属性情報と音声データ認識
ワードを設定する。属性情報に含まれる情報としては、
音声データについてのタイトル名,作成者/収録者,収
録場所,収録日時,収録時間,キーワード,コメントな
どである。なお、キーワードは複数個設定することが可
能である。この属性情報は、音声データの検索の際に使
用される情報である。また、「音声データ認識ワード」
とは、音声データがどのような音声についてのデータで
あるかを具体的かつ簡潔に示すような任意の言葉であ
る。例えば、鈴虫の鳴き声の音声データである場合は、
「リーンリーン」という擬音語や「鈴虫の鳴き声」とい
う具体的名称、さらには「鈴虫」という当該音声の源で
ある客観的対象物の名称などの音声データ認識ワードが
入力される。なお、この音声データ認識ワードは、検索
結果の表示の際に用いられる文字データであるため、音
声データの内容を誰もが認識できるような曲名や擬音な
どの言葉で入力することが好ましい。
の音声データベースシステムにおいて、音声データを登
録する際に、オペレータは、属性情報と音声データ認識
ワードを設定する。属性情報に含まれる情報としては、
音声データについてのタイトル名,作成者/収録者,収
録場所,収録日時,収録時間,キーワード,コメントな
どである。なお、キーワードは複数個設定することが可
能である。この属性情報は、音声データの検索の際に使
用される情報である。また、「音声データ認識ワード」
とは、音声データがどのような音声についてのデータで
あるかを具体的かつ簡潔に示すような任意の言葉であ
る。例えば、鈴虫の鳴き声の音声データである場合は、
「リーンリーン」という擬音語や「鈴虫の鳴き声」とい
う具体的名称、さらには「鈴虫」という当該音声の源で
ある客観的対象物の名称などの音声データ認識ワードが
入力される。なお、この音声データ認識ワードは、検索
結果の表示の際に用いられる文字データであるため、音
声データの内容を誰もが認識できるような曲名や擬音な
どの言葉で入力することが好ましい。
【0019】そして、オペレータが属性情報と音声デー
タ認識ワードとの入力を行う際は、キーボード19やマ
ウス20から行う。そして入力された属性情報と音声デ
ータ認識ワードは記憶部14に保存される。また、多量
の音声データがCD−ROMなどの記録媒体に格納され
ている場合などには、属性情報,音声データ認識ワー
ド,および記録媒体の音声データとを相互に関連づけた
状態で属性情報,音声データ認識ワードを記憶部14に
保存する。これにより、大容量を必要とする音声データ
を記憶部14内に保持する必要がなくなる。
タ認識ワードとの入力を行う際は、キーボード19やマ
ウス20から行う。そして入力された属性情報と音声デ
ータ認識ワードは記憶部14に保存される。また、多量
の音声データがCD−ROMなどの記録媒体に格納され
ている場合などには、属性情報,音声データ認識ワー
ド,および記録媒体の音声データとを相互に関連づけた
状態で属性情報,音声データ認識ワードを記憶部14に
保存する。これにより、大容量を必要とする音声データ
を記憶部14内に保持する必要がなくなる。
【0020】また、オペレータは、音声データを登録す
る際に、音声データのキーフレーズを設定する。「キー
フレーズ」とは、音声データの示す音声の任意の特徴的
な部分の区間音声情報である。なお、1つの音声データ
について複数のキーフレーズを設定することも可能であ
り、複数のキーフレーズを設定することにより音声デー
タの特定がより確実なものとなる。キーフレーズの設定
は、音声データについて識別性のある特徴的な部分の開
始点と終了点とを入力することにより行われる。
る際に、音声データのキーフレーズを設定する。「キー
フレーズ」とは、音声データの示す音声の任意の特徴的
な部分の区間音声情報である。なお、1つの音声データ
について複数のキーフレーズを設定することも可能であ
り、複数のキーフレーズを設定することにより音声デー
タの特定がより確実なものとなる。キーフレーズの設定
は、音声データについて識別性のある特徴的な部分の開
始点と終了点とを入力することにより行われる。
【0021】図2は、この実施の形態における音声デー
タのキーフレーズの設定方法を説明するための説明図で
ある。図2に示すように、時刻t1に音声データの再生
を開始した場合、時刻t2に終了する。なお、図2にお
いて音声波形WAV1は、音声データを再生した際の音
声の波形を示している。このような音声波形WAV1
は、キーフレーズの設定の際に表示装置18に表示さ
れ、音声データを視覚的に認識することができるととも
に、音声データの再生に伴って再生位置表示22が時刻
t1の位置から時刻t2の位置まで移動するように構成
されている。そして、音声データの特徴的な部分が時刻
taから時刻tbの間の音声であるとすると、オペレー
タは、音声データを再生し始めてから時刻taに差し掛
かったところでキーボード19などから開始点の入力を
行い、時刻tbに差し掛かったところでキーボード19
などから終了点の入力を行う。このようにして音声デー
タについて、時刻taからtbの間の音声の特徴的な部
分がキーフレーズとして設定される。
タのキーフレーズの設定方法を説明するための説明図で
ある。図2に示すように、時刻t1に音声データの再生
を開始した場合、時刻t2に終了する。なお、図2にお
いて音声波形WAV1は、音声データを再生した際の音
声の波形を示している。このような音声波形WAV1
は、キーフレーズの設定の際に表示装置18に表示さ
れ、音声データを視覚的に認識することができるととも
に、音声データの再生に伴って再生位置表示22が時刻
t1の位置から時刻t2の位置まで移動するように構成
されている。そして、音声データの特徴的な部分が時刻
taから時刻tbの間の音声であるとすると、オペレー
タは、音声データを再生し始めてから時刻taに差し掛
かったところでキーボード19などから開始点の入力を
行い、時刻tbに差し掛かったところでキーボード19
などから終了点の入力を行う。このようにして音声デー
タについて、時刻taからtbの間の音声の特徴的な部
分がキーフレーズとして設定される。
【0022】このようなキーフレーズの設定は、一つの
音声データに対して複数個の指定が可能である。キーフ
レーズを複数個設定する場合は、上記の開始点と終了点
とのキーフレーズの区間の入力を繰り返し行えば良い。
また、キーフレーズの設定が行われない場合は、その音
声データについて全区間が自動的にキーフレーズとして
設定される。そして、キーフレーズについても属性情
報,音声データ認識ワード,音声データと相互に関連づ
けられた状態で記憶部14に記憶される。この記憶部1
4への記憶は、キーフレーズの開始点・終了点を示す情
報を記憶しても良いが、キーフレーズとして設定された
区間の実際の音声データを取り出して記憶しても良い。
音声データに対して複数個の指定が可能である。キーフ
レーズを複数個設定する場合は、上記の開始点と終了点
とのキーフレーズの区間の入力を繰り返し行えば良い。
また、キーフレーズの設定が行われない場合は、その音
声データについて全区間が自動的にキーフレーズとして
設定される。そして、キーフレーズについても属性情
報,音声データ認識ワード,音声データと相互に関連づ
けられた状態で記憶部14に記憶される。この記憶部1
4への記憶は、キーフレーズの開始点・終了点を示す情
報を記憶しても良いが、キーフレーズとして設定された
区間の実際の音声データを取り出して記憶しても良い。
【0023】次に、この音声データベースシステムにお
ける音声データの登録の処理手順について説明する。図
3は、この実施の形態の音声データベースシステムにお
ける音声データの登録の処理を示すフローチャートであ
る。
ける音声データの登録の処理手順について説明する。図
3は、この実施の形態の音声データベースシステムにお
ける音声データの登録の処理を示すフローチャートであ
る。
【0024】まず、CPU12において、オペレータの
指示により音声データベースプログラムのうちの音声デ
ータの登録に関するプログラムを起動する(ステップS
11)。次にステップS12においてオペレータは、C
D−ROMなどの記録媒体や記憶部14に保持されてい
る音声データのうちで未登録のものを選択する。この選
択は、オペレータが表示装置18に表示されている音声
データの一覧を参照しながら行う。そして、ステップS
13においてCPU12は、オペレータの選択した音声
データを再生し、スピーカ21より音声を発生させる。
そしてオペレータがスピーカ21からの音声を聞き、音
声データベースシステムに登録する音声データであるか
否かを判断し、キーボード19やマウス20より「YE
S」または「NO」に対応する入力を行う(ステップS
14)。そして、ステップS14でのオペレータの入力
によって登録処理を進めるのであれば、ステップS15
に進み、登録処理を行わないのであればステップS12
に戻り、他の音声データの選択を行うこととなる。
指示により音声データベースプログラムのうちの音声デ
ータの登録に関するプログラムを起動する(ステップS
11)。次にステップS12においてオペレータは、C
D−ROMなどの記録媒体や記憶部14に保持されてい
る音声データのうちで未登録のものを選択する。この選
択は、オペレータが表示装置18に表示されている音声
データの一覧を参照しながら行う。そして、ステップS
13においてCPU12は、オペレータの選択した音声
データを再生し、スピーカ21より音声を発生させる。
そしてオペレータがスピーカ21からの音声を聞き、音
声データベースシステムに登録する音声データであるか
否かを判断し、キーボード19やマウス20より「YE
S」または「NO」に対応する入力を行う(ステップS
14)。そして、ステップS14でのオペレータの入力
によって登録処理を進めるのであれば、ステップS15
に進み、登録処理を行わないのであればステップS12
に戻り、他の音声データの選択を行うこととなる。
【0025】ステップS15では、登録の対象となって
いる音声データの属性情報と音声データ認識ワードなど
の入力を行う。この入力もオペレータが表示装置18を
参照しながらキーボード19等より行う。そして次に、
キーフレーズの設定を行う(ステップS16)。キーフ
レーズの設定は、先述のように、表示装置18に表示さ
れる内容と、スピーカ21から聞こえる音声に基づいて
音声データの特徴的な部分の開始点と終了点を入力する
ことにより行われる。そして、ステップS17では、ス
テップS15,S16で入力・設定した内容について、
オペレータが登録の指示を行う。この登録の指示がある
と、CPU12は音声データと属性情報と音声データ認
識ワードとキーフレーズとを相互に対応付け、記憶部1
4にその内容を保存する。そして、ステップS18にお
いてオペレータが登録処理を終了するか否かの判断を行
い、それぞれに対応する入力を行う。CPU12は、ス
テップS18での入力に基づいてステップS12やステ
ップS19に処理を進める。そして、ステップS19で
は、CPU12において音声データの登録に関するプロ
グラムを終了する。
いる音声データの属性情報と音声データ認識ワードなど
の入力を行う。この入力もオペレータが表示装置18を
参照しながらキーボード19等より行う。そして次に、
キーフレーズの設定を行う(ステップS16)。キーフ
レーズの設定は、先述のように、表示装置18に表示さ
れる内容と、スピーカ21から聞こえる音声に基づいて
音声データの特徴的な部分の開始点と終了点を入力する
ことにより行われる。そして、ステップS17では、ス
テップS15,S16で入力・設定した内容について、
オペレータが登録の指示を行う。この登録の指示がある
と、CPU12は音声データと属性情報と音声データ認
識ワードとキーフレーズとを相互に対応付け、記憶部1
4にその内容を保存する。そして、ステップS18にお
いてオペレータが登録処理を終了するか否かの判断を行
い、それぞれに対応する入力を行う。CPU12は、ス
テップS18での入力に基づいてステップS12やステ
ップS19に処理を進める。そして、ステップS19で
は、CPU12において音声データの登録に関するプロ
グラムを終了する。
【0026】以上のような処理によって、この実施の形
態の音声データベースシステムでは、音声データについ
て属性情報,音声データ認識ワード,キーフレーズの設
定を行うことができる。
態の音声データベースシステムでは、音声データについ
て属性情報,音声データ認識ワード,キーフレーズの設
定を行うことができる。
【0027】<3.音声データの検索および検索結果の
表示>次に、音声データの検索および検索結果の表示に
ついて説明する。
表示>次に、音声データの検索および検索結果の表示に
ついて説明する。
【0028】音声データの検索においては、従来からの
検索と同様に、タイトル名,キーワード,コメントなど
の属性情報やファイル名に基づく検索が行われる。例え
ば、オペレータが猫の鳴き声の音声データを要求する場
合は、検索時に「動物」や「猫」という検索語を入力す
れば、そのような検索語を属性情報やファイル名に有す
る音声データを得ることができる。また、検索はCPU
12によって記憶部14に保存されている属性情報など
を基に行われ、登録の際に対応付けられている音声デー
タを特定することができる。
検索と同様に、タイトル名,キーワード,コメントなど
の属性情報やファイル名に基づく検索が行われる。例え
ば、オペレータが猫の鳴き声の音声データを要求する場
合は、検索時に「動物」や「猫」という検索語を入力す
れば、そのような検索語を属性情報やファイル名に有す
る音声データを得ることができる。また、検索はCPU
12によって記憶部14に保存されている属性情報など
を基に行われ、登録の際に対応付けられている音声デー
タを特定することができる。
【0029】そして、検索の結果得られた音声データ
は、表示装置18に表示される。図4は、この実施の形
態の音声データべースシステムにおける検索結果の表示
の一例を示す図である。図4に示すように、検索結果表
示画面P2には4個の音声データのアイコンIC1〜I
C4が表示されている。そして、それぞれのアイコンI
C1からIC4の下欄には音声データ認識ワードが表示
されている。アイコンIC1には「リーンリーン」が、
アイコンIC2には「わんわん」が、アイコンIC3に
は「石がころころ」が、アイコンIC4には「ポロネー
ズ」が音声データ認識ワードとして表示されている。音
声データの登録の際に音声データ認識ワードは、音声デ
ータがどのような音声についての音声データであるかを
判断しやすい言葉で登録されているため、図4に示す検
索結果表示画面P2についても4個の音声データがそれ
ぞれどのような音声であるかを推定することが容易であ
る。
は、表示装置18に表示される。図4は、この実施の形
態の音声データべースシステムにおける検索結果の表示
の一例を示す図である。図4に示すように、検索結果表
示画面P2には4個の音声データのアイコンIC1〜I
C4が表示されている。そして、それぞれのアイコンI
C1からIC4の下欄には音声データ認識ワードが表示
されている。アイコンIC1には「リーンリーン」が、
アイコンIC2には「わんわん」が、アイコンIC3に
は「石がころころ」が、アイコンIC4には「ポロネー
ズ」が音声データ認識ワードとして表示されている。音
声データの登録の際に音声データ認識ワードは、音声デ
ータがどのような音声についての音声データであるかを
判断しやすい言葉で登録されているため、図4に示す検
索結果表示画面P2についても4個の音声データがそれ
ぞれどのような音声であるかを推定することが容易であ
る。
【0030】さらに、この実施の形態では、オペレータ
の所望する音声データの特定を容易にするために、「非
選択状態」と「仮選択状態」という2つの状態に基づい
て検索結果の表示の状態やスピーカ21から発生させる
音声の制御を行っている。この非選択状態と仮選択状態
の設定は、例えば図4のように表示された4個の音声デ
ータのそれぞれについて行うことができる。そして、そ
れぞれについての非選択状態/仮選択状態の切り替え
は、マウス20などの操作によりマウスポインタをアイ
コンIC1〜IC4と重なる位置に移動させ、その位置
でマウス20をクリックすること等により行うことがで
きる。また、非選択状態の音声データのアイコンに重な
る位置にマウスポインタを位置させると、そのアイコン
に対応する音声データは仮選択状態となる。このよう
に、オペレータの意図的な切り替えとダイナミックな切
り替えとを併存させている。図5は、検索結果表示画面
P2の非選択状態と仮選択状態と示す図である。図5に
示すアイコンIC1,IC3,IC4は非選択状態の音
声データを示しており、アイコンIC2は仮選択状態の
音声データを示している。すなわち、マウス20などの
操作によって仮選択状態となった場合は、アイコンの枠
が太枠で表示される。
の所望する音声データの特定を容易にするために、「非
選択状態」と「仮選択状態」という2つの状態に基づい
て検索結果の表示の状態やスピーカ21から発生させる
音声の制御を行っている。この非選択状態と仮選択状態
の設定は、例えば図4のように表示された4個の音声デ
ータのそれぞれについて行うことができる。そして、そ
れぞれについての非選択状態/仮選択状態の切り替え
は、マウス20などの操作によりマウスポインタをアイ
コンIC1〜IC4と重なる位置に移動させ、その位置
でマウス20をクリックすること等により行うことがで
きる。また、非選択状態の音声データのアイコンに重な
る位置にマウスポインタを位置させると、そのアイコン
に対応する音声データは仮選択状態となる。このよう
に、オペレータの意図的な切り替えとダイナミックな切
り替えとを併存させている。図5は、検索結果表示画面
P2の非選択状態と仮選択状態と示す図である。図5に
示すアイコンIC1,IC3,IC4は非選択状態の音
声データを示しており、アイコンIC2は仮選択状態の
音声データを示している。すなわち、マウス20などの
操作によって仮選択状態となった場合は、アイコンの枠
が太枠で表示される。
【0031】この「非選択状態」と「仮選択状態」につ
いて説明する。
いて説明する。
【0032】a)非選択状態での表示などの制御 検索結果の表示の際に、検索条件と一致した音声データ
がすべて非選択状態の場合について説明する。この場合
には、「モード1」と「モード2」の2通りの再生モー
ドが準備されており、当該音声データベースシステムの
初期設定において任意のモードを選択することができ
る。
がすべて非選択状態の場合について説明する。この場合
には、「モード1」と「モード2」の2通りの再生モー
ドが準備されており、当該音声データベースシステムの
初期設定において任意のモードを選択することができ
る。
【0033】a-1)モード1について 「モード1」としては、検索条件と一致した音声データ
のそれぞれについて設定されているキーフレーズの区間
を繰り返し、そして全ての音声データの繰り返されたキ
ーフレーズを総和合成し、平均の2分の1の音量になる
ようにレベル調整した後に再生し、スピーカ21より合
成された音声を発生させる機能である。このことを図6
と図7とを参照して説明する。
のそれぞれについて設定されているキーフレーズの区間
を繰り返し、そして全ての音声データの繰り返されたキ
ーフレーズを総和合成し、平均の2分の1の音量になる
ようにレベル調整した後に再生し、スピーカ21より合
成された音声を発生させる機能である。このことを図6
と図7とを参照して説明する。
【0034】図6は、2つの音声データのキーフレーズ
を示す図である。図6(a)に示す音声データの音声波
形WAV2について設定されているキーフレーズは、区
間kaの範囲の音声データである。図6(b)に示す音
声データの音声波形WAV3について設定されているキ
ーフレーズは、区間kbの範囲の音声データである。
を示す図である。図6(a)に示す音声データの音声波
形WAV2について設定されているキーフレーズは、区
間kaの範囲の音声データである。図6(b)に示す音
声データの音声波形WAV3について設定されているキ
ーフレーズは、区間kbの範囲の音声データである。
【0035】図7は、キーフレーズの総和合成を示す説
明図である。図7に示す音声波形WAV4は、図6
(a)に示す音声波形WAV2のキーフレーズ区間ka
の繰り返しを示している。また、図7に示す音声波形W
AV5は、図6(b)に示す音声波形WAV3のキーフ
レーズ区間kbの繰り返しを示している。なお、一つの
音声データに複数のキーフレーズが設定されている場合
には、それらは順次に繰り返される。検索の結果抽出さ
れた音声データが他にもある場合には、それらについて
もキーフレーズ区間を繰り返した音声データを生成す
る。各キーフレーズを繰り返す際に、キーフレーズとキ
ーフレーズのつなぎの部分には、レベル調整が施され、
フェードインやフェードアウトの効果が効かされる。
「フェードイン」とはキーフレーズの始まりの部分にお
いて音声レベルを徐々に大きくしていくことであり、
「フェードアウト」とはキーフレーズの終わりの部分で
音声レベルを徐々に小さくしていくことである。
明図である。図7に示す音声波形WAV4は、図6
(a)に示す音声波形WAV2のキーフレーズ区間ka
の繰り返しを示している。また、図7に示す音声波形W
AV5は、図6(b)に示す音声波形WAV3のキーフ
レーズ区間kbの繰り返しを示している。なお、一つの
音声データに複数のキーフレーズが設定されている場合
には、それらは順次に繰り返される。検索の結果抽出さ
れた音声データが他にもある場合には、それらについて
もキーフレーズ区間を繰り返した音声データを生成す
る。各キーフレーズを繰り返す際に、キーフレーズとキ
ーフレーズのつなぎの部分には、レベル調整が施され、
フェードインやフェードアウトの効果が効かされる。
「フェードイン」とはキーフレーズの始まりの部分にお
いて音声レベルを徐々に大きくしていくことであり、
「フェードアウト」とはキーフレーズの終わりの部分で
音声レベルを徐々に小さくしていくことである。
【0036】そして、検索によって抽出された音声デー
タの全ての音声データのキーフレーズを繰り返した音声
データを総和合成し、平均化した音声波形WAV6を生
成する。そして、平均化された音声波形WAV6の音声
レベルを、「1/2」になるようにレベル調整し、音声
波形WAV7を生成する。このようにしてCPU12に
よって抽出された全ての音声データの総和合成,平均
化,レベル調整が行われて生成された音声波形WAV7
が再生され、スピーカ21により音声波形WAV7に基
づいた音声を発生させる。
タの全ての音声データのキーフレーズを繰り返した音声
データを総和合成し、平均化した音声波形WAV6を生
成する。そして、平均化された音声波形WAV6の音声
レベルを、「1/2」になるようにレベル調整し、音声
波形WAV7を生成する。このようにしてCPU12に
よって抽出された全ての音声データの総和合成,平均
化,レベル調整が行われて生成された音声波形WAV7
が再生され、スピーカ21により音声波形WAV7に基
づいた音声を発生させる。
【0037】このように「モード1」においては、検索
の結果抽出された音声データの数が少ない場合、どのよ
うな音声の音声データが検索されたかを音声波形WAV
7に基づく音声によって推定することができる。また、
検索の結果抽出された音声データの数が多い場合は、全
ての音声データのキーフレーズが同時に再生されること
となり、雑音に近い音声となる。なお、「モード1」に
おける表示画面は図4に示したものと同様である。
の結果抽出された音声データの数が少ない場合、どのよ
うな音声の音声データが検索されたかを音声波形WAV
7に基づく音声によって推定することができる。また、
検索の結果抽出された音声データの数が多い場合は、全
ての音声データのキーフレーズが同時に再生されること
となり、雑音に近い音声となる。なお、「モード1」に
おける表示画面は図4に示したものと同様である。
【0038】a-2)モード2について 「モード2」としては、検索条件と一致して抽出された
全ての音声データについて設定されているキーフレーズ
の区間を順次に連続させるとともに、2分の1の音量に
なるようにレベル調整した後に再生し、スピーカ21よ
り合成された音声を発生させる機能である。このことを
図8を参照して説明する。
全ての音声データについて設定されているキーフレーズ
の区間を順次に連続させるとともに、2分の1の音量に
なるようにレベル調整した後に再生し、スピーカ21よ
り合成された音声を発生させる機能である。このことを
図8を参照して説明する。
【0039】図8は、「モード2」についての音声デー
タの再生モードの説明図であり、検索の結果抽出された
音声データが3個である場合を例示している。図8
(a)に示す音声データについて設定されているキーフ
レーズは区間kaの範囲の音声データであり、図8
(b)に示す音声データについて設定されているキーフ
レーズは区間kbの範囲の音声データであり、図8
(c)に示す音声データについて設定されているキーフ
レーズは区間kcの範囲の音声データである。
タの再生モードの説明図であり、検索の結果抽出された
音声データが3個である場合を例示している。図8
(a)に示す音声データについて設定されているキーフ
レーズは区間kaの範囲の音声データであり、図8
(b)に示す音声データについて設定されているキーフ
レーズは区間kbの範囲の音声データであり、図8
(c)に示す音声データについて設定されているキーフ
レーズは区間kcの範囲の音声データである。
【0040】そして、これら図8(a)〜(c)に示す
キーフレーズを順次に連続して再生するために、図8
(d)に示す音声波形WAV8を生成する。音声波形W
AV8は単に図8(a)〜(c)に示すそれぞれのキー
フレーズ区間ka,kb,kcを連続してつなげたもの
である。各キーフレーズのつなぎの部分には、レベル調
整が施され、フェードインやフェードアウトの効果が効
かされる。
キーフレーズを順次に連続して再生するために、図8
(d)に示す音声波形WAV8を生成する。音声波形W
AV8は単に図8(a)〜(c)に示すそれぞれのキー
フレーズ区間ka,kb,kcを連続してつなげたもの
である。各キーフレーズのつなぎの部分には、レベル調
整が施され、フェードインやフェードアウトの効果が効
かされる。
【0041】そして、得られた音声波形WAV8の音声
レベルを、「1/2」になるようにレベル調整し、音声
波形WAV9を生成する。このようにしてCPU12に
よって抽出された全ての音声データのキーフレーズの連
続化,レベル調整が行われて生成された音声波形WAV
9が再生され、スピーカ21により音声波形WAV9に
基づいた音声を発生させる。すなわち、「モード2」に
おいては、抽出された音声データのキーフレーズが一つ
ずつ順次に繰り返し再生されることとなる。
レベルを、「1/2」になるようにレベル調整し、音声
波形WAV9を生成する。このようにしてCPU12に
よって抽出された全ての音声データのキーフレーズの連
続化,レベル調整が行われて生成された音声波形WAV
9が再生され、スピーカ21により音声波形WAV9に
基づいた音声を発生させる。すなわち、「モード2」に
おいては、抽出された音声データのキーフレーズが一つ
ずつ順次に繰り返し再生されることとなる。
【0042】そして、キーフレーズが再生されている音
声データについて、表示装置18で表示されているアイ
コンの色が変化するとともに、そのアイコンの大きさが
音量のに応じてダイナミックに変化する。これにより、
スピーカ21より再生されているキーフレーズが表示装
置18に表示されている音声データのアイコンのうちで
どの音声データを再生しているかの認識が視覚的にも容
易となる。
声データについて、表示装置18で表示されているアイ
コンの色が変化するとともに、そのアイコンの大きさが
音量のに応じてダイナミックに変化する。これにより、
スピーカ21より再生されているキーフレーズが表示装
置18に表示されている音声データのアイコンのうちで
どの音声データを再生しているかの認識が視覚的にも容
易となる。
【0043】図9は、キーフレーズの再生に伴う音声デ
ータのアイコンの変化を示す図であり、音声データ認識
ワードが「わんわん」と設定されている音声データのキ
ーフレーズが再生されている場合を示している。図9
(a)は再生されるキーフレーズの音量が大きいときの
アイコンIC2を示しており、図9(b)は音量が小さ
いときのアイコンIC2を示している。また、図9
(a),(b)に示すアイコンIC2は、他のアイコン
と比べると色が異なり、再生されているアイコンを特定
しやすくしている。このようにスピーカ21から発せら
れるキーフレーズの音量に応じてアイコンの大きさがダ
イナミックに変化するとともに、アイコンの色も変化さ
せるため、再生している音声データの特定を視覚的に容
易に認識できるように実現されている。
ータのアイコンの変化を示す図であり、音声データ認識
ワードが「わんわん」と設定されている音声データのキ
ーフレーズが再生されている場合を示している。図9
(a)は再生されるキーフレーズの音量が大きいときの
アイコンIC2を示しており、図9(b)は音量が小さ
いときのアイコンIC2を示している。また、図9
(a),(b)に示すアイコンIC2は、他のアイコン
と比べると色が異なり、再生されているアイコンを特定
しやすくしている。このようにスピーカ21から発せら
れるキーフレーズの音量に応じてアイコンの大きさがダ
イナミックに変化するとともに、アイコンの色も変化さ
せるため、再生している音声データの特定を視覚的に容
易に認識できるように実現されている。
【0044】さらに、この実施の形態における「モード
2」では、再生しているキーフレーズに対応する音声デ
ータについて設定されている音声データ認識ワードが流
れ表示になる。「流れ表示」とは、表示装置18に表示
されている文字などが画面上を流れるように移動するこ
とをいう。この例を図10に示す。図10は、この実施
の形態における音声データ認識ワードの流れ表示を示す
図である。図10(a)は、音声データ認識ワードが流
れ表示となる第1段階を示しており、図10(b)は第
2段階を示している。そして、図10(c)は第3段階
を示している。まず、第1段階では、音声データ認識ワ
ードとして設定されている「リーンリーン」が全て表示
されている。第2段階では、音声データ認識ワードが左
に1文字分移動し、「リーンリーン」の最初の「リ」が
消えている。さらに、第3段階では、第2段階からさら
に左に1文字分移動し、「リーンリーン」の最初の「リ
ー」が消えるとともに、右欄に「リ」が現れている。以
下同様に音声データ認識ワードが左に少しずつ移動し、
左端から文字が消えていく一方で右端から文字が出現す
るように実現されている。このように音声データ認識ワ
ードを流れ表示とすることによっても再生されているキ
ーフレーズの音声データがどれであるを視覚的に特定し
やすくなっている。
2」では、再生しているキーフレーズに対応する音声デ
ータについて設定されている音声データ認識ワードが流
れ表示になる。「流れ表示」とは、表示装置18に表示
されている文字などが画面上を流れるように移動するこ
とをいう。この例を図10に示す。図10は、この実施
の形態における音声データ認識ワードの流れ表示を示す
図である。図10(a)は、音声データ認識ワードが流
れ表示となる第1段階を示しており、図10(b)は第
2段階を示している。そして、図10(c)は第3段階
を示している。まず、第1段階では、音声データ認識ワ
ードとして設定されている「リーンリーン」が全て表示
されている。第2段階では、音声データ認識ワードが左
に1文字分移動し、「リーンリーン」の最初の「リ」が
消えている。さらに、第3段階では、第2段階からさら
に左に1文字分移動し、「リーンリーン」の最初の「リ
ー」が消えるとともに、右欄に「リ」が現れている。以
下同様に音声データ認識ワードが左に少しずつ移動し、
左端から文字が消えていく一方で右端から文字が出現す
るように実現されている。このように音声データ認識ワ
ードを流れ表示とすることによっても再生されているキ
ーフレーズの音声データがどれであるを視覚的に特定し
やすくなっている。
【0045】このように「モード2」によれば、検索に
よって抽出された音声データのキーフレーズを順次に再
生するとともに、再生されている音声データを特定する
ことを視覚的に容易となるように実現したため、抽出さ
れた複数の音声データの中から確実にオペレータの所望
する音声データを特定することができる。しかし、「モ
ード2」において抽出された音声データが多い場合は、
全ての音声データのキーフレーズを再生するのに要する
時間が長くなるということがある。
よって抽出された音声データのキーフレーズを順次に再
生するとともに、再生されている音声データを特定する
ことを視覚的に容易となるように実現したため、抽出さ
れた複数の音声データの中から確実にオペレータの所望
する音声データを特定することができる。しかし、「モ
ード2」において抽出された音声データが多い場合は、
全ての音声データのキーフレーズを再生するのに要する
時間が長くなるということがある。
【0046】a-3)モードの切り替えについて 先述したように、「モード1」と「モード2」の切換
は、当該音声データベースシステムの初期設定において
任意のモードを選択することも可能であるが、自動でモ
ードを切り替えることも可能である。自動でモードを切
り替える方法としては、検索の結果抽出された音声デー
タが予め設定されている指定個数以上である場合は「モ
ード1」による再生・表示となり、指定個数未満である
場合は「モード2」による再生・表示となる。指定個数
は予めオペレータが設定することが可能である。
は、当該音声データベースシステムの初期設定において
任意のモードを選択することも可能であるが、自動でモ
ードを切り替えることも可能である。自動でモードを切
り替える方法としては、検索の結果抽出された音声デー
タが予め設定されている指定個数以上である場合は「モ
ード1」による再生・表示となり、指定個数未満である
場合は「モード2」による再生・表示となる。指定個数
は予めオペレータが設定することが可能である。
【0047】b)仮選択状態での表示などの制御 検索結果の表示の際に、検索条件と一致した音声データ
の中に少なくとも1つの仮選択された音声データがある
場合について説明する。非選択状態の場合の再生におい
てスピーカ21から発せられる音量は「1/2」にレベ
ル調整された音量であったが、この仮選択状態の場合の
再生においてスピーカ21から発せられる音量にはレベ
ル調整を施さずに本来の音声データの示す音量で出力さ
れる。すなわち、仮選択状態における表示や再生は、非
選択状態の「モード2」で説明した内容と同様であり、
異なる点はレベル調整を行わないことである。
の中に少なくとも1つの仮選択された音声データがある
場合について説明する。非選択状態の場合の再生におい
てスピーカ21から発せられる音量は「1/2」にレベ
ル調整された音量であったが、この仮選択状態の場合の
再生においてスピーカ21から発せられる音量にはレベ
ル調整を施さずに本来の音声データの示す音量で出力さ
れる。すなわち、仮選択状態における表示や再生は、非
選択状態の「モード2」で説明した内容と同様であり、
異なる点はレベル調整を行わないことである。
【0048】オペレータの操作によって設定された仮選
択状態の音声データの全てについてのキーフレーズが順
番に連続した状態で再生される。一つの音声データにつ
いて複数のキーフレーズが設定されている場合には、そ
れらは順に繰り返される。また、キーフレーズとキーフ
レーズのつなぎの部分にはフェードインとフェードアウ
トの効果が効かされている。そして、再生しているキー
フレーズに対応した音声データのアイコンの色が変化す
るとともに、そのアイコンの大きさが音量に応じてダイ
ナミックに変化するように実現されている。さらに、再
生しているキーフレーズに対応した音声データの音声デ
ータ認識ワードが流れ表示になる。
択状態の音声データの全てについてのキーフレーズが順
番に連続した状態で再生される。一つの音声データにつ
いて複数のキーフレーズが設定されている場合には、そ
れらは順に繰り返される。また、キーフレーズとキーフ
レーズのつなぎの部分にはフェードインとフェードアウ
トの効果が効かされている。そして、再生しているキー
フレーズに対応した音声データのアイコンの色が変化す
るとともに、そのアイコンの大きさが音量に応じてダイ
ナミックに変化するように実現されている。さらに、再
生しているキーフレーズに対応した音声データの音声デ
ータ認識ワードが流れ表示になる。
【0049】このように、仮選択状態とされて表示・再
生されると、キーフレーズが順次に連続して再生される
とともに、音声データに対応するアイコンの表示や音声
データ認識ワードの表示が変化するため、再生されてい
る音声データを視覚的に容易に認識することが可能とな
る。なお、仮選択状態とする音声データは複数個設定す
ることも可能である。
生されると、キーフレーズが順次に連続して再生される
とともに、音声データに対応するアイコンの表示や音声
データ認識ワードの表示が変化するため、再生されてい
る音声データを視覚的に容易に認識することが可能とな
る。なお、仮選択状態とする音声データは複数個設定す
ることも可能である。
【0050】また、例えば、非選択状態において検索の
結果抽出された音声データが「モード2」で表示・再生
されている場合において、任意の音声データをマウス操
作によって仮選択とすることにより、オペレータの所望
する音声データを絞り込んでいくことが可能となる。
結果抽出された音声データが「モード2」で表示・再生
されている場合において、任意の音声データをマウス操
作によって仮選択とすることにより、オペレータの所望
する音声データを絞り込んでいくことが可能となる。
【0051】これまで説明した非選択状態と仮選択状態
とでオペレータが所望の音声データを確定できない場合
には、さらに、属性情報を表示装置18に表示させるこ
とも可能である。図4に示すような検索結果が表示され
ている画面の任意の音声データのアイコンをマウス20
でダブルクリックすることにより、その音声データにつ
いて、図11に示すような属性情報表示画面P4を表示
装置18に表示させることができる。オペレータは、図
11の属性情報表示画面P4から当該音声データにの属
性情報を確認することができる。また、マウス20の操
作によって属性情報表示画面P4に表示された再生ボタ
ンB21をクリックすることにより当該音声データの全
区間が再生され、スピーカ21から音声が発せられる。
非選択状態および仮選択状態における再生は、設定され
たキーフレーズの区間のみの再生であったが、再生ボタ
ンB21をクリックすることにより音声データの全てが
再生されることとなる。
とでオペレータが所望の音声データを確定できない場合
には、さらに、属性情報を表示装置18に表示させるこ
とも可能である。図4に示すような検索結果が表示され
ている画面の任意の音声データのアイコンをマウス20
でダブルクリックすることにより、その音声データにつ
いて、図11に示すような属性情報表示画面P4を表示
装置18に表示させることができる。オペレータは、図
11の属性情報表示画面P4から当該音声データにの属
性情報を確認することができる。また、マウス20の操
作によって属性情報表示画面P4に表示された再生ボタ
ンB21をクリックすることにより当該音声データの全
区間が再生され、スピーカ21から音声が発せられる。
非選択状態および仮選択状態における再生は、設定され
たキーフレーズの区間のみの再生であったが、再生ボタ
ンB21をクリックすることにより音声データの全てが
再生されることとなる。
【0052】そして、オペレータは、属性情報の確認や
音声データの再生によって当該音声データが所望する音
声データであることを認識すると、取出しボタンB22
をクリックすることにより、当該音声データを取り出す
ことができる。「音声データを取り出す」とは、音声デ
ータベースから音声データをコピーし、他のプログラム
などでその音声データを活用することができるようにす
ることをいう。また、オペレータは、属性情報の確認や
音声データの再生によって当該音声データが所望する音
声データでないことを認識した場合は、キャンセルボタ
ンB23をクリックして属性情報表示画面P4を終了さ
せて検索結果表示画面などに戻り、再び所望の音声デー
タの特定作業を行うこととなる。
音声データの再生によって当該音声データが所望する音
声データであることを認識すると、取出しボタンB22
をクリックすることにより、当該音声データを取り出す
ことができる。「音声データを取り出す」とは、音声デ
ータベースから音声データをコピーし、他のプログラム
などでその音声データを活用することができるようにす
ることをいう。また、オペレータは、属性情報の確認や
音声データの再生によって当該音声データが所望する音
声データでないことを認識した場合は、キャンセルボタ
ンB23をクリックして属性情報表示画面P4を終了さ
せて検索結果表示画面などに戻り、再び所望の音声デー
タの特定作業を行うこととなる。
【0053】このように、この実施の形態の音声データ
ベースシステムの音声データの検索結果の表示を行う際
には、検索によって抽出された音声データの再生を自動
的に行うため、従来のように再生を伴わない検索結果の
表示に比して容易に音声データの特定を行うことが可能
であり、オペレータに不安感が残ることもない。また、
検索結果の表示の際には、ファイル名ではなくて、音声
データがどのような音声についてのデータであるかを具
体的かつ簡潔に示した音声データ認識ワードを音声デー
タのアイコンの下欄に表示しているため、従来に比較し
て容易に音声データの内容を推定することができ、作業
の効率化を図ることができる。さらに、検索結果の表示
の際に行う再生については、音声データの全てを再生す
るのではなく、音声データについて設定されたキーフレ
ーズを繰り返し再生するため、短時間で所望の音声デー
タを特定することが可能となる。このように、オペレー
タの所望する音声データを迅速かつ効率的に確実に得る
ことができる。
ベースシステムの音声データの検索結果の表示を行う際
には、検索によって抽出された音声データの再生を自動
的に行うため、従来のように再生を伴わない検索結果の
表示に比して容易に音声データの特定を行うことが可能
であり、オペレータに不安感が残ることもない。また、
検索結果の表示の際には、ファイル名ではなくて、音声
データがどのような音声についてのデータであるかを具
体的かつ簡潔に示した音声データ認識ワードを音声デー
タのアイコンの下欄に表示しているため、従来に比較し
て容易に音声データの内容を推定することができ、作業
の効率化を図ることができる。さらに、検索結果の表示
の際に行う再生については、音声データの全てを再生す
るのではなく、音声データについて設定されたキーフレ
ーズを繰り返し再生するため、短時間で所望の音声デー
タを特定することが可能となる。このように、オペレー
タの所望する音声データを迅速かつ効率的に確実に得る
ことができる。
【0054】<4.フローチャート>次に、この実施の
形態の音声データベースシステムにおける検索から音声
データを特定するまでの処理について説明する。
形態の音声データベースシステムにおける検索から音声
データを特定するまでの処理について説明する。
【0055】図12は、この実施の形態の音声データベ
ースシステムにおける検索から音声データを特定するま
での処理を示すフローチャートである。まず、ステップ
S21では、CPU12においてオペレータの指示によ
り音声データベースプログラムのうちの音声データの検
索/取り出しに関するプログラムを起動する。そして、
初期設定の画面で、非選択状態での再生モードとしてモ
ード1とモード2のどちらか一方を選択し、設定する
(ステップS22)。そして、ステップS23におい
て、音声データの検索を行うための条件(例えば、キー
ワードなど)を入力する。そしてオペレータは、ステッ
プS24において検索開始の指示を入力する。これによ
り、CPU12は入力された検索条件に一致する音声デ
ータの検索を開始する。そして、検索の結果抽出された
音声データは、表示装置18に表示されるとともに、非
選択状態における「モード1」または「モード2」の再
生モードで抽出された音声データのキーフレーズが再生
される(ステップS25)。そして、オペレータは特定
の音声データのみを確認する必要があるか否かの判断を
行う(ステップS26)。ここで「YES」と判断した
場合はステップS27に進み、「NO」と判断した場合
はステップS29に進む。
ースシステムにおける検索から音声データを特定するま
での処理を示すフローチャートである。まず、ステップ
S21では、CPU12においてオペレータの指示によ
り音声データベースプログラムのうちの音声データの検
索/取り出しに関するプログラムを起動する。そして、
初期設定の画面で、非選択状態での再生モードとしてモ
ード1とモード2のどちらか一方を選択し、設定する
(ステップS22)。そして、ステップS23におい
て、音声データの検索を行うための条件(例えば、キー
ワードなど)を入力する。そしてオペレータは、ステッ
プS24において検索開始の指示を入力する。これによ
り、CPU12は入力された検索条件に一致する音声デ
ータの検索を開始する。そして、検索の結果抽出された
音声データは、表示装置18に表示されるとともに、非
選択状態における「モード1」または「モード2」の再
生モードで抽出された音声データのキーフレーズが再生
される(ステップS25)。そして、オペレータは特定
の音声データのみを確認する必要があるか否かの判断を
行う(ステップS26)。ここで「YES」と判断した
場合はステップS27に進み、「NO」と判断した場合
はステップS29に進む。
【0056】ステップS27では、オペレータは特定の
音声データのアイコンに対してマウス操作によるクリッ
クやマウスポインタの移動を行い、非選択状態から仮選
択状態に変更させる。そして、ステップS28では、仮
選択状態での表示・再生が行われる。
音声データのアイコンに対してマウス操作によるクリッ
クやマウスポインタの移動を行い、非選択状態から仮選
択状態に変更させる。そして、ステップS28では、仮
選択状態での表示・再生が行われる。
【0057】そして、所望する音声データに該当する候
補の音声データがある場合はステップS30に進み、候
補の音声データがない場合にはステップS36に進む
(ステップS29)。そして、オペレータは候補の音声
データを選択し、マウス操作を行ってその音声データに
ついての属性情報表示画面を表示させる(ステップS3
0)。そして、属性情報表示画面により音声データの最
終確認を行う(ステップS31)。そしてステップS3
2においては音声データの全ての再生を行う場合にはス
テップS33の処理を行う。ステップS33では、属性
情報表示画面の再生ボタンを句陸することにより再生指
示を行う。そして、音声データの確認の結果、当該音声
データを取り出すか否かの判断を行う(ステップS3
4)。そして当該音声データを取り出す場合には取り出
しの操作を行う(ステップS35)。
補の音声データがある場合はステップS30に進み、候
補の音声データがない場合にはステップS36に進む
(ステップS29)。そして、オペレータは候補の音声
データを選択し、マウス操作を行ってその音声データに
ついての属性情報表示画面を表示させる(ステップS3
0)。そして、属性情報表示画面により音声データの最
終確認を行う(ステップS31)。そしてステップS3
2においては音声データの全ての再生を行う場合にはス
テップS33の処理を行う。ステップS33では、属性
情報表示画面の再生ボタンを句陸することにより再生指
示を行う。そして、音声データの確認の結果、当該音声
データを取り出すか否かの判断を行う(ステップS3
4)。そして当該音声データを取り出す場合には取り出
しの操作を行う(ステップS35)。
【0058】そして、次の検索を行う場合は、ステップ
S22からの処理を繰り返し、行わない場合はステップ
S37に進み、音声データの検索/取り出しに関するプ
ログラムを終了する。
S22からの処理を繰り返し、行わない場合はステップ
S37に進み、音声データの検索/取り出しに関するプ
ログラムを終了する。
【0059】次に、非選択状態の「モード1」での自動
再生処理について説明する。図13は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード1」での再生処理を示すフローチャートである。ま
ず、ステップS41において検索の結果抽出された音声
データのリストを作成し、メモリ13に記憶する。そし
てステップS41で作成したリストに基づいて、音声デ
ータのキーフレーズの再生プロセスを検索の結果抽出さ
れた音声データの個数分起動する。
再生処理について説明する。図13は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード1」での再生処理を示すフローチャートである。ま
ず、ステップS41において検索の結果抽出された音声
データのリストを作成し、メモリ13に記憶する。そし
てステップS41で作成したリストに基づいて、音声デ
ータのキーフレーズの再生プロセスを検索の結果抽出さ
れた音声データの個数分起動する。
【0060】例えば、検索の結果抽出された音声データ
の数がN個(ただし、Nは任意の整数)であったとする
と、抽出された音声データのそれぞれのキーフレーズを
「1/(2・N)」の音量にレベル調整して再生プロセ
スを起動する。これにより、抽出された全ての音声デー
タのキーフレーズが総和合成されるとともに、「1/
2」の音量レベルにレベル調整することができる。
の数がN個(ただし、Nは任意の整数)であったとする
と、抽出された音声データのそれぞれのキーフレーズを
「1/(2・N)」の音量にレベル調整して再生プロセ
スを起動する。これにより、抽出された全ての音声デー
タのキーフレーズが総和合成されるとともに、「1/
2」の音量レベルにレベル調整することができる。
【0061】そして、ステップS43で「NO」と判断
されるまで「モード1」による再生を繰り返す。再生を
終了する場合は、ステップS44で各再生プロセスを停
止させることにより行われる。
されるまで「モード1」による再生を繰り返す。再生を
終了する場合は、ステップS44で各再生プロセスを停
止させることにより行われる。
【0062】次に、非選択状態の「モード2」での自動
再生処理について説明する。図14は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード2」での再生処理を示すフローチャートである。ま
ず、ステップS51において検索の結果抽出された音声
データのリストを作成し、メモリ13に記憶する。そし
て、以前に再生していたキーフレーズが終了したか否か
の判断が行われる(ステップS52)。再生中である場
合は、ステップS58に進み、終了している場合にはス
テップS53に進む。ステップS53では、再生が終了
した音声データのキーフレーズの再生にかかわっていた
各プロセスを停止させる。ステップS54では、ステッ
プS51で作成したリストに基づいて次に再生する音声
データを特定する。ステップS55では、ステップS5
4で特定された音声データの音声データ認識ワードを流
れ表示にするために流れ表示プロセスを起動する。ステ
ップS56では、ステップS54で特定された音声デー
タのキーフレーズの再生を行うための再生プロセスを起
動する。ステップS57では、ステップS54で特定さ
れた音声データのアイコン表示をダイナミックに変化す
るようにアイコン表示プロセスを起動する。そしてステ
ップS58に進む。なお、ステップS55〜S57につ
いては、他の順序で行われても良い。
再生処理について説明する。図14は、この実施の形態
における音声データベースシステムの非選択状態の「モ
ード2」での再生処理を示すフローチャートである。ま
ず、ステップS51において検索の結果抽出された音声
データのリストを作成し、メモリ13に記憶する。そし
て、以前に再生していたキーフレーズが終了したか否か
の判断が行われる(ステップS52)。再生中である場
合は、ステップS58に進み、終了している場合にはス
テップS53に進む。ステップS53では、再生が終了
した音声データのキーフレーズの再生にかかわっていた
各プロセスを停止させる。ステップS54では、ステッ
プS51で作成したリストに基づいて次に再生する音声
データを特定する。ステップS55では、ステップS5
4で特定された音声データの音声データ認識ワードを流
れ表示にするために流れ表示プロセスを起動する。ステ
ップS56では、ステップS54で特定された音声デー
タのキーフレーズの再生を行うための再生プロセスを起
動する。ステップS57では、ステップS54で特定さ
れた音声データのアイコン表示をダイナミックに変化す
るようにアイコン表示プロセスを起動する。そしてステ
ップS58に進む。なお、ステップS55〜S57につ
いては、他の順序で行われても良い。
【0063】ステップS58では、「モード2」での再
生を継続するか否かを決定する。オペレータによる入力
がない場合はステップS52に進み、再生を継続する。
「モード2」での再生を終了する場合は、ステップS5
9で音声データのキーフレーズの再生にかかわっていた
各プロセス(ステップS55〜S57で起動したプロセ
ス)を停止させて処理を終了する。
生を継続するか否かを決定する。オペレータによる入力
がない場合はステップS52に進み、再生を継続する。
「モード2」での再生を終了する場合は、ステップS5
9で音声データのキーフレーズの再生にかかわっていた
各プロセス(ステップS55〜S57で起動したプロセ
ス)を停止させて処理を終了する。
【0064】次に、仮選択状態での自動再生処理につい
て説明する。図15は、この実施の形態における音声デ
ータベースシステムの仮選択状態での再生処理を示すフ
ローチャートである。まず、ステップS61において検
索の結果抽出された音声データのリストを作成し、メモ
リ13に記憶する。そして、以前に再生していたキーフ
レーズが終了したか否かの判断が行われる(ステップS
62)。再生中である場合は、ステップS68に進み、
終了している場合にはステップS63に進む。ステップ
S63では、再生が終了した音声データのキーフレーズ
の再生にかかわっていた各プロセスを停止させる。ステ
ップS64では、ステップS61で作成したリストに基
づいて次に再生する音声データを特定する。ステップS
65では、ステップS64で特定された音声データの音
声データ認識ワードを流れ表示にするために流れ表示プ
ロセスを起動する。ステップS66では、ステップS6
4で特定された音声データのキーフレーズの再生を行う
ための再生プロセスを起動する。ステップS67では、
ステップS64で特定された音声データのアイコン表示
をダイナミックに変化するようにアイコン表示プロセス
を起動する。そしてステップS68に進む。なお、ステ
ップS65〜S67については、他の順序で行われても
良い。
て説明する。図15は、この実施の形態における音声デ
ータベースシステムの仮選択状態での再生処理を示すフ
ローチャートである。まず、ステップS61において検
索の結果抽出された音声データのリストを作成し、メモ
リ13に記憶する。そして、以前に再生していたキーフ
レーズが終了したか否かの判断が行われる(ステップS
62)。再生中である場合は、ステップS68に進み、
終了している場合にはステップS63に進む。ステップ
S63では、再生が終了した音声データのキーフレーズ
の再生にかかわっていた各プロセスを停止させる。ステ
ップS64では、ステップS61で作成したリストに基
づいて次に再生する音声データを特定する。ステップS
65では、ステップS64で特定された音声データの音
声データ認識ワードを流れ表示にするために流れ表示プ
ロセスを起動する。ステップS66では、ステップS6
4で特定された音声データのキーフレーズの再生を行う
ための再生プロセスを起動する。ステップS67では、
ステップS64で特定された音声データのアイコン表示
をダイナミックに変化するようにアイコン表示プロセス
を起動する。そしてステップS68に進む。なお、ステ
ップS65〜S67については、他の順序で行われても
良い。
【0065】ステップS68では、仮選択状態での再生
を継続するか否かを決定する。オペレータによる入力が
ない場合はステップS62に進み、再生を継続する。仮
選択状態での再生を終了する場合は、ステップS69で
音声データのキーフレーズの再生にかかわっていた各プ
ロセス(ステップS65〜S67で起動したプロセス)
を停止させて処理を終了する。
を継続するか否かを決定する。オペレータによる入力が
ない場合はステップS62に進み、再生を継続する。仮
選択状態での再生を終了する場合は、ステップS69で
音声データのキーフレーズの再生にかかわっていた各プ
ロセス(ステップS65〜S67で起動したプロセス)
を停止させて処理を終了する。
【0066】<5.変形例>上記の実施の形態で示した
音声データのアイコンは、スピーカの絵柄で示したがこ
れに限定するものではなく、オペレータが自由に音声デ
ータごとに設定することが可能である。例えば、音声デ
ータの内容に応じた絵柄をアイコンとして設定すれば、
視覚的な効果が高まり、より効率的に音声データの特定
を行うことが可能となる。
音声データのアイコンは、スピーカの絵柄で示したがこ
れに限定するものではなく、オペレータが自由に音声デ
ータごとに設定することが可能である。例えば、音声デ
ータの内容に応じた絵柄をアイコンとして設定すれば、
視覚的な効果が高まり、より効率的に音声データの特定
を行うことが可能となる。
【0067】また、非選択状態における再生では、音量
が「1/2」となるようにレベル調整していたが、これ
に限定するものでもない。仮選択状態がオペレータが意
図的に特定の音声データの音声を出力させるものである
ため、音量を大きくして良い。しかし、非選択状態にお
ける再生は検索結果の表示とほぼ同時に自動的に行われ
るため、音量が大きいとオペレータに不快感を与える可
能性がある。そこで、意図的な再生でない非選択状態で
の再生の音量を小さくすることにより、そのような問題
を解決している。従って、音量を小さくするのであれ
ば、「1/2」以外の数値でも良い。
が「1/2」となるようにレベル調整していたが、これ
に限定するものでもない。仮選択状態がオペレータが意
図的に特定の音声データの音声を出力させるものである
ため、音量を大きくして良い。しかし、非選択状態にお
ける再生は検索結果の表示とほぼ同時に自動的に行われ
るため、音量が大きいとオペレータに不快感を与える可
能性がある。そこで、意図的な再生でない非選択状態で
の再生の音量を小さくすることにより、そのような問題
を解決している。従って、音量を小さくするのであれ
ば、「1/2」以外の数値でも良い。
【0068】
【発明の効果】以上説明したように、請求項1に記載の
発明によれば、音声データの示す音声の任意の特徴的な
部分についての開始点と終了点に基づく区間音声情報を
音声データに対応付けて記憶し、複数の音声データの中
から所定の情報に基づいて音声データの検索を行い、検
索によって抽出された音声データを区間音声情報に基づ
いて再生して音声として出力するため、容易に音声デー
タの特定を行うことが可能であり、オペレータに不安感
が残ることもないとともに、短時間で所望の音声データ
を特定することが可能となり、オペレータの所望する音
声データを迅速かつ効率的に確実に得ることができる。
発明によれば、音声データの示す音声の任意の特徴的な
部分についての開始点と終了点に基づく区間音声情報を
音声データに対応付けて記憶し、複数の音声データの中
から所定の情報に基づいて音声データの検索を行い、検
索によって抽出された音声データを区間音声情報に基づ
いて再生して音声として出力するため、容易に音声デー
タの特定を行うことが可能であり、オペレータに不安感
が残ることもないとともに、短時間で所望の音声データ
を特定することが可能となり、オペレータの所望する音
声データを迅速かつ効率的に確実に得ることができる。
【0069】請求項2に記載の発明によれば、1つの音
声データについて複数の区間音声情報を対応付けて記憶
することが可能であるため、音声データの特定をより確
実かつ容易なものとすることができる。
声データについて複数の区間音声情報を対応付けて記憶
することが可能であるため、音声データの特定をより確
実かつ容易なものとすることができる。
【0070】請求項3に記載の発明によれば、出力手段
で出力されている音声データに対応する表示が、当該音
声データの区間音声情報に基づく再生に伴って変化する
ため、再生されている音声データを視覚的に特定するこ
とが容易となり、オペレータの所望する音声データを迅
速かつ効率的に確実に得ることができる。
で出力されている音声データに対応する表示が、当該音
声データの区間音声情報に基づく再生に伴って変化する
ため、再生されている音声データを視覚的に特定するこ
とが容易となり、オペレータの所望する音声データを迅
速かつ効率的に確実に得ることができる。
【0071】請求項4に記載の発明によれば、検索手段
によって抽出された音声データについて、特徴的な部分
の発音の擬音語または当該音声データについての客観的
対象物を含む文字で表現した音声データ認識ワードを表
示するため、検索の結果抽出された音声データがそれぞ
れどのような音声であるかを推定することが容易とな
る。
によって抽出された音声データについて、特徴的な部分
の発音の擬音語または当該音声データについての客観的
対象物を含む文字で表現した音声データ認識ワードを表
示するため、検索の結果抽出された音声データがそれぞ
れどのような音声であるかを推定することが容易とな
る。
【0072】請求項5に記載の発明によれば、コンピュ
ータ読み取り可能な記録媒体に記録された音声データベ
ースプログラムをコンピュータが読み取り実行すること
により、容易に音声データの特定を行うことが可能であ
り、オペレータに不安感が残ることもないとともに、短
時間で所望の音声データを特定することが可能となり、
オペレータの所望する音声データを迅速かつ効率的に確
実に得ることができる音声データベースシステムを実現
することが可能となる。
ータ読み取り可能な記録媒体に記録された音声データベ
ースプログラムをコンピュータが読み取り実行すること
により、容易に音声データの特定を行うことが可能であ
り、オペレータに不安感が残ることもないとともに、短
時間で所望の音声データを特定することが可能となり、
オペレータの所望する音声データを迅速かつ効率的に確
実に得ることができる音声データベースシステムを実現
することが可能となる。
【図1】この発明の実施の形態である音声データベース
システムの構成を示す概略図である。
システムの構成を示す概略図である。
【図2】この発明の実施の形態における音声データのキ
ーフレーズの設定方法を説明するための説明図である。
ーフレーズの設定方法を説明するための説明図である。
【図3】この発明の実施の形態の音声データベースシス
テムにおける音声データの登録の処理を示すフローチャ
ートである。
テムにおける音声データの登録の処理を示すフローチャ
ートである。
【図4】この発明の実施の形態の音声データべースシス
テムにおける検索結果の表示の一例を示す図である。
テムにおける検索結果の表示の一例を示す図である。
【図5】この発明の実施の形態の音声データベースシス
テムの非選択状態と仮選択状態と示す図である。
テムの非選択状態と仮選択状態と示す図である。
【図6】2つの音声データのキーフレーズを示す図であ
る。
る。
【図7】この発明の実施の形態の音声データベースシス
テムのキーフレーズの総和合成を示す説明図である。
テムのキーフレーズの総和合成を示す説明図である。
【図8】この発明の実施の形態の音声データベースシス
テムの「モード2」についての音声データの再生モード
の説明図である。
テムの「モード2」についての音声データの再生モード
の説明図である。
【図9】この発明の実施の形態の音声データベースシス
テムにおけるキーフレーズの再生に伴う音声データのア
イコンの変化を示す図である。
テムにおけるキーフレーズの再生に伴う音声データのア
イコンの変化を示す図である。
【図10】この発明の実施の形態における音声データ認
識ワードの流れ表示を示す図である。
識ワードの流れ表示を示す図である。
【図11】この発明の実施の形態における属性情報表示
画面を示す概念図である。
画面を示す概念図である。
【図12】この発明の実施の形態の音声データベースシ
ステムにおける検索から音声データを特定するまでの処
理を示すフローチャートである。
ステムにおける検索から音声データを特定するまでの処
理を示すフローチャートである。
【図13】この発明の実施の形態における音声データベ
ースシステムの非選択状態の「モード1」での再生処理
を示すフローチャートである。
ースシステムの非選択状態の「モード1」での再生処理
を示すフローチャートである。
【図14】この発明の実施の形態における音声データベ
ースシステムの非選択状態の「モード2」での再生処理
を示すフローチャートである。
ースシステムの非選択状態の「モード2」での再生処理
を示すフローチャートである。
【図15】この発明の実施の形態における音声データベ
ースシステムの仮選択状態での再生処理を示すフローチ
ャートである。
ースシステムの仮選択状態での再生処理を示すフローチ
ャートである。
【図16】従来の音声データベースシステムにおける操
作手順を表示装置に表示される画面で示した説明図であ
る。
作手順を表示装置に表示される画面で示した説明図であ
る。
11 入出力装置 12 CPU 13 メモリ 14 記憶部 15,16,17 インタフェース 18 表示装置 19 キーボード 20 マウス 21 スピーカ D 可搬性記録媒体
Claims (5)
- 【請求項1】 音声データを取り扱うコンピュータにお
いて、 (a) 音声データの示す音声の任意の特徴的な部分につい
ての区間音声情報を前記音声データに対応付けて記憶す
る記憶手段と、 (b) 複数の音声データの中から所定の情報に基づいて音
声データの検索を行う検索手段と、 (c) 前記検索手段によって抽出された音声データを前記
区間音声情報に基づいて再生し、音声として出力する出
力手段と、を備えることを特徴とする音声データベース
システム。 - 【請求項2】 請求項1に記載のシステムにおいて、 前記記憶手段は、1つの音声データについて複数の前記
区間音声情報を対応付けて記憶することが可能であるこ
とを特徴とする音声データベースシステム。 - 【請求項3】 請求項1または2に記載のシステムにお
いて、 前記出力手段で出力されている音声データに対応する表
示が、当該音声データの前記区間音声情報に基づく再生
に伴って変化することを特徴とする音声データベースシ
ステム。 - 【請求項4】 請求項1ないし3のいずれかに記載のシ
ステムにおいて、 前記検索手段によって抽出された音声データについて、
特徴的な部分の発音の擬音語または当該音声データにつ
いての客観的対象物を含む文字で表現した音声データ認
識ワードを表示することを特徴とする音声データベース
システム。 - 【請求項5】 コンピュータを、 (a) 音声データの示す音声の任意の特徴的な部分につい
ての区間音声情報を前記音声データに対応付けて記憶す
る記憶手段、 (b) 複数の音声データの中から所定の情報に基づいて音
声データの検索を行う検索手段、 (c) 前記検索手段によって抽出された音声データを前記
区間音声情報に基づいて再生し、音声として出力する出
力手段、として機能させるための音声データベースプロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9122264A JPH10312389A (ja) | 1997-05-13 | 1997-05-13 | 音声データベースシステムおよび記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9122264A JPH10312389A (ja) | 1997-05-13 | 1997-05-13 | 音声データベースシステムおよび記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10312389A true JPH10312389A (ja) | 1998-11-24 |
Family
ID=14831660
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9122264A Pending JPH10312389A (ja) | 1997-05-13 | 1997-05-13 | 音声データベースシステムおよび記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10312389A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002091493A (ja) * | 2000-09-11 | 2002-03-27 | Sony Corp | 音声信号の再生装置 |
| JP2002258873A (ja) * | 2001-03-01 | 2002-09-11 | Sony Corp | 音楽認識装置及び音楽サービスシステム |
| WO2002086861A1 (en) * | 2001-04-20 | 2002-10-31 | Sony Corporation | Language processor |
| JP2004333737A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | メディア検索装置およびメディア検索プログラム |
| JP2009216986A (ja) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | 音声データ検索システム及び音声データの検索方法 |
| JP2009236645A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Tec Corp | 音評価方法、音評価装置および音評価プログラム |
| JP2020101411A (ja) * | 2018-12-20 | 2020-07-02 | 株式会社小野測器 | 聴感実験ツールおよび聴感実験サーバ |
-
1997
- 1997-05-13 JP JP9122264A patent/JPH10312389A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002091493A (ja) * | 2000-09-11 | 2002-03-27 | Sony Corp | 音声信号の再生装置 |
| JP2002258873A (ja) * | 2001-03-01 | 2002-09-11 | Sony Corp | 音楽認識装置及び音楽サービスシステム |
| WO2002086861A1 (en) * | 2001-04-20 | 2002-10-31 | Sony Corporation | Language processor |
| JP2004333737A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | メディア検索装置およびメディア検索プログラム |
| JP2009216986A (ja) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | 音声データ検索システム及び音声データの検索方法 |
| JP2009236645A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Tec Corp | 音評価方法、音評価装置および音評価プログラム |
| JP2020101411A (ja) * | 2018-12-20 | 2020-07-02 | 株式会社小野測器 | 聴感実験ツールおよび聴感実験サーバ |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2004523039A (ja) | 音声xmlファイルを自動的に生成する方法およびシステム | |
| JPH0973461A (ja) | 音声による文章情報再生装置 | |
| JP3879545B2 (ja) | 楽曲再生制御装置、楽曲再生制御プログラムおよび記録媒体 | |
| JP4324089B2 (ja) | 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 | |
| US20060008258A1 (en) | Device and method for reproducing compressed information | |
| JP2001176246A (ja) | 記録再生装置 | |
| JPH10312389A (ja) | 音声データベースシステムおよび記録媒体 | |
| JP2672291B2 (ja) | 音声による文章情報再生装置 | |
| JPH06274533A (ja) | マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法 | |
| JP3896760B2 (ja) | 対話記録編集装置、方法及び記憶媒体 | |
| JP2674658B2 (ja) | 光ディスク媒体に記億された音声データのアドレステーブル作成装置 | |
| JPH10320969A (ja) | 動画像データベースシステムおよび記録媒体 | |
| JP4244011B2 (ja) | データ再生装置およびデータ再生装置における再生データの管理方法 | |
| JP2005148727A (ja) | 学習支援装置 | |
| JPH0934872A (ja) | 編集装置および編集方法 | |
| JPH06119401A (ja) | サウンドデータ関連情報表示システム | |
| JP3318775B2 (ja) | プログラム開発支援方法およびその装置 | |
| JPH02136971A (ja) | マルチメディア・データベースにおける検索方法 | |
| JP2010230838A (ja) | デジタル教材作成支援装置,デジタル教材作成支援プログラム,デジタル教材提示装置,デジタル教材提示プログラム | |
| JP2002073665A (ja) | 商品情報提供システム | |
| JP4216991B2 (ja) | 情報ブラウジング装置 | |
| JP2780665B2 (ja) | 外国語学習支援装置 | |
| JP2001282291A (ja) | 音声データ処理装置 | |
| JP2007095155A (ja) | コンテンツ選択方法およびコンテンツ選択装置 | |
| JPH09305620A (ja) | 電子情報の再生方法及びそのコンピュータプログラムを記録した記録媒体、並びに電子情報の再生装置 |