JP2003255982A - 音声認識システムおよび音声ファイル記録システム - Google Patents

音声認識システムおよび音声ファイル記録システム

Info

Publication number
JP2003255982A
JP2003255982A JP2002054368A JP2002054368A JP2003255982A JP 2003255982 A JP2003255982 A JP 2003255982A JP 2002054368 A JP2002054368 A JP 2002054368A JP 2002054368 A JP2002054368 A JP 2002054368A JP 2003255982 A JP2003255982 A JP 2003255982A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
user
audio file
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002054368A
Other languages
English (en)
Other versions
JP4017887B2 (ja
Inventor
Naoji Matsuo
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002054368A priority Critical patent/JP4017887B2/ja
Priority to US10/285,482 priority patent/US7979278B2/en
Publication of JP2003255982A publication Critical patent/JP2003255982A/ja
Application granted granted Critical
Publication of JP4017887B2 publication Critical patent/JP4017887B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 入力データを音声ファイルとして記録し、内
容を端的に把握できるファイル名を自動付与する音声認
識及び音声ファイル記録システムを提供する。 【解決手段】 あらかじめ、利用者用語情報抽出部20
により、利用者が音声記録用途以外の用途を持つアプリ
ケーション10に対して入力した情報から利用者用語情
報を抽出し、音声認識辞書管理部30が利用者用語情報
を基に音声認識辞書31の語彙を追加しておく。次に、
利用者は音声入力部40を介して音声を入力し、音声認
識部50は音声認識辞書31を用いて音声認識を実行す
る。代表利用者用語情報選択部60により、音声認識結
果に含まれる利用者用語情報を抽出し、当該利用者用語
情報の中から一又は複数の代表利用者用語情報を選択す
る。音声ファイル記録部70は音声データを音声ファイ
ルとして記録し、ファイル名を代表利用者用語情報に基
づいて付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声デ
ータを認識する音声認識システムと当該音声データを音
声ファイルとして記録する音声ファイル記録システム及
び方法に関するものである。特に、PDA(Personal d
ata assistance)などに用いられる携帯端末や電話シス
テムなどにおける、音声メモ記録アプリケーションや音
声電子メールアプリケーションなど、音声ファイルの記
録処理を伴うアプリケーションに適用される。
【0002】
【従来の技術】PDAなどに用いられる携帯端末は、持
ち運びするために小型化されており、入力デバイスとし
てはペンや小型キーボードなどが装備されていることが
多い。
【0003】ペンを用いたいわゆるペン入力の場合、電
子パッドにペンのペン先を接触させ、電子パッド内に入
力したいテキスト文字を書いたり、ペン入力用に決めら
れた特別の記号を書いたり、クロスなど特別なジェスチ
ャをペン先で描いたりすることにより情報を入力する。
【0004】電子パッドに入力したいテキスト文字その
ものを書く場合、文字入力処理、文字認識処理に時間を
要し、利用者が外出先や打ち合わせの席上などにおい
て、簡単にメモ情報を記録する際に不便を感じることが
多い。
【0005】電子パッドにペン入力用に決められた特別
の記号を書いたり、クロスなど特別なジェスチャをペン
先で描いたりする場合、利用者はこれら特別の記号やジ
ェスチャを覚える必要があり、利用者が負担を感じるこ
とが多い。
【0006】そこで、PDAなどの携帯端末において、
音声入力が注目されている。
【0007】音声入力が可能であれば、利用者は装備さ
れたマイクロフォンを介して、メモしたい内容を音声で
入力するのみで良く、音声を発することが許される状況
であれば、簡単にメモ情報を音声入力により記録するこ
とができる。
【0008】図12は、音声入力された音声メモ情報を
音声ファイルとして記録する従来の音声メモ情報記録シ
ステムを説明する図である。
【0009】510はマイクロフォン、520は音声フ
ァイル記録部、530は音声ファイル名入力部、540
は音声ファイル再生部である。
【0010】利用者はマイクロフォン510を介して音
声を入力する。音声はマイクロフォン510により音声
データに変換される。音声データは音声ファイルとして
音声ファイル記録部520に記録される。その際、音声
ファイルに対してファイル名を付与する必要がある。利
用者は自ら音声ファイル名入力部530を介して音声フ
ァイルに対するファイル名を入力する。この音声ファイ
ル名入力部530は、PDAが備えるペンによるペン入
力インタフェースにより提供されることが想定される。
【0011】なお、利用者は自らによるファイル名の入
力に代え、音声ファイル名入力部530が自動的に通し
番号をファイル名として付けることは可能である。例え
ば、記録される順番に“voice.1”、“voic
e.2”と付与することになる。
【0012】また、従来のPDAにおいて、音声入力を
受け付け、入力された音声データを音声ファイルとして
記録するのではなく、続いて音声認識処理を行ない、テ
キストファイルとして記録する音声メモ情報記録システ
ムが知られている。
【0013】図13は、従来技術における音声認識処理
を伴う音声メモ情報記録システムを説明する図である。
【0014】610はマイクロフォン、620は音響解
析部、630は音響モデル、640は音声認識辞書、6
50は照合認識部である。
【0015】利用者はマイクロフォン610を介して音
声を入力する。音声はマイクロフォン610により音声
データに変換される。音響解析部620により音声デー
タに対する音響解析が行なわれ、音声データは音素単位
に分割され、各音素単位で特徴量が抽出される。音響モ
デル630はモデルとなる各音素単位の特徴量を照合す
る際のデータ形式で格納している。例えば、HMM(Hi
dden Markov Model)を用いた確率モデルが使われてい
る。
【0016】照合認識部650は、音響解析部620か
ら入力される音声データの音素単位の特徴量と、音響モ
デル630に格納されている各音素単位の特徴量デー
タ、例えば、各音素単位の特徴量の確率モデルとを比較
照合し、入力された音声データの音素単位を認識する。
その際、照合認識部650は、さらに音声認識辞書64
0を参照し、認識した音素単位からなる情報が単語等、
登録されている語として認識され得るものかを確認し、
当該認識された単語を音声認識結果として出力する。
【0017】ここで、音声認識処理の性能を大きく左右
するものは、辞書格納部630が格納する辞書の語彙で
ある。利用者が入力した単語が辞書の語彙として含まれ
ている場合にのみ、音声認識を行なうことができる。辞
書の語彙数が増えれば音声認識処理を行なうことができ
る単語等の数が増えることとなるが、PDAのような小
型携帯端末では辞書容量も制限され、さらに、語彙数が
増えれば照合処理に要する時間がかかるので、辞書の語
彙数は制限されている。
【0018】そこで、制限された語彙数で、利用者が入
力する単語を効率良くカバーするため、辞書の語彙を利
用者向けにカスタマイズしたユーザ辞書を用いることが
広く行なわれている。
【0019】
【発明が解決しようとする課題】上記従来の音声メモ情
報記録システムには以下の問題点がある。
【0020】まず、音声ファイル名を利用者自らのテキ
ストデータの入力により与える場合には、音声ファイル
名の利用者による付与が不便であるという問題点があ
る。
【0021】メモ情報自体を音声により簡単に入力して
も、そのファイル名をペン入力やキーボードを用いた入
力で行なうこととなれば、上記したように利用者にとっ
て不便であり、利用者が負担を感じるという問題が生じ
る。
【0022】ファイル名はかならずテキストデータで与
えなければならないので、ファイル名の付与を音声入力
により行なう場合は、音声認識処理を行なう構成部分が
必要となってしまう。
【0023】また、上記したように、音声ファイルのフ
ァイル名を自動的に通し番号により与える場合には、利
用者自身がファイル名を入力するという負担は生じない
が、多数の音声メモ情報を記録する場合、通し番号だけ
では記録した音声ファイルの内容が分かりにくいため、
音声メモ情報を参照する時点において、目的とする音声
メモ情報がどの音声ファイルとして記録されているかを
判別するのが困難であるという問題が生じる。
【0024】次に、音声入力された音声メモ情報を音声
認識し、音声メモ情報をテキストファイルとして記録す
る音声メモ情報記録システムの場合、ユーザ辞書作成の
利用者負担が大きいという問題がある。
【0025】従来技術の欄でも述べたように、音声認識
の認識率を向上させるためには、少ない辞書容量で利用
者による入力が想定される単語等を効率良くカバーする
語彙を備えたユーザ辞書を用意する必要があるが、当該
ユーザ辞書はユーザ自身が作成する必要があり、当該ユ
ーザ辞書作成の利用者負担が生じる。当該ユーザ辞書の
作成をペン入力やキーボードを用いた入力で行なうこと
となれば、利用者にとっての負担はさらに大きくなる。
【0026】本発明は、上記問題を解決し、音声入力し
た音声メモ情報を音声ファイルとして記録し、かつ、音
声メモ情報の内容を端的に把握できるファイル名を自動
的に付与し、さらに、利用者による入力が想定される単
語を効率良くカバーする語彙を備えたユーザ辞書を自動
的に生成することができる音声ファイル記録システムを
提供することを目的とする。
【0027】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識システムは、利用者が任意のアプ
リケーションに対して入力した情報から前記利用者の用
語情報を抽出する利用者用語情報抽出部と、音声認識辞
書を備え、前記利用者の用語情報を基に前記音声認識辞
書の語彙を追加する音声認識辞書管理部と、前記利用者
の音声データを入力する音声入力部と、前記音声認識辞
書を用いて前記音声データの音声認識を実行する音声認
識部を備えることを特徴とする。
【0028】上記構成により、音声認識辞書を利用者が
他のアプリケーションで用いた利用者用語情報により追
加するので、利用者による入力が想定される単語を効率
良くカバーする語彙を備えた音声認識辞書を自動的に生
成することができる。
【0029】本発明の音声認識システムにおいて、前記
音声認識辞書より多い語彙数を持つ他の音声認識辞書を
用いて音声認識を実行する音声認識サーバをネットワー
ク上に備え、前記音声認識部による認識率または信頼度
が所定値より低い場合、前記音声認識部がネットワーク
を介して前記音声データを前記音声認識サーバに対して
送信し、前記音声認識サーバが前記音声データの音声認
識処理を実行し、当該音声認識結果を前記音声入力部に
送信することも可能である。
【0030】上記構成により、音声認識処理を音声認識
サーバで実行させることができる。音声認識サーバ上で
高精度な認識処理を実行すれば音声認識精度の向上を図
ることができる。
【0031】なお、上記構成において、音声認識辞書管
理部が音声認識サーバによる音声認識の結果に基づいて
音声認識辞書の語彙を追加することとすれば、音声認識
辞書の語彙を適切に更新して行くことができる。また、
当該音声認識辞書の語彙の追加の実行を利用者が選択す
る選択部を備えることも好ましい。
【0032】次に、本発明の音声ファイル記録システム
は、上記本発明の音声認識システムから音声認識結果を
入力し、前記音声認識の結果に含まれる前記利用者の用
語情報を抽出し、当該利用者の用語情報の中から一又は
複数の利用者用語情報を代表利用者用語情報として選択
する代表利用者用語情報選択部と、前記音声データを音
声ファイルとして記録する音声ファイル記録部を備え、
前記音声ファイル記録部が、前記音声ファイルのファイ
ル名を、前記代表利用者用語情報に基づいて付与するこ
とを特徴とする。
【0033】上記構成によれば、代表利用者用語情報を
基に音声メモ情報の内容を端的に把握できるファイル名
を自動的に付与することができる。
【0034】次に、本発明の音声ファイル記録システム
は、さらに、前記音声ファイルを格納する音声ファイル
サーバをネットワーク上に備え、前記音声ファイル記録
部が、前記音声ファイルと検索キーワードを前記ネット
ワークを介して前記音声ファイルサーバに転送して、当
該音声ファイルサーバ内に前記音声ファイルを格納し、
前記音声ファイル記録部内には、前記音声ファイルのフ
ァイル名と前記検索キーワードと前記音声ファイルサー
バのネットワークアドレスを記録する。
【0035】上記構成により、音声ファイルを音声ファ
イルサーバ上に格納することができ、利用者が用いる携
帯端末のメモリ容量を低減することができる。
【0036】なお、上記構成において、さらに、前記音
声ファイル記録部による前記音声ファイルサーバへの前
記音声ファイルの転送に先立ち、前記音声ファイルに記
録されている音声データの一部を抽出し、前記音声ファ
イルのダイジェスト音声データを生成するダイジェスト
音声データ生成部を備え、前記音声ファイル記録部は、
前記音声ファイルのファイル名と前記検索キーワードと
前記音声ファイルサーバのネットワークアドレスに加
え、前記ダイジェスト音声データを記録することも好ま
しい。
【0037】上記構成により、当該ダイジェストデータ
を参照することにより、音声ファイルの内容を簡単に把
握することができる。
【0038】次に、本発明の音声ファイル記録システム
は、さらに、タイトルと本文からなる電子メールを生成
する電子メール生成部を備え、前記電子メール生成部
は、前記音声ファイル内の音声データの認識結果の内容
を前記電子メールの本文とし、前記音声ファイル内の音
声データの認識結果に含まれる前記利用者の用語情報を
前記電子メールのタイトルとし、前記電子メールのファ
イル名を前記代表利用者用語情報に基づいて付与する。
【0039】上記構成によれば、音声ファイル内の音声
データの認識結果の内容を電子メールとして生成するこ
とができ、内容を端的に把握できるファイル名を自動的
に付与することができる。
【0040】また、前記電子メール生成部は前記音声フ
ァイルのファイル名と前記音声ファイルサーバのネット
ワークアドレスを前記電子メールの本文とし、前記音声
ファイル内の音声データの認識結果に含まれる前記利用
者の用語情報を前記電子メールのタイトルとする。
【0041】上記構成によれば、当該電子メールを受領
した者は、音声ファイルのファイル名と音声ファイルサ
ーバのネットワークアドレスを得ることができ、音声フ
ァイルにアクセスできる。
【0042】
【発明の実施の形態】以下、図面を参照しつつ、本発明
の音声認識システムおよび音声認識方法、ならびに音声
ファイル記録システムおよび音声ファイル記録方法の実
施形態を説明する。
【0043】(実施形態1)本発明の実施形態1とし
て、PDAなどの携帯端末に適用され、音声認識辞書の
語彙自動追加処理、音声認識処理、音声ファイル記録処
理、音声ファイル名自動付与処理を行なう第1の音声フ
ァイル記録システムを説明する。
【0044】図1は、実施形態1にかかる、本発明の第
1の音声ファイル記録システムの構成を説明する図であ
る。
【0045】10は音声記録用途以外の用途を持つアプ
リケーション、20は利用者用語情報抽出部、30は音
声認識辞書管理部、31は音声認識辞書、40は音声入
力部、50は音声認識部、60は代表利用者用語情報選
択部、70は音声ファイル記録部である。
【0046】上記構成のうち、音声認識辞書31の語彙
自動追加処理に関する構成要素は、アプリケーション1
0、利用者用語情報抽出部20、音声認識辞書管理部3
0である。音声認識処理に関する構成要素は、音声入力
部40、音声認識部50、音声認識辞書31である。音
声ファイル記録処理と音声ファイル名自動付与処理に関
する構成要素は、代表利用者用語情報選択部60と音声
ファイル記録部70である。
【0047】アプリケーション10は、音声記録用途以
外の用途を持つ任意のアプリケーションである。当該ア
プリケーションの用途は特に限定されないが、利用者が
良く用いる用語情報を効率良く収集するために、例え
ば、PIM(Personal Information Manager:個人情報
管理)で用いられるアプリケーションとする。
【0048】利用者用語情報抽出部20は、利用者がア
プリケーション10に対して入力した情報から利用者の
用語情報を抽出する部分である。
【0049】音声認識辞書管理部30は、音声認識辞書
31を備え、利用者用語情報抽出部20が抽出した利用
者の用語情報を基に音声認識辞書31の語彙を追加する
部分である。
【0050】音声入力部40は利用者の音声データを入
力する部分である。例えば、マイクロフォンとサンプリ
ング処理部を備え、入力された音声波動を電気信号に変
換し、所定周波数でサンプリングしてサンプリングデー
タを入力する。
【0051】音声認識部50は、音声認識辞書31を用
いて音声データの音声認識を実行する部分である。音声
認識部50は、音響解析機能と音響モデルと照合機能を
備えている。音声認識部50は、音響解析機能により音
声データを音素単位に分割して特徴量を抽出し、照合機
能により当該特徴量を用いた音素単位の照合および単語
単位の照合を行なう。音素単位の照合は音響モデル内の
特徴量との照合により行ない、単語単位の照合は音声認
識辞書31内の語彙との照合により行なう。
【0052】代表利用者用語情報選択部60は、音声認
識部50による音声認識の結果に含まれる利用者の用語
情報を抽出し、当該利用者の用語情報の中から一又は複
数の利用者用語情報を代表利用者用語情報として選択す
る部分である。
【0053】音声ファイル記録部70は、音声入力部4
0から入力された音声データを音声ファイルとして記録
する部分である。音声ファイル記録部70は、音声ファ
イルのファイル名を、代表利用者用語情報選択部70が
選択した代表利用者用語情報に基づいて付与する。
【0054】次に、本発明の第1の音声ファイル記録シ
ステムの処理の流れを説明する。
【0055】まず、音声認識辞書31の語彙自動追加処
理の流れを図2を用いて説明する。当該音声認識辞書3
1の語彙自動追加処理は音声認識処理に先立って行なわ
れるものとし、また、当該処理はその後も適宜実行さ
れ、音声認識辞書31は自動的に更新される。自動更新
は、例えば、一定期間ごとに行なったり、PIMアプリ
ケーションが利用されて新たなデータが蓄積された場合
に行なう。
【0056】以下の例ではアプリケーション10はPI
Mアプリケーションとする。PIMアプリケーション
は、利用者のスケジュール管理データ、利用者本人の個
人データ、利用者および取引先などの住所録データな
ど、種々の利用者に関する情報を管理するアプリケーシ
ョンである。利用者は普段からPIMアプリケーション
を使用しているものとする。当該PIMアプリケーショ
ンを介して種々のデータが蓄積されている。
【0057】まず、利用者用語情報抽出部20は、アプ
リケーション10のデータに含まれている利用者の用語
情報を抽出する(ステップS201)。
【0058】アプリケーション10のデータに含まれる
種々の用語が利用者用語情報として抽出される。このよ
うに利用者用語情報抽出部20によってPIMなどのア
プリケーションから抽出される用語情報は、利用者が良
く用いる用語情報や利用者が用いる独特の用語情報を含
むものとなる。ここでは、利用者のスケジュール管理デ
ータから抽出された仕事の取引先の担当者の名前“A”
に注目して以下の説明を続ける。ここで、名前“A”は
通常の音声認識辞書には含まれていないような珍しい名
前とする。
【0059】次に、音声認識辞書管理部30は、利用者
用語情報抽出部20により抽出した利用者の用語情報に
より音声認識辞書の語彙を追加する(ステップS20
2)。
【0060】このように、当該利用者の用語情報により
音声認識辞書31の語彙を追加するので、音声認識辞書
31は利用者が良く用いると想定される用語情報や利用
者が使う独特の用語情報をカバーするものとすることが
できる。また、用語情報を効率的に編纂できるので辞書
容量を低減することができる。
【0061】図4は音声認識辞書の語彙を模式的に説明
した図である。この例では、音声認識に利用される汎用
的な語彙の集合である基本語彙部分と、利用者の用語情
報を基に追加する利用者用語情報部分を備えている。こ
こでは、利用者用語情報抽出部20が抽出した仕事の取
引先の担当者の名前“A”を含む種々の利用者の用語情
報が当該利用者用語情報部分に追加される。
【0062】上記の処理の流れにより音声認識辞書31
を追加する。このように追加された音声認識辞書31は
音声認識処理に用いられる。
【0063】次に、音声認識処理の流れ、続いて、音声
ファイル記録処理および音声ファイル名自動付与処理の
流れを図3を用いて説明する。
【0064】まず、利用者は音声入力部40を介して音
声入力を行なう(ステップS301)。ここでは、音声
メモとして、Aさんに依頼する予定の仕事の内容に関す
る情報を音声で入力したとする。
【0065】次に、音声認識部50は、音声入力部40
を介して入力された音声データに対する音声認識処理を
実行する(ステップS302)。音声認識部50は、音
声認識辞書31を用いて音声認識処理を行なう。
【0066】なお、音声認識辞書31は上記の語彙自動
追加処理が施され、語彙が追加されているので、利用者
が良く用いる用語情報や利用者が用いる独特の用語情報
をカバーするものとなっており、利用者から入力された
音声データを効率良く認識できる。この例では名前
“A”は珍しい名前であり、音声認識辞書31の基本語
彙部分では認識することができないが、本発明では音声
認識辞書31は利用者用語情報部分を備えているので、
名前“A”を正しく認識することができる。
【0067】次に、代表利用者用語情報選択部60は、
音声認識部50から認識結果を受け取り、その中から代
表利用者用語情報を選択する(ステップS303)。代
表利用者用語情報は、音声認識の結果に含まれる代表的
な利用者の用語情報となる。例えば、仕事の取引先の担
当者の名前“A”が代表利用者用語情報として選択され
る。
【0068】次に、音声ファイル記録部70は、音声フ
ァイルのファイル名を代表利用者用語情報に基づいて付
与し、当該音声ファイルを記録する(ステップS30
4)。ここで、代表利用者用語情報は音声ファイルの内
容に含まれる代表的な利用者の用語情報であるので、当
該代表利用者用語情報を基にファイル名を自動的に付与
すれば、利用者にとって音声ファイルの内容を想起し、
把握しやすいファイル名となる。
【0069】以上、本発明の実施形態1にかかる、音声
ファイル記録システムを用いれば、音声認識辞書を利用
者用語情報により追加し、利用者による入力が想定され
る単語を効率良くカバーする語彙を備えたものとでき、
入力された音声データを音声ファイルとして記録し、そ
の内容を端的に把握できるファイル名を自動的に付与す
ることができる。
【0070】なお、上記構成のうち、利用者用語情報抽
出部20、音声認識辞書管理部30、音声認識辞書3
1、音声入力部40、音声認識部50を別途、第1の音
声認識システムとして構成することができ、また、音声
認識辞書の語彙自動追加処理、音声認識処理を当該第1
の音声認識システムの処理とすることができる。
【0071】(実施形態2)本発明の実施形態2にかか
る第2の音声ファイル記録システムは、ネットワーク上
にある音声認識サーバを利用し、入力された音声データ
を音声認識サーバに送り、音声認識処理を音声認識サー
バで実行させ、その結果を受け取ることにより、PDA
などの携帯端末上での音声認識処理の負荷を低減させ、
音声ファイル記録処理およびファイル名自動付与処理を
行なうものである。。
【0072】図5は、本発明の第2の音声ファイル記録
システムの構成を説明する図である。
【0073】第2の音声ファイル記録システムは、実施
形態1に示した第1の音声ファイル記録システムと同
様、音声記録用途以外の用途を持つ任意のアプリケーシ
ョン10、利用者用語情報抽出部20、音声認識辞書管
理部30、音声認識辞書31、音声入力部40、音声認
識部50、代表利用者用語情報選択部60、音声ファイ
ル記録部70を備え、さらに、音声認識切換部80、音
声データ転送部90を備えている。また、ネットワーク
100上に音声認識サーバ200を備えている。
【0074】音声認識切換部80は、音声認識部50に
よる音声認識率や信頼度をチェックし、音声認識率や信
頼度が閾値より低い場合に、音声認識部50による音声
認識処理を中止し、音声ファイル記録システム上での音
声認識処理に代え、音声認識サーバ200による音声認
識処理に切り換える部分である。
【0075】音声データ転送部90は、音声入力部40
を介して音声認識部50に一時記憶されている音声ファ
イルを、ネットワーク100を介して音声認識サーバ2
00に転送する処理を行なう部分である。
【0076】音声認識サーバ200は、音声認識辞書3
1a、音声認識部50aを備えている。ここで、音声認
識サーバ200の音声認識辞書31aは、音声ファイル
記録システム内の音声認識辞書31より多い語彙数を持
つ音声認識辞書である。音声認識サーバ200の音声認
識辞書であるので大規模な語彙を備えている。音声認識
部50aも高精度のアルゴリズムと音響モデルを備え、
高い認識精度を実現するものである。
【0077】次に、第2の音声記録ファイルシステムの
処理の流れを図6を用いて説明する。
【0078】以下の例においてもアプリケーション10
はPIMアプリケーションとする。また、利用者用語情
報抽出部20による利用者の用語情報の抽出処理、音声
認識辞書管理部30による音声認識辞書の語彙の追加処
理は、実施形態1で説明した図2のフローチャートと同
様で良い。
【0079】次に、音声認識処理において、まず、利用
者は音声入力部40を介して音声入力を行なう(ステッ
プS601)。
【0080】音声認識部50は、音声入力部40を介し
て入力された音声データに対する音声認識処理を実行す
る(ステップS602)。音声認識部50は、音声認識
辞書31を用いて音声認識処理を行なう。
【0081】次に、音声認識切換部80は、音声認識部
50による音声認識率と信頼度をチェックする(ステッ
プS603)。チェックの結果、音声認識率と信頼度が
閾値より低い場合(ステップS603:Y)、音声認識
部50による音声認識処理を中止し(ステップS60
4)、音声認識サーバ200による音声認識処理に切り
換え、音声データ転送部90に対して音声ファイルをネ
ットワーク100を介して音声認識サーバ200に転送
するように指示する(ステップS605)。
【0082】音声認識サーバ200は、音声認識辞書3
1aを用いて、音声ファイルの音声データを音声認識処
理を実行し(ステップS606)、音声認識結果をネッ
トワーク100を介して代表利用者用語情報選択部60
に入力する。
【0083】代表利用者用語情報選択部60は、音声認
識サーバ200から認識結果を受け取り、その中から代
表利用者用語情報を選択する(ステップS607)。代
表利用者用語情報は、音声認識の結果に含まれる代表的
な利用者の用語情報となる。
【0084】次に、音声ファイル記録部70は、音声フ
ァイルのファイル名を代表利用者用語情報に基づいて付
与し、当該音声ファイルを記録する(ステップS60
8)。
【0085】上記処理により、音声認識をネットワーク
上の音声認識サーバにより実行し、当該音声認識結果を
利用して代表利用者用語情報を選択し、音声ファイルの
ファイル名を自動付与する。
【0086】なお、音声認識辞書管理部30は、音声認
識サーバ200による音声認識の結果に基づいて、音声
認識辞書31の語彙を追加することが可能である。音声
認識サーバ200による音声認識結果を有効に活用する
ためである。ここで、当該語彙の追加を実行するか否か
を利用者が選択する選択部を備える構成とすることも可
能である。音声認識サーバ200による音声認識結果が
良好とは言えない場合もあり、かならずしも当該音声認
識結果を音声認識辞書31の語彙の追加に用いる方が良
いとは限らないからである。
【0087】なお、上記構成のうち、利用者用語情報抽
出部20、音声認識辞書管理部30、音声認識辞書3
1、音声入力部40、音声認識部50、音声認識切換部
80、音声データ転送部90を別途、第1の音声認識シ
ステムとして構成することができ、また、音声認識辞書
の語彙自動追加処理、音声認識処理を当該第1の音声認
識システムの処理とすることができる。
【0088】(実施形態3)本発明の実施形態3にかか
る第3の音声ファイル記録システムは、ネットワーク上
にある音声ファイルサーバを利用し、音声ファイル記録
処理を音声ファイルサーバ上で行なうものである。音声
ファイルを音声ファイルサーバ上に格納することによ
り、PDAなどの携帯端末上での記録処理を不要とする
ものである。
【0089】図7は、本発明の第3の音声ファイル記録
システムの構成を説明する図である。
【0090】実施形態3の音声ファイル記録システム
は、実施形態1と同様、音声記録用途以外の用途を持つ
任意のアプリケーション10、利用者用語情報抽出部2
0、音声認識辞書管理部30、音声認識辞書31、音声
入力部40、音声認識部50、代表利用者用語情報選択
部60、音声ファイル記録部70を備え、さらに、音声
ファイル転送部91を備えている。また、ネットワーク
100上に音声ファイルサーバ300を備えている。
【0091】音声ファイル転送部91は、音声入力部4
0を介して音声ファイル記録部70に一時記憶されてい
る音声ファイルを、ネットワーク100を介して音声フ
ァイルサーバ300に転送する処理を行なう。また、音
声ファイル記録部70内には、音声ファイルのファイル
名と音声ファイルサーバのネットワークアドレスを記録
しておく。さらに、ダイジェスト音声データを記録する
ことも可能である。
【0092】ダイジェスト音声データは、音声ファイル
の音声データの一部を抽出したものである。例えば、音
声ファイルの音声データの冒頭部分を抽出したもので良
い。ダイジェスト音声データは容量が小さいので小さい
メモリ容量で多数のダイジェスト音声データを記録する
ことができ、また、一つ一つは短い時間で再生できるの
で、音声ファイルの内容を端的に把握する手掛かりとす
ることができる。図8は、ダイジェスト音声データを利
用する場合の音声ファイル記録処理の流れを模式的に示
した図である。図8には模式的に音声ファイル記録部7
0と音声ファイルサーバ300のみを示している。音声
ファイル記録部70には音声ファイルのファイル名、音
声ファイルサーバ300のアドレスデータ、ダイジェス
ト音声データのみが記録され、音声ファイル本体は音声
ファイルサーバ300にアップロードされ、格納されて
いる。
【0093】なお、ダイジェスト音声データを記録する
構成の場合、音声ファイル記録部70がダイジェスト音
声データ生成部71を備える。ダイジェスト音声データ
生成部71は音声ファイルの音声データの一部を抽出
し、音声ファイルのダイジェスト音声データを生成する
部分である。
【0094】(実施形態4)実施形態4にかかる第4の
音声ファイル記録システムは、音声ファイル内の音声デ
ータの認識結果を本文とする電子メールを生成する機能
を備えたものである。
【0095】図9は本発明の第4の音声ファイル記録シ
ステムの構成を説明する図である。実施形態4の音声フ
ァイル記録システムは、実施形態1と同様、音声記録用
途以外の用途を持つアプリケーション10、利用者用語
情報抽出部20、音声認識辞書管理部30、音声認識辞
書31、音声入力部40、音声認識部50、代表利用者
用語情報選択部60、音声ファイル記録部70を備え、
さらに、電子メール生成部95を備えている。
【0096】電子メール生成部95は、音声認識部50
の音声認識結果を受け、音声ファイルの音声データの認
識結果を本文とする電子メールを生成する部分である。
ここで、電子メール生成部95は、代表利用者用語情報
選択部60から代表利用者用語情報を受け、電子メール
のタイトル名と添付ファイルとする音声ファイルのファ
イル名を代表利用者用語情報に基づいて付与する。
【0097】また、音声ファイルを音声ファイルサーバ
に記録する構成である場合、電子メール生成部95は、
音声ファイルのファイル名と音声ファイルサーバのネッ
トワークアドレスを電子メールの本文として生成し、音
声ファイル内の音声データの認識結果に含まれる利用者
の用語情報に基づいて電子メールのタイトルを生成す
る。
【0098】利用者用語情報抽出部20による利用者の
用語情報の抽出処理、音声認識辞書管理部30による音
声認識辞書の語彙の追加処理は、実施形態1で説明した
図2のフローチャートと同様で良い。
【0099】音声認識処理の流れは実施形態1で説明し
た図3のフローチャートと同様に、図10に示すよう
に、音声入力部40を介した音声入力処理(ステップS
1001)、音声認識部50による音声認識処理(ステ
ップS1002)、代表利用者用語情報選択部60によ
る代表利用者用語情報の選択処理(ステップS100
3)が行なわれる。次に、電子メール生成部95は、音
声認識部50の音声認識結果を受け、音声ファイル内の
音声データの認識結果を本文とする電子メールを生成し
(ステップS1004)、代表利用者用語情報選択部6
0から代表利用者用語情報を受け、電子メールのファイ
ル名を代表利用者用語情報に基づいて付与し(ステップ
S1005)、さらに、電子メールのタイトルを音声フ
ァイル内の音声データの認識結果に含まれる利用者の用
語情報に基づいて生成する(ステップS1006)。生
成した電子メールを相手先アドレスに宛てて送信する
(ステップS1007)。
【0100】(実施形態5)本発明の音声認識処理およ
び音声ファイル記録処理は、上記に説明した処理を実現
するステップを記述したプログラムとして記述すること
ができ、当該プログラムをコンピュータに読み取らせる
ことにより、本発明の音声ファイル記録処理を実行する
ことができる。本発明の音声ファイル記録システムを実
現する処理ステップを備えたプログラムは、図11に図
示した例のように、CD−ROM1002やフレキシブ
ルディスク1003等の可搬型記録媒体1001だけで
なく、ネットワーク上にある記録装置内の記録媒体10
00や、コンピュータのハードディスクやRAM等の記
録媒体1005に格納して提供することができ、ネット
ワークからダウンロードすることもできる。プログラム
実行時には、プログラムはコンピュータ1004上にロ
ーディングされ、主メモリ上で実行される。
【0101】(付記)本発明の音声認識システムおよび
音声ファイル記録システムに関し、以下の項をさらに開
示する。
【0102】(付記1) 利用者が任意のアプリケーシ
ョンに対して入力した情報から前記利用者の用語情報を
抽出する利用者用語情報抽出部と、音声認識辞書を備
え、前記利用者の用語情報を基に前記音声認識辞書の語
彙を追加する音声認識辞書管理部と、前記利用者の音声
データを入力する音声入力部と、前記音声認識辞書を用
いて前記音声データの音声認識を実行する音声認識部を
備えることを特徴とする音声認識システム(1)。
【0103】(付記2) 前記音声認識辞書より多い語
彙数を持つ他の音声認識辞書を用いて音声認識を実行す
る音声認識サーバをネットワーク上に備え、前記音声認
識部による認識率または信頼度が所定値より低い場合、
前記音声認識部がネットワークを介して前記音声データ
を前記音声認識サーバに対して送信し、前記音声認識サ
ーバが前記音声データの音声認識処理を実行し、当該音
声認識結果を前記音声入力部に送信する付記1に記載の
音声認識システム(2)。
【0104】(付記3) 前記音声認識辞書管理部が、
前記音声認識サーバによる音声認識の結果に基づいて、
前記音声認識辞書の語彙を追加する付記2に記載の音声
認識システム(3)。
【0105】(付記4) さらに、前記音声認識辞書管
理部による前記音声認識辞書の語彙の追加を実行するか
否かを利用者が選択する選択部を備えた付記3に記載の
音声認識システム。
【0106】(付記5) 利用者が任意のアプリケーシ
ョンに対して入力した情報から前記利用者の用語情報を
抽出する利用者用語情報抽出部と、音声認識辞書を備
え、前記利用者の用語情報を基に前記音声認識辞書の語
彙を追加する音声認識辞書管理部と、前記利用者の音声
データを入力する音声入力部と、入力された前記音声デ
ータを音声ファイルとして記録する音声ファイル記録部
と、前記音声認識辞書を用いて前記音声データの音声認
識を実行する音声認識部と、前記音声認識の結果に含ま
れる前記利用者の用語情報を抽出し、当該利用者の用語
情報の中から一又は複数の利用者用語情報を代表利用者
用語情報として選択する代表利用者用語情報選択部を備
え、前記音声ファイル記録部が、前記音声ファイルのフ
ァイル名を、前記代表利用者用語情報に基づいて付与す
ることを特徴とする音声ファイル記録システム(4) (付記6) 前記音声認識辞書より多い語彙数を持つ他
の音声認識辞書を用いて音声認識を実行する音声認識サ
ーバをネットワーク上に備え、前記音声認識部による認
識率または信頼度が所定値より低い場合、前記音声ファ
イル記録部が、ネットワークを介して前記音声ファイル
を前記音声認識サーバに対して送信し、前記音声認識サ
ーバが前記音声データの音声認識処理を実行し、前記代
表利用者用語情報選択部が、前記ネットワークを介して
前記音声認識サーバから音声認識結果を浮け、前記音声
認識サーバによる音声認識の結果に含まれる前記利用者
の用語情報を抽出し、当該利用者の用語情報の中から一
又は複数の利用者用語情報を代表利用者用語情報として
選択する付記5に記載の音声ファイル記録システム
(4)。
【0107】(付記7) 前記音声ファイルを格納する
音声ファイルサーバをネットワーク上に備え、前記音声
ファイル記録部が、前記音声ファイルと検索キーワード
を前記ネットワークを介して前記音声ファイルサーバに
転送して、当該音声ファイルサーバ内に前記音声ファイ
ルを格納し、前記音声ファイル記録部内には、前記音声
ファイルのファイル名と前記検索キーワードと前記音声
ファイルサーバのネットワークアドレスを記録する付記
5または6に記載の音声ファイル記録システム(5)。
【0108】(付記8) さらに、前記音声ファイル記
録部による前記音声ファイルサーバへの前記音声ファイ
ルの転送に先立ち、前記音声ファイルに記録されている
音声データの一部を抽出し、前記音声ファイルのダイジ
ェスト音声データを生成するダイジェスト音声データ生
成部を備え、前記音声ファイル記録部は、前記音声ファ
イルのファイル名と前記検索キーワードと前記音声ファ
イルサーバのネットワークアドレスに加え、前記ダイジ
ェスト音声データを記録する付記7に記載の音声ファイ
ル記録システム(6)。
【0109】(付記9) さらに、タイトルと本文から
なる電子メールを生成する電子メール生成部を備え、前
記電子メール生成部が、前記音声ファイル内の音声デー
タの認識結果の内容を前記電子メールの本文とし、前記
音声ファイル内の音声データの認識結果に含まれる前記
利用者の用語情報を前記電子メールのタイトルとし、前
記電子メールのファイル名を前記代表利用者用語情報に
基づいて付与する付記5または6に記載の音声ファイル
記録システム(7)。
【0110】(付記10) さらに、タイトルと本文か
らなる電子メールを生成する電子メール生成部を備え、
前記電子メール生成部が、前記音声ファイルのファイル
名と前記音声ファイルサーバのネットワークアドレスを
前記電子メールの本文とし、前記音声ファイル内の音声
データの認識結果に含まれる前記利用者の用語情報を前
記電子メールのタイトルとする付記7に記載の音声ファ
イル記録システム(8)。
【0111】(付記11) 任意のアプリケーションに
対して利用者が入力した情報から前記利用者の用語情報
を抽出し、音声認識辞書を保持し、抽出した前記利用者
の用語情報を基に前記音声認識辞書の語彙を追加し、前
記利用者の音声データを入力し、前記音声認識辞書を用
い、前記音声データの音声認識を実行することを特徴と
する音声認識方法(9)。
【0112】(付記12) 入力された音声データを認
識する音声認識処理プログラムであって、任意のアプリ
ケーションに対して利用者が入力した情報から前記利用
者の用語情報を抽出する処理ステップと、音声認識辞書
を保持し、抽出した前記利用者の用語情報を基に前記音
声認識辞書の語彙を追加する処理ステップと、前記利用
者の音声データを入力する処理ステップと、前記音声認
識辞書を用い、前記音声データの音声認識を実行する処
理ステップとを備えたことを特徴とする音声認識処理プ
ログラム(10)。
【0113】(付記13) 任意のアプリケーションに
対して利用者が入力した情報から前記利用者の用語情報
を抽出し、音声認識辞書を保持し、抽出した前記利用者
の用語情報を基に前記音声認識辞書の語彙を追加し、前
記利用者の音声データを入力し、入力された前記音声デ
ータを音声ファイルとして記録し、前記音声認識辞書を
用い、前記音声データの音声認識を実行し、前記音声認
識の結果に含まれる前記利用者の用語情報を抽出し、当
該利用者の用語情報の中から一又は複数の利用者用語情
報を代表利用者用語情報として選択し、前記音声ファイ
ルのファイル名を、前記代表利用者用語情報に基づいて
付与することを特徴とする音声ファイル記録方法。
【0114】(付記14) 入力された音声データを音
声ファイルとして記録する音声ファイル記録処理プログ
ラムであって、任意のアプリケーションに対して利用者
が入力した情報から前記利用者の用語情報を抽出する処
理ステップと、音声認識辞書を保持し、抽出した前記利
用者の用語情報を基に前記音声認識辞書の語彙を追加す
る処理ステップと、前記利用者の音声データを入力する
処理ステップと、入力された前記音声データを音声ファ
イルとして記録する処理ステップと、前記音声認識辞書
を用い、前記音声データの音声認識を実行する処理ステ
ップと、前記音声認識の結果に含まれる前記利用者の用
語情報を抽出し、当該利用者の用語情報の中から一又は
複数の利用者用語情報を代表利用者用語情報として選択
する処理ステップと、前記音声ファイルのファイル名
を、前記代表利用者用語情報に基づいて付与する処理ス
テップを備えたことを特徴とする音声ファイル記録処理
プログラム。
【0115】
【発明の効果】本発明の第1の音声ファイル記録システ
ムによれば、代表利用者用語情報を基に音声メモ情報の
内容を端的に把握できるファイル名を自動的に付与する
ことができる。また、利用者用語情報を用いて利用者に
よる入力が想定される単語を効率良くカバーする語彙を
備えた音声認識辞書を自動的に生成することができる。
【0116】また、本発明の第2の音声ファイル記録シ
ステムによれば、ネットワークを介して音声認識処理を
音声認識サーバで実行させることができ、PDAなどの
携帯端末の処理負荷を低減することができる。
【0117】また、本発明の第3の音声ファイル記録シ
ステムによれば、音声ファイルを音声ファイルサーバ上
に格納することができ、PDAなどの携帯端末のメモリ
容量を低減することができる。
【0118】また、本発明の第4の音声ファイル記録シ
ステムによれば、音声ファイル内の音声データの認識結
果を電子メールの本文とし、音声ファイルのファイル
名、音声ファイルサーバのネットワークアドレス、ダイ
ジェスト音声データなどを本文とすることもできる。電
子メールのタイトルは、音声ファイル内の音声データの
認識結果に含まれる利用者の用語情報に基づいて生成す
ることができる。
【図面の簡単な説明】
【図1】 本発明の第1の音声ファイル記録システムの
構成を説明する図
【図2】 音声ファイル記録システムの処理の流れを示
すフローチャート
【図3】 音声認識処理、音声ファイル記録処理、音声
ファイル名自動付与処理の流れを示すフローチャート
【図4】 音声認識辞書の語彙を模式的に説明した図
【図5】 本発明の第2の音声ファイル記録システムの
構成を説明する図
【図6】 本発明の第2の音声ファイル記録システムの
音声認識処理、音声ファイル記録処理、音声ファイル名
自動付与処理の流れを示すフローチャート
【図7】 本発明の第3の音声ファイル記録システムの
構成を説明する図
【図8】 ダイジェスト音声情報を利用する場合の音声
ファイル記録処理の流れを模式的に示した図
【図9】 本発明の第4の音声ファイル記録システムの
構成を説明する図
【図10】 本発明の第4の音声ファイル記録システム
の処理の流れを示すフローチャート
【図11】 本発明の音声ファイル記録システムを実現
する処理ステップを記録した記録媒体の例を示す図
【図12】 音声入力された音声メモ情報を音声ファイ
ルとして記録する従来の音声メモ情報記録システムを説
明する図
【図13】 従来技術における音声認識処理を伴う音声
メモ情報記録システムを説明する図
【符号の説明】
10 音声記録用途以外の用途を持つアプリケーション 20 利用者用語情報抽出部 30 音声認識辞書管理部 31 音声認識辞書 40 音声入力部 50 音声認識部 60 代表利用者用語情報選択部 70 音声ファイル記録部 71 ダイジェスト音声情報生成部 80 音声認識切換部 90 音声データ転送部 91 音声ファイル転送部 95 電子メール生成部 100 ネットワーク 200 音声認識サーバ 300 音声ファイルサーバ 510 マイクロフォン 520 音声ファイル記録部 530 音声ファイル名入力部 540 音声ファイル再生部 610 マイクロフォン 620 音響解析部 630 音響モデル 640 音声認識辞書 650 照合部 1000 回線先のハードディスク等の記録媒体 1001 CD−ROMやフレキシブルディスク等の可
搬型記録媒体 1002 CD−ROM 1003 フレキシブルディスク 1004 コンピュータ 1005 コンピュータ上のRAM/ハードディスク等
の記録媒体

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 利用者が任意のアプリケーションに対し
    て入力した情報から前記利用者の用語情報を抽出する利
    用者用語情報抽出部と、 音声認識辞書を備え、前記利用者の用語情報を基に前記
    音声認識辞書の語彙を追加する音声認識辞書管理部と、 前記利用者の音声データを入力する音声入力部と、 前記音声認識辞書を用いて前記音声データの音声認識を
    実行する音声認識部を備えることを特徴とする音声認識
    システム。
  2. 【請求項2】 前記音声認識辞書より多い語彙数を持つ
    他の音声認識辞書を用いて音声認識を実行する音声認識
    サーバをネットワーク上に備え、 前記音声認識部による認識率または信頼度が所定値より
    低い場合、前記音声認識部がネットワークを介して前記
    音声データを前記音声認識サーバに対して送信し、 前記音声認識サーバが前記音声データの音声認識処理を
    実行し、当該音声認識結果を前記音声入力部に送信する
    請求項1に記載の音声認識システム。
  3. 【請求項3】 前記音声認識辞書管理部が、前記音声認
    識サーバによる音声認識の結果に基づいて、前記音声認
    識辞書の語彙を追加する請求項2に記載の音声認識シス
    テム。
  4. 【請求項4】 請求項1または2に記載の音声認識シス
    テムから音声認識結果を入力し、前記音声認識結果に含
    まれる前記利用者の用語情報を抽出し、当該利用者の用
    語情報の中から一又は複数の利用者用語情報を代表利用
    者用語情報として選択する代表利用者用語情報選択部
    と、 前記音声データを音声ファイルとして記録する音声ファ
    イル記録部を備え、 前記音声ファイル記録部が、前記音声ファイルのファイ
    ル名を、前記代表利用者用語情報に基づいて付与するこ
    とを特徴とする音声ファイル記録システム。
  5. 【請求項5】 前記音声ファイルを格納する音声ファイ
    ルサーバをネットワーク上に備え、 前記音声ファイル記録部が、前記音声ファイルと検索キ
    ーワードを前記ネットワークを介して前記音声ファイル
    サーバに転送して、当該音声ファイルサーバ内に前記音
    声ファイルを格納し、 前記音声ファイル記録部内には、前記音声ファイルのフ
    ァイル名と前記検索キーワードと前記音声ファイルサー
    バのネットワークアドレスを記録する請求項4に記載の
    音声ファイル記録システム。
  6. 【請求項6】 さらに、前記音声ファイル記録部による
    前記音声ファイルサーバへの前記音声ファイルの転送に
    先立ち、前記音声ファイルに記録されている音声データ
    の一部を抽出し、前記音声ファイルのダイジェスト音声
    データを生成するダイジェスト音声データ生成部を備
    え、 前記音声ファイル記録部は、前記音声ファイルのファイ
    ル名と前記検索キーワードと前記音声ファイルサーバの
    ネットワークアドレスに加え、前記ダイジェスト音声デ
    ータを記録する請求項5に記載の音声ファイル記録シス
    テム。
  7. 【請求項7】 さらに、タイトルと本文からなる電子メ
    ールを生成する電子メール生成部を備え、前記電子メー
    ル生成部が、前記音声ファイル内の音声データの認識結
    果の内容を前記電子メールの本文とし、前記音声ファイ
    ル内の音声データの認識結果に含まれる前記利用者の用
    語情報を前記電子メールのタイトルとし、前記電子メー
    ルのファイル名を前記代表利用者用語情報に基づいて付
    与する請求項4に記載の音声ファイル記録システム。
  8. 【請求項8】 さらに、タイトルと本文からなる電子メ
    ールを生成する電子メール生成部を備え、前記電子メー
    ル生成部が、前記音声ファイルのファイル名と前記音声
    ファイルサーバのネットワークアドレスを前記電子メー
    ルの本文とし、前記音声ファイル内の音声データの認識
    結果に含まれる前記利用者の用語情報を前記電子メール
    のタイトルとする請求項5に記載の音声ファイル記録シ
    ステム。
  9. 【請求項9】 任意のアプリケーションに対して利用者
    が入力した情報から前記利用者の用語情報を抽出し、 音声認識辞書を保持し、抽出した前記利用者の用語情報
    を基に前記音声認識辞書の語彙を追加し、 前記利用者の音声データを入力し、 前記音声認識辞書を用い、前記音声データの音声認識を
    実行することを特徴とする音声認識方法。
  10. 【請求項10】 入力された音声データを認識する音声
    認識処理プログラムであって、 任意のアプリケーションに対して利用者が入力した情報
    から前記利用者の用語情報を抽出する処理ステップと、 音声認識辞書を保持し、抽出した前記利用者の用語情報
    を基に前記音声認識辞書の語彙を追加する処理ステップ
    と、 前記利用者の音声データを入力する処理ステップと、 前記音声認識辞書を用い、前記音声データの音声認識を
    実行する処理ステップとを備えたことを特徴とする音声
    認識処理プログラム。
JP2002054368A 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム Expired - Fee Related JP4017887B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002054368A JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム
US10/285,482 US7979278B2 (en) 2002-02-28 2002-11-01 Speech recognition system and speech file recording system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054368A JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム

Publications (2)

Publication Number Publication Date
JP2003255982A true JP2003255982A (ja) 2003-09-10
JP4017887B2 JP4017887B2 (ja) 2007-12-05

Family

ID=27750966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054368A Expired - Fee Related JP4017887B2 (ja) 2002-02-28 2002-02-28 音声認識システムおよび音声ファイル記録システム

Country Status (2)

Country Link
US (1) US7979278B2 (ja)
JP (1) JP4017887B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
WO2007066433A1 (ja) * 2005-12-07 2007-06-14 Mitsubishi Electric Corporation 音声認識装置
KR20130124863A (ko) * 2012-05-07 2013-11-15 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR20160059026A (ko) * 2014-11-17 2016-05-26 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
WO2022173126A1 (ko) * 2021-02-15 2022-08-18 주식회사 카카오브이엑스 스마트 캐디 시스템 및 그 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20080243485A1 (en) * 2007-03-29 2008-10-02 Nokia Corporation Method, apparatus, system, user interface and computer program product for use with managing content
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
CN105096950A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种文件命名方法、装置及终端
CN107193808A (zh) * 2017-05-18 2017-09-22 上海思依暄机器人科技股份有限公司 一种异种语言之间的对话方法及系统
US11561932B2 (en) * 2020-07-21 2023-01-24 International Business Machines Corporation Cognitive digital file naming
US12046234B1 (en) * 2021-06-28 2024-07-23 Amazon Technologies, Inc. Predicting on-device command execution

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2000089931A (ja) * 1998-09-16 2000-03-31 Canon Inc 音声データ処理方法及びシステム並びに記憶媒体
JP2000181492A (ja) * 1998-12-16 2000-06-30 Olympus Optical Co Ltd 音声情報処理装置および音声情報を処理するための処理プログラムを記録した記録媒体
JP2000348064A (ja) * 1999-04-09 2000-12-15 Internatl Business Mach Corp <Ibm> 内容情報と話者情報を使用して音声情報を検索するための方法および装置
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002049390A (ja) * 2000-08-04 2002-02-15 Asahi Kasei Corp 音声認識方法およびサーバならびに音声認識システム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903871A (en) * 1996-04-22 1999-05-11 Olympus Optical Co., Ltd. Voice recording and/or reproducing apparatus
JPH11184491A (ja) * 1997-12-18 1999-07-09 Ricoh Co Ltd 音声認識装置
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2000020279A (ja) 1998-07-03 2000-01-21 Olympus Optical Co Ltd 音声情報送信プログラムを記録した記録媒体、音声情報送信装置
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US6915262B2 (en) * 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
US6687671B2 (en) * 2001-03-13 2004-02-03 Sony Corporation Method and apparatus for automatic collection and summarization of meeting information
AU2002314933A1 (en) * 2001-05-30 2002-12-09 Cameronsound, Inc. Language independent and voice operated information management system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2000089931A (ja) * 1998-09-16 2000-03-31 Canon Inc 音声データ処理方法及びシステム並びに記憶媒体
JP2000181492A (ja) * 1998-12-16 2000-06-30 Olympus Optical Co Ltd 音声情報処理装置および音声情報を処理するための処理プログラムを記録した記録媒体
JP2000348064A (ja) * 1999-04-09 2000-12-15 Internatl Business Mach Corp <Ibm> 内容情報と話者情報を使用して音声情報を検索するための方法および装置
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002049390A (ja) * 2000-08-04 2002-02-15 Asahi Kasei Corp 音声認識方法およびサーバならびに音声認識システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
US8370159B2 (en) 2004-10-08 2013-02-05 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8380517B2 (en) 2004-10-08 2013-02-19 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8892425B2 (en) 2004-10-08 2014-11-18 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
WO2007066433A1 (ja) * 2005-12-07 2007-06-14 Mitsubishi Electric Corporation 音声認識装置
US8060368B2 (en) 2005-12-07 2011-11-15 Mitsubishi Electric Corporation Speech recognition apparatus
KR20130124863A (ko) * 2012-05-07 2013-11-15 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR101977072B1 (ko) * 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR20160059026A (ko) * 2014-11-17 2016-05-26 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
KR102300415B1 (ko) 2014-11-17 2021-09-13 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
WO2022173126A1 (ko) * 2021-02-15 2022-08-18 주식회사 카카오브이엑스 스마트 캐디 시스템 및 그 방법

Also Published As

Publication number Publication date
JP4017887B2 (ja) 2007-12-05
US20030163308A1 (en) 2003-08-28
US7979278B2 (en) 2011-07-12

Similar Documents

Publication Publication Date Title
US6366882B1 (en) Apparatus for converting speech to text
JP4017887B2 (ja) 音声認識システムおよび音声ファイル記録システム
US6353809B2 (en) Speech recognition with text generation from portions of voice data preselected by manual-input commands
US6571211B1 (en) Voice file header data in portable digital audio recorder
CN100555175C (zh) 用于在设备上进行数据输入的方法和系统
JP2011504304A (ja) パーソナル通信デバイス用のスピーチ・トゥ・テキスト・トランスクリプション
GB2323694A (en) Adaptation in speech to text conversion
MXPA04007652A (es) Indentificacion de un llamador mejorada con reconocimiento de habla.
CN101636732A (zh) 用于语言独立语音索引和搜索的方法和装置
KR20030010729A (ko) 사람에 대한 정보를 관리하는 방법 및 장치
JP2003295893A (ja) 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07140998A (ja) 音声認識インターフェース
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
KR101183340B1 (ko) 컴퓨팅 장치에 입력을 제공하기 위한 효율적인 멀티모달방법
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
US20030055642A1 (en) Voice recognition apparatus and method
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN111583956B (zh) 语音处理方法和装置
JP2001134285A (ja) 音声認識装置
CN107786719A (zh) 语音文件转换方法、装置及移动终端
EP3742301A1 (en) Information processing device and information processing method
JP3857188B2 (ja) テキスト読み上げシステム及び方法
JP2001272992A (ja) 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
KR20220043753A (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP2001242888A (ja) 音声認識システムおよび音声認識方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees