JPH0760317B2 - 音声情報入力装置 - Google Patents

音声情報入力装置

Info

Publication number
JPH0760317B2
JPH0760317B2 JP61307635A JP30763586A JPH0760317B2 JP H0760317 B2 JPH0760317 B2 JP H0760317B2 JP 61307635 A JP61307635 A JP 61307635A JP 30763586 A JP30763586 A JP 30763586A JP H0760317 B2 JPH0760317 B2 JP H0760317B2
Authority
JP
Japan
Prior art keywords
character string
input
voicing
recognition
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61307635A
Other languages
English (en)
Other versions
JPS63161498A (ja
Inventor
博史 金沢
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP61307635A priority Critical patent/JPH0760317B2/ja
Publication of JPS63161498A publication Critical patent/JPS63161498A/ja
Publication of JPH0760317B2 publication Critical patent/JPH0760317B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、認識辞書の学習に用いられる音声情報を入力
する音声情報入力装置に係わり、特に認識辞書を効率良
く作成できるようにした音声情報入力装置に関する。
(従来の技術) 音声認識装置で使用される認識辞書は、予め発声者の音
声情報を収集、学習しておくことにより作成される。こ
の学習時に、必要な音声情報を収集する従来の音声情報
入力装置では、予め指定された発声文字列を繰返し発声
入力することにより、データの収集を行なうものであっ
た。しかしながら、このように発声文字列が予め定めら
れている収集方法であると、認識率の高いカテゴリであ
っても、また認識率の低いカテゴリであっても同様の割
合いで音声情報が収集されてしまうので、認識率の高い
カテゴリについては必要以上の学習が行なわれるのに対
し、認識率の低いカテゴリについては十分な学習がなさ
れないという欠点があった。
(発明が解決しようとする問題点) このように、従来の認識辞書の学習のための音声情報入
力装置では、認識率の高低に拘らず一様の学習を行なっ
ていたので、効率的な学習が行なわれず、特に認識率の
低いカテゴリについては満足できる認識辞書を得るため
の十分な学習がなされないという問題があった。
従って、この発明では、各カテゴリの認識率に応じて認
識辞書の学習を行なうことができ、もって少ない学習回
数で、認識性能の良好な辞書を作成できる音声情報入力
装置を提供することを目的とする。
[発明の構成] (問題点を解決するための手段) 本発明は、上記目的を達成するため、予め指定された入
力カテゴリ名に対応する入力音声パターンから特徴パタ
ーンを抽出する特徴抽出手段と、各認識対象カテゴリの
辞書パターンを記憶した認識辞書と、この認識辞書の各
辞書パターンと前記特徴パターンとを照合して前記入力
音声パターンを認識処理する認識手段と、この認識手段
による認識結果のカテゴリ名と前記入力カテゴリ名は不
一致の場合に前記認識結果のカテゴリ名及び前記入力カ
テゴリ名のみから構成された意味のある単語或いは文節
の形の発声文字列を生成する発声文字列生成手段と、こ
の発声文字列生成手段で生成された発声文字列を次の学
習に使用するため表示する発声文字列表示手段と、前記
発声文字列に対応する入力音声パターンに対し前記特徴
抽出手段により抽出された特徴パターンを用いて前記認
識辞書の該当する認識対象カテゴリの辞書パターンを学
習する学習手段とを具備したことを特徴とする。
(作用) 本発明によれば、認識結果が良好でない、つまり認識結
果のカテゴリ名と入力カテゴリ名が不一致の場合の認識
結果のカテゴリ名及び入力カテゴリ名のみを用いて意味
のある単語或いは文節の形で発声文字列を組立て、この
組立てられた発声文字列を次に学習するために表示する
ようにしているので、認識結果の良好でない、本来学習
すべきカテゴリのみを集中的に学習することが可能とな
る。したがって本発明によれば、認識辞書の学習を効率
良く行なえるので、全体的には少ない学習回数でも、全
てのカテゴリについて認識性能の良好な認識辞書を作成
することができる。
(実施例) 以下、本発明の一実施例につき説明する。第1図は本実
施例に係る音声情報入力装置の構成を示す図である。
音声入力部1は、マイクロホンや増幅器からなり、入力
音声を電気信号に変換するものである。この入力部1を
介して入力された音声信号は、例えば8チャンネルのフ
ィルタバンク等からなる特徴抽出部2に与えられ、ここ
で周波数分解されて例えば各周波数成分を時間軸方向に
8点リサンプルし8×8次元の特徴ベクトルの入力音声
パターンに変換される。尚、特徴抽出は上述したフィル
タ分析に代えて高速フーリエ変換による分析やケプスト
ラム分析等によって行なうことも可能である。
認識部3は上記入力音声の特徴ベクトルfと、認識辞書
記憶部4に登録されたカテゴリlの辞書パターン▲{φ
(l) n}▼の各n面のベクトル成分との類似度S(l)[f]
を、 なる複合類似度計算により求めるものである。ここで、
▲λ(l) n▼,▲φ(l) n▼は、各認識対象カテゴリについ
て予め多くのサンプルパターンから得られた共分散行列
Kの第n固有値と、固有ベクトルとをそれぞれ示してい
る。これらは認識辞書記憶部4に格納されている。尚、
このような類似度Sを用いる代わりに、マハラノビスの
汎距離やユークリッド距離等を用いることも可能であ
る。
このようにして求められた入力パターンの認識結果は、
認識結果記憶部5に格納される。この認識結果記憶部5
には、入力カテゴリ名、認識結果のカテゴリ名、特徴ベ
クトル、類似度、入力パターンに対するカテゴリの順
位、各カテゴリについての正解、不正解を示すコンフュ
ージョンマトリクス等を保持している。例えば、単音節
の認識で、「か」という入力カテゴリが「た」と誤認識
された場合、認識結果記憶部5には、入力カテゴリ名
「か」、認識結果のカテゴリ名「た」、それぞれのカテ
ゴリの類似度、各カテゴリの類似度の順位等が記憶され
る。
発声文字列生成部6は、上記認識結果記憶部5に格納さ
れたデータに基づいて、図示しない内部の日本語辞書を
参照して学習に用いるべき文字列を自動生成する。例え
ば、入力カテゴリ「か」が「た」に、また入力カテゴリ
「し」が「ち」にそれぞれ誤認識されたとすると、発声
文字列生成部6は音声認識辞書のカテゴリ「か」、
「た」、「ち」、「し」について学習する必要があると
判断し、日本語辞書を参照しつつ、これらカテゴリを並
べ替え、日本語の意味のある単語或は文節等の形で出力
する。例えば、上記の例では、「か」、「た」、
「ち」、「し」から作られる「かたち(形)」、「たか
(鷹)」、「しか(鹿)」、「ちかし(近し)」等の文
字列が発声文字列として生成される。なお、単語、文節
等に変換できない場合や変換する必要のない場合には、
単音節の並びのままで発声文字列が生成される。
このように発声文字列生成部6で生成された発声文字列
は、発声文字列記憶部7に格納される。そして、学習を
行なうためのデータ収集の際に発声文字列記憶部7に格
納された発声文字列は、発声文字列表示部8に出力され
て表示される。
この時、発声文字列が日本語として意味のある語句であ
る場合には、カナ漢字変換部9は、上記発声文字列をカ
ナ漢字変換して発声文字列表示部8に出力する。また、
この時、発声文字列記憶部7から発声文字列表示部8に
は、カナ漢字変換される前の上記発声文字列が直接出力
される。発声文字列表示部8は、例えば第2図に示すよ
うに、これらカナ漢字変換前後の発声文字列を対応付け
て同時に表示する。このように表示すると、ひらがなの
みの表示に比べて発声者が発声すべき文字列を認識し易
く、発声者の対話入力時の負担を軽減できるとともに誤
入力を防止できる。なお、この第2図に示すように、現
在発声すべき発声文字列については、カーソルにより他
の発声文字列から区別される。この区別の方法としては
反転文字や音声による指示等も考えられる。
また、発声文字列表示部8を用いて、発声者が対話操作
によってデータを入力できるように、発声文字列記憶部
7には例えばキーボードやマウスなどの発声文字列入力
部10が接続されている。この発声文字列入力部10では、
発声カテゴリの形(単語、単音節、文節等)の指定、発
声する必要の無いカテゴリをスキップするための指示等
を与えることができる。
発声文字列表示部8に学習すべき発声文字列が表示さ
れ、発声者がこの表示に従って発声を行なうと、表示さ
れた文字列と対応付けられた音声データが音声入力部1
を介して入力される。そして、入力された音声データ
は、特徴抽出部2で周波数分解されて、学習用パターン
として学習パターン記憶部11に格納される。
一方、学習部12は、前記特徴抽出部2を介して求められ
た入力音声パターン及び上記学習パターン記憶部11に収
集保存された学習用パターンを用い、前記認識辞書記憶
部4に格納された辞書パターンを各認識対象カテゴリ毎
に学習する。この学習部12における辞書パターンの学習
は、例えば共分散行列の繰返し更新処理と、その共分散
行列のKL展開とによって行われる。
即ち、 〔K′〕=(1−w)〔K〕+w〔V〕〔V〕 なる演算を実行することによって共分散行列Kを更新す
る。但し、Vは学習パターンであり、例えば64次元のベ
クトルとして与えられる。またK′は学習後の共分散行
列である。そして、wは正負の値をとる重み係数であ
り、正の場合には上記共分散行列の特性核の入力パター
ンに対する類似度を大きくする作用を呈し、負ならばそ
の類似度を小さくする作用を呈する。
このような共分散行列の学習が、各認識対象カテゴリ毎
に複数のサンプルパターンを用いて複数回繰返して行わ
れる。その学習結果として求められた共分散行列ベクト
ルK′をKL展開してその固有値と固有ベクトルが計算さ
れ、その固有値と固有ベクトルとが各認識対象カテゴリ
の認識辞書(標準パターン)として前記認識辞書記憶部
4に登録される。
尚、第1図において、制御部13は上述したパターン認識
処理及び認識辞書の学習処理をそれぞれ制御するもので
ある。
以上のように構成された本実施例に係る装置の動作フロ
ーを第3図に示す。
この図に示すように、この装置では、入力カテゴリの分
っている音声パターンを入力し(ステップa)、特徴抽
出処理(ステップb)、認識処理(ステップc)を行な
った後、入力カテゴリと認識結果のカテゴリとが一致し
ない入力カテゴリを発声文字列生成部6に格納し(ステ
ップd)、これらカテゴリを用いて単語、文節を生成す
る(ステップc)。そして、得られた文字列をカナ漢字
変換(ステップf)した後、カナ漢字変換が成功したな
らカナ漢字変換前後の発声文字列を併記して表示し(ス
テップg,h)、カナ漢字変換に成功しなかった場合及び
する必要のなかった場合には、表示モード、例えばひな
らが、カタカナ等のモードを上記発声文字列とともに表
示する(ステップg,h,i)ものである。
したがって、この装置によれば、認識辞書を学習するた
めの学習パターンの収集を、認識結果に応じて自動生成
される発声文字列、つまり学習すべき学習パターンを含
む発声文字列を用いて行なうようにしているので、学習
する必要のないカテゴリについては発声しなくても済
み、発声者の負担を大幅に軽減できる。
なお、上記の実施例では、入力カテゴリを学習すべきか
どうかを、入力カテゴリと認識結果のカテゴリとの一致
・不一致により判断しているが、例えば類似度の大小に
よって判断しても良い。即ち、例えば認識結果が正解の
場合でも、その類似度が予め設定したしきい値よりも低
い場合には、その入力カテゴリを学習させるようにする
ことも可能である。さらに、入力音声パターンの入力カ
テゴリに対する類似度の値と、他のカテゴリに対する類
似度の値との差が小さい場合には、それぞれのカテゴリ
の発声文字列に組込むようにしても良い。
[発明の効果] 以上のべたように、本発明によれば、認識結果の良好で
ない、つまり認識結果のカテゴリ名と入力カテゴリ名が
不一致の場合の認識結果のカテゴリ名及び入力カテゴリ
名のみを用いて学習に供される発声文字列を自動生成し
ているので、本来、学習すべきカテゴリを効率良く集中
的に学習することができ、認識性能の高い認識辞書を短
時間に作成することができるという効果を奏する。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声情報入力装置の構
成を示すブロック図、第2図は同装置における発声文字
列表示部の表示例を示す図、第3図は同装置の動作を説
明するための流れ図である。 1……音声入力部、2……特徴抽出部、3……認識部、
4……認識辞書記憶部、5……認識結果記憶部、6……
発声文字列生成部、7……発声文字列記憶部、8……発
声文字列表示部、9……カナ漢字変換部、10……発声文
字列入力部、11……学習パターン記憶部、12……学習
部、13……制御部。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】予め指定された入力カテゴリ名に対応する
    入力音声パターンから特徴パターンを抽出する特徴抽出
    手段と、 各認識対象カテゴリの辞書パターンを記憶した認識辞書
    と、 この認識辞書の各辞書パターンと前記特徴パターンとを
    照合して前記入力音声パターンを認識処理する認識手段
    と、 この認識手段による認識結果のカテゴリ名と前記入力カ
    テゴリ名は不一致の場合に前記認識結果のカテゴリ名及
    び前記入力カテゴリ名のみから構成された意味のある単
    語或いは文節の形の発声文字列を生成する発声文字列生
    成手段と、 この発声文字列生成手段で生成された発声文字列を次の
    学習に使用するため表示する発声文字列表示手段と、 前記発声文字列に対応する入力音声パターンに対し前記
    特徴抽出手段により抽出された特徴パターンを用いて前
    記認識辞書の該当する認識対象カテゴリの辞書パターン
    を学習する学習手段 とを具備したことを特徴とする音声情報入力装置。
  2. 【請求項2】前記発声文字列生成手段は、前記意味のあ
    る単語或いは文節の形の発声文字列をカナ漢字変換して
    生成するものである特許請求の範囲第1項記載の音声情
    報入力装置。
  3. 【請求項3】前記発声文字列表示手段は、前記発声文字
    列をひらがな、カタカナ、漢字、かな混じり漢字等の複
    数種類の形式で表示すると共に、音声入力すべき発声文
    字列を明示するものである特許請求の範囲第2項記載の
    音声情報入力装置。
  4. 【請求項4】前記認識手段は、入力カテゴリ名、認識結
    果のカテゴリ名及びその類似度、各認識対象カテゴリに
    対する類似度、その順位及び正解・不正解を示すコンフ
    ュージョンマトリクスを出力するものである特許請求の
    範囲第1項記載の音声情報入力装置。
  5. 【請求項5】前記発声文字列生成手段は、前記認識結果
    のカテゴリ名と前記入力カテゴリ名が一致の場合であっ
    てその類似度が予め設定したしきい値より低い場合、前
    記入力カテゴリ名から発声文字列を生成するものである
    特許請求の範囲第4項記載の音声情報入力装置。
  6. 【請求項6】前記発声文字列生成手段は、前記認識結果
    のカテゴリ名と前記入力カテゴリ名が一致の場合であっ
    て前記入力カテゴリ名に対する類似度と他のカテゴリ名
    に対する類似度との差が所定値より小さい場合、前記入
    力カテゴリ名及び他のカテゴリ名から発声文字列を生成
    するものである特許請求の範囲第4項記載の音声情報入
    力装置。
JP61307635A 1986-12-25 1986-12-25 音声情報入力装置 Expired - Lifetime JPH0760317B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61307635A JPH0760317B2 (ja) 1986-12-25 1986-12-25 音声情報入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61307635A JPH0760317B2 (ja) 1986-12-25 1986-12-25 音声情報入力装置

Publications (2)

Publication Number Publication Date
JPS63161498A JPS63161498A (ja) 1988-07-05
JPH0760317B2 true JPH0760317B2 (ja) 1995-06-28

Family

ID=17971408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61307635A Expired - Lifetime JPH0760317B2 (ja) 1986-12-25 1986-12-25 音声情報入力装置

Country Status (1)

Country Link
JP (1) JPH0760317B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60170885A (ja) * 1984-02-15 1985-09-04 富士通株式会社 単音節音声学習方式

Also Published As

Publication number Publication date
JPS63161498A (ja) 1988-07-05

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6236964B1 (en) Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
US6553342B1 (en) Tone based speech recognition
WO1996036042A1 (en) Improving the reliability of word recognizers
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2955297B2 (ja) 音声認識システム
JP3444108B2 (ja) 音声認識装置
Comerford et al. The voice of the computer is heard in the land (and it listens too!)[speech recognition]
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
JP3378547B2 (ja) 音声認識方法及び装置
JPH0760317B2 (ja) 音声情報入力装置
Hunt Speaker adaptation for word‐based speech recognition systems
JP2813209B2 (ja) 大語彙音声認識装置
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
JP2885399B2 (ja) パターン認識装置
JP3277522B2 (ja) 音声認識方法
JP3522005B2 (ja) 音声合成装置
JP3001334B2 (ja) 認識用言語処理装置
JP2862306B2 (ja) 音声認識装置
JPH0573039B2 (ja)
JPH0627985A (ja) 音声認識方法