JPS61294500A

JPS61294500A - 音声認識装置

Info

Publication number: JPS61294500A
Application number: JP60136384A
Authority: JP
Inventors: 徹上田; 外川　文雄
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1985-06-21
Filing date: 1985-06-21
Publication date: 1986-12-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は入力された音声の音声区間を判定し。

予め登録された特徴標準パターンとの類似度計算を行な
い、得られた結果を外部の処理装置へ転送するようにし
た音声認識装置に関するものである口〈従来技術〉従来の音声認識装置では、外部処理装置に出力する情報
が認識結果（第８位まで）のみが・それに加えて各認識
結果に対しての距離を用イｔ：　モ。

しかなかった、認識率が比較的高い離散発声の単語入力
などの場合では、この方法でも充分実用に耐えるが、単
音節や連続単語を扱おうとすると。

これらの認識情報だけでは実用的ではない。

く目　的〉本発明は、従来外部処理装置に出力していた情報に加え
て１判定した音声区間の韻律情報を出力することにより
、外部装置を含めた全体的な認識系としての認識性能を
高めることを目的としている。

〈実施例〉以下図にもとづいて本発明の詳細な説明する。

第１図は本発明に係る音声認識装置のブロック構成図で
ある。図において、ｌは音声入力用のマイクロフォン、
２は音声帯域だけを増幅するアンプ、３は音声区間を抽
出する音声区間抽出部、４は音声区間の韻律情報（たと
えば、音声区間の時量情報）を抽出する韻律情報抽出部
、５は予め貯えられている標準パターンとマツチングを
行なうマツチング部、６は標準ｉ＜ターンを貯える標準
ノＲターンメモリ、７は前記音声区間抽出部３．韻律情
報抽出部４．マツチング部５並びに外部処理装置（図示
せず）との情報のやり取りを行なうインターフェース部
８をコントロールする中央処理部（ＣＰＵ）である。

今・入力者がマイクロフォンｌに向って音声を発声する
と、その音声はマイクロフォンＩからアンプ２に転送さ
れて音声区間だけ増幅され、音声区間抽出部３にてパワ
ーなどの情報から音節区間（単語区間）が抽出される。

さらに、韻律情報抽出部４において音声の時間情報など
の韻律情報が抽出され、この抽出された区間の特徴量と
標準パターンメモリ６に予め貯えられている標準パター
ンとがマツチング部５でパターンマツチされる。

こうして認識された候補は、第８位まで認識距離ととも
に外部インターフェース部８から外部の処理装置（図示
せず）へ出力される。このとき、音声区間抽出部３と韻
律情報抽出部４から得られた音声区間の韻律情報も出力
される。

第２図は「あれ」を入力例として、パワーによって音節
を抽出したときの概念図、第３図は外部処理装置への転
送情報例であり、ここでは音声区間の韻律情報として音
声区間の時間情報すなわち各音声区間の始端時間と終端
時間の情報を得て出力するようにしている。

この例では、音声区間候補■の第１認識結果には音節「
て」がきている。しかし時間情報をみると音声区間候補
■は、前の区間候補とつながっていることが分かる。し
たがって、外部処理装置側で、無声破裂音（バタカ行な
ど）の音節の前には必ず無音区間が来るという情報をも
っていれば。

この第１候補の「て」は無音区間がないため誤りである
と判断でき、それ以降の処理から除くことができる。

また、この例では区間候補■と区間候補■に時間的に競
合する区間候補■を出力している。これは、音節などを
単位として認識する場合には、音声区間の判定誤りは致
命的な誤りとなるため、複数の音声区間候補を出力する
ことが有効となる。

このような複数個の区間候補を出力するには１例のよう
に時間情報を出力しなければ実現できない。

このような複数個の区間候補が競合する場合には外部処
理装置のほうで辞書照合などの後処理を行なって、最終
的な認識結果を得ることになる。

このように、出力情報に音声区間の時間情報を伺加する
ことにより以下の利点が生じる。

■　外部の処理装置側で、認識候補のふるい落としが可
能となる。

イ）音節単位の認識の場合、無声破裂音（か行、た行、
ば行など）の前番こは必ず無音区間が入る。マツチング
ではこれらのことを考慮しないので、無音区聞かない場
合でも無声破裂音の認識結果をだす場合がある。これに
対し時間情報を用いると、先の音節の音声区間と今回の
音声区間が連続している場合には認識結果から無声破裂
音を除去することができる。

口）単語単位の認識の場合、入力する単語によっては、
長さが著しく異なる場合があるＯ例えば数字の「５（ご
）」と野菜名「桜島大根（さくらじまだいこん）」が同
時に認識対象になっている場合、その単語の継続長は、
著しく異なっている。単なるマツチングのみであるとこ
れらの単語を相互に誤る可能性がある。

しかし時間情報を用いると、「５」を発声されて−マッ
チングで「桜島大根」に認識されたとしても、外部の処
理装置があらかじめその単語の継続長の情報をもってい
ると「桜島大根」は「５」のように短いはずはないと判
定でき、候補から除くことができる。「桜島大根」は５
００ｍｓ以下になることはなく。

５００ｍ５以下の単語の候補からは、「桜島大根」をの
ぞけばよい。

■　複数候補を出力して競合の処理を外部処理装置で行
なうことができる。

イ）音節を単位として認識する場合には、音声区間を正
しく抽出することが重要になるが。

実際に音声区間を一意に決定することは容易ではない。

そこで同一時１７号区間を共有する候補を複数出力する
ことにより外部処理装置で最終決定を行なう。この場合
には１時開情報を外部処理装置にだしてやらないと競合
候補かどうかがわからない。

く効　果〉以上の様に本発明の音声認識装置は認識結果とその認識
距離情報の他に音声区間の韻律情報を得て、これらの情
報分外部処理装置へ出力できるものであるから、外部装
置を含めた全体的な認識系としての認識性能を高めるこ
とができる。

【図面の簡単な説明】

第１図は本発明装置のブロック構成図、第２図はパワー
によって音節を抽出したときの概念図。第３図は転送情報例を示す図である。 ■はマイクロフォン、２はアンプ、３は音声区間抽出部
、４は韻律情報抽出部、５はマツチング部、６はパター
ンメモリ、７はＣＰＵ、８は外部インターフェース代理人　弁理士　福　士　愛　彦（他２名）第１図

Claims

【特許請求の範囲】１、入力された音声の音声区間を判定し、予め登録され
た特徴標準パターンとの類似度計算を行ない、認識結果
とその認識距離情報の他に音声区間の韻律情報を得て、
これらの情報を外部処理装置へ出力できるようにしたこ
とを特徴とする音声認識装置。２、前記韻律情報は音声区間の時間情報であることを特
徴とする特許請求の範囲第１項に記載の音声認識装置。