JPS6039697A

JPS6039697A - 音声認識方法

Info

Publication number: JPS6039697A
Application number: JP58147310A
Authority: JP
Inventors: 秋場　国夫; 入間野　孝雄; 金指　久則
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-08-13
Filing date: 1983-08-13
Publication date: 1985-03-01
Also published as: JPH0155480B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は入力音声の音素認識を行ないその結果を用いて
音節、単語、文章等を認識する音声認識方法に関するも
のである。

従来例の構成とその問題点第１図は従来の方法を実施するための音声認識装置を示
している。以下この従来例の構成について第１図ととも
に説明する。第１図において、音声は単位時間（以後フ
レームと称す）毎に音素識別を行う音素識別処理部１、
高域帯域フィルタ２、低域帯域フィルタ３へ入力される
。音素識別処理部１は１０ｍ５単位に母音第１候補、母
音第２候補、子音第１候補を出力する。一方高域帯域フ
ィルタ２、低域帯域フィルタ３の出力はパワーディッゾ
検出部４．５へ送られる。

・ぞワーディッグ検出部４．５′では各々・ぐワーの時
間的変化からパワーの凹部（以後／ｆワーディッゾと表
記する）を検出し出力する。

次いで、・クワーディッゾ検出部４．５の出力を判別図
６とセグメント判定部７で比較し、ノクワーディッゾの
位置から子音区間を検出する。

上記の如く検出された子音区間と前述したフレーム毎の
音素識別処理部１の出力を用いて音素認識部８で最終的
な音素認識を行う。

この方法の原理は母音−子音−母音とつながる単語が発
声された場合、一般に、子音区間においては母音区間に
比してノｅワーが小さくなるために生じるパワーディッ
プに着目して子音区間を検出しようとするものであるが
、音声はそのパワーの変動様態が多様なために、同一音
素中に生じる小さなパワーディップを誤って検出してし
まうために生じる音素の付加（１つの音素を２つ以上の
音素と誤認識する）又はノｅワーディップの大きさが小
さいために子音音素の存在を見落してしまうために生じ
る音素の脱落等の誤りが生じる場合がある。

これらの誤りを最小限に押えるためにノやワーディッゾ
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。

本従来例では、その閾値に対応するものとして２次元判
別図を使用している。

第２図に２次元判別図の例を示す。

この判別図の作成は、種々の音素を含む多数の音声デー
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。

しかしながら、上記した従来例では以下に述べる欠点が
ある。

即ち、判別図が各種音素で生じる平均的なパワーディッ
プの大きさで作成されているために、ある音素では前後
の音素の条件によって、その判別図との整合性が悪くな
り、検出誤シが生じやすくなる場合が生ずる。

たとえば「サラポロ（／５ＡＱＰＯＲＯ／　）　Ｊと発
声した場合の１０ＲＯ／の部分の／Ｒ／では他の音素に
比してディップの大きさが小さいために／Ｒ／の脱落が
生じ１０ＲＯ／の部分が１０／又は長母音１００／と誤
認識される場合が多い。

発明の目的本発明は上記従来例の欠点を除去し、音素のセグメンテ
ーション精度を向上させ、音素誤認識を減少させるもの
である。

発明の構成本発明は上記目的を達成するために、セグメント判定及
び音素認識を２回以上くり返して行なうものであり、セ
グメント判定に使用するｉ４ワーディッゾ判別図をあら
かじめ多数用意しておき、前段の音素認識結果に応じて
後段で使用する判別図を選択するものである。これによ
り認識すべき音素、コンテキスト（音素の並び型）に応
じた最適なセグメンテーションを行ない音素誤認識を減
少させるものである。

実施例の説明以下に本発明の一実施例の構成について、図面とともに
説明する。第３図は本発明の一実施例の方法を実行する
装置のブロック図であり、フレーム毎の音素識別処理部
１、高域帯域フィルタ２、低域帯域フィルタ３、パワー
ディップ検出部４゜５は第１図の従来例と同じである。

セグメント判定部、音素認識部は各々２個設定されてお
り、前段が第１次セグメント判定部７、第１次音素認識
部８、後段が第２次セグメント判定部１０、第２次音素
認識部１１である。判別図■６−１、判別図■６−２、
・・・判別図■６−ｎは認識すべき音素又はコンテキス
トに応じて設定した高域のディップ、低域のディップの
２次元の判別図である。判別図選択論理は第１次音素認
識結果に応じて判別図を選択するだめの処理を行う。

次に１記実施例の動作について説明する。第３図におい
て第１次セグメント判定は第１図従来例と全く同じであ
シ、第１次判別図１２は全音素について大量データから
作成した最適判別図である。

従って音素又はコンテキストによっては不適用になる場
合がある。

判別図■６−２は同一母音にはさまれた／Ｒ／のセグメ
ンテーション用の判別図とする。第４図に判別図の例を
示し、第６図に判別図■６−２を選択するだめの論理を
示す。第５図に「サラポロ」と発声した場合の＝／　Ｏ
ＲＯ／の部分の適用例を示す。

同一母音にはさまれた／Ｒ／は第５図の「高域ノｅワー
」、「低域ノｅワー」に示すようにパワーの変化が少な
い。従って第４図に示す判別図も第２図の例に比べて子
音区間とみなすディップの大きさの範囲を大きくとって
おく。判別図■６−２を適用するだめの論理は第６図に
示すように、まず第１次音素認識結果が母音で、音素長
が１５フレ一ム以上の場合、上記母音区間内に子音第１
候補が／Ｒ／のフレームが存在する時は判別図■６−２
を適用して第２次セグメント判定及び第２次音素認識を
行う。第５図の例では第１次セグメント判定では子音区
間と判定されないため音素認識結果は１０／となってい
るが第２次セグメント判定では判別図■６−２を適用す
ることによりフレームＮ０５５からフレームＮ０５９ま
でを子音区間と判定している。従ってその区間における
子音第１候補から／Ｒ／を認識し、従来１０／又は１０
０／と区別できなかった／　ＯＲＯ／が認、識されたこ
とになる。

発明の効果本発明によれば音素やコンテキストに応じた精密な音素
のセグメンテーションができ、音声認識誤まりの減少に
有効である。

【図面の簡単な説明】

第１図は従来の音声認識方法を実施する装置のブロック
図、第２図は従来例における２次元のセグメンテーショ
ン判別図、第３図は本発明の一実施例における音声認識
方法を実施する装置のブロック図、第４図は本発明にお
ける同一母音にはさまれた／Ｒ／のセグメンテーション
を行う判別図の例、第５図は本発明の動作説明図、第６
図は本発明における判別図選択論理の動作例を示すフロ
ーチャートである。第１図島威肴ッデ９Ｋｇ第３図第４図缶威残ッ１°のＫきン第５図神話第６図

Claims

【特許請求の範囲】

入力音声を単位時間毎に音素識別を行うと共、に、音声
スにクトルの複数の帯域パワーをめ、その時間変化によ
って生じるディップの大きさを各帯域毎の多次元判別図
に適用して音素のセグメンテーションを行ない、音素識
別結果とセグメンテーション結果を併用して音素認識を
行う方法において、セグメンテーション及び音素認識を
複数回行ない、前回の音素認識結果に応じて、次回のセ
グメンテーションに適用する判別図又は判別条件を選択
することを特徴とする音声認識方法。