JPH0333280B2

JPH0333280B2 -

Info

Publication number: JPH0333280B2
Application number: JP59003923A
Authority: JP
Inventors: Satoshi Fujii; Hideji Morii; Masakatsu Hoshimi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-01-12
Filing date: 1984-01-12
Publication date: 1991-05-16
Also published as: JPS60147797A

Description

【発明の詳細な説明】

産業上の利用分野本発明は人間の声によつて発声された音声信号
を自動的に認識するための、音声認識装置に関す
るものである。従来例の構成とその問題点音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。従来研究あるいは発表されている音声認識装置
の動作原理としてはパターンマツチング法が多く
採用されている。この方法は認識される必要があ
る全種類の単語に対して標準パターンをあらかじ
め記憶しておき、入力される未知の入力パターン
と比較することによつて一致の度合（以下類似度
と呼ぶ）を計算し、最大一致が得られる標準パタ
ーンと同一の単語であると判定するものである。
このパターンマツチング法では認識されるべき全
ての単語に対して標準パターンを用意しなければ
ならないため、発声者が変つた場合には新しく標
準パターンを入力して記憶させる必要がある。従
つて数百種類以上の単語を認識対象とするような
場合、全種類の単語を発声して登録するには時間
と労力を必要とし、又登録に要するメモリー容量
も膨大になることが予想される。さらに入力パタ
ーンと標準パターンのパターンマツチングに要す
る時間も単語数が多くなると長くなつてしまう欠
点がある。これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し（以下音素認識と呼ぶ）
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パターンマツチングに要する時間
が短く、辞書の内容変更も容易であるという特長
を持つている。例えば「赤い」という発声は／
ａ／、／ｋ／、／ｉ／という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。第１図に音素認識を行うことを特徴とする音声
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部１によつて分析を行なう。
分析方法としては帯域フイルタ群が線形予測分析
を用い、フレーム周期（10ｍｓ程度）毎にスペク
トル情報を得る。音素判別部２では、音響分析部
１で得たスペクトル情報を用い、標準パターン格
納部３のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部３に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部４では、
音響分析部１の分析出力をもとに音声区間の検出
と音素毎の境界決定（以下セグメンテーシヨンと
呼ぶ）を行う。音素認識部５ではセグメンテーシ
ヨン部４と音素判別部２の結果をもとに１つの音
素区間に何という音素であるかを決定する作業を
行う。この結果として音素の系列が完成する。単
語認識部６では、この音素系列を、同様に音素系
列で表記された単語辞書７と照合し、最も類似度
の高い単語を認識結果として出力する。前記従来のセグメンテーシヨン部４では、子音
のセグメンテーシヨンを次のように行つていた。
第２図ａはパワーの時間に対する変化の大きさ
を、第２図ｂはパワーの変化速度の時間に対する
変化の大きさを示したもので、帯域フイルタを用
いたパワーの時間的変化の形８が凹状の形をして
いる時（これをデイツプと呼ぶ）、パワーが極小
値を示すフレームをn₁とし、n₁の前後のフレーム
でパワーの時間による変化速度（これをパワーの
差分値と呼ぶ）９が負および正の舷大値を示すフ
レームをn₂、n₃とする。また、あるフレームｎに
おける差分値をWD（ｎ）とすると、 WD（n₃）−WD（n₂）θ〓 (1) の条件を満足する時、n₂〜n₃までの区間を子音区
間としていた。ここでθ〓は子音の付加を防ぐため
のいき値で予め統計的な分布に基づき決定される
ものである。セグメンテーシヨン部４および音素判別部２の
詳細を第３図に示す。セグメンテーシヨン部４は
デイツプ検出部３１、子音区間決定部３２、子音
判定部３３からなり音響分析で得た帯域フイルタ
のパワーを用いてデイツプ検出部３１にて前記デ
イツプ検出を行い、子音区間決定部３２で第２図
のn₂〜n₃間を子音区間として決定する。この区間
に対してスペクトル形状をもとに子音判定部３３
にて子音判定を行う。一方、音素判別部２は母音
候補抽出部３５と母音区間決定部３６よりなり音
響分析で得たLPCケプストラム係数を用いて、
標準パタン格納部３に対する類似度計算を母音候
補抽出部３５にて行い、最も類似度の高い音素を
母音候補として抽出する。この場合標準パターン
格納部３は５母音および鼻音を対象として、フレ
ーム毎のLPCケプストラム係数を用いて作成し
ておく。この結果を子音区間決定部３２で求めた
子音区間以外に適用し、母音区間および母音の種
類を母音区間決定部３６で決定する。この結果を
子音判定部３３の結果と組合せることによつて音
素認識部５にて音素認識を行い、第１図に示した
単語認識部６へ送る。この方法によれば音素のセグメンテーシヨン、
判別を良好に行なうことができるが、デイツプの
存在によつて一義的に音素境界を決定してしまう
ために、欠点が２つある。その１つは母音中でパ
ワーが不安定になつた時にもデイツプとして検出
してしまうため子音が付加されてしまい、日本語
の規則により必然的に母音が付加されるため、結
果として子音１個の付加によつて２音素付加にな
つてしまうことである。もう１つはデイツプの区
間が必ずしも正しい境界を表わさないことによ
り、母音、子音間の正しい境界が保証されなくな
つてしまうことである。これによつて、母音、子
音の判別誤り、単母音と長母音の判別誤りなどを
生ずる。第４図にその１例を示す。これは「番号」と発
声した例で、ａのラベルで各音素の位置を示す。
第３図のデイツプ検出部３１でデイツプｃを検出
し、その結果を子音区間決定部３２に転送し、さ
らに子音判定部３３で判定した結果をｄに示す。
一方母音候補抽出部３５の抽出結果をｅに示し、
子音区間決定部３２の結果と母音候補ｅとを組合
せて母音区間決定部３６で母音認識を行う。その
結果をｆに示す。その母音認識結果ｆと子音認識
結果ｄとを音素認識部５へ転送し、認識結果ｂを
得る。子音認識ｄの項には、デイツプｃの位置に
よつて第２図n₂〜n₃間を子音の区間として決定
し、標準パターンに対するスペクトルの類似度に
よつて音素の種類を決定した結果を示す。母音候
補ｅの項では母音および鼻音を対象にスペクトル
の類似度の最も高い音素を示す。子音認識ｄの境
界を正しい境界として母音候補ｅを機械的に組み
合わせることにより、認識結果ｂの項で示すよう
な音素系列が作成される。ラベルａと認識結果ｂとを比較すると、／ｈ／
と／ｕ／が付加している。又、／Ｎ／が／ｎ／に
置換し、／〓／の区間が誤つている。これは単なる一例であり、第２図で示したデイ
ツプの区間が必ずみも子音の境界を表わさないこ
とが原因で起るものである。このような誤りが発生する頻度は人によつて異
なり、発声方法の不安定な発声者や、デイツプを
検出するための帯域フイルタに対する周波数特性
のずれの大きい発声者に対して誤りが生ずる。そ
の結果、音素の付加、脱落、置換が多発し、単語
認識の性能を劣化させてしまう欠点があつた。発明の目的本発明は前記欠点を解消し、音素のセグメンテ
ーシヨンの精度および音素判別を向上させること
によつて高性能な音声認識方法を提供することを
目的とする。発明の構成本発明は前記目的を達成するもので、標準パタ
ーンに対する音素の類似度を求め、またパワーの
変化に基づいて子音候補の位置を求め、母音候補
と子音候補それぞれの標準パターンに対する類似
度の連続性性および強度を互いに比較することに
より音素区間を修正決定する音素境界決定部を設
けることによつて音素間の境界の位置および境界
間の音素の種類を精度良く決定し、高性能な音浸
認識を行うことを可能とするものである。実施例の説明以下に本発明の実施例を図面とともに説明す
る。第４図に示したような誤りが生ずるのは、デイ
ツプの区間が必ずしも子音の境界を表わさない原
因によるものである。デイツプはパワーの変動に
よつて生ずるが、スペクトルの変動とは必ずしも
対応しない。すなわち、デイツプが存在してもス
ペクトルの変動がなければそこに子音は存在しな
いと考えることができる。又、デイツプの始端又
は終端の位置ではスペクトルが安定し、それ以外
の位置でスペクトルが大きく変化していれば、真
の音素境界はその位置にあると考えることができ
る。本実施例はこの性質を積極的に利用して子音
と母音の境界を精度よく決定することを可能とし
たものである。第５図に本発明の一実施例である音声認識装置
の主要部分のブロツク図を示す。標準パターン格納部４４に格納される標準パタ
ーンは母音および鼻音を対象に音素中心付近ｎフ
レームのｐ次LPCケプストラム係数を用いて作
成しておく。すなわち時間−周波数軸の２次元パ
ターンで構成する。音素ｉのｎフレーム目におけ
るｐ次LPCケプストラム係数をC_iopと表わし、ベ
クトル〓_iを作成する。〓_i＝（C_i11、C_i12、…、C_i1p、C_i21、…、C_i31、…
C_io1、…、C_iop）多数の音声による〓_iを集計し、〓_iの平均値を
m_ij（ｊはパラメータの順番を表わし、最大はｋ＝
ｎ×ｐ）とする。共分散行列を音素の種類にかか
わらず共通とし、〓で表わす。〓の逆行列を〓^-1
とし、（ｊ、j′）要素をσ^jj′とすると、音素ｉのｊ
番目のパターンに対する重み係数a_ijは a_ij＝２_K 〓^j=1 σ^ij′m_ij′ (2) で表わすことができる。多数話者の音声データより得られたパラメータ
ｘ（x₁、x₂、…、x_j、…、x_k）の音素ｉの分布に
対するマハラノビス距D_i ²は D_i ²＝x^t〓^-1x−_K 〓^j=1 a_ijx_j＋m_i ⁱ〓^-1m_i (3) で表わすことができる。ｔは転置行列を表わす。
(3)式の第１項は音素の種類に依存しないため省略
し、類似度L_iを簡易的に L_i＝_K 〓^j=1 a_ijx_j−m_i ^tW^-1m_i (4) で求めることができる。従つて、標準パターン格納部４４には(4)式のa_ij
および定数m_i ^tW^-1m_iを入れておけば良い。次に入力音声より得られたパラメータｘ（x₁、
x₂、…、x_j、x_k）に対する類似度L_iを(4)式を用い
て母音候補抽出部４５で算出し、母音に対する類
似度の連続性および強度によるスペクトルの安定
性に基づき母音候補を抽出し、その結果を母音区
間記憶部４６へ転送する。一方、音響分析を行つた後、デイツプ検出部４
０にて帯域フイルタのパワーのデイツプ検出を行
う。子音区間検出部４１で第２図に示すn₂〜n₃間
を仮の子音区間とし子音区間記憶部４２にその結
果を転送する。デイツプ検出部４０と子音区間決
定部４１で子音候補抽出部４９を構成する。子音
区間記憶部４２と母音区間記憶部４６とを音素境
界決定部４７にて照合し、音素境界の決定を行
う。この場合標準パターン格納部４４は音素中心
付近の複数フレームで統計的に構成してあるた
め、母音中のスペクトルのわずかな変動は母音中
におけるスペクトルの単なる乱れであるとして吸
収することができる。又、子音との境界における
あいまい領域ではスペクトルが時間的に安定でな
いため大きな類似度が表われない。この性質を利
用することによつて母音区間を精度良く抽出する
ことができる。従つて音素境界の存在する可能性のない子音候
補は取除き、子音区間の大きく誤つたものは修正
して、結果を子音に対しては子音区間記憶部４２
に、母音に対しては母音区間記憶部４６にもどす
ことができる。次に音素境界決定部４７で決定され子音区間記
憶部４２に格納された子音の区間に対し子音判定
部４３にて新しい区間における標準パターンに対
するスペクトルの類似度を計算し子音判定行う。
この結果と母音区間記憶部４６の結果と組合わせ
ることによつて音素認識部４８で音素認識を行
い、その結果を単語認識部に転送する。第６図に本実施例により認識を行つた例を示
す。図においてａは視察によつて決定されたラベ
ルを示す。ｃは第５図のデイツプ検出部４０によ
り検出されたデイツプ領域を示し、ｄは子音区間
決定部４１で決定された子音候補を示す。またｅ
は音素境界決定部４７により修正を加えられた子
音候補であり、５はｅに示した子音候補を子音判
定部４３で判定した子音認識結果を示す。さらに
ｇは母音候補抽出部４５で抽出した母音候補を示
し、ｈは音素境界決定部４７により修正を加えら
れた母音認識結果を示す。ｂは前記子音認識結果
ｆと母音認識結果ｈとから音素認識部４８により
認識された認識結果を示す。本実施例の場合、まず子音認識についてはデイ
ツプ検出部４０で第６図ｃに示すデイツプ位置を
検出する。このデイツプ位置に対し、子音区間決
定部４１で第６図ｄに示す子音候補／ｂ／、／
ｎ／、／ｍ／、／ｈ／を抽出し、子音区間記憶部
４２へ転送する。一方、母音認識については標準パターン格納部
４４に格納された、時間−周波数パターンで構成
された標準パターンを用いて、母音抽出部４５に
て各フレーム毎に最も類似度の高い音素を選び、
第６図ｇに示す母音候補を抽出し、母音区間記憶
部４６へ転送する。音素境界決定部４７では、子音区間記憶部４２
と母音区間記憶部４６の結果を参照して精度の高
い音素境界の最終決定を行なう。前述したように、標準パターンに時間−周波数
パターンを用いて母音候補を抽出することよつ
て、次のような性質がある。母音区間中のスペクトルの小さい乱れを吸収
し安定に母音を抽出することができる。渡りの部分は時間間的にスペクトルが安定し
ないため、余分な母音候補の抽出を防ぐことが
できる。母音中でパワーが不安定なためにデイツプで
付加された子音候補を、母音候補の安定性によ
つて取除くことができる。本実施例はこの性質を積極的に利用し、以下の
処理を行なう。まず、第６図ｄで示す、子音／
ｈ／の付加の部分では、ｇに示す母音候補の／
ｏ／が長い区間に渡つて安定に抽出されているた
め、、の性質を用いて取除くことができる。
又、ラベルａに示す／Ｎ／の部分では、母音候補
ｇを見ると／Ｎ／以外に安定な母音候補が抽出さ
れないというの性質を利用することにより、ｃ
に示す次のデイツプまでの区間をｈに示すよう
に／Ｎ／と決定することができる。又、ｄに示
す／ｍ／の区間で、ｇの母音候補を見ると、／
ｍ／の区間の一部と／ｏ／が重なつており、こ
の／ｏ／は長い区間に渡つて安定していることか
らの性質を利用することによつて／ｍ／の区間
を修正することができる。その結果を第６図ｅに
示す。以上の処理の結果、子音区間は第６図ｅとして
子音区間記憶部４２に転送し、母音区間は第６図
ｈとして母音区間記憶部４６を経由して音素認識
部４８に転送する。子音判定部４３では、第６図ｅに示した子音候
補の中で、音素境界の修正された音素／ｍ／に対
して見直しを行ない、標準パターンのスペクトル
に対する類似度を求めて最も類似度の高い要素／
〓／に修正し、子音認識結果ｆとして音素認識部
４８に転送する。このように本方法では、デイツプによる子音候
補の検出とスペクトルの安定性を併用することに
よつて、より精密な音素のセグメンテーシヨンお
よび音素判別を実現することができる。本方法を用いて、成人男子10名の発声した2120
単語を対象に音素認識し、評価した結果を表に示
す。

【表】表から明らかなように、全音素の平均認識率
82.6％の良好な値を得ることができる。又、音素
付加率4.8％、音素脱落率3.9％の極めて少ない付
加、脱落誤りで精度の高い音素系列を作成するこ
とができる。なお前記実施例ではスペクトル情報として
LPCケプストラム係数を用いた場合について述
べたが、フイルタバンク出力等、他の情報であつ
ても良い。発明の効果以上要するに本発明は標準パターンに対する音
素の類似度を求め、またパワーの変化に基づいて
子音候補を求め、母音候補と子音候補それぞれの
標恕パターンに対する類似度の連続性および強度
を互いに比較することにより音素区間を修正する
ことによつて、音素間の境界の位置および境界間
の音素の種類を精度良く決定し、信頼性の高い音
声認識を実現することができる利点を有する。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図はパワー及びパワーの変化速度の時間に対す
る変化の様子を示した図、第３図は従来の音声認
識装置の要部のブロツク図、第４図は同装置によ
り認識を行つた一例を示す図、第５図は本発明の
一実施例における音声認識装置の要部のブロツク
図、第６図は同装置による認識結果の一例を示す
図である。４０……デイツプ検出部、４１……子音区間決
定部、４２……子音区間記憶部、４３……子音判
定部、４４……標準パターン格納部、４５……母
音候補抽出部、４６……母音区間記憶部、４７…
…音素境界決定部、４８……音素認識部、４９…
…子音候補抽出部。

Claims

【特許請求の範囲】１多数話者の音声より得られたスペクトル情報
を用いて統計的距離尺度に基づき構成された標準
パターンを予め格納する標準パターン格納部と、
スペクトル情報を用いて分析区間毎に前記標準パ
ターンに対する音素の類似度を統計的距離尺度に
基づき抽出する母音候補抽出部と、パワーの時間
変化によるデイツプを用いて子音候補を求める子
音候補抽出部と、前記母音候補抽出部および子音
候補抽出部で抽出された母音候補と子音候補に対
し類似度の連続性および強度を用いて音素区間を
修正決定する音素境界決定部と、前記音素境界決
定部で決定された音素区間の音素の種類を決定す
る音素認識部とを少なくとも有することを特徴と
する音声認識装置。２標準パターンが、音素中心付近の複数の分析
区間長のスペクトル情報を用いて時間−周波数の
二次元パターンによつて統計的距離尺度に基づき
構成されたものであることを特徴とする特許請求
の範囲第１項記載の音声認識装置。