JPH0376475B2

JPH0376475B2 -

Info

Publication number: JPH0376475B2
Application number: JP57146408A
Authority: JP
Inventors: Hidenori Shinoda; Yoichi Takebayashi; Tomio Sakata
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-08-24
Filing date: 1982-08-24
Publication date: 1991-12-05
Also published as: JPS5936300A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は離散的に発声された単語音声を効果的
に認識することのできる音声認識装置に関する。

〔発明の技術的背景とその問題点〕

離散的に発声された単語音声を認識する場合、
入力音声信号系列中から上記単語音声が存在する
音声区間を検出することが、その前処理として非
常に重要である。しかして従来では一般に入力音
声のエネルギ変化を利用して、上記音声区間を検
出することが行われている。このような音声区間
検出法は非常に簡便であると云う利点を有してい
るが、発声された単語音声に多くの雑音が付加さ
れるような音声入力環境にある場合等、上記雑音
を除去して上記単語音声を安定に認識することが
非常に困難であつた。これは認識対象とする音声
の存在区間に近い位置に雑音が加わると、前述し
たエネルギだけでは上記単語音声と雑音とが区別
できず、雑音も音声の一部であるとして認識処理
に取込んでしまう為である。このような問題を克
服するものとして、端点フリーのDPマツチング
法等の処理方式が種々考えられているが、認識処
理量が膨大となつて実用性に乏しい等の問題があ
つた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、離散的に発声さ
れた単語音声を雑音によつて妨害されることなし
に安定に認識することのできる簡易で実用性の高
い音声認識装置を提供することにある。

〔発明の概要〕

本発明は入力された音声信号を音響分析し、こ
の音響分析結果から例えばそのエネルギ変化と音
韻的特徴を抽出し、これらの特徴に従つて前記音
声信号の始端候補点および終端候補点とをぞれそ
れ検出する。そしてこれらの始端候補点と終端候
補点との可能な全ての組合せから求められる複数
の音声候補区間における前記音声信号の認識処理
に必要な特徴をそれぞれリサンプル抽出し、これ
らのリサンプル抽出された特徴に従つて音声認識
を行うようにしたものである。

〔発明の効果〕

従つて本発明によれば、複数の音声候補区間に
おいてそれぞれリサンプル抽出された特徴を用い
てそれぞれ音声認識処理し、その中の最も信頼性
の高い認識結果を抽出することによつて、雑音成
分を含んで検出される音声候補区間の情報を除去
し、ここに安定な音声認識を簡易に行わしめるこ
とが可能となる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例装置に
つき説明する。

第１図は実施例装置の概略構成図である。離散
的に発生される単語音声は、音声入力部１におい
て音響電気変換され、適度な信号レベルに増幅さ
れたのちＡ／Ｄ変換して取込まれる。音響分析処
理部２は、上記音声入力部１を介して入力された
音声信号を、デイジタルバンドパスフイルタを通
して予め定められたフレーム周期毎にスペクトル
分解してその音響分析を行つている。しかして、
特徴抽出部３は、上記スペクトル分解された音声
信号データを入力し、これを上記フレーム単位で
処理して前記音声信号の特徴を抽出している。即
ち、特徴抽出部３は、上記フレーム毎にその音韻
特徴を抽出し、例えば母音声フレームに対しては
その母音種類を示すラベルを付し、鼻音声フレー
ムに対しては鼻音の種類を示すラベルを付し、更
にその他の子音については、破裂性、有声無声
性、無音性、摩擦性等のラベルを付している。こ
れにより、入力音声信号の各フレーム毎に付され
たラベルの系列からなる音声特徴時系列が求めら
れる。尚、上記母音・鼻音の種類のラベル付け
は、フレーム単位で求められるスペクトルのパタ
ーンデータと、予め辞書登録されている母音およ
び鼻音の各種類毎の標準スペクトルパターンとの
類似度を計算する等してそのラベルを決定して行
われる。また、上述した子音の種類分けは、各フ
レーム毎に求められるスペクトルパターンの概略
形状を調べる等して行われる。即ち、上記スペク
トルパターンが周波数に沿つて単調増和している
場合には、これを摩擦性として判定し、またスペ
クトルパターンが所謂釣鐘状に中央部が高くなつ
ている場合には、これを破裂性として判定する等
して行われる。

音声区間検出回路４は、上記の如くして特徴抽
出部３が求めたラベル系列からなる音声信号の特
徴時系列と、前記音響分析処理部２が求めた音声
信号のスペクトルデータ、およびそのエネルギデ
ータとを入力し、これらの情報に従つて入力音声
信号の始端候補点Ｓおよび終端候補点Ｅとを求
め、これらの始端候補点Ｓと終端候補点Ｅとの可
能な組合せにより複数の音声候補区間を検出して
いる。即ち今、数字「１」なる音声が「イチ」と
発生され、その前後に雑音が伴つて入力すると、
その音声信号波形は例えば第２図に示すようにな
る。このような入力音声信号に対して、上述した
特徴時系列、スペクトルデータ、エネルギデータ
に従つて始端候補点S₁，S₂，S₃を求め、また終端
候補点E₁，E₂，E₃を求める。これらの始端およ
び終端の候補点の組合せから求められる音声候補
区間は、上記始端候補点が終端候補点よりも時間
的に必ず前に存在することから第２図に示す例で
は次のように求められる。

〔S₁，E₁〕、〔S₁，E₂〕、〔S₁，E₃〕〔S₂，E₁〕、〔S₂，E₂〕、〔S₂，E₃）〔S₃，E₃〕尚、上記音声候補区間のうち〔S₂，E₁〕、〔S₃，
E₃〕に関しては、１つの音声フレームに満たな
い長さでることから、これを処理対象とする候補
区間から除くようにしてもよい。

このようにして求められる音声候補区間のそれ
ぞれについて、認識部５は音声信号の特徴である
例えばスペクトル情報を入力する。そして、各音
声候補区間の音声信号スペクトル情報系列をリサ
ンプル抽出し、その特徴パターンベクトルを求め
て、辞書として予め登録された複数の音声カテゴ
リの各標準パターンベクトルとの類似度計算を行
う等して、音声認識処理が行われる。認識部５
は、前記の如く求められた複数の音声候補区間に
ついて、上記認識処理をそれぞれ行い、その認識
結果を制御部６に出力している。この制御部６
は、前述した各処理部２，３，４，５をそれぞれ
制御し乍ら、上記認識部５が求めた各音声候補区
間における認識結果を入力して、これを総合判定
している。そして、音声候補区間が雑音を含む場
合、これによつて上記認識結果（類似度値）が当
然悪くなることを利用してこれを除去し、最も信
頼性の高い認識結果を抽出して、前記音声信号に
対する正しい認識結果であるとして出力してい
る。かくしてここに、信頼性の高い音声候補区間
より求められた認識結果が得られることになり、
音声の前後に付加された雑音を含む情報から得ら
れる認識結果が効果的に排除されることになる。
つまり複数の音声候補区間のうちから、雑音を含
まない音声候補区間における情報のみが有効に取
出されて認識されることになる。

尚、上記認識部５における各音声候補区間の音
声認識処理は、従来より提唱されている種々の方
式を適宜用いればよい。またこの認識処理に用い
られる音声の特徴も、種々採用可能なことは云う
までもない。

ところで、本装置が最も特徴とするところの、
音声信号に対する始端候補点Ｓおよび終端候補点
Ｅの検出と、これらの始端および終端候補点Ｓ，
Ｅの組合せから求められる音声候補区間の検出処
理は、音声区間抽出回路４によつて次のように行
われる。第３図はその処理過程の一例を示す流れ
図である。この処理は、先ず処理制御カウンタ値
をイニシヤライズしたのち、第ｎフレームの音声
信号エネルギを入力して行われる。しかるのち、
例えば仮りに設定した閾値に従つて音声信号を無
音クラス、音声クラスに分け、各クラス間の級間
分散を求めてその値が最大となるべく最適閾値
E_thを設定し、その閾値E_thと入力音声エネルギ
E_(o)とを比較する。その後、入力音声エネルギE_(o)
が上記閾値E_thを越える時点をS′_(i)として始端の第
１候補点とする。そして、次に上記入力音声エネ
ルギE_(o)が上記閾値E_thを下回る時点を検出し、こ
れを終端の第１候補点E′_(i)とする。しかるのち、
このようにして求められた始端および終端の候補
点間の間隔を T_k＝｜S′_(k)−E′_(k)｜として求め、所定の間隔T_thを越えるか否かを判
定して音声候補区間を求める。これによつて、断
片的に得られる誤つた音声候補区間が除去され
る。そして、上述した音声候補区間の検出を、入
力された音声信号の全てのフレームに亘つて順次
入力し、その可能な全ての組合せについてチエツ
クし、全ての音声候補区間を求める。

しかるのち、上記音声候補区間の音声特徴を調
べ、その区間に雑音性成分が含まれるか否かを判
定して、雑音性成分を含む音声候補区間を認識対
象から除去する。その後、発声の終了を、例えば
E_(o)＜E_thの区間が所定の期間M_thだけ続くことか
ら検出し、これまでに検出された音声候補区間に
おける音声特徴と、予め登録されている単語の発
声形状とを比較して、最終的な音声候補区間を決
定する。このようにして決定された音声候補区間
の全てについて、例えば複合類似度法を用いて辞
書登録された単語辞書との類似度をそれぞれ求
め、その類似度値を相互に比較して、最も信頼性
の高い結果を認識結果として出力する。

以上のような認識処理によれば、単語音声が含
まれる候補区間のそれぞれにおいて求められる認
識結果を相互に比較して、最も信頼性の高いもの
を抽出するので、最終的に離散的に発声された音
声そのものの特徴から求められる認識結果を信頼
性良く得ることができる。つまり音声区間の検出
と、その認識処理とを相互に関連して行うことに
なるので、安定に認識処理を行い得ると云う実用
上多大なる効果が奏せられる。

尚、本発明は上記実施例に限定されるものでは
ない。例えば始端候補点および終端候補点の検出
処理自体、またこれらの組合せによつて求める音
声候補区間の抽出処理更には認識処理法は、種々
の方式を適宜作用することができる。また上述し
た処理に使用する音声の特徴についても特に限定
されない。要するに本発明はその要旨を逸脱しな
い範囲で種々変形して実施することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の概略構成図、
第２図は実施例装置の処理を示す音声信号波形と
始端および終端候補点とその音声候補区間を示す
図、第３図は実施例装置における認識処理の流れ
を示す図である。１……音声入力部、２……音響分析処理部、３
……特徴抽出部、４……音声区間検出回路、５…
…認識部、６……制御部。

Claims

【特許請求の範囲】

１音声信号を入力して予め定められたフレーム
周期毎に音響分析する手段と、この音響分析結果
から各フレーム毎に音韻の類似度から母音・鼻音
のラベル付けを行うと共に、スペクトルの概形か
ら子音のラベル付けを行つて音声信号の特徴を抽
出する手段と、前記音声信号の特徴と前記音響分
析結果とに従つて前記音声信号の始端候補点と終
端候補点とをそれぞれ検出する手段と、上記始端
候補点と終端候補点との全ての可能な組合せによ
つて求められる複数の音声候補区間に対し、各フ
レーム毎に得られた母音・鼻音ラベル及び子音ラ
ベルを用いて該区間が音声か雑音かを調べる手段
と、音声と検出された音声候補区間における前記
音声信号の特徴をそれぞれリサンプル抽出する手
段と、これらのリサンプル抽出された特徴を用い
て前記音声信号中に含まれる音声を認識する手段
とを具備したことを特徴とする音声認識装置。