JPS62119598A

JPS62119598A - 単語音声認識装置

Info

Publication number: JPS62119598A
Application number: JP60260294A
Authority: JP
Inventors: 教幸藤本; 佐藤　泰雄
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1985-11-20
Filing date: 1985-11-20
Publication date: 1987-05-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　　要〕種々の入力端末装置のうち音声をそのまま入力するいわ
ゆる音声入力装置を実現するための技術が音声認識技術
である。認識装置を実現するにあたって音節や単語等の
単位で区切って発声した音声を認識する場合には比較的
容易に実現でき、特に特定話者の単語認識装置は種々の
分野で実用化されている。この種の中門音声認識装置に
おいて、単語の標準パターンと人力音声の特徴パターン
を照合する場合に同一発声者の同一１１１語であっても
音素によっては音響的特徴が時間的に変化するために一
般に継続時間長の伸縮を補正してマツチングを取るよう
にしている。

この伸縮方法には非線形及び線形方式があり、非線形方
式は一般に動的計画法（ダイナミックプログラミングＤ
Ｐ）が用いている。ＤＰ法は標準パターンと入カバター
ンとの誤差が最小になるように時間軸伸縮用の変換関数
を最適化アルゴリズムに従って選択しているので認識性
能を上げることができるが処理量が多くなり時間がかか
るという問題がある。一方、線形時間伸縮マツチング法
は最適化アルゴリズムが含まれていないので、処理量が
少なく処理時間を減少さ〜Ｕることができるが、認識性
能が低下するという問題がある。

本発明はこのような単語音声認識装置において、使用者
の指定により照合の処理量の少ない線形時間伸縮マツチ
ング法と照合の処理量の多いけれども認識性能のよいＤ
Ｐ方式を使い分けることを特徴としている。すなわち装
置のつかわれる環境によって多少応答時間が長くなって
も絶対に誤って欲しくない場合にはＤＰ法を選択し、多
少誤認識が多くてもすぐに認識結果を得たい場合には線
形時間伸縮マツチング法を利用することによって、本発
明は応答時間に対する要求が厳しい場合と、認識性能に
対する要求が厳しい場合の両方に使うことができるとい
う効果がある。

〔産業上の利用分野〕

本発明は音声入力装置を実現するための基本となる音声
認識装置に係り、特に音節や単語等の単位で区切って発
声した音声を単語ごとに認識していく特定話者を対象と
する単語音声認識装置の構成に関する。

更に、本発明は使用者の指定により照合の処理量の少な
い簡単な線形時間伸縮マツチング法と照合の処理量は多
いけれども認識性能の良いＤＰ方式を使い分けることを
可能とする単語音声認識装置の構成に関する。

〔従来の技術〕

集積化技術の進歩に伴い、マンマシンインターフェース
として利用する種々の入力端末装置のうち音声をそのま
ま入力する音声人力装置が実用化されてきた。音声入力
装置を用いれば情報とするべき入力データの入力速度を
早くでき、入力装置の操作に熟練していない人でも音声
で人力データを入力できるという特徴がある。この音声
入力装置を実現するための基本となるのが、音声認識技
術である。音声Ｌ２Ｆ、ｆｉｌｌ技術において人間が自
然に発生した文音声は音響的特性がアクセントや抑揚な
どによって複雑に変形するので、認識するのが非常に難
しく、従って音節や単藺などの単位で文音声を区切って
発声させ、個々の音節や単語を認識していく、いわゆる
離散型単語認識装置がまず実用化されている。そして語
′Ｊｌ数はｉｍ常、数百語以上であるが、認識する語霊
数がこのように少なくても工場の製品検査等には有効に
利用できる。このような離散単語認識装置においては単
語毎に区切りを検出して順番に単語を認識していく。単
語認識装置において、特定の人の音声を分析して得られ
る標準パターンを用いるとその発声者の音声入力に対し
ては高い認識率が得られる。そこで、標準パターンを構
成する場合には特定の発声者に対して発声者毎に作り変
える学習機能を用いて認識するようにした特定話者用音
声認識装置は全単語の学習を数回行うことにより９９％
以上の認識率を得ることができる。

前記標準パターンと装置に入力している入力音声の特徴
パターンを比較照合するマツチング部が認識装置内に必
ず存在する。ここで、入力音声パターンは入力された源
音声を一定なフレーム周期毎に特徴を抽出してできる時
系列である。一方、標準パターンは単語辞書として辞書
部に格納されているもので予め前記学習によって同様に
源音声から一定フレーム周期毎に特徴を抽出したものの
時系列である。入力音声を入力して単語辞書の各パター
ンを比較照合することにより現人力音声は特定な単語で
あると決定することになる。

従来この種のマツチング方式には線形と非線形のマツチ
ングとがある。ずなわら１１１語のマツチングにおいて
は入力音声のパターンと標準パターンとを比較する場合
に同一話者が発生した音声における同一単語であっても
時間軸上の伸縮があるため、時間軸の正規化を行う必要
がある。一般にこの時間軸上の伸縮は非線形的な伸縮で
ある。線形マツチングは一定の伸縮率で時間軸上の対応
をとってしまうので処理方式は簡単となるが認識率は低
下するという問題がある。一方、非線形マツチングを非
線形の伸縮を調整して行う場合には時間軸の正規化を行
うための変換関数を入カバターンと標準パターンとの誤
差が最小になるように関数が選択される。このような最
適化を行う場合に入カバターンと標準パターンの各時系
列データのあらゆる組み合わせに対して誤差が最小値と
なるように変換関数を選択するので膨大な計算量が必要
となる。従ってこの計算量を減少する方法として一般的
には動的計画法（グイナミソクブログラミング）すなわ
ちＤＰマツチングを用いることによって計算量を大幅に
減らしているが、このＤＰマツチング法を用いても線形
マツチング方式に比べるとかなり計算量が大きくなり認
識するまでの時間は線形マツチングに比べると長いこと
になる。

〔発明が解決しようとする問題点〕

本発明はこのような従来の欠点を除去し、装置が使われ
る環境によって多少応答時間は長くなっても絶対に誤っ
て欲しくない場合には、ＤＰ法を選択し、多少誤認識が
多くてもすぐに認識結果を得たい場合には線形時間伸縮
マツチング法を使用者の指示によって選択することを可
能とする単語音声認識装置を提供するものである。

〔問題点を解決するための手段〕

本発明は、音声信号を入力し音声の特徴を抽出し且つ区
間検出を実行する音響分析部と、予め前記音響分析部を
介して分析された単語標準パターンを格納する辞書部と
、前記音響分析部を介して出力される前記音声信号の特
徴パターンと前記辞書部の単語標準パターンとを照合す
る照合の処理量の少ない第１の照合部と、前記音声信号
の特徴パターンと前記辞書部からの単語標準パターンと
を照合する照合の処理量の多い第２の照合部と、前記音
響分析部の出力を前記辞書部、前記第１の照合部または
前記第２の照合部に転送することを選択的に行う選択手
段と、前記音響分析部、辞書部、第１及び第２の照合部
、及び前記選択手段を計算処理部を介して制御する制御
手段と、前記第１の照合部と前記第２の照合部とを選択
するための入力手段とを有することを特徴とする単語音
声認識装置を提供することにより達成される。

〔作　　　用〕使用者の指定により応答時間に対する要求が厳しい場合
には線形時間伸縮マツチング法を選択し、認識性能に対
する要求が厳しい場合には認識性能の良いＤＰ法を選択
するようにしている。

〔実　　施　　例〕

次に本発明を図面を参照して説明する。

第１図の音声認識装置は入力された音声人力１を音響的
に分析し、音声入力中に含まれる単語の言語的特徴を抽
出し、予め特定話者に関して音声に含まれる単語の言語
的特徴に関する標準パターンを辞書７に記憶しておき、
現在入力された音声入力の特徴パターンと比較しその類
似性に基づいて認識判定を行う。

マイクより入力される音声人力１は前処理部２に入力さ
れると高域部分が強調される。あるいは以後の処理がデ
ィジタル処理されるものである場合には前処理部２にお
いてアナログ音声入力はディジタル信号にＡ／Ｄ変換器
を介して変換される。

高域強調された音声入力はパラメータ計算部３において
音響的に分析され特に音声の周波数スペクトル包絡が計
算される。周波数スペクトル包絡特性は第２図に示すよ
うな帯域フィルタ群と各帯域フィルタに接続される整流
平滑回路を用いて分析される。すなわち帯域フィルタ群
ＢＰＦは音声周−ｌ〇− 波数帯域を１２個程度の小帯域に分割する。１２個の帯
域フィルタの各出力を整流し、かつ平滑することによっ
て各帯域成分におりる信号のパワーの量が直流電圧値と
して出力されることになる。ｎ個の帯域フィルタの整流
出力はｎ次元ベクトルへ、。

Ａ２　・・Ａｌｌとなりこれによって音声の周波数スペ
クトル包絡の特徴を表すことになる。パラメータ計算部
３の出力は区間検出部４に人力され、そこで各単語の開
始と終わりがパワーの闇値を用いて検出される。即ち入
力される音声人力のパワーを計算し、計算されたパワー
が闇値を越えれば単語の始まりであり、その闇値を上か
ら下に下がればその単語の終点とする。このようにして
各単語が区切られることになり、単語毎に順々に認識処
理を実施することができることになる。区間検出部４の
出力は切換部６に入力され、パラメータ計算部３及び区
間検出部４によって求められた各単語の特徴パターン、
ずなわら特にスペクトラル包絡に関する特徴パターンは
辞書部７、線形照合部９或いはＤＰ照合部８に選１１＜
的に転送される。辞書部７に格納するべき標準パターン
は特定話者に関する言語的内容が既知の単語について予
め前記前処理部２、パラメーター計算部３及び区間検出
部４を介して音響分析し、得られたパターンである。単
語標準パターンは認識単語のそれぞれについて全継続時
間にわたって分析してできる特徴パラメーターの時系列
で表されている。例えば、単語Ａの継続時間長をＴ、と
すればＴＡ内において単語Ａの標準パターンは帯域フィ
ルタ出力を時間標本化して時系列データとして記録され
るのが普通である。すなわち第３図に示すように、１１
４！続時間長、すなわちフレームを横軸にとり、縦軸に
各帯域フィルタのチャネル数に対応してできる行列の各
要素はパラメーター計算部の出力、すなわち各チャネル
のスペクトラル包絡値である。その行列を複数の単語数
分だけ用意して辞書を構成している。

このように構成された標準パターンと、現時点でマイク
より入力される音声人力１の特徴パターンとの類似性を
線形照合部９、又はＤＰ照合部８によって選択的に照合
するところに本発明の特徴がある。

辞書部７に格納された標準パターンと前処理部にパラメ
ーター計算部３、区間検出部４を介して入力されている
音声入力の特徴パターンとの類似性を比較する場合に入
力される音声の音素によってはその音響的特徴が時間的
に変化するものがある。しかも同じ話者の同じ単語であ
っても、単語の時間的な継続時間には伸Ｉｌ打があるの
でこの継続時間長の伸縮を補正して標準パターンと音声
人力の特徴パターンがもっとノ）近い状態において比較
する必要がある。これが継続時間長の補正であり、時間
軸の正規化である。この時間軸の正規化に対して標準パ
ターンと音声人力の特徴パターンとの比較照合方法がい
ろいろと異なってくる。今、認識しようとする音声入力
を辞書部７に記憶されている標準パターンの分析に用い
たのと同じ帯域フィルタＢＰＦを用いてパラメーター計
算部３及び区間検出部４で分析し、その出力を時間標本
化して得られるパターンをＸ＝ｘ、、ｘ２．　　・・・
・〜１３− ｘｌとする。すなわち入カバターンＸはｍ個の時系列パ
ターンより構成されているものとする。一方標準パター
ンに対しても同様で、標準パターンＹを３’＋＋ｙｚ　
　・・・ｙ□という時系列パターンから構成されている
ものとする。なお、各時系列パターンは第３図に示す行
列の列に対応するものであるから帯域フィルタの各出力
を要素として持つベクトルで表現されているものである
。

今、入カバターンＸと標準パターンＹとをマツチングさ
せる場合に入カバターンＸの長さはｍに対して標準パタ
ーンＹの長さがｎであるから、各時系列パターンを１対
ｌに対応させて比較することができない。一般に同一話
者が発生した音声であっても時間軸上の伸縮があるため
に時間軸の正規化を行って比較する必要がある。しかも
この時間軸上の伸縮は一般的には非線形な伸縮であり、
非線形の伸縮に合わせて行う非線形マツチング方式を採
用するか、強制的に一定の伸縮率で時間軸上の対応をと
ってしまう線形マツチングがある。

線形照合部９は一定の伸縮率で時間軸上の対応をとるマ
ツチング方式で処理方法は早いが認識率が低下する照合
方法である。一方、非線形の伸縮を調整して時間軸の対
応をとる非線形伸縮マツチングであるがこの計算を行う
ために動的計画法すなわちＤＰマツチングが利用され、
ＤＰ照合部８はこれに基づく処理部である。例えば人カ
バターンＸの時系列パターンがＸ、からｘｌｌまでの８
個あり、それに対する標準パターンＹがｙｌからｙ。

までの５つしか時系列パターンがない場合に線形マツチ
ング及び非線形マツチングはそれぞれ第４図及び第５図
に示すように各標本点の間の対応が決められる。

第４図（８１，ｆｂｌに示ずように、線形マツチングは
パターンＸと標準パターンＹの各標本の添字をそれぞれ
横軸と縦軸にとった場合に時系列のパターン対応関係を
示す曲線が直線になるように時間的な正規化を行うもの
である。第４図（ｂｌにおいてはｘ、とｘ２は標準パタ
ーンのｙｌと比較され、Ｘ、はｙｚ＋ＸｎとＸ、はｙａ
＋ｘ６はｙ４１ｘ７とｘ８はｙ、と比較することによっ
てこの対応関係の経路は直線となり、従って線形マツチ
ングになるように間引きが行われている。このように線
形マツチングを行うのが線形照合部９である。

第５図（ａｌ、　（ｂｌに示す非線形マツチングにおい
ては対応関係がｆｂｌ図に示すように非線形になってい
る。すなわちｘＩ　＋　　ｘ２　＋　　ｘ、、はｙ、と
対応しｘ４は）’ｚ＋Ｘｓとｘ６はｙ３に対応し、ｘ７
は”Ｉａ＋Ｘｅはｙ、に対応するようになっている。

この場合曲線Ｕは非線形経路となる。そして、この経路
の選択には最適な経路が選択されるように最適アルゴリ
ズムが使われる。この最適化アルゴリズムは一般に最小
２乗法の概念が用いられ、入カバターンＸと標準パター
ンＹとの誤差が最小となるように単調増加関数Ｕが選択
される。最小２乗法に基づく場合に入力の時系列パター
ンＸと標準の時系列パターンＹとの間の全ての相関を計
算することになるので、最適な変換関数Ｕを求めること
は非常に時間がかかる。そのため計算量を大幅に減らす
ために一般的に動的計画法（ダイナミーツクプログラミ
ング：ＤＰ法）が用いられている。

このＤＰ法は標準パターンと人カバターンのあらゆるす
べての時系列パターンとを組み合わせてベクトル距離を
求めるのではなくベクトル距離を変換関数Ｕの初期値か
ら近傍の時系列パターンに関するベクトル距離のみを漸
化的に順次最適化を行って変換関数Ｕを求めていくもの
である。このように入カバターンと標準パターンとの誤
差を最小にするような変換関数Ｕを選択するＤＰ方式は
最適化アルゴリズムが含まれているので前記線形マツチ
ング方式に托べて６１算Ｍは大きくなるが、時間伸縮に
関して最適化させるので認識性能が非常に良いことにな
る。従って本発明では前記線形時間伸縮マツチング法と
前記ＤＰマツチング方式を切替部６の制御によって選択
して処理および認識性能に関して最適になるようにして
いる。

線形照合部９またはＤＰ照合部８によって得られた認識
結果は制御部１０を介してホスト計算機５に転送され適
当な処理が行われる。なお、第１図の単語音声認識装置
において各部の制御は制御部１０を介してホスト計算機
５からの制御命令に従って制御される。

以上述べたようにＤＰ法と線形時間伸縮マツチング法と
を使用者が第１図のキーボード１１より選択用のキーを
押すことによって切り替え部６を制御し、選択的にマツ
チング法を変える。すなわち、本発明では応答時間の要
求が厳しい場合には線形照合部９を選択し、線形時間伸
縮マツチング法を使い、認識性能に対する要求が厳しい
場合にはＤＰ照合部８を選択し照合の処理量は多いけれ
ども認識性能の良いＤＰ法を用いてマツチングを実行す
るようにしている。このように実行する理由は装置が使
われる環境によっては多少応答時間が長くなっても絶対
に誤って欲しくない場合と、多少誤認識が多くてもすぐ
に認識結果を得たい場合があるからである。また一般に
話者によってはどちらの方式で認識しても認識率が良く
、応答時間のかからない線形時間伸縮マツチング法で認
識したほうが良い人がある。逆に処理量の少ない方式で
は認識率が極端に悪く、処理量の多いＤＰ法で認識しな
ければ使いものにならない人もいる。

このような場合に本発明は使用者の指定によりキーボー
ドのキーからＤＰ法か線形時間伸縮マツチング法かを選
択するようにし、それぞれの方式を使い分けることを特
徴としている。

次に本発明の単語音声ｔ！識詰装置動作について第６図
のフローチャー１・を用いて説明する。操作が開始され
ると使用者はまず、ＤＰ法の選択か、線形時間伸縮マツ
チング法の選択を第１図のキーボード１１よりキーを用
いて選択する。即ちＤＰモードか線形モードかのモード
指定を行う。その後音声を入力すると、ホスト計算機５
は、キーから入力されたモード指定がＤＰモードである
か線形モードであるかの判定を行う。モード指定がＤＰ
モードであるならば、ＤＰ照合部８を用いてＤＰ法に基
づくマツチング法で標準パターンと音声入力の特徴パタ
ーンとのマツチングを実行する。

もしモード指定が線形モードであるならば、処理量の少
ない線形時間伸縮マツチング法を線形照合部９で実行す
る。得られた認識結果は制御部１０を介してホスト計算
機５に転送され認識結果に基づく処理を実行することに
なる。この結果認識終了であるならば停止するが、さら
に認識動作を実行する場合にはモード変更を行うかどう
かを決定する。初期状態において指定されたモード指定
のまま操作を実行する場合にはそのまま次の音声を入力
し、以上述べた動作を繰り返すことになる。

もしモード変更を行う場合には使用者はキーボード１１
を用いて現在のモードと異なるモードを指定し、音声を
再び入力することになる。そして変更されたモードに従
ってＤＰ法か、線形時間伸縮マツチング法かのどちらか
を実行して認識していくことになる。

〔発明の効果〕

本発明はこのように使用者の指定により応答時間の要求
が厳しい場合には線形時間伸縮マツチング法を採用し、
認識性能の対する要求が厳しい場合にはＤＰ法を用いる
ことによって使用者の発声する音声の特徴に基づいて認
識性能と応答時間を最適にすることができるという効果
がある。

【図面の簡単な説明】

第１図は本発明の単語音声認識装置の構成図、第２図は
本発明の単語音声認識装置のパラメータ計算部の構成図
、第３図は本発明の単語音声認識装置の辞書部に格納され
る標準パターン、第４図は本発明の単語音声認識装置の線形伸縮マツチン
グ法の実施例図、第５図は本発明の単語音声認識装置の非線形伸縮マツチ
ング法（ＤＰ法）の実施例図、第６図は本発明の単語音
声認識装置の動作のフローチャートを示す図である。１・・・音声入力部、２・・・前処理部、３・・・パラメータ計算部、４・・・区間検出部、５・・・ホスト計算機、６・・・切替部、７・・・辞書部、８・・・ＤＰ照合部、９・・・線形照合部、１１・・・キーボード。第２図フレーム第３図第４図（ａ）第４図（ｂ）第５図（ＣＩ）（ｂ）第６図

Claims

【特許請求の範囲】

（１）音声信号を入力し音声の特徴を抽出し且つ区間検
出を実行する音響分析部と、予め前記音響分析部を介して分析された単語標準パター
ンを格納する辞書部と、前記音響分析部を介して出力される前記音声信号の特徴
パターンと前記辞書部の単語標準パターンとを照合する
照合の処理量の少ない第１の照合部と、前記音声信号の特徴パターンと前記辞書部からの単語標
準パターンとを照合する照合の処理量の多い第２の照合
部と、前記音響分析部の出力を前記辞書部、前記第１の照合部
または前記第２の照合部に転送することを選択的に行う
選択手段と、前記音響分析部、辞書部、第１及び第２の照合部、及び
前記選択手段を計算処理部を介して制御する制御手段と
、前記第１の照合部と前記第２の照合部とを選択するため
の入力手段とを有することを特徴とする単語音声認識装
置。
（２）前記第１の照合部は線形マッチングを行うことを
特徴とする特許請求の範囲第１項記載の単語音声認識装
置。
（３）前記第２の照合部は非線形マッチングを行うこと
を特徴とする特許請求の範囲第１項記載の単語音声認識
装置。