JPS62119598A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS62119598A
JPS62119598A JP60260294A JP26029485A JPS62119598A JP S62119598 A JPS62119598 A JP S62119598A JP 60260294 A JP60260294 A JP 60260294A JP 26029485 A JP26029485 A JP 26029485A JP S62119598 A JPS62119598 A JP S62119598A
Authority
JP
Japan
Prior art keywords
matching
section
word
pattern
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60260294A
Other languages
English (en)
Inventor
教幸 藤本
佐藤 泰雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60260294A priority Critical patent/JPS62119598A/ja
Publication of JPS62119598A publication Critical patent/JPS62119598A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概  要〕 種々の入力端末装置のうち音声をそのまま入力するいわ
ゆる音声入力装置を実現するための技術が音声認識技術
である。認識装置を実現するにあたって音節や単語等の
単位で区切って発声した音声を認識する場合には比較的
容易に実現でき、特に特定話者の単語認識装置は種々の
分野で実用化されている。この種の中門音声認識装置に
おいて、単語の標準パターンと人力音声の特徴パターン
を照合する場合に同一発声者の同一111語であっても
音素によっては音響的特徴が時間的に変化するために一
般に継続時間長の伸縮を補正してマツチングを取るよう
にしている。
この伸縮方法には非線形及び線形方式があり、非線形方
式は一般に動的計画法(ダイナミックプログラミングD
P)が用いている。DP法は標準パターンと入カバター
ンとの誤差が最小になるように時間軸伸縮用の変換関数
を最適化アルゴリズムに従って選択しているので認識性
能を上げることができるが処理量が多くなり時間がかか
るという問題がある。一方、線形時間伸縮マツチング法
は最適化アルゴリズムが含まれていないので、処理量が
少なく処理時間を減少さ〜Uることができるが、認識性
能が低下するという問題がある。
本発明はこのような単語音声認識装置において、使用者
の指定により照合の処理量の少ない線形時間伸縮マツチ
ング法と照合の処理量の多いけれども認識性能のよいD
P方式を使い分けることを特徴としている。すなわち装
置のつかわれる環境によって多少応答時間が長くなって
も絶対に誤って欲しくない場合にはDP法を選択し、多
少誤認識が多くてもすぐに認識結果を得たい場合には線
形時間伸縮マツチング法を利用することによって、本発
明は応答時間に対する要求が厳しい場合と、認識性能に
対する要求が厳しい場合の両方に使うことができるとい
う効果がある。
〔産業上の利用分野〕
本発明は音声入力装置を実現するための基本となる音声
認識装置に係り、特に音節や単語等の単位で区切って発
声した音声を単語ごとに認識していく特定話者を対象と
する単語音声認識装置の構成に関する。
更に、本発明は使用者の指定により照合の処理量の少な
い簡単な線形時間伸縮マツチング法と照合の処理量は多
いけれども認識性能の良いDP方式を使い分けることを
可能とする単語音声認識装置の構成に関する。
〔従来の技術〕
集積化技術の進歩に伴い、マンマシンインターフェース
として利用する種々の入力端末装置のうち音声をそのま
ま入力する音声人力装置が実用化されてきた。音声入力
装置を用いれば情報とするべき入力データの入力速度を
早くでき、入力装置の操作に熟練していない人でも音声
で人力データを入力できるという特徴がある。この音声
入力装置を実現するための基本となるのが、音声認識技
術である。音声L2F、fill技術において人間が自
然に発生した文音声は音響的特性がアクセントや抑揚な
どによって複雑に変形するので、認識するのが非常に難
しく、従って音節や単藺などの単位で文音声を区切って
発声させ、個々の音節や単語を認識していく、いわゆる
離散型単語認識装置がまず実用化されている。そして語
′Jl数はim常、数百語以上であるが、認識する語霊
数がこのように少なくても工場の製品検査等には有効に
利用できる。このような離散単語認識装置においては単
語毎に区切りを検出して順番に単語を認識していく。単
語認識装置において、特定の人の音声を分析して得られ
る標準パターンを用いるとその発声者の音声入力に対し
ては高い認識率が得られる。そこで、標準パターンを構
成する場合には特定の発声者に対して発声者毎に作り変
える学習機能を用いて認識するようにした特定話者用音
声認識装置は全単語の学習を数回行うことにより99%
以上の認識率を得ることができる。
前記標準パターンと装置に入力している入力音声の特徴
パターンを比較照合するマツチング部が認識装置内に必
ず存在する。ここで、入力音声パターンは入力された源
音声を一定なフレーム周期毎に特徴を抽出してできる時
系列である。一方、標準パターンは単語辞書として辞書
部に格納されているもので予め前記学習によって同様に
源音声から一定フレーム周期毎に特徴を抽出したものの
時系列である。入力音声を入力して単語辞書の各パター
ンを比較照合することにより現人力音声は特定な単語で
あると決定することになる。
従来この種のマツチング方式には線形と非線形のマツチ
ングとがある。ずなわら111語のマツチングにおいて
は入力音声のパターンと標準パターンとを比較する場合
に同一話者が発生した音声における同一単語であっても
時間軸上の伸縮があるため、時間軸の正規化を行う必要
がある。一般にこの時間軸上の伸縮は非線形的な伸縮で
ある。線形マツチングは一定の伸縮率で時間軸上の対応
をとってしまうので処理方式は簡単となるが認識率は低
下するという問題がある。一方、非線形マツチングを非
線形の伸縮を調整して行う場合には時間軸の正規化を行
うための変換関数を入カバターンと標準パターンとの誤
差が最小になるように関数が選択される。このような最
適化を行う場合に入カバターンと標準パターンの各時系
列データのあらゆる組み合わせに対して誤差が最小値と
なるように変換関数を選択するので膨大な計算量が必要
となる。従ってこの計算量を減少する方法として一般的
には動的計画法(グイナミソクブログラミング)すなわ
ちDPマツチングを用いることによって計算量を大幅に
減らしているが、このDPマツチング法を用いても線形
マツチング方式に比べるとかなり計算量が大きくなり認
識するまでの時間は線形マツチングに比べると長いこと
になる。
〔発明が解決しようとする問題点〕
本発明はこのような従来の欠点を除去し、装置が使われ
る環境によって多少応答時間は長くなっても絶対に誤っ
て欲しくない場合には、DP法を選択し、多少誤認識が
多くてもすぐに認識結果を得たい場合には線形時間伸縮
マツチング法を使用者の指示によって選択することを可
能とする単語音声認識装置を提供するものである。
〔問題点を解決するための手段〕
本発明は、音声信号を入力し音声の特徴を抽出し且つ区
間検出を実行する音響分析部と、予め前記音響分析部を
介して分析された単語標準パターンを格納する辞書部と
、前記音響分析部を介して出力される前記音声信号の特
徴パターンと前記辞書部の単語標準パターンとを照合す
る照合の処理量の少ない第1の照合部と、前記音声信号
の特徴パターンと前記辞書部からの単語標準パターンと
を照合する照合の処理量の多い第2の照合部と、前記音
響分析部の出力を前記辞書部、前記第1の照合部または
前記第2の照合部に転送することを選択的に行う選択手
段と、前記音響分析部、辞書部、第1及び第2の照合部
、及び前記選択手段を計算処理部を介して制御する制御
手段と、前記第1の照合部と前記第2の照合部とを選択
するための入力手段とを有することを特徴とする単語音
声認識装置を提供することにより達成される。
〔作   用〕 使用者の指定により応答時間に対する要求が厳しい場合
には線形時間伸縮マツチング法を選択し、認識性能に対
する要求が厳しい場合には認識性能の良いDP法を選択
するようにしている。
〔実  施  例〕
次に本発明を図面を参照して説明する。
第1図の音声認識装置は入力された音声人力1を音響的
に分析し、音声入力中に含まれる単語の言語的特徴を抽
出し、予め特定話者に関して音声に含まれる単語の言語
的特徴に関する標準パターンを辞書7に記憶しておき、
現在入力された音声入力の特徴パターンと比較しその類
似性に基づいて認識判定を行う。
マイクより入力される音声人力1は前処理部2に入力さ
れると高域部分が強調される。あるいは以後の処理がデ
ィジタル処理されるものである場合には前処理部2にお
いてアナログ音声入力はディジタル信号にA/D変換器
を介して変換される。
高域強調された音声入力はパラメータ計算部3において
音響的に分析され特に音声の周波数スペクトル包絡が計
算される。周波数スペクトル包絡特性は第2図に示すよ
うな帯域フィルタ群と各帯域フィルタに接続される整流
平滑回路を用いて分析される。すなわち帯域フィルタ群
BPFは音声周−l〇− 波数帯域を12個程度の小帯域に分割する。12個の帯
域フィルタの各出力を整流し、かつ平滑することによっ
て各帯域成分におりる信号のパワーの量が直流電圧値と
して出力されることになる。n個の帯域フィルタの整流
出力はn次元ベクトルへ、。
A2 ・・Allとなりこれによって音声の周波数スペ
クトル包絡の特徴を表すことになる。パラメータ計算部
3の出力は区間検出部4に人力され、そこで各単語の開
始と終わりがパワーの闇値を用いて検出される。即ち入
力される音声人力のパワーを計算し、計算されたパワー
が闇値を越えれば単語の始まりであり、その闇値を上か
ら下に下がればその単語の終点とする。このようにして
各単語が区切られることになり、単語毎に順々に認識処
理を実施することができることになる。区間検出部4の
出力は切換部6に入力され、パラメータ計算部3及び区
間検出部4によって求められた各単語の特徴パターン、
ずなわら特にスペクトラル包絡に関する特徴パターンは
辞書部7、線形照合部9或いはDP照合部8に選11<
的に転送される。辞書部7に格納するべき標準パターン
は特定話者に関する言語的内容が既知の単語について予
め前記前処理部2、パラメーター計算部3及び区間検出
部4を介して音響分析し、得られたパターンである。単
語標準パターンは認識単語のそれぞれについて全継続時
間にわたって分析してできる特徴パラメーターの時系列
で表されている。例えば、単語Aの継続時間長をT、と
すればTA内において単語Aの標準パターンは帯域フィ
ルタ出力を時間標本化して時系列データとして記録され
るのが普通である。すなわち第3図に示すように、11
4!続時間長、すなわちフレームを横軸にとり、縦軸に
各帯域フィルタのチャネル数に対応してできる行列の各
要素はパラメーター計算部の出力、すなわち各チャネル
のスペクトラル包絡値である。その行列を複数の単語数
分だけ用意して辞書を構成している。
このように構成された標準パターンと、現時点でマイク
より入力される音声人力1の特徴パターンとの類似性を
線形照合部9、又はDP照合部8によって選択的に照合
するところに本発明の特徴がある。
辞書部7に格納された標準パターンと前処理部にパラメ
ーター計算部3、区間検出部4を介して入力されている
音声入力の特徴パターンとの類似性を比較する場合に入
力される音声の音素によってはその音響的特徴が時間的
に変化するものがある。しかも同じ話者の同じ単語であ
っても、単語の時間的な継続時間には伸Il打があるの
でこの継続時間長の伸縮を補正して標準パターンと音声
人力の特徴パターンがもっとノ)近い状態において比較
する必要がある。これが継続時間長の補正であり、時間
軸の正規化である。この時間軸の正規化に対して標準パ
ターンと音声人力の特徴パターンとの比較照合方法がい
ろいろと異なってくる。今、認識しようとする音声入力
を辞書部7に記憶されている標準パターンの分析に用い
たのと同じ帯域フィルタBPFを用いてパラメーター計
算部3及び区間検出部4で分析し、その出力を時間標本
化して得られるパターンをX=x、、x2.  ・・・
・〜13− xlとする。すなわち入カバターンXはm個の時系列パ
ターンより構成されているものとする。一方標準パター
ンに対しても同様で、標準パターンYを3’++yz 
 ・・・y□という時系列パターンから構成されている
ものとする。なお、各時系列パターンは第3図に示す行
列の列に対応するものであるから帯域フィルタの各出力
を要素として持つベクトルで表現されているものである
今、入カバターンXと標準パターンYとをマツチングさ
せる場合に入カバターンXの長さはmに対して標準パタ
ーンYの長さがnであるから、各時系列パターンを1対
lに対応させて比較することができない。一般に同一話
者が発生した音声であっても時間軸上の伸縮があるため
に時間軸の正規化を行って比較する必要がある。しかも
この時間軸上の伸縮は一般的には非線形な伸縮であり、
非線形の伸縮に合わせて行う非線形マツチング方式を採
用するか、強制的に一定の伸縮率で時間軸上の対応をと
ってしまう線形マツチングがある。
線形照合部9は一定の伸縮率で時間軸上の対応をとるマ
ツチング方式で処理方法は早いが認識率が低下する照合
方法である。一方、非線形の伸縮を調整して時間軸の対
応をとる非線形伸縮マツチングであるがこの計算を行う
ために動的計画法すなわちDPマツチングが利用され、
DP照合部8はこれに基づく処理部である。例えば人カ
バターンXの時系列パターンがX、からxllまでの8
個あり、それに対する標準パターンYがylからy。
までの5つしか時系列パターンがない場合に線形マツチ
ング及び非線形マツチングはそれぞれ第4図及び第5図
に示すように各標本点の間の対応が決められる。
第4図(81,fblに示ずように、線形マツチングは
パターンXと標準パターンYの各標本の添字をそれぞれ
横軸と縦軸にとった場合に時系列のパターン対応関係を
示す曲線が直線になるように時間的な正規化を行うもの
である。第4図(blにおいてはx、とx2は標準パタ
ーンのylと比較され、X、はyz+XnとX、はya
+x6はy41x7とx8はy、と比較することによっ
てこの対応関係の経路は直線となり、従って線形マツチ
ングになるように間引きが行われている。このように線
形マツチングを行うのが線形照合部9である。
第5図(al、 (blに示す非線形マツチングにおい
ては対応関係がfbl図に示すように非線形になってい
る。すなわちxI +  x2 +  x、、はy、と
対応しx4は)’z+Xsとx6はy3に対応し、x7
は”Ia+Xeはy、に対応するようになっている。
この場合曲線Uは非線形経路となる。そして、この経路
の選択には最適な経路が選択されるように最適アルゴリ
ズムが使われる。この最適化アルゴリズムは一般に最小
2乗法の概念が用いられ、入カバターンXと標準パター
ンYとの誤差が最小となるように単調増加関数Uが選択
される。最小2乗法に基づく場合に入力の時系列パター
ンXと標準の時系列パターンYとの間の全ての相関を計
算することになるので、最適な変換関数Uを求めること
は非常に時間がかかる。そのため計算量を大幅に減らす
ために一般的に動的計画法(ダイナミーツクプログラミ
ング:DP法)が用いられている。
このDP法は標準パターンと人カバターンのあらゆるす
べての時系列パターンとを組み合わせてベクトル距離を
求めるのではなくベクトル距離を変換関数Uの初期値か
ら近傍の時系列パターンに関するベクトル距離のみを漸
化的に順次最適化を行って変換関数Uを求めていくもの
である。このように入カバターンと標準パターンとの誤
差を最小にするような変換関数Uを選択するDP方式は
最適化アルゴリズムが含まれているので前記線形マツチ
ング方式に托べて61算Mは大きくなるが、時間伸縮に
関して最適化させるので認識性能が非常に良いことにな
る。従って本発明では前記線形時間伸縮マツチング法と
前記DPマツチング方式を切替部6の制御によって選択
して処理および認識性能に関して最適になるようにして
いる。
線形照合部9またはDP照合部8によって得られた認識
結果は制御部10を介してホスト計算機5に転送され適
当な処理が行われる。なお、第1図の単語音声認識装置
において各部の制御は制御部10を介してホスト計算機
5からの制御命令に従って制御される。
以上述べたようにDP法と線形時間伸縮マツチング法と
を使用者が第1図のキーボード11より選択用のキーを
押すことによって切り替え部6を制御し、選択的にマツ
チング法を変える。すなわち、本発明では応答時間の要
求が厳しい場合には線形照合部9を選択し、線形時間伸
縮マツチング法を使い、認識性能に対する要求が厳しい
場合にはDP照合部8を選択し照合の処理量は多いけれ
ども認識性能の良いDP法を用いてマツチングを実行す
るようにしている。このように実行する理由は装置が使
われる環境によっては多少応答時間が長くなっても絶対
に誤って欲しくない場合と、多少誤認識が多くてもすぐ
に認識結果を得たい場合があるからである。また一般に
話者によってはどちらの方式で認識しても認識率が良く
、応答時間のかからない線形時間伸縮マツチング法で認
識したほうが良い人がある。逆に処理量の少ない方式で
は認識率が極端に悪く、処理量の多いDP法で認識しな
ければ使いものにならない人もいる。
このような場合に本発明は使用者の指定によりキーボー
ドのキーからDP法か線形時間伸縮マツチング法かを選
択するようにし、それぞれの方式を使い分けることを特
徴としている。
次に本発明の単語音声t!識詰装置動作について第6図
のフローチャー1・を用いて説明する。操作が開始され
ると使用者はまず、DP法の選択か、線形時間伸縮マツ
チング法の選択を第1図のキーボード11よりキーを用
いて選択する。即ちDPモードか線形モードかのモード
指定を行う。その後音声を入力すると、ホスト計算機5
は、キーから入力されたモード指定がDPモードである
か線形モードであるかの判定を行う。モード指定がDP
モードであるならば、DP照合部8を用いてDP法に基
づくマツチング法で標準パターンと音声入力の特徴パタ
ーンとのマツチングを実行する。
もしモード指定が線形モードであるならば、処理量の少
ない線形時間伸縮マツチング法を線形照合部9で実行す
る。得られた認識結果は制御部10を介してホスト計算
機5に転送され認識結果に基づく処理を実行することに
なる。この結果認識終了であるならば停止するが、さら
に認識動作を実行する場合にはモード変更を行うかどう
かを決定する。初期状態において指定されたモード指定
のまま操作を実行する場合にはそのまま次の音声を入力
し、以上述べた動作を繰り返すことになる。
もしモード変更を行う場合には使用者はキーボード11
を用いて現在のモードと異なるモードを指定し、音声を
再び入力することになる。そして変更されたモードに従
ってDP法か、線形時間伸縮マツチング法かのどちらか
を実行して認識していくことになる。
〔発明の効果〕
本発明はこのように使用者の指定により応答時間の要求
が厳しい場合には線形時間伸縮マツチング法を採用し、
認識性能の対する要求が厳しい場合にはDP法を用いる
ことによって使用者の発声する音声の特徴に基づいて認
識性能と応答時間を最適にすることができるという効果
がある。
【図面の簡単な説明】
第1図は本発明の単語音声認識装置の構成図、第2図は
本発明の単語音声認識装置のパラメータ計算部の構成図
、 第3図は本発明の単語音声認識装置の辞書部に格納され
る標準パターン、 第4図は本発明の単語音声認識装置の線形伸縮マツチン
グ法の実施例図、 第5図は本発明の単語音声認識装置の非線形伸縮マツチ
ング法(DP法)の実施例図、第6図は本発明の単語音
声認識装置の動作のフローチャートを示す図である。 1・・・音声入力部、 2・・・前処理部、 3・・・パラメータ計算部、 4・・・区間検出部、 5・・・ホスト計算機、 6・・・切替部、 7・・・辞書部、 8・・・DP照合部、 9・・・線形照合部、 11・・・キーボード。 第2図 フレーム 第3図 第4図 (a) 第4図 (b) 第5図 (CI) (b) 第6図

Claims (3)

    【特許請求の範囲】
  1. (1)音声信号を入力し音声の特徴を抽出し且つ区間検
    出を実行する音響分析部と、 予め前記音響分析部を介して分析された単語標準パター
    ンを格納する辞書部と、 前記音響分析部を介して出力される前記音声信号の特徴
    パターンと前記辞書部の単語標準パターンとを照合する
    照合の処理量の少ない第1の照合部と、 前記音声信号の特徴パターンと前記辞書部からの単語標
    準パターンとを照合する照合の処理量の多い第2の照合
    部と、 前記音響分析部の出力を前記辞書部、前記第1の照合部
    または前記第2の照合部に転送することを選択的に行う
    選択手段と、 前記音響分析部、辞書部、第1及び第2の照合部、及び
    前記選択手段を計算処理部を介して制御する制御手段と
    、 前記第1の照合部と前記第2の照合部とを選択するため
    の入力手段とを有することを特徴とする単語音声認識装
    置。
  2. (2)前記第1の照合部は線形マッチングを行うことを
    特徴とする特許請求の範囲第1項記載の単語音声認識装
    置。
  3. (3)前記第2の照合部は非線形マッチングを行うこと
    を特徴とする特許請求の範囲第1項記載の単語音声認識
    装置。
JP60260294A 1985-11-20 1985-11-20 単語音声認識装置 Pending JPS62119598A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60260294A JPS62119598A (ja) 1985-11-20 1985-11-20 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60260294A JPS62119598A (ja) 1985-11-20 1985-11-20 単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS62119598A true JPS62119598A (ja) 1987-05-30

Family

ID=17346046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60260294A Pending JPS62119598A (ja) 1985-11-20 1985-11-20 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS62119598A (ja)

Similar Documents

Publication Publication Date Title
US7089184B2 (en) Speech recognition for recognizing speaker-independent, continuous speech
JP2815579B2 (ja) 音声認識における単語候補削減装置
JP2008309856A (ja) 音声認識装置及び会議システム
US6032115A (en) Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
JPS62119598A (ja) 単語音声認識装置
KR100480506B1 (ko) 음성 인식 방법
JP3254977B2 (ja) 音声認識方法及び音声認識装置
JP2002229592A (ja) 音声認識装置
JP2520392B2 (ja) 単語音声認識装置
JPS6211731B2 (ja)
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JPS62119599A (ja) 単語音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH07230293A (ja) 音声認識装置
JP2520391B2 (ja) 単語音声認識装置
JPH04324499A (ja) 音声認識装置
JP2000200093A (ja) 音声認識装置及びそれに用いる音声認識方法並びにその制御プログラムを記録した記録媒体
JPS6126678B2 (ja)
KR100206799B1 (ko) 화자 인식형 캠코더
JPS6211732B2 (ja)
JPH02173699A (ja) 音声認識装置
JPH06324696A (ja) 音声認識装置及び方法
JPS62119594A (ja) 単語音声認識装置
JPS59211098A (ja) 音声認識装置