JPS5975299A

JPS5975299A - 音声認識装置

Info

Publication number: JPS5975299A
Application number: JP57186981A
Authority: JP
Inventors: 栗野　清道; 花野井　歳弘
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-10-25
Filing date: 1982-10-25
Publication date: 1984-04-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、音声認識装置に関し、特に入力音声の保存、
修正、および高速音声入力が可能な音声認識装置に関す
るものである。

〔従来技術〕

従来の音声認識装置は、第１図に示すように、マイクロ
フォン１、特徴抽出部２、認識処理部３、および標準パ
ターン・メモリ８から構成される。

認識すべき音声をマイクロフォン１で電気信号に変換し
た後、特徴抽出部２で時系列の音声時「孜データとして
抽出すると、次の認識処Ｊｊ（４部３ではあらかじめ標
準パターンとしてメモリ８に格納されている音声特徴デ
ータと、入力音声の特徴データとの整合度の計算を行い
、整合度の高い標準パターンを入力音声と同一と判断し
て、認！識処理を行い、その標準パターンを文字コード
等に変換して出力する（ＯＵＴ）。

しかし、このような音声認識装置において、入力音声は
音声特徴データの形で記憶装置内に保存することができ
るが、音声そのものを保存できｔ「いため、入力ソース
としての音声を後で再生することは不可能であり、した
がって誤認識、入力拒否等の要因を解析することは困難
である。

また、マイクロフォン１を使用しているため、音声入力
場所が音声認識装置の近傍に限定される。。

これを解決する方法として、ワイヤレス・マイクロフォ
ン送受信機を装備した音声認識装置ｄも出現しているが
、任意の場所から入力することはできず、やはり制限が
存在する。このように、従来の音声認識装置は、入力音
声の保存および再生の手段を具備せず、また音声入力場
所が音声認識装置の近辺に限定されるという欠点がある
。

次に、正しく認識できないときの制御のため、第２図に
示すように、認識処理部３の後段に、入力制御部６と表
示部７が接続され、認識処理部５で認識処理された後、
認識結果とエラー情報が入力制御部６に送出される。入
力制御部６では、認識結果を表示部７に表示するととも
に、その結果を上位装置あるいは記憶装置に転送する（
ＯＵＴ）。

もし、正しく認識されなかった場合、入力制御部６は表
示部７によりオペレータに対して再入力要求を行う。

この場合、音声入力をマイクロフォン１から録音再生装
置に切り替えて、録音した音声を再生しながら音声入力
することも可能である。

しかし、この方法では、正しい認識が行われなかった場
合、その度ごとにオペレータに対して再人力が要求され
るので、オペレータが再入力するまでは、次の入力処理
を行うことができない。したがって、オペレータが直接
音声入力を行わない再生音で入力処理を行う場合でも、
一連の入力処理が終了するまで、オペレータは入力処理
を監視し続ける必要がある。

次に、標準パターン・メモリ５への登録について述べる
。

音声認識処理を行うためには、先ず登録モードにおいて
、認識すべき音声の標準パターンを作成する必要がある
。第３図に示すように、音声は、音声入力部１′で特徴
抽出に最適な形に処理され、特徴抽出部２で音声特徴デ
ータが時系列で抽出された後、音声特徴データは時系列
標準パターンとして標準パターン・メモリ５に格納され
、格納された標準パターンは最終的には外部記憶装置に
出力される。音声特徴データは、ディジタル信号として
出力されるため、特徴抽出部２はアナログ・ディジタル
変換機能と、音声特徴データのサンプリング機能を具備
している。サンプリング速度は、音声としての特徴デー
タの時間的な冗長度によって定められる。

一方、認識モードにおいては、先ず、登録モードで作成
した標準パターンを外部記憶装置がら標準パターン・メ
モリ５にロードする。標準ハターンがメモリ５に格納さ
れると、認識のための音声が入力され、認識処理が行わ
れるが、これは第１図において説明したとおりである。

音声の特徴抽出法としては、音声の周波数スペクトルを
抽出する方法が、比較的簡単な構成により高い認識率が
得られるため、最も一般に用いられている。音声周波数
スペクトルは、第４図に示すように、帯域特性の異なる
複数の周波数帯域通過フィルタ９を通すことにより得ら
れる。特徴抽出部２においては、これらの帯域通過フィ
ルタ９の出力をアナログ・ディジタル変換器１０を通し
てディジタル信号に変換し、一定のサンプリング周期で
サンプリングする。サンプリング周期は、音声の周波数
スペクトルの時間的冗長度がｌｏｍ’ｓ〜３０ｍ５であ
ることから、通常１ｍＳ〜２０ｍ５に設定される。

このような音声認識装置で、録音再生音を認識する場合
、再生速度が録音速度と同じであれば、通常のときと同
じ標準パターン、同じ特徴抽出、同じ認識方法で認識す
ることが可能であるが、再生速度が録音速度と異なる場
合には、再生音声の音声部分の長さが長くなったり、短
かくなったりするため、標準パターンとの時系列方向の
整合度が小さくなり、その結果として正常な認識ができ
な（なるのが普通である。さらに、再生速度が録音速度
に比較して高速になる場合、標準パターン作成時のサン
プリング周期に比較して入カバターンのサンプリング周
期は相対的に長くなり、特徴データの時間的な冗長度を
越えるような場合には、特に一部の特徴データが消失す
ることもある。さらにまた、周波数スペクトルを特徴デ
ータとして使用している音声認識装置においては、周波
数スペクトルが再生速度に比例して高域側にずれるため
、特徴データ自体も標準パターンと異なったものとなり
、さらに標準パターンとの整合度の低−十の原因になっ
ている。

このように、再生速度が録音速度と異なった肉生音を入
力する場合、特に高速入力のために高速再生音を入力す
る場合には、通常の速度の音声と同一の装置を用いて行
うことは不可能であった。

〔発明の目的〕

本発明の目的は、これら従来の欠点を改善するため、入
力音声の保存あるいは再生を行って、音声入力の場所の
制限をなくすことができる音声認識装置を提供すること
にある。また、本発明の第２の目的は、入力処理終了後
にその結果を修正することができ、オペレータが常時入
力装置を監視することなく、音声を入力できる音声認識
装置を提供することにある。さらに、本発明の第３の目
的は、録音速度と異なる再生速度で再生した音声を認識
することにより、高速で音声を入力できる音声認識装置
を提供することにある。

〔発明の概要〕

本発明の音声認識装置は、録音再生手段およびその録音
再生手段を制御するための録音再生制御手段を設けるこ
とに特徴があり、また、認識結果とそのエラー情報を、
再生音の記録媒体上の位置（７）情報と対にして記憶する記憶装置、およびその記憶装置
における音声のうち認識できなかったものを入力処理終
了後に一括して修正する手段ケ設けることに特徴がある
。さらに、本発明の音声認識装置は、通常の発声での音
声認識手段以外に、再生音、特に録音速度と異なる再生
速度で再生した音声を認識するだめの入力部および特徴
抽出部を設けることに特徴を有している。

以下、本発明の各実施例について、図面により説明する
。

〔発明の実施例〕

第５図は、本発明の第１の実施例を示す音声認識装置の
ブロック図である。

マイクロフォン１、特徴抽出部２、認識処理部３、およ
び標準パターン・メモリ５からなる従来の構成に、新し
く録音再生機構ヰと録音再生制御機構８を設ける。音声
は、マイクロフォン１から特徴抽出部２に入力される前
に、録音再生制御機構８に入力する。録音再生制御機構
８においては、外部から録音再生モード信号ａが指定さ
れること（８）により、録音モードと再生モードの各動作が切り替わり
行われる。

録音モードの場合、音声認識装置が音声人力状態になる
と、録音再生制御機構８は録音再生手段牛を起動して、
マイクロフォン１からの音声信号を録音するとともに、
マイクロフォンｌからの音声信号を特徴抽出部２に送る
。特徴抽出部２に送られた音声信号は、それ以降、従来
の音声認識装置と同じ処理が行われて認識される。この
場合、入力された音声は必ず録音再生機構Φ内の記録媒
体に音声信号として録音されるため、その記録媒体を再
生することにより、誤認識あるいは入力拒否等が起きた
ときにも、その原因究明が簡単に行え、また入力ソース
としての保存が可能となる。

次に、再生モードの場合、録音再生制御機構８は録音再
生機構４内の記録媒体を再生し、その音声信号をマイク
ロフォン１からの音声信号のかわりに特徴抽出部２に送
り、以降は、従来の音声認識装置と同じように認識処理
を行う。

このように、再生モードで、記録媒体からの再主音の認
識を行うことができるので、あらかじめ市販の録音器等
により入力音声を録音しておき、後で再生モードにより
音声を入力することが可能となる。その結果として、音
声入力場所を任忌に選択できることになり、音声入力場
所を音声認識装置の近傍に限定しなくてよいことになる
７、また、再生モードで認識処理中は、オペレータを必
ずしも要しないため、音声入力の時間的制約も緩和′Ｃ
きる。

第６図は、本発明の第２の実施例を示すａ声、は識装置
のブロック図である。

第６図においては、第２図に下す従来の認識装置の入力
部１′に録音再生機横手を設けるとともに、出力側の入
力制御部６に記憶装置１２とキー人力装置１３を新しく
付加する。

先ず、音声入力処理の場合、入力部１′に１’＆　Ａ；
’；ａされている録音再生機構４内の記録媒体を＋１１
−生じ、この再生された音声を入力として認識処坤部昌
で認識処理を行い、入力制御部６ではその結果とエラー
情報、および再生音の記録媒体−Ｈの位置情叩として使
用す°る一連の入力音声ワード数を記憶装置１２に書き
込む。同時に、上記入力音声ワード数と記録媒体上の再
生音との対応をとるため、再生した音声の直後に、次の
再生音声と区別するための境界情報データを録音再生機
構４内の記録媒体上に書き込む。この境界情報データは
、音声信号と区別するため音声周波数域よりも高い周波
数のデータで、かつ通常のノイズと区別できる形式％式
％入力制御部６では、認識できない入力音声があっても、
上記データを記憶装置１２内に書き込むだけで、一連の
処理が終了するまではオペレータの介入要求を行わない
。このようにして、一連の入力処理が終了した後、第２
図の表示部７にエラーＹ表示してオペレータに通知し、
オペレータの指令にもとづいて修正処理を行う。修正処
理は、先ず、記憶装置１２内の入力結果ケ読み出し、エ
ラー情報から認識できなかった入力音声を検索し、その
入力音声ワード数から記録媒体上の何番目の再生音かを
知り、録音再生機構↓の記録媒体上の該当する音声の再
生を行う。オペレータがその再生音をもとに、キー人力
装置１３から正しい結果を入力すると、入力制御部６は
、先に音声入力で記憶された結果を、正しい結果に置き
替える。

なお、第６図では、第２図に示した特徴抽出部２、標準
パターン・メモリ５、および表示部７の記載が省略され
ており、かつマイクロフォンｌのかわりに音声入力部１
′が設けられている。ここで、音声入力部１′は、音声
を特徴抽出に最適な形に処理する他、録音再生機構４を
制御するだめのマイクロコンピュータを含む音声入力制
御部であってもよい。

このように、第６図においては、修正処理を一連の入力
処理後に、一括して行うことができるため、オペレータ
の作業効率を向上させるとともに、音声入力に適用でき
る業務を拡大させることができる。

第７図は、本発明の第３の実施例を示す音声認識装置の
ブロック図である。

第７図においては、第３図に示す従来の構成に、新しく
倍速処理機構部２０を設ける。この倍速処理機構部２０
は、倍速再生音を音声認識する機能を有し、倍速入力部
１５、倍速音声特徴抽出部１０および特徴ｆ−タ選択回
路１４から構成される。

先ず、モード選択信号ｄが、オペレータから操作卓を介
して倍速処理機構２０の特徴データ選択回路１４に送出
される。特徴データ選択回路１４では、モード選択信号
ｄにより倍速モードが指定されると、倍速処理機構２０
側の特徴データを選択して認識処理部３に送出する。

一方、入力音声ＩＮは、倍速音声入力部１５で倍速特徴
抽出部１６で最適な信号処理がなされ、倍速特徴抽出部
１６では倍速特徴データが時系列に抽出される。倍速特
徴抽出部１６においては、入力音声ＩＮが時間軸方向に
圧縮されているため、特徴データのサンプリング信号は
通常の１４の周期になっている。また、第７図では、特
徴データとして周波数スペクトルを使用しているため、
入力音声ＩＮの周波数スペクトルが高域方向にずれてい
るが、倍速特徴抽出部１ｃ内の周波数帯域通過フィルタ
の帯域周波数も同じく高域側にずれている。この結果、
倍速特徴抽出部１６がら出力される特徴データは、倍速
再生していても録音時と同じ速度の再生音の場合と結果
的に同一データどなり、したがって、標準パターン・メ
モリ５の標準パターンは曲常モードでも、倍速モードで
も同じパターンのものが使用できるようになっている１
、認識処理部３における処理では、通常モード、倍速モ
ードのいずれでも、標準パターンと音声ｌｈ徴データが
同じであるため同一処理であるが、１八車モードでは特
徴データのサンプリング速度が倍速であるため、処理速
度も倍速となる。

このように、第７図では、録音速度と１１″４なる１り
主速度で再生した音声も認識可能となり、特に高速再生
音声認識による高速入力ができるので　音声認識装ｆを
効率的に利用することが可能となる。

〔発明の効果〕

以上説明したように、本発明によれば、入力音声の録音
と再生音声の認識ができるので、入力音声の保存が可能
となり、また音声入力の場所的なｆｌｌｌＪ　ＩＲ’を
なくすことが可能となる。また、音声入力処理後、一括
して結果の修正が行えるので、オペレータによる監視は
不要となり、作業効率が向上する。さらに、高速再生音
声の認識ができるので。

音声認識装置を効率的に利用することができる。

【図面の簡単な説明】

第１図、第２図、第３図はそれぞれ従来の音声認識装置
のブロック図、第４図は周波数スペクトルによる特徴抽
出部の要部ブロック図、第５図、第６図、第７図はそれ
゛ぞれ本発明の実施例を示す音声認識装置のブロック図
である。にマイクロフォン、２：％徴抽出部、３：認識処理部、
４４：録音再生機構、５：標準パターン・メモリ、（′
ｌ：入力制御部、７：表示部、８：録音再生制御機構、
１２：記憶装置、１３：キー人力装置、２０：倍速処理
機構特許出願人　株式会社日立製作所、１代理人弁理士磯村雅俊第　　　　１　　　　図第　　　２　　　　図７第　　　３　　　図第　　　４　　　図０Ｂ　Ｐ　Ｕ　　　　３ＰＦ ”　　　　　　　　　Ａ／Ｄ：：、９

Claims

【特許請求の範囲】

（１）音声入力部からの音声の特徴データを抽出する手
段、および入力された音声の特徴データと標準パターン
の特徴データとの整合をとって認識する手段を備えた音
声認識装置において、入力音声を録音、再生する手段、
および該手段を制御する録音再生制御手段を設けること
を特徴とする音声認識装置。
（２）音声入力部からの音声の特徴データを抽出する手
段、および入力された音声の特徴データと標準パターン
の特徴データとの整合をとって認識する手段を備えた音
声認識装置にお（・て、入力音声を録音、再生する手段
、該手段を制御する録音再生制御手段、および認識結果
とエラー情報を、再生音声の記録媒体上の位置情報と対
にして記憶する記憶手段を設け、該記憶手段に記憶され
た結果のうち認識できなかったものを入力処理終了後に
一括して修正することを特徴とする音声認識装置。 ■）音声入力部からの音声の特徴データを抽出する手段
、および入力された音声の特徴データと標準パターンの
特徴データとの整合をとって認識する手段を備えた音声
認識装置において、入力音声を録音、再生する手段、該
手段を制御する録音再生制御手段、および通常の録音速
度と異なる再生速度で再生した音声を認識するための音
声入力部と特徴抽出部を設けることを特徴とする音声認
識装置。