JPS6017498A

JPS6017498A - 音声認識装置

Info

Publication number: JPS6017498A
Application number: JP58125769A
Authority: JP
Inventors: 秀幸小池; 孝吉田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1983-07-11
Filing date: 1983-07-11
Publication date: 1985-01-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の技術分野本発明は、機能の茜度化を図った音声認識装置に関する
ものである。

技術の背景第１図に従来の音声認識装置の柘成例を示す。

１は音声入力ボート、２は入力音声を分析し、特徴パラ
メータ（以下入カバターンという。）に変換する音声分
析部、５は入カバターンとあらかじめ分析された各認識
カテゴリに対応する音声の特徴パラメータ群（以下標準
パターンという。）との類似度を計算する類似度計算部
、４は類似度の計算結果、標準パターン、各種コマンド
等の情報をホストマシンとの間で送受するだめの入出力
制御を行うインタフェース制御部、５は標準パターンを
格納する標準パターンバッファ、６はホストマシンとの
データ入出力ボートである。

第１図を用い特定話者の単語の認識を行う場合の動作を
以下に説明する。ホストマシンでは、各単語に対し論理
コードを割りつけ、この論理コード毎に各単語の標準パ
ターンを対応させている。

さらに発声者毎にこれらの標準パターンセットを管理し
ている。発声者が特定されると、この発声者に対応する
標準パターンを６のデータ入出力ボートを通して音声認
識装置に送出し、音声認識装置では４のインタフェース
制御部でホストマシンとの転送制御を行いながら、標準
パターンセットを５の標準パターンバッファに格納する
。標準パターンの転送が終了すると、認識動作の開始を
ホストマシンより指示する。この後、音声認識装置は音
声入力ポート１より音声が入力されると、この音声を音
声分析部２で入カバターンに変換し、標準パターンバッ
ファ５内の各単語に対応する標準パターンとの類似度を
類似度計算部３で計算する。この計算結果よシ最も類似
度の高い、あるいは高い方から幾つかの単語に対応する
論理コードをインタフェース制御部４を通してホストマ
シンに返信することで入力音声の認識動作が終了する。

従来技術と問題点従来の音声認識装置は、類似度計算の過程においては、
入力音声のフレーム毎に処理を行い、処理終了後は、当
該フレームのパターン１６報は揮発されてしまうため、
同一の入力に対して別の標準パターンセットを用いた認
識処理ができないという欠点があった。さらにこの人カ
ッくターンをホストマシンに格納し、標準パターンとの
入れ替えを行う等の音声パターン編集も実行できないと
いう問題があった。

発明の目的本発明はこれらの欠点を解決するために、類似度計算過
程において音声分析部より出力される入カバターンの時
系列情報を、別に設けた入カッくターンバッファに格納
し、一時格納した入カッくターンをホストマシンとの間
で入出力ｃｉｊ能とするととモニ、入力パターンバッフ
ァ内のデータを類似度計算部に送出して、標準ノくター
ンノ（ツ７ア内のデータとの類似度計算を実行できるよ
うにしたもので、以下図面について詳細に説明する。

発明の実施例第２図は本発明の実施例の音声認識装置の構成例で、第
１図と同じ符号は同じ部分を示す。７は入力音声の分析
を行い、標準パターンとの類似度を計算しながら、分析
の結果得られる入カッ（ターンを一時格納する入カバタ
ーンバッファで、通常のメモリが適用される。

この音声認識装置には通常二つの動作モードがある。一
つは学習モードで他の一つは認識モードである。

学習モードは発声者毎の標準パターンセットを作成する
ためのものであって、まずデータ入出カポ−トロを介し
て接続されるホストマシンよりある認識カテゴリに対応
する論理コードが入力される。この後、音声人力ポート
１より入力される音声は音声分析部２で入力パラメータ
に変換され、５の標準パターンバッファに前述の論理コ
ードに対応づけられて格納される。これを繰り返すこと
で複数の認識カテゴリに対する学習〕くターンが生成さ
れる。標準パターンバッファ５には容量的なｌｓＪ％　
Ｗ　カあるため、標準ノくターンノくソファ５カニ満杯
になった場合には、一度ホストマシンの大答量君己憶装
置に論理コードと対応づけられた学習ノ（ターンを退避
し、その後別の認識力テコ゛１）に７１する学習パター
ンを生成することが行われる。学習モードにおいて一つ
の論理コードに対し複数の入力音声のパターンを対応さ
せることもできる。まだ発声者を替えて同じことを繰り
返せば、複数の発声者ニ対しおのおのの学習ノくターン
セツｌ−ｆ：生成テきる。これらの学習ノ（ターンセッ
トは、認識モード時には標準）くターンセットとして第
１１用される。

次に認識モードについて説明する６まう“発声者が特定
されると、発声者に対応する学習ノ（ターンセットをｍ
準パターンセットとし、□ホストマシンよりデータ入出
カポ−トロおよびインタフェース制御部４を介して標準
）くターンノくツファ５へ転送する。この後、音声入力
ポート１を介して発声された音声は、音声分析部２で分
Ｉ「処理力玉外され、入カバターンに変換される。通”
は入力される音声を時系列的なデータとして扱い、フレ
ームと０子ばれる短い区間毎に分析処理され、このフレ
ームに対応した分析パターンが順次出力される。これら
の分析パターンは入カバターンバッファ７に順次格納す
ると共に、標準パターンバッファ５内の標準パターン群
との類似度を計算するため類似度計算部５に送られる。

通常は標準パターンバッファ５内の複数の標準パターン
に対し、フレーム毎に並列に処理される。発声された音
声に対応するすべてのフレームに対し処理が終了すると
、類似度計算部５からは最も類似度（通常は入カバター
ンと標準パターンとのユークリッド距離を尺度とする）
の高かった、あるいは高い方から幾つかの対応する論理
コードとその類似度を出力し、これをインタフェース制
御部４およびデータ入出カポ−トロを通してホストマシ
ンに送出する。この時、１回の認識処理では処理しきれ
ない同一発声者に対する残シの学習パターンがあれば、
そのパターンｔｆ−タ入出力ボート６およびインタフェ
ース制御部４を通して標準パターンバッファ５に転送す
る。この後、ホストマシンよシ、現在人カバターンバッ
ファ７に格納されているパターンと標準ハターンハツフ
ァ５に格納されたパターンとの類似度計算を行うようコ
マンドを送出することにょシ、同一人力に対する他の標
準パターンに対する類似度結果を得ることができる。２
回で当発声者に対するすべての標準パターンとの類似度
割算が終了した場合、ホストマシンで１回目と２回目の
類似度を比較し、その中で最も類似度の商い論理コード
を認識結果とする。

例えば、１回の認識モードで５０力テゴリ分の認識しか
できない場合でも、本認識装置では５０カテゴリを複数
回繰シ返すことで、１００，１５０．・・・というよう
に認識対象カテゴリ数を等価的に増加させることができ
る。

さらに、入カバターンバッファに蓄えられたデータは、
認識モードの終了時にホストマシンに読み取ることがで
きるように構成されているため、ホストマシンでは学習
パターンの認識結果のカテゴリに対応するパターンとし
て新たにこのパターンを登録したシ、入れ替えたシする
ことで、次回からはこの入カバターンを標準パターンと
して利用することがμ」能となる。

発明の詳細な説明したように、本発明によれば、認識モード時の入
カバターンを被認識パターンとして繰シ返し利用できる
と共に、これを標準パターンとして再利用することもμ
」能であるため、（１）発声者毎の標準パターンを認識
結果に応じて更新口」能となシ、発声者の音声の経時変
化の影響等を軽減できる、（２）標準パターンのみを複数回に分けて入れ替えるこ
とで認識カテゴリ数を等価的に増大させることができる
、（３）頻繁に利用する認識カテゴリを別に切シ出してお
き、認識処理の確度を上げることができる、等の利点が
ある。

【図面の簡単な説明】

第１図は従来の音声認識装置の構成例を示すブロック構
成図、第２図は本発明の実施例の音声認識装置の構成例
を示すブロック構成図である。１・・・音声入力ポート、２・・・音声分析部、５・・
・類似度計算部、４・・・インタフェース制御部、５・
・・標準パターンバッファ、６・・・データ入出力ボー
ト、７・・・入カバターンバッファ特許出願人日本電信電話公社代理人弁理士玉蟲　久五部（外１名）

Claims

【特許請求の範囲】入力音声を分析し、該入力音声の特徴パラメータを示す
入カバターンに変換する音声分析部と、あらかじめ分析
された各認識カテゴリに対応する音声の特徴パラメータ
群を示す標準バクーンを格納する標準パターンバッファ
と、該入カバターンと該標準パターンの類似度を計算す
る類似度計算部と、骸類似度街算部による類似度の計算
結果。該標準パターンおよび各種コマンド等の情報をホストマ
シンとの間で送受するための入出力制御を行うインタフ
ェース制御部より構成される音声認識装置において、該
入力音声を該音声分析部で分析を行い、該分析結果の入
カバターンと該標準パターンバッファに格納されている
標準パターンとの類似度を該類似度計算部により計算し
ながら、該音声分析部にょシ得られた入カバターンを一
時格納する入カバターンバッファを備えたことを特徴と
する音声認識装置？′Ｌ０