JPS6017498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6017498A
JPS6017498A JP58125769A JP12576983A JPS6017498A JP S6017498 A JPS6017498 A JP S6017498A JP 58125769 A JP58125769 A JP 58125769A JP 12576983 A JP12576983 A JP 12576983A JP S6017498 A JPS6017498 A JP S6017498A
Authority
JP
Japan
Prior art keywords
input
speech
pattern
similarity
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58125769A
Other languages
English (en)
Inventor
秀幸 小池
孝 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP58125769A priority Critical patent/JPS6017498A/ja
Publication of JPS6017498A publication Critical patent/JPS6017498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の技術分野 本発明は、機能の茜度化を図った音声認識装置に関する
ものである。
技術の背景 第1図に従来の音声認識装置の柘成例を示す。
1は音声入力ボート、2は入力音声を分析し、特徴パラ
メータ(以下入カバターンという。)に変換する音声分
析部、5は入カバターンとあらかじめ分析された各認識
カテゴリに対応する音声の特徴パラメータ群(以下標準
パターンという。)との類似度を計算する類似度計算部
、4は類似度の計算結果、標準パターン、各種コマンド
等の情報をホストマシンとの間で送受するだめの入出力
制御を行うインタフェース制御部、5は標準パターンを
格納する標準パターンバッファ、6はホストマシンとの
データ入出力ボートである。
第1図を用い特定話者の単語の認識を行う場合の動作を
以下に説明する。ホストマシンでは、各単語に対し論理
コードを割りつけ、この論理コード毎に各単語の標準パ
ターンを対応させている。
さらに発声者毎にこれらの標準パターンセットを管理し
ている。発声者が特定されると、この発声者に対応する
標準パターンを6のデータ入出力ボートを通して音声認
識装置に送出し、音声認識装置では4のインタフェース
制御部でホストマシンとの転送制御を行いながら、標準
パターンセットを5の標準パターンバッファに格納する
。標準パターンの転送が終了すると、認識動作の開始を
ホストマシンより指示する。この後、音声認識装置は音
声入力ポート1より音声が入力されると、この音声を音
声分析部2で入カバターンに変換し、標準パターンバッ
ファ5内の各単語に対応する標準パターンとの類似度を
類似度計算部3で計算する。この計算結果よシ最も類似
度の高い、あるいは高い方から幾つかの単語に対応する
論理コードをインタフェース制御部4を通してホストマ
シンに返信することで入力音声の認識動作が終了する。
従来技術と問題点 従来の音声認識装置は、類似度計算の過程においては、
入力音声のフレーム毎に処理を行い、処理終了後は、当
該フレームのパターン16報は揮発されてしまうため、
同一の入力に対して別の標準パターンセットを用いた認
識処理ができないという欠点があった。さらにこの人カ
ッくターンをホストマシンに格納し、標準パターンとの
入れ替えを行う等の音声パターン編集も実行できないと
いう問題があった。
発明の目的 本発明はこれらの欠点を解決するために、類似度計算過
程において音声分析部より出力される入カバターンの時
系列情報を、別に設けた入カッくターンバッファに格納
し、一時格納した入カッくターンをホストマシンとの間
で入出力cij能とするととモニ、入力パターンバッフ
ァ内のデータを類似度計算部に送出して、標準ノくター
ンノ(ツ7ア内のデータとの類似度計算を実行できるよ
うにしたもので、以下図面について詳細に説明する。
発明の実施例 第2図は本発明の実施例の音声認識装置の構成例で、第
1図と同じ符号は同じ部分を示す。7は入力音声の分析
を行い、標準パターンとの類似度を計算しながら、分析
の結果得られる入カッ(ターンを一時格納する入カバタ
ーンバッファで、通常のメモリが適用される。
この音声認識装置には通常二つの動作モードがある。一
つは学習モードで他の一つは認識モードである。
学習モードは発声者毎の標準パターンセットを作成する
ためのものであって、まずデータ入出カポ−トロを介し
て接続されるホストマシンよりある認識カテゴリに対応
する論理コードが入力される。この後、音声人力ポート
1より入力される音声は音声分析部2で入力パラメータ
に変換され、5の標準パターンバッファに前述の論理コ
ードに対応づけられて格納される。これを繰り返すこと
で複数の認識カテゴリに対する学習〕くターンが生成さ
れる。標準パターンバッファ5には容量的なlsJ% 
W カあるため、標準ノくターンノくソファ5カニ満杯
になった場合には、一度ホストマシンの大答量君己憶装
置に論理コードと対応づけられた学習ノ(ターンを退避
し、その後別の認識力テコ゛1)に71する学習パター
ンを生成することが行われる。学習モードにおいて一つ
の論理コードに対し複数の入力音声のパターンを対応さ
せることもできる。まだ発声者を替えて同じことを繰り
返せば、複数の発声者ニ対しおのおのの学習ノくターン
セツl−f:生成テきる。これらの学習ノ(ターンセッ
トは、認識モード時には標準)くターンセットとして第
11用される。
次に認識モードについて説明する6まう“発声者が特定
されると、発声者に対応する学習ノ(ターンセットをm
準パターンセットとし、□ホストマシンよりデータ入出
カポ−トロおよびインタフェース制御部4を介して標準
)くターンノくツファ5へ転送する。この後、音声入力
ポート1を介して発声された音声は、音声分析部2で分
I「処理力玉外され、入カバターンに変換される。通”
は入力される音声を時系列的なデータとして扱い、フレ
ームと0子ばれる短い区間毎に分析処理され、このフレ
ームに対応した分析パターンが順次出力される。これら
の分析パターンは入カバターンバッファ7に順次格納す
ると共に、標準パターンバッファ5内の標準パターン群
との類似度を計算するため類似度計算部5に送られる。
通常は標準パターンバッファ5内の複数の標準パターン
に対し、フレーム毎に並列に処理される。発声された音
声に対応するすべてのフレームに対し処理が終了すると
、類似度計算部5からは最も類似度(通常は入カバター
ンと標準パターンとのユークリッド距離を尺度とする)
の高かった、あるいは高い方から幾つかの対応する論理
コードとその類似度を出力し、これをインタフェース制
御部4およびデータ入出カポ−トロを通してホストマシ
ンに送出する。この時、1回の認識処理では処理しきれ
ない同一発声者に対する残シの学習パターンがあれば、
そのパターンtf−タ入出力ボート6およびインタフェ
ース制御部4を通して標準パターンバッファ5に転送す
る。この後、ホストマシンよシ、現在人カバターンバッ
ファ7に格納されているパターンと標準ハターンハツフ
ァ5に格納されたパターンとの類似度計算を行うようコ
マンドを送出することにょシ、同一人力に対する他の標
準パターンに対する類似度結果を得ることができる。2
回で当発声者に対するすべての標準パターンとの類似度
割算が終了した場合、ホストマシンで1回目と2回目の
類似度を比較し、その中で最も類似度の商い論理コード
を認識結果とする。
例えば、1回の認識モードで50力テゴリ分の認識しか
できない場合でも、本認識装置では50カテゴリを複数
回繰シ返すことで、100,150.・・・というよう
に認識対象カテゴリ数を等価的に増加させることができ
る。
さらに、入カバターンバッファに蓄えられたデータは、
認識モードの終了時にホストマシンに読み取ることがで
きるように構成されているため、ホストマシンでは学習
パターンの認識結果のカテゴリに対応するパターンとし
て新たにこのパターンを登録したシ、入れ替えたシする
ことで、次回からはこの入カバターンを標準パターンと
して利用することがμ」能となる。
発明の詳細 な説明したように、本発明によれば、認識モード時の入
カバターンを被認識パターンとして繰シ返し利用できる
と共に、これを標準パターンとして再利用することもμ
」能であるため、(1)発声者毎の標準パターンを認識
結果に応じて更新口」能となシ、発声者の音声の経時変
化の影響等を軽減できる、 (2)標準パターンのみを複数回に分けて入れ替えるこ
とで認識カテゴリ数を等価的に増大させることができる
、 (3)頻繁に利用する認識カテゴリを別に切シ出してお
き、認識処理の確度を上げることができる、等の利点が
ある。
【図面の簡単な説明】
第1図は従来の音声認識装置の構成例を示すブロック構
成図、第2図は本発明の実施例の音声認識装置の構成例
を示すブロック構成図である。 1・・・音声入力ポート、2・・・音声分析部、5・・
・類似度計算部、4・・・インタフェース制御部、5・
・・標準パターンバッファ、6・・・データ入出力ボー
ト、7・・・入カバターンバッファ 特許出願人日本電信電話公社 代理人弁理士玉蟲 久五部(外1名)

Claims (1)

  1. 【特許請求の範囲】 入力音声を分析し、該入力音声の特徴パラメータを示す
    入カバターンに変換する音声分析部と、あらかじめ分析
    された各認識カテゴリに対応する音声の特徴パラメータ
    群を示す標準バクーンを格納する標準パターンバッファ
    と、該入カバターンと該標準パターンの類似度を計算す
    る類似度計算部と、骸類似度街算部による類似度の計算
    結果。 該標準パターンおよび各種コマンド等の情報をホストマ
    シンとの間で送受するための入出力制御を行うインタフ
    ェース制御部より構成される音声認識装置において、該
    入力音声を該音声分析部で分析を行い、該分析結果の入
    カバターンと該標準パターンバッファに格納されている
    標準パターンとの類似度を該類似度計算部により計算し
    ながら、該音声分析部にょシ得られた入カバターンを一
    時格納する入カバターンバッファを備えたことを特徴と
    する音声認識装置?′L0
JP58125769A 1983-07-11 1983-07-11 音声認識装置 Pending JPS6017498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58125769A JPS6017498A (ja) 1983-07-11 1983-07-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58125769A JPS6017498A (ja) 1983-07-11 1983-07-11 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6017498A true JPS6017498A (ja) 1985-01-29

Family

ID=14918370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58125769A Pending JPS6017498A (ja) 1983-07-11 1983-07-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6017498A (ja)

Similar Documents

Publication Publication Date Title
CN114333852A (zh) 一种多说话人语音人声分离方法、终端设备及存储介质
JPS60158498A (ja) パターン照合装置
JPS6017498A (ja) 音声認識装置
JPS63179398A (ja) 音声認識方法
JPH0432900A (ja) 音声認識装置
JPS59212900A (ja) 音声認識装置
JPS595294A (ja) 音声認識装置
JPS60169900A (ja) 単語登録方式
JPS63121097A (ja) 電話用音声認識装置
JPS5834498A (ja) 音声認識方式
JPS6287993A (ja) 音声認識装置
JPS60201397A (ja) 正解候補選択方式
JPS60209795A (ja) 音声認識装置
JPS61254994A (ja) 連続単語認識装置
JPS6344239B2 (ja)
JPS61165797A (ja) 音声認識装置
JPS5961893A (ja) 標準パタ−ン更新機能付音声入力装置
JPS5988797A (ja) 音声認識方式
JPS63218999A (ja) 音声認識装置
JPS63155195A (ja) 音声認識装置
JPH0256680B2 (ja)
JPS6152698A (ja) 音声認識装置
JPS59219798A (ja) 音声認識装置
JPS62206596A (ja) 音声認識システム
JPS593494A (ja) 音声入力認識装置