JPS6053998A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6053998A
JPS6053998A JP58163537A JP16353783A JPS6053998A JP S6053998 A JPS6053998 A JP S6053998A JP 58163537 A JP58163537 A JP 58163537A JP 16353783 A JP16353783 A JP 16353783A JP S6053998 A JPS6053998 A JP S6053998A
Authority
JP
Japan
Prior art keywords
phoneme
similarity
speech
standard pattern
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58163537A
Other languages
English (en)
Other versions
JPH042197B2 (ja
Inventor
藤井 諭
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58163537A priority Critical patent/JPS6053998A/ja
Publication of JPS6053998A publication Critical patent/JPS6053998A/ja
Priority to US07/441,225 priority patent/US5131043A/en
Publication of JPH042197B2 publication Critical patent/JPH042197B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声によって発声された音声信号を自動的
に認識するための、音声認識装置に関するものである。
従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間から電子計
算機や各種機械へデータや命令を与える手段として非常
に有効と考えられる。
従来研究あるいは発表されている音声認識装置の動作原
理としてはバタンマツチング法が多く採用されている。
この方法は認識される必要がある全種類の単語に対して
標準パターンをあらかじめ記憶しておき、入力される未
知の入力バタンと比較することによって一致の度合(以
下類似度と呼ぶ)を計算し、最大一致が得られる標準バ
タンと同一の単語であると判定するものでおる・このバ
タンマツチング法では認識されるべき全ての単語に対し
て標準バタンを用意しなければならないため、発声者が
変った場合には新しく標準バタンを入力して記憶させる
必要がある。したがって数百種類以上の単語を認識対象
とするような場合、全種類の単語を発声して登録するに
は時間と労力を必要とし、また登録に要するメモリー容
量も膨大になることが予想される。さらに入力バタンと
標準バタンのバタンマツチングに要する時間も単語数が
多くなると長くなってしまう欠点がある。
これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリー容量が大幅に少なくて済み、バタンマツチン
グに要する時間が短く、辞書の内容変更も容易であると
いう特長を持っている、例えば「赤い」という発声は/
a/。
/に/ 、 /i/という三つの音素を組合せてAKA
Iという極めて簡単な形式で表現することができるため
、不特定話者で多数語の音声に対処することが容易であ
る。
第1図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。マイク等で入力された音声は音響
分析部1によって分析を行なう。
分析方法としては帯域フィルタ群や線形予測分析を用い
、フレーム周期(1oms程度)毎にスペクトル情報を
得る。音素判別部2では、音響分析部1で得たスペクト
ル情報を用い、標準パターン格納部3のデータによって
フレーム毎の音素判別を行なう。標準パターン格納部3
に格納された標準パターンは、あらかじめ多数話者の音
声よシ音素毎にめておく。セグメンテーション部4では
音響分析部1の分析出力をもとに音声区間の検出と音素
毎の境界決定(以下セグメンテーションと呼ぶ)を行う
。音素認識部5ではセグメンテーション部4と音素判別
部2の結果をもとに1つの音素区間毎に何という音素で
あるかを決定する作業を行なう。この結果として音素の
系列が完成する。
単語認識部6では、この音素系列を同様に音素系列で表
記された単語辞書7と照合し、最も類似度の高い単語を
認識結果として出力する。
前記方法で不特定話者を対象とする場合に最も重要な点
は、高い音声認識精度を、どういう話者環境に対しても
安定して得ることである。また、そのために話者に負担
をかけすぎたり音声認識装置にした場合に高価な部分を
要するようであってはならない。
しかし従来発表または試作されている音声認識装置は前
記条件が不十分であるという欠点があった・ 従来例として、予測残差を対象とする方式(鹿野、好用
[会話音声中の母音認識を目的としたLPG距離尺度の
評価]電子通信学会誌80/6゜V OL J −63
fl 、 A 5参照)テは、あらかじめ多数話者の音
声よ多線形予測分析によって音素iの最大パラメータム
1j(j=’ + 2 +・・・・・・+ p )(p
は分析次数)をめておき、予測残差を次式ここでSjは
未知な入力音声からめた自己相関係数である。この予測
残差Niを、対象とする音素毎にめこれを距離尺度とし
て、Niが最少となる音素を判別結果とする。
しかしこの方法は音素の標準バタンに相当する最大パラ
メータムijが単なる平均値であるため、たとえ使用者
にあわせてムijを作シ直すという学習機能を設けたと
しても、調音結合による発声の変動に対処することがで
きず、認識率が低いという欠点があった・ 発明の目的 本発明は前記欠点を解消し、不特定話者に対処できると
ともに話者、環境、言葉のちがいに影響されることなく
安定に高い音声認識精度を得ることのできる音声認識装
置を提供することを目的とする。
発明の構成 本発明は上記目的番達成するためになされたもので、音
素毎に区切られた音声信号からスペクトルまたはそれに
類似する情報(以下スペクトル情報と記す)を算出する
音響分析部と、多数話者からなる標準音声信号から得ら
れた標準パターンを予め格納する係数記憶部と、前記ス
ペクトル情報と標準パターンとを用いて音素毎のフィル
タ出力をめる判別フィルタ部と、類似度または音素系列
で表記された単語辞書を格納する単語辞書記憶部と、前
記判別フィルタ部を経て作成された類似度または音素系
列を単語辞書と照合し最も類似度の高い単語を認識結果
として出力する出力部と、前記出力部の結果と前記音響
分析部のスペクトル情報とから新しい標準パターンを作
成しその結果に基づき前記係数記憶部の内容を書き替え
る学習部とを具備するものである。
実施例の説明 第2図に本発明の音声認識装置の構成の一実施例を示す
。マイク31から入った音声信号はAD変換器21で、
12 KHzサンプリングで12ビツトに変換する。こ
れを信号処理回路でブリエンファシスおよび20 ms
のハミング窓をかけ、10m5毎に線形予測分析プロセ
ッサ23にてLPCケプヌトラム係数を算出する。この
LPGケプヌトラム係数を判別フィルタ24に通し、各
音素に対するフィルタ出力をフレーム毎に算出し、メイ
ンメモリ27に転送する。係数メモリ25は各音素毎の
フィルタ係数を格納している。
一方、帯域フィルタ26では3チャネル程度の帯域パワ
ーおよび全パワーを算出し、音素のセグメンテーション
用のデータとしてメインメモリ27に転送する。メイン
プロセッサ28では判別、フィルタ24および帯域フィ
ルタ26の結果を用いて音声区間の検出と音素毎のセグ
メンテーションを行った後、判別フィルタ24の音素毎
の判別フィルタ出力から類似度の最も高い音素を区間毎
に決定し、音素系列を作成する。この音素系列を同様に
音素系列で表記された単語辞書メモリ29と照合するこ
とによって最も類似度の大きい単語名を認識結果として
出力部3oに出力する。
しかし、これだけでは不特定話者に対して使用は可能で
あるが、標準パターンに相当する係数メモリ25が固定
されるため、話者による認識性能のバラツキが大きく、
認識率がかなり低くなってしまう場合が生ずる。そこで
、新しく学習機能をもたせるために学習部32を設ける
。この学習部32は線形予測分析プロセッサ23で得た
LPGケプストラム係数を受け、出力部30から得た結
果を参照に学習データを作成し、あらかじめめておいた
分散、共分散行列をもとにその話者に最もふされしい音
素毎の判別係数を計算し直し、係数メモリ25に転送す
るための動作を行う。
次に本発明に係る音素認識装置の動作について第2図を
参照にしながら詳しく説明する。
あらかじめマイク31から入力された多数話者の発声し
た多数の単語音声から五り変換器21を介して母音/a
/ +10/ 、/u/ 、/i/ 、/e/と鼻音(
/N/で表わす)の切出しを行っておく。
この音声データを用いて信号処理回路22および線形予
測分析プロセッサ23により10 msの分析区間毎に
線形予測分析を行い、p次元のLPGケプストラム係数
を算出する。このLPCケプヌトラム係数を用いて全音
素を対象とした共分散行列Wと、各音素毎の平均値mi
(Lは音素の種類を表わす)をめる。この結果よシ、音
素iに対する判別係数aij (1−112、・・・・
・・、p)は共分散行列Wの逆行列1゛の(jsj’)
要素をδjj′とすると、 で表わすことができる。
各音素毎にalj、 mi1’ 、alj 、 mi’
 W ’ mi (Vt。
述)をめ標準パターンとして係数メモリ26に格納して
おく。
次に使用者に内容のあらかじめわかっている音声(たと
えば/ a 、’ + / 1 / + / u / 
1 / e / H/ o / )を発声させ、音声区
間中の分析区間毎のLPOケプヌトラム係数を線形予測
分析プロセッサ23でめ、学習部32に転送する。一方
予め格納されている係数メモリ26の標準パターンを用
いて、判別フィルタ24で類似度をめる。判別フィルタ
24では入力信号のLPCケプストラム係数係数対する
マ・・ラノビス距離D?は (先は転置行列を示す) で表わすことができるが、第1項は音素iに対して不変
であるため、類似度Liを簡易的にで表わし、(4)式
を用いて類似度を計算する。その結果をメインメモリ2
7に転送し、メインプロセッサ28を通して音素系列を
作成する。次に、学習すべき音素の時間軸上の位置を示
す値を出力部30より学習部32にもどし、学習すべき
音素のLPGケプストラム係数の平均値をめる。以上を
音声の種類を変えながら必要な回数くシ返す。
各音素毎の平均値に適度な重み付けをしたものを学習し
ない場合のもとの平均値(mi j’ )に加え、新し
い音素毎の平均値を作成し係数メモリ25の平均値mi
 1’を置き換える。さらにこの平均値を使用して判別
係数aijおよび(4)式の定数項(第2項)を音素ご
とに修正し、これらを新しい標準パターンとして係数メ
モリ26に転送し、標準パターンの書替えを行う。
次に実際に音声認識を行う場合について説明する。マイ
ク10から入力された未知な音声信号について、信号処
理回路22および線形予測分析プロセッサ23を使用し
てLPGケプヌトラム係数”(”+y”2+・・・・・
・+ Xp )をめ、判別フィルタ24に転送し、予め
めて係数メ″モリ25に収納しである標準パターンを用
いて(4)式よシ音素iの類似度Liをめる。
これを音素毎(1= I H2+・・・・・・、n)(
nは音素数)にめ、メインメモリ27に転送する。
メインプロセッサ28ではこの類似度と帯域フィルタ2
6の出力をもとにセグメンテーションを行った結果とを
組合わせることにより音素認識を行い音素系列を作成す
る。
最後に音素系列を単語辞書メモリ29と照合し、最も類
似度の高い単語を認識結果として出力部30に転送する
上記実施例は音声認識を行う前に、内容の予めわかって
いる音声を入力し、その結果に基づいて係数メモリ26
内の標準パターンの修正を行う場合について述べたが、
音声認識の途中に未知音声の認識結果に基づいて係数メ
モリ26内の標準パターンの修正を行っても良いことは
もちろんである。
この場合には内容のわかっている音声を予め学習しなく
ても良く、環境の変化、入力者の音声の変化等に対して
自動的に追随することができる。
このように、本実施例は音素認識を基本とする音声認識
装置において、各音素の標準パタンをあらかじめ簡単な
学習によって使用者に合うように作成する学習機能を持
つことを特徴とし、高い音声認識性能を持たせることが
できる。また、学習のための計算は極めて簡単であり、
特別な高い演算精度を持つ計算回路を要することなく、
すぐに新しい標準パタンを作成することができる。
第3図は成人男子10人を対象として、学習のない場合
と行った場合の音素認識率の比較を行ったものである。
学習は評価用の全単語で行った場合34と、20語程度
の少数語で行った場合36を示した。いずれも、学習の
ない場合33に比して音素認識率は向上し、特に従来極
端に認識率の低かった話者(NS、KS、SMなど)に
対して大きな効果のあることを示している。
第4図は音素毎の認識率の標準偏差を示したもので、学
習のない場合41に比して学習を全単語で行った場合4
2、少数語で行った場合43ともにバラツキが減少し、
後段の単語マツチングに好ましい効果を与えることを示
している。
本実施例は以下に示すような効果を有する。
■ 音声認識装置に学習機能を持たせることによシ、使
用者に適合した標準パタンを自動作成し、環境の変化や
話者の個人差によるバラツキの少ない良好な音声認識精
度を持たせることができる。
■ 学習は使用前あるいは使用途中に、少数の音声を発
声することによって自動的に行うことができ、標準パタ
ンの作成も特別な装置を要することなく極めて簡単、高
速に行うことができる。
発明の効果 以上要するに本発明は音素毎に区切られた音声信号から
スペクトルまたはそれに類似する情報(以下スペクトル
情報と記す)を算出する音響分析部と、多数話者からな
る標準音声信号から得られた標準パターンを予め格納す
る係数記憶部と、前記スペクトル情報と標準パターンと
を用いて音素毎のフィルタ出力をめる判別フィルタ部と
、類似度または音素系列で表記された単語辞書を格納す
る単語辞書記憶部と、前記判別フィルタ部を経て作成さ
れた類似度または音素系列を単語辞書と照合し最も類似
度の高い単語を認識結果として出力する出力部と、前記
出力部の結果と前記音響分析部のスペクトル情報とから
新しい標準パターンを作成しその結果に基づき前記係数
記憶部の内容を書き替える学習部とを具備することを特
徴とする音声認識装置を提供するもので、話者による音
声認識精度のバラツキを大幅に改善し、不特定話者に対
して安定して使うことができる利点を有する。
【図面の簡単な説明】
第1図は音素認識を基本とする従来の音声認識装置のブ
ロック図、第2図は本発明の一実施例における音声認識
装置のブロック図、第3図は本発明の音声認識装置の効
果を話者毎に示した図、第4図は本発明の音声認識装置
の効果を音素毎の標準偏差として表わした図である。 21・・・・・・AD変換器、22・・・・・・信号処
理回路、23・・・・・・線形予測分析プロセッサ、2
4・旧・・4’lJ別フイルタ、25・・・・・・係数
メモリ、27・・・・・メインメモリ、28・・・・・
・メインプロセッサ、29・・・・・単語辞書メモリ、
30・・・・・・出力部、32・旧・・学習部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第4
図 手続補正書 特許庁長官殿 ■事件の表示 昭和58年特許願第163537号 3補正をする者 事件との関係 特 許 出 願 人 任 所 大阪府門真市大字門真1006番地名 称 (
582)松下電器産業株式会社代表者 山 下 俊 彦 4代理人 〒571 住 所 大阪府門真市大字門真1006番地松下電器産
業株式会社内 明 細 書 1、発明の名称 音声認識装置 2、特許請求の範囲 (1)音声信号からスペクトルまたはそれに類似する情
報(以下スペクトル情報と記す)を算出する音響分析部
と、多数話者からなる標準音声信号から得られた標準パ
ターンを予め格納する係数記憶部と、前記スペクトル情
報と標準パターンとを用いて音素毎の類似度をめる類似
度計算部と、類似度または音素系列で表記された単語辞
書を格納する単語辞書記憶部と、前記類似度計算部を経
て作成された類似度または音素系列を単語辞書と照合し
最も類似度の高い単語を認識結果として出方する出力部
と、前記出力部の結果と前記音響分析部のスペクトル情
報とから新しい標準パターンを作成しその結果に基づき
前記係数記憶部の内容を書き替える学習部とを具備する
ことを特徴とする音声認識装置。 (功 標準パターンとしてスペクトル情報の分散共分散
行列および平均値を少なくとも含むことを特徴とする特
許請求の範囲第1項記載の音声認識装置。 (′4 人力音声の認識結果に基づいて係数記憶部の内
容を修正するようにしたことを特徴とする特許請求の範
囲第1項記載の音声認識装置。 3、発明の詳細な説明 産業上の利用分野 本発明は人間の声によって発声された音声信号を自動的
に認識するだめの、音声認識装置に関するものである。 従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間から電子計
算機や各種機械へデータや命令を与える手段として非常
に有効と考えられる。 従来研究あるいは発表されている音声認識装置の動作原
理としてはバタンマツチング法が多く採用されている。 この方法は認識される必要がある全種類の単語に対して
標準パターンをあらかじめ記憶しておき、入力される未
知の入力バタンと比較することによって一致の度合(以
下類似度と呼ぶ)を計算し、最大一致が得られる標準バ
タンと同一の単語であると判定するものである。このバ
タンマツチング法では認識されるべき全ての単語に対し
て標準バタンを用意しなければならないため、発声者が
変った場合には新しく標準バタンを人力して記憶させる
必要がある。したがって数百種類以上の単語を認識対象
とするような場合、全種類の単語を発声して登録するに
は時間と労力を必要とし、また登録に要するメモリー容
量も膨大になる仁とが予想される。さらに入力バタンと
標準パタンのバタンマツチングに要する時間も単語数が
多くなると長くなってしまう欠点がある。 これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリー容量が大幅に少なくて済み、バタンマツチン
グに要する時間が短く、辞書の内容変更も容易であると
いう特長を持っている。例えば「赤い」という発声は/
a/。 /に/+/li という三つの音素を組合せてAKAI
という極めて簡単な形式で表現することができるため、
不特定話者で多数語の音声に対処することが容易である
。 第1図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。マイク等で入力された音声は音響
分析部1によって分析を行なう。 分析方法としては帯域フィルタ群や線形予測分析を用い
、フレーム周期(10mS程度)毎にスペクトル情報を
得る。音素判別部2では、音響分析部1で得たスペクト
ル情報を用い、標準パターン格納部3のデータによって
フレーム毎の音素判別を行なう。標準パターン格納部3
に格納された標準パターンは、あらかじめ多数話者の音
声より音素毎にめておく。セグメンテーション部4では
音響分析部1の分析出力をもとに音声区間の検出と音素
毎の境界決定(以下セグメンテーションと呼ぶ)を行う
。音素認識部6ではセグメンテーション部4と音素判別
部2の結果をもとに1つの音素区間毎に何という音素で
あるかを決定する作業を行なう。この結果として音素の
系列が完成する。 単語認識部6では、この音素系列を面様に音素系列で表
記された単語辞書7と照合し、最も類似度の高い単語を
認識結果として出力する。 前記方法で不特定話者を対象とする場合に最も重要な点
は、高い音声認識精度を、どういう話者環境に対しても
安定して得ることである。また、そのために話者に負担
をかけすぎたり音声認識装置にした場合に高価な部分を
要するようであってはならない。 しかし従来発表または試作されている音声認識装置は前
記条件が不十分であるという欠点があった。 従来例として、予測残差を対象とする方式(鹿野、好用
「会話音声中の母音認識を目的としたLPG距離尺度の
評価」電子通信学会誌80 / 5 。 VOL T−63D 、爲6参照)では、あらかじめ多
数話者の音声より線形予測分析によって音素iの最大パ
ラメータAm r ()−1t 2 t・・・・・・、
P)(Pは分析次数)をめておき、予測残差を次式ここ
でSj は未知な入力音声からめた自己相関係数である
。この予測残差Ni を、対象とする音素毎にめこれを
距離尺度として、Ni が最少となる音素を判別結果と
する。 しかしこの方法は音素の標準パタンに相当する最大パラ
メータAi5が単なる平均値であるため、たとえ使用者
にあわせてA、を作り直すという学習機能を設けたとし
ても、調音結合による発声の変動に対処することができ
ず、認識率が低いという欠点があった。 発明の目的 本発明は前記欠点を解消し、不特定話者に対処できると
ともに話者、環境、言葉のちがいに影響されることなく
安定に高い音声認識精度を得ることのできる音声認識装
置を提供することを目的とする。 発明の構成 本発明は上記目的を達成するためになされたもので、音
声信号からスペクトルまたはそれに類似する情報(以下
スペクトル情報と記す)を算出する音響分析部と、多数
話者からなる標準音声信号から得られた標準パターンを
予め格納する係数記憶部と、前記スペクトル情報と標準
パターンとを用いて音素毎の類似度をめる類似度計算部
と、類似度または音素系列で表記された単語辞書を格納
する単語辞書記憶部と、前記類似度計算部を経て作成さ
れた類似度または音素系列を単語辞書と照合し最も類似
度の高い単語を認識結果として出力する出力部と、前記
出力部の結果と前記音響分析部のスペクトル情報とから
新しい標準パターンを作成しその結果に基づき前記係数
記憶部の内容を書き替える学習部とを具備するものであ
る。 実施例の説明 第2図に本発明の音声認識装置の構成の一実施例を示す
。マイク31から入った音声信号はAD変換器21で、
12曲サンプリングで12ビツトに変換する。これを信
号処理回路でプリエンファシスおよび2Qm3のハミン
グ窓をかけ、10mS毎に線形予測分析プロセッサ23
にてLPCケプストラム係数を算出する。このLPCケ
プストラム係数を類似度計算部24に通し、各音素に対
する類似度をフレーム毎に算出し、メインメモリ27に
転送する。係数メモリ26は各音素毎のフィルタ係数を
格納している。 一方、帯域フィルタ26では3チャネル程度の帯域パワ
ーおよび全パワーを算出し、音素のセグメンテーション
用のデータとしてメインメモリ27に転送する。メイン
プロセッサ28では類似度計算部24および帯域フィル
タ26の結果を用いて音声区間の検出と音素毎のセグメ
ンテーションを行った後、類似度計算部24の音素毎の
類似度から類似度の最も高い音素を区間毎に決定し、音
素系列を作成する。この音素系列を同様に音素系列で表
記された単語辞書メモリ29と照合することによって最
も類似度の大きい単語名を認識結果として出力部3oに
出力する。 しかし、これだけでは不特定話者に対して使用は可能で
あるが、標準パターンに相幽する係数メモリ26が固定
されるため、話者による認識性能のバラツキが大きく、
認識率がかなり低くなってしまう場合が生ずる。そこで
、新しく学習機能をもたせるために学習部32を設ける
。この学習部32は線形予測分析プロセッサ23で得た
LPCケプストラム係数を受け、出力部3oから得た結
果を参照に学習データを作成し、あらかじめめておいた
分散、共分散行列をもとにその話者に最もふされしい音
素毎の判別係数を計算し直し、係数メモ!725に転送
するための動作を行う。 次に本発明に係る音素認識装置の動作について第2図を
参照にしながら詳しく説明する。 あらかじめマイク31から入力された多数話者の発声し
た多数の単語音声からAD変換器21を介して母音/a
/、10/、/u/、/V、/e/と鼻音の切出しを行
っておく。この音声データを用いて信号処理回路22お
よび線形予測分析プロセッサ23により10m5の分析
区間毎に線形予測分析を行い、p次元のLPCケブヌト
ラム係数を算出する。仁のLPGケプストラム係数を用
いて全音素を対象とした共分散行列Wと、各音素毎の平
均値tnt (iは音素の種類を表わす)をめる。この
結果より、音素1に対する判別係数aij(j=1.2
.・・・・・・tp)は共分散行列Wの逆行列W−1の
(i 、 j’)要素を6月とすると、で表わすことが
できる。 各音素毎にai 5 、m、 、’、δ目、m1tW−
’m、(抜道)をめ標準パターンとして係数メモリ25
に格納しておく。 次に使用者に内容のあらがじめわがっている音声(たと
えば/a/、/V、/u/、/@/、10/ )を発声
させ、音声区間中の分析区間毎のLPCケプストラム係
数を線形予測分析プロセッサ23でめ、学習部32に転
送する。一方予め格納されている係数メモリ26の標準
パターンを用いて、判別フィルタ24で類似度をめる。 類似度計算部24では入力信号のLPCケプストラム係
数Xに対するマハラノビス距離り、 ハ (tは転置行列を示す) で表わすことができるが、第1項は音素の種類に依存し
5ないため、類似度Li を簡易的にで表わし、(4式
を用いて類似度を計算する0その結果をメインメモリ2
7に転送し、メインプロセッサ28を通して音素系列を
作成する。次に、学習すべき音素の時間軸上の位置を示
す値を出力部3oより学習部32にもどし、学習すべき
音素のLPCケプストラム係数の平均値をめる。以上を
音声の種類を変えながら必要な回数くり返す。 各音素毎の平均値に適度な重み付けをしたものを学習し
ない場合のもとの平均値(m、′)に加え、新しい音素
毎の平均値を作成し係数メモリ26の平均値m157番
置き換える。さらにこの平均値を使用して判別係数ai
lおよび(4式の定数項(第2項)を音素ごとに修正し
、仁れらを新しい標準パターンとして係数メモリ25に
転送し、標準パターンの書替えを行う。 次に実際に音声認識を行う場合について説明する。マイ
ク10から入力された未知な音声信号について、信号処
理回路22および線形予測分析プロセッサ23を使用し
てLPCケプストラム係数x(xl、x2.・・・・・
・t Xp )をめ、類似度計算部24に転送し、予め
めて係数メモリ25に収納しである標準パターンを用い
て(4式より音素lの類似度り、をめる。 これを音素毎(l=1,2.・・・・・・、n)(nは
音素数)にめ、メインメモリ27に転送する。 メインプロセッサ28ではこの類似度と帯域フィルタ2
6の出力をもとにセグメンテーションを行った結果とを
組合わせることに占り音素認識を行い音素系列を作成す
る。 最後に音素系列を単語辞書メモリ29と照合し、最も類
似度の高い単語を認識結果として出力部30に転送する
。 上記実施例は音声認識を行う前に、内容の予めわかって
いる音声を入力し、その結果に基づいて係数メモリ25
内の標準パターンの修正を行う場合について述べたが、
音声認識の途中に音声の認識結果に基づいて係数メモリ
25内の標準パターンの修正を行っても良いことはもち
ろんである。 この場合には内容のわがっている音声を予め学習しなく
ても良く、環境の変化、入力者の音声の変化等に対して
自動的に追随することができる。 このように、本実施例は音素認識を基本とする音声認識
装置において、各音素の標準パタンをあらかじめ簡単な
学習によって使用者に合うように作成する学習機能を持
つことを特徴とし、高い音声認識性能を持たせることが
できる。また、学習のための計算は極めて簡単であり、
特別な高い演算精度を持つ計算回路を要することなく、
すぐに新しい標準バタンを作成することができる。 第3図は成人男子10人を対象として、学習のない場合
と行った場合の音素認識率の比較を行ったものである。 学習は評価用の全単語で行った場合34と、20語程度
の少数語で行った場合36を示した。いずれも、学習の
ない場合33に比して音素認識率は向上し、特に従来極
端に認識率の低かった話者(NS 、KS 、 SMな
ど)に対して大きな効果のあることを示している。 第4図は音素毎の認識率の標準偏差を示したもので、学
習のない場合41に比して学習を全単語で行った場合4
2、少数語で行った場合43ともにバラツキが減少し、
後段の単語マツチングの性能を向上させる効果を与える
ことを示している。 本実施例は以下に示すような効果を有する。 ■ 音声認識装置に学習機能を持たせることにより、使
用者に適合した標準バタンを自動作成し、環境の変化や
話者の個人差によるバラツキの少ない良好な音声認識精
度を持たせることができる。 ■ 学習は使用前あるいは使用途中に、少数の音声を発
声することによって自動的に行うことができ、標準パタ
ンの作成も特別な装置を要することなく極めて簡単、高
速に行うことができる。 発明の効果 以上要するに本発明は音声信号からスペクトルる標準音
声信号から得られた標準パターンを予め格納する係数記
憶部と、前記スペクトル情報と標準パターンとを用いて
音素毎の類似度をめる類似度計算部と、類似度または音
素系列で表記された単語辞書を格納する単語辞書記憶部
と、前記類似度計算部を経て作成された類似度または音
素系列を単語辞書と照合し最も類似度の高い単語を認識
結果として出力する出力部と、前記出力部の結果と前記
音響分析部のスペクトル情報とから新しい標準パターン
を作成しその結果に基づき前記係数記憶部の内容を書き
替える学習部とを具備することを特徴とする音声認識装
置を提供するもので、話者による音声認識精度のバラツ
キを大幅に改善し、不特定話者に対して安定して使うこ
とができる利点を有する。 4、図面の簡単な説明 第1図は音素認識を基本とする従来の音声認識装置のブ
ロック図、第2図は本発明の一実施例における音声認識
装置のブロック図、第3図は本発明の音声認識装置の効
果を話者毎に示した図、第4図は本発明の音声認識装置
の効果を音素毎の標準偏差として表わした図である。 21・・・・・・AD変換器、22・・・・・・信号処
理回路、23・・・・・・線形予測分析プロセッサ、2
4・・・・・・類似度計算部、26・・・・・・係数メ
モリ、27・・・・・メインメモリ、28・パ・・・メ
インプロセッサ、29・・・・・・単語辞書メモリ、3
0曲・・出方部、32・・・・・・学習部。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第2
図 第乎図

Claims (1)

  1. 【特許請求の範囲】 (1)音素毎に区切られた音声信号からスペクトルまた
    はそれに類似する情報(以下スペクトル情報と記す)を
    算出する音響分析部と、多数話者からなる標準音声信号
    から得られた標準パターンを予め格納する係数記憶部と
    、前記スペクトル情報と標準パターンとを用いて音素毎
    のフィルタ出力をめる判別フィルタ部と、類似度または
    音素系列で表記された単語辞書を格納する単語辞書記憶
    部と、前記判別フィルタ部を経て作成された類似度また
    は音素系列を単語辞書と照合し最も類似度の高い単語を
    認識結果として出力する出力部と、前記出力部の結果と
    前記音響分析部のスペクトル情報とから新しい標準パタ
    ーンを作成しその結果に基づき前記係数記憶部の内容を
    書き替える学習部とを具備することを特徴とする音声認
    識装置。 (噂 標準パターンとしてスペクトル情報の分散共分散
    行列および平均値を少なくとも含むことを特徴とする特
    許請求の範囲第1項記載の音声認識装置。 (3)未知入力音声の認識結果に基づいて係数記憶部の
    内容を修正するようにしたことを特徴とする特許請求の
    範囲第1項記載の音声認識装置。
JP58163537A 1983-09-05 1983-09-05 音声認識装置 Granted JPS6053998A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP58163537A JPS6053998A (ja) 1983-09-05 1983-09-05 音声認識装置
US07/441,225 US5131043A (en) 1983-09-05 1989-11-20 Method of and apparatus for speech recognition wherein decisions are made based on phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58163537A JPS6053998A (ja) 1983-09-05 1983-09-05 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6053998A true JPS6053998A (ja) 1985-03-28
JPH042197B2 JPH042197B2 (ja) 1992-01-16

Family

ID=15775762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58163537A Granted JPS6053998A (ja) 1983-09-05 1983-09-05 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6053998A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6067996A (ja) * 1983-09-22 1985-04-18 松下電器産業株式会社 音声認識方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5681899A (en) * 1979-12-07 1981-07-04 Sanyo Electric Co Voice indentifier
JPS58123598A (ja) * 1982-01-19 1983-07-22 松下電器産業株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5681899A (en) * 1979-12-07 1981-07-04 Sanyo Electric Co Voice indentifier
JPS58123598A (ja) * 1982-01-19 1983-07-22 松下電器産業株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6067996A (ja) * 1983-09-22 1985-04-18 松下電器産業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPH042197B2 (ja) 1992-01-16

Similar Documents

Publication Publication Date Title
Muhammad et al. E-hafiz: Intelligent system to help muslims in recitation and memorization of Quran
JP6437581B2 (ja) 話者適応型の音声認識
JPH02195400A (ja) 音声認識装置
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Muhammad et al. Voice content matching system for quran readers
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Dharun et al. Voice and speech recognition for tamil words and numerals
Omar et al. Feature fusion techniques based training MLP for speaker identification system
IL322559A (en) Identification of expressive event types for computer speech analysis
JPS6053998A (ja) 音声認識装置
Kanke et al. Enhanced Marathi speech recognition using double delta MFCC and DTW
JP4236502B2 (ja) 音声認識装置
Lingam Speaker based language independent isolated speech recognition system
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Nair et al. A Study on Automatic Speech Recognition
JPH07210197A (ja) 話者識別方法
JP2862306B2 (ja) 音声認識装置
Kokkinidis et al. Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach
Tolba et al. Comparative experiments to evaluate the use of auditory-based acoustic distinctive features and formant cues for automatic speech recognition using a multi-stream paradigm.
Yogapriya et al. Speech Based Access for Agricultural Commodity Prices in Tamil
Shreekanth et al. ANN-Based Automatic Speech Recognition System in Kannada Language for People with Partial Speech Disorders
Huque et al. Analysis of a small vocabulary Bangla speech database for recognition
Ozaydin An isolated word speaker recognition system
JPH054678B2 (ja)