JPS6053998A

JPS6053998A - 音声認識装置

Info

Publication number: JPS6053998A
Application number: JP58163537A
Authority: JP
Inventors: 藤井　諭; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-09-05
Filing date: 1983-09-05
Publication date: 1985-03-28
Also published as: JPH042197B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声によって発声された音声信号を自動的
に認識するための、音声認識装置に関するものである。

従来例の構成とその問題点音声を自動的に認識する音声認識装置は人間から電子計
算機や各種機械へデータや命令を与える手段として非常
に有効と考えられる。

従来研究あるいは発表されている音声認識装置の動作原
理としてはバタンマツチング法が多く採用されている。

この方法は認識される必要がある全種類の単語に対して
標準パターンをあらかじめ記憶しておき、入力される未
知の入力バタンと比較することによって一致の度合（以
下類似度と呼ぶ）を計算し、最大一致が得られる標準バ
タンと同一の単語であると判定するものでおる・このバ
タンマツチング法では認識されるべき全ての単語に対し
て標準バタンを用意しなければならないため、発声者が
変った場合には新しく標準バタンを入力して記憶させる
必要がある。したがって数百種類以上の単語を認識対象
とするような場合、全種類の単語を発声して登録するに
は時間と労力を必要とし、また登録に要するメモリー容
量も膨大になることが予想される。さらに入力バタンと
標準バタンのバタンマツチングに要する時間も単語数が
多くなると長くなってしまう欠点がある。

これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ）音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリー容量が大幅に少なくて済み、バタンマツチン
グに要する時間が短く、辞書の内容変更も容易であると
いう特長を持っている、例えば「赤い」という発声は／
ａ／。

／に／　、　／ｉ／という三つの音素を組合せてＡＫＡ
Ｉという極めて簡単な形式で表現することができるため
、不特定話者で多数語の音声に対処することが容易であ
る。

第１図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。マイク等で入力された音声は音響
分析部１によって分析を行なう。

分析方法としては帯域フィルタ群や線形予測分析を用い
、フレーム周期（１ｏｍｓ程度）毎にスペクトル情報を
得る。音素判別部２では、音響分析部１で得たスペクト
ル情報を用い、標準パターン格納部３のデータによって
フレーム毎の音素判別を行なう。標準パターン格納部３
に格納された標準パターンは、あらかじめ多数話者の音
声よシ音素毎にめておく。セグメンテーション部４では
音響分析部１の分析出力をもとに音声区間の検出と音素
毎の境界決定（以下セグメンテーションと呼ぶ）を行う
。音素認識部５ではセグメンテーション部４と音素判別
部２の結果をもとに１つの音素区間毎に何という音素で
あるかを決定する作業を行なう。この結果として音素の
系列が完成する。

単語認識部６では、この音素系列を同様に音素系列で表
記された単語辞書７と照合し、最も類似度の高い単語を
認識結果として出力する。

前記方法で不特定話者を対象とする場合に最も重要な点
は、高い音声認識精度を、どういう話者環境に対しても
安定して得ることである。また、そのために話者に負担
をかけすぎたり音声認識装置にした場合に高価な部分を
要するようであってはならない。

しかし従来発表または試作されている音声認識装置は前
記条件が不十分であるという欠点があった・従来例として、予測残差を対象とする方式（鹿野、好用
［会話音声中の母音認識を目的としたＬＰＧ距離尺度の
評価］電子通信学会誌８０／６゜Ｖ　ＯＬ　Ｊ　−６３
ｆｌ　、　Ａ　５参照）テは、あらかじめ多数話者の音
声よ多線形予測分析によって音素ｉの最大パラメータム
１ｊ（ｊ＝’　＋　２　＋・・・・・・＋　ｐ　）（ｐ
は分析次数）をめておき、予測残差を次式ここでＳｊは
未知な入力音声からめた自己相関係数である。この予測
残差Ｎｉを、対象とする音素毎にめこれを距離尺度とし
て、Ｎｉが最少となる音素を判別結果とする。

しかしこの方法は音素の標準バタンに相当する最大パラ
メータムｉｊが単なる平均値であるため、たとえ使用者
にあわせてムｉｊを作シ直すという学習機能を設けたと
しても、調音結合による発声の変動に対処することがで
きず、認識率が低いという欠点があった・発明の目的本発明は前記欠点を解消し、不特定話者に対処できると
ともに話者、環境、言葉のちがいに影響されることなく
安定に高い音声認識精度を得ることのできる音声認識装
置を提供することを目的とする。

発明の構成本発明は上記目的番達成するためになされたもので、音
素毎に区切られた音声信号からスペクトルまたはそれに
類似する情報（以下スペクトル情報と記す）を算出する
音響分析部と、多数話者からなる標準音声信号から得ら
れた標準パターンを予め格納する係数記憶部と、前記ス
ペクトル情報と標準パターンとを用いて音素毎のフィル
タ出力をめる判別フィルタ部と、類似度または音素系列
で表記された単語辞書を格納する単語辞書記憶部と、前
記判別フィルタ部を経て作成された類似度または音素系
列を単語辞書と照合し最も類似度の高い単語を認識結果
として出力する出力部と、前記出力部の結果と前記音響
分析部のスペクトル情報とから新しい標準パターンを作
成しその結果に基づき前記係数記憶部の内容を書き替え
る学習部とを具備するものである。

実施例の説明第２図に本発明の音声認識装置の構成の一実施例を示す
。マイク３１から入った音声信号はＡＤ変換器２１で、
１２　ＫＨｚサンプリングで１２ビツトに変換する。こ
れを信号処理回路でブリエンファシスおよび２０　ｍｓ
のハミング窓をかけ、１０ｍ５毎に線形予測分析プロセ
ッサ２３にてＬＰＣケプヌトラム係数を算出する。この
ＬＰＧケプヌトラム係数を判別フィルタ２４に通し、各
音素に対するフィルタ出力をフレーム毎に算出し、メイ
ンメモリ２７に転送する。係数メモリ２５は各音素毎の
フィルタ係数を格納している。

一方、帯域フィルタ２６では３チャネル程度の帯域パワ
ーおよび全パワーを算出し、音素のセグメンテーション
用のデータとしてメインメモリ２７に転送する。メイン
プロセッサ２８では判別、フィルタ２４および帯域フィ
ルタ２６の結果を用いて音声区間の検出と音素毎のセグ
メンテーションを行った後、判別フィルタ２４の音素毎
の判別フィルタ出力から類似度の最も高い音素を区間毎
に決定し、音素系列を作成する。この音素系列を同様に
音素系列で表記された単語辞書メモリ２９と照合するこ
とによって最も類似度の大きい単語名を認識結果として
出力部３ｏに出力する。

しかし、これだけでは不特定話者に対して使用は可能で
あるが、標準パターンに相当する係数メモリ２５が固定
されるため、話者による認識性能のバラツキが大きく、
認識率がかなり低くなってしまう場合が生ずる。そこで
、新しく学習機能をもたせるために学習部３２を設ける
。この学習部３２は線形予測分析プロセッサ２３で得た
ＬＰＧケプストラム係数を受け、出力部３０から得た結
果を参照に学習データを作成し、あらかじめめておいた
分散、共分散行列をもとにその話者に最もふされしい音
素毎の判別係数を計算し直し、係数メモリ２５に転送す
るための動作を行う。

次に本発明に係る音素認識装置の動作について第２図を
参照にしながら詳しく説明する。

あらかじめマイク３１から入力された多数話者の発声し
た多数の単語音声から五り変換器２１を介して母音／ａ
／　＋１０／　、／ｕ／　、／ｉ／　、／ｅ／と鼻音（
／Ｎ／で表わす）の切出しを行っておく。

この音声データを用いて信号処理回路２２および線形予
測分析プロセッサ２３により１０　ｍｓの分析区間毎に
線形予測分析を行い、ｐ次元のＬＰＧケプストラム係数
を算出する。このＬＰＣケプヌトラム係数を用いて全音
素を対象とした共分散行列Ｗと、各音素毎の平均値ｍｉ
（Ｌは音素の種類を表わす）をめる。この結果よシ、音
素ｉに対する判別係数ａｉｊ　（１−１１２、・・・・
・・、ｐ）は共分散行列Ｗの逆行列１゛の（ｊｓｊ’）
要素をδｊｊ′とすると、で表わすことができる。

各音素毎にａｌｊ、　ｍｉ１’　、ａｌｊ　、　ｍｉ’
　Ｗ　’　ｍｉ　（Ｖｔ。

述）をめ標準パターンとして係数メモリ２６に格納して
おく。

次に使用者に内容のあらかじめわかっている音声（たと
えば／　ａ　、’　＋　／　１　／　＋　／　ｕ　／　
１　／　ｅ　／　Ｈ／　ｏ　／　）を発声させ、音声区
間中の分析区間毎のＬＰＯケプヌトラム係数を線形予測
分析プロセッサ２３でめ、学習部３２に転送する。一方
予め格納されている係数メモリ２６の標準パターンを用
いて、判別フィルタ２４で類似度をめる。判別フィルタ
２４では入力信号のＬＰＣケプストラム係数係数対する
マ・・ラノビス距離Ｄ？は（先は転置行列を示す）で表わすことができるが、第１項は音素ｉに対して不変
であるため、類似度Ｌｉを簡易的にで表わし、（４）式
を用いて類似度を計算する。その結果をメインメモリ２
７に転送し、メインプロセッサ２８を通して音素系列を
作成する。次に、学習すべき音素の時間軸上の位置を示
す値を出力部３０より学習部３２にもどし、学習すべき
音素のＬＰＧケプストラム係数の平均値をめる。以上を
音声の種類を変えながら必要な回数くシ返す。

各音素毎の平均値に適度な重み付けをしたものを学習し
ない場合のもとの平均値（ｍｉ　ｊ’　）に加え、新し
い音素毎の平均値を作成し係数メモリ２５の平均値ｍｉ
　１’を置き換える。さらにこの平均値を使用して判別
係数ａｉｊおよび（４）式の定数項（第２項）を音素ご
とに修正し、これらを新しい標準パターンとして係数メ
モリ２６に転送し、標準パターンの書替えを行う。

次に実際に音声認識を行う場合について説明する。マイ
ク１０から入力された未知な音声信号について、信号処
理回路２２および線形予測分析プロセッサ２３を使用し
てＬＰＧケプヌトラム係数”（”＋ｙ”２＋・・・・・
・＋　Ｘｐ　）をめ、判別フィルタ２４に転送し、予め
めて係数メ″モリ２５に収納しである標準パターンを用
いて（４）式よシ音素ｉの類似度Ｌｉをめる。

これを音素毎（１＝　Ｉ　Ｈ２＋・・・・・・、ｎ）（
ｎは音素数）にめ、メインメモリ２７に転送する。

メインプロセッサ２８ではこの類似度と帯域フィルタ２
６の出力をもとにセグメンテーションを行った結果とを
組合わせることにより音素認識を行い音素系列を作成す
る。

最後に音素系列を単語辞書メモリ２９と照合し、最も類
似度の高い単語を認識結果として出力部３０に転送する
。

上記実施例は音声認識を行う前に、内容の予めわかって
いる音声を入力し、その結果に基づいて係数メモリ２６
内の標準パターンの修正を行う場合について述べたが、
音声認識の途中に未知音声の認識結果に基づいて係数メ
モリ２６内の標準パターンの修正を行っても良いことは
もちろんである。

この場合には内容のわかっている音声を予め学習しなく
ても良く、環境の変化、入力者の音声の変化等に対して
自動的に追随することができる。

このように、本実施例は音素認識を基本とする音声認識
装置において、各音素の標準パタンをあらかじめ簡単な
学習によって使用者に合うように作成する学習機能を持
つことを特徴とし、高い音声認識性能を持たせることが
できる。また、学習のための計算は極めて簡単であり、
特別な高い演算精度を持つ計算回路を要することなく、
すぐに新しい標準パタンを作成することができる。

第３図は成人男子１０人を対象として、学習のない場合
と行った場合の音素認識率の比較を行ったものである。

学習は評価用の全単語で行った場合３４と、２０語程度
の少数語で行った場合３６を示した。いずれも、学習の
ない場合３３に比して音素認識率は向上し、特に従来極
端に認識率の低かった話者（ＮＳ、ＫＳ、ＳＭなど）に
対して大きな効果のあることを示している。

第４図は音素毎の認識率の標準偏差を示したもので、学
習のない場合４１に比して学習を全単語で行った場合４
２、少数語で行った場合４３ともにバラツキが減少し、
後段の単語マツチングに好ましい効果を与えることを示
している。

本実施例は以下に示すような効果を有する。

■　音声認識装置に学習機能を持たせることによシ、使
用者に適合した標準パタンを自動作成し、環境の変化や
話者の個人差によるバラツキの少ない良好な音声認識精
度を持たせることができる。

■　学習は使用前あるいは使用途中に、少数の音声を発
声することによって自動的に行うことができ、標準パタ
ンの作成も特別な装置を要することなく極めて簡単、高
速に行うことができる。

発明の効果以上要するに本発明は音素毎に区切られた音声信号から
スペクトルまたはそれに類似する情報（以下スペクトル
情報と記す）を算出する音響分析部と、多数話者からな
る標準音声信号から得られた標準パターンを予め格納す
る係数記憶部と、前記スペクトル情報と標準パターンと
を用いて音素毎のフィルタ出力をめる判別フィルタ部と
、類似度または音素系列で表記された単語辞書を格納す
る単語辞書記憶部と、前記判別フィルタ部を経て作成さ
れた類似度または音素系列を単語辞書と照合し最も類似
度の高い単語を認識結果として出力する出力部と、前記
出力部の結果と前記音響分析部のスペクトル情報とから
新しい標準パターンを作成しその結果に基づき前記係数
記憶部の内容を書き替える学習部とを具備することを特
徴とする音声認識装置を提供するもので、話者による音
声認識精度のバラツキを大幅に改善し、不特定話者に対
して安定して使うことができる利点を有する。

【図面の簡単な説明】

第１図は音素認識を基本とする従来の音声認識装置のブ
ロック図、第２図は本発明の一実施例における音声認識
装置のブロック図、第３図は本発明の音声認識装置の効
果を話者毎に示した図、第４図は本発明の音声認識装置
の効果を音素毎の標準偏差として表わした図である。２１・・・・・・ＡＤ変換器、２２・・・・・・信号処
理回路、２３・・・・・・線形予測分析プロセッサ、２
４・旧・・４’ｌＪ別フイルタ、２５・・・・・・係数
メモリ、２７・・・・・メインメモリ、２８・・・・・
・メインプロセッサ、２９・・・・・単語辞書メモリ、
３０・・・・・・出力部、３２・旧・・学習部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第４
図手続補正書特許庁長官殿 ■事件の表示昭和５８年特許願第１６３５３７号３補正をする者事件との関係　特　許　出　願　人任　所　大阪府門真市大字門真１００６番地名　称　（
５８２）松下電器産業株式会社代表者　山　下　俊　彦４代理人　〒５７１住　所　大阪府門真市大字門真１００６番地松下電器産
業株式会社内明　細　書１、発明の名称音声認識装置２、特許請求の範囲（１）音声信号からスペクトルまたはそれに類似する情
報（以下スペクトル情報と記す）を算出する音響分析部
と、多数話者からなる標準音声信号から得られた標準パ
ターンを予め格納する係数記憶部と、前記スペクトル情
報と標準パターンとを用いて音素毎の類似度をめる類似
度計算部と、類似度または音素系列で表記された単語辞
書を格納する単語辞書記憶部と、前記類似度計算部を経
て作成された類似度または音素系列を単語辞書と照合し
最も類似度の高い単語を認識結果として出方する出力部
と、前記出力部の結果と前記音響分析部のスペクトル情
報とから新しい標準パターンを作成しその結果に基づき
前記係数記憶部の内容を書き替える学習部とを具備する
ことを特徴とする音声認識装置。（功　標準パターンとしてスペクトル情報の分散共分散
行列および平均値を少なくとも含むことを特徴とする特
許請求の範囲第１項記載の音声認識装置。（′４　人力音声の認識結果に基づいて係数記憶部の内
容を修正するようにしたことを特徴とする特許請求の範
囲第１項記載の音声認識装置。３、発明の詳細な説明産業上の利用分野本発明は人間の声によって発声された音声信号を自動的
に認識するだめの、音声認識装置に関するものである。従来例の構成とその問題点音声を自動的に認識する音声認識装置は人間から電子計
算機や各種機械へデータや命令を与える手段として非常
に有効と考えられる。従来研究あるいは発表されている音声認識装置の動作原
理としてはバタンマツチング法が多く採用されている。この方法は認識される必要がある全種類の単語に対して
標準パターンをあらかじめ記憶しておき、入力される未
知の入力バタンと比較することによって一致の度合（以
下類似度と呼ぶ）を計算し、最大一致が得られる標準バ
タンと同一の単語であると判定するものである。このバ
タンマツチング法では認識されるべき全ての単語に対し
て標準バタンを用意しなければならないため、発声者が
変った場合には新しく標準バタンを人力して記憶させる
必要がある。したがって数百種類以上の単語を認識対象
とするような場合、全種類の単語を発声して登録するに
は時間と労力を必要とし、また登録に要するメモリー容
量も膨大になる仁とが予想される。さらに入力バタンと
標準パタンのバタンマツチングに要する時間も単語数が
多くなると長くなってしまう欠点がある。これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ）音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリー容量が大幅に少なくて済み、バタンマツチン
グに要する時間が短く、辞書の内容変更も容易であると
いう特長を持っている。例えば「赤い」という発声は／
ａ／。／に／＋／ｌｉ　という三つの音素を組合せてＡＫＡＩ
という極めて簡単な形式で表現することができるため、
不特定話者で多数語の音声に対処することが容易である
。第１図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。マイク等で入力された音声は音響
分析部１によって分析を行なう。分析方法としては帯域フィルタ群や線形予測分析を用い
、フレーム周期（１０ｍＳ程度）毎にスペクトル情報を
得る。音素判別部２では、音響分析部１で得たスペクト
ル情報を用い、標準パターン格納部３のデータによって
フレーム毎の音素判別を行なう。標準パターン格納部３
に格納された標準パターンは、あらかじめ多数話者の音
声より音素毎にめておく。セグメンテーション部４では
音響分析部１の分析出力をもとに音声区間の検出と音素
毎の境界決定（以下セグメンテーションと呼ぶ）を行う
。音素認識部６ではセグメンテーション部４と音素判別
部２の結果をもとに１つの音素区間毎に何という音素で
あるかを決定する作業を行なう。この結果として音素の
系列が完成する。単語認識部６では、この音素系列を面様に音素系列で表
記された単語辞書７と照合し、最も類似度の高い単語を
認識結果として出力する。前記方法で不特定話者を対象とする場合に最も重要な点
は、高い音声認識精度を、どういう話者環境に対しても
安定して得ることである。また、そのために話者に負担
をかけすぎたり音声認識装置にした場合に高価な部分を
要するようであってはならない。しかし従来発表または試作されている音声認識装置は前
記条件が不十分であるという欠点があった。従来例として、予測残差を対象とする方式（鹿野、好用
「会話音声中の母音認識を目的としたＬＰＧ距離尺度の
評価」電子通信学会誌８０　／　５　。ＶＯＬ　Ｔ−６３Ｄ　、爲６参照）では、あらかじめ多
数話者の音声より線形予測分析によって音素ｉの最大パ
ラメータＡｍ　ｒ　（）−１ｔ　２　ｔ・・・・・・、
Ｐ）（Ｐは分析次数）をめておき、予測残差を次式ここ
でＳｊ　は未知な入力音声からめた自己相関係数である
。この予測残差Ｎｉ　を、対象とする音素毎にめこれを
距離尺度として、Ｎｉ　が最少となる音素を判別結果と
する。しかしこの方法は音素の標準パタンに相当する最大パラ
メータＡｉ５が単なる平均値であるため、たとえ使用者
にあわせてＡ、を作り直すという学習機能を設けたとし
ても、調音結合による発声の変動に対処することができ
ず、認識率が低いという欠点があった。発明の目的本発明は前記欠点を解消し、不特定話者に対処できると
ともに話者、環境、言葉のちがいに影響されることなく
安定に高い音声認識精度を得ることのできる音声認識装
置を提供することを目的とする。発明の構成本発明は上記目的を達成するためになされたもので、音
声信号からスペクトルまたはそれに類似する情報（以下
スペクトル情報と記す）を算出する音響分析部と、多数
話者からなる標準音声信号から得られた標準パターンを
予め格納する係数記憶部と、前記スペクトル情報と標準
パターンとを用いて音素毎の類似度をめる類似度計算部
と、類似度または音素系列で表記された単語辞書を格納
する単語辞書記憶部と、前記類似度計算部を経て作成さ
れた類似度または音素系列を単語辞書と照合し最も類似
度の高い単語を認識結果として出力する出力部と、前記
出力部の結果と前記音響分析部のスペクトル情報とから
新しい標準パターンを作成しその結果に基づき前記係数
記憶部の内容を書き替える学習部とを具備するものであ
る。実施例の説明第２図に本発明の音声認識装置の構成の一実施例を示す
。マイク３１から入った音声信号はＡＤ変換器２１で、
１２曲サンプリングで１２ビツトに変換する。これを信
号処理回路でプリエンファシスおよび２Ｑｍ３のハミン
グ窓をかけ、１０ｍＳ毎に線形予測分析プロセッサ２３
にてＬＰＣケプストラム係数を算出する。このＬＰＣケ
プストラム係数を類似度計算部２４に通し、各音素に対
する類似度をフレーム毎に算出し、メインメモリ２７に
転送する。係数メモリ２６は各音素毎のフィルタ係数を
格納している。一方、帯域フィルタ２６では３チャネル程度の帯域パワ
ーおよび全パワーを算出し、音素のセグメンテーション
用のデータとしてメインメモリ２７に転送する。メイン
プロセッサ２８では類似度計算部２４および帯域フィル
タ２６の結果を用いて音声区間の検出と音素毎のセグメ
ンテーションを行った後、類似度計算部２４の音素毎の
類似度から類似度の最も高い音素を区間毎に決定し、音
素系列を作成する。この音素系列を同様に音素系列で表
記された単語辞書メモリ２９と照合することによって最
も類似度の大きい単語名を認識結果として出力部３ｏに
出力する。しかし、これだけでは不特定話者に対して使用は可能で
あるが、標準パターンに相幽する係数メモリ２６が固定
されるため、話者による認識性能のバラツキが大きく、
認識率がかなり低くなってしまう場合が生ずる。そこで
、新しく学習機能をもたせるために学習部３２を設ける
。この学習部３２は線形予測分析プロセッサ２３で得た
ＬＰＣケプストラム係数を受け、出力部３ｏから得た結
果を参照に学習データを作成し、あらかじめめておいた
分散、共分散行列をもとにその話者に最もふされしい音
素毎の判別係数を計算し直し、係数メモ！７２５に転送
するための動作を行う。次に本発明に係る音素認識装置の動作について第２図を
参照にしながら詳しく説明する。あらかじめマイク３１から入力された多数話者の発声し
た多数の単語音声からＡＤ変換器２１を介して母音／ａ
／、１０／、／ｕ／、／Ｖ、／ｅ／と鼻音の切出しを行
っておく。この音声データを用いて信号処理回路２２お
よび線形予測分析プロセッサ２３により１０ｍ５の分析
区間毎に線形予測分析を行い、ｐ次元のＬＰＣケブヌト
ラム係数を算出する。仁のＬＰＧケプストラム係数を用
いて全音素を対象とした共分散行列Ｗと、各音素毎の平
均値ｔｎｔ　（ｉは音素の種類を表わす）をめる。この
結果より、音素１に対する判別係数ａｉｊ（ｊ＝１．２
．・・・・・・ｔｐ）は共分散行列Ｗの逆行列Ｗ−１の
（ｉ　、　ｊ’）要素を６月とすると、で表わすことが
できる。各音素毎にａｉ　５　、ｍ、　、’、δ目、ｍ１ｔＷ−
’ｍ、（抜道）をめ標準パターンとして係数メモリ２５
に格納しておく。次に使用者に内容のあらがじめわがっている音声（たと
えば／ａ／、／Ｖ、／ｕ／、／＠／、１０／　）を発声
させ、音声区間中の分析区間毎のＬＰＣケプストラム係
数を線形予測分析プロセッサ２３でめ、学習部３２に転
送する。一方予め格納されている係数メモリ２６の標準
パターンを用いて、判別フィルタ２４で類似度をめる。類似度計算部２４では入力信号のＬＰＣケプストラム係
数Ｘに対するマハラノビス距離り、　ハ（ｔは転置行列を示す）で表わすことができるが、第１項は音素の種類に依存し
５ないため、類似度Ｌｉ　を簡易的にで表わし、（４式
を用いて類似度を計算する０その結果をメインメモリ２
７に転送し、メインプロセッサ２８を通して音素系列を
作成する。次に、学習すべき音素の時間軸上の位置を示
す値を出力部３ｏより学習部３２にもどし、学習すべき
音素のＬＰＣケプストラム係数の平均値をめる。以上を
音声の種類を変えながら必要な回数くり返す。各音素毎の平均値に適度な重み付けをしたものを学習し
ない場合のもとの平均値（ｍ、′）に加え、新しい音素
毎の平均値を作成し係数メモリ２６の平均値ｍ１５７番
置き換える。さらにこの平均値を使用して判別係数ａｉ
ｌおよび（４式の定数項（第２項）を音素ごとに修正し
、仁れらを新しい標準パターンとして係数メモリ２５に
転送し、標準パターンの書替えを行う。次に実際に音声認識を行う場合について説明する。マイ
ク１０から入力された未知な音声信号について、信号処
理回路２２および線形予測分析プロセッサ２３を使用し
てＬＰＣケプストラム係数ｘ（ｘｌ、ｘ２．・・・・・
・ｔ　Ｘｐ　）をめ、類似度計算部２４に転送し、予め
めて係数メモリ２５に収納しである標準パターンを用い
て（４式より音素ｌの類似度り、をめる。これを音素毎（ｌ＝１，２．・・・・・・、ｎ）（ｎは
音素数）にめ、メインメモリ２７に転送する。メインプロセッサ２８ではこの類似度と帯域フィルタ２
６の出力をもとにセグメンテーションを行った結果とを
組合わせることに占り音素認識を行い音素系列を作成す
る。最後に音素系列を単語辞書メモリ２９と照合し、最も類
似度の高い単語を認識結果として出力部３０に転送する
。上記実施例は音声認識を行う前に、内容の予めわかって
いる音声を入力し、その結果に基づいて係数メモリ２５
内の標準パターンの修正を行う場合について述べたが、
音声認識の途中に音声の認識結果に基づいて係数メモリ
２５内の標準パターンの修正を行っても良いことはもち
ろんである。この場合には内容のわがっている音声を予め学習しなく
ても良く、環境の変化、入力者の音声の変化等に対して
自動的に追随することができる。このように、本実施例は音素認識を基本とする音声認識
装置において、各音素の標準パタンをあらかじめ簡単な
学習によって使用者に合うように作成する学習機能を持
つことを特徴とし、高い音声認識性能を持たせることが
できる。また、学習のための計算は極めて簡単であり、
特別な高い演算精度を持つ計算回路を要することなく、
すぐに新しい標準バタンを作成することができる。第３図は成人男子１０人を対象として、学習のない場合
と行った場合の音素認識率の比較を行ったものである。学習は評価用の全単語で行った場合３４と、２０語程度
の少数語で行った場合３６を示した。いずれも、学習の
ない場合３３に比して音素認識率は向上し、特に従来極
端に認識率の低かった話者（ＮＳ　、ＫＳ　、　ＳＭな
ど）に対して大きな効果のあることを示している。第４図は音素毎の認識率の標準偏差を示したもので、学
習のない場合４１に比して学習を全単語で行った場合４
２、少数語で行った場合４３ともにバラツキが減少し、
後段の単語マツチングの性能を向上させる効果を与える
ことを示している。本実施例は以下に示すような効果を有する。 ■　音声認識装置に学習機能を持たせることにより、使
用者に適合した標準バタンを自動作成し、環境の変化や
話者の個人差によるバラツキの少ない良好な音声認識精
度を持たせることができる。 ■　学習は使用前あるいは使用途中に、少数の音声を発
声することによって自動的に行うことができ、標準パタ
ンの作成も特別な装置を要することなく極めて簡単、高
速に行うことができる。発明の効果以上要するに本発明は音声信号からスペクトルる標準音
声信号から得られた標準パターンを予め格納する係数記
憶部と、前記スペクトル情報と標準パターンとを用いて
音素毎の類似度をめる類似度計算部と、類似度または音
素系列で表記された単語辞書を格納する単語辞書記憶部
と、前記類似度計算部を経て作成された類似度または音
素系列を単語辞書と照合し最も類似度の高い単語を認識
結果として出力する出力部と、前記出力部の結果と前記
音響分析部のスペクトル情報とから新しい標準パターン
を作成しその結果に基づき前記係数記憶部の内容を書き
替える学習部とを具備することを特徴とする音声認識装
置を提供するもので、話者による音声認識精度のバラツ
キを大幅に改善し、不特定話者に対して安定して使うこ
とができる利点を有する。４、図面の簡単な説明第１図は音素認識を基本とする従来の音声認識装置のブ
ロック図、第２図は本発明の一実施例における音声認識
装置のブロック図、第３図は本発明の音声認識装置の効
果を話者毎に示した図、第４図は本発明の音声認識装置
の効果を音素毎の標準偏差として表わした図である。２１・・・・・・ＡＤ変換器、２２・・・・・・信号処
理回路、２３・・・・・・線形予測分析プロセッサ、２
４・・・・・・類似度計算部、２６・・・・・・係数メ
モリ、２７・・・・・メインメモリ、２８・パ・・・メ
インプロセッサ、２９・・・・・・単語辞書メモリ、３
０曲・・出方部、３２・・・・・・学習部。代理人の氏名　弁理士　中　尾　敏　男　はが１名第２
図第乎図

Claims

【特許請求の範囲】（１）音素毎に区切られた音声信号からスペクトルまた
はそれに類似する情報（以下スペクトル情報と記す）を
算出する音響分析部と、多数話者からなる標準音声信号
から得られた標準パターンを予め格納する係数記憶部と
、前記スペクトル情報と標準パターンとを用いて音素毎
のフィルタ出力をめる判別フィルタ部と、類似度または
音素系列で表記された単語辞書を格納する単語辞書記憶
部と、前記判別フィルタ部を経て作成された類似度また
は音素系列を単語辞書と照合し最も類似度の高い単語を
認識結果として出力する出力部と、前記出力部の結果と
前記音響分析部のスペクトル情報とから新しい標準パタ
ーンを作成しその結果に基づき前記係数記憶部の内容を
書き替える学習部とを具備することを特徴とする音声認
識装置。（噂　標準パターンとしてスペクトル情報の分散共分散
行列および平均値を少なくとも含むことを特徴とする特
許請求の範囲第１項記載の音声認識装置。（３）未知入力音声の認識結果に基づいて係数記憶部の
内容を修正するようにしたことを特徴とする特許請求の
範囲第１項記載の音声認識装置。