JPS602998A

JPS602998A - 音声認識装置

Info

Publication number: JPS602998A
Application number: JP58110683A
Authority: JP
Inventors: 裕二木島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-06-20
Filing date: 1983-06-20
Publication date: 1985-01-09
Also published as: JPH0430598B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分針〕本発明は、音声認識システムにおける話者適応方式に関
し、特に、複数の音声辞書の中から特定話者ごとに最適
の音声辞書を選択するための音声辞書構成方式に関する
０〔技術の背景〕一般に、音声認識システムでは、たとえば数百語以上の
多数の填語の認識を、何らの事前学習もなしで行なうこ
とは、現状ではなお認識率の点で問題がある。他方、多
数の単語を全て事前に発声して登録する方式は、認識精
度の点ですぐれているが、話者の負担が大きくなｐすぎ
、実用的ではない。したがって、事前発声データはなる
べく少量にして話者に適した辞書を作成する手法が必要
である。

その１つの手法として、予めＩ意した複数の辞書、たと
えば他の複数の話者が発声した音声にもとづいてそれぞ
れ作成した辞書から話者に最適な辞書を１つだけ選択す
る方式が考えられるが、話者に適した辞書の存在を保証
するためには、かなカ多数の辞書を用意しなければなら
ないという問題がある。

〔発明の目的および構成〕

本発明の目的は、音声認識システムを話者ごとに最適化
して認識精度を扁める話者適応方式において、事前学習
に対する話者の負担を少なくしてかつ最適の音声辞書を
容易に構成することができる手段を提供することにある
。

一般に、与えられた複数の音声辞書のうち、入力話者に
最適な辞゛１誉を唯１個選択して用いたとしても、もと
の音声辞書の数が少なければ、入力話者によってはあｔ
ｂ適した辞書が移転せず、したがって高認識率が得られ
ない場合がある。このような場合、複数の辞書の情報を
用いることにより、そのいずれの辞書を単独で使用した
場合よりも認識率を高くすることが可能である０本発明は、この点に着目してなされたものであシ、少な
い数のサンプル音声データを辞書として用いた認識結果
によシ主の音声辞書の選択を行ない、比較的類似度の高
い音声辞書を複数個に絞って使用し、あるいはさらにそ
れから新たな辞書を作成することにより上記目的を達成
している。

本発明の構成は、それによシ（１）　複数の音声辞書をそなえた音声認識システムに
おいて、該複数の音声辞書のそれぞれごとに作成された
同じカテゴリ群からなるサンダル音声データ群と、該サ
ンプル音声データ群と認識対象の特定話者の音声データ
との間で類似度を計算する手段と、高い類似度を示した
上位複数のす、ングル音声データ群に対応する複数の音
声辞書のみを選嶽する手段とをそなえ、該選択された複
数の音声辞書を上記特定話者に対する音声辞書として使
用することを特徴とする。

１２）複数の音声辞書をそなえた音声認識システムに、
おいて、該複数の音声辞書のそれぞれごとに作成された
同じカテゴリ群からなるサンプル音声データ群と、該サ
ンダル音声データ群と特定話者の音声データとの間で類
似度を計算する手段と、高い類似度を示した上位複数の
サンプル音声データ群に対応す為複数の音声辞書のみを
選択する手段と、該選択された複数の音声辞書を平均化
して新しい音声辞書を作成する手段・とをそなえ、該複
数の選択された音声辞書を平均化して作成された音声辞
書を、上記特定話者に対する音声辞書として使用するこ
とを特徴とするものである。

〔発明の実施例〕

以下に、本発明の詳細を実施例にしたがって説−明する
。

一般には、他人の辞書を用いた場合は自身の辞書を用い
た場合に比べてＩｇａ識率がかなり下がるが、学習によ
シ改善を図ることができる０他人の辞書の一部を自身の辞書と゛置き換えて新しい辞
書とした場合、使用している特徴量に個人差を表わす情
報が多く含まれていれば、認識率は、その置換量に応じ
て、例えば第１図の実線のグラフｌのような変化を示す
。

すなわち、他人の辞書のうち少量を自身の辞書と置き換
えた場合には、認識率がかえって低下する傾向を示す０
この現象は、特徴量に個人情報が多く含まれている場合
には、他人の発声した同一の革語よフ、自身の発声した
別の牟語の方が類似性が高くなることにより起こるもの
である。この場合、 ■　辞書の中で自身のデータと他人やデータとはあらが
↓め区別できるので、自身のデータに対して非類似性に
関する閾値を設定し、認識時点でこの閾値を超える自身
の辞書データを採用しないことにより、第１図の破線の
グラフ２のように、大体置換量に比例した認識率の増加
をみることができる。

■　また、予め多数の話者の辞書（多数対象と少数語粂
すなわちサンプル嗟案の２組：少数対案は多数対案の一
部としてもよい）を用意しておき、利用者は、上記サン
プル語案を発声して、その対案の範囲内で認識を行なう
。その結果、認識率が最も高かったサンプル語粂の話者
による多数対案の辞書を使用することにすれば、単に１
人の辞書を用意して全ての利用者がその辞書を使用する
場合にくらべて、平均認識率を高くすることができる０ ■　■で認識率の最も高い辞書を１つ使用するかわυに
、認識率の高い辞ｔｔ−複数個使用する方法がある。

複数辞書の使用法としては、従来、マルチテングレート
方式、平均ノＪ？タン方式がよく用いられている〇マルチテンプレート方式は、複数の辞書を単に平面的に
配列し、ひとまとめにして１つの辞書とするものである
。１つのカテゴリに複数（話者の人数）のデータが存在
することになフ、認識時点では、それら全てのデータの
中から最もよく似たデータを探す処理が行なわれる０次に平均ｔ４４タン方は、同一のカテゴリ内の複数のデ
ータにおいて、対応する特徴ごとに特徴値を平均し、新
しい１つのデータとするものでおる０音声の場合にｉ、
時間長の変動がある為、一般には時間方向での対応付け
を行なった後、平均するＯ本実施例では、時間方向は単
語長を１６等分するという形で時間長の正規化を行なっ
ているので、平均操作は簡単に行なうことができる。

第２図は、マルチテングレート方式と平均／９タン方式
の効果を比較したものである。

第２図は、４０人のテスト対象話者のそれぞれについて
４０個の辞書（語数２００語）から類似度の高い上位１
　、３　、５　、１０個の辞書を選択した場合を横軸に
とフ、縦軸には話者４０人の平均認識率を示したもので
ある。グラフ３がマルチテングレートの場合、グラフ４
が平均バタン辞書の場合を示す０図から明らかなように
、平均パタン方式が′マルチテンプレート方式よりも優
れていることがわかる０これは、平均／ぐタン方式の場
合、個々の辞書に含まれる各個人情報部分が、平均化に
より希釈され、その反対に有効な特徴情報部分は強調さ
れることによるものである。他方、マルチテンプレート
方式の場合には、このような効果を生じさせることがで
きない。

第３図は、平均パタン方式の効果をさらに明確にするた
めの典型例のデータを示す。図は、１００個の辞書（２
００語）から類似度の上位２０個の辞書を選択したもの
を類似度順に横軸に配列し、これに対して５人の入力話
者Ａ、Ｂ、Ｃ，Ｄ、Ｅの認識率を縦軸にとったものセあ
る′０各大入力者について、下方向に伸びる実線グラフ
が、上位２０個の辞書のそれぞれを単一辞書として扱っ
たときの認識率を表わし、また上方向に伸びる点線グラ
フが上位３個、５個、　１０個の辞書を平均したときの
認識率を表わす。

■　事前発声なしで認識を行なう為には、不特定話者用
辞書を用意する必要がある。特定の１人の辞書を不特定
話者用辞書として用いることは前述したように高い認識
率を得ることができない０ここでは与えられた複数の辞
書を平均して不特定話者用とする場合を考える０あらかじめ２０人分の辞書（１０００語！りが登録され
ているものとする０また、上記とは別の入力話者加入について、１０００語
粂を対象に次の５種類の辞書で認識を行なった場合の認
識率データを第４図に示す０■　用意されている２０個
の辞書を平均した不特定話者用辞書 ■　５０語のサンゾル辞書で認識を行ない、認識率の高
い１０個のサンプル辞書に対応する主の辞書（１０００
語紮）金子均した平均辞書■　１００語のサンプル辞書
で認識を行ない、認識率の高い１０個のサンプル辞書に
対応する主の辞−１：（１０００語案）金子均した平均
辞誉＠２００語のサンゾル辞書で認識を行ない、認識率
の高い１０個のサンプル辞書に対応する主の辞書（１０
００語索）金子均した平均辞書■　入力話者自身の発声
で登録された１０００語粟の個人辞書なお第４図のグラフは、入力話者２０人分の平均認識率
を表わしている。

■、■、■のよう−に少数語案のサンプル辞書で学習し
、複数の主辞書の選択を行なってそれから平均辞書を作
成する方法によシ、■および■を結ぶ破線５が示す事前
発声語数に比例して向上する個人辞書の認識率をさらに
上回るところの、特性６で示す効果を上げることができ
る。

第５図は上述した関係を総括したグラフである。

次に、本発明による音声認識システムの１実施例の構成
を、上述した＠にもとづく音声辞書構成方式の場合を例
にして説明する。

第６図はその構成図であシ、７は入力部、８は認識部、
９はサンプル辞書群ファイル、１０は認識結果保持部、
１１は選択部、　１２は主辞書群ファイル、１３は平均
辞書作成部、　１４は平均辞書格納部、１５はモード切
替スイッチ、１６は出力部を表わす。

本実施例システムは、辞書構成モードと、認識処理モー
ドとの２つのモードで動作する〇まず、モード切替スイ
ッチ１５をサンプル辞書群ファイル９側に設定し、辞書
構成モードにする０ここで利用者は、学習用の少数の単
語（１００語）を発声する０この学習用発声にもとづく
音声データは、入力部７から人力され、認識部８で認識
される０このとき使用される辞書は、サンダル辞書群フ
ァイル９中のものであるＯサンプル辞書群ファイル９には、複数（２０人）の話者
によって発声されたサンプル辞−ｔ（２０個）があり、
かつ全てのサングル辞書は同一のカテコ゛り群（１００
語粱語案らなり、このカテコ″１ノ群には上記学習用の
少数拳語が全て含まれている０このカテゴリ群は、後述
する主辞書群ファイル１２と同一あるいはその一部であ
ってもよいし、無関係であっても工い０認識結果保持部１０は、上記サンプル辞書群ファイル９
中の各サンプル辞書ごとに認識結果を保持する。

選択部１１は、サンプル辞書群ファイル９中のサンプル
辞書のうち、認識率が高かったサンプル辞書を選択する
。

主辞書群ファイ゛ルｎには、サンプル辞書群ファイル９
のサンプル辞書データを発声し７’ｃ複数の話者による
認識対象１１．語群（１ｏｏｏ語粟）を発声登録した辞
書が格納されている。

平均辞書作成部１３は、選択部１１で選択された複数の
サンプル辞書と同一の発声者による主辞荀・を主辞書群
ファイル１２からとり出し、それらの辞書を平均した１
つの辞書を作成するＯ作成された平均辞書は、平均辞書
格納部１４に格納される０ここでモード切替スイッチ１
５を、平均辞書格納部１４側に設定変更し、認識処理モ
ードにする。牙Ｕ用時点では、人力部７から入力された
音声カニ、認識部８において、平均辞書格納部１４に格
納されている辞書を用いて認識され、その結果が出力部
１６から出力される０なお、平均バタン方式の代シにマルチテンプレート方式
をとる場合には、主辞書群から選択した複数の辞書をそ
のまま認識処理用辞書とすればよい０〔発明の効果〕以上述べたように、本発明によればあら２５≧しめ用意
された複数の辞書から、話者に応じてそれらのいづれよ
りも認識率の高い辞書を作成することができるので、対
象語案を全て発声することなく、迅速かつ容易に高精度
の辞書を作成することｌｘできる０

【図面の簡単な説明】

第１図は他人の辞書に対する学習効果の説明図、第２図
はマルチテングレート辞書と平均／ぐタン辞書につい′
ての選択辞書数の効果の説明図、第３図は選択対象辞書
の類似度順位の効果の説明図、第４図は不特定話者用辞
書についての学習効果の説明図“、第５図は第１図から
第４図までを総括した説明図、第６図は本発明の１実施
例システムの構成図である０図中、７は入力部、８は認識部、９はサンダル辞書群フ
ァイル、１０は認識結果保持部、１１は選択部、νは主
辞書群ファイル、１３は平均辞書作成部、１４は平均辞
書格納部、１５はモード切替スイッチ、１６は出力部を
表わす。特許出願人　富士通株式会社代理人弁理士　長径用　文　廣（外１名）第　ｉ　唱１％）認。ジ遅Ｆ＋・トーーーーーーーーータ；船ジく度噛イヱーー
ーーーーーー“−・イ１ｃ←−一瓜班肇

Claims

【特許請求の範囲】

（１）複数の音声辞書をそなえた音声認識システムにお
いて、該複数の音声辞書のそれぞれごとに作成された同
じ力゛テゴリ群からなるサンプル音声データ群と、該サ
ンプル音声データ群と認識対象の特定話者の音声データ
との間で類似度を計算する手段と、高い類似度を示した
上位複数のサンプル音声データ群に対応する複数の音声
辞書のみを選択する手段とをそなえ、該選択された複数
の音声辞書を上記特定話者に対する音声辞書として使用
することを特徴とする音声辞書構成方式。
（２）複数の音声辞書をそなえた音声認識システムにお
いて、該複数の音声辞書のそれぞれごとに作成された同
じカディリ群からなるサンダル音声データ群と、該サン
ダル音声データ群と特定話者の音声データとの間で類似
度を計算する手段と、高い類似度を示した上位複数のサ
ンダル音声データ群に対応する複数の音声辞書のみを選
択する手段と、該選択された複数の音声辞書を平均化し
て新しい音声辞書を作成する手段とをそなえ、該複数の
選択された音声辞書を平均化して作成された音声辞書を
、上記特定話者に対する音声辞書として使用することを
特徴とする音声辞書構成方式０