JPH02208700A

JPH02208700A - 音声認識装置

Info

Publication number: JPH02208700A
Application number: JP1030753A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-02-08
Filing date: 1989-02-08
Publication date: 1990-08-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】１権分立本発明は、音声認識装置、より詳細には、音声認識装置
におけるパターン登録に関わるものである。

従ｍ近年、人工知能の研究が活発に行なわれるに従い、コン
ピュータと人間のコミュニケーションの人間的な方法と
して、音声認識が注目されている。

人間とコンピュータの対話が実現しないまでも、すでに
単語音声の認識装置は実用化されている。

音声認識装置には誰の声でも認識できる不特定話者認識
方式と、使用者の声をあらかじめ登録する特定話者方式
があり、認識率と認識できる単語数では特定話者方式が
有利である。ところが特定話者方式では利用する語数が
多くなると登録する負担が大きくなるという欠点がある
。そこで、このような負担をへらすために話者適応と言
う方法が提案された（例えば、音響学会昭和６３年春季
講演論文集２−２−１３〜２−２−１６）。これはあら
かじめ音声の代表的な特徴量を保持しておいて、利用者
の音声にあわせて特徴量を修正するものである。しかる
に、この方法は特徴量の修正の為に多くの計算を必要と
するという問題があった。

且−一一眞本発明は、上述のごとき実情に鑑みてなされたもので、
特に、多くの計算をすることなく利用者に適した精度の
良い音声認識用の標準特徴パターンを作り、−高認識率
の音声認識装置を提供することを目的としてなされたも
のである。

欅−一威本発明は、上記目的を達成するために、音声を入力する
ための手段と、入力された音声を特徴量に変換する手段
と、特徴量を格納するメモリーと、格納されている特徴
量と入力された特徴量とを比較する比較手段と、この比
較された結果にもとづいて認識結果を決定する手段と、
決定された結果が正しいか誤りがを知る為の手段を有し
、更に、この知らされた結論に基づいてメモリーの中の
特徴量を修正または変更する手段を有する音声認識装置
において、メモリー中にあらかじめ音声の特徴量とそれ
に対応する記号列を格納するとともに、利用者が任意の
特徴量とそれに対応する記号列を格納可能であって、利
用者が音声を登録するにさきだち、音声の記号列を入力
し、この記号列と、あらかじめ格納されている記号列と
、利用者がすでに登録している記号列の間で類似性を求
め、それぞれの最大の類似度を比較した結果、あらかじ
め格納されている記号列との最大類似度の方が他方より
大きい時、あらかじめ格納されている記号列中の最大類
似度を得た記号列に対応する特徴量に入力された記号列
を対応させて利用者の音声として登録するようにしたこ
と、或いは、メモリー中にあらかじめ音声の特徴量とそ
れに対応する記号列を格納するとともに、利用者が任意
の特徴量とそれに対応する記号列を格納可能であって、
利用者が音声を登録するにさきだち、音声の記号列を入
力し、この記号列と、あらかじめ格納されている記号列
と、利用者がすでにＨＤしている記号列の間で類似性を
求め、それぞれの最大の類似度を比較した結果、あらか
じめ格納されている記号列との最大類似度の方が他方よ
り小さい時、その記号列に対する発声をうながすととも
に、利用者が登録している記号列中の最大類似度を得た
記号列に対応する音声の発声もうながし、この記号列と
発声によって得られた特徴量を対応させて利用者の音声
として登録するようにしたこと、更には、あらかじめ格
納されている記号列との最大類似度の方が他方より小さ
い時、その記号列に対する発声をうながすとともに、利
用者が登録している記号列中の最大類似度を得た記号列
および特徴量が利用者の音声であるかあ゛らかしめ登録
されていた物の転用であるかを調べ、転用であった場合
のみこれに対応する音声の発声もうながし、この記号列
と発声によって得られた特徴量を対応させて利用者の音
声として登録するようにしたことを特徴としたものであ
る。以下、本発明の実施例に基づいて説明する。

第１図は、請求項第１項に記載された発明の一実施例を
説明するための構成図で、図中、１はマイクロフォン、
２は特徴量抽出部、３．３′は切換えスイッチ、４．５
はメモリー　６は照合部、７は最大類似度抽出部、８は
比較部、９は閾値発生部、１ｏは更新部、１１は結果表
示部、１２は最大類似度抽出部、１３は照合部、１４は
キーボードである。而して、この実施例は、請求項第１
項に記載された発明に対応するもので、音声を入力する
ための手段と、入力された音声を特徴量に変換する手段
と、特徴量を格納するメモリーと、格納されている特徴
量と入力された特徴量とを比較する比較手段と、この比
較された結果にもとづいて認識結果を決定する手段と、
決定された結果が正しいか誤りがを知る為の手段を有し
、更に、この知らされた結論に基づいてメモリーの中の
特徴量を修正または変更する手段を有する音声認識装置
において、メモリー中にあらかじめ音声の特徴量とそれ
に対応する記号列を格納するとともに、利用者が任意の
特徴量とそれに対応する記号列を格納可能であって、利
用者が音声を登録するにさきだち、音声の記号列を入力
し、この記号列と、あらかじめ格納されている記号列と
、利用者がすでに登録している記号列の間で類似性を求
め、それぞれの最大の類似度を比較した結果、あらかし
め格納されている記号列との最大類似度の方が他方より
大きい時、あらかじめ格納されている記号列中の最大類
似度を得た記号列に対応する特徴量に入力された記号列
を対応させて利用者の音声としてＷＢするようにしたこ
とを特徴としたものである。

第１図に従って説明すると、図示のように、音声を入力
するためのマイク１と、入力された音声を特徴量に変換
する手段２としてバンドパスフィルター群を用いる。し
かし、これはバンドパスフィルター群に限るものではな
くＬＰＧなどの良く知られているものでもよい。特徴量
を格納するメモリーは、利用者が任意の特徴量とそれに
対応する記号列を格納可能なメモリー４と、あらかじめ
音声の特徴量とそれに対応する記号列が格納されている
メモリー５で構成されている。メモリー４に登録されて
いる特徴量（標準パターン）と入力された特徴量とを照
合部１３で比較照合し、この照合され計算された類似度
の一番大きなものを最大類似度抽出部１２にて認識結果
と決定し、結果表示部１１にて表示する。その結果が正
しいか誤っているかをキーボード１４から入力し正しい
場合は、入力されたパターンによってメモリー４の中の
該当特徴量を更新する。正解であるが類似度が低い場合
も更新しても良い。誤っていた場合は入力されたパター
ンによってメモリー４の中の該当特徴量を置き換える。

この認識の照合方法はよく知られたものがいくつかあり
、ここではとくにその方法を限定するものではない。ま
ず、利用に先立ち利用者は音声を登録するためにスイッ
チ３．３′をａ側へ倒す。この時、２つのスイッチ３．
３′は連動される。キーボード１４から登録すべき言葉
の綴りを入力する。仮にメモリー５の中にはあらかじめ
音声の特徴量とそれに対応する記号列として「０」から
「９」が格納されているとし、利用者がすでに「千」、
「万」、と登録して、いま「億」と登録しようとしたと
する。ｏｋＵと入力し、この記号列と、あらかじめ格納
されている記号列と、利用者がすでに登録している記号
列の間で類似性を求める。メモリー４の中の「千」、「
万」と類似性を求め、次にメモリー５の中の「ｏ」から
「９」と類似性を比較した結果、「６」との類似度が最
大となり、「６」の特徴パターンを「億」の標準パター
ンとして登録する。

記号列の類似性はローマ字でつづった２つのことばを比
較して、両者の母音の類似性とその位置によって決めれ
ば良い、最終的にメモリー４のなかに登録される言葉間
に大した類似がない場合、これで正しい認識が為される
上、認識の類似度が低かったり、誤認識した時にはパタ
ーンが更新される為、利用者は登録したという負担を感
じずに、認識率の良い標準パターンが形成できる。また
、メモリー４の中の言葉の啜りの方が類似性が高い時に
は登録しようとする言葉を発声する。

第２図は、請求項第２項及び第３項に記載された発明の
一実施例を説明するための構成図で、登録された標準パ
ターンの中に類似した綴りの言葉がある時の為に、この
実施例では次の様にした。

メモリー中にあらかじめ音声の特徴量とそれに対応する
記号列を格納するとともに、利用者が任意の特徴量とそ
れに対応する記号列を格納可能であって、利用者が音声
を登録するにさきだち、音声の記号列を入力し、この記
号列と、あらかじめ格納されている記号列と、利用者が
すでに登録している記号列の間で類似性を求め、それぞ
れの最大の類似度を比較した結果、あらかじめ格納され
ている記号列との最大類似度の方が他方より小さい時、
その記号列に対する発声をうながすとともに、利用者が
登録している記号列中の最大類似度を得た記号列に対応
する音声の発声もうながし、この記号列と発声によって
得られた特徴量を対応させて利用者の音声として登録す
るようにしたものである。第２図を用い、第１図と違う
点を説明すると、メモリー４と５の中の両方に類似の言
葉が有った場合、両者を表示して発声し直して正しい音
声で登録し直す。しかし、メモリー４の中の音声はすで
に発声して登録した場合もあり、このような時は同じ言
葉を２回発声することになってしまう。

そこで、請求項第３項の発明のように、あらかじめ格納
されている記号列との最大類似度の方が他方より小さい
時、その記号列に対する発声をうながすとともに、利用
者が登録している記号列中の最大類似度を得た記号列お
よび特徴量が利用者の音声であるかあらかじめＳｔ８さ
れていたものの転用であるかを調べ、転用であった場合
のみこれに対応する音声の発声もうながし、この記号列
と発声によって得られた特徴量を対応させて利用者の音
声として登録するようにした。そのために、第３図に示
すように、メモリー４の中に登録された標準パターンが
メモリー５からの転用なのか実際に発声したものなのか
を表すビット（第３図において、例えば、転用を１１０
１１　、　ｕ　Ｉを“１″として表わす）を設けておき
、メモリー４と５の両方に類似の綴りが有った場合、こ
のビットをチエツクし、先に登録されているパターンが
実際に発声されているものなら、今、登録しようとして
いる言葉だけを発声し、先に登録されているものが転用
であったなら、両方とも発声するようにする。

羞−一来以上の説明から明らかなように、本発明によると、話者
の負担を少なくして、精度の良い標準パターンを提供で
き、このため、誤りの少ない音声認識装置を実現するこ
とができる。

【図面の簡単な説明】第１図及び第２図は、それぞれ本発明の詳細な説明する
ための構成図、第３図は、標準パターンのメモリーの一
例を示す図である。ｌ・・・マイクロフォン、２・・・特微量抽出部。３．３′・・・スイッチ、４，５・・・メモリー、６・
・・照合部、７・・・最大類似度抽出部、８・・・比較
部、９・・・閾値発生部、１０・・・更新部、１１・・
・結果表示部。１２・・・最大類似度抽出部、１３・・・照合部、１４
・・・キーボード、１５・・・検索部。特許出願人　　株式会社　リコー

Claims

【特許請求の範囲】１、音声を入力するための手段と、入力された音声を特
徴量に変換する手段と、特徴量を格納するメモリーと、
格納されている特徴量と入力された特徴量とを比較する
比較手段と、この比較された結果にもとづいて認識結果
を決定する手段と、決定された結果が正しいか誤りがを
知る為の手段を有し、更に、この知らされた結論に基づ
いてメモリーの中の特徴量を修正または変更する手段を
有する音声認識装置において、メモリー中にあらかじめ
音声の特徴量とそれに対応する記号列を格納するととも
に、利用者が任意の特徴量とそれに対応する記号列を格
納可能であって、利用者が音声を登録するにさきだち、
音声の記号列を入力し、この記号列と、あらかじめ格納
されている記号列と、利用者がすでに登録している記号
列の間で類似性を求め、それぞれの最大の類似度を比較
した結果、あらかじめ格納されている記号列との最大類
似度の方が他方より大きい時、あらかじめ格納されてい
る記号列中の最大類似度を得た記号列に対応する特徴量
に入力された記号列を対応させて利用者の音声として登
録するようにしたことを特徴とする音声認識装置。２、音声を入力するための手段と、入力された音声を特
徴量に変換する手段と、特徴量を格納するメモリーと、
格納されている特徴量と入力された特徴量とを比較する
比較手段と、この比較された結果にもとづいて認識結果
を決定する手段と、決定された結果が正しいか誤りがを
知る為の手段を有し、更に、この知らされた結論に基づ
いてメモリーの中の特徴量を修正または変更する手段を
有する音声認識装置において、メモリー中にあらかじめ
音声の特徴量とそれに対応する記号列を格納するととも
に、利用者が任意の特徴量とそれに対応する記号列を格
納可能であって、利用者が音声を登録するにさきだち、
音声の記号列を入力し、この記号列と、あらかじめ格納
されている記号列と、利用者がすでに登録している記号
列の間で類似性を求め、それぞれの最大の類似度を比較
した結果、あらかじめ格納されている記号列との最大類
似度の方が他方より小さい時、その記号列に対する発声
をうながすとともに、利用者が登録している記号列中の
最大類似度を得た記号列に対応する音声の発声をうなが
し、この記号列と発声によって得られた特徴量を対応さ
せて利用者の音声として登録するようにしたことを特徴
とする音声認識装置。３、音声を入力するための手段と、入力された音声を特
徴量に変換する手段と、特徴量を格納するメモリーと、
格納されている特徴量と入力された特徴量とを比較する
比較手段と、この比較された結果にもとづいて認識結果
を決定する手段と、決定された結果が正しいか誤りがを
知る為の手段を有し、更に、この知らされた結論に基づ
いてメモリーの中の特徴量を修正または変更する手段を
有する音声認識装置において、メモリー中にあらかじめ
音声の特徴量とそれに対応する記号列を格納するととも
に、利用者が任意の特徴量とそれに対応する記号列を格
納可能であって、利用者が音声を登録するにさきだち、
音声の記号列を入力し、この記号列と、あらかじめ格納
されている記号列と、利用者がすでに登録している記号
列の間で類似性を求め、それぞれの最大の類似度を比較
した結果、あらかじめ格納されている記号列との最大類
似度の方が他方より小さい時、その記号列に対する発声
をうながすとともに、利用者が登録している記号列中の
最大類似度を得た記号列および特徴量が利用者の音声で
あるかあらかじめ登録されていた物の転用であるかを調
べ、転用であった場合のみこれに対応する音声の発声を
うながし、この記号列と発声によって得られた特徴量を
対応させて利用者の音声として登録するようにしたこと
を特徴とする音声認識装置。