JPH02103600A

JPH02103600A - 音声認識装置

Info

Publication number: JPH02103600A
Application number: JP63258265A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-10-13
Filing date: 1988-10-13
Publication date: 1990-04-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】圧術豆互本発明は、音声認識装置、より詳細には騒音下の音声認
識、例えば、工場内、オフィス内、自動車内での音声認
識に適用して有効な音声認識装置に関する。

丈末挟催従来の音声工３識装置における大きな欠点の１つは、騒
音の大きな環境で発声された音声の認識率か悪いことで
ある。

騒音下でマイクから入力された信号には、音声に９！音
が重畳している。この周囲騒音成分を除去する方法とし
て、スペクトルサブトラクト法がある。騒音が重畳した
音声のスペクトルから、騒音のスペクトルを減じ、音声
のスペクトルとするものである。実際には、音声収音用
のマイクと騒音収音用マイクの２本のマイクを用いる方
法がある。

しかしながら、２本のマイクを用いるために、通常の１
本のマイクによる認識に比へ、マイクや特ＩＬｎｔ抽出
回路のコストが上がるという欠点がある。

また、音声認識装置には、１本のマイク、２本のマイク
両方の方式に対応するものはないので、１本のマイクを
用いた従来の音声認識装置を使用しているユーザが、騒
音に強い２本のマイクを用いた方式に変えようとすると
、装置全体を交換せざるを得ないという問題がある。

ｌ−一攻本発明は、上述のごとき実情に鑑みてなされたもので５
特に、騒音の大きな環境での音声認識をコストを上げる
ことなく、より正確に行うことを目的としてなされたも
のである。

盪−一底本発明は、上記目的を達成するために、１つ、又は、２
つのマイクから入力された音声、かつ。

または、周囲騒音の特徴量を抽出する１つ、又は、２つ
の特微量抽出部と、上記特徴抽出部が１つの場合には、
該特徴抽出部で抽出された特徴量を音声の特徴量とし、
上記特徴抽出部が２つの場合には、一方の特徴抽出部で
抽出された特徴量から、他方の特徴抽出部で抽出された
特徴量で表現される成分を予め定められた手法により除
去したものを音声の特徴量として、該特徴量から入力音
声のパターンを作成する音声パターン作成部と、予め’
ｌ　録された音声の標準パターンを記憶する標準パター
ン記憶部と、上記入力音声のパターンと」二記標準パタ
ーンとでパターンマツチングを行うパターンマツチング
部とを具備して成ること、或いは、１つ、又は、２つの
マイクから人力された音声、かつ、または、周囲騒音の
特徴量を抽出する１つ、又は、２つの特微量抽出部と、
上記マイク入力の数が１つか、或は、２つかを選択する
マイク入力選択手段と、上記マイク入力が１つの場合に
は、該マイク入力に対応する特徴抽出部で抽出された特
徴量を音声の特徴量とし、上記マイク入力が２つの場合
には、一方のマイク入力に対応する特徴抽出部で抽出さ
れた特徴量から、他方のマイク入力に対応する特徴抽出
部で抽出された特徴量で表現される成分を予め定められ
た手法により除去したものを音声の特徴量として、該特
徴量から入力音声のパターンを作成する音声パターン作
成部と、予め登録された音声の標準パターンを記憶する
標準パターン記憶部と、上記入力音声のパターンと上記
標準パターンとでパターンマツチングを行うパターンマ
ツチング部とを具備して成ることを特徴としたものであ
る。以下、本発明の実施例に基づいて説明する。

第１図は、請求項第１項の発明の一実施例を説明するた
めの構成図で、図中、ｌはマイクロフォン、２は特徴抽
出部、３は標準パターンメモリ、４はマイク入力選択回
路、５はプログラムメモリ５６はＣＰＵ、７は認識結果
出力部、８はバスで、同図は１つのマイク入力で用いる
場合の構成を示し、図示のように、特徴抽出部２と、Ｉ
準パターンメモリ３と、マイク入力選択回路４と、プロ
グラムメモリ５と、ＣＰＵ６と、認識結果出力部７とか
ら成っており、各部はＣＰＵのバス８を介して接続され
ている。

特徴抽出部２は、１５チヤンネルのＢＰＦバンクを用い
てマイクロフォン１から入力された（ｉ号のスペクトル
を求め、特徴量とする。ａ準パターンメモリ３は、予め
登録された音声の標準パターンを記憶するメモリである
。マイク入力選択回路４は、使用されるマイク入力が１
系統か、２系統かを選択する。この場合、外部接続すべ
き端子がオープンになっていて、マイク人力１系統が選
択されている。プログラムメモリ５には、音声区間検出
、音声パターン作成、パターンマツチング、認識結果出
力などのプログラムが格納されている。

音声区間検出、音声パターン作成については、マイク人
力１系統用とマイク人力２系統用の２通りのプログラム
があり、マイク入力選択回路４の信号によって使い分け
られるが、この場合、マイク人力１系統が選択されてい
るので、上記特徴抽出部で抽出された特徴量をそのまま
音声の特徴量として、音声区間検出、音声パターン作成
を行う。

ここで、音声区間検出、音声パターン作成、パターンマ
ツチングは、従来のＢ　Ｔ　Ｓ　Ｐ　（１３ｉｎａｒｙ
Ｔｉｍｅ　Ｓｐｅｃｔｒｕｍ　ｐａｔｔｅｒｎ）音声認
識方式の手法が用いられる。ＣＰＵ６は、上記のプログ
ラムを実行する。認識結果出力部７は、パターンマツチ
ングの結果を他の装置に出力する回路である。

第２図は、請求項第２項に記載された発明の一実施例を
説明するための構成図で、図中、第１図に示した実施例
と同様の作用をする部分には、第１図の場合と同一の参
照番号が付しである。而して、この実施例は、２つのマ
イクを用いる場合の例を示している。この実施例が、第
１図に示した実施例と異なるところは、第１図の実施例
に更にもう１つのマイクロフォン９及び特徴抽出部１０
が加わり、上記ＣＰＵのバス８を介して接続されており
、又、マイク入力選択回ｇ４の外部接続すべき端子にマ
イク２系統を表す信号が接続されることである。

従って、この場合、音声区間検出、音声パターン作成の
プログラムは、マイク人力２系統用のプログラムが実行
される。即ち、一方の特徴抽出部２で抽出される特徴量
を騒音の重畳した音声の特徴量とし、他方の特徴抽出部
１０で抽出される特徴量を騒音の特徴量として、この２
つの特徴量から、例えば昭和６３年電子情報通４ｉ学会
秋期全国大会Ａ−１−１Ｏｒ音声認識システムにおける
騒音抑制の一方法」　（東京電機大・黒用）に発表され
ているような手法によって、音声区１ｔＪＪ検出、音声
の特′ｆｉ量の作成が行われ、この音声の特徴量からＢ
ＴＳＰ音声認識方式の手法によって、音声パターンが作
成される。

ここでは、マイク人力選択回路は、特徴抽出部が２つ有
れば、マイク２系統の処理を選択するが、マイクジャッ
クに２つのマイクが挿入されているかどうかを検出して
処理を選択する方法も実現できる。

また、本実施例ではプログラムメモリの中にマイク人力
１系統用、マイク人力２系統用のプログラムの両方が格
納されていて、マイク入力選択回路で切り替えているが
、これらの代わりに、マイク人力１系統用のプログラム
メモリと、マイク人力２系統用のプログラムメモリを差
し替える方法を用いても実現できる。

効果以上の説明から明らかなように、請求項第１−項の発明
によれば、騒音の小さい環境では、マイクを１本用いて
音声認識を行い、騒音の大きい環境では、１本のマイク
と一部の部品を追加、変更することで同一の音声認識装
置を用いて音声認識を行うことが出来る。即ち、・初め、騒音の小さい環境で用いていたが、環境が変わ
り騒音が大きくなった場合。

・初め、比較的コストの安いマイク１本の方式で使用し
ていたが、騒音のため誤認識が多く、騒音下の認識率の
良いマイク２本の方式に変えたい場合。

などにおいて、簡単な追加手続きと、安価なコストで変
更が出来るという利点がある。

又、許容される認識率というものは、ユーザの主観やア
プリケーションによっても異なるので、１本マイク方式
と２本マイク方式をユーザが選択できる、即ち、経済性
と性能を選択できることも大きな利点である。

また、請求項第２項の発明によると、請求項第１−項に
対応する作用効果に加え、マイク１本の方式か、マイク
２本の方式かの判断が、追加回路の有無、マイクの有無
などによって自動的にシステムでおこなわれるので、両
方式間の変更作業が更に容易となる。

【図面の簡単な説明】

第１図及び第２図は、それぞれ本発明の詳細な説明する
ための構成図である。１・・マイクロフォン、２・特徴抽出部、３・・・標準
パターンメモリ、４・・・マイク人力選択回路、５プロ
グラムメモリ、６・・・ＣＰＵ、７・・・認識結果出力
部、８・・ＣＰＵのバス、９　・マイクロフォン。１０・・・特徴抽出部。特許出願人　　株式会化　リコー第図第図

Claims

【特許請求の範囲】１、１つ、又は、２つのマイクから入力された音声、か
つ、または、周囲騒音の特徴量を抽出する１つ、又は、
２つの特徴量抽出部と、上記特徴抽出部が１つの場合に
は、該特徴抽出部で抽出された特徴量を音声の特徴量と
し、上記特徴抽出部が２つの場合には、一方の特徴抽出
部で抽出された特徴量から、他方の特徴抽出部で抽出さ
れた特徴量で表現される成分を予め定められた手法によ
り除去したものを音声の特徴量として、該特徴量から入
力音声のパターンを作成する音声パターン作成部と、予
め登録された音声の標準パターンを記憶する標準パター
ン記憶部と、上記入力音声のパターンと上記標準パター
ンとでパターンマッチングを行うパターンマッチング部
とを具備して成ることを特徴とする音声認識装置。２、１つ、又は、２つのマイクから入力された音声、か
つ、または、周囲騒音の特徴量を抽出する１つ、又は、
２つの特徴量抽出部と、上記マイク入力の数が１つか、
或は、２つかを選択するマイク入力選択手段と、上記マ
イク入力が１つの場合には、該マイク入力に対応する特
徴抽出部で抽出された特徴量を音声の特徴量とし、上記
マイク入力が２つの場合には、一方のマイク入力に対応
する特徴抽出部で抽出された特徴量から、他方のマイク
入力に対応する特徴抽出部で抽出された特徴量で表現さ
れる成分を予め定められた手法により除去したものを音
声の特徴量として、該特徴量から入力音声のパターンを
作成する音声パターン作成部と、予め登録された音声の
標準パターンを記憶する標準パターン記憶部と、上記入
力音声のパターンと上記標準パターンとでパターンマッ
チングを行うパターンマッチング部とを具備して成るこ
とを特徴とする音声認識装置。