JPH02165199A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02165199A
JPH02165199A JP32012888A JP32012888A JPH02165199A JP H02165199 A JPH02165199 A JP H02165199A JP 32012888 A JP32012888 A JP 32012888A JP 32012888 A JP32012888 A JP 32012888A JP H02165199 A JPH02165199 A JP H02165199A
Authority
JP
Japan
Prior art keywords
power
storing
bandpass filter
recognition device
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP32012888A
Other languages
English (en)
Inventor
Shoji Kuriki
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP32012888A priority Critical patent/JPH02165199A/ja
Publication of JPH02165199A publication Critical patent/JPH02165199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技監分立 本発明は、音声認識装置に関する。
丈未伎生 一般に、音声認識装置には周波数方向のパワーの分布を
検出するために、BPFとDETを使用することが多い
、なぜならば、FFTを行なうには計算量が多過ぎて、
リアルタイムでデータが処理できないからである。また
、デジタルフィルターに関してもチャンネル数が多くな
るとハードウェアの規模が大きくなり過ぎるため現実的
ではない、このBPFのチャンネル数は主にそれらがカ
バーする帯域によって異なる。音声認識が対象としてい
る音声に関して色々の考え方があるが。
多くは200Hz−7KHz程度をカバーできるように
BPFを設定する。この帯域をnチャンネルのBPFで
カバーするのである。しかしながら、音声認識装置が使
用される状態においては入力される帯域が狭い場合があ
る。例えば、電話音声に関しては最高周波数は3 、4
 K I−I zまでであり、それ以上の帯域はパワー
がない。また無線音声の場合でも、同様に周波数が狭く
なる場合が多い。
このような場合、従来ではその使用環境にあわせてB 
P Fのチャンネル数を合わせた音声認識装置を使用し
ていた。しかし使用者がどのような環境で使用するのか
分からない場合には何らの対策もできなかった。例えば
、電話用の音声!2識装置を通常のマイクで使用した場
合には、3 、4 K Fl z以上の情報を使用しな
いため、認識率が低下する恐九がある。逆に、広い帯域
を持つ音声ど爪装置を電話帯域で使用した場合には、必
要でない帯域の入力をサンプリングしたり、必要でない
帯域の辞書を生成したりするため、ご識U、νurJが
長くなったり、メモリーを多く必要としたりする欠点が
あった。
1−一匁 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声認識装置において、使用状況下では必要とさ
れない帯域のデータを自動的に調べることにより、認識
時間を短縮すること、辞書が使用するメモリーを少なく
すること等を目的としてなされたものである。
碧−一」又 本発明は、上記目的を達成するために、入力された音声
を適したレベルまで増幅する手段と。
nchのバンドパスフィルター(BPF)と、nchの
整流回路(DET)と、それらの出力を時分割にしてシ
リアルなデータとする手段と、A/D変換手段と、特徴
を抽出する手段と、音声区間を切り出す手段と、辞書を
記憶する手段と、認識をする手段と、サンプリングされ
たフレーム毎にIchからnchまでのパワーデータを
記憶する手段と。
そのデータからチャンネルパワーを計算する手段と、そ
の計算値を記憶する手段と、その値をある閾値と比較す
る手段と、その結果によりそれぞれのチャンネルが有効
か無効かを示す手段を有する音声認識装置において、そ
の装置が使用される状態において、予め使用者に決めら
れた発声を行なわせ、各バンドパスフィルターのパワー
を検出して使用状態においてパワーが無い帯域のバンド
パスフィルターを検出し、その帯域に関してはバンドパ
スフィルターの出力のA/D変換を行なわず入力データ
を減少させること、或いは、その帯域に関しては辞書に
登録しないことを特徴としたものである。以下、本発明
の実施例に基づいて説明する。
第1図は1本発明の一実施例を説明するための楕成図で
、図中、1は増幅器、2はバンドパスフィルター群(B
PF)、3はA/D変換器、4は音声区間検出器、5は
特徴抽出部、6は認識部、7は辞書記憶部、8はパワー
記憶部、9はチャンネルパワー計算部、10はチャンネ
ルパワー記憶部、11はコンパレータ、12はチャンネ
ルイネーブルフラグ、13はテストモードスイッチで。
使用者は音声認識装置を用いて、辞書の登録や認識を行
なう前に、入力される音声の状態を認識装置に知らせる
ため、テストモードスイッチ13を使用して、装置をテ
ストモード状態にする。スイッチ13は使用者が直接押
せるものであったり、例えば、電話等であれば、ブツシ
ュホンの呑号によってテストモードになるものであった
り、無線等でモード切り替えができるものであったりす
る。
装置はテストモードになると入力された音声から音声区
間を検出して、検出された音声区間のデータをパワー記
憶部に記憶する。記憶されたデータはIchからnch
までのDETの出力、つまり各BPFのパワー値をA/
D変換した値であり、サンプル時間は辞書登録もしくは
P!識時と等しくする。
ここでテストに使用する音声であるが、低い周波数から
高い周波数まで成分を持った音声でなくてはならない。
例えば、高い周波数ならば、子音191を含んだものに
すれば良いし、低い周波数ならば′n、11′ を含め
ば良い。テスト用の発声単語はあらかじめ使用者に指定
すれば良く、上記の音を含んだ単語であればよい。この
テスト単語のパワーデータは各チャンネル毎に、音声区
間内の全フレームについて加算される。この加算された
パワー値はチャンネルパワー記憶部1oに記憶される。
このパワー値によって使用するB P Fの範囲を決定
する。
第2図は、使用するBPFの範囲を決定する手段の一例
を説明するための図で、チャンネルパワー記憶部10に
は各チャンネル毎に単語内のパワーが記憶されている。
ここで入力音声が電話からのものであるとして説明する
。電話の音声は一般に高い周波数の部分にパワーが無い
。そのためテスト単語のパワーを調べると、高い周波数
には殆どパワーが無く高い周波数のBPFの出力データ
はOに近くなっている。つまりこのパワーが出ないBP
Fについては全く音声の情報が無いといえる。そこで、
ある閾値mとチャンネルパワー記憶部10の値を比較し
て、mより大きければそのチャンネルは有効であるとし
、逆に小さければ無効であるとする。閾値の値は雑音に
よる影響を除くためであり実験的に求めても良く、それ
ほど値を変化させても影響が無い。このようにして求め
られたチャンネルの有効と無効の情報はチャンネルイネ
ーブルフラグ12によって示される。本実施例では各チ
ャンネルについて、有効ならば1無効ならばOにしてい
るがその他の方法でもかまわない。このようにして得ら
れたチャンネルの情報を基に装置は辞書の登録や認識を
行なう。
次に、認識時の動作について説明する。認識時には音声
が入力されると同時にB I)FのパワーをA/D変換
しその値を取り込みながらパターンマツチングを行なう
。例えば、マイクロプロセッサを使用する場合にはイン
タラブドを使用してデータを取り込みその他の時間で特
徴抽出とマツチング動作を行なう。通常では全BPFの
出力を入力する必要があるが、本発明では既にチャンネ
ル毎に有効無効が分かっているので必要なチャンネルの
データのみを特徴抽出やパターンマツチングすれば良い
。各チャンネルのデータを入力するには、A/D変換の
コンバージョン時間とそのデータを入力する時間が必要
な為、入力するチャンネルが減ることによりマイクロプ
ロセッサが特徴抽出やパターンマツチングを行なう時間
が増え、認識時間が短縮されることになる。
次に、辞書登録時の動作について説明する。例えば、B
 T’ S P (+3inary Time−5pe
ctrum Pattern)方式の辞書登録について
説明する。一般には、周波数成分の情報が必要であり、
B PF”と等しいチャンネル数の辞書とする場合が多
い。第3図(a)に示す辞書はnチャンネル使用した場
合の辞書である。この場合はチャンネル数rlとフレー
ムyJ、1と1つのチャンネルデータのビット数(この
場合は2ピツ1〜)を来した大きさのメモリーを必要と
する。これに対して各チャンネルの有効無効が知ら才し
ている本装置の辞書(第3図(b))ではチャンネルデ
ータがrnに減少し、辞書が必要とするメモリーが減少
する。
上記のチャンネルイネーブルフラグの情報は辞書をフロ
ッピーなどに格納するときにそのデータの一部として同
時に格納することにより、−度テストをするだけで済む
ようになる。
肱−一部 以上の説明から明らかなように、諸求項第1項の音声認
識装置においては、l3PFからの入力を減少させてい
るので高速の認識が可能になる。また、請求項第2項の
音声認識装置においては、パワーが無い帯域に関しては
辞書に登録しないので、辞書のメモリーを減少できる。
【図面の簡単な説明】
第1図は1本発明による音声認識装置の一実施例を説明
するための摺成図、第2図は使用するBPFの範囲を決
定する手段の一例を説明するための図、第3図は、BT
SP方式による辞書登録の一例を説明するための図であ
る。 1・・・増幅器、2・・・バンドパスフィルター群、3
・・・A/D変換器、4・・・音声区間検出器、5・・
・特徴抽出部、6・・・認識部、7・・・辞書記憶部、
8・・・パワー記憶部、9・・・チャンネルパワー計算
部、10・・・チャンネルパワー記憶部、11・・・コ
ンパレータ。 12・・・チャンネルイネーブルフラグ、13・・・テ
ストモードスイッチ。 特許出願人  株式会社 リコー

Claims (1)

  1. 【特許請求の範囲】 1、入力された音声を適したレベルまで増幅する手段と
    、nchのバンドパスフィルター(BPF)と、nch
    の整流回路(DET)と、それらの出力を時分割にして
    シリアルなデータとする手段と、A/D変換手段と、特
    徴を抽出する手段と、音声区間を切り出す手段と、辞書
    を記憶する手段と、認識をする手段と、サンプリングさ
    れたフレーム毎にIchからnchまでのパワーデータ
    を記憶する手段と、そのデータからチャンネルパワーを
    計算する手段と、その計算値を記憶する手段と、その値
    をある閾値と比較する手段と、その結果によりそれぞれ
    のチャンネルが有効か無効かを示す手段を有する音声認
    識装置において、該音声認識装置が使用される状態にお
    いて、予め使用者に決められた発声を行なわせ、各バン
    ドパスフィルターのパワーを検出して使用状態において
    パワーが無い帯域のバンドパスフィルターを検出し、そ
    の帯域に関してはバンドパスフィルターの出力のA/D
    変換を行なわず入力データを減少させることを特徴とす
    る音声認識装置。 2、入力された音声を適したレベルまで増幅する手段と
    、nchのバンドパスフィルター(BPF)と、nch
    の整流回路(DET)と、それらの出力を時分割にして
    シリアルなデータとする手段と、A/D変換手段と、特
    徴を抽出する手段と、音声区間を切り出す手段と、辞書
    を記憶する手段と、認識をする手段と、サンプリングさ
    れたフレーム毎にIchからnchまでのパワーデータ
    を記憶する手段と、そのデータからチャンネルパワーを
    計算する手段と、その計算値を記憶する手段と、その値
    をある閾値と比較する手段と、その結果によりそれぞれ
    のチャンネルが有効か無効かを示す手段を有する音声認
    識装置において、該音声認識装置が使用される状態にお
    いて、予め使用者に決められた発声を行なわせ、各バン
    ドパスフィルターのパワーを検出して使用状態において
    パワーが無い帯域のバンドパスフィルターを検出し、そ
    の帯域に関しては辞書に登録しないことを特徴とする音
    声認識装置。
JP32012888A 1988-12-19 1988-12-19 音声認識装置 Pending JPH02165199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32012888A JPH02165199A (ja) 1988-12-19 1988-12-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32012888A JPH02165199A (ja) 1988-12-19 1988-12-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02165199A true JPH02165199A (ja) 1990-06-26

Family

ID=18118014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32012888A Pending JPH02165199A (ja) 1988-12-19 1988-12-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02165199A (ja)

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
CN105989836B (zh) 一种语音采集方法、装置及终端设备
JPH09325790A (ja) 音声処理方法および装置
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
JPH02165199A (ja) 音声認識装置
JPH02232697A (ja) 音声認識装置
JP3284968B2 (ja) 話速変換機能を有する補聴器
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
JP3114757B2 (ja) 音声認識装置
JPH04100099A (ja) 音声検出装置
JPS63278100A (ja) 音声認識装置
JP2870421B2 (ja) 話速変換機能を有する補聴器
JPH02100099A (ja) 音声認識装置
JPS59105697A (ja) 音声認識装置
JP3065691B2 (ja) 音声認識装置
JPH0635498A (ja) 音声認識装置及び方法
JPH01200294A (ja) 音声認識装置
JPS60115996A (ja) 音声認識装置
JPH03138698A (ja) 車載用音声認識装置の入力方式
JP2891259B2 (ja) 音声区間検出装置
JPH06318099A (ja) 話者認識装置
JPS6227798A (ja) 音声認識装置
JPS63226692A (ja) パターン比較方式
JPS59211100A (ja) 登録型音声認識方法
JPS5872994A (ja) 信号入力装置