JPH02212900A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH02212900A
JPH02212900A JP1034769A JP3476989A JPH02212900A JP H02212900 A JPH02212900 A JP H02212900A JP 1034769 A JP1034769 A JP 1034769A JP 3476989 A JP3476989 A JP 3476989A JP H02212900 A JPH02212900 A JP H02212900A
Authority
JP
Japan
Prior art keywords
data
pattern
sound source
voice
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1034769A
Other languages
English (en)
Inventor
Junichiro Fujimoto
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1034769A priority Critical patent/JPH02212900A/ja
Publication of JPH02212900A publication Critical patent/JPH02212900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 韮」すL黙 本発明は、音声認識方式、より詳細には、音声認識装置
における音声の再生に関するものである。
豆11権 利用者があらかじめ音声を登録してから使う、いわゆる
特定話者音声認識装置ではトレーニングによって、でき
た標準パターンの質が認識能力を左右する。標準パター
ンの作成時と認識時では発声の違いがないか、標準パタ
ーンにノイズ等がついて異常なパターンとして登録され
ているのではないかということが非常に重要である。
例えば、特開昭59−201141号公報に示されるよ
うに、登録する時に、自分が登録の為に発声した声を聞
返しながら正常かどうかを判断するものもある。この方
法は正常な標準パターンを登録するのには有効である。
しかし、長い単語をそのまま登録する場合や、それを短
く省略して登録しておく場合がある0例えば、「ムステ
ィスラフ・ロストロボーヴイッチ」という単語を「ムス
ティス」とかrロスドロ」のように登録した場合。
何日か後にはどのような登録の仕方をしたのが分からな
くなってしまうことが多い、仮に、「ムスティスラフ・
ロストロボーヴイッチ」と言ってみて、正確に認識しな
い時は標準パターンとしての登録の仕方が違っているの
か、それとも、登録の仕方は台っているが誤認識したも
のかの判断がつかず、利用者が正確に認識させる為には
どのようにしたらよいのかがわからなくなってしまう。
そこで特開昭57−86979号公報のように音声を録
音しておく方法もあるが、音声認識の目的以外に大きな
メモリーや再生の為の装置が必要となってくる。
また、次に考えられることは、音声認識用の標準パター
ンを使って登録時の音を再現することであるが、#s準
パターンのデータ量を少なくする為に2値化処理したデ
ータを使う方法(第10回。
情報理論とその応用シンポジウム、No、19−21.
1987.pp、475−480)で認識するような場
合、このパターンから音声を再現するにはデータ量が少
なすぎるという欠点があった。
l−一匁 本発明は、上述のごとき実情に鑑みてなされたもので、
音声認識装置において登録時の音声を示し、利用者に登
録時の発声を思い出させることにより認識精度を向上さ
せることを目的とするものであり、特に、音声認識方式
として、2値化処理したデータを使う方法が使われてい
る場合に、登録されているデータに音声の情籟量を付加
するような方法を提供することを目的とするものである
祷成 本発明は、上記目的を達成するために、音声を周波数分
析して、それを2値化し、標準パターンを作成し、さら
に、2値化する前のデータから周波数の高域、低域の成
分の分布情報を付加して特徴パターンとして用いる音声
認識方式において、パルス音源と雑音性の音源を持ち、
前記周波数の高域、低域の成分の分布情報に従ってこれ
らの音源を選択して使用するようにしたうえで、パター
ン(標準パターンまたは特徴パターン)の周波数軸上の
1組のデータ中でそれぞれの隣接するデータ間の変化を
小さくするように修正した後に音源の信号をこのパター
ンで変調して可聴音を合成するようにした部分を備えた
ことを特徴としたものであり、更には、 周波数軸上の1組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、低域通過の周波数フィルタを使用すること。
周波数軸上の1組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、周波数軸上の山と谷を結ぶ線分によって変化を小
さくするようにしたこと、或いは、周波数軸上の山と谷
を結ぶ線分によって変化を小さくする際に山または谷で
同じ値が続く場合には同じ値の中点を山または谷とみな
すようにしたこと。
周波数軸上の1組のデータでそれぞれの隣接するデータ
間の変化を小さくする手段として周波数軸上の変動に対
して、隣接するデータの平均または和によってあらたに
データをつくって変化を小さくするようにしたことを特
徴としたものである。
以下、本発明の実施例に基づいて説明する。
第1図は1本発明の詳細な説明するための構成図で、図
中、1は音響/電気信号変換器、2は音声分析部、3は
スイッチ、4は辞書部、5は認識部、6は再生部、7は
出力、8は電気信号/音響変換器で、スイッチ3によっ
て辞書の登録モード(a側)と認識モード(b側)が選
択できるようになっている。この方式は特定話者方式と
呼ばれている認識装置の利用者があらかじめ自分の音声
で装置をトレーニングしてから使うものを想定しており
、トレーニングが不用な不特定話者認識装置では辞書の
登録モードはいらない、どちらの方式であっても、本発
明は使えるが、ここでは先に述べたように特定話者音声
認識方式で話を進める。
第2図は、第1図に示した音響/電気信号変換器1と音
声分析部2の詳細図で、本発明の中心は再生部6にある
が、まず、第2図を参照して音響/電気信号変換器と音
声分析部を詳しく説明する。音響/電気信号変換器1と
して一般的なのはマイクロフォンである。その出力をマ
イクアンプAにて増幅し、フィルタ群−F、〜F□へ印
加せしめる、このフィルタ群は共振先鋭度のゆるやかな
バンドパスフィルタが15個並入られているが。
その共振先鋭度や個数、特性には大した意味はない1通
常150〜15000Hzがカバーされる程度の帯域を
持つように配置しておくことが望ましい、各フィルター
の出力を整流器R工〜RXsにて整流して周波数順にレ
ベルの大きさとして記録パターンを作っていく。
次に、第3図を参照しながらこのパターンから周波数の
高域、低域の成分の分布情報をとって2値化するやり方
について説明する。整流して周波数順に並べたパターン
は、第3図(a)のようになっている、ただし、第3図
(、)では15個のデータがディスクリートに並ぶべき
であるが、ここでは便宜上15個を連続量として表しで
ある。
このデータで最小2乗直線部9にて最小2乗直線を引い
て直線部を各データから差引くことで第3図(b)が得
られる。音声データに音源特性を補正する為に最小2乗
直線を引くやり方は、三輪、城戸著音響学会音声研究会
資料579−24(1979)その他に詳しく述べられ
ている。第3図(b)の中の正側の山のピークを中心に
してrlJとし、他を[o」として2値化部1oにて2
値化パターンを作ると、第3図(c)が得られる。つま
り、2値化した15個のデータとなるわけであるにの時
の最小2乗直線の傾きが正であるか負であるかをそれぞ
れ「O」、rlJで表現して15個のデータのつぎに1
6番、目のデータとしてつける。
まず、周波数軸上の1組のデータでそれぞれ隣接するデ
ータ間の変化を小さくする手段として周波数軸上の変動
に対して、低域通過の周波数フィルタを使用する方法を
述べる。
第4図は、第1図に示した再生部の詳細図で、15個の
データを周波数の低い方から順に1チヤンネル(lch
)、2チヤンネル(2ch)、−nチャンネル(n  
ah)のデータと呼ぶことにする。汗源はパルスが3〜
5ミリ秒間隔で発生されるパルス音源12と白色雑音に
近い雑音を発生する雑音源13を用い、スイッチSXS
によってどちらかの音源が選択され、その音源からの信
号がスイッチS、〜S工、を通過後フィルタF□〜F1
.に印加される。この15個のフィルタは第2図に示し
た音声の分析時に使ったものをそのまま使うか。
あるいは同等のものを別に用意しておいてもよい。
フィルタの後段には各チャンネルに掛は算器M1〜M□
をつけ、標準パターンの各チャンネルの値が積算される
。これはパターンが[1」またはrQJのものを使う時
には掛は算器ではなくスイッチでもよい、これらの出力
は加算器11で加え合わせられて音声再生出力信号とし
て出力される。
掛は算器M1〜M 15にはそれぞれ1〜15チヤンネ
ルのデータが入れられるがここに入れる前に、第5図に
示すように元のデータの1〜15chをスキャンしてデ
ータを時系列に並ベローパスフィルタ14に加えた出力
を再度1〜15chに戻し、その値を各掛は算器に入れ
る。この時、ローパスフィルタの入力では第6図(a)
のようなパターンが(b)に示すように中間値を持つよ
うに変化させられ元の波形、第3図(a)、(b)にち
かくなり、失った情報が回復される。あるいは第7図に
示すフローチャートに従ってパターンのデータの変化点
を求めて補正することもできる。第8図によってこれを
説明すると、(a)のようなデータの隣接する差を求め
ていくと、2chから3chにかけて符号が変る0次に
5chと6chで再び変るので符号が変ったチャンネル
間の1/2つまり3chと5chの1/2で4chを山
の頂上と考え、初期値として記憶しておいたlchが0
.5chが1として直線を引き、その間のチャンネルは
その直線上の値に書換えられる。これを全チャンネルで
行なって第8図(b)のような(a)に較べて元の波形
に近いものを得る。さらに第9図のように第5図に於け
るフィルタの代りに隣接するチャンネル間の平均または
和をとってもよい0図では隣同士の和をとっているが、
隣り合う2つだけでなく3つ、4つ°でも差し支えない
その結果、第10図(a)のようなデータが(1))の
ように修正され簡単な方法で元の波形に近づけることが
できる。このように以上に述べた方法を使うと、2値化
する際に失われていた音源の特性を元に近い状態に戻す
ことができる。
このほか認識部、出力部はとくに本発明では限定するも
のではなく、例えば認識にはDPマツチングのようなも
のでもよい、しかし、2値化データの情報付加に有効で
あることから、先にあげた第10回、情報理論とその応
用シンポジウム、No、19−21.1987.pp、
475−480に述べられている方法に従うと、さらに
有効である。出力部は信号増幅の為のアンプとスピーカ
等を用いるのが普通である。
幼果 以」二の説明から明らかなように、本発明によると、−
度失った音源の情報を近似的に付加して音声を再生でき
るため、音声認識用の辞書に登録された声を聞き直すこ
とができるようになった。このため音声の登録時の自分
の発声のしかたや登録内容を思いだすことができ、認識
させやすい認識装置を実現することができるようになっ
た。
なお、ここでは認識精度を向上させる為に登録時の発声
を思いだすことを例にして説明したが。
これは発声を思いだす為だけではなく、認識装置が認識
した結果を可聴な信号として出力させて。
利用者に提供する為にも使える。
【図面の簡単な説明】
第1図は、本発明の詳細な説明するための構成図、第2
図は、第1図に示した音響/電気信号変換部1及び音声
分析部2の詳細図、第3図は、2値化の一例を説明する
ための図、第4図は、第1図に示した再生部6の詳細図
、第5図及び第6図は、掛は算器への前処理の一例を説
明するための図、第7図及び第8図は、データの補正例
を説明するための図、第9図及び第10rj4は、隣接
チャンネル間の平均又は和をとる場合の例を説明するた
めの図である。 1・・・音響/電気信号変換器、2・・・音声分析部、
3・・・スイッチ、4・・・辞書部、5・・・認識部、
6・・・再生部、7・・・出力、8・・・電気信号/音
響変換器、9・・・最小2乗直線部、10・・・2値化
部、11・・・加算部、12・・・パルス音源、13・
・・雑音*、14・・・ローパスフィルタ。 第1図 第2図 第 図 篤 図 6ch ch ch ノ5ch 第 図 15ch→ 仁15(h 第 図 第 図 E=口

Claims (1)

    【特許請求の範囲】
  1. 1、音声を周波数分析し、2値化して標準パターンを作
    成し、さらに、2値化する前のデータから周波数の高域
    、低域の成分の分布情報を付加して特徴パターンとして
    用いる音声認識方式において、パルス音源と雑音性の音
    源を持ち、前記周波数の高域、低域の成分の分布情報に
    従ってこれらの音源を選択して使用するようにしたうえ
    で、パターンの周波数軸上の1組のデータ中でそれぞれ
    の隣接するデータ間の変化を小さくするように修正した
    後に音源の信号をこのパターンで変調して可聴音を合成
    するようにした部分を備えたことを特徴とする音声認識
    方式。
JP1034769A 1989-02-13 1989-02-13 音声認識方式 Pending JPH02212900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1034769A JPH02212900A (ja) 1989-02-13 1989-02-13 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1034769A JPH02212900A (ja) 1989-02-13 1989-02-13 音声認識方式

Publications (1)

Publication Number Publication Date
JPH02212900A true JPH02212900A (ja) 1990-08-24

Family

ID=12423514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1034769A Pending JPH02212900A (ja) 1989-02-13 1989-02-13 音声認識方式

Country Status (1)

Country Link
JP (1) JPH02212900A (ja)

Similar Documents

Publication Publication Date Title
CN1148230A (zh) 卡拉ok计分的方法和系统
JP4150798B2 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体
US20050060148A1 (en) Voice processing apparatus
JPH0361959B2 (ja)
JP2002517175A (ja) 人間の音源を識別するための手段および装置
CN110853624A (zh) 言语康复训练系统
JP3306784B2 (ja) 骨導マイクロホン出力信号再生装置
Howard Peak‐picking fundamental period estimation for hearing prostheses
JPH02212900A (ja) 音声認識方式
JPS5835600A (ja) 音声情報処理方法
JPH02287398A (ja) 音声認識方式及び音声認識装置
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
JPS6194095A (ja) 音声認識装置
JPH02212897A (ja) 音声認識方式
JP3110105B2 (ja) パターン認識方法
JPH02212898A (ja) 音声認識方式
JP2975808B2 (ja) 音声認識装置
Kashino et al. A computational model of auditory segregation of two frequency components—evaluation and integration of multiple cues
JPH02212899A (ja) 音声認識方式
KR0134452B1 (ko) 노래반주용 채점장치
JP2674219B2 (ja) 採点装置
KR920004282B1 (ko) 디지틀 신호 변환시의 오차 정정 및 보상방법
JPH02123398A (ja) 音声入力型シンセサイザ
JPS59176782A (ja) デジタル音響装置
JPH10307595A (ja) 入力音声抽出方法および入力音声抽出装置