JPH02212899A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH02212899A JPH02212899A JP1034768A JP3476889A JPH02212899A JP H02212899 A JPH02212899 A JP H02212899A JP 1034768 A JP1034768 A JP 1034768A JP 3476889 A JP3476889 A JP 3476889A JP H02212899 A JPH02212899 A JP H02212899A
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- frequency
- data
- sound source
- modulated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
致宜光互
本発明は、音声認識方式に関するものである。
良東技延
使用者があらかじめ音声を登録してから使う、いわゆる
特定話者方式の音声認識装置では、トレニングによって
作る標準パターンの質によって装置の認識能力は左右さ
れる0発声違いがないか。
特定話者方式の音声認識装置では、トレニングによって
作る標準パターンの質によって装置の認識能力は左右さ
れる0発声違いがないか。
正常なパターンとして登録されているかが重要である。
例えば特開昭59−20114i号公報に示されている
ように、登録時に自分が発声した音声を聞きながら行な
う方法もある。しかし1例えば「ムスティスラフ・ロス
トロボーヴイッチJのような長い単語を「ムスティス」
と略して登録したり「ロスドロ」と略して登録した場合
、後日、何と登録したかを忘れてしまい登録しなおさな
ければならないことになる。そのために特開昭57−8
6979号公報のように音声を録音しておく方法もある
が、そのために別の大きなメモリーと録音再生装置が必
要となってくる。これらの問題を解決するためには音声
認識用の辞書から登録時に発声した音を再生できれば良
い、しかしながら、標準パターンデータのデータ量を圧
縮するために2値化した標準パターンを作る方法(第1
0回。
ように、登録時に自分が発声した音声を聞きながら行な
う方法もある。しかし1例えば「ムスティスラフ・ロス
トロボーヴイッチJのような長い単語を「ムスティス」
と略して登録したり「ロスドロ」と略して登録した場合
、後日、何と登録したかを忘れてしまい登録しなおさな
ければならないことになる。そのために特開昭57−8
6979号公報のように音声を録音しておく方法もある
が、そのために別の大きなメモリーと録音再生装置が必
要となってくる。これらの問題を解決するためには音声
認識用の辞書から登録時に発声した音を再生できれば良
い、しかしながら、標準パターンデータのデータ量を圧
縮するために2値化した標準パターンを作る方法(第1
0回。
情報理論とその応用シンポジウム、No、19−21.
1987.pp、475−480)では再生するための
音声の十分な情報が得られないという欠点があった。
1987.pp、475−480)では再生するための
音声の十分な情報が得られないという欠点があった。
目 的
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声認識で登録時の発声を示し。
特に、音声認識で登録時の発声を示し。
利用者に登録時の発声を思い出させることにより、認識
精度を向上させることを目的としてなされたものである
。
精度を向上させることを目的としてなされたものである
。
墾成
本発明は、上記目的を達成するために、音声を周波数分
析してそれを2値化処理して標準パターンとし、更に周
波数分析結果の高、低域の分布のしかたにより種類分け
した結果をも前記標準パターンに併せて登録しておいて
認識する音声認識方式において、パルス音源と雑音源と
を持ち、その音源の出力を前記標準パターンの特徴的な
周波数で変調するようにし、更にその時の周波数分布を
表わすデー、夕に従って前記2音源のどちらかを選択す
るようにし、該被変調波を可聴波にして出力する部分を
備えたことを特徴としたものである。
析してそれを2値化処理して標準パターンとし、更に周
波数分析結果の高、低域の分布のしかたにより種類分け
した結果をも前記標準パターンに併せて登録しておいて
認識する音声認識方式において、パルス音源と雑音源と
を持ち、その音源の出力を前記標準パターンの特徴的な
周波数で変調するようにし、更にその時の周波数分布を
表わすデー、夕に従って前記2音源のどちらかを選択す
るようにし、該被変調波を可聴波にして出力する部分を
備えたことを特徴としたものである。
以下、本発明の実施例に基づいて説明する。
第1図は9本発明の詳細な説明するための構成図で1図
中、1は音響/電気信号変換器、2は音声分析部、3は
スイッチ、4は辞書部、5は認識部、6は再生部、7は
出力、8は電気信号/音響変換器で、スイッチ3によっ
て辞書登録(a側)と認m(b側)が選択できるように
なっている。
中、1は音響/電気信号変換器、2は音声分析部、3は
スイッチ、4は辞書部、5は認識部、6は再生部、7は
出力、8は電気信号/音響変換器で、スイッチ3によっ
て辞書登録(a側)と認m(b側)が選択できるように
なっている。
而して、この図は特定話者方式を想定しているが。
不特定話者方式ではこのようなスイッチが不要であるこ
とはいうまでもない。
とはいうまでもない。
第2図は、第1図に示した音響/電気信号変換器1と音
響分枦部2の詳細図で、周知のように。
響分枦部2の詳細図で、周知のように。
音響/電気信号変換器1としてマイクを用い、その出力
をマイクアンプAで増幅してフィルタF1〜F1.に入
力する。このフィルタはバンドパスフィルタで15個並
べであるが、その数や特性に意味はない0通常150−
1. OOOOHzが全て、又は重要な部分だけカバー
されていれば良い、その出力を整流mR□〜R□で整流
し、各々のデータを使って最小自乗直線部9で最小自乗
直線を求めたあと、2値化部10で2値化する。
をマイクアンプAで増幅してフィルタF1〜F1.に入
力する。このフィルタはバンドパスフィルタで15個並
べであるが、その数や特性に意味はない0通常150−
1. OOOOHzが全て、又は重要な部分だけカバー
されていれば良い、その出力を整流mR□〜R□で整流
し、各々のデータを使って最小自乗直線部9で最小自乗
直線を求めたあと、2値化部10で2値化する。
第3図は、その過程を示す図で、フィルタ出力後、WI
流されたデータを周波数の低いものから並べると、(a
)のようになる、ただし、(a)は正しくは15個の点
が並ぶべきであるがこれを連続線で表わしている。これ
に最小自装置ALLを引いである。各出力値からLの各
値を引いていくと、(b)のような結果が得られる。こ
の中から正側への山のピークを中心にして「1」、他を
「O」として2値化することによって(Q)のような2
値化パターンができる。この時、(a)の最小自乗直線
の傾斜が負の時は1.正の時はOを(c)の15個のデ
ータの次に加えて16個−組のデータとする。このよう
にして得られたデータで標準パターンを作って辞書部へ
登録する。標準パターンの作成に関しては前述の文献中
に述べられているが、複数回発声して作った各々の2@
化パターンを加算するような方法がある。しかしこれに
限ることはない、認識の場合はこの2+fi化したデー
タを認識部へ転送し、辞書中のパターンと照合して最も
類似した標準パターンを認識結果として出力する。この
場合の照合の仕方は特に限定するものではなく、どのよ
うな方法であっても良いが、前述の文献に示されている
ような入力と辞書のパターンの重なり具合から類似性を
求めるのが適している。
流されたデータを周波数の低いものから並べると、(a
)のようになる、ただし、(a)は正しくは15個の点
が並ぶべきであるがこれを連続線で表わしている。これ
に最小自装置ALLを引いである。各出力値からLの各
値を引いていくと、(b)のような結果が得られる。こ
の中から正側への山のピークを中心にして「1」、他を
「O」として2値化することによって(Q)のような2
値化パターンができる。この時、(a)の最小自乗直線
の傾斜が負の時は1.正の時はOを(c)の15個のデ
ータの次に加えて16個−組のデータとする。このよう
にして得られたデータで標準パターンを作って辞書部へ
登録する。標準パターンの作成に関しては前述の文献中
に述べられているが、複数回発声して作った各々の2@
化パターンを加算するような方法がある。しかしこれに
限ることはない、認識の場合はこの2+fi化したデー
タを認識部へ転送し、辞書中のパターンと照合して最も
類似した標準パターンを認識結果として出力する。この
場合の照合の仕方は特に限定するものではなく、どのよ
うな方法であっても良いが、前述の文献に示されている
ような入力と辞書のパターンの重なり具合から類似性を
求めるのが適している。
第4図は、再生部の詳細を示す図で、辞書部4から、1
6個ずつならんだデータが一定間隔で送られてくる。こ
の間隔は短い程、再生音としては良質になるが、データ
が増加するので通常の音声認識に用いる程度の間隔、つ
まり5〜10rns位が良い、16番目のデータも他と
一緒にして1〜16chとして扱う、スイッチ81〜S
15はON。
6個ずつならんだデータが一定間隔で送られてくる。こ
の間隔は短い程、再生音としては良質になるが、データ
が増加するので通常の音声認識に用いる程度の間隔、つ
まり5〜10rns位が良い、16番目のデータも他と
一緒にして1〜16chとして扱う、スイッチ81〜S
15はON。
OFFのスイッチで1〜15chのデータがOかどうか
でON又はOFFになる。スイッチS□はL6chのデ
ータが0かどうかで音源を切りかえる。つまり、16c
h目のデータが0であれば、雑音源13.そうでなけれ
ばパルス音源12がスインチS1〜StSに連結される
。ただし1以上には、0と他の値でスイッチの動作を分
けたが標準パターンの平均した数によりこの値を変化さ
せる方が良い0例えば3つのパターンを加算して標準パ
ターンを作成した場合は0〜1と2〜3でスイッチの動
作を変えるのが好ましい、スイッチ81〜S工、を通過
したデータはフィルタF!〜F1.に印加される。この
場合、第2図において分析したフィルタと同じであるこ
とが望ましく、分析された時のフィルタと同じフィルタ
にデータが入力されるように配慮する必要がある。フィ
ルターを、番号の若い順に中心周波数が高くなり1分析
結果も周波数の低い方からlch〜15chとすると、
フィルタnで分析されたデータはn chのデータと
なり、再生する時にはフィルタnへ入力されることにな
る。こうして得られた出力の和を加算器11によって求
め、アンプAによって増幅後、スピーカを駆動するデー
タとなる。パルス音源12の周期は人間のピッチ周期に
近いものが良く。
でON又はOFFになる。スイッチS□はL6chのデ
ータが0かどうかで音源を切りかえる。つまり、16c
h目のデータが0であれば、雑音源13.そうでなけれ
ばパルス音源12がスインチS1〜StSに連結される
。ただし1以上には、0と他の値でスイッチの動作を分
けたが標準パターンの平均した数によりこの値を変化さ
せる方が良い0例えば3つのパターンを加算して標準パ
ターンを作成した場合は0〜1と2〜3でスイッチの動
作を変えるのが好ましい、スイッチ81〜S工、を通過
したデータはフィルタF!〜F1.に印加される。この
場合、第2図において分析したフィルタと同じであるこ
とが望ましく、分析された時のフィルタと同じフィルタ
にデータが入力されるように配慮する必要がある。フィ
ルターを、番号の若い順に中心周波数が高くなり1分析
結果も周波数の低い方からlch〜15chとすると、
フィルタnで分析されたデータはn chのデータと
なり、再生する時にはフィルタnへ入力されることにな
る。こうして得られた出力の和を加算器11によって求
め、アンプAによって増幅後、スピーカを駆動するデー
タとなる。パルス音源12の周期は人間のピッチ周期に
近いものが良く。
200−300 Hz位が適当である。
以上のような構成により、2値化処理された音声認識用
のデータから音声の再生が可能で、何がどのように発声
されていたかを聞くことができるようになる。
のデータから音声の再生が可能で、何がどのように発声
されていたかを聞くことができるようになる。
卑果
以」二の説明から明らかなように、本発明によると、辞
書内の標準パターンが可聴になり、登録時の発声を思い
出すことができるようになっただけでなく、標準パター
ンに不要な音がついて登録されていたりすると、それを
聞きとることができるようになる。この結果、装置の認
識精度を向上させることができる。
書内の標準パターンが可聴になり、登録時の発声を思い
出すことができるようになっただけでなく、標準パター
ンに不要な音がついて登録されていたりすると、それを
聞きとることができるようになる。この結果、装置の認
識精度を向上させることができる。
第1図は、本発明の詳細な説明するための構成図、第2
図は、第1図に示した音響/電気信号変換器1及び音声
分析部2の詳m同、第3図は、2値化の一例を説明する
ための図、第4図は、第1図に示した再生部6の詳細図
である。 1・・・音響/電気信号変換器、2・・・音声分析部、
3・・・スイッチ、4・・・辞書部、5・・・認識部、
6・・・再生部、7・・・出力、8・・・電気信号/音
響変換器、9・・・最小2乗直線部、10・・・2値化
部、11・・・加算部。 12・・・パルス音源、13・・・雑音源。 第1図 第2図
図は、第1図に示した音響/電気信号変換器1及び音声
分析部2の詳m同、第3図は、2値化の一例を説明する
ための図、第4図は、第1図に示した再生部6の詳細図
である。 1・・・音響/電気信号変換器、2・・・音声分析部、
3・・・スイッチ、4・・・辞書部、5・・・認識部、
6・・・再生部、7・・・出力、8・・・電気信号/音
響変換器、9・・・最小2乗直線部、10・・・2値化
部、11・・・加算部。 12・・・パルス音源、13・・・雑音源。 第1図 第2図
Claims (1)
- 1、音声を周波数分析し、それを2値化処理して標準パ
ターンとし、更に周波数分析結果の高、低域の分布のし
かたにより種類分けした結果をも前記標準パターンに併
せて登録しておいて認識する音声認識方式において、パ
ルス音源と雑音源とを持ち、その音源の出力を前記標準
パターンの特徴的な周波数で変調するようにし、更にそ
の時の周波数分布を表わすデータに従って前記2音源の
どちらかを選択するようにし、該被変調波を可聴波にし
て出力する部分を備えたことを特徴とする音声認識方式
。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1034768A JPH02212899A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1034768A JPH02212899A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02212899A true JPH02212899A (ja) | 1990-08-24 |
Family
ID=12423487
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1034768A Pending JPH02212899A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02212899A (ja) |
-
1989
- 1989-02-13 JP JP1034768A patent/JPH02212899A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5884260A (en) | Method and system for detecting and generating transient conditions in auditory signals | |
| JPH0226240B2 (ja) | ||
| AU2001289766A1 (en) | System and methods for recognizing sound and music signals in high noise and distortion | |
| JPH02212899A (ja) | 音声認識方式 | |
| JP3512398B2 (ja) | 音声処理装置 | |
| JPS6287998A (ja) | 音声認識装置 | |
| JPH03210274A (ja) | 高周波自然音によるストレス緩和装置 | |
| JPH02212898A (ja) | 音声認識方式 | |
| JPH02212897A (ja) | 音声認識方式 | |
| Moftah et al. | Language recognition from distorted speech: Comparison of techniques | |
| JPH1131000A (ja) | ボイスレコーダ | |
| JPS6194095A (ja) | 音声認識装置 | |
| JPH02287398A (ja) | 音声認識方式及び音声認識装置 | |
| US7348905B2 (en) | Device for treating audio signals, especially for treating audiophonatory disorders | |
| JP3201327B2 (ja) | 録音再生装置 | |
| WO1997040603A3 (de) | Verfahren und vorrichtung zum aufzeichnen/verarbeiten von authentischen tondaten | |
| JPH0334165A (ja) | マルチトラックオーディオ装置 | |
| JP2975808B2 (ja) | 音声認識装置 | |
| JPH02212900A (ja) | 音声認識方式 | |
| Nakayama | Voice timbre in autophonic production compared with that in extraphonic production | |
| JP3408140B2 (ja) | 情報符号化方法 | |
| JPH0295000A (ja) | 電子式快聴器 | |
| JPS59124386A (ja) | 音程可変装置 | |
| KR960002319A (ko) | 화음신호가 기록된 영상가요매체와 그 재생장치 | |
| JPH0740685B2 (ja) | 可聴音信号伝送システム |