JPH02212898A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH02212898A JPH02212898A JP1034767A JP3476789A JPH02212898A JP H02212898 A JPH02212898 A JP H02212898A JP 1034767 A JP1034767 A JP 1034767A JP 3476789 A JP3476789 A JP 3476789A JP H02212898 A JPH02212898 A JP H02212898A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- frequency
- pattern
- sound
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
伎亙j更
本発明は、音声認識、より詳細には、音声L’l識装置
における音声の再生に関するものである。
における音声の再生に関するものである。
従且−胤
利用者があらかじめ、音声を登録してから使う、いわゆ
る特定話者音、i7認識装置ではトレーニングによって
、できた標準パターンの質が認識能力を左右する。標準
パターンの作成時と認識時では発声の違いがないか、標
準パターンにノイズ等がついて異常なパターンとして登
録されているのではないかということが非常に重要であ
る。
る特定話者音、i7認識装置ではトレーニングによって
、できた標準パターンの質が認識能力を左右する。標準
パターンの作成時と認識時では発声の違いがないか、標
準パターンにノイズ等がついて異常なパターンとして登
録されているのではないかということが非常に重要であ
る。
例えば、特開昭59−201141号公報に示されるよ
うに、登録する時に、自分が登録の為に発声した声を聞
返しながら正常かどうかを判断するものもある。この方
法は正常な標準パターンを登録するのには有効である。
うに、登録する時に、自分が登録の為に発声した声を聞
返しながら正常かどうかを判断するものもある。この方
法は正常な標準パターンを登録するのには有効である。
しかし、長い単語をそのまま登録する場合や、それを短
く省略して登録しておく場合がある6例えば、「ムステ
ィスラフ・ロストロボーヴイッチ」という単語を「ムス
ティスJとかrロストDJのように登録した場合。
く省略して登録しておく場合がある6例えば、「ムステ
ィスラフ・ロストロボーヴイッチ」という単語を「ムス
ティスJとかrロストDJのように登録した場合。
何日か後にはどのような登録の仕方をしたのか分からな
くなってしまうことが多い、仮に、「ムスティスラフ・
ロストロボーヴイッチ」と言ってみて、正確に認識しな
い時は標準パターンとしての登録の仕方が違っているの
か、それとも、登録の仕方は合っているがM認識したも
のかの判断がつかず、利yj′:?tが正確に認識させ
る為にはどのようにしたらよいのかがわからなくなって
しまう。
くなってしまうことが多い、仮に、「ムスティスラフ・
ロストロボーヴイッチ」と言ってみて、正確に認識しな
い時は標準パターンとしての登録の仕方が違っているの
か、それとも、登録の仕方は合っているがM認識したも
のかの判断がつかず、利yj′:?tが正確に認識させ
る為にはどのようにしたらよいのかがわからなくなって
しまう。
そこで特開昭57−86979号公報のように音声を録
音しておく方法もあるが、音声認識の目的以外に大きな
メモリーや再生の為の装置が必要となってくる。
音しておく方法もあるが、音声認識の目的以外に大きな
メモリーや再生の為の装置が必要となってくる。
また2次に考えられることは、音声認識用の標準パター
ンを使って登録時の音を再現することであるが、標準パ
ターンのデータ量を少なくする為に2値化処理したデー
タを使う方法(第10回。
ンを使って登録時の音を再現することであるが、標準パ
ターンのデータ量を少なくする為に2値化処理したデー
タを使う方法(第10回。
情報理論とその応用シンポジウム、No、1.9−21
.1987.pp、475−480)でご識するような
場合、このパターンから音声を再現するにはデータ量が
少なすぎるという欠点があった。
.1987.pp、475−480)でご識するような
場合、このパターンから音声を再現するにはデータ量が
少なすぎるという欠点があった。
且−一首
本発明は、上述のごとき実情に鑑みてなさJzたもので
、音声認識装置において登録時の音声を示し、利用者に
登録時の発声を思い出させることにより認識精度を向上
させることを目的とするものであり、特に、音声認識方
式として、2値化処理したデータを使う方法が使われて
いる場合に、登録されているデータに音声の情報量を付
加するような方法を提供することを目的とするものであ
る。
、音声認識装置において登録時の音声を示し、利用者に
登録時の発声を思い出させることにより認識精度を向上
させることを目的とするものであり、特に、音声認識方
式として、2値化処理したデータを使う方法が使われて
いる場合に、登録されているデータに音声の情報量を付
加するような方法を提供することを目的とするものであ
る。
構−一」又
本発明は、上記目的を達成するために、g声を周波数分
析して、それを2値化し、標準パターンを作成し、さら
に、2値化する前のデータから周波数の高域、低域の成
分の分布情報を付加して特徴パターンとして用いる音声
認識方式において。
析して、それを2値化し、標準パターンを作成し、さら
に、2値化する前のデータから周波数の高域、低域の成
分の分布情報を付加して特徴パターンとして用いる音声
認識方式において。
パルス肝源と雑音性の音源を持ち、m2局波数の高域、
低域の成分の分布情報に従って特徴パターンの各周波数
成分のレベルを補正した後、音源の出力を、補正後の特
徴パターンの周波数特性で変調して可聴音を合成する部
分を備えたこと、或いは、パルス音源と雑音性の音源を
持ち、前記周波数の高域、低域の成分の分布情報に従っ
て再生音声の増幅特性を変化させ、音源の出力を、特徴
パターンの周波数特性で変調して可聴音を合成する部分
を備えたことを特徴としたものである。以下。
低域の成分の分布情報に従って特徴パターンの各周波数
成分のレベルを補正した後、音源の出力を、補正後の特
徴パターンの周波数特性で変調して可聴音を合成する部
分を備えたこと、或いは、パルス音源と雑音性の音源を
持ち、前記周波数の高域、低域の成分の分布情報に従っ
て再生音声の増幅特性を変化させ、音源の出力を、特徴
パターンの周波数特性で変調して可聴音を合成する部分
を備えたことを特徴としたものである。以下。
本発明の実施例に基づいて説明する。
第1図は9本発明の詳細な説明するための構成図で1図
中、lはf響/雷気信号変換器、2は音声分析部、3は
スイッチ、4は辞書部、5は認識部、6は再生部、7は
出力、8は電気信号/音響変換器で、スイッチ3によっ
て辞書の登録モード(a側)と認識モード(b側)が選
択できるようになっている。この方式は特定話者方式と
呼ばれている!!識表装置利用者があらかじめ自分の音
声で装置をトレーニングしてから使うものを想定してお
り、トレーニングが不用な不特定話者認識装置では辞書
の528モードはいらない、どちらの方式であっても1
本発明は使えるが、ここでは先に述べたように特定Ss
者音声認識方式で話を進める。
中、lはf響/雷気信号変換器、2は音声分析部、3は
スイッチ、4は辞書部、5は認識部、6は再生部、7は
出力、8は電気信号/音響変換器で、スイッチ3によっ
て辞書の登録モード(a側)と認識モード(b側)が選
択できるようになっている。この方式は特定話者方式と
呼ばれている!!識表装置利用者があらかじめ自分の音
声で装置をトレーニングしてから使うものを想定してお
り、トレーニングが不用な不特定話者認識装置では辞書
の528モードはいらない、どちらの方式であっても1
本発明は使えるが、ここでは先に述べたように特定Ss
者音声認識方式で話を進める。
第2図は、第1WIに示した音IP/ftf気信号変換
器lとf声分析部2の詳#1図で1本発明の中心は再生
部6にあるが、まず、第2図を参照して音響/fi!気
信号変換器と音声分析部を詳しく説明する。
器lとf声分析部2の詳#1図で1本発明の中心は再生
部6にあるが、まず、第2図を参照して音響/fi!気
信号変換器と音声分析部を詳しく説明する。
音響/電気信号変換器1として一般的なのはマイクロフ
ォンである。その出力をマイクアンプAにて増幅し、フ
ィルタ群F工〜F1.へ印加せしめる。
ォンである。その出力をマイクアンプAにて増幅し、フ
ィルタ群F工〜F1.へ印加せしめる。
このフィルタ群は共振先鋭度のゆるやかなバンドパスフ
ィルタが15g1並べられているが、その共振先鋭度や
個数、特性には大した意味はない。通常150〜150
00Hzがカバーされる程度の帯域を持つように配置し
ておくことが望ましい。
ィルタが15g1並べられているが、その共振先鋭度や
個数、特性には大した意味はない。通常150〜150
00Hzがカバーされる程度の帯域を持つように配置し
ておくことが望ましい。
各フィルターの出力を整流器R1〜R1,にて整流して
周波数頭にレベルの大きさとして記録パターンを作って
いく。
周波数頭にレベルの大きさとして記録パターンを作って
いく。
次に、第3図を参照しながらこのパターンから周波数の
高域、低域の成分の分布情報をとって2値化するやり方
について説明する。整流して周波数順に並べたパターン
は、第3図(a)のようになっている、ただし、第31
i!!j (a)では15個のデータがディスクリート
に並ぶべきであるが、ここでは便宜上15g1を連続量
として表しである。
高域、低域の成分の分布情報をとって2値化するやり方
について説明する。整流して周波数順に並べたパターン
は、第3図(a)のようになっている、ただし、第31
i!!j (a)では15個のデータがディスクリート
に並ぶべきであるが、ここでは便宜上15g1を連続量
として表しである。
このデータで最小2乗直線部9にて最小2乗直線を引い
て直線部を各データから差引くことで第3図(b)が得
られる。音声データに音源特性を補正する為に最小2乗
直線を引くやり方は、三輪。
て直線部を各データから差引くことで第3図(b)が得
られる。音声データに音源特性を補正する為に最小2乗
直線を引くやり方は、三輪。
城戸著音響学会音声研究会資料S 79−24(197
9)その他に詳しく述べられている。第3図(b)の中
の正側の山のピークを中心にしてrlJとし、他を「0
」として2値化部10にて2値化パターンを作ると、第
3図(Q)が得られる。つまり、2値化した15ili
のデータとなるわけである。この時の最小2乗直線の傾
きが正であるか負であるかをそれぞれ「O」、「1」で
表現して15個のデータのつぎに16番目のデータとし
てつける。
9)その他に詳しく述べられている。第3図(b)の中
の正側の山のピークを中心にしてrlJとし、他を「0
」として2値化部10にて2値化パターンを作ると、第
3図(Q)が得られる。つまり、2値化した15ili
のデータとなるわけである。この時の最小2乗直線の傾
きが正であるか負であるかをそれぞれ「O」、「1」で
表現して15個のデータのつぎに16番目のデータとし
てつける。
第4図は、第1図に示した再生部の詳M図で。
スイッチS□〜SXSは2値化したデータの1〜15の
エレメントに対応し、それぞれのデータがrlJの時ス
イッチはON、rOJの時OFFとなる。また、15個
のデータを周波数の低い方から順に1チヤンネル(lc
h)、2チヤンネル(2ch)、・・・ nチャンネル
(nch)のデータと呼ぶことにする。音源はパルスが
3〜5ミリ秒間隔で発生されるパルス音源12と白色雑
音に近い雑音を発生する雑音源13からなり、スイッチ
S0によってどちらかの音源が選択さオt、その音源か
らの信号がスイッチS□〜SXSを通過後フィルタF□
〜F1.に印加される。この15個のフィルタは第2図
に示した音声の分析時に使ったものをそのまま使うか、
あるいは同等のものを別に用意しておいてもよい、フィ
ルタF1〜F□、の後段には各チャンネルにアンプA□
〜A□、かつけられており、これらのアンプは夫々増幅
率が違えられるだけでなく、それぞれのアンプ固有の増
幅率か増幅率が1、つまり、信号を全く増幅しない状態
が外から選択できる。これらのアンプの出力は加算器1
1で加え合わせられて音声再生出力信号として出力され
る。
エレメントに対応し、それぞれのデータがrlJの時ス
イッチはON、rOJの時OFFとなる。また、15個
のデータを周波数の低い方から順に1チヤンネル(lc
h)、2チヤンネル(2ch)、・・・ nチャンネル
(nch)のデータと呼ぶことにする。音源はパルスが
3〜5ミリ秒間隔で発生されるパルス音源12と白色雑
音に近い雑音を発生する雑音源13からなり、スイッチ
S0によってどちらかの音源が選択さオt、その音源か
らの信号がスイッチS□〜SXSを通過後フィルタF□
〜F1.に印加される。この15個のフィルタは第2図
に示した音声の分析時に使ったものをそのまま使うか、
あるいは同等のものを別に用意しておいてもよい、フィ
ルタF1〜F□、の後段には各チャンネルにアンプA□
〜A□、かつけられており、これらのアンプは夫々増幅
率が違えられるだけでなく、それぞれのアンプ固有の増
幅率か増幅率が1、つまり、信号を全く増幅しない状態
が外から選択できる。これらのアンプの出力は加算器1
1で加え合わせられて音声再生出力信号として出力され
る。
各アンプに固有の増幅率の与え方は1人間の音声の音源
特性や声道特性の補正を行なう為のものであるから、第
5図に示すごとく、−6〜12d B / o c t
、程度の傾斜の直線上に各チャンネルのアンプの増幅
率が乗るようにすればよい、ただし1周波数の低いチャ
ンネルはど増幅率が高くしておく必要がある。これはも
とのパターンで説明するなら第6図(a)のような2値
化されたものから(b)のようなもとに近い波形を作り
だすことになる。また、このアンプの増幅率はスイッチ
Si、によって1ti11御しており、スイッチS□は
先に述べたように16チヤンネノシ目のデータによって
制御する。16チヤンネル目のデータがrlJの場合は
アンプの増幅率を第5図に従った特性とし、「O」の場
合には増幅率を1にする。つまり、パルス音源12は声
帯に音源がある有声音をシュミレートするため、信号は
アンプを通過させて音源特性を加える。一方、雑音g1
3は子音等の。
特性や声道特性の補正を行なう為のものであるから、第
5図に示すごとく、−6〜12d B / o c t
、程度の傾斜の直線上に各チャンネルのアンプの増幅
率が乗るようにすればよい、ただし1周波数の低いチャ
ンネルはど増幅率が高くしておく必要がある。これはも
とのパターンで説明するなら第6図(a)のような2値
化されたものから(b)のようなもとに近い波形を作り
だすことになる。また、このアンプの増幅率はスイッチ
Si、によって1ti11御しており、スイッチS□は
先に述べたように16チヤンネノシ目のデータによって
制御する。16チヤンネル目のデータがrlJの場合は
アンプの増幅率を第5図に従った特性とし、「O」の場
合には増幅率を1にする。つまり、パルス音源12は声
帯に音源がある有声音をシュミレートするため、信号は
アンプを通過させて音源特性を加える。一方、雑音g1
3は子音等の。
音源が声道にあるものシュミレートであるからアンプを
通過させずに直接加算器に加える。このようなアンプの
巾を通過させるかバイパスさせるかをスイッチS□で制
御する訳である。これによって2値化する際に失われて
いた音源の特性を元に近い状態に戻すことができる。
通過させずに直接加算器に加える。このようなアンプの
巾を通過させるかバイパスさせるかをスイッチS□で制
御する訳である。これによって2値化する際に失われて
いた音源の特性を元に近い状態に戻すことができる。
このほか認識部、出力部はとくに本発明では限定するも
のではなく5例えば認識にはDPマツチングのようなも
のでもよい。しかし、2値化データの情報付加に有効で
あることから、先にあげた第10回、情報理論とその応
用シンポジウム。
のではなく5例えば認識にはDPマツチングのようなも
のでもよい。しかし、2値化データの情報付加に有効で
あることから、先にあげた第10回、情報理論とその応
用シンポジウム。
No、19−21,1987.pp、475−480に
述べられている方法に従うと、さらに有効である。出力
部は信号増幅の為のアンプとスピーカ等で構成されるの
が普通である。
述べられている方法に従うと、さらに有効である。出力
部は信号増幅の為のアンプとスピーカ等で構成されるの
が普通である。
夏−一来
以上の説明から明らかなように、本発明によると、−度
失った音源の情報を近似的に付加して音声を再生できる
ため、音声認識用の辞書に登録された声を聞直すことが
できるようになった。このため音声の登録時の自分の発
声のしかたや登録内容を思いだすことができ、認識させ
やすい認識装置を実現することができるようになった。
失った音源の情報を近似的に付加して音声を再生できる
ため、音声認識用の辞書に登録された声を聞直すことが
できるようになった。このため音声の登録時の自分の発
声のしかたや登録内容を思いだすことができ、認識させ
やすい認識装置を実現することができるようになった。
なお、ここでは認識精度を向上させる為に登録時の発声
を思いだすことを例にして述べてきたが。
を思いだすことを例にして述べてきたが。
これは発声を思いだす為だけではなく、認識装置が認識
した結果を可聴な信号として出力させて、利用者に提供
する為にも使える。
した結果を可聴な信号として出力させて、利用者に提供
する為にも使える。
第1図は1本発明の詳細な説明するための構成図、第2
図は、第1図に示した音91/電気信号変換部1及び音
声分析部2の詳細図、第3図は、2値化の一例を説明す
るための図、第4図は、第1図に示した再生部6の詳細
図、第5図は、各アンプに固有の増#率を与える与え方
を説明するための図、第6図は、2値化信号の再生の仕
方の例を説明するための図である。 1・・・音響/電気信号変換器、2・・・音声分析部、
3・・・スイッチ、4・・・辞書部、5・・・!!識部
、6・・・再生部、7・・・出力、8・・・電気信号/
音響変換器、9・・・最小2乗置M部、10・・・2値
化部、11・・・加算部、12・・・パルス音源、13
・・・雑音源。 第1図 第3図 第2図
図は、第1図に示した音91/電気信号変換部1及び音
声分析部2の詳細図、第3図は、2値化の一例を説明す
るための図、第4図は、第1図に示した再生部6の詳細
図、第5図は、各アンプに固有の増#率を与える与え方
を説明するための図、第6図は、2値化信号の再生の仕
方の例を説明するための図である。 1・・・音響/電気信号変換器、2・・・音声分析部、
3・・・スイッチ、4・・・辞書部、5・・・!!識部
、6・・・再生部、7・・・出力、8・・・電気信号/
音響変換器、9・・・最小2乗置M部、10・・・2値
化部、11・・・加算部、12・・・パルス音源、13
・・・雑音源。 第1図 第3図 第2図
Claims (1)
- 【特許請求の範囲】 1、音声を周波数分析し、2値化して標準パターンを作
成し、さらに、2値化する前のデータから周波数の高域
、低域の成分の分布情報を付加して特徴パターンとして
用いる音声認識方式において、パルス音源と雑音性の音
源を持ち、前記周波数の高域、低域の成分の分布情報に
従って特徴パターンの各周波数成分のレベルを補正した
後、音源の出力を、補正後の特徴パターンの周波数特性
で変調して可聴音を合成する部分を備えたことを特徴と
する音声認識方式。 2、音声を周波数分析し、2値化して標準パターンを作
成し、さらに、2値化する前のデータから周波数の高域
、低域の成分の分布情報を付加して特徴パターンとして
用いる音声認識方式において、パルス音源と雑音性の音
源を持ち、前記周波数の高域、低域の成分の分布情報に
従って再生音声の増幅特性を変化させ、音源の出力を、
特徴パターンの周波数特性で変調して可聴音を合成する
部分を備えたことを特徴とする音声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1034767A JPH02212898A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1034767A JPH02212898A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02212898A true JPH02212898A (ja) | 1990-08-24 |
Family
ID=12423457
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1034767A Pending JPH02212898A (ja) | 1989-02-13 | 1989-02-13 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02212898A (ja) |
-
1989
- 1989-02-13 JP JP1034767A patent/JPH02212898A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5884260A (en) | Method and system for detecting and generating transient conditions in auditory signals | |
| US7082395B2 (en) | Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition | |
| JPH02242298A (ja) | 声門波形に基づく話者識別装置 | |
| CN1148230A (zh) | 卡拉ok计分的方法和系统 | |
| JPH0226240B2 (ja) | ||
| Rocchesso et al. | Bandwidth of perceived inharmonicity for physical modeling of dispersive strings | |
| JP3306784B2 (ja) | 骨導マイクロホン出力信号再生装置 | |
| Howard | Peak‐picking fundamental period estimation for hearing prostheses | |
| JP2000152394A (ja) | 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置 | |
| JP2002236494A (ja) | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 | |
| KR20030031936A (ko) | 피치변경법을 이용한 단일 음성 다중 목소리 합성기 | |
| JPH02212898A (ja) | 音声認識方式 | |
| Ortega-Garcia et al. | Speech variability in automatic speaker recognition systems for commercial and forensic purposes | |
| JP3512398B2 (ja) | 音声処理装置 | |
| JPS59137999A (ja) | 音声認識装置 | |
| Nakayama | Voice timbre in autophonic production compared with that in extraphonic production | |
| JPH02212897A (ja) | 音声認識方式 | |
| JPH02287398A (ja) | 音声認識方式及び音声認識装置 | |
| Patil et al. | Teager energy mel cepstrum for identification of twins in Marathi | |
| JPS6287998A (ja) | 音声認識装置 | |
| JPH0331275B2 (ja) | ||
| JPH02212899A (ja) | 音声認識方式 | |
| JP2975808B2 (ja) | 音声認識装置 | |
| JPS6194095A (ja) | 音声認識装置 | |
| JPH059759Y2 (ja) |