JPH0424717B2 - - Google Patents
Info
- Publication number
- JPH0424717B2 JPH0424717B2 JP59108668A JP10866884A JPH0424717B2 JP H0424717 B2 JPH0424717 B2 JP H0424717B2 JP 59108668 A JP59108668 A JP 59108668A JP 10866884 A JP10866884 A JP 10866884A JP H0424717 B2 JPH0424717 B2 JP H0424717B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- voice
- blocks
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
(技術分野)
本発明は、音声認識装置に関し、特に精度良く
音声区間の検出を行う音声区間検出に関するもの
である。
音声区間の検出を行う音声区間検出に関するもの
である。
(背景技術)
従来の音声認識装置のブロツク図を第1図に示
す。第1図において、1は信号入力端子、2は周
波数分析部、3は音声取込制御部、4は取込開始
信号、5は音声区間検出部、6は取込終了信号、
7は始端・終端情報、8は認識部、9は出力端子
の如く構成されており、以下各部の説明をする。
す。第1図において、1は信号入力端子、2は周
波数分析部、3は音声取込制御部、4は取込開始
信号、5は音声区間検出部、6は取込終了信号、
7は始端・終端情報、8は認識部、9は出力端子
の如く構成されており、以下各部の説明をする。
周波数分析部2は、第2図に示す如く構成され
ており、入力音声信号11は前置増幅器12によ
り適当なレベルに増幅され、約200Hzから6000Hz
までを対数尺度で等間隔に分割されたN個のバン
ドパスフイルタ群13、全波整流器群14、およ
びローパスフイルタ群15により分析され、さら
に、あらかじめ定められた時間周期(以後サンプ
ル周期と記す)毎にマルチプレクサ16を順次切
り換えながらAD変換器17によつて量子化さ
れ、サンプル周期毎にN個の分析結果18を出力
する。
ており、入力音声信号11は前置増幅器12によ
り適当なレベルに増幅され、約200Hzから6000Hz
までを対数尺度で等間隔に分割されたN個のバン
ドパスフイルタ群13、全波整流器群14、およ
びローパスフイルタ群15により分析され、さら
に、あらかじめ定められた時間周期(以後サンプ
ル周期と記す)毎にマルチプレクサ16を順次切
り換えながらAD変換器17によつて量子化さ
れ、サンプル周期毎にN個の分析結果18を出力
する。
音声取込制御部3は、取込開始信号4を受信し
たのち、周波数分析部2の分析結果18を音声区
間検出部5および認識部8へ一定時間、または確
かに音声の入力が終了したと判断するまで出力す
る。音声の入力終了の判断法としては、たとえ
ば、各サンプル周期毎のN個のデータの平均値
(以後フレームパワーと記す)を利用して、、フレ
ームパワーがあらかじめ設定された閾値を越える
ものが、ある一定数存在したのち、閾値を越えな
いものが連続一定数続いたとき音声の入力が終了
したと判断する方法がある。
たのち、周波数分析部2の分析結果18を音声区
間検出部5および認識部8へ一定時間、または確
かに音声の入力が終了したと判断するまで出力す
る。音声の入力終了の判断法としては、たとえ
ば、各サンプル周期毎のN個のデータの平均値
(以後フレームパワーと記す)を利用して、、フレ
ームパワーがあらかじめ設定された閾値を越える
ものが、ある一定数存在したのち、閾値を越えな
いものが連続一定数続いたとき音声の入力が終了
したと判断する方法がある。
音声区間検出部5におけるブロツク図を第3図
に示す。第3図において、18は分析結果、21
はパラメータ演算部、6は取込終了信号、22は
ブロツク化部、23は音声区間判定部、7は始端
終端情報の如く構成され、以下詳細に説明する。
に示す。第3図において、18は分析結果、21
はパラメータ演算部、6は取込終了信号、22は
ブロツク化部、23は音声区間判定部、7は始端
終端情報の如く構成され、以下詳細に説明する。
パラメータ演算部21は、分析結果18から音
声区間検出に使用する(1)式で定義されるパラメー
タを求める部分である。
声区間検出に使用する(1)式で定義されるパラメー
タを求める部分である。
Pj=aj・j …(1)
ただしaj;第j番目の分析結果のスペクタル傾
斜 j;第j番目の分析結果の平均値 また、スペクトル傾斜ajすなわち最少2乗近似
直線の傾きは、第j番目のN個の分析結果をxij
とすると(i;N分割されたバンドパスフイルタ
群の周波数の低いものから順に付けられた番号)、
ajは(2)式によつて求められる。
斜 j;第j番目の分析結果の平均値 また、スペクトル傾斜ajすなわち最少2乗近似
直線の傾きは、第j番目のN個の分析結果をxij
とすると(i;N分割されたバンドパスフイルタ
群の周波数の低いものから順に付けられた番号)、
ajは(2)式によつて求められる。
(2)式においてNを固定すれば、N
〓i=1
i及びN
〓i=1
i2は
定数となり、C1=N 〓i=1 i及び C2=N・N 〓i=1 i2−{N 〓i=1 i}2 と置き換えることができ、(2)式は(3)式に変形され
る。
定数となり、C1=N 〓i=1 i及び C2=N・N 〓i=1 i2−{N 〓i=1 i}2 と置き換えることができ、(2)式は(3)式に変形され
る。
従つて、N
〓i=1
i・xijとN
〓i=1
xijを求めればajを求め
ることができる。
ることができる。
また、jはN
〓i=1
xijをNで除すことによつて得ら
れる。第4図は、Pjを演算するブロツク図であ
り、以下図に従つて説明する。
れる。第4図は、Pjを演算するブロツク図であ
り、以下図に従つて説明する。
第j番目のN個の分析結果xij(i=1,2,…
N)が順番に出力されるものとすると、加算器1
01およびレジスタ102によつてxijの累積N 〓i=1
xijをレジスタ102にセツトすることができ、
その結果を乗算器103と除算器106に出力さ
れる。乗算器103でN 〓i=1 xijとC1(=N 〓i=1 i)との乗
算を行ない、さらに補数器104によつて−
C1・N 〓i=1 xijの値を求め、加算器105の一方に入
力される。また、xijのデータ出力と同期して働
くカウンタ107の出力と、xijとの積i・xijを
乗算器108によつて求め、乗算器108の出力
に接続されている加算器109と、さらにそれに
接続されているレジスタ110によつてN 〓i=1 i・
xijを求めることができる。レジスタ110の出
力N 〓i=1 i・xijは乗算器111の一方の入力に接続
されており、乗算器111の他方の入力にはNが
セツトされていて、乗算器111ではN・N 〓i=1
i・xijが演算され、加算器105のもう一方に
入力される。加算器105では、N・N 〓i=1 i・xij
が演算され、除算器112に接続されている。除
算器112では、N・N 〓i=1 i・xij−C1・N 〓i=1 i・xij
をC2で除すことによつて、第j番目のサンプル
データのスペクトル傾斜ajを求められ、その結果
は乗算器113の一方の入力となる。また除算器
106では、N 〓i=1 xijをNで除すことによつてjが
求められ、その結果は乗算器113の他方の入力
となり、乗算器113によつてPj(=aj・j)を
求めることができる。以上の演算をサンプル周期
毎に行なつて、各サンプル時のPjの値を全て演算
することができる。
N)が順番に出力されるものとすると、加算器1
01およびレジスタ102によつてxijの累積N 〓i=1
xijをレジスタ102にセツトすることができ、
その結果を乗算器103と除算器106に出力さ
れる。乗算器103でN 〓i=1 xijとC1(=N 〓i=1 i)との乗
算を行ない、さらに補数器104によつて−
C1・N 〓i=1 xijの値を求め、加算器105の一方に入
力される。また、xijのデータ出力と同期して働
くカウンタ107の出力と、xijとの積i・xijを
乗算器108によつて求め、乗算器108の出力
に接続されている加算器109と、さらにそれに
接続されているレジスタ110によつてN 〓i=1 i・
xijを求めることができる。レジスタ110の出
力N 〓i=1 i・xijは乗算器111の一方の入力に接続
されており、乗算器111の他方の入力にはNが
セツトされていて、乗算器111ではN・N 〓i=1
i・xijが演算され、加算器105のもう一方に
入力される。加算器105では、N・N 〓i=1 i・xij
が演算され、除算器112に接続されている。除
算器112では、N・N 〓i=1 i・xij−C1・N 〓i=1 i・xij
をC2で除すことによつて、第j番目のサンプル
データのスペクトル傾斜ajを求められ、その結果
は乗算器113の一方の入力となる。また除算器
106では、N 〓i=1 xijをNで除すことによつてjが
求められ、その結果は乗算器113の他方の入力
となり、乗算器113によつてPj(=aj・j)を
求めることができる。以上の演算をサンプル周期
毎に行なつて、各サンプル時のPjの値を全て演算
することができる。
ブロツク化部22は、パラメータ演算部21の
結果Pjを取込終了信号6を検出するまで受け取
り、取込終了信号6を検出後、音声のブロツク化
(音声であると思われる部分のかたまりの検出)
を行なう部分で、第5図にブロツク図を示し、第
5図に従つて説明する。
結果Pjを取込終了信号6を検出するまで受け取
り、取込終了信号6を検出後、音声のブロツク化
(音声であると思われる部分のかたまりの検出)
を行なう部分で、第5図にブロツク図を示し、第
5図に従つて説明する。
パラメータ演算部21の各サンプル周期毎のPj
は、順次Pパラメータメモリ200に格納されて
いるので、それを順番に読取し絶対値回路201
によつて絶対値化され、|Pj|を比較器202の
一方に入力する。比較器202の他方の入力に
は、|Pj|の閾値PTHがセツトされている。比較器
202では、|Pj|≧PTHのときにはα出力に、|
Pj|<PTHのときにはβ出力にそれぞれ有意信号
を出力する。カウンタ203は、|Pj|≧PTHのと
きカウントアツプし、|Pj|<PTHのときクリアさ
れるようになつており、|Pj|≧PTHとなる連続量
をカウントする。また、カウンタ203の出力
は、常にレジスタ204にセツトされている。レ
ジスタ204にセツトされている値(|Pj|≧
PTHである連続数)は、比較器205に入力され、
比較器205の他方の入力にはKがセツトされて
おり、|Pj|≧PTHである連続量(以下ブロツク長
と記す)がK以上のとき、比較器205の出力C
に有意信号が出力される。
は、順次Pパラメータメモリ200に格納されて
いるので、それを順番に読取し絶対値回路201
によつて絶対値化され、|Pj|を比較器202の
一方に入力する。比較器202の他方の入力に
は、|Pj|の閾値PTHがセツトされている。比較器
202では、|Pj|≧PTHのときにはα出力に、|
Pj|<PTHのときにはβ出力にそれぞれ有意信号
を出力する。カウンタ203は、|Pj|≧PTHのと
きカウントアツプし、|Pj|<PTHのときクリアさ
れるようになつており、|Pj|≧PTHとなる連続量
をカウントする。また、カウンタ203の出力
は、常にレジスタ204にセツトされている。レ
ジスタ204にセツトされている値(|Pj|≧
PTHである連続数)は、比較器205に入力され、
比較器205の他方の入力にはKがセツトされて
おり、|Pj|≧PTHである連続量(以下ブロツク長
と記す)がK以上のとき、比較器205の出力C
に有意信号が出力される。
ブロツク長がK(K≧2の自然数)以上(C信
号出力時)で、かつ、比較器202のβ出力(|
Pj|<PTH)が表われたタイミングをAND回路2
06によつて捕える。カウンタ207は、AND
回路206の出力から出力までのPjを読み出した
量を数えるもので、減算器208によつてカウン
タ7の出力からレジスタ204の結果(ブロツク
長)を差し引くことにより、ブロツク間の距離
(時間)を求めることができる。またカウンタ2
09は、Pjの読出しと同期してカウントしてお
り、減算器210によつてカウンタ209の結果
からレジスタ204の出力(ブロツク長)を引く
ことによつて、当該ブロツクの先頭を求められ
る。加算器211とレジスタ212により|Pj|
≧PTHの部分の累積を求め、ブロツクの大きさを
表わすSBなるものを求め、AND回路206の信
号を検出したとき、レジスタ213にセツトする
と同時に、レジスタ213の出力(以下ブロツク
量と記す)、減算器210の出力(ブロツク先頭
情報)、レジスタ204の出力(ブロツク長)、お
よび減算器208の出力(ブロツク間距離)をブ
ロツクテーブル214に登録する。このようにし
て取込んだ量全てについてブロツク化が行なうこ
とができる。
号出力時)で、かつ、比較器202のβ出力(|
Pj|<PTH)が表われたタイミングをAND回路2
06によつて捕える。カウンタ207は、AND
回路206の出力から出力までのPjを読み出した
量を数えるもので、減算器208によつてカウン
タ7の出力からレジスタ204の結果(ブロツク
長)を差し引くことにより、ブロツク間の距離
(時間)を求めることができる。またカウンタ2
09は、Pjの読出しと同期してカウントしてお
り、減算器210によつてカウンタ209の結果
からレジスタ204の出力(ブロツク長)を引く
ことによつて、当該ブロツクの先頭を求められ
る。加算器211とレジスタ212により|Pj|
≧PTHの部分の累積を求め、ブロツクの大きさを
表わすSBなるものを求め、AND回路206の信
号を検出したとき、レジスタ213にセツトする
と同時に、レジスタ213の出力(以下ブロツク
量と記す)、減算器210の出力(ブロツク先頭
情報)、レジスタ204の出力(ブロツク長)、お
よび減算器208の出力(ブロツク間距離)をブ
ロツクテーブル214に登録する。このようにし
て取込んだ量全てについてブロツク化が行なうこ
とができる。
音声区間判定部23は、ブロツク化部22で得
れたブロツクテーブル214から、次のようにし
て音声区間の判定を行なつていた。すなわち、ブ
ロツク量の最大値となるブロツクを検出し、それ
を音声区間の中心として前後のブロツクについ
て、ブロツク間距離が一定値以下であれば当該ブ
ロツクも音声区間に含めるという方法で、音声区
間の判定を行なつていた。
れたブロツクテーブル214から、次のようにし
て音声区間の判定を行なつていた。すなわち、ブ
ロツク量の最大値となるブロツクを検出し、それ
を音声区間の中心として前後のブロツクについ
て、ブロツク間距離が一定値以下であれば当該ブ
ロツクも音声区間に含めるという方法で、音声区
間の判定を行なつていた。
認識部8は、音声取込制御部3に取込開始信号
を送るとともに、音声取込制御部3からの分析結
果を格納しておき、さらに音声区間検出部5から
の始端終端情報7を受けると、あらかじめ用意さ
れている内容既知の標準パターンとの類似度演算
を行ない、最も類似度の高い標準パターンと同一
内容の音声が入力されたと判断し、その結果を出
力する。
を送るとともに、音声取込制御部3からの分析結
果を格納しておき、さらに音声区間検出部5から
の始端終端情報7を受けると、あらかじめ用意さ
れている内容既知の標準パターンとの類似度演算
を行ない、最も類似度の高い標準パターンと同一
内容の音声が入力されたと判断し、その結果を出
力する。
しかしながら、上記従来の技術における音声区
間検出では、 (1) 入力音声の強弱によりスペクトル傾斜ajが変
化するため、不安定なパラメータすなわち、Pj
が不安定なパラメータである。
間検出では、 (1) 入力音声の強弱によりスペクトル傾斜ajが変
化するため、不安定なパラメータすなわち、Pj
が不安定なパラメータである。
(2) スペクトル傾斜ajは、音韻、話者による変化
とともにマイクの特性等によつて往往にして、
音声部においても0に近い値を取り、結果とし
てPjも0に近い値となり、ブロツク化を誤ま
る。
とともにマイクの特性等によつて往往にして、
音声部においても0に近い値を取り、結果とし
てPjも0に近い値となり、ブロツク化を誤ま
る。
(3) ノイズが大きい場合、ノイズとの区別(特に
子音)がつけにくい。
子音)がつけにくい。
という欠点があつた。
(発明の課題)
この発明の目的は誤認識をなくして認識率の向
上をはかることの出来る音声認識装置を提供する
ことにあり、その特徴は、音声区間検出時に、音
声パターンからノイズパターンを差し引くことに
より、音声区間検出をより精度よく行ない、認識
率を上げる手段を提供するもので、以下詳細に説
明する。
上をはかることの出来る音声認識装置を提供する
ことにあり、その特徴は、音声区間検出時に、音
声パターンからノイズパターンを差し引くことに
より、音声区間検出をより精度よく行ない、認識
率を上げる手段を提供するもので、以下詳細に説
明する。
(発明の構成および作用)
第6図は、本発明のブロツク図であり、100
は入力端子、200は周波数分析部、300は対
数変換部、400はスペクトル変換部、500は
音声区間決定部であり、対数変換済データ部50
1、ノイズパターン検出部502、減算回路50
3、乗算回路504、加算回路505、除算回路
506、Pパラメータメモリ507、比較器1
508、FLAG509、スムージング1 51
0、スムージング2 511、ブロツク化51
2、比較器2 513、ブロツク決定514、音
声区間決定515、MAXBLKテーブル516か
ら成る、600は再サンプル部、700は距離演
算部、800は標準パターンメモリ、900は判
定部、1000は認識結果出力端子である。
は入力端子、200は周波数分析部、300は対
数変換部、400はスペクトル変換部、500は
音声区間決定部であり、対数変換済データ部50
1、ノイズパターン検出部502、減算回路50
3、乗算回路504、加算回路505、除算回路
506、Pパラメータメモリ507、比較器1
508、FLAG509、スムージング1 51
0、スムージング2 511、ブロツク化51
2、比較器2 513、ブロツク決定514、音
声区間決定515、MAXBLKテーブル516か
ら成る、600は再サンプル部、700は距離演
算部、800は標準パターンメモリ、900は判
定部、1000は認識結果出力端子である。
このような構成において、入力端子100から
入力される入力音声信号は、周波数分析部200
に入力され、複数の周波数帯域に対応した量子化
信号U(i,j)として周波数分析され、対数変換部30
0に送られる。
入力される入力音声信号は、周波数分析部200
に入力され、複数の周波数帯域に対応した量子化
信号U(i,j)として周波数分析され、対数変換部30
0に送られる。
対数変換部300に送られたデータは、スペク
トル情報と、パワー情報等となり、スペクトル変
換器400へはスペクトル情報、音声区間決定部
500へはスペクトル情報及びパワー情報が送ら
れる。
トル情報と、パワー情報等となり、スペクトル変
換器400へはスペクトル情報、音声区間決定部
500へはスペクトル情報及びパワー情報が送ら
れる。
対数変換部300では第(4)式の計算が行なわれ
る。周波数分析データをU(i,j)とする。
る。周波数分析データをU(i,j)とする。
U(i,j) i=1〜19 j=1〜∞
0≦U(i,j)≦2047
対数変換データをV(i,j)とする。
V(i,j) i=1〜19 j=1〜∞
ここでiは周波数(1ch〜19ch)を示し、jは
時間(1フレーム〜∞フレーム)を示す。また前
処理部からの入力データをU(i,j)とする。U(i,j)i=
1〜19 j=1〜∞ 0≦U(i,j)≦2047対数変換ビ
ツト数をNBとする。ここではNB=8である。
時間(1フレーム〜∞フレーム)を示す。また前
処理部からの入力データをU(i,j)とする。U(i,j)i=
1〜19 j=1〜∞ 0≦U(i,j)≦2047対数変換ビ
ツト数をNBとする。ここではNB=8である。
ここで入力パターンのパワーPOW(j)及び入
力パターンの10フレームパワーの計算式を第(5)
式,第(6)式で定義する。
力パターンの10フレームパワーの計算式を第(5)
式,第(6)式で定義する。
POW(j)=1/1919
〓i=1
V(i,j) j=1〜∞ (5)
POW10(k)=10
〓l=1
POW(j+l-1) (6)
k=(j−1)/10+1
但し、j=(k−1)*10+1とする。
ノイズパターンは第(7)式で定義する。
ノイズパターン測定区間をk=k1〜k2とした時、
NLEVEL=1/k2−k1+1k2
〓k=k1
POW10(k) …(7)
但し、k2=k1+2とする
ここで切り出しスライスレベルL1を
L1=NLEVEL+LO
として、はじめてPOW10(k3)がL1よりも大き
くPOW10(k3+1)がL1よりも大きい点k3から
40フレーム逆のぼつたフレームj1を j1=(k3−1)*10+1−40 として、仮の音声始端フレームSTFR1を STFR1=MAX(j,1) とする。
くPOW10(k3+1)がL1よりも大きい点k3から
40フレーム逆のぼつたフレームj1を j1=(k3−1)*10+1−40 として、仮の音声始端フレームSTFR1を STFR1=MAX(j,1) とする。
終端検出はk4がk2+1よりも大きく、かつ
POW10(k4)がL1よりも小さいか等しくなつた
時に、仮の音声終端フレームEDFR1を EDFR1=(k4−1)*10−1+9 とする。
POW10(k4)がL1よりも小さいか等しくなつた
時に、仮の音声終端フレームEDFR1を EDFR1=(k4−1)*10−1+9 とする。
さて、対数変換部300より計算された対数変換
データV(i,j)は、対数変換済データ部50
1へ送られた後、ノイズパターンNPAT(i)を
求めるためノイズパターン検出部502にて、ノ
イズパターンNPAT(i)を計算する。但し、ノ
イズレベル測定区間をk=k1〜k2とした時、j2及
びj3の値を第(8)式において計算する。
データV(i,j)は、対数変換済データ部50
1へ送られた後、ノイズパターンNPAT(i)を
求めるためノイズパターン検出部502にて、ノ
イズパターンNPAT(i)を計算する。但し、ノ
イズレベル測定区間をk=k1〜k2とした時、j2及
びj3の値を第(8)式において計算する。
j2=(k1−1)*10+1
j3=(k2−1)*10+1+9 …(8)
ノイズパターンNPAT(i)を求める式を第(9)
式に示す。
式に示す。
J=STFR1〜EDFR1NPAT(i)=1/j3−j2+1
(j3
〓j=j2
(i,j)+j3−j2+1/2) …(9)
次に、減算回路503、乗算回路504、加算
回路505、除算回路506、において、対数変
換済データ部501に格納されているV(i,j)及びノ
イズパターン検出部502において、第(9)式より
求まつたNPAT(i)を用い、ノイズパターンを
差し引いたパワーの計算を第(10)式により行なう。
回路505、除算回路506、において、対数変
換済データ部501に格納されているV(i,j)及びノ
イズパターン検出部502において、第(9)式より
求まつたNPAT(i)を用い、ノイズパターンを
差し引いたパワーの計算を第(10)式により行なう。
P(j)=1/1919
〓i=1
((V(i,j)−NPAT(i)/4)2+9…(10)
第(10)式より求まつたP(j)はPパラメータメモ
リ507へ格納され、比較器1508により次の
第(11)式の比較を行なう。
リ507へ格納され、比較器1508により次の
第(11)式の比較を行なう。
FLAG(j)=0 Pp(j)<L2
1 P(j)≧L2 …(11)
第(11)式において、スライスレベルL2がP(j)よ
りも大きい場合は、FLAG(j)=0とする。また
L2がP(j)よりも等しいか小さい場合はFLAG
(j)=1とする。第(11)式において決定された
FLAG(j)の値は、FLAG509へ格納され、
FLAG(j)の値に応じて、スムージング1 5
10あるいはスムージング2 511へ送られ
る。スムージング1 510ではFLAG(j)=0
の場合の操作を行ないFLAG(j−1)=0であ
り、FLAG(j+1)=0である時は、FLAG(j)
=0とする。また、スムージング2 511では
FLAG(j)=1の場合の操作を行ないFLAG(j
−1)=1であり、FLAG(j+1)=1である時
は、FLAG(j)=1とする。
りも大きい場合は、FLAG(j)=0とする。また
L2がP(j)よりも等しいか小さい場合はFLAG
(j)=1とする。第(11)式において決定された
FLAG(j)の値は、FLAG509へ格納され、
FLAG(j)の値に応じて、スムージング1 5
10あるいはスムージング2 511へ送られ
る。スムージング1 510ではFLAG(j)=0
の場合の操作を行ないFLAG(j−1)=0であ
り、FLAG(j+1)=0である時は、FLAG(j)
=0とする。また、スムージング2 511では
FLAG(j)=1の場合の操作を行ないFLAG(j
−1)=1であり、FLAG(j+1)=1である時
は、FLAG(j)=1とする。
次にブロツク化512においてFLAG(j)=1
が4フレーム以上連続し、その区間の、POW1
(l)=1/8〓P(j)がPOW1(l)≧L3、すなわ ちPOW1(l)がスライスレベルL3よりも大きい
か等しい場合のものをブロツクとする。
が4フレーム以上連続し、その区間の、POW1
(l)=1/8〓P(j)がPOW1(l)≧L3、すなわ ちPOW1(l)がスライスレベルL3よりも大きい
か等しい場合のものをブロツクとする。
ブロツク数をBLKSとし、ブロツクlの先頭フ
レームをS(l)、ブロツクlの最終フレームをE
(l)とする。ブロツクlのノイズパターンを差
し引いたパワーP(j)の加算値は第(12)式により
求められる。
レームをS(l)、ブロツクlの最終フレームをE
(l)とする。ブロツクlのノイズパターンを差
し引いたパワーP(j)の加算値は第(12)式により
求められる。
POW1(l)=1/8E(l)
〓j=s(l)
P(j) …(12)
ブロツクlのフレーム数は第(13)式により求め
られる。
られる。
FR1(l)=E(l)−S(l)+1 …(13)
また、前ブロツク(l−1)との間隔は第(14)
式により求められる。
式により求められる。
FR2(l)=S(l)−E(l−1) …(14)
ここでl1を音声先頭ブロツク、l2を音声最終ブロ
ツクとして比較器2 513において、音声先頭
ブロツクl1については、第(15)式の条件を満た
している限りl1=l1−1とする。
ツクとして比較器2 513において、音声先頭
ブロツクl1については、第(15)式の条件を満た
している限りl1=l1−1とする。
FR2(l1)≦MIN(POW1(l1−1)/SC1+SC2,
SC3) …(15) また音声最終ブロツクl2については、第(16)式
の条件を満たしている限りl2=l2+1とする。
SC3) …(15) また音声最終ブロツクl2については、第(16)式
の条件を満たしている限りl2=l2+1とする。
FR(l2+1)≦MIN(POW1(l2+1)/SC1+
SC2,SC3) …(16) ここでSC1〜SC3は定数でありSC1=16,SC2=
8,SC3=30である。
SC2,SC3) …(16) ここでSC1〜SC3は定数でありSC1=16,SC2=
8,SC3=30である。
以上の式より、最大ブロツクを中心に前後のブ
ロツクを音声区間のブロツクとして取り込むかど
うかの判定を行ない、音声区間ブロツク候補とし
て採用する。
ロツクを音声区間のブロツクとして取り込むかど
うかの判定を行ない、音声区間ブロツク候補とし
て採用する。
一般に、日本語の50音におけるカ行、タ行、パ
行、バ行、ダ行及びガ行の音は、破裂音と呼ばれ
ているものである。このような破裂音は、一旦息
を止めた後、一気に声帯を開放して振動させるこ
とにより、発声される。一般に、破裂音を含む単
語は、その単語の発声期間中に10msから30ms程
度の無音声期間を生じることがあり、その長さに
は個人差がある。
行、バ行、ダ行及びガ行の音は、破裂音と呼ばれ
ているものである。このような破裂音は、一旦息
を止めた後、一気に声帯を開放して振動させるこ
とにより、発声される。一般に、破裂音を含む単
語は、その単語の発声期間中に10msから30ms程
度の無音声期間を生じることがあり、その長さに
は個人差がある。
従つて、この発明では、前述のように、単語の
発声期間中において、そのパワーが所定値以上、
かつ所定フレーム以上連続した場合に、その音声
部分をブロツクとして定義するものである。
発声期間中において、そのパワーが所定値以上、
かつ所定フレーム以上連続した場合に、その音声
部分をブロツクとして定義するものである。
一つの単語におけるブロツク数は、破裂音をい
くつ含むかによつて異なるが、通常は1以上であ
る。しかし、電話の音声を認識する場合に、受信
された音声に重畳するノイズレベルによつては、
ノイズを音声のブロツクであると語認識してしま
う可能性が存在する。従つて、連続する2以上の
ブロツクには、音声ブロツクだけでなく、ノイズ
ブロツクも含まれ得るので、このようなブロツク
を音声区間ブロツク候補と呼んでいる。換言すれ
ば、音声区間ブロツク候補は、そのまま音声ブロ
ツクの場合もあるし、そうでないノイズブロツク
の場合もある。このようにして決定された音声区
間ブロツク候補である音声先頭ブロツクl1及び音
声最終ブロツクl2の値はブロツク決定514に送
られる。
くつ含むかによつて異なるが、通常は1以上であ
る。しかし、電話の音声を認識する場合に、受信
された音声に重畳するノイズレベルによつては、
ノイズを音声のブロツクであると語認識してしま
う可能性が存在する。従つて、連続する2以上の
ブロツクには、音声ブロツクだけでなく、ノイズ
ブロツクも含まれ得るので、このようなブロツク
を音声区間ブロツク候補と呼んでいる。換言すれ
ば、音声区間ブロツク候補は、そのまま音声ブロ
ツクの場合もあるし、そうでないノイズブロツク
の場合もある。このようにして決定された音声区
間ブロツク候補である音声先頭ブロツクl1及び音
声最終ブロツクl2の値はブロツク決定514に送
られる。
次に、音声区間決定515に用いる認識語の最
大ブロツク数のMAXBLK516を説明する。
大ブロツク数のMAXBLK516を説明する。
一般に、一つの単語は、これに破裂音が含まれ
ていれば、複数のブロツに分割され得る。しか
し、発声の個人差、及びフレームサンプリングの
タイミング(1フレームは、10ms程度である。)
により、その単語に破裂音が含まれていたとし
て、、常に複数のブロツクに分割されるとは限ら
ない。しかし、単語には、その先頭の破裂音を無
視しても、その中に含まれる破裂音の数+1を超
えることはない。
ていれば、複数のブロツに分割され得る。しか
し、発声の個人差、及びフレームサンプリングの
タイミング(1フレームは、10ms程度である。)
により、その単語に破裂音が含まれていたとし
て、、常に複数のブロツクに分割されるとは限ら
ない。しかし、単語には、その先頭の破裂音を無
視しても、その中に含まれる破裂音の数+1を超
えることはない。
一つの単語に含まれるブロツク数はその単語に
含まれる破裂音の数に基づいて決定され、その最
大値を最大ブロツク数という。実際のブロツ数
は、最大ブロツク数以下となることがあつても、
これを超えることはない。例えば、「イチ」の最
大ブロツク数は、2である。しかし、実際には、
前述の理由により、「イチ」のブロツク数が1に
なることもある。
含まれる破裂音の数に基づいて決定され、その最
大値を最大ブロツク数という。実際のブロツ数
は、最大ブロツク数以下となることがあつても、
これを超えることはない。例えば、「イチ」の最
大ブロツク数は、2である。しかし、実際には、
前述の理由により、「イチ」のブロツク数が1に
なることもある。
このようなブロツク数を複数の単語についてそ
れぞれ対応付けしてテーブルにしたものが、最大
ブロツク(MAXBLK)テーブルである。最大ブ
ロツク(MAXBLK)テーブルーをメモリに記憶
したものがMAXBLKテーブル516である。
れぞれ対応付けしてテーブルにしたものが、最大
ブロツク(MAXBLK)テーブルである。最大ブ
ロツク(MAXBLK)テーブルーをメモリに記憶
したものがMAXBLKテーブル516である。
最大ブロツク数MAXBLKの例を第8図に示
す。左側がカテゴリ(16語)を示し、右側は、予
め発声データから求めた各カテゴリの最大ブロツ
ク数を示す。これらの認識語セツトの中で最大の
MAXBLKを選ぶ。例えば認識語の中に「モーイ
チド」を含むならMAXBLK=3とする。一般化
すると、最大ブロツク数(MAXBLK)は、原則
として単語中に含まれる破裂音の数+1である。
ただし、先頭の破裂音は含まれないものとする。
また、例外として、例えば「オワリ」なる語にお
ける「リ」は、破裂音ではないが、発声者によつ
てブロツク数が2となることが経験されるので、
そのブロツク数は2とする。
す。左側がカテゴリ(16語)を示し、右側は、予
め発声データから求めた各カテゴリの最大ブロツ
ク数を示す。これらの認識語セツトの中で最大の
MAXBLKを選ぶ。例えば認識語の中に「モーイ
チド」を含むならMAXBLK=3とする。一般化
すると、最大ブロツク数(MAXBLK)は、原則
として単語中に含まれる破裂音の数+1である。
ただし、先頭の破裂音は含まれないものとする。
また、例外として、例えば「オワリ」なる語にお
ける「リ」は、破裂音ではないが、発声者によつ
てブロツク数が2となることが経験されるので、
そのブロツク数は2とする。
音声区間決定部515において、
BLKS≦MAXBLK
とする時、すなわちブロツク数BLKSが最大ブロ
ツク数MAXBLKよりも小さいか等しい場合であ
ればすべてのブロツクを音声区間とする。逆に BLKS>MAXBLK とする時、すなわちブロツク数BLKが最大ブロ
ツク数MAXBLKよりも大きい場合、例えば第7
図においてブロツク数BLKS=3で最大ブロツク
数MAXBLK=2であればまたはの組み合わ
せが考えられ、及びのブロツクの組み合わせ
の各々のパワーPP(l)を求めた後PPの比較を
行ないブロツクのパワーPP(l)が最大となるブ
ロツクの組合せを音声区間とする。ブロツクのパ
ワーPP(l)は第(17)式により求められる。
ツク数MAXBLKよりも小さいか等しい場合であ
ればすべてのブロツクを音声区間とする。逆に BLKS>MAXBLK とする時、すなわちブロツク数BLKが最大ブロ
ツク数MAXBLKよりも大きい場合、例えば第7
図においてブロツク数BLKS=3で最大ブロツク
数MAXBLK=2であればまたはの組み合わ
せが考えられ、及びのブロツクの組み合わせ
の各々のパワーPP(l)を求めた後PPの比較を
行ないブロツクのパワーPP(l)が最大となるブ
ロツクの組合せを音声区間とする。ブロツクのパ
ワーPP(l)は第(17)式により求められる。
PP(l)=1/E(l+MAXBLK−1)−S(l)+1
E(l+MAXBLK-4)
〓j=s(l)
P(j) …(17)
l=1〜BLKS−MAXBLK+1
第(17)式より求められたS(l1)は音声先頭ブ
ロツクであり、E(l2)は音声最終ブロツクとな
り、音声始端フレームSTFRは STFR=S(l1) また音声終端フレームEDFRは EDFR=E(l2) となる。また、入力パターンフレーム数IFRは次
の第(18)式で表わされる。
ロツクであり、E(l2)は音声最終ブロツクとな
り、音声始端フレームSTFRは STFR=S(l1) また音声終端フレームEDFRは EDFR=E(l2) となる。また、入力パターンフレーム数IFRは次
の第(18)式で表わされる。
IFR=EDFR−STFR+1 …(18)
処理終了の判定は、音声最終ブロツクl2が以下
の第(19)式の条件を全て満たした時、処理を終
了とする。
の第(19)式の条件を全て満たした時、処理を終
了とする。
POW10(K4)≦L1
POW10(k4+1)≦L1
POW10(K4+2)≦L1
POW10(k4+3)≦L1
POW10(k4+4)≦L1 …(19)
すなわち、L1がk4,k4+1,k4+2,k4+3,
k4+4,のいずれに対しても大きいか等しい場合
は、終理終了となる。
k4+4,のいずれに対しても大きいか等しい場合
は、終理終了となる。
また第(19)式の条件が満たされなかつた場合
は、認識を打ち切り POW10(k4)≦L1 すなわちL1が大きいか等しくなる次のk4の値を
求める。
は、認識を打ち切り POW10(k4)≦L1 すなわちL1が大きいか等しくなる次のk4の値を
求める。
このように決定された音声区間STFR及び
EDFRは、スペクトル変換部400から送られる
W(i,j)と同時に再サンプル部600に送ら
れる。再サンプル部600では、音声の時間軸の
正規化を行われる。時間軸の正規化の方法は従来
公知の技術であり、リニアマツチング方法では、
音声区間を認識装置の条件によつて定められた一
定数に、時間的に等間隔に分割、再サンプする方
法である。そして、距離演算部700において、
同様に作成された標準パターンメモリ800の出
力との距離演算を行ないその結果を判定部900
へ送る。
EDFRは、スペクトル変換部400から送られる
W(i,j)と同時に再サンプル部600に送ら
れる。再サンプル部600では、音声の時間軸の
正規化を行われる。時間軸の正規化の方法は従来
公知の技術であり、リニアマツチング方法では、
音声区間を認識装置の条件によつて定められた一
定数に、時間的に等間隔に分割、再サンプする方
法である。そして、距離演算部700において、
同様に作成された標準パターンメモリ800の出
力との距離演算を行ないその結果を判定部900
へ送る。
判定部900では、トータル距離との距離値の
比較を行ない、最も小さいトータル距離のカテゴ
リ名を認識結果として、認識結果出力端子100
0から出力する。
比較を行ない、最も小さいトータル距離のカテゴ
リ名を認識結果として、認識結果出力端子100
0から出力する。
以上説明したように、本発明では、音声区間検
出時に音声パターンからノイズパターンを差し引
くことにより、音声区間検出をより精度よく行な
い、認識率を上げることができる。
出時に音声パターンからノイズパターンを差し引
くことにより、音声区間検出をより精度よく行な
い、認識率を上げることができる。
(発明の効果)
本発明は、音声区間検出の際に、音声のノイズ
パターンの情報を音声パターン情報から差し引く
ことにより、音声区間検出をより精度よく行なう
ことができ、音声認識装置の認識性能を向上する
のに効果がある。
パターンの情報を音声パターン情報から差し引く
ことにより、音声区間検出をより精度よく行なう
ことができ、音声認識装置の認識性能を向上する
のに効果がある。
第1図は従来の音声認識装置のブロツク図、第
2図は第1図の周波数分析部の詳細ブロツク図、
第3図は第1図の音声区間検出部のブロツク図、
第4図は第3図のパラメータ演算部の詳細ブロツ
ク図、第5図は第3図のブロツク化部の詳細図、
第6図は本発明の音声認識装置のブロツク図、第
7図は音声区間のブロツクの組合せを示す図、第
8図は音声の最大ブロツク数を示す図である。 1…入力端子、2…周波数分析部、3…音声取
込制御部、4…取込開始信号、5…音声区間検出
部、6…取込終了信号、7…始端・終端情報、8
…認識部、9…出力端子、11…入力音声信号、
12…前置増幅器、13…バンドパスフイルタ
群、14…全波整流器群、15ローパスフイルタ
群、16…マルチプレクサ、17…AD変換器、
18…分析結果、21…パラメータ演算部、22
…ブロツク化部、23…音声区間判定部、10
1,105,109…加算器、102,110…
レジスタ、103,108,111,113…乗
算器、104…補数器、106,112…除算
器、107…カウンタ、200…Pパラメータメ
モリ、201…絶対値回路、202,205…比
較器、203,207,209…カウンタ、20
4,212,213…レジスタ、206…AND
回路、208,210…減算器、211…加算
器、214…ブロツクテーブル、100…入力端
子、200…周波数分析部、300…対数変換
部、400…スペクトル変換部、500…音声区
間決定部、501…対数変換部、502…ノイズ
パターン検出部、503…減算回路、504…乗
算回路、505…加算回路、506…除算回路、
507…Pパラメータメモリ、508…比較器
1、509…FLAG、510スムージング1、5
11…スムージング2、512…ブロツク化、5
13…比較器2、512,514…ブロツク決
定、515…音声区間決定、516…
MAXBLK、600…再サンプル部、700…距
離演算部、800…標準パタンメモリ、900…
判定部、1000…認識結果出力端子。
2図は第1図の周波数分析部の詳細ブロツク図、
第3図は第1図の音声区間検出部のブロツク図、
第4図は第3図のパラメータ演算部の詳細ブロツ
ク図、第5図は第3図のブロツク化部の詳細図、
第6図は本発明の音声認識装置のブロツク図、第
7図は音声区間のブロツクの組合せを示す図、第
8図は音声の最大ブロツク数を示す図である。 1…入力端子、2…周波数分析部、3…音声取
込制御部、4…取込開始信号、5…音声区間検出
部、6…取込終了信号、7…始端・終端情報、8
…認識部、9…出力端子、11…入力音声信号、
12…前置増幅器、13…バンドパスフイルタ
群、14…全波整流器群、15ローパスフイルタ
群、16…マルチプレクサ、17…AD変換器、
18…分析結果、21…パラメータ演算部、22
…ブロツク化部、23…音声区間判定部、10
1,105,109…加算器、102,110…
レジスタ、103,108,111,113…乗
算器、104…補数器、106,112…除算
器、107…カウンタ、200…Pパラメータメ
モリ、201…絶対値回路、202,205…比
較器、203,207,209…カウンタ、20
4,212,213…レジスタ、206…AND
回路、208,210…減算器、211…加算
器、214…ブロツクテーブル、100…入力端
子、200…周波数分析部、300…対数変換
部、400…スペクトル変換部、500…音声区
間決定部、501…対数変換部、502…ノイズ
パターン検出部、503…減算回路、504…乗
算回路、505…加算回路、506…除算回路、
507…Pパラメータメモリ、508…比較器
1、509…FLAG、510スムージング1、5
11…スムージング2、512…ブロツク化、5
13…比較器2、512,514…ブロツク決
定、515…音声区間決定、516…
MAXBLK、600…再サンプル部、700…距
離演算部、800…標準パタンメモリ、900…
判定部、1000…認識結果出力端子。
Claims (1)
- 【特許請求の範囲】 1 入力された音声信号の音声区間を判定する音
声認識装置において、 前記音声信号を周波数分析し、その結果を対数
変換して得られた対数変換データに含まれるノイ
ズのノイズパターンを演算する手段と、 前記対数変換データから前記ノイズパターンを
差し引いて前記音声パターンに含まれるパワー情
報を演算する手段と、 前記パワー情報を所定の第1基準レベルと比較
し、両者間の大小関係を示す理論レベルの音声区
間フラグを求める手段と、 特定の音声区間フラグの論理レベルがその前後
の音声フラグの論理レベルと同一であつたときに
前記特定の音声区間フラグの論理レベルを確定す
ることによりスムージングを行なう手段と、 前記スムージングを行なう手段によりスムージ
ングされた音声区間フラグが所定の期間について
連続し、かつ前記パワー情報が前記第1基準レベ
ルより大きい第2基準レベルを超えているとき
は、当該パワー情報を音声ブロツク候補と判断す
る手段と、 前記音声ブロツク候補の最大ブロツク数と、前
記音声ブロツク候補に対応した最大ブロツクテー
ブルにおける最大ブロツク数とを比較した結果に
基づいて前記音声信号の音声区間を決定する手段
と を有し、 前記最大ブロツクテーブルは、複数の語とそれ
ら語の発声データについて予め求めた最大ブロツ
ク数とを対応させ、前記音声区間を決定する手段
により続み出し可能に記憶されていることを特徴
とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59108668A JPS60254100A (ja) | 1984-05-30 | 1984-05-30 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59108668A JPS60254100A (ja) | 1984-05-30 | 1984-05-30 | 音声認識方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60254100A JPS60254100A (ja) | 1985-12-14 |
| JPH0424717B2 true JPH0424717B2 (ja) | 1992-04-27 |
Family
ID=14490648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59108668A Granted JPS60254100A (ja) | 1984-05-30 | 1984-05-30 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60254100A (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB8613327D0 (en) * | 1986-06-02 | 1986-07-09 | British Telecomm | Speech processor |
| JP2701431B2 (ja) * | 1989-03-06 | 1998-01-21 | 株式会社デンソー | 音声認識装置 |
| JPH03212697A (ja) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | 信号処理装置 |
| WO2020218597A1 (ja) | 2019-04-26 | 2020-10-29 | 株式会社Preferred Networks | 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム |
-
1984
- 1984-05-30 JP JP59108668A patent/JPS60254100A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60254100A (ja) | 1985-12-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA1227286A (en) | Speech recognition method and apparatus thereof | |
| EP1083542B1 (en) | A method and apparatus for speech detection | |
| US7567900B2 (en) | Harmonic structure based acoustic speech interval detection method and device | |
| EP1393300B1 (en) | Segmenting audio signals into auditory events | |
| EP0411290A2 (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
| AU2002252143A1 (en) | Segmenting audio signals into auditory events | |
| JPS6128998B2 (ja) | ||
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| EP0474496B1 (en) | Speech recognition apparatus | |
| US5522013A (en) | Method for speaker recognition using a lossless tube model of the speaker's | |
| JPH0424717B2 (ja) | ||
| JPS60200300A (ja) | 音声の始端・終端検出装置 | |
| EP0537316B1 (en) | Speaker recognition method | |
| JPH0556520B2 (ja) | ||
| JP2606211B2 (ja) | 音源正規化方法 | |
| JPS62113197A (ja) | 音声認識装置 | |
| JP2668877B2 (ja) | 音源正規化方法 | |
| JPS6131880B2 (ja) | ||
| JP2658104B2 (ja) | 音声認識装置 | |
| JPS61256399A (ja) | 音声認識方式 | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPS6255798B2 (ja) | ||
| CN118248152A (zh) | 一种基于语音的身份识别方法及相关设备 | |
| JPH0752355B2 (ja) | 音声認識装置 | |
| JPS61203497A (ja) | 音声認識方式 |