JPH0424717B2

JPH0424717B2 -

Info

Publication number: JPH0424717B2
Application number: JP59108668A
Authority: JP
Inventors: Atsuko Hirota; Yutaka Iizuka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1984-05-30
Filing date: 1984-05-30
Publication date: 1992-04-27
Also published as: JPS60254100A

Description

【発明の詳細な説明】（技術分野）本発明は、音声認識装置に関し、特に精度良く
音声区間の検出を行う音声区間検出に関するもの
である。

（背景技術）従来の音声認識装置のブロツク図を第１図に示
す。第１図において、１は信号入力端子、２は周
波数分析部、３は音声取込制御部、４は取込開始
信号、５は音声区間検出部、６は取込終了信号、
７は始端・終端情報、８は認識部、９は出力端子
の如く構成されており、以下各部の説明をする。

周波数分析部２は、第２図に示す如く構成され
ており、入力音声信号１１は前置増幅器１２によ
り適当なレベルに増幅され、約200Hzから6000Hz
までを対数尺度で等間隔に分割されたＮ個のバン
ドパスフイルタ群１３、全波整流器群１４、およ
びローパスフイルタ群１５により分析され、さら
に、あらかじめ定められた時間周期（以後サンプ
ル周期と記す）毎にマルチプレクサ１６を順次切
り換えながらAD変換器１７によつて量子化さ
れ、サンプル周期毎にＮ個の分析結果１８を出力
する。

音声取込制御部３は、取込開始信号４を受信し
たのち、周波数分析部２の分析結果１８を音声区
間検出部５および認識部８へ一定時間、または確
かに音声の入力が終了したと判断するまで出力す
る。音声の入力終了の判断法としては、たとえ
ば、各サンプル周期毎のＮ個のデータの平均値
（以後フレームパワーと記す）を利用して、、フレ
ームパワーがあらかじめ設定された閾値を越える
ものが、ある一定数存在したのち、閾値を越えな
いものが連続一定数続いたとき音声の入力が終了
したと判断する方法がある。

音声区間検出部５におけるブロツク図を第３図
に示す。第３図において、１８は分析結果、２１
はパラメータ演算部、６は取込終了信号、２２は
ブロツク化部、２３は音声区間判定部、７は始端
終端情報の如く構成され、以下詳細に説明する。

パラメータ演算部２１は、分析結果１８から音
声区間検出に使用する(1)式で定義されるパラメー
タを求める部分である。

P_j＝a_j・_j …(1) ただしa_j；第ｊ番目の分析結果のスペクタル傾
斜 _j；第ｊ番目の分析結果の平均値また、スペクトル傾斜a_jすなわち最少２乗近似
直線の傾きは、第ｊ番目のＮ個の分析結果をx_ij
とすると（ｉ；Ｎ分割されたバンドパスフイルタ
群の周波数の低いものから順に付けられた番号）、
a_jは(2)式によつて求められる。

(2)式においてＮを固定すれば、_N 〓ⁱ⁼¹ ｉ及び_N 〓ⁱ⁼¹ i²は
定数となり、C₁＝_N 〓ⁱ⁼¹ ｉ及び C₂＝Ｎ・_N 〓ⁱ⁼¹ i²−｛_N 〓ⁱ⁼¹ ｉ｝² と置き換えることができ、(2)式は(3)式に変形され
る。

従つて、_N 〓ⁱ⁼¹ ｉ・x_ijと_N 〓ⁱ⁼¹ x_ijを求めればa_jを求め
ることができる。

また、_jは_N 〓ⁱ⁼¹ x_ijをＮで除すことによつて得ら
れる。第４図は、P_jを演算するブロツク図であ
り、以下図に従つて説明する。

第ｊ番目のＮ個の分析結果x_ij（ｉ＝１，２，…
Ｎ）が順番に出力されるものとすると、加算器１
０１およびレジスタ１０２によつてx_ijの累積_N 〓ⁱ⁼¹
x_ijをレジスタ１０２にセツトすることができ、
その結果を乗算器１０３と除算器１０６に出力さ
れる。乗算器１０３で_N 〓ⁱ⁼¹ x_ijとC₁（＝_N 〓ⁱ⁼¹ ｉ）との乗
算を行ない、さらに補数器１０４によつて−
C₁・_N 〓ⁱ⁼¹ x_ijの値を求め、加算器１０５の一方に入
力される。また、x_ijのデータ出力と同期して働
くカウンタ１０７の出力と、x_ijとの積ｉ・x_ijを
乗算器１０８によつて求め、乗算器１０８の出力
に接続されている加算器１０９と、さらにそれに
接続されているレジスタ１１０によつて_N 〓ⁱ⁼¹ ｉ・
x_ijを求めることができる。レジスタ１１０の出
力_N 〓ⁱ⁼¹ ｉ・x_ijは乗算器１１１の一方の入力に接続
されており、乗算器１１１の他方の入力にはＮが
セツトされていて、乗算器１１１ではＮ・_N 〓ⁱ⁼¹
ｉ・x_ijが演算され、加算器１０５のもう一方に
入力される。加算器１０５では、Ｎ・_N 〓ⁱ⁼¹ ｉ・x_ij
が演算され、除算器１１２に接続されている。除
算器１１２では、Ｎ・_N 〓ⁱ⁼¹ ｉ・x_ij−C₁・_N 〓ⁱ⁼¹ ｉ・x_ij
をC₂で除すことによつて、第ｊ番目のサンプル
データのスペクトル傾斜a_jを求められ、その結果
は乗算器１１３の一方の入力となる。また除算器
１０６では、_N 〓ⁱ⁼¹ x_ijをＮで除すことによつて_jが
求められ、その結果は乗算器１１３の他方の入力
となり、乗算器１１３によつてP_j（＝a_j・_j）を
求めることができる。以上の演算をサンプル周期
毎に行なつて、各サンプル時のP_jの値を全て演算
することができる。

ブロツク化部２２は、パラメータ演算部２１の
結果P_jを取込終了信号６を検出するまで受け取
り、取込終了信号６を検出後、音声のブロツク化
（音声であると思われる部分のかたまりの検出）
を行なう部分で、第５図にブロツク図を示し、第
５図に従つて説明する。

パラメータ演算部２１の各サンプル周期毎のP_j
は、順次Ｐパラメータメモリ２００に格納されて
いるので、それを順番に読取し絶対値回路２０１
によつて絶対値化され、｜P_j｜を比較器２０２の
一方に入力する。比較器２０２の他方の入力に
は、｜P_j｜の閾値P_THがセツトされている。比較器
２０２では、｜P_j｜≧P_THのときにはα出力に、｜
P_j｜＜P_THのときにはβ出力にそれぞれ有意信号
を出力する。カウンタ２０３は、｜P_j｜≧P_THのと
きカウントアツプし、｜P_j｜＜P_THのときクリアさ
れるようになつており、｜P_j｜≧P_THとなる連続量
をカウントする。また、カウンタ２０３の出力
は、常にレジスタ２０４にセツトされている。レ
ジスタ２０４にセツトされている値（｜P_j｜≧
P_THである連続数）は、比較器２０５に入力され、
比較器２０５の他方の入力にはＫがセツトされて
おり、｜P_j｜≧P_THである連続量（以下ブロツク長
と記す）がＫ以上のとき、比較器２０５の出力Ｃ
に有意信号が出力される。

ブロツク長がＫ（Ｋ≧２の自然数）以上（Ｃ信
号出力時）で、かつ、比較器２０２のβ出力（｜
P_j｜＜P_TH）が表われたタイミングをAND回路２
０６によつて捕える。カウンタ２０７は、AND
回路２０６の出力から出力までのP_jを読み出した
量を数えるもので、減算器２０８によつてカウン
タ７の出力からレジスタ２０４の結果（ブロツク
長）を差し引くことにより、ブロツク間の距離
（時間）を求めることができる。またカウンタ２
０９は、P_jの読出しと同期してカウントしてお
り、減算器２１０によつてカウンタ２０９の結果
からレジスタ２０４の出力（ブロツク長）を引く
ことによつて、当該ブロツクの先頭を求められ
る。加算器２１１とレジスタ２１２により｜P_j｜
≧P_THの部分の累積を求め、ブロツクの大きさを
表わすS_Bなるものを求め、AND回路２０６の信
号を検出したとき、レジスタ２１３にセツトする
と同時に、レジスタ２１３の出力（以下ブロツク
量と記す）、減算器２１０の出力（ブロツク先頭
情報）、レジスタ２０４の出力（ブロツク長）、お
よび減算器２０８の出力（ブロツク間距離）をブ
ロツクテーブル２１４に登録する。このようにし
て取込んだ量全てについてブロツク化が行なうこ
とができる。

音声区間判定部２３は、ブロツク化部２２で得
れたブロツクテーブル２１４から、次のようにし
て音声区間の判定を行なつていた。すなわち、ブ
ロツク量の最大値となるブロツクを検出し、それ
を音声区間の中心として前後のブロツクについ
て、ブロツク間距離が一定値以下であれば当該ブ
ロツクも音声区間に含めるという方法で、音声区
間の判定を行なつていた。

認識部８は、音声取込制御部３に取込開始信号
を送るとともに、音声取込制御部３からの分析結
果を格納しておき、さらに音声区間検出部５から
の始端終端情報７を受けると、あらかじめ用意さ
れている内容既知の標準パターンとの類似度演算
を行ない、最も類似度の高い標準パターンと同一
内容の音声が入力されたと判断し、その結果を出
力する。

しかしながら、上記従来の技術における音声区
間検出では、 (1) 入力音声の強弱によりスペクトル傾斜a_jが変
化するため、不安定なパラメータすなわち、P_j
が不安定なパラメータである。

(2) スペクトル傾斜a_jは、音韻、話者による変化
とともにマイクの特性等によつて往往にして、
音声部においても０に近い値を取り、結果とし
てP_jも０に近い値となり、ブロツク化を誤ま
る。

(3) ノイズが大きい場合、ノイズとの区別（特に
子音）がつけにくい。

という欠点があつた。

（発明の課題）この発明の目的は誤認識をなくして認識率の向
上をはかることの出来る音声認識装置を提供する
ことにあり、その特徴は、音声区間検出時に、音
声パターンからノイズパターンを差し引くことに
より、音声区間検出をより精度よく行ない、認識
率を上げる手段を提供するもので、以下詳細に説
明する。

（発明の構成および作用）第６図は、本発明のブロツク図であり、１００
は入力端子、２００は周波数分析部、３００は対
数変換部、４００はスペクトル変換部、５００は
音声区間決定部であり、対数変換済データ部５０
１、ノイズパターン検出部５０２、減算回路５０
３、乗算回路５０４、加算回路５０５、除算回路
５０６、Ｐパラメータメモリ５０７、比較器１
５０８、FLAG５０９、スムージング１５１
０、スムージング２５１１、ブロツク化５１
２、比較器２５１３、ブロツク決定５１４、音
声区間決定５１５、MAXBLKテーブル５１６か
ら成る、６００は再サンプル部、７００は距離演
算部、８００は標準パターンメモリ、９００は判
定部、１０００は認識結果出力端子である。

このような構成において、入力端子１００から
入力される入力音声信号は、周波数分析部２００
に入力され、複数の周波数帯域に対応した量子化
信号U_(i,j)として周波数分析され、対数変換部３０
０に送られる。

対数変換部３００に送られたデータは、スペク
トル情報と、パワー情報等となり、スペクトル変
換器４００へはスペクトル情報、音声区間決定部
５００へはスペクトル情報及びパワー情報が送ら
れる。

対数変換部３００では第(4)式の計算が行なわれ
る。周波数分析データをU_(i,j)とする。

U_(i,j) ｉ＝１〜19 ｊ＝１〜∞ ０≦U_(i,j)≦2047 対数変換データをV_(i,j)とする。

V_(i,j) ｉ＝１〜19 ｊ＝１〜∞ ここでｉは周波数（1ch〜19ch）を示し、ｊは
時間（１フレーム〜∞フレーム）を示す。また前
処理部からの入力データをU_(i,j)とする。U_(i,j)ｉ＝
１〜19 ｊ＝１〜∞ ０≦U_(i,j)≦2047対数変換ビ
ツト数をNBとする。ここではNB＝８である。

ここで入力パターンのパワーPOW（ｊ）及び入
力パターンの10フレームパワーの計算式を第(5)
式，第(6)式で定義する。

POW（ｊ）＝１／19₁₉ 〓ⁱ⁼¹ Ｖ(i,j) ｊ＝１〜∞ (5) POW10（ｋ）＝₁₀ 〓^l=1 POW_(j+l-1) (6) ｋ＝（ｊ−１）／10＋１但し、ｊ＝（ｋ−１）＊10＋１とする。

ノイズパターンは第(7)式で定義する。

ノイズパターン測定区間をｋ＝k₁〜k₂とした時、 NLEVEL＝１／k₂−k₁＋１_k2 〓^k=k1 POW10(k) …(7) 但し、k₂＝k₁＋２とするここで切り出しスライスレベルL₁を L₁＝NLEVEL＋LO として、はじめてPOW10（k₃）がL1よりも大き
くPOW10（k₃＋１）がL1よりも大きい点k₃から
40フレーム逆のぼつたフレームj₁を j₁＝（k₃−１）＊10＋１−40 として、仮の音声始端フレームSTFR1を STFR1＝MAX（ｊ，１）とする。

終端検出はk₄がk₂＋１よりも大きく、かつ
POW10（k₄）がL1よりも小さいか等しくなつた
時に、仮の音声終端フレームEDFR1を EDFR1＝（k₄−１）＊10−１＋９とする。

さて、対数変換部300より計算された対数変換
データＶ（ｉ，ｊ）は、対数変換済データ部５０
１へ送られた後、ノイズパターンNPAT（ｉ）を
求めるためノイズパターン検出部５０２にて、ノ
イズパターンNPAT（ｉ）を計算する。但し、ノ
イズレベル測定区間をｋ＝k₁〜k₂とした時、j₂及
びj₃の値を第(8)式において計算する。

j₂＝（k₁−１）＊10＋１ j₃＝（k₂−１）＊10＋１＋９ …(8) ノイズパターンNPAT（ｉ）を求める式を第(9)
式に示す。

Ｊ＝STFR1〜EDFR1NPAT（ｉ）＝１／j₃−j₂＋１（_j3 〓^j=j2 (i,j)＋j₃−j₂＋１／２） …(9) 次に、減算回路５０３、乗算回路５０４、加算
回路５０５、除算回路５０６、において、対数変
換済データ部５０１に格納されているV_(i,j)及びノ
イズパターン検出部５０２において、第(9)式より
求まつたNPAT（ｉ）を用い、ノイズパターンを
差し引いたパワーの計算を第(10)式により行なう。

Ｐ（ｊ）＝１／19₁₉ 〓ⁱ⁼¹ （（Ｖ(i,j)−NPAT（ｉ）／４）²＋９…(10) 第(10)式より求まつたＰ（ｊ）はＰパラメータメモ
リ５０７へ格納され、比較器１５０８により次の
第(11)式の比較を行なう。

FLAG(j)＝０ Pp(j)＜L2 １Ｐ(j)≧L2 …(11) 第(11)式において、スライスレベルL2がＰ（ｊ）よ
りも大きい場合は、FLAG（ｊ）＝０とする。また
L2がＰ（ｊ）よりも等しいか小さい場合はFLAG
（ｊ）＝１とする。第(11)式において決定された
FLAG（ｊ）の値は、FLAG509へ格納され、
FLAG（ｊ）の値に応じて、スムージング１５
１０あるいはスムージング２５１１へ送られ
る。スムージング１５１０ではFLAG（ｊ）＝０
の場合の操作を行ないFLAG（ｊ−１）＝０であ
り、FLAG（ｊ＋１）＝０である時は、FLAG（ｊ）
＝０とする。また、スムージング２５１１では
FLAG（ｊ）＝１の場合の操作を行ないFLAG（ｊ
−１）＝１であり、FLAG（ｊ＋１）＝１である時
は、FLAG（ｊ）＝１とする。

次にブロツク化５１２においてFLAG（ｊ）＝１
が４フレーム以上連続し、その区間の、POW1
（ｌ）＝１／８〓Ｐ（ｊ）がPOW1（ｌ）≧L3、すなわちPOW1（ｌ）がスライスレベルL3よりも大きい
か等しい場合のものをブロツクとする。

ブロツク数をBLKSとし、ブロツクｌの先頭フ
レームをＳ（ｌ）、ブロツクｌの最終フレームをＥ
（ｌ）とする。ブロツクｌのノイズパターンを差
し引いたパワーＰ（ｊ）の加算値は第(12)式により
求められる。

POW1(l)＝１／８_E(l) 〓^j=s(l) Ｐ（ｊ） …(12) ブロツクｌのフレーム数は第（13）式により求め
られる。

FR1（ｌ）＝Ｅ（ｌ）−Ｓ（ｌ）＋１ …（13）また、前ブロツク（ｌ−１）との間隔は第（14）
式により求められる。

FR2（ｌ）＝Ｓ（ｌ）−Ｅ（ｌ−１） …（14）ここでl₁を音声先頭ブロツク、l₂を音声最終ブロ
ツクとして比較器２５１３において、音声先頭
ブロツクl₁については、第（15）式の条件を満た
している限りl₁＝l₁−１とする。

FR2（l₁）≦MIN（POW1（l₁−１）／SC1＋SC2，
SC3） …（15）また音声最終ブロツクl₂については、第（16）式
の条件を満たしている限りl₂＝l₂＋１とする。

FR（l₂＋１）≦MIN（POW1（l₂＋１）／SC1＋
SC2，SC3） …（16）ここでSC1〜SC3は定数でありSC1＝16，SC2＝
８，SC3＝30である。

以上の式より、最大ブロツクを中心に前後のブ
ロツクを音声区間のブロツクとして取り込むかど
うかの判定を行ない、音声区間ブロツク候補とし
て採用する。

一般に、日本語の50音におけるカ行、タ行、パ
行、バ行、ダ行及びガ行の音は、破裂音と呼ばれ
ているものである。このような破裂音は、一旦息
を止めた後、一気に声帯を開放して振動させるこ
とにより、発声される。一般に、破裂音を含む単
語は、その単語の発声期間中に10msから30ms程
度の無音声期間を生じることがあり、その長さに
は個人差がある。

従つて、この発明では、前述のように、単語の
発声期間中において、そのパワーが所定値以上、
かつ所定フレーム以上連続した場合に、その音声
部分をブロツクとして定義するものである。

一つの単語におけるブロツク数は、破裂音をい
くつ含むかによつて異なるが、通常は１以上であ
る。しかし、電話の音声を認識する場合に、受信
された音声に重畳するノイズレベルによつては、
ノイズを音声のブロツクであると語認識してしま
う可能性が存在する。従つて、連続する２以上の
ブロツクには、音声ブロツクだけでなく、ノイズ
ブロツクも含まれ得るので、このようなブロツク
を音声区間ブロツク候補と呼んでいる。換言すれ
ば、音声区間ブロツク候補は、そのまま音声ブロ
ツクの場合もあるし、そうでないノイズブロツク
の場合もある。このようにして決定された音声区
間ブロツク候補である音声先頭ブロツクl₁及び音
声最終ブロツクl₂の値はブロツク決定５１４に送
られる。

次に、音声区間決定５１５に用いる認識語の最
大ブロツク数のMAXBLK516を説明する。

一般に、一つの単語は、これに破裂音が含まれ
ていれば、複数のブロツに分割され得る。しか
し、発声の個人差、及びフレームサンプリングの
タイミング（１フレームは、10ms程度である。）
により、その単語に破裂音が含まれていたとし
て、、常に複数のブロツクに分割されるとは限ら
ない。しかし、単語には、その先頭の破裂音を無
視しても、その中に含まれる破裂音の数＋１を超
えることはない。

一つの単語に含まれるブロツク数はその単語に
含まれる破裂音の数に基づいて決定され、その最
大値を最大ブロツク数という。実際のブロツ数
は、最大ブロツク数以下となることがあつても、
これを超えることはない。例えば、「イチ」の最
大ブロツク数は、２である。しかし、実際には、
前述の理由により、「イチ」のブロツク数が１に
なることもある。

このようなブロツク数を複数の単語についてそ
れぞれ対応付けしてテーブルにしたものが、最大
ブロツク（MAXBLK）テーブルである。最大ブ
ロツク（MAXBLK）テーブルーをメモリに記憶
したものがMAXBLKテーブル５１６である。

最大ブロツク数MAXBLKの例を第８図に示
す。左側がカテゴリ（16語）を示し、右側は、予
め発声データから求めた各カテゴリの最大ブロツ
ク数を示す。これらの認識語セツトの中で最大の
MAXBLKを選ぶ。例えば認識語の中に「モーイ
チド」を含むならMAXBLK＝３とする。一般化
すると、最大ブロツク数（MAXBLK）は、原則
として単語中に含まれる破裂音の数＋１である。
ただし、先頭の破裂音は含まれないものとする。
また、例外として、例えば「オワリ」なる語にお
ける「リ」は、破裂音ではないが、発声者によつ
てブロツク数が２となることが経験されるので、
そのブロツク数は２とする。

音声区間決定部５１５において、 BLKS≦MAXBLK とする時、すなわちブロツク数BLKSが最大ブロ
ツク数MAXBLKよりも小さいか等しい場合であ
ればすべてのブロツクを音声区間とする。逆に BLKS＞MAXBLK とする時、すなわちブロツク数BLKが最大ブロ
ツク数MAXBLKよりも大きい場合、例えば第７
図においてブロツク数BLKS＝３で最大ブロツク
数MAXBLK＝２であればまたはの組み合わ
せが考えられ、及びのブロツクの組み合わせ
の各々のパワーPP（ｌ）を求めた後PPの比較を
行ないブロツクのパワーPP（ｌ）が最大となるブ
ロツクの組合せを音声区間とする。ブロツクのパ
ワーPP（ｌ）は第（17）式により求められる。

PP（ｌ）＝１／Ｅ（ｌ＋MAXBLK−１）−Ｓ（ｌ）＋１ _{E(l+MAXBLK-4)} 〓^j=s(l) Ｐ（ｊ） …（17）ｌ＝１〜BLKS−MAXBLK＋１第（17）式より求められたＳ（l₁）は音声先頭ブ
ロツクであり、Ｅ（l₂）は音声最終ブロツクとな
り、音声始端フレームSTFRは STFR＝Ｓ（l₁）また音声終端フレームEDFRは EDFR＝Ｅ（l₂）となる。また、入力パターンフレーム数IFRは次
の第（18）式で表わされる。

IFR＝EDFR−STFR＋１ …（18）処理終了の判定は、音声最終ブロツクl₂が以下
の第（19）式の条件を全て満たした時、処理を終
了とする。

POW10（K₄）≦L1 POW10（k₄＋１）≦L1 POW10（K₄＋２）≦L1 POW10（k₄＋３）≦L1 POW10（k₄＋４）≦L1 …（19）すなわち、L1がk₄，k₄＋１，k₄＋２，k₄＋３，
k₄＋４，のいずれに対しても大きいか等しい場合
は、終理終了となる。

また第（19）式の条件が満たされなかつた場合
は、認識を打ち切り POW10（k₄）≦L1 すなわちL1が大きいか等しくなる次のk₄の値を
求める。

このように決定された音声区間STFR及び
EDFRは、スペクトル変換部４００から送られる
Ｗ（ｉ，ｊ）と同時に再サンプル部６００に送ら
れる。再サンプル部６００では、音声の時間軸の
正規化を行われる。時間軸の正規化の方法は従来
公知の技術であり、リニアマツチング方法では、
音声区間を認識装置の条件によつて定められた一
定数に、時間的に等間隔に分割、再サンプする方
法である。そして、距離演算部７００において、
同様に作成された標準パターンメモリ８００の出
力との距離演算を行ないその結果を判定部９００
へ送る。

判定部９００では、トータル距離との距離値の
比較を行ない、最も小さいトータル距離のカテゴ
リ名を認識結果として、認識結果出力端子１００
０から出力する。

以上説明したように、本発明では、音声区間検
出時に音声パターンからノイズパターンを差し引
くことにより、音声区間検出をより精度よく行な
い、認識率を上げることができる。

（発明の効果）本発明は、音声区間検出の際に、音声のノイズ
パターンの情報を音声パターン情報から差し引く
ことにより、音声区間検出をより精度よく行なう
ことができ、音声認識装置の認識性能を向上する
のに効果がある。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は第１図の周波数分析部の詳細ブロツク図、
第３図は第１図の音声区間検出部のブロツク図、
第４図は第３図のパラメータ演算部の詳細ブロツ
ク図、第５図は第３図のブロツク化部の詳細図、
第６図は本発明の音声認識装置のブロツク図、第
７図は音声区間のブロツクの組合せを示す図、第
８図は音声の最大ブロツク数を示す図である。１…入力端子、２…周波数分析部、３…音声取
込制御部、４…取込開始信号、５…音声区間検出
部、６…取込終了信号、７…始端・終端情報、８
…認識部、９…出力端子、１１…入力音声信号、
１２…前置増幅器、１３…バンドパスフイルタ
群、１４…全波整流器群、１５ローパスフイルタ
群、１６…マルチプレクサ、１７…AD変換器、
１８…分析結果、２１…パラメータ演算部、２２
…ブロツク化部、２３…音声区間判定部、１０
１，１０５，１０９…加算器、１０２，１１０…
レジスタ、１０３，１０８，１１１，１１３…乗
算器、１０４…補数器、１０６，１１２…除算
器、１０７…カウンタ、２００…Ｐパラメータメ
モリ、２０１…絶対値回路、２０２，２０５…比
較器、２０３，２０７，２０９…カウンタ、２０
４，２１２，２１３…レジスタ、２０６…AND
回路、２０８，２１０…減算器、２１１…加算
器、２１４…ブロツクテーブル、１００…入力端
子、２００…周波数分析部、３００…対数変換
部、４００…スペクトル変換部、５００…音声区
間決定部、５０１…対数変換部、５０２…ノイズ
パターン検出部、５０３…減算回路、５０４…乗
算回路、５０５…加算回路、５０６…除算回路、
５０７…Ｐパラメータメモリ、５０８…比較器
１、５０９…FLAG、５１０スムージング１、５
１１…スムージング２、５１２…ブロツク化、５
１３…比較器２、５１２，５１４…ブロツク決
定、５１５…音声区間決定、５１６…
MAXBLK、６００…再サンプル部、７００…距
離演算部、８００…標準パタンメモリ、９００…
判定部、１０００…認識結果出力端子。

Claims

【特許請求の範囲】１入力された音声信号の音声区間を判定する音
声認識装置において、前記音声信号を周波数分析し、その結果を対数
変換して得られた対数変換データに含まれるノイ
ズのノイズパターンを演算する手段と、前記対数変換データから前記ノイズパターンを
差し引いて前記音声パターンに含まれるパワー情
報を演算する手段と、前記パワー情報を所定の第１基準レベルと比較
し、両者間の大小関係を示す理論レベルの音声区
間フラグを求める手段と、特定の音声区間フラグの論理レベルがその前後
の音声フラグの論理レベルと同一であつたときに
前記特定の音声区間フラグの論理レベルを確定す
ることによりスムージングを行なう手段と、前記スムージングを行なう手段によりスムージ
ングされた音声区間フラグが所定の期間について
連続し、かつ前記パワー情報が前記第１基準レベ
ルより大きい第２基準レベルを超えているとき
は、当該パワー情報を音声ブロツク候補と判断す
る手段と、前記音声ブロツク候補の最大ブロツク数と、前
記音声ブロツク候補に対応した最大ブロツクテー
ブルにおける最大ブロツク数とを比較した結果に
基づいて前記音声信号の音声区間を決定する手段
とを有し、前記最大ブロツクテーブルは、複数の語とそれ
ら語の発声データについて予め求めた最大ブロツ
ク数とを対応させ、前記音声区間を決定する手段
により続み出し可能に記憶されていることを特徴
とする音声認識装置。