JPH01244497A

JPH01244497A - 音声区間検出回路

Info

Publication number: JPH01244497A
Application number: JP63069791A
Authority: JP
Inventors: Nobuo Sugi; 杉　伸夫
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-03-25
Filing date: 1988-03-25
Publication date: 1989-09-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「発明の１」的］（産業上の利用分野）本発明は音声区間検出の為に用いられる閾値を最適設定
して筒精度な音声区間検出を可能とする音声区間検出回
路に関する。

（従来の技術）近時、マンマシン・インタフェースを実現する１つの手
段として音声認識システムが注目されている。この音声
認識システムは、基本的には第２図に示すように特徴抽
出部１にて入力音声を音響分析してその特徴を抽出する
。そして閾値計算部２にて上記特徴抽出部１で求められ
た特徴の一部を用いて音声区間検出の為の閾値を計算し
、更に音用区間検出部３にて上記閾値を用いて入力音％
ｉ倍信号パワーを弁別する等してその音声区間検出がな
される。

その後、検出された音声区間における前記特徴抽出部１
て求められた入力音声の種々の特徴をマソチンク部４に
て、予め標準パターンメモリ５に登録されている認識対
象音声の特徴と照合し、その照合結果を認識部６にて総
合判定することで前記入力音声の認識が行なわれる。

尚、マツチング処理は、入力音声の特徴パラメータ系列
と認識対象音声の予め求められている特徴パラメータ系
列との類似度を複合類似度法を用いてそれぞれ計算する
等して行なわれる。そして認識部６において、人力音声
の特徴パラメータ系列に対して最も類似度の高い特徴パ
ラメータ系列の認識対象音声のカテゴリを求め、このカ
テゴリ名を認識結果とすることにより、音声認識処理が
行なわれる。

しかしてこのような音声認識の処理過程において、前述
した音声区間の検出はマツチング処理に用いられる特徴
パラメータ系列自体を左右する重要な役割を担っている
。仮に誤った音声区間検出がなされると、その特徴パラ
メータ系列か異な−）たものとなるから、誤認識の原因
となる。この為、従来より高精度な音声区間検出を実現
するべく種々の工夫が試みられている。

さて−膜面な音由認識ンステムては、音均）入力信号に
対して５〜２０ｍ５ｅｃ程度の短時間単位（フレーム）
毎にその特徴抽出を行なっている。音声区間検出は、通
常、その特徴の１つである音声パワーを成る閾値と比較
して行なわれる。

しかして−膜面には、各フレームにおける音声パワーが
成る一定時間以上に亙って」１記閾値Ｔ　ｈを」−回っ
たとき、音声パワーが最初に」１記閾値Ｔｈを上回った
時点を音声区間の始点Ｓとして検出している。その後、
音声パワーか成る一定時間以上に亙って閾値Ｔ　ｈを下
回ったとき、音声パワーが最初に閾値Ｔ　ｈを下回った
時点を音声区間の終点Ｅとして検出する。そしてこの始
点Ｓと終点Ｅの区間を音声区間とし、その音声区間の特
徴情報を抽出してた前述したマツチング処理に供してい
る。

ここで上記閾値Ｔｈは、通常、音声区間ではない（無音
μｊ区間）における入力信号（ノイズ）のパワーを基に
、例えば酢パｊの人力を開始した直後の数フレームに亙
るノイズ・パワーの平均値を求め、この平均値を閾値Ｔ
　ｈとすることにより疋められる。或いは上記ノイズ・
パワーの平均値に予め設定されている微小値（定数）を
加算することにより、上記平均値より僅かに高いレベル
を閾値Ｔ　ｈとしてることにより設定される。

しかしこのような閾値Ｔ　ｈの設定の手法にあっては、
ノイズ全体のレベルが小さい場合には、定常的には各フ
レームでのノイズ・パワーかさほど変化することがない
ので問題を生じることはないが、ノイズ全体が大きい場
合、各フレームでのノイズ・パワーが大幅に変化するこ
とが希ではない。

この為、上述した如く計算されるノイズ・パワーの平均
値が、そのときの状態に応じて大幅に変化する虞れがあ
る。この結果、実際に音声区間検出するときのノイズ・
パワーとは異なった状態で設定された閾値にて音声区間
検出が行なわれ、音声区間検出の粘度か大幅に劣化する
ことがあった。

（発明が解決しようとする課題）このように従来ては、音声区間検出の為の閾値を音声入
力開始直後の数フレームに亙るノイズパワーの平均値と
して、或いはその平均値に微小な定数を加算して設定し
ているたけなので、ノイズ全体か大きく、各フレーム毎
のノイズパワーが大幅に変動するような場合には、上述
した如き設定される閾値では音声区間を高精度に切出す
ことができないと云う問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、ノイズの大きさに拘りなく、そ
のノイズの大きさに応じた適切な閾値を設定して入力音
声の音声区間を高精度に検出することを可能とする実用
性の高い音声区間検出回路を提供することにある。

［発明の構成］（課題を解決するための手段）本発明は入力音声の特徴に従って前記入力音声の音声区
間検出に用いる閾値を算出し、この閾値に従って前記入
力音声の音声区間を検出する音声区間検出匠路において
、音用の入力開始直後における入力信号の短時間パワーの
平均値を求めると共に、予め設定された複数の定数の中
から上記短時間パワーの平均値に応した定数を選定し、
この選定された定数と前記短時間パワーの平均値との和
を求めて前記音声区間検出に用いる閾値とすることを特
徴とするものである。

つまりノイズの大きさを幾つかのレベルに分類し、その
レベルに応じた定数を選定してノイズ・パワーの平均値
に加算して音声区間検出の為の閾値を設定することを特
徴とするものである。

（作用）本発明によれば、ノイズ・パワーの平均値にノイズの大
きさに応した定数を加算して閾値か設定されるので、ノ
イズ全体か大きく、各フレームでのノイズの大きさか大
幅に変動する場合には、そのノイズの変動を見込む大き
な定数を選定して閾値を設定し、またノイズ全体か小さ
く、各フレームでのノイズの大きさがほぼ安定している
ような場合には小さな定数を選定して閾値を設定するこ
とが可能となるので、ノイズの大きさに応じた適切な閾
値を設定して入力音声の音声区間検出を高精度に杓なう
ことか可能となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明の一実施例に係る音声区間検出回路にお
ける特徴的な部分である閾値計算部の回路構成を示すも
のである。この実施例回路は第２図に示した従来回路と
、基本的には同し構成を有するものであるか、特徴抽出
部Ｙで求められた入力音声の特徴情報に基ついて音声区
間検出に用いられる閾値Ｔ　ｈを計算する閾値計算部２
を第１図に示すように構成している点を従来回路と異に
している。

さてこの閾値５−計算部２は、第１図に示すようにスイ
ッチ１１．．１２を介して音声入力開始直後の数フレー
ムに亙ってその入力信号（特徴抽出部１で求められた特
徴情報、信号パワー）を取込んで動作する如く構成され
る。この音声入力開始直後の数フレーム以降は、前記ス
イッチ１１．１２の切替によって入力信号（特徴抽出部
１で求められた特徴情報）は閾値計算部２をバスして音
声区間検出部３に直接与えられる。

しかしてスイッチ１１を介して取込まれる入カイ＝号は
加算器１３を介してレジスタ１４に格納されている信号
と加算され、該レジスタ１４に再格納される。

この加算器〕３とレジスタ１４は特徴抽出部のフレーム
に同期して動作し、レジスタ１４に格納された信号の加
算器１３へのフィードバックにより、数フレームに亙る
入力信号（音声入力開始直後のノイズパワー）を累積加
算する。この累積加算によってレジスタ１４に求められ
るノイズパワーの数フレームに亙る累積加算値か除算器
１５にｌ′５えられ、そのフレーム数にて除算される。

この結果、除算器１５かう上記ノイズパワーの数フレー
ムに亙る平均値Ｐが求められる。

一方、境界値格納メモリ１Ｇにはノイズパワーの平均値
Ｐかとの程度のレベルであるかを識別する為の複数の境
界値ｔ　１．　ｔ　２．〜ｔｋが設定されている。比較
器１７はこの境界値格納メモリ１６からセレクタ１８を
介して上記境界値ｔｌ、ｔ２．〜ｔｋを選択的に読出し
、前記ノイズパワーの平均値Ｐと比較している。そして
その比較結果に応じて上記セレクタ１８を制御し、境界
値格納メモリ１６から読出す境界値ｔ１．．ｔ２．〜ｔ
ｋを選択制御し、ノイズパワーの・［Ｌ均値Ｐのレベル
に応じた境界値１１を求めている。

この境界値ｔｉを求める為の制御信号は以下に説明する
セレクタ１９およびレジスタ２０に同時に与えられる。

セレクタ１９は定数格納メモリ２１に設定されている複
数の定数α１．α２．〜αに＋１を選択的に求め、これ
を加算器２２に与えて前記ノイズパワーの平均値Ｐに加
算するものである。このノイズパワーの平均値Ｐに前記
定数格納メモリ２１から選択的に読出された定数αｌを
加算した値かレジスタ２０に格納され、音声区間検出用
の閾値Ｔ　ｈとして次段の音７！１区間検出部３に与え
られる。

ここで上記定数格納メモリ２１に格納される複数の定数
α１．α２．〜αに→１は、前記境界値格納メモリ１６
に格納された複数の境界値ｔｉ、ｔ２．〜ｔｋに対応す
るものである。換言すれば上記境界値ｔｌ。

ｔ２．〜ｔｋはノイズパワーの平均値Ｐのレベルを（ｋ
＋１）個の範囲に区分し、そのレベル範囲毎に設定され
た（ｋ＋１）個の定数α１．α２．〜αに＋１を選択す
る為の境界として設定されている。

このように境界値ｔ　１．　ｔ　２．〜ｔｋに対応しし
て設定されている定数α１．α２．〜αに＋１か前記セ
レクタ１８に連動動作するセレクタ１９により、ノイズ
パワーの平均値Ｐに応じて選択的に求められる。

そして前記加算器２２にてノイズパワーの平均値Ｐに加
算され、閾値Ｔ　ｈとして設定されることになる。

尚、セレクタ１．８．１９の制御については、例えば先
ず最小の境界値ｔ１とノイズパワーの平均値Ｐとの比較
を行ない、ノイズパワーの平均値Ｐが高い場合には次の
境界値ｔ２との比較を行なう。それてもノイズパワーの
平均値Ｐが高い場合には更に次の境界値ｔ３との比較を
行なうようにし、これを繰返してノイズパワーの平均値
Ｐが境界値ｔ１より下回った時点でその選択動作を停止
制御する等して行なわれる。勿論、レベルの品い境界値
側から逆向きにその制御を行なうことも可能であり、中
心の境界値から比較処理を進めることも可能である。

かくしてこのように構成された本回路によれば、ノイズ
パワーのレベルに応じた定数を選定してそのときのノイ
ズパワーの平均値Ｐに加算し、音声区間検出の為の閾値
Ｔ　ｈを設定するので、ノイズパワーのレベルに応じた
適切な閾値Ｔ　ｈの下で音用区間検出を高オ［′１度に
行なうことか可能となる。

しかも上述したように定数の選定制御を非常に簡易に行
なうことかでき、処理負担の増大を招くこともない等の
効果か奏せられ、実用的利点か多大である。

尚、本発明は上述した実施例に限定されるものではない
。例えばノイズパワーの平均値のレベルを分解する境界
値の数や、各レベル範囲に対して設定する定数の値はそ
のシステム仕様等に応じて定めれば良いものである。ま
たノイズパワーを求める為のフレーム区間についてもそ
のときの音声　１２　一区間に掛からない範囲で定めれば良いものである。

その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。

［発明の効果］以上説明したように本発明によれば、非常に簡易にして
ノイズレベルに応じた適切な閾値を設定し、音声区間検
出を高精度に行ない得る舌の実用上多大なる効果が奏せ
られる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声区間検出回路にお
ける閾値計算部の回路構成図、第２図は音声認識システ
ムの基本的な構成例を示す図である。１・・・特徴抽出部、２・・閾値計算部、訃・・音声区
間検出部、１３．２２・・加算器、１４．２０・・・レ
ジスタ、１５・・・除算器、１６・・・境界値格納メモ
リ、１７・・・比較器、１８、１．９・セレクタ、２１
・・定数格納メモリ。出願人代理人　弁理士　鈴江武彦

Claims

【特許請求の範囲】入力音声の特徴を抽出する特徴抽出部と、この特徴抽出
部で求められた入力音声の特徴情報に従って前記入力音
声の音声区間検出に用いる閾値を算出する閾値計算部と
、この閾値計算部で求められた閾値に従って前記入力音
声の音声区間を検出する音声区間検出部とを備えた音声
区間検出回路において、前記閾値計算部は、音声の入力開始直後における入力信
号の短時間パワーの平均値を求める手段と、予め設定さ
れた複数の定数の中から上記短時間パワーの平均値に応
じた定数を選定する手段と、この選定された定数と前記
短時間パワーの平均値との和を閾値として求める手段と
を具備したことを特徴とする音声区間検出回路。