JPH01244497A - 音声区間検出回路 - Google Patents

音声区間検出回路

Info

Publication number
JPH01244497A
JPH01244497A JP63069791A JP6979188A JPH01244497A JP H01244497 A JPH01244497 A JP H01244497A JP 63069791 A JP63069791 A JP 63069791A JP 6979188 A JP6979188 A JP 6979188A JP H01244497 A JPH01244497 A JP H01244497A
Authority
JP
Japan
Prior art keywords
section
threshold
speech
noise power
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63069791A
Other languages
English (en)
Inventor
Nobuo Sugi
杉 伸夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63069791A priority Critical patent/JPH01244497A/ja
Publication of JPH01244497A publication Critical patent/JPH01244497A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「発明の1」的] (産業上の利用分野) 本発明は音声区間検出の為に用いられる閾値を最適設定
して筒精度な音声区間検出を可能とする音声区間検出回
路に関する。
(従来の技術) 近時、マンマシン・インタフェースを実現する1つの手
段として音声認識システムが注目されている。この音声
認識システムは、基本的には第2図に示すように特徴抽
出部1にて入力音声を音響分析してその特徴を抽出する
。そして閾値計算部2にて上記特徴抽出部1で求められ
た特徴の一部を用いて音声区間検出の為の閾値を計算し
、更に音用区間検出部3にて上記閾値を用いて入力音%
i倍信号パワーを弁別する等してその音声区間検出がな
される。
その後、検出された音声区間における前記特徴抽出部1
て求められた入力音声の種々の特徴をマソチンク部4に
て、予め標準パターンメモリ5に登録されている認識対
象音声の特徴と照合し、その照合結果を認識部6にて総
合判定することで前記入力音声の認識が行なわれる。
尚、マツチング処理は、入力音声の特徴パラメータ系列
と認識対象音声の予め求められている特徴パラメータ系
列との類似度を複合類似度法を用いてそれぞれ計算する
等して行なわれる。そして認識部6において、人力音声
の特徴パラメータ系列に対して最も類似度の高い特徴パ
ラメータ系列の認識対象音声のカテゴリを求め、このカ
テゴリ名を認識結果とすることにより、音声認識処理が
行なわれる。
しかしてこのような音声認識の処理過程において、前述
した音声区間の検出はマツチング処理に用いられる特徴
パラメータ系列自体を左右する重要な役割を担っている
。仮に誤った音声区間検出がなされると、その特徴パラ
メータ系列か異な−)たものとなるから、誤認識の原因
となる。この為、従来より高精度な音声区間検出を実現
するべく種々の工夫が試みられている。
さて−膜面な音由認識ンステムては、音均)入力信号に
対して5〜20m5ec程度の短時間単位(フレーム)
毎にその特徴抽出を行なっている。音声区間検出は、通
常、その特徴の1つである音声パワーを成る閾値と比較
して行なわれる。
しかして−膜面には、各フレームにおける音声パワーが
成る一定時間以上に亙って」1記閾値T hを」−回っ
たとき、音声パワーが最初に」1記閾値Thを上回った
時点を音声区間の始点Sとして検出している。その後、
音声パワーか成る一定時間以上に亙って閾値T hを下
回ったとき、音声パワーが最初に閾値T hを下回った
時点を音声区間の終点Eとして検出する。そしてこの始
点Sと終点Eの区間を音声区間とし、その音声区間の特
徴情報を抽出してた前述したマツチング処理に供してい
る。
ここで上記閾値Thは、通常、音声区間ではない(無音
μj区間)における入力信号(ノイズ)のパワーを基に
、例えば酢パjの人力を開始した直後の数フレームに亙
るノイズ・パワーの平均値を求め、この平均値を閾値T
 hとすることにより疋められる。或いは上記ノイズ・
パワーの平均値に予め設定されている微小値(定数)を
加算することにより、上記平均値より僅かに高いレベル
を閾値T hとしてることにより設定される。
しかしこのような閾値T hの設定の手法にあっては、
ノイズ全体のレベルが小さい場合には、定常的には各フ
レームでのノイズ・パワーかさほど変化することがない
ので問題を生じることはないが、ノイズ全体が大きい場
合、各フレームでのノイズ・パワーが大幅に変化するこ
とが希ではない。
この為、上述した如く計算されるノイズ・パワーの平均
値が、そのときの状態に応じて大幅に変化する虞れがあ
る。この結果、実際に音声区間検出するときのノイズ・
パワーとは異なった状態で設定された閾値にて音声区間
検出が行なわれ、音声区間検出の粘度か大幅に劣化する
ことがあった。
(発明が解決しようとする課題) このように従来ては、音声区間検出の為の閾値を音声入
力開始直後の数フレームに亙るノイズパワーの平均値と
して、或いはその平均値に微小な定数を加算して設定し
ているたけなので、ノイズ全体か大きく、各フレーム毎
のノイズパワーが大幅に変動するような場合には、上述
した如き設定される閾値では音声区間を高精度に切出す
ことができないと云う問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、ノイズの大きさに拘りなく、そ
のノイズの大きさに応じた適切な閾値を設定して入力音
声の音声区間を高精度に検出することを可能とする実用
性の高い音声区間検出回路を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明は入力音声の特徴に従って前記入力音声の音声区
間検出に用いる閾値を算出し、この閾値に従って前記入
力音声の音声区間を検出する音声区間検出匠路において
、 音用の入力開始直後における入力信号の短時間パワーの
平均値を求めると共に、予め設定された複数の定数の中
から上記短時間パワーの平均値に応した定数を選定し、
この選定された定数と前記短時間パワーの平均値との和
を求めて前記音声区間検出に用いる閾値とすることを特
徴とするものである。
つまりノイズの大きさを幾つかのレベルに分類し、その
レベルに応じた定数を選定してノイズ・パワーの平均値
に加算して音声区間検出の為の閾値を設定することを特
徴とするものである。
(作用) 本発明によれば、ノイズ・パワーの平均値にノイズの大
きさに応した定数を加算して閾値か設定されるので、ノ
イズ全体か大きく、各フレームでのノイズの大きさか大
幅に変動する場合には、そのノイズの変動を見込む大き
な定数を選定して閾値を設定し、またノイズ全体か小さ
く、各フレームでのノイズの大きさがほぼ安定している
ような場合には小さな定数を選定して閾値を設定するこ
とが可能となるので、ノイズの大きさに応じた適切な閾
値を設定して入力音声の音声区間検出を高精度に杓なう
ことか可能となる。
(実施例) 以下、図面を参照して本発明の一実施例につき説明する
第1図は本発明の一実施例に係る音声区間検出回路にお
ける特徴的な部分である閾値計算部の回路構成を示すも
のである。この実施例回路は第2図に示した従来回路と
、基本的には同し構成を有するものであるか、特徴抽出
部Yで求められた入力音声の特徴情報に基ついて音声区
間検出に用いられる閾値T hを計算する閾値計算部2
を第1図に示すように構成している点を従来回路と異に
している。
さてこの閾値5−計算部2は、第1図に示すようにスイ
ッチ11..12を介して音声入力開始直後の数フレー
ムに亙ってその入力信号(特徴抽出部1で求められた特
徴情報、信号パワー)を取込んで動作する如く構成され
る。この音声入力開始直後の数フレーム以降は、前記ス
イッチ11.12の切替によって入力信号(特徴抽出部
1で求められた特徴情報)は閾値計算部2をバスして音
声区間検出部3に直接与えられる。
しかしてスイッチ11を介して取込まれる入カイ=号は
加算器13を介してレジスタ14に格納されている信号
と加算され、該レジスタ14に再格納される。
この加算器〕3とレジスタ14は特徴抽出部のフレーム
に同期して動作し、レジスタ14に格納された信号の加
算器13へのフィードバックにより、数フレームに亙る
入力信号(音声入力開始直後のノイズパワー)を累積加
算する。この累積加算によってレジスタ14に求められ
るノイズパワーの数フレームに亙る累積加算値か除算器
15にl′5えられ、そのフレーム数にて除算される。
この結果、除算器15かう上記ノイズパワーの数フレー
ムに亙る平均値Pが求められる。
一方、境界値格納メモリ1Gにはノイズパワーの平均値
Pかとの程度のレベルであるかを識別する為の複数の境
界値t 1. t 2.〜tkが設定されている。比較
器17はこの境界値格納メモリ16からセレクタ18を
介して上記境界値tl、t2.〜tkを選択的に読出し
、前記ノイズパワーの平均値Pと比較している。そして
その比較結果に応じて上記セレクタ18を制御し、境界
値格納メモリ16から読出す境界値t1..t2.〜t
kを選択制御し、ノイズパワーの・[L均値Pのレベル
に応じた境界値11を求めている。
この境界値tiを求める為の制御信号は以下に説明する
セレクタ19およびレジスタ20に同時に与えられる。
セレクタ19は定数格納メモリ21に設定されている複
数の定数α1.α2.〜αに+1を選択的に求め、これ
を加算器22に与えて前記ノイズパワーの平均値Pに加
算するものである。このノイズパワーの平均値Pに前記
定数格納メモリ21から選択的に読出された定数αlを
加算した値かレジスタ20に格納され、音声区間検出用
の閾値T hとして次段の音7!1区間検出部3に与え
られる。
ここで上記定数格納メモリ21に格納される複数の定数
α1.α2.〜αに→1は、前記境界値格納メモリ16
に格納された複数の境界値ti、t2.〜tkに対応す
るものである。換言すれば上記境界値tl。
t2.〜tkはノイズパワーの平均値Pのレベルを(k
+1)個の範囲に区分し、そのレベル範囲毎に設定され
た(k+1)個の定数α1.α2.〜αに+1を選択す
る為の境界として設定されている。
このように境界値t 1. t 2.〜tkに対応しし
て設定されている定数α1.α2.〜αに+1か前記セ
レクタ18に連動動作するセレクタ19により、ノイズ
パワーの平均値Pに応じて選択的に求められる。
そして前記加算器22にてノイズパワーの平均値Pに加
算され、閾値T hとして設定されることになる。
尚、セレクタ1.8.19の制御については、例えば先
ず最小の境界値t1とノイズパワーの平均値Pとの比較
を行ない、ノイズパワーの平均値Pが高い場合には次の
境界値t2との比較を行なう。それてもノイズパワーの
平均値Pが高い場合には更に次の境界値t3との比較を
行なうようにし、これを繰返してノイズパワーの平均値
Pが境界値t1より下回った時点でその選択動作を停止
制御する等して行なわれる。勿論、レベルの品い境界値
側から逆向きにその制御を行なうことも可能であり、中
心の境界値から比較処理を進めることも可能である。
かくしてこのように構成された本回路によれば、ノイズ
パワーのレベルに応じた定数を選定してそのときのノイ
ズパワーの平均値Pに加算し、音声区間検出の為の閾値
T hを設定するので、ノイズパワーのレベルに応じた
適切な閾値T hの下で音用区間検出を高オ[′1度に
行なうことか可能となる。
しかも上述したように定数の選定制御を非常に簡易に行
なうことかでき、処理負担の増大を招くこともない等の
効果か奏せられ、実用的利点か多大である。
尚、本発明は上述した実施例に限定されるものではない
。例えばノイズパワーの平均値のレベルを分解する境界
値の数や、各レベル範囲に対して設定する定数の値はそ
のシステム仕様等に応じて定めれば良いものである。ま
たノイズパワーを求める為のフレーム区間についてもそ
のときの音声 12 一 区間に掛からない範囲で定めれば良いものである。
その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
[発明の効果] 以上説明したように本発明によれば、非常に簡易にして
ノイズレベルに応じた適切な閾値を設定し、音声区間検
出を高精度に行ない得る舌の実用上多大なる効果が奏せ
られる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声区間検出回路にお
ける閾値計算部の回路構成図、第2図は音声認識システ
ムの基本的な構成例を示す図である。 1・・・特徴抽出部、2・・閾値計算部、訃・・音声区
間検出部、13.22・・加算器、14.20・・・レ
ジスタ、15・・・除算器、16・・・境界値格納メモ
リ、17・・・比較器、18、1.9・セレクタ、21
・・定数格納メモリ。 出願人代理人 弁理士 鈴江武彦

Claims (1)

  1. 【特許請求の範囲】 入力音声の特徴を抽出する特徴抽出部と、この特徴抽出
    部で求められた入力音声の特徴情報に従って前記入力音
    声の音声区間検出に用いる閾値を算出する閾値計算部と
    、この閾値計算部で求められた閾値に従って前記入力音
    声の音声区間を検出する音声区間検出部とを備えた音声
    区間検出回路において、 前記閾値計算部は、音声の入力開始直後における入力信
    号の短時間パワーの平均値を求める手段と、予め設定さ
    れた複数の定数の中から上記短時間パワーの平均値に応
    じた定数を選定する手段と、この選定された定数と前記
    短時間パワーの平均値との和を閾値として求める手段と
    を具備したことを特徴とする音声区間検出回路。
JP63069791A 1988-03-25 1988-03-25 音声区間検出回路 Pending JPH01244497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63069791A JPH01244497A (ja) 1988-03-25 1988-03-25 音声区間検出回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63069791A JPH01244497A (ja) 1988-03-25 1988-03-25 音声区間検出回路

Publications (1)

Publication Number Publication Date
JPH01244497A true JPH01244497A (ja) 1989-09-28

Family

ID=13412926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63069791A Pending JPH01244497A (ja) 1988-03-25 1988-03-25 音声区間検出回路

Country Status (1)

Country Link
JP (1) JPH01244497A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317711B1 (en) 1999-02-25 2001-11-13 Ricoh Company, Ltd. Speech segment detection and word recognition
WO2011042502A1 (en) 2009-10-08 2011-04-14 Telefonica, S.A. Method for the detection of speech segments

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317711B1 (en) 1999-02-25 2001-11-13 Ricoh Company, Ltd. Speech segment detection and word recognition
WO2011042502A1 (en) 2009-10-08 2011-04-14 Telefonica, S.A. Method for the detection of speech segments

Similar Documents

Publication Publication Date Title
US20190057687A1 (en) Device for recognizing speeches and method for speech recognition
EP0614169B1 (en) Voice signal processing device
US20020042709A1 (en) Method and device for analyzing a spoken sequence of numbers
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
JPH05119792A (ja) 音声認識装置
JPH01244497A (ja) 音声区間検出回路
Taboada et al. Explicit estimation of speech boundaries
EP4024705B1 (en) Speech sound response device and speech sound response method
EP1193686B1 (en) Method and device for analyzing a spoken sequence of numbers
JP2648014B2 (ja) 音声切り出し装置
JPH03233600A (ja) 音声切り出し方法及び音声認識装置
JPH0651792A (ja) 音声認識装置
JPH09127982A (ja) 音声認識装置
JP2547541B2 (ja) 単音節音声認識装置
JPS6194093A (ja) 音声認識装置
JPS58159599A (ja) 単音節音声認識方式
HK1010008B (en) Voice signal processing device
JPH01209499A (ja) パターン照合方式
JPS61246800A (ja) 音声応答スイツチ
JPS58159598A (ja) 単音節音声認識方式
JPS6334479B2 (ja)
JPH0443277B2 (ja)
JPH03237500A (ja) 音声検出装置
HK1010007B (en) Signal control device
JPS6048100A (ja) 音声認識装置