JPS63291096A

JPS63291096A - 音声区間検出方式

Info

Publication number: JPS63291096A
Application number: JP62126342A
Authority: JP
Inventors: 岡村　裕彦; 達哉坂本
Original assignee: NEC Corp; NEC AccessTechnica Ltd
Current assignee: NEC Platforms Ltd; NEC Corp
Priority date: 1987-05-23
Filing date: 1987-05-23
Publication date: 1988-11-28
Anticipated expiration: 2010-12-06
Also published as: JPH07113834B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声認識装置に関し、特に、音声区間を検出
する音声区間検出方式に関する。

従来の技術従来、パワー音声区間検出方式は入力音声から算出され
たパワーと閾値を用いて行われていた。

従来の技術しとては、共布出版社から刊行されている新
美康永著「音声認識」のＰ　６８　、　Ｐ　７＋１に記
載されている。以下従来技術について第３図を使用して
説明する。

入力音声のパーツのＩＩフレーム分の積分値が閾値ＴＳ
２よりも大きくなったときに音声が検出されたと判断し
、その積分フレーム内のパワーが閾値ＴＳＩよりも大と
なるフレームを始端フレーム［Ｓとする。

−・方、終端検出はパワーが閾値ＴＥよりも小なる区間
がｍフレーム続いたときにパワーが赦初にＴ　Ｅよりも
小さくなったフレームを終端フレームｔｅとする。始端
フレームｔｓと終端フレーム［ｅ区間を音声を区間、フ
レームＬｓとｔｐを検出することを音声区間検出と呼ぶ
。

なお、本音声検出方式は一般に広く知られている。

発明が解決しようとする問題点上述した従来のパワー音声区間検出方式は人力音声のパ
ワー情報のみを用いて音声区間を検出しているために、
語頭にパワーが低い子音があるときには語頭の子音を落
として音声区間を検出して１、ようという欠点がある。

語頭の子音を落とさずに音声区間を検出すめためには、
閾値を小さくすれば良いが、閾値を小さくすると発声の
前後の呼気行も含めて音声区間とずろという欠点がある
。

本発明は従来の上記実情に鑑みてなされたものであり、
従って本発明の目的は、従来の技術に内在する上記諸欠
点を解消することを可能とした新規な音声区間検出方式
を提供することにある。

問題点を解決するための手段上記目的を達成する為に、本発明に係る音声区間検出方
式は、上述した従来のパワー音声検出方式に加えて、入
力音声の特徴ベクトルの時系列からフレーム間のベクト
ル間距離を演ｐするフレーム間距離演算部と、フレーム
パルスによって人力音声のフレーム数を計数するフレー
ムカウンタと前記フレーム間距離演算部の演算結果をフ
レーム陣に記憶する記憶部と、後記ピーク検出検索範囲
設定部により指定された範囲のフレーム内で前記記憶部
に記憶されているフレーム間距離値を検索し危初にピー
クとなる点を検出するピーク検出部と、前記パワー音声
区間検出部により出力された結果から前記ピーク検出部
でフレーム間距離値の最大値を求めるときの検索範囲を
指定するピーク検出検索範囲設定部とを備えて構成され
る。

実施例次に、本発明をその好まＬ７い−・実施例についてＮ面
を参照して具体的に説明する、第１図は本発明の一実施例を示すブロック構成国である
。

第１図を参照するに、参照番号ｌは従来の音声３一区間検出方式である入力音声のパワーとｒａｌｔｏを用
いて音声区間を検出するパワー音声区間検出部、２は外
部から与えられる入力音声の特徴ベタ１−ルの時系列か
らフレーム間のベクトル間距離を演算するフレーム間距
離演算部、３は外部から与、えられるフレームパルスに
よって入力音声のフレーム数をカラン・ｌ−するフレー
ムカラン′り、・１は・フレーム間距離演算部２の演算
結果をフｌ／−ムごとに記憶しておくための記憶部、５
は後記のピーク検出検索範囲設定部６で指定された範囲
のフレーム内で記憶部４に記憶されているフレーム間距
離値を検索し岐初にピークとなる点を検出するピーク検
出部、６はパワー音声区間検出部１で出力された結果か
らピーク検出部５でフレーム間距離値の最大値を求める
ときの検索範囲を指定するためのピーク検出検索範囲設
定部をそれぞれ示す４次に本発明の動作について説明す
る２外部から与えられた入力音声のパワ一時系列ＰＩ　＋　
［）２　、・・・Ｐ＋・・・とあらかじめ設定された閾
値Ｔｓ＋＋　’「８２．Ｔ、、、ｍ、ｎを用いて音声区
間を検出し、ピーク検出検索範囲設定部６に始端フレー
ムｔｓとなる仮始端フレーノ、ｉｓと終端フレーム１Ｃ
となる仮終端フレーノ＼ｉｅとを出力する。音声区間検
出部１は一般に広く知られているパワーと閾値を用いる
方式であり、その−例は前記従来の技術の柵で述べた通
りである６フレーム間距離演算部２は外部から与えられる入力音声
の特徴ベクトルの時系列ａ＋＋ａ２＋ａ３・・・ａ＋・
・・からフレーム間距離を次式（１）によって演算する
。

ｄ　ｉ　＝　ｌａ＋　−−ａ＋　＋　　１またはｄ　ｊ
　＝　（ａ　１１１＋　　）”　　−−−（１１ｄｉは
ｉフレームでのフレーム間距離値である。

なお、上記演算はフレーム内で演算が終了する必要があ
る。フレーム間距離演算部２の演算結果は記憶部４のフ
レームカウンタ３でアドレッシングされたｉフレームの
場所に記憶される。

フレームカウンタ３は、外部から供給されるフレームパ
ルスによってカウントアツプし、パワー音声区間検出部
１の仮始端フレームｉｓと仮終端）レームｉｅを決定す
るとき及び記憶部４にフレーム間距離値を格納するとき
のアドレッシングに使用される。

ピーク検出検索範囲設定部６はパワー音声区間検出部１
から与えられる仮々ｈ端フレームｉｓと仮終端フレーム
ｉｅより次式１２＋を用いてフレーム間距離値のピーク
を検索する範囲を決定する。

１ｓｓｌｉＩ端側の検索開始フレームを示し、ｉｓｃは
始ｔｆｔＡＩＩＩＩＩの検索終了フレームを示す。ｉｅ
ｓは終端側の検索開始フレームを示し、ｉｃｅは終端側
の検索終了フレームを示す。ｐ、、ｐ２．ｐ、はパラメ
ータとして外部から与えられる。

ピーク検出部５はピーク検出検索範囲設定部６から与え
られた始端側の検索開始フレームｉｓｓと始端側の検索
終了フレームｉｓｃを使って記憶部４に記憶されている
フレーム間距離値を１ｓｓ７フレーノ＼から逆時間方向
にｉｓｃフし・−ムまでを検索して最初にピークとなる
点を求める。このときの記憶部４のアドレ・ソシングは
ピーク検出部５によって行われる。そのときのフレーム
ｉｓｍを始端フレームとして外部に出力する。

次にピーク検出部５はピーク検出検索範囲設定部６かｔ
）与えられる終端側の検索開始フレームｉｅｓと終端側
の検索終了フレームｔｅｅを使って記憶部４に記憶され
ているフレーム間距離値をｉｅｓフレームから時間方向
にｉｃｅフレームまでを検索して最初にピークとなる点
を求める。このときの記憶部４のアドレッシングもピー
ク検出部５によって行われる。そのときのフレームｉｅ
ｓを終端フレームとして外部に出力する。

以上の説明は説明の都合上パワー音声区間検出部で終端
フレームｉｅを検出してから実際の始端フレームｉｓｍ
と終端フレームｉｅｍを求めるようにしたが、実際には
フレームに同期して行う方が望ま１−いが、フレームに
同期して行う方式は容易に類推できるので説明を省略す
る。

また、広く知られているマイクロプロセッサを用いるこ
とによりソフトウェアまたはファームウェアでも容易に
実現できる。

フレーム間距離値はフレーム間の相違度を表しフレーム
間の特徴が著しく異なる程フレーム間距離値は大きな値
となる。

、：こで、入力音声の始端部に着目すると、第２図に示
すように、雑音領域から音声領域に移行するのでフレー
ム間距離ｄｉは始端フレームでピークになる。一方、入
力音声の終端部に着目すると、第２図に示すように、音
声領域から雑音領域に移行するのでフレーム間距離ｄｉ
は終端フレームでピークとなる。

発明の詳細な説明したように、本発明によれば、従来の人力音声の
パワーと閾値を用いた音声区間検出に実験的に確認した
フレーム間距離値を用いた音声区間検出を加えることに
より、語頭にパワーの低い子音がある単語でもパワー音
声区間検出用の閾値を小さくすることなく正確に音声区
間検出が可能となり、認識率を向上できる効果が得られ
る。

【図面の簡単な説明】

第１図は本発明の−・実施例を示すブロック構成図、第
２図は本発明に係る音声区間検出の例、第３図は従来の
音声区間検出方式を説明する為の図である。１・・・パワー音声区間検出部、２・・・フレーム間距
離演算部、３・・・フレームカウンタ、４・・・フレー
ム間距離記憶部、５・・・ピーク検出部、６・・・ピー
ク検出検索範囲設定部

Claims

【特許請求の範囲】

従来の音声区間検出方式である入力音声のパワーと閾値
を用いて音声区間を検出するパワー音声区間検出部と、
入力音声の特徴ベクトルの時系列からフレーム間のベク
トル間距離を演算するフレーム間距離演算部と、フレー
ムパルスによって入力音声のフレーム数を計数するフレ
ームカウンタと前記フレーム間距離演算部の演算結果を
フレーム毎に記憶する記憶部と、後記ピーク検出検索範
囲設定部により指定された範囲のフレーム内で前記記憶
部に記憶されているフレーム間距離値を検索し最初にピ
ークとなる点を検出するピーク検出部と、前記パワー音
声区間検出部により出力された結果から前記ピーク検出
部でフレーム間距離値の最大値を求めるときの検索範囲
を指定するピーク検出検索範囲設定部とを備えたことを
特徴とする音声区間検出方式。