JPS63291096A - 音声区間検出方式 - Google Patents
音声区間検出方式Info
- Publication number
- JPS63291096A JPS63291096A JP62126342A JP12634287A JPS63291096A JP S63291096 A JPS63291096 A JP S63291096A JP 62126342 A JP62126342 A JP 62126342A JP 12634287 A JP12634287 A JP 12634287A JP S63291096 A JPS63291096 A JP S63291096A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- section
- power
- inter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音声認識装置に関し、特に、音声区間を検出
する音声区間検出方式に関する。
する音声区間検出方式に関する。
従来の技術
従来、パワー音声区間検出方式は入力音声から算出され
たパワーと閾値を用いて行われていた。
たパワーと閾値を用いて行われていた。
従来の技術しとては、共布出版社から刊行されている新
美康永著「音声認識」のP 68 、 P 7+1に記
載されている。以下従来技術について第3図を使用して
説明する。
美康永著「音声認識」のP 68 、 P 7+1に記
載されている。以下従来技術について第3図を使用して
説明する。
入力音声のパーツのIIフレーム分の積分値が閾値TS
2よりも大きくなったときに音声が検出されたと判断し
、その積分フレーム内のパワーが閾値TSIよりも大と
なるフレームを始端フレーム[Sとする。
2よりも大きくなったときに音声が検出されたと判断し
、その積分フレーム内のパワーが閾値TSIよりも大と
なるフレームを始端フレーム[Sとする。
−・方、終端検出はパワーが閾値TEよりも小なる区間
がmフレーム続いたときにパワーが赦初にT Eよりも
小さくなったフレームを終端フレームteとする。始端
フレームtsと終端フレーム[e区間を音声を区間、フ
レームLsとtpを検出することを音声区間検出と呼ぶ
。
がmフレーム続いたときにパワーが赦初にT Eよりも
小さくなったフレームを終端フレームteとする。始端
フレームtsと終端フレーム[e区間を音声を区間、フ
レームLsとtpを検出することを音声区間検出と呼ぶ
。
なお、本音声検出方式は一般に広く知られている。
発明が解決しようとする問題点
上述した従来のパワー音声区間検出方式は人力音声のパ
ワー情報のみを用いて音声区間を検出しているために、
語頭にパワーが低い子音があるときには語頭の子音を落
として音声区間を検出して1、ようという欠点がある。
ワー情報のみを用いて音声区間を検出しているために、
語頭にパワーが低い子音があるときには語頭の子音を落
として音声区間を検出して1、ようという欠点がある。
語頭の子音を落とさずに音声区間を検出すめためには、
閾値を小さくすれば良いが、閾値を小さくすると発声の
前後の呼気行も含めて音声区間とずろという欠点がある
。
閾値を小さくすれば良いが、閾値を小さくすると発声の
前後の呼気行も含めて音声区間とずろという欠点がある
。
本発明は従来の上記実情に鑑みてなされたものであり、
従って本発明の目的は、従来の技術に内在する上記諸欠
点を解消することを可能とした新規な音声区間検出方式
を提供することにある。
従って本発明の目的は、従来の技術に内在する上記諸欠
点を解消することを可能とした新規な音声区間検出方式
を提供することにある。
問題点を解決するための手段
上記目的を達成する為に、本発明に係る音声区間検出方
式は、上述した従来のパワー音声検出方式に加えて、入
力音声の特徴ベクトルの時系列からフレーム間のベクト
ル間距離を演pするフレーム間距離演算部と、フレーム
パルスによって人力音声のフレーム数を計数するフレー
ムカウンタと前記フレーム間距離演算部の演算結果をフ
レーム陣に記憶する記憶部と、後記ピーク検出検索範囲
設定部により指定された範囲のフレーム内で前記記憶部
に記憶されているフレーム間距離値を検索し危初にピー
クとなる点を検出するピーク検出部と、前記パワー音声
区間検出部により出力された結果から前記ピーク検出部
でフレーム間距離値の最大値を求めるときの検索範囲を
指定するピーク検出検索範囲設定部とを備えて構成され
る。
式は、上述した従来のパワー音声検出方式に加えて、入
力音声の特徴ベクトルの時系列からフレーム間のベクト
ル間距離を演pするフレーム間距離演算部と、フレーム
パルスによって人力音声のフレーム数を計数するフレー
ムカウンタと前記フレーム間距離演算部の演算結果をフ
レーム陣に記憶する記憶部と、後記ピーク検出検索範囲
設定部により指定された範囲のフレーム内で前記記憶部
に記憶されているフレーム間距離値を検索し危初にピー
クとなる点を検出するピーク検出部と、前記パワー音声
区間検出部により出力された結果から前記ピーク検出部
でフレーム間距離値の最大値を求めるときの検索範囲を
指定するピーク検出検索範囲設定部とを備えて構成され
る。
実施例
次に、本発明をその好まL7い−・実施例についてN面
を参照して具体的に説明する、 第1図は本発明の一実施例を示すブロック構成国である
。
を参照して具体的に説明する、 第1図は本発明の一実施例を示すブロック構成国である
。
第1図を参照するに、参照番号lは従来の音声3一
区間検出方式である入力音声のパワーとraltoを用
いて音声区間を検出するパワー音声区間検出部、2は外
部から与えられる入力音声の特徴ベタ1−ルの時系列か
らフレーム間のベクトル間距離を演算するフレーム間距
離演算部、3は外部から与、えられるフレームパルスに
よって入力音声のフレーム数をカラン・l−するフレー
ムカラン′り、・1は・フレーム間距離演算部2の演算
結果をフl/−ムごとに記憶しておくための記憶部、5
は後記のピーク検出検索範囲設定部6で指定された範囲
のフレーム内で記憶部4に記憶されているフレーム間距
離値を検索し岐初にピークとなる点を検出するピーク検
出部、6はパワー音声区間検出部1で出力された結果か
らピーク検出部5でフレーム間距離値の最大値を求める
ときの検索範囲を指定するためのピーク検出検索範囲設
定部をそれぞれ示す4次に本発明の動作について説明す
る2 外部から与えられた入力音声のパワ一時系列PI +
[)2 、・・・P+・・・とあらかじめ設定された閾
値Ts++ ’「82.T、、、m、nを用いて音声区
間を検出し、ピーク検出検索範囲設定部6に始端フレー
ムtsとなる仮始端フレーノ、isと終端フレーム1C
となる仮終端フレーノ\ieとを出力する。音声区間検
出部1は一般に広く知られているパワーと閾値を用いる
方式であり、その−例は前記従来の技術の柵で述べた通
りである6 フレーム間距離演算部2は外部から与えられる入力音声
の特徴ベクトルの時系列a++a2+a3・・・a+・
・・からフレーム間距離を次式(1)によって演算する
。
いて音声区間を検出するパワー音声区間検出部、2は外
部から与えられる入力音声の特徴ベタ1−ルの時系列か
らフレーム間のベクトル間距離を演算するフレーム間距
離演算部、3は外部から与、えられるフレームパルスに
よって入力音声のフレーム数をカラン・l−するフレー
ムカラン′り、・1は・フレーム間距離演算部2の演算
結果をフl/−ムごとに記憶しておくための記憶部、5
は後記のピーク検出検索範囲設定部6で指定された範囲
のフレーム内で記憶部4に記憶されているフレーム間距
離値を検索し岐初にピークとなる点を検出するピーク検
出部、6はパワー音声区間検出部1で出力された結果か
らピーク検出部5でフレーム間距離値の最大値を求める
ときの検索範囲を指定するためのピーク検出検索範囲設
定部をそれぞれ示す4次に本発明の動作について説明す
る2 外部から与えられた入力音声のパワ一時系列PI +
[)2 、・・・P+・・・とあらかじめ設定された閾
値Ts++ ’「82.T、、、m、nを用いて音声区
間を検出し、ピーク検出検索範囲設定部6に始端フレー
ムtsとなる仮始端フレーノ、isと終端フレーム1C
となる仮終端フレーノ\ieとを出力する。音声区間検
出部1は一般に広く知られているパワーと閾値を用いる
方式であり、その−例は前記従来の技術の柵で述べた通
りである6 フレーム間距離演算部2は外部から与えられる入力音声
の特徴ベクトルの時系列a++a2+a3・・・a+・
・・からフレーム間距離を次式(1)によって演算する
。
d i = la+ −−a+ + 1またはd j
= (a 111+ )” −−−(11diは
iフレームでのフレーム間距離値である。
= (a 111+ )” −−−(11diは
iフレームでのフレーム間距離値である。
なお、上記演算はフレーム内で演算が終了する必要があ
る。フレーム間距離演算部2の演算結果は記憶部4のフ
レームカウンタ3でアドレッシングされたiフレームの
場所に記憶される。
る。フレーム間距離演算部2の演算結果は記憶部4のフ
レームカウンタ3でアドレッシングされたiフレームの
場所に記憶される。
フレームカウンタ3は、外部から供給されるフレームパ
ルスによってカウントアツプし、パワー音声区間検出部
1の仮始端フレームisと仮終端)レームieを決定す
るとき及び記憶部4にフレーム間距離値を格納するとき
のアドレッシングに使用される。
ルスによってカウントアツプし、パワー音声区間検出部
1の仮始端フレームisと仮終端)レームieを決定す
るとき及び記憶部4にフレーム間距離値を格納するとき
のアドレッシングに使用される。
ピーク検出検索範囲設定部6はパワー音声区間検出部1
から与えられる仮々h端フレームisと仮終端フレーム
ieより次式12+を用いてフレーム間距離値のピーク
を検索する範囲を決定する。
から与えられる仮々h端フレームisと仮終端フレーム
ieより次式12+を用いてフレーム間距離値のピーク
を検索する範囲を決定する。
1ssliI端側の検索開始フレームを示し、iscは
始tftAIIIIIの検索終了フレームを示す。ie
sは終端側の検索開始フレームを示し、iceは終端側
の検索終了フレームを示す。p、、p2.p、はパラメ
ータとして外部から与えられる。
始tftAIIIIIの検索終了フレームを示す。ie
sは終端側の検索開始フレームを示し、iceは終端側
の検索終了フレームを示す。p、、p2.p、はパラメ
ータとして外部から与えられる。
ピーク検出部5はピーク検出検索範囲設定部6から与え
られた始端側の検索開始フレームissと始端側の検索
終了フレームiscを使って記憶部4に記憶されている
フレーム間距離値を1ss7フレーノ\から逆時間方向
にiscフし・−ムまでを検索して最初にピークとなる
点を求める。このときの記憶部4のアドレ・ソシングは
ピーク検出部5によって行われる。そのときのフレーム
ismを始端フレームとして外部に出力する。
られた始端側の検索開始フレームissと始端側の検索
終了フレームiscを使って記憶部4に記憶されている
フレーム間距離値を1ss7フレーノ\から逆時間方向
にiscフし・−ムまでを検索して最初にピークとなる
点を求める。このときの記憶部4のアドレ・ソシングは
ピーク検出部5によって行われる。そのときのフレーム
ismを始端フレームとして外部に出力する。
次にピーク検出部5はピーク検出検索範囲設定部6かt
)与えられる終端側の検索開始フレームiesと終端側
の検索終了フレームteeを使って記憶部4に記憶され
ているフレーム間距離値をiesフレームから時間方向
にiceフレームまでを検索して最初にピークとなる点
を求める。このときの記憶部4のアドレッシングもピー
ク検出部5によって行われる。そのときのフレームie
sを終端フレームとして外部に出力する。
)与えられる終端側の検索開始フレームiesと終端側
の検索終了フレームteeを使って記憶部4に記憶され
ているフレーム間距離値をiesフレームから時間方向
にiceフレームまでを検索して最初にピークとなる点
を求める。このときの記憶部4のアドレッシングもピー
ク検出部5によって行われる。そのときのフレームie
sを終端フレームとして外部に出力する。
以上の説明は説明の都合上パワー音声区間検出部で終端
フレームieを検出してから実際の始端フレームism
と終端フレームiemを求めるようにしたが、実際には
フレームに同期して行う方が望ま1−いが、フレームに
同期して行う方式は容易に類推できるので説明を省略す
る。
フレームieを検出してから実際の始端フレームism
と終端フレームiemを求めるようにしたが、実際には
フレームに同期して行う方が望ま1−いが、フレームに
同期して行う方式は容易に類推できるので説明を省略す
る。
また、広く知られているマイクロプロセッサを用いるこ
とによりソフトウェアまたはファームウェアでも容易に
実現できる。
とによりソフトウェアまたはファームウェアでも容易に
実現できる。
フレーム間距離値はフレーム間の相違度を表しフレーム
間の特徴が著しく異なる程フレーム間距離値は大きな値
となる。
間の特徴が著しく異なる程フレーム間距離値は大きな値
となる。
、:こで、入力音声の始端部に着目すると、第2図に示
すように、雑音領域から音声領域に移行するのでフレー
ム間距離diは始端フレームでピークになる。一方、入
力音声の終端部に着目すると、第2図に示すように、音
声領域から雑音領域に移行するのでフレーム間距離di
は終端フレームでピークとなる。
すように、雑音領域から音声領域に移行するのでフレー
ム間距離diは始端フレームでピークになる。一方、入
力音声の終端部に着目すると、第2図に示すように、音
声領域から雑音領域に移行するのでフレーム間距離di
は終端フレームでピークとなる。
発明の詳細
な説明したように、本発明によれば、従来の人力音声の
パワーと閾値を用いた音声区間検出に実験的に確認した
フレーム間距離値を用いた音声区間検出を加えることに
より、語頭にパワーの低い子音がある単語でもパワー音
声区間検出用の閾値を小さくすることなく正確に音声区
間検出が可能となり、認識率を向上できる効果が得られ
る。
パワーと閾値を用いた音声区間検出に実験的に確認した
フレーム間距離値を用いた音声区間検出を加えることに
より、語頭にパワーの低い子音がある単語でもパワー音
声区間検出用の閾値を小さくすることなく正確に音声区
間検出が可能となり、認識率を向上できる効果が得られ
る。
第1図は本発明の−・実施例を示すブロック構成図、第
2図は本発明に係る音声区間検出の例、第3図は従来の
音声区間検出方式を説明する為の図である。 1・・・パワー音声区間検出部、2・・・フレーム間距
離演算部、3・・・フレームカウンタ、4・・・フレー
ム間距離記憶部、5・・・ピーク検出部、6・・・ピー
ク検出検索範囲設定部
2図は本発明に係る音声区間検出の例、第3図は従来の
音声区間検出方式を説明する為の図である。 1・・・パワー音声区間検出部、2・・・フレーム間距
離演算部、3・・・フレームカウンタ、4・・・フレー
ム間距離記憶部、5・・・ピーク検出部、6・・・ピー
ク検出検索範囲設定部
Claims (1)
- 従来の音声区間検出方式である入力音声のパワーと閾値
を用いて音声区間を検出するパワー音声区間検出部と、
入力音声の特徴ベクトルの時系列からフレーム間のベク
トル間距離を演算するフレーム間距離演算部と、フレー
ムパルスによって入力音声のフレーム数を計数するフレ
ームカウンタと前記フレーム間距離演算部の演算結果を
フレーム毎に記憶する記憶部と、後記ピーク検出検索範
囲設定部により指定された範囲のフレーム内で前記記憶
部に記憶されているフレーム間距離値を検索し最初にピ
ークとなる点を検出するピーク検出部と、前記パワー音
声区間検出部により出力された結果から前記ピーク検出
部でフレーム間距離値の最大値を求めるときの検索範囲
を指定するピーク検出検索範囲設定部とを備えたことを
特徴とする音声区間検出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62126342A JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62126342A JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS63291096A true JPS63291096A (ja) | 1988-11-28 |
| JPH07113834B2 JPH07113834B2 (ja) | 1995-12-06 |
Family
ID=14932793
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62126342A Expired - Lifetime JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07113834B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8326612B2 (en) | 2007-12-18 | 2012-12-04 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
| JPS61233791A (ja) * | 1985-04-09 | 1986-10-18 | 株式会社リコー | 音声認識装置における音声区間検出方式 |
| JPS6256998A (ja) * | 1985-09-06 | 1987-03-12 | 株式会社リコー | 子音区間検出装置 |
-
1987
- 1987-05-23 JP JP62126342A patent/JPH07113834B2/ja not_active Expired - Lifetime
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
| JPS61233791A (ja) * | 1985-04-09 | 1986-10-18 | 株式会社リコー | 音声認識装置における音声区間検出方式 |
| JPS6256998A (ja) * | 1985-09-06 | 1987-03-12 | 株式会社リコー | 子音区間検出装置 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8326612B2 (en) | 2007-12-18 | 2012-12-04 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
| US8798991B2 (en) | 2007-12-18 | 2014-08-05 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07113834B2 (ja) | 1995-12-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2000250565A (ja) | 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体 | |
| JPH10254475A (ja) | 音声認識方法 | |
| JP3625002B2 (ja) | 音声認識装置 | |
| JPS63291096A (ja) | 音声区間検出方式 | |
| JP3422716B2 (ja) | 話速変換方法および装置および話速変換プログラムを格納した記録媒体 | |
| JPS60129796A (ja) | 音声入力装置 | |
| JP3357742B2 (ja) | 話速変換装置 | |
| JP2000099099A (ja) | データ再生装置 | |
| CN116189717B (zh) | 一种语音端点检测方法及装置 | |
| JPH07113835B2 (ja) | 音声検出方式 | |
| JPS62237498A (ja) | 音声区間検出方法 | |
| JP3125928B2 (ja) | 音声認識装置 | |
| JPS60198596A (ja) | 音声入力装置 | |
| JPS61233791A (ja) | 音声認識装置における音声区間検出方式 | |
| JPS62141595A (ja) | 音声検出方式 | |
| JPS61260299A (ja) | 音声認識装置 | |
| JPS59149400A (ja) | 音声入力装置 | |
| JP2901976B2 (ja) | パターン照合予備選択方式 | |
| JPS63281199A (ja) | 音声セグメンテ−ション装置 | |
| JP2748383B2 (ja) | 音声認識方式 | |
| JPS6043697A (ja) | 子音と母音の境界検出装置 | |
| JPS6256998A (ja) | 子音区間検出装置 | |
| JPH08202259A (ja) | 学習装置 | |
| JP2891259B2 (ja) | 音声区間検出装置 | |
| JPS5969798A (ja) | ピツチ抽出方法 |