JPS6310437B2

JPS6310437B2 -

Info

Publication number: JPS6310437B2
Application number: JP56035710A
Authority: JP
Inventors: Yoshiteru Mifune; Hidekazu Tsuboka; Satoru Kabasawa
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1981-03-11
Filing date: 1981-03-11
Publication date: 1988-03-07
Also published as: JPS57148799A

Description

【発明の詳細な説明】本発明は音声の語頭検出方式に関するものであ
る。具体的には例えば入力信号パターン系列の電
力値に基づく音声区間の切り出しおよび音声区間
の系列に対してパターンに基づく音韻分類を行な
つた後に、音声区間の音韻系列の並びによつて音
声の語頭検出を行なうことにより、音声の語頭に
発生する雑音（外界雑音、唇、歯、舌、唾による
雑音）を除去し、かつ語頭の無声子音の確保を図
り、音声の語頭検出精度を向上させ、音声認識装
置における認識率の改善を図ることを目的とする
ものである。

今、入力信号パターン系列は式(1)のように特徴
ベクトルの系列として表わされているものとす
る。

X₁，X₂，……，X_N ……(1) 各々のX_i，ｉ＝１，……，Ｎはそれぞれｍ次元
のベクトルであつて、 X_i＝（x_i1，……，x_in）と表わされる。ここで、特徴ベクトルとしては、
例えばｍチヤンネルのバンドパスフイルタの出力
x₁（ｔ），……，x_j（ｔ），……，x_n（ｔ）を時間標
本化したものと考えることができる。

また、特徴ベクトルで表わされる信号の区間
（時間標本化区間）をフレームと表現している。

信号パターン系列の電力値系列は、式(2)で示さ
れる各フレームの電力値の系列であり、 PW₁，PW₂，……，PW_N ……(2) 式(1)で表わされる信号パターン系列がフイルタ
バンクによつて得られる場合にはベクトルX_iの電
力値は、 PW_i＝（_n 〓^j=1 x_ij ²）^1/2 あるいは PW_i＝_n 〓^j=1 ｜x_ij｜ ……(3) と定義される。

ただし、X_i＝（x_i1，……，x_in）である。

従来の音声信号パターン系列の語頭検出方式
は、そのほとんどのものが式(3)で示したような入
力信号パターン系列の電力値のみに基づいてお
り、第１図に示すように、入力信号パターン系列
の電力値PWが、はじめて音声信号の最小電力値
PVM_iＮ以上となるフレームが一定フレーム長Ｌ
１以上連続する場合を語頭とし、この語頭以後の
系列において、該電力値PWが、はじめて音声信
号の最小電力値PVM_iＮ以下となるフレームが一
定フレーム長Ｌ２以上連続する場合を語尾とし
て、入力信号パターン系列の音声区間Ｖを検出し
ていた。

さらに音声の語頭の無声子音を確保することを
目的とするものでは、第２図に示すように、音声
区間の切り出しを２つの電力値レベルQ₁，Q₂に
よつて行なうものがあり、入力信号パターン系列
の電力値PWが、はじめて閾値Q₂以上となるフレ
ームが一定フレーム長Ｌ１′以上連続する場合を
語頭候補とし、語頭候補の直前で、該電力値PW
が閾値Q₁と交わる時点を語頭としていた。

このような、信号パターン系列の電力値のレベ
ルと発生区間長にのみ基づく語頭検出方式におい
ては、音声の発声時点に生じる雑音（外界の騒音
振動音あるいは音声の発声の準備に伴う、歯、
唇、舌などがぶつかる音や唾による雑音）を語頭
として検出する場合があり、このような雑音を除
去するために電力値の閾値レベルを上げるか発生
区間長を長く設定すると音声の語頭の無声子音を
確保することが不可能となり、語頭の検出精度は
きわめて低いものとなる。

このため従来の音声認識装置は、正確な音声区
間の切り出しができず、認識率は低いものであつ
た。

上述したように音声パターン系列の語頭検出
を、信号パターン系列の電力値のみに基づいて行
なうと、音声の発声時点における雑音と無声子音
の判別が困難となり検出精度が低減する。そこで
式(1)で示される信号パターン系列がフイルタ・バ
ンクによつて得られる場合には、各フレームのパ
ターンに基づく周波数情報を用いることが考えら
れる。

本発明はこの点に着目したもので、以下にその
実施例と共に説明する。

式(2)で示した電力値系列以外に、式(4)で表わさ
れる低域偏り値系列、 PL₁，PL₂，………，PL_N (4) および、式(5)で表わされる電力偏り値系列、 PD₁，PD₂，………，PD_N (5) を使用するものとする。するとフイルタ・バンク
がｍチヤンネルで構成され、中心周波数w_coが、 w_c1＜w_c2＜………＜w_cj＜………＜w_cn である場合には、前記特徴ベクトルX_iの低域偏り
値は、 PL_i＝_k 〓^j=1 ｜x_ij｜ (6) ｋ＜ｍ／２で定義され、前記特徴ベクトルＸの電力偏り値
は、式(3)で定義される電力値PW_iを用いて、 PD_i＝ｊ such that min｛ｊ｜_j 〓^j=1 ｜x_ij｜＞PW_i／２｝と定義される。

つまり式(3)で示した電力値以外に、周波数情報
として式(6)で示した低域偏り値、および式(7)で示
した電力偏り値の３つのパラメータに基づいて音
声パターン系列の語頭検出を行なうものとする。

また音声パターン系列の各フレームの大まかな
音韻分類は、該電力値、低域偏り値、電力偏り値
の３つのパラメータによつて行なうことができ
る。ここで大まかな音韻分類とは有声音、無声子
音、無音に分類することを示す。有声音は母音
（｜ａ｜，｜ｉ｜，｜ｕ｜，｜ｅ｜，｜ｏ｜）、有声子
音（｜ｍ｜，｜ｎ｜，｜ｂ｜，｜ｇ｜，｜ｄ｜，｜ｒ
｜，｜Ｚ｜）、半母音（｜ｚ｜，｜ｗ｜）および撥
音（｜ｘ｜，うん音）であり、無声子音は（｜ｃ
｜，｜ｓ｜，｜ｈ｜，｜ｐ｜，｜ｔ｜，｜ｋ｜）およ
び促音（｜Ｑ｜、つまり音）であり、無音は音韻
が発声されていない状態である。

第４図に、音声パターン系列の各フレームにお
ける、大まかな音韻分類と、電力値PW、電力偏
り値PDおよびおよび低域偏り値PLとの対応関係
を示す。同図においてフイルタ・バンクは第３図
に示したような中心周波数と帯域幅をもつ20チヤ
ンネルのフイルタ・バンクを用い、低域偏り値
PLは、式(6)においてＫ＝３（低域３チヤンネル分
の和）としたものである。同図ａは、低域偏り値
PL≦0.05×電力値PWの場合の大まかな音韻分類
を示し、同図ｂは低域偏り値PL＞0.05×電力値
PWの場合を示す。

そこで音声パターン系列の語頭検出を、はじめ
は信号パターン系列の電力値に基づく音声区間の
切出しを行ない、次はその音声区間の信号パター
ン系列の各フレームを電力値PW_i、低域偏り値
PL_i、電力偏り値PD_iに基づいて大まかな音韻分
類を行ない、最後に音韻系列のならびにもとづい
て行なうものとする。上記のような語頭検出を行
なうと日本語音声の音韻のならびにおける特性と
音声の発声時点における雑音の周波数および発生
区間の特性によつてより精度の高い語頭検出を行
なうことができる。

日本語音声の音韻のならびにおける特性は、音
節が、母音、子音＋母音、子音＋半母音＋母音で
構成されており子音だけが独立することがないこ
とである。また音声の発生時点における雑音の特
性は、パルス性の雑音であるため発生区間が孤立
していることであり、大まかな音韻分類にもとづ
くと、孤立した短い無声子音区間（一部有声音も
含む）と考えられる。つまり語頭の無声子音は、
音韻系列においてはじめて一定長以上有声子音が
連続する区間（母音）の前に連続する無声子音区
間で検出され、音声の発生時点における雑音は、
その連続有声子音区間とは孤立した一定長以下の
無声子音区間（一部有声音も含む）で検出され
る。

音声区間の音韻系列における語頭検出方式を第
５図にて説明する。同図は音韻系列のならびを示
したものであり、Ｈは音声区間切出しの始端フレ
ームを示し、■は有声音フレーム、□／は無声子音
フレーム、□は無音フレームを示している。

まず始端フレームＨ以後に始めて一定長Ｌ３以
上有声音フレームの連続する区間を検出し、その
先頭フレームipを検出する（音節における母音、
半母音、有声子音の検出）。第５図ａのようにフ
レームＨとフレームipの間に無音フレームのない
場合には、フレームＨを語頭WHとする（雑音と
なる孤立フレームが存在しない）。フレームＨと
フレームipの間に無音フレームが存在する場合
は、フレームipに最も隣接した無音フレームの直
後のフレームを語頭候補フレームWH１とする
（母音、半母音の直前の無声子音を確保）。第５図
ｂのようにフレームＨとフレームWH１の間に一
定長Ｌ４以上の孤立した非無音フレーム（有声音
あるいは無声子音フレーム）が無に場合には、フ
レームWH１を語頭WHとする（音声の発声時点
の雑音除去）。第５図ｃのようにフレームＨとフ
レームWH１の間に一定長Ｌ４以上の孤立した非
無音フレームが存在する場合は、フレームWH１
に最も隣接した該非無音フレームの先頭フレーム
を語頭WHとする（語頭の無声子音および有声子
音の確保）。

第６図は本発明の語頭検出方式を実現するため
の装置の具体構成を示すものである。同図におい
て、入力部１はフイルタ・バンク１３、標本化器
１４からなり、パラメータ計算部２は電力値計算
器１５、低域偏り値計算器１６、電力偏り値計算
器１７からなり、音声区間切出し部３は電力値判
別部１８、電力値系列カウント器１９からなり、
音韻分類部４は音韻大分類器２０、音韻系列カウ
ント器２１、音韻レジスタＡ２２、音韻レジスタ
Ｂ２３、出力ゲート２５から構成されている。１
２はマイクロホン、２４は音韻検出部、２６は出
力端子である。

次に動作を説明する。マイクロホン１２から入
力された入力音声信号は、フイルタ・バンク１３
および標本化器１４を介して、信号パラメータ系
列としてパラメータ計算部２に入力される。パラ
メータ計算部２では、電力値計算器１５によつて
パターン系列の電力値を計算し、音声区間切出部
および低域偏り値計算器１６、電力偏り値計算器
１７に入力される。低域偏り値計算器１６および
電力偏り値計算器１７は音声区間切出し部から音
声区間信号e₁が出力されていると、パターンおよ
び電力値から低域偏り値および電力偏り値を計算
し、音韻分類部へ出力する。音声区間切出し部で
は、電力値を電力値判定器１８によつて一定の閾
値レベル以上か否を判定し、一定の閾値レベル以
上のフレームは電力値系列カウント器１９によつ
てカウントを行ない、一定長のフレーム数連続す
る場合には、音声区間信号e₁を出力する。音韻分
類部４では、音声区間検出部３から音声区間信号
e₁が出力されていると、音韻大分類器２０は、パ
ラメータ計算部２から出力される電力値、低域偏
り値、電力偏り値から、各フレームの大まかな、
有声音か無声子音あるいは無音かの音韻分類を行
ない、音韻系列カウント器２１および音韻レジス
Ａ２２へ出力を行なう。音韻系列カウンタ２１
は、はじめて有声子音フレームが一定長Ｌ３以上
連続することを検出すると、音韻レジスタＡ２２
の内容を音韻レジスタＢ２３に並列転送する。語
頭検出部２４は、音韻レジスタＢ２３の音韻系列
のならびによつて語頭を検出し、音韻レジスタＢ
２３の内容を、語頭から出力ゲート２５を介し
て、出力音韻系列２６として出力を行い、音韻レ
ジスタＢ２３の内容を出力し終ると、音韻レジス
タＡ２２は遂次更新されているため、音韻レジス
タＢ２３の内容に連続するフレームから音韻レジ
スタＡ２２の内容を出力ゲート２５を介して、出
力音韻系列として出力端子２６から出力される。

以上の説明から明らかなように本発明は入力信
号パターン系列の電力値に基づく音声区間の切り
出しを行ない、さらにこの音声区間の信号パター
ン系列の各フレームを、パターンから求まる低域
偏り値および電力偏り値とこの電力値に基づいて
大まかな音韻分類を行なつた後に、音声区間の音
韻系列のならびに基づいて語頭検出を行なうこと
により、音声の発声時における雑音を除去し、か
つ音声の語頭の無声子音の確保を図り、音声の語
頭検出精度を向上させることができ、音声認識装
置の認識率の改善を図ることができる。

【図面の簡単な説明】

第１図および第２図はそれぞれ音声区間を切り
出す操作を示す波形図、第３図は本発明による音
声の語頭検出方式を適用した音声信号パターン系
列を作成するフイルタ・バンクの周波数特性図、
第４図ａ，ｂは信号パターン系列の各フレームの
大まかな音韻分類と、パターンの電力値、低域偏
り値および電力偏り値との対応関係を示す図、第
５図ａ，ｂ，ｃはそれぞれ音声区間の音韻系列か
ら音声の語頭を検出する操作の過程説明図、第６
図は本発明を適用した音声の語頭検出装置のブロ
ツク図である。１……入力部、２……パラメータ計算部、３…
…音声区間切出し部、４……音韻分類部。

Claims

【特許請求の範囲】

１一定長連続した入力信号パターン系列の電力
値が初めて閾値として定めた電力値以上となる開
始区間と、その開始区間以降に初めて、一定長連
続した前記パターン系列の電力値が閾値として定
めた電力値以下となる終了区間を検出して音声区
間の切り出しを行ない、前記音声区間の各々のフ
レームに対して、各フレームのパターンに基づ
き、有声音（母音、有声子音）、無声子音、無音
の分類を行ない、前記音声区間の語頭検出を、そ
の音声区間の始端と、初めて、有声音フレームが
連続する区間に、無音フレームが無い場合には、
その始端を語頭とし、無音フレームが有る場合に
は、前記連続有声音フレーム区間に最も隣接した
無音フレームの直後のフレームを語頭候補とし、
前記始端と語頭候補との間に、連続する非無音
（有声音あるいは無声子音）フレーム区間が無い
場合には、前記語頭候補を語頭とし、前記連続非
無音フレーム区間が有る場合には、前記語頭候補
に最も隣接した前記連続非無音フレーム区間の先
頭フレームを語頭とすることを特徴とする音声の
語頭検出方式。