JPH0117599B2

JPH0117599B2 -

Info

Publication number: JPH0117599B2
Application number: JP15829980A
Authority: JP
Inventors: Hiroshi Ichikawa; Shoichi Takeda
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1980-11-12
Filing date: 1980-11-12
Publication date: 1989-03-31
Also published as: JPS5782897A

Description

【発明の詳細な説明】本発明は音声の分析、特にピツチ周期の抽出方
法の改良に関するものである。

音声を分解し伝送する狭帯域伝送や音声合成、
あるいは連続音声を認識する場合の句や単語の境
界を決めたりするのに音声のピツチ周期情報は重
要であり、その安定かつ高速な抽出手段が必要不
可欠である。

ピツチ周波数は男女子供を考慮すると70〜500
Hz（周期にして２〜15ｍｓ）の範囲にわたり、そ
の抽出精度は合成音声の品質の観点から0.1ｍｓ
以下、少なくとも0.3ｍｓ以下の間隔で抽出する
ことが望ましい。そこで従来は音声のスペクトル
情報を抽出するためのサンプリング周波数８〜
10KHzによりアナログーデジタル変換した信号を
同時に用いることにより時間的分解能の十分ある
ピツチを抽出していた。このような従来の音声の
ピツチ抽出方法に関し、例えば“アコンパラテ
イブパフオーマンススタデイーオブセブ
ラルピツチデテエクシヨンアルゴリズムス
（Ａ Comparative Performance Study of
Several Pitch Ditection Algorithms）”、に記載
がある。

ピツチ周期を抽出するためには音声波形や予測
分析した結果の残差波形の自己相関係数を２〜15
ｍｓの遅れに対し求め、その相関係数のピーク値
を与える時間遅れの値をもつてピツチ周期とする
手法が一般的である。ここで音声波形そのものを
用いると高次ホルマントの影響による周期性など
のために抽出誤りが生じやすいため、ホルマント
情報を持つスペクトルエンベロープ情報を除いた
残差波形を用いることが多い。しかしそれでも高
調波ピツチを抽出する誤りの頻度はかなり高いの
が実情である。またピツチ処理の際、振幅の量子
化を３値など粗く取ることにより高調波成分を落
すなどの工夫もされているが、誤りは必ずしも十
分改善されてない。

いま、8KHzサンプリングの場合を考えると、
１サンプル当りの時間遅れは125μsであるから、
２〜15ｍｓの遅れは16〜120サンプル点の遅れに
相当し、抽出した自己相関係数の信頼性を考慮す
れば、最も遅延の大きい120サンプル遅れの値に
対しても50〜100点程度のデータが要求されるか
ら、音声サンプルデータは210〜220点必要とな
り、16〜120点遅れの自己相関係数の演算量も非
常に大きなものとなる。しかも、音声の分析では
通常この処理を10ｍｓ間隔程度毎に行ないピツチ
を抽出する必要がある。

これだけの処理を実時間（10ｍｓ以内）で実行
するためには、かなりの金物量で専用の装置を作
る必要があり、スペクトルエンベロープ抽出部に
比較しそのコストは非常に高いものとなつてい
る。スペクトルエンベロープ情報の抽出には最近
の信号処理用マイクロコンピユータを利用するこ
とが可能であり、この場合には１個のLSIで実現
される。

信号処理用マイクロコンピユータは１個のLSI
中にすべての処理機能を持たせているためデータ
メモリ容量が128語程度と小さく、構造も汎用と
なつているため処理速度も専用装置よりは遅くな
る。しかし、信号処理を目的としているためデー
タの語長は16ビツト程度と専用装置（２〜８ビツ
ト）に比し十分長いのが特徴である。

このような信号処理用マイクロコンピユータを
ピツチ抽出に用いることが可能であれば、１個の
LSIで実現できるため、経済性のみならず大きさ
の点でも大幅に小型化されるため、たとえば狭帯
域伝送用送話器を電話機並に小型にすることが可
能となる。

本発明の目的は、データ量が少なく、かつ処理
量も少なく、ピツチ抽出精度が高く、誤りも少な
いピツチ抽出方法を提供する点にある。

この目的を達成するため、本発明では、ピツチ
周波数が500Hz以下（周期２ｍｓ以上）に存在す
ることに注目し低周波数成分に入力信号を制限
し、サンプリング周期をそれに合わせ低くするこ
とによりメモリ量と処理量を少なくする点に特徴
がある。入力信号を低周波成分に制約する点につ
いては高調波を誤抽出しないための公知の手法で
ある。本発明での新しい点は、サンプリング周波
数を低くすることによる時間分解能不足の対策法
にある。すなわち、信号処理用マイクロコンピユ
ータのデータ語長が16ビツト程度と十分長い点に
注目し、従来時間方向に配置されていた情報を振
幅方向の情報に置き換え、自己相関係数のピーク
を抽出後、ピークの前後の自己相関係数値も合わ
せ利用することにより精度良くピーク位置を推定
することにある。ピーク位置の推定はたとえば次
のような手順で行うことができる。自己相関係数
のピークの位置をｐ、その時の自己相関係数の値
をV_P、前後の位置での自己相関係数の値をV_P-1、
V_P+1とし、ｎ倍の精度によるピーク位置の推定
値p′は、ピークの形を放物線で近似すると、次式
で与えられる。

p′＝ｎ（ｐ−V_P+1−V_P-1／２（V_P+1−2V_P＋V_P-1）） ………（０） 8KHzサンプリングの原信号と同程度の時間分
解能を1/4のサンプリング周波数で、リサンプリ
ングした信号の自己相関係数から求めるにはｎ＝
４とすれば良い。

以下実施例をもつて本発明を説明する。第１図
は本発明を説明するためのブロツク図である。以
下の説明では入力信号は8KHzサンプリングとし、
リサンプリングは1/4とするが、これらは8KHzサ
ンプリングが10KHzや15KHz、20KHzなど通常の
音声処理用に用いる値なら良いし、それに伴いリ
サンプリングが1/5、1/10などとしても良い。

第１図において、分析すべき音声１は折返雑音
防止用の低域波器２を経てアナログーデイジタ
ル変換器（ADC）３で8KHzでサンプリングさ
れ、信号処理用マイクロコンピユータ４および５
のシリアル入力部２１より入力される。信号処理
用マイクロコンピユータ４により音声のエンベロ
ープ情報抽出を行ない、マイクロコンピユータ５
により本発明によるピツチ抽出を行なう。エンベ
ロープ抽出については本発明に直接かかわらない
ので、その説明を省略する。分析・抽出された結
果は汎用マイクロコンピユータ６でメモリ７を用
いて必要な形に整えられ、出力等の処理が行なわ
れる。第２図は第１図における信号処理用マイク
ロコンピユータ４および５の一般的な構成を示
す。信号の入出力はシリアルな形式の信号の入出
力をあつかう入口２１と出口２２、パラレルな信
号の出入口２３を持ち、各々バツフアレジスタと
してシリアルインプツトレジスタ（SIR）２４、
シリアルアウトプツトレジスタ（SOR）２５、
およびパラレルレジスタ（PR）２６を持つのが
普通である。内部メモリは書込み読出し可能な
RAM２７と読出し専用の定数ROM２８を持つ。
演算部は掛算器（MULT）２９、演算器
（ALU）３０、アキユムレータ（ACC）３１など
からなる。その他に信号の遅延処理用のレジスタ
３２を持つ場合が多い。以下第３図と、第４図の
処理の流れ図を用いながらＡ／Ｄ変換された信号
ｘがシリアル入力部２１を経てRAM２７に順次
書き込まれる状況で、主にRAM２７とROM２
８上のデータのやり取りを中心に本発明の方法を
説明する。第３図はRAM２７上のデータの配置
を示す。横方向の1p、2p、…4pはRAMのページ
を、縦の０、１、２、…、31は各ページ内のアド
レスを示す。第４図において、先ず入力データｘ
に対しステツプ(1)の重み付平滑化リサンプリング
処理を行なう。今入力された原波形データをx₀、
時刻ｉだけさかのぼつた時点で入力された原波形
データをx_-iとし、Ｎデータずつまとめ、ｎ個お
きに重み付加算を行ない（Ｎ2nが望ましい）、
新たにリサンプリングしたデータをX_jとする。

X_j＝_N-1 〓ⁱ⁼⁰ w_ix_-i ………(1) Ｎ＝８、ｎ＝４の例を第５図に示す。この例で
はＴ番目の分析区間におけるX_jをＡ、Ｂの２個
に分け、A^T-1＝０としてとすることによりx₀、…、X_N-1をRAM上に記録
することなく、A^T（又はB^T-1）とB^Tの二語のみを
記録して行くことにより(1)X_jを得ることができ
る。このようにして得られた低域データx_jは入力
原データｎ個毎に作られRAM上のX_jの部分に格
納される。格納の際第２図のレジスタ３２を利用
することにより古いデータより順次つめかえて行
くことができる。このようにして分析区間（たと
えば10ｍｓ）毎に第４図のステツプ(2)以下の処理
を行なう。ステツプ(2)の窓掛処理はピツチの倍周
期等の誤りを防止するもので必須条件ではない。
窓W_iを掛けた結果Y_iは Y_i＝W_i・X_i（ｉ＝０、…、ｍ） ………(3) とする。原音声のサンプリング周波数8KHz、ｎ
＝４の場合、２〜15ｍｓの周期検出にはｍ＝31で
あれば十分である（15.5ｍｓとなる）。w_i（ここで
は８語）とW_i（ここでは32語）は第２図のROM
２８に十分入る容量である。重みの形状は通常の
信号処理に用いられるもの（たとえばハミング
窓）を用いる。

ステツプ(3)の自己相関係数演算は２〜15ｍｓの
ピツチ範囲に対応する５〜31次について V^T _i＝_n-1 〓^j=0 Y_j・Y_j+i（ｉ＝４、…、31） ………(4) として求める。積和を取る範囲がｍ−ｉとなつて
おり、次数ｉに関係のない一定値としていないの
も本質的要件ではない。ここではW_iの効果と同
様ピツチの倍周期等の値を誤つて検出することを
防止するのが目的でｍ−ｉまでの積和としてい
る。このような処理により逆に半周期等の誤り検
出が問題となりうるが、重み付加算によるステツ
プ(1)のリサンプリング処理のため高調波成分が除
かれており、その誤りはほとんど生じない。

ステツプ(4)の自己相関係数平滑処理はＴより10
ｍｓ前の分析区間における自己相関係数V^T-1 _iと
各次数毎に和を取る処理である。

U_i＝V^T _i＋V^T-1 _i ………(5) 10ｍｓ内の原波形データは80点でありリサンプ
リングにより1/4にデータ量が減少しているから
X_jのデータ数は20データとなる。したがつて(5)
式に関与する原音声データはX_iの32＋20＝52デー
タに対応する52×４＝208データの26ｍｓ分とな
る。これは抽出したピツチ周期データがサンプリ
ング定理（10ｍｓ×２＝20ｍｓ以上で平滑が必
要）を満足するための条件である。しかし元来ピ
ツチそのものは急激に変化することはないのでU_i
の代わりにV^T _iを用いても大きな障害はない。本
処理により結果の安定性が向上する。U_iを計算す
ればV^T-1 _iは不要なので両者のRAM上の領域は同
一で良い。V^T _iとV^T-1 _iの領域は10ｍｓ毎のピツチ
抽出毎に交互に入れ代えて使われる。

ステツプ(5)の自己相関係数の最大値検出処理で
はU_iの最大となる遅れｐとその時のU_iの値U_Pお
よび前後の値U_P-1とU_P+1が求められる。

この値を用い、ステツプ(6)のピツチ周期高精度
推定処理により原音声のサンプリング周期の精度
で原音声のピツチ周期p′を推定する。推定には(6)
による。本実施例ではｎ＝４であり、推定ピツチ
周期p′は p′＝４（Ｐ−U_P+1−U_P-1／２（U_P+1−2U_P＋U_P-1））…
……(6) の演算により求められる。ステツプ(1)〜(5)の処理
により各データの振幅情報を十分精度良く処理し
ているため、Ｕの値の信頼度が上りステツプ(6)の
推定精度が高くなつている。

このような処理によると、第３図からわかる如
く必要なメモリ量は122（32×４−６）語である。
これに対し原音声の8KHzサンプリングデータを
用いた場合は同一データの範囲に対してはX_iの代
りにx₀〜x₂₀₇、Y₀〜Y₂₀₉、およびV₁₆〜V₁₂₀の少
なくとも521語、Ｙを省略しても313語が必要とな
り、信号処理用マイクロコンピユータへの収容は
困難である。また演算処理も自己相関係数の演算
量が大幅に減少するため、加算、乗算は約1/11、
割算は約1/4になる。

次にピツチを実際に抽出した例を第６図に示
す。×印は従来方式でかつ残差波形を用いた例で
あり、〇が本発明方式の結果である。音声の内容
は／nanoka／であり、／ｋ／の前は図中のｂ図
のパワーが示すように無声破裂音／ｋ／の無音区
間でピツチが存在しない。〇と×を比較するとわ
かるように、本発明方式の方がピツチ周期の乱れ
が少なく勝れていることがわかる。

以上説明したごとく、本発明によれば、少ない
メモリ容量と少ない演算処理でより正確にピツチ
が抽出可能となり、小型経済的音声分析装置の実
現が可能となる。

【図面の簡単な説明】

第１図は本発明を実行する処理回路のブロツク
構成を示す図、第２図は第１図におけるマイクロ
コンピユータのブロツク構成を示す図、第３図は
第２図におけるRAM内のデータ配列の１例を示
す図、第４図は本発明の処理手順のフローを示す
図、第５図は時間的に過去にさかのぼつた時点に
おける入力音声波形の１例を示す図、第６図は本
発明を用いて入力音声／nanoka／から音声ピツ
チを抽出した実験結果の１例を示す図である。４，５……マイクロコンピユータ。

Claims

【特許請求の範囲】

１入力音声波形をピツチ周期抽出に適した低周
期でサンプリングし、サンプリング値に対応した
データを連続する２個以上のサンプル点毎に重み
付け加算し、重み付け加算により得られたデータ
列の自己相関係数を算出し、あらかじめ指定した
所定の区間毎に上記自己相関係数の最大値とその
位置およびその前後の位置における自己相関係数
を検出し、該検出結果にもとづき真の自己相関係
数の最大値の位置を推定し、これにより入力音声
のピツチを求めることを特徴とする音声ピツチ抽
出方法。