JPH0117599B2 - - Google Patents
Info
- Publication number
- JPH0117599B2 JPH0117599B2 JP15829980A JP15829980A JPH0117599B2 JP H0117599 B2 JPH0117599 B2 JP H0117599B2 JP 15829980 A JP15829980 A JP 15829980A JP 15829980 A JP15829980 A JP 15829980A JP H0117599 B2 JPH0117599 B2 JP H0117599B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- data
- processing
- autocorrelation coefficient
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 5
- 239000011295 pitch Substances 0.000 description 31
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 235000005282 vitamin D3 Nutrition 0.000 description 1
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の詳細な説明】
本発明は音声の分析、特にピツチ周期の抽出方
法の改良に関するものである。
法の改良に関するものである。
音声を分解し伝送する狭帯域伝送や音声合成、
あるいは連続音声を認識する場合の句や単語の境
界を決めたりするのに音声のピツチ周期情報は重
要であり、その安定かつ高速な抽出手段が必要不
可欠である。
あるいは連続音声を認識する場合の句や単語の境
界を決めたりするのに音声のピツチ周期情報は重
要であり、その安定かつ高速な抽出手段が必要不
可欠である。
ピツチ周波数は男女子供を考慮すると70〜500
Hz(周期にして2〜15ms)の範囲にわたり、そ
の抽出精度は合成音声の品質の観点から0.1ms
以下、少なくとも0.3ms以下の間隔で抽出する
ことが望ましい。そこで従来は音声のスペクトル
情報を抽出するためのサンプリング周波数8〜
10KHzによりアナログーデジタル変換した信号を
同時に用いることにより時間的分解能の十分ある
ピツチを抽出していた。このような従来の音声の
ピツチ抽出方法に関し、例えば“ア コンパラテ
イブ パフオーマンス スタデイー オブ セブ
ラル ピツチ デテエクシヨン アルゴリズムス
(A Comparative Performance Study of
Several Pitch Ditection Algorithms)”、に記載
がある。
Hz(周期にして2〜15ms)の範囲にわたり、そ
の抽出精度は合成音声の品質の観点から0.1ms
以下、少なくとも0.3ms以下の間隔で抽出する
ことが望ましい。そこで従来は音声のスペクトル
情報を抽出するためのサンプリング周波数8〜
10KHzによりアナログーデジタル変換した信号を
同時に用いることにより時間的分解能の十分ある
ピツチを抽出していた。このような従来の音声の
ピツチ抽出方法に関し、例えば“ア コンパラテ
イブ パフオーマンス スタデイー オブ セブ
ラル ピツチ デテエクシヨン アルゴリズムス
(A Comparative Performance Study of
Several Pitch Ditection Algorithms)”、に記載
がある。
ピツチ周期を抽出するためには音声波形や予測
分析した結果の残差波形の自己相関係数を2〜15
msの遅れに対し求め、その相関係数のピーク値
を与える時間遅れの値をもつてピツチ周期とする
手法が一般的である。ここで音声波形そのものを
用いると高次ホルマントの影響による周期性など
のために抽出誤りが生じやすいため、ホルマント
情報を持つスペクトルエンベロープ情報を除いた
残差波形を用いることが多い。しかしそれでも高
調波ピツチを抽出する誤りの頻度はかなり高いの
が実情である。またピツチ処理の際、振幅の量子
化を3値など粗く取ることにより高調波成分を落
すなどの工夫もされているが、誤りは必ずしも十
分改善されてない。
分析した結果の残差波形の自己相関係数を2〜15
msの遅れに対し求め、その相関係数のピーク値
を与える時間遅れの値をもつてピツチ周期とする
手法が一般的である。ここで音声波形そのものを
用いると高次ホルマントの影響による周期性など
のために抽出誤りが生じやすいため、ホルマント
情報を持つスペクトルエンベロープ情報を除いた
残差波形を用いることが多い。しかしそれでも高
調波ピツチを抽出する誤りの頻度はかなり高いの
が実情である。またピツチ処理の際、振幅の量子
化を3値など粗く取ることにより高調波成分を落
すなどの工夫もされているが、誤りは必ずしも十
分改善されてない。
いま、8KHzサンプリングの場合を考えると、
1サンプル当りの時間遅れは125μsであるから、
2〜15msの遅れは16〜120サンプル点の遅れに
相当し、抽出した自己相関係数の信頼性を考慮す
れば、最も遅延の大きい120サンプル遅れの値に
対しても50〜100点程度のデータが要求されるか
ら、音声サンプルデータは210〜220点必要とな
り、16〜120点遅れの自己相関係数の演算量も非
常に大きなものとなる。しかも、音声の分析では
通常この処理を10ms間隔程度毎に行ないピツチ
を抽出する必要がある。
1サンプル当りの時間遅れは125μsであるから、
2〜15msの遅れは16〜120サンプル点の遅れに
相当し、抽出した自己相関係数の信頼性を考慮す
れば、最も遅延の大きい120サンプル遅れの値に
対しても50〜100点程度のデータが要求されるか
ら、音声サンプルデータは210〜220点必要とな
り、16〜120点遅れの自己相関係数の演算量も非
常に大きなものとなる。しかも、音声の分析では
通常この処理を10ms間隔程度毎に行ないピツチ
を抽出する必要がある。
これだけの処理を実時間(10ms以内)で実行
するためには、かなりの金物量で専用の装置を作
る必要があり、スペクトルエンベロープ抽出部に
比較しそのコストは非常に高いものとなつてい
る。スペクトルエンベロープ情報の抽出には最近
の信号処理用マイクロコンピユータを利用するこ
とが可能であり、この場合には1個のLSIで実現
される。
するためには、かなりの金物量で専用の装置を作
る必要があり、スペクトルエンベロープ抽出部に
比較しそのコストは非常に高いものとなつてい
る。スペクトルエンベロープ情報の抽出には最近
の信号処理用マイクロコンピユータを利用するこ
とが可能であり、この場合には1個のLSIで実現
される。
信号処理用マイクロコンピユータは1個のLSI
中にすべての処理機能を持たせているためデータ
メモリ容量が128語程度と小さく、構造も汎用と
なつているため処理速度も専用装置よりは遅くな
る。しかし、信号処理を目的としているためデー
タの語長は16ビツト程度と専用装置(2〜8ビツ
ト)に比し十分長いのが特徴である。
中にすべての処理機能を持たせているためデータ
メモリ容量が128語程度と小さく、構造も汎用と
なつているため処理速度も専用装置よりは遅くな
る。しかし、信号処理を目的としているためデー
タの語長は16ビツト程度と専用装置(2〜8ビツ
ト)に比し十分長いのが特徴である。
このような信号処理用マイクロコンピユータを
ピツチ抽出に用いることが可能であれば、1個の
LSIで実現できるため、経済性のみならず大きさ
の点でも大幅に小型化されるため、たとえば狭帯
域伝送用送話器を電話機並に小型にすることが可
能となる。
ピツチ抽出に用いることが可能であれば、1個の
LSIで実現できるため、経済性のみならず大きさ
の点でも大幅に小型化されるため、たとえば狭帯
域伝送用送話器を電話機並に小型にすることが可
能となる。
本発明の目的は、データ量が少なく、かつ処理
量も少なく、ピツチ抽出精度が高く、誤りも少な
いピツチ抽出方法を提供する点にある。
量も少なく、ピツチ抽出精度が高く、誤りも少な
いピツチ抽出方法を提供する点にある。
この目的を達成するため、本発明では、ピツチ
周波数が500Hz以下(周期2ms以上)に存在す
ることに注目し低周波数成分に入力信号を制限
し、サンプリング周期をそれに合わせ低くするこ
とによりメモリ量と処理量を少なくする点に特徴
がある。入力信号を低周波成分に制約する点につ
いては高調波を誤抽出しないための公知の手法で
ある。本発明での新しい点は、サンプリング周波
数を低くすることによる時間分解能不足の対策法
にある。すなわち、信号処理用マイクロコンピユ
ータのデータ語長が16ビツト程度と十分長い点に
注目し、従来時間方向に配置されていた情報を振
幅方向の情報に置き換え、自己相関係数のピーク
を抽出後、ピークの前後の自己相関係数値も合わ
せ利用することにより精度良くピーク位置を推定
することにある。ピーク位置の推定はたとえば次
のような手順で行うことができる。自己相関係数
のピークの位置をp、その時の自己相関係数の値
をVP、前後の位置での自己相関係数の値をVP-1、
VP+1とし、n倍の精度によるピーク位置の推定
値p′は、ピークの形を放物線で近似すると、次式
で与えられる。
周波数が500Hz以下(周期2ms以上)に存在す
ることに注目し低周波数成分に入力信号を制限
し、サンプリング周期をそれに合わせ低くするこ
とによりメモリ量と処理量を少なくする点に特徴
がある。入力信号を低周波成分に制約する点につ
いては高調波を誤抽出しないための公知の手法で
ある。本発明での新しい点は、サンプリング周波
数を低くすることによる時間分解能不足の対策法
にある。すなわち、信号処理用マイクロコンピユ
ータのデータ語長が16ビツト程度と十分長い点に
注目し、従来時間方向に配置されていた情報を振
幅方向の情報に置き換え、自己相関係数のピーク
を抽出後、ピークの前後の自己相関係数値も合わ
せ利用することにより精度良くピーク位置を推定
することにある。ピーク位置の推定はたとえば次
のような手順で行うことができる。自己相関係数
のピークの位置をp、その時の自己相関係数の値
をVP、前後の位置での自己相関係数の値をVP-1、
VP+1とし、n倍の精度によるピーク位置の推定
値p′は、ピークの形を放物線で近似すると、次式
で与えられる。
p′=n(p−VP+1−VP-1/2(VP+1−2VP+VP-1))
………(0)
8KHzサンプリングの原信号と同程度の時間分
解能を1/4のサンプリング周波数で、リサンプリ
ングした信号の自己相関係数から求めるにはn=
4とすれば良い。
解能を1/4のサンプリング周波数で、リサンプリ
ングした信号の自己相関係数から求めるにはn=
4とすれば良い。
以下実施例をもつて本発明を説明する。第1図
は本発明を説明するためのブロツク図である。以
下の説明では入力信号は8KHzサンプリングとし、
リサンプリングは1/4とするが、これらは8KHzサ
ンプリングが10KHzや15KHz、20KHzなど通常の
音声処理用に用いる値なら良いし、それに伴いリ
サンプリングが1/5、1/10などとしても良い。
は本発明を説明するためのブロツク図である。以
下の説明では入力信号は8KHzサンプリングとし、
リサンプリングは1/4とするが、これらは8KHzサ
ンプリングが10KHzや15KHz、20KHzなど通常の
音声処理用に用いる値なら良いし、それに伴いリ
サンプリングが1/5、1/10などとしても良い。
第1図において、分析すべき音声1は折返雑音
防止用の低域波器2を経てアナログーデイジタ
ル変換器(ADC)3で8KHzでサンプリングさ
れ、信号処理用マイクロコンピユータ4および5
のシリアル入力部21より入力される。信号処理
用マイクロコンピユータ4により音声のエンベロ
ープ情報抽出を行ない、マイクロコンピユータ5
により本発明によるピツチ抽出を行なう。エンベ
ロープ抽出については本発明に直接かかわらない
ので、その説明を省略する。分析・抽出された結
果は汎用マイクロコンピユータ6でメモリ7を用
いて必要な形に整えられ、出力等の処理が行なわ
れる。第2図は第1図における信号処理用マイク
ロコンピユータ4および5の一般的な構成を示
す。信号の入出力はシリアルな形式の信号の入出
力をあつかう入口21と出口22、パラレルな信
号の出入口23を持ち、各々バツフアレジスタと
してシリアルインプツトレジスタ(SIR)24、
シリアルアウトプツトレジスタ(SOR)25、
およびパラレルレジスタ(PR)26を持つのが
普通である。内部メモリは書込み読出し可能な
RAM27と読出し専用の定数ROM28を持つ。
演算部は掛算器(MULT)29、演算器
(ALU)30、アキユムレータ(ACC)31など
からなる。その他に信号の遅延処理用のレジスタ
32を持つ場合が多い。以下第3図と、第4図の
処理の流れ図を用いながらA/D変換された信号
xがシリアル入力部21を経てRAM27に順次
書き込まれる状況で、主にRAM27とROM2
8上のデータのやり取りを中心に本発明の方法を
説明する。第3図はRAM27上のデータの配置
を示す。横方向の1p、2p、…4pはRAMのページ
を、縦の0、1、2、…、31は各ページ内のアド
レスを示す。第4図において、先ず入力データx
に対しステツプ(1)の重み付平滑化リサンプリング
処理を行なう。今入力された原波形データをx0、
時刻iだけさかのぼつた時点で入力された原波形
データをx-iとし、Nデータずつまとめ、n個お
きに重み付加算を行ない(N2nが望ましい)、
新たにリサンプリングしたデータをXjとする。
防止用の低域波器2を経てアナログーデイジタ
ル変換器(ADC)3で8KHzでサンプリングさ
れ、信号処理用マイクロコンピユータ4および5
のシリアル入力部21より入力される。信号処理
用マイクロコンピユータ4により音声のエンベロ
ープ情報抽出を行ない、マイクロコンピユータ5
により本発明によるピツチ抽出を行なう。エンベ
ロープ抽出については本発明に直接かかわらない
ので、その説明を省略する。分析・抽出された結
果は汎用マイクロコンピユータ6でメモリ7を用
いて必要な形に整えられ、出力等の処理が行なわ
れる。第2図は第1図における信号処理用マイク
ロコンピユータ4および5の一般的な構成を示
す。信号の入出力はシリアルな形式の信号の入出
力をあつかう入口21と出口22、パラレルな信
号の出入口23を持ち、各々バツフアレジスタと
してシリアルインプツトレジスタ(SIR)24、
シリアルアウトプツトレジスタ(SOR)25、
およびパラレルレジスタ(PR)26を持つのが
普通である。内部メモリは書込み読出し可能な
RAM27と読出し専用の定数ROM28を持つ。
演算部は掛算器(MULT)29、演算器
(ALU)30、アキユムレータ(ACC)31など
からなる。その他に信号の遅延処理用のレジスタ
32を持つ場合が多い。以下第3図と、第4図の
処理の流れ図を用いながらA/D変換された信号
xがシリアル入力部21を経てRAM27に順次
書き込まれる状況で、主にRAM27とROM2
8上のデータのやり取りを中心に本発明の方法を
説明する。第3図はRAM27上のデータの配置
を示す。横方向の1p、2p、…4pはRAMのページ
を、縦の0、1、2、…、31は各ページ内のアド
レスを示す。第4図において、先ず入力データx
に対しステツプ(1)の重み付平滑化リサンプリング
処理を行なう。今入力された原波形データをx0、
時刻iだけさかのぼつた時点で入力された原波形
データをx-iとし、Nデータずつまとめ、n個お
きに重み付加算を行ない(N2nが望ましい)、
新たにリサンプリングしたデータをXjとする。
Xj=N-1
〓i=0
wix-i ………(1)
N=8、n=4の例を第5図に示す。この例で
はT番目の分析区間におけるXjをA、Bの2個
に分け、AT-1=0として とすることによりx0、…、XN-1をRAM上に記録
することなく、AT(又はBT-1)とBTの二語のみを
記録して行くことにより(1)Xjを得ることができ
る。このようにして得られた低域データxjは入力
原データn個毎に作られRAM上のXjの部分に格
納される。格納の際第2図のレジスタ32を利用
することにより古いデータより順次つめかえて行
くことができる。このようにして分析区間(たと
えば10ms)毎に第4図のステツプ(2)以下の処理
を行なう。ステツプ(2)の窓掛処理はピツチの倍周
期等の誤りを防止するもので必須条件ではない。
窓Wiを掛けた結果Yiは Yi=Wi・Xi(i=0、…、m) ………(3) とする。原音声のサンプリング周波数8KHz、n
=4の場合、2〜15msの周期検出にはm=31で
あれば十分である(15.5msとなる)。wi(ここで
は8語)とWi(ここでは32語)は第2図のROM
28に十分入る容量である。重みの形状は通常の
信号処理に用いられるもの(たとえばハミング
窓)を用いる。
はT番目の分析区間におけるXjをA、Bの2個
に分け、AT-1=0として とすることによりx0、…、XN-1をRAM上に記録
することなく、AT(又はBT-1)とBTの二語のみを
記録して行くことにより(1)Xjを得ることができ
る。このようにして得られた低域データxjは入力
原データn個毎に作られRAM上のXjの部分に格
納される。格納の際第2図のレジスタ32を利用
することにより古いデータより順次つめかえて行
くことができる。このようにして分析区間(たと
えば10ms)毎に第4図のステツプ(2)以下の処理
を行なう。ステツプ(2)の窓掛処理はピツチの倍周
期等の誤りを防止するもので必須条件ではない。
窓Wiを掛けた結果Yiは Yi=Wi・Xi(i=0、…、m) ………(3) とする。原音声のサンプリング周波数8KHz、n
=4の場合、2〜15msの周期検出にはm=31で
あれば十分である(15.5msとなる)。wi(ここで
は8語)とWi(ここでは32語)は第2図のROM
28に十分入る容量である。重みの形状は通常の
信号処理に用いられるもの(たとえばハミング
窓)を用いる。
ステツプ(3)の自己相関係数演算は2〜15msの
ピツチ範囲に対応する5〜31次について VT i=n-1 〓j=0 Yj・Yj+i(i=4、…、31) ………(4) として求める。積和を取る範囲がm−iとなつて
おり、次数iに関係のない一定値としていないの
も本質的要件ではない。ここではWiの効果と同
様ピツチの倍周期等の値を誤つて検出することを
防止するのが目的でm−iまでの積和としてい
る。このような処理により逆に半周期等の誤り検
出が問題となりうるが、重み付加算によるステツ
プ(1)のリサンプリング処理のため高調波成分が除
かれており、その誤りはほとんど生じない。
ピツチ範囲に対応する5〜31次について VT i=n-1 〓j=0 Yj・Yj+i(i=4、…、31) ………(4) として求める。積和を取る範囲がm−iとなつて
おり、次数iに関係のない一定値としていないの
も本質的要件ではない。ここではWiの効果と同
様ピツチの倍周期等の値を誤つて検出することを
防止するのが目的でm−iまでの積和としてい
る。このような処理により逆に半周期等の誤り検
出が問題となりうるが、重み付加算によるステツ
プ(1)のリサンプリング処理のため高調波成分が除
かれており、その誤りはほとんど生じない。
ステツプ(4)の自己相関係数平滑処理はTより10
ms前の分析区間における自己相関係数VT-1 iと
各次数毎に和を取る処理である。
ms前の分析区間における自己相関係数VT-1 iと
各次数毎に和を取る処理である。
Ui=VT i+VT-1 i ………(5)
10ms内の原波形データは80点でありリサンプ
リングにより1/4にデータ量が減少しているから
Xjのデータ数は20データとなる。したがつて(5)
式に関与する原音声データはXiの32+20=52デー
タに対応する52×4=208データの26ms分とな
る。これは抽出したピツチ周期データがサンプリ
ング定理(10ms×2=20ms以上で平滑が必
要)を満足するための条件である。しかし元来ピ
ツチそのものは急激に変化することはないのでUi
の代わりにVT iを用いても大きな障害はない。本
処理により結果の安定性が向上する。Uiを計算す
ればVT-1 iは不要なので両者のRAM上の領域は同
一で良い。VT iとVT-1 iの領域は10ms毎のピツチ
抽出毎に交互に入れ代えて使われる。
リングにより1/4にデータ量が減少しているから
Xjのデータ数は20データとなる。したがつて(5)
式に関与する原音声データはXiの32+20=52デー
タに対応する52×4=208データの26ms分とな
る。これは抽出したピツチ周期データがサンプリ
ング定理(10ms×2=20ms以上で平滑が必
要)を満足するための条件である。しかし元来ピ
ツチそのものは急激に変化することはないのでUi
の代わりにVT iを用いても大きな障害はない。本
処理により結果の安定性が向上する。Uiを計算す
ればVT-1 iは不要なので両者のRAM上の領域は同
一で良い。VT iとVT-1 iの領域は10ms毎のピツチ
抽出毎に交互に入れ代えて使われる。
ステツプ(5)の自己相関係数の最大値検出処理で
はUiの最大となる遅れpとその時のUiの値UPお
よび前後の値UP-1とUP+1が求められる。
はUiの最大となる遅れpとその時のUiの値UPお
よび前後の値UP-1とUP+1が求められる。
この値を用い、ステツプ(6)のピツチ周期高精度
推定処理により原音声のサンプリング周期の精度
で原音声のピツチ周期p′を推定する。推定には(6)
による。本実施例ではn=4であり、推定ピツチ
周期p′は p′=4(P−UP+1−UP-1/2(UP+1−2UP+UP-1))…
……(6) の演算により求められる。ステツプ(1)〜(5)の処理
により各データの振幅情報を十分精度良く処理し
ているため、Uの値の信頼度が上りステツプ(6)の
推定精度が高くなつている。
推定処理により原音声のサンプリング周期の精度
で原音声のピツチ周期p′を推定する。推定には(6)
による。本実施例ではn=4であり、推定ピツチ
周期p′は p′=4(P−UP+1−UP-1/2(UP+1−2UP+UP-1))…
……(6) の演算により求められる。ステツプ(1)〜(5)の処理
により各データの振幅情報を十分精度良く処理し
ているため、Uの値の信頼度が上りステツプ(6)の
推定精度が高くなつている。
このような処理によると、第3図からわかる如
く必要なメモリ量は122(32×4−6)語である。
これに対し原音声の8KHzサンプリングデータを
用いた場合は同一データの範囲に対してはXiの代
りにx0〜x207、Y0〜Y209、およびV16〜V120の少
なくとも521語、Yを省略しても313語が必要とな
り、信号処理用マイクロコンピユータへの収容は
困難である。また演算処理も自己相関係数の演算
量が大幅に減少するため、加算、乗算は約1/11、
割算は約1/4になる。
く必要なメモリ量は122(32×4−6)語である。
これに対し原音声の8KHzサンプリングデータを
用いた場合は同一データの範囲に対してはXiの代
りにx0〜x207、Y0〜Y209、およびV16〜V120の少
なくとも521語、Yを省略しても313語が必要とな
り、信号処理用マイクロコンピユータへの収容は
困難である。また演算処理も自己相関係数の演算
量が大幅に減少するため、加算、乗算は約1/11、
割算は約1/4になる。
次にピツチを実際に抽出した例を第6図に示
す。×印は従来方式でかつ残差波形を用いた例で
あり、〇が本発明方式の結果である。音声の内容
は/nanoka/であり、/k/の前は図中のb図
のパワーが示すように無声破裂音/k/の無音区
間でピツチが存在しない。〇と×を比較するとわ
かるように、本発明方式の方がピツチ周期の乱れ
が少なく勝れていることがわかる。
す。×印は従来方式でかつ残差波形を用いた例で
あり、〇が本発明方式の結果である。音声の内容
は/nanoka/であり、/k/の前は図中のb図
のパワーが示すように無声破裂音/k/の無音区
間でピツチが存在しない。〇と×を比較するとわ
かるように、本発明方式の方がピツチ周期の乱れ
が少なく勝れていることがわかる。
以上説明したごとく、本発明によれば、少ない
メモリ容量と少ない演算処理でより正確にピツチ
が抽出可能となり、小型経済的音声分析装置の実
現が可能となる。
メモリ容量と少ない演算処理でより正確にピツチ
が抽出可能となり、小型経済的音声分析装置の実
現が可能となる。
第1図は本発明を実行する処理回路のブロツク
構成を示す図、第2図は第1図におけるマイクロ
コンピユータのブロツク構成を示す図、第3図は
第2図におけるRAM内のデータ配列の1例を示
す図、第4図は本発明の処理手順のフローを示す
図、第5図は時間的に過去にさかのぼつた時点に
おける入力音声波形の1例を示す図、第6図は本
発明を用いて入力音声/nanoka/から音声ピツ
チを抽出した実験結果の1例を示す図である。 4,5……マイクロコンピユータ。
構成を示す図、第2図は第1図におけるマイクロ
コンピユータのブロツク構成を示す図、第3図は
第2図におけるRAM内のデータ配列の1例を示
す図、第4図は本発明の処理手順のフローを示す
図、第5図は時間的に過去にさかのぼつた時点に
おける入力音声波形の1例を示す図、第6図は本
発明を用いて入力音声/nanoka/から音声ピツ
チを抽出した実験結果の1例を示す図である。 4,5……マイクロコンピユータ。
Claims (1)
- 1 入力音声波形をピツチ周期抽出に適した低周
期でサンプリングし、サンプリング値に対応した
データを連続する2個以上のサンプル点毎に重み
付け加算し、重み付け加算により得られたデータ
列の自己相関係数を算出し、あらかじめ指定した
所定の区間毎に上記自己相関係数の最大値とその
位置およびその前後の位置における自己相関係数
を検出し、該検出結果にもとづき真の自己相関係
数の最大値の位置を推定し、これにより入力音声
のピツチを求めることを特徴とする音声ピツチ抽
出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15829980A JPS5782897A (en) | 1980-11-12 | 1980-11-12 | Voice pitch extraction |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15829980A JPS5782897A (en) | 1980-11-12 | 1980-11-12 | Voice pitch extraction |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5782897A JPS5782897A (en) | 1982-05-24 |
| JPH0117599B2 true JPH0117599B2 (ja) | 1989-03-31 |
Family
ID=15668574
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15829980A Granted JPS5782897A (en) | 1980-11-12 | 1980-11-12 | Voice pitch extraction |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5782897A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01219889A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | ピッチ抽出方法及び抽出装置 |
| JP4441126B2 (ja) * | 1999-04-19 | 2010-03-31 | エイ・ティ・アンド・ティ・コーポレーション | フレーム消去隠蔽処理装置 |
-
1980
- 1980-11-12 JP JP15829980A patent/JPS5782897A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5782897A (en) | 1982-05-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kesarkar et al. | Feature extraction for speech recognition | |
| CA1061906A (en) | Speech signal fundamental period extractor | |
| JPS60194499A (ja) | 音声分析方式 | |
| JP3093113B2 (ja) | 音声合成方法及びシステム | |
| JP3105465B2 (ja) | 音声区間検出方法 | |
| US4922539A (en) | Method of encoding speech signals involving the extraction of speech formant candidates in real time | |
| JP3402748B2 (ja) | 音声信号のピッチ周期抽出装置 | |
| US5809453A (en) | Methods and apparatus for detecting harmonic structure in a waveform | |
| JPH0117599B2 (ja) | ||
| JP2940835B2 (ja) | ピッチ周波数差分特徴量抽出法 | |
| Samad et al. | Pitch detection of speech signals using the cross-correlation technique | |
| Ramabadran et al. | The ETSI extended distributed speech recognition (DSR) standards: server-side speech reconstruction | |
| JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム | |
| JPS61252600A (ja) | Lsp型パタンマツチングボコ−ダ | |
| JPH0246960B2 (ja) | ||
| JP2583854B2 (ja) | 有声無声判定方法 | |
| JP2643202B2 (ja) | 入力音声の定常部、過渡部、不確定部の検出装置 | |
| JPS63106699A (ja) | ホルマント抽出装置 | |
| JPS6327899A (ja) | ホルマント抽出装置 | |
| JPS6126679B2 (ja) | ||
| JPS62270000A (ja) | 音声のピツチ周波数検出方法 | |
| JPH01315798A (ja) | ピッチ抽出装置 | |
| JPH0311479B2 (ja) | ||
| Rahman et al. | Linear prediction using homomorphic deconvolution in the autocorrelation domain | |
| JPH10232694A (ja) | 音声認識装置および音声認識方法 |