JPH1069296A - 音声信号から特徴値を抽出する方法 - Google Patents

音声信号から特徴値を抽出する方法

Info

Publication number
JPH1069296A
JPH1069296A JP9104632A JP10463297A JPH1069296A JP H1069296 A JPH1069296 A JP H1069296A JP 9104632 A JP9104632 A JP 9104632A JP 10463297 A JP10463297 A JP 10463297A JP H1069296 A JPH1069296 A JP H1069296A
Authority
JP
Japan
Prior art keywords
frequency
value
segment
values
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP9104632A
Other languages
English (en)
Inventor
Lutz Welling
ウェリング ルッツ
Hermann Prof Dr Ney
ネイ ヘルマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JPH1069296A publication Critical patent/JPH1069296A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 フォルマント周波数またはこれらフォルマン
ト周波数を示す特徴値を信頼性をもって少数の計算によ
り音声信号から決め、実時間処理を可能とする。 【解決手段】 フォルマント周波数は離散周波数により
パワー密度スペクトルを形成して決め、このスペクトル
からその連続周波数セグメントに対して自己相関係数を
形成し、これにより形成したエラー値の和は全てのセグ
メントに対し最小とし、セグメントの最適境界周波数を
この最小値に対して決める。自己相関係数から計算した
予測値係数からフォルマント周波数を計算する。個別の
セグメントに対するエラー値の和の最小値をダイナミッ
クプログラミングにより見いだし、このプログラミング
では最初前記スペクトルから補助値を計算しテーブルと
して記憶し、該テーブルからダイナミックプログラミン
グ処理で計算に必要な個別の周波数セグメントに対し自
己相関係数を決める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は本発明は音声信号処理、
特に音声認識およびおよび出力の分野に関するものであ
る。
【0002】
【従来の技術】音声出力においては、個別の短い音声セ
グメントが発生し、これにより自然音声にでる表現に最
も近似する音声信号を時系列的に発生する。個別の音声
セグメントを発生するためには、音声セグメントをでき
るだけ正確にモデル化する最小数のパラメータを用いる
必要がある。これらのパラメータは異なる音を発生する
ために一般に異なる帯域幅の種々の共鳴周波数を有する
自然音声トラックに基づくものである。音声信号の共鳴
周波数はフォルマント周波数と称され、その表示および
帯域幅は種々の音を発生するに充分である。これらのパ
ラメータは自然の音声信号から有利に得ることができ
る。
【0003】
【発明が解決しようとする課題】しかし、自然の音声信
号からこれらのパラメータを得ることは音声認識にも用
いることができる。この場合には、音声信号を短い周期
に分割するとともに特徴値は各周期から抽出するととも
にこれを所定の音に相当する基準値と比較する。この比
較の結果をさらに処理することによってどの表現が最も
確率的に生じたかを決定することができる。特徴値は例
えば順次の周波数セグメントのエネルギーとすることが
できる。しかし、フォルマント周波数を特徴値として用
いる場合には良好な結果を得ることもできる。これらの
周波数を用いる場合には実際に発生された表現が認識に
用いられる基準値から多数変位することを考慮に入れる
ことができる。
【0004】本発明の目的はフォルマント周波数または
これらフォルマント周波数を示す特徴値を信頼性をもっ
て比較的少数の計算により音声信号から決め得るように
し、本質的に実時間処理が可能となるようにした音声信
号から特徴値を抽出する方法を提供せんとするにある。
【0005】
【課題を解決するための手段】この目的を達成するため
に、本発明によれば、音声信号の連続周期の離散周波数
からパワー密度スペクトルを形成する。パワー密度スペ
クトルの所定の第1数の連続セグメントに対し、これら
周期の各々に最初の3つの自己相関係数を形成する。こ
の目的のために、これらセグメントの境界周波数を決め
り必要があり、これらはセグメントの数に対応する多数
のフォルマント周波数を有するモデル関数による概算値
とするのが最適である。境界周波数を決めるために、各
セグメントの自己相関係数からエラー値を形成し、全て
のセグメントのエラー値を加算し、エラー値の和の最小
値および関連する最適境界周波数が決まるまで、セグメ
ント間の種々の異なる境界周波数に対して自己相関係数
およびエラー値の形成を繰返す。最後に各セグメントに
対して最適の境界周波数を有するセグメントの自己相関
係数から少なくとも1つの特徴値を抽出する。これら特
徴値は自己相関係数または共鳴周波数および可能には予
測係数から再び明瞭に発生する帯域幅から直接決まり得
る予測係数とすることができる。
【0006】
【作用】パワー密度スペクトルの所定周波数セグメント
に対し自己相関係数を直接形成するにはある計算が必要
となる。本発明の一例によれば、パワー密度スペクトル
からかかる自己相関係数を形成する簡単なモードは各周
期に対しパワー密度スペクトルから一群の補助値を決定
し、この補助値が最低の周波数から所定の高い周波数ま
での自己相関係数を表わすようにする。これらの補助値
をテーブルに記憶するとともに各高い周波数に関連させ
る。従って所定の周波数セグメントに対する自己相関係
数は上記テーブルの2つの値間の差から決まる。この後
者の処理は簡単な計算を必要とするのみであるが、上記
テーブルはある境界計算時間で各周期ごとに一回だけ決
めるようにする。
【0007】エラー値の和が最小となる最適境界周波数
は本質的にはダイナミックプログラミングの原理に従っ
て決める。この目的のため、最低の周波数からある高い
周波数までの周波数セグメントを所定数のセグメントに
最適に分割する際のエラー値を表わす他の補助値を用い
る。これがため、高い周波数を2つの周波数間隔に分割
し、ステップ状の間隔境界が全ての周波数であるものと
し、この補助値がセグメントの前の境界で達成された補
助値と前記間隔境界および瞬時高周波数間の範囲に対す
るエラー値との和よりも大きい場合には新たなエラー値
をこの和の値に設定すると同時に関連する間隔境界を記
憶する。この処理を最大周波数までの全ての高い周波数
に対して行う場合には、トレースバックによって絶対的
に最適なセグメント境界を得ることができる。
【0008】
【実施例】音声出力にしばしば用いられる音声合成にお
いて、周波数および振幅が生成すべき音に従って調整さ
れる多数の共鳴器に励起信号を供給する。共鳴器を調整
するこれらパラメータを自然音声信号から得ることがで
きる。自然音声信号から得られたかかるパラメータはこ
れらパラメータ値を比較値と比較する音声認識に対して
用いることもできる。
【0009】本発明によれば、パラメータ、特にフォル
マント周波数は離散周波数によりパワー密度スペクトル
を形成することによって決め、このパワー密度スペクト
ルからその連続周波数セグメントに対して自己相関係数
を形成し、これによりエラー値を形成するが、エラー値
の和は全てのセグメントに対して最小とし、これらセグ
メントの最適境界周波数をこの最小値に対して決める。
自己相関係数によってLPC予測値係数を計算すること
ができ、これら予測値係数からフォルマント周波数を計
算する。個別のセグメントに対するエラー値の和の最小
値をダイナミックプログラミングによって見いだし、こ
のダイナミックプログラミングではまず最初パワー密度
スペクトルから補助値を計算しテーブルとして記憶し、
このテーブルからダイナミックプログラミング処理で計
算に必要な個別の周波数セグメントに対して自己相関係
数を容易に決めることができる。
【0010】本発明方法は次式で示すように数学的に処
理することができる。出発点をLPC予測値多項式とす
る。
【数1】 予測値の係数をαk およびβk とすると、これら係数か
らフォルマント周波数φ k は次式のように表わすことが
できる。
【数2】
【0011】フォルマント周波数の数Kを決めるため
に、周波数スペクトルをK個のセグメントに分割する必
要があり、このセグメントでは、これに対する境界周波
数を適宜選択して所定の短時間パワー密度スペクトル
【外1】 に対するエラー値が最小となるようにする。L.Rabiner,
R.-W.Schafer 著“Digital Processing of Speech Sig
nals",Prentice Kall, Englewood Cliffs, NJ, 1978,に
よれば、この最小エラー値から次式を導出することがで
きる。
【数3】 上式において、rk (n)はn=0,1,2の際セグメ
ントkの自己相関係数である。これら自己相関係数は音
声信号のパワー密度スペクトルから計算することができ
る。境界周波数ωk-1 およびωk を有する1つのセグメ
ントに対する最小エラー値は次式のように表わすことが
できる。
【数4】
【0012】全てのセグメントに対する最適な境界周波
数を決めるためには、全てのセグメントに対するエラー
値の和が最小となるようにする必要がある。この最小値
を計算するためには、パワー密度スペクトルの種々の異
なる周波数セグメントに対し自己相関係数を用いる必要
がある。この計算を簡単化するためには次式で示すよう
な補助値T(n,i) を導入する。
【数5】 ここにn=0, 1, 2およびi=0, 1,・・・,2Iは離
散周波数のシーケンスとする。 これがため、この補助
値は独立値としての周波数iを有するテーブルの形態に
記憶する。単一セグメントに対する自己相関係数は次式
に示すようにこのテーブルからテーブル中の2つの値間
の差によって決めることができる。
【数6】
【0013】2つのテーブル値を用いその差を形成する
には極めて短い時間を必要とするのみであり、従って最
小エラーの和を決めるにはこれによって著しい悪影響を
うけることはない。 最小エラーの和は本質的にはダイ
ナミックプログラミングの原理に従って決める。この目
的のためには周波数間隔1−iをk個のセグメントに最
適に分割する際のエラーを示す補助値F(k,i) を導入す
る。周波数間隔1−iを2つの周波数間隔1−jおよび
j+1−iに細分割するため、および補助値F(k,i) が
一種のエラー値を表わし、最小とする必要があることを
考慮することにより、ダイナミックプログラミングの反
復(再現)関係を得ることができる。
【数7】
【0014】この関係は周波数間隔1−jを(k−1)
セグメントに最良に細分割することを用いて周波数間隔
1−jをk個のセグメントに細分割することを決めるよ
うにする。
【0015】ダイナミックプログラミングを用い最小エ
ラー和を有するセグメントの最適境界周波数を決める全
手順を図に示す。この手順は、所定時間周期に対し音声
信号からパワー密度スペクトル決めた後、および種々の
異なる周波数セグメントに対する自己相関係数を決める
上記テーブルの値を計算した後に開始するとともに図の
予め示される境界内で種々の値jおよびiに対する個別
のエラー値Emin (j+1,i) をまず最初決定する。最小エ
ラー値のこの決定はαk opt およびβk opt がrk (n)
によってのみ表わされる前述した関係によって達成する
とともに記憶される値のマトリックスを形成する。周波
数i,セグメントkおよび細分割周波数jを経る次のル
ープでは、補助値が間隔境界jまでの前のセグメントに
対する補助値と間隔の残りの部分に対するエラーとの和
よりも大きい場合には補助値F(k,i) を常時細分割する
一方バックワードインジケータB(k,i) はその都度記憶
する。最高周波数Iまでの全てのループが実行される場
合には、各セグメントに対する最適境界周波数はこれら
バックワードインジケータのトレースバックによって読
取るとともに予測係数αk およびβk はこれら最適境界
周波数の自己相関係数から計算し、これら最適境界周波
数から個別のセグメントに対するフォルマント周波数を
計算することができる。
【0016】この手順は順次の時間周期の各々に対し繰
返す必要があり、従ってフォルマント周波数の時間シー
ケンスは音声信号から得られる。
【図面の簡単な説明】
【図1】本発明方法を実施するための説明図である。
【符号の説明】
αk , βk 予測係数 F(k,i) 補助値 B(k,i) バックワードインジケータ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声信号から特徴値を抽出するに当た
    り:音声信号の時間周期の離散周波数からパワー密度ス
    ペクトルを形成し;パワー密度スペクトルの連続セグメ
    ントの所定の第1数Kに対し最初の3つの自己相関係数
    を形成し;各セグメントの自己相関係数からエラー値を
    形成するとともに全てのセグメントのエラー値を加算
    し;セグメント間の種々の異なる境界周波数に対して自
    己相関係数およびエラー値の形成を繰返すとともにし;
    エラー値の和が最小となる最適の境界周波数を決定し;
    最適境界周波数のセグメントの自己相関係数から各セグ
    メントに対する少なくとも1つの特徴値を抽出するよう
    にしたことを特徴とする音声信号から特徴値を抽出する
    方法。
  2. 【請求項2】 各時間周期に対し、最低周波数から出発
    して連続する高い周波数までパワー密度スペクトルの一
    部分の補助値の数を決定するとともにテーブルとして記
    憶し、且つ自己相関係数が上記テーブルの値間の差から
    のプログラミング中に決まるようにしたことを特徴とす
    る請求項1に記載の音声信号から特徴値を抽出する方
    法。
  3. 【請求項3】 前記エラー値の和の最小値はダイナミッ
    クプログラミングの方法に従って決定し、2つのセグメ
    ントへの最適な分割は連続離散周波数に対し最低周波数
    からこの連続離散周波数の実際の周波数までセグメント
    を分割する最小エラーを示すダイナミック補助値を用い
    ることによって順次決定し、最低周波数および実際の周
    波数間の種々の異なる境界周波数に対しこの境界周波数
    の補助値と境界周波数および実際の周波数間のセグメン
    トに対するエラー値との和の最小値を決定し、この僅か
    を新たな補助値として用いるようにしたことを特徴とす
    る請求項1または2に記載の音声信号から特徴値を抽出
    する方法。
JP9104632A 1996-04-23 1997-04-22 音声信号から特徴値を抽出する方法 Abandoned JPH1069296A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19616103A DE19616103A1 (de) 1996-04-23 1996-04-23 Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
DE19616103:7 1996-04-23

Publications (1)

Publication Number Publication Date
JPH1069296A true JPH1069296A (ja) 1998-03-10

Family

ID=7792148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9104632A Abandoned JPH1069296A (ja) 1996-04-23 1997-04-22 音声信号から特徴値を抽出する方法

Country Status (6)

Country Link
US (1) US6041296A (ja)
EP (1) EP0803861B1 (ja)
JP (1) JPH1069296A (ja)
KR (1) KR100422266B1 (ja)
CN (1) CN1120468C (ja)
DE (2) DE19616103A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
WO2004072840A1 (en) * 2003-02-14 2004-08-26 Koninklijke Philips Electronics N.V. Method for controlling lighting parameters, controlling device, lighting system
BR122020015614B1 (pt) 2014-04-17 2022-06-07 Voiceage Evs Llc Método e dispositivo para interpolar parâmetros de filtro de predição linear em um quadro de processamento de sinal sonoro atual seguindo um quadro de processamento de sinal sonoro anterior
JP6760200B2 (ja) * 2017-05-16 2020-09-23 富士通株式会社 推定プログラム、推定方法および推定装置
JP7509008B2 (ja) * 2020-11-17 2024-07-02 トヨタ自動車株式会社 情報処理システム、情報処理方法及びプログラム
KR20240088788A (ko) * 2021-10-14 2024-06-20 퀄컴 인코포레이티드 머신 러닝 기반 시변 필터와 선형 예측 코딩 필터의 조합을 이용한 오디오 코딩

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6051720B2 (ja) * 1975-08-22 1985-11-15 日本電信電話株式会社 音声の基本周期抽出装置
US4509150A (en) * 1980-12-31 1985-04-02 Mobil Oil Corporation Linear prediction coding for compressing of seismic data
JPH03136100A (ja) * 1989-10-20 1991-06-10 Canon Inc 音声処理方法及び装置
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language

Also Published As

Publication number Publication date
CN1167308A (zh) 1997-12-10
KR970071463A (ko) 1997-11-07
EP0803861A2 (de) 1997-10-29
DE19616103A1 (de) 1997-10-30
DE59709419D1 (de) 2003-04-10
US6041296A (en) 2000-03-21
CN1120468C (zh) 2003-09-03
KR100422266B1 (ko) 2004-08-04
EP0803861B1 (de) 2003-03-05
EP0803861A3 (de) 1998-10-07

Similar Documents

Publication Publication Date Title
US5744742A (en) Parametric signal modeling musical synthesizer
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
US5698807A (en) Digital sampling instrument
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP6024191B2 (ja) 音声合成装置および音声合成方法
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
JP2003527618A (ja) ピッチ検出及びイントネーション修正装置及び方法
WO1999059138A2 (en) Refinement of pitch detection
JPH1069296A (ja) 音声信号から特徴値を抽出する方法
EP1463030B1 (en) Reverberation sound generating apparatus
JP2001188544A (ja) オーディオ波形再生装置
JPH0193795A (ja) 音声の発声速度変換方法
EP0972283A1 (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
JPH1020887A (ja) 音声処理装置のピッチ抽出方法
JP2751262B2 (ja) 信号記録方法及び装置
JP5552794B2 (ja) 音響信号の符号化方法および装置
US20220223138A1 (en) Combined wave data generation method, combined wave data generation program, storage medium, combined wave data generation device, and waveform data generation method
JP2932481B2 (ja) ピッチ検出方法
JP3661363B2 (ja) 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶した記憶媒体
CN115708153B (zh) 修正音频的节奏的方法和装置
JP2560277B2 (ja) 音声合成方式
JP2004145154A (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
JP6047863B2 (ja) 音響信号の符号化方法および装置
JP2864508B2 (ja) 波形データ圧縮符号化方法及び装置
JP2674155B2 (ja) データ圧縮符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040419

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20050621