JPS62103700A - フオルマント型パタンマツチングボコ−ダ - Google Patents

フオルマント型パタンマツチングボコ−ダ

Info

Publication number
JPS62103700A
JPS62103700A JP61134569A JP13456986A JPS62103700A JP S62103700 A JPS62103700 A JP S62103700A JP 61134569 A JP61134569 A JP 61134569A JP 13456986 A JP13456986 A JP 13456986A JP S62103700 A JPS62103700 A JP S62103700A
Authority
JP
Japan
Prior art keywords
formant
data
standard
supplied
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61134569A
Other languages
English (en)
Other versions
JPH0738114B2 (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPS62103700A publication Critical patent/JPS62103700A/ja
Publication of JPH0738114B2 publication Critical patent/JPH0738114B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はフォルマント情報を利用したバタンi、チング
を介して入力音声信号の分析および合成を行なうフォル
マント型パタ/マ、チングボコーダに関する。
〔従来の技術〕
入力音声信号を分析して抽出したスペクトル包絡に関す
る分布バタンと、−あらかじめ設定した標準的音声資料
から抽出したスペクトル包絡の分布に関する標準バタン
とを照合し、最もよくマツチングした標準パタンのバタ
ンラベルをスペクトル包絡に関する全データに代えて分
析側から合成側に音源情報とともに送出して音声の分析
、合成を行’&’l)パルツマ、チングボコーダは音声
情報圧縮伝送の有力な手法としてよく知られており、ま
たスペクトル包絡を表わす情報としては通常LPC(L
inear Prediction Coding、1
1i形予測符号化)係数としてのαパラメータやにパラ
メータ、もしくはこれらから誘導される徨種の係数が利
用されている。
〔発明が解決しようとする問題点〕
しかしながら従来のこの橿のパタンマツチングボコーダ
では標準バタン作成のためにトレーニング(train
ing 、登録)K利用しうる話者の数は経済的その他
多くの理由で制限され、従ってこれら限定された数の話
者によるトレーニングデータをクラスタリングしていか
なる不特定話者にも適合する標準バタンを作成すること
は極めて困難である。この仁とは、入力音声のスペクト
ル分布は話者ごとに異なり、実用上たかだか数ないし数
10人程度の話者によるトレーニングデータにもとづい
てあらゆる不特定話者に適合しうる標準パタンの作成は
殆んど不可能であるという事実にもとづく。スペクトル
分布が話者ごとに異る個人差を有することは話者ごとに
声道特性と声帯音源特性とが異ることに起因する。これ
ら両特性のうち声道特性の話者ごとの相違は話者ごとに
声道長が異ることによって発生し声道における共振点と
してのフォルマント周波数の変動をもたらし、一方声帯
音源特性の話者ごとの相違はスペクトル包絡の概形の傾
きに影響を与える。従って不特定話者にも適合し易いパ
タンマツチングを行なうためには話者ごとに異る声道特
性と声帯音源特性とをそれぞれ伺等かの手段で正規化す
るかもしくはその影響を除去することが必要となる。し
かしながら通常のパタンマッチングボコーダではLPC
分析によって抽出したスペクトル包絡パラメータを介し
てバタンマツチングを行なっており、このLPC分析で
はもともと一様(フラット)ではない声道音源特性を一
様なものとしてスペクトル包絡パラメータを抽出するこ
とをその基本処理手法とし、話者によって異る声道特性
と7ラツトと見做した声帯音源特性とが畳み込まれた形
式でスペクトル包絡パラメータが抽出されている。
従って不特定話者にも適合し易いパタンマツチングを行
なうためには畳み込まれた声道特性と声帯音源特性とを
分離したうえ何等かの手段でそれぞれの正規化もしくは
話者依存性の除去を図ったスペクトル分布を利用すれば
よいわけでおるが、従来のパタンマ、テングボコーダは
この点を殆んど配慮していない。
本発明の目的も上述した欠点を除去し、不特定話者に対
しても適用し易いバタンマツチングが行なえる標準パタ
ンを備えたフォルマント型パタンマッチングボコーダを
提供することにある。
〔問題点を解決するための手段〕
本発明のボコーダは、入力音声信号を分析して得られる
第1および第2ならびに第3フォルマント周波数を極座
標表現することによって求まる前記フォルマント周波数
相互間の2つの関係角度情報をベクトル要素とする標準
バタンファイルtmえて構成される。
〔実施例〕
次に図面を参照して本発明の詳細な説明する。
第1図は本発明によるフォルマント型パタンマ。
チングボコーダの分析側の一実施例の構成を示すプロ、
り図、また第2図は本発明によるフォルマント型パタン
マッチングボコーダの合成側の一実施の構成を示すブロ
ック園である。
第1図に示す分析側1はA/Dコンバータ101、ピッ
チ・V/UV抽出器102、自己相関係数算出器103
、量子化器104、量子化器105、フォルマント抽出
器106、極座標変換器107、バタン照合器108、
量子化器109、標準バタンファイル110およびマル
チプレクサ111を備えて構成される。
また、第2図に示す合成側2は、デマルチプレクサ20
1、復号化器202、復号化器203、復号化器204
、バタン読出器205、ピッチ周波数発生器206、雑
音発生器207、切替器208、乗算器209、標準バ
タンファイル210、直交座標変換器211.フォルマ
ント合成器212、D/A:2ンバータ213を備えて
構成される。
第1図の分析側において、入力音声信号はA/Dコyバ
ータl0IK供給されL P E (Low Pa5s
Filter )を介して不要な高域周波数成分を遮断
したのち所定のサンプリング周波数で標本化し、このあ
と所定のビット数で量子化される。本実施例にろっては
サンプリング周波数8K Hz 1 ビ。
ト数12ビ、トで量子化している。
量子化信号はたとえば39m5EC分ずつ、すなわち2
40サンプル分ずつを窓時間分として一旦内部メモリに
格納され、これにハミング関数あるいは矩形関数の窓関
数による荷重乗算を所定の繰返し周期、本実施の場合は
2QmSECごとに実施しこれが分析7レ一ム周期とな
る。量子化信号はこの分析フレーム周期ごとに読出され
てピッチ・V/UV (Vo ice/Un−vo i
ce 、有声/無声)抽出器102と自己相関係数算出
器103とに供給される。
ピッチ・V/UV抽出器102は分析フレームごとに入
力する量子化信号から公知の抽出技術でピッチ周期とV
/UV判別に閥するデータを抽出、これを量子化器10
4に供給する。
量子化器104は入力を所定の形式で量子化したうえこ
れをマルチプレクサ111に供給する。
自己相関係数算出器103は分析フレームごとの量子化
信号につき必要な時間遅れ範囲での自己相関係数を所定
の次数、本実施例の場合は12次まで抽出しこれをフォ
ルマント抽出器106に供給するとともに、遅れ時間零
における自己相関係数を短時間平均音声電力として分析
フレームごとに量子化器105に供給、これによって所
定の形式の量子化を受けた短時間平均音声電力はマルチ
プレクサ111に供給される。
フォルマント抽出器106は12次の自己相関係数を分
析フレーム単位で受けるごとにこの自己相関係数列を利
用し公知のフォルマント抽出手法、たとえば日本音響学
会音声研究会資料881−41(1981年10月26
日)の論文「自己相関領域で逆フィルタリングを用いた
ホルマントの多段推定方式」(著者伏木田勝信)、自己
相関領域におけるAb8(Analysis by 5
ynthesis)釣手法によって分析フレームごとに
第1乃至第3フォルマント周波数’1 e ’t +ら
を抽出する。この場合、抽出するフォルマントを第1な
いし第3フオルマントとしているのは極座標変換器10
7における極座標化に必要最低限のフォルマント周波数
が相連続する3個のフォルマント周波数であることのほ
か、その発生状況が不安定で利用しKくい第4フォルマ
ント以上の高域フォルマントを除いた相連続する3つの
極を利用するものである。ここでいう極とは声道の共振
点でありフォルマント周波数とほぼ一致する。
さて、こうして選定したフォルマント周波数f1とf!
ならびにらの比f、:ft:fsの分布は話者にかかわ
らずどのような音声についてもほぼ一定であり、このこ
とは多くの音声資料にもとづいてよく知られている。
極座標変換器107は入力した第1〜第3フォルマント
周波数f、、f!、f、の極座標変換を実施する。
第3図は第1〜第3フォルマント周波数の3次元極座標
表示図である。
座標原点Oで互いに直交する座標軸はそれぞれフォルマ
ント周波数’1 * ’*およびf、を示し、これら3
座標軸によって形成される3次元極座標系における合成
ベクトルv(fs −’t −fs)ハフオルマント周
波数’1 * ’t * fjによる合成ベクトルであ
り、その空間方向を決定する2つの角度がθ、ψである
第4図は極座標変換器107の構成を詳細に説明するだ
めのプロ、り図である。第4図に示す極座標変換器10
7は乗算器1071,1072゜1073、加算器10
74,1075.ROM1076−1〜2、 除算器1
077−1〜2.ROM1078−1〜2を含んで構成
されている。
フォルマント抽出器106より供給されるフォルマント
周波数データf、 、 f、 、 f、は各々、乗算器
1071,1072.1073の2つの入力端子に入力
される。f、 、 f、は各々除算器1077−1の被
除数入力端子1077−12.1077−2の被除数入
力端子1077−22にも同時に入力される。
乗算器1071,1072,1073は乗算結果R+f
i 、 f−を各々、加算器1074,1074,10
75へ出力する。加算器1074はf?とfiの和B’
+fiをR,0M1076−1  と加算器1075へ
出力する。加算器1075はfJとfl’+ fJ ノ
和f?+f7+flをROM1076−2へ出力する。
 ROM1076−1〜2は几OMでおり、平方根に関
するデータが書込まれている。即ち、ROMの番地内に
はIxsが書込まれている。故にROM1076−1.
1076−2の各出力は〆了r「q、8η7ηである。
出カメ「ツqは除算器1077−1の除数入力端子10
77−11へ供給される。出力f/+ f” + fJ
 U除算器1077−2(7)除a入力i子1077−
21へ供給される外、データ”t”として量子化器10
9へ出力される。尚 尚・ tl+rz+tzは第3図に示すLであることは
自明である。さて除算器1077−1.1077をRO
M1078−1.1078−2へ出力する。
ROM1078−1〜2はROMであり5INEの逆関
数に関するデータが書込まれている。即ち、ROMの番
地X!には8 I N4(!、 ) カ書込まれティる
。故にROM1078−1.1078−2の各出力は明
らかに第3図に示す1θ”、@ψ”である。これらのデ
ータθ、ψはバタン照合器108へ出力される。
さて、このようにして算出された角度θ、ψは、つまり
極座標表現した第1〜第3フォルマント周波数相互間の
2つの関係角度情報であって3つのフォルマント周波数
に対応して決定され、観点を変えると分析フレームごと
の音声信号の周波数スペクトルを表現し、かつ話者独自
の特性がはtチ除去されたものであることも前述したf
、:f、:らの特徴等から明らかである。
再び第1図を参照すると、こうして極座標表現したフォ
ルマント周波数f、 、 f、およびf、は合成ベクト
ル絶対値tと2つの関係角度θ、ψとによって示され、
これらのデータが分析フレームごとにデータtは量子化
器109に、またデータθ。
ψはバタン照合器108に供給される。
量子化器109に供給されたデータtは所定の量子化を
受けたのちマルチプレクサ111に供給される。
バタン照合器108に供給されるデータθ、ψは標準バ
タンファイル110に格納されている複数の標準バタン
それぞれのθ、ψとの距離、いわゆる市街地距離もしく
はユークリッド距離の計測を介してバタン照合を分析フ
レームごとに実施する。本実施例では市街地距離利用し
この距離が最小となる標準バタンを指定するバタンラベ
ルデータをマルチプレクサ111に供給する。
標準バタンファイル110は、予め設定した1名乃至数
十名の特定話者による音声資料を本実施例の分析側もし
くは別に用意したコンビ、−タンステム等を利用して分
析しオフライン的にθおよびψに関するデータを分析フ
レーム単位で抽出しクラスタリングした標準バタンを格
納した凡OMである。標準バタンファイル110はバタ
ン照合器108より供給される番地情報により指定され
た番地に記憶されているデータ、即ち標準バタンをバタ
ン照合器108へ出力する。熱論、標愈バタンのラベル
とこの番地とは一致している。バタン照合器108は標
準パタンファイル110より供給される標草パタンデー
タと@座標変換器107から供給される0、ψとのバタ
ン照合を実施する。
このバタン照合は次の(1)式で示される市街地距離d
ik最小とする標準パタンを選択する形式によって実施
される。
dik=min(1#フーθk l+lψτ−ψkl 
)   −−−−−−(1)(1)式においてθ1.ψ
1は極座標変換器107から入力する分析フレームごと
の角度データ、0丁。
ψ1は標準バタンファイルに格納されている角度データ
であり前述した如くいずれも周波数スペクトルとしての
角度データである。なおi=o 、 1・・・。
n−1でnは標準パタンの総数である。
次にバタン照合器108の構成を図面を用いて詳細に説
明する。第5図はバタン照合器108の構成を示すブロ
ック図である。第5図に示すノ(タン照合器108は市
街地距離算出器120、比較器121、最小距離レジス
タ122、アドレスカウンタ123、制御器124、と
ラベルレジスタ125を含んで構成され、標準バタンフ
ァイル110を併記しである。
制御器124はフレーム周期にイニシャライズされる。
制御器124はイニシャライズされると次の初期設定を
実施する。初期設定の内容は、1)アドレスカウンタ1
23を”O′″に設定、2)ラベルレジスタ125を1
0mに設定、および3)最小距離レジスタ122を最大
値に設定、の3種である。尚、この最大値は前記(1)
式により算出される市街地距離が取り得る理論的最大値
、又はこの値を越える値である。アドレスカウンタ12
3の内容@0″は番地情報として標準バタンファイル1
10へ供給される。標準バタンファイル110は@0”
番地に記憶しているラベル−〇Taの標準バタンデータ
θ♂、ψ・“を市街地距離算出器120へ出力する。市
街地距離算出器120には同時に極座標変換器107よ
り分析されたフォルマント周波数より算出されたθ 、
ψ が供給されている。市街地距離算出器120はこれ
らのデータより後述する(2)式を用いて市街地距離d
okを求める。仁の市街地距離の算出は具体的には以下
のように実施される。
第6図は市街地距離算出器120の具体的な構成を示す
ブロック図である。第6図に示す市街地距離算出器12
0は減算器1201−1〜2、絶対値算出器1202−
1〜2、乗算器1203−1〜2、加算器1204 を
有して構成されている。説明の都合上、乗算器1203
−1〜2が存在しないものとする。減算器1201−1
.1201−2で各々、θ。−〇 、ψ。−ψが算出さ
れ絶対値算出器12o2−1.1202−2へ出力され
る。絶対値算出器1202−1.1202−2はこれら
のデータの絶対値1θ♂−θ町、1ψ。1−ψに1を算
出し加算器1204へ出力する。加算器1204の出力
は下記(2)式で示されるdokである。
do″k =l a: −e kl + lψ、@ −
p kl−−−−”” ””” ’”’ ””” ””
 (2)熱論、市街地距離として、角度0.ψに聴覚的
な重み付けを実施する事も可能である。重み係数をa、
bとすると前記(2)式の代りに次の(3)式を用いて
dokが算出される。
dok=alθ: #kl+blψ。1−ψkl−・・
−−−−−−−−−(3)(3)式を用いる場合には第
6図に於いて乗算器1203−1〜2を追加すればよい
次に絶対値算出器1202−1〜2の構成を図面を用い
て説明する。第7図は絶対値算出器1202の構成を示
すブロック図である。第7図に示す絶対値算出器120
2は排他的論理和1202−30〜37、全加算器12
02−4を有して構成されている。3bit構成のデー
タへ〜へが排他的論理和1202−30〜37の一方の
入力端子に接続されている。又、八が排他的論理和12
02−30〜37の他の入力端子に接続されている。へ
〜へはり、をMSB、D、をLSMとする2の補数で表
現されたデータである。即ち、データが負の場合にはD
0=1、正又はOの場合にはDo = 0となっている
。排他的論理和1202−30〜37の出力ばり、 =
 lの場合には入力D0〜Dマを反転し、D0=Q  
の場合には入力と一致する。これらの出力は全加算器1
202−4の27〜2°の一方の入力端子に供給される
。全加算器1202−4の27〜21の他の入力端子に
は”0”が、2°にはり、が供給されている。従って全
加算器1202−4の出力D′c、〜D;はり、 = 
Qの場合、D、 〜D、の一致し、D0=1の場合、D
、〜痔の各bitを反転し、“1”を加えたものとなっ
ている。即ち、公知の補数計算法を利用して、入力デー
タが負の場合には出力データはその補数となっている。
再び第5図を用いて説明を続ける。市街地距離算出器1
20で算出された市街地距離dokは比較器121と最
小距離レジスタ122へ供給される。
前述のように最小距離レジスタ122には最大値が予じ
め記憶されている。この最大値は比較器121へ供給さ
れている。比較器121はこの最大値とdokを比較し
、dokが小さい場合に制御信号を制御器124へ供給
される。制御器124は、この信号が入力されると最小
距離レジスタ122と2ベルレジスタ125へ記憶命令
を出力する。
最小距離レジスタは記憶命令により前記dokを前記−
最大値“の代りに記憶する。又、ラベルレジスタ125
はアドレスカウンタ123より供給されている番地情報
“O″を記憶する。次に制御器124はカウントアツプ
命令をアドレスカウンタ123へ出力する。アドレスカ
ウンタ123はカウントアツプ命令によりその内容を”
1”だけア、プする。アドレスカウンタ123は0+1
=1を標準バタンファイル110へ出力する。標準バタ
ンファイル110は標準バタンθ−2ψ11を市街地距
離算出器120へ出力する。市街地距離算出器120は
dokと同様にdlkを算出し、比較器121と最小距
離レジスタ122へ供給する。比較器121は最小距離
レジスタ122よシ供給されるdokとこのdxkの大
小を地絞する。もしdok(dxkの場合には最小距離
レジスタ122とラベルレジスタ125の内容は変更さ
れない。又、もしdok ) dlにの場合には制御信
号が制御器124へ供給され、最小距離レジスタ122
にはdlkが、ラベルレジスタ125にはラベル61″
があらためて記憶される。アドレスカウンタが0,1.
・・・、j(j<n−1)と次々にアップされていくと
、結果として最小距離レジスタ122には下記(3)式
で示されるdoが書込まれる。
d(j)=min (dok 、 dlk 、−dj−
IB、、 djk)−(3)又、ラベルレジスタ125
には(3)式に付随して求められたラベルが書込まれる
こうしてk = n−1となりたときにラベルレジスタ
125には必要なラベルが書込まれている。このラベル
データはマルチプレクサ111へ出力される。
再び第1図に戻って説明を続ける。
このように、バタン照合は(1)式に示すdikを最小
とする4!準パタンを選択することによって行なわれる
が、このことはフォルマント周波数比f8゜:f、:ら
が最もよく近似した標準バタンを選択することに他なら
ず、しかもこの場合のフォルマント周波数は話者による
差異が非常に少ない第1〜第3フォルマント周波数の比
の分布を対象とする形式で行なわれるため不特定話者に
よる入力音声のバタン照合も特定話者による入力音声の
バタン照合とほぼ同様な適合し易さで実施できる。
前述した如く任意の不特定話者に対してもよく適合する
標準パタンの作成は極めて困難であり、この原因は話者
ごとにスペクトル分布が異ることに起因し、このスペク
トル分布の話者ごとの差異を無くすためには声道特性の
差異を生む声道長と声帯音源とを何かの手段でそれぞれ
独立的に正規化するかもしくはこれらから個人差を除去
することにより不特定話者にも適合し易いバタンマツチ
ングが実施できる。本実施例でもこの点に着目し極座標
表現による第1〜第3フオルマント周波数のなす角度情
報0.ψを介して声道長を正規化し、さらにスペクトル
包絡を第1ないし第3フォルマントの比で代表させて声
帯音源特性の個人差の問題を基本的にほぼ排除、し不特
定話者にも適合し易いバタンマツチングを行なっている
さて、マルチプレクサ111はζうして入力した各種デ
ータを所定の形式で符号化したうえその多重化を行なっ
て伝送路1111を介して合成側2に送出する。
合成側2ではデマルチプレクサ201によって受信信号
の多重化分離を行なったのちピッチ・V/UVデータは
復号化器202に、短時間平均電力データは復号化器2
03に 11データは復号化器204に、またバタンラ
ベルデータはバタン読出器205にそれぞれ供給される
復号化器202によって復号されたピッチ情報はピッチ
周波数発生器206に供給されピッチ周期に対応する周
波数のピッチ周波数信号を発生せしめる。
切替器208は供給されたV/UV情法がV(有声)を
指定するときはピッチ周波数発生器206の出力を乗算
器209に供給し、V/U V情報がUV(無声)を指
定するときは雑音発生器207の出力する雑音信号を乗
算器209に供給するように切替える。
乗算器209にはまた、復号化器203の出力、すなわ
ち復号化された短時間平均電力が供給されこれら2人力
の乗算結果としてモデル化された音源データがフォルマ
ント合成器212に供給される。
tデータは復号化器204によって復号化t′として交
座標変換器211に供給される。
パタン読出器205は入力したバタンラベルデータにも
とづいて標準バタンファイル210から標準パタンを読
出す。この標準パタンは分析側1のバタン照合器108
によって入力θ、ψデータと最もよく適合した標準パタ
ンのθ、ψデータとしてのθ′、ψ′である。
標準バタンファイル210は分析側1の標準バタンファ
イル110とほぼ同一のファイル内容を格納し、パタン
読出器205で指定されたバタンラベルを有する標準パ
タンの角度情報θ′、ψ′をパタン読出器205を介し
て直交座標変換器211に供給する。
直交座標変換器211はこうして供給されたZ/。
θ′、りによる極座標データを直交座標データに変換し
てf’l + f’t e f’8のフォルマント周波
数を得てこれをフォルマント合成器212に供給する。
フォルマント合成器212は入力したf’l * [′
、 1fl、  にそれぞれあらかじめ設定する帯域幅
を付与する。これら帯域幅はフォルマントに関する資料
、経験等にもとづいてそれぞれ適宜設定される。
こうして得られるフォルマント情報を合成するにも1徨
の手法が考えられるが本実施例ではこれら帯域幅を付与
された3個のフォルマント情報のそれぞれから1組2個
ずつのαパラメータを求めこれらαパラメータをフィル
タ係数とする3個の2次の巡回型ディジタルフィルタを
カスケード接続しその入力に音源データを印加するとい
う形式でフォルマントの合成を行なっている。このフォ
ルマント合成の結果、入力音声信号のディジタル再生が
行なわれこれはD/Aコンバータ213に出力される。
D/Aコンバータ213は、入力したディジタル音声信
号をアナログ量に変換したうえLPFを介して不要の高
域成分を除去し出力音声信号として送出する。
本発明はパタンマッチングボコーダにおける分析側と合
成側とに備える標準バタンファイルを、入力音声信号を
分析して得られる第1〜第3フォルマント周波数を極座
標表現して求まる2つの角度情報をベクトル要素として
構成する点に基本的特徴を有するものであり第1および
第2図の実施例の変形も種穫考見られる。
たとえば、本実施例では第1〜第3フォルマント周波数
の極座標表現化は極座標系の’1wbsら軸上にそれぞ
れ第1.2,3フオルマントの中心周波数とその分布範
囲とをそれぞれ独立的に設定する形式で行なっているが
、この場合これら3つの分布範囲の下限周波数が座標原
点で正規化される形式で座標表現化を行ない量子化感情
の平準化を図っても勿論差支えない。
また、合成側におけるフォルマント合成は第2図に示す
フォルマント合成器212とほぼ同一の機能を有する他
の構成、たとえば市販製品としてのフォルマント合成用
LSI等を利用しても勿論差支えない。
さらに、本実施例では音源情報として、有声の場合には
抽出ビ、チ周期に対応するピッチ周波数、また無声の場
合には雑音信号でモデル化したモデル化音源を利用して
いるが、これは他の形式の音源情報たとえばマルチパル
ス等を利用しても一向に差支えなく以上はすべて本発明
の主旨を損なうことなくいずれも容易に冥施しうるもの
である。
〔発明の効果〕
以上説明した如く本発明によれば、バタンマ。
チングボコーダにおいて、入力音声信号を分析して得ら
れる第1〜第3フォルマント周波数を極座標表現して求
まる2つの角度情報をベクトル要素とする標準バタンフ
ァイルを備えることKより特定話者とともに不特定話者
に対しても極めてよく適合し易いパタンマツチングが実
施できるフォルマント壓パタンマッチングボコーダが実
現できるという効果がある。
【図面の簡単な説明】
第1図は本発明のフォルマント型パタンマッチングボコ
ーダの分析側の一実施例の構成を示すプロ、り図、第2
図は本発明のフォルマント型パタンマ、チングボコーダ
の合成側の一実施例の構成を示すブロック図、第3図は
第1〜第3フォルマント周波数の3次元極座標表示図、
第4図は第1図に示されている極座標変換器107の構
成を示すプロ、り図、第5図は第1図に示されているバ
タン照合器108の構成を示すブロック図、第6図は第
5図に示されている市街地距離算出器120の構成を示
すブロック図、第7図は第6図に示されている絶対値算
出器1202の構成を示すプロ、り図である。 1・・・・・・分析側、2・・・・・・合成側、101
・・・・・・A/Dコンバータ、102・・・・・・ビ
、チ・V/UV抽出器、103・・・・・・自己相関係
数算出器、104・・・・−量子化器、105・・・・
・・量子化器、106・・・・・・フォルマント抽出器
、107・・・・・・極座標変換器、108・・・・・
・バタン照合器、109・・・・・・量子化器、110
−・・・−m準パタンファイル、111・−・・・マル
チプレクサ、201・・・・・・デマルチプレクサ、2
0f・・・・・・復号化器、203・・・・・−復号化
器、204・・・・・・復号化器、205・・・・・・
バタン読出器、206・・・・・・ピッチ周波数発生器
、207・・・・・・雑音発生器、208・−・・・切
替器、209・・・・・・乗算器、210・・・・・・
標準バタンファイル、211・−・・・・直交座標変換
器、212・・・・・グオルマント合成器、213・・
・・・・D/Aコンバータ、1071,1072,10
73・・・・・・乗算器、1074゜1075・・・・
・・加算器、1076−1〜2・・・・−40M。 1077−1〜2・・・・・・除算器、1078−1〜
2・・・・・−ROM、120・・・・・・市街地距離
算出器、121・・・比較器、122−・・・・・最小
距離レジスタ、123・・・・・・アドレスカウンタ、
124・・・・・・制御器、125・・・・・・ラベル
レジスタ、1201−1〜2・・・・−・減算器、12
02−1〜2・・・・・・絶対値算出器、1203−1
〜2・・・・・・乗算器、1204 ・・・・・・加算
器、1202−30〜37・・・・・・排他的論理和、
1202−4””・・・全加算器。 代理人 弁理士  内 原   晋 、<:)、’l’
(”・θ7 ψ  −m−〜−−−2〒ルマン募ゴ;皮
4酎ネ百丸間の模「承狗度 第 l 図 第 27 J/、了2−f1了−−−−・已耳3ト)Lζビ!シt
、フ1呵j二】ξ5七勢(辷ミ第 3 回

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号を分析して得られる第1および第2ならび
    に第3フォルマント周波数を極座標表現することによっ
    て求まる前記フォルマント周波数相互間の2つの関係角
    度情報をベクトル要素とする標準パタンファイルを備え
    て成ることを特徴とするフォルマント型パタンマッチン
    グボコーダ。
JP61134569A 1985-07-03 1986-06-09 フオルマント型パタンマツチングボコ−ダ Expired - Lifetime JPH0738114B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP60-147262 1985-07-03
JP14726285 1985-07-03

Publications (2)

Publication Number Publication Date
JPS62103700A true JPS62103700A (ja) 1987-05-14
JPH0738114B2 JPH0738114B2 (ja) 1995-04-26

Family

ID=15426253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61134569A Expired - Lifetime JPH0738114B2 (ja) 1985-07-03 1986-06-09 フオルマント型パタンマツチングボコ−ダ

Country Status (3)

Country Link
US (1) US4914702A (ja)
JP (1) JPH0738114B2 (ja)
CA (2) CA1270568A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
US5325462A (en) * 1992-08-03 1994-06-28 International Business Machines Corporation System and method for speech synthesis employing improved formant composition
WO1997013242A1 (en) * 1995-10-02 1997-04-10 Motorola Inc. Trifurcated channel encoding for compressed speech
US6208959B1 (en) 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
NL188189C (nl) * 1979-04-04 1992-04-16 Philips Nv Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting.
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
CA1203906A (en) * 1982-10-21 1986-04-29 Tetsu Taguchi Variable frame length vocoder
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses

Also Published As

Publication number Publication date
CA1277034C (en) 1990-11-27
CA1270568A (en) 1990-06-19
US4914702A (en) 1990-04-03
JPH0738114B2 (ja) 1995-04-26

Similar Documents

Publication Publication Date Title
Ye et al. Codec does matter: Exploring the semantic shortcoming of codec for audio language model
Schroeder Vocoders: Analysis and synthesis of speech
JP3707153B2 (ja) ベクトル量子化方法、音声符号化方法及び装置
JP3707116B2 (ja) 音声復号化方法及び装置
JP3707154B2 (ja) 音声符号化方法及び装置
US12536987B2 (en) Method and device for speech synthesis based on multi-speaker training data sets
JP2023541182A (ja) カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体
US20060129399A1 (en) Speech conversion system and method
JPH0568720B2 (ja)
CN117672254A (zh) 语音转换方法、装置、计算机设备及存储介质
JPH10105194A (ja) ピッチ検出方法、音声信号符号化方法および装置
JPS62103700A (ja) フオルマント型パタンマツチングボコ−ダ
JPH10105195A (ja) ピッチ検出方法、音声信号符号化方法および装置
Ferreira et al. A holistic glotal phase related feature
JPH0215080B2 (ja)
Alkhatib et al. Voice identification using MFCC and vector quantization
JP2951514B2 (ja) 声質制御型音声合成装置
JP2709926B2 (ja) 声質変換方法
Nanzaka et al. Spectrum enhancement of singing voice using deep learning
Katahira et al. Opera singing voice synthesis considering vowel variations
JPH1097274A (ja) 話者認識方法及び装置
JPH0345839B2 (ja)
JPH01186999A (ja) 話者照合方法
Dillon Extracting audio cues in real time to understand musical expressiveness
CN115116431B (zh) 基于智能朗读亭的音频生成方法、装置、设备及存储介质