JPS63244100A - 音声分析装置および音声合成装置 - Google Patents

音声分析装置および音声合成装置

Info

Publication number
JPS63244100A
JPS63244100A JP62079208A JP7920887A JPS63244100A JP S63244100 A JPS63244100 A JP S63244100A JP 62079208 A JP62079208 A JP 62079208A JP 7920887 A JP7920887 A JP 7920887A JP S63244100 A JPS63244100 A JP S63244100A
Authority
JP
Japan
Prior art keywords
sound source
parameter
signal
parameters
source waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62079208A
Other languages
English (en)
Other versions
JP2583883B2 (ja
Inventor
藤崎 博也
マッツ・ユンクヴィスト
佐藤 泰雄
大山 隆之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62079208A priority Critical patent/JP2583883B2/ja
Publication of JPS63244100A publication Critical patent/JPS63244100A/ja
Application granted granted Critical
Publication of JP2583883B2 publication Critical patent/JP2583883B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Table Equipment (AREA)
  • Liquid Crystal Substances (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔目 次〕 概要 産業上の利用分野 従来の技術 (i)波形符号化方式 (ii)分析合成方式 発明が解決しようとする問題点 問題点を解決するための手段 (i)第1発明 (i+)第2発明 作用 (i)第1発明 (ii )第2発明 実施例 ■、実施例と第1図との対応関係 (i)第1発明 (:i)第2発明 ■、実施例の構成および動作 (i)音声分析装置 (i−1)音声分析装置の構成 (i−2)音声分析装置の動作 (11)音声合成装置 (ii −1)音声合成装置の構成 (ii −2)音声合成装置の動作 ■、実施例のまとめ ■0発明の変形態様 発明の効果 〔概 要〕 音声分析装置であって、複数のパラメータを選択的に決
定して音源波形をモデル化し、そのモデル化による音源
波形に基づいて入力音声信号を自己回帰移動平均分析し
、そのときの誤差に応じて最適なパラメータを決定する
ことによって音声分析を行なうことにより、音声に関す
る情報量が効率的に圧縮される。
また、音声合成装置であって、そのような自己回帰移動
平均分析によって得られた各種のパラメータに応じて、
音源波形のモデル化用に導入されるパラメータに基づい
て音源波形をモデル化と共に、自己回帰移動平均分析に
おいて得られた複数のパラメータを受けて、音声合成を
行なうことにより、高品質な合成音声が得られる。
〔産業上の利用分野〕
本発明は、音声分析装置および音声合成装置に関し、特
に、所謂A −b −S (Analysis−by−
5ynthesis)の手法を採ることにより、平均二
乗誤差が最小となるように声帯音源波形モデルのパラメ
ータを定め、声帯音源波形モデルを自己回帰移動平均(
以後ARMAと称する)と組み合わせことにより音声を
分析および音声の合成を行なうようにした音声分析装置
および音声合成装置に関するものである。
〔従来の技術〕
従来から、音声の認識、伝送、蓄積等にあっては、音声
に関する情報量をできるだけ圧縮し、且つ、その音声に
関する情報から高品質の音声の再生を可能とするものと
して、各種の方式が提案されている。その際、音声に関
する情報量の圧縮率を高めることおよび自然性に富む音
声の再現が望まれる。
そのような要請に応えるものとして、例えば、ADPC
M等の音声の波形をそのまま符号化する「波形符号化方
式」がある、また、これに対するものとして、ボコーダ
(VOCODBR)による狭義の「分析合成方式」があ
る。これらの方式を分けて説明しておく。
(i)波形符 化 工 「波形符号化方式」にあっては、音声信号を線形予測分
析し、線形予測係数と予測誤差を得ることによって、そ
の予測誤差を量子化するものである。また、再生する場
合には、量子化された予測誤差を分析で得られた線形予
測係数によるフィルタで駆動する。この波形符号化方式
による再生音声の歪みは予測誤差の量子化によるもので
あり、高品質の再生音声が得られる。
しかしながら、その情報量は、例えば16 kbps〜
64 kbpsであり、音声に関する情報量はかなり多
くなる。つまり、この「波形符号化方式」の圧縮率はあ
まり大きくなく、音声の認識、伝送、蓄積等が効率的で
はない。
(ii)   ム  工 「分析合成方式」にあっては、人の発する音声を分析す
る際に、当該音声の周波数スペクトル包絡情報と音源情
報とに分けて情報圧縮を行なうようにしている。従って
、音声の生成機構をモデル化し、音源信号と調音器官に
よる音響フィルタ特性とに着目している。
例えば、音響フィルタを線形予測フィルタとして、有音
声の音源信号を周期的インパルス列とすると共に無声音
の音源信号を白色雑音とする。これによれば、例えば、
音声は有声音/無声音の区別情報2周期音源に関するピ
ッチ周波数、振幅情報、線形予測係数によって表される
。言い換えれば、予測誤差分をモデル化しているとみる
ことができ、音声情報を例えば1.2 kbps 〜9
,6 kbps程度に圧縮できる。
しかしながら、この分析合成方式により合成される音声
の品質は、上述した「波形符号化方式」に比べるとかな
り低い。
〔発明が解決しようとする問題点〕
このように、上述した「波形符号化方式」および「分析
合成方式」による音声の分析または合成にあっても、音
声に関する情報量が多く、あるいは、合成後の音質が不
充分であった。そのため、「波形符号化方式」なみに高
品質であり、また、「分析合成方式」なみに情報圧縮で
きる音声の分析方式および合成方式が要望されていた。
このような要請に応えるものとして、本出願人は、特開
昭61−128299 (特願昭59−250133)
r音声分析/分析合成方式」を既に提案した。
この特許側による技法は、音源波形のモデル化にあたっ
て音源をパルスと雑音信号とで近似するのではなく、ロ
ーゼフィルタ(Rosenberg)波形等の声帯音源
波形を使用することとしている。ここで、この声帯音源
波形モデルを規定するためのピッチ周期、立ち上がり時
間、立ち下がり時間および振幅の4種パラメータを、A
−b−3手法によって求めるようにしている。
つまり、音源波形をモデル化した情報に基づいて音声の
分析または音声の分析合成を行なう場合に、少なくとも
ピッチ周期、立ち上がり時間、立ち下がり時間および振
幅の4種パラメータによって規定される音源信号で駆動
される線形予測フィルタニよって音声信号を生成する音
声合成系を有し、4種のパラメータを逐次選択して、そ
の選択された4種のパラメータについて線形予測フィル
タにより得られる合成音声信号と入力音声信号との誤差
を求め、その合成音声信号と入力音声信号との誤差がよ
り小となるように4種のパラメータに関する最適化を行
ない、当該4種のパラメータを決定するようにして、該
4種のパラメータおよび線形予測係数に基づいて音声の
分析または音声の分析合成を行なうようにするものであ
る。
しかしながら、このような技法にあっても、音声に関す
るパラメータを得て圧縮する場合、いまだ情報量の圧縮
率が低く、また、合成音声の品質が低いという問題点が
あった。
本発明は、このような点に鑑みて創作されたものであっ
て、音声に関する情I[iの圧縮率が大きい音声分析装
置と、その分析結果によって音声合成を行なう場合に高
品質な合成音声が得られる音声合成装置とを提供するこ
とを目的としている。
〔問題点を解決するための手段〕
本発明による問題点を解決するための手段としては、「
音声分析装置Jおよび「音声合成装置」がある。
」ユニ」LL1肌 第1図(A)は、第1発明による音声分析装置の原理ブ
ロック図である。
図において、パラメータ決定手段113は、音源波形の
モデル化に必要な複数のパラメータを選択的に決定し、
その決定されたパラメータを表すモデル化パラメータ信
号111を出力する。
音源波形生成手段117は、モデル化パラメータ信号1
11によって表される複数のパラメータに応じて音源波
形のモデル化を行ない、そのモデル化された音源波形を
表す音源波形信号115を出力する。
自己回帰移動平均分析手段125は、分析対象の入力音
声信号119および音源波形信号115を受けて自己回
帰移動平均分析を行なって誤差を求め、その誤差を表す
誤差信号121をパラメータ決定手段113に供給する
すると共に、自己回帰移動平均分析によるパラメータを
表す分析パラメータ出力信号123を出力する。
従って、全体として、誤差信号121によって表される
前記誤差に応じて、パラメータ決定手段113の前記複
数のパラメータを変化させるように構成されている。
」」ユJiλ吸 第1図(B)は、第2発明による音声合成装置の原理ブ
ロック図である。
図において、音源波形生成手段135は、分析対象の音
声信号を自己回帰移動平均分析する際に必要とされる音
源波形をモデル化するために得られる複数の第1パラメ
ータを表すモデル化パラメータ信号131を受け、該第
1パラメータに基づいて音源波形をモデル化し、そのモ
デル化した音源波形を表す音源波形信号133を出力す
る。
自己回帰移動平均合成手段141は、自己回帰移動平均
分析において得られた複数の第2パラメータを表すパラ
メータ信号137と、音源波形生成手段135からの音
源波形信号133とを受けて、第1パラメータおよび第
2パラメータに基づいて音声合成を行なって合成音声出
力信号139を出力する。
従って、全体として、自己回帰移動平均分析によって得
られた各種のパラメータに応じて、音源波形のモデル化
を行なうと共に、自己回帰移動平均分析パラメータに基
づいて音声合成を行なうように構成されている。
(作 用〕 一口」」」L1哩 パラメータ決定手段113において選択的に決定された
複数のパラメータに応じて、音源波形生成手段117は
音源波形をモデル化する。そのモデル化された音源波形
の音源波形信号115に基づいて、自己回帰移動平均分
析手段125は入力音声信号119を自己回帰移動平均
分析する。
そのときの誤差がパラメータ決定手段113に与えられ
て、該パラメータ決定手段113は、複数のパラメータ
を最適化する。
このパラメータ決定手段113でのパラメータの最適化
の結果として、該パラメータ決定手段l13から音源波
形パラメータが得られると共に、自己回帰移動平均分析
手段125から自己回帰移動平均パラメータが得られる
なお、本発明装置がより具体的な動作を行なう上では(
実施態様に相当する)、パラメータ決定手段113にお
いて選択され且つ最適化される複数のパラメータは、ピ
ッチ周期、声門開放時間。
声門開放区間内での音源の歪み、声門閉鎖から体積流が
負の最大値に達する時間、声門開放開始時の体積流波形
の傾き、声門閉鎖直前の体積流波形の傾きおよび声門閉
鎖直後の体積流波形の傾きの7種のである。これらのパ
ラメータによって音源波形をモデル化する。
本発明にあっては、パラメータ決定手段113でのパラ
メータの最適化によって、音源波形パラメータおよび自
己回帰移動平均パラメータが得られるので、音声に関す
る情報量が効率的に圧縮される。
」ユ上m盟 既に得られている音源波形パラメータに基づいて、モデ
ル化パラメータ信号131は音源波形をモデル化する。
このモデル化によって得られた音源波形と、既に得られ
た自己回帰移動平均バラメークとに基づいて、自己回帰
移動平均合成手段141は音声合成を行なう。
なお、本発明装置がより具体的な動作を行なう上では(
実施態様に相当する)、既に得られている音源波形パラ
メータは、ピッチ周期、声門開放時間、声門開放区間内
での音源の歪み、声門閉鎖から体積流が負の最大値に達
する時間、声門開放開始時の体積流波形の傾き、声門閉
鎖直前の体積流波形の傾きおよび声門閉鎖直後の体積流
波形の傾きの7種である。これらのパラメータによって
音源波形をモデル化する。
本発明にあっては、既に得られた音源波形パラメータお
よび自己回帰移動平均パラメータに基づいて、自己回帰
移動平均によって音声合成を行なうことにより、高品質
な合成音声が得られる。
(実施例〕 以下、図面に基づいて本発明の実施例について詳細に説
明する。
第2図は、本発明の一実施例による音声分析装置を示す
、第3図は第2図の音声分析装置において利用される音
源波形モデルを示す、第4図は本発明の一実施例による
音声合成装置を示す。第5図は第4図に示す音声合成装
置におけるARMAフィルタを具体的に示す。
1、・方 と第1゛との対応関係 ここで、本発明の実施例と第1図との対応関係を示して
おく。
−Qユ」」Lλ里 モデル化パラメータ信号IIIは、音源波形パラメータ
信号227に相当する。
パラメータ決定手段113は、最適パラメータ決定部2
23.パラメータ選択部225に相当する。
音源波形信号115は、声帯音源波形信号2エフに相当
する。
音源波形生成手段117は、声帯音源波形生成部215
に相当する。
入力音声信号119は、入力音声信号211に相当する
誤差信号121は、ARMA分析部213がらの誤差信
号221に相当する。
分析パラメータ出力信号123は、ARMAパラメータ
信号219に相当する。
自己回帰移動平均分析手段125は、ARMA分析部2
13に相当する。
」工と玉1又所 モデル化パラメータ信号131は、音源波形パラメータ
信号411に相当する。
音源波形信号133は、声帯音源波形信号415に相当
する。
音源波形生成手段135は、声帯音源波形生成部413
に相当する。
パラメータ信号137は、ARMAパラメータ信号41
7に相当する。
合成音声出力信号1°39は、合成音声信号421に相
当する。
自己回帰移動平均合成手段141は、ARMAフィルタ
419に相当する。
第1発明および第2発明が、以上のような対応関係があ
るものとして、以下本発明の実施例について説明する。
■、    の  および 本発明は、「音声分析装置」および「音声合成装置」に
関するので、以下、場合を分けて説明する。
(i)音声  ′I4+置 先ず、第1発明が適用された音声分析装置について、以
下説明する。ここで、分析対象となっているのは、人に
よって発声された音声であるものとする。
(i−1)!  舅の 第2図において、マイクロホン231は分析対象となっ
ている発音を採取するものであり、該マイクロホン23
1からの採取信号はアナログ−ディジタル(A/D)変
換器233に供給されるようになっている。
このA/D変換器233において量子化され、ディジタ
ル化されて得られた入力音声信号211が、分析対象と
してARMA分析部213に供給される。このARMA
分析部213は、声帯音源波形生成部215からの声帯
音源波形信号217に基づいて音声分析をして、ARM
Aパラメータを表すARMAパラメータ信号219を出
力するものである。
音声分析の過程にあっては、入力音声信号211と声帯
音源波形信号217とによる誤差を表す誤差信号221
が発生されて、最適パラメータ決定部223に供給され
る。この最適パラメータ決定部223は、パラメータ選
択部225を具えており、該最適パラメータ決定部22
3でのパラメータを適宜選択して切り換えるものである
。パラメータ選択部225によって選択された音源波形
パラメータを表す音源波形パラメータ信号227が出力
され、声帯音源波形生成部215に供給されるようにな
っている。
(i−2)の 上記構成の本発明実施例にあっては、音声分析のための
音源のモデル化には、周期音源としてインパルスを用い
るのではなく、声帯音源波形モデルを採用している0例
えば人の声には、明瞭な声や唆れ声など種々の変化があ
る。これには、音源の相違による影響が考えられ、−律
にインパルスで近似した場合、妥当な結果を得ることは
困難である。声帯音源波形モデルを用いることにより、
より近似性を向上させることができる。
第3図は、−例としての声帯音源波形g(t)およびそ
の微分波形#(1)を示す。
ところで、モデル化された声帯音源波形は、ピッチ周期
T、声門開放時間W、声門開放区間内での音源の歪みS
、声門閉鎖から体積流が負の最大値に達する時間り、声
門開放開始時の体積流波形の傾きA、声門閉鎖直前の体
積流波形の傾きBおよび声門閉鎖直後の体積流波形の傾
きCの7種のパラメータによって表すことができる。そ
こで、声帯音源波形の微分波形#(1)を、時間tによ
って分けて表す。
■ g<t≦Rの場合、 g(t)−A−(2A+R,α)  t/R+ (2A
 + R3α)  tZ /R2・・・・・・(1) ■ R<t≦Wの場合、 gct”)=α(t−R) +(3B−2αF)(t−R)”/F”+(2B=αF
)(t−R)’ /F3・・・・・・ (2) ■ W< t5W+Dの場合、 g(t)=C−2(C−β)(t −W) /D+ (
C−β)(t−W)” /D” ・・・・・・ (3) ■ W+D<t≦Tの場合、 #(1)=β          ・・・・・・(4)
となる。
ここで、α、βは、以下のように表される。
α= (4AR+6FB)/ (2R” −F” )・
・・・・・(5) β=CD/ (D−3(T−W))  ・・・・・・(
6)ところで、声門開放時間Wおよび声門開放区間内で
の音源の歪みSは、 W=R+F           ・・・・・・(7)
S−(R−F)/ (R+F)   ・・・・・・(8
)によって表される。
そこで、第2図に示す構成において、予め定められたピ
ッチ周期T、声門開放時間W、声門開放区間内での音源
の歪みS、声門閉鎖から体積流が負の最大値に達する時
間り、声門開放開始時の体積流波形の傾きA、声門閉鎖
直前の体積流波形の傾きBおよび声門閉鎖直後の体積流
波形の傾きCの7種のパラメータの適当な初期値が、最
適パラメータ決定部223に与えられる。
パラメータ選択部225では、最初に、これら7種のパ
ラメータを初期値により選択し、音源波形パラメータ信
号227として出力し、声帯音源波形生成部215に与
える。
声帯、音源波形生成部215では、これら7種のパラメ
ータ(ピッチ周期T、声門開放時間W、声門開放区間内
での音源の歪みS、声門閉鎖から体積流が負の最大値に
達する時間り、声門開放開始時の体積流波形の傾きA、
声門閉鎖直前の体積流波形の傾きBおよび声門閉鎖直後
の体積流波形の傾きC)に基づいて積分により、第3図
に示すような声帯音源波形g(t)を合成して得る。そ
の合成結果たる声帯音源波形g(t)を表す声帯音源波
形信号217がARMA分析部213に与えられる。
なお、この声帯音源波形g(t)には、必要に応じて、
所謂放射特性を加味した補正が為されていてもよい。
声帯音源波形信号217と入力音声信号211とに基づ
いて音声分析を行なうARMA分析部213は、ARM
Aパラメータに基づく周波数スペクトル包絡に従って疑
似音声を合成し、声帯音源波形信号217とを比較する
。これら両信号間での誤差が最小となるように、音源波
形パラメータおよびARMAパラメータを求める。
いま、ARMA分析部213でのARMA分析では、音
声信号s (n)は、 ・・・・・・(9) として表される。
ここで、α1はARパラメータであり、βjはMAパラ
メータである。pおよびqはそれぞれの予測次数、g 
(n)は音源信号、e(n)は予測誤差信号である。α
ム、βjを合わせてARMAパラメータと称し、周波数
スペクトル包絡を示すものであり、これらのパラメータ
はARMAパラメータ信号219として外部(例えば、
第4図において後述する音声合成装置)に供される。
ARMA分析部213において、最小化されるべき誤差
E(誤差信号221によって表される)は、 として表される。
このようにして求められた誤差Eは最適パラメータ決定
部223へ供給される。
最適パラメータ決定部223は、この予測誤差を小さく
するために、声帯音源波形を規定するパラメータを少し
ずつ変化させてい(ように、パラメータ選択部225に
指示を与える。このパラメータ選択部225は、以前の
パラメータと異なる値をとるパラメータを選択して、声
帯音源波形生成部215に出力する。
ところで、このパラメータの選択は、例えばホルマント
抽出に採られるA −b −S (Analysis−
by−Synthesis)手法としている。
以上のような手順を繰り返して、最適な7種のパラメー
タ(ピッチ周期T、声門開放時間W、声門開放区間内で
の音源の歪みS、声門閉鎖から体積流が負の最大値に達
する時間り、声門開放開始時の体積流波形の傾きA、声
門閉鎖直前の体積流波形の傾きBおよび声門閉鎖直後の
体積流波形の傾きC)を決定する。即ち、所謂A−b−
S手法を用いることにより、時間領域における平均二乗
誤差が最小となるように、上記7種のパラメータを定め
る。
このようにして入力音声信号211に対するARMA分
析が行なわれ、その分析結果として、ARMAパラメー
タ信号219によって表されるARMAパラメータおよ
び音源波形パラメータ信号227によって表される音源
波形パラメータ(ピッチ周期T、声門開放時間W、声門
開放区間内での音源の歪みS、声門閉鎖から体積流が負
の最大値に達する時間り、声門開放開始時の体積流波形
の傾きA、声門閉鎖直前の体積流波形の傾きBおよび声
門閉鎖直後の体積流波形の傾きCの7種のパラメータ)
が得られる。
これらARMAパラメータおよび音源パラメータによっ
て入力音声が表されるので、それらを圧縮情報として、
該音声の情報を圧縮したことになる。また、後の音声合
成のために、これら複数のパラメータを外部装置(メモ
リ等)によって蓄積しておけばよい。従って、これらの
パラメータを利用して、音声分析装置とは別個に構成さ
れた音声合成装置(後述する)によって、逆に音声合成
を行なうことができる。
(ii )音声合成装置 次に、第2発明が適用された音声合成装置について以下
説明する。この音声合成装置は、上述した音源分析装置
によるARMA分析によって得られたパラメータで駆動
されるものである。なお、各種のパラメータは、音声合
成を行なう際に通信回線を介して受領してもよく、また
、予めROM化されたものを利用してもよい。
(ii −1)”入 社 の 第4図に示す「音声合成装置」は、その音声合成のため
の各種パラメータを、第2図に示した「音声分析装置」
から直にもらうものとする。
第4図において、音源波形パラメータ信号411が入力
される声帯音源波形生成部413は、第2図に示した声
帯音源波形生成部215と同じである。音源波形パラメ
ータ信号411によって表される音源波形パラメータに
基づいて、音源波形をモデル化し、そのモデル化によっ
て得られた声帯音源波形信号415を発生するものであ
る。
また、ARMAパラメータ信号417を受けるARMA
フィルタ419は、声帯音源波形生成部413からの声
帯音源波形信号415に基づいて音声合成をして、その
合成結果たる合成音声信号421を出力するものである
ところで、音源波形パラメータ信号411およびARM
Aパラメータ信号417によって表される音源波形パラ
メータおよびARMAパラメータは、上述した音声分析
装置での分析結果として得られるパラメータである。従
って、音源波形パラメータは、ピッチ周期T、声門開放
時間W、声門開放区間内での音源の歪みS、声門閉鎖か
ら体積流が負の最大値に達する時間り、声門開放開始時
の体積流波形の傾きA、声門閉鎖直前の体積流波形の傾
きBおよび声門閉鎖直後の体積流波形の傾きCの7種の
パラメータで成る。
第5図は、第4図のARMAフィルタ419の詳細構成
を示す。ここで、ARMAパラメータ信号417によっ
て表されるARMAパラメータ(ARパラメータα五お
よびMAパラメータβj)は、p個の係数器511..
511.、・・・・・・、5139.・・・・・・、5
11.に、また、他のq個の513、.5132.・・
・・・・、513.にそれぞれ供給されるようになって
いる。ここで、pおよびqは、予測次数である。
更に、直列に接続されたp個の遅延素子515+、51
5z、・・・・・・、515.、・・・・・・、515
゜が具わっており、それぞれの遅延素子は、時間要素Z
で定まる単位時間の時間遅れ要素である。各遅延素子に
よって、順次遅延された出力信号が、対応する次数の係
数器511および係数器513に共通に供給されるよう
になっている。
声帯音源波形生成部413からの声帯音源波形信号41
5と、p個の係数器511.〜511゜からの出力信号
が加算器517に供給され、該加算器517の加算出力
信号は、係数器5111および別な加算器519に共通
に供給されるものである。また、加算器519には、q
個の係数器513+〜513qの出力信号も供給され、
合成音声信号421が出力されるようになっている。
(ii−2)″−人壮装の作 上述した構成による音声合成装置において、「(i)音
声分析装置」にて前述した「音声分析装置」の最適パラ
メータ決定部223からの音源波形パラメータ信号22
7によって提供される音源波形パラメータが、先ず、声
帯音源波形生成部413に与えられる。この声帯音源波
形生成部413は、前述した「音声分析装置」の声帯音
源波形生成部215と同じ構成および動作を為すもので
あり、与えられた音源波形パラメータ(ピッチ周期T、
声門開放時間W、声門開放区間内での音源の歪みS、声
門閉鎖から体積流が負の最大値に達する時間り、声門開
放開始時の体積流波形の傾きA、声門閉鎖直前の体積流
波形の傾きBおよび声門閉鎖直後の体積流波形の傾きC
の7種のパラメータ)に基づいて、音源波形をモデル化
して声帯音源波形g(t)を生成し、声帯音源波形信号
415として出力する。
一方、これに対して、ARMAフィルタ419内のp個
の係数器5111.511g、・・・・・・、511Q
、・・・・・・、511pの係数は、ARパラメータα
! (α1.αz、°9°I”、 Q’q、 ”−−−
−、αp)に応じて変化し、当該ARMAフィルタ41
9にとって最適な係数が決定される。同様にして、他の
q個の係数器513..513g、・・・・・・、51
3qのそれぞれの係数も、MAパラメータβ五 (β1
.β2.・・・・・・、βQ)に応じて変化して決定さ
れる。
そのように、音声合成する上で最適なものとして決定さ
れたp個の係数器5111〜511.および他のq個の
係数器5131〜513.のそれぞれの係数に基づいて
、声帯音源波形生成部413においてモデル化された声
帯音源波形信号415  (g(t))をフィルタリン
グする。
いま、加算器517の出力信号をS %17とすると、
第1遅延素子5151の出力信号5SISIは、加算器
517の出力信号5SI7を単位時間(時間要素Zで定
まる)だけ遅延させたものである。また、第2遅延素子
515□の出力信号ss+szは、第1遅延素子515
Iの出力信号5sISIを単位時間だけ遅延させたもの
である。同様にして、他の遅延素子の出力信号は、順次
単位時間だけ遅延されている。
そのため、係数器511.および他の係数器513+の
出力信号S!1111およびS S13+は、α、・S
 s1%1およびβ2 ・5sts+で表される。また
、次の係数器5118および他の係数器513gの出力
信号SS+□およびSSt。は、α2・ SSI□およ
びβ2 ・ss+szで表される。その他の係数器につ
いても同様にして、各遅延素子による出力信号を係数倍
して出力する。
これらp個の係数器511.〜511.の出力信号が前
段の加算器517に供給され、声帯音源波形生成部41
3からの声帯音源波形(g(t) )信号415との総
計和が取られる。
また、他のq個の係数器5131〜513qの出力信号
が後段の係数供給519に供給され、加算器517の出
力信号S、17と共に総計和が取られる。この加算器5
19によって合成された音声信号が、当該音声合成装置
の合成音声信号421として出力される。
見−大施斑曵圭上泣 このように、本発明実施例の「音声分析装置」にあって
は、複数のモデル化パラメータを選択的に決定して音源
波形をモデル化し、そのモデル化による音源波形に基づ
いて入力音声信号211を自己回帰移動平均分析し、そ
のときの誤差に応じて、最適なパラメータを決定するこ
とにより、音声分析を行なう。
また、「音声合成装置」にあっては、音声分析装置側で
の自己回帰移動平均分析によって得られた音源波形パラ
メータに応じて声帯音源波形生成部413で音源波形を
モデル化している。更に、音声分析装置側での自己回帰
移動平均分析によって得られたARパラメータα、、M
Aパラメータβ直に応じて、ARMAフィルタ419が
音声合成を行なっている。
いずれも、ARMAによっているので、音声に関する情
報量が効率的に圧縮され、且つ、高品質な合成音声が得
られることとなる。
第6図は、原音声の周波数スペクトル(ORIG)と本
方式(GARMA)および従来方式(ARMA、GLP
C,LPC)によって推定された鼻音化母音の周波数ス
ペクトル包絡の比較を示している。
ここで、本方式(GARMA)は、分析用の「音響フィ
ルタ」としてARMAモデルに基づく極零フィルタを、
また、「音源」として第3図に示す声帯音源波形を採用
している。
これに対して、従来方式としてのARMAは、分析用の
「音響フィルタ」としてARMAモデルに基づく極零フ
ィルタを、「音源」としてパルスを採用した場合である
。また、従来方式のGLPCは、「音響フィルタ」とし
て線形予測法による全権型フィルタを、「音源」として
第3図に示す声帯音源波形を採用した場合である。更に
、従来方式のLPGは、「音響フィルタ」として線形予
測法による全極型フィルタを、「音源」としてパルスを
採用した場合である。
このように、本方式(GARMA)は、従来方式に比較
してより良く原音のスペクトル包絡ヲ近似しており、再
生の際には原音に忠実となることが分かる。
ところで、本発明実施例は、特に、有声音に対して有効
であり、無声音部分に対して分析を行なう場合、例えば
、その部分だけ、従来の波形符号化方式を用い、本発明
実施例による方式と従来用いられている方式とを組み合
わせて、本発明を実施することができる。
■、  の・形態様 なお、上述した本発明の実施例にあっては、「音声分析
装置」および「音声合成装置」を対として一体的に構成
されるようにしたが、これに限られることはない。つま
り、音声分析装置および音声合成装置は互いに別々に構
成され且つ使用され得るものである。従って、例えば、
ある1つの「音声分析装置」によって得られた分析結果
たる種々のパラメータ(音源波形パラメータおよびAR
MAパラメータ)をROM等によって、複数の「音声合
成装置」のそれぞれに個別に提供し、各音声合成装置に
おいて個別に音声合成を行なうよにしてもよい。
また、「1.実施例と第1図との対応関係」において、
第1図と本発明との対応関係を説明しておいたが、これ
に限られることはなく、各種の変形態様があることは当
業者であれば容易に推考できるであろう。
〔発明の効果〕
上述したように、本発明による音声分析装置では、音源
波形モデル化のパラメータを選択的に決定して音源波形
をモデル化し、そのモデル化による音源波形に基づいて
入力音声信号を自己回帰移動平均分析し、そのときの誤
差に応じて最適なパラメータを決定することによって音
声分析を行なうようにしている。
また、本発明による音声合成装置では、そのような自己
回帰移動平均分析によって得られた各種のパラメータに
応し、音源波形のモデル化用に導入されるパラメータに
基づいて音源波形をモデル化し、自己回帰移動平均分析
において得られた複数のパラメータを受けて音声合成を
行なうようにしている。
従って、自己回帰移動平均分析および合成による結果と
して、音声に関する情報量が効率的に圧縮され且つ高品
質な合成音声が得られるので、実用的には極めて有用で
ある。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明の一実施例による音声分析装置の構成ブ
ロック図、 第3図は第2図に示す音声分析装置において利用される
音源波形の説明図、 第4図は本発明の一実施例による音声合成装置の構成ブ
ロック図、 第5図は第4図に示す音声合成装置に用いられるARM
Aフィルタの具体的な構成を示すブロック図、 第6図は本発明実施例による方式と従来方式とによる音
声の周波数スペクトル包絡の比較を示す説明図である。 図において、 111はモデル化パラメータ信号、 113はパラメータ決定手段、 115は音源波形信号、 117は音源波形生成手段、 119は入力音声信号、 121は誤差信号、 123は分析パラメータ出力信号、 125は自己回帰移動平均分析手段、 131はモデル化パラメータ信号、 133は音源波形信号、 135は音源波形生成手段、 137はパラメータ信号、 139は合成音声出力信号、 141は自己回帰移動平均合成手段、 211は入力音声信号、 213はARMA分析部、 215は声帯音源波形生成部、 217は声帯音源波形信号、 219はARMAパラメータ信号、 223は最適パラメータ決定部、 225はパラメータ選択部、 227は音源波形パラメータ信号、 411は音源波形パラメータ信号、 413は声帯音源波形生成部、 415は声帯音源波形信号、 417はARMAパラメータ信号、 419はARMAフィルタ、 421は合成音声信号、 5111〜511..5131〜513.は係数器、 515I〜515.は遅延素子、 517.519は加算器である。 不順←日月め原理ブ゛ロツク口 第1図(A) 不釜明の馴す17亡ツク図 第1図CB) ¥1色詩1]の塙へ図 第2図 音左1奇簡説哨口 第3図 第4図 第6図

Claims (6)

    【特許請求の範囲】
  1. (1)音源波形のモデル化に必要な複数のパラメータを
    選択的に決定し、該決定されたパラメータを表すモデル
    化パラメータ信号(111)を出力するパラメータ決定
    手段(113)と、 該モデル化パラメータ信号(111)によって表される
    前記複数のパラメータに応じて音源波形のモデル化を行
    ない、そのモデル化された音源波形を表す音源波形信号
    (115)を出力する音源波形生成手段(117)と、 分析対象の入力音声信号(119)および音源波形信号
    (115)を受けて自己回帰移動平均分析を行なって誤
    差を求め、該誤差を表す誤差信号(121)をパラメー
    タ決定手段(113)に供給するすると共に、前記自己
    回帰移動平均分析によるパラメータを表す分析パラメー
    タ出力信号(123)を出力する自己回帰移動平均分析
    手段(125)と、 を具え、誤差信号(121)によって表される前記誤差
    に応じて、パラメータ決定手段(113)の前記複数の
    パラメータを変化させて最適なパラメータを決定するよ
    うに構成したことを特徴とする音声分析装置。
  2. (2)前記音源波形のモデル化に必要な複数のパラメー
    タは、声帯音源波形モデルを規定するピッチ周期、声門
    開放時間、声門開放区間内での音源の歪み、声門閉鎖か
    ら体積流が負の最大値に達する時間、声門開放開始時の
    体積流波形の傾き、声門閉鎖直前の体積流波形の傾きお
    よび声門閉鎖直後の体積流波形の傾きの7種であること
    を特徴とする特許請求の範囲第1項記載の音声分析装置
  3. (3)パラメータ決定手段(113)における前記複数
    のパラメータの最適化は、誤差信号(121)によって
    表される誤差が最小となる方向で、前記複数のパラメー
    タを変化させるように構成したことを特徴とする特許請
    求の範囲第1項記載の音声分析装置。
  4. (4)分析パラメータ出力信号(123)によって表さ
    れる前記パラメータは、自己回帰移動平均分析手段(1
    25)での自己回帰移動平均分析によって得られる自己
    回帰移動平均パラメータであることを特徴とする特許請
    求の範囲第1項記載の音声分析装置。
  5. (5)分析対象の音声信号を自己回帰移動平均分析する
    際に必要とされる音源波形をモデル化するために得られ
    る複数の第1パラメータを表すモデル化パラメータ信号
    (131)を受け、該第1パラメータに基づいて音源波
    形をモデル化し、該モデル化した音源波形を表す音源波
    形信号(133)を出力する音源波形生成手段(135
    )と、前記自己回帰移動平均分析において得られた複数
    の第2パラメータを表すパラメータ信号(137)を受
    けると共に、音源波形生成手段(135)からの音源波
    形信号(133)を受けて、前記第1パラメータおよび
    第2パラメータに基づいて音声合成を行なって合成音声
    出力信号(139)を出力する自己回帰移動平均合成手
    段(141)と、を具えるように構成したことを特徴と
    する音声合成装置。
  6. (6)前記第1パラメータは声帯音源波形モデルを規定
    するのに必要なピッチ周期、声門開放時間、声門開放区
    間内での音源の歪み、声門閉鎖から体積流が負の最大値
    に達する時間、声門開放開始時の体積流波形の傾き、声
    門閉鎖直前の体積流波形の傾きおよび声門閉鎖直後の体
    積流波形の傾きの7種のパラメータであり、また、前記
    第2パラメータは自己回帰移動平均パラメータであるこ
    とを特徴とする特許請求の範囲第5項記載の音声合成装
    置。
JP62079208A 1987-03-31 1987-03-31 音声分析装置および音声合成装置 Expired - Fee Related JP2583883B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Publications (2)

Publication Number Publication Date
JPS63244100A true JPS63244100A (ja) 1988-10-11
JP2583883B2 JP2583883B2 (ja) 1997-02-19

Family

ID=13683526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62079208A Expired - Fee Related JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Country Status (1)

Country Link
JP (1) JP2583883B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03222000A (ja) * 1990-01-29 1991-09-30 Nec Corp 声帯音源波モデルを用いた音声分析装置
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2018141917A (ja) * 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118887A (ja) * 1984-07-06 1986-01-27 Yokogawa Hokushin Electric Corp チヨツパ−

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118887A (ja) * 1984-07-06 1986-01-27 Yokogawa Hokushin Electric Corp チヨツパ−

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03222000A (ja) * 1990-01-29 1991-09-30 Nec Corp 声帯音源波モデルを用いた音声分析装置
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2018141917A (ja) * 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法

Also Published As

Publication number Publication date
JP2583883B2 (ja) 1997-02-19

Similar Documents

Publication Publication Date Title
JP2787179B2 (ja) 音声合成システムの音声合成方法
RU2439721C2 (ru) Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
US8229738B2 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US6041297A (en) Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
Dutoit et al. Applied Signal Processing: A MATLABTM-based proof of concept
US20050131681A1 (en) Continuous time warping for low bit-rate celp coding
EP0380572A1 (en) SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS.
JPH0677200B2 (ja) デジタル化テキストの音声合成用デジタルプロセッサ
WO2003010752A1 (fr) Appareil d&#39;elargissement de la largeur de bande vocale et procede d&#39;elargissement de la largeur de bande vocale
Rabiner et al. Computer synthesis of speech by concatenation of formant-coded words
JPS63244100A (ja) 音声分析装置および音声合成装置
JP4433668B2 (ja) 帯域拡張装置及び方法
JP4438280B2 (ja) トランスコーダ及び符号変換方法
Verfaille et al. Adaptive effects based on STFT, using a source-filter model
JP4451633B2 (ja) 最適窓生成方法、窓最適化処理装置、プログラム、線形予測分析最適化方法及び線形予測分析最適化装置
US7130799B1 (en) Speech synthesis method
JP3394281B2 (ja) 音声合成方式および規則合成装置
JPS61128299A (ja) 音声処理装置
US7512534B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JP2001154683A (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JP3199128B2 (ja) 音声の符号化方法
JPS61259300A (ja) 音声合成方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees