JP2000214877A

JP2000214877A - 音声素片作成方法及び装置

Info

Publication number: JP2000214877A
Application number: JP11017221A
Authority: JP
Inventors: Takeshi Iwaki; 健岩木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-01-26
Filing date: 1999-01-26
Publication date: 2000-08-04
Anticipated expiration: 2019-01-26
Also published as: JP3883318B2

Abstract

(57)【要約】【課題】精度を上げるためには、目視による作業が不
可欠であった。【解決手段】探索始点に対応する時刻と各極大点に対
応する時刻との時間差がフォルマント周期の定数倍に一
致する、時間軸上最も手前の極大点をピッチマークに設
定するようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、所定の規則に基づ
いて任意の音声を合成する音声合成装置に関し、特に、
音声波形を接続することにより合成音声を得る装置に関
するものである。また、当該装置で使用する音声波形の
切り出しに適用する音声素片作成方法及び装置に関す
る。

【０００２】

【従来の技術】従来のテキスト音声変換装置、すなわち
テキスト文章を音声に変換して出力するテキスト音声変
換装置は、一般に、テキスト解析部と、パラメータ生成
部と、音声合成部から構成されている。

【０００３】このうち、テキスト解析部は、入力された
漢字かな混じり文を、単語辞書を参照して形態素解析す
ることにより、読み、アクセント、イントネーションの
決定を行い、解析結果を韻律記号付き発音記号（中間言
語）として出力する手段として機能する。また、パラメ
ータ生成部は、ピッチ周波数パターンや音韻継続時間等
の設定を行う手段として機能する。また、音声合成部
は、音声の合成処理を行うための手段として機能する。

【０００４】ところで、音声合成部における音声合成処
理には、以前から線形予測法などが用いられている。線
形予測法は、音声波形を、音源インパルスによって励起
された声道調音等価フィルタの出力であると考え、この
等価フィルタの特性を受動的かつ線形と仮定すれば、線
形微分方程式の解として音声波形の予測が可能であり、
音声スペクトル特性は線形予測計数として抽出可能であ
るとする予測方法である。

【０００５】なお、線形予測分析については、例えば、
下記に挙げる文献等、古くから研究がなされており、多
くの文献が存在するため、ここでの詳述は避ける。（１）古井貞著，“ディジタル音声処理" pp.60
-89, 東海大学出版（２）新見康永著，“音声認識" pp.53-56, 共立
出版因みに、人間の聴覚は、一般にスペクトルの山（フォル
トマント）に非常に敏感で、逆にスペクトルの谷（アン
チフォルマント）には敏感ではないといわれている。前
述の線形予測分析は、全極型スペクトルをもつという特
徴から、音声生成モデルのパラメトリックな分析法とし
て非常に有効であり、フォルマント周波数およびそのバ
ンド幅を求めることができる。

【０００６】しかし、線形予測分析等のこれら方法で
は、本来相互関係がある声道情報と音源情報を分離して
取り扱っていたため、また、音声生成過程のモデル化に
よる制約のため、音質の劣化が避けられないという問題
があった。

【０００７】そこで、近年、声道情報と音源情報とを明
確には分離せず、さらに原音声波形をそのまま利用し
て、音声波形に含まれる細かい微妙な変動を人工的なモ
デル化なしで活用し、品質劣化の少ない高品質の合成音
を得る手法が用いられるようになってきた。

【０００８】音声波形をそのまま利用する方法として
は、例えば、下記の文献「F.J.Charpentier,M.G.Stell
a,"Diphone synthesis using an overlap-add techniqu
e for speech waveforms concatanation",Proc.Int.Con
f.ASSP,2015-2018,Tokyo,1986」に示されるものが知ら
れている。この方法は、予め音声波形にピッチマーク
（重畳基準点）をつけておき、その位置を中心に切り出
して、合成時には合成ピッチ周期にあわせて、ピッチマ
ーク位置を合成ピッチ周期ずらしながら重ね合わせる合
成方法で、ＰＳＯＬＡ（Pitch-Syncronous OverLap Add
method）（ピッチ同期波形重畳法）として知られてい
る。

【０００９】図２に、上記文献から引用した、ピッチを
変更しながら音声波形を重畳するＰＳＯＬＡ法の模式図
を示す。これは、分析時（素片作成時）に比べて合成時
にピッチ周期を大きくした（音程を低くした）場合の例
について表したものである。このように、ＰＳＯＬＡ法
では、ピッチ周期の変更が可能なため、テキスト音声変
換における音声合成部として広く用いられている。な
お、ピッチマークは１ピッチごとに付けておく必要があ
る。このため、ピッチマーク位置の設定方法として、下
記に示すような各種手法が提案されている。（１）音声波形のピークをピッチマークの設定位置とす
る方法この方法についての文献としては、例えば、特開平４−
３７２９９９号公報に記載の「音声ピッチ変換方法」が
ある。この方法は、音声波形のローカルピーク位置には
エネルギーが集中するため、切り出し波形のスペクトル
を保存するのに適していると考えられる。

【００１０】しかし、音声波形のピークでは、無声子音
の前後の有声音や、破裂音または破擦音を含む有声音に
おいて、高周波（ホワイトノイズ）成分が大きくなり、
合成時の単位（１フレーム）ごとにピッチマークのゆら
ぎが生じる。図３に、この様子を示す。１ピッチ波形の
最初の山に２つのピークが存在している様な場合、図の
ように音韻中の途中のフレームから、ピッチマークとす
るピークが移動する場合が生じ、結果として接続の悪い
ゴロゴロした音になる。（２）音声波形のローパスフィルタリング後の波形に現
れる複数の極大値のうち励振後の最初の極大値をピッチ
マークの設定位置とする方法この方法によれば、前述した（１）の方法の問題点を解
決でき、安定なピッチマークの抽出が可能である。

【００１１】

【発明が解決しようとする課題】しかし、より高音質の
音声合成を実現するには、ピッチマークの設定に際し、
各発声者および各発声音韻ごとにその波形の特徴が異な
ることをも考慮する必要ことが望ましい。

【００１２】すなわち、前述の（２）の方法において
も、個々の波形の形状に応じて、各発声者あるいは各音
韻ごとに、そのピッチマーク抽出のパラメータ、探索範
囲等の調整を波形レベルで行うことが、より音質の高い
音声合成を実現する上で望まれる。

【００１３】このことを、図４を用いて説明する。図４
の場合、強度閾値ｂが小さすぎるため、ピッチマークと
して極大点ａを誤抽出している。この例で示されるよう
に極大点がそれぞれ十分に大きな波形の場合、ピッチマ
ーク探索の基準となる探索始点（ｍａｘ）が、１ピッチ
波形中のどの極大点に当たるのか不明であり、探索範囲
を小さく絞り込むことができず、結果として目視により
パラメータをフレームごとに与えなければならなかっ
た。

【００１４】本発明は、以上の問題点を考慮してなされ
たもので、比較的簡単な処理でありながら、発声者およ
び発声音韻に依存せずにピッチマークの正確な抽出が可
能な音声素片作成方法及び装置の提供を目的とする。ま
た、これらを適用することにより、高品質の音声合成装
置を提供することを目的とする。

【００１５】

【課題を解決するための手段】かかる課題を解決するた
め、本発明においては、(1) 各フレームごとに音声信号
のフォルマント周波数を抽出するフォルマント周波数抽
出工程（手段）と、(2) 該フレームの中央近傍に現れる
音声信号波形の最大点を検出する最大点検出工程（手
段）と、(3) 最大点を探索始点に定め、該探索始点に対
し時間軸上手前に現れる音声信号波形の極大点を検出す
る極大点検出工程（手段）と、(4) 探索始点に対応する
時刻と各極大点に対応する時刻との時間差を求める極大
点間時間差検出工程（手段）と、(5) フォルマント周期
の定数倍に前記時間差が一致する、時間軸上最も手前の
極大点をピッチマークに設定するピッチマーク設定工程
（手段）と、(6) 設定された前記ピッチマークを中心と
して、音声波形を切出す音声波形切出工程（手段）とを
備えるようにする。

【００１６】かかる構成とすることにより、ピッチマー
クの探索の基準となる探索始点が１ピット波形中のどの
位置の極大点であったとしても、本発明の場合には、フ
ォルマント周期の定数倍に前記時間差が一致する、時間
軸上最も手前の極大点を確実に見つけ出してピッチマー
クに設定することができる。

【００１７】この結果、発声者や発生音韻に応じて異な
る音声波形の特質に依存しない音声素片の作成が可能と
なる。

【００１８】

【発明の実施の形態】以下、本発明に係る音声素片作成
装置（方法）並びに当該装置を適用して構成される音声
合成装置（方法）の実施形態例を説明する。（Ａ）第１の実施形態図１に、音声合成装置（方法）の実施形態例を示す。な
お、図１は、説明上、音声合成装置（方法）の構成要素
を機能的に表したものであって、物理的な構成までも拘
束するものでない。また、当該構成は、ハードウェア的
に実現可能なだけでなく、ソフトウェア的にも実現可能
である。

【００１９】音声合成装置は、合成音生成処理部１０と
素片作成処理部２０からなる。このうち、合成音生成処
理部１０は、テキスト解析部１１と、単語辞書１２と、
パラメータ生成部１３と、窓掛け部１４と、合成音声部
１５からなる。一方、素片作成処理部２０は、音声信号
入力部２１と、素片作成部２２と、素片辞書２３からな
る。

【００２０】ここで、テキスト解析部１１は、漢字かな
混じり文が入力されると、単語辞書１２を参照して形態
素解析を行い、漢字かな混じり文の読み、アクセント、
イントネーションを決定し、韻律記号付き発音記号（中
間言語）を出力するための手段である。パラメータ生成
部１３は、ピッチ周波数パターンや音韻継続時間等の設
定を行うための手段である。音声合成部１５は、素片辞
書２３にて選択され、窓掛け部１４でピッチマークが中
心となるように後述する時間窓長Ｔ_p1の時間窓が掛けら
れた素片を、ＰＳＯＬＡ法にて音声合成するための手段
である。

【００２１】なお、時間窓長Ｔ_p1は、分析時のピッチ周
期をＴ_pa、合成時のピッチ周期をＴ _psとする場合、次式Ｔ_p1＝Ｃ_o×_min（Ｔ_pa，Ｔ_ps） …（１）で与えるものとする。また、係数Ｃ_o には、2.0 程度の
値を用いるものとする。

【００２２】素片辞書２３は、素片作成部２２で作成さ
れた素片を書き込むための手段である。素片作成部２２
は、本発明の主要部であり、音声合成に必要な音声素片
を作成するのに用いられる。なお、当該素片作成部２２
の処理動作を、図５にフローチャートとして示す。

【００２３】素片作成部２２は、データディスクなど備
えた音声信号入力部２１から音声信号が入力されると、
まず、ステップＳ１にて、音声信号データを分析フレー
ムと称する区間に分割する。

【００２４】ここで、分析フレームは、一定長さの区間
に区切られた音声信号データとして与えられる。本実施
形態の場合、１フレーム長を３２ｍ秒とし、各フレーム
は、８ｍ秒づつずれるように区切られているものとす
る。また、総フレーム数をＮとし、波形データをＸ
_ｉ（ｌ）、ｉ＝１，…，Ｎ（フレーム）、ｌ＝１，
…，Ｗ（ポイント）とする。なお、Ｗは、フレーム長と
サンプリング周波数Ｆs で決まる１フレーム内の標本数
であり、本実施形態の場合、Ｗ＝３２×Ｆs ／１０００
である。

【００２５】素片作成部２２は、ステップＳ１での分割
処理が終了すると、ステップＳ２に移り、フレーム番号
ｉの初期化を実行する。すなわち、フレーム番号ｉを０
に設定する。なお、当該初期設定後のフレームＸ
₀（ｌ）を始め、第ｉフレームＸｉ（ｌ）は、線形予測
分析処理（ステップＳ３）及び低域ろ波処理（ステップ
Ｓ７）のそれぞれに与えられる。

【００２６】素片作成部２２は、ステップＳ３に進む
と、第ｉフレームＸ_ｉ（ｌ）のデータを線形予測分析
し、線形予測計数を求める。なお、当該処理で使用する
線形予測分析法としては、従来より種々の方法が提案さ
れているが、本実施形態においては、線形予測フィルタ
の安定性が満たされる偏自己相関（ＰＡＲＣＯＲ）法を
適用する。素片作成部２２は、当該処理により、線形予
測計数Ａｉと、その線形予測フィルタと入力信号との差
である残差波形とを得る。

【００２７】この後、素片作成部２２は、ステップＳ４
及びＳ６の処理に移る。先に、ステップＳ６に移行した
場合の処理を説明する。素片作成部２２は、ステップＳ
６に移行すると、ステップＳ３で得られた線形予測係数
をもとにフォルマント周波数の抽出を行う。ここで、線
形予測係数をＡ＝｛ａ_m ｝で表すとすると、素片作成部
２２は、フォルマント周波数を、次式 Σａ_m ／ｚ^m ＝０ …（２）を満たす解（根）のうち、音源による極を取り除いたも
のをとして求める。また、素片作成部２２は、このフォ
ルマント周波数と同定した解（根）をｚ_m ＝γ_m／ｅ
^jλmで与えるとき、フォルマント周波数ｆm 及びその帯
域幅ｂm をそれぞれ、次式ｆm ＝λm ／２πＴ …（３）ｂm ＝−ｌｏｇγm ／πＴ …（４）として求める。なお、素片作成部２２は、このようにし
て求めたフォルマント周波数ｆm をピッチマーク抽出処
理（ステップＳ１０）に与える。

【００２８】かかる処理に並行して、素片作成部２２
は、ステップＳ４−Ｓ５−Ｓ８−Ｓ９において、次の処
理を実行する。

【００２９】まず、素片作成部２２は、ステップＳ４に
移行すると、ステップＳ３で得られた線形予測係数をも
とに残差信号の抽出（計算）を行う。当該残差信号が得
られると、素片作成部２２は、ステップＳ５に進み、得
られた残差信号の自己相関ピークを検出することによ
り、第ｉフレームに係る音声信号のピッチ周波数ｔp を
求める。求められたピッチ周波数ｔp は、ステップＳ８
の処理で用いられる。

【００３０】なお、本実施形態においては、線形予測残
差波形の自己相関ピークを用いてピッチ周波数ｔp を検
出することにしたが、簡易手法として、波形ピークの間
隔や、ケプストラム法によるケフレンシー領域でのピッ
チ周期の抽出などにより、ピッチ周波数ｔp を検出する
ことも考えられる。

【００３１】さて、ピッチ周波数ｔp が求められると、
ステップＳ８に進み、フレーム中央近傍での最大点抽出
処理に移行するが、この処理に先立って、ステップＳ７
において以下の処理が行われる。すなわち、素片作成部
２２は、ステップＳ７において、第ｉフレームのデータ
Ｘ_ｉ（ｌ）に対し、フレームごとのピッチマークの細
かい変動を除去するため、波形データに対してローパス
フィルタを掛ける処理が行われる。

【００３２】なお、この出力に、ローパスフィルタでの
遅延補正を施したデータを、以下、Ｙ_ｉ（ｌ）とす
る。また、ここで用いるローパスフィルタには、後で波
形に基づく処理を行うため、直線位相を保つ非巡回型
（ＦＩＲ）のディジタルフィルタが望ましい。因みに、
ＦＩＲディジタルフィルタは公知であるため、その記述
は省略する。また、ローパスフィルタ処理は、本実施形
態では予め一括して行うように説明したが、フレーム毎
に行うようにしても何ら差し支えなく、その効果も同一
である。

【００３３】ステップＳ８の説明に戻る。素片作成部２
２は、ステップＳ８に進むと、各フレームの中央近傍に
ついて、信号波形の最大値（ｍａｘ）と、その時間座標
ｔmとを求める。なお、当該最大値は、フレーム中央付
近の最大値であって、必ずしも、全フレーム中の最大値
とは限らない。通常、該最大値は、フレーム中央付近の
極大値と一致する。

【００３４】素片作成部２２は、最大値の探索範囲を与
えるフレーム中央に対する近傍範囲は、ステップＳ５で
求めたピッチ周期ｔp を用い、次のように定める。すな
わち、本実施形態の場合、素片作成部２２は、フレーム
中央の前後０．６ｔp の範囲を探索範囲に採用する。す
なわち、最大値（ｍａｘ）は、次式ｍａｘ＝ｍａｘｉｍｕｍ｛ｙ_n(ｌ)｜ｌ＝W/2−0.6ｔp，…，W/2＋0.6ｔp｝＝ｙ_n（ｔ_m） …（５）を満たす。

【００３５】かくして、最大値（ｍａｘ）とその時間座
標ｔm とが求まると、素片作成部２２は、ステップＳ９
に進み、定数ａ（ただし、ａは０＜ａ＜１の定数）で定
まる区間［ｔm −ｔp ×ａ，ｔm ］内に現れる全ての極
大値を検出し、その総数をＭとする。なお、極大値をＰ
_k とし、その時間座標をｔ_pk（ｋ＝１，２，…，Ｍ）と
する。すなわち、Ｐ_k ＝ｙ_n(ｔ_pk)である。

【００３６】以上の並列処理により、極大値Ｐ_k 、その
時間座標ｔ_pk、フォルマント周波数ｆm のそれぞれが求
められたことになる。さて、これら各値が求められる
と、素片作成部２２は、ステップＳ１０に進み、ピッチ
マーク抽出処理を行う。このステップＳ１０における処
理は、本発明の核心部である。当該ステップＳ１０の処
理の詳細を、図６を用いて説明する。

【００３７】まず、素片作成部２２は、ステップＳ１０
１において、パラメータｊを初期設定（ｊ＝１）する。
また、素片作成部２２は、ステップＳ１０５において、
前述のステップＳ６で求めたフォルマント周波数ｆm を
時間値（周期）に換算する。本実施形態では、第１フォ
ルマント周期数（Ｆ１）のみを用いることにし、その逆
数ｇを保持する。以上で初期設定が完了する。

【００３８】次に、素片作成部２２は、ステップＳ１０
２に進み、ピッチマーク候補Ｐ_j 、及びその時間座標ｔ
_pjを定義する。ここでＰ_j 及びｔ_pjは、最大値ｍａｘの
ピークから時間軸上でｊ個手前にある極大値のピーク値
及びその時間座標である。

【００３９】この後、素片作成部２２は、ステップＳ１
０３において、ｔ_pjとその後続の最大点ｔ_pmとの時間差
ｓ_j を求める。なお、当該時間差ｓ_j は、絶対値として
求める。

【００４０】次に、素片作成部２２は、ステップＳ１０
４に進み、極大点間の時間差ｓ_j と、第１フォルマント
周波数の時間換算値ｇのｊ倍（ｇ×ｊ）との差ε_j を計
算する。

【００４１】ここで、１ピッチ波形の最初の極大点（望
ましいピッチマーク）からこの１ピッチ波形内の第ｊ番
目極大点までの時間間隔は、図７に示すように、第１フ
ォルマント周波数の逆数（すなわち、第１フォルマント
周期）ｇのｊ倍の関係にある。

【００４２】従って、極大点Ｐ_j に対して求まった誤差
が、ある閾値よりも小さい場合は、この極大点が望まし
いピッチマーク点か、又はピッチマーク点よりも後続の
極大点であることになる（図７のＳ1 〜Ｓ3 ）。

【００４３】これに対し、極大点Ｐ_j に対して求まった
誤差がある閾値よりも大きい場合は、この極大点が望ま
しいピッチマーク点を通り越して１つ前の１ピッチ波形
の最後の極大点まで遡っていることが分かる（図７のＳ
4 ）。

【００４４】そこで、素片作成部２２は、ステップＳ１
０６の判定の結果、誤差が閾値よりも小さかった場合
（否定結果）には、もう１つ前の極大点をピッチマーク
候補としてステップＳ１０２へ戻り、誤差が閾値よりも
大きかった場合（肯定結果）には、望ましい極大点を通
り越したとみなし、ステップＳ１０７に進み、１つ手前
の極大点をピッチマークとする。

【００４５】なお、素片作成部２２は、ステップＳ１０
２〜ステップＳ１０９の計算中に、極大点が探索範囲外
に出たときには（ステップＳ１０８で肯定結果）、ステ
ップＳ１１０に移り、探索始点をピッチマークとする。
因みに、ステップＳ１０８が成立するのは、例えば有声
子音や母音（イ）などのように、第１フォルマント周波
数がピッチ周期に近い場合であり、各極大点間隔がピッ
チ周期となっていることが考えられる。

【００４６】以上の処理が、前述のステップＳ１０で実
行され、ピッチマークＫが求められる。図５の説明に戻
る。

【００４７】素片作成部２２は、このようにしてピッチ
マークＫが求められると、ステップＳ１１に進み、ピッ
チマーク前後の音声データを切り出し、ピッチマークが
その中央に位置するようにセンタリングする。なお、予
備実験の結果、本実施形態では、ここでの切出し長を、
男性の最長ピッチ周期に余裕を持たせた１２ｍ秒とす
る。

【００４８】素片作成部２２は、当該音声データを切り
出すと、これを第ｉフレームについての素片として、デ
ィスク状記憶媒体やメモリカード等の記憶媒体からなる
素片辞書２３に順次書き込む（ステップＳ１２）。

【００４９】この後、素片作成部２２は、ステップＳ１
３に進み、全フレームについての処理が終了したかを判
定し、終了していなければ、ステップＳ１４においてフ
レーム番号を更新し、ステップＳ３以降の処理を継続す
る。一方、素片作成部２２は、ステップＳ１３における
判定において、全フレームの処理が終了していることが
確かめられた場合、ディスクのクローズ処理等（図示せ
ず）を行って素片作成処理部２０の動作を終了する。

【００５０】以上の処理動作により、本実施形態に係る
音声素片作成装置（方法）又は当該装置（方法）を採用
する音声合成装置（方法）では、従来技術に比して、以
下の効果が認められる。

【００５１】まず、従来技術では、ピッチマーク候補と
なる時間軸座標点の中から望ましいピッチマークを選出
するのに、波形まで立ち返ってパラメータ又は探索範囲
を設定する必要があった。言いかえれば、各発生音又は
各発声音韻、さらには各フレームごとに、その波形に依
存したパラメータを行う必要があり、効率的でなかっ
た。

【００５２】これに対し、本実施形態に係る装置（方
法）の場合には、音声波形のフォルマント周波数と波形
ピークとの関係を考慮した上で、パラメータの設定処理
を、従来のようにヒューリスティックな方法で与えず、
その波形のもつ物理的な特徴に基づいて与えるようにし
たことにより、発生者及び発生音韻に依存しない安定し
たピッチマークの特定を実現できる。

【００５３】以下、かかる効果を図８〜図１０を用いて
説明する。ここで、図８は、音声信号の例として、男声
音声［ｅ（エ）］のＬＰＣスペクトル包絡図である。図
９は、統計的なフォルマント周波数の平均値及び標準偏
差を表した図である。なお、図１０（Ａ）は、本実施形
態に基づくピッチマーク位置の特定例であり、図１０
（Ｂ）は、従来例によるピッチマーク位置の特定例であ
る。

【００５４】図１０（Ｂ）に示すように、従来方法で
は、ピッチマーク探索範囲が狭いため（ピーク点の直前
に現れる極大点をピッチマーク位置とするため）、望ま
しいピッチマークまで時間軸にそって遡ることができ
ず、結果として１ピッチ波形中央部の極大点をピッチマ
ークと誤抽出している。このような誤抽出を訂正するた
めには素片作成後に目視による確認とパラメータの修正
が必要となる。

【００５５】一方、本実施形態のピッチマーク抽出方法
では、従来のように、個々の波形に合うように時間軸上
のパラメータを目視で合わせるのではなく、音声信号の
第１フォルマント周期を用いてピッチマークの抽出を行
うので、１ピッチ波形の中央部又は１つ前の１ピッチ波
形の極大点を抽出するなどといったピッチマークの誤抽
出がなくなる。また、各発声者及び各フレームによるパ
ラメータの変更が必要でなくなり、素偏作成作業は格段
に効率化できる。

【００５６】なお、以上の効果は、ピッチマーク点の抽
出を、音声信号の有声部分に対してのみ行うものとした
場合の効果である。因みに、無声部分については、音声
データをそのまま使用する。（Ｂ）他の実施形態（１）上述の実施形態においては、簡単のため、ピッチ
マークの探索基準として、第１フォルマント周波数のみ
（より正確には、その逆数で与えられる第１フォルマン
ト周期ｇのみ。以下、同様。）を用いているが、これと
同様に高次のフォルマント周波数までも用いてピッチマ
ークの探索を行うことも可能である。（２）上述の実施形態においては、音声合成処理の直前
に窓掛け処理（窓掛け部１４の処理）を実行する場合に
ついて述べたが、図１１に示すように、素片作成部２２
において窓掛け処理を実行する（すなわち、素片辞書２
３に書き込む素片に窓掛けする）ようにしても良い。こ
のようにすれば、音声合成処理時に必要であった１ピッ
チ毎の窓掛け処理（乗算）が不要となり、単に音声素片
を重ね合わせるだけの処理で済むため、音声合成処理時
における処理量を大幅に減少させることができる。

【００５７】さらに、この場合、ＤＳＰなどの高度な演
算プロセッサを使用することなく、汎用のＣＰＵを用い
て同機能を実現することが可能となる。また、同一の処
理能力を有する演算プロセッサを用いる場合には、音声
合成処理の大幅な高速化を実現できる。（３）また、上述の実施形態では、音声合成装置（方
法）に本発明に係る素片作成部２２を適用する場合につ
いて述べたが、原音声のピッチを変化させて声の高さを
変更する、いわゆる、音声ピッチ変換装置のピッチマー
ク設定処理やその他の音声出力装置における処理に適応
しても良い。

【００５８】

【発明の効果】上述のように、本発明によれば、探索始
点に対応する時刻と各極大点に対応する時刻との時間差
がフォルマント周期の定数倍に一致する、時間軸上最も
手前の極大点をピッチマークに設定するようにしたこと
より、ピッチマークの探索基準となる探索始点が１ピッ
ト波形中のどの位置の極大点であったとしても、時間軸
上最も手前の極大点を確実に見つけ出してピッチマーク
とすることができる。

【００５９】この結果、発声者や発生音韻に応じて異な
る音声波形の特質に依存しない音声素片の作成を実現で
きる。

【図面の簡単な説明】

【図１】音声素片作成装置（方法）を機能の一部に有す
る音声合成装置の構成例を示す機能ブロック図である。

【図２】従来の音声合成法の説明に係る図である。

【図３】従来手法に基づくピークマーク抽出結果を示す
図である。

【図４】従来例でピッチマークの抽出誤りが生じる場合
の例を示す図である。

【図５】素片作成部における処理内容を示す図である。

【図６】ピッチマーク抽出処理内容を示す図である。

【図７】極大点と第１フォルマント周期との関係を示す
図である。

【図８】線形予測法により求めたスペクトル包絡線例を
示す図である。

【図９】統計的なフォルマント周波数の平均値及び標準
偏差の例を示す図である。

【図１０】実施形態例と従来例との違いの説明に係る図
である。

【図１１】他の実施形態例を示す図である。

【符号の説明】

１０…合成音生成処理部、１１…テキスト解析部、１２
…単語辞書、１３…パラメータ生成部、１４…窓掛け
部、１５…合成音声部、２０…素片作成処理部、２１…
音声信号入力部、２２…素片作成部、２３…素片辞書。

Claims

【特許請求の範囲】

【請求項１】各フレームごとに音声信号のフォルマン
ト周波数を抽出するフォルマント周波数抽出工程と、該フレームの中央近傍に現れる音声信号波形の最大点を
検出する最大点検出工程と、前記最大点を探索始点に定め、該探索始点に対し時間軸
上手前に現れる音声信号波形の極大点を検出する極大点
検出工程と、前記探索始点に対応する時刻と各極大点に対応する時刻
との時間差を求める極大点間時間差検出工程と、前記フォルマント周期の定数倍に前記時間差が一致す
る、時間軸上最も手前の極大点をピッチマークに設定す
るピッチマーク設定工程と、設定された前記ピッチマークを中心として、音声波形を
切出す音声波形切出工程とを備えることを特徴とする音
声素片作成方法。
【請求項２】各フレームごとに音声信号のフォルマン
ト周波数を抽出するフォルマント周波数抽出手段と、該フレームの中央近傍に現れる音声信号波形の最大点を
検出する最大点検出手段と、前記最大点を探索始点に定め、該探索始点に対し時間軸
上手前に現れる音声信号波形の極大点を検出する極大点
検出手段と、前記探索始点に対応する時刻と各極大点に対応する時刻
との時間差を求める極大点間時間差検出手段と、前記フォルマント周期の定数倍に前記時間差が一致す
る、時間軸上最も手前の極大点をピッチマークに設定す
るピッチマーク設定手段と、設定された前記ピッチマークを中心として、音声波形を
切出す音声波形切出手段とを備えることを特徴とする音
声素片作成装置。