JP2709385B2 - 多層ラベルを持つ音声データベース構成方法 - Google Patents
多層ラベルを持つ音声データベース構成方法Info
- Publication number
- JP2709385B2 JP2709385B2 JP62072847A JP7284787A JP2709385B2 JP 2709385 B2 JP2709385 B2 JP 2709385B2 JP 62072847 A JP62072847 A JP 62072847A JP 7284787 A JP7284787 A JP 7284787A JP 2709385 B2 JP2709385 B2 JP 2709385B2
- Authority
- JP
- Japan
- Prior art keywords
- layer
- label
- phoneme
- vowel
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000010276 construction Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims description 18
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
【発明の詳細な説明】
[産業上の利用分野]
この発明は多層ラベルを持つ音声データベース構成方
法に関し、特に、音声信号波形をディジタル化し、信号
の特徴に基づいて音声波形を音素ごとに区分を行ない、
各音素にラベルを付与したような多層ラベルを持つ音声
データベース構成方法に関する。 [従来の技術および発明が解決しようとする問題点] 音声認識アルゴリズム,音声合成アルゴリズム,話者
認識・適応アルゴリズムなどのように音声処理を行なう
諸技術を向上させるためには、種々の環境下における音
韻特徴の変動を収集整理する必要がある。そのために
は、音韻ラベル付けのされた音声データベースの整備が
不可欠である。 従来の音声データベースは主として、音声認識装置な
どの音声処理装置の性能評価用と、音声研究開発用の2
種類に大別される。前者としては、たとえば都市名の単
語やその他からなる音声データベースがあるが、アナロ
グ音声を収録したものにすぎず、ラベル付けされていな
い。一方、後者の研究用音声データベースとしては、ラ
ベル付けされていても、音素あるいはそれに準ずる単位
の記号のみのラベルであるため、音声事象を効率良く選
択することができないという欠点があった。 それゆえに、この発明の主たる目的は、種々の音声特
徴ラベルを階層的に付与することにより、ラベル情報を
基にして、音声データの選択や抽出の効率化および音声
に対する種々の研究目的に利用できるような音声データ
ベース構成方法を提供することである。 [問題点を解決するための手段] この発明は音声信号波形をディジタル化して、信号の
特徴に基づいて音声波形を音素ごとに区分を行ない、各
音素ラベルを付与した構成を持つ音声データベースにお
いて、ディジタル化された音声信号波形を記憶する音声
データファイルと、音声データファイルの各音声記憶番
地に対応して設けられる複数層のラベルファイルとを含
み、音素ラベルが付与された部分を1つの層とし、実際
の音声現象を反映する種々の音声の特徴を複数の種類に
わたってラベルファイルに記述しかつ各音素内あるいは
音素間にわたって各層ごとにそれぞれを記述するラベル
を付与し、ディジタル化された音声波形とその物理的特
徴を記述する多層ラベルとの対応付けを行なうようにし
たものである。 [作用] この発明に係る多層ラベルを持つ音声データベース構
成方法では、ディジタル化された音声信号波形に対し
て、音素ラベルが付与された部分を1つの層として、実
際の音声現象を反映する種々の音声の特徴を複数の種類
にわたってラベルファイルに記述しかつ音素内あるいは
音素間にわたってそれぞれの記述ラベルを付与し、ディ
ジタル化された音声波形とその物理的特徴を記述する多
層ラベルとの対応付けを行なうことにより、ラベル情報
をもとにして音声データの選択や抽出の効率化および音
声に対する種々の研究目的に利用できる。 [発明の実施例] 第1図はこの発明における音声信号の音素ごと、音素
内および音素間にわたって付与された各層におけるラベ
ルの例を示す図であり、第2図は各層におけるラベル表
示方法を示す図であり、第3図はイベント層における表
記方法とその記号を示す図であり、第4図は異音化層に
おける表記方法とその記号を示す図であり、第5図は計
算機内部でのラベルファイルのデータ形式を示す図であ
る。 以下、第1図ないし第5図を参照して、この発明につ
いて説明する。第1図は音声信号の波形とスペクトル変
化率とパワーに対応してラベル付けを行なったものであ
り、ラベルとしては、第2図に示すように第一層として
の音声記号層と、第二層としてのイベント層と、第三層
としての異音化層と、第四層としての融合化層と、第五
層としての母音中心層と、第六層としてのコメント層と
からなる。音声記号層は発声した音声のスペクトル変化
を手がかりにして音素ごとのセグメンテーシヨンを行な
い、ヘボン式ローマ字表記を母音部と子音部とに分割
し、対応する音声区間に記述したものである。たとえ
ば、“atoshimatsu"の音声を発声したとき、各音素の母
音部と子音部を分割し、“a",“t",“o",“sh",“i",
“m",“a",“tsu"を記述する。このように、発声した音
声の母音部と子音部とをそれぞれ音声区間に対応づけす
ることにより、言語環境の表現を容易に実現できる。た
だし、異音化や融合化により、音素境界が決められない
場合には、第二層以下でそれに相当する記号を付与す
る。 イベント層は音声記号層で区分された各音素区間に対
して、スペクトルの変化に応じて複数に分割し、実際の
発声をよく反映するようにラベルを付与したものであっ
て、第3図に示すような表記記号で表わされる。すなわ
ち、“<”は母音への入りわたりを示し、語頭の母音
(半母音を含む)に伴なう過渡区間(低域にエネルギが
存在するにもかかわらずホルマント構造が未だ整ってい
ない区間)を表わしている。“>”は母音からの出わた
りを示し、語尾および比較的長い無音前の母音(撥音を
含む)に伴なう過渡区間(低域にエネルギが存在するに
もかかわらず、ホルマント構造が崩れている区間)を示
している。 “*>”は母音から有声子音への出わたりを示し、母音
部(撥音を含む)から有声子音部へ遷移していく過渡区
間である。“tr"は何らかの原因でスペクトルパターン
に乱れが生じている区間である。“cl,*cl"は破裂(破
擦)音に伴なう閉鎖(クロジャ)区間および促音に伴な
う休止区間であり、*は有声の場合を示している。“p,
t,k,b,d,g"は破裂音内のクロージャ以外の区間を示して
いる。“mm"は鼻子音区間であり、“pau"は単語境界に
おける休止区間である。“s,h,sh,z,dj,f"は摩擦音区間
であり、“w,y"は半母音区間であり、“r"は流音区間で
あり、“a,i,u,e,o"は母音区間であり、“j"は拗音区間
であり、“N"は撥音区間であり、“ts,ch"は破擦音内の
クロージャ以外の区間を示している。 上述のイベント層について第1図を参照してより具体
的に説明すると、最初の母音“a"が発音されるまでの区
間は母音への立ち上がりを示す過渡区間であるため、
“<”が付与される。母音“a"に続く区間は母音“a"の
語尾に伴なう過渡区間であるために“>”が付与され
る。その次の区間は破裂音に伴なうクロージャとして
“cl"が付与され、その次の区間では破裂音内の閉鎖区
間以外の区間として“t"が付与される。その次の区間は
母音“o"であり、その後摩擦音区間として“sh"が付与
される。さらに、次の区間は母音“i"であり、続いて鼻
子音区間“mm",母音“a",母音“a"に続く過渡区間とし
て“>”が付与され、その後破擦音に伴なう閉鎖区間と
して“cl"が付与され、さらに破擦音内の閉鎖区間以外
の区間として“ts"が付与される。 イベント層の次は異音化層であり、ローマ字表記とは
異なるいわゆる異音化が生じている場合にセグメントを
設け、記号を付与する。異音化としては、無声化および
摩擦音化の二種類の区間を記述する。異音化が発生して
いる場合は、音声記号層の境界に拘わらず、異音化発生
時点から終了時点までをセグメントする。表記記号は第
4図に示すように、無声化している区間として記号“d
v"と、母音が後続の摩擦音の影響により摩擦音化してい
る区間として“fr"が付与される。第1図に示した例で
は、音素“o"と“sh"との間に“fr"が付与され、最後の
音素“u"が無声化しているために“dv"が付与されてい
る。なお、異音化現象の一つである母音または有声破裂
音の鼻音化は、スペクトル上での判断が困難であるた
め、異音化層には含めていない。 第4層は融合化層であり、連続する音素が融合し、ス
ペクトグラム上で分離不可能な連続部分を記述する。セ
グメントの境界は音声信号層のそれを用いる。第1図に
示した例では、最後の2つの音素“ts",“u"のスペクト
グラムが連続して区別できないために、記号“tsu"が付
与される。 第5層は母音中心層であり、音声記号層でセグメント
された音素が明確な母音の特徴を保持している中心を示
すポインタを記述する。第1図に示した例では、母音
“a",“o",“i",“a"のそれぞれの中心を示すポインタ
が記述されている。第6層はコメント層であり、上述の
第1層ないし第5層では記述できない現象についてのコ
メントが記述される。 なお、各ラベル層と音声波形との対応関係は第5図に
示すように対応づけされる。すなわち、ラベル信号は、
そのスタートの時刻を示す開始値と終わりの時刻を示す
終了値で挾まれて記入される。そして、実際の音声波形
とのリンクは、発生者,単語の種類などを示す記号を指
定することにより、音声データファイルを引出し、この
開始時刻と終了時刻とにより、そのラベルと音声波形と
の対応づけを行なう。 第6図はこの発明による多層ラベルを持つ音声データ
ベースを構成するためのA/D変換からラベルデータを入
力するまでのフロー図である。 次に、この発明による多層ラベルを持つ音声データベ
ースを構成する方法について説明する。収録条件として
は、録音スタジオなどのできるだけ静かな環境で、単語
ごとに区切って明瞭に発声し、一旦磁気テープにPCM録
音する。そして、オフラインにより、計算機ワークステ
ーションを介して、磁気テープにPCM録音された音声信
号を20kHzのサンプリングにより、16ビットでA/D変換し
て、磁気ディスクに格納する。そして、格納された音声
データを単語ごとに切出し、512ポイントのFFT(高速フ
ーリエ変換)を行なうとともに、フレーム周期2.5m sec
によりスペクトル分析し、その結果をレーザプリンタで
濃淡表示を行なう。その結果は、第1図に示すようなソ
ナグラフとして表わされる。 この濃淡表示を見て、音素の区分とラベル付けを行な
い、ラベルデータをキーボードから入力する。すなわ
ち、第1図に示す音声波形のスペクトラムに従って、音
声記号層,イベント層,異音化層,融合化層,母音中心
層,コメント層についてそれぞれ前述の第1図ないし第
4図に従ってラベル付けする。そして、計算機のターミ
ナルのキーボードからラベル付けしたデータを入力し、
各ラベルに対して、第5図に示したように、各ラベルで
表わされる区間開始時刻と終了時刻を同時に記録するこ
とによって、波形データとの対応づけを行なう。 [発明の効果] 以上のように、この発明によれば、音声データベース
として、音素のローマ字表記による単なる表層的なラベ
ルのみでなく、実際の発声現象を詳細に記述した多層の
ラベル構造を持つため、音声の様々な研究目的に用いる
ことができる。たとえば、音声認識では、認識アルゴリ
ズムの開発や評価および誤りの解析に適用でき、音声合
成では、合成規則の構成や評価に適用でき、知覚では、
音声の響きと物理量との対応づけなどに適用できる。
法に関し、特に、音声信号波形をディジタル化し、信号
の特徴に基づいて音声波形を音素ごとに区分を行ない、
各音素にラベルを付与したような多層ラベルを持つ音声
データベース構成方法に関する。 [従来の技術および発明が解決しようとする問題点] 音声認識アルゴリズム,音声合成アルゴリズム,話者
認識・適応アルゴリズムなどのように音声処理を行なう
諸技術を向上させるためには、種々の環境下における音
韻特徴の変動を収集整理する必要がある。そのために
は、音韻ラベル付けのされた音声データベースの整備が
不可欠である。 従来の音声データベースは主として、音声認識装置な
どの音声処理装置の性能評価用と、音声研究開発用の2
種類に大別される。前者としては、たとえば都市名の単
語やその他からなる音声データベースがあるが、アナロ
グ音声を収録したものにすぎず、ラベル付けされていな
い。一方、後者の研究用音声データベースとしては、ラ
ベル付けされていても、音素あるいはそれに準ずる単位
の記号のみのラベルであるため、音声事象を効率良く選
択することができないという欠点があった。 それゆえに、この発明の主たる目的は、種々の音声特
徴ラベルを階層的に付与することにより、ラベル情報を
基にして、音声データの選択や抽出の効率化および音声
に対する種々の研究目的に利用できるような音声データ
ベース構成方法を提供することである。 [問題点を解決するための手段] この発明は音声信号波形をディジタル化して、信号の
特徴に基づいて音声波形を音素ごとに区分を行ない、各
音素ラベルを付与した構成を持つ音声データベースにお
いて、ディジタル化された音声信号波形を記憶する音声
データファイルと、音声データファイルの各音声記憶番
地に対応して設けられる複数層のラベルファイルとを含
み、音素ラベルが付与された部分を1つの層とし、実際
の音声現象を反映する種々の音声の特徴を複数の種類に
わたってラベルファイルに記述しかつ各音素内あるいは
音素間にわたって各層ごとにそれぞれを記述するラベル
を付与し、ディジタル化された音声波形とその物理的特
徴を記述する多層ラベルとの対応付けを行なうようにし
たものである。 [作用] この発明に係る多層ラベルを持つ音声データベース構
成方法では、ディジタル化された音声信号波形に対し
て、音素ラベルが付与された部分を1つの層として、実
際の音声現象を反映する種々の音声の特徴を複数の種類
にわたってラベルファイルに記述しかつ音素内あるいは
音素間にわたってそれぞれの記述ラベルを付与し、ディ
ジタル化された音声波形とその物理的特徴を記述する多
層ラベルとの対応付けを行なうことにより、ラベル情報
をもとにして音声データの選択や抽出の効率化および音
声に対する種々の研究目的に利用できる。 [発明の実施例] 第1図はこの発明における音声信号の音素ごと、音素
内および音素間にわたって付与された各層におけるラベ
ルの例を示す図であり、第2図は各層におけるラベル表
示方法を示す図であり、第3図はイベント層における表
記方法とその記号を示す図であり、第4図は異音化層に
おける表記方法とその記号を示す図であり、第5図は計
算機内部でのラベルファイルのデータ形式を示す図であ
る。 以下、第1図ないし第5図を参照して、この発明につ
いて説明する。第1図は音声信号の波形とスペクトル変
化率とパワーに対応してラベル付けを行なったものであ
り、ラベルとしては、第2図に示すように第一層として
の音声記号層と、第二層としてのイベント層と、第三層
としての異音化層と、第四層としての融合化層と、第五
層としての母音中心層と、第六層としてのコメント層と
からなる。音声記号層は発声した音声のスペクトル変化
を手がかりにして音素ごとのセグメンテーシヨンを行な
い、ヘボン式ローマ字表記を母音部と子音部とに分割
し、対応する音声区間に記述したものである。たとえ
ば、“atoshimatsu"の音声を発声したとき、各音素の母
音部と子音部を分割し、“a",“t",“o",“sh",“i",
“m",“a",“tsu"を記述する。このように、発声した音
声の母音部と子音部とをそれぞれ音声区間に対応づけす
ることにより、言語環境の表現を容易に実現できる。た
だし、異音化や融合化により、音素境界が決められない
場合には、第二層以下でそれに相当する記号を付与す
る。 イベント層は音声記号層で区分された各音素区間に対
して、スペクトルの変化に応じて複数に分割し、実際の
発声をよく反映するようにラベルを付与したものであっ
て、第3図に示すような表記記号で表わされる。すなわ
ち、“<”は母音への入りわたりを示し、語頭の母音
(半母音を含む)に伴なう過渡区間(低域にエネルギが
存在するにもかかわらずホルマント構造が未だ整ってい
ない区間)を表わしている。“>”は母音からの出わた
りを示し、語尾および比較的長い無音前の母音(撥音を
含む)に伴なう過渡区間(低域にエネルギが存在するに
もかかわらず、ホルマント構造が崩れている区間)を示
している。 “*>”は母音から有声子音への出わたりを示し、母音
部(撥音を含む)から有声子音部へ遷移していく過渡区
間である。“tr"は何らかの原因でスペクトルパターン
に乱れが生じている区間である。“cl,*cl"は破裂(破
擦)音に伴なう閉鎖(クロジャ)区間および促音に伴な
う休止区間であり、*は有声の場合を示している。“p,
t,k,b,d,g"は破裂音内のクロージャ以外の区間を示して
いる。“mm"は鼻子音区間であり、“pau"は単語境界に
おける休止区間である。“s,h,sh,z,dj,f"は摩擦音区間
であり、“w,y"は半母音区間であり、“r"は流音区間で
あり、“a,i,u,e,o"は母音区間であり、“j"は拗音区間
であり、“N"は撥音区間であり、“ts,ch"は破擦音内の
クロージャ以外の区間を示している。 上述のイベント層について第1図を参照してより具体
的に説明すると、最初の母音“a"が発音されるまでの区
間は母音への立ち上がりを示す過渡区間であるため、
“<”が付与される。母音“a"に続く区間は母音“a"の
語尾に伴なう過渡区間であるために“>”が付与され
る。その次の区間は破裂音に伴なうクロージャとして
“cl"が付与され、その次の区間では破裂音内の閉鎖区
間以外の区間として“t"が付与される。その次の区間は
母音“o"であり、その後摩擦音区間として“sh"が付与
される。さらに、次の区間は母音“i"であり、続いて鼻
子音区間“mm",母音“a",母音“a"に続く過渡区間とし
て“>”が付与され、その後破擦音に伴なう閉鎖区間と
して“cl"が付与され、さらに破擦音内の閉鎖区間以外
の区間として“ts"が付与される。 イベント層の次は異音化層であり、ローマ字表記とは
異なるいわゆる異音化が生じている場合にセグメントを
設け、記号を付与する。異音化としては、無声化および
摩擦音化の二種類の区間を記述する。異音化が発生して
いる場合は、音声記号層の境界に拘わらず、異音化発生
時点から終了時点までをセグメントする。表記記号は第
4図に示すように、無声化している区間として記号“d
v"と、母音が後続の摩擦音の影響により摩擦音化してい
る区間として“fr"が付与される。第1図に示した例で
は、音素“o"と“sh"との間に“fr"が付与され、最後の
音素“u"が無声化しているために“dv"が付与されてい
る。なお、異音化現象の一つである母音または有声破裂
音の鼻音化は、スペクトル上での判断が困難であるた
め、異音化層には含めていない。 第4層は融合化層であり、連続する音素が融合し、ス
ペクトグラム上で分離不可能な連続部分を記述する。セ
グメントの境界は音声信号層のそれを用いる。第1図に
示した例では、最後の2つの音素“ts",“u"のスペクト
グラムが連続して区別できないために、記号“tsu"が付
与される。 第5層は母音中心層であり、音声記号層でセグメント
された音素が明確な母音の特徴を保持している中心を示
すポインタを記述する。第1図に示した例では、母音
“a",“o",“i",“a"のそれぞれの中心を示すポインタ
が記述されている。第6層はコメント層であり、上述の
第1層ないし第5層では記述できない現象についてのコ
メントが記述される。 なお、各ラベル層と音声波形との対応関係は第5図に
示すように対応づけされる。すなわち、ラベル信号は、
そのスタートの時刻を示す開始値と終わりの時刻を示す
終了値で挾まれて記入される。そして、実際の音声波形
とのリンクは、発生者,単語の種類などを示す記号を指
定することにより、音声データファイルを引出し、この
開始時刻と終了時刻とにより、そのラベルと音声波形と
の対応づけを行なう。 第6図はこの発明による多層ラベルを持つ音声データ
ベースを構成するためのA/D変換からラベルデータを入
力するまでのフロー図である。 次に、この発明による多層ラベルを持つ音声データベ
ースを構成する方法について説明する。収録条件として
は、録音スタジオなどのできるだけ静かな環境で、単語
ごとに区切って明瞭に発声し、一旦磁気テープにPCM録
音する。そして、オフラインにより、計算機ワークステ
ーションを介して、磁気テープにPCM録音された音声信
号を20kHzのサンプリングにより、16ビットでA/D変換し
て、磁気ディスクに格納する。そして、格納された音声
データを単語ごとに切出し、512ポイントのFFT(高速フ
ーリエ変換)を行なうとともに、フレーム周期2.5m sec
によりスペクトル分析し、その結果をレーザプリンタで
濃淡表示を行なう。その結果は、第1図に示すようなソ
ナグラフとして表わされる。 この濃淡表示を見て、音素の区分とラベル付けを行な
い、ラベルデータをキーボードから入力する。すなわ
ち、第1図に示す音声波形のスペクトラムに従って、音
声記号層,イベント層,異音化層,融合化層,母音中心
層,コメント層についてそれぞれ前述の第1図ないし第
4図に従ってラベル付けする。そして、計算機のターミ
ナルのキーボードからラベル付けしたデータを入力し、
各ラベルに対して、第5図に示したように、各ラベルで
表わされる区間開始時刻と終了時刻を同時に記録するこ
とによって、波形データとの対応づけを行なう。 [発明の効果] 以上のように、この発明によれば、音声データベース
として、音素のローマ字表記による単なる表層的なラベ
ルのみでなく、実際の発声現象を詳細に記述した多層の
ラベル構造を持つため、音声の様々な研究目的に用いる
ことができる。たとえば、音声認識では、認識アルゴリ
ズムの開発や評価および誤りの解析に適用でき、音声合
成では、合成規則の構成や評価に適用でき、知覚では、
音声の響きと物理量との対応づけなどに適用できる。
【図面の簡単な説明】
第1図はこの発明における音声信号の各層に付与された
ラベルの例を示す図である。第2図は各層におけるラベ
ル表示方法を示す図である。第3図はイベント層におけ
る表記方法とその記号を示す図である。第4図は異音化
層における表記方法とその記号を示す図である。第5図
は計算機内部でのラベルファイルのデータ形式を示す図
である。第6図はこの発明による多層ラベルを持つ音声
データベースを構成するためのA/D変換からラベルデー
タを入力するまでのフロー図である。
ラベルの例を示す図である。第2図は各層におけるラベ
ル表示方法を示す図である。第3図はイベント層におけ
る表記方法とその記号を示す図である。第4図は異音化
層における表記方法とその記号を示す図である。第5図
は計算機内部でのラベルファイルのデータ形式を示す図
である。第6図はこの発明による多層ラベルを持つ音声
データベースを構成するためのA/D変換からラベルデー
タを入力するまでのフロー図である。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 武田 一哉
京都府相楽郡精華町大字乾谷小字三平谷
5番地 株式会社エイ・ティ・アール自
動翻訳電話研究所内
(72)発明者 桑原 尚夫
京都府相楽郡精華町大字乾谷小字三平谷
5番地 株式会社エイ・ティ・アール自
動翻訳電話研究所内
(72)発明者 片桐 滋
京都府相楽郡精華町大字乾谷小字三平谷
5番地 株式会社エイ・ティ・アール視
聴覚機構研究所内
(56)参考文献 特開 昭61−296396(JP,A)
Claims (1)
- (57)【特許請求の範囲】 1.音声信号波形をディジタル化して、信号の特徴に基
づいて音声波形を音素ごとに区分を行ない、各音素ラベ
ルを付与した構成を持つ音声データベースにおいて、 前記ディジタル化された音声信号波形を記憶する音声デ
ータファイルと、前記音声データファイルの各音声記憶
番地に対応して設けられる複数層のラベルファイルとを
含み、 音素ラベルが付与された部分を1つの層とし、実際の音
声現象を反映する種々の音声の特徴を複数の種類にわた
って前記ラベルファイルに記述しかつ各音素内あるいは
音素間にわたって各層ごとにそれぞれを記述するラベル
を付与し、ディジタル化された音声波形とその物理的特
徴を記述する多層ラベルとの対応付けを行なうことを特
徴とする、多層ラベルを持つ音声データベース構成方
法。 2.前記多層ラベルの1つは、各音素単位ごとにローマ
字表示された音声記号層を含むことを特徴とする、特許
請求の範囲第1項記載の多層ラベルを持つ音声データベ
ース構成方法。 3.前記多層ラベルの1つは、前記音声記号層で区分さ
れた各区間に対して、音声特徴の変化に応じて複数に分
割し、実際の発音をよく反映するようにラベルを付与し
たイベント層を含む、特許請求の範囲第2項記載の多層
ラベルを持つ音声データベース構成方法。 4.前記多層ラベルの1つは、無声化および摩擦音化の
区間を記述する異音化層を含むことを特徴とする、特許
請求の範囲第2項記載の多層ラベルを持つ音声データベ
ース構成方法。 5.前記多層ラベルの1つは、連続する音素が融合し、
分離不可能な連続部分を記述した融合化層を含む、特許
請求の範囲第2項記載の多層ラベルを持つ音声データベ
ース構成方法。 6.前記多層ラベルの1つは、母音の中心を示すポイン
タを記述した母音中心層を含む、特許請求の範囲第2項
記載の多層ラベルを持つ音声データベース構成方法。 7.前記多層ラベルの1つは、前記音声記号層,イベン
ト層,異音化層,融合化層および母音中心層で記述でき
ない現象についてコメントを記述したコメント層を含
む、特許請求の範囲第2項ないし第6項のいずれかに記
載の多層ラベルを持つ音声データベース構成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62072847A JP2709385B2 (ja) | 1987-03-25 | 1987-03-25 | 多層ラベルを持つ音声データベース構成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62072847A JP2709385B2 (ja) | 1987-03-25 | 1987-03-25 | 多層ラベルを持つ音声データベース構成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS63237098A JPS63237098A (ja) | 1988-10-03 |
| JP2709385B2 true JP2709385B2 (ja) | 1998-02-04 |
Family
ID=13501184
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62072847A Expired - Lifetime JP2709385B2 (ja) | 1987-03-25 | 1987-03-25 | 多層ラベルを持つ音声データベース構成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2709385B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02252000A (ja) * | 1989-03-27 | 1990-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 波形素片作成方法 |
| JP2007322835A (ja) * | 2006-06-01 | 2007-12-13 | Oki Electric Ind Co Ltd | 音声データベースおよび音声合成装置 |
| CN115599854B (zh) * | 2022-10-17 | 2026-02-27 | 北京四方继保工程技术有限公司 | 一种基于力引导算法的录波图形和事件标签自动布局方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0632019B2 (ja) * | 1985-06-25 | 1994-04-27 | 松下電工株式会社 | 音声コ−ド作成方法 |
| JPS62160497A (ja) * | 1986-01-09 | 1987-07-16 | 日本電気株式会社 | 会話処理制御方式 |
-
1987
- 1987-03-25 JP JP62072847A patent/JP2709385B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS63237098A (ja) | 1988-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5970453A (en) | Method and system for synthesizing speech | |
| Ostendorf et al. | The Boston University radio news corpus | |
| Van Bergem | Acoustic vowel reduction as a function of sentence accent, word stress, and word class | |
| US20030158734A1 (en) | Text to speech conversion using word concatenation | |
| CN1179587A (zh) | 具有语音合成所使用的基本频率模板的韵律数据库 | |
| Al-Zabibi | An acoustic-phonetic approach in automatic Arabic speech recognition | |
| Hon | Vocabulary-independent speech recognition: The VOCIND system | |
| JP2709385B2 (ja) | 多層ラベルを持つ音声データベース構成方法 | |
| Campbell | Synthesizing spontaneous speech | |
| Huckvale | 14 An Introduction to Phonetic Technology | |
| Dusterho | Synthesizing fundamental frequency using models automatically trained from data | |
| US20070203706A1 (en) | Voice analysis tool for creating database used in text to speech synthesis system | |
| Zhang et al. | Tone nucleus-based multi-level robust acoustic tonal modeling of sentential F0 variations for Chinese continuous speech tone recognition | |
| Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
| De Mori | Automatic speech recognition | |
| Ng | Survey of data-driven approaches to Speech Synthesis | |
| Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition | |
| Salvi | Developing acoustic models for automatic speech recognition | |
| Micallef | A text to speech synthesis system for Maltese | |
| Kaur et al. | Building atext-to-speech system for punjabi language | |
| Reddy et al. | Automatic pitch accent contour transcription for Indian languages | |
| IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
| Chowdhury | Concatenative text-to-speech synthesis: A study on standard colloquial Bengali | |
| Mittal et al. | Analysis of Acoustic Features for Gender Identification Using Punjabi Speech Dataset | |
| Höge et al. | SPICOS-the first speech driven dialogue system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071024 Year of fee payment: 10 |