JPH0344319B2 - - Google Patents
Info
- Publication number
- JPH0344319B2 JPH0344319B2 JP58108766A JP10876683A JPH0344319B2 JP H0344319 B2 JPH0344319 B2 JP H0344319B2 JP 58108766 A JP58108766 A JP 58108766A JP 10876683 A JP10876683 A JP 10876683A JP H0344319 B2 JPH0344319 B2 JP H0344319B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sound source
- voiced
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000001308 synthesis method Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000002932 luster Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声信号をデイジタル化した後、分析
し、分析して得られたパラメータを低データレー
トで伝送または記憶し、再び音声信号に復元する
音声分析合成方法に関するものである。
し、分析して得られたパラメータを低データレー
トで伝送または記憶し、再び音声信号に復元する
音声分析合成方法に関するものである。
従来例の構成とその問題点
通常、音声分析合成装置においては入力された
音声から分析器で声道パラメータと音源パラメー
タを抽出し、各パラメータにコード化等のデータ
レート低減のための処理を施し、伝送路または記
憶素子へ送出し、これを合成器で音声に再合成す
る。この場合の方式として従来、音源パラメータ
の違いにより、(1)分析時に抽出される分析残差波
形をそのまま或いは差分等の処理でデータ圧縮し
て伝送または記憶する方式、(2)音声の大きさを表
わす振幅パラメータ、声の高さを表わすピツチパ
ラメータおよび有声無声切換情報を抽出して伝送
または記憶する方式、(3)音声データを記憶する例
では前記2の方式の各パラメータと話者の分析残
差波形の一部を記憶しておき再合成する方式があ
る。
音声から分析器で声道パラメータと音源パラメー
タを抽出し、各パラメータにコード化等のデータ
レート低減のための処理を施し、伝送路または記
憶素子へ送出し、これを合成器で音声に再合成す
る。この場合の方式として従来、音源パラメータ
の違いにより、(1)分析時に抽出される分析残差波
形をそのまま或いは差分等の処理でデータ圧縮し
て伝送または記憶する方式、(2)音声の大きさを表
わす振幅パラメータ、声の高さを表わすピツチパ
ラメータおよび有声無声切換情報を抽出して伝送
または記憶する方式、(3)音声データを記憶する例
では前記2の方式の各パラメータと話者の分析残
差波形の一部を記憶しておき再合成する方式があ
る。
(1)の方式では話者の声質をよく再合成できる反
面伝送または記憶時のデータレートが高いという
欠点がある。
面伝送または記憶時のデータレートが高いという
欠点がある。
(2)の方式では(1)の方式と反対にデータレートは
低いが話者の違いに関係なく一定の有声音源デー
タを使用するため声のつや等の個性的特徴が失な
われた合成音となる欠点がある。
低いが話者の違いに関係なく一定の有声音源デー
タを使用するため声のつや等の個性的特徴が失な
われた合成音となる欠点がある。
(3)の方式は(1)および(2)の方式の中間的特徴をも
つが話者が一定でない実時間分析合成の例では適
さない。
つが話者が一定でない実時間分析合成の例では適
さない。
発明の目的
本発明は従来の技術の上記欠点を改善するもの
で、その目的は音声の実時間伝送における情報量
を極端に増大することなく、話者の個性的な特徴
を含んだ音声を再合成するための音声分析合成方
法を提供するものである。
で、その目的は音声の実時間伝送における情報量
を極端に増大することなく、話者の個性的な特徴
を含んだ音声を再合成するための音声分析合成方
法を提供するものである。
発明の構成
本発明は定常の有声音区間を分析して得られた
残差波形の一部を有声駆動音源データとして無音
区間に伝送し音声合成することを特徴とする音声
分析合成方法である。
残差波形の一部を有声駆動音源データとして無音
区間に伝送し音声合成することを特徴とする音声
分析合成方法である。
実施例の説明
以下、本発明の実施例を詳細に説明する。第1
図は本発明の一実施例における音声分析合成方法
を実現する装置の構成を示すブロツク図である。
第1図において、1はマイクロフオン等の収音器
で伝送する音声を収音しアナログ信号に変換し
て、音声分析器2に与える。音声分析器2はアナ
ログ信号を8K〜10KHz程度でサンプリングしデ
イジタル信号に変換した後5〜20ms程度の区間
(フレームと呼ぶ)毎に線形予測分析等により声
道パラメータと音源パラメータを求め、このパラ
メータを符号化等によりさらに帯域圧縮し、伝送
路3に送出する。伝送路3は通常の電話回線のよ
うに実時間で伝送される系のほか、書込可能なメ
モリ素子(RAM)等のような記憶媒体であつて
もよい。圧縮パラメータを受信した音声合成器4
では音声分析器2で行なつた帯域圧縮の逆の操作
を行ない音声信号を復元する。この復元した音声
信号をスピーカ5に与え音声再生する。
図は本発明の一実施例における音声分析合成方法
を実現する装置の構成を示すブロツク図である。
第1図において、1はマイクロフオン等の収音器
で伝送する音声を収音しアナログ信号に変換し
て、音声分析器2に与える。音声分析器2はアナ
ログ信号を8K〜10KHz程度でサンプリングしデ
イジタル信号に変換した後5〜20ms程度の区間
(フレームと呼ぶ)毎に線形予測分析等により声
道パラメータと音源パラメータを求め、このパラ
メータを符号化等によりさらに帯域圧縮し、伝送
路3に送出する。伝送路3は通常の電話回線のよ
うに実時間で伝送される系のほか、書込可能なメ
モリ素子(RAM)等のような記憶媒体であつて
もよい。圧縮パラメータを受信した音声合成器4
では音声分析器2で行なつた帯域圧縮の逆の操作
を行ない音声信号を復元する。この復元した音声
信号をスピーカ5に与え音声再生する。
帯域圧縮技術として本実施例では線形予測分析
法の一つであるPARCOR法を用いている。
PARCOR法を用いた音声分析器については後述
する。
法の一つであるPARCOR法を用いている。
PARCOR法を用いた音声分析器については後述
する。
第2図に示した音声信号をPARCOR分析、パ
ラメータ伝送、PARCOR合成する際、伝送路の
容量はパラメータの単位時間当りの最大データレ
ートで定まるが、実際の伝送では第2図において
区間2,4に比して区間1,3,5のような無音
区間では転送データレートは極端に低い。そこ
で、本発明では区間2や4で分析して得られた残
差波形のうち定常的な母音区間の一部を区間3や
5で伝送し合成器で有声駆動音源として使用す
る。この残差波形にはパラメータで表わされない
話者の個人性が含まれているので個人性豊かな音
声が合成できる。有声駆動音源データは通常1ピ
ツチ周期以下のデータ列であるが本実施例では8
ビツト×31点で構成しているため248ビツトを無
音区間に転送する必要があり、今、2400ビツト/
秒の伝送路を使用すれば、この残差データの伝送
に約100ミリ秒所要するが、通常の発声では数百
ミリ秒程度の無音区間はよく存在するので十分伝
送できる。なお有声駆動音源データは差分法等で
データ圧縮し短かい無音区間で伝送することもで
きる。一方、合成器は区間2のような発声開始時
点ではまだ駆動音源データが伝送されていないの
で予め定めたインパルス波形等を有声駆動音源デ
ータとして使用する。
ラメータ伝送、PARCOR合成する際、伝送路の
容量はパラメータの単位時間当りの最大データレ
ートで定まるが、実際の伝送では第2図において
区間2,4に比して区間1,3,5のような無音
区間では転送データレートは極端に低い。そこ
で、本発明では区間2や4で分析して得られた残
差波形のうち定常的な母音区間の一部を区間3や
5で伝送し合成器で有声駆動音源として使用す
る。この残差波形にはパラメータで表わされない
話者の個人性が含まれているので個人性豊かな音
声が合成できる。有声駆動音源データは通常1ピ
ツチ周期以下のデータ列であるが本実施例では8
ビツト×31点で構成しているため248ビツトを無
音区間に転送する必要があり、今、2400ビツト/
秒の伝送路を使用すれば、この残差データの伝送
に約100ミリ秒所要するが、通常の発声では数百
ミリ秒程度の無音区間はよく存在するので十分伝
送できる。なお有声駆動音源データは差分法等で
データ圧縮し短かい無音区間で伝送することもで
きる。一方、合成器は区間2のような発声開始時
点ではまだ駆動音源データが伝送されていないの
で予め定めたインパルス波形等を有声駆動音源デ
ータとして使用する。
第3図は第1図中2に相当する音声分析器の構
成を示すブロツク図である。21は音声信号をサ
ンプリングレデイジタル信号に変換するAD変換
器でデイジタル信号はPARCOR分析器22、ピ
ツチ抽出器23、有声無声判定器24、無音区間
検出器25に送られる。PARCOR分析器22で
得られた残差信号は残差切出回路26で残差信号
の一部を切出され一時蓄わえられる。また振幅決
定回路27で振幅パラメータが求められる。
PARCOR分析器22、ピツチ抽出器23、有声
無声判定器24、無音区間検出器25および振幅
決定回路27で求められたパラメータは符号器2
8で符号化され、切換器29を経てある時間区間
(フレーム)を代表するパラメータ値として伝送
路3に送出される。無音区間検出器25で無音区
間が検出されると切換器29は反転し残差切出回
路26で切出された残差波形の一部が合成器の有
声音源データとして伝送される。
成を示すブロツク図である。21は音声信号をサ
ンプリングレデイジタル信号に変換するAD変換
器でデイジタル信号はPARCOR分析器22、ピ
ツチ抽出器23、有声無声判定器24、無音区間
検出器25に送られる。PARCOR分析器22で
得られた残差信号は残差切出回路26で残差信号
の一部を切出され一時蓄わえられる。また振幅決
定回路27で振幅パラメータが求められる。
PARCOR分析器22、ピツチ抽出器23、有声
無声判定器24、無音区間検出器25および振幅
決定回路27で求められたパラメータは符号器2
8で符号化され、切換器29を経てある時間区間
(フレーム)を代表するパラメータ値として伝送
路3に送出される。無音区間検出器25で無音区
間が検出されると切換器29は反転し残差切出回
路26で切出された残差波形の一部が合成器の有
声音源データとして伝送される。
第4図は伝送されてくるパラメータおよび有声
音源データを受けて音声信号を合成する
PARCOR方式音声合成器の構成を示すブロツク
図であり、第1図の4に対応する。伝送されてく
るデータは選択器41で2種類に分離され、パラ
メータはパラメータメモリ42に蓄わえられ、有
声音源データは音源メモリ43に蓄わえられる。
電源投入直後および長時間の無音区間を検出した
時は前記の予め定めたインパルス波形等の有声音
源データが音源メモリ43に自動的にセツトさ
れ、選択器41より新しい有声音源データがセツ
トされるまで保持される。44は無声音源発生器
で、有声、無声選択器45で音源メモリ43また
は無声音源発生器44のいずれかのデータが選択
され、パラメータメモリ42内のパラメータとと
もにデイジタルフイルタ46で演算され、その結
果がDA変換器47でアナログ信号に変換されて
音声信号となり、増幅器48で増幅されてスピー
カ5へ供給される。
音源データを受けて音声信号を合成する
PARCOR方式音声合成器の構成を示すブロツク
図であり、第1図の4に対応する。伝送されてく
るデータは選択器41で2種類に分離され、パラ
メータはパラメータメモリ42に蓄わえられ、有
声音源データは音源メモリ43に蓄わえられる。
電源投入直後および長時間の無音区間を検出した
時は前記の予め定めたインパルス波形等の有声音
源データが音源メモリ43に自動的にセツトさ
れ、選択器41より新しい有声音源データがセツ
トされるまで保持される。44は無声音源発生器
で、有声、無声選択器45で音源メモリ43また
は無声音源発生器44のいずれかのデータが選択
され、パラメータメモリ42内のパラメータとと
もにデイジタルフイルタ46で演算され、その結
果がDA変換器47でアナログ信号に変換されて
音声信号となり、増幅器48で増幅されてスピー
カ5へ供給される。
発明の効果
以上のように、本発明は実時間で音声波形を分
析、伝送、合成する際に定常の有声音区間を分析
して得られた残差波形の一部を有声駆動音源デー
タとして無音中の低データレートの区間に伝送す
るようにした音声分析合成方法で、音声分析時に
抽出される残差波形の一部を、パラメータを伝送
しない無音区間に伝送することにより、伝送路の
最大転送データ容量を増大させることなく、声の
つやや丸やかさ等といつた話者特有の声質豊かな
音声を合成することができる。
析、伝送、合成する際に定常の有声音区間を分析
して得られた残差波形の一部を有声駆動音源デー
タとして無音中の低データレートの区間に伝送す
るようにした音声分析合成方法で、音声分析時に
抽出される残差波形の一部を、パラメータを伝送
しない無音区間に伝送することにより、伝送路の
最大転送データ容量を増大させることなく、声の
つやや丸やかさ等といつた話者特有の声質豊かな
音声を合成することができる。
第1図は本発明の一実施例における音声分析合
成方法を実現する装置の構成を示すブロツク図、
第2図は音声波形と伝送するデータの時間関係を
示した波形図、第3図は本発明の一実施例におけ
る音声分析合成方法を実現する装置の音声分析器
部の構成を示すブロツク図、第4図は本発明の一
実施例における音声分析合成方法を実現する装置
の音声合成器部の構成を示すブロツク図である。 1……収音器、2……音声分析器、3……伝送
路、4……音声合成器、5……スピーカ、21…
…AD変換器、22……PARCOR分析器、23
……ピツチ抽出器、24……有声無声判定器、2
5……無声区間検出器、26……残差切出回路、
27……振幅決定回路、28……符号器、29…
…切換器、41……選択器、42……パラメータ
メモリ、43……音源メモリ、44……無声音源
発生器、46……デイジタルフイルタ、47……
DA変換器。
成方法を実現する装置の構成を示すブロツク図、
第2図は音声波形と伝送するデータの時間関係を
示した波形図、第3図は本発明の一実施例におけ
る音声分析合成方法を実現する装置の音声分析器
部の構成を示すブロツク図、第4図は本発明の一
実施例における音声分析合成方法を実現する装置
の音声合成器部の構成を示すブロツク図である。 1……収音器、2……音声分析器、3……伝送
路、4……音声合成器、5……スピーカ、21…
…AD変換器、22……PARCOR分析器、23
……ピツチ抽出器、24……有声無声判定器、2
5……無声区間検出器、26……残差切出回路、
27……振幅決定回路、28……符号器、29…
…切換器、41……選択器、42……パラメータ
メモリ、43……音源メモリ、44……無声音源
発生器、46……デイジタルフイルタ、47……
DA変換器。
Claims (1)
- 【特許請求の範囲】 1 定常の有声音区間を分析して得られた残差波
形の一部を有声駆動音源データとして無音区間に
伝送し音声合成することを特徴とする音声分析合
成方法。 2 残差波形の一部が抽出される以前は予め定め
た波形を有声駆動音源データとして音声合成する
特許請求の範囲第1項記載の音声分析合成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58108766A JPS60500A (ja) | 1983-06-16 | 1983-06-16 | 音声分析合成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58108766A JPS60500A (ja) | 1983-06-16 | 1983-06-16 | 音声分析合成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60500A JPS60500A (ja) | 1985-01-05 |
| JPH0344319B2 true JPH0344319B2 (ja) | 1991-07-05 |
Family
ID=14492944
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58108766A Granted JPS60500A (ja) | 1983-06-16 | 1983-06-16 | 音声分析合成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60500A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2642617B2 (ja) * | 1985-01-19 | 1997-08-20 | 三洋電機株式会社 | 音声合成装置 |
-
1983
- 1983-06-16 JP JP58108766A patent/JPS60500A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60500A (ja) | 1985-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0380572B1 (en) | Generating speech from digitally stored coarticulated speech segments | |
| US5828994A (en) | Non-uniform time scale modification of recorded audio | |
| JPWO2012001730A1 (ja) | 音声認識装置 | |
| JPH0344319B2 (ja) | ||
| US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
| JPH05307395A (ja) | 音声合成装置 | |
| JPH10133678A (ja) | 音声再生装置 | |
| JPH0362280B2 (ja) | ||
| KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
| JPH0235994B2 (ja) | ||
| JPH0772896A (ja) | 音声の圧縮伸長装置 | |
| JPS62102294A (ja) | 音声符号化方式 | |
| JP2535809B2 (ja) | 線形予測型音声分析合成装置 | |
| JPH0376480B2 (ja) | ||
| JPH0736119B2 (ja) | 区分的最適関数近似方法 | |
| KR920002861B1 (ko) | Lpc 음성합성장치 및 그 방법 | |
| Linggard | Neural networks for speech processing: An introduction | |
| JPH0690638B2 (ja) | 音声分析方式 | |
| JPS5950079B2 (ja) | 音声合成方法 | |
| JPS61128299A (ja) | 音声処理装置 | |
| JPS58113992A (ja) | 音声信号圧縮方式 | |
| JPH0552520B2 (ja) | ||
| JPS6098497A (ja) | 音響装置 | |
| JPS5816295A (ja) | 音声分析合成方式 | |
| JPH0376479B2 (ja) |