JPH08328575A

JPH08328575A - 音声合成装置

Info

Publication number: JPH08328575A
Application number: JP7130771A
Authority: JP
Inventors: Hiroki Onishi; 宏樹大西; Takeshi Yumura; 武湯村; Masanori Miyatake; 正典宮武; Masashi Ochiiwa; 正士落岩; Takatsugu Izumi; 貴次泉; Terushige Sawada; 暉重澤田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-05-29
Filing date: 1995-05-29
Publication date: 1996-12-13

Abstract

(57)【要約】【目的】合成音声として発声される声を種々の声質、
たとえばアニメーションのキャラクタ、装置を使用する
人の肉親等の声質に変換し得る音声合成装置の提供を目
的とする。【構成】合成音声として再生されるべき音声データを
保存する音声データ保存部８と、テキストデータを保存
するテキストデータ保存部９と、これらに保存部に保存
されているデータを合成音声として再生する音声合成部
11と、入力された音声信号の声質の特徴を抽出した声質
データを生成する声質特徴抽出部３と、合成音声を発声
させる際の発声様式を指定する発声様式設定部７とを備
え、音声データ保存部８またはテキストデータ保存部９
に保存されているデータが声質特徴抽出部３により抽出
された声質データを使用して音声合成部11により合成音
声化され、発声様式設定部７により指定されている発声
様式に従って再生される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声合成装置に関し、特
に子供を対象として合成音声を発声する必要があるよう
な種々の装置、たとえば子供向けパーソナルコンピュー
タ等に組み込んで使用するような場合に好適な音声合成
装置に関する。

【０００２】

【従来の技術】近年のパーソナルコンピュータの発達及
び普及に伴って、学齢に達する前後の子供を対象とし
て、主として学習目的で使用させるためのパーソナルコ
ンピュータが商品化されている。ところで、このような
パーソナルコンピュータでは、パーソナルコンピュータ
の操作そのもの、あるいは学習の手順、設問、その解
答、解答の求め方、更には物語を読み上げたり、歌を歌
ったり等を合成音声の発声により行なっている場合が多
い。

【０００３】

【発明が解決しようとする課題】このように、上述のよ
うな子供向けの従来のパーソナルコンピュータは、合成
音声により子供に種々の指示を与えるようになっている
が、これまでの合成音声は抑揚，アクセント等が不自然
であり、また発声速度も一定であり、更に声質も一種類
であるか、せいぜい数種類であり、しかもそれらの声質
は予めパーソナルコンピュータに設定されていて、子供
にとっては馴染みのない声である場合が多い。このた
め、そのようなパーソナルコンピュータを使用する子供
にとってはいまひとつ学習に身が入らないという結果を
もたらしていた。

【０００４】本発明はこのような事情に鑑みてなされた
ものであり、合成音声として発声される声を種々の声
質、たとえばアニメーションのキャラクタ、装置を使用
する人の肉親等の声質に変換し得る音声合成装置の提供
を目的とする。

【０００５】

【課題を解決するための手段】本発明に係る音声合成装
置は、合成音声として再生されるべき音声データ，テキ
ストデータを保存するデータ保存部と、データ保存部に
保存されているデータを合成音声として再生する音声合
成部と、入力された音声信号の声質の特徴を抽出した声
質データを生成する声質特徴抽出部とを備える。

【０００６】また、本発明に係る音声合成装置は、合成
音声として再生されるべき音声データ，テキストデータ
を保存するデータ保存部と、データ保存部に保存されて
いるデータを合成音声として再生する音声合成部と、音
声合成部に合成音声を発声させる際の発声様式を指定す
る発声様式設定部とを備える。

【０００７】更に、本発明に係る音声合成装置は、合成
音声として再生されるべき音声データ，テキストデータ
を保存するデータ保存部と、データ保存部に保存されて
いるデータを合成音声として再生する音声合成部と、入
力された音声信号の声質の特徴を抽出した声質データを
生成する声質特徴抽出部と、音声合成部に合成音声を発
声させる際の発声様式を指定する発声様式設定部とを備
える。

【０００８】

【作用】本発明に係る音声合成装置では、データ保存部
に保存されているデータが声質特徴抽出部により抽出さ
れた声質データを使用して合成音声化される。

【０００９】また、本発明に係る音声合成装置では、デ
ータ保存部に保存されているデータを発声様式設定部に
より指定されている発声様式に従って再生される。

【００１０】更に、本発明に係る音声合成装置では、デ
ータ保存部に保存されているデータが声質特徴抽出部に
より抽出された声質データを使用して合成音声化され、
発声様式設定部により指定されている発声様式に従って
再生される。

【００１１】

【実施例】以下、本発明をその実施例を示す図面に基づ
いて詳述する。図１は本発明に係る音声合成装置の基本
的構成を示すブロック図である。

【００１２】図１において、参照符号３は声質特徴抽出
部を示しており、生の音声を入力するためのマイクロフ
ォン１と、ビデオテープレコーダ，テレビジョン，ラジ
オ等からアナログの音声信号を直接、あるいは既に録音
機に録音された音声信号を入力するためのライン入力端
子２とが備えられている。この声質特徴抽出部３は、上
述のマイクロフォン１またはライン入力端子２から入力
された音声信号の声質の特徴をたとえばその周波数成分
を分析することにより抽出して声質データを生成する。
以下、この声質特徴抽出部３により声質の特徴が抽出さ
れて声質データが生成される音声信号をサンプル音声と
いう。

【００１３】参照符号４は声質データ格納部を示してお
り、声質特徴抽出部３により抽出されたサンプル音声の
声質の特徴のデータ、即ち声質データを格納する。な
お、声質データ格納部４に格納されている複数の声質デ
ータは、たとえばキーボード等を利用した声質選択部５
の操作により選択することが可能である。

【００１４】参照符号６は声質データ加工部を示してお
り、声質選択部５により選択され声質データ格納部４か
ら出力されたサンプル音声の声質データを加工する。こ
の声質データの加工としては、たとえば複数の声質デー
タの合成，男性の声の女性化，逆に女性の声の男性化，
子供の声の大人化，大人の声の子供化等が可能である。
この声質データ加工部６による声質データの加工処理も
声質選択部５により選択することが可能である。このよ
うな声質データの加工処理は、たとえば男性の声の声質
データと女性の声の声質データとの間の一般的な相違の
傾向が判明していれば、相互に変換することは容易であ
る。

【００１５】参照符号７は発声様式設定部を示してお
り、合成音声を発声させる際の目的,状況、文章の内容
等に応じて、種々の韻律情報を与えることが可能であ
る。たとえば、人が設問を発する場合と物語を読み上げ
る場合とでは話し方が異なるが、従来の合成音声ではそ
のような区別をして合成音声を発声することは出来な
い。しかし、本発明の音声合成装置では、合成音声を発
声する際の目的，状況に応じて発声様式設定部７により
韻律情報を変化させて合成音声の抑揚，アクセント、あ
るいは発声速度を変化させることが可能になる。この音
声データ保存部８もたとえばキーボード等を利用するこ
とが可能であり、前述の声質選択部５と共に一つのキー
ボードで兼用することも勿論可能である。

【００１６】参照符号８は音声データ保存部を示してお
り、既に音声データとして存在する種々の情報を保存し
ている。参照符号９はテキストデータ保存部を示してお
り、種々のテキストデータが保存されている。これらの
音声データ保存部８及びテキストデータ保存部９は一つ
の記憶装置を利用してもよい。

【００１７】参照符号10は出力データ選択部を示してお
り、音声データ保存部８及びテキストデータ保存部９に
保存されている音声データ, テキストデータの内のいず
れかを選択して音声合成部11へ出力させる。なお、この
出力データ選択部10に関しても、前述の声質選択部５及
び発声様式設定部７と共に一つのキーボードで兼用する
ことも勿論可能である。

【００１８】参照符号11は音声合成部を示しており、音
声データ保存部８またはテキストデータ保存部９に保存
されているデータが出力データ選択部10により選択され
た場合に、声質データ加工部６から与えられるサンプル
音声の声質データで合成音声化し、スピーカ12から再生
する。なお、スピーカ12のみならず、たとえばイヤホー
ン, ヘッドホーン等を使用することも、更にライン出力
端子から種々の録音機に出力して録音することも勿論可
能である。

【００１９】上述のような本発明の音声合成装置の動作
について図２のフローチャートを参照して以下に説明す
る。

【００２０】ところで、人の声の声質（音色）は、声
（音）の三要素（大きさ，高さ，音色）の内の一つであ
り、主としてその音を構成する各部分音の周波数によっ
て規定される。従って、アナログの音声信号をその周波
数成分を分析することにより声質の特徴係数として抽出
することが可能になる。声質特徴抽出部３においてはそ
のような手法により、マイクロフォン１またはライン入
力端子２からサンプル音声を入力し (ステップS1) 、入
力されたサンプル音声のアナログの音声信号を周波数分
析し、声質の特徴係数、即ち声質データを抽出する (ス
テップS2) 。

【００２１】このようにして声質特徴抽出部３により抽
出されたサンプル音声の声質データは声質データ格納部
４に格納される (ステップS3) 。従って、上述の声質特
徴抽出部３により、たとえばマイクロフォン１から種々
の人の音声をサンプル音声として入力することにより、
それらのサンプル音声の声質データを抽出して予め蓄積
しておくことが可能である。たとえば、装置を主として
子供が使用する場合には、その子供の両親，祖父母等の
声、あるいは保育園，幼稚園等の先生の声をサンプル音
声とすることが望ましい。また、ライン入力端子２から
はビデオテープレコーダ，テレビジョン，ラジオ等から
音声を直接、あるいは既に録音機に録音された音声を入
力することによりそれらをサンプル音声として種々の声
質データを予め蓄積しておくことが可能である。この場
合は、たとえばアニメーションのキャラクタの声，タレ
ントの声の声質データ等を蓄積しておくことが可能にな
る。

【００２２】一方、テキストデータに関してはテキスト
データ保存部９に予め種々のテキストデータを蓄積して
おくことが可能である。たとえば、テキストデータ保存
部９としてフレキシブルディスクドライバを使用すれ
ば、テキストデータが既に記憶されている記憶媒体とし
てのフレキシブルディスクを装着すればよいし、あるい
はワードプロセッサとしての機能を持たせておけば、キ
ーボード等の操作により直接テキストデータを入力する
ことも可能である。

【００２３】また、音声データに関しても音声データ保
存部８に予め種々の音声データを蓄積しておくことが可
能である。たとえば、、テキストデータ保存部９の場合
と同様に、音声データ保存部８としてフレキシブルディ
スクドライバを使用すれば、音声データが既に記憶され
ている記憶媒体としてのフレキシブルディスクを装着す
ればよいし、あるいは図示されていないマイクロフォ
ン, ライン入力端子をを使用して直接入力することも可
能である。勿論、前述したように、音声データ保存部８
とテキストデータ保存部９とを一つのフレキシブルディ
スクドライバ, ハードディスクドライバ等の記憶装置で
構成して兼用することも可能である。

【００２４】次に、ユーザが実際に合成音声を発声させ
る際の手順について説明する。まず、ユーザは声質選択
部５を操作することにより、どの声質で合成音声を発声
するかを選択し、更に声質の加工を行なうか否か、行な
う場合にはどのような加工を行なうかを声質選択部５を
操作して設定する (ステップS4) 。

【００２５】次に、ユーザは発声様式設定部７を操作す
ることにより、どのような発声様式で発声させるかを韻
律情報を指定して設定する。これは、たとえばこれから
合成音声出力される文章の内容, それの聴取者等に応じ
て指定を行なう。この後、ユーザは出力データ選択部10
を操作して音声データ保存部８及びテキストデータ保存
部９に予め保存されているテキストデータ, 音声データ
のうちのいずれを合成音声出力させるかを選択する (ス
テップS6) 。

【００２６】以上により、音声合成部11には声質デー
タ, 発声様式のデータ (韻律データ)及び出力すべき文
章のデータ（テキストデータまたは音声データ）が与え
られる。音声データ保存部８に保存されている音声デー
タが選択されている場合は、音声合成部11はその音声デ
ータの声質データを声質選択部５により選択されている
サンプル音声の声質データに変換し、更に発声様式設定
部７により選択されている発声様式のデータに従って、
合成音声としてスピーカ12から発声する (ステップS7)
。また、テキストデータ保存部９に保存されているテ
キストデータが選択されている場合は、音声合成部11は
そのテキストデータに声質選択部５により選択されてい
るサンプル音声の声質データを付加し、更に発声様式設
定部７により設定されている発声様式のデータに従っ
て、合成音声としてスピーカ12から発声する (ステップ
S7) 。

【００２７】このように、本発明の音声合成装置の実施
例では、既に蓄積されているテキストデータ、あるいは
音声データを合成音声で発声させる際に、予め登録して
あるサンプル音声の声質で発声させることが可能になる
ので、たとえば子供用パーソナルコンピュータに適用し
た場合には、パーソナルコンピュータの操作そのもの、
あるいは学習の手順、問題の設定、解答、解答の求め
方、更には物語を読み上げたり、歌を歌ったり等を子供
にとって親しみやすい両親，祖父母、あるいはアニメー
ションのキャラクタの声で合成音声を発声することによ
り行なえるようになる。従って、従来の無味乾燥な合成
音声に比して子供にとっては親しみやすく、興味をもっ
てパーソナルコンピュータを使用することが出来るよう
になる。

【００２８】なお、本発明の音声合成装置は上述のよう
な子供用パーソナルコンピュータのみならず、たとえば
カラオケ装置，留守番電話，音声案内装置等、種々の合
成音声を発声する装置に適用可能であることは言うまで
もない。

【００２９】

【発明の効果】以上に詳述したように、本発明の音声合
成装置によれば、これまでの不自然で画一的な合成音声
に代えて、種々の声質、たとえばアニメーションのキャ
ラクタ、装置を使用する人の肉親、あるいは知人等の声
質で合成音声を発声することが可能になるので、ユーザ
にとっては親しみやすい装置が実現する。また、合成音
声で発声される内容、それを聴取する人物等に応じて発
声様式を変化させることも可能である。

【図面の簡単な説明】

【図１】本発明の音声合成装置の一構成例を示すブロッ
ク図である。

【図２】本発明の音声合成装置の動作手順を示すフロー
チャートである。

【符号の説明】

３声質特徴抽出部７発声様式設定部８音声データ保存部９テキストデータ保存部 11 音声合成部

───────────────────────────────────────────────────── フロントページの続き (72)発明者落岩正士大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内 (72)発明者泉貴次大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内 (72)発明者澤田暉重大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内

Claims

【特許請求の範囲】

【請求項１】合成音声として再生されるべき音声デー
タ，テキストデータを保存するデータ保存部と、前記デ
ータ保存部に保存されているデータを合成音声として再
生する音声合成部とを備えた音声合成装置において、入力された音声信号の声質の特徴を抽出した声質データ
を生成する声質特徴抽出部を備え、前記音声合成部は、前記声質特徴抽出部により抽出され
た声質データを使用して前記データ保存部に保存されて
いるデータを合成音声化して再生すべくなしてあること
を特徴とする音声合成装置。
【請求項２】合成音声として再生されるべき音声デー
タ，テキストデータを保存するデータ保存部と、前記デ
ータ保存部に保存されているデータを合成音声として再
生する音声合成部とを備えた音声合成装置において、前記音声合成部に合成音声を発声させる際の発声様式を
指定する発声様式設定部を備え、前記音声合成部は、前記データ保存部に保存されている
データを前記発声様式設定部により指定されている発声
様式に従って再生すべくなしてあることを特徴とする音
声合成装置。
【請求項３】合成音声として再生されるべき音声デー
タ，テキストデータを保存するデータ保存部と、前記デ
ータ保存部に保存されているデータを合成音声として再
生する音声合成部とを備えた音声合成装置において、入力された音声信号の声質の特徴を抽出した声質データ
を生成する声質特徴抽出部と、前記音声合成部に合成音声を発声させる際の発声様式を
指定する発声様式設定部とを備え、前記音声合成部は、前記声質特徴抽出部により抽出され
た声質データを使用して前記データ保存部に保存されて
いるデータを合成音声化し、前記発声様式設定部により
指定されている発声様式に従って再生すべくなしてある
ことを特徴とする音声合成装置。