JPH01140369A - 音声対話型文書作成装置 - Google Patents
音声対話型文書作成装置Info
- Publication number
- JPH01140369A JPH01140369A JP62297567A JP29756787A JPH01140369A JP H01140369 A JPH01140369 A JP H01140369A JP 62297567 A JP62297567 A JP 62297567A JP 29756787 A JP29756787 A JP 29756787A JP H01140369 A JPH01140369 A JP H01140369A
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- speech
- unit
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は音声を利用した文書作成システムに係り、特に
ユーザがシステムと自由に対話しながら文書を作成する
のに好適な文書作成装置に関する。
ユーザがシステムと自由に対話しながら文書を作成する
のに好適な文書作成装置に関する。
音声を入力手段とした文書作成システム(いわゆる音声
タイプライタ)は、従来のキーボードを入力手段とした
タイプライタ−に比べて、キー操作の煩雑さがない等の
理由から、その実現が待ち望まれている。しかし、通常
の速さで発声された音声を正確に認識することは非常に
難しい技術となっている。この結果、音声タイプライタ
は古くから研究・開発されているにまかかわらず、未だ
実現されていない。
タイプライタ)は、従来のキーボードを入力手段とした
タイプライタ−に比べて、キー操作の煩雑さがない等の
理由から、その実現が待ち望まれている。しかし、通常
の速さで発声された音声を正確に認識することは非常に
難しい技術となっている。この結果、音声タイプライタ
は古くから研究・開発されているにまかかわらず、未だ
実現されていない。
従来の音声タイプライタの実現に向けた技術としては、
日本音響学会音声研究会資料580−68 (1981
−1) r単音節音声認識の一方法」に記載のように
単音節(子音−母音)の音声を入力単位としたもの、日
本音響学会音声研究会資料585−62 (1985−
12)r音節をペースとする日本語音声認識」に記載の
ように文節の音声を入力単位としたものなどが知られて
いる。
日本音響学会音声研究会資料580−68 (1981
−1) r単音節音声認識の一方法」に記載のように
単音節(子音−母音)の音声を入力単位としたもの、日
本音響学会音声研究会資料585−62 (1985−
12)r音節をペースとする日本語音声認識」に記載の
ように文節の音声を入力単位としたものなどが知られて
いる。
上記従来技術の単音節を入力単位とする方法は、通常に
発声された文章を認識する難しさを回避する方法として
有効なものではあるが、tlを音節単位に発声すること
自体が不自然であり、難しいという問題があった。一方
、文節を入力単位とする方法は、発声の不自然さはかな
り改善されるものの、通常の話し方ではないことや文節
の一字一句を認識することが難しいという問題があった
。さらに、上記いずれの方法でも、作成したい文書を音
声で正確に入力しなければならず、書き言葉と話し言葉
の違いに起因して、音声を使うメリットが失われるとい
う問題があった。
発声された文章を認識する難しさを回避する方法として
有効なものではあるが、tlを音節単位に発声すること
自体が不自然であり、難しいという問題があった。一方
、文節を入力単位とする方法は、発声の不自然さはかな
り改善されるものの、通常の話し方ではないことや文節
の一字一句を認識することが難しいという問題があった
。さらに、上記いずれの方法でも、作成したい文書を音
声で正確に入力しなければならず、書き言葉と話し言葉
の違いに起因して、音声を使うメリットが失われるとい
う問題があった。
本発明の目的は上記従来の問題を解決して、入力の仕方
が自然で、かつ音声を入力手段として使うメリットを最
大に活かした音声による文書作成装置を提供することに
ある。
が自然で、かつ音声を入力手段として使うメリットを最
大に活かした音声による文書作成装置を提供することに
ある。
上記目的は、ユーザがシステムと自由に対話しながら入
力された音声のキーワードだけを探索。
力された音声のキーワードだけを探索。
認識し、ユーザが本来作成しようとする文書をキーワー
ド群から推定することにより、達成される。
ド群から推定することにより、達成される。
本発明の結果、ユーザは自由な話し言葉でシステムに入
力できるので、音声を使って文書作成する最大のメリッ
トが失われることがなく、効率の良い文書作成システム
が可能となる。
力できるので、音声を使って文書作成する最大のメリッ
トが失われることがなく、効率の良い文書作成システム
が可能となる。
以下1本発明の一実施例を第1図により説明する。第1
図は本発明の音声による文書作成装置の一実施例を示す
ブロック図である。対話型で入力された音声1は、音声
分析部2で音声の特徴パラメータが所定時間(フレーム
)ごとに計算される。
図は本発明の音声による文書作成装置の一実施例を示す
ブロック図である。対話型で入力された音声1は、音声
分析部2で音声の特徴パラメータが所定時間(フレーム
)ごとに計算される。
次に、キーワード探索部3では音声の特徴パラメータを
使って1発音声が伝えたい、即ち入力したい単語など、
いわゆるキーワードの位置の探索が行なわれ、そのキー
ワードの内容の認識がキーワード認識部4で実行される
6文節生成部5では、内容のわかったキーワード列から
、発声者が入力したい文章(文節で構成されている)が
生成される。この結果、ユーザ(発声者)が作成したい
文書が推定、生成され、文書表示・出力部6で、ディス
プレイに文書が表示されたり、音声でスピーカーから出
力されたりする。選択・修正部7では表示あるいは出力
されたひとつあるいは複数の候補文書から妥当なものを
選択したり、妥当なものがない場合は再度入力や誤り個
所の修正が行なわれ、最終的に作成したい文書が完成さ
れることになる。以上の処理は、制御部8で制御されな
がら実行される。
使って1発音声が伝えたい、即ち入力したい単語など、
いわゆるキーワードの位置の探索が行なわれ、そのキー
ワードの内容の認識がキーワード認識部4で実行される
6文節生成部5では、内容のわかったキーワード列から
、発声者が入力したい文章(文節で構成されている)が
生成される。この結果、ユーザ(発声者)が作成したい
文書が推定、生成され、文書表示・出力部6で、ディス
プレイに文書が表示されたり、音声でスピーカーから出
力されたりする。選択・修正部7では表示あるいは出力
されたひとつあるいは複数の候補文書から妥当なものを
選択したり、妥当なものがない場合は再度入力や誤り個
所の修正が行なわれ、最終的に作成したい文書が完成さ
れることになる。以上の処理は、制御部8で制御されな
がら実行される。
以下、第1図で示した各処理部について詳細に説明する
。
。
第2図は音声分析部2の一実施例を詳細に示したもので
ある。アナログ入力音声はLPF (低域通過フィルタ
)21.ADC(アナログ−ディジタル変換器)22で
、サンプリングでの折り返し雑音を除去されなからディ
ジタル値へ変換される。
ある。アナログ入力音声はLPF (低域通過フィルタ
)21.ADC(アナログ−ディジタル変換器)22で
、サンプリングでの折り返し雑音を除去されなからディ
ジタル値へ変換される。
次に、特徴バタン抽出部23で音声の特徴パラメータが
所定時間(フレーム)ごとに計算され、入力音声の特徴
バタンか抽出される。音声の特徴パラメータとしては、
BPF (帯域通過フィルタ)出力値やLPG分析(線
形予測分析)結果の各種パラメータなどが用いられる。
所定時間(フレーム)ごとに計算され、入力音声の特徴
バタンか抽出される。音声の特徴パラメータとしては、
BPF (帯域通過フィルタ)出力値やLPG分析(線
形予測分析)結果の各種パラメータなどが用いられる。
韻律情報抽出部24では、音声の強勢又は抑揚などの韻
律的情報を表わす特徴パラメータ(例えば、パワーやピ
ッチ周期)が抽出される。
律的情報を表わす特徴パラメータ(例えば、パワーやピ
ッチ周期)が抽出される。
第3薗は特徴バタン抽出部23の一実施例を詳細に示し
たものである。実施例ではBPF分析をあげている。デ
ィジタル値に変換された登録音声xnは中心周波数と帯
域値の違うに個のBPF群231に入力される。 BP
F231は2次のバターワース型フィルタとなっており
、加算器2個9乗算器4個、遅延器2個から構成されて
いる。BPF出力の波形は絶対値(ABS)232にて
整流され、LPF233にて高域周波数成分をカットさ
れながら登録音声バタンX5(i;フレーム)が求めら
れる。
たものである。実施例ではBPF分析をあげている。デ
ィジタル値に変換された登録音声xnは中心周波数と帯
域値の違うに個のBPF群231に入力される。 BP
F231は2次のバターワース型フィルタとなっており
、加算器2個9乗算器4個、遅延器2個から構成されて
いる。BPF出力の波形は絶対値(ABS)232にて
整流され、LPF233にて高域周波数成分をカットさ
れながら登録音声バタンX5(i;フレーム)が求めら
れる。
LPF233はBPF231同様の処理規模のバターワ
ース型となっている。
ース型となっている。
本発明では音声分析部3の構成をBPF分析としたが、
LPG分析とすることも可能である。この場合の詳細な
実施例は文献「音声波形の線形予測分析による音声分析
と合成(Speech Analysisand 5y
nthesis by Linear Predict
ion of theSpeech Wave) J
by B、S、 Atal et al、 Journ
alof Acoustic 5ociety of
America、 Vol、 50 。
LPG分析とすることも可能である。この場合の詳細な
実施例は文献「音声波形の線形予測分析による音声分析
と合成(Speech Analysisand 5y
nthesis by Linear Predict
ion of theSpeech Wave) J
by B、S、 Atal et al、 Journ
alof Acoustic 5ociety of
America、 Vol、 50 。
p、p、 637〜655 (1971)に詳細に説明
されている。
されている。
第4図は韻律情報抽出部24の一実施例を詳細に示した
ものである。韻律情報を表わすパラメータとしてはパワ
ーとピッチ周期をあげている。
ものである。韻律情報を表わすパラメータとしてはパワ
ーとピッチ周期をあげている。
パワー算出部241では入力音声XnのM時点からのパ
ワーP(短時間エネルギー)が次式に基づいて算出され
る。
ワーP(短時間エネルギー)が次式に基づいて算出され
る。
n=阿+1
ここで、Nは1フレームのサンプル点数を示す。
第4図の実施例では、入力音声X nを入力として乗算
器2411にてX n ” =X FIX X nが求
められ、加算器2412にて、n−1時点までのパワー
の酪化)とXn”が加算され、新らたにn時点でのパワ
ー中間値P、が求められる。以下、遅延バッファ241
3を経由して、同様の処理が繰返され、最終パワーPが
求められる(n=Nに対応)。
器2411にてX n ” =X FIX X nが求
められ、加算器2412にて、n−1時点までのパワー
の酪化)とXn”が加算され、新らたにn時点でのパワ
ー中間値P、が求められる。以下、遅延バッファ241
3を経由して、同様の処理が繰返され、最終パワーPが
求められる(n=Nに対応)。
ピッチ周期算出部242ではセンタークリッピングされ
た波形の自己相関関数から入力音声波形のピッチ周期が
求められる。ピッチ周期(逆数をピッチ周波数、基本周
波数という)は音の高低を司る重要なパラメータであり
、発声者の口の形状(専門的には声道の長さ)という物
理的な特性から基本的には決定され、強調あるいは抑揚
によって多少の値の変動が引き起こされる。ピッチ周期
の算出方法は数多くあるが、未だ完全な手法は見い出さ
れていない0本発明での実施例として、波形の自己相関
関数から導出する方法を使っている。
た波形の自己相関関数から入力音声波形のピッチ周期が
求められる。ピッチ周期(逆数をピッチ周波数、基本周
波数という)は音の高低を司る重要なパラメータであり
、発声者の口の形状(専門的には声道の長さ)という物
理的な特性から基本的には決定され、強調あるいは抑揚
によって多少の値の変動が引き起こされる。ピッチ周期
の算出方法は数多くあるが、未だ完全な手法は見い出さ
れていない0本発明での実施例として、波形の自己相関
関数から導出する方法を使っている。
この手法は文献「音声信号のディジタル処理(r)ig
ital Processing of 5peech
Signals)J byL、R,Rabiner
at al、 PRENTICE−HALL、 P L
50−157に詳細に説明されている。以下、手法に
関して簡単に説明する。センタークリッピングされた波
形ynは1次式から求まる。
ital Processing of 5peech
Signals)J byL、R,Rabiner
at al、 PRENTICE−HALL、 P L
50−157に詳細に説明されている。以下、手法に
関して簡単に説明する。センタークリッピングされた波
形ynは1次式から求まる。
yn=c(xn) ・・・(2)こ
こで、C(x)はセンタークリッピング関数である。ピ
ッチ周期はセンタークリッピングされた波形のi次の自
己相関関数R(i) R(i) = Σ 7 n ’:I n−息
・・・(3)n=i+1 の値の大きさの比較から求められる。つまり、ピッチ周
期をtpとすれば、 R(i)二R(0) i = tp、2 tp、3
tp・・・・・・(4)R(i)二〇 iは上記
以外 の関係があり、ピッチ周期tpがRiの値の大小から求
められる。第4図の実施例では、クリッピング関数メモ
リ2422から読み込まれたクリッピング関数C(xl
と入力音声波形Xnとの乗算が乗算器2421にて実行
され、センタークリッピングされた波形ynが求められ
る0次に、i次の遅延バッファ2423を使って、yn
とyfl−1との積が乗算器2424にて求められる。
こで、C(x)はセンタークリッピング関数である。ピ
ッチ周期はセンタークリッピングされた波形のi次の自
己相関関数R(i) R(i) = Σ 7 n ’:I n−息
・・・(3)n=i+1 の値の大きさの比較から求められる。つまり、ピッチ周
期をtpとすれば、 R(i)二R(0) i = tp、2 tp、3
tp・・・・・・(4)R(i)二〇 iは上記
以外 の関係があり、ピッチ周期tpがRiの値の大小から求
められる。第4図の実施例では、クリッピング関数メモ
リ2422から読み込まれたクリッピング関数C(xl
と入力音声波形Xnとの乗算が乗算器2421にて実行
され、センタークリッピングされた波形ynが求められ
る0次に、i次の遅延バッファ2423を使って、yn
とyfl−1との積が乗算器2424にて求められる。
加算器2425では、n−1時点までのi次の自己相関
n=i+1 とが加算され、新らたにn時点での中間値Rn(i)が
求められる。以下、遅延バッファ2426を経由して、
同様の処理が繰返された最終値R(i)が求められるこ
とになる0次に、R(i)の値を入力として、比較器2
427にて値の大小が比較され、式(4)の関係からピ
ッチ周期tpが求められる。
n=i+1 とが加算され、新らたにn時点での中間値Rn(i)が
求められる。以下、遅延バッファ2426を経由して、
同様の処理が繰返された最終値R(i)が求められるこ
とになる0次に、R(i)の値を入力として、比較器2
427にて値の大小が比較され、式(4)の関係からピ
ッチ周期tpが求められる。
第5図は、キーワード探索部3の一実施例を詳細に示し
たものである。実施例を説明する前に、キーワード探索
の原理を説明する。発声者が伝えようと意図した情報は
一般にゆっくり発声するか。
たものである。実施例を説明する前に、キーワード探索
の原理を説明する。発声者が伝えようと意図した情報は
一般にゆっくり発声するか。
その内容(主に単語)を強調して発声することが知られ
ている。このように、韻律情報は発声内容に対して合理
的・自然的な情報であり1話し言葉を意味的なまとまり
に分割するための重要な情報となっている。以上の詳細
な説明は特願昭61−75528号「音声会話文構造推
定方式」に示されている。本発明でのキーワード探索部
3は、上記特許の一実施例を使ったものとなっている。
ている。このように、韻律情報は発声内容に対して合理
的・自然的な情報であり1話し言葉を意味的なまとまり
に分割するための重要な情報となっている。以上の詳細
な説明は特願昭61−75528号「音声会話文構造推
定方式」に示されている。本発明でのキーワード探索部
3は、上記特許の一実施例を使ったものとなっている。
具体的には、入力音声分割部31にて、音声の強調また
は抑揚などの韻律情報(ピッチ周期やパワー)の特徴に
基づいて入力音声を意味的なまとまりに分割し、言いま
わし推定部32にて上記韻律情報の特徴から発声の言い
まわしを推定した後1文構造推定部33にて、文構造辞
書34から読み込まれた情報を使って入力音声の文構造
が推定される。
は抑揚などの韻律情報(ピッチ周期やパワー)の特徴に
基づいて入力音声を意味的なまとまりに分割し、言いま
わし推定部32にて上記韻律情報の特徴から発声の言い
まわしを推定した後1文構造推定部33にて、文構造辞
書34から読み込まれた情報を使って入力音声の文構造
が推定される。
次に、文構造の情報を使って、意味的に重要な語(キー
ワード)がキーワード抽出部35にて求められ、キーワ
ード探索が実行されることになる。
ワード)がキーワード抽出部35にて求められ、キーワ
ード探索が実行されることになる。
第6図はキーワード認識部4の一実施例を詳細に示した
ものである。入力音声パタンx1を入力として、音素認
識部41にて音素標準パタンメモリ42から読み込まれ
た標準音素の特徴パタンを使って、キーワードを構成し
ている音素の認識が行なわれる6次に、予備選択部43
では音素認識部で出力された音素系列から候補単語の絞
り込みが行なねれ、単語辞書メモリ45に含まれる語堂
の限定がなされる。単語照合部44では単語辞書メモリ
45から読み込まれた限定された諸費の音素記号列と音
素認識部41で得られたキーワードの音素系列との比較
、照合が記号系列上にて実行される。判定部46では記
号照合結果を用いて、キーワードの内容の認識結果が出
力される。
ものである。入力音声パタンx1を入力として、音素認
識部41にて音素標準パタンメモリ42から読み込まれ
た標準音素の特徴パタンを使って、キーワードを構成し
ている音素の認識が行なわれる6次に、予備選択部43
では音素認識部で出力された音素系列から候補単語の絞
り込みが行なねれ、単語辞書メモリ45に含まれる語堂
の限定がなされる。単語照合部44では単語辞書メモリ
45から読み込まれた限定された諸費の音素記号列と音
素認識部41で得られたキーワードの音素系列との比較
、照合が記号系列上にて実行される。判定部46では記
号照合結果を用いて、キーワードの内容の認識結果が出
力される。
第7図は音素認識部41の一実施例を詳細に示したもの
で漬る。距離計算部411では入力音声パタンx1音1
i44Fl′IPパタンYJ とのフレーム間距離di
Jが算出され、照合部412にて入力音声と音素標準と
の照合が行なわれる。照合部は一般にDP(口ynam
ic Programming )マツチング処理が実
行される0次に候補判定部413では、標準パタンmに
対する照合値Drag(ここでJ、は標準パタンmのフ
レーム長)から5例えば最小値を与える標準パタンmが
求められ、音素記号列IPHCD(k)(ここでkは音
素列番号)が出力される。
で漬る。距離計算部411では入力音声パタンx1音1
i44Fl′IPパタンYJ とのフレーム間距離di
Jが算出され、照合部412にて入力音声と音素標準と
の照合が行なわれる。照合部は一般にDP(口ynam
ic Programming )マツチング処理が実
行される0次に候補判定部413では、標準パタンmに
対する照合値Drag(ここでJ、は標準パタンmのフ
レーム長)から5例えば最小値を与える標準パタンmが
求められ、音素記号列IPHCD(k)(ここでkは音
素列番号)が出力される。
第8図は距離計算部の一実施例を詳細に示すものである
1本実施例では絶対値距離を用いた場合を示す。2つの
音声の特徴はパタンXIとYJとの絶対距離dIJは に ・・・(5) として求まる。ここでlyjはフレーム、KはBPFの
チャネル数である。従って、実施例では。
1本実施例では絶対値距離を用いた場合を示す。2つの
音声の特徴はパタンXIとYJとの絶対距離dIJは に ・・・(5) として求まる。ここでlyjはフレーム、KはBPFの
チャネル数である。従って、実施例では。
2つの特徴パタンXz、Y1とが各々フレームパタンレ
ジスタ4111,4112を介しながら入力され、減算
器4113でxki−ykJの計算、絶対値変換器41
14でl Xht yhJlの計算がされ。
ジスタ4111,4112を介しながら入力され、減算
器4113でxki−ykJの計算、絶対値変換器41
14でl Xht yhJlの計算がされ。
加算器4115でに=1からKまでの累積が計算される
ことになる。結果d、Jは距離レジスタ4116に格納
される。本発明の実施例では絶対値距離としたが、LP
G分析で得られる特徴パタンの相関尺度なども考えられ
る。この場合の具体的実施例は文献[音声認識に適用し
た最小予測誤差原理(Minimum Predict
ion Re5idual Pr1ncipleApp
lied to 5peech Recognitio
n) J by F。
ことになる。結果d、Jは距離レジスタ4116に格納
される。本発明の実施例では絶対値距離としたが、LP
G分析で得られる特徴パタンの相関尺度なども考えられ
る。この場合の具体的実施例は文献[音声認識に適用し
た最小予測誤差原理(Minimum Predict
ion Re5idual Pr1ncipleApp
lied to 5peech Recognitio
n) J by F。
Itakura at al、IEEE 丁ran
s on Acoustics。
s on Acoustics。
5peech and Signal Process
ing、 vol、As5P −23。
ing、 vol、As5P −23。
p、p、57〜72 (Feb、1975)に詳細に説
明されている。
明されている。
第9図は照合部412の一実施例を詳細に示したもので
ある。原理は特開昭55−2205号「連続DP法」を
改良したものである。入力音声のiフレームと標準パタ
ンのjフレームとのフレーム間距離dlJをもとに、累
積距離D□が次の漸化式を使って算出される。
ある。原理は特開昭55−2205号「連続DP法」を
改良したものである。入力音声のiフレームと標準パタ
ンのjフレームとのフレーム間距離dlJをもとに、累
積距離D□が次の漸化式を使って算出される。
以上の漸化式から、入力音声の各フレームiごとに、標
準パターンmに対する最適照合値D r J waが求
められる(J、は標準パタンmのフレーム長)。
準パターンmに対する最適照合値D r J waが求
められる(J、は標準パタンmのフレーム長)。
照合部412の具体的な実施例は、入力音声と標準パタ
ーンとのフレーム間距離dIJがフレーム距離レジスタ
4121を介して入力され、遅延メモリ4122と中間
累積距離格納メモリ4127を用いて、(6)式のd
l−1,J−1やDi−ieJ−2*DI−sea−s
e Dl−z、、−xが記憶される。各々の距離値をも
とに加算器4123ではパス■のD*−t、a−z+
d r−x、a−s、加算器4124ではパス■のD
I−zti−s + d 、−tea−xが算出され、
パス■のDI−1,J−1とともに比較器4125で最
小値が探索される。さらに加算器4126で2dIJが
最小値に加算され、中間累積距離DIJが新たに求めら
れる。この結果は中間累積距離格納メモリ4127に格
納され、D、+xpa+tの算出の情報となる。照合部
では入力音声のiフレームごとに標準パタンmとの最適
照合値D T a s′を出力しくiフレームは母音区
間情報i sb−i ehの範囲内)、候補判定部41
3の入力となる。判定部では照合値D r J mの大
小関係から、入力音声がどの標準音声に最も似ているか
の判定がなされる。判定部は単純な大小比較器で構成さ
れる。
ーンとのフレーム間距離dIJがフレーム距離レジスタ
4121を介して入力され、遅延メモリ4122と中間
累積距離格納メモリ4127を用いて、(6)式のd
l−1,J−1やDi−ieJ−2*DI−sea−s
e Dl−z、、−xが記憶される。各々の距離値をも
とに加算器4123ではパス■のD*−t、a−z+
d r−x、a−s、加算器4124ではパス■のD
I−zti−s + d 、−tea−xが算出され、
パス■のDI−1,J−1とともに比較器4125で最
小値が探索される。さらに加算器4126で2dIJが
最小値に加算され、中間累積距離DIJが新たに求めら
れる。この結果は中間累積距離格納メモリ4127に格
納され、D、+xpa+tの算出の情報となる。照合部
では入力音声のiフレームごとに標準パタンmとの最適
照合値D T a s′を出力しくiフレームは母音区
間情報i sb−i ehの範囲内)、候補判定部41
3の入力となる。判定部では照合値D r J mの大
小関係から、入力音声がどの標準音声に最も似ているか
の判定がなされる。判定部は単純な大小比較器で構成さ
れる。
第10図は予備選択部43あるいは単語照合部44の一
実施例を詳細に示したものである。予備選択部と照合部
は本質的に同じ構成で実現されるので、処理のメインで
ある照合部43の説明を詳細に行う。キーワードの音素
認識結果の音素記号列IPHCD(k)とが単語辞書か
ら読み込まれた標準単語の音素記号列と各々音素記号列
レジスタ431゜432を介しながら入力される。次に
比較器433では各々の音素記号列間の比較がひとつの
コード毎に行なわれ、加算器434にて全系列での差(
総距離)が求められる。全標準単語での総距離の大小比
較が距離レジスタ435を介して、比較器436にて実
行され、認識結果(最小総距離となる標準単語)が出力
される。予備選択部43の場合は、単語辞書から読み込
まれる標準を牲語の音素記号列は単語辞書の諸費を大分
類した際の共通母音記号列等の情報となるだけで、以下
の処理は単語照合部44と同様に行なわれる。
実施例を詳細に示したものである。予備選択部と照合部
は本質的に同じ構成で実現されるので、処理のメインで
ある照合部43の説明を詳細に行う。キーワードの音素
認識結果の音素記号列IPHCD(k)とが単語辞書か
ら読み込まれた標準単語の音素記号列と各々音素記号列
レジスタ431゜432を介しながら入力される。次に
比較器433では各々の音素記号列間の比較がひとつの
コード毎に行なわれ、加算器434にて全系列での差(
総距離)が求められる。全標準単語での総距離の大小比
較が距離レジスタ435を介して、比較器436にて実
行され、認識結果(最小総距離となる標準単語)が出力
される。予備選択部43の場合は、単語辞書から読み込
まれる標準を牲語の音素記号列は単語辞書の諸費を大分
類した際の共通母音記号列等の情報となるだけで、以下
の処理は単語照合部44と同様に行なわれる。
判定部46は単純な大小比較器で構成される。
第11図は文節生成部5の一実施例を詳細に示したもの
である。内容のわかったキーワード列とキーワード探索
部3で得られた文構造情報とを入力として、擬似文節生
成部51では文構造にあった付属語(例えば「て」 「
に」 rを」 「は」等)をキーワードに付加して、擬
似的に文節候補を生成する。具体的な例として、キーワ
ード列が「私」「発明者」であった場合、文構造情報は
主語+補語+述語の文型となるのが妥当であり、その時
の擬似文節生成部果は「和実」あるいは[私fJ<J。
である。内容のわかったキーワード列とキーワード探索
部3で得られた文構造情報とを入力として、擬似文節生
成部51では文構造にあった付属語(例えば「て」 「
に」 rを」 「は」等)をキーワードに付加して、擬
似的に文節候補を生成する。具体的な例として、キーワ
ード列が「私」「発明者」であった場合、文構造情報は
主語+補語+述語の文型となるのが妥当であり、その時
の擬似文節生成部果は「和実」あるいは[私fJ<J。
「発明者’t”tJあるいは[発明者亙」等が考えられ
る。述語に関しては時制や「です/だ」調等によりさら
に複数の候補が考えられるが、既に選択。
る。述語に関しては時制や「です/だ」調等によりさら
に複数の候補が考えられるが、既に選択。
作成された結−から時制や「で子/だ」調゛を推定し、
候補に優先順次が付けられて出力されることになる。次
に、上記擬似的に生成された文節候補に対して通常の言
語処理を実行して(形態素解析部53.構文意味解析部
55.意味解析部゛57により構成)、言語としてもつ
とも妥当な文節群。
候補に優先順次が付けられて出力されることになる。次
に、上記擬似的に生成された文節候補に対して通常の言
語処理を実行して(形態素解析部53.構文意味解析部
55.意味解析部゛57により構成)、言語としてもつ
とも妥当な文節群。
即ち文章を文節統合部58の出力として出□す。
第12図は文書表示・出力部6の一実施例を詳細に示し
たものである。文節生成部5の出力である仮名漢字コー
ド列を入力として、スイッチ60により表示か出力かの
処理へ振り分けられる。表示を選択した場合は、仮名漢
字コードを表記に変換した情報がCRT61に出力され
る。音声出力を選択した場合は、次のテキスト合成部6
2により仮名漢字コード列の音声出力がなされる。仮名
漢字コード列は言語処理部621にて言語情報メモリ6
22を使って、構文・意味解析が実行される。さらに、
韻律決定部623にて強勢、抑揚などのイントネーショ
ンやアクセントが決定される。
たものである。文節生成部5の出力である仮名漢字コー
ド列を入力として、スイッチ60により表示か出力かの
処理へ振り分けられる。表示を選択した場合は、仮名漢
字コードを表記に変換した情報がCRT61に出力され
る。音声出力を選択した場合は、次のテキスト合成部6
2により仮名漢字コード列の音声出力がなされる。仮名
漢字コード列は言語処理部621にて言語情報メモリ6
22を使って、構文・意味解析が実行される。さらに、
韻律決定部623にて強勢、抑揚などのイントネーショ
ンやアクセントが決定される。
入力が既にイントネーションやアクセント情報を持った
仮名コード列の場合は、上記言語処理部621、言語情
報メモリ、韻律決定部623は不要となる。次に1強勢
や抑揚情報を持つ仮名コード列を音声に変換する、いわ
ゆるテキスト合成の音声合成部として、制御パラメータ
生成部624にて各仮名コードに対応した音素や音節の
スペクトルパラメータと有無・無声情報およびピッチ情
報などの音源パラメータが音源/スペクトルパラメータ
メモリ625から読み込まれ、音声波形合成部626に
て合成フィルタを通すことにより音声波形が合成される
6合成された音声波形はディジタル−アナログ変換器(
D/A)63を経由して、スピーカ64から音として出
力される。
仮名コード列の場合は、上記言語処理部621、言語情
報メモリ、韻律決定部623は不要となる。次に1強勢
や抑揚情報を持つ仮名コード列を音声に変換する、いわ
ゆるテキスト合成の音声合成部として、制御パラメータ
生成部624にて各仮名コードに対応した音素や音節の
スペクトルパラメータと有無・無声情報およびピッチ情
報などの音源パラメータが音源/スペクトルパラメータ
メモリ625から読み込まれ、音声波形合成部626に
て合成フィルタを通すことにより音声波形が合成される
6合成された音声波形はディジタル−アナログ変換器(
D/A)63を経由して、スピーカ64から音として出
力される。
なお、第1図の本発明の一実施例において、文節生成部
5を省略して、直接キーワード認識部4で得られるキー
ワード列から出力−音声を合成する、いわゆる概念合成
による出力処理も考えられる。
5を省略して、直接キーワード認識部4で得られるキー
ワード列から出力−音声を合成する、いわゆる概念合成
による出力処理も考えられる。
本発明によれば、ユーザがシステムと自由に対話しなが
ら文書を作成できるので、音声を入力手段として使うメ
リットを最大限に使い、かつ効率の良い文書作成ができ
る効果がある。
ら文書を作成できるので、音声を入力手段として使うメ
リットを最大限に使い、かつ効率の良い文書作成ができ
る効果がある。
第1図は本発明の、−実施例を示す文書作成装置のブロ
ック図、第2図から第12図は第1図の各処理部の一実
施例を詳細に示すブロック図である。 3・・・キーワード探索部、4・・・キーワード認識部
、5・・・文節生成部。
ック図、第2図から第12図は第1図の各処理部の一実
施例を詳細に示すブロック図である。 3・・・キーワード探索部、4・・・キーワード認識部
、5・・・文節生成部。
Claims (1)
- 1、文書作成システムにおいて、音声を入力する手段と
、入力音声の特徴を抽出する音声分析手段と、該分析手
段から得られた入力音声の韻律情報を用いて、該入力音
声を単語あるいは文節単位に分割してキーワード部分を
探索する手段と、該キーワードの内容を推定するキーワ
ード認識手段と、認識された該キーワード列に、付属語
などを付加して文節あるいは文章を生成する手段と、該
生成された文節/文章をディスプレイ上に表示あるいは
音声にて出力する手段と、表示あるいは出力された複数
の結果から作成したい文書を選択・修正する手段とを備
えていることを特徴とする音声対話型文書作成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62297567A JP2907828B2 (ja) | 1987-11-27 | 1987-11-27 | 音声対話型文書作成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62297567A JP2907828B2 (ja) | 1987-11-27 | 1987-11-27 | 音声対話型文書作成装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01140369A true JPH01140369A (ja) | 1989-06-01 |
| JP2907828B2 JP2907828B2 (ja) | 1999-06-21 |
Family
ID=17848220
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62297567A Expired - Fee Related JP2907828B2 (ja) | 1987-11-27 | 1987-11-27 | 音声対話型文書作成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2907828B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010224152A (ja) * | 2009-03-23 | 2010-10-07 | Toyota Central R&D Labs Inc | 音声対話装置及びプログラム |
| CN115547330A (zh) * | 2022-10-31 | 2022-12-30 | 北京字跳网络技术有限公司 | 基于语音交互的信息展示方法、装置和电子设备 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS595298A (ja) * | 1982-06-30 | 1984-01-12 | 富士通株式会社 | 文節単位の音声認識方式 |
| JPS6180359A (ja) * | 1984-09-26 | 1986-04-23 | Sharp Corp | 翻訳装置 |
| JPS62232700A (ja) * | 1986-04-03 | 1987-10-13 | 工業技術院長 | 音声会話文理解装置 |
-
1987
- 1987-11-27 JP JP62297567A patent/JP2907828B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS595298A (ja) * | 1982-06-30 | 1984-01-12 | 富士通株式会社 | 文節単位の音声認識方式 |
| JPS6180359A (ja) * | 1984-09-26 | 1986-04-23 | Sharp Corp | 翻訳装置 |
| JPS62232700A (ja) * | 1986-04-03 | 1987-10-13 | 工業技術院長 | 音声会話文理解装置 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010224152A (ja) * | 2009-03-23 | 2010-10-07 | Toyota Central R&D Labs Inc | 音声対話装置及びプログラム |
| CN115547330A (zh) * | 2022-10-31 | 2022-12-30 | 北京字跳网络技术有限公司 | 基于语音交互的信息展示方法、装置和电子设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2907828B2 (ja) | 1999-06-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12272350B2 (en) | Text-to-speech (TTS) processing | |
| JP7500020B2 (ja) | 多言語テキスト音声合成方法 | |
| US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
| Wu et al. | Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis | |
| US11763797B2 (en) | Text-to-speech (TTS) processing | |
| JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
| WO2019245916A1 (en) | Method and system for parametric speech synthesis | |
| US9978359B1 (en) | Iterative text-to-speech with user feedback | |
| US20060259303A1 (en) | Systems and methods for pitch smoothing for text-to-speech synthesis | |
| JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
| JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
| US10699695B1 (en) | Text-to-speech (TTS) processing | |
| Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
| JPH0887297A (ja) | 音声合成システム | |
| JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
| JP2907828B2 (ja) | 音声対話型文書作成装置 | |
| JPH08335096A (ja) | テキスト音声合成装置 | |
| JP2753255B2 (ja) | 音声による対話型情報検索装置 | |
| Tunalı | A speaker dependent, large vocabulary, isolated word speech recognition system for Turkish | |
| JPH06318094A (ja) | 音声規則合成装置 | |
| Kaur et al. | Building atext-to-speech system for punjabi language | |
| JPH07181995A (ja) | 音声合成装置及び音声合成方法 | |
| Shamsi et al. | Investigating the Relation Between Voice Corpus Design and Hybrid Synthesis | |
| JP2023139557A (ja) | 音声合成装置、音声合成方法及びプログラム | |
| Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |