JPH01140369A

JPH01140369A - 音声対話型文書作成装置

Info

Publication number: JPH01140369A
Application number: JP62297567A
Authority: JP
Inventors: Nobuo Hataoka; 畑岡　信夫; Hiroshi Ichikawa; 市川　熹; Akio Amano; 天野　明雄; Shunichi Yajima; 矢島　俊一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-11-27
Filing date: 1987-11-27
Publication date: 1989-06-01
Anticipated expiration: 2014-06-21
Also published as: JP2907828B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声を利用した文書作成システムに係り、特に
ユーザがシステムと自由に対話しながら文書を作成する
のに好適な文書作成装置に関する。

〔従来の技術〕

音声を入力手段とした文書作成システム（いわゆる音声
タイプライタ）は、従来のキーボードを入力手段とした
タイプライタ−に比べて、キー操作の煩雑さがない等の
理由から、その実現が待ち望まれている。しかし、通常
の速さで発声された音声を正確に認識することは非常に
難しい技術となっている。この結果、音声タイプライタ
は古くから研究・開発されているにまかかわらず、未だ
実現されていない。

従来の音声タイプライタの実現に向けた技術としては、
日本音響学会音声研究会資料５８０−６８　（１９８１
−１）　　ｒ単音節音声認識の一方法」に記載のように
単音節（子音−母音）の音声を入力単位としたもの、日
本音響学会音声研究会資料５８５−６２　（１９８５−
１２）ｒ音節をペースとする日本語音声認識」に記載の
ように文節の音声を入力単位としたものなどが知られて
いる。

〔発明が解決しようとする問題点〕

上記従来技術の単音節を入力単位とする方法は、通常に
発声された文章を認識する難しさを回避する方法として
有効なものではあるが、ｔｌを音節単位に発声すること
自体が不自然であり、難しいという問題があった。一方
、文節を入力単位とする方法は、発声の不自然さはかな
り改善されるものの、通常の話し方ではないことや文節
の一字一句を認識することが難しいという問題があった
。さらに、上記いずれの方法でも、作成したい文書を音
声で正確に入力しなければならず、書き言葉と話し言葉
の違いに起因して、音声を使うメリットが失われるとい
う問題があった。

本発明の目的は上記従来の問題を解決して、入力の仕方
が自然で、かつ音声を入力手段として使うメリットを最
大に活かした音声による文書作成装置を提供することに
ある。

〔問題点を解決するための手段〕

上記目的は、ユーザがシステムと自由に対話しながら入
力された音声のキーワードだけを探索。

認識し、ユーザが本来作成しようとする文書をキーワー
ド群から推定することにより、達成される。

〔作用〕

本発明の結果、ユーザは自由な話し言葉でシステムに入
力できるので、音声を使って文書作成する最大のメリッ
トが失われることがなく、効率の良い文書作成システム
が可能となる。

〔実施例〕

以下１本発明の一実施例を第１図により説明する。第１
図は本発明の音声による文書作成装置の一実施例を示す
ブロック図である。対話型で入力された音声１は、音声
分析部２で音声の特徴パラメータが所定時間（フレーム
）ごとに計算される。

次に、キーワード探索部３では音声の特徴パラメータを
使って１発音声が伝えたい、即ち入力したい単語など、
いわゆるキーワードの位置の探索が行なわれ、そのキー
ワードの内容の認識がキーワード認識部４で実行される
６文節生成部５では、内容のわかったキーワード列から
、発声者が入力したい文章（文節で構成されている）が
生成される。この結果、ユーザ（発声者）が作成したい
文書が推定、生成され、文書表示・出力部６で、ディス
プレイに文書が表示されたり、音声でスピーカーから出
力されたりする。選択・修正部７では表示あるいは出力
されたひとつあるいは複数の候補文書から妥当なものを
選択したり、妥当なものがない場合は再度入力や誤り個
所の修正が行なわれ、最終的に作成したい文書が完成さ
れることになる。以上の処理は、制御部８で制御されな
がら実行される。

以下、第１図で示した各処理部について詳細に説明する
。

第２図は音声分析部２の一実施例を詳細に示したもので
ある。アナログ入力音声はＬＰＦ　（低域通過フィルタ
）２１．ＡＤＣ（アナログ−ディジタル変換器）２２で
、サンプリングでの折り返し雑音を除去されなからディ
ジタル値へ変換される。

次に、特徴バタン抽出部２３で音声の特徴パラメータが
所定時間（フレーム）ごとに計算され、入力音声の特徴
バタンか抽出される。音声の特徴パラメータとしては、
ＢＰＦ　（帯域通過フィルタ）出力値やＬＰＧ分析（線
形予測分析）結果の各種パラメータなどが用いられる。

韻律情報抽出部２４では、音声の強勢又は抑揚などの韻
律的情報を表わす特徴パラメータ（例えば、パワーやピ
ッチ周期）が抽出される。

第３薗は特徴バタン抽出部２３の一実施例を詳細に示し
たものである。実施例ではＢＰＦ分析をあげている。デ
ィジタル値に変換された登録音声ｘｎは中心周波数と帯
域値の違うに個のＢＰＦ群２３１に入力される。　ＢＰ
Ｆ２３１は２次のバターワース型フィルタとなっており
、加算器２個９乗算器４個、遅延器２個から構成されて
いる。ＢＰＦ出力の波形は絶対値（ＡＢＳ）２３２にて
整流され、ＬＰＦ２３３にて高域周波数成分をカットさ
れながら登録音声バタンＸ５（ｉ；フレーム）が求めら
れる。

ＬＰＦ２３３はＢＰＦ２３１同様の処理規模のバターワ
ース型となっている。

本発明では音声分析部３の構成をＢＰＦ分析としたが、
ＬＰＧ分析とすることも可能である。この場合の詳細な
実施例は文献「音声波形の線形予測分析による音声分析
と合成（Ｓｐｅｅｃｈ　Ａｎａｌｙｓｉｓａｎｄ　５ｙ
ｎｔｈｅｓｉｓ　ｂｙ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔ
ｉｏｎ　ｏｆ　ｔｈｅＳｐｅｅｃｈ　Ｗａｖｅ）　Ｊ　
ｂｙ　Ｂ、Ｓ、　Ａｔａｌ　ｅｔ　ａｌ、　Ｊｏｕｒｎ
ａｌｏｆ　Ａｃｏｕｓｔｉｃ　５ｏｃｉｅｔｙ　ｏｆ　
Ａｍｅｒｉｃａ、　Ｖｏｌ、　５０　。

ｐ、ｐ、　６３７〜６５５　（１９７１）に詳細に説明
されている。

第４図は韻律情報抽出部２４の一実施例を詳細に示した
ものである。韻律情報を表わすパラメータとしてはパワ
ーとピッチ周期をあげている。

パワー算出部２４１では入力音声ＸｎのＭ時点からのパ
ワーＰ（短時間エネルギー）が次式に基づいて算出され
る。

ｎ＝阿＋１ここで、Ｎは１フレームのサンプル点数を示す。

第４図の実施例では、入力音声Ｘ　ｎを入力として乗算
器２４１１にてＸ　ｎ　”　＝Ｘ　ＦＩＸ　Ｘ　ｎが求
められ、加算器２４１２にて、ｎ−１時点までのパワー
の酪化）とＸｎ”が加算され、新らたにｎ時点でのパワ
ー中間値Ｐ、が求められる。以下、遅延バッファ２４１
３を経由して、同様の処理が繰返され、最終パワーＰが
求められる（ｎ＝Ｎに対応）。

ピッチ周期算出部２４２ではセンタークリッピングされ
た波形の自己相関関数から入力音声波形のピッチ周期が
求められる。ピッチ周期（逆数をピッチ周波数、基本周
波数という）は音の高低を司る重要なパラメータであり
、発声者の口の形状（専門的には声道の長さ）という物
理的な特性から基本的には決定され、強調あるいは抑揚
によって多少の値の変動が引き起こされる。ピッチ周期
の算出方法は数多くあるが、未だ完全な手法は見い出さ
れていない０本発明での実施例として、波形の自己相関
関数から導出する方法を使っている。

この手法は文献「音声信号のディジタル処理（ｒ）ｉｇ
ｉｔａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｏｆ　５ｐｅｅｃｈ
　Ｓｉｇｎａｌｓ）Ｊ　ｂｙＬ、Ｒ，Ｒａｂｉｎｅｒ　
ａｔ　ａｌ、　ＰＲＥＮＴＩＣＥ−ＨＡＬＬ、　Ｐ　Ｌ
　５０−１５７に詳細に説明されている。以下、手法に
関して簡単に説明する。センタークリッピングされた波
形ｙｎは１次式から求まる。

ｙｎ＝ｃ（ｘｎ）　　　　　　　　　　・・・（２）こ
こで、Ｃ（ｘ）はセンタークリッピング関数である。ピ
ッチ周期はセンタークリッピングされた波形のｉ次の自
己相関関数Ｒ（ｉ）Ｒ（ｉ）　＝　　Σ　７　ｎ　’：Ｉ　ｎ−息　　　　
　・・・（３）ｎ＝ｉ＋１の値の大きさの比較から求められる。つまり、ピッチ周
期をｔｐとすれば、Ｒ（ｉ）二Ｒ（０）　　ｉ　＝　ｔｐ、２　ｔｐ、３　
ｔｐ・・・・・・（４）Ｒ（ｉ）二〇　　　　ｉは上記
以外の関係があり、ピッチ周期ｔｐがＲｉの値の大小から求
められる。第４図の実施例では、クリッピング関数メモ
リ２４２２から読み込まれたクリッピング関数Ｃ（ｘｌ
と入力音声波形Ｘｎとの乗算が乗算器２４２１にて実行
され、センタークリッピングされた波形ｙｎが求められ
る０次に、ｉ次の遅延バッファ２４２３を使って、ｙｎ
とｙｆｌ−１との積が乗算器２４２４にて求められる。

加算器２４２５では、ｎ−１時点までのｉ次の自己相関
ｎ＝ｉ＋１とが加算され、新らたにｎ時点での中間値Ｒｎ（ｉ）が
求められる。以下、遅延バッファ２４２６を経由して、
同様の処理が繰返された最終値Ｒ（ｉ）が求められるこ
とになる０次に、Ｒ（ｉ）の値を入力として、比較器２
４２７にて値の大小が比較され、式（４）の関係からピ
ッチ周期ｔｐが求められる。

第５図は、キーワード探索部３の一実施例を詳細に示し
たものである。実施例を説明する前に、キーワード探索
の原理を説明する。発声者が伝えようと意図した情報は
一般にゆっくり発声するか。

その内容（主に単語）を強調して発声することが知られ
ている。このように、韻律情報は発声内容に対して合理
的・自然的な情報であり１話し言葉を意味的なまとまり
に分割するための重要な情報となっている。以上の詳細
な説明は特願昭６１−７５５２８号「音声会話文構造推
定方式」に示されている。本発明でのキーワード探索部
３は、上記特許の一実施例を使ったものとなっている。

具体的には、入力音声分割部３１にて、音声の強調また
は抑揚などの韻律情報（ピッチ周期やパワー）の特徴に
基づいて入力音声を意味的なまとまりに分割し、言いま
わし推定部３２にて上記韻律情報の特徴から発声の言い
まわしを推定した後１文構造推定部３３にて、文構造辞
書３４から読み込まれた情報を使って入力音声の文構造
が推定される。

次に、文構造の情報を使って、意味的に重要な語（キー
ワード）がキーワード抽出部３５にて求められ、キーワ
ード探索が実行されることになる。

第６図はキーワード認識部４の一実施例を詳細に示した
ものである。入力音声パタンｘ１を入力として、音素認
識部４１にて音素標準パタンメモリ４２から読み込まれ
た標準音素の特徴パタンを使って、キーワードを構成し
ている音素の認識が行なわれる６次に、予備選択部４３
では音素認識部で出力された音素系列から候補単語の絞
り込みが行なねれ、単語辞書メモリ４５に含まれる語堂
の限定がなされる。単語照合部４４では単語辞書メモリ
４５から読み込まれた限定された諸費の音素記号列と音
素認識部４１で得られたキーワードの音素系列との比較
、照合が記号系列上にて実行される。判定部４６では記
号照合結果を用いて、キーワードの内容の認識結果が出
力される。

第７図は音素認識部４１の一実施例を詳細に示したもの
で漬る。距離計算部４１１では入力音声パタンｘ１音１
ｉ４４Ｆｌ′ＩＰパタンＹＪ　とのフレーム間距離ｄｉ
Ｊが算出され、照合部４１２にて入力音声と音素標準と
の照合が行なわれる。照合部は一般にＤＰ（口ｙｎａｍ
ｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ　）マツチング処理が実
行される０次に候補判定部４１３では、標準パタンｍに
対する照合値Ｄｒａｇ（ここでＪ、は標準パタンｍのフ
レーム長）から５例えば最小値を与える標準パタンｍが
求められ、音素記号列ＩＰＨＣＤ（ｋ）（ここでｋは音
素列番号）が出力される。

第８図は距離計算部の一実施例を詳細に示すものである
１本実施例では絶対値距離を用いた場合を示す。２つの
音声の特徴はパタンＸＩとＹＪとの絶対距離ｄＩＪはに・・・（５）として求まる。ここでｌｙｊはフレーム、ＫはＢＰＦの
チャネル数である。従って、実施例では。

２つの特徴パタンＸｚ、Ｙ１とが各々フレームパタンレ
ジスタ４１１１，４１１２を介しながら入力され、減算
器４１１３でｘｋｉ−ｙｋＪの計算、絶対値変換器４１
１４でｌ　Ｘｈｔ　　ｙｈＪｌの計算がされ。

加算器４１１５でに＝１からＫまでの累積が計算される
ことになる。結果ｄ、Ｊは距離レジスタ４１１６に格納
される。本発明の実施例では絶対値距離としたが、ＬＰ
Ｇ分析で得られる特徴パタンの相関尺度なども考えられ
る。この場合の具体的実施例は文献［音声認識に適用し
た最小予測誤差原理（Ｍｉｎｉｍｕｍ　Ｐｒｅｄｉｃｔ
ｉｏｎ　Ｒｅ５ｉｄｕａｌ　Ｐｒ１ｎｃｉｐｌｅＡｐｐ
ｌｉｅｄ　ｔｏ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏ
ｎ）　Ｊ　ｂｙ　Ｆ。

Ｉｔａｋｕｒａ　　ａｔ　　ａｌ、ＩＥＥＥ　丁ｒａｎ
ｓ　　ｏｎ　　Ａｃｏｕｓｔｉｃｓ。

５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓ
ｉｎｇ、　ｖｏｌ、Ａｓ５Ｐ　−２３。

ｐ、ｐ、５７〜７２　（Ｆｅｂ、１９７５）に詳細に説
明されている。

第９図は照合部４１２の一実施例を詳細に示したもので
ある。原理は特開昭５５−２２０５号「連続ＤＰ法」を
改良したものである。入力音声のｉフレームと標準パタ
ンのｊフレームとのフレーム間距離ｄｌＪをもとに、累
積距離Ｄ□が次の漸化式を使って算出される。

以上の漸化式から、入力音声の各フレームｉごとに、標
準パターンｍに対する最適照合値Ｄ　ｒ　Ｊ　ｗａが求
められる（Ｊ、は標準パタンｍのフレーム長）。

照合部４１２の具体的な実施例は、入力音声と標準パタ
ーンとのフレーム間距離ｄＩＪがフレーム距離レジスタ
４１２１を介して入力され、遅延メモリ４１２２と中間
累積距離格納メモリ４１２７を用いて、（６）式のｄ　
ｌ−１，Ｊ−１やＤｉ−ｉｅＪ−２＊ＤＩ−ｓｅａ−ｓ
ｅ　Ｄｌ−ｚ、、−ｘが記憶される。各々の距離値をも
とに加算器４１２３ではパス■のＤ＊−ｔ、ａ−ｚ＋　
ｄ　ｒ−ｘ、ａ−ｓ、加算器４１２４ではパス■のＤ　
Ｉ−ｚｔｉ−ｓ　＋　ｄ　、−ｔｅａ−ｘが算出され、
パス■のＤＩ−１，Ｊ−１とともに比較器４１２５で最
小値が探索される。さらに加算器４１２６で２ｄＩＪが
最小値に加算され、中間累積距離ＤＩＪが新たに求めら
れる。この結果は中間累積距離格納メモリ４１２７に格
納され、Ｄ、＋ｘｐａ＋ｔの算出の情報となる。照合部
では入力音声のｉフレームごとに標準パタンｍとの最適
照合値Ｄ　Ｔ　ａ　ｓ′を出力しくｉフレームは母音区
間情報ｉ　ｓｂ−ｉ　ｅｈの範囲内）、候補判定部４１
３の入力となる。判定部では照合値Ｄ　ｒ　Ｊ　ｍの大
小関係から、入力音声がどの標準音声に最も似ているか
の判定がなされる。判定部は単純な大小比較器で構成さ
れる。

第１０図は予備選択部４３あるいは単語照合部４４の一
実施例を詳細に示したものである。予備選択部と照合部
は本質的に同じ構成で実現されるので、処理のメインで
ある照合部４３の説明を詳細に行う。キーワードの音素
認識結果の音素記号列ＩＰＨＣＤ（ｋ）とが単語辞書か
ら読み込まれた標準単語の音素記号列と各々音素記号列
レジスタ４３１゜４３２を介しながら入力される。次に
比較器４３３では各々の音素記号列間の比較がひとつの
コード毎に行なわれ、加算器４３４にて全系列での差（
総距離）が求められる。全標準単語での総距離の大小比
較が距離レジスタ４３５を介して、比較器４３６にて実
行され、認識結果（最小総距離となる標準単語）が出力
される。予備選択部４３の場合は、単語辞書から読み込
まれる標準を牲語の音素記号列は単語辞書の諸費を大分
類した際の共通母音記号列等の情報となるだけで、以下
の処理は単語照合部４４と同様に行なわれる。

判定部４６は単純な大小比較器で構成される。

第１１図は文節生成部５の一実施例を詳細に示したもの
である。内容のわかったキーワード列とキーワード探索
部３で得られた文構造情報とを入力として、擬似文節生
成部５１では文構造にあった付属語（例えば「て」　「
に」　ｒを」　「は」等）をキーワードに付加して、擬
似的に文節候補を生成する。具体的な例として、キーワ
ード列が「私」「発明者」であった場合、文構造情報は
主語＋補語＋述語の文型となるのが妥当であり、その時
の擬似文節生成部果は「和実」あるいは［私ｆＪ＜Ｊ。

「発明者’ｔ”ｔＪあるいは［発明者亙」等が考えられ
る。述語に関しては時制や「です／だ」調等によりさら
に複数の候補が考えられるが、既に選択。

作成された結−から時制や「で子／だ」調゛を推定し、
候補に優先順次が付けられて出力されることになる。次
に、上記擬似的に生成された文節候補に対して通常の言
語処理を実行して（形態素解析部５３．構文意味解析部
５５．意味解析部゛５７により構成）、言語としてもつ
とも妥当な文節群。

即ち文章を文節統合部５８の出力として出□す。

第１２図は文書表示・出力部６の一実施例を詳細に示し
たものである。文節生成部５の出力である仮名漢字コー
ド列を入力として、スイッチ６０により表示か出力かの
処理へ振り分けられる。表示を選択した場合は、仮名漢
字コードを表記に変換した情報がＣＲＴ６１に出力され
る。音声出力を選択した場合は、次のテキスト合成部６
２により仮名漢字コード列の音声出力がなされる。仮名
漢字コード列は言語処理部６２１にて言語情報メモリ６
２２を使って、構文・意味解析が実行される。さらに、
韻律決定部６２３にて強勢、抑揚などのイントネーショ
ンやアクセントが決定される。

入力が既にイントネーションやアクセント情報を持った
仮名コード列の場合は、上記言語処理部６２１、言語情
報メモリ、韻律決定部６２３は不要となる。次に１強勢
や抑揚情報を持つ仮名コード列を音声に変換する、いわ
ゆるテキスト合成の音声合成部として、制御パラメータ
生成部６２４にて各仮名コードに対応した音素や音節の
スペクトルパラメータと有無・無声情報およびピッチ情
報などの音源パラメータが音源／スペクトルパラメータ
メモリ６２５から読み込まれ、音声波形合成部６２６に
て合成フィルタを通すことにより音声波形が合成される
６合成された音声波形はディジタル−アナログ変換器（
Ｄ／Ａ）６３を経由して、スピーカ６４から音として出
力される。

なお、第１図の本発明の一実施例において、文節生成部
５を省略して、直接キーワード認識部４で得られるキー
ワード列から出力−音声を合成する、いわゆる概念合成
による出力処理も考えられる。

〔発明の効果〕

本発明によれば、ユーザがシステムと自由に対話しなが
ら文書を作成できるので、音声を入力手段として使うメ
リットを最大限に使い、かつ効率の良い文書作成ができ
る効果がある。

【図面の簡単な説明】

第１図は本発明の、−実施例を示す文書作成装置のブロ
ック図、第２図から第１２図は第１図の各処理部の一実
施例を詳細に示すブロック図である。３・・・キーワード探索部、４・・・キーワード認識部
、５・・・文節生成部。

Claims

【特許請求の範囲】

１、文書作成システムにおいて、音声を入力する手段と
、入力音声の特徴を抽出する音声分析手段と、該分析手
段から得られた入力音声の韻律情報を用いて、該入力音
声を単語あるいは文節単位に分割してキーワード部分を
探索する手段と、該キーワードの内容を推定するキーワ
ード認識手段と、認識された該キーワード列に、付属語
などを付加して文節あるいは文章を生成する手段と、該
生成された文節／文章をディスプレイ上に表示あるいは
音声にて出力する手段と、表示あるいは出力された複数
の結果から作成したい文書を選択・修正する手段とを備
えていることを特徴とする音声対話型文書作成装置。