JPH032319B2 - - Google Patents
Info
- Publication number
- JPH032319B2 JPH032319B2 JP60173274A JP17327485A JPH032319B2 JP H032319 B2 JPH032319 B2 JP H032319B2 JP 60173274 A JP60173274 A JP 60173274A JP 17327485 A JP17327485 A JP 17327485A JP H032319 B2 JPH032319 B2 JP H032319B2
- Authority
- JP
- Japan
- Prior art keywords
- pause
- sentences
- conversational
- understanding
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 10
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は自然に発声された会話文を理解し、理
解結果に応じた応答を行なう会話音声理解システ
ムに係り、特に会話文を意味的なまとまりを示す
単位に分割する方法に関する。
解結果に応じた応答を行なう会話音声理解システ
ムに係り、特に会話文を意味的なまとまりを示す
単位に分割する方法に関する。
従来、音声を入力手段とするシステムでは、単
語音声や朗読調に発声された連続音声を対象とし
ていた。しかし、朗読調ではなく自然に発声され
た会話文(以下、これを単に会話文と呼ぶ。)の
場合は、思考を組立てながら発声するため、言い
問違いや省略表現などによる文法的に整つていな
い文が存在するほか、複数の文が続けて入力され
る。そして、これらの文は句読点で区切られてい
ない。したがつて会話文の理解においては、ま
ず、会話文を言語処理可能にするために、意味的
まとまりを示す単位に分割する必要がある。入力
音声を分割する方式に関しては、特開昭48−
30302などがあるが、これらは、限定単語を音韻
に分割する方法や文法的に整つた朗読調の文を文
節に分割する方法に関するものであり、自然な会
話文の分割については配慮されていない。
語音声や朗読調に発声された連続音声を対象とし
ていた。しかし、朗読調ではなく自然に発声され
た会話文(以下、これを単に会話文と呼ぶ。)の
場合は、思考を組立てながら発声するため、言い
問違いや省略表現などによる文法的に整つていな
い文が存在するほか、複数の文が続けて入力され
る。そして、これらの文は句読点で区切られてい
ない。したがつて会話文の理解においては、ま
ず、会話文を言語処理可能にするために、意味的
まとまりを示す単位に分割する必要がある。入力
音声を分割する方式に関しては、特開昭48−
30302などがあるが、これらは、限定単語を音韻
に分割する方法や文法的に整つた朗読調の文を文
節に分割する方法に関するものであり、自然な会
話文の分割については配慮されていない。
本発明の目的は、文法的に整つていない文が存
在し、かつ複数の文が連続して入力される会話文
を、意味的まとまりをもつた単位に分割すること
により、理解の信頼性が高く、かつ処理量の少な
い会話音声理解方法を提供することにある。
在し、かつ複数の文が連続して入力される会話文
を、意味的まとまりをもつた単位に分割すること
により、理解の信頼性が高く、かつ処理量の少な
い会話音声理解方法を提供することにある。
かかる目的を達成するため、本発明は音声の抑
揚や強勢などの韻律情報(音声パワー、基本周波
数など)を用い、会話文を意味的まとまりに分割
したことを特徴とする。この韻律情報は、発声内
容に対して合理的・自然的な情報であり、特に抑
揚は、発声内容が問いかけ調の場合は、どこの国
においても文末の声の高さを高くするというよう
に言語によらない普遍的な情報となる。
揚や強勢などの韻律情報(音声パワー、基本周波
数など)を用い、会話文を意味的まとまりに分割
したことを特徴とする。この韻律情報は、発声内
容に対して合理的・自然的な情報であり、特に抑
揚は、発声内容が問いかけ調の場合は、どこの国
においても文末の声の高さを高くするというよう
に言語によらない普遍的な情報となる。
本発明の一実施例を第1図に示す。第1図は、
キーボードなどよりカナ文字で入力される記述文
の理解システムを応用した会話音声理解システム
の一構成図である。記述文理解では、形態素解析
部6にカナ文字列が入力される。形態素解析部6
は辞書メモリ7を用いて文節の検出を行ない、文
節侯補を出力する。そして、構文解析部8では構
文を満足する文節侯補のチエーンを検出し、意味
解析部10では、更に意味的に自然なチエーンを
検出し、最も確かなものを解として出力する。会
話音声理解システムでは、入力手段が音声である
ため、音声をカナ文字に変換する必要がある。こ
のため、音声の音韻情報や韻律情報を求める特徴
抽出部1および標準パターン5とのマツチングに
より入力音声をカナ文字に変換する音声認識部4
を設ける。
キーボードなどよりカナ文字で入力される記述文
の理解システムを応用した会話音声理解システム
の一構成図である。記述文理解では、形態素解析
部6にカナ文字列が入力される。形態素解析部6
は辞書メモリ7を用いて文節の検出を行ない、文
節侯補を出力する。そして、構文解析部8では構
文を満足する文節侯補のチエーンを検出し、意味
解析部10では、更に意味的に自然なチエーンを
検出し、最も確かなものを解として出力する。会
話音声理解システムでは、入力手段が音声である
ため、音声をカナ文字に変換する必要がある。こ
のため、音声の音韻情報や韻律情報を求める特徴
抽出部1および標準パターン5とのマツチングに
より入力音声をカナ文字に変換する音声認識部4
を設ける。
記述文理解においては、処理の対象を句点で区
切られた文としており、これに基づいた構文情報
などに従がつて理解を行なつている。しかし、会
話文は文法的に整つてない文が存在し、複数の文
が続けて入力されることがあるため、これをその
まま理解しようとすると、多くの変形を含んだ構
文情報9等を用意する必要がある。したがつて、
処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割
する必要がある。一般的に会話文を意味的なまと
まりに分割するものとしては、記述文における句
点が上げられる。会話文の句点位置に相当する箇
所の特徴の1つは、息つぎによるポーズが生じる
ことである。したがつて、無音区間(音声パワー
が雑音レベルPθ以下の区間)の長さが閾値Pλ(例
えば300m sec)以上をポーズとし、これを検出
することにより、句点位置の検出が可能である。
しかし、会話文の場合は、思考を行ないながら発
声していくため、言い違いや思い違いをした後で
も長くポーズが生じてしまう。
切られた文としており、これに基づいた構文情報
などに従がつて理解を行なつている。しかし、会
話文は文法的に整つてない文が存在し、複数の文
が続けて入力されることがあるため、これをその
まま理解しようとすると、多くの変形を含んだ構
文情報9等を用意する必要がある。したがつて、
処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割
する必要がある。一般的に会話文を意味的なまと
まりに分割するものとしては、記述文における句
点が上げられる。会話文の句点位置に相当する箇
所の特徴の1つは、息つぎによるポーズが生じる
ことである。したがつて、無音区間(音声パワー
が雑音レベルPθ以下の区間)の長さが閾値Pλ(例
えば300m sec)以上をポーズとし、これを検出
することにより、句点位置の検出が可能である。
しかし、会話文の場合は、思考を行ないながら発
声していくため、言い違いや思い違いをした後で
も長くポーズが生じてしまう。
句点位置の特徴を表わすもう一つの韻律情報と
して、音声の抑揚であるイントネーシヨンがあ
る。イントネーシヨンは、文頭において急速に立
ち上がり、その後文末に向つて緩やかに低くなつ
ていく。そして、文末においては、話者の最低基
本周波数に近づく。しかし、言い間違いや思い違
いによりポーズが生じた箇所では、文末の基本周
波数が高いまま終わり、ポーズ後の基本周波数も
ポーズ前の基本周波数とほぼ同じ高さから始ま
り、文を継続しようとする傾向にある。
して、音声の抑揚であるイントネーシヨンがあ
る。イントネーシヨンは、文頭において急速に立
ち上がり、その後文末に向つて緩やかに低くなつ
ていく。そして、文末においては、話者の最低基
本周波数に近づく。しかし、言い間違いや思い違
いによりポーズが生じた箇所では、文末の基本周
波数が高いまま終わり、ポーズ後の基本周波数も
ポーズ前の基本周波数とほぼ同じ高さから始ま
り、文を継続しようとする傾向にある。
会話文分割部2は、以上の会話文の句点に相当
する位置の特徴を利用して、会話文を意味的まと
まりに分割する。その分割方式を第2図、第3図
を用いて具体的に説明する。第2図は、ポーズ付
近の韻律情報の形状例、第3図は本方式の流れ図
を示している。
する位置の特徴を利用して、会話文を意味的まと
まりに分割する。その分割方式を第2図、第3図
を用いて具体的に説明する。第2図は、ポーズ付
近の韻律情報の形状例、第3図は本方式の流れ図
を示している。
(1) まずポーズを検出するため、無音区間がPλ
以上続く箇所を検出し、分割候補とする。
以上続く箇所を検出し、分割候補とする。
(2) ポーズが検出された箇所のうち、ポーズ前の
音声の基本周波数Feが話者の下限周波数以下
のもののみを候補として残し、後は文中である
とする。
音声の基本周波数Feが話者の下限周波数以下
のもののみを候補として残し、後は文中である
とする。
(3) 更に、ポーズ後に最大値を示す基本周波数
FsとFeの差であるΔFが閾値(例えば、男性で
は40〜50Hz)以上であれば、その位置を分割点
とする。
FsとFeの差であるΔFが閾値(例えば、男性で
は40〜50Hz)以上であれば、その位置を分割点
とする。
ここで話者の下限周波数とは、現在システムを
利用している話者の発声可能な最低周波数に定数
倍(例えば1.1〜1.2倍)したものである。そし
て、この情報は、話者情報学習部3により抽出さ
れ、話者情報としてあらかじめ登録する。話者情
報は、数十音節よりなる平叙文(例えば挨拶文)
より求める。
利用している話者の発声可能な最低周波数に定数
倍(例えば1.1〜1.2倍)したものである。そし
て、この情報は、話者情報学習部3により抽出さ
れ、話者情報としてあらかじめ登録する。話者情
報は、数十音節よりなる平叙文(例えば挨拶文)
より求める。
本発明によれば、文法的に整つていない文が存
在し、かつ複数の文が続けて入力する会話文を意
味的まとまりをもつた単位に分割できる。このた
め、以降の理解処理が簡素化され、処理量が低減
できるほか、理解の信頼性をも向上できる効果が
ある。
在し、かつ複数の文が続けて入力する会話文を意
味的まとまりをもつた単位に分割できる。このた
め、以降の理解処理が簡素化され、処理量が低減
できるほか、理解の信頼性をも向上できる効果が
ある。
第1図は、会話音声理解システムの一構成図、
第2図は、ポーズ付近の韻律情報を説明するため
の図、第3図は本方式の流れ図である。 符号の説明、1……特徴抽出部、2……会話文
分解部、3……話者情報学習部。
第2図は、ポーズ付近の韻律情報を説明するため
の図、第3図は本方式の流れ図である。 符号の説明、1……特徴抽出部、2……会話文
分解部、3……話者情報学習部。
Claims (1)
- 1 音声による会話文を理解する会話音声理解方
法において、入力される会話音声から韻律情報を
抽出し、その抽出された韻律情報を利用して無音
区間の長さからポーズを検出し、該検出されたポ
ーズの直前の基本周波数を予め登録しておいた話
者の下限周波数と比較して分割点の侯補を選び、
該ポーズの直前の基本周波数と該ポーズの直後に
最大値を示す基本周波数との差に応じて上記分割
点の侯補を分割点とすることにより、上記入力さ
れる会話音声を意味的まとまりをもつた単位に分
割することを特徴とする韻律情報を利用した会話
音声理解方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60173274A JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60173274A JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6234200A JPS6234200A (ja) | 1987-02-14 |
| JPH032319B2 true JPH032319B2 (ja) | 1991-01-14 |
Family
ID=15957406
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60173274A Granted JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6234200A (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62141731U (ja) * | 1986-02-28 | 1987-09-07 | ||
| JP2007032373A (ja) * | 2005-07-25 | 2007-02-08 | Ebara Corp | ポンプゲート用横軸ポンプのケーシング構造、ポンプゲート用横軸ポンプ、及びポンプゲート設備 |
| JP5141695B2 (ja) * | 2008-02-13 | 2013-02-13 | 日本電気株式会社 | 記号挿入装置および記号挿入方法 |
| CN110140167A (zh) * | 2017-11-02 | 2019-08-16 | 索尼公司 | 信息处理设备和信息处理方法 |
-
1985
- 1985-08-08 JP JP60173274A patent/JPS6234200A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6234200A (ja) | 1987-02-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Klatt | The Klattalk text-to-speech conversion system | |
| EP0683483B1 (en) | A method and arrangement for speech to text conversion | |
| GB1380502A (en) | Systems for the synthesis of speech from alphanumeric data | |
| Li et al. | Speech corpus of Chinese discourse and the phonetic research | |
| Bijankhan et al. | Tfarsdat-the telephone farsi speech database. | |
| JPH032319B2 (ja) | ||
| Bailly et al. | Advocating for text input in multi-speaker text-to-speech systems | |
| Jeon et al. | Automatic generation of Korean pronunciation variants by multistage applications of phonological rules. | |
| Marasek et al. | Multi-level annotation in SpeeCon Polish speech database | |
| Rapp | Automatic labelling of German prosody. | |
| O'Shaughnessy | Fundamental frequency by rule for a text-to-speech system | |
| JPH02308194A (ja) | 外国語学習装置 | |
| Disambiguation et al. | Speech Synthesis | |
| JPS5837698A (ja) | 音声入力和文タイプライタにおける変換方法 | |
| Ziółko et al. | Statistics of diphones and triphones presence on the word boundaries in the Polish language. Applications to ASR | |
| Brinckmann | The Kiel corpus of read speech as a resource for speech synthesis | |
| Kula et al. | Prosody control in diphone-based speech synthesis system for Polish | |
| Kulas et al. | Syntex—unrestricted conversion of text to speech for German | |
| KR0136423B1 (ko) | 발음 제어 기호의 유효성 판정을 이용한 음운 변동 처리 방법 | |
| Kraft | Tone in Hausa | |
| Bruce | On the phonetics of rhythm: Evidence from Swedish | |
| Weibin et al. | Duration Modeling For Chinese Systhesis from C-ToBI Labeled Corpus | |
| Sproat | Spoken Output Technologies | |
| Wu et al. | A comparison study on contextual modeling for estimating functional loads of phonological contrasts | |
| Hashimoto et al. | Context labels based on" bunsetsu" for HMM-based speech synthesis of Japanese. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |