JPH032319B2 - - Google Patents

Info

Publication number
JPH032319B2
JPH032319B2 JP60173274A JP17327485A JPH032319B2 JP H032319 B2 JPH032319 B2 JP H032319B2 JP 60173274 A JP60173274 A JP 60173274A JP 17327485 A JP17327485 A JP 17327485A JP H032319 B2 JPH032319 B2 JP H032319B2
Authority
JP
Japan
Prior art keywords
pause
sentences
conversational
understanding
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP60173274A
Other languages
English (en)
Other versions
JPS6234200A (ja
Inventor
Eiji Oohira
Akio Komatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP60173274A priority Critical patent/JPS6234200A/ja
Publication of JPS6234200A publication Critical patent/JPS6234200A/ja
Publication of JPH032319B2 publication Critical patent/JPH032319B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は自然に発声された会話文を理解し、理
解結果に応じた応答を行なう会話音声理解システ
ムに係り、特に会話文を意味的なまとまりを示す
単位に分割する方法に関する。
〔発明の背景〕
従来、音声を入力手段とするシステムでは、単
語音声や朗読調に発声された連続音声を対象とし
ていた。しかし、朗読調ではなく自然に発声され
た会話文(以下、これを単に会話文と呼ぶ。)の
場合は、思考を組立てながら発声するため、言い
問違いや省略表現などによる文法的に整つていな
い文が存在するほか、複数の文が続けて入力され
る。そして、これらの文は句読点で区切られてい
ない。したがつて会話文の理解においては、ま
ず、会話文を言語処理可能にするために、意味的
まとまりを示す単位に分割する必要がある。入力
音声を分割する方式に関しては、特開昭48−
30302などがあるが、これらは、限定単語を音韻
に分割する方法や文法的に整つた朗読調の文を文
節に分割する方法に関するものであり、自然な会
話文の分割については配慮されていない。
〔発明の目的〕
本発明の目的は、文法的に整つていない文が存
在し、かつ複数の文が連続して入力される会話文
を、意味的まとまりをもつた単位に分割すること
により、理解の信頼性が高く、かつ処理量の少な
い会話音声理解方法を提供することにある。
〔発明の概要〕
かかる目的を達成するため、本発明は音声の抑
揚や強勢などの韻律情報(音声パワー、基本周波
数など)を用い、会話文を意味的まとまりに分割
したことを特徴とする。この韻律情報は、発声内
容に対して合理的・自然的な情報であり、特に抑
揚は、発声内容が問いかけ調の場合は、どこの国
においても文末の声の高さを高くするというよう
に言語によらない普遍的な情報となる。
〔発明の実施例〕
本発明の一実施例を第1図に示す。第1図は、
キーボードなどよりカナ文字で入力される記述文
の理解システムを応用した会話音声理解システム
の一構成図である。記述文理解では、形態素解析
部6にカナ文字列が入力される。形態素解析部6
は辞書メモリ7を用いて文節の検出を行ない、文
節侯補を出力する。そして、構文解析部8では構
文を満足する文節侯補のチエーンを検出し、意味
解析部10では、更に意味的に自然なチエーンを
検出し、最も確かなものを解として出力する。会
話音声理解システムでは、入力手段が音声である
ため、音声をカナ文字に変換する必要がある。こ
のため、音声の音韻情報や韻律情報を求める特徴
抽出部1および標準パターン5とのマツチングに
より入力音声をカナ文字に変換する音声認識部4
を設ける。
記述文理解においては、処理の対象を句点で区
切られた文としており、これに基づいた構文情報
などに従がつて理解を行なつている。しかし、会
話文は文法的に整つてない文が存在し、複数の文
が続けて入力されることがあるため、これをその
まま理解しようとすると、多くの変形を含んだ構
文情報9等を用意する必要がある。したがつて、
処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割
する必要がある。一般的に会話文を意味的なまと
まりに分割するものとしては、記述文における句
点が上げられる。会話文の句点位置に相当する箇
所の特徴の1つは、息つぎによるポーズが生じる
ことである。したがつて、無音区間(音声パワー
が雑音レベルPθ以下の区間)の長さが閾値Pλ(例
えば300m sec)以上をポーズとし、これを検出
することにより、句点位置の検出が可能である。
しかし、会話文の場合は、思考を行ないながら発
声していくため、言い違いや思い違いをした後で
も長くポーズが生じてしまう。
句点位置の特徴を表わすもう一つの韻律情報と
して、音声の抑揚であるイントネーシヨンがあ
る。イントネーシヨンは、文頭において急速に立
ち上がり、その後文末に向つて緩やかに低くなつ
ていく。そして、文末においては、話者の最低基
本周波数に近づく。しかし、言い間違いや思い違
いによりポーズが生じた箇所では、文末の基本周
波数が高いまま終わり、ポーズ後の基本周波数も
ポーズ前の基本周波数とほぼ同じ高さから始ま
り、文を継続しようとする傾向にある。
会話文分割部2は、以上の会話文の句点に相当
する位置の特徴を利用して、会話文を意味的まと
まりに分割する。その分割方式を第2図、第3図
を用いて具体的に説明する。第2図は、ポーズ付
近の韻律情報の形状例、第3図は本方式の流れ図
を示している。
(1) まずポーズを検出するため、無音区間がPλ
以上続く箇所を検出し、分割候補とする。
(2) ポーズが検出された箇所のうち、ポーズ前の
音声の基本周波数Feが話者の下限周波数以下
のもののみを候補として残し、後は文中である
とする。
(3) 更に、ポーズ後に最大値を示す基本周波数
FsとFeの差であるΔFが閾値(例えば、男性で
は40〜50Hz)以上であれば、その位置を分割点
とする。
ここで話者の下限周波数とは、現在システムを
利用している話者の発声可能な最低周波数に定数
倍(例えば1.1〜1.2倍)したものである。そし
て、この情報は、話者情報学習部3により抽出さ
れ、話者情報としてあらかじめ登録する。話者情
報は、数十音節よりなる平叙文(例えば挨拶文)
より求める。
〔発明の効果〕
本発明によれば、文法的に整つていない文が存
在し、かつ複数の文が続けて入力する会話文を意
味的まとまりをもつた単位に分割できる。このた
め、以降の理解処理が簡素化され、処理量が低減
できるほか、理解の信頼性をも向上できる効果が
ある。
【図面の簡単な説明】
第1図は、会話音声理解システムの一構成図、
第2図は、ポーズ付近の韻律情報を説明するため
の図、第3図は本方式の流れ図である。 符号の説明、1……特徴抽出部、2……会話文
分解部、3……話者情報学習部。

Claims (1)

    【特許請求の範囲】
  1. 1 音声による会話文を理解する会話音声理解方
    法において、入力される会話音声から韻律情報を
    抽出し、その抽出された韻律情報を利用して無音
    区間の長さからポーズを検出し、該検出されたポ
    ーズの直前の基本周波数を予め登録しておいた話
    者の下限周波数と比較して分割点の侯補を選び、
    該ポーズの直前の基本周波数と該ポーズの直後に
    最大値を示す基本周波数との差に応じて上記分割
    点の侯補を分割点とすることにより、上記入力さ
    れる会話音声を意味的まとまりをもつた単位に分
    割することを特徴とする韻律情報を利用した会話
    音声理解方法。
JP60173274A 1985-08-08 1985-08-08 韻律情報を利用した会話音声理解方法 Granted JPS6234200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60173274A JPS6234200A (ja) 1985-08-08 1985-08-08 韻律情報を利用した会話音声理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60173274A JPS6234200A (ja) 1985-08-08 1985-08-08 韻律情報を利用した会話音声理解方法

Publications (2)

Publication Number Publication Date
JPS6234200A JPS6234200A (ja) 1987-02-14
JPH032319B2 true JPH032319B2 (ja) 1991-01-14

Family

ID=15957406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60173274A Granted JPS6234200A (ja) 1985-08-08 1985-08-08 韻律情報を利用した会話音声理解方法

Country Status (1)

Country Link
JP (1) JPS6234200A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62141731U (ja) * 1986-02-28 1987-09-07
JP2007032373A (ja) * 2005-07-25 2007-02-08 Ebara Corp ポンプゲート用横軸ポンプのケーシング構造、ポンプゲート用横軸ポンプ、及びポンプゲート設備
JP5141695B2 (ja) * 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
CN110140167A (zh) * 2017-11-02 2019-08-16 索尼公司 信息处理设备和信息处理方法

Also Published As

Publication number Publication date
JPS6234200A (ja) 1987-02-14

Similar Documents

Publication Publication Date Title
Klatt The Klattalk text-to-speech conversion system
EP0683483B1 (en) A method and arrangement for speech to text conversion
GB1380502A (en) Systems for the synthesis of speech from alphanumeric data
Li et al. Speech corpus of Chinese discourse and the phonetic research
Bijankhan et al. Tfarsdat-the telephone farsi speech database.
JPH032319B2 (ja)
Bailly et al. Advocating for text input in multi-speaker text-to-speech systems
Jeon et al. Automatic generation of Korean pronunciation variants by multistage applications of phonological rules.
Marasek et al. Multi-level annotation in SpeeCon Polish speech database
Rapp Automatic labelling of German prosody.
O'Shaughnessy Fundamental frequency by rule for a text-to-speech system
JPH02308194A (ja) 外国語学習装置
Disambiguation et al. Speech Synthesis
JPS5837698A (ja) 音声入力和文タイプライタにおける変換方法
Ziółko et al. Statistics of diphones and triphones presence on the word boundaries in the Polish language. Applications to ASR
Brinckmann The Kiel corpus of read speech as a resource for speech synthesis
Kula et al. Prosody control in diphone-based speech synthesis system for Polish
Kulas et al. Syntex—unrestricted conversion of text to speech for German
KR0136423B1 (ko) 발음 제어 기호의 유효성 판정을 이용한 음운 변동 처리 방법
Kraft Tone in Hausa
Bruce On the phonetics of rhythm: Evidence from Swedish
Weibin et al. Duration Modeling For Chinese Systhesis from C-ToBI Labeled Corpus
Sproat Spoken Output Technologies
Wu et al. A comparison study on contextual modeling for estimating functional loads of phonological contrasts
Hashimoto et al. Context labels based on" bunsetsu" for HMM-based speech synthesis of Japanese.

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term