JPH05224687A - 日本文読み上げ単語変換編集処理方式 - Google Patents
日本文読み上げ単語変換編集処理方式Info
- Publication number
- JPH05224687A JPH05224687A JP4030232A JP3023292A JPH05224687A JP H05224687 A JPH05224687 A JP H05224687A JP 4030232 A JP4030232 A JP 4030232A JP 3023292 A JP3023292 A JP 3023292A JP H05224687 A JPH05224687 A JP H05224687A
- Authority
- JP
- Japan
- Prior art keywords
- word
- conversion
- polysemous
- dictionary
- japanese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 本発明は、日本文文章を形態素解析処理の結
果から変換すべき条件に合う同音語や多義語について単
語変換辞書を検索して該当する変換単語に変換し編集す
るようにすることを目的としている。 【構成】 日本語単語辞書の単語情報に同音語や多義語
を示す情報フラグを予め設定し、置換する変換単語を収
録した変換単語辞書を備える構成としている。
果から変換すべき条件に合う同音語や多義語について単
語変換辞書を検索して該当する変換単語に変換し編集す
るようにすることを目的としている。 【構成】 日本語単語辞書の単語情報に同音語や多義語
を示す情報フラグを予め設定し、置換する変換単語を収
録した変換単語辞書を備える構成としている。
Description
【0001】
【産業上の利用分野】本発明は、日本文のニュース速報
や各種情報案内などを読み上げて通信手段で配信する際
に、日本文文章の単語を聞き取りやすく変換編集する日
本文読み上げ単語変換編集処理方式に関するものであ
る。
や各種情報案内などを読み上げて通信手段で配信する際
に、日本文文章の単語を聞き取りやすく変換編集する日
本文読み上げ単語変換編集処理方式に関するものであ
る。
【0002】
【従来の技術】日本文のニュース速報や各種情報案内な
どの即時性の必要な情報データが通信手段で伝送され電
話やファクシミリなどのメディアで利用者に配信するサ
ービスが急増している。特に日本文文章を読み上げて電
話などの音声データで配信する場合には読み上げ処理が
一過性であるため、読み上げ内容の聞き取りやすさが重
要である。しかし、日本語には、同音語や同形で多義を
有する単語があり、これが混在することによっては聞き
誤りや聞きにくさなどの了解度の低下が発生する。
どの即時性の必要な情報データが通信手段で伝送され電
話やファクシミリなどのメディアで利用者に配信するサ
ービスが急増している。特に日本文文章を読み上げて電
話などの音声データで配信する場合には読み上げ処理が
一過性であるため、読み上げ内容の聞き取りやすさが重
要である。しかし、日本語には、同音語や同形で多義を
有する単語があり、これが混在することによっては聞き
誤りや聞きにくさなどの了解度の低下が発生する。
【0003】これに対して、情報の了解度を上げるため
に、 利用者は繰り返し読み上げなどの操作を行う、 情報配信元で単語読み分け用の特殊読み付与や単語置
換を行う、 情報配信元で単語表現の変換の編集作業を行う、 などの対応が可能である。
に、 利用者は繰り返し読み上げなどの操作を行う、 情報配信元で単語読み分け用の特殊読み付与や単語置
換を行う、 情報配信元で単語表現の変換の編集作業を行う、 などの対応が可能である。
【0004】
【発明が解決しようとする課題】しかし、では、利用
者の操作が増えたりスピーカなどで複数利用者に音声デ
ータを流す場合は本質的に繰り返し読み上げなどは不可
能であるなどの問題点がある。
者の操作が増えたりスピーカなどで複数利用者に音声デ
ータを流す場合は本質的に繰り返し読み上げなどは不可
能であるなどの問題点がある。
【0005】また、では、文章校正処理の例で行われ
ているように、原文文字をイメージしやすいような特殊
読みを行う。例えば、「追及」「追究」「追求」は、
『ツイキュウオヨビ』『ツイキュウキワメ』『ツイキュ
ウモトメ』となる。しかし、一般の情報利用者には特殊
読みは聞きにくく自然性を損なってわかりにくくなる。
また出現する単語をわかりやすい単語に文字的に置換す
る手段では、「日中間で経済問題を日中協議する」の場
合で、『日中』→『日本と中国』とすると、「日本と中
国間で経済問題を日本と中国協議する」となる。さら
に、「汚染土壌を採る法的手段を採る」の場合で、『採
る』→『採取する』とすると、「汚染土壌を採取する法
的手段を採取する」となり、いずれも不適当な表現に置
き換えられてしまう問題がある。
ているように、原文文字をイメージしやすいような特殊
読みを行う。例えば、「追及」「追究」「追求」は、
『ツイキュウオヨビ』『ツイキュウキワメ』『ツイキュ
ウモトメ』となる。しかし、一般の情報利用者には特殊
読みは聞きにくく自然性を損なってわかりにくくなる。
また出現する単語をわかりやすい単語に文字的に置換す
る手段では、「日中間で経済問題を日中協議する」の場
合で、『日中』→『日本と中国』とすると、「日本と中
国間で経済問題を日本と中国協議する」となる。さら
に、「汚染土壌を採る法的手段を採る」の場合で、『採
る』→『採取する』とすると、「汚染土壌を採取する法
的手段を採取する」となり、いずれも不適当な表現に置
き換えられてしまう問題がある。
【0006】また、では、日本文文章の編集作業段階
で多数の同音語や多義語に対する変換や編集を必要な範
囲で行わねばならないので熟練を要する作業であった。
このように、日本文文章の読み上げ処理において聞き取
りにくい同音語や多義語を抽出して聞き誤りが少なくわ
かりやすい単語表現に変換するなどの編集を必要な範囲
で行うことは、編集者の能力を有するので短時間で処理
することは困難であるという問題点があった。
で多数の同音語や多義語に対する変換や編集を必要な範
囲で行わねばならないので熟練を要する作業であった。
このように、日本文文章の読み上げ処理において聞き取
りにくい同音語や多義語を抽出して聞き誤りが少なくわ
かりやすい単語表現に変換するなどの編集を必要な範囲
で行うことは、編集者の能力を有するので短時間で処理
することは困難であるという問題点があった。
【0007】本発明は、上記の従来手段における問題点
を解決するために、日本文文章を形態素解析処理の結果
から変換すべき条件に合う同音語や多義語について単語
変換辞書を検索して該当する変換単語に変換し編集する
ようにすることを目的としている。
を解決するために、日本文文章を形態素解析処理の結果
から変換すべき条件に合う同音語や多義語について単語
変換辞書を検索して該当する変換単語に変換し編集する
ようにすることを目的としている。
【0008】
【課題を解決するための手段】上記の目的を実現するた
めに、本発明では、読み上げ用の日本文文章ファイルに
含まれる同音語や多義語を聞き取りやすい単語に変換し
編集する処理において、読み上げ用の日本文原文章を日
本語単語辞書と文法辞書とを用いて形態素解析処理して
単語の認定と単語の言語情報とを取得する手段と、予め
日本語単語辞書の単語情報に多義語を示す情報フラグを
設定する手段と、該情報フラグによって多義語を抽出す
る手段と、多義語で文法的な接続条件を満たす単語候補
(意味的多義)が複数存在する場合に、文章ファイルに
付随する文章分野属性と多義語の意味属性(単語の意味
を一般的な用語で示したもの)との共起性(分野依存
度)で多義を絞り込む手段と、予め多義語の各多義毎に
多義語の単語見出しと品詞に対して置換する変換単語と
を収録した変換単語辞書と、該変換単語辞書を検索して
多義語を変換編集する手段と、をそなえることを特徴と
し、また予め日本語単語辞書の単語情報に動詞の同音語
を示す情報フラグを設定する手段と、該情報フラグによ
って同音語を抽出する手段と、同音語の前方に存在する
格構造関係の名詞(以下、格要素単語という)の意味属
性を抽出する手段と、予め同音語見出しと格要素単語の
意味属性との組み合わせ毎に置換する変換単語を収録し
た変換単語辞書と、該変換単語辞書を検索して同音語を
変換編集する手段とを備えることを特徴とする。
めに、本発明では、読み上げ用の日本文文章ファイルに
含まれる同音語や多義語を聞き取りやすい単語に変換し
編集する処理において、読み上げ用の日本文原文章を日
本語単語辞書と文法辞書とを用いて形態素解析処理して
単語の認定と単語の言語情報とを取得する手段と、予め
日本語単語辞書の単語情報に多義語を示す情報フラグを
設定する手段と、該情報フラグによって多義語を抽出す
る手段と、多義語で文法的な接続条件を満たす単語候補
(意味的多義)が複数存在する場合に、文章ファイルに
付随する文章分野属性と多義語の意味属性(単語の意味
を一般的な用語で示したもの)との共起性(分野依存
度)で多義を絞り込む手段と、予め多義語の各多義毎に
多義語の単語見出しと品詞に対して置換する変換単語と
を収録した変換単語辞書と、該変換単語辞書を検索して
多義語を変換編集する手段と、をそなえることを特徴と
し、また予め日本語単語辞書の単語情報に動詞の同音語
を示す情報フラグを設定する手段と、該情報フラグによ
って同音語を抽出する手段と、同音語の前方に存在する
格構造関係の名詞(以下、格要素単語という)の意味属
性を抽出する手段と、予め同音語見出しと格要素単語の
意味属性との組み合わせ毎に置換する変換単語を収録し
た変換単語辞書と、該変換単語辞書を検索して同音語を
変換編集する手段とを備えることを特徴とする。
【0009】
【作用】本発明においては、読み上げ用の日本文文章フ
ァイルに含まれる同音語や多義語を聞き取りやすい単語
に変換し編集する処理において、日本語単語辞書の単語
情報に同音語や多義語を示す情報フラグを予め設定し、
置換する変換単語を収録した変換単語辞書を備えてあ
り、これにより、留意すべき同音語や多義語を抽出する
処理や前方の格要素単語の意味属性による聞き取りやす
い単語の置換処理を行うことが可能となるので、編集者
の文章編集の処理量を軽減できる。
ァイルに含まれる同音語や多義語を聞き取りやすい単語
に変換し編集する処理において、日本語単語辞書の単語
情報に同音語や多義語を示す情報フラグを予め設定し、
置換する変換単語を収録した変換単語辞書を備えてあ
り、これにより、留意すべき同音語や多義語を抽出する
処理や前方の格要素単語の意味属性による聞き取りやす
い単語の置換処理を行うことが可能となるので、編集者
の文章編集の処理量を軽減できる。
【0010】
【実施例】以下、本発明の実施例を図面により詳細に説
明する。図1から図8は、本発明の一実施例を示す図で
ある。そして、図4から図6は図1のブロック構成にお
ける本発明の請求項1の実施例を示す図であり、図7か
ら図8は図1のブロック構成における本発明の請求項2
の実施例を示す図である。
明する。図1から図8は、本発明の一実施例を示す図で
ある。そして、図4から図6は図1のブロック構成にお
ける本発明の請求項1の実施例を示す図であり、図7か
ら図8は図1のブロック構成における本発明の請求項2
の実施例を示す図である。
【0011】図1は処理ブロック構成例、図2は日本語
単語辞書の構成例、図3は変換単語辞書の構成例、図4
と図7は処理概略フロー、図5、図6、図8は単語変換
編集処理の実施例を説明する図である。
単語辞書の構成例、図3は変換単語辞書の構成例、図4
と図7は処理概略フロー、図5、図6、図8は単語変換
編集処理の実施例を説明する図である。
【0012】図1において、処理装置120はCPUお
よびメモリからなる処理装置で以下の機能部を有する。
すなわち、読み上げ用の日本文原文章ファイル10の日
本文文章を日本語単語辞書20、文法辞書30を用いて
単語の認定や単語の言語情報の取得を行う形態素解析処
理部40;単語情報から抽出した情報フラグのうち『同
形多義フラグ』がオンの単語を抽出する多義語抽出処理
部50;文法的な接続条件を満たす単語候補(意味的多
義)が存在する場合に多義を絞り込む多義語判定処理部
60;単語情報から抽出した情報フラグのうち『同音フ
ラグ』がオンの単語を抽出する同音語抽出処理部70;
同音語の前方に存在する格要素単語の意味属性を抽出す
る格要素意味属性抽出処理部80;多義語単語見出しと
多義語置換用の変換単語ならびに同音語単語見出しと格
要素単語の意味属性との組み合わせ毎に同音語置換用の
変換単語を予め収録した変換単語辞書90;該変換単語
辞書を検索して多義語や同音語を変換編集する単語変換
編集処理部100;編集済みの文章ファイル110から
なる。
よびメモリからなる処理装置で以下の機能部を有する。
すなわち、読み上げ用の日本文原文章ファイル10の日
本文文章を日本語単語辞書20、文法辞書30を用いて
単語の認定や単語の言語情報の取得を行う形態素解析処
理部40;単語情報から抽出した情報フラグのうち『同
形多義フラグ』がオンの単語を抽出する多義語抽出処理
部50;文法的な接続条件を満たす単語候補(意味的多
義)が存在する場合に多義を絞り込む多義語判定処理部
60;単語情報から抽出した情報フラグのうち『同音フ
ラグ』がオンの単語を抽出する同音語抽出処理部70;
同音語の前方に存在する格要素単語の意味属性を抽出す
る格要素意味属性抽出処理部80;多義語単語見出しと
多義語置換用の変換単語ならびに同音語単語見出しと格
要素単語の意味属性との組み合わせ毎に同音語置換用の
変換単語を予め収録した変換単語辞書90;該変換単語
辞書を検索して多義語や同音語を変換編集する単語変換
編集処理部100;編集済みの文章ファイル110から
なる。
【0013】この処理装置120では、読み上げ用の日
本文原文章の任意の文章について先頭から形態素解析処
理を行い、単語の認定と単語の言語情報として品詞、読
み、同音フラグ、同形多義フラグ、意味属性などの認定
とを行う。次に、認定された単語列の中から多義語
(『同形多義フラグ』がオンの単語)を抽出する(多義
語抽出処理部50)。文法的な接続条件を満たす単語候
補(意味的多義)が複数存在する場合に文章ファイルに
付随する文章分野属性と多義語の意味属性との共起性
(分野依存度)で多義を絞り込み単語候補を決定する
(多義語判定処理部60)。さらに、多義語の単語見出
しと認定品詞で変換単語辞書90を検索して変換単語を
抽出し原文章ファイルの文字列に置換して編集済みの文
章ファイル110に書き込む(単語変換編集処理部10
0)。
本文原文章の任意の文章について先頭から形態素解析処
理を行い、単語の認定と単語の言語情報として品詞、読
み、同音フラグ、同形多義フラグ、意味属性などの認定
とを行う。次に、認定された単語列の中から多義語
(『同形多義フラグ』がオンの単語)を抽出する(多義
語抽出処理部50)。文法的な接続条件を満たす単語候
補(意味的多義)が複数存在する場合に文章ファイルに
付随する文章分野属性と多義語の意味属性との共起性
(分野依存度)で多義を絞り込み単語候補を決定する
(多義語判定処理部60)。さらに、多義語の単語見出
しと認定品詞で変換単語辞書90を検索して変換単語を
抽出し原文章ファイルの文字列に置換して編集済みの文
章ファイル110に書き込む(単語変換編集処理部10
0)。
【0014】また、認定された単語列の中から品詞が動
詞の同音語(『同音フラグ』がオンの単語)を抽出し
(同音語抽出処理部70)、同音語の前方に存在する格
要素単語の意味属性を抽出する(格要素意味属性抽出処
理部80)。
詞の同音語(『同音フラグ』がオンの単語)を抽出し
(同音語抽出処理部70)、同音語の前方に存在する格
要素単語の意味属性を抽出する(格要素意味属性抽出処
理部80)。
【0015】予め単語見出しと格要素単語の意味属性と
の組み合わせ毎に置換する変換単語を収録した変換単語
辞書90を、同音語の単語見出しと抽出した格要素の意
味属性で検索してマッチするパターンの変換単語を抽出
し、原文章ファイルの文字列に置換して編集済みの文章
ファイル110に書き込む(単語変換編集処理部10
0)。
の組み合わせ毎に置換する変換単語を収録した変換単語
辞書90を、同音語の単語見出しと抽出した格要素の意
味属性で検索してマッチするパターンの変換単語を抽出
し、原文章ファイルの文字列に置換して編集済みの文章
ファイル110に書き込む(単語変換編集処理部10
0)。
【0016】図2は、図1のブロック図の構成要素であ
る日本語単語辞書20の構成例を示す図である。「日
中」では、時詞と固有名詞との2つの多義を有する単語
候補があるので、同形多義フラグを付与されている。さ
らに、単語候補の多義を判定するために意味属性(単語
の意味を一般的な用語で示したもの)として、『時間』
と『国、地域』がある。また、動詞の同音語の「取る」
「採る」「捕る」「撮る」にはいずれも同音フラグが付
与されている。
る日本語単語辞書20の構成例を示す図である。「日
中」では、時詞と固有名詞との2つの多義を有する単語
候補があるので、同形多義フラグを付与されている。さ
らに、単語候補の多義を判定するために意味属性(単語
の意味を一般的な用語で示したもの)として、『時間』
と『国、地域』がある。また、動詞の同音語の「取る」
「採る」「捕る」「撮る」にはいずれも同音フラグが付
与されている。
【0017】図3は、図1のブロック図の構成要素であ
る変換単語辞書90の構成例を示す図である。ここで、
130は同音語の前方の格要素単語の意味属性、140
は変換単語である。「日中」では、時詞と固有名詞との
2つの多義を有する単語候補があるので、それぞれの変
換単語は、時詞の場合に『昼間の間』、固有名詞の場合
に『日本と中国』となり、格納されている。また、動詞
の同音語の場合には格要素単語の意味属性で変換単語が
異なる。例えば、「採る」では、格要素単語の意味属性
が「制度」の時には『採用する』、「生物」の時には
『採取する』となる。
る変換単語辞書90の構成例を示す図である。ここで、
130は同音語の前方の格要素単語の意味属性、140
は変換単語である。「日中」では、時詞と固有名詞との
2つの多義を有する単語候補があるので、それぞれの変
換単語は、時詞の場合に『昼間の間』、固有名詞の場合
に『日本と中国』となり、格納されている。また、動詞
の同音語の場合には格要素単語の意味属性で変換単語が
異なる。例えば、「採る」では、格要素単語の意味属性
が「制度」の時には『採用する』、「生物」の時には
『採取する』となる。
【0018】図4は図1に示した処理ブロック構成例に
おいて、日本文原文章ファイル10に含まれる多義語を
変換する処理の概略フローを示す図であり、概略フロー
に従って、動作の説明を行う。
おいて、日本文原文章ファイル10に含まれる多義語を
変換する処理の概略フローを示す図であり、概略フロー
に従って、動作の説明を行う。
【0019】 日本文原文章ファイル10より単語変換編集処理を施す処理対象文章を読み込 む (ステップ100) 読み込んだ全文章について形態素解析処理部40において、日本語単語辞書2 0、文法辞書30を用いて、形態素解析処理を行い、単語の認定と、単語の言語 情報として品詞、読み、同音語フラグ、同形多義フラグ、意味属性などの認定と を行う (ステップ110) 多義語抽出処理部50において、認定された単語列の中から多義語を示す情報 フラグによって多義語を抽出し、多義語でない場合にはステップ180に分岐す る (ステップ120) 抽出した多義語において、文法的な接続条件を満たす単語候補(意味的多義) が複数存在するかを判定して、意味的多義がなければステップ160に分岐する (ステップ130) 多義語判定処理部60において、意味的多義を有する多義語の場合(ステップ 130の判定がYESの場合)には、文章分野属性と多義語の意味属性との共起 性(分野依存度)を調べる (ステップ140) 共起性(分野依存度)の高い方の単語候補を認定する (ステップ150) 認定した多義語の単語見出しと認定品詞で、変換単語辞書90を検索して変換 単語を抽出し原文章ファイルの文字列を置換する (ステップ160) 編集済みの文章ファイル110に書き込む (ステップ170) 全単語について処理を終了したかを判定して判定がYESの場合は処理を終え る。また、判定がNOの場合、次単語を読み込み(ステップ190)、ステップ 120へ移行し処理を継続する (ステップ180) 図5は図4の多義語を変換する処理の概略フローにおけ
る多義判定処理の実施例である。
る多義判定処理の実施例である。
【0020】ここで、150は文章分野属性、160は
原文章文字列、170は多義語、180は文法的単語接
続条件、190は分野依存度判定条件、195は多義判
定後の認定品詞である。
原文章文字列、170は多義語、180は文法的単語接
続条件、190は分野依存度判定条件、195は多義判
定後の認定品詞である。
【0021】抽出した多義語「日中」において、文法的
な接続条件を満たす単語候補(意味的多義)が複数存在
するかを判定する。「日中開かれた」では、後続単語の
動詞「開かれ」との文法的接続条件で「日中(時詞)」
のみが認定されるため意味的多義はない。しかし、「日
中間の懸案」では、後続単語の接尾辞「間」との文法的
接続条件で「日中(時詞)」と「日中(固有名詞)」と
の複数の単語候補が認定されるため意味的多義が発生す
る。意味的多義が残留すると変換単語の検索処理で支障
があるため、文章分野属性150を用いて多義語の意味
属性との共起性(分野依存度)を調べ多義を絞る。ここ
では、文章分野属性が『国際政治』であるので、意味属
性が「国、地域」の「日中(固有名詞)」の方が認定さ
れる(認定後の品詞195)。
な接続条件を満たす単語候補(意味的多義)が複数存在
するかを判定する。「日中開かれた」では、後続単語の
動詞「開かれ」との文法的接続条件で「日中(時詞)」
のみが認定されるため意味的多義はない。しかし、「日
中間の懸案」では、後続単語の接尾辞「間」との文法的
接続条件で「日中(時詞)」と「日中(固有名詞)」と
の複数の単語候補が認定されるため意味的多義が発生す
る。意味的多義が残留すると変換単語の検索処理で支障
があるため、文章分野属性150を用いて多義語の意味
属性との共起性(分野依存度)を調べ多義を絞る。ここ
では、文章分野属性が『国際政治』であるので、意味属
性が「国、地域」の「日中(固有名詞)」の方が認定さ
れる(認定後の品詞195)。
【0022】図6は図4の多義語を変換する処理の概略
フローの実施例である。ここで、200は変換単語、2
10は変換後文字列である。意味的多義を絞った多義語
に対して、認定された単語見出しと品詞で変換単語辞書
90を検索して変換単語200を抽出し、原文章ファイ
ルの文字列と置換して変換後文字列210を作成する。
実施例では、「日中(時詞)」に対して「昼間の間」を
変換し、「日中(固有名詞)」に対しては「日本と中
国」を変換している。
フローの実施例である。ここで、200は変換単語、2
10は変換後文字列である。意味的多義を絞った多義語
に対して、認定された単語見出しと品詞で変換単語辞書
90を検索して変換単語200を抽出し、原文章ファイ
ルの文字列と置換して変換後文字列210を作成する。
実施例では、「日中(時詞)」に対して「昼間の間」を
変換し、「日中(固有名詞)」に対しては「日本と中
国」を変換している。
【0023】このように、予め多義語の各多義毎に多義
語の単語見出しと品詞と置換する変換単語を収録した変
換単語辞書として作成しておき、多義語が抽出された場
合に、意味的多義を絞って認定した多義語の単語見出し
と品詞とで該変換単語辞書を検索して聞き取りやすい変
換単語への変換を行うのであるから、編集者の文章編集
の処理量を軽減できる。
語の単語見出しと品詞と置換する変換単語を収録した変
換単語辞書として作成しておき、多義語が抽出された場
合に、意味的多義を絞って認定した多義語の単語見出し
と品詞とで該変換単語辞書を検索して聞き取りやすい変
換単語への変換を行うのであるから、編集者の文章編集
の処理量を軽減できる。
【0024】図7は図1に示した処理ブロック構成例に
おいて、日本文原文章ファイル10に含まれる動詞の同
音語を変換する処理の概略フローを示す図であり、概略
フローに従って、動作の説明を行う。
おいて、日本文原文章ファイル10に含まれる動詞の同
音語を変換する処理の概略フローを示す図であり、概略
フローに従って、動作の説明を行う。
【0025】ここで、ステップ200、ステップ21
0、ステップ280、ステップ290はそれぞれ、図4
のステップ100、ステップ110、ステップ180、
ステップ190に等しい。
0、ステップ280、ステップ290はそれぞれ、図4
のステップ100、ステップ110、ステップ180、
ステップ190に等しい。
【0026】 同音語抽出処理部70において、認定された単語列の中から動詞の同音語を示 す情報フラグによって同音語を抽出し、同音語でない場合にはステップ280に 分岐する (ステップ220) 格要素意味属性抽出処理部80において、抽出した同音語について同音語の前 方の単語を探索して格要素単語を抽出し、格要素単語の意味属性を抽出する (ステップ230) 同音語の単語見出しと抽出した格要素単語の意味属性で、変換単語辞書90を 検索する (ステップ240) 変換単語辞書でマッチするパターンがあるかを判定する。マッチするパターン がない場合にはステップ280に分岐する (ステップ250) 変換単語を抽出し原文章ファイルの文字列を置換する (ステップ260) 編集済みの文章ファイル110に書き込む (ステップ270) 図8は図7の同音語を変換する処理の概略フローの実施
例である。
例である。
【0027】ここで、220は原文章文字列、230は
同音語(動詞)、240は格要素単語との格構造関係、
250は変換単語、260は変換後文字列である。抽出
した同音語「捕る」「採る」について、同音語の前方の
単語を探索して格要素単語を抽出し、格要素単語の意味
属性を抽出する。実施例では、「捕る」に対して『サケ
(生物)』、「採る」に対して『病原菌(生物)』と
『手段(制度)』がそれぞれ抽出される。次に、格要素
単語を有する同音語の単語見出しと抽出した格要素単語
の意味属性で、変換単語辞書90を検索し、変換単語辞
書でマッチするパターンがあるかを判定する。マッチす
るパターンがあれば変換単語250を抽出し、原文章フ
ァイルの文字列と置換して変換後文字列260を作成す
る。実施例では、「捕る」に対して『サケ(生物)』が
格構造関係にあるので、「捕る」を「捕獲する」に変換
している。また、「採る」に対しては、格要素単語が
『病原菌(生物)』に対して「採る」を「採取する」に
変換し、格要素単語が『手段(制度)』に対しては「採
る」を「採用する」に変換している。
同音語(動詞)、240は格要素単語との格構造関係、
250は変換単語、260は変換後文字列である。抽出
した同音語「捕る」「採る」について、同音語の前方の
単語を探索して格要素単語を抽出し、格要素単語の意味
属性を抽出する。実施例では、「捕る」に対して『サケ
(生物)』、「採る」に対して『病原菌(生物)』と
『手段(制度)』がそれぞれ抽出される。次に、格要素
単語を有する同音語の単語見出しと抽出した格要素単語
の意味属性で、変換単語辞書90を検索し、変換単語辞
書でマッチするパターンがあるかを判定する。マッチす
るパターンがあれば変換単語250を抽出し、原文章フ
ァイルの文字列と置換して変換後文字列260を作成す
る。実施例では、「捕る」に対して『サケ(生物)』が
格構造関係にあるので、「捕る」を「捕獲する」に変換
している。また、「採る」に対しては、格要素単語が
『病原菌(生物)』に対して「採る」を「採取する」に
変換し、格要素単語が『手段(制度)』に対しては「採
る」を「採用する」に変換している。
【0028】このように、予め同音語見出しと格要素単
語の意味属性との組み合わせ毎に置換する変換単語を収
録した変換単語辞書を作成しておき、同音語が抽出され
た場合に、格要素単語を有する同音語の単語見出しと抽
出した格要素単語の意味属性で、該変換単語辞書を検索
して聞き取りやすい変換単語への変換を行う。
語の意味属性との組み合わせ毎に置換する変換単語を収
録した変換単語辞書を作成しておき、同音語が抽出され
た場合に、格要素単語を有する同音語の単語見出しと抽
出した格要素単語の意味属性で、該変換単語辞書を検索
して聞き取りやすい変換単語への変換を行う。
【0029】すなわち、本発明の日本文読み上げ単語変
換編集処理方式では、読み上げ用の日本文文章ファイル
に含まれる同音語や多義語を聞き取りやすい単語に変換
し編集する処理において、既に記述した手段によって、
留意すべき同音語や多義語を抽出する処理や前方の格要
素単語の意味属性による聞き取りやすい変換単語への置
換処理を行うことが可能となる。
換編集処理方式では、読み上げ用の日本文文章ファイル
に含まれる同音語や多義語を聞き取りやすい単語に変換
し編集する処理において、既に記述した手段によって、
留意すべき同音語や多義語を抽出する処理や前方の格要
素単語の意味属性による聞き取りやすい変換単語への置
換処理を行うことが可能となる。
【0030】
【発明の効果】以上説明したように、本発明によれば、
特に日本文文章を読み上げて電話などの音声データで速
報記事などを配信する際には、読み上げ内容の聞き誤り
や聞きにくさなどを排除して了解度の高い日本文文章を
作成するために、一般に日本文文章の編集作業を行うに
当って、編集者の文章編集の処理量を軽減できる。
特に日本文文章を読み上げて電話などの音声データで速
報記事などを配信する際には、読み上げ内容の聞き誤り
や聞きにくさなどを排除して了解度の高い日本文文章を
作成するために、一般に日本文文章の編集作業を行うに
当って、編集者の文章編集の処理量を軽減できる。
【図1】本発明の処理ブロック構成例である。
【図2】日本語単語辞書の構成例である。
【図3】変換単語辞書の構成例である。
【図4】処理概略フローである。
【図5】単語変換編集処理の実施例を説明する図であ
る。
る。
【図6】単語変換編集処理の実施例を説明する図であ
る。
る。
【図7】処理概略フローである。
【図8】単語変換編集処理の実施例を説明する図であ
る。
る。
10 日本文原文章ファイル 20 日本語単語辞書 30 文法辞書 40 形態素解析処理部 50 多義語抽出処理部 60 多義語判定処理部 70 同音語抽出処理部 80 格要素意味属性抽出処理部 90 変換単語辞書 100 単語変換編集処理部 110 編集済みの文章ファイル 120 処理装置 130 格要素単語の意味属性 140 変換単語 150 文章分野属性 160 原文章文字列 170 多義語 180 文法的単語接続条件 190 分野依存度判定条件 195 認定品詞 200 変換単語 210 変換後文字列 220 原文章文字列 230 同音語 240 格構造関係 250 変換単語 260 変換後文字列
Claims (2)
- 【請求項1】 読み上げ用の日本文文章ファイルに含ま
れる同音語や多義語を聞き取りやすい単語に変換し編集
する処理において、 読み上げ用の日本文原文章を日本語単語辞書と文法辞書
とを用いて形態素解析処理して単語の認定と単語の言語
情報とを取得する手段と、 予め日本語単語辞書の単語情報に多義語を示す情報フラ
グを設定する手段と、 該情報フラグによって多義語を抽出する手段と、 多義語で文法的な接続条件を満たす単語候補が複数存在
する場合に、文章ファイルに付随する文章分野属性と多
義語の意味属性との共起性で多義を絞り込む手段と、 予め多義語の各多義毎に多義語の単語見出しと品詞に対
して置換する変換単語とを収録した変換単語辞書と、 該変換単語辞書を検索して多義語を変換編集する手段と
を備えることを特徴とする日本文読み上げ単語変換編集
処理方式。 - 【請求項2】 予め日本語単語辞書の単語情報に動詞の
同音語を示す情報フラグを設定する手段と、 該情報フラグによって同音語を抽出する手段と、 同音語の前方に存在する格構造関係の名詞の意味属性を
抽出する手段と、 予め同音語見出しと格構造関係の名詞の意味属性との組
み合わせ毎に置換する変換単語を収録した変換単語辞書
と、 該変換単語辞書を検索して同音語を変換編集する手段と
を備えることを特徴とする請求項1記載の日本文読み上
げ単語変換編集処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4030232A JPH05224687A (ja) | 1992-02-18 | 1992-02-18 | 日本文読み上げ単語変換編集処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4030232A JPH05224687A (ja) | 1992-02-18 | 1992-02-18 | 日本文読み上げ単語変換編集処理方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05224687A true JPH05224687A (ja) | 1993-09-03 |
Family
ID=12297970
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4030232A Pending JPH05224687A (ja) | 1992-02-18 | 1992-02-18 | 日本文読み上げ単語変換編集処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05224687A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07244672A (ja) * | 1994-03-04 | 1995-09-19 | Sony Corp | 電子化辞書、および自然言語処理装置 |
| US6389386B1 (en) | 1998-12-15 | 2002-05-14 | International Business Machines Corporation | Method, system and computer program product for sorting text strings |
| US6411948B1 (en) | 1998-12-15 | 2002-06-25 | International Business Machines Corporation | Method, system and computer program product for automatically capturing language translation and sorting information in a text class |
| US6460015B1 (en) | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
| KR100377475B1 (ko) * | 1999-07-23 | 2003-03-26 | 한국전자통신연구원 | 서법 정보를 이용한 한국어 화행 추출장치 |
| US7099876B1 (en) | 1998-12-15 | 2006-08-29 | International Business Machines Corporation | Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class |
| WO2008117432A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 電子文書の秘匿化プログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0335296A (ja) * | 1989-06-30 | 1991-02-15 | Sharp Corp | テキスト音声合成装置 |
| JPH0420998A (ja) * | 1990-05-16 | 1992-01-24 | Ricoh Co Ltd | 音声合成装置 |
-
1992
- 1992-02-18 JP JP4030232A patent/JPH05224687A/ja active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0335296A (ja) * | 1989-06-30 | 1991-02-15 | Sharp Corp | テキスト音声合成装置 |
| JPH0420998A (ja) * | 1990-05-16 | 1992-01-24 | Ricoh Co Ltd | 音声合成装置 |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07244672A (ja) * | 1994-03-04 | 1995-09-19 | Sony Corp | 電子化辞書、および自然言語処理装置 |
| US6389386B1 (en) | 1998-12-15 | 2002-05-14 | International Business Machines Corporation | Method, system and computer program product for sorting text strings |
| US6411948B1 (en) | 1998-12-15 | 2002-06-25 | International Business Machines Corporation | Method, system and computer program product for automatically capturing language translation and sorting information in a text class |
| US6460015B1 (en) | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
| US7099876B1 (en) | 1998-12-15 | 2006-08-29 | International Business Machines Corporation | Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class |
| KR100377475B1 (ko) * | 1999-07-23 | 2003-03-26 | 한국전자통신연구원 | 서법 정보를 이용한 한국어 화행 추출장치 |
| WO2008117432A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 電子文書の秘匿化プログラム |
| JPWO2008117432A1 (ja) * | 2007-03-27 | 2010-07-08 | 富士通株式会社 | 電子文書の秘匿化プログラム |
| JP5337020B2 (ja) * | 2007-03-27 | 2013-11-06 | 富士通株式会社 | 電子文書の秘匿化プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
| KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
| Cussens | Part-of-speech tagging using Progol | |
| Zechner | Automatic generation of concise summaries of spoken dialogues in unrestricted domains | |
| US20050154580A1 (en) | Automated grammar generator (AGG) | |
| KR101279707B1 (ko) | 문서에서 정의를 식별하는 방법 및 정의 추출 시스템 | |
| JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
| US20100185438A1 (en) | Method of creating a dictionary | |
| JPH05224687A (ja) | 日本文読み上げ単語変換編集処理方式 | |
| Brown et al. | Capitalization recovery for text | |
| Wang et al. | Evaluation of spoken language grammar learning in the ATIS domain | |
| Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JPH03105465A (ja) | 複合語抽出装置 | |
| JPH11338863A (ja) | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 | |
| JPS62271057A (ja) | 翻訳装置における辞書登録方式 | |
| Hong et al. | A Korean morphological analyzer for speech translation system | |
| Sang et al. | Reduction of Dutch Sentences for Automatic Subtitling. | |
| JP2008225744A (ja) | 機械翻訳装置、およびプログラム | |
| JP2897942B2 (ja) | 日本語形態素解析システム及び形態素解析方式 | |
| Lihemo et al. | The Syntax of Head-Marked Phrases and Head-Marking Morphemes in Lunyore | |
| JPH05250403A (ja) | 日本文単語解析方式 | |
| JPS63109572A (ja) | 派生語処理方式 | |
| JPS6389976A (ja) | 言語解析装置 | |
| JPH05233689A (ja) | 文書自動要約方法 |