JPH05224687A

JPH05224687A - 日本文読み上げ単語変換編集処理方式

Info

Publication number: JPH05224687A
Application number: JP4030232A
Authority: JP
Inventors: Shinichiro Takagi; 伸一郎高木; Hisashi Nakada; 寿中田; Masashi Katsumata; 雅司勝俣
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1992-02-18
Filing date: 1992-02-18
Publication date: 1993-09-03

Abstract

(57)【要約】【目的】本発明は、日本文文章を形態素解析処理の結
果から変換すべき条件に合う同音語や多義語について単
語変換辞書を検索して該当する変換単語に変換し編集す
るようにすることを目的としている。【構成】日本語単語辞書の単語情報に同音語や多義語
を示す情報フラグを予め設定し、置換する変換単語を収
録した変換単語辞書を備える構成としている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、日本文のニュース速報
や各種情報案内などを読み上げて通信手段で配信する際
に、日本文文章の単語を聞き取りやすく変換編集する日
本文読み上げ単語変換編集処理方式に関するものであ
る。

【０００２】

【従来の技術】日本文のニュース速報や各種情報案内な
どの即時性の必要な情報データが通信手段で伝送され電
話やファクシミリなどのメディアで利用者に配信するサ
ービスが急増している。特に日本文文章を読み上げて電
話などの音声データで配信する場合には読み上げ処理が
一過性であるため、読み上げ内容の聞き取りやすさが重
要である。しかし、日本語には、同音語や同形で多義を
有する単語があり、これが混在することによっては聞き
誤りや聞きにくさなどの了解度の低下が発生する。

【０００３】これに対して、情報の了解度を上げるため
に、利用者は繰り返し読み上げなどの操作を行う、情報配信元で単語読み分け用の特殊読み付与や単語置
換を行う、情報配信元で単語表現の変換の編集作業を行う、などの対応が可能である。

【０００４】

【発明が解決しようとする課題】しかし、では、利用
者の操作が増えたりスピーカなどで複数利用者に音声デ
ータを流す場合は本質的に繰り返し読み上げなどは不可
能であるなどの問題点がある。

【０００５】また、では、文章校正処理の例で行われ
ているように、原文文字をイメージしやすいような特殊
読みを行う。例えば、「追及」「追究」「追求」は、
『ツイキュウオヨビ』『ツイキュウキワメ』『ツイキュ
ウモトメ』となる。しかし、一般の情報利用者には特殊
読みは聞きにくく自然性を損なってわかりにくくなる。
また出現する単語をわかりやすい単語に文字的に置換す
る手段では、「日中間で経済問題を日中協議する」の場
合で、『日中』→『日本と中国』とすると、「日本と中
国間で経済問題を日本と中国協議する」となる。さら
に、「汚染土壌を採る法的手段を採る」の場合で、『採
る』→『採取する』とすると、「汚染土壌を採取する法
的手段を採取する」となり、いずれも不適当な表現に置
き換えられてしまう問題がある。

【０００６】また、では、日本文文章の編集作業段階
で多数の同音語や多義語に対する変換や編集を必要な範
囲で行わねばならないので熟練を要する作業であった。
このように、日本文文章の読み上げ処理において聞き取
りにくい同音語や多義語を抽出して聞き誤りが少なくわ
かりやすい単語表現に変換するなどの編集を必要な範囲
で行うことは、編集者の能力を有するので短時間で処理
することは困難であるという問題点があった。

【０００７】本発明は、上記の従来手段における問題点
を解決するために、日本文文章を形態素解析処理の結果
から変換すべき条件に合う同音語や多義語について単語
変換辞書を検索して該当する変換単語に変換し編集する
ようにすることを目的としている。

【０００８】

【課題を解決するための手段】上記の目的を実現するた
めに、本発明では、読み上げ用の日本文文章ファイルに
含まれる同音語や多義語を聞き取りやすい単語に変換し
編集する処理において、読み上げ用の日本文原文章を日
本語単語辞書と文法辞書とを用いて形態素解析処理して
単語の認定と単語の言語情報とを取得する手段と、予め
日本語単語辞書の単語情報に多義語を示す情報フラグを
設定する手段と、該情報フラグによって多義語を抽出す
る手段と、多義語で文法的な接続条件を満たす単語候補
（意味的多義）が複数存在する場合に、文章ファイルに
付随する文章分野属性と多義語の意味属性（単語の意味
を一般的な用語で示したもの）との共起性（分野依存
度）で多義を絞り込む手段と、予め多義語の各多義毎に
多義語の単語見出しと品詞に対して置換する変換単語と
を収録した変換単語辞書と、該変換単語辞書を検索して
多義語を変換編集する手段と、をそなえることを特徴と
し、また予め日本語単語辞書の単語情報に動詞の同音語
を示す情報フラグを設定する手段と、該情報フラグによ
って同音語を抽出する手段と、同音語の前方に存在する
格構造関係の名詞（以下、格要素単語という）の意味属
性を抽出する手段と、予め同音語見出しと格要素単語の
意味属性との組み合わせ毎に置換する変換単語を収録し
た変換単語辞書と、該変換単語辞書を検索して同音語を
変換編集する手段とを備えることを特徴とする。

【０００９】

【作用】本発明においては、読み上げ用の日本文文章フ
ァイルに含まれる同音語や多義語を聞き取りやすい単語
に変換し編集する処理において、日本語単語辞書の単語
情報に同音語や多義語を示す情報フラグを予め設定し、
置換する変換単語を収録した変換単語辞書を備えてあ
り、これにより、留意すべき同音語や多義語を抽出する
処理や前方の格要素単語の意味属性による聞き取りやす
い単語の置換処理を行うことが可能となるので、編集者
の文章編集の処理量を軽減できる。

【００１０】

【実施例】以下、本発明の実施例を図面により詳細に説
明する。図１から図８は、本発明の一実施例を示す図で
ある。そして、図４から図６は図１のブロック構成にお
ける本発明の請求項１の実施例を示す図であり、図７か
ら図８は図１のブロック構成における本発明の請求項２
の実施例を示す図である。

【００１１】図１は処理ブロック構成例、図２は日本語
単語辞書の構成例、図３は変換単語辞書の構成例、図４
と図７は処理概略フロー、図５、図６、図８は単語変換
編集処理の実施例を説明する図である。

【００１２】図１において、処理装置１２０はＣＰＵお
よびメモリからなる処理装置で以下の機能部を有する。
すなわち、読み上げ用の日本文原文章ファイル１０の日
本文文章を日本語単語辞書２０、文法辞書３０を用いて
単語の認定や単語の言語情報の取得を行う形態素解析処
理部４０；単語情報から抽出した情報フラグのうち『同
形多義フラグ』がオンの単語を抽出する多義語抽出処理
部５０；文法的な接続条件を満たす単語候補（意味的多
義）が存在する場合に多義を絞り込む多義語判定処理部
６０；単語情報から抽出した情報フラグのうち『同音フ
ラグ』がオンの単語を抽出する同音語抽出処理部７０；
同音語の前方に存在する格要素単語の意味属性を抽出す
る格要素意味属性抽出処理部８０；多義語単語見出しと
多義語置換用の変換単語ならびに同音語単語見出しと格
要素単語の意味属性との組み合わせ毎に同音語置換用の
変換単語を予め収録した変換単語辞書９０；該変換単語
辞書を検索して多義語や同音語を変換編集する単語変換
編集処理部１００；編集済みの文章ファイル１１０から
なる。

【００１３】この処理装置１２０では、読み上げ用の日
本文原文章の任意の文章について先頭から形態素解析処
理を行い、単語の認定と単語の言語情報として品詞、読
み、同音フラグ、同形多義フラグ、意味属性などの認定
とを行う。次に、認定された単語列の中から多義語
（『同形多義フラグ』がオンの単語）を抽出する（多義
語抽出処理部５０）。文法的な接続条件を満たす単語候
補（意味的多義）が複数存在する場合に文章ファイルに
付随する文章分野属性と多義語の意味属性との共起性
（分野依存度）で多義を絞り込み単語候補を決定する
（多義語判定処理部６０）。さらに、多義語の単語見出
しと認定品詞で変換単語辞書９０を検索して変換単語を
抽出し原文章ファイルの文字列に置換して編集済みの文
章ファイル１１０に書き込む（単語変換編集処理部１０
０）。

【００１４】また、認定された単語列の中から品詞が動
詞の同音語（『同音フラグ』がオンの単語）を抽出し
（同音語抽出処理部７０）、同音語の前方に存在する格
要素単語の意味属性を抽出する（格要素意味属性抽出処
理部８０）。

【００１５】予め単語見出しと格要素単語の意味属性と
の組み合わせ毎に置換する変換単語を収録した変換単語
辞書９０を、同音語の単語見出しと抽出した格要素の意
味属性で検索してマッチするパターンの変換単語を抽出
し、原文章ファイルの文字列に置換して編集済みの文章
ファイル１１０に書き込む（単語変換編集処理部１０
０）。

【００１６】図２は、図１のブロック図の構成要素であ
る日本語単語辞書２０の構成例を示す図である。「日
中」では、時詞と固有名詞との２つの多義を有する単語
候補があるので、同形多義フラグを付与されている。さ
らに、単語候補の多義を判定するために意味属性（単語
の意味を一般的な用語で示したもの）として、『時間』
と『国、地域』がある。また、動詞の同音語の「取る」
「採る」「捕る」「撮る」にはいずれも同音フラグが付
与されている。

【００１７】図３は、図１のブロック図の構成要素であ
る変換単語辞書９０の構成例を示す図である。ここで、
１３０は同音語の前方の格要素単語の意味属性、１４０
は変換単語である。「日中」では、時詞と固有名詞との
２つの多義を有する単語候補があるので、それぞれの変
換単語は、時詞の場合に『昼間の間』、固有名詞の場合
に『日本と中国』となり、格納されている。また、動詞
の同音語の場合には格要素単語の意味属性で変換単語が
異なる。例えば、「採る」では、格要素単語の意味属性
が「制度」の時には『採用する』、「生物」の時には
『採取する』となる。

【００１８】図４は図１に示した処理ブロック構成例に
おいて、日本文原文章ファイル１０に含まれる多義語を
変換する処理の概略フローを示す図であり、概略フロー
に従って、動作の説明を行う。

【００１９】日本文原文章ファイル１０より単語変換編集処理を施す処理対象文章を読み込む（ステップ１００）読み込んだ全文章について形態素解析処理部４０において、日本語単語辞書２０、文法辞書３０を用いて、形態素解析処理を行い、単語の認定と、単語の言語情報として品詞、読み、同音語フラグ、同形多義フラグ、意味属性などの認定とを行う（ステップ１１０）多義語抽出処理部５０において、認定された単語列の中から多義語を示す情報フラグによって多義語を抽出し、多義語でない場合にはステップ１８０に分岐する（ステップ１２０）抽出した多義語において、文法的な接続条件を満たす単語候補（意味的多義）が複数存在するかを判定して、意味的多義がなければステップ１６０に分岐する（ステップ１３０）多義語判定処理部６０において、意味的多義を有する多義語の場合（ステップ１３０の判定がＹＥＳの場合）には、文章分野属性と多義語の意味属性との共起性（分野依存度）を調べる（ステップ１４０）共起性（分野依存度）の高い方の単語候補を認定する（ステップ１５０）認定した多義語の単語見出しと認定品詞で、変換単語辞書９０を検索して変換単語を抽出し原文章ファイルの文字列を置換する（ステップ１６０）編集済みの文章ファイル１１０に書き込む（ステップ１７０）全単語について処理を終了したかを判定して判定がＹＥＳの場合は処理を終える。また、判定がＮＯの場合、次単語を読み込み（ステップ１９０）、ステップ１２０へ移行し処理を継続する（ステップ１８０）図５は図４の多義語を変換する処理の概略フローにおけ
る多義判定処理の実施例である。

【００２０】ここで、１５０は文章分野属性、１６０は
原文章文字列、１７０は多義語、１８０は文法的単語接
続条件、１９０は分野依存度判定条件、１９５は多義判
定後の認定品詞である。

【００２１】抽出した多義語「日中」において、文法的
な接続条件を満たす単語候補（意味的多義）が複数存在
するかを判定する。「日中開かれた」では、後続単語の
動詞「開かれ」との文法的接続条件で「日中（時詞）」
のみが認定されるため意味的多義はない。しかし、「日
中間の懸案」では、後続単語の接尾辞「間」との文法的
接続条件で「日中（時詞）」と「日中（固有名詞）」と
の複数の単語候補が認定されるため意味的多義が発生す
る。意味的多義が残留すると変換単語の検索処理で支障
があるため、文章分野属性１５０を用いて多義語の意味
属性との共起性（分野依存度）を調べ多義を絞る。ここ
では、文章分野属性が『国際政治』であるので、意味属
性が「国、地域」の「日中（固有名詞）」の方が認定さ
れる（認定後の品詞１９５）。

【００２２】図６は図４の多義語を変換する処理の概略
フローの実施例である。ここで、２００は変換単語、２
１０は変換後文字列である。意味的多義を絞った多義語
に対して、認定された単語見出しと品詞で変換単語辞書
９０を検索して変換単語２００を抽出し、原文章ファイ
ルの文字列と置換して変換後文字列２１０を作成する。
実施例では、「日中（時詞）」に対して「昼間の間」を
変換し、「日中（固有名詞）」に対しては「日本と中
国」を変換している。

【００２３】このように、予め多義語の各多義毎に多義
語の単語見出しと品詞と置換する変換単語を収録した変
換単語辞書として作成しておき、多義語が抽出された場
合に、意味的多義を絞って認定した多義語の単語見出し
と品詞とで該変換単語辞書を検索して聞き取りやすい変
換単語への変換を行うのであるから、編集者の文章編集
の処理量を軽減できる。

【００２４】図７は図１に示した処理ブロック構成例に
おいて、日本文原文章ファイル１０に含まれる動詞の同
音語を変換する処理の概略フローを示す図であり、概略
フローに従って、動作の説明を行う。

【００２５】ここで、ステップ２００、ステップ２１
０、ステップ２８０、ステップ２９０はそれぞれ、図４
のステップ１００、ステップ１１０、ステップ１８０、
ステップ１９０に等しい。

【００２６】同音語抽出処理部７０において、認定された単語列の中から動詞の同音語を示す情報フラグによって同音語を抽出し、同音語でない場合にはステップ２８０に分岐する（ステップ２２０）格要素意味属性抽出処理部８０において、抽出した同音語について同音語の前方の単語を探索して格要素単語を抽出し、格要素単語の意味属性を抽出する（ステップ２３０）同音語の単語見出しと抽出した格要素単語の意味属性で、変換単語辞書９０を検索する（ステップ２４０）変換単語辞書でマッチするパターンがあるかを判定する。マッチするパターンがない場合にはステップ２８０に分岐する（ステップ２５０）変換単語を抽出し原文章ファイルの文字列を置換する（ステップ２６０）編集済みの文章ファイル１１０に書き込む（ステップ２７０）図８は図７の同音語を変換する処理の概略フローの実施
例である。

【００２７】ここで、２２０は原文章文字列、２３０は
同音語（動詞）、２４０は格要素単語との格構造関係、
２５０は変換単語、２６０は変換後文字列である。抽出
した同音語「捕る」「採る」について、同音語の前方の
単語を探索して格要素単語を抽出し、格要素単語の意味
属性を抽出する。実施例では、「捕る」に対して『サケ
（生物）』、「採る」に対して『病原菌（生物）』と
『手段（制度）』がそれぞれ抽出される。次に、格要素
単語を有する同音語の単語見出しと抽出した格要素単語
の意味属性で、変換単語辞書９０を検索し、変換単語辞
書でマッチするパターンがあるかを判定する。マッチす
るパターンがあれば変換単語２５０を抽出し、原文章フ
ァイルの文字列と置換して変換後文字列２６０を作成す
る。実施例では、「捕る」に対して『サケ（生物）』が
格構造関係にあるので、「捕る」を「捕獲する」に変換
している。また、「採る」に対しては、格要素単語が
『病原菌（生物）』に対して「採る」を「採取する」に
変換し、格要素単語が『手段（制度）』に対しては「採
る」を「採用する」に変換している。

【００２８】このように、予め同音語見出しと格要素単
語の意味属性との組み合わせ毎に置換する変換単語を収
録した変換単語辞書を作成しておき、同音語が抽出され
た場合に、格要素単語を有する同音語の単語見出しと抽
出した格要素単語の意味属性で、該変換単語辞書を検索
して聞き取りやすい変換単語への変換を行う。

【００２９】すなわち、本発明の日本文読み上げ単語変
換編集処理方式では、読み上げ用の日本文文章ファイル
に含まれる同音語や多義語を聞き取りやすい単語に変換
し編集する処理において、既に記述した手段によって、
留意すべき同音語や多義語を抽出する処理や前方の格要
素単語の意味属性による聞き取りやすい変換単語への置
換処理を行うことが可能となる。

【００３０】

【発明の効果】以上説明したように、本発明によれば、
特に日本文文章を読み上げて電話などの音声データで速
報記事などを配信する際には、読み上げ内容の聞き誤り
や聞きにくさなどを排除して了解度の高い日本文文章を
作成するために、一般に日本文文章の編集作業を行うに
当って、編集者の文章編集の処理量を軽減できる。

【図面の簡単な説明】

【図１】本発明の処理ブロック構成例である。

【図２】日本語単語辞書の構成例である。

【図３】変換単語辞書の構成例である。

【図４】処理概略フローである。

【図５】単語変換編集処理の実施例を説明する図であ
る。

【図６】単語変換編集処理の実施例を説明する図であ
る。

【図７】処理概略フローである。

【図８】単語変換編集処理の実施例を説明する図であ
る。

【符号の説明】

１０日本文原文章ファイル２０日本語単語辞書３０文法辞書４０形態素解析処理部５０多義語抽出処理部６０多義語判定処理部７０同音語抽出処理部８０格要素意味属性抽出処理部９０変換単語辞書１００単語変換編集処理部１１０編集済みの文章ファイル１２０処理装置１３０格要素単語の意味属性１４０変換単語１５０文章分野属性１６０原文章文字列１７０多義語１８０文法的単語接続条件１９０分野依存度判定条件１９５認定品詞２００変換単語２１０変換後文字列２２０原文章文字列２３０同音語２４０格構造関係２５０変換単語２６０変換後文字列

Claims

【特許請求の範囲】

【請求項１】読み上げ用の日本文文章ファイルに含ま
れる同音語や多義語を聞き取りやすい単語に変換し編集
する処理において、読み上げ用の日本文原文章を日本語単語辞書と文法辞書
とを用いて形態素解析処理して単語の認定と単語の言語
情報とを取得する手段と、予め日本語単語辞書の単語情報に多義語を示す情報フラ
グを設定する手段と、該情報フラグによって多義語を抽出する手段と、多義語で文法的な接続条件を満たす単語候補が複数存在
する場合に、文章ファイルに付随する文章分野属性と多
義語の意味属性との共起性で多義を絞り込む手段と、予め多義語の各多義毎に多義語の単語見出しと品詞に対
して置換する変換単語とを収録した変換単語辞書と、該変換単語辞書を検索して多義語を変換編集する手段と
を備えることを特徴とする日本文読み上げ単語変換編集
処理方式。
【請求項２】予め日本語単語辞書の単語情報に動詞の
同音語を示す情報フラグを設定する手段と、該情報フラグによって同音語を抽出する手段と、同音語の前方に存在する格構造関係の名詞の意味属性を
抽出する手段と、予め同音語見出しと格構造関係の名詞の意味属性との組
み合わせ毎に置換する変換単語を収録した変換単語辞書
と、該変換単語辞書を検索して同音語を変換編集する手段と
を備えることを特徴とする請求項１記載の日本文読み上
げ単語変換編集処理方式。