JPH11242684A

JPH11242684A - 文書分割装置及び方法

Info

Publication number: JPH11242684A
Application number: JP10044721A
Authority: JP
Inventors: Masayuki Kameda; 雅之亀田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-02-26
Filing date: 1998-02-26
Publication date: 1999-09-07
Anticipated expiration: 2018-02-26
Also published as: JP3578618B2

Abstract

(57)【要約】【課題】文書について隣接文書間の関連だけでなく、
広域的な関連も考慮に入れることで有用な文書分割を実
現する。【解決手段】文書分割装置に、電子化された文書から
言語要素を、段落、文、行で切り出す言語要素切り出し
手段と、任意の２つの言語要素同士の関連度を、例えば
共通の文字、単語等で評価する言語要素間関連度評価手
段と、前記言語要素間関連度評価手段を用い、全ての言
語要素同士の関連度を求める言語要素間関連度行列取得
手段と、前記言語要素間関連度行列取得手段により得ら
れた言語要素間関連度行列を関連度の高い部分行列の並
びに分割する行列分割手段とを備えることにより、文書
を前記部分行列による分割に応じて分割する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書分割装置及び
方法、並びに、分割された文書を利用する文書表示装
置、文書処理装置、文書抄録装置、文書管理装置及び文
書検索装置に関するものである。

【０００２】

【従来の技術】例えば、複数の新聞記事が一緒になって
いる文書に対して、キーワード抽出等を行うと、新聞記
事がいくつかの分野を含んでいると様々なキーワードが
混ざり合って抽出されてしまう。また、文書検索におい
て、指定された検索語を含む文書を検索しても、大きな
文書であると、検索語に関連の深い部分を探すことが必
要になるが、予め分割した単位を対象とすることができ
れば、直ちにその分割単位に辿り着くことができる。こ
のように、一つの文書を内容のまとまり毎に分割するこ
とができると、様々な文書処理が容易になる、即ち、文
書を内容のまとまり毎に分割することにより、有用な文
書処理を実現することができる。

【０００３】文書分割の最も単純な方法としては、異な
り語数の増加率に着目して、増加率の極小値を切れ目と
して認識する方法［１］、異なり語数の増加率の代わり
に、意味レベルの単語の類似単語の結束度を文書上の位
置の一定の窓幅での総和を用いる方法［２］がある。ま
た、意味的に関連性のある語の連鎖（語彙的結束性）に
着目する方法［３］がある。これらの方法は、近傍の連
鎖に着目しており、隣接間の関連に着目したボトムアッ
プ的な視点での処理となっているが、文書分割のような
処理は、トップダウン的な広い視野の処理が必要であ
る。

【０００４】

【発明が解決しようとする課題】本発明では、隣接間の
関連だけでなく、広域的な関連も考慮に入れた文書分割
手法及びその手法を用いた装置を提供するものである。

【０００５】

【課題を解決するための手段】請求項１の発明は、電子
化された文書から言語要素を切り出す言語要素切り出し
手段と、任意の２つの言語要素同士の関連度を評価する
言語要素間関連度評価手段と、前記言語要素間関連度評
価手段を用い、全ての言語要素同士の関連度を求める言
語要素間関連度行列取得手段と、前記言語要素間関連度
行列取得手段により得られた言語要素間関連度行列を関
連度の高い部分行列の並びに分割する行列分割手段とを
有し、前記行列分割手段による分割に応じて文書を分割
する文書分割装置である。

【０００６】請求項２の発明は、請求項１に記載された
文書分割装置において、前記言語要素切り出し手段は、
段落、文、行のいずれかを言語要素として切り出す文書
分割装置である。

【０００７】請求項３の発明は、請求項１又は２に記載
された文書分割装置において、前記言語要素間関連度評
価手段は、２つの言語要素内の共通の文字、単語、類義
単語のいずれか毎の総和の割合により、関連度を評価す
る文書分割装置である。

【０００８】請求項４の発明は、請求項１乃至３のいず
れかに記載された文書分割装置において、前記行列分割
手段により分割された部分行列に対して、再帰的に前記
行列分割手段を用いることにより、階層的な分割を行う
文書分割装置である。

【０００９】請求項５の発明は、請求項１乃至３のいず
れかに記載された文書分割装置において、前記行列分割
手段は、各部分行列の内の要素の関連度の密度と各部分
行列の外の要素の関連度の密度との比を評価値として、
該評価値を用いて最適な関連性の高い部分行列の並びに
分割する文書分割装置である。

【００１０】請求項６の発明は、請求項５に記載された
文書分割装置において、前記行列分割手段の用いる評価
値の値に応じて、内容分割の程度を区別する文書分割装
置である。

【００１１】請求項７の発明は、請求項１乃至６のいず
れかに記載された文書分割装置において分割された文書
を識別して表示する、文書表示手段を有する文書表示装
置である。

【００１２】請求項８の発明は、請求項１乃至６のいず
れかに記載された文書分割装置において分割された部分
文書ごとに文書を処理する、文書処理手段を有する文書
処理装置である。

【００１３】請求項９の発明は、請求項１乃至６に記載
された文書分割装置において分割された文書についてキ
ーセンテンス抽出処理をして、抄録表示を行う文書抄録
手段を有する文書抄録装置である。

【００１４】請求項１０の発明は、請求項１乃至６のい
ずれかに記載された文書分割装置において分割された部
分文書ごとに文書を管理する、文書管理手段を有する文
書管理装置である。

【００１５】請求項１１の発明は、請求項１乃至６のい
ずれかに記載された文書分割装置において分割された単
位で、文書を検索対象として管理する文書検索手段を有
する文書検索装置である。

【００１６】請求項１２の発明は、電子化された文書か
ら言語要素を切り出し、任意の２つの言語要素同士の関
連度を評価し、該関連度に基づいて全ての言語要素同士
の関連度を求めて言語要素間関連度行列を作成し、該言
語要素間関連度行列を関連度の高い部分行列の並びに分
割し、前記言語要素間関連度の行列分割に応じて文書を
分割する文書分割方法である。

【００１７】請求項１３の発明は、電子化された文書か
ら言語要素を切り出し、任意の２つの言語要素同士の関
連度を評価し、該関連度に基づいて全ての言語要素同士
の関連度を求めて言語要素間関連度行列を作成し、該言
語要素間関連度行列を関連度の高い部分行列の並びに分
割し、前記言語要素間関連度の行列分割に応じて文書を
分割する文書分割プログラムを記録したコンピュータ読
取り可能な記録媒体である。

【００１８】

【発明の実施の形態】図１は、本発明の文書分割装置を
概略的に示したブロック図であって、図中、Ｄは本発明
の文書分割装置による分割の対象となる電子化文書、１
は言語要素切出し手段であって電子化文書から言語要素
群ＬＥを切り出す。切り出された言語要素群ＬＥは、後
述のように言語要素間関連度評価手段２によって相互の
関連度が評価され、言語要素間関連度行列取得手段３は
前記言語要素間関連度評価手段２の評価結果に基づいて
言語要素間関連度行列３ａを作成する。行列分割手段４
は前記言語要素間関連度行列３ａから関連度に応じて文
書を分割する。

【００１９】以下、本発明をその実施例について詳しく
説明する。まず、電子化された文書は、言語要素切り出
し手段により、言語要素群に切り出される。この際の言
語要素とは、文書における行であったり、文であった
り、段落などであり、特に、いずれかを特定するもので
はない。これらの言語要素を単位とする切り出しは、一
定文字数によったり、句点や改行で容易に切り出すこと
ができる。

【００２０】

【表１】

【００２１】例えば、表１の文書を改行コードあるいは
行先頭から４０文字目で強制的に切り出せば、表２のよ
うになる（［］内は、切り出し番号である）。

【００２２】

【表２】

【００２３】また、改行コードあるいは句点で切り出せ
ば、表３のような文の切り出しを得る。

【００２４】

【表３】

【００２５】さらに、改行だけで切り出せば、表４のよ
うになる。

【表４】

【００２６】次に、言語要素間関連度行列取得手段及び
言語要素間関連度評価手段について説明する。切り出さ
れた言語要素群から、言語要素間関連度行列取得手段に
より、全ての言語要素間の関連度から成る言語要素間関
連度行列が得られる。この際、２つの言語要素間の関連
度は、言語要素間関連度評価手段により求められる。言
語要素間の関連度の評価法は、例えば、最も簡単には、
一方の言語要素内の文字の総数のうち、もう一方の言語
要素内の文字と共通の文字数の割合をみればよい。ある
いは、日本語の場合であれば、文字のうち文字自体に意
味を持たない「かな文字」を除いた文字とするのもよ
い。また、文を文形態素（単語）に分割する形態素解析
系を用いて共通単語の割合を用いてもよい。さらに、シ
ソーラス辞書等を用いて異なる単語でも語彙的な関連を
考慮して関連度を求めてもよい。例えば、表３の第２文
と第４文

【００２７】

【表５】

【００２８】この２文の文字総数は、第２文は７文字、
第４文は４１文字であり、共通文字は、「輸」、
「出」、「規」、「制」、「が」、「始」、の６文字で
あり、第２文と第４文の関連度は、第２文から見た場合
は、６／７＝０.８５７、第４文から見た場合は、６／
４１＝０.１４６となる。この場合は、２つの関連度が
得られるが、両文を全体から見た場合は６×２／（７＋
４１）＝１２／４８＝０.２５を一つの関連度として用
いてもよい。また、文字から平仮名と句読点を除くと、
第２文は６文字、第４文は２６文字、共通文字は５文字
であるから、５／６＝０.８３３と５／２６＝０.１９
２、あるいは５×２／（６＋２６）＝０.３１２５が得
られる。

【００２９】また、形態素解析系を用いて単語分割し、
一般名詞やサ変動詞を切り出すと、２：輸出、規制、始動４：通常、兵器、部品、加工、機械、転用、工業、製
品、輸出、規制、日本となり、第２文が３単語、第４文
が１１単語、共通単語が「輸出」と「規制」の２単語な
ので、２／３＝０.６６７と２／１１＝０.１８２、ある
いは２×２／（３＋１１）＝４／１２＝０.２９が得ら
れる。さらに異なる単語であっても、２単語間の意味的
な関連度がシソーラス辞書等を用いて得ることができれ
ば、その関連度を共通単語数に加えて計算することがで
きる。このようにして、全ての言語要素間の関連度を計
算することによって、言語要素間関連度行列を得ること
ができる。例えば、言語要素を文として、関連度を共通
単語の割合によるとすれば、表６のような文間関連度マ
トリックスを得ることができる。

【００３０】

【表６】

【００３１】なお、表６の行列要素は、関連度を１０倍
して四捨五入により、１桁の整数で表示してある。ま
た、自分自身との関連度に当たる要素は‘＊’で示して
いる。

【００３２】次に、行列分割手段について説明する。以
上で得られた言語要素間関連度行列を行列分割手段が関
連度の高い部分行列に分割する。表７は段落間関連度行
列から関連度の高い部分行列の並びを抽出・分割したイ
メージを示したものである。表中、‘Ｈ’は高い関連
度、‘Ｌ’は低い関連度を示す。

【００３３】

【表７】

【００３４】上記のような部分行列に分割された場合
は、分割された部分行列の範囲に応じて部分文書が対応
する。この行列の分割の指標としては、（ａ）部分行列
の内の関連度の平均値（Ｈの平均値）に対する、（ｂ）
部分行列外の関連度の平均値（Ｌの平均値）あるいは
（ｃ）行列全体の関連度の平均値の比、等を用いてその
値が最小になるような分割を計算する。この計算はよく
知られた動的計画法等を用いれば効率的に行うことがで
きる。部分行列の内外の比を用いるとすると、表７で
は、（Ｌの総和／Ｌの要素数）／（Ｈの総和／Ｈの要素
数）が評価指標となる。

【００３５】表８は、１０の新聞記事を連結した文書の
段落間関連度行列である（要素＃は、１０の意味であ
る）。表９の関連度行列に対して、前記の指標に基づ
き、最適な分割を計算すると、次のような部分行列が抽
出・分割される。第１段落〜第６段落第７段落〜第１３段落第１４段落〜第１７段落第１８段落〜第２７段落第２８段落〜第段３３落第３４段落〜第３６段落第３７段落〜第３８段落第３９段落〜第５５段落ここで、Ｌの総和／Ｌの要素数＝１６５.３７／２４８
６＝０.０６７Ｈの総和／Ｈの要素数＝１３４５.６２／５３９＝２.４
９７から、評価値は、０.０２６６である。

【００３６】

【表８】

【００３７】

【表９】

【００３８】また、部分行列に対し、再帰的に分割を施
すとさらに内部の分割を得ることができる。例えば、第
１８段落から第２７段落の部分行列に対しては、評価値
は０.２３７であって、第１８段落〜第２１段落及び第
２２段落〜第２７段落の分割が得られる（表１０）。

【００３９】

【表１０】

【００４０】第３９段落から第５５段落の部分行列に対
しては、評価値は０.６８１で第３９段落〜第４０段
落、第４１段落、第４２段落、第４３段落〜第４８段
落、第４９段落、第５０段落〜第５２段落、及び第５３
段落から第５５段落、の分割が得られる（表１１）。

【００４１】

【表１１】

【００４２】表９，表１０，表１１の分割の評価値が各
々０.０２６２，０.２３７，０.６８１と大きくなるに
つれて、内容の分割の程度が緩くなっていることが分か
るように、分割の指標として用いることができる。即
ち、この指標が小さい程、内容のまとまりが強く、大き
い程まとまりは弱いことを示唆している。

【００４３】また、本発明の文書分割装置によって分割
された文書は、その分割に応じて文書を識別して表示す
る文書表示手段、前記分割された部分文書ごとに文書を
処理する文書処理手段、文書からのキーセンテンス抽出
処理を用いて抄録表示を行う文書抄録手段、前記分割さ
れた部分文書ごとに文書を管理する文書管理手段、及
び、文書を分割された単位で検索対象として管理する文
書検索手段において利用される。

【００４４】

【発明の効果】請求項１に対応する効果：文書間の広域
的な関連をも考慮にいれた文書分割手法であるため、従
来の隣接間の関連による手法に比して、より適切な文書
分割を行うことができる。請求項２に対応する効果：目的に応じて文書を自由に切
り出すことができる。請求項３に対応する効果：簡単かつ容易に文書の関連度
を評価することができる。請求項４に対応する効果：再帰的に分割を行い階層的な
分割が可能であるからより精度の高い文書の内部構造分
析が可能である。

【００４５】請求項５，６に対応する効果：文書間にお
ける文書の内容のまとまりの強弱を容易に把握すること
ができる。請求項７に対応する効果：分割された文書を容易に識別
することができる。請求項８に対応する効果：分割された文書を文書毎に処
理することができるので、文書の処理が容易である。請求項９に対応する効果：文書抄録手段を有するので文
書の検索、内容理解等を効率的に行うことができる。請求項１０に対応する効果：部分文書毎に文書管理がで
きるので、文書管理が容易である。

【００４６】請求項１１に対応する効果：分割された文
書単位で管理するため、検索が容易である。請求項１２に対応する効果：文書間の広域的な関連をも
考慮にいれて文書を分割するため、従来の隣接間の関連
による手法に比して、より適切な分割を行うことができ
る。請求項１３に対応する効果：文書分割のためのプログラ
ムを任意のコンピュータにより容易に実施することがで
きる。

【図面の簡単な説明】

【図１】本発明を実施するための装置を概略的に示す
ブロック図である。

【符号の説明】

１…言語要素切出し手段、２…言語要素間関連度評価手
段、３…言語要素間関連度行列取得手段、３ａ…言語要
素間関連度行列、４…行列分割手段、Ｄ…電子化文書、
ＤＤ…分割文書、ＬＥ…言語要素群。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/401 ３２０Ａ

Claims

【特許請求の範囲】

【請求項１】電子化された文書から言語要素を切り出
す言語要素切り出し手段と、任意の２つの言語要素同士
の関連度を評価する言語要素間関連度評価手段と、前記
言語要素間関連度評価手段を用い、全ての言語要素同士
の関連度を求める言語要素間関連度行列取得手段と、前
記言語要素間関連度行列取得手段により得られた言語要
素間関連度行列を関連度の高い部分行列の並びに分割す
る行列分割手段とを有し、前記行列分割手段による分割
に応じて文書を分割することを特徴とする文書分割装
置。
【請求項２】請求項１に記載された文書分割装置にお
いて、前記言語要素切り出し手段は、段落、文、行のい
ずれかを言語要素として切り出すことを特徴とする文書
分割装置。
【請求項３】請求項１又は２に記載された文書分割装
置において、前記言語要素間関連度評価手段は、２つの
言語要素内の共通の文字、単語、類義単語のいずれか毎
の総和の割合により、関連度を評価することを特徴とす
る文書分割装置。
【請求項４】請求項１乃至３のいずれかに記載された
文書分割装置において、前記行列分割手段により分割さ
れた部分行列に対して、再帰的に前記行列分割手段を用
いることにより、階層的な分割を行うことを特徴とする
文書分割装置。
【請求項５】請求項１乃至３のいずれかに記載された
文書分割装置において、前記行列分割手段は、各部分行
列の内の要素の関連度の密度と各部分行列の外の要素の
関連度の密度との比を評価値として、該評価値を用いて
最適な関連性の高い部分行列の並びに分割することを特
徴とする文書分割装置。
【請求項６】請求項５に記載された文書分割装置にお
いて、前記行列分割手段の用いる評価値の値に応じて、
内容分割の程度を区別することを特徴とする文書分割装
置。
【請求項７】請求項１乃至６のいずれかに記載された
文書分割装置において分割された文書を識別して表示す
る、文書表示手段を有することを特徴とする文書表示装
置。
【請求項８】請求項１乃至６のいずれかに記載された
文書分割装置において分割された部分文書ごとに文書を
処理する、文書処理手段を有することを特徴とする文書
処理装置。
【請求項９】請求項１乃至６に記載された文書分割装
置において分割された文書についてキーセンテンス抽出
処理をして、抄録表示を行う文書抄録手段を有すること
を特徴とする文書抄録装置。
【請求項１０】請求項１乃至６のいずれかに記載され
た文書分割装置において分割された部分文書ごとに文書
を管理する、文書管理手段を有することを特徴とする文
書管理装置。
【請求項１１】請求項１乃至６のいずれかに記載され
た文書分割装置において分割された単位で、文書を検索
対象として管理する文書検索手段を有することを特徴と
する文書検索装置。
【請求項１２】電子化された文書から言語要素を切り
出し、任意の２つの言語要素同士の関連度を評価し、該
関連度に基づいて全ての言語要素同士の関連度を求めて
言語要素間関連度行列を作成し、該言語要素間関連度行
列を関連度の高い部分行列の並びに分割し、前記言語要
素間関連度の行列分割に応じて文書を分割することを特
徴とする文書分割方法。
【請求項１３】電子化された文書から言語要素を切り
出し、任意の２つの言語要素同士の関連度を評価し、該
関連度に基づいて全ての言語要素同士の関連度を求めて
言語要素間関連度行列を作成し、該言語要素間関連度行
列を関連度の高い部分行列の並びに分割し、前記言語要
素間関連度の行列分割に応じて文書を分割することを特
徴とする文書分割プログラムを記録したコンピュータ読
取り可能な記録媒体。