JPH11242684A - 文書分割装置及び方法 - Google Patents
文書分割装置及び方法Info
- Publication number
- JPH11242684A JPH11242684A JP10044721A JP4472198A JPH11242684A JP H11242684 A JPH11242684 A JP H11242684A JP 10044721 A JP10044721 A JP 10044721A JP 4472198 A JP4472198 A JP 4472198A JP H11242684 A JPH11242684 A JP H11242684A
- Authority
- JP
- Japan
- Prior art keywords
- document
- relevance
- matrix
- language
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
広域的な関連も考慮に入れることで有用な文書分割を実
現する。 【解決手段】 文書分割装置に、電子化された文書から
言語要素を、段落、文、行で切り出す言語要素切り出し
手段と、任意の2つの言語要素同士の関連度を、例えば
共通の文字、単語等で評価する言語要素間関連度評価手
段と、前記言語要素間関連度評価手段を用い、全ての言
語要素同士の関連度を求める言語要素間関連度行列取得
手段と、前記言語要素間関連度行列取得手段により得ら
れた言語要素間関連度行列を関連度の高い部分行列の並
びに分割する行列分割手段とを備えることにより、文書
を前記部分行列による分割に応じて分割する。
Description
方法、並びに、分割された文書を利用する文書表示装
置、文書処理装置、文書抄録装置、文書管理装置及び文
書検索装置に関するものである。
いる文書に対して、キーワード抽出等を行うと、新聞記
事がいくつかの分野を含んでいると様々なキーワードが
混ざり合って抽出されてしまう。また、文書検索におい
て、指定された検索語を含む文書を検索しても、大きな
文書であると、検索語に関連の深い部分を探すことが必
要になるが、予め分割した単位を対象とすることができ
れば、直ちにその分割単位に辿り着くことができる。こ
のように、一つの文書を内容のまとまり毎に分割するこ
とができると、様々な文書処理が容易になる、即ち、文
書を内容のまとまり毎に分割することにより、有用な文
書処理を実現することができる。
り語数の増加率に着目して、増加率の極小値を切れ目と
して認識する方法[1]、異なり語数の増加率の代わり
に、意味レベルの単語の類似単語の結束度を文書上の位
置の一定の窓幅での総和を用いる方法[2]がある。ま
た、意味的に関連性のある語の連鎖(語彙的結束性)に
着目する方法[3]がある。これらの方法は、近傍の連
鎖に着目しており、隣接間の関連に着目したボトムアッ
プ的な視点での処理となっているが、文書分割のような
処理は、トップダウン的な広い視野の処理が必要であ
る。
関連だけでなく、広域的な関連も考慮に入れた文書分割
手法及びその手法を用いた装置を提供するものである。
化された文書から言語要素を切り出す言語要素切り出し
手段と、任意の2つの言語要素同士の関連度を評価する
言語要素間関連度評価手段と、前記言語要素間関連度評
価手段を用い、全ての言語要素同士の関連度を求める言
語要素間関連度行列取得手段と、前記言語要素間関連度
行列取得手段により得られた言語要素間関連度行列を関
連度の高い部分行列の並びに分割する行列分割手段とを
有し、前記行列分割手段による分割に応じて文書を分割
する文書分割装置である。
文書分割装置において、前記言語要素切り出し手段は、
段落、文、行のいずれかを言語要素として切り出す文書
分割装置である。
された文書分割装置において、前記言語要素間関連度評
価手段は、2つの言語要素内の共通の文字、単語、類義
単語のいずれか毎の総和の割合により、関連度を評価す
る文書分割装置である。
れかに記載された文書分割装置において、前記行列分割
手段により分割された部分行列に対して、再帰的に前記
行列分割手段を用いることにより、階層的な分割を行う
文書分割装置である。
れかに記載された文書分割装置において、前記行列分割
手段は、各部分行列の内の要素の関連度の密度と各部分
行列の外の要素の関連度の密度との比を評価値として、
該評価値を用いて最適な関連性の高い部分行列の並びに
分割する文書分割装置である。
文書分割装置において、前記行列分割手段の用いる評価
値の値に応じて、内容分割の程度を区別する文書分割装
置である。
れかに記載された文書分割装置において分割された文書
を識別して表示する、文書表示手段を有する文書表示装
置である。
れかに記載された文書分割装置において分割された部分
文書ごとに文書を処理する、文書処理手段を有する文書
処理装置である。
された文書分割装置において分割された文書についてキ
ーセンテンス抽出処理をして、抄録表示を行う文書抄録
手段を有する文書抄録装置である。
ずれかに記載された文書分割装置において分割された部
分文書ごとに文書を管理する、文書管理手段を有する文
書管理装置である。
ずれかに記載された文書分割装置において分割された単
位で、文書を検索対象として管理する文書検索手段を有
する文書検索装置である。
ら言語要素を切り出し、任意の2つの言語要素同士の関
連度を評価し、該関連度に基づいて全ての言語要素同士
の関連度を求めて言語要素間関連度行列を作成し、該言
語要素間関連度行列を関連度の高い部分行列の並びに分
割し、前記言語要素間関連度の行列分割に応じて文書を
分割する文書分割方法である。
ら言語要素を切り出し、任意の2つの言語要素同士の関
連度を評価し、該関連度に基づいて全ての言語要素同士
の関連度を求めて言語要素間関連度行列を作成し、該言
語要素間関連度行列を関連度の高い部分行列の並びに分
割し、前記言語要素間関連度の行列分割に応じて文書を
分割する文書分割プログラムを記録したコンピュータ読
取り可能な記録媒体である。
概略的に示したブロック図であって、図中、Dは本発明
の文書分割装置による分割の対象となる電子化文書、1
は言語要素切出し手段であって電子化文書から言語要素
群LEを切り出す。切り出された言語要素群LEは、後
述のように言語要素間関連度評価手段2によって相互の
関連度が評価され、言語要素間関連度行列取得手段3は
前記言語要素間関連度評価手段2の評価結果に基づいて
言語要素間関連度行列3aを作成する。行列分割手段4
は前記言語要素間関連度行列3aから関連度に応じて文
書を分割する。
説明する。まず、電子化された文書は、言語要素切り出
し手段により、言語要素群に切り出される。この際の言
語要素とは、文書における行であったり、文であった
り、段落などであり、特に、いずれかを特定するもので
はない。これらの言語要素を単位とする切り出しは、一
定文字数によったり、句点や改行で容易に切り出すこと
ができる。
行先頭から40文字目で強制的に切り出せば、表2のよ
うになる([ ]内は、切り出し番号である)。
ば、表3のような文の切り出しを得る。
うになる。
言語要素間関連度評価手段について説明する。切り出さ
れた言語要素群から、言語要素間関連度行列取得手段に
より、全ての言語要素間の関連度から成る言語要素間関
連度行列が得られる。この際、2つの言語要素間の関連
度は、言語要素間関連度評価手段により求められる。言
語要素間の関連度の評価法は、例えば、最も簡単には、
一方の言語要素内の文字の総数のうち、もう一方の言語
要素内の文字と共通の文字数の割合をみればよい。ある
いは、日本語の場合であれば、文字のうち文字自体に意
味を持たない「かな文字」を除いた文字とするのもよ
い。また、文を文形態素(単語)に分割する形態素解析
系を用いて共通単語の割合を用いてもよい。さらに、シ
ソーラス辞書等を用いて異なる単語でも語彙的な関連を
考慮して関連度を求めてもよい。例えば、表3の第2文
と第4文
第4文は41文字であり、共通文字は、「輸」、
「出」、「規」、「制」、「が」、「始」、の6文字で
あり、第2文と第4文の関連度は、第2文から見た場合
は、6/7=0.857、第4文から見た場合は、6/
41=0.146となる。この場合は、2つの関連度が
得られるが、両文を全体から見た場合は6×2/(7+
41)=12/48=0.25を一つの関連度として用
いてもよい。また、文字から平仮名と句読点を除くと、
第2文は6文字、第4文は26文字、共通文字は5文字
であるから、5/6=0.833と5/26=0.19
2、あるいは5×2/(6+26)=0.3125が得
られる。
一般名詞やサ変動詞を切り出すと、 2:輸出、規制、始動 4:通常、兵器、部品、加工、機械、転用、工業、製
品、輸出、規制、日本となり、第2文が3単語、第4文
が11単語、共通単語が「輸出」と「規制」の2単語な
ので、2/3=0.667と2/11=0.182、ある
いは2×2/(3+11)=4/12=0.29が得ら
れる。さらに異なる単語であっても、2単語間の意味的
な関連度がシソーラス辞書等を用いて得ることができれ
ば、その関連度を共通単語数に加えて計算することがで
きる。このようにして、全ての言語要素間の関連度を計
算することによって、言語要素間関連度行列を得ること
ができる。例えば、言語要素を文として、関連度を共通
単語の割合によるとすれば、表6のような文間関連度マ
トリックスを得ることができる。
して四捨五入により、1桁の整数で表示してある。ま
た、自分自身との関連度に当たる要素は‘*’で示して
いる。
上で得られた言語要素間関連度行列を行列分割手段が関
連度の高い部分行列に分割する。表7は段落間関連度行
列から関連度の高い部分行列の並びを抽出・分割したイ
メージを示したものである。表中、‘H’は高い関連
度、‘L’は低い関連度を示す。
は、分割された部分行列の範囲に応じて部分文書が対応
する。この行列の分割の指標としては、(a)部分行列
の内の関連度の平均値(Hの平均値)に対する、(b)
部分行列外の関連度の平均値(Lの平均値)あるいは
(c)行列全体の関連度の平均値の比、等を用いてその
値が最小になるような分割を計算する。この計算はよく
知られた動的計画法等を用いれば効率的に行うことがで
きる。部分行列の内外の比を用いるとすると、表7で
は、 (Lの総和/Lの要素数)/( Hの総和/Hの要素
数)が評価指標となる。
段落間関連度行列である(要素#は、10の意味であ
る)。表9の関連度行列に対して、前記の指標に基づ
き、最適な分割を計算すると、次のような部分行列が抽
出・分割される。 第 1段落〜第 6段落 第 7段落〜第13段落 第14段落〜第17段落 第18段落〜第27段落 第28段落〜第段33落 第34段落〜第36段落 第37段落〜第38段落 第39段落〜第55段落 ここで、Lの総和/Lの要素数=165.37/248
6=0.067 Hの総和/Hの要素数=1345.62/539=2.4
97 から、評価値は、0.0266である。
すとさらに内部の分割を得ることができる。例えば、第
18段落から第27段落の部分行列に対しては、評価値
は0.237であって、第18段落〜第21段落及び第
22段落〜第27段落の分割が得られる(表10)。
しては、評価値は0.681で第39段落〜第40段
落、第41段落、第42段落、第43段落〜第48段
落、第49段落、第50段落〜第52段落、及び第53
段落から第55段落、の分割が得られる(表11)。
々0.0262,0.237,0.681と大きくなるに
つれて、内容の分割の程度が緩くなっていることが分か
るように、分割の指標として用いることができる。即
ち、この指標が小さい程、内容のまとまりが強く、大き
い程まとまりは弱いことを示唆している。
された文書は、その分割に応じて文書を識別して表示す
る文書表示手段、前記分割された部分文書ごとに文書を
処理する文書処理手段、文書からのキーセンテンス抽出
処理を用いて抄録表示を行う文書抄録手段、前記分割さ
れた部分文書ごとに文書を管理する文書管理手段、及
び、文書を分割された単位で検索対象として管理する文
書検索手段において利用される。
的な関連をも考慮にいれた文書分割手法であるため、従
来の隣接間の関連による手法に比して、より適切な文書
分割を行うことができる。 請求項2に対応する効果:目的に応じて文書を自由に切
り出すことができる。 請求項3に対応する効果:簡単かつ容易に文書の関連度
を評価することができる。 請求項4に対応する効果:再帰的に分割を行い階層的な
分割が可能であるからより精度の高い文書の内部構造分
析が可能である。
ける文書の内容のまとまりの強弱を容易に把握すること
ができる。 請求項7に対応する効果:分割された文書を容易に識別
することができる。 請求項8に対応する効果:分割された文書を文書毎に処
理することができるので、文書の処理が容易である。 請求項9に対応する効果:文書抄録手段を有するので文
書の検索、内容理解等を効率的に行うことができる。 請求項10に対応する効果:部分文書毎に文書管理がで
きるので、文書管理が容易である。
書単位で管理するため、検索が容易である。 請求項12に対応する効果:文書間の広域的な関連をも
考慮にいれて文書を分割するため、従来の隣接間の関連
による手法に比して、より適切な分割を行うことができ
る。 請求項13に対応する効果:文書分割のためのプログラ
ムを任意のコンピュータにより容易に実施することがで
きる。
ブロック図である。
段、3…言語要素間関連度行列取得手段、3a…言語要
素間関連度行列、4…行列分割手段、D…電子化文書、
DD…分割文書、LE…言語要素群。
Claims (13)
- 【請求項1】 電子化された文書から言語要素を切り出
す言語要素切り出し手段と、任意の2つの言語要素同士
の関連度を評価する言語要素間関連度評価手段と、前記
言語要素間関連度評価手段を用い、全ての言語要素同士
の関連度を求める言語要素間関連度行列取得手段と、前
記言語要素間関連度行列取得手段により得られた言語要
素間関連度行列を関連度の高い部分行列の並びに分割す
る行列分割手段とを有し、前記行列分割手段による分割
に応じて文書を分割することを特徴とする文書分割装
置。 - 【請求項2】 請求項1に記載された文書分割装置にお
いて、前記言語要素切り出し手段は、段落、文、行のい
ずれかを言語要素として切り出すことを特徴とする文書
分割装置。 - 【請求項3】 請求項1又は2に記載された文書分割装
置において、前記言語要素間関連度評価手段は、2つの
言語要素内の共通の文字、単語、類義単語のいずれか毎
の総和の割合により、関連度を評価することを特徴とす
る文書分割装置。 - 【請求項4】 請求項1乃至3のいずれかに記載された
文書分割装置において、前記行列分割手段により分割さ
れた部分行列に対して、再帰的に前記行列分割手段を用
いることにより、階層的な分割を行うことを特徴とする
文書分割装置。 - 【請求項5】 請求項1乃至3のいずれかに記載された
文書分割装置において、前記行列分割手段は、各部分行
列の内の要素の関連度の密度と各部分行列の外の要素の
関連度の密度との比を評価値として、該評価値を用いて
最適な関連性の高い部分行列の並びに分割することを特
徴とする文書分割装置。 - 【請求項6】 請求項5に記載された文書分割装置にお
いて、前記行列分割手段の用いる評価値の値に応じて、
内容分割の程度を区別することを特徴とする文書分割装
置。 - 【請求項7】 請求項1乃至6のいずれかに記載された
文書分割装置において分割された文書を識別して表示す
る、文書表示手段を有することを特徴とする文書表示装
置。 - 【請求項8】 請求項1乃至6のいずれかに記載された
文書分割装置において分割された部分文書ごとに文書を
処理する、文書処理手段を有することを特徴とする文書
処理装置。 - 【請求項9】 請求項1乃至6に記載された文書分割装
置において分割された文書についてキーセンテンス抽出
処理をして、抄録表示を行う文書抄録手段を有すること
を特徴とする文書抄録装置。 - 【請求項10】 請求項1乃至6のいずれかに記載され
た文書分割装置において分割された部分文書ごとに文書
を管理する、文書管理手段を有することを特徴とする文
書管理装置。 - 【請求項11】 請求項1乃至6のいずれかに記載され
た文書分割装置において分割された単位で、文書を検索
対象として管理する文書検索手段を有することを特徴と
する文書検索装置。 - 【請求項12】 電子化された文書から言語要素を切り
出し、任意の2つの言語要素同士の関連度を評価し、該
関連度に基づいて全ての言語要素同士の関連度を求めて
言語要素間関連度行列を作成し、該言語要素間関連度行
列を関連度の高い部分行列の並びに分割し、前記言語要
素間関連度の行列分割に応じて文書を分割することを特
徴とする文書分割方法。 - 【請求項13】 電子化された文書から言語要素を切り
出し、任意の2つの言語要素同士の関連度を評価し、該
関連度に基づいて全ての言語要素同士の関連度を求めて
言語要素間関連度行列を作成し、該言語要素間関連度行
列を関連度の高い部分行列の並びに分割し、前記言語要
素間関連度の行列分割に応じて文書を分割することを特
徴とする文書分割プログラムを記録したコンピュータ読
取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP04472198A JP3578618B2 (ja) | 1998-02-26 | 1998-02-26 | 文書分割装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP04472198A JP3578618B2 (ja) | 1998-02-26 | 1998-02-26 | 文書分割装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11242684A true JPH11242684A (ja) | 1999-09-07 |
| JP3578618B2 JP3578618B2 (ja) | 2004-10-20 |
Family
ID=12699304
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP04472198A Expired - Fee Related JP3578618B2 (ja) | 1998-02-26 | 1998-02-26 | 文書分割装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3578618B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7113897B2 (en) | 2000-10-02 | 2006-09-26 | Hewlett-Packard Company | Apparatus and method for text segmentation based on coherent units |
| CN113673255A (zh) * | 2021-08-25 | 2021-11-19 | 北京市律典通科技有限公司 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5862260B2 (ja) | 2011-12-09 | 2016-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
1998
- 1998-02-26 JP JP04472198A patent/JP3578618B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7113897B2 (en) | 2000-10-02 | 2006-09-26 | Hewlett-Packard Company | Apparatus and method for text segmentation based on coherent units |
| CN113673255A (zh) * | 2021-08-25 | 2021-11-19 | 北京市律典通科技有限公司 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
| CN113673255B (zh) * | 2021-08-25 | 2023-06-30 | 北京市律典通科技有限公司 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3578618B2 (ja) | 2004-10-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Baroni et al. | Introducing the La Repubblica Corpus: A Large, Annotated, TEI (XML)-compliant Corpus of Newspaper Italian. | |
| Cucerzan | Large-scale named entity disambiguation based on Wikipedia data | |
| EP0530993B1 (en) | An iterative technique for phrase query formation and an information retrieval system employing same | |
| Patil et al. | A novel approach for feature selection method TF-IDF in document clustering | |
| CN103136352A (zh) | 基于双层语义分析的全文检索系统 | |
| Attardi et al. | Categorisation by Context. | |
| CN102214189A (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
| CN113806491B (zh) | 一种信息处理的方法、装置、设备和介质 | |
| JP3594701B2 (ja) | キーセンテンス抽出装置 | |
| US6973423B1 (en) | Article and method of automatically determining text genre using surface features of untagged texts | |
| Gey et al. | Cross-language retrieval for the CLEF collections—comparing multiple methods of retrieval | |
| CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
| Abdullah et al. | Feature-based POS tagging and sentence relevance for news multi-document summarization in Bahasa Indonesia | |
| Ferilli et al. | Automatic stopwords identification from very small corpora | |
| JPH11242684A (ja) | 文書分割装置及び方法 | |
| JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
| Hernandez et al. | What is this Text about? | |
| Reinberger et al. | Is shallow parsing useful for unsupervised learning of semantic clusters? | |
| Besançon et al. | Concept-based searching and merging for multilingual information retrieval: First experiments at clef 2003 | |
| JP2003085181A (ja) | 事典システム | |
| Patil et al. | A Semantic approach for effective document clustering using WordNet | |
| Ma et al. | Enhancing text classification using synopses extraction | |
| Manne et al. | A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging | |
| Haroon et al. | An Efficient Text Summarization Using Term and Inverse Frequency With Key Phrase Identification in Malayalam Language | |
| JP2004280316A (ja) | 分野判定装置及び言語処理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040608 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040713 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040713 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070723 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080723 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090723 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090723 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100723 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110723 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120723 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120723 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |