JPH0877196A - 文書情報抽出装置 - Google Patents
文書情報抽出装置Info
- Publication number
- JPH0877196A JPH0877196A JP6215070A JP21507094A JPH0877196A JP H0877196 A JPH0877196 A JP H0877196A JP 6215070 A JP6215070 A JP 6215070A JP 21507094 A JP21507094 A JP 21507094A JP H0877196 A JPH0877196 A JP H0877196A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- information
- expression pattern
- notation
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 本発明は、文書情報抽出装置に関し、重要な
情報の含まれる文の特徴のある形態素の表記に対応づけ
て品詞情報や意味情報を記述した文表現パターンを用意
し、入力された文書を形態素解析した結果と文表現パタ
ーンとを照合し一致したときに抽出し、重要な情報が含
まれる所望の文を精度高く抽出することを目的とする。 【構成】 抽出しようとする文の形態素の表記に対応づ
けて必要に応じて品詞情報や意味情報を登録する文表現
パターン5と、入力された文書を形態素解析する形態素
解析部3と、形態素解析した文毎の形態素の表記や品詞
情報や意味情報をもとに文表現パターン5と照合を行い
一致する文を抽出する文パターン照合部4とを備え、文
書中から所望の文を抽出するように構成する。
情報の含まれる文の特徴のある形態素の表記に対応づけ
て品詞情報や意味情報を記述した文表現パターンを用意
し、入力された文書を形態素解析した結果と文表現パタ
ーンとを照合し一致したときに抽出し、重要な情報が含
まれる所望の文を精度高く抽出することを目的とする。 【構成】 抽出しようとする文の形態素の表記に対応づ
けて必要に応じて品詞情報や意味情報を登録する文表現
パターン5と、入力された文書を形態素解析する形態素
解析部3と、形態素解析した文毎の形態素の表記や品詞
情報や意味情報をもとに文表現パターン5と照合を行い
一致する文を抽出する文パターン照合部4とを備え、文
書中から所望の文を抽出するように構成する。
Description
【0001】
【産業上の利用分野】本発明は、文書を形態素解析し形
態素の表記や品詞情報や意味情報をもとに文表現パター
ンと照合して所望の文を抽出する文書情報抽出装置に関
するものである。
態素の表記や品詞情報や意味情報をもとに文表現パター
ンと照合して所望の文を抽出する文書情報抽出装置に関
するものである。
【0002】
【従来の技術】従来の文書抽出装置は、ある表現を含む
文を抽出する際に文字列を用いていた。例えば 「○とは○○のことである」(○は任意の文字) という表現を含む文を抽出したい場合、「とは」という
文字列を含む文を検索し、抽出していた。
文を抽出する際に文字列を用いていた。例えば 「○とは○○のことである」(○は任意の文字) という表現を含む文を抽出したい場合、「とは」という
文字列を含む文を検索し、抽出していた。
【0003】
【発明が解決しようとする課題】この場合、本来抽出し
たい表現を含む文以外に「とは」という文字列を含む
文、例えば「編集することはできない」などが抽出され
てしまうという問題があった。
たい表現を含む文以外に「とは」という文字列を含む
文、例えば「編集することはできない」などが抽出され
てしまうという問題があった。
【0004】また、「eコマンドを入力すると、処理を
終了できる」のような 「○○すると○○できる」 という表現の文を抽出したい場合、「と」の直前の語は
「○○する」のような動詞の終止形であるという条件を
指定したいが、従来の文字列による検索ではそういう指
定ができないため、「○○と○○できる」という文字列
を含む文を全て抽出してしまうので、「文書の更新をす
るときに、コマンドの指定ができる」のような文が抽出
されてしまうという問題があった。
終了できる」のような 「○○すると○○できる」 という表現の文を抽出したい場合、「と」の直前の語は
「○○する」のような動詞の終止形であるという条件を
指定したいが、従来の文字列による検索ではそういう指
定ができないため、「○○と○○できる」という文字列
を含む文を全て抽出してしまうので、「文書の更新をす
るときに、コマンドの指定ができる」のような文が抽出
されてしまうという問題があった。
【0005】本発明は、これらの問題を解決するため、
重要な情報の含まれる文の特徴のある形態素の表記に対
応づけて品詞情報や意味情報を記述した文表現パターン
を用意し、入力された文書を形態素解析した結果と文表
現パターンとを照合し一致したときに抽出し、重要な情
報が含まれる所望の文を精度高く抽出することを目的と
している。
重要な情報の含まれる文の特徴のある形態素の表記に対
応づけて品詞情報や意味情報を記述した文表現パターン
を用意し、入力された文書を形態素解析した結果と文表
現パターンとを照合し一致したときに抽出し、重要な情
報が含まれる所望の文を精度高く抽出することを目的と
している。
【0006】
【課題を解決するための手段】図1は、本発明の原理構
成図を示す。図1において、入力文書1は、文を抽出す
る対象の文書である。
成図を示す。図1において、入力文書1は、文を抽出す
る対象の文書である。
【0007】文書情報抽出装置2は、入力文書1を形態
素解析し、その表記、品詞情報、および意味情報をもと
に文表現パターン5と一致する文を抽出するものであっ
て、形態素解析部3、文パターン照合部4、および文表
現パターン5から構成されるものである。
素解析し、その表記、品詞情報、および意味情報をもと
に文表現パターン5と一致する文を抽出するものであっ
て、形態素解析部3、文パターン照合部4、および文表
現パターン5から構成されるものである。
【0008】形態素解析部3は、入力文書1を形態素解
析するものである。文パターン照合部4は、形態素解析
部3によって形態素解析された文の表記、品詞情報およ
び意味情報をもとに文表現パターン5と照合を行い、一
致する文を抽出するものである。
析するものである。文パターン照合部4は、形態素解析
部3によって形態素解析された文の表記、品詞情報およ
び意味情報をもとに文表現パターン5と照合を行い、一
致する文を抽出するものである。
【0009】文表現パターン5は、抽出しようとする文
のパターン(特徴のある形態素の表記、品詞情報、およ
び意味情報)を登録したものである。抽出された文6
は、入力文書から抽出された文である。
のパターン(特徴のある形態素の表記、品詞情報、およ
び意味情報)を登録したものである。抽出された文6
は、入力文書から抽出された文である。
【0010】
【作用】本発明は、図1に示すように、形態素解析部3
が入力文書1を形態素解析し、文パターン照合部4が形
態素解析した文毎の形態素の表記および品詞情報をもと
に文表現パターン5と照合を行い一致する文を抽出する
ようにしている。
が入力文書1を形態素解析し、文パターン照合部4が形
態素解析した文毎の形態素の表記および品詞情報をもと
に文表現パターン5と照合を行い一致する文を抽出する
ようにしている。
【0011】また、形態素解析部3が入力文書1を形態
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記および意味情報をもとに文表現パターン5
と照合を行い一致する文を抽出するようにしている。
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記および意味情報をもとに文表現パターン5
と照合を行い一致する文を抽出するようにしている。
【0012】また、形態素解析部3が入力文書1を形態
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記、品詞情報および意味情報をもとに文表現
パターン5と照合を行い一致する文を抽出するようにし
ている。
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記、品詞情報および意味情報をもとに文表現
パターン5と照合を行い一致する文を抽出するようにし
ている。
【0013】従って、重要な情報の含まれる文の特徴の
ある形態素の表記や品詞情報や意味情報を記述した文表
現パターンを用意し、入力された文書を形態素解析した
結果と文表現パターンとを照合し一致したときに所望の
文として抽出することにより、重要な情報が含まれる文
を精度高く抽出することが可能となった。
ある形態素の表記や品詞情報や意味情報を記述した文表
現パターンを用意し、入力された文書を形態素解析した
結果と文表現パターンとを照合し一致したときに所望の
文として抽出することにより、重要な情報が含まれる文
を精度高く抽出することが可能となった。
【0014】
【実施例】次に、図2から図9を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
の構成および動作を順次詳細に説明する。
【0015】図2は、本発明の動作説明フローチャート
を示す。これは、図1の構成の全体の動作を説明するフ
ローチャートである。図2において、S1は、入力文書
1を読み込み、形態素解析を行なう。これは、図1の文
書情報抽出装置2を構成する形態素解析部3が、入力文
書1を読み込み、形態素解析を行い、文の形態素の表
記、品詞情報、および意味情報を生成する。例えば図3
の入力文書1であるマニュアル文を読み込み、図4およ
び図5に示すように、形態素の表記、品詞情報、および
意味情報を生成する。例えば、図3の文番号“1”の文 クラスとは、データの属性と動作を規定する抽象的なオ
ブジェクトである。を形態素解析し、図4のに示すよ
うに、形態素の表記、品詞情報、および意味情報を生成
する。
を示す。これは、図1の構成の全体の動作を説明するフ
ローチャートである。図2において、S1は、入力文書
1を読み込み、形態素解析を行なう。これは、図1の文
書情報抽出装置2を構成する形態素解析部3が、入力文
書1を読み込み、形態素解析を行い、文の形態素の表
記、品詞情報、および意味情報を生成する。例えば図3
の入力文書1であるマニュアル文を読み込み、図4およ
び図5に示すように、形態素の表記、品詞情報、および
意味情報を生成する。例えば、図3の文番号“1”の文 クラスとは、データの属性と動作を規定する抽象的なオ
ブジェクトである。を形態素解析し、図4のに示すよ
うに、形態素の表記、品詞情報、および意味情報を生成
する。
【0016】S2は、文パターン照合部4で文表現パタ
ーン5との照合を行う。これは、後述するように、S1
で形態素解析した文の形態素の表記、品詞情報、および
意味情報について、図6の文表現パターンとの照合を行
い、一致する文を見つける。
ーン5との照合を行う。これは、後述するように、S1
で形態素解析した文の形態素の表記、品詞情報、および
意味情報について、図6の文表現パターンとの照合を行
い、一致する文を見つける。
【0017】S3は、文表現パターン5とマッチした文
が抽出される。これは、S2の照合によって、マッチ
(一致)した文を抽出する。以上によって、入力文書1
を形態素解析して文の形態素の表記、品詞情報、および
意味情報を生成し、これらと、予め登録した文表現パタ
ーン5(例えば図6の文表現パターン例)と照合を行
い、一致する文を抽出する。この際、文の形態素の表記
が一致するのみならず、品詞情報、更に意味情報がとも
に一致したときにのみ文を抽出することとしているの
で、重要な抽出したい文の品詞情報および意味情報を予
め文表現パターン5に登録して指定することが可能とな
る。この抽出したい文の表記の他に品詞情報および意味
情報を指定することにより、文の形態素の表記が一致し
ても、品詞情報と意味情報が一致(マッチ)しない文を
抽出しないので、不要な文の抽出を防止して重要な文の
みを選択的に抽出することが可能となった。以下順次詳
細に説明する。
が抽出される。これは、S2の照合によって、マッチ
(一致)した文を抽出する。以上によって、入力文書1
を形態素解析して文の形態素の表記、品詞情報、および
意味情報を生成し、これらと、予め登録した文表現パタ
ーン5(例えば図6の文表現パターン例)と照合を行
い、一致する文を抽出する。この際、文の形態素の表記
が一致するのみならず、品詞情報、更に意味情報がとも
に一致したときにのみ文を抽出することとしているの
で、重要な抽出したい文の品詞情報および意味情報を予
め文表現パターン5に登録して指定することが可能とな
る。この抽出したい文の表記の他に品詞情報および意味
情報を指定することにより、文の形態素の表記が一致し
ても、品詞情報と意味情報が一致(マッチ)しない文を
抽出しないので、不要な文の抽出を防止して重要な文の
みを選択的に抽出することが可能となった。以下順次詳
細に説明する。
【0018】図3は、本発明のマニュアル文の例を示
す。これは、図1の入力文書1の例である。右側に文番
号1から7を記載し、後の説明との関連づけを行ってい
る。このマニュアル文の文番号1、5、6、7を形態素
解析して文の形態素の表記、品詞情報、および意味情報
を生成したものが、図4および図5である。
す。これは、図1の入力文書1の例である。右側に文番
号1から7を記載し、後の説明との関連づけを行ってい
る。このマニュアル文の文番号1、5、6、7を形態素
解析して文の形態素の表記、品詞情報、および意味情報
を生成したものが、図4および図5である。
【0019】図4および図5は、本発明の形態素解析例
を示す。これらは、図3のマニュアル文の文番号1、
5、6、7の文を形態素解析し、文の形態素の表記、品
詞情報、および意味情報を生成したものである。
を示す。これらは、図3のマニュアル文の文番号1、
5、6、7の文を形態素解析し、文の形態素の表記、品
詞情報、および意味情報を生成したものである。
【0020】図6は、本発明の文表現パターン例を示
す。ここでは、重要な文を表現するパターンとして、文
表現パターン1、2、3の3つを下記のように予め記載
したものである。
す。ここでは、重要な文を表現するパターンとして、文
表現パターン1、2、3の3つを下記のように予め記載
したものである。
【0021】 ・文表現パターン1:[名詞]/とは/〜/であ/る ・文表現パターン2:〜[動詞終止形]/と/でき/る ・文表現パターン3:[名詞]<手段>/に/よ/っ/
て/〜 ここで、[ ]内は品詞情報を表し、< >内は意味情
報を表し、それ以外は形態素の表記を表す。〜は、任意
の文字列を表す。/は文の形態素の区切りを表す。
て/〜 ここで、[ ]内は品詞情報を表し、< >内は意味情
報を表し、それ以外は形態素の表記を表す。〜は、任意
の文字列を表す。/は文の形態素の区切りを表す。
【0022】以上のように、文の形態素の表記、品詞情
報、および意味情報を指定した文表現パターン1、2、
3を記述することにより、この文表現パターン1、2、
3に一致する文のみが、入力文書1から抽出されること
となる。
報、および意味情報を指定した文表現パターン1、2、
3を記述することにより、この文表現パターン1、2、
3に一致する文のみが、入力文書1から抽出されること
となる。
【0023】図7は、本発明の文表現パターンとの照合
フローチャートを示す。これは、入力文書1を形態素解
析して文の形態素の表記、品詞情報、および意味情報を
生成し、これらと、図6の文表現パターン5との照合を
説明するものである。
フローチャートを示す。これは、入力文書1を形態素解
析して文の形態素の表記、品詞情報、および意味情報を
生成し、これらと、図6の文表現パターン5との照合を
説明するものである。
【0024】図7において、S11は、形態素のリスト
が終了か判別する。YESの場合には、終了する(EN
D)。一方、NOの場合には、形態素のリストが終了し
ていないので、S12に進む。ここで、形態素のリスト
は文を形態素解析した形態素の表記、品詞情報、および
意味情報であって、例えば図3のマニュアル文の文番号
1の形態素のリストは図4の文番号1として記載した
表記、品詞情報、および意味情報のリストとなる。
が終了か判別する。YESの場合には、終了する(EN
D)。一方、NOの場合には、形態素のリストが終了し
ていないので、S12に進む。ここで、形態素のリスト
は文を形態素解析した形態素の表記、品詞情報、および
意味情報であって、例えば図3のマニュアル文の文番号
1の形態素のリストは図4の文番号1として記載した
表記、品詞情報、および意味情報のリストとなる。
【0025】S12は、文表現パターンが終了か判別す
る。これは、文表現パターン、例えば図6の文表現パタ
ーン1、2、3が終了か判別する。YESの場合には、
S11に戻り、次の文の形態素のリストについて繰り返
す。一方、NOの場合には、S13に進む。
る。これは、文表現パターン、例えば図6の文表現パタ
ーン1、2、3が終了か判別する。YESの場合には、
S11に戻り、次の文の形態素のリストについて繰り返
す。一方、NOの場合には、S13に進む。
【0026】S13は、形態素リストと文表現パターン
が最後までマッチするか判別する。YESの場合には、
形態素リストと、文表現パターンとが最後まで一致した
ので、S14でマッチする文を抽出し、S11に戻る。
一方、NOの場合には、マッチしなかったので、S12
に戻り繰り返す。
が最後までマッチするか判別する。YESの場合には、
形態素リストと、文表現パターンとが最後まで一致した
ので、S14でマッチする文を抽出し、S11に戻る。
一方、NOの場合には、マッチしなかったので、S12
に戻り繰り返す。
【0027】以上によって、入力文書1の文の形態素の
リストと、文表現パターンとを順次照合を行いマッチし
たときにそのマッチした文を抽出する。以下図3のマニ
ュアル文について、図6の文表現パターンとの照合を説
明する。
リストと、文表現パターンとを順次照合を行いマッチし
たときにそのマッチした文を抽出する。以下図3のマニ
ュアル文について、図6の文表現パターンとの照合を説
明する。
【0028】(1) 図3の文番号1の文 ・クラスとは、データの属性と動作を規定する抽象的な
オブジェクトである.を形態素解析すると、文の形態素
の表記は、 ・クラス/とは/、/データ/の/属性/と/動作/を
/規定/する/抽象的/な/オブジェクト/で/ある. となる(品詞情報および意味情報は図4の文書番号1
の品詞情報および意味情報を参照)。この文番号1の形
態素の表記、および品詞情報のパターンと、図6の文表
現パターン1である ・[名詞]/とは/〜/であ/る との照合を行うと、上記文の形態素の表記に下線を引い
た部分が一致、即ち、 ・“クラス”と“名詞(普通名詞)” ・“とは”と“とは” ・“であ”と“であ” ・“る”と“る” とが一致するので、文番号1の文を文表現パターン1に
一致するものとして図8に示すように抽出する。
オブジェクトである.を形態素解析すると、文の形態素
の表記は、 ・クラス/とは/、/データ/の/属性/と/動作/を
/規定/する/抽象的/な/オブジェクト/で/ある. となる(品詞情報および意味情報は図4の文書番号1
の品詞情報および意味情報を参照)。この文番号1の形
態素の表記、および品詞情報のパターンと、図6の文表
現パターン1である ・[名詞]/とは/〜/であ/る との照合を行うと、上記文の形態素の表記に下線を引い
た部分が一致、即ち、 ・“クラス”と“名詞(普通名詞)” ・“とは”と“とは” ・“であ”と“であ” ・“る”と“る” とが一致するので、文番号1の文を文表現パターン1に
一致するものとして図8に示すように抽出する。
【0029】(2) 文番号5の文を(1)と同様にし
て、文表現パターン2に一致するものとして図8に示す
ように抽出する。 (3) 図3の文番号6の文 ・クラスの種類によって、生成されるインスタンスが異
なる.を形態素解析すると、文の形態素の表記は、 ・クラス/の/種類/に/よ/っ/て/、/生成/さ/
れ/る/インスタンス/が/異な/る. となる(品詞情報および意味情報は図5の文書番号6の
品詞情報および意味情報を参照)。この文番号6の形態
素の表記、および品詞情報のパターンと、図6の文表現
パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、先頭の ・“クラス”、“普通名詞(品詞情報)”、“具体物
(意味情報)”と[名詞]<手段>とが不一致 となる。即ち、クラスの品詞情報が“名詞”である点は
一致するが、意味情報が“具体物”と“手段”とで不一
致となり、当該文番号6は文表現パターン3とマッチし
ないこととなる。
て、文表現パターン2に一致するものとして図8に示す
ように抽出する。 (3) 図3の文番号6の文 ・クラスの種類によって、生成されるインスタンスが異
なる.を形態素解析すると、文の形態素の表記は、 ・クラス/の/種類/に/よ/っ/て/、/生成/さ/
れ/る/インスタンス/が/異な/る. となる(品詞情報および意味情報は図5の文書番号6の
品詞情報および意味情報を参照)。この文番号6の形態
素の表記、および品詞情報のパターンと、図6の文表現
パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、先頭の ・“クラス”、“普通名詞(品詞情報)”、“具体物
(意味情報)”と[名詞]<手段>とが不一致 となる。即ち、クラスの品詞情報が“名詞”である点は
一致するが、意味情報が“具体物”と“手段”とで不一
致となり、当該文番号6は文表現パターン3とマッチし
ないこととなる。
【0030】従って、表記は一致しても、意味情報が一
致しなく、全体として一致しないので不一致となり、文
番号6の文は抽出しない。 (4) 一方、文番号7の文 ・エディタによって、インスタンスのスロットを指定で
きる.を形態素解析すると、文の形態素の表記は、 ・エディタ/に/よ/っ/て/、/インスタンス/の/
スロット/を/指定/でき/る. となる(品詞情報および意味情報は図5の文書番号7の
品詞情報および意味情報を参照)。この文番号7の形態
素の表記、品詞情報、および意味情報のパターンと、図
6の文表現パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、上記文の形態素の表記、品詞情報、
および意味情報が一致、即ち、 ・“クラス”、“普通名詞”、“手段”と“名詞”、
“手段” ・“に”と“に” ・“よ”と“よ” ・“っ”と“っ” ・“て”と“て” とが一致するので、文番号7の文を文表現パターン3に
一致するものとして図8に示すように抽出する。
致しなく、全体として一致しないので不一致となり、文
番号6の文は抽出しない。 (4) 一方、文番号7の文 ・エディタによって、インスタンスのスロットを指定で
きる.を形態素解析すると、文の形態素の表記は、 ・エディタ/に/よ/っ/て/、/インスタンス/の/
スロット/を/指定/でき/る. となる(品詞情報および意味情報は図5の文書番号7の
品詞情報および意味情報を参照)。この文番号7の形態
素の表記、品詞情報、および意味情報のパターンと、図
6の文表現パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、上記文の形態素の表記、品詞情報、
および意味情報が一致、即ち、 ・“クラス”、“普通名詞”、“手段”と“名詞”、
“手段” ・“に”と“に” ・“よ”と“よ” ・“っ”と“っ” ・“て”と“て” とが一致するので、文番号7の文を文表現パターン3に
一致するものとして図8に示すように抽出する。
【0031】以上によって、図3のマニュアル文から、
図6の文表現パターン1、2、3に一致する文として図
8に示すように、文番号1、5、7の文を抽出すること
ができたこととなる。
図6の文表現パターン1、2、3に一致する文として図
8に示すように、文番号1、5、7の文を抽出すること
ができたこととなる。
【0032】図8は、本発明の抽出された文例を示す。
これは、上述したように、図3のマニュアル文から、図
6の文表現パターン1、2、3に一致するものとして抽
出された文である。この抽出する際に、文の種類を図示
のように一致した文表現パターン1、2、3に登録され
ている“定義文”、“方法文”、“方法文”に対応づけ
て登録しておく。
これは、上述したように、図3のマニュアル文から、図
6の文表現パターン1、2、3に一致するものとして抽
出された文である。この抽出する際に、文の種類を図示
のように一致した文表現パターン1、2、3に登録され
ている“定義文”、“方法文”、“方法文”に対応づけ
て登録しておく。
【0033】図9は、本発明の応用例を示す。これは、
図8の抽出された文について、文の種類毎にまとめて索
引を自動生成した応用例を示す。ここでは、図8の定義
文の文番号1の文を取り出し、図示の ・索引(定義)の欄に クラスとは?・・・・・・・・・・・・・・・・p××
(ページ数) と自動編集する。また、同様に、図8の方法文の文番号
5、7の文を取り出し、 ・索引(方法)の欄に 任意のインスタンスを生成するには?・・・・・p××
(ページ数) インスタンスのスロットを指定するには?・・・p××
(ページ数) と自動編集する。
図8の抽出された文について、文の種類毎にまとめて索
引を自動生成した応用例を示す。ここでは、図8の定義
文の文番号1の文を取り出し、図示の ・索引(定義)の欄に クラスとは?・・・・・・・・・・・・・・・・p××
(ページ数) と自動編集する。また、同様に、図8の方法文の文番号
5、7の文を取り出し、 ・索引(方法)の欄に 任意のインスタンスを生成するには?・・・・・p××
(ページ数) インスタンスのスロットを指定するには?・・・p××
(ページ数) と自動編集する。
【0034】以上によって、図3の入力文書1であるマ
ニュアル文から、図6の文表現パターン1、2、3によ
って形態素の表記、品詞情報および意味情報で特徴付け
られた文(文番号1、5、7)のみを抽出し、この抽出
した精度の高い文から、更に文の種類に分けて索引を自
動的に編集(生成)することが可能となる。
ニュアル文から、図6の文表現パターン1、2、3によ
って形態素の表記、品詞情報および意味情報で特徴付け
られた文(文番号1、5、7)のみを抽出し、この抽出
した精度の高い文から、更に文の種類に分けて索引を自
動的に編集(生成)することが可能となる。
【0035】
【発明の効果】以上説明したように、本発明によれば、
重要な情報の含まれる文の特徴のある形態素の表記や品
詞情報や意味情報を記述した文表現パターンを用意し、
この文表現パターンと入力された文書を形態素解析した
結果とを照合し一致したときに所望の文として抽出する
構成を採用しているため、重要な情報が含まれる所望の
文を精度高く抽出することができるようになった。特
に、文表現パターンとして、文の形態素の表記、品詞情
報、および意味情報を任意に指定して重要な情報を含む
所望の文を高精度に抽出でき、しかも、表記(文字列)
のみが一致する不要な文の抽出を防止できるので、不要
な文を削除する手間も削減できる。
重要な情報の含まれる文の特徴のある形態素の表記や品
詞情報や意味情報を記述した文表現パターンを用意し、
この文表現パターンと入力された文書を形態素解析した
結果とを照合し一致したときに所望の文として抽出する
構成を採用しているため、重要な情報が含まれる所望の
文を精度高く抽出することができるようになった。特
に、文表現パターンとして、文の形態素の表記、品詞情
報、および意味情報を任意に指定して重要な情報を含む
所望の文を高精度に抽出でき、しかも、表記(文字列)
のみが一致する不要な文の抽出を防止できるので、不要
な文を削除する手間も削減できる。
【図1】本発明の原理構成図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明のマニュアル文の例である。
【図4】本発明の形態素解析例(続く)である。
【図5】本発明の形態素解析例(続き)である。
【図6】本発明の文表現パターン例である。
【図7】本発明の文表現パターンとの照合フローチャー
トである。
トである。
【図8】本発明の抽出された文例である。
【図9】本発明の応用例である。
1:入力文書 2:文書情報抽出装置 3:形態素解析部 4:文パターン照合部 5:文表現パターン 6:抽出された文
Claims (3)
- 【請求項1】抽出しようとする文の形態素の表記に対応
づけ必要に応じて品詞情報を登録する文表現パターン
(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記および品詞情報をも
とに上記文表現パターン(5)と照合を行い一致する文
を抽出する文パターン照合部(4)とを備え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。 - 【請求項2】抽出しようとする文の形態素の表記に対応
づけ必要に応じて意味情報を登録する文表現パターン
(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記および意味情報をも
とに上記文表現パターン(5)と照合を行い一致する文
を抽出する文パターン照合部(4)とを備え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。 - 【請求項3】抽出しようとする文の形態素の表記に対応
づけ必要に応じて品詞情報および意味情報を登録する文
表現パターン(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記と品詞情報および意
味情報をもとに上記文表現パターン(5)と照合を行い
一致する文を抽出する文パターン照合部(4)とを備
え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6215070A JPH0877196A (ja) | 1994-09-08 | 1994-09-08 | 文書情報抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6215070A JPH0877196A (ja) | 1994-09-08 | 1994-09-08 | 文書情報抽出装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0877196A true JPH0877196A (ja) | 1996-03-22 |
Family
ID=16666265
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6215070A Pending JPH0877196A (ja) | 1994-09-08 | 1994-09-08 | 文書情報抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0877196A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006323670A (ja) * | 2005-05-19 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 方法質問応答方法、方法質問応答装置およびプログラム |
| JP2007018068A (ja) * | 2005-07-05 | 2007-01-25 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
| JP2007102489A (ja) * | 2005-10-04 | 2007-04-19 | Sharp Corp | 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置 |
| JP2009060567A (ja) * | 2007-08-07 | 2009-03-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
| JP2010009742A (ja) * | 2007-05-15 | 2010-01-14 | Sony Corp | データ処理装置および方法、プログラム、並びに記録媒体 |
| US8264727B2 (en) | 2007-05-15 | 2012-09-11 | Sony Corporation | Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data |
| KR20200068769A (ko) * | 2018-11-27 | 2020-06-16 | 주식회사 와이즈넛 | 속성 지식 확장 시스템 및 속성 지식 확장 방법 |
-
1994
- 1994-09-08 JP JP6215070A patent/JPH0877196A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006323670A (ja) * | 2005-05-19 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 方法質問応答方法、方法質問応答装置およびプログラム |
| JP2007018068A (ja) * | 2005-07-05 | 2007-01-25 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
| JP2007102489A (ja) * | 2005-10-04 | 2007-04-19 | Sharp Corp | 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置 |
| JP2010009742A (ja) * | 2007-05-15 | 2010-01-14 | Sony Corp | データ処理装置および方法、プログラム、並びに記録媒体 |
| US8264727B2 (en) | 2007-05-15 | 2012-09-11 | Sony Corporation | Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data |
| JP2009060567A (ja) * | 2007-08-07 | 2009-03-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
| KR20200068769A (ko) * | 2018-11-27 | 2020-06-16 | 주식회사 와이즈넛 | 속성 지식 확장 시스템 및 속성 지식 확장 방법 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3691844B2 (ja) | 文書処理方法 | |
| US5077668A (en) | Method and apparatus for producing an abstract of a document | |
| US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
| CN100489841C (zh) | 用于开发自然语言理解应用的方法和集成开发工具 | |
| US5579224A (en) | Dictionary creation supporting system | |
| JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
| JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
| JPH0567144A (ja) | 前編集支援方法およびその装置 | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JP2005173999A (ja) | 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体 | |
| JPH0877179A (ja) | 文書索引生成装置 | |
| JP2838984B2 (ja) | 汎用参照装置 | |
| JPH06259423A (ja) | 要約自動作成方式 | |
| JPH07325826A (ja) | 日本語処理システム | |
| JPH04673A (ja) | 連語登録方法および装置 | |
| JPH1115826A (ja) | 文書解析装置及び方法 | |
| JP2000029882A (ja) | 要約文作成装置 | |
| JPH0561902A (ja) | 機械翻訳システム | |
| JP4399154B2 (ja) | 翻訳装置、及び翻訳プログラム | |
| JPH04330565A (ja) | 自然言語処理システム | |
| JPH05233689A (ja) | 文書自動要約方法 | |
| JPH08263490A (ja) | 法規文書更新システム | |
| JPH11161666A (ja) | ドキュメントデータ検索方法および装置、並びにドキュメント編集装置 | |
| JP2003173338A (ja) | 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム | |
| JPH0954781A (ja) | 文書検索システム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040615 |