JPH0785101A

JPH0785101A - キーワード抽出処理装置

Info

Publication number: JPH0785101A
Application number: JP5232751A
Authority: JP
Inventors: Hiroshi Onodera; 浩小野寺; Masaki Hosoi; 正樹細井
Original assignee: Fujitsu FIP Corp
Current assignee: Fujitsu FIP Corp
Priority date: 1993-09-20
Filing date: 1993-09-20
Publication date: 1995-03-31

Abstract

(57)【要約】【目的】キーワード抽出に関し、単語の意味属性を抽
出条件に加え、文章の外見的構成に関する事項と共に総
合的に評価できるキーワード抽出処理装置を目的とす
る。【構成】構文解析部１は、所与の文書について、所定
の構文解析を実行し、重み付け部２は、該構文解析結果
の各語句に各重要度累積値を割り当て、意味処理部４に
より、各語句ごとについて、当該語句の意味属性に基づ
いて予め定める重み値を該重要度累積値に加算し、構文
処理部５により、各該語句ごとの品詞及び格に基づい
て、それぞれ予め定める重み値を該重要度累積値に加算
し、出現状態処理部６により、各該語句の該文書中での
所定の出現状態に基づいて予め定める重み値を該重要度
累積値に加算し、抽出処理部３は、重み付け部２の処理
した結果から、閾値より大きい重要度累積値の語句をキ
ーワードとして出力するように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書中から、その文章
で表す内容との関連性の大きい語句を、キーワードとし
て抽出するための、キーワード抽出処理装置に関する。

【０００２】

【従来の技術と発明が解決しようとする課題】文章中か
らキーワードとなる語句を人が検出する場合には、作業
者が文章を読んで、書かれた内容を理解し、その理解に
基づき直観的または経験的に、内容との関連性の大きい
と判断する語句を抽出する。

【０００３】従って、この場合に良質のキーワード抽出
を行うためには、作業者に高いスキルが必要とされ、質
の維持が困難になり、又費用や時間も大きくなり易い。
以上から、大量の文書データから効率良くキーワードを
抽出するために、キーワード抽出の自動化が考えられて
いる。

【０００４】例えば特開平03-127176 号公報「キーワー
ド抽出装置」には、接辞に着目して複合語のキーワード
を抽出する方式が述べられており、特開平03-135669 号
公報「キーワード自動抽出システム」には、構文上の主
語、目的語の出現回数に基づいてキーワードを抽出する
方式が述べられている。

【０００５】又、特開平02-32469号公報「情報検索方
式」には、構文上の係受け構造に着目して、係受け構造
の深さをキーワード抽出において重要性を表す要素とし
て使用する方式が述べられている。

【０００６】それらの方式は何れも前記のように、語句
の意味内容とは直接関係のない、文章の構文上からの語
句の位置付けや出現回数等の、文章の外見的構成に関す
る事項のみをキーワード抽出の要素として使用してい
る。

【０００７】そのために、人が文章の内容を理解し、そ
の内容と語句の意味内容との関連を考慮する場合と異な
り、意味的に見て抽出漏れや無駄な抽出を生じ易い。本
発明は、単語の意味属性を抽出条件の一つとし、それと
文章の外見的構成に関する事項とを総合的に評価してキ
ーワードを抽出を自動処理するキーワード抽出処理装置
を目的とする。

【０００８】

【課題を解決するための手段】図１は、本発明の構成を
示すブロック図である。図はキーワード抽出処理装置の
構成であって、構文解析部１と、重み付け部２と、抽出
処理部３とを有する。

【０００９】構文解析部１は、所与の文書について、構
文解析を実行して、該文書を構成する文字列を、単語、
複合語及び句を含む語句に分割し、各該語句について、
品詞及び格を決定する。

【００１０】重み付け部２は、意味処理部４と、構文処
理部５と、出現状態処理部６とを有し、該構文解析結果
の各該語句に各重要度累積値に初期値を割り当て、意味
処理部４により、各該語句ごとについて、当該語句の意
味属性に基づいて予め定める重み値を該重要度累積値に
加算する。

【００１１】構文処理部５により、各該語句ごとについ
て、当該語句の品詞及び格に基づいて、それぞれ予め定
める重み値を該重要度累積値に加算する。出現状態処理
部６により、各該語句ごとについて、該文書中での出現
状態に基づいて予め定める重み値を該重要度累積値に加
算する。

【００１２】抽出処理部３は、重み付け部２の処理した
結果から、所定の閾値より大きい値を有する該重要度累
積値を選択し、該選択した重要度累積値に対応する該語
句をキーワードとして出力する。

【００１３】第２の発明では、前記出現状態処理部６
は、各前記語句ごとについて、該文書中の出現位置に基
づいて予め定める重み値と、同一表記の該語句の前記文
書中の出現頻度に基づいて予め定める重み値とを、それ
ぞれ該当する前記重要度累積値に演算する。

【００１４】第３の発明では、前記第１又は第２の発明
の出現状態処理部６は、予め定める記号を強調記号と
し、前記文書中の該強調記号の出現位置と、前記語句と
の位置関係に基づいて予め定める重み値を該当する前記
重要度累積値に演算する。

【００１５】第４の発明では、前記第１、第２又は第３
の発明の意味処理部４は、前記語句の意味属性に基づい
て予め定める重み値を所定の分野ごとに有し、前記文書
について指定される該分野に従って、前記重要度累積値
に演算する該重み値を選択する。

【００１６】

【作用】本発明のキーワード抽出処理装置により、キー
ワードを抽出すべき文書を構文解析して、各語句、即ち
単語、複合語及び句、の構文上の役割から、それらの語
句の重要度を評価する。

【００１７】それと共に、各語句の意味属性を、要すれ
ばその文書内容の分野別の基準で評価し、構文及び意味
属性による評価を総合するために各評価項目について重
み値を設けて、各評価結果の重みを各語句について累積
加算した重要度累積値を求め、重要度累積値の大きいも
のをキーワードとして抽出する。

【００１８】従って本発明により、キーワード自動抽出
に際し、文書の意味内容を加味して語句の重要度を評価
することが可能になる。

【００１９】

【実施例】本発明のキーワード抽出処理装置の一例とし
て、以下に日本語文書からキーワードを抽出する装置の
一例について説明する。

【００２０】その場合に、図１の構文解析部１は、入力
される日本語文書について構文解析処理を行う。この構
文解析処理は、通常の翻訳処理等で行われると同様に、
文書の各文の文法的構成を、内蔵する単語辞書等を参照
して解析する処理である。

【００２１】構文解析部１は、そのような構文解析処理
の結果、各文を単語に分解し、各単語の品詞、単語の並
びで構成されている複合語、句を決定し、又必要な単
語、複合語、句について構文上の格を決定する。

【００２２】重み付け部２は、構文解析部１の解析処理
結果を受け取って、先ず名詞等の必要な語句に重要度累
積値をそれぞれ割り当てる。重要度累積値の初期値は０
とし、以下の処理で各該当する重要度累積値に、各評価
ごとに定まる重み値を累積加算していく。

【００２３】重み付け部２は、先ず意味処理部４により
単語の意味属性により重要度を評価する。そのために意
味処理部４は必要な名詞等の単語について、図２(a）に
示すような意味属性を示す単語テーブルと、(b）に示す
ような各意味属性の重み値を示す意味属性テーブルを持
つ。

【００２４】意味属性テーブルは、適当な分野別に設け
るのがよく、図２(b）の意味属性テーブルは例えば外交
分野の重み値を示すテーブルとすると、例えば情報産業
分野については(c)に示すような重み値のテーブルを準
備しておく。

【００２５】意味処理部４は、構文解析結果の必要な各
単語について単語テーブルを検索して各意味属性を得、
その意味属性で意味属性テーブルを検索して重み値を得
ると、その重み値を該当単語の重要度累積値に加算す
る。

【００２６】次に重み付け部２は、構文処理部５により
語句の品詞及び格に基づいて重要度を評価し、又複合語
や句の重要度累積値を求める。そのために構文処理部５
は、図３(a）に示すように品詞名とその重み値とを示す
品詞テーブルと、(b）のように複合語や句の構成とその
重み値とを示す句テーブルと、(c)のように構文上の格
とその重み値とを示す格テーブルとを持つ。

【００２７】構文処理部５は、先ず各単語について構文
解析結果で示される品詞名により品詞テーブルを検索し
て重み値を得、その重み値を該当単語の重要度累積値に
加算する。

【００２８】次に構文処理部５は、構文解析結果の複合
語及び句について、各複合語又は句を構成する単語の重
要度累積値のうち最も大きい値に、句テーブルから定ま
る重み値を加えた値を、その複合語又は句の重要度累積
値として設定する。

【００２９】その後構文処理部５は、構文解析結果に示
される格について、格テーブルから定まる重み値を、該
当する語句の重要度累積値に加算する。又、重み付け部
２は、出現状態処理部６により、各語句ごとについて、
文書中での出現状態に基づいて重要度を評価する。

【００３０】そこで、出現状態処理部６は、例えば処理
する語句がタイトル中か、本文内であればでは前半の例
えば２００字内か、それより後かの３ケースにより、重
み値を例えば２、１、０とするものとし、語句の文書中
の位置を識別して各重要度累積値に重み値を加算する。

【００３１】又、出現状態処理部６は、図３(d）に示す
ような、強調記号として定めた、括弧記号や、下線記号
や、特別の文字フォント指定等とその重み値とを示す強
調記号テーブルを持ち、テーブルに示される強調記号が
ある場合に、その強調記号で強調される語句についての
重要度累積値に、テーブルから得られる重み値を加算す
る。

【００３２】強調記号で強調される語句は、括弧記号で
括られる場合は、括弧内の語句全体が強調の対象とな
り、太字等の文字フォントや下線の場合はマークされて
いる語句が強調の対象となる。

【００３３】次に出現状態処理部６は、構文解析結果の
全語句について、同一表記の語句ごとの出現頻度を集計
し、出現頻度に応じた重み値を各重要度累積値に加算す
る。出現頻度に応じた重み値は、例えば次のようにして
求める。

【００３４】Ｎを文書の全文字数として、出現頻度≦（５／２００）×Ｎなら重み値＝０（５／２００）×Ｎ＜出現頻度≦（５／１００）×Ｎなら重み値＝１（５／１００）×Ｎ＜出現頻度なら重み値＝２図４は、例文「米・ソが『中距離核禁止』で合意」につ
いて、以上の処理を行った状態を説明する図であり、構
文解析部１による構文解析結果として、図の単語分割の
行に示すように単語に分割される。なお、この文書は分
野別として「外交分野」が指定されているものとする。

【００３５】更に構文解析部１が、図の品詞の行に示す
ように各単語の品詞を決定し、複合語／句の行に示すよ
うに３個の複合語が構成されることを示し、又、格の行
に示すように必要な語句について格を識別して、それら
の解析結果を重み付け部２に渡す。

【００３６】そこで重み付け部２は、図の意味属性の行
に示すように、単語テーブル（図２(a))を参照して各単
語の意味属性を決定し、前記の意味属性（外交分野）テ
ーブル（図２(b))や品詞テーブル (図３(a))を参照し
て、それぞれ図に括弧付き数字で示すように重み値を決
定して、各重要度累積値に加算する。

【００３７】又、語句の出現位置については、この例文
がタイトルに置かれていたとして、全ての単語の出現位
置に係る重み値が前記により「２」とされる。次に以上
の重み値を加算した重要度累積値について、前記のよう
な複合語／句の重要度累積値を決める処理を行い、３個
の複合語について、それぞれ構成単語の最大の重要度累
積値を取り、この場合に何れも名詞であるので、句テー
ブル (図３(b))で定まる重み値「１」を加えた値を、図
４の複合語／句の行に示すように各重要度累積値として
設定する。

【００３８】又、構文解析結果の格について格テーブル
(図３(c))から、強調記号について強調記号テーブル
(図３(d))から、それぞれ図４の格及び強調記号重みの
行に示す重み値を加算する。

【００３９】なお、この例で「米」と「ソ」は並立記号
「・」で繋がれていることから、両者同等の重要度を持
つと識別され、この場合の主格の重み値は、両者の単語
に共に適用される。

【００４０】出現頻度については、この例文が３００字
の文書中の文とし、文書全体について、各語句を同一表
記ごとにまとめて出現頻度を調べた結果が図４の出現頻
度の行に示す数値となったと仮定する。

【００４１】この出現頻度に前記の重み値決定条件を適
用すると、(5/200)×300=7.5以下の頻度は重み値
「０」、7.5を越え(5/100)×300=15以下の頻度は重み値
「１」、15を越える頻度は重み値「２」となり、図示の
括弧内の各重み値が決定される。

【００４２】以上の重み値を各重要度累積値に加算した
結果が、図４の最下の重要度累積値の行に示されてい
る。これらの重要度累積値について、抽出処理部３が所
定の閾値、例えば「７」より大きい値のものを選択し、
対応する語句をキーワードとして出力する。

【００４３】従ってこの例の場合に抽出処理部３は、
「米」、「ソ」、「核」、「禁止」、「合意」、「中距
離核」及び「中距離核禁止」をキーワードとして抽出す
る。図５は本発明の処理の流れの一例を示す図であり、
先ず構文解析部１が処理ステップ10で文書と分野の指定
を受け取る。

【００４４】次に構文解析部１は、処理ステップ11で指
定の文書の１文を読み込み、処理ステップ12で識別して
文書の終わりでなく、１文を読み込めた場合には処理ス
テップ13に進んで、前記のにように構文解析処理をし
て、解析結果と分野を重み付け部２に渡す。

【００４５】重み付け部２は、処理ステップ14で各語句
に重要度累積値を初期化して割り当て、処理ステップ15
で意味処理部４により指定の分野による各単語の意味属
性による重み値加算を前記のように行い、処理ステップ
16で、出現状態処理部６により各単語の出現位置による
重み値加算を前記のように行う。

【００４６】次に構文処理部５により、処理ステップ17
で各単語の品詞による重み値加算を前記のように行い、
処理ステップ18で複合語／句の重要度累積値を前記のよ
うに設定し、処理ステップ19で格による重み値加算を前
記のように該当する語句について行う。

【００４７】その後、処理ステップ20で出現状態処理部
６により、必要な語句について強調記号による重み値加
算を前記のように行う。次に、重み付け部２は処理ステ
ップ21で文の文字数を集計して文字数値として累積した
後処理ステップ11に戻り、構文解析部１に次の文の解析
を行わせる。

【００４８】このように１文ごとの処理を繰り返して、
最後に構文解析部１が処理ステップ12で文書の全文の処
理を終わったことを識別すると、重み付け部２に文書終
了を通知する。

【００４９】そこで重み付け部２は、処理ステップ22で
全文の語句の処理結果を、同一表記の語句ごとにまとめ
て、処理ステップ23で先に集計した文字数値を文書の全
字数Ｎとして使って、前記により出現頻度による重み値
決定条件を算出する。

【００５０】処理ステップ24で処理の終了を識別しなが
ら、各同一表記の語句群ごとに以下の処理を繰り返すも
のとし、出現状態処理部６により処理ステップ25で同一
表記の１群についてその群に含まれる語句の件数を出現
頻度として計数する。

【００５１】次に、処理ステップ26で出現頻度による重
み値を前記計算結果から決定し、処理ステップ27で同一
表記群の最大の重要度累積値を、その表記の重要度累積
値として取りだし、それに出現頻度による重み値を加算
し、その表記と重要度累積値とを抽出処理部３に渡す。

【００５２】抽出処理部３は処理ステップ28で、受け取
った重要度累積値と所定の閾値を比較し、重要度累積値
が閾値より大きい場合のみ処理ステップ29で、受け取っ
ている表記の語句をキーワードとして出力し、以上の処
理の後処理ステップ24に戻り、重み付け部２により次の
同一表記群の処理をさせる。

【００５３】

【発明の効果】以上の説明から明らかなように本発明に
よれば、キーワードの抽出処理において、構文解析し
て、各語句の構文上の役割等から、それらの語句の重要
度を評価すると共に、各語句の意味属性を、文書内容の
分野別の基準で評価し、それらの評価を重要度累積値と
して総合するので、キーワード自動抽出に際し、文書の
意味内容を加味して語句の重要度を評価することが可能
になり、適切なキーワードの自動抽出ができるという著
しい工業的効果がある。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図

【図２】意味属性テーブル等を説明する図

【図３】品詞テーブル等を説明する図

【図４】本発明の処理の一例を説明する図

【図５】本発明の処理の流れ図

【符号の説明】

１構文解析部２重み付け部３抽出処理部４意味処理部５構文処理部６出現状態処理部 10〜29 処理ステップ

Claims

【特許請求の範囲】

【請求項１】構文解析部(1)と、重み付け部(2)と、抽
出処理部(3）とを有し、該構文解析部(1）は、所与の文書について、構文解析を
実行して、該文書を構成する文字列を、単語、複合語及
び句を含む語句に分割し、各該語句について、品詞及び
格を決定し、該重み付け部(2)は、意味処理部(4)と、構文処理部(5)
と、出現状態処理部(6)とを有し、該構文解析結果の各該語句に各重要度累積値に初期値を
割り当て、該意味処理部(4）により、各該語句ごとについて、当該
語句の意味属性に基づいて予め定める重み値を該重要度
累積値に加算し、該構文処理部(5）により、各該語句ごとについて、当該
語句の品詞及び格に基づいて、それぞれ予め定める重み
値を該重要度累積値に加算し、該出現状態処理部(6）により、各該語句ごとについて、
該文書中での出現状態に基づいて予め定める重み値を該
重要度累積値に加算し、該抽出処理部(3)は、該重み付け部(2)の処理した結果か
ら、所定の閾値より大きい値を有する該重要度累積値を
選択し、該選択した重要度累積値に対応する該語句をキ
ーワードとして出力するように構成されていることを特
徴とするキーワード抽出処理装置。
【請求項２】前記出現状態処理部(6）は、各前記語句
ごとについて、該文書中の出現位置に基づいて予め定め
る重み値と、同一表記の該語句の前記文書中の出現頻度に基づいて予
め定める重み値とを、それぞれ該当する前記重要度累積
値に演算する、請求項１記載のキーワード抽出処理装
置。
【請求項３】前記出現状態処理部(6）は、予め定める
記号を強調記号とし、前記文書中の該強調記号の出現位
置と、前記語句との位置関係に基づいて予め定める重み
値を該当する前記重要度累積値に演算する、請求項１又
は請求項２記載のキーワード抽出処理装置。
【請求項４】前記意味処理部(4）は、前記語句の意味
属性に基づいて予め定める重み値を所定の分野ごとに有
し、前記文書について指定される該分野に従って、前記
重要度累積値に演算する該重み値を選択する、請求項
１、請求項２又は請求項３記載のキーワード抽出処理装
置。