JPH0785101A - キーワード抽出処理装置 - Google Patents
キーワード抽出処理装置Info
- Publication number
- JPH0785101A JPH0785101A JP5232751A JP23275193A JPH0785101A JP H0785101 A JPH0785101 A JP H0785101A JP 5232751 A JP5232751 A JP 5232751A JP 23275193 A JP23275193 A JP 23275193A JP H0785101 A JPH0785101 A JP H0785101A
- Authority
- JP
- Japan
- Prior art keywords
- value
- word
- importance
- processing unit
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 キーワード抽出に関し、単語の意味属性を抽
出条件に加え、文章の外見的構成に関する事項と共に総
合的に評価できるキーワード抽出処理装置を目的とす
る。 【構成】 構文解析部1は、所与の文書について、所定
の構文解析を実行し、重み付け部2は、該構文解析結果
の各語句に各重要度累積値を割り当て、意味処理部4に
より、各語句ごとについて、当該語句の意味属性に基づ
いて予め定める重み値を該重要度累積値に加算し、構文
処理部5により、各該語句ごとの品詞及び格に基づい
て、それぞれ予め定める重み値を該重要度累積値に加算
し、出現状態処理部6により、各該語句の該文書中での
所定の出現状態に基づいて予め定める重み値を該重要度
累積値に加算し、抽出処理部3は、重み付け部2の処理
した結果から、閾値より大きい重要度累積値の語句をキ
ーワードとして出力するように構成する。
出条件に加え、文章の外見的構成に関する事項と共に総
合的に評価できるキーワード抽出処理装置を目的とす
る。 【構成】 構文解析部1は、所与の文書について、所定
の構文解析を実行し、重み付け部2は、該構文解析結果
の各語句に各重要度累積値を割り当て、意味処理部4に
より、各語句ごとについて、当該語句の意味属性に基づ
いて予め定める重み値を該重要度累積値に加算し、構文
処理部5により、各該語句ごとの品詞及び格に基づい
て、それぞれ予め定める重み値を該重要度累積値に加算
し、出現状態処理部6により、各該語句の該文書中での
所定の出現状態に基づいて予め定める重み値を該重要度
累積値に加算し、抽出処理部3は、重み付け部2の処理
した結果から、閾値より大きい重要度累積値の語句をキ
ーワードとして出力するように構成する。
Description
【0001】
【産業上の利用分野】本発明は、文書中から、その文章
で表す内容との関連性の大きい語句を、キーワードとし
て抽出するための、キーワード抽出処理装置に関する。
で表す内容との関連性の大きい語句を、キーワードとし
て抽出するための、キーワード抽出処理装置に関する。
【0002】
【従来の技術と発明が解決しようとする課題】文章中か
らキーワードとなる語句を人が検出する場合には、作業
者が文章を読んで、書かれた内容を理解し、その理解に
基づき直観的または経験的に、内容との関連性の大きい
と判断する語句を抽出する。
らキーワードとなる語句を人が検出する場合には、作業
者が文章を読んで、書かれた内容を理解し、その理解に
基づき直観的または経験的に、内容との関連性の大きい
と判断する語句を抽出する。
【0003】従って、この場合に良質のキーワード抽出
を行うためには、作業者に高いスキルが必要とされ、質
の維持が困難になり、又費用や時間も大きくなり易い。
以上から、大量の文書データから効率良くキーワードを
抽出するために、キーワード抽出の自動化が考えられて
いる。
を行うためには、作業者に高いスキルが必要とされ、質
の維持が困難になり、又費用や時間も大きくなり易い。
以上から、大量の文書データから効率良くキーワードを
抽出するために、キーワード抽出の自動化が考えられて
いる。
【0004】例えば特開平03-127176 号公報「キーワー
ド抽出装置」には、接辞に着目して複合語のキーワード
を抽出する方式が述べられており、特開平03-135669 号
公報「キーワード自動抽出システム」には、構文上の主
語、目的語の出現回数に基づいてキーワードを抽出する
方式が述べられている。
ド抽出装置」には、接辞に着目して複合語のキーワード
を抽出する方式が述べられており、特開平03-135669 号
公報「キーワード自動抽出システム」には、構文上の主
語、目的語の出現回数に基づいてキーワードを抽出する
方式が述べられている。
【0005】又、特開平02-32469号公報「情報検索方
式」には、構文上の係受け構造に着目して、係受け構造
の深さをキーワード抽出において重要性を表す要素とし
て使用する方式が述べられている。
式」には、構文上の係受け構造に着目して、係受け構造
の深さをキーワード抽出において重要性を表す要素とし
て使用する方式が述べられている。
【0006】それらの方式は何れも前記のように、語句
の意味内容とは直接関係のない、文章の構文上からの語
句の位置付けや出現回数等の、文章の外見的構成に関す
る事項のみをキーワード抽出の要素として使用してい
る。
の意味内容とは直接関係のない、文章の構文上からの語
句の位置付けや出現回数等の、文章の外見的構成に関す
る事項のみをキーワード抽出の要素として使用してい
る。
【0007】そのために、人が文章の内容を理解し、そ
の内容と語句の意味内容との関連を考慮する場合と異な
り、意味的に見て抽出漏れや無駄な抽出を生じ易い。本
発明は、単語の意味属性を抽出条件の一つとし、それと
文章の外見的構成に関する事項とを総合的に評価してキ
ーワードを抽出を自動処理するキーワード抽出処理装置
を目的とする。
の内容と語句の意味内容との関連を考慮する場合と異な
り、意味的に見て抽出漏れや無駄な抽出を生じ易い。本
発明は、単語の意味属性を抽出条件の一つとし、それと
文章の外見的構成に関する事項とを総合的に評価してキ
ーワードを抽出を自動処理するキーワード抽出処理装置
を目的とする。
【0008】
【課題を解決するための手段】図1は、本発明の構成を
示すブロック図である。図はキーワード抽出処理装置の
構成であって、構文解析部1と、重み付け部2と、抽出
処理部3とを有する。
示すブロック図である。図はキーワード抽出処理装置の
構成であって、構文解析部1と、重み付け部2と、抽出
処理部3とを有する。
【0009】構文解析部1は、所与の文書について、構
文解析を実行して、該文書を構成する文字列を、単語、
複合語及び句を含む語句に分割し、各該語句について、
品詞及び格を決定する。
文解析を実行して、該文書を構成する文字列を、単語、
複合語及び句を含む語句に分割し、各該語句について、
品詞及び格を決定する。
【0010】重み付け部2は、意味処理部4と、構文処
理部5と、出現状態処理部6とを有し、該構文解析結果
の各該語句に各重要度累積値に初期値を割り当て、意味
処理部4により、各該語句ごとについて、当該語句の意
味属性に基づいて予め定める重み値を該重要度累積値に
加算する。
理部5と、出現状態処理部6とを有し、該構文解析結果
の各該語句に各重要度累積値に初期値を割り当て、意味
処理部4により、各該語句ごとについて、当該語句の意
味属性に基づいて予め定める重み値を該重要度累積値に
加算する。
【0011】構文処理部5により、各該語句ごとについ
て、当該語句の品詞及び格に基づいて、それぞれ予め定
める重み値を該重要度累積値に加算する。出現状態処理
部6により、各該語句ごとについて、該文書中での出現
状態に基づいて予め定める重み値を該重要度累積値に加
算する。
て、当該語句の品詞及び格に基づいて、それぞれ予め定
める重み値を該重要度累積値に加算する。出現状態処理
部6により、各該語句ごとについて、該文書中での出現
状態に基づいて予め定める重み値を該重要度累積値に加
算する。
【0012】抽出処理部3は、重み付け部2の処理した
結果から、所定の閾値より大きい値を有する該重要度累
積値を選択し、該選択した重要度累積値に対応する該語
句をキーワードとして出力する。
結果から、所定の閾値より大きい値を有する該重要度累
積値を選択し、該選択した重要度累積値に対応する該語
句をキーワードとして出力する。
【0013】第2の発明では、前記出現状態処理部6
は、各前記語句ごとについて、該文書中の出現位置に基
づいて予め定める重み値と、同一表記の該語句の前記文
書中の出現頻度に基づいて予め定める重み値とを、それ
ぞれ該当する前記重要度累積値に演算する。
は、各前記語句ごとについて、該文書中の出現位置に基
づいて予め定める重み値と、同一表記の該語句の前記文
書中の出現頻度に基づいて予め定める重み値とを、それ
ぞれ該当する前記重要度累積値に演算する。
【0014】第3の発明では、前記第1又は第2の発明
の出現状態処理部6は、予め定める記号を強調記号と
し、前記文書中の該強調記号の出現位置と、前記語句と
の位置関係に基づいて予め定める重み値を該当する前記
重要度累積値に演算する。
の出現状態処理部6は、予め定める記号を強調記号と
し、前記文書中の該強調記号の出現位置と、前記語句と
の位置関係に基づいて予め定める重み値を該当する前記
重要度累積値に演算する。
【0015】第4の発明では、前記第1、第2又は第3
の発明の意味処理部4は、前記語句の意味属性に基づい
て予め定める重み値を所定の分野ごとに有し、前記文書
について指定される該分野に従って、前記重要度累積値
に演算する該重み値を選択する。
の発明の意味処理部4は、前記語句の意味属性に基づい
て予め定める重み値を所定の分野ごとに有し、前記文書
について指定される該分野に従って、前記重要度累積値
に演算する該重み値を選択する。
【0016】
【作用】本発明のキーワード抽出処理装置により、キー
ワードを抽出すべき文書を構文解析して、各語句、即ち
単語、複合語及び句、の構文上の役割から、それらの語
句の重要度を評価する。
ワードを抽出すべき文書を構文解析して、各語句、即ち
単語、複合語及び句、の構文上の役割から、それらの語
句の重要度を評価する。
【0017】それと共に、各語句の意味属性を、要すれ
ばその文書内容の分野別の基準で評価し、構文及び意味
属性による評価を総合するために各評価項目について重
み値を設けて、各評価結果の重みを各語句について累積
加算した重要度累積値を求め、重要度累積値の大きいも
のをキーワードとして抽出する。
ばその文書内容の分野別の基準で評価し、構文及び意味
属性による評価を総合するために各評価項目について重
み値を設けて、各評価結果の重みを各語句について累積
加算した重要度累積値を求め、重要度累積値の大きいも
のをキーワードとして抽出する。
【0018】従って本発明により、キーワード自動抽出
に際し、文書の意味内容を加味して語句の重要度を評価
することが可能になる。
に際し、文書の意味内容を加味して語句の重要度を評価
することが可能になる。
【0019】
【実施例】本発明のキーワード抽出処理装置の一例とし
て、以下に日本語文書からキーワードを抽出する装置の
一例について説明する。
て、以下に日本語文書からキーワードを抽出する装置の
一例について説明する。
【0020】その場合に、図1の構文解析部1は、入力
される日本語文書について構文解析処理を行う。この構
文解析処理は、通常の翻訳処理等で行われると同様に、
文書の各文の文法的構成を、内蔵する単語辞書等を参照
して解析する処理である。
される日本語文書について構文解析処理を行う。この構
文解析処理は、通常の翻訳処理等で行われると同様に、
文書の各文の文法的構成を、内蔵する単語辞書等を参照
して解析する処理である。
【0021】構文解析部1は、そのような構文解析処理
の結果、各文を単語に分解し、各単語の品詞、単語の並
びで構成されている複合語、句を決定し、又必要な単
語、複合語、句について構文上の格を決定する。
の結果、各文を単語に分解し、各単語の品詞、単語の並
びで構成されている複合語、句を決定し、又必要な単
語、複合語、句について構文上の格を決定する。
【0022】重み付け部2は、構文解析部1の解析処理
結果を受け取って、先ず名詞等の必要な語句に重要度累
積値をそれぞれ割り当てる。重要度累積値の初期値は0
とし、以下の処理で各該当する重要度累積値に、各評価
ごとに定まる重み値を累積加算していく。
結果を受け取って、先ず名詞等の必要な語句に重要度累
積値をそれぞれ割り当てる。重要度累積値の初期値は0
とし、以下の処理で各該当する重要度累積値に、各評価
ごとに定まる重み値を累積加算していく。
【0023】重み付け部2は、先ず意味処理部4により
単語の意味属性により重要度を評価する。そのために意
味処理部4は必要な名詞等の単語について、図2(a)に
示すような意味属性を示す単語テーブルと、(b)に示す
ような各意味属性の重み値を示す意味属性テーブルを持
つ。
単語の意味属性により重要度を評価する。そのために意
味処理部4は必要な名詞等の単語について、図2(a)に
示すような意味属性を示す単語テーブルと、(b)に示す
ような各意味属性の重み値を示す意味属性テーブルを持
つ。
【0024】意味属性テーブルは、適当な分野別に設け
るのがよく、図2(b)の意味属性テーブルは例えば外交
分野の重み値を示すテーブルとすると、例えば情報産業
分野については(c)に示すような重み値のテーブルを準
備しておく。
るのがよく、図2(b)の意味属性テーブルは例えば外交
分野の重み値を示すテーブルとすると、例えば情報産業
分野については(c)に示すような重み値のテーブルを準
備しておく。
【0025】意味処理部4は、構文解析結果の必要な各
単語について単語テーブルを検索して各意味属性を得、
その意味属性で意味属性テーブルを検索して重み値を得
ると、その重み値を該当単語の重要度累積値に加算す
る。
単語について単語テーブルを検索して各意味属性を得、
その意味属性で意味属性テーブルを検索して重み値を得
ると、その重み値を該当単語の重要度累積値に加算す
る。
【0026】次に重み付け部2は、構文処理部5により
語句の品詞及び格に基づいて重要度を評価し、又複合語
や句の重要度累積値を求める。そのために構文処理部5
は、図3(a)に示すように品詞名とその重み値とを示す
品詞テーブルと、(b)のように複合語や句の構成とその
重み値とを示す句テーブルと、(c)のように構文上の格
とその重み値とを示す格テーブルとを持つ。
語句の品詞及び格に基づいて重要度を評価し、又複合語
や句の重要度累積値を求める。そのために構文処理部5
は、図3(a)に示すように品詞名とその重み値とを示す
品詞テーブルと、(b)のように複合語や句の構成とその
重み値とを示す句テーブルと、(c)のように構文上の格
とその重み値とを示す格テーブルとを持つ。
【0027】構文処理部5は、先ず各単語について構文
解析結果で示される品詞名により品詞テーブルを検索し
て重み値を得、その重み値を該当単語の重要度累積値に
加算する。
解析結果で示される品詞名により品詞テーブルを検索し
て重み値を得、その重み値を該当単語の重要度累積値に
加算する。
【0028】次に構文処理部5は、構文解析結果の複合
語及び句について、各複合語又は句を構成する単語の重
要度累積値のうち最も大きい値に、句テーブルから定ま
る重み値を加えた値を、その複合語又は句の重要度累積
値として設定する。
語及び句について、各複合語又は句を構成する単語の重
要度累積値のうち最も大きい値に、句テーブルから定ま
る重み値を加えた値を、その複合語又は句の重要度累積
値として設定する。
【0029】その後構文処理部5は、構文解析結果に示
される格について、格テーブルから定まる重み値を、該
当する語句の重要度累積値に加算する。又、重み付け部
2は、出現状態処理部6により、各語句ごとについて、
文書中での出現状態に基づいて重要度を評価する。
される格について、格テーブルから定まる重み値を、該
当する語句の重要度累積値に加算する。又、重み付け部
2は、出現状態処理部6により、各語句ごとについて、
文書中での出現状態に基づいて重要度を評価する。
【0030】そこで、出現状態処理部6は、例えば処理
する語句がタイトル中か、本文内であればでは前半の例
えば200字内か、それより後かの3ケースにより、重
み値を例えば2、1、0とするものとし、語句の文書中
の位置を識別して各重要度累積値に重み値を加算する。
する語句がタイトル中か、本文内であればでは前半の例
えば200字内か、それより後かの3ケースにより、重
み値を例えば2、1、0とするものとし、語句の文書中
の位置を識別して各重要度累積値に重み値を加算する。
【0031】又、出現状態処理部6は、図3(d)に示す
ような、強調記号として定めた、括弧記号や、下線記号
や、特別の文字フォント指定等とその重み値とを示す強
調記号テーブルを持ち、テーブルに示される強調記号が
ある場合に、その強調記号で強調される語句についての
重要度累積値に、テーブルから得られる重み値を加算す
る。
ような、強調記号として定めた、括弧記号や、下線記号
や、特別の文字フォント指定等とその重み値とを示す強
調記号テーブルを持ち、テーブルに示される強調記号が
ある場合に、その強調記号で強調される語句についての
重要度累積値に、テーブルから得られる重み値を加算す
る。
【0032】強調記号で強調される語句は、括弧記号で
括られる場合は、括弧内の語句全体が強調の対象とな
り、太字等の文字フォントや下線の場合はマークされて
いる語句が強調の対象となる。
括られる場合は、括弧内の語句全体が強調の対象とな
り、太字等の文字フォントや下線の場合はマークされて
いる語句が強調の対象となる。
【0033】次に出現状態処理部6は、構文解析結果の
全語句について、同一表記の語句ごとの出現頻度を集計
し、出現頻度に応じた重み値を各重要度累積値に加算す
る。出現頻度に応じた重み値は、例えば次のようにして
求める。
全語句について、同一表記の語句ごとの出現頻度を集計
し、出現頻度に応じた重み値を各重要度累積値に加算す
る。出現頻度に応じた重み値は、例えば次のようにして
求める。
【0034】Nを文書の全文字数として、 出現頻度≦(5/200)×N なら 重み値=0 (5/200)×N<出現頻度≦(5/100)×N なら 重み値=1 (5/100)×N<出現頻度 なら 重み値=2 図4は、例文「米・ソが『中距離核禁止』で合意」につ
いて、以上の処理を行った状態を説明する図であり、構
文解析部1による構文解析結果として、図の単語分割の
行に示すように単語に分割される。なお、この文書は分
野別として「外交分野」が指定されているものとする。
いて、以上の処理を行った状態を説明する図であり、構
文解析部1による構文解析結果として、図の単語分割の
行に示すように単語に分割される。なお、この文書は分
野別として「外交分野」が指定されているものとする。
【0035】更に構文解析部1が、図の品詞の行に示す
ように各単語の品詞を決定し、複合語/句の行に示すよ
うに3個の複合語が構成されることを示し、又、格の行
に示すように必要な語句について格を識別して、それら
の解析結果を重み付け部2に渡す。
ように各単語の品詞を決定し、複合語/句の行に示すよ
うに3個の複合語が構成されることを示し、又、格の行
に示すように必要な語句について格を識別して、それら
の解析結果を重み付け部2に渡す。
【0036】そこで重み付け部2は、図の意味属性の行
に示すように、単語テーブル(図2(a))を参照して各単
語の意味属性を決定し、前記の意味属性(外交分野)テ
ーブル(図2(b))や品詞テーブル (図3(a))を参照し
て、それぞれ図に括弧付き数字で示すように重み値を決
定して、各重要度累積値に加算する。
に示すように、単語テーブル(図2(a))を参照して各単
語の意味属性を決定し、前記の意味属性(外交分野)テ
ーブル(図2(b))や品詞テーブル (図3(a))を参照し
て、それぞれ図に括弧付き数字で示すように重み値を決
定して、各重要度累積値に加算する。
【0037】又、語句の出現位置については、この例文
がタイトルに置かれていたとして、全ての単語の出現位
置に係る重み値が前記により「2」とされる。次に以上
の重み値を加算した重要度累積値について、前記のよう
な複合語/句の重要度累積値を決める処理を行い、3個
の複合語について、それぞれ構成単語の最大の重要度累
積値を取り、この場合に何れも名詞であるので、句テー
ブル (図3(b))で定まる重み値「1」を加えた値を、図
4の複合語/句の行に示すように各重要度累積値として
設定する。
がタイトルに置かれていたとして、全ての単語の出現位
置に係る重み値が前記により「2」とされる。次に以上
の重み値を加算した重要度累積値について、前記のよう
な複合語/句の重要度累積値を決める処理を行い、3個
の複合語について、それぞれ構成単語の最大の重要度累
積値を取り、この場合に何れも名詞であるので、句テー
ブル (図3(b))で定まる重み値「1」を加えた値を、図
4の複合語/句の行に示すように各重要度累積値として
設定する。
【0038】又、構文解析結果の格について格テーブル
(図3(c))から、強調記号について強調記号テーブル
(図3(d))から、それぞれ図4の格及び強調記号重みの
行に示す重み値を加算する。
(図3(c))から、強調記号について強調記号テーブル
(図3(d))から、それぞれ図4の格及び強調記号重みの
行に示す重み値を加算する。
【0039】なお、この例で「米」と「ソ」は並立記号
「・」で繋がれていることから、両者同等の重要度を持
つと識別され、この場合の主格の重み値は、両者の単語
に共に適用される。
「・」で繋がれていることから、両者同等の重要度を持
つと識別され、この場合の主格の重み値は、両者の単語
に共に適用される。
【0040】出現頻度については、この例文が300字
の文書中の文とし、文書全体について、各語句を同一表
記ごとにまとめて出現頻度を調べた結果が図4の出現頻
度の行に示す数値となったと仮定する。
の文書中の文とし、文書全体について、各語句を同一表
記ごとにまとめて出現頻度を調べた結果が図4の出現頻
度の行に示す数値となったと仮定する。
【0041】この出現頻度に前記の重み値決定条件を適
用すると、(5/200)×300=7.5以下の頻度は重み値
「0」、7.5を越え(5/100)×300=15以下の頻度は重み値
「1」、15を越える頻度は重み値「2」となり、図示の
括弧内の各重み値が決定される。
用すると、(5/200)×300=7.5以下の頻度は重み値
「0」、7.5を越え(5/100)×300=15以下の頻度は重み値
「1」、15を越える頻度は重み値「2」となり、図示の
括弧内の各重み値が決定される。
【0042】以上の重み値を各重要度累積値に加算した
結果が、図4の最下の重要度累積値の行に示されてい
る。これらの重要度累積値について、抽出処理部3が所
定の閾値、例えば「7」より大きい値のものを選択し、
対応する語句をキーワードとして出力する。
結果が、図4の最下の重要度累積値の行に示されてい
る。これらの重要度累積値について、抽出処理部3が所
定の閾値、例えば「7」より大きい値のものを選択し、
対応する語句をキーワードとして出力する。
【0043】従ってこの例の場合に抽出処理部3は、
「米」、「ソ」、「核」、「禁止」、「合意」、「中距
離核」及び「中距離核禁止」をキーワードとして抽出す
る。図5は本発明の処理の流れの一例を示す図であり、
先ず構文解析部1が処理ステップ10で文書と分野の指定
を受け取る。
「米」、「ソ」、「核」、「禁止」、「合意」、「中距
離核」及び「中距離核禁止」をキーワードとして抽出す
る。図5は本発明の処理の流れの一例を示す図であり、
先ず構文解析部1が処理ステップ10で文書と分野の指定
を受け取る。
【0044】次に構文解析部1は、処理ステップ11で指
定の文書の1文を読み込み、処理ステップ12で識別して
文書の終わりでなく、1文を読み込めた場合には処理ス
テップ13に進んで、前記のにように構文解析処理をし
て、解析結果と分野を重み付け部2に渡す。
定の文書の1文を読み込み、処理ステップ12で識別して
文書の終わりでなく、1文を読み込めた場合には処理ス
テップ13に進んで、前記のにように構文解析処理をし
て、解析結果と分野を重み付け部2に渡す。
【0045】重み付け部2は、処理ステップ14で各語句
に重要度累積値を初期化して割り当て、処理ステップ15
で意味処理部4により指定の分野による各単語の意味属
性による重み値加算を前記のように行い、処理ステップ
16で、出現状態処理部6により各単語の出現位置による
重み値加算を前記のように行う。
に重要度累積値を初期化して割り当て、処理ステップ15
で意味処理部4により指定の分野による各単語の意味属
性による重み値加算を前記のように行い、処理ステップ
16で、出現状態処理部6により各単語の出現位置による
重み値加算を前記のように行う。
【0046】次に構文処理部5により、処理ステップ17
で各単語の品詞による重み値加算を前記のように行い、
処理ステップ18で複合語/句の重要度累積値を前記のよ
うに設定し、処理ステップ19で格による重み値加算を前
記のように該当する語句について行う。
で各単語の品詞による重み値加算を前記のように行い、
処理ステップ18で複合語/句の重要度累積値を前記のよ
うに設定し、処理ステップ19で格による重み値加算を前
記のように該当する語句について行う。
【0047】その後、処理ステップ20で出現状態処理部
6により、必要な語句について強調記号による重み値加
算を前記のように行う。次に、重み付け部2は処理ステ
ップ21で文の文字数を集計して文字数値として累積した
後処理ステップ11に戻り、構文解析部1に次の文の解析
を行わせる。
6により、必要な語句について強調記号による重み値加
算を前記のように行う。次に、重み付け部2は処理ステ
ップ21で文の文字数を集計して文字数値として累積した
後処理ステップ11に戻り、構文解析部1に次の文の解析
を行わせる。
【0048】このように1文ごとの処理を繰り返して、
最後に構文解析部1が処理ステップ12で文書の全文の処
理を終わったことを識別すると、重み付け部2に文書終
了を通知する。
最後に構文解析部1が処理ステップ12で文書の全文の処
理を終わったことを識別すると、重み付け部2に文書終
了を通知する。
【0049】そこで重み付け部2は、処理ステップ22で
全文の語句の処理結果を、同一表記の語句ごとにまとめ
て、処理ステップ23で先に集計した文字数値を文書の全
字数Nとして使って、前記により出現頻度による重み値
決定条件を算出する。
全文の語句の処理結果を、同一表記の語句ごとにまとめ
て、処理ステップ23で先に集計した文字数値を文書の全
字数Nとして使って、前記により出現頻度による重み値
決定条件を算出する。
【0050】処理ステップ24で処理の終了を識別しなが
ら、各同一表記の語句群ごとに以下の処理を繰り返すも
のとし、出現状態処理部6により処理ステップ25で同一
表記の1群についてその群に含まれる語句の件数を出現
頻度として計数する。
ら、各同一表記の語句群ごとに以下の処理を繰り返すも
のとし、出現状態処理部6により処理ステップ25で同一
表記の1群についてその群に含まれる語句の件数を出現
頻度として計数する。
【0051】次に、処理ステップ26で出現頻度による重
み値を前記計算結果から決定し、処理ステップ27で同一
表記群の最大の重要度累積値を、その表記の重要度累積
値として取りだし、それに出現頻度による重み値を加算
し、その表記と重要度累積値とを抽出処理部3に渡す。
み値を前記計算結果から決定し、処理ステップ27で同一
表記群の最大の重要度累積値を、その表記の重要度累積
値として取りだし、それに出現頻度による重み値を加算
し、その表記と重要度累積値とを抽出処理部3に渡す。
【0052】抽出処理部3は処理ステップ28で、受け取
った重要度累積値と所定の閾値を比較し、重要度累積値
が閾値より大きい場合のみ処理ステップ29で、受け取っ
ている表記の語句をキーワードとして出力し、以上の処
理の後処理ステップ24に戻り、重み付け部2により次の
同一表記群の処理をさせる。
った重要度累積値と所定の閾値を比較し、重要度累積値
が閾値より大きい場合のみ処理ステップ29で、受け取っ
ている表記の語句をキーワードとして出力し、以上の処
理の後処理ステップ24に戻り、重み付け部2により次の
同一表記群の処理をさせる。
【0053】
【発明の効果】以上の説明から明らかなように本発明に
よれば、キーワードの抽出処理において、構文解析し
て、各語句の構文上の役割等から、それらの語句の重要
度を評価すると共に、各語句の意味属性を、文書内容の
分野別の基準で評価し、それらの評価を重要度累積値と
して総合するので、キーワード自動抽出に際し、文書の
意味内容を加味して語句の重要度を評価することが可能
になり、適切なキーワードの自動抽出ができるという著
しい工業的効果がある。
よれば、キーワードの抽出処理において、構文解析し
て、各語句の構文上の役割等から、それらの語句の重要
度を評価すると共に、各語句の意味属性を、文書内容の
分野別の基準で評価し、それらの評価を重要度累積値と
して総合するので、キーワード自動抽出に際し、文書の
意味内容を加味して語句の重要度を評価することが可能
になり、適切なキーワードの自動抽出ができるという著
しい工業的効果がある。
【図1】 本発明の構成を示すブロック図
【図2】 意味属性テーブル等を説明する図
【図3】 品詞テーブル等を説明する図
【図4】 本発明の処理の一例を説明する図
【図5】 本発明の処理の流れ図
1 構文解析部 2 重み付け部 3 抽出処理部 4 意味処理部 5 構文処理部 6 出現状態処理部 10〜29 処理ステップ
Claims (4)
- 【請求項1】 構文解析部(1)と、重み付け部(2)と、抽
出処理部(3)とを有し、 該構文解析部(1)は、所与の文書について、構文解析を
実行して、該文書を構成する文字列を、単語、複合語及
び句を含む語句に分割し、各該語句について、品詞及び
格を決定し、 該重み付け部(2)は、意味処理部(4)と、構文処理部(5)
と、出現状態処理部(6)とを有し、 該構文解析結果の各該語句に各重要度累積値に初期値を
割り当て、 該意味処理部(4)により、各該語句ごとについて、当該
語句の意味属性に基づいて予め定める重み値を該重要度
累積値に加算し、 該構文処理部(5)により、各該語句ごとについて、当該
語句の品詞及び格に基づいて、それぞれ予め定める重み
値を該重要度累積値に加算し、 該出現状態処理部(6)により、各該語句ごとについて、
該文書中での出現状態に基づいて予め定める重み値を該
重要度累積値に加算し、 該抽出処理部(3)は、該重み付け部(2)の処理した結果か
ら、所定の閾値より大きい値を有する該重要度累積値を
選択し、該選択した重要度累積値に対応する該語句をキ
ーワードとして出力するように構成されていることを特
徴とするキーワード抽出処理装置。 - 【請求項2】 前記出現状態処理部(6)は、各前記語句
ごとについて、該文書中の出現位置に基づいて予め定め
る重み値と、 同一表記の該語句の前記文書中の出現頻度に基づいて予
め定める重み値とを、それぞれ該当する前記重要度累積
値に演算する、請求項1記載のキーワード抽出処理装
置。 - 【請求項3】 前記出現状態処理部(6)は、予め定める
記号を強調記号とし、前記文書中の該強調記号の出現位
置と、前記語句との位置関係に基づいて予め定める重み
値を該当する前記重要度累積値に演算する、請求項1又
は請求項2記載のキーワード抽出処理装置。 - 【請求項4】 前記意味処理部(4)は、前記語句の意味
属性に基づいて予め定める重み値を所定の分野ごとに有
し、前記文書について指定される該分野に従って、前記
重要度累積値に演算する該重み値を選択する、請求項
1、請求項2又は請求項3記載のキーワード抽出処理装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5232751A JPH0785101A (ja) | 1993-09-20 | 1993-09-20 | キーワード抽出処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5232751A JPH0785101A (ja) | 1993-09-20 | 1993-09-20 | キーワード抽出処理装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0785101A true JPH0785101A (ja) | 1995-03-31 |
Family
ID=16944191
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5232751A Pending JPH0785101A (ja) | 1993-09-20 | 1993-09-20 | キーワード抽出処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0785101A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10105555A (ja) * | 1996-09-26 | 1998-04-24 | Sharp Corp | 対訳例文検索装置 |
| JP2011014010A (ja) * | 2009-07-03 | 2011-01-20 | Nec Corp | 情報アセスメントシステム、情報アセスメント方法及びプログラム |
| US10198426B2 (en) | 2014-07-28 | 2019-02-05 | International Business Machines Corporation | Method, system, and computer program product for dividing a term with appropriate granularity |
| JP2022079442A (ja) * | 2020-11-16 | 2022-05-26 | 深▲ゼン▼市世強元件網絡有限公司 | ユーザの検索シーンを識別する方法及びシステム |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
| JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
| JPH038070A (ja) * | 1989-04-21 | 1991-01-16 | Hitachi Ltd | キーワード抽出方式 |
| JPH05135107A (ja) * | 1991-11-14 | 1993-06-01 | Ricoh Co Ltd | 文書検索装置 |
-
1993
- 1993-09-20 JP JP5232751A patent/JPH0785101A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
| JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
| JPH038070A (ja) * | 1989-04-21 | 1991-01-16 | Hitachi Ltd | キーワード抽出方式 |
| JPH05135107A (ja) * | 1991-11-14 | 1993-06-01 | Ricoh Co Ltd | 文書検索装置 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10105555A (ja) * | 1996-09-26 | 1998-04-24 | Sharp Corp | 対訳例文検索装置 |
| JP2011014010A (ja) * | 2009-07-03 | 2011-01-20 | Nec Corp | 情報アセスメントシステム、情報アセスメント方法及びプログラム |
| US10198426B2 (en) | 2014-07-28 | 2019-02-05 | International Business Machines Corporation | Method, system, and computer program product for dividing a term with appropriate granularity |
| JP2022079442A (ja) * | 2020-11-16 | 2022-05-26 | 深▲ゼン▼市世強元件網絡有限公司 | ユーザの検索シーンを識別する方法及びシステム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ahonen et al. | Applying data mining techniques for descriptive phrase extraction in digital document collections | |
| US5369577A (en) | Text searching system | |
| US5708829A (en) | Text indexing system | |
| US5323316A (en) | Morphological analyzer | |
| US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
| CN1310172C (zh) | 生成候补同义词的数据处理方法和系统 | |
| CA2236623C (en) | Method and apparatus for automatically identifying key words within a document | |
| EP2354967A1 (en) | Semantic textual analysis | |
| WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
| CN103136352A (zh) | 基于双层语义分析的全文检索系统 | |
| JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
| US20070016863A1 (en) | Method and apparatus for extracting and structuring domain terms | |
| WO2009123260A1 (ja) | 共起辞書作成システムおよびスコアリングシステム | |
| US20040225497A1 (en) | Compressed yet quickly searchable digital textual data format | |
| Scott et al. | University of Sheffield TREC‐9 Q & A System | |
| Kraaij et al. | Evaluation of a Dutch stemming algorithm | |
| JPH10254900A (ja) | 自動文書要約装置及び方法 | |
| JPH0785101A (ja) | キーワード抽出処理装置 | |
| JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
| JP3985483B2 (ja) | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 | |
| AU607963B2 (en) | Information retrieval system and method | |
| JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
| JP2000137718A (ja) | 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 | |
| JP3360803B2 (ja) | 関連する単語の意味の決定方法の実施に使用される記録媒体およびそのシステム | |
| JPH07175808A (ja) | 自然言語処理装置 |