JPH0830627A - キーワード抽出方式 - Google Patents

キーワード抽出方式

Info

Publication number
JPH0830627A
JPH0830627A JP6149775A JP14977594A JPH0830627A JP H0830627 A JPH0830627 A JP H0830627A JP 6149775 A JP6149775 A JP 6149775A JP 14977594 A JP14977594 A JP 14977594A JP H0830627 A JPH0830627 A JP H0830627A
Authority
JP
Japan
Prior art keywords
character
character string
character type
unit
affix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6149775A
Other languages
English (en)
Inventor
Yasuyuki Mochizuki
泰行 望月
Katsushi Suzuki
克志 鈴木
Yoichi Fujii
洋一 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP6149775A priority Critical patent/JPH0830627A/ja
Publication of JPH0830627A publication Critical patent/JPH0830627A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 テキストからキーワードを抽出する処理にお
いて、主に字面の解析を行なうことによって、処理を高
速化する。また、使用頻度の高い語だけを集めた小規模
な基本語辞書を利用して、複合語の分割や不必要なキー
ワードの削除を高速に行なう。 【構成】 字種判別部1が判別した字種の情報を元にし
て、有効字種文字列(複合語)を切り出し、字種境界判
別部6と接辞判別部10と基本語判別部14によって判
別した分割点によって有効字種文字列(複合語)を分割
し、名詞判別部4が名詞の可能性のない文字列を削除
し、基本語削除部16が不必要なキーワードを削除す
る。さらに、必要キーワード切出部18が切り出した文
字列を加えてキーワードとして出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、大量文書を管理する
文書検索システムにおいて、あらかじめ文書のテキスト
から自動的にキーワードを抽出してデータベースを作成
することにより高速な文書の検索を可能とするためのキ
ーワード抽出方式に関するものである。
【0002】
【従来の技術】計算機の普及が進み、計算機で文書を作
成する機会が増すとともに、作成された大量の文書を管
理するシステムが必要となっている。文書管理システム
には文書の登録、保管、参照、検索などの機能が必要で
ある。登録した文書から所望の文書を検索する際に、登
録したすべての文書を検索のたびに参照することにより
所望の文書であるか、ないかを判別する方式では、検索
対象の文書が大量な場合に文書の検索が低速で時間がか
かる。一般に、大量の文書から所望の文書を検索するに
は、登録文書をもとに2次情報データベースをあらかじ
め作成し、検索時にはその2次情報データベースを参照
して検索対象の範囲を縮小させることにより、検索時間
の短縮を行なう。2次情報データベースを実現する方式
として、統制キーワード方式がある。統制キーワード方
式は、固定されたキーワードの集合を用意し、個々の文
書に対して適切なキーワードを付与してデータベースに
蓄積し、これを2次情報データベースとして用いる方式
である。
【0003】この方式においては、文書に対するキーワ
ードの付与を人手で行なわなければならないため、2次
情報データベースの作成に時間がかかる。また、付与す
るキーワードが作業者によって異なるなど、キーワード
付与の基準が曖昧である。さらに、キーワードの集合
を、技術の進歩や社会情勢の変化に随時適応させていく
ことが困難であるという問題があった。
【0004】従来このような要求に応えるものとして、
図18に示すような方式が提案されている。図18は情
報処理学会第45回全国大会3S−1に示されたテキス
トデータベースのためのキーワード抽出法を用いた文書
管理システムの説明図である。
【0005】図18において、71は登録テキスト、7
2はキーワード抽出処理部、73はキーワードデータベ
ースである。キーワード抽出処理部72において登録テ
キスト71からキーワードを抽出し、キーワードデータ
ベース73に保管する。検索時には、検索語に対してプ
レサーチを行なったあと、キーワードデータベースの情
報を用いて、検索された文書にランクを付してソートし
て出力する。図19は図18におけるキーワード抽出処
理部において「リコーの中央研究所は超音波センサーを
使った形状識別装置を9月に開発した。」というテキス
トからキーワードを抽出する動作の説明図である。
【0006】図19において、74は形態素解析によっ
て分割された個々の単語、75は基本語辞書から得られ
た単語の品詞、76は基本語辞書から得られたキーワー
ド素性、77はキーワード判定結果であり、品詞とキー
ワード素性から決定される。図19を得るために基本語
辞書検索を用いた形態素解析を行ない、その結果の品詞
とキーワード素性の情報によってキーワードの判定を行
なう。
【0007】
【発明が解決しようとする課題】従来のキーワード抽出
方式は上記のように構成されているので以下の問題点が
あった。第1に形態素解析時に大規模な基本語辞書を最
長一致法によって検索するため、キーワード抽出処理が
低速である。例えば「超音波センサーを使った形状識別
装置を9月に開発した。」という26文字のテキストに
対して、最長一致法による基本語辞書検索を行なうと、
最初に「超音波センサーを使った形状識別装置を9月に
開発した」を基本語辞書検索し、基本語辞書検索に失敗
すると次に「超音波センサーを使った形状識別装置を9
月に開発し」を基本語辞書検索し、これにも失敗すると
「超音波センサーを使った形状識別装置を9月にに開
発」を基本語辞書検索するというように、1文字づつ削
って基本語辞書検索を行ない、「超音波」の基本語辞書
検索が成功するまで22回の基本語辞書検索を行なう。
次に、「センサーを使った形状識別装置を9月に開発し
た」に対して同様の処理を行ない、「センサー」の基本
語辞書検索が成功するまで、19回の基本語辞書検索を
行なう。以下同様にして、最終的に「超音波」、「セン
サー」、「を」、「使った」、「形状」、「識別」、
「装置」、「を」、「9月」、「に」、「開発した」、
「。」と分割されるまで行なう。一般に基本語辞書は計
算機の2次記憶上におかれるため、基本語辞書の検索は
低速である上に、上記の例では百回以上の基本語辞書検
索を行なうため、形態素解析処理が低速であり、キーワ
ード抽出処理全体が低速となる。
【0008】第2に形態素解析処理での未知語に対する
属性の付与が困難であるという問題がある。形態素解析
により分割した個々の文字列には、基本語辞書に格納さ
れている品詞などの属性が割当てられる。この属性情報
をもとに、文字列がキーワードであるか、キーワードで
ないかを判別して、キーワードを抽出する。しかし、基
本語辞書に格納されていない未知語に対しては、属性情
報が割当てられないため、キーワードであるか、キーワ
ードでないかの判別が困難である。
【0009】この発明は、以上のような問題点を解消す
るためになされたもので、キーワード抽出処理において
形態素解析の代わりに字種解析を行なうことにより、処
理を高速に行なうキーワード抽出方式を提供することを
目的とする。
【0010】
【課題を解決するための手段】請求項1のキーワード抽
出方式は、入力されたテキストの文字を種類分けする字
種判別部と、この字種判別部で判別された字種を記憶す
る字種記憶手段と、この字種記憶手段が記憶した情報か
ら有効な字種が続く限り文字列を切り出す有効字種文字
列切出部と、名詞に後接する可能性のある平仮名文字列
を格納した名詞後接平仮名文字列格納手段と、前記有効
字種文字列切出部が切り出した文字列から、前記名詞後
接平仮名文字列格納手段を使って名詞である可能性のあ
る名詞候補文字列を抽出する名詞判別部と、を備えたも
のである。
【0011】請求項2のキーワード抽出方式は、請求項
1記載のキーワード抽出方式において、字種記憶手段が
記憶した情報を使用して有効字種文字列の字種の変わり
目を判別する字種境界判別部と、この字種境界判別部が
判別した字種の変わり目を字種分割点として記憶する字
種分割点記憶手段と、有効字種文字列切出部が切り出し
た有効字種文字列から、部分文字列を切り出す部分文字
列切出部と、を備えたものである。
【0012】請求項3のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、部分文字列切出
部は、有効字種文字列切出部が切り出した有効字種文字
列から、字種分割点を切り目とした部分文字列を網羅的
に切り出すことを特徴とする。
【0013】請求項4のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、使用頻度の高い
接辞をその属性と共に格納した接辞格納手段と、この接
辞格納手段を用いて有効字種文字列の中の全ての接辞を
判別する接辞判別部と、この接辞判別部が判別した全て
の接辞の前後を接辞分割点として記憶する接辞分割点記
憶手段と、を備え、部分文字列切出部は、有効字種文字
列切出部が切り出した有効字種文字列から、字種分割点
と前記接辞分割点を切り目とした部分文字列を接辞の属
性を考慮して切り出すことを特徴とする。
【0014】請求項5のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、使用頻度の高い
名詞を格納した基本語格納手段と、この基本語格納手段
を用いて有効字種文字列の中の基本語を判別する基本語
判別部と、この基本語判別部が判別した全ての基本語の
前後を基本語分割点として記憶する基本語分割点記憶手
段と、を備え、部分文字列切出部は、有効字種文字列切
出部が切り出した有効字種文字列から、字種分割点と接
辞分割点と前記基本語分割点を切り目とした部分文字列
を接辞の属性を考慮して切り出すことを特徴とする。
【0015】請求項6のキーワード抽出方式は、請求項
5記載のキーワード抽出方式において、基本語格納手段
に格納されている文字列を削除する基本語削除部を備え
たことを特徴とする。
【0016】請求項7のキーワード抽出方式は、請求項
5記載のキーワード抽出方式において、予め定められた
文字列を格納しておく必要キーワード格納手段と、この
必要キーワード格納手段に格納されている文字列と一致
する文字列をテキストから切り出す必要キーワード切出
部と、を備えたことを特徴とする。
【0017】請求項8のキーワード抽出方式は、請求項
7記載のキーワード抽出方式において、数字列が後接す
る文字列の一覧を格納した前置助数詞格納手段と、数字
列に後接する文字列の一覧を格納した後置助数詞格納手
段を用いて有効字種文字列の中の数量表現を判別する数
量表現判別部と、この数量表現判別部が判別した全ての
数量表現の前後を数量表現分割点として記憶する数量表
現分割点記憶手段と、を備え、部分文字列切出部は、有
効字種文字列切出部が切り出した有効字種文字列から、
字種分割点と接辞分割点と基本語分割点と前記数量表現
分割点を切り目とした部分文字列を接辞の属性を考慮し
て切り出すことを特徴とする。
【0018】請求項9のキーワード抽出方式は、請求項
8記載のキーワード抽出方式において、中黒、スラッシ
ュ、ハイフン、ダッシュ、マイナスなどの記号文字を、
切り出した部分文字列から取り除く記号文字削除部を備
えたことを特徴とする。
【0019】請求項10のキーワード抽出方式は、請求
項9記載のキーワード抽出方式において、予め設けられ
た文字数の制限を逸脱する文字列を削除する文字数制限
部を備えたことを特徴とする。
【0020】
【作用】請求項1のキーワード抽出方式は、入力された
テキストから字種判別部が切り出した有効字種文字列
を、名詞判別部が不必要な文字列を削除してキーワード
として出力する。
【0021】請求項2のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、これに基づいて部分文字列切出部が部分文字列を切
り出し、名詞判別部が不必要な文字列を削除してキーワ
ードとして出力する。
【0022】請求項3のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点の情報を用いて部分文字列切出部が部分
文字列を切り出し、名詞判別部が不必要な文字列を削除
してキーワードとして出力する。
【0023】請求項4のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部が不必要な
文字列を削除してキーワードとして出力する。
【0024】請求項5のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部が不必要な文字列を削除してキーワードとして出力
する。
【0025】請求項6のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部と基本語削除部が不必要な文字列を削除してキーワ
ードとして出力する。
【0026】請求項7のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部と基本語削除部が不必要な文字列を削除し、必要キ
ーワード切出部が切り出したキーワードをこれに加え
て、キーワードとして出力する。
【0027】請求項8のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点と数量表現
分割点の情報を用いて部分文字列切出部が部分文字列を
切り出し、名詞判別部と基本語削除部が不必要な文字列
を削除し、必要キーワード切出部が切り出したキーワー
ドをこれに加えて、キーワードとして出力する。
【0028】請求項9のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点と数量表現
分割点の情報を用いて部分文字列切出部が部分文字列を
切り出し、名詞判別部と基本語削除部が不必要な文字列
を削除し、必要キーワード切出部が切り出したキーワー
ドをこれに加え、切り出したキーワードから中黒などの
記号文字を削除して、キーワードとして出力する。
【0029】請求項10のキーワード抽出方式は、入力
されたテキストから字種判別部が有効字種文字列を切り
出し、字種分割点と接辞分割点と基本語分割点と数量表
現分割点の情報を用いて部分文字列切出部が部分文字列
を切り出し、名詞判別部と基本語削除部が不必要な文字
列を削除し、必要キーワード切出部が切り出したキーワ
ードをこれに加え、切り出した文字列から中黒などの記
号文字を削除し、文字数制限を逸脱する文字列を削除し
て、キーワードとして出力する。
【0030】
【実施例】
実施例1.図1は、この発明によるキーワード抽出方式
の実施例1の全体構成図である。図1において、1は字
種判別部であり、入力されたテキストの各文字の字種を
判別し、字種記憶手段2に渡す。字種記憶手段2は字種
判別部1が判別したテキストの各文字の位置とその文字
の字種との対応を記憶する。3は有効字種文字列切出部
であり、字種記憶手段2が記憶した情報を元に片仮名、
漢字、アルファベット、数字の4種類の有効な字種が続
く限り長い有効字種文字列をすべて切り出し、名詞判別
部4に渡す。名詞判別部4は、有効字種文字列切出部3
が切り出した各有効字種文字列に後接する文字が平仮名
である場合に、名詞後接平仮名格納手段5に格納されて
いる平仮名文字列と比較を行ない、後接する平仮名の先
頭部分文字列が名詞後接平仮名格納手段5に格納されて
いる平仮名文字列のうちのいずれとも一致しないとき
に、その有効字種文字列を削除する。
【0031】図2は、図1の名詞後接平仮名格納手段5
に格納された平仮名文字列の例である。例として、「手
持ち資料によるシステムの構築」というテキストが入力
された場合について説明する。
【0032】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは漢字、2文字めは漢字、
3文字めは平仮名、4文字めは漢字というように、文字
位置と字種との対応を字種記憶手段2が記憶する。
【0033】次に、有効字種文字列切出部3が「手
持」、「資料」、「システム」、「構築」の4つの文字
列を切り出す。
【0034】次に、名詞判別部4において、まず「手
持」に後接する平仮名文字列「ち」と名詞後接平仮名格
納手段5に格納されているすべての平仮名文字列を比較
する。「ち」の先頭部分文字列は「ち」だけであり、名
詞後接平仮名格納手段5に格納されているいずれの平仮
名文字列とも一致しないので、「手持」を削除する。同
様に、名詞判別部4において「資料」に後接する「によ
る」の先頭部分文字列「に」と名詞後接平仮名格納手段
5に格納されている平仮名文字列「に」が一致するた
め、「資料」は削除されない。同様に、名詞判別部4に
おいて「システム」に後接する「の」と名詞後接平仮名
格納手段5に格納されている平仮名文字列「の」が一致
するため、「システム」は削除されない。同様に、名詞
判別部4において「構築」に後接する平仮名文字列はな
いので、「システム」は削除されない。
【0035】最後に、削除されなかった「資料」、「シ
ステム」、「構築」が出力される。
【0036】実施例1は、入力されたテキストから字種
判別部が切り出した有効字種文字列を、名詞判別部が不
必要な文字列を削除して、キーワードとして出力するの
で、テキストを字種レベルの情報によって解析すること
により、形態素解析を行う場合より高速にキーワードを
抽出できると共に、未知語に対する属性の付与という困
難な処理から解放される。
【0037】実施例2.図3はこの発明による実施例2
のキーワード抽出方式の全体構成図である。図3におけ
る符号1〜5は、それぞれ、図1における符号1〜5と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段である。6は
字種境界判別部であり、字種記憶手段2に記憶した情報
を元に、すべての有効字種文字列の字種のすべての変わ
り目の位置を判別し、字種分割点記憶手段7に渡す。字
種分割点記憶手段7は、字種境界判別部で判別したすべ
ての字種の変わり目の位置を記憶する。12は部分文字
列切出部であり、字種分割点記憶手段7が記憶した字種
分割点のうちひとつまたはふたつの分割点によって部分
文字列を切り出す。
【0038】図4は、図3の名詞後接平仮名格納手段5
に格納された平仮名文字列の例である。例として、「C
言語プログラムの説明」というテキストが入力された場
合について説明する。
【0039】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めはアルファベット、2文字
めは漢字、3文字めは漢字、4文字めは片仮名というよ
うに、文字位置と字種との対応を字種記憶手段2が記憶
する。
【0040】次に、有効字種文字列切出部3が「C言語
プログラム」、「説明」の2つの文字列を切り出す。
【0041】次に、字種境界判別部6が、「C言語プロ
グラム」では1文字めの後と3文字めの後が字種の変わ
り目であることを判別し、字種分割点記憶手段7が字種
分割点としてに記憶する。また、「説明」に対する字種
分割点はない。
【0042】次に、部分文字列切出部12が、1文字め
の後というひとつの分割点によって「C言語プログラ
ム」をふたつに分割して「C」と「言語プログラム」と
いう部分文字列を切り出す。同様に、部分文字列切出部
12が、3文字めの後というひとつの分割点によって
「C言語プログラム」をふたつに分割して「C言語」と
「プログラム」という部分文字列を切り出す。同様に、
部分文字列切出部12が、1文字めの後と3文字めの後
というふたつの分割点にはさまれた文字列として「C言
語」という部分文字列を切り出す。また、部分文字列切
出部13において「説明」には分割点がないので、部分
文字列は切り出されない。ここまでで、「C言語プログ
ラム」、「C」、「言語プログラム」、「C言語」、
「プログラム」、「言語」、「説明」の7つの部分文字
列が切り出された。
【0043】次に、名詞判別部4において、まず「C言
語プログラム」に後接する平仮名文字列「の」と名詞後
接平仮名格納手段5に格納されているすべての平仮名文
字列を比較する。「の」の先頭部分文字列「の」と名詞
後接平仮名格納手段5に格納されている平仮名文字列
「の」が一致するため、「C言語プログラム」は削除さ
れない。さらに、「言語プログラム」、「プログラム」
も「の」が後接しているため、削除されない。そして、
「C」、「C言語」、「言語」、「説明」は平仮名が後
接していないため、削除されない。
【0044】最後に、削除されなかった「C言語プログ
ラム」、「C」、「言語プログラム」、「C言語」、
「プログラム」、「言語」、「説明」が出力される。
【0045】実施例2は、入力されたテキストから字種
判別部が有効字種文字列を切り出し、字種分割点の情報
を用いて部分文字列切出部が部分文字列を切り出し、名
詞判別部が不必要な文字列を削除して、キーワードとし
て出力するので、キーワードをさらに網羅的に抽出する
ことができる。
【0046】実施例3.図5はこの発明による実施例3
のキーワード抽出方式の全体構成図である。図5におけ
る符号1〜5は、それぞれ、図1における符号1〜5と
同様の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
6、7はそれぞれ図3における符号6、7と同等の字種
境界判別部、字種分割点記憶手段である。9は接辞格納
手段であり、使用頻度の高い接辞を格納している。10
は接辞判別部であり、文字列中のすべての接辞を判別
し、接辞分割点記憶手段11に渡す。接辞分割点記憶手
段11は、接辞判別部10が判別した接辞の前後の位置
を接辞分割点として記憶する。12は部分文字列切出部
であり、字種分割点記憶手段7が記憶した字種分割点と
接辞分割点記憶手段11が記憶した接辞分割点のうちひ
とつまたはふたつの分割点によって部分文字列を切り出
す。
【0047】図6は、図5の接辞格納手段9に格納され
た接辞の例である。例として、「マシン環境再確認」と
いうテキストが入力された場合について説明する。
【0048】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは片仮名、2文字めは片仮
名、3文字めは片仮名、4文字めは漢字というように、
文字位置と字種との対応を字種記憶手段2が記憶する。
【0049】次に、有効字種文字列切出部3が「マシン
環境再確認」全体を切り出す。
【0050】次に、字種境界判別部6が、「マシン環境
再確認」の3文字めの後が字種の変わり目であることを
判別し、字種分割点記憶手段7が字種分割点として記憶
する。
【0051】次に、接辞判別部10は「再」が接辞であ
ることを判別し、接辞分割点記憶手段11が5文字めの
後を接辞の前の接辞分割点として記憶し、接辞分割点記
憶手段11が6文字めの後を接辞の後の接辞分割点とし
て記憶する。
【0052】次に、部分文字列切出部12が3文字めの
後というひとつの分割点によって「マシン環境再確認」
をふたつに分割して、「マシン」と「環境再確認」とい
う部分文字列を切り出す。同様に、部分文字列切出部1
2が5文字めの後というひとつの分割点によって「マシ
ン環境再確認」をふたつに分割して、「マシン環境」と
「再確認」という部分文字列を切り出す。同様に、部分
文字列切出部24が6文字めの後というひとつの分割点
によって「マシン環境再確認」をふたつに分割して「マ
シン環境再」と「確認」という部分文字列を切り出す
が、接辞「再」が接頭語であることを考慮して「再」で
終わる「マシン環境再」を削除した「確認」のみを切り
出す。そして、部分文字列切出部12が3文字めの次と
5文字めの次というふたつの分割点にはさまれた文字列
として「環境」という部分文字列を切り出す。同様に、
部分文字列切出部24が3文字めの次と6文字めの次と
いうふたつの分割点にはさまれた文字列として「環境
再」という部分文字列を切り出すが、接辞「再」が接頭
語であることを考慮して「再」で終わる「環境再」を削
除する。同様に、部分文字列切出部12が5文字めの次
と6文字めの次というふたつの分割点にはさまれた文字
列として「再」という部分文字列を切り出すが、接辞
「再」が接頭語であることを考慮して「再」を削除す
る。結果的に、「マシン環境再確認」、「マシン」、
「環境再確認」、「マシン環境」、「再確認」、「確
認」、「環境」の7つの部分文字列が切り出される。
【0053】次に、名詞判別部4において、上記の7つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。
【0054】最後に、「マシン環境再確認」、「マシ
ン」、「環境再確認」、「マシン環境」、「再確認」、
「確認」、「環境」が出力される。
【0055】例では、部分文字列切出部12において、
切り出した部分文字列の中から接頭語で終わる部分文字
列を削除したが、接尾語で始まる部分文字列をも削除す
ることは言うまでもない。
【0056】また、「約」という接頭語に対して「婚
約」という言葉があることなどを考慮して、接頭語で終
わる部分文字列や接尾語で始まる部分文字列を削除しな
い方式も考えられる。
【0057】実施例3によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点の情報を用いて部分文字列切出部が部分文
字列を切り出し、名詞判別部が不必要な文字列を削除し
てキーワードとして出力するので、キーワードをさらに
網羅的に抽出することができる。
【0058】実施例4.図7はこの発明による実施例4
のキーワード抽出方式の全体構成図である。図7におけ
る符号1〜5は、それぞれ、図1における符号1〜5と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
6、7はそれぞれ図3における符号6、7と同等の字種
境界判別部、字種分割点記憶手段であり、符号9〜12
はそれぞれ図5における符号9〜12と同等の接辞格納
手段、接辞判別部、接辞分割点記憶手段、部分文字列切
出部である。13は基本語格納手段であり、使用頻度の
高い名詞を格納している。14は基本語判別部であり、
文字列中のすべての基本語を判別し、基本語分割点記憶
手段15に渡す。基本語分割点記憶手段15は、基本語
判別部14が判別した基本語の前後の位置を基本語分割
点として記憶する。部分文字列切出部12は、字種分割
点記憶手段7が記憶した字種分割点と接辞分割点記憶手
段11が記憶した接辞分割点と基本語分割点記憶手段1
5が記憶した基本語分割点のうちひとつまたはふたつの
分割点によって部分文字列を切り出す。
【0059】図8は、図7の基本語格納手段13に格納
された基本語の例である。例として、「日英機械翻訳」
というテキストが入力された場合について説明する。
【0060】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは漢字、2文字めは漢字、
3文字めは漢字、4文字めは漢字というように、文字位
置と字種との対応を字種記憶手段2が記憶する。
【0061】次に、有効字種文字列切出部3が「日英機
械翻訳」全体を切り出す。
【0062】次に、「日英機械翻訳」には字種の変わり
目がないので、字種分割点記憶手段7に記憶される字種
分割点はない。
【0063】次に、「日英機械翻訳」には接辞がないの
で、接辞分割点記憶手段11に接辞分割点は記憶されな
い。
【0064】次に、基本語判別部14が「機械」が基本
語であることを判別し、2文字めの後と4文字めの後が
基本語分割点であることを基本語分割点記憶手段15が
記憶する。
【0065】次に、部分文字列切出部12が2文字めの
後というひとつの分割点によって「日英機械翻訳」をふ
たつに分割して「日英」と「機械翻訳」という部分文字
列を切り出す。同様に、部分文字列切出部12が5文字
めの後というひとつの分割点によって「日英機械翻訳」
をふたつに分割して「日英機械」と「翻訳」という部分
文字列を切り出す。さらに、部分文字列切出部12が2
文字めの次と4文字めの次というふたつの分割点にはさ
まれた文字列として「機械」という部分文字列を切り出
す。結果的に、「日英機械翻訳」、「日英」、「機械翻
訳」、「日英機械」、「翻訳」、「機械」の6つの部分
文字列が切り出される。
【0066】次に、名詞判別部4において、上記の6つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。
【0067】最後に、「日英機械翻訳」、「日英」、
「機械翻訳」、「日英機械」、「翻訳」、「機械」が出
力される。
【0068】例では、基本語格納手段13に格納される
語として名詞を用いたが、サ変名詞、形容動詞、副詞な
どの他の品詞を加えてもよいことは言うまでもない。
【0069】また、基本語格納手段13に格納される語
の文字数や字種を限定すると、基本語判別部14の処理
が高速化される。例えば、文字数を限定しない場合には
基本語判別部14の処理時間は一般的に有効字種文字列
の文字数の2乗に比例することになるが、2文字に限定
すると基本語判別部14の処理時間は有効字種文字列の
文字数に比例する。さらに、格納される語数の縮小によ
っても処理時間が短縮される。
【0070】実施例4によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部が不必要な
文字列を削除してキーワードとして出力するので、文字
列を接辞の属性を考慮して切り出し、基本語格納手段に
格納される語には、語の属性情報が格納されていないた
め、基本語格納手段が占有するサイズは形態素解析に用
いられる辞書より小さく、2次記憶装置上に置く必要が
ないため、高速な処理時間を保つことができる。
【0071】実施例5.図9はこの発明による実施例5
のキーワード抽出方式の全体構成図である。図9におけ
る符号1〜5は、それぞれ、図1における符号1〜5と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
6、7はそれぞれ図3における符号6、7と同等の字種
境界判別部、字種分割点記憶手段であり、符号9〜12
は、それぞれ、図5における符号9〜12と同等の接辞
格納手段、接辞判別部、接辞分割点記憶手段、部分文字
列切出部であり、符号13〜15は、それぞれ、図7に
おける符号13〜15と同等の基本語格納手段、基本語
判別部、基本語分割点記憶手段である。16は基本語削
除部であり、基本語格納手段13に格納されているいず
れかと一致する部分文字列を削除する。
【0072】図10は、図9の基本語格納手段13に格
納された基本語の例である。例として、「日英機械翻
訳」というテキストが入力された場合について説明す
る。
【0073】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは漢字、2文字めは漢字、
3文字めは漢字、4文字めは漢字というように、文字位
置と字種との対応を字種記憶手段2が記憶する。
【0074】次に、有効字種文字列切出部3が「日英機
械翻訳」全体を切り出す。
【0075】次に、「日英機械翻訳」には字種の変わり
目がないので、字種分割点記憶手段7に記憶される字種
分割点の情報はない。
【0076】次に、「日英機械翻訳」には接辞がないの
で、接辞分割点記憶手段11に接辞分割点は記憶されな
い。
【0077】次に、基本語判別部14が「機械」が基本
語であることを判別し、基本語分割点記憶手段15が2
文字めの後と4文字めの後を基本語分割点として記憶す
る。
【0078】次に、部分文字列切出部12が2文字めの
後というひとつの分割点によって「日英機械翻訳」をふ
たつに分割して「日英」と「機械翻訳」という部分文字
列を切り出す。同様に、部分文字列切出部12が5文字
めの後というひとつの分割点によって「日英機械翻訳」
をふたつに分割して「日英機械」と「翻訳」という部分
文字列を切り出す。さらに、部分文字列切出部12が2
文字めの次と4文字めの次というふたつの分割点にはさ
まれた文字列として「機械」という部分文字列を切り出
す。結果的に、「日英機械翻訳」、「日英」、「機械翻
訳」、「日英機械」、「翻訳」、「機械」の6つの部分
文字列が切り出される。
【0079】次に、名詞判別部4において、上記の6つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。
【0080】次に、基本語削除部16が基本語格納手段
13に格納されている「機械」を部分文字列から削除す
る。
【0081】最後に、「日英機械翻訳」、「日英」、
「機械翻訳」、「日英機械」、「翻訳」が出力される。
【0082】例では、基本語格納手段13に格納される
語として名詞を用いたが、サ変名詞、形容動詞、副詞な
どの他の品詞を加えてもよいことは言うまでもない。
【0083】また、基本語格納手段13に格納される語
の文字数や字種を限定すると、基本語判別部14の処理
が高速化される。例えば、文字数を限定しない場合には
基本語判別部14の処理時間は一般的に有効字種文字列
の文字数の2乗に比例することになるが、2文字に限定
すると基本語判別部14の処理時間は有効字種文字列の
文字数に比例する。さらに、格納される語数の縮小によ
っても処理時間が短縮される。
【0084】実施例5によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部と基本語削
除部が不必要な文字列を削除してキーワードとして出力
するので、検索に用いる2次情報データベースの作成に
不要なキーワードを削除できる。
【0085】実施例6.図11はこの発明による実施例
6のキーワード抽出方式の全体構成図である。図11に
おける符号1〜5は、それぞれ、図1における符号1〜
5と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判別部、名詞後接平仮名格納手段であり、
符号6、7はそれぞれ図3における符号6、7と同等の
字種境界判別部、字種分割点記憶手段であり、符号9〜
12は、それぞれ、図5における符号9〜12と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字切出部であり、符号13〜15は、それぞれ、図7
における符号13〜15と同等の基本語格納手段、基本
語判別部、基本語分割点記憶手段であり、16は図9に
おける16と同等の基本語削除部である。17は必要キ
ーワード格納手段であり、あらかじめ指定されたキーワ
ード文字列を格納する。18は必要キーワード切出部で
あり、必要キーワード格納手段17に格納された文字列
と一致する文字列がテキスト中に現れた場合に、これを
すべて切り出して、キーワードに加える。
【0086】図12は、図11の必要キーワード格納手
段17に格納された基本語の例である。例として、「お
絵書きモード」というテキストが入力された場合につい
て説明する。
【0087】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは平仮名、2文字めは漢
字、3文字めは漢字、4文字めは平仮名というように、
文字位置と字種との対応を字種記憶手段2が記憶する。
【0088】次に、有効字種文字列切出部3が「絵書」
と「モード」を切り出す。
【0089】次に、「絵書」と「モード」には字種の変
わり目がないので、字種分割点記憶手段7に記憶される
字種分割点の情報はない。
【0090】次に、「絵書」と「モード」には接辞がな
いので、接辞分割点記憶手段11に接辞分割点は記憶さ
れない。
【0091】次に、基本語判別部14が判別する基本語
はないので基本語分割点記憶手段15は基本語分割点を
記憶しない。
【0092】次に、部分文字列切出部12において、
「絵書」と「モード」には分割点がないため、結果的
に、「絵書」と「モード」2つの部分文字列が切り出さ
れる。
【0093】次に、名詞判別部4において「絵書」に後
接する平仮名「き」は名詞後接平仮名格納手段5に格納
されていないため、「絵書」が削除される。さらに、名
詞判別部4において「モード」には後接する平仮名がな
いため削除されない。
【0094】次に、基本語削除部16において「モー
ド」は削除されない。
【0095】次に、必要キーワード判別部18が必要キ
ーワード格納手段17に格納されている「お絵書き」を
テキスト「お絵書きモード」から切り出し、キーワード
に追加する。
【0096】最後に、「お絵書き」、「モード」が出力
される。
【0097】上記実施例以外に、必要キーワード格納手
段17に格納されている文字列を用いて分割点を設定
し、字種分割点、接辞分割点、基本語分割点と合わせ
て、部分文字列切出部で用いてもよい。
【0098】実施例6によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部と基本語削
除部が不必要な文字列を削除し、必要キーワード切出部
が切り出したキーワードをこれに加えて、キーワードと
して出力するので、登録する文書のカテゴリに応じたカ
スタマイズが容易になる。
【0099】実施例7.図13はこの発明による実施例
7のキーワード抽出方式の全体構成図である。図13に
おける符号1〜5は、それぞれ、図1における符号1〜
5と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号6、7はそれぞれ図3における符号6、7と同等の
字種境界判別部、字種分割点記憶手段であり、符号9〜
12は、それぞれ、図5における符号9〜12と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号13〜15は、それぞれ、図
7における符号13〜15と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号16は
図9と同等の基本語削除部であり、符号17、18は、
それぞれ、図11における符号17、18と同等の必要
キーワード格納手段、必要キーワード切出部である。1
9は前置助数詞格納手段であり、数字列が後接する文字
列を格納している。20は後置助数詞格納手段であり、
数字列に後接する文字列を格納している。21は数量表
現判別部であり、文字列中のすべての数量表現を判別
し、数量表現分割点記憶手段22に渡す。数量表現分割
点記憶手段22は、数量表現判別部21が判別した数量
表現の前後の位置を数量表現分割点として記憶する。部
分文字列切出部12は、字種分割点記憶手段7が記憶し
た字種分割点と接辞分割点記憶手段11が記憶した接辞
分割点と基本語分割点記憶手段15が記憶した基本語分
割点と数量表現分割点記憶手段22が記憶した数量表現
分割点のうちひとつまたはふたつの分割点によって部分
文字列を切り出す。
【0100】図14は、図13の前置助数詞格納手段に
格納された前置助数詞の例である。図15は、図13の
後置助数詞格納手段に格納された後置助数詞の例であ
る。例として、「平成4年度利益」というテキストが入
力された場合について説明する。
【0101】まず、字種判別部1が入力テキストの各文
字の字種を判別し、1文字めは漢字、2文字めは漢字、
3文字めは数字、4文字めは漢字というように、文字位
置と字種との対応を字種記憶手段2が記憶する。次に、
有効字種文字列切出部3が「平成4年度利益」全体を切
り出す。次に、字種境界判定部6が、「平成4年度利
益」の2文字めの後と3文字めの後が字種の変わり目で
あることを判別し、字種分割点記憶手段7が字種分割点
として記憶する。次に、「平成4年度利益」には接辞が
ないので、接辞分割点記憶手段11に接辞分割点は記憶
されない。次に、基本語判別部14が判別する基本語は
ないので基本語分割点記憶手段15は基本語分割点を記
憶しない。次に、数量表現判別部21が、「平成4年
度」が数量表現であることを判別し、1文字めの前と5
文字めの後が数量表現分割点であることを数量表現分割
点記憶手段22が記憶する。
【0102】次に、部分文字列切出部が2文字めの後と
いうひとつの分割点によって「平成4年度利益」をふた
つに分割して「平成」と「4年度利益」という部分文字
列を切り出す。同様に、部分文字列切出部が3文字めの
後というひとつの分割点によって「平成4年度利益」を
ふたつに分割して「平成4」と「年度利益」という部分
文字列を切り出す。同様に、部分文字列切出部が5文字
めの後というひとつの分割点によって「平成4年度利
益」をふたつに分割して「平成4年度」と「利益」とい
う部分文字列を切り出す。さらに、部分文字列切出部が
2文字めの後と3文字めの後というふたつの分割点には
さまれた文字列として「4」という部分文字列を切り出
す。同様に、部分文字列切出部が2文字めの後と5文字
めの後というふたつの分割点にはさまれた文字列として
「4年度」という部分文字列を切り出す。同様に、部分
文字列切出部が3文字めの後と5文字めの後というふた
つの分割点にはさまれた文字列として「年度」という部
分文字列を切り出す。結果的に、「平成4年度利益」、
「平成」、「4年度利益」、「平成4」、「年度利
益」、「平成4年度」、「利益」、「4」、「年度」、
「利益」の10の部分文字列が切り出される。
【0103】次に、名詞判別部4において、上記の10
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。
【0104】最後に、「平成4年度利益」、「平成」、
「4年度利益」、「平成4」、「年度利益」、「平成4
年度」、「利益」、「4」、「年度」、「利益」が出力
される。
【0105】例では、数量表現分割点を他の分割点と同
等に扱ったが、数量表現分割点を他の分割点より1ラン
ク上の分割点として扱うことにより、さらに精度の高い
キーワード抽出が実現される。例えば、「平成4年度」
が数量表現として判別された場合には、「平成4年度」
はこれ以上分割しないようにすると、「平成4年度」と
「利益」というふたつの部分文字列が切り出される。
【0106】実施例7によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除してキーワードとして出
力するので、キーワードをさらに網羅的で高精度に抽出
することができる。
【0107】実施例8.図16はこの発明による実施例
8のキーワード抽出方式の全体構成図である。図16に
おける符号1〜5は、それぞれ、図1における符号1〜
5と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号6、7はそれぞれ図3における符号6、7と同等の
字種境界判別部、字種分割点記憶手段であり、符号9〜
12は、それぞれ、図5における符号9〜12と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号13〜15は、それぞれ、図
7における符号13〜15と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号16は
図9と同等の基本語削除部であり、符号17、18は、
それぞれ、図11における符号17、18と同等の必要
キーワード格納手段、必要キーワード切出部であり、符
号19〜22は、それぞれ、図13における符号19〜
22と同等の前置助数詞格納手段、後置助数詞格納手
段、数量表現判別部、数量表現分割点記憶手段である。
23は記号文字削除部であり、中黒、スラッシュ、ハイ
フン、ダッシュ、マイナスなどの記号文字を、部分文字
列から取り除く。
【0108】例として、「ランチ・タイム」というテキ
ストが入力された場合について説明する。まず、字種判
別部1が入力テキストの各文字の字種を判別し、1文字
めは片仮名、2文字めは片仮名、3文字めは片仮名、4
文字めは記号というように、文字位置と字種との対応を
字種記憶手段2が記憶する。次に、有効字種文字列切出
部3が「ランチ・タイム」全体を切り出す。次に、字種
境界判定部6が、「ランチ・タイム」の3文字めの後と
4文字めの後が字種の変わり目であることを判別し、字
種分割点記憶手段7が字種分割点として記憶する。次
に、「ランチ・タイム」には接辞がないので、接辞分割
点記憶手段11に接辞分割点は記憶されない。次に、基
本語判別部14が判別する基本語はないので基本語分割
点記憶手段15は基本語分割点を記憶しない。次に、
「ランチ・タイム」には数量表現がないので、数量表現
分割点記憶手段22に数量表現分割点は記憶されない。
【0109】次に、部分文字列切出部が3文字めの後と
いうひとつの分割点によって「ランチ・タイム」をふた
つに分割して「ランチ」と「・タイム」という部分文字
列を切り出す。同様に、部分文字列切出部が4文字めの
後というひとつの分割点によって「ランチ・タイム」を
ふたつに分割して「ランチ・」と「タイム」という部分
文字列を切り出す。さらに、部分文字列切出部が3文字
めの後と4文字めの後というふたつの分割点にはさまれ
た文字列として「・」という部分文字列を切り出す。結
果的に、「ランチ・タイム」、「ランチ」、「・タイ
ム」、「ランチ・」、「タイム」、「・」の6つの部分
文字列が切り出される。次に、名詞判別部4において、
上記の10の部分文字列には後接する平仮名がないた
め、削除される部分文字列はない。次に、基本語削除部
において削除される部分文字列はない。次に、記号文字
削除部において、中黒文字「・」が削除され、「ランチ
タイム」、「ランチ」、「タイム」となる。次に、必要
キーワード切出部が切り出す部分文字列はない。最後
に、「ランチタイム」、「ランチ」、「タイム」が出力
される。
【0110】実施例8によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除してキーワードとして出
力し、記号文字削除部が記号文字を削除するので、キー
ワードを統一的に抽出することができる。
【0111】実施例9.図17はこの発明による実施例
9のキーワード抽出方式の全体構成図である。図17に
おける符号1〜5は、それぞれ、図1における符号1〜
5と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号6、7はそれぞれ図3における符号6、7と同等の
字種境界判別部、字種分割点記憶手段であり、符号9〜
12は、それぞれ、図5における符号9〜12と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号13〜15は、それぞれ、図
7における符号13〜15と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号16は
図9と同等の基本語削除部であり、符号17、18は、
それぞれ、図11における符号17、18と同等の必要
キーワード格納手段、必要キーワード切出部であり、符
号19〜22は、それぞれ、図13における符号19〜
22と同等の前置助数詞格納手段、後置助数詞格納手
段、数量表現判別部、数量表現分割点記憶手段であり、
符号23は図16における符号23と同等の記号文字削
除部である。
【0112】例として、「プロ野球オールスターゲー
ム」というテキストが入力された場合について説明す
る。まず、字種判別部1が入力テキストの各文字の字種
を判別し、1文字めは片仮名、2文字めは片仮名、3文
字めは漢字、4文字めは漢字というように、文字位置と
字種との対応を字種記憶手段2が記憶する。次に、有効
字種文字列切出部3が「プロ野球オールスターゲーム」
全体を切り出す。次に、字種境界判別部6が、「プロ野
球オールスターゲーム」の2文字めの後と4文字めの後
が字種の変わり目であることを判別し、字種分割点記憶
手段7が字種分割点として記憶する。次に、「プロ野球
オールスターゲーム」には接辞がないので、接辞分割点
記憶手段11に接辞分割点は記憶されない。次に、基本
語判別部14が判別する基本語はないので基本語分割点
記憶手段15は基本語分割点を記憶しない。次に、「プ
ロ野球オールスターゲーム」には数量表現がないので、
数量表現分割点記憶手段22に数量表現分割点は記憶さ
れない。
【0113】次に、部分文字列切出部が2文字めの後と
いうひとつの分割点によって「プロ野球オールスターゲ
ーム」をふたつに分割して「プロ」と「野球オールスタ
ーゲーム」という部分文字列を切り出す。同様に、部分
文字列切出部が4文字めの後というひとつの分割点によ
って「プロ野球オールスターゲーム」をふたつに分割し
て「プロ野球」と「オールスターゲーム」という部分文
字列を切り出す。さらに、部分文字列切出部が2文字め
の後と4文字めの後というふたつの分割点にはさまれた
文字列として「野球」という部分文字列を切り出す。結
果的に、「プロ野球オールスターゲーム」、「プロ」、
「野球オールスターゲーム」、「プロ野球」、「オール
スターゲーム」、「野球」の6つの部分文字列が切り出
される。
【0114】次に、名詞判別部4において、上記の10
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。次に、基本語削除部において削除
される部分文字列はない。次に、記号文字削除部におい
て削除される文字はない。次に、文字数制限部におい
て、例えば文字数の制限が2文字以上10文字以下であ
った場合、「プロ野球オールスターゲーム」と「野球オ
ールスターゲーム」が削除される。次に、必要キーワー
ド切出部が切り出す部分文字列はない。最後に、「プ
ロ」、「プロ野球」、「オールスターゲーム」、「野
球」が出力される。上記実施例では文字数の制限を2文
字以上10文字以下としたが、任意に変更可能とするこ
とにより、キーワード抽出の対象となる文書の性質やシ
ステムの持つ記憶装置などの資源に応じたカスタマイズ
が容易になる。また、文字数の計算において、1文字当
たりの重みを字種に応じて変化させることも可能であ
る。
【0115】実施例9によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除し、記号文字削除部が記
号文字を削除し、文字数制限部が予め設けられた文字数
の制限を逸脱する文字列を削除してキーワードとして出
力するので、無駄なキーワードを排除しながら網羅的に
キーワードを抽出することができる。
【0116】
【発明の効果】請求項1のキーワード抽出方式は、入力
されたテキストの文字を種類分けする字種判別部と、こ
の字種判別部で判別された字種を記憶する字種記憶手段
と、この字種記憶手段が記憶した情報から有効な字種が
続く限り文字列を切り出す有効字種文字列切出部と、名
詞に後接する可能性のある平仮名文字列を格納した名詞
後接平仮名文字列格納手段と、前記有効字種文字列切出
部が切り出した文字列から、前記名詞後接平仮名文字列
格納手段を使って名詞である可能性のある名詞候補文字
列を抽出する名詞判別部と、を備えた構成にしたので、
テキストを字種レベルの情報によって解析することによ
り、形態素解析を行う場合より高速にキーワードを抽出
できると共に、未知語に対する属性の付与という困難な
処理から解放される効果を奏する。
【0117】請求項2のキーワード抽出方式は、請求項
1記載のキーワード抽出方式において、字種記憶手段が
記憶した情報を使用して有効字種文字列の字種の変わり
目を判別する字種境界判別部と、この字種境界判別部が
判別した字種の変わり目を字種分割点として記憶する字
種分割点記憶手段と、有効字種文字列切出部が切り出し
た有効字種文字列から、部分文字列を切り出す部分文字
列切出部と、を備えた構成にしたので、テキストを字種
レベルの情報によって解析することにより、形態素解析
を行う場合より高速にキーワードを抽出でき、未知語に
対する属性の付与という困難な処理から解放されると共
に、字種境界判別部を設けることによりキーワードをさ
らに網羅的に抽出することができる。
【0118】請求項3のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、部分文字列切出
部は、有効字種文字列切出部が切り出した有効字種文字
列から、字種分割点を切り目とした部分文字列を網羅的
に切り出す構成にしたので、字種境界判別部を設けるこ
とによりキーワードをさらに網羅的に抽出することがで
きる。
【0119】請求項4のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、使用頻度の高い
接辞をその属性と共に格納した接辞格納手段と、この接
辞格納手段を用いて有効字種文字列の中の全ての接辞を
判別する接辞判別部と、この接辞判別部が判別した全て
の接辞の前後を接辞分割点として記憶する接辞分割点記
憶手段と、を備え、部分文字列切出部は、有効字種文字
列切出部が切り出した有効字種文字列から、字種分割点
と前記接辞分割点を切り目とした部分文字列を接辞の属
性を考慮して切り出す構成にしたので、字種境界判別部
に加え接辞判別部を設けることによりキーワードをさら
に網羅的に抽出することができる。
【0120】請求項5のキーワード抽出方式は、請求項
2記載のキーワード抽出方式において、使用頻度の高い
名詞を格納した基本語格納手段と、この基本語格納手段
を用いて有効字種文字列の中の基本語を判別する基本語
判別部と、この基本語判別部が判別した全ての基本語の
前後を基本語分割点として記憶する基本語分割点記憶手
段と、を備え、部分文字列切出部は、有効字種文字列切
出部が切り出した有効字種文字列から、字種分割点と接
辞分割点と前記基本語分割点を切り目とした部分文字列
を接辞の属性を考慮して切り出す構成にしたので、基本
語格納手段に格納される語には、語の属性情報が格納さ
れていないため、基本語格納手段が占有するサイズは形
態素解析に用いられる辞書より小さく、2次記憶装置上
に置く必要がないため、高速な処理時間を保つことがで
きる。
【0121】請求項6のキーワード抽出方式は、請求項
5記載のキーワード抽出方式において、基本語格納手段
に格納されている文字列を削除する基本語削除部を備え
た構成にしたので、検索に用いる2次情報データベース
の作成に不要なキーワードを削除できる。
【0122】請求項7のキーワード抽出方式は、請求項
5記載のキーワード抽出方式において、予め定められた
文字列を格納しておく必要キーワード格納手段と、この
必要キーワード格納手段に格納されている文字列と一致
する文字列をテキストから切り出す必要キーワード切出
部と、を備えた構成にしたので、登録する文書のカテゴ
リに応じたカスタマイズが容易になる。
【0123】請求項8のキーワード抽出方式は、請求項
7記載のキーワード抽出方式において、数字が後接する
文字列を格納した前置助数詞格納手段と、数字に後接す
る文字列を格納した後置助数詞格納手段をと、これらの
前置助数詞格納手段と後置助数詞格納手段を用いて数量
表現を判別する数量表現判別部と、この数量表現判別部
が判別したすべての数量表現の前後を数量表現分割点と
して記憶する数量表現分割点記憶手段と、を備え、部分
文字列切出部は、有効字種文字列切出部が切り出した有
効字種文字列から、字種分割点と接辞分割点と基本語分
割点と前記数量表現分割点を切り目とした部分文字列を
接辞の属性を考慮して切り出す構成にしたので、字種境
界判別部と接辞判別部と基本語判別部に加え数量表現判
別部を設けることによりキーワードをさらに網羅的に抽
出することができる。
【0124】請求項9のキーワード抽出方式は、請求項
8記載のキーワード抽出方式において、記号文字を削除
する記号文字削除部を備えた構成にしたので、統一的な
キーワード抽出ができる。
【0125】請求項10のキーワード抽出方式は、請求
項9記載のキーワード抽出方式において、予め定められ
た文字数制限から逸脱する文字列を削除する文字数制限
部を設けた構成にしたので、無駄なキーワードを排除し
ながら網羅的にキーワードを抽出することができる。
【図面の簡単な説明】
【図1】 この発明による実施例1の全体構成図であ
る。
【図2】 この発明による実施例1の名詞後接平仮名文
字列の例を示す図である。
【図3】 この発明による実施例2の全体構成図であ
る。
【図4】 この発明による実施例2の名詞後接平仮名文
字列の例を示す図である。
【図5】 この発明による実施例3の全体構成図であ
る。
【図6】 この発明による実施例3の接辞の例を示す図
である
【図7】 この発明による実施例4の全体構成図であ
る。
【図8】 この発明による実施例4の基本語の例を示す
図である。
【図9】 この発明による実施例5の全体構成図であ
る。
【図10】 この発明による実施例5の基本語の例を示
す図である。
【図11】 この発明による実施例6の全体構成図であ
る。
【図12】 この発明による実施例6の基本語の例を示
す図である。
【図13】 この発明による実施例7の全体構成図であ
る。
【図14】 この発明による実施例7の数字列が後接す
る文字列の例を示す図である。
【図15】 この発明による実施例7の数字列に後接す
る文字列の例を示す図である。
【図16】 この発明による実施例8の全体構成図であ
る。
【図17】 この発明による実施例9の全体構成図であ
る。
【図18】 従来のキーワード抽出方式を用いた文書管
理システムの構成の説明図である。
【図19】 従来のキーワード抽出方式の動作を説明す
る図である。
【符号の説明】
1 字種判別部、2 字種記憶手段、3 有効字種文字
列切出部、4 名詞判別部、5 名詞後接平仮名格納手
段、6 字種境界判別部、7 字種分割点記憶手段、9
接辞格納手段、10 接辞判別部、11 接辞分割点
記憶手段、12部分文字列切出部、13 基本語格納手
段、14 基本語判別部、15 基本語分割点記憶手
段、16 基本語削除部、17 必要キーワード格納手
段、18必要キーワード切出部、19 前置助数詞格納
手段、20 前置助数詞格納手段、21 数量表現判別
部、22 数量表現分割点記憶手段、23 記号文字削
除部、24 文字数制限部。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストの文字を種類分けす
    る字種判別部と、この字種判別部で判別された字種を記
    憶する字種記憶手段と、この字種記憶手段が記憶した情
    報から有効な字種が続く限り文字列を切り出す有効字種
    文字列切出部と、名詞に後接する可能性のある平仮名文
    字列を格納した名詞後接平仮名文字列格納手段と、前記
    有効字種文字列切出部が切り出した文字列から、前記名
    詞後接平仮名文字列格納手段を使って名詞である可能性
    のある名詞候補文字列を抽出する名詞判別部と、を備え
    たキーワード抽出方式。
  2. 【請求項2】 字種記憶手段が記憶した情報を使用して
    有効字種文字列の字種の変わり目を判別する字種境界判
    別部と、この字種境界判別部が判別した字種の変わり目
    を字種分割点として記憶する字種分割点記憶手段と、有
    効字種文字列切出部が切り出した有効字種文字列から、
    部分文字列を切り出す部分文字列切出部と、を備えた請
    求項1記載のキーワード抽出方式。
  3. 【請求項3】 部分文字列切出部は、有効字種文字列切
    出部が切り出した有効字種文字列から、字種分割点を切
    り目とした部分文字列を網羅的に切り出すことを特徴と
    する請求項2記載のキーワード抽出方式。
  4. 【請求項4】 使用頻度の高い接辞をその属性と共に格
    納した接辞格納手段と、この接辞格納手段を用いて有効
    字種文字列の中の全ての接辞を判別する接辞判別部と、
    この接辞判別部が判別した全ての接辞の前後を接辞分割
    点として記憶する接辞分割点記憶手段と、を備え、部分
    文字列切出部は、有効字種文字列切出部が切り出した有
    効字種文字列から、字種分割点と前記接辞分割点を切り
    目とした部分文字列を接辞の属性を考慮して切り出すこ
    とを特徴とする請求項2記載のキーワード抽出方式。
  5. 【請求項5】 使用頻度の高い名詞を格納した基本語格
    納手段と、この基本語格納手段を用いて有効字種文字列
    の中の基本語を判別する基本語判別部と、この基本語判
    別部が判別した全ての基本語の前後を基本語分割点とし
    て記憶する基本語分割点記憶手段と、を備え、部分文字
    列切出部は、有効字種文字列切出部が切り出した有効字
    種文字列から、字種分割点と接辞分割点と前記基本語分
    割点を切り目とした部分文字列を接辞の属性を考慮して
    切り出すことを特徴とする請求項2記載のキーワード抽
    出方式。
  6. 【請求項6】 基本語格納手段に格納されている文字列
    を削除する基本語削除部を備えたことを特徴とする請求
    項5記載のキーワード抽出方式。
  7. 【請求項7】 予め定められた文字列を格納しておく必
    要キーワード格納手段と、この必要キーワード格納手段
    に格納されている文字列と一致する文字列をテキストか
    ら切り出す必要キーワード切出部と、を備えたことを特
    徴とする請求項6記載のキーワード抽出方式。
  8. 【請求項8】 数字列が後接する文字列の一覧を格納し
    た前置助数詞格納手段と、数字列に後接する文字列の一
    覧を格納した後置助数詞格納手段を用いて有効字種文字
    列の中の数量表現を判別する数量表現判別部と、この数
    量表現判別部が判別した全ての数量表現の前後を数量表
    現分割点として記憶する数量表現分割点記憶手段と、を
    備え、部分文字列切出部は、有効字種文字列切出部が切
    り出した有効字種文字列から、字種分割点と接辞分割点
    と基本語分割点と前記数量表現分割点を切り目とした部
    分文字列を接辞の属性を考慮して切り出すことを特徴と
    する請求項7記載のキーワード抽出方式。
  9. 【請求項9】 中黒、スラッシュ、ハイフン、ダッシ
    ュ、マイナスなどの記号文字を、切り出した部分文字列
    から取り除く記号文字削除部を備えたことを特徴とする
    請求項8記載のキーワード抽出方式。
  10. 【請求項10】 予め設けられた文字数の制限を逸脱す
    る文字列を削除する文字数制限部を備えたことを特徴と
    する請求項9記載のキーワード抽出方式。
JP6149775A 1994-05-12 1994-06-30 キーワード抽出方式 Pending JPH0830627A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6149775A JPH0830627A (ja) 1994-05-12 1994-06-30 キーワード抽出方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6-98933 1994-05-12
JP9893394 1994-05-12
JP6149775A JPH0830627A (ja) 1994-05-12 1994-06-30 キーワード抽出方式

Publications (1)

Publication Number Publication Date
JPH0830627A true JPH0830627A (ja) 1996-02-02

Family

ID=26440028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6149775A Pending JPH0830627A (ja) 1994-05-12 1994-06-30 キーワード抽出方式

Country Status (1)

Country Link
JP (1) JPH0830627A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245051A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 自然言語事例検索装置及び自然言語事例検索方法
JPH1011460A (ja) * 1996-06-26 1998-01-16 Nec Corp キーワード抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245051A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 自然言語事例検索装置及び自然言語事例検索方法
JPH1011460A (ja) * 1996-06-26 1998-01-16 Nec Corp キーワード抽出装置

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US7783644B1 (en) Query-independent entity importance in books
US5940624A (en) Text management system
WO2008098507A1 (en) An input method of combining words intelligently, input method system and renewing method
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
WO2019200699A1 (zh) 政务系统发文方法、装置、计算机设备及存储介质
JPH05120345A (ja) キーワード抽出装置
JP3198932B2 (ja) 文書検索装置
US20240119076A1 (en) System and method for hybrid multilingual search indexing
JPH09198395A (ja) 文書検索装置
JPH0944523A (ja) 関連語提示装置
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH0830627A (ja) キーワード抽出方式
US20240119070A1 (en) System and method for hybrid multilingual search indexing
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2002183195A (ja) 概念検索方式
JPH03132872A (ja) 索引情報生成装置
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
JPH08314950A (ja) テキストの検索方法及び装置
JPH0827803B2 (ja) テキストベース検索方法
EP0592402B1 (en) A text management system
JPH0793345A (ja) 文書検索装置
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs