JPH0830627A

JPH0830627A - キーワード抽出方式

Info

Publication number: JPH0830627A
Application number: JP6149775A
Authority: JP
Inventors: Yasuyuki Mochizuki; 泰行望月; Katsushi Suzuki; 克志鈴木; Yoichi Fujii; 洋一藤井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-05-12
Filing date: 1994-06-30
Publication date: 1996-02-02

Abstract

(57)【要約】【目的】テキストからキーワードを抽出する処理にお
いて、主に字面の解析を行なうことによって、処理を高
速化する。また、使用頻度の高い語だけを集めた小規模
な基本語辞書を利用して、複合語の分割や不必要なキー
ワードの削除を高速に行なう。【構成】字種判別部１が判別した字種の情報を元にし
て、有効字種文字列（複合語）を切り出し、字種境界判
別部６と接辞判別部１０と基本語判別部１４によって判
別した分割点によって有効字種文字列（複合語）を分割
し、名詞判別部４が名詞の可能性のない文字列を削除
し、基本語削除部１６が不必要なキーワードを削除す
る。さらに、必要キーワード切出部１８が切り出した文
字列を加えてキーワードとして出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、大量文書を管理する
文書検索システムにおいて、あらかじめ文書のテキスト
から自動的にキーワードを抽出してデータベースを作成
することにより高速な文書の検索を可能とするためのキ
ーワード抽出方式に関するものである。

【０００２】

【従来の技術】計算機の普及が進み、計算機で文書を作
成する機会が増すとともに、作成された大量の文書を管
理するシステムが必要となっている。文書管理システム
には文書の登録、保管、参照、検索などの機能が必要で
ある。登録した文書から所望の文書を検索する際に、登
録したすべての文書を検索のたびに参照することにより
所望の文書であるか、ないかを判別する方式では、検索
対象の文書が大量な場合に文書の検索が低速で時間がか
かる。一般に、大量の文書から所望の文書を検索するに
は、登録文書をもとに２次情報データベースをあらかじ
め作成し、検索時にはその２次情報データベースを参照
して検索対象の範囲を縮小させることにより、検索時間
の短縮を行なう。２次情報データベースを実現する方式
として、統制キーワード方式がある。統制キーワード方
式は、固定されたキーワードの集合を用意し、個々の文
書に対して適切なキーワードを付与してデータベースに
蓄積し、これを２次情報データベースとして用いる方式
である。

【０００３】この方式においては、文書に対するキーワ
ードの付与を人手で行なわなければならないため、２次
情報データベースの作成に時間がかかる。また、付与す
るキーワードが作業者によって異なるなど、キーワード
付与の基準が曖昧である。さらに、キーワードの集合
を、技術の進歩や社会情勢の変化に随時適応させていく
ことが困難であるという問題があった。

【０００４】従来このような要求に応えるものとして、
図１８に示すような方式が提案されている。図１８は情
報処理学会第４５回全国大会３Ｓ−１に示されたテキス
トデータベースのためのキーワード抽出法を用いた文書
管理システムの説明図である。

【０００５】図１８において、７１は登録テキスト、７
２はキーワード抽出処理部、７３はキーワードデータベ
ースである。キーワード抽出処理部７２において登録テ
キスト７１からキーワードを抽出し、キーワードデータ
ベース７３に保管する。検索時には、検索語に対してプ
レサーチを行なったあと、キーワードデータベースの情
報を用いて、検索された文書にランクを付してソートし
て出力する。図１９は図１８におけるキーワード抽出処
理部において「リコーの中央研究所は超音波センサーを
使った形状識別装置を９月に開発した。」というテキス
トからキーワードを抽出する動作の説明図である。

【０００６】図１９において、７４は形態素解析によっ
て分割された個々の単語、７５は基本語辞書から得られ
た単語の品詞、７６は基本語辞書から得られたキーワー
ド素性、７７はキーワード判定結果であり、品詞とキー
ワード素性から決定される。図１９を得るために基本語
辞書検索を用いた形態素解析を行ない、その結果の品詞
とキーワード素性の情報によってキーワードの判定を行
なう。

【０００７】

【発明が解決しようとする課題】従来のキーワード抽出
方式は上記のように構成されているので以下の問題点が
あった。第１に形態素解析時に大規模な基本語辞書を最
長一致法によって検索するため、キーワード抽出処理が
低速である。例えば「超音波センサーを使った形状識別
装置を９月に開発した。」という２６文字のテキストに
対して、最長一致法による基本語辞書検索を行なうと、
最初に「超音波センサーを使った形状識別装置を９月に
開発した」を基本語辞書検索し、基本語辞書検索に失敗
すると次に「超音波センサーを使った形状識別装置を９
月に開発し」を基本語辞書検索し、これにも失敗すると
「超音波センサーを使った形状識別装置を９月にに開
発」を基本語辞書検索するというように、１文字づつ削
って基本語辞書検索を行ない、「超音波」の基本語辞書
検索が成功するまで２２回の基本語辞書検索を行なう。
次に、「センサーを使った形状識別装置を９月に開発し
た」に対して同様の処理を行ない、「センサー」の基本
語辞書検索が成功するまで、１９回の基本語辞書検索を
行なう。以下同様にして、最終的に「超音波」、「セン
サー」、「を」、「使った」、「形状」、「識別」、
「装置」、「を」、「９月」、「に」、「開発した」、
「。」と分割されるまで行なう。一般に基本語辞書は計
算機の２次記憶上におかれるため、基本語辞書の検索は
低速である上に、上記の例では百回以上の基本語辞書検
索を行なうため、形態素解析処理が低速であり、キーワ
ード抽出処理全体が低速となる。

【０００８】第２に形態素解析処理での未知語に対する
属性の付与が困難であるという問題がある。形態素解析
により分割した個々の文字列には、基本語辞書に格納さ
れている品詞などの属性が割当てられる。この属性情報
をもとに、文字列がキーワードであるか、キーワードで
ないかを判別して、キーワードを抽出する。しかし、基
本語辞書に格納されていない未知語に対しては、属性情
報が割当てられないため、キーワードであるか、キーワ
ードでないかの判別が困難である。

【０００９】この発明は、以上のような問題点を解消す
るためになされたもので、キーワード抽出処理において
形態素解析の代わりに字種解析を行なうことにより、処
理を高速に行なうキーワード抽出方式を提供することを
目的とする。

【００１０】

【課題を解決するための手段】請求項１のキーワード抽
出方式は、入力されたテキストの文字を種類分けする字
種判別部と、この字種判別部で判別された字種を記憶す
る字種記憶手段と、この字種記憶手段が記憶した情報か
ら有効な字種が続く限り文字列を切り出す有効字種文字
列切出部と、名詞に後接する可能性のある平仮名文字列
を格納した名詞後接平仮名文字列格納手段と、前記有効
字種文字列切出部が切り出した文字列から、前記名詞後
接平仮名文字列格納手段を使って名詞である可能性のあ
る名詞候補文字列を抽出する名詞判別部と、を備えたも
のである。

【００１１】請求項２のキーワード抽出方式は、請求項
１記載のキーワード抽出方式において、字種記憶手段が
記憶した情報を使用して有効字種文字列の字種の変わり
目を判別する字種境界判別部と、この字種境界判別部が
判別した字種の変わり目を字種分割点として記憶する字
種分割点記憶手段と、有効字種文字列切出部が切り出し
た有効字種文字列から、部分文字列を切り出す部分文字
列切出部と、を備えたものである。

【００１２】請求項３のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、部分文字列切出
部は、有効字種文字列切出部が切り出した有効字種文字
列から、字種分割点を切り目とした部分文字列を網羅的
に切り出すことを特徴とする。

【００１３】請求項４のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、使用頻度の高い
接辞をその属性と共に格納した接辞格納手段と、この接
辞格納手段を用いて有効字種文字列の中の全ての接辞を
判別する接辞判別部と、この接辞判別部が判別した全て
の接辞の前後を接辞分割点として記憶する接辞分割点記
憶手段と、を備え、部分文字列切出部は、有効字種文字
列切出部が切り出した有効字種文字列から、字種分割点
と前記接辞分割点を切り目とした部分文字列を接辞の属
性を考慮して切り出すことを特徴とする。

【００１４】請求項５のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、使用頻度の高い
名詞を格納した基本語格納手段と、この基本語格納手段
を用いて有効字種文字列の中の基本語を判別する基本語
判別部と、この基本語判別部が判別した全ての基本語の
前後を基本語分割点として記憶する基本語分割点記憶手
段と、を備え、部分文字列切出部は、有効字種文字列切
出部が切り出した有効字種文字列から、字種分割点と接
辞分割点と前記基本語分割点を切り目とした部分文字列
を接辞の属性を考慮して切り出すことを特徴とする。

【００１５】請求項６のキーワード抽出方式は、請求項
５記載のキーワード抽出方式において、基本語格納手段
に格納されている文字列を削除する基本語削除部を備え
たことを特徴とする。

【００１６】請求項７のキーワード抽出方式は、請求項
５記載のキーワード抽出方式において、予め定められた
文字列を格納しておく必要キーワード格納手段と、この
必要キーワード格納手段に格納されている文字列と一致
する文字列をテキストから切り出す必要キーワード切出
部と、を備えたことを特徴とする。

【００１７】請求項８のキーワード抽出方式は、請求項
７記載のキーワード抽出方式において、数字列が後接す
る文字列の一覧を格納した前置助数詞格納手段と、数字
列に後接する文字列の一覧を格納した後置助数詞格納手
段を用いて有効字種文字列の中の数量表現を判別する数
量表現判別部と、この数量表現判別部が判別した全ての
数量表現の前後を数量表現分割点として記憶する数量表
現分割点記憶手段と、を備え、部分文字列切出部は、有
効字種文字列切出部が切り出した有効字種文字列から、
字種分割点と接辞分割点と基本語分割点と前記数量表現
分割点を切り目とした部分文字列を接辞の属性を考慮し
て切り出すことを特徴とする。

【００１８】請求項９のキーワード抽出方式は、請求項
８記載のキーワード抽出方式において、中黒、スラッシ
ュ、ハイフン、ダッシュ、マイナスなどの記号文字を、
切り出した部分文字列から取り除く記号文字削除部を備
えたことを特徴とする。

【００１９】請求項１０のキーワード抽出方式は、請求
項９記載のキーワード抽出方式において、予め設けられ
た文字数の制限を逸脱する文字列を削除する文字数制限
部を備えたことを特徴とする。

【００２０】

【作用】請求項１のキーワード抽出方式は、入力された
テキストから字種判別部が切り出した有効字種文字列
を、名詞判別部が不必要な文字列を削除してキーワード
として出力する。

【００２１】請求項２のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、これに基づいて部分文字列切出部が部分文字列を切
り出し、名詞判別部が不必要な文字列を削除してキーワ
ードとして出力する。

【００２２】請求項３のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点の情報を用いて部分文字列切出部が部分
文字列を切り出し、名詞判別部が不必要な文字列を削除
してキーワードとして出力する。

【００２３】請求項４のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部が不必要な
文字列を削除してキーワードとして出力する。

【００２４】請求項５のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部が不必要な文字列を削除してキーワードとして出力
する。

【００２５】請求項６のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部と基本語削除部が不必要な文字列を削除してキーワ
ードとして出力する。

【００２６】請求項７のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点の情報を用
いて部分文字列切出部が部分文字列を切り出し、名詞判
別部と基本語削除部が不必要な文字列を削除し、必要キ
ーワード切出部が切り出したキーワードをこれに加え
て、キーワードとして出力する。

【００２７】請求項８のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点と数量表現
分割点の情報を用いて部分文字列切出部が部分文字列を
切り出し、名詞判別部と基本語削除部が不必要な文字列
を削除し、必要キーワード切出部が切り出したキーワー
ドをこれに加えて、キーワードとして出力する。

【００２８】請求項９のキーワード抽出方式は、入力さ
れたテキストから字種判別部が有効字種文字列を切り出
し、字種分割点と接辞分割点と基本語分割点と数量表現
分割点の情報を用いて部分文字列切出部が部分文字列を
切り出し、名詞判別部と基本語削除部が不必要な文字列
を削除し、必要キーワード切出部が切り出したキーワー
ドをこれに加え、切り出したキーワードから中黒などの
記号文字を削除して、キーワードとして出力する。

【００２９】請求項１０のキーワード抽出方式は、入力
されたテキストから字種判別部が有効字種文字列を切り
出し、字種分割点と接辞分割点と基本語分割点と数量表
現分割点の情報を用いて部分文字列切出部が部分文字列
を切り出し、名詞判別部と基本語削除部が不必要な文字
列を削除し、必要キーワード切出部が切り出したキーワ
ードをこれに加え、切り出した文字列から中黒などの記
号文字を削除し、文字数制限を逸脱する文字列を削除し
て、キーワードとして出力する。

【００３０】

【実施例】

実施例１．図１は、この発明によるキーワード抽出方式
の実施例１の全体構成図である。図１において、１は字
種判別部であり、入力されたテキストの各文字の字種を
判別し、字種記憶手段２に渡す。字種記憶手段２は字種
判別部１が判別したテキストの各文字の位置とその文字
の字種との対応を記憶する。３は有効字種文字列切出部
であり、字種記憶手段２が記憶した情報を元に片仮名、
漢字、アルファベット、数字の４種類の有効な字種が続
く限り長い有効字種文字列をすべて切り出し、名詞判別
部４に渡す。名詞判別部４は、有効字種文字列切出部３
が切り出した各有効字種文字列に後接する文字が平仮名
である場合に、名詞後接平仮名格納手段５に格納されて
いる平仮名文字列と比較を行ない、後接する平仮名の先
頭部分文字列が名詞後接平仮名格納手段５に格納されて
いる平仮名文字列のうちのいずれとも一致しないとき
に、その有効字種文字列を削除する。

【００３１】図２は、図１の名詞後接平仮名格納手段５
に格納された平仮名文字列の例である。例として、「手
持ち資料によるシステムの構築」というテキストが入力
された場合について説明する。

【００３２】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは漢字、２文字めは漢字、
３文字めは平仮名、４文字めは漢字というように、文字
位置と字種との対応を字種記憶手段２が記憶する。

【００３３】次に、有効字種文字列切出部３が「手
持」、「資料」、「システム」、「構築」の４つの文字
列を切り出す。

【００３４】次に、名詞判別部４において、まず「手
持」に後接する平仮名文字列「ち」と名詞後接平仮名格
納手段５に格納されているすべての平仮名文字列を比較
する。「ち」の先頭部分文字列は「ち」だけであり、名
詞後接平仮名格納手段５に格納されているいずれの平仮
名文字列とも一致しないので、「手持」を削除する。同
様に、名詞判別部４において「資料」に後接する「によ
る」の先頭部分文字列「に」と名詞後接平仮名格納手段
５に格納されている平仮名文字列「に」が一致するた
め、「資料」は削除されない。同様に、名詞判別部４に
おいて「システム」に後接する「の」と名詞後接平仮名
格納手段５に格納されている平仮名文字列「の」が一致
するため、「システム」は削除されない。同様に、名詞
判別部４において「構築」に後接する平仮名文字列はな
いので、「システム」は削除されない。

【００３５】最後に、削除されなかった「資料」、「シ
ステム」、「構築」が出力される。

【００３６】実施例１は、入力されたテキストから字種
判別部が切り出した有効字種文字列を、名詞判別部が不
必要な文字列を削除して、キーワードとして出力するの
で、テキストを字種レベルの情報によって解析すること
により、形態素解析を行う場合より高速にキーワードを
抽出できると共に、未知語に対する属性の付与という困
難な処理から解放される。

【００３７】実施例２．図３はこの発明による実施例２
のキーワード抽出方式の全体構成図である。図３におけ
る符号１〜５は、それぞれ、図１における符号１〜５と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段である。６は
字種境界判別部であり、字種記憶手段２に記憶した情報
を元に、すべての有効字種文字列の字種のすべての変わ
り目の位置を判別し、字種分割点記憶手段７に渡す。字
種分割点記憶手段７は、字種境界判別部で判別したすべ
ての字種の変わり目の位置を記憶する。１２は部分文字
列切出部であり、字種分割点記憶手段７が記憶した字種
分割点のうちひとつまたはふたつの分割点によって部分
文字列を切り出す。

【００３８】図４は、図３の名詞後接平仮名格納手段５
に格納された平仮名文字列の例である。例として、「Ｃ
言語プログラムの説明」というテキストが入力された場
合について説明する。

【００３９】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めはアルファベット、２文字
めは漢字、３文字めは漢字、４文字めは片仮名というよ
うに、文字位置と字種との対応を字種記憶手段２が記憶
する。

【００４０】次に、有効字種文字列切出部３が「Ｃ言語
プログラム」、「説明」の２つの文字列を切り出す。

【００４１】次に、字種境界判別部６が、「Ｃ言語プロ
グラム」では１文字めの後と３文字めの後が字種の変わ
り目であることを判別し、字種分割点記憶手段７が字種
分割点としてに記憶する。また、「説明」に対する字種
分割点はない。

【００４２】次に、部分文字列切出部１２が、１文字め
の後というひとつの分割点によって「Ｃ言語プログラ
ム」をふたつに分割して「Ｃ」と「言語プログラム」と
いう部分文字列を切り出す。同様に、部分文字列切出部
１２が、３文字めの後というひとつの分割点によって
「Ｃ言語プログラム」をふたつに分割して「Ｃ言語」と
「プログラム」という部分文字列を切り出す。同様に、
部分文字列切出部１２が、１文字めの後と３文字めの後
というふたつの分割点にはさまれた文字列として「Ｃ言
語」という部分文字列を切り出す。また、部分文字列切
出部１３において「説明」には分割点がないので、部分
文字列は切り出されない。ここまでで、「Ｃ言語プログ
ラム」、「Ｃ」、「言語プログラム」、「Ｃ言語」、
「プログラム」、「言語」、「説明」の７つの部分文字
列が切り出された。

【００４３】次に、名詞判別部４において、まず「Ｃ言
語プログラム」に後接する平仮名文字列「の」と名詞後
接平仮名格納手段５に格納されているすべての平仮名文
字列を比較する。「の」の先頭部分文字列「の」と名詞
後接平仮名格納手段５に格納されている平仮名文字列
「の」が一致するため、「Ｃ言語プログラム」は削除さ
れない。さらに、「言語プログラム」、「プログラム」
も「の」が後接しているため、削除されない。そして、
「Ｃ」、「Ｃ言語」、「言語」、「説明」は平仮名が後
接していないため、削除されない。

【００４４】最後に、削除されなかった「Ｃ言語プログ
ラム」、「Ｃ」、「言語プログラム」、「Ｃ言語」、
「プログラム」、「言語」、「説明」が出力される。

【００４５】実施例２は、入力されたテキストから字種
判別部が有効字種文字列を切り出し、字種分割点の情報
を用いて部分文字列切出部が部分文字列を切り出し、名
詞判別部が不必要な文字列を削除して、キーワードとし
て出力するので、キーワードをさらに網羅的に抽出する
ことができる。

【００４６】実施例３．図５はこの発明による実施例３
のキーワード抽出方式の全体構成図である。図５におけ
る符号１〜５は、それぞれ、図１における符号１〜５と
同様の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
６、７はそれぞれ図３における符号６、７と同等の字種
境界判別部、字種分割点記憶手段である。９は接辞格納
手段であり、使用頻度の高い接辞を格納している。１０
は接辞判別部であり、文字列中のすべての接辞を判別
し、接辞分割点記憶手段１１に渡す。接辞分割点記憶手
段１１は、接辞判別部１０が判別した接辞の前後の位置
を接辞分割点として記憶する。１２は部分文字列切出部
であり、字種分割点記憶手段７が記憶した字種分割点と
接辞分割点記憶手段１１が記憶した接辞分割点のうちひ
とつまたはふたつの分割点によって部分文字列を切り出
す。

【００４７】図６は、図５の接辞格納手段９に格納され
た接辞の例である。例として、「マシン環境再確認」と
いうテキストが入力された場合について説明する。

【００４８】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは片仮名、２文字めは片仮
名、３文字めは片仮名、４文字めは漢字というように、
文字位置と字種との対応を字種記憶手段２が記憶する。

【００４９】次に、有効字種文字列切出部３が「マシン
環境再確認」全体を切り出す。

【００５０】次に、字種境界判別部６が、「マシン環境
再確認」の３文字めの後が字種の変わり目であることを
判別し、字種分割点記憶手段７が字種分割点として記憶
する。

【００５１】次に、接辞判別部１０は「再」が接辞であ
ることを判別し、接辞分割点記憶手段１１が５文字めの
後を接辞の前の接辞分割点として記憶し、接辞分割点記
憶手段１１が６文字めの後を接辞の後の接辞分割点とし
て記憶する。

【００５２】次に、部分文字列切出部１２が３文字めの
後というひとつの分割点によって「マシン環境再確認」
をふたつに分割して、「マシン」と「環境再確認」とい
う部分文字列を切り出す。同様に、部分文字列切出部１
２が５文字めの後というひとつの分割点によって「マシ
ン環境再確認」をふたつに分割して、「マシン環境」と
「再確認」という部分文字列を切り出す。同様に、部分
文字列切出部２４が６文字めの後というひとつの分割点
によって「マシン環境再確認」をふたつに分割して「マ
シン環境再」と「確認」という部分文字列を切り出す
が、接辞「再」が接頭語であることを考慮して「再」で
終わる「マシン環境再」を削除した「確認」のみを切り
出す。そして、部分文字列切出部１２が３文字めの次と
５文字めの次というふたつの分割点にはさまれた文字列
として「環境」という部分文字列を切り出す。同様に、
部分文字列切出部２４が３文字めの次と６文字めの次と
いうふたつの分割点にはさまれた文字列として「環境
再」という部分文字列を切り出すが、接辞「再」が接頭
語であることを考慮して「再」で終わる「環境再」を削
除する。同様に、部分文字列切出部１２が５文字めの次
と６文字めの次というふたつの分割点にはさまれた文字
列として「再」という部分文字列を切り出すが、接辞
「再」が接頭語であることを考慮して「再」を削除す
る。結果的に、「マシン環境再確認」、「マシン」、
「環境再確認」、「マシン環境」、「再確認」、「確
認」、「環境」の７つの部分文字列が切り出される。

【００５３】次に、名詞判別部４において、上記の７つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。

【００５４】最後に、「マシン環境再確認」、「マシ
ン」、「環境再確認」、「マシン環境」、「再確認」、
「確認」、「環境」が出力される。

【００５５】例では、部分文字列切出部１２において、
切り出した部分文字列の中から接頭語で終わる部分文字
列を削除したが、接尾語で始まる部分文字列をも削除す
ることは言うまでもない。

【００５６】また、「約」という接頭語に対して「婚
約」という言葉があることなどを考慮して、接頭語で終
わる部分文字列や接尾語で始まる部分文字列を削除しな
い方式も考えられる。

【００５７】実施例３によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点の情報を用いて部分文字列切出部が部分文
字列を切り出し、名詞判別部が不必要な文字列を削除し
てキーワードとして出力するので、キーワードをさらに
網羅的に抽出することができる。

【００５８】実施例４．図７はこの発明による実施例４
のキーワード抽出方式の全体構成図である。図７におけ
る符号１〜５は、それぞれ、図１における符号１〜５と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
６、７はそれぞれ図３における符号６、７と同等の字種
境界判別部、字種分割点記憶手段であり、符号９〜１２
はそれぞれ図５における符号９〜１２と同等の接辞格納
手段、接辞判別部、接辞分割点記憶手段、部分文字列切
出部である。１３は基本語格納手段であり、使用頻度の
高い名詞を格納している。１４は基本語判別部であり、
文字列中のすべての基本語を判別し、基本語分割点記憶
手段１５に渡す。基本語分割点記憶手段１５は、基本語
判別部１４が判別した基本語の前後の位置を基本語分割
点として記憶する。部分文字列切出部１２は、字種分割
点記憶手段７が記憶した字種分割点と接辞分割点記憶手
段１１が記憶した接辞分割点と基本語分割点記憶手段１
５が記憶した基本語分割点のうちひとつまたはふたつの
分割点によって部分文字列を切り出す。

【００５９】図８は、図７の基本語格納手段１３に格納
された基本語の例である。例として、「日英機械翻訳」
というテキストが入力された場合について説明する。

【００６０】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは漢字、２文字めは漢字、
３文字めは漢字、４文字めは漢字というように、文字位
置と字種との対応を字種記憶手段２が記憶する。

【００６１】次に、有効字種文字列切出部３が「日英機
械翻訳」全体を切り出す。

【００６２】次に、「日英機械翻訳」には字種の変わり
目がないので、字種分割点記憶手段７に記憶される字種
分割点はない。

【００６３】次に、「日英機械翻訳」には接辞がないの
で、接辞分割点記憶手段１１に接辞分割点は記憶されな
い。

【００６４】次に、基本語判別部１４が「機械」が基本
語であることを判別し、２文字めの後と４文字めの後が
基本語分割点であることを基本語分割点記憶手段１５が
記憶する。

【００６５】次に、部分文字列切出部１２が２文字めの
後というひとつの分割点によって「日英機械翻訳」をふ
たつに分割して「日英」と「機械翻訳」という部分文字
列を切り出す。同様に、部分文字列切出部１２が５文字
めの後というひとつの分割点によって「日英機械翻訳」
をふたつに分割して「日英機械」と「翻訳」という部分
文字列を切り出す。さらに、部分文字列切出部１２が２
文字めの次と４文字めの次というふたつの分割点にはさ
まれた文字列として「機械」という部分文字列を切り出
す。結果的に、「日英機械翻訳」、「日英」、「機械翻
訳」、「日英機械」、「翻訳」、「機械」の６つの部分
文字列が切り出される。

【００６６】次に、名詞判別部４において、上記の６つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。

【００６７】最後に、「日英機械翻訳」、「日英」、
「機械翻訳」、「日英機械」、「翻訳」、「機械」が出
力される。

【００６８】例では、基本語格納手段１３に格納される
語として名詞を用いたが、サ変名詞、形容動詞、副詞な
どの他の品詞を加えてもよいことは言うまでもない。

【００６９】また、基本語格納手段１３に格納される語
の文字数や字種を限定すると、基本語判別部１４の処理
が高速化される。例えば、文字数を限定しない場合には
基本語判別部１４の処理時間は一般的に有効字種文字列
の文字数の２乗に比例することになるが、２文字に限定
すると基本語判別部１４の処理時間は有効字種文字列の
文字数に比例する。さらに、格納される語数の縮小によ
っても処理時間が短縮される。

【００７０】実施例４によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部が不必要な
文字列を削除してキーワードとして出力するので、文字
列を接辞の属性を考慮して切り出し、基本語格納手段に
格納される語には、語の属性情報が格納されていないた
め、基本語格納手段が占有するサイズは形態素解析に用
いられる辞書より小さく、２次記憶装置上に置く必要が
ないため、高速な処理時間を保つことができる。

【００７１】実施例５．図９はこの発明による実施例５
のキーワード抽出方式の全体構成図である。図９におけ
る符号１〜５は、それぞれ、図１における符号１〜５と
同等の字種判別部、字種記憶手段、有効字種文字列切出
部、名詞判別部、名詞後接平仮名格納手段であり、符号
６、７はそれぞれ図３における符号６、７と同等の字種
境界判別部、字種分割点記憶手段であり、符号９〜１２
は、それぞれ、図５における符号９〜１２と同等の接辞
格納手段、接辞判別部、接辞分割点記憶手段、部分文字
列切出部であり、符号１３〜１５は、それぞれ、図７に
おける符号１３〜１５と同等の基本語格納手段、基本語
判別部、基本語分割点記憶手段である。１６は基本語削
除部であり、基本語格納手段１３に格納されているいず
れかと一致する部分文字列を削除する。

【００７２】図１０は、図９の基本語格納手段１３に格
納された基本語の例である。例として、「日英機械翻
訳」というテキストが入力された場合について説明す
る。

【００７３】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは漢字、２文字めは漢字、
３文字めは漢字、４文字めは漢字というように、文字位
置と字種との対応を字種記憶手段２が記憶する。

【００７４】次に、有効字種文字列切出部３が「日英機
械翻訳」全体を切り出す。

【００７５】次に、「日英機械翻訳」には字種の変わり
目がないので、字種分割点記憶手段７に記憶される字種
分割点の情報はない。

【００７６】次に、「日英機械翻訳」には接辞がないの
で、接辞分割点記憶手段１１に接辞分割点は記憶されな
い。

【００７７】次に、基本語判別部１４が「機械」が基本
語であることを判別し、基本語分割点記憶手段１５が２
文字めの後と４文字めの後を基本語分割点として記憶す
る。

【００７８】次に、部分文字列切出部１２が２文字めの
後というひとつの分割点によって「日英機械翻訳」をふ
たつに分割して「日英」と「機械翻訳」という部分文字
列を切り出す。同様に、部分文字列切出部１２が５文字
めの後というひとつの分割点によって「日英機械翻訳」
をふたつに分割して「日英機械」と「翻訳」という部分
文字列を切り出す。さらに、部分文字列切出部１２が２
文字めの次と４文字めの次というふたつの分割点にはさ
まれた文字列として「機械」という部分文字列を切り出
す。結果的に、「日英機械翻訳」、「日英」、「機械翻
訳」、「日英機械」、「翻訳」、「機械」の６つの部分
文字列が切り出される。

【００７９】次に、名詞判別部４において、上記の６つ
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。

【００８０】次に、基本語削除部１６が基本語格納手段
１３に格納されている「機械」を部分文字列から削除す
る。

【００８１】最後に、「日英機械翻訳」、「日英」、
「機械翻訳」、「日英機械」、「翻訳」が出力される。

【００８２】例では、基本語格納手段１３に格納される
語として名詞を用いたが、サ変名詞、形容動詞、副詞な
どの他の品詞を加えてもよいことは言うまでもない。

【００８３】また、基本語格納手段１３に格納される語
の文字数や字種を限定すると、基本語判別部１４の処理
が高速化される。例えば、文字数を限定しない場合には
基本語判別部１４の処理時間は一般的に有効字種文字列
の文字数の２乗に比例することになるが、２文字に限定
すると基本語判別部１４の処理時間は有効字種文字列の
文字数に比例する。さらに、格納される語数の縮小によ
っても処理時間が短縮される。

【００８４】実施例５によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部と基本語削
除部が不必要な文字列を削除してキーワードとして出力
するので、検索に用いる２次情報データベースの作成に
不要なキーワードを削除できる。

【００８５】実施例６．図１１はこの発明による実施例
６のキーワード抽出方式の全体構成図である。図１１に
おける符号１〜５は、それぞれ、図１における符号１〜
５と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判別部、名詞後接平仮名格納手段であり、
符号６、７はそれぞれ図３における符号６、７と同等の
字種境界判別部、字種分割点記憶手段であり、符号９〜
１２は、それぞれ、図５における符号９〜１２と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字切出部であり、符号１３〜１５は、それぞれ、図７
における符号１３〜１５と同等の基本語格納手段、基本
語判別部、基本語分割点記憶手段であり、１６は図９に
おける１６と同等の基本語削除部である。１７は必要キ
ーワード格納手段であり、あらかじめ指定されたキーワ
ード文字列を格納する。１８は必要キーワード切出部で
あり、必要キーワード格納手段１７に格納された文字列
と一致する文字列がテキスト中に現れた場合に、これを
すべて切り出して、キーワードに加える。

【００８６】図１２は、図１１の必要キーワード格納手
段１７に格納された基本語の例である。例として、「お
絵書きモード」というテキストが入力された場合につい
て説明する。

【００８７】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは平仮名、２文字めは漢
字、３文字めは漢字、４文字めは平仮名というように、
文字位置と字種との対応を字種記憶手段２が記憶する。

【００８８】次に、有効字種文字列切出部３が「絵書」
と「モード」を切り出す。

【００８９】次に、「絵書」と「モード」には字種の変
わり目がないので、字種分割点記憶手段７に記憶される
字種分割点の情報はない。

【００９０】次に、「絵書」と「モード」には接辞がな
いので、接辞分割点記憶手段１１に接辞分割点は記憶さ
れない。

【００９１】次に、基本語判別部１４が判別する基本語
はないので基本語分割点記憶手段１５は基本語分割点を
記憶しない。

【００９２】次に、部分文字列切出部１２において、
「絵書」と「モード」には分割点がないため、結果的
に、「絵書」と「モード」２つの部分文字列が切り出さ
れる。

【００９３】次に、名詞判別部４において「絵書」に後
接する平仮名「き」は名詞後接平仮名格納手段５に格納
されていないため、「絵書」が削除される。さらに、名
詞判別部４において「モード」には後接する平仮名がな
いため削除されない。

【００９４】次に、基本語削除部１６において「モー
ド」は削除されない。

【００９５】次に、必要キーワード判別部１８が必要キ
ーワード格納手段１７に格納されている「お絵書き」を
テキスト「お絵書きモード」から切り出し、キーワード
に追加する。

【００９６】最後に、「お絵書き」、「モード」が出力
される。

【００９７】上記実施例以外に、必要キーワード格納手
段１７に格納されている文字列を用いて分割点を設定
し、字種分割点、接辞分割点、基本語分割点と合わせ
て、部分文字列切出部で用いてもよい。

【００９８】実施例６によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点の情報を用いて部分文字列
切出部が部分文字列を切り出し、名詞判別部と基本語削
除部が不必要な文字列を削除し、必要キーワード切出部
が切り出したキーワードをこれに加えて、キーワードと
して出力するので、登録する文書のカテゴリに応じたカ
スタマイズが容易になる。

【００９９】実施例７．図１３はこの発明による実施例
７のキーワード抽出方式の全体構成図である。図１３に
おける符号１〜５は、それぞれ、図１における符号１〜
５と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号６、７はそれぞれ図３における符号６、７と同等の
字種境界判別部、字種分割点記憶手段であり、符号９〜
１２は、それぞれ、図５における符号９〜１２と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号１３〜１５は、それぞれ、図
７における符号１３〜１５と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号１６は
図９と同等の基本語削除部であり、符号１７、１８は、
それぞれ、図１１における符号１７、１８と同等の必要
キーワード格納手段、必要キーワード切出部である。１
９は前置助数詞格納手段であり、数字列が後接する文字
列を格納している。２０は後置助数詞格納手段であり、
数字列に後接する文字列を格納している。２１は数量表
現判別部であり、文字列中のすべての数量表現を判別
し、数量表現分割点記憶手段２２に渡す。数量表現分割
点記憶手段２２は、数量表現判別部２１が判別した数量
表現の前後の位置を数量表現分割点として記憶する。部
分文字列切出部１２は、字種分割点記憶手段７が記憶し
た字種分割点と接辞分割点記憶手段１１が記憶した接辞
分割点と基本語分割点記憶手段１５が記憶した基本語分
割点と数量表現分割点記憶手段２２が記憶した数量表現
分割点のうちひとつまたはふたつの分割点によって部分
文字列を切り出す。

【０１００】図１４は、図１３の前置助数詞格納手段に
格納された前置助数詞の例である。図１５は、図１３の
後置助数詞格納手段に格納された後置助数詞の例であ
る。例として、「平成４年度利益」というテキストが入
力された場合について説明する。

【０１０１】まず、字種判別部１が入力テキストの各文
字の字種を判別し、１文字めは漢字、２文字めは漢字、
３文字めは数字、４文字めは漢字というように、文字位
置と字種との対応を字種記憶手段２が記憶する。次に、
有効字種文字列切出部３が「平成４年度利益」全体を切
り出す。次に、字種境界判定部６が、「平成４年度利
益」の２文字めの後と３文字めの後が字種の変わり目で
あることを判別し、字種分割点記憶手段７が字種分割点
として記憶する。次に、「平成４年度利益」には接辞が
ないので、接辞分割点記憶手段１１に接辞分割点は記憶
されない。次に、基本語判別部１４が判別する基本語は
ないので基本語分割点記憶手段１５は基本語分割点を記
憶しない。次に、数量表現判別部２１が、「平成４年
度」が数量表現であることを判別し、１文字めの前と５
文字めの後が数量表現分割点であることを数量表現分割
点記憶手段２２が記憶する。

【０１０２】次に、部分文字列切出部が２文字めの後と
いうひとつの分割点によって「平成４年度利益」をふた
つに分割して「平成」と「４年度利益」という部分文字
列を切り出す。同様に、部分文字列切出部が３文字めの
後というひとつの分割点によって「平成４年度利益」を
ふたつに分割して「平成４」と「年度利益」という部分
文字列を切り出す。同様に、部分文字列切出部が５文字
めの後というひとつの分割点によって「平成４年度利
益」をふたつに分割して「平成４年度」と「利益」とい
う部分文字列を切り出す。さらに、部分文字列切出部が
２文字めの後と３文字めの後というふたつの分割点には
さまれた文字列として「４」という部分文字列を切り出
す。同様に、部分文字列切出部が２文字めの後と５文字
めの後というふたつの分割点にはさまれた文字列として
「４年度」という部分文字列を切り出す。同様に、部分
文字列切出部が３文字めの後と５文字めの後というふた
つの分割点にはさまれた文字列として「年度」という部
分文字列を切り出す。結果的に、「平成４年度利益」、
「平成」、「４年度利益」、「平成４」、「年度利
益」、「平成４年度」、「利益」、「４」、「年度」、
「利益」の１０の部分文字列が切り出される。

【０１０３】次に、名詞判別部４において、上記の１０
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。

【０１０４】最後に、「平成４年度利益」、「平成」、
「４年度利益」、「平成４」、「年度利益」、「平成４
年度」、「利益」、「４」、「年度」、「利益」が出力
される。

【０１０５】例では、数量表現分割点を他の分割点と同
等に扱ったが、数量表現分割点を他の分割点より１ラン
ク上の分割点として扱うことにより、さらに精度の高い
キーワード抽出が実現される。例えば、「平成４年度」
が数量表現として判別された場合には、「平成４年度」
はこれ以上分割しないようにすると、「平成４年度」と
「利益」というふたつの部分文字列が切り出される。

【０１０６】実施例７によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除してキーワードとして出
力するので、キーワードをさらに網羅的で高精度に抽出
することができる。

【０１０７】実施例８．図１６はこの発明による実施例
８のキーワード抽出方式の全体構成図である。図１６に
おける符号１〜５は、それぞれ、図１における符号１〜
５と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号６、７はそれぞれ図３における符号６、７と同等の
字種境界判別部、字種分割点記憶手段であり、符号９〜
１２は、それぞれ、図５における符号９〜１２と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号１３〜１５は、それぞれ、図
７における符号１３〜１５と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号１６は
図９と同等の基本語削除部であり、符号１７、１８は、
それぞれ、図１１における符号１７、１８と同等の必要
キーワード格納手段、必要キーワード切出部であり、符
号１９〜２２は、それぞれ、図１３における符号１９〜
２２と同等の前置助数詞格納手段、後置助数詞格納手
段、数量表現判別部、数量表現分割点記憶手段である。
２３は記号文字削除部であり、中黒、スラッシュ、ハイ
フン、ダッシュ、マイナスなどの記号文字を、部分文字
列から取り除く。

【０１０８】例として、「ランチ・タイム」というテキ
ストが入力された場合について説明する。まず、字種判
別部１が入力テキストの各文字の字種を判別し、１文字
めは片仮名、２文字めは片仮名、３文字めは片仮名、４
文字めは記号というように、文字位置と字種との対応を
字種記憶手段２が記憶する。次に、有効字種文字列切出
部３が「ランチ・タイム」全体を切り出す。次に、字種
境界判定部６が、「ランチ・タイム」の３文字めの後と
４文字めの後が字種の変わり目であることを判別し、字
種分割点記憶手段７が字種分割点として記憶する。次
に、「ランチ・タイム」には接辞がないので、接辞分割
点記憶手段１１に接辞分割点は記憶されない。次に、基
本語判別部１４が判別する基本語はないので基本語分割
点記憶手段１５は基本語分割点を記憶しない。次に、
「ランチ・タイム」には数量表現がないので、数量表現
分割点記憶手段２２に数量表現分割点は記憶されない。

【０１０９】次に、部分文字列切出部が３文字めの後と
いうひとつの分割点によって「ランチ・タイム」をふた
つに分割して「ランチ」と「・タイム」という部分文字
列を切り出す。同様に、部分文字列切出部が４文字めの
後というひとつの分割点によって「ランチ・タイム」を
ふたつに分割して「ランチ・」と「タイム」という部分
文字列を切り出す。さらに、部分文字列切出部が３文字
めの後と４文字めの後というふたつの分割点にはさまれ
た文字列として「・」という部分文字列を切り出す。結
果的に、「ランチ・タイム」、「ランチ」、「・タイ
ム」、「ランチ・」、「タイム」、「・」の６つの部分
文字列が切り出される。次に、名詞判別部４において、
上記の１０の部分文字列には後接する平仮名がないた
め、削除される部分文字列はない。次に、基本語削除部
において削除される部分文字列はない。次に、記号文字
削除部において、中黒文字「・」が削除され、「ランチ
タイム」、「ランチ」、「タイム」となる。次に、必要
キーワード切出部が切り出す部分文字列はない。最後
に、「ランチタイム」、「ランチ」、「タイム」が出力
される。

【０１１０】実施例８によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除してキーワードとして出
力し、記号文字削除部が記号文字を削除するので、キー
ワードを統一的に抽出することができる。

【０１１１】実施例９．図１７はこの発明による実施例
９のキーワード抽出方式の全体構成図である。図１７に
おける符号１〜５は、それぞれ、図１における符号１〜
５と同等の字種判別部、字種記憶手段、有効字種文字列
切出部、名詞判定部、名詞後接平仮名格納手段であり、
符号６、７はそれぞれ図３における符号６、７と同等の
字種境界判別部、字種分割点記憶手段であり、符号９〜
１２は、それぞれ、図５における符号９〜１２と同等の
接辞格納手段、接辞判別部、接辞分割点記憶手段、部分
文字列切出部であり、符号１３〜１５は、それぞれ、図
７における符号１３〜１５と同等の基本語格納手段、基
本語判別部、基本語分割点記憶手段であり、符号１６は
図９と同等の基本語削除部であり、符号１７、１８は、
それぞれ、図１１における符号１７、１８と同等の必要
キーワード格納手段、必要キーワード切出部であり、符
号１９〜２２は、それぞれ、図１３における符号１９〜
２２と同等の前置助数詞格納手段、後置助数詞格納手
段、数量表現判別部、数量表現分割点記憶手段であり、
符号２３は図１６における符号２３と同等の記号文字削
除部である。

【０１１２】例として、「プロ野球オールスターゲー
ム」というテキストが入力された場合について説明す
る。まず、字種判別部１が入力テキストの各文字の字種
を判別し、１文字めは片仮名、２文字めは片仮名、３文
字めは漢字、４文字めは漢字というように、文字位置と
字種との対応を字種記憶手段２が記憶する。次に、有効
字種文字列切出部３が「プロ野球オールスターゲーム」
全体を切り出す。次に、字種境界判別部６が、「プロ野
球オールスターゲーム」の２文字めの後と４文字めの後
が字種の変わり目であることを判別し、字種分割点記憶
手段７が字種分割点として記憶する。次に、「プロ野球
オールスターゲーム」には接辞がないので、接辞分割点
記憶手段１１に接辞分割点は記憶されない。次に、基本
語判別部１４が判別する基本語はないので基本語分割点
記憶手段１５は基本語分割点を記憶しない。次に、「プ
ロ野球オールスターゲーム」には数量表現がないので、
数量表現分割点記憶手段２２に数量表現分割点は記憶さ
れない。

【０１１３】次に、部分文字列切出部が２文字めの後と
いうひとつの分割点によって「プロ野球オールスターゲ
ーム」をふたつに分割して「プロ」と「野球オールスタ
ーゲーム」という部分文字列を切り出す。同様に、部分
文字列切出部が４文字めの後というひとつの分割点によ
って「プロ野球オールスターゲーム」をふたつに分割し
て「プロ野球」と「オールスターゲーム」という部分文
字列を切り出す。さらに、部分文字列切出部が２文字め
の後と４文字めの後というふたつの分割点にはさまれた
文字列として「野球」という部分文字列を切り出す。結
果的に、「プロ野球オールスターゲーム」、「プロ」、
「野球オールスターゲーム」、「プロ野球」、「オール
スターゲーム」、「野球」の６つの部分文字列が切り出
される。

【０１１４】次に、名詞判別部４において、上記の１０
の部分文字列には後接する平仮名がないため、削除され
る部分文字列はない。次に、基本語削除部において削除
される部分文字列はない。次に、記号文字削除部におい
て削除される文字はない。次に、文字数制限部におい
て、例えば文字数の制限が２文字以上１０文字以下であ
った場合、「プロ野球オールスターゲーム」と「野球オ
ールスターゲーム」が削除される。次に、必要キーワー
ド切出部が切り出す部分文字列はない。最後に、「プ
ロ」、「プロ野球」、「オールスターゲーム」、「野
球」が出力される。上記実施例では文字数の制限を２文
字以上１０文字以下としたが、任意に変更可能とするこ
とにより、キーワード抽出の対象となる文書の性質やシ
ステムの持つ記憶装置などの資源に応じたカスタマイズ
が容易になる。また、文字数の計算において、１文字当
たりの重みを字種に応じて変化させることも可能であ
る。

【０１１５】実施例９によれば、入力されたテキストか
ら字種判別部が有効字種文字列を切り出し、字種分割点
と接辞分割点と基本語分割点と数量表現分割点の情報を
用いて部分文字列切出部が部分文字列を切り出し、名詞
判別部が不必要な文字列を削除し、記号文字削除部が記
号文字を削除し、文字数制限部が予め設けられた文字数
の制限を逸脱する文字列を削除してキーワードとして出
力するので、無駄なキーワードを排除しながら網羅的に
キーワードを抽出することができる。

【０１１６】

【発明の効果】請求項１のキーワード抽出方式は、入力
されたテキストの文字を種類分けする字種判別部と、こ
の字種判別部で判別された字種を記憶する字種記憶手段
と、この字種記憶手段が記憶した情報から有効な字種が
続く限り文字列を切り出す有効字種文字列切出部と、名
詞に後接する可能性のある平仮名文字列を格納した名詞
後接平仮名文字列格納手段と、前記有効字種文字列切出
部が切り出した文字列から、前記名詞後接平仮名文字列
格納手段を使って名詞である可能性のある名詞候補文字
列を抽出する名詞判別部と、を備えた構成にしたので、
テキストを字種レベルの情報によって解析することによ
り、形態素解析を行う場合より高速にキーワードを抽出
できると共に、未知語に対する属性の付与という困難な
処理から解放される効果を奏する。

【０１１７】請求項２のキーワード抽出方式は、請求項
１記載のキーワード抽出方式において、字種記憶手段が
記憶した情報を使用して有効字種文字列の字種の変わり
目を判別する字種境界判別部と、この字種境界判別部が
判別した字種の変わり目を字種分割点として記憶する字
種分割点記憶手段と、有効字種文字列切出部が切り出し
た有効字種文字列から、部分文字列を切り出す部分文字
列切出部と、を備えた構成にしたので、テキストを字種
レベルの情報によって解析することにより、形態素解析
を行う場合より高速にキーワードを抽出でき、未知語に
対する属性の付与という困難な処理から解放されると共
に、字種境界判別部を設けることによりキーワードをさ
らに網羅的に抽出することができる。

【０１１８】請求項３のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、部分文字列切出
部は、有効字種文字列切出部が切り出した有効字種文字
列から、字種分割点を切り目とした部分文字列を網羅的
に切り出す構成にしたので、字種境界判別部を設けるこ
とによりキーワードをさらに網羅的に抽出することがで
きる。

【０１１９】請求項４のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、使用頻度の高い
接辞をその属性と共に格納した接辞格納手段と、この接
辞格納手段を用いて有効字種文字列の中の全ての接辞を
判別する接辞判別部と、この接辞判別部が判別した全て
の接辞の前後を接辞分割点として記憶する接辞分割点記
憶手段と、を備え、部分文字列切出部は、有効字種文字
列切出部が切り出した有効字種文字列から、字種分割点
と前記接辞分割点を切り目とした部分文字列を接辞の属
性を考慮して切り出す構成にしたので、字種境界判別部
に加え接辞判別部を設けることによりキーワードをさら
に網羅的に抽出することができる。

【０１２０】請求項５のキーワード抽出方式は、請求項
２記載のキーワード抽出方式において、使用頻度の高い
名詞を格納した基本語格納手段と、この基本語格納手段
を用いて有効字種文字列の中の基本語を判別する基本語
判別部と、この基本語判別部が判別した全ての基本語の
前後を基本語分割点として記憶する基本語分割点記憶手
段と、を備え、部分文字列切出部は、有効字種文字列切
出部が切り出した有効字種文字列から、字種分割点と接
辞分割点と前記基本語分割点を切り目とした部分文字列
を接辞の属性を考慮して切り出す構成にしたので、基本
語格納手段に格納される語には、語の属性情報が格納さ
れていないため、基本語格納手段が占有するサイズは形
態素解析に用いられる辞書より小さく、２次記憶装置上
に置く必要がないため、高速な処理時間を保つことがで
きる。

【０１２１】請求項６のキーワード抽出方式は、請求項
５記載のキーワード抽出方式において、基本語格納手段
に格納されている文字列を削除する基本語削除部を備え
た構成にしたので、検索に用いる２次情報データベース
の作成に不要なキーワードを削除できる。

【０１２２】請求項７のキーワード抽出方式は、請求項
５記載のキーワード抽出方式において、予め定められた
文字列を格納しておく必要キーワード格納手段と、この
必要キーワード格納手段に格納されている文字列と一致
する文字列をテキストから切り出す必要キーワード切出
部と、を備えた構成にしたので、登録する文書のカテゴ
リに応じたカスタマイズが容易になる。

【０１２３】請求項８のキーワード抽出方式は、請求項
７記載のキーワード抽出方式において、数字が後接する
文字列を格納した前置助数詞格納手段と、数字に後接す
る文字列を格納した後置助数詞格納手段をと、これらの
前置助数詞格納手段と後置助数詞格納手段を用いて数量
表現を判別する数量表現判別部と、この数量表現判別部
が判別したすべての数量表現の前後を数量表現分割点と
して記憶する数量表現分割点記憶手段と、を備え、部分
文字列切出部は、有効字種文字列切出部が切り出した有
効字種文字列から、字種分割点と接辞分割点と基本語分
割点と前記数量表現分割点を切り目とした部分文字列を
接辞の属性を考慮して切り出す構成にしたので、字種境
界判別部と接辞判別部と基本語判別部に加え数量表現判
別部を設けることによりキーワードをさらに網羅的に抽
出することができる。

【０１２４】請求項９のキーワード抽出方式は、請求項
８記載のキーワード抽出方式において、記号文字を削除
する記号文字削除部を備えた構成にしたので、統一的な
キーワード抽出ができる。

【０１２５】請求項１０のキーワード抽出方式は、請求
項９記載のキーワード抽出方式において、予め定められ
た文字数制限から逸脱する文字列を削除する文字数制限
部を設けた構成にしたので、無駄なキーワードを排除し
ながら網羅的にキーワードを抽出することができる。

【図面の簡単な説明】

【図１】この発明による実施例１の全体構成図であ
る。

【図２】この発明による実施例１の名詞後接平仮名文
字列の例を示す図である。

【図３】この発明による実施例２の全体構成図であ
る。

【図４】この発明による実施例２の名詞後接平仮名文
字列の例を示す図である。

【図５】この発明による実施例３の全体構成図であ
る。

【図６】この発明による実施例３の接辞の例を示す図
である

【図７】この発明による実施例４の全体構成図であ
る。

【図８】この発明による実施例４の基本語の例を示す
図である。

【図９】この発明による実施例５の全体構成図であ
る。

【図１０】この発明による実施例５の基本語の例を示
す図である。

【図１１】この発明による実施例６の全体構成図であ
る。

【図１２】この発明による実施例６の基本語の例を示
す図である。

【図１３】この発明による実施例７の全体構成図であ
る。

【図１４】この発明による実施例７の数字列が後接す
る文字列の例を示す図である。

【図１５】この発明による実施例７の数字列に後接す
る文字列の例を示す図である。

【図１６】この発明による実施例８の全体構成図であ
る。

【図１７】この発明による実施例９の全体構成図であ
る。

【図１８】従来のキーワード抽出方式を用いた文書管
理システムの構成の説明図である。

【図１９】従来のキーワード抽出方式の動作を説明す
る図である。

【符号の説明】

１字種判別部、２字種記憶手段、３有効字種文字
列切出部、４名詞判別部、５名詞後接平仮名格納手
段、６字種境界判別部、７字種分割点記憶手段、９
接辞格納手段、１０接辞判別部、１１接辞分割点
記憶手段、１２部分文字列切出部、１３基本語格納手
段、１４基本語判別部、１５基本語分割点記憶手
段、１６基本語削除部、１７必要キーワード格納手
段、１８必要キーワード切出部、１９前置助数詞格納
手段、２０前置助数詞格納手段、２１数量表現判別
部、２２数量表現分割点記憶手段、２３記号文字削
除部、２４文字数制限部。

Claims

【特許請求の範囲】

【請求項１】入力されたテキストの文字を種類分けす
る字種判別部と、この字種判別部で判別された字種を記
憶する字種記憶手段と、この字種記憶手段が記憶した情
報から有効な字種が続く限り文字列を切り出す有効字種
文字列切出部と、名詞に後接する可能性のある平仮名文
字列を格納した名詞後接平仮名文字列格納手段と、前記
有効字種文字列切出部が切り出した文字列から、前記名
詞後接平仮名文字列格納手段を使って名詞である可能性
のある名詞候補文字列を抽出する名詞判別部と、を備え
たキーワード抽出方式。
【請求項２】字種記憶手段が記憶した情報を使用して
有効字種文字列の字種の変わり目を判別する字種境界判
別部と、この字種境界判別部が判別した字種の変わり目
を字種分割点として記憶する字種分割点記憶手段と、有
効字種文字列切出部が切り出した有効字種文字列から、
部分文字列を切り出す部分文字列切出部と、を備えた請
求項１記載のキーワード抽出方式。
【請求項３】部分文字列切出部は、有効字種文字列切
出部が切り出した有効字種文字列から、字種分割点を切
り目とした部分文字列を網羅的に切り出すことを特徴と
する請求項２記載のキーワード抽出方式。
【請求項４】使用頻度の高い接辞をその属性と共に格
納した接辞格納手段と、この接辞格納手段を用いて有効
字種文字列の中の全ての接辞を判別する接辞判別部と、
この接辞判別部が判別した全ての接辞の前後を接辞分割
点として記憶する接辞分割点記憶手段と、を備え、部分
文字列切出部は、有効字種文字列切出部が切り出した有
効字種文字列から、字種分割点と前記接辞分割点を切り
目とした部分文字列を接辞の属性を考慮して切り出すこ
とを特徴とする請求項２記載のキーワード抽出方式。
【請求項５】使用頻度の高い名詞を格納した基本語格
納手段と、この基本語格納手段を用いて有効字種文字列
の中の基本語を判別する基本語判別部と、この基本語判
別部が判別した全ての基本語の前後を基本語分割点とし
て記憶する基本語分割点記憶手段と、を備え、部分文字
列切出部は、有効字種文字列切出部が切り出した有効字
種文字列から、字種分割点と接辞分割点と前記基本語分
割点を切り目とした部分文字列を接辞の属性を考慮して
切り出すことを特徴とする請求項２記載のキーワード抽
出方式。
【請求項６】基本語格納手段に格納されている文字列
を削除する基本語削除部を備えたことを特徴とする請求
項５記載のキーワード抽出方式。
【請求項７】予め定められた文字列を格納しておく必
要キーワード格納手段と、この必要キーワード格納手段
に格納されている文字列と一致する文字列をテキストか
ら切り出す必要キーワード切出部と、を備えたことを特
徴とする請求項６記載のキーワード抽出方式。
【請求項８】数字列が後接する文字列の一覧を格納し
た前置助数詞格納手段と、数字列に後接する文字列の一
覧を格納した後置助数詞格納手段を用いて有効字種文字
列の中の数量表現を判別する数量表現判別部と、この数
量表現判別部が判別した全ての数量表現の前後を数量表
現分割点として記憶する数量表現分割点記憶手段と、を
備え、部分文字列切出部は、有効字種文字列切出部が切
り出した有効字種文字列から、字種分割点と接辞分割点
と基本語分割点と前記数量表現分割点を切り目とした部
分文字列を接辞の属性を考慮して切り出すことを特徴と
する請求項７記載のキーワード抽出方式。
【請求項９】中黒、スラッシュ、ハイフン、ダッシ
ュ、マイナスなどの記号文字を、切り出した部分文字列
から取り除く記号文字削除部を備えたことを特徴とする
請求項８記載のキーワード抽出方式。
【請求項１０】予め設けられた文字数の制限を逸脱す
る文字列を削除する文字数制限部を備えたことを特徴と
する請求項９記載のキーワード抽出方式。