JP2003256441A - 文書分類方法及び装置 - Google Patents
文書分類方法及び装置Info
- Publication number
- JP2003256441A JP2003256441A JP2002056238A JP2002056238A JP2003256441A JP 2003256441 A JP2003256441 A JP 2003256441A JP 2002056238 A JP2002056238 A JP 2002056238A JP 2002056238 A JP2002056238 A JP 2002056238A JP 2003256441 A JP2003256441 A JP 2003256441A
- Authority
- JP
- Japan
- Prior art keywords
- document
- class
- vector
- similarity
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
り分ける技術であり、情報の流通が増すにつれ、重要性
が高まってきている。文書分類としてはこれまでに多く
の分類法が提案されている。しかしこれらの多くの分類
法ではクラスモデルの記述の正確さは指向しているが、
クラスモデルにクラス間の重なりがあることには配慮し
てないために、それが誤分類の原因となり分類精度の向
上に限界がある。 【解決手段】本願発明では、クラスモデルのクラス間の
重なりによる誤分類を少なくする為に、各クラスについ
て着目クラスには現れるが他のクラスでは現れにくい特
徴、及び他のクラスでは現れるが着目クラスでは現れに
くい特徴を求め、そのデータを使って類似度の補正を行
う。これにより分類精度を高めることが出来る。
Description
る自然言語処理に関するものであり、特に文書集合間の
差異を的確に抽出できるようにすることによって前記処
理の高性能化を図るものである。
プに振り分ける技術であり、情報の流通が増すにつれ、
重要性が高まってきている。文書分類としてはこれまで
に、ベクトル空間法、k-最近隣法(kNN法)、ナイーブ
ベイズ法、決定木法、サポートベクターマシン法、ブー
スティング法など実に様々な方法が研究開発されてき
た。文書の文書分類処理に関する最近の動向について
は、情報処理学会誌第42巻第1号(2001年1月)に掲載さ
れている「テキスト分類‐学習理論の見本市‐」(著者:
永田昌明、平博順)に詳しい。どのような分類法も、文
書クラスに関する情報を何らかの形で記述し、入力文書
と照合している。以下これをクラスモデルと呼ぶ。この
クラスモデルは、例えば、ベクトル空間法では各クラス
に属する文書の平均ベクトルにより、k-最近隣法では各
クラスに属する文書のベクトルの集合により、ブーステ
ィング法では単純な仮説の集合により表現されている。
正確な分類を図るにはクラスモデルは各クラスを正確に
記述したものでなければならない。現在まで提案されて
いる分類法も高度なものほどクラスモデルは各クラスを
正確に記述していると云ってよいであろう。
分類法ではクラスモデルの記述の正確さは指向している
が、クラスモデルにクラス間の重なりがあることには配
慮してない。ベクトル空間法にせよ、k-最近隣法にせよ
あるクラスのクラスモデルには他のクラスとマッチする
情報も含まれてしまっている。クラスモデル間に重なり
が存在すれば、ある入力文書とその入力文書が属さない
クラスとの間で類似性が存在することになり、これは誤
分類の原因となりうる。誤分類の原因を取り除くために
は、クラスモデルがクラス間で重ならないよう、各クラ
ス固有の情報を求めてクラスモデルを記述する必要があ
る。
み、本発明では、各クラスについて着目クラスには現れ
るが他のクラスでは現れにくい特徴、及び他のクラスで
は現れるが着目クラスでは現れにくい特徴を求める手段
を講じ、また、このような特徴を効果的に用いることが
できるようメインとサブの2段からなる分類系を構築す
る。メインの分類系では既存の高い性能を発揮すること
ができる分類法を採用し、サブの分類系で前記特徴を用
いるようにする。ここでは、メインの分類系は、入力文
書と各クラスとの類似度をもとに分類を行うものとして
説明を続ける。
書がどのクラスに帰属するかを示すラベルの付与された
全訓練文書集合を用いてどのように求めるかを述べる。
先ず、全訓練文書をメインの分類系で分類を行い、クラ
ス毎に閾値を越える文書を抽出する。これらの文書の中
で属するクラスに正しく分類された集合(以下着目クラ
ス集合と呼ぶ)及び他のクラスに属するにもかかわらず
着目クラスに分類された集合(以下対抗文書集合と呼
ぶ)を生成する。また、各文書は文ベクトルの集合で表
現しておく。各文ベクトルの各成分は、その文に出現す
る各用語の頻度、もしくはそれに応じた量であり、次元
数は全訓練文書集合に現れる用語種類数、もしくは選択
された用語の種類数である。ある射影軸に全文書の全文
ベクトルを射影したとし、着目クラスの文書集合からの
射影値の2乗和と対抗文書集合のそれとの比を、その射
影軸に反映される両集合間の違いの程度を示す評価基準
とする。この評価基準を最大にする射影軸を用いてサブ
の分類系で用いる特徴を求める。
ベクトルとして複数求めることができる。すなわち、評
価基準として、(着目クラスからの射影値の2乗和)/
(対抗文書集合からの射影値の2乗和)とすると、求め
られた射影軸は着目クラスの文書集合からの射影値の2
乗和は大きく、対抗文書集合からの射影値の2乗和は小
さくなるので、対抗文書には現れにくく、着目クラスに
は現れ易い情報を反映するものとなる。そこでこのよう
な射影軸を正のトピック差分因子ベクトルと呼ぶことと
する。反対に、評価基準を、(対抗文書集合からの射影
値の2乗和)/(着目クラスからの射影値の2乗和)とす
ると、求められた射影軸は着目クラスには現れにくく、
対抗文書には現れ易い情報を反映するものとなる。これ
を負のトピック差分因子ベクトルと呼ぶ。サブの分類系
では、クラス毎に、メインの分類系で求められた類似度
に、入力文書の各文ベクトルと一定個の正のトピック差
分因子ベクトルとの内積の重み付き2乗和を加え、同様
に入力文書の各文ベクトルと一定個の負のトピック差分
因子ベクトルとの内積の重み付き2乗和を差し引く。こ
のように補正された類似度とクラス毎に決められた閾値
とを比較し、入力文書が閾値を越えるクラスに帰属する
と判定する。
で求められた類似度をサブの分類系で補正している。サ
ブの分類系で、あるクラスにおいて入力文書の各文ベク
トルと一定個の正のトピック差分因子ベクトルとの内積
の重み付き2乗和を求めたとき、正のトピック差分因子
ベクトルはそのクラスに存在する特徴を規定することに
なるので、入力文書がそのクラスに帰属するときは多く
の場合大きな値をとり、類似度は大きな値に補正され
る。入力文書がそのクラスに帰属しないときは多くの場
合小さな値をとり、類似度の変化は小さい。また、入力
文書の各文ベクトルと一定個の負のトピック差分因子ベ
クトルとの内積の重み付き2乗和を求めたとき、負のト
ピック差分因子ベクトルはそのクラスに存在すべきでな
い特徴を規定するので、入力文書がそのクラスに帰属す
るときは多くの場合小さな値をとり、類似度の変化は小
さい。しかし、入力文書がそのクラスに帰属しないとき
は大きな値をとることが多く、類似度は小さな値に補正
される。類似度の補正はこのように行われるので、多く
の場合、補正の結果、入力文書の帰属するクラスの類似
度は大きくなり、また、帰属しないクラスの類似度は小
さくなるので、分類の精度が高められる。
文書入力部(110)に分類すべき文書を入力する。デー
タ処理部(120)では、入力された文書に用語抽出・文
書セグメント抽出などのデータ処理を行う。分類エンジ
ン(130)では、分類クラス情報部(140)を参照し、メ
インの分類系で類似度を計算しさらにサブの分類系でそ
の補正を行う。補正された類似度を用いて入力された文
書の属するクラスを決定し、分類クラス出力部(150)
へ出力する。 図2は本発明の文書入力からクラス決定
に至るまでの全体のフローチャートを示す。11は文書入
力、12は用語抽出・選択、13は文書セグメントベクトル
抽出、14は類似度計算、15は類似度補正、16はクラス決
定である。11から14までが前記メインの分類系に相当
し、15及び16がサブの分類系に相当する。以下、英文文
書を例に実施例を説明する。
る文書が入力される。用語抽出・選択12では、先ず文書
から単語、数式、記号系列などを抽出する。ここでは、
単語や記号系列を総称して全て用語と呼ぶ。英文の場
合、単語同士を分けて書く正書法が確立しているので用
語の検出は容易である。また、用語抽出・選択12では、
入力文書に現れる用語の中から、予め決定しておいた分
類に用いる用語のリストに含まれる用語を抽出する。分
類に用いる用語の選択はラベルの付与された大量の訓練
文書集合を用いて行うことができ、tf-idf法、χ2統計
量を用いる方法、相互情報量を用いる方法などが良好な
結果を与える方法として知られている。文書セグメント
ベクトル抽出13は、文書を文書セグメントに分割し、文
書セグメント毎にベクトルを作成する。文書の文書セグ
メントへの分割で最も基本的な処理は文単位の分割であ
る。英文の場合、文はピリオドで終わり、その後ろにス
ペースが続くので文の切出しは容易に行うことができ
る。
は、用語の数がほぼ同じになるように複数の文をまとめ
て文書セグメントとする方法、文書の先頭から含まれる
用語の数が同じになるように文とは関係なく分割する方
法などが考えられる。これらの分割も容易である。文書
全体をひとつの文書セグメントとすることもありうる。
次に、文書セグメント毎にベクトルを作成する。ベクト
ルの成分は分類に用いる各用語の文書セグメントにおけ
る頻度である。或いは、これに重みを乗じてもよい。重
みの与え方も様々な方法が研究されており、有効な方法
が知られている。文書セグメントベクトルを全て加え合
わせて生成したベクトルを文書ベクトルと呼ぶ。以下、
文ベクトルを文書セグメントベクトルとして話を進め
る。K個の文からなる入力文書X(図3(a))が入力さ
れ、そのk番目の文ベクトルをxk(図3(b))、文書
ベクトルをx(図3(c))で表す。(図3(b))の
下段の数字は、文ベクトルの成分の一例である。これら
の数字は文ベクトルxkの各成分に対応する用語の頻度を
表わす。
スに対する類似度を計算する。類似度を求める方法も色
々な方法が知られている。ベクトル空間モデルの場合
は、訓練コーパスを用いて各クラスの平均文書ベクトル
を求め保持しておく。クラスlの平均ベクトルをmlとす
ると、入力文書のクラスlに対する類似度sim(X,l)は、
以下図4に示すフローチャートに従がってkNN法の説明
をする。kNN法においては、訓練文書集合におけるt番
目の文書をYt、その文書ベクトルをytとして、入力文書
Xの文書Ytに対する類似度sim(X, Yt)を
似度を求めた後(142)、入力文書Xと類似度の大きかっ
たk個の文書を選択する(144)。k個の選択された文書
の中で、文書に付属されたラベルに従がって各文書をク
ラス毎にソートする(146)。次いで、入力文書のクラ
スlに対する類似度sim(X,l)を計算する(148)。sim
(X,l)はクラスlにソートされた文書と入力文書Xとの
類似度の総和で定義される。即ち、
の集合である。類似度補正15(図2)では、クラス毎に
保持されていた、正のトピック差分因子ベクトルと負の
トピック差分因子ベクトルを用いて類似度の補正を行
う。類似度の補正に用いるクラスlの正のトピック差分
因子ベクトルを{αi}(i=1,..,LG)、負のトピック差分因
子ベクトルを{βi}(i=1,..,LP)とする。クラスlに対す
る補正後の類似度をsimC (X,l)とすると、これは
り、LP、LGとともに予め決定しておくものである。a、
b、LP、LGの値は、{αi}、{βi}の算出には用いなかっ
た文書集合を用い、a、b、LP、LGのそれぞれの値を順に
変えながらその文書集合に対する性能を求め、最もF値
の高かった値の組み合わせを選択することで決定でき
る。ここで、F値は次のように定義される。 精度=分類の結果各文書に正しく付与されたクラスの総
数/分類の結果各文書に付与されたクラスの総数 再現率=分類の結果各文書に正しく付与されたクラスの
総数/各文書が本来属しているクラスの総数 F値=精度×再現率×2/(精度+再現率) 補正後の類似度は次式によって行ってもよい。
対する重みである。LP、L Gが与えられたとき、ai、biは
線形判別分析を用いて最適な値を求めることができる。
具体的には、先ず、{αi}、{βi}の算出には用いなかっ
た文書ごとに、LP+LG+1次元のベクトルを用意し、成分
として、(xk T αi)2(i=1,..,LG)、(xk T βi)
2(i=1,..,LP)、sim (X,l)を与える。そして、クラ
スlの文書集合と他のクラスに属する文書集合の間で線
形判別分析を実行し、クラスlの文書集合と他のクラス
に属する文書集合とを最適に分離する重みを各成分に対
して決定する。他のクラスに属する文書集合とは分類処
理22(図5)における分類結果において、クラスlに
対する類似度sim(X,l)がある閾値を越えている他のク
ラスに属する文書を指す。線形判別分析では、一般に、
2つのグループのベクトル集合を最適に分離する射影軸
を求めることができると言われている。射影軸は、各グ
ループの平均ベクトルの差分ベクトルに、両グループの
共分散行列を加え得合わせた行列の逆行列を乗じて求め
ることができる。その後、(xk T αi) 2、(i=1,..,
LG)及び(xk T βi)2、(i=1,..,LP)に対する重み
をsim (X,l)に対する重みで割ることにより、ai、biを
決定することができる。これをあらゆるLP、LGの値の組
み合わせに対して実行し、分類結果が最もよくなるもの
を採用すればよい。
して予め決めておいた閾値と補正後の類似度とを比較
し、入力文書の帰属するクラスを決定する。具体的に
は、クラスlに対する補正後の類似度がクラスlに対する
閾値よりも大きければ入力文書はクラスlに帰属すると
判定する。図5は、図2ブロック15における類似度を
補正する為の正のトピック差分因子ベクトルと負のトピ
ック差分因子ベクトルを決定する手順に関するフローチ
ャートである。21で訓練文書集合を用意する。22は分類
処理、23は対抗文書集合編集、24はトピック差分因子分
析である。
分因子ベクトルを決定するための訓練文書集合を用意
し、各文書について文書ベクトル、文書セグメントベク
トルを求めておく。クラスlに帰属するM個の文書の集
合をDとする(図6(a))。Dのm番目の文書DmがKD (m)
個の文から成っているものとして、k番目の文ベクトル
をdmk(図6(b))で表す。分類処理22では図2に示す
手順に従って各訓練文書を入力文書としてそれ以外の全
訓練文書との類似度を求めクラスを決定する(図2、ブ
ロック14及びブロック16)。この操作を全訓練文書
に対して行い分類を行う。但し、図2のブロック15にお
ける類似度補正は行わない。
図7のフローチャートで説明する。 221: 全訓練文書に対して用語抽出・文書セグメン
ト抽出などのデータ処理を行う。 222:入力文書として各訓練文書を選択する。22
3:入力文書と他の訓練文書との類似度を計算し、数3
に従がって各クラスに対する類似度を求める。。 224:全ての訓練文書に対して各クラスの類似度を求
める。 225:クラス毎に着目クラスの閾値を超えた文書を着
目クラス文書集合と対抗文書集合に分ける。
く説明する。対抗文書集合編集23(図5)は、分類処理
22における分類結果をもとに、他のクラスに誤分類され
た、もしくは誤分類されそうになった対抗文書の集合を
クラス毎に作成する。クラスlに対する対抗文書の抽出
は、クラスlに対する類似度sim(X,l)がある閾値を越
えている文書を選択することにより行われる。閾値の決
定は選択される対抗文書の数によって恣意的に決定して
よい。ここでは、クラスlに対する対抗文書集合TがN個
の文書から成るものとする。Tのn番目の文書TnがKT(n)
個の文から成っているものとして、k番目の文ベクトル
をtnk(図6(c))で表す。なお、文書集合Dは、クラ
スlに対する類似度が上記の閾値を越え、かつクラスl
に属する文書の集合としてもよい。
スに属する文書集合、対抗文書集合を用いて正、負のト
ピック差分因子ベクトルを算出する。トピック差分因子
ベクトルとして求めるべき射影軸をαとする。文書集合
D、Tの全文ベクトルをαへ射影したときの射影値の2乗
和をPD、PTとすると、正のトピック差分因子ベクトルは
評価基準J(α)=PD(α)/PT(α)を最大にするようなαと
して求められる。J(α)を最大にするαは文書集合Dの文
ベクトルの射影値の2乗和は大きく、文書集合Tの文ベク
トルの射影値の2乗和は小さくなるはずなので、文書集
合Dには存在しうるが文書集合Tには存在しにくい特徴を
反映することになる。PD(α)、PT(α)は
(α)を最大にするαは、数10をαで微分し零とおくこ
とにより求めることが出来る。すなわち
数11の固有ベクトルは一般に複数求めることができ、
それらから1次からLG次までを選択したものが図2のブ
ロック15における正のトピック差分因子ベクトル{αi}
(i=1,..,LG)となる。また、求めるべきもうひとつの射
影軸をβとし、評価基準をJ(β)=PT(β)/PD(β)とする
と、J(β)を最大にするβは文書集合Tには存在しうるが
文書集合Dには存在しにくい特徴を表すことになる。こ
の場合には評価基準J(β)を最大にするβは、数11と
同様に
数12から求められる複数の固有ベクトルの中から1次
からLP次までを選択したものが図2のブロック15におけ
る負のトピック差分因子ベクトル{βi}(i=1,..,LP)とな
る。 また、数11の場合、固有ベクトルが求められる
ためには行列STは正則行列でなければならない。しか
し、実際には訓練文書集合における文の数が用語数より
も小さい、特定の用語対が常に共起するような場合には
STは正則行列として求められない。このような場合STを
次式により正則化することにより固有ベクトルを求める
ことができる。
を用いる場合には評価基準J(α)は
や文の長さは考慮に入っていない。そのため、入力文書
の各クラスに対する類似度は文書の長さに依存しないよ
うに求められたにしても、長い文書ほど類似度の補正量
が大きくなる、もしくは長い文ほど類似度の補正量に与
える影響が大きくなるという問題も発生する。そのた
め、図2のブロック15において、数4の代わりに
の数である。これにより、文書の長さの影響を軽減でき
る。これは、数5に対しても同様である。あるいは、入
力文書のk番目の文に現れる用語の数をNkとすると、数
4の代わりに
響を軽減できる。これは、数5に対しても同様である。
また、図3(b)における入力文書の文ベクトルxkを
いてもよい。このときには、図6におけるdmk、tnkを同
様に正規化して、正及び負のトピック差分因子ベクトル
を求める必要がある。
ラスの固有の情報を分類に用いることができるようにな
るので、分類の精度を著しく高めることができる。Reut
ers-21578(訓練文書数7770、カテゴリー数87、テスト
文書数3019)を用いた実験では、本願発明の補正を行わ
ない従来のkNN法のデータは、精度85.93%、再現率81.57
%、F値83.69%であるが、数16による類似度の補正を行
うことにより、精度90.03%、再現率84.40%、F値87.14%
に高められた。 精度、再現率、F値の定義は前述の通りであり、また、R
euters21578ではひとつの文書は複数のクラスに属しう
る。
る。
の14)を求めるフローチャートである。
合と着目クラスに誤ったもしくは誤りそうになった文書
集合を用いて、正及び負のトピック差分因子ベクトルを
求める手順を示すフローチャートである。
る。
ローチャートである。
Claims (7)
- 【請求項1】以下の(a)から(g)のステップを有す
る、所与の入力文書を所与の文書クラスに分類する方法
であって、(a)前記入力文書に出現する用語から分類
に用いる用語を選択するステップと(b)前記入力文書
を所定の単位の文書セグメントに区分けするステップ
と、(c)前記文書セグメントに出現する用語の出現頻
度に関連した値を成分とする文書セグメントベクトルを
生成し、全ての前記文書セグメントベクトルを加え合わ
せた文書ベクトルを生成するステップと、(d)前記文
書クラス毎に予め保持されている情報を用いて入力文書
と各クラスの類似度を求めるステップと、(e)前記文
書クラス毎に予め保持されている1つ以上の正のトピッ
ク差分因子ベクトルの各々と各前記文書セグメントベク
トルとの内積の重み付き2乗和を前記各クラスの類似度
に加えるステップと、(f)前記文書クラス毎に予め保
持されている1つ以上の負のトピック差分因子ベクトル
の各々と各前記文書セグメントベクトルとの内積の重み
付き2乗和を前記各クラスの類似度から差し引くステッ
プと、(g)前記値が補正された各クラスの類似度から
入力文書が帰属するクラスを決定するステップを含む文
書分類方法 - 【請求項2】類似度の補正に用いる各クラスの正、負の
トピック差分因子ベクトルは、(a)所与の訓練文書集
合に属する各訓練文書と各クラスとの類似度を求め、前
記各訓練文書を各クラスに分類するステップと、(b)
前記訓練文書集合に対する分類結果から各クラスに対
し、他のクラスに属するにもかかわらず各クラスに予め
用意された閾値を越える対抗文書の集合を求めるステッ
プと、(c)各クラスの正のトピック差分因子ベクトル
を、そのクラスに属する全てのもしくは選択された文書
の各文書セグメントベクトルを射影した時の2乗和を分
子とし、そのクラスの各対抗文書の各文書セグメントベ
クトルを射影した時の2乗和を分母とした値を最大とす
る射影軸として求めるステップと、(d)各クラスの負
のトピック差分因子ベクトルを、そのクラスに属する全
てのもしくは選択された文書の各文書セグメントベクト
ルを射影した時の2乗和を分母とし、そのクラスの各対
抗文書の各文書セグメントベクトルを射影した時の2乗
和を分子とした値を最大とする射影軸として求めるステ
ップと、によって決定する請求項1に記載の文書分類方
法。 - 【請求項3】前記文書セグメントベクトル及び前記文書
ベクトルを前記文書セグメントベクトル及び前記文書ベ
クトルのノルムで除することにより、正規化することを
特徴とする前記請求項1及び2に記載の文書分類方法。 - 【請求項4】1つ以上の前記正もしくは前記負のトピッ
ク差分因子ベクトルの各々と各前記文書セグメントベク
トルとの内積の重み付き2乗和を各前記文書セグメント
に含まれる用語の数で除することにより正規化すること
を特徴とする請求項1に記載の文書分類方法 - 【請求項5】前記請求項1において、1つ以上の前記正
もしくは前記負のトピック差分因子ベクトルの各々と各
前記文書セグメントベクトルとの内積の重み付き2乗和
は入力文書に含まれる前記文書セグメントの数で除する
ことにより正規化することを特徴とする文書分類方法 - 【請求項6】文書入力部、データ処理部、分類エンジ
ン、分類クラス情報部、及び分類クラス出力部を有し、
以下の(a)から(g)の手段を有する、与えられた入
力文書を予め与えられている文書クラスに分類する装
置、(a)文書入力部に入力された前記入力文書に出現
する用語から分類に用いる用語を選択する手段と(b)
前記入力文書を適当な単位の文書セグメントに区分けす
る手段と、(c)前記文書セグメントに出現する用語の
出現頻度に関連した値を成分とする文書セグメントベク
トルを生成し、前記文書セグメントベクトルを加え合わ
せた文書ベクトルを生成する手段と、(d)前記文書ク
ラス毎に予め保持されている情報を用いて入力文書と各
クラスの類似度を求める手段と、(e)前記文書クラス
毎に予め保持されている1つ以上の正のトピック差分因
子ベクトルの各々と各前記文書セグメントベクトルとの
内積の重み付き2乗和を前記各クラスの類似度に加える
手段と、(f)前記文書クラス毎に予め保持されている
1つ以上の負のトピック差分因子ベクトルの各々と各前
記文書セグメントベクトルとの内積の重み付き2乗和を
前記各クラスの類似度から差し引く手段と、(g)前記
値が補正された各クラスの類似度から入力文書が帰属す
るクラスを決定し出力する手段。 - 【請求項7】前記類似度の補正に用いる各クラスの正、
負のトピック差分因子ベクトルを、(a)所与の訓練文
書集合に属する各訓練文書と各クラスとの類似度を求
め、前記各訓練文書を各クラスに分類する手段と、
(b)前記訓練文書集合に対する分類結果から各クラス
に対し、他のクラスに属するにもかかわらず各クラスに
予め用意された閾値を越える対抗文書の集合を求める手
段と、(c)各クラスの正のトピック差分因子ベクトル
を、そのクラスに属する全てのもしくは選択された文書
の各文書セグメントベクトルを射影した時の2乗和を分
子とし、そのクラスの各対抗文書の各文書セグメントベ
クトルを射影した時の2乗和を分母とした値を最大とす
る射影軸として求める手段と、(d)各クラスの負のト
ピック差分因子ベクトルを、そのクラスに属する全ての
もしくは選択された文書の各文書セグメントベクトルを
射影した時の2乗和を分母とし、そのクラスの各対抗文
書の各文書セグメントベクトルを射影した時の2乗和を
分子とした値を最大とする射影軸として求める手段と、
によって決定する請求項6に記載の装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002056238A JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
| DE60329550T DE60329550D1 (de) | 2002-03-01 | 2003-02-26 | Dokumentklassifikationsverfahren und -anordnung |
| EP03251175A EP1365329B1 (en) | 2002-03-01 | 2003-02-26 | Document classification method and apparatus |
| US10/373,689 US7185008B2 (en) | 2002-03-01 | 2003-02-27 | Document classification method and apparatus |
| CNB031068146A CN100397332C (zh) | 2002-03-01 | 2003-03-03 | 文档分类方法和设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002056238A JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003256441A true JP2003256441A (ja) | 2003-09-12 |
| JP3726263B2 JP3726263B2 (ja) | 2005-12-14 |
Family
ID=27800082
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002056238A Expired - Fee Related JP3726263B2 (ja) | 2002-03-01 | 2002-03-01 | 文書分類方法及び装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US7185008B2 (ja) |
| EP (1) | EP1365329B1 (ja) |
| JP (1) | JP3726263B2 (ja) |
| CN (1) | CN100397332C (ja) |
| DE (1) | DE60329550D1 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1528486A3 (en) * | 2003-10-31 | 2006-12-20 | Hewlett-Packard Development Company, L.P. | Classification evaluation system, method, and program |
| JP2018165942A (ja) * | 2017-03-28 | 2018-10-25 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
| KR20190137008A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 마인즈랩 | 설명이 부가된 문서 분류 방법 |
| JP2019215886A (ja) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
| JP7138981B1 (ja) | 2021-08-11 | 2022-09-20 | Croco株式会社 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Families Citing this family (67)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040083191A1 (en) * | 2002-10-25 | 2004-04-29 | Christopher Ronnewinkel | Intelligent classification system |
| JP2005044330A (ja) * | 2003-07-24 | 2005-02-17 | Univ Of California San Diego | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
| US20050229150A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Design-time creation of run-time modules that use categorization |
| US7373358B2 (en) | 2004-04-12 | 2008-05-13 | Sap Aktiengesellschaft | User interface for maintaining categorization schemes |
| US20050228774A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Content analysis using categorization |
| US20050228790A1 (en) * | 2004-04-12 | 2005-10-13 | Christopher Ronnewinkel | Coherent categorization scheme |
| JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
| AU2005264153B2 (en) * | 2004-07-21 | 2012-04-05 | Microsoft Israel Research And Development (2002) Ltd | A method for determining near duplicate data objects |
| US7440944B2 (en) * | 2004-09-24 | 2008-10-21 | Overture Services, Inc. | Method and apparatus for efficient training of support vector machines |
| WO2006039566A2 (en) * | 2004-09-30 | 2006-04-13 | Intelliseek, Inc. | Topical sentiments in electronically stored communications |
| US7814105B2 (en) * | 2004-10-27 | 2010-10-12 | Harris Corporation | Method for domain identification of documents in a document database |
| US7499591B2 (en) * | 2005-03-25 | 2009-03-03 | Hewlett-Packard Development Company, L.P. | Document classifiers and methods for document classification |
| US9158855B2 (en) | 2005-06-16 | 2015-10-13 | Buzzmetrics, Ltd | Extracting structured data from weblogs |
| US7725485B1 (en) | 2005-08-01 | 2010-05-25 | Google Inc. | Generating query suggestions using contextual information |
| US7512580B2 (en) * | 2005-08-04 | 2009-03-31 | Sap Ag | Confidence indicators for automated suggestions |
| US7747495B2 (en) | 2005-10-24 | 2010-06-29 | Capsilon Corporation | Business method using the automated processing of paper and unstructured electronic documents |
| US8176004B2 (en) | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
| US7974984B2 (en) * | 2006-04-19 | 2011-07-05 | Mobile Content Networks, Inc. | Method and system for managing single and multiple taxonomies |
| US8560956B2 (en) | 2006-07-07 | 2013-10-15 | International Business Machines Corporation | Processing model of an application wiki |
| US8775930B2 (en) * | 2006-07-07 | 2014-07-08 | International Business Machines Corporation | Generic frequency weighted visualization component |
| US8219900B2 (en) * | 2006-07-07 | 2012-07-10 | International Business Machines Corporation | Programmatically hiding and displaying Wiki page layout sections |
| US8196039B2 (en) * | 2006-07-07 | 2012-06-05 | International Business Machines Corporation | Relevant term extraction and classification for Wiki content |
| US7954052B2 (en) * | 2006-07-07 | 2011-05-31 | International Business Machines Corporation | Method for processing a web page for display in a wiki environment |
| US20080010386A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client wiring model |
| US20080010338A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client and server interaction |
| US20080010388A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for server wiring model |
| US20080010387A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method for defining a Wiki page layout using a Wiki page |
| US20080010345A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for data hub objects |
| WO2008029150A1 (en) * | 2006-09-07 | 2008-03-13 | Xploite Plc | Categorisation of data using a model |
| US8966389B2 (en) * | 2006-09-22 | 2015-02-24 | Limelight Networks, Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
| US8204891B2 (en) * | 2007-09-21 | 2012-06-19 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search-service system |
| US9015172B2 (en) | 2006-09-22 | 2015-04-21 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search service system |
| US8396878B2 (en) | 2006-09-22 | 2013-03-12 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files |
| US7917492B2 (en) * | 2007-09-21 | 2011-03-29 | Limelight Networks, Inc. | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
| US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
| US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
| US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
| US7783640B2 (en) * | 2006-11-03 | 2010-08-24 | Oracle International Corp. | Document summarization |
| US8027977B2 (en) * | 2007-06-20 | 2011-09-27 | Microsoft Corporation | Recommending content using discriminatively trained document similarity |
| US20090063470A1 (en) | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
| TW200928793A (en) * | 2007-12-26 | 2009-07-01 | Ruei-Jau Chen | Algorithm method capable of enhancing accuracy and computation speed of the computation of corrected sums of products (CSP) of computing hardware |
| US8296301B2 (en) | 2008-01-30 | 2012-10-23 | Commvault Systems, Inc. | Systems and methods for probabilistic data classification |
| JP5467643B2 (ja) * | 2010-04-28 | 2014-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書の類似度を判定する方法、装置及びプログラム。 |
| US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
| US8452774B2 (en) * | 2011-03-10 | 2013-05-28 | GM Global Technology Operations LLC | Methodology to establish term co-relationship using sentence boundary detection |
| US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
| US9256862B2 (en) * | 2012-02-10 | 2016-02-09 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
| US9152953B2 (en) * | 2012-02-10 | 2015-10-06 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
| US8831361B2 (en) | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
| US10043264B2 (en) | 2012-04-19 | 2018-08-07 | Applied Materials Israel Ltd. | Integration of automatic and manual defect classification |
| US9715723B2 (en) | 2012-04-19 | 2017-07-25 | Applied Materials Israel Ltd | Optimization of unknown defect rejection for automatic defect classification |
| US9607233B2 (en) * | 2012-04-20 | 2017-03-28 | Applied Materials Israel Ltd. | Classifier readiness and maintenance in automatic defect classification |
| US9348899B2 (en) | 2012-10-31 | 2016-05-24 | Open Text Corporation | Auto-classification system and method with dynamic user feedback |
| CN103049263B (zh) * | 2012-12-12 | 2015-06-10 | 华中科技大学 | 一种基于相似性的文件分类方法 |
| US10114368B2 (en) | 2013-07-22 | 2018-10-30 | Applied Materials Israel Ltd. | Closed-loop automatic defect inspection and classification |
| RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
| RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
| CN105335390A (zh) * | 2014-07-09 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 对象的分类方法、业务的推送方法及服务器 |
| US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
| US20160162576A1 (en) * | 2014-12-05 | 2016-06-09 | Lightning Source Inc. | Automated content classification/filtering |
| US9870420B2 (en) * | 2015-01-19 | 2018-01-16 | Google Llc | Classification and storage of documents |
| CN106708485B (zh) * | 2015-11-13 | 2020-07-14 | 北大方正集团有限公司 | 电子字帖热度管理方法及系统 |
| CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
| US11481389B2 (en) * | 2017-12-18 | 2022-10-25 | Fortia Financial Solutions | Generating an executable code based on a document |
| CN109684121A (zh) * | 2018-12-20 | 2019-04-26 | 鸿秦(北京)科技有限公司 | 一种文件恢复方法及系统 |
| JP2023041243A (ja) * | 2021-09-13 | 2023-03-24 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP2023121908A (ja) * | 2022-02-22 | 2023-09-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
| JP2001331514A (ja) * | 2000-05-19 | 2001-11-30 | Ricoh Co Ltd | 文書分類装置及び文書分類方法 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
| JP3810469B2 (ja) * | 1996-03-06 | 2006-08-16 | ヒューレット・パッカード・カンパニー | パターン認識方法 |
| GB9625284D0 (en) * | 1996-12-04 | 1997-01-22 | Canon Kk | A data processing method and apparatus for identifying a classification to which data belongs |
| CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
| JPH1153394A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
| US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
| US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
| JP2000194723A (ja) * | 1998-12-25 | 2000-07-14 | Just Syst Corp | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
| US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
| JP3701197B2 (ja) * | 2000-12-28 | 2005-09-28 | 松下電器産業株式会社 | 分類への帰属度計算基準作成方法及び装置 |
-
2002
- 2002-03-01 JP JP2002056238A patent/JP3726263B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-26 DE DE60329550T patent/DE60329550D1/de not_active Expired - Lifetime
- 2003-02-26 EP EP03251175A patent/EP1365329B1/en not_active Expired - Lifetime
- 2003-02-27 US US10/373,689 patent/US7185008B2/en not_active Expired - Fee Related
- 2003-03-03 CN CNB031068146A patent/CN100397332C/zh not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
| JP2001331514A (ja) * | 2000-05-19 | 2001-11-30 | Ricoh Co Ltd | 文書分類装置及び文書分類方法 |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1528486A3 (en) * | 2003-10-31 | 2006-12-20 | Hewlett-Packard Development Company, L.P. | Classification evaluation system, method, and program |
| JP2018165942A (ja) * | 2017-03-28 | 2018-10-25 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
| JP2019215886A (ja) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
| KR20190137008A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 마인즈랩 | 설명이 부가된 문서 분류 방법 |
| KR20200127947A (ko) * | 2018-05-31 | 2020-11-11 | 주식회사 마인즈랩 | 문서 분류에 있어서 기여도가 높은 단어 및 문장을 제공하는 설명이 부가된 문서 분류 방법 |
| KR102264232B1 (ko) * | 2018-05-31 | 2021-06-14 | 주식회사 마인즈랩 | 단어, 문장 특징값 및 단어 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법 |
| KR102264234B1 (ko) * | 2018-05-31 | 2021-06-14 | 주식회사 마인즈랩 | 문서 분류에 있어서 기여도가 높은 단어 및 문장을 제공하는 설명이 부가된 문서 분류 방법 |
| JP7138981B1 (ja) | 2021-08-11 | 2022-09-20 | Croco株式会社 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
| JP2023025933A (ja) * | 2021-08-11 | 2023-02-24 | Croco株式会社 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US7185008B2 (en) | 2007-02-27 |
| EP1365329A2 (en) | 2003-11-26 |
| JP3726263B2 (ja) | 2005-12-14 |
| DE60329550D1 (de) | 2009-11-19 |
| CN1458580A (zh) | 2003-11-26 |
| EP1365329B1 (en) | 2009-10-07 |
| US20030167267A1 (en) | 2003-09-04 |
| CN100397332C (zh) | 2008-06-25 |
| EP1365329A3 (en) | 2006-11-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2003256441A (ja) | 文書分類方法及び装置 | |
| US20200250465A1 (en) | Accurate tag relevance prediction for image search | |
| US8019699B2 (en) | Machine learning system | |
| JP7024515B2 (ja) | 学習プログラム、学習方法および学習装置 | |
| Ghoshal et al. | Hidden Markov models for automatic annotation and content-based retrieval of images and video | |
| US20170236055A1 (en) | Accurate tag relevance prediction for image search | |
| US20240169751A1 (en) | Layout-aware, scalable recognition system | |
| US7472131B2 (en) | Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance | |
| JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
| CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
| CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
| Liu et al. | Unstructured document recognition on business invoice | |
| CN112711944A (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
| JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
| CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
| Sundar et al. | Prune then distill: Dataset distillation with importance sampling | |
| CN107609006B (zh) | 一种基于地方志研究的搜索优化方法 | |
| CN114970467A (zh) | 基于人工智能的作文初稿生成方法、装置、设备及介质 | |
| CN119903180A (zh) | 一种基于pegasus模型与动态纠错的双阶段文本摘要生成方法 | |
| CN120470333A (zh) | 一种基于人工智能的标书查重方法及系统 | |
| Estella et al. | Outlier handling in clustering: A comparative experiment of k-means, robust trimmed k-means, and k-means least trimmed squared | |
| CN114756650B (zh) | 一种超大规模数据自动化比对分析处理方法及系统 | |
| JP5754306B2 (ja) | 画像識別情報付与プログラム及び画像識別情報付与装置 | |
| CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
| CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041108 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050517 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050817 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050914 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050916 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |