KR20020003701A - 디지털 문서의 키워드를 자동으로 추출하는 방법 - Google Patents
디지털 문서의 키워드를 자동으로 추출하는 방법 Download PDFInfo
- Publication number
- KR20020003701A KR20020003701A KR1020000035714A KR20000035714A KR20020003701A KR 20020003701 A KR20020003701 A KR 20020003701A KR 1020000035714 A KR1020000035714 A KR 1020000035714A KR 20000035714 A KR20000035714 A KR 20000035714A KR 20020003701 A KR20020003701 A KR 20020003701A
- Authority
- KR
- South Korea
- Prior art keywords
- list
- elements
- frequency
- data structure
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (18)
- 적어도 한 바이트로 구성된 복수 개의 엘리먼트들과 발생 빈도로 알려진 각 엘리먼트들이 나타난 횟수를 포함하는 디지털 문서의 키워드를 자동으로 추출하는 방법에 있어서:상기 엘리먼트의 발생 빈도가 드레솔드 값보다 클 때 그 엘리먼트는 추출되고, 분리 인자(separator)는 기준 마크(reference mark)로 사용되고;(A) 상기 디지털 문서를 적어도 하나의 리스트 엘리먼트를 포함하는 리스트 데이터 구조로 변환하는 단계와;(B) 결합 영역을 비어있는 상태로 설정하는 단계와;(C) 리스트 엘리먼트를 순차적으로 인출하는 단계와;인출된 엘리먼트가 분리 인자인 경우, 인출된 리스트 엘리먼트는 무시되고;인출된 리스트 엘리먼트의 발생 빈도가 상기 드레솔드 값보다 크고, 인출된 리스트 엘리먼트와 근접하게 배열된 연이은 다음 리스트 엘리먼트의 발생 빈도가 상기 드레솔드 값보다 클 때, 결합 프로세스가 수행되어 상기 결합 영역에 저장됨으로써 새로운 엘리먼트가 획득되며;인출된 리스트 엘리먼트의 발생 빈도가 드레솔드 값보다 클 때 그리고, 인출된 리스트 엘리먼트 및 인출된 리스트 엘리먼트와 인접한 이전에 인출된 리스트 엘리먼트간의 결합 프로세스가 수행되지 않았을 때, 상기 리스트 엘리먼트는 최종 영역에 저장되고, 결합 영역의 마지막에 위치하는 마지막 새로운 엘리먼트가 상기 분리 인자가 아닐 때 상기 분리 인자가 결합 영역의 마지막에 부가되며;(D) 상기 결합 영역을 리스트 데이터 구조로 변환하는 단계; 및 중지 조건이 만족될 때까지 상기 (B)-(C) 단계를 반복적으로 수행하는 단계; 그리고(E) 키워드 검색에 주어진 디스플레이 조건에 따라 상기 리스트 엘리먼트를 디스플레이하는 단계를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 결합 단계는 연이은 리스트 엘리먼트의 마지막 문자를 인출하고, 인출된 리스트 엘리먼트의 끝에 상기 마지막 문자를 부가하여 새로운 엘리먼트를 생성하고, 그리고 상기 새로운 엘리먼트는 결합 영역의 끝에 부가되는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 중지 조건은 리스트 데이터 구조 내의 분리 인자를 제외하고, 리스트 엘리먼트들의 개수가 2 보다 작을 때인 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 리스트 엘리먼트들 각각은 대응하는 엘리먼트의 위치의 결합을 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 4 항에 있어서,위치의 결합은 디지털 문서에 나타난 엘리먼트들 각각의 위치를 나타내는 위치들의 개수를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 리스트 엘리먼트들 각각은 엘리먼트들과 대응하는 발생 빈도를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,디스플레이 조건에 따라 상기 리스트 엘리먼트를 디스플레이하는 단계는,최종 영역내 리스트 엘리먼트의 시작과 끝으로부터 중지 단어를 삭제하는 단계를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 7 항에 있어서,상기 중지 단어는 전치사, 대명사 그리고 기능적인 단어를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 디지털 문서를 리스트 데이터 구조로 변환하는 단계는,엘리먼트의 첫 번째 바이트에 의해서, 엘리먼트를 아시아 문자와 서양 문자로 구성되는 그룹들 가운데 하나로 판별하는 단계를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 9 항에 있어서,상기 엘리먼트가 아시아 문자와 서양 문자로 구성되는 그룹들 가운데 하나로 판별된 후, 상기 엘리먼트가 구두점 마크인 지의 여부가 판별되는 단계를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 10 항에 있어서,상기 엘리먼트가 구두점 마크로 판별되는 경우, 상기 분리 인자는 리스트 데이터 구조에 부가되는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 11 항에 있어서,디스플레이 조건에 따라서 리스트 엘리먼트를 디스플레이하는 단계는,상기 최종 영역 내 리스트 엘리먼트의 시작과 끝으로부터 중지 단어를 삭제하는 단계를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 12 항에 있어서,상기 중지 단어는 전치사, 대명사, 그리고 기능적인 단어를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 엘리먼트는 아시아 문자, 서양 문자, 서양 단어, 그리고 음악적 부호를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 분리 인자는 리스트 데이터 구조의 끝에 부가되고, 상기 분리 인자의 발생 빈도는 결합 영역이 비어있는 상태 또는 그 이후 상기 드레솔드 값보다 작도록 설정되는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 디지털 문서는 스트링과 순서적인 세트를 포함하는 정보로 표현될 수 있는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 16 항에 있어서,상기 정보는 문자, 음악, 음성, 비디오, 영상 시퀀스, 시간 시퀀스 그리고 DNA 시퀀스를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
- 제 1 항에 있어서,상기 최종 영역내의 상기 리스트 엘리먼트들 가운데 키워드를 검색하는 단계는.자동 인덱싱, 인덱싱 사전의 자동 수립, 자동 발췌, 자동 분류, 관련성 피드백, 자동 필터링, 개념 검색, 용어 제안, DYD 관련성 피드백, 다이내믹 사전 분류, 그리고 정보 시각화를 포함하는 것을 특징으로 하는 디지털 문서의 키워드를 자동으로 추출하는 방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020000035714A KR20020003701A (ko) | 2000-06-27 | 2000-06-27 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020000035714A KR20020003701A (ko) | 2000-06-27 | 2000-06-27 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20020003701A true KR20020003701A (ko) | 2002-01-15 |
Family
ID=37460374
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020000035714A Ceased KR20020003701A (ko) | 2000-06-27 | 2000-06-27 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20020003701A (ko) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100373105B1 (en) * | 2002-02-26 | 2003-02-20 | Dream To Reality | Method for outputting two-dimensional bar code including document summary information |
| WO2007047957A1 (en) * | 2005-10-21 | 2007-04-26 | Microsoft Corporation | Automated rich presentation of a semantic topic |
| US7788263B2 (en) | 2005-08-10 | 2010-08-31 | Microsoft Corporation | Probabilistic retrospective event detection |
| KR100981675B1 (ko) * | 2003-12-17 | 2010-09-13 | 삼성전자주식회사 | 보안등급을 자동으로 지정하여 인쇄하는 방법 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08161344A (ja) * | 1994-11-30 | 1996-06-21 | Nippon Steel Corp | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
| JPH08314947A (ja) * | 1995-05-22 | 1996-11-29 | Mainichi Shinbunsha:Kk | キーワード自動抽出装置 |
| JPH1153380A (ja) * | 1997-08-01 | 1999-02-26 | Canon Inc | 文書管理装置および方法ならびに記録媒体 |
| KR100295032B1 (ko) * | 1996-04-17 | 2001-09-17 | 포만 제프리 엘 | 정보검색방법,정보검색장치및정보검색프로그램을저장하는기억매체 |
| KR100309062B1 (ko) * | 1998-05-29 | 2001-09-26 | 가나이 쓰토무 | 특징문자열 추출 방법 및 장치와, 이를 이용한 유사문서 검색 방법 및 장치와, 특징문자열 추출 프로그램을 격납한 기억매체 및 유사문서 검색 프로그램을 격납한 기억매체 |
-
2000
- 2000-06-27 KR KR1020000035714A patent/KR20020003701A/ko not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08161344A (ja) * | 1994-11-30 | 1996-06-21 | Nippon Steel Corp | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
| JPH08314947A (ja) * | 1995-05-22 | 1996-11-29 | Mainichi Shinbunsha:Kk | キーワード自動抽出装置 |
| KR100295032B1 (ko) * | 1996-04-17 | 2001-09-17 | 포만 제프리 엘 | 정보검색방법,정보검색장치및정보검색프로그램을저장하는기억매체 |
| JPH1153380A (ja) * | 1997-08-01 | 1999-02-26 | Canon Inc | 文書管理装置および方法ならびに記録媒体 |
| KR100309062B1 (ko) * | 1998-05-29 | 2001-09-26 | 가나이 쓰토무 | 특징문자열 추출 방법 및 장치와, 이를 이용한 유사문서 검색 방법 및 장치와, 특징문자열 추출 프로그램을 격납한 기억매체 및 유사문서 검색 프로그램을 격납한 기억매체 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100373105B1 (en) * | 2002-02-26 | 2003-02-20 | Dream To Reality | Method for outputting two-dimensional bar code including document summary information |
| WO2003073360A1 (en) * | 2002-02-26 | 2003-09-04 | Dream To Reality Co., Ltd. | 2-dimensional bar code print method with summary information |
| KR100981675B1 (ko) * | 2003-12-17 | 2010-09-13 | 삼성전자주식회사 | 보안등급을 자동으로 지정하여 인쇄하는 방법 |
| US7788263B2 (en) | 2005-08-10 | 2010-08-31 | Microsoft Corporation | Probabilistic retrospective event detection |
| WO2007047957A1 (en) * | 2005-10-21 | 2007-04-26 | Microsoft Corporation | Automated rich presentation of a semantic topic |
| US8572088B2 (en) | 2005-10-21 | 2013-10-29 | Microsoft Corporation | Automated rich presentation of a semantic topic |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
| JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
| US6401061B1 (en) | Combinatorial computational technique for transformation phrase text-phrase meaning | |
| US7369987B2 (en) | Multi-language document search and retrieval system | |
| US20030083862A1 (en) | Method for extracting name entities and jargon terms using a suffix tree data structure | |
| WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
| JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
| JP2000200291A (ja) | 選択された文字列をテキスト内で自動検出する方法 | |
| Nwesri | Effective retrieval techniques for Arabic text | |
| US20040225497A1 (en) | Compressed yet quickly searchable digital textual data format | |
| Merkel et al. | Knowledge-lite extraction of multi-word units with language filters and entropy thresholds. | |
| US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
| Jin et al. | A Chinese dictionary construction algorithm for information retrieval | |
| Nguyen et al. | An ontology-based approach for key phrase extraction | |
| KR20020003701A (ko) | 디지털 문서의 키워드를 자동으로 추출하는 방법 | |
| JP3139658B2 (ja) | 文書表示方式 | |
| Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
| TW482962B (en) | Method of automatic extracting for key features in digital document | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| JPH10149370A (ja) | 文脈情報を用いた文書検索方法および装置 | |
| CN1253814C (zh) | 数字文件关键特征的自动撷取方法 | |
| O’Rourke et al. | Word variant identification in old french | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| Yahia et al. | An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic | |
| JPS63228326A (ja) | キ−ワ−ド自動抽出方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20000627 |
|
| PA0201 | Request for examination | ||
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20030130 Patent event code: PE09021S01D |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20030429 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20030130 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |