JP2005149014A - 文書関連語彙獲得方法及び装置及びプログラム - Google Patents
文書関連語彙獲得方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP2005149014A JP2005149014A JP2003384092A JP2003384092A JP2005149014A JP 2005149014 A JP2005149014 A JP 2005149014A JP 2003384092 A JP2003384092 A JP 2003384092A JP 2003384092 A JP2003384092 A JP 2003384092A JP 2005149014 A JP2005149014 A JP 2005149014A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vocabulary
- word
- vector
- field vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、入力された文書を単語に分割し、概念ベースを検索することによって、得られた各単語に対応するベクトルを取得し、得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成し、各クラスタをもとに文書の分野を表す文書分野ベクトルを求め、文書分野ベクトルと語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求め、得られた語彙関連度をもとに語彙を順位付けし、語彙に関する順位をもとに関連語彙を出力する。
【選択図】 図1
Description
入力された文書を単語に分割する単語分割ステップ(ステップ1)と、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップ(ステップ2)と、
単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップ(ステップ3)と、
単語クラスタリングステップで得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップ(ステップ4)と、
文書分野ベクトル算出ステップで得られた文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出ステップ(ステップ5)と、
語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップ(ステップ6)と、
語彙順序付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップ(ステップ7)を行う。
選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求める。
各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求める。
単語の意味を表現するベクトルが格納されている概念ベース8と、
入力された文書を単語に分割する単語分割手段1と、
概念ベース8を検索することによって単語分割手段1で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段2と、
単語ベクトル取得手段2で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段3と、
単語クラスタリング手段3で得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段4と、
文書分野ベクトル算出手段4で得られた文書分野ベクトルと、予め作成しておいた語彙データベース9の中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出手段5と、
語彙関連度算出手段5で得られた関連度をもとに語彙を順位付けする語彙順位付け手段6と、
語彙順位付け手段6で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段7と、を有する。
単語が多く含まれている順に上位Q個以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求める手段を有する。
各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求める手段を有する。
入力された文書を単語に分割する単語分割ステップと、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップと、
単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップと、
単語クラスタリングステップで得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップと、
文書分野ベクトル算出ステップで得られた文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出ステップと、
語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップと、
語彙順序付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップと、をコンピュータに実行させる。
選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求めるステップと、をコンピュータに実行させる。
各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求めるステップをコンピュータに実行させる。
2 単語ベクトル取得手段、単語ベクトル取得部
3 単語クラスタリング手段、単語クラスタリング部
4 文書分野ベクトル算出手段、文書分野ベクトル算出部
5 語彙関連度算出手段、語彙関連度算出部
6 語彙順位付け手段、語彙順位付け部
7 関連語彙出力手段、関連語彙出力部
8 概念ベース
9 語彙データベース
Claims (9)
- 文書から該文書に関連する語彙を獲得する文書関連語彙獲得方法であって、
入力された文書を単語に分割する単語分割ステップと、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップと、
前記単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップと、
前記単語クラスタリングステップで得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップと、
前記文書分野ベクトル算出ステップで得られた文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、入力された前記文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出ステップと、
前記語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップと、
前記語彙順序付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップを有することを特徴とする文書関連語彙獲得方法。 - 前記文書分野ベクトル算出ステップにおいて、単語が多く含まれている順に上位Q個以内のクラスタを選択し、
選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求める請求項1記載の文書関連語彙獲得方法。 - 前記文書分野ベクトル算出ステップにおいて、
前記各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求める請求項1または2記載の文書関連語彙獲得方法。 - 文書から該文書に関連する語彙を獲得する文書間連語獲得装置であって、
単語の意味を表現するベクトルが格納されている概念ベースと、
入力された文書を単語に分割する単語分割手段と、
前記概念ベースを検索することによって前記単語分割手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段と、
前記単語クラスタリング手段で得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段と、
前記文書分野ベクトル算出手段で得られた文書分野ベクトルと、予め作成しておいた語彙データベースの中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出手段と、
前記語彙関連度算出手段で得られた関連度をもとに語彙を順位付けする語彙順位付け手段と、
前記語彙順位付け手段で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段と、を有することを特徴とする文書関連語彙獲得装置。 - 前記文書分野ベクトル算出手段は、
単語が多く含まれている順に上位Q個以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求める手段を有する請求項4記載の文書関連語彙獲得装置。 - 前記文書分野ベクトル算出手段は、
前記各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求める手段を有する請求項4または5記載の文書関連語彙獲得装置。 - 文書から該文書に関連する語彙を獲得することをコンピュータに実行させるための文書関連語獲得プログラムであって、
入力された文書を単語に分割する単語分割ステップと、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップと、
前記単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップと、
前記単語クラスタリングステップで得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップと、
前記文書分野ベクトル算出ステップで得られた文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、入力された前記文書と各語彙との間の関連性を示す語彙関連度を求める語彙関連度算出ステップと、
前記語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップと、
前記語彙順序付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップと、をコンピュータに実行させることを特徴とする文書関連語彙獲得プログラム。 - 前記文書分野ベクトル算出ステップにおいて、単語が多く含まれている順に上位Q個以内のクラスタを選択するステップと、
選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書分野ベクトルを求めるステップと、をコンピュータに実行させる請求項7記載の文書関連語彙獲得プログラム。 - 前記文書分野ベクトル算出ステップにおいて、
前記各単語の音声認識結果の信頼度を重みとして文書分野ベクトルを求めるステップをコンピュータに実行させる請求項7または8記載の文書関連語彙獲得プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003384092A JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003384092A JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005149014A true JP2005149014A (ja) | 2005-06-09 |
| JP4325370B2 JP4325370B2 (ja) | 2009-09-02 |
Family
ID=34692625
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003384092A Expired - Fee Related JP4325370B2 (ja) | 2003-11-13 | 2003-11-13 | 文書関連語彙獲得装置及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4325370B2 (ja) |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
| JP2008009671A (ja) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | データ表示装置、データ表示方法及びデータ表示プログラム |
| JP2008123095A (ja) * | 2006-11-09 | 2008-05-29 | Seiko Epson Corp | 検索端末装置、検索システムおよびプログラム |
| JP2008268985A (ja) * | 2007-04-16 | 2008-11-06 | Yahoo Japan Corp | タグを付与する方法 |
| JP2009277100A (ja) * | 2008-05-15 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 文書特徴表現計算装置、及びプログラム |
| JP2011059748A (ja) * | 2009-09-07 | 2011-03-24 | Nippon Telegr & Teleph Corp <Ntt> | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム |
| JP2011242850A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワードタイプ判定装置及びプログラム |
| JP2013109125A (ja) * | 2011-11-21 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、およびプログラム |
| JP2017187828A (ja) * | 2016-04-01 | 2017-10-12 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及びプログラム |
| JP2018180937A (ja) * | 2017-04-13 | 2018-11-15 | 日本電信電話株式会社 | クラスタリング装置、回答候補生成装置、方法、及びプログラム |
| JP2020074205A (ja) * | 2020-01-27 | 2020-05-14 | 日本電信電話株式会社 | 回答候補生成装置、回答候補生成方法、及びプログラム |
| CN116226357A (zh) * | 2023-05-09 | 2023-06-06 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
-
2003
- 2003-11-13 JP JP2003384092A patent/JP4325370B2/ja not_active Expired - Fee Related
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8229956B2 (en) | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
| WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
| JP4868170B2 (ja) * | 2005-12-09 | 2012-02-01 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
| JP2008009671A (ja) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | データ表示装置、データ表示方法及びデータ表示プログラム |
| JP2008123095A (ja) * | 2006-11-09 | 2008-05-29 | Seiko Epson Corp | 検索端末装置、検索システムおよびプログラム |
| JP2008268985A (ja) * | 2007-04-16 | 2008-11-06 | Yahoo Japan Corp | タグを付与する方法 |
| JP2009277100A (ja) * | 2008-05-15 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 文書特徴表現計算装置、及びプログラム |
| JP2011059748A (ja) * | 2009-09-07 | 2011-03-24 | Nippon Telegr & Teleph Corp <Ntt> | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム |
| JP2011242850A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワードタイプ判定装置及びプログラム |
| JP2013109125A (ja) * | 2011-11-21 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、およびプログラム |
| JP2017187828A (ja) * | 2016-04-01 | 2017-10-12 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及びプログラム |
| JP2018180937A (ja) * | 2017-04-13 | 2018-11-15 | 日本電信電話株式会社 | クラスタリング装置、回答候補生成装置、方法、及びプログラム |
| JP2020074205A (ja) * | 2020-01-27 | 2020-05-14 | 日本電信電話株式会社 | 回答候補生成装置、回答候補生成方法、及びプログラム |
| CN116226357A (zh) * | 2023-05-09 | 2023-06-06 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4325370B2 (ja) | 2009-09-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110750704B (zh) | 一种查询自动补全的方法和装置 | |
| CN104137102B (zh) | 非事实型询问应答系统以及方法 | |
| Zouaghi et al. | Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation | |
| JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
| CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
| JPWO2018097091A1 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム | |
| CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
| JP2011227688A (ja) | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 | |
| KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
| JP4333318B2 (ja) | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
| JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
| CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
| JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
| US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
| JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
| CN114328860A (zh) | 一种基于多模型匹配的交互咨询方法、装置和电子设备 | |
| CN114385777A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
| JP2007241888A (ja) | 情報処理装置および方法、並びにプログラム | |
| JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
| JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
| KR101860472B1 (ko) | 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법 | |
| US8745078B2 (en) | Control computer and file search method using the same | |
| CN119066179B (zh) | 问答处理方法、计算机程序产品、设备及介质 | |
| JPH11272680A (ja) | 文書データ提供装置およびそのプログラム記録媒体 | |
| US12547842B2 (en) | Dialogue support system and dialogue support method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060414 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090409 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090519 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090601 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130619 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140619 Year of fee payment: 5 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |
