JP7148077B2 - 木構造解析装置、方法、及びプログラム - Google Patents
木構造解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP7148077B2 JP7148077B2 JP2019035758A JP2019035758A JP7148077B2 JP 7148077 B2 JP7148077 B2 JP 7148077B2 JP 2019035758 A JP2019035758 A JP 2019035758A JP 2019035758 A JP2019035758 A JP 2019035758A JP 7148077 B2 JP7148077 B2 JP 7148077B2
- Authority
- JP
- Japan
- Prior art keywords
- series
- sentence
- vector
- paragraph
- spans
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施の形態では、文、段落という構造を利用し、文書は段落の系列、段落は文の系列、文はEDUの系列としてとらえ、それぞれの系列を独立に2分割していくことで文書全体の構造木を構築する(図2)。系列の分割は、分割点に対する左右の系列間の類似スコアに基づくため、訓練データを必要としない。なお、本発明の実施の形態の目的は木構造の推定であり(図3)、木の非終端記号ラベル(N/S)の推定を明示的に行わない。ラベル推定は既存のテキスト分類手法などを利用すれば推定可能である。
次に、本発明の実施の形態に係る木構造解析装置の構成について説明する。図4に示すように、本発明の実施の形態に係る木構造解析装置100は、機能的には、入力部10と、演算部20と、出力部50とを備えている。
次に、本発明の実施の形態に係る木構造解析装置100の作用について説明する。入力部10において文書を受け付けると、木構造解析装置100は、図12に示す木構造解析処理ルーチンを実行する。
20 演算部
30 部分構造解析部
32 木構造推定部
38 木結合部
40 単語ベクトルデータベース
42 ベクトル変換部
44 スコア計算部
50 出力部
82 プログラム
84 コンピュータ
100 木構造解析装置
Claims (7)
- 文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、
を含む木構造解析装置。 - 前記木構造推定部は、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項1記載の木構造解析装置。 - 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算される請求項2記載の木構造解析装置。 - コンピュータが、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記コンピュータが、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
前記コンピュータが、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
木構造解析方法。 - 前記コンピュータが、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項4に記載の木構造解析方法。 - 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算される請求項5に記載の木構造解析方法。 - コンピュータに、
文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
ことを実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019035758A JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019035758A JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020140464A JP2020140464A (ja) | 2020-09-03 |
| JP7148077B2 true JP7148077B2 (ja) | 2022-10-05 |
Family
ID=72265028
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019035758A Active JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7148077B2 (ja) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002117019A (ja) | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
| JP2002169803A (ja) | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
| JP2007241902A (ja) | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
| JP2017076281A (ja) | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
-
2019
- 2019-02-28 JP JP2019035758A patent/JP7148077B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002169803A (ja) | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
| JP2002117019A (ja) | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
| JP2007241902A (ja) | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
| JP2017076281A (ja) | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
Non-Patent Citations (1)
| Title |
|---|
| 田村 直良 NAOYOSHI TAMURA,セグメントの分割と統合による文章の構造解析 Text Structuring by Composition and Decomposition of Segments,自然言語処理 第5巻 第1号 Journal of Natural Language Processing,日本,言語処理学会 The Association for Natural Language Processing,1998年01月10日,第5巻 第1号,59~78 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020140464A (ja) | 2020-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
| Martin et al. | Algorithms for bigram and trigram word clustering | |
| US8447589B2 (en) | Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system | |
| US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
| EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
| US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
| KR102569381B1 (ko) | 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 | |
| KR102468481B1 (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
| US20160283588A1 (en) | Generation apparatus and method | |
| CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 | |
| CN112652299B (zh) | 时间序列语音识别深度学习模型的量化方法及装置 | |
| JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
| JP6062829B2 (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
| JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
| JP7148077B2 (ja) | 木構造解析装置、方法、及びプログラム | |
| JP7054145B2 (ja) | 談話構造解析装置、方法、及びプログラム | |
| CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
| US12106048B2 (en) | Structured text processing learning apparatus, structured text processing apparatus, structured text processing learning method, structured text processing method and program | |
| JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
| Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
| CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
| CN116978354B (zh) | 韵律预测模型的训练方法及装置、语音合成方法及装置 | |
| JP6019538B2 (ja) | 文対応付け決定装置、方法、及びプログラム | |
| JP6220761B2 (ja) | モデル学習装置、文字列変換装置、方法、及びプログラム | |
| JP6569543B2 (ja) | 短縮文生成装置、方法およびプログラム。 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190301 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220218 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220413 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220913 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7148077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |




