JP7700862B2 - 要約学習支援装置、要約学習支援方法及びプログラム - Google Patents

要約学習支援装置、要約学習支援方法及びプログラム Download PDF

Info

Publication number
JP7700862B2
JP7700862B2 JP2023543588A JP2023543588A JP7700862B2 JP 7700862 B2 JP7700862 B2 JP 7700862B2 JP 2023543588 A JP2023543588 A JP 2023543588A JP 2023543588 A JP2023543588 A JP 2023543588A JP 7700862 B2 JP7700862 B2 JP 7700862B2
Authority
JP
Japan
Prior art keywords
document
query
learning
character strings
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023543588A
Other languages
English (en)
Other versions
JPWO2023026444A1 (ja
Inventor
いつみ 斉藤
京介 西田
仙 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2023026444A1 publication Critical patent/JPWO2023026444A1/ja
Application granted granted Critical
Publication of JP7700862B2 publication Critical patent/JP7700862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、要約学習支援装置、要約学習支援方法及びプログラムに関する。
ニューラルネットワークを用いて要約文を生成するモデルの学習データとして、要約対象のソーステキストと正しい要約結果である要約データとのペアが一般的である。
一方で、ソーステキスト以外の入力パラメータ(以下、「クエリ」という。)が必要とされるモデルが有る(例えば、非特許文献1)。斯かるモデルによれば、クエリに即した要約文を生成することができる。斯かるモデルは、ソーステキスト、クエリ及び要約データ等のパラメータの組が学習データとされる。
他方において、要約文の生成方法には、抽出型と生成型とが有る。抽出型とは、ソーステキストに含まれている一部分がそのまま抽出される方法である。生成型とは、ソーステキストに含まれる単語等に基づいて、要約データが生成される方法である。以下、入力としてクエリを必要とし、生成型によって要約データを生成するモデルを「クエリ依存生成型モデル」という。
Gonc,alo M. Correia,Andre F. T. Martins、A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning、Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3050-3056、July 28 August 2, 2019.
ソーステキストと要約データとのペアで構成される学習データは多数存在するが、クエリ依存生成型モデルを学習するため、ソーステキスト以外の追加の入力パラメータを含む学習データは、不十分である。
本発明は、上記の点に鑑みてなされたものであって、追加の入力パラメータが必要とされる要約の学習を効率化することを目的とする。
そこで上記課題を解決するため、要約学習支援装置は、複数の文字列について、所定のモデルに基づいて第1の文書の要約の際に追加される入力パラメータとしての適切さを表すスコアを計算する計算部と、前記スコアに基づいて、前記複数の文字列の中から一部の文字列群を、文書の要約を生成する要約生成モデルの学習データを構成する前記入力パラメータとして選択する選択部と、を有し、前記スコアは、文書の本文と前記文書の標題を構成する文字列群との対応関係を学習済みのモデルに対して前記第1の文書の要約である第2の文書を入力した場合に当該モデルが出力候補の文字列の中から出力対象の文字列を選択するために前記出力候補の文字列ごとに計算するスコアである

追加の入力パラメータが必要とされる要約の学習を効率化することができる。
第1の実施の形態における要約生成装置10のハードウェア構成例を示す図である。 第1の実施の形態における要約生成装置10の機能構成例を示す図である。 第1の実施の形態におけるクエリ有り学習データ生成部11の構成例を示す図である。 第1の実施の形態におけるクエリ有り学習データの生成処理の処理手順の一例を説明するためのフローチャートである。 第2の実施の形態におけるクエリ有り学習データ生成部11の構成例を示す図である。 第2の実施の形態におけるクエリ有り学習データの生成処理の処理手順の一例を説明するためのフローチャートである。 第3の実施の形態における要約生成モデルの学習及び要約の生成を説明するための図である。 第4の実施の形態における要約生成モデルの学習及び要約の生成を説明するための図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態における要約生成装置10のハードウェア構成例を示す図である。図1の要約生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
要約生成装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って要約生成装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図2は、第1の実施の形態における要約生成装置10の機能構成例を示す図である。図2において、要約生成装置10は、クエリ有り学習データ生成部11、要約学習部12及び要約部13を有する。これら各部は、要約生成装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
クエリ有り学習データ生成部11は、入力として与えられるクエリ無し学習データ群に含まれる各クエリ無し学習データに基づいて、クエリ有り学習データを生成する。1つのクエリ無し学習データに対して1つのクエリ有り学習データが生成される。したがって、複数のクエリ無し学習データの集合であるクエリ無し学習データ群に対して、複数のクエリ有り学習データの集合であるクエリ有り学習データ群が生成される。クエリ無し学習データ及びクエリ有り学習データは、いずれも、文書の要約を生成するニューラルネットワーク等のモデル(以下、「要約生成モデル」という。)の学習データとして用いられるデータをいう。クエリ無し学習データは、クエリを構成要素として含まない点において、クエリ有り学習データと異なる。クエリとは、要約に関する追加情報として、要約対象の文書と共に要約生成モデルに入力されるテキスト(文字列)をいう。例えば、要約の焦点がクエリとされてもよい。
クエリ無し学習データは、{ソーステキスト,要約テキスト}の2つのテキストデータの組によって構成される学習データである。ソーステキストとは、要約対象の文書のテキストデータをいう。要約テキストとは、ソーステキストが要約された結果の正解を示すテキストデータをいう。
一方、クエリ有り学習データは、{ソーステキスト,クエリ、要約テキスト}の3つのテキストデータの組によって構成される学習データである。
要約学習部12は、クエリ有り学習データを用いて要約生成モデルの学習を行う。
要約部13は、要約対象のソーステキスト及び当該ソーステキストに対するクエリ等の入力を受け付けると、当該ソーステキスト及び当該クエリを学習済みの要約生成モデルへ入力することで、当該ソーステキストに対する当該クエリに応じた要約を要約生成モデルに生成させる。
クエリ有り学習データ生成部11について更に詳しく説明する。図3は、第1の実施の形態におけるクエリ有り学習データ生成部11の構成例を示す図である。図3において、クエリ有り学習データ生成部11は、重要度計算部111、クエリ選択部112及びクエリ追加部113を有する。これら各部の機能については、図4を用いて詳細に説明する。
図4は、第1の実施の形態におけるクエリ有り学習データの生成処理の処理手順の一例を説明するためのフローチャートである。
ステップS101において、重要度計算部111は、クエリ無し学習データ群に含まれるクエリ無し学習データ(ソーステキスト及び要約テキストの組)ごとに、クエリの候補となる文字列の抽出元とする文書(以下、「抽出元文書」という。)を生成する。したがって、N個のクエリ無し学習データからN個の抽出元文書が生成される。
例えば、重要度計算部111は、クエリ無し学習データの以下の(a)~(d)のいずれかを、当該クエリ無し学習データに基づく抽出元文書として生成する。
(a)ソーステキストと要約テキストを結合した文書(ソーステキスト及び要約テキストの双方を含む文書)
(b)要約テキストのみ
(c)ソーステキストのみ
(d)(a)~(c)のいずれかと、その他の付属情報テキスト(例えば、ソーステキストのタイトルなど)を結合した文書
続いて、重要度計算部111は、所定のモデルに基づいて、各抽出元文書を構成する所定単位の各文字列(例えば、単語)について、文書の要約の際に用いるクエリ(追加される入力パラメータ)としての適切さを表すスコアの一例として、これらの抽出元文書群における重要度を算出する(S102)。例えば、重要度計算部111は、所定のモデルとして、TF-IDFの計算モデルを用いる。この場合、重要度計算部111は、各単語のTF-IDFを重要度として算出する。文書群に含まれる各単語のTF-IDFの算出は、公知の方法を用いて行うことができる。なお、本実施の形態において、入力パラメータにおける「パラメータ」とは、例えば、ニューラルネットワーク等のモデルの学習用パラメータとは明確に区別される。入力パラメータは、モデルに対する入力として与えられるデータであるのに対し、学習用パラメータは、モデルの学習に応じて値が変化するデータである。一般的な例としては、入力パラメータは、テキストデータ等で与えられるのに対し、学習用パラメータは、数値データの集合等で表現される。
続いて、クエリ選択部112は、抽出元文書ごとに、当該抽出元文書を構成する所定単位の文字列(単語)の中から重要度の降順にK個の文字列を、当該抽出元文書に対応するクエリ無し学習データに対応するクエリとして選択する(S103)。なお、Kの値(K>=0)は、抽出元文書ごとにランダムに選択されてもよいし、全ての抽出元文書に対して同じであってもよい。また、各抽出元文書からのクエリの選択に際し、クエリ選択部112は、当該抽出元文書の要約テキストに含まれる単語のみをクエリとして選択するようにしてもよい。そうすることで、要約生成モデルについて、指定されたクエリを要約中に含むような学習をしやすくすることができる。
続いて、クエリ追加部113は、クエリ無し学習データごとに、当該クエリ無し学習データに基づく抽出元文書から選択されたK個の単語を、クエリとして当該クエリ無し学習データに追加することで、クエリ有り学習データを生成する(S104)。したがって、生成されるクエリ有り学習データは、クエリ無し学習データが含んでいたソーステキスト及び要約テキストと、当該クエリ無し学習データから抽出されたK個のクエリ(クエリ列)とを含むことになる。
上述したように、第1の実施の形態によれば、クエリを含んでいない学習データから、疑似的なクエリを生成することができる。したがって、追加の入力パラメータが必要とされる要約の学習を効率化することができる。
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
第2の実施の形態では、クエリ有り学習データ生成部11の構成及びクエリ有り学習データ生成部11が実行する処理手順が第1の実施の形態と異なる。
図5は、第2の実施の形態におけるクエリ有り学習データ生成部11の構成例を示す図である。図5中、図3と同一又は対応する部分には、同一符号を付している。第2の実施の形態において、クエリ有り学習データ生成部11は、重要度計算部111の代わりにクエリ生成モデル学習部114及びクエリ候補生成部115を有する。クエリ生成モデル学習部114は、クエリ無し学習データから1以上のクエリを生成するモデル(以下、「クエリ生成モデル」という。)を学習する。クエリ生成モデルは、例えば、ニューラルネットワーク等により構成される。クエリ生成モデル学習部114は、クエリ生成モデルの学習データの元となる学習用文書群を入力とする。学習用文書群は、複数の学習用文書の集合をいう。学習用文書とは、wikipedia等のようにインターネットにおいて公開されている百科事典や、新聞などのように、標題(見出し)と本文とを含むテキスト形式の文書データをいう。
クエリ候補生成部115は、学習済みのクエリ生成モデルに基づいて、クエリの候補を生成(出力)する。
図6は、第2の実施の形態におけるクエリ有り学習データの生成処理の処理手順の一例を説明するためのフローチャートである。
ステップS201において、クエリ生成モデル学習部114は、学習用文書群に含まれる学習用文書ごとに、クエリ生成モデルの学習データを生成する。具体的には、クエリ生成モデル学習部114は、各学習用文書の標題を、所定単位の文字列(例えば、単語)に分解(分割)する。したがって、例えば、学習用文書ごとに、標題を構成する単語列(以下、単に「単語列」という。)が生成される。この際、クエリ生成モデル学習部114は、ストップワードを削除した単語列を生成するようにしてもよい。クエリ生成モデル学習部114は、学習用文書ごとに、当該学習用文書の本文(パラグラフテキスト)と、当該本文に対応する標題から生成された単語列との組を学習データとして生成する。
続いて、クエリ生成モデル学習部114は、ステップS201において生成された学習データ群を用いて、クエリ生成モデルの学習を行う(S202)。具体的には、クエリ生成モデル学習部114は、各学習データの本文を入力とし、標題の単語列を出力とした場合における、当該本文と当該単語列との対応関係をクエリ生成モデルに学習させる。したがって、クエリ生成モデルは、或る文書の本文を入力すると、当該文書の標題に関連する単語列を出力するように学習される。なお、クエリ生成モデルは、例えば、公知のencoder-decoderモデルによって構成されてもよいし、公知の他の文生成モデルによって構成されてもよい。
続いて、クエリ候補生成部115は、クエリ無し学習データごとに、当該クエリ無し学習データの要約テキストを学習済みのクエリ生成モデルに入力して、当該クエリ生成モデルが出力する文字列群(単語列)を、当該クエリ無し学習データに対応するクエリ候補列として生成する(S203)。
この際、クエリ生成モデルがencoder-decoderモデルであれば、クエリ生成モデルは、クエリ無し学習データの入力に応じ、単語列を構成する各単語を逐次的に出力する。単語の逐次的な出力において、クエリ生成モデルは、自らの語彙(クエリ生成モデルの出力候補の単語の集合)を構成するD個の各単語について、出力候補の中から出力対象を選択するためのスコアを計算し、スコアが最大である単語を出力する。第2の実施の形態では、当該スコアが、文書の要約の際に用いるクエリ(追加される入力パラメータ)としての適切さを表すスコアの一例に相当する。
続いて、クエリ選択部112は、クエリ無し学習データごとに、当該クエリ無し学習データについてクエリ候補生成部115が生成したクエリ候補列の中からクエリとして利用する1以上の単語(クエリ列)を選択する(S204)。この際、クエリ選択部112は、クエリ候補列の全てをクエリ列として選択してもよいし、クエリ候補列の一部をクエリ列として選択してもよい。クエリ候補列の一部をクエリ列として選択する場合、クエリ選択部112は、クエリ候補列の先頭からK番目までの単語をクエリ列として選択してもよい。すなわち、クエリ生成モデルが逐次的に行う単語の出力のうち、K番目までの単語がクエリとして選択されてもよい。又は、ステップS203において、クエリ生成モデルからの逐次的な単語の出力回数がK回に抑制されてもよい。この場合、クエリ候補列は、K個の単語から構成されることになる。したがって、この場合、ステップS204では、クエリ候補列の全部がクエリ列として選択されればよい。
続いて、クエリ追加部113は、クエリ無し学習データごとに、当該クエリ無し学習データについて選択されたクエリ列を当該クエリ無し学習データに追加することで、クエリ有り学習データを生成する(S205)。
上述したように、第2の実施の形態によれば、第1の実施の形態と同様の効果を得ることができる。
次に、第3の実施の形態として、クエリ有り学習データを用いた要約生成モデルの学習、及び学習済みの要約生成モデルを用いた要約の生成に関する第1の例について説明する。なお、第3の実施の形態は、第1の実施の形態及び第2の実施の形態のいずれに対しても適用可能である。
図7は、第3の実施の形態における要約生成モデルの学習及び要約の生成を説明するための図である。図7において、要約部13は、内容選択部131、エンコーダ132及びデコーダ133を含む。これら各部が要約生成モデルを構成する。
要約生成モデルの学習時において、要約学習部12は、要約部13に対して、クエリ有り学習データ群に含まれる学習データ(ソーステキスト、クエリ列、要約テキスト)ごとに、当該学習データのソーステキスト及びクエリ列を入力する。
内容選択部131は、当該ソーステキスト及び当該クエリ列を結合したテキスト(以下、「結合テキスト」という。)を構成する文字列(例えば、単語)ごとに、重要度を算出するモデル(例えば、ニューラルネットワーク)である。内容選択部131は、BERTやMASSなどの事前学習済モデルをfinetuneすることで構成されてもよい。なお、BERTについては、例えば、「https://arxiv.org/abs/1810.04805」等に詳しい。また、MASSについては、例えば、「https://arxiv.org/abs/1905.02450」等に詳しい。
内容選択部131は、結合テキストの中から重要度の降順にN個の単語列(重要語列)を抽出し、当該重要語列、入力として与えられたソーステキスト及びクエリ列をエンコーダ132へ入力する。この際、内容選択部131は、クエリ列、重要語列及びソーステキストを「クエリ列[SEP]重要語列[SEP]ソーステキスト」のように、[SEP]などの特殊トークンで結合する。なお、Nの値は、クエリ等と共に内容選択部131に対する入力とされてもよい。
エンコーダ132及びデコーダ133は、例えば、BERT又はMASS等の公知のencoder-decoderモデル(ニューラルネットワーク)である。
エンコーダ132は、入力されたテキストを符号化する。デコーダ133は、符号化結果に基づいて要約テキストを生成及び出力する。
要約学習部12は、学習データに含まれる要約テキストと、デコーダ133が出力した要約テキストとの比較に基づいて、エンコーダ132及びデコーダ133の学習用パラメータを更新する。なお、当該比較及び学習用パラメータの更新は、公知技術に基づいて行われればよい。
学習が終了すると、要約部13は、クエリ列及び入力テキストを入力とし、要約テキストを出力とする学習済みの要約生成モデルとして機能する。
なお、図7の要約部13は、国際公開第2021/064907号に開示された技術を用いて構成されてもよい。
次に、第4の実施の形態として、クエリ有り学習データを用いた要約生成モデルの学習、及び学習済みの要約生成モデルを用いた要約の生成に関する第2の例について説明する。なお、第4の実施の形態は、第1の実施の形態及び第2の実施の形態のいずれに対しても適用可能である。
図8は、第4の実施の形態における要約生成モデルの学習及び要約の生成を説明するための図である。図8中、図7と同一又は対応する部分には同一符号を付している。図8において、要約部13は、エンコーダ132及びデコーダ133を含む。これら各部が要約生成モデルを構成する。すなわち、第4の実施の形態の要約生成モデルは、内容選択部131を有さない。
要約生成モデルの学習時において、要約学習部12は、要約部13に対して、クエリ有り学習データ群に含まれる学習データ(ソーステキスト、クエリ列、要約テキスト)ごとに、当該学習データのソーステキスト及びクエリ列を入力する。この際、要約学習部12は、クエリ列及びソーステキストを「クエリ列[SEP]ソーステキスト」のように、[SEP]などの特殊トークンで結合する。
エンコーダ132は、入力されたテキストを符号化する。デコーダ133は、符号化結果に基づいて要約テキストを生成及び出力する。
要約学習部12は、学習データに含まれる要約テキストと、デコーダ133が出力した要約テキストとの比較に基づいて、エンコーダ132及びデコーダ133の学習用パラメータを更新する。なお、当該比較及び学習用パラメータの更新は、公知技術に基づいて行われればよい。
学習が終了すると、要約部13は、クエリ列及び入力テキストを入力とし、要約テキストを出力とする学習済みの要約生成モデルとして機能する。
なお、第4及び第5の実施の形態において、要約部13は、encoder-decoderモデル以外の文生成モデルに基づいて構成されてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
複数の文字列について、所定のモデルに基づいて第1の文書の要約の際に追加される入力パラメータとしての適切さを表すスコアを計算し、
前記スコアに基づいて、前記複数の文字列の中から一部の文字列群を、文書の要約を生成する要約生成モデルの学習データを構成する前記入力パラメータとして選択する、
ことを特徴とする要約学習支援装置。
(付記項2)
複数の文字列について、所定のモデルに基づいて第1の文書の要約の際に追加される入力パラメータとしての適切さを表すスコアを計算し、
前記スコアに基づいて、前記複数の文字列の中から一部の文字列群を、文書の要約を生成する要約生成モデルの学習データを構成する前記入力パラメータとして選択する、
処理をコンピュータに実行させるプログラムを記録した記録媒体。
なお、上記各実施の形態において、要約生成装置10は、要約学習支援装置の一例である。重要度計算部111又はクエリ候補生成部115(クエリ生成モデル)は、計算部の一例である。クエリ選択部112は、選択部の一例である。要約学習部12は、学習部の一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 要約生成装置
11 クエリ有り学習データ生成部
12 要約学習部
13 要約部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
111 重要度計算部
112 クエリ選択部
113 クエリ追加部
114 クエリ生成モデル学習部
115 クエリ候補生成部
131 内容選択部
132 エンコーダ
133 デコーダ
B バス

Claims (6)

  1. 複数の文字列について、所定のモデルに基づいて第1の文書の要約の際に追加される入力パラメータとしての適切さを表すスコアを計算する計算部と、
    前記スコアに基づいて、前記複数の文字列の中から一部の文字列群を、文書の要約を生成する要約生成モデルの学習データを構成する前記入力パラメータとして選択する選択部と、
    を有し、
    前記スコアは、文書の本文と前記文書の標題を構成する文字列群との対応関係を学習済みのモデルに対して前記第1の文書の要約である第2の文書を入力した場合に当該モデルが出力候補の文字列の中から出力対象の文字列を選択するために前記出力候補の文字列ごとに計算するスコアである、
    ことを特徴とする要約学習支援装置。
  2. 前記スコアは、前記第1の文書と前記第1の文書の要約である第2の文書とのうちのいずれか一方又は双方を含む第3の文書を構成する複数の文字列のそれぞれについての前記第3の文書における重要度である、
    ことを特徴とする請求項1記載の要約学習支援装置。
  3. 前記第1の文書及び前記文字列群と、前記第1の文書の要約である第2の文書とを含む学習データを用いて、前記要約生成モデルを学習する学習部、
    を有することを特徴とする請求項1又は2記載の要約学習支援装置。
  4. 前記学習部により学習された前記要約生成モデルに対して、或る文書と前記或る文書の要約に関する文字列とを入力して、前記或る文書の要約を生成する要約部、
    を有することを特徴とする請求項記載の要約学習支援装置。
  5. 複数の文字列について、所定のモデルに基づいて第1の文書の要約の際に追加される入力パラメータとしての適切さを表すスコアを計算する計算手順と、
    前記スコアに基づいて、前記複数の文字列の中から一部の文字列群を、文書の要約を生成する要約生成モデルの学習データを構成する前記入力パラメータとして選択する選択手順と、
    をコンピュータが実行し、
    前記スコアは、文書の本文と前記文書の標題を構成する文字列群との対応関係を学習済みのモデルに対して前記第1の文書の要約である第2の文書を入力した場合に当該モデルが出力候補の文字列の中から出力対象の文字列を選択するために前記出力候補の文字列ごとに計算するスコアである、
    ことを特徴とする要約学習支援方法。
  6. 請求項1乃至いずれか一項記載の要約学習支援装置としてコンピュータを機能させることを特徴とするプログラム。
JP2023543588A 2021-08-26 2021-08-26 要約学習支援装置、要約学習支援方法及びプログラム Active JP7700862B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/031420 WO2023026444A1 (ja) 2021-08-26 2021-08-26 要約学習支援装置、要約学習支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2023026444A1 JPWO2023026444A1 (ja) 2023-03-02
JP7700862B2 true JP7700862B2 (ja) 2025-07-01

Family

ID=85322940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023543588A Active JP7700862B2 (ja) 2021-08-26 2021-08-26 要約学習支援装置、要約学習支援方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7700862B2 (ja)
WO (1) WO2023026444A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021124489A1 (ja) 2019-12-18 2021-06-24 日本電信電話株式会社 要約学習方法、要約学習装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021124489A1 (ja) 2019-12-18 2021-06-24 日本電信電話株式会社 要約学習方法、要約学習装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廣嶋伸章 他2名,Webページのヘッドライン生成のための統計的要約,自然言語処理,言語処理学会,2005年11月10日,第12巻第6号,113-128頁,ISSN 1340-7619
斉藤いつみ 他5名,クエリ・出力長を考慮可能な文書要約モデル,言語処理学会第25回年次大会 発表論文集,2019年03月04日,497-500頁

Also Published As

Publication number Publication date
JPWO2023026444A1 (ja) 2023-03-02
WO2023026444A1 (ja) 2023-03-02

Similar Documents

Publication Publication Date Title
Lin et al. Abstractive summarization: A survey of the state of the art
KR102391466B1 (ko) Ai 기반 질의응답 시스템 및 방법
US20140288915A1 (en) Round-Trip Translation for Automated Grammatical Error Correction
US11625544B2 (en) Method and system for training document-level natural language processing models
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP7842236B2 (ja) 言語モデルニューラルネットワークを使用したインライン証拠付き出力シーケンスの生成
JP2022111261A (ja) 質問生成装置、質問生成方法及びプログラム
Yan et al. Response selection from unstructured documents for human-computer conversation systems
CN119578411B (zh) 一种结合句法信息和预训练语言模型的中文文本语法纠错方法
Xu et al. Document-level relation extraction with entity mentions deep attention
JP7550432B2 (ja) モデル訓練装置、モデル訓練方法、及びコンピュータプログラム
Han et al. Bridging the gap between text-to-SQL research and real-world applications: A unified all-in-one framework for text-to-SQL
Cremaschi et al. steellm: An llm for generating semantic annotations of tabular data
WO2026011262A1 (en) Methods and systems for updating a retrieval-augmented generation framework
JP7700862B2 (ja) 要約学習支援装置、要約学習支援方法及びプログラム
WO2020235024A1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP7384221B2 (ja) 要約学習方法、要約学習装置及びプログラム
Abdous et al. PESTS: Persian_English cross lingual corpus for semantic textual similarity
Trandafili et al. Employing a SEQ2SEQ model for spelling correction in Albanian language
JP2021135839A (ja) 情報処理システム、文生成方法およびプログラム
WO2023243273A1 (ja) 発話データ生成装置、対話装置及び生成モデルの作成方法
CN114841289A (zh) 一种基于深度学习和规则结合的论据匹配及论证生成方法、设备和介质
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP2023039785A (ja) 出力プログラム、出力方法、および出力装置
De Kruijf et al. Training a Dutch (+ English) BERT model applicable for the legal domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231120

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250602

R150 Certificate of patent or registration of utility model

Ref document number: 7700862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350