JPH08329108A - テキストのハイパーテキスト化方法 - Google Patents
テキストのハイパーテキスト化方法Info
- Publication number
- JPH08329108A JPH08329108A JP7134915A JP13491595A JPH08329108A JP H08329108 A JPH08329108 A JP H08329108A JP 7134915 A JP7134915 A JP 7134915A JP 13491595 A JP13491595 A JP 13491595A JP H08329108 A JPH08329108 A JP H08329108A
- Authority
- JP
- Japan
- Prior art keywords
- anchor
- link
- node
- text
- hypertext
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】テキストをハイパーテキスト化する。具体的に
は、ハイパーテキストの読者がハイパーテキストを参照
中に更に詳細を知りたいと思う箇所からその説明として
適切な箇所へリンクをたどることができるように、ある
内容を参照した箇所と、その内容を主たる説明内容とす
るノードとを結ぶリンクを自動的に作成する。 【構成】テキストから動詞とその格要素となる名詞をキ
ーフレーズとして抽出し、キーフレーズが共通する箇所
をリンクを作成し、テキストの表現に基づいて重要箇所
を抽出することによってリンクの方向を決定する。 【効果】適切なリンクを作成することができる。
は、ハイパーテキストの読者がハイパーテキストを参照
中に更に詳細を知りたいと思う箇所からその説明として
適切な箇所へリンクをたどることができるように、ある
内容を参照した箇所と、その内容を主たる説明内容とす
るノードとを結ぶリンクを自動的に作成する。 【構成】テキストから動詞とその格要素となる名詞をキ
ーフレーズとして抽出し、キーフレーズが共通する箇所
をリンクを作成し、テキストの表現に基づいて重要箇所
を抽出することによってリンクの方向を決定する。 【効果】適切なリンクを作成することができる。
Description
【0001】
【産業上の利用分野】本発明は、テキストの内容に基づ
いてハイパーテキスト構造を作成する方法に係り、テキ
ストデータベースの作成、検索および表示を行う方法に
関する。
いてハイパーテキスト構造を作成する方法に係り、テキ
ストデータベースの作成、検索および表示を行う方法に
関する。
【0002】
【従来の技術】ハイパーテキストとは、章、節などのテ
キストのまとまりをノードとして、内容的な関連を持つ
ノードをリンクによって結び付けた電子化テキストであ
る。リンクの端点がノード内の一部分であるとき、その
部分をアンカーと呼ぶ。
キストのまとまりをノードとして、内容的な関連を持つ
ノードをリンクによって結び付けた電子化テキストであ
る。リンクの端点がノード内の一部分であるとき、その
部分をアンカーと呼ぶ。
【0003】テキストの内容的な関連を示すリンクを自
動的に作成する技術として、Salton, G : "Automatic T
ext Processing," ADDISON-WESLEY(1989)に示され
た、単語ベクトル空間モデルに基づく方法が知られてい
る。ノード内の単語の出現分布をベクトルで表現し、ベ
クトルの内積が大きいノードの組合せに対して、内容的
な関連を示すリンクを作成するものである。この他の技
術として、白石、他 : "オンラインマニュアル作成支援
ツール," 情報処理学会第45回全国大会5C−7, pp.
3-273--3-274(1992)に示された方法がある。これは、
文書中に2回以上出現する名詞部分の間にリンクを作成
し、また、名詞部分に続く助詞によって名詞部分の重要
度を決定してリンクの方向を決定するものである。
動的に作成する技術として、Salton, G : "Automatic T
ext Processing," ADDISON-WESLEY(1989)に示され
た、単語ベクトル空間モデルに基づく方法が知られてい
る。ノード内の単語の出現分布をベクトルで表現し、ベ
クトルの内積が大きいノードの組合せに対して、内容的
な関連を示すリンクを作成するものである。この他の技
術として、白石、他 : "オンラインマニュアル作成支援
ツール," 情報処理学会第45回全国大会5C−7, pp.
3-273--3-274(1992)に示された方法がある。これは、
文書中に2回以上出現する名詞部分の間にリンクを作成
し、また、名詞部分に続く助詞によって名詞部分の重要
度を決定してリンクの方向を決定するものである。
【0004】
【発明が解決しようとする課題】上記従来の技術のSalt
onの単語ベクトル空間モデルに基づく方法では、ノード
の記述内容の全体が関連を持つ場合には有効であると期
待できるが、マニュアルのようにノードの記述内容の一
部が他のノードと関連を持つ場合には効果が期待できな
いという問題点がある。白石、他の方法は、リンクの作
成の精度が期待できないという問題点がある。つまり、
ノードの主たる内容ではなく従たる内容を示す名詞部分
同士をリンクで結んだり、ノードの内容としては無関係
であるが同一の名詞部分を持つノードの間にリンクを作
成するという問題点がある。また、動詞などで表される
操作方法などについてリンクを作ることができない。
onの単語ベクトル空間モデルに基づく方法では、ノード
の記述内容の全体が関連を持つ場合には有効であると期
待できるが、マニュアルのようにノードの記述内容の一
部が他のノードと関連を持つ場合には効果が期待できな
いという問題点がある。白石、他の方法は、リンクの作
成の精度が期待できないという問題点がある。つまり、
ノードの主たる内容ではなく従たる内容を示す名詞部分
同士をリンクで結んだり、ノードの内容としては無関係
であるが同一の名詞部分を持つノードの間にリンクを作
成するという問題点がある。また、動詞などで表される
操作方法などについてリンクを作ることができない。
【0005】本発明の目的は、ハイパーテキストの読者
がハイパーテキストを参照中に更に詳細を知りたいと思
う箇所からその説明として適切な箇所へリンクをたどる
ことができるように、ある内容を参照した箇所と、その
内容を主たる説明内容とするノードとを結ぶリンクを自
動的に作成する方法を提供することにある。
がハイパーテキストを参照中に更に詳細を知りたいと思
う箇所からその説明として適切な箇所へリンクをたどる
ことができるように、ある内容を参照した箇所と、その
内容を主たる説明内容とするノードとを結ぶリンクを自
動的に作成する方法を提供することにある。
【0006】
【課題を解決するための手段】上記目的は、ノードテー
ブル作成ステップ、文分割ステップ、単語分割ステッ
プ、アンカー抽出ステップ、重要箇所抽出ステップ、ア
ンカーマーキングステップ、リンク作成ステップ、およ
び、ハイパーテキスト表示ステップからなるテキストの
ハイパーテキスト化方法によって達成される。
ブル作成ステップ、文分割ステップ、単語分割ステッ
プ、アンカー抽出ステップ、重要箇所抽出ステップ、ア
ンカーマーキングステップ、リンク作成ステップ、およ
び、ハイパーテキスト表示ステップからなるテキストの
ハイパーテキスト化方法によって達成される。
【0007】ここで、アンカー抽出ステップはキーワー
ド抽出サブステップとキーフレーズ抽出サブステップと
からなリ、重要箇所抽出ステップは重要箇所仮認識サブ
ステップと除外箇所抽出サブステップと抽出箇所統合サ
ブステップからなり、リンク作成ステップはキーフレー
ズタイプリンク作成サブステップとキーワードタイプリ
ンク作成サブステップとからなり、ハイパーテキスト表
示ステップはレイアウトサブステップとアンカー表示位
置再計算サブステップとノードテキスト表示サブステッ
プとからなる。
ド抽出サブステップとキーフレーズ抽出サブステップと
からなリ、重要箇所抽出ステップは重要箇所仮認識サブ
ステップと除外箇所抽出サブステップと抽出箇所統合サ
ブステップからなり、リンク作成ステップはキーフレー
ズタイプリンク作成サブステップとキーワードタイプリ
ンク作成サブステップとからなり、ハイパーテキスト表
示ステップはレイアウトサブステップとアンカー表示位
置再計算サブステップとノードテキスト表示サブステッ
プとからなる。
【0008】
【作用】ノードテーブル作成ステップは、テキストの内
容的なまとまりであるノードを作成し、ノード間の接続
関係およびノードの説明の目的のタイプをノードテーブ
ルに記録する。テキストの内容的なまとまりは入力テキ
ストに挿入された章、節、項などの文書の構成要素の境
界を示すデータによって認識する。ノード間の接続関係
とは、テキストにおけるノードの順序や章、節、項など
における上下関係である。ノードの説明の目的タイプと
は、そのノードが目的とする説明のタイプであり、概要
説明、詳細説明などがあり、説明の目的のタイプを示す
データがノードごとにテキストに挿入されているものと
する。説明の目的のタイプを示すデータが存在しない文
書構成要素については、その上位にある文書構成要素と
同一であるものとする。
容的なまとまりであるノードを作成し、ノード間の接続
関係およびノードの説明の目的のタイプをノードテーブ
ルに記録する。テキストの内容的なまとまりは入力テキ
ストに挿入された章、節、項などの文書の構成要素の境
界を示すデータによって認識する。ノード間の接続関係
とは、テキストにおけるノードの順序や章、節、項など
における上下関係である。ノードの説明の目的タイプと
は、そのノードが目的とする説明のタイプであり、概要
説明、詳細説明などがあり、説明の目的のタイプを示す
データがノードごとにテキストに挿入されているものと
する。説明の目的のタイプを示すデータが存在しない文
書構成要素については、その上位にある文書構成要素と
同一であるものとする。
【0009】文分割ステップは、ノード内のテキストか
ら空白、句点などを手掛かりにタイトル、文を切り出
す。この文分割の技術は機械翻訳システムに関連して公
知の技術である。
ら空白、句点などを手掛かりにタイトル、文を切り出
す。この文分割の技術は機械翻訳システムに関連して公
知の技術である。
【0010】単語分割ステップは、文分割ステップで切
り出したタイトル、文を単語に分割し単語の品詞および
語幹やその単語の意味概念を認識する。この単語分割の
技術も機械翻訳システムに関連して公知の技術である。
り出したタイトル、文を単語に分割し単語の品詞および
語幹やその単語の意味概念を認識する。この単語分割の
技術も機械翻訳システムに関連して公知の技術である。
【0011】アンカー抽出ステップは、キーワード抽出
サブステップにおいて、キーワード抽出用の品詞および
文字の並びのパターンと単語分割の結果との比較によっ
て普通名詞および複合名詞の部分をキーワードとして抽
出する。続いてキーフレーズ抽出サブステップにおい
て、キーフレーズ抽出用の品詞および文字の並びのパタ
ーンと単語分割の結果との比較によって、動詞またはサ
変名詞と、その動詞またはサ変名詞に意味的に接続する
格要素の内容を表す普通名詞または複合名詞との対をキ
ーフレーズとして抽出する。
サブステップにおいて、キーワード抽出用の品詞および
文字の並びのパターンと単語分割の結果との比較によっ
て普通名詞および複合名詞の部分をキーワードとして抽
出する。続いてキーフレーズ抽出サブステップにおい
て、キーフレーズ抽出用の品詞および文字の並びのパタ
ーンと単語分割の結果との比較によって、動詞またはサ
変名詞と、その動詞またはサ変名詞に意味的に接続する
格要素の内容を表す普通名詞または複合名詞との対をキ
ーフレーズとして抽出する。
【0012】重要箇所抽出ステップは、重要箇所仮抽出
サブステップにおいて、重要箇所仮抽出用のパターンと
単語分割の結果との比較によって仮の重要箇所を抽出す
る。除外箇所抽出サブステップにおいて、除外箇所抽出
用のパターンと単語分割の結果との比較によって除外箇
所を抽出する。抽出箇所統合サブステップにおいて、除
外箇所と重複する仮の抽出重要箇所を除外し、除外した
残りを重要箇所とする。
サブステップにおいて、重要箇所仮抽出用のパターンと
単語分割の結果との比較によって仮の重要箇所を抽出す
る。除外箇所抽出サブステップにおいて、除外箇所抽出
用のパターンと単語分割の結果との比較によって除外箇
所を抽出する。抽出箇所統合サブステップにおいて、除
外箇所と重複する仮の抽出重要箇所を除外し、除外した
残りを重要箇所とする。
【0013】アンカーマーキングステップは、重要箇所
と重複するキーワード、キーフレーズに対して、重要箇
所である旨のフラグを付ける。
と重複するキーワード、キーフレーズに対して、重要箇
所である旨のフラグを付ける。
【0014】リンク作成ステップは、キーフレーズタイ
プリンク作成サブステップにおいて、2個のキーフレー
ズについて、キーフレーズを構成する動詞またはサ変名
詞および名詞または複合名詞のそれぞれの表記や語幹や
意味概念が一致し、一方のキーフレーズには重要箇所の
フラグがあり他方にはそのフラグが無く、それぞれのキ
ーフレーズが存在するノードの目的タイプの組合せが許
可されており、両方のノードは異なっておりかつ直系の
上下関係に無い場合に、重要箇所のフラグが無いキーフ
レーズを始点のアンカーとし、重要箇所のフラグがある
キーフレーズが存在するノードを終点とするリンクを作
成する。リンクのデータは、始点のアンカーの表示範囲
情報と、始点のアンカーを構成する語句の情報と、終点
のノードの位置情報とからなる。
プリンク作成サブステップにおいて、2個のキーフレー
ズについて、キーフレーズを構成する動詞またはサ変名
詞および名詞または複合名詞のそれぞれの表記や語幹や
意味概念が一致し、一方のキーフレーズには重要箇所の
フラグがあり他方にはそのフラグが無く、それぞれのキ
ーフレーズが存在するノードの目的タイプの組合せが許
可されており、両方のノードは異なっておりかつ直系の
上下関係に無い場合に、重要箇所のフラグが無いキーフ
レーズを始点のアンカーとし、重要箇所のフラグがある
キーフレーズが存在するノードを終点とするリンクを作
成する。リンクのデータは、始点のアンカーの表示範囲
情報と、始点のアンカーを構成する語句の情報と、終点
のノードの位置情報とからなる。
【0015】キーワードタイプリンク作成サブステップ
において、キーワードとして抽出した普通名詞および複
合名詞と、キーフレーズを構成するものとして抽出した
普通名詞および複合名詞とをキーワードとみなして、2
個のキーワードについて、キーフレーズタイプリンクと
同等の条件および手順にしたがってリンクを作成する。
つまり、キーフレーズタイプリンクの作成サブステップ
においては動詞またはサ変名詞および名詞または複合名
詞の一致によってリンクを作成していたところを、名詞
または複合名詞の一致によってリンクを作成する。
において、キーワードとして抽出した普通名詞および複
合名詞と、キーフレーズを構成するものとして抽出した
普通名詞および複合名詞とをキーワードとみなして、2
個のキーワードについて、キーフレーズタイプリンクと
同等の条件および手順にしたがってリンクを作成する。
つまり、キーフレーズタイプリンクの作成サブステップ
においては動詞またはサ変名詞および名詞または複合名
詞の一致によってリンクを作成していたところを、名詞
または複合名詞の一致によってリンクを作成する。
【0016】キーフレーズタイプリンク作成サブステッ
プ、キーワードタイプリンク作成サブステップの両方に
おいて、始点とするアンカーのキーフレーズまたはキー
ワードを構成する単語を包含する最小の連続する範囲を
アンカーの表示範囲とする。ただし、アンカーの表示範
囲が重複するリンクが他にあって、そのリンクの終点が
異なる場合は、それぞれのキーフレーズを構成する単語
から重複する単語を除いた残りの単語を包含する最小の
連続する範囲を、それぞれのリンクの始点のアンカーの
表示範囲とする。また、アンカーの表示範囲が重複する
リンクが他にあって、そのリンクの終点が同じ場合は、
リンクを作成せず、他にあったリンクの始点とするアン
カーの表示範囲をそれぞれのアンカーの表示範囲の和と
する。
プ、キーワードタイプリンク作成サブステップの両方に
おいて、始点とするアンカーのキーフレーズまたはキー
ワードを構成する単語を包含する最小の連続する範囲を
アンカーの表示範囲とする。ただし、アンカーの表示範
囲が重複するリンクが他にあって、そのリンクの終点が
異なる場合は、それぞれのキーフレーズを構成する単語
から重複する単語を除いた残りの単語を包含する最小の
連続する範囲を、それぞれのリンクの始点のアンカーの
表示範囲とする。また、アンカーの表示範囲が重複する
リンクが他にあって、そのリンクの終点が同じ場合は、
リンクを作成せず、他にあったリンクの始点とするアン
カーの表示範囲をそれぞれのアンカーの表示範囲の和と
する。
【0017】ハイパーテキスト表示ステップは、レイア
ウトサブステップにおいて、表示すべきノードを決定し
た後に、そのノードのテキストを表示用にレイアウト
し、文書に含まれる文書構成要素情報やレイアウト情報
を削除すると共に、レイアウト前後の文字の位置の対応
表を作成する。そして、アンカー表示位置計算サブステ
ップにおいて、レイアウト前のテキストに基づいて表現
されたアンカーの表示位置情報を、レイアウト前後の文
字の位置の対応表を参照して、レイアウト後のテキスト
に基づいた表現に変換する。その後に、ノードテキスト
表示サブステップにおいてアンカー部分を反転などの強
調によって表示する。
ウトサブステップにおいて、表示すべきノードを決定し
た後に、そのノードのテキストを表示用にレイアウト
し、文書に含まれる文書構成要素情報やレイアウト情報
を削除すると共に、レイアウト前後の文字の位置の対応
表を作成する。そして、アンカー表示位置計算サブステ
ップにおいて、レイアウト前のテキストに基づいて表現
されたアンカーの表示位置情報を、レイアウト前後の文
字の位置の対応表を参照して、レイアウト後のテキスト
に基づいた表現に変換する。その後に、ノードテキスト
表示サブステップにおいてアンカー部分を反転などの強
調によって表示する。
【0018】上記のリンク作成ステップの作用の一部と
して2個以上のリンクの始点のアンカーの表示範囲が重
複する場合にはその重複を解消することを示したが、そ
の解消処理を行わずにノードテキスト表示サブステップ
において、リンクのフォローのためにアンカーの表示範
囲が重複する箇所をマウス等で選択された場合に、それ
らのアンカーに対する反転などの強調表示を順次切り替
えて表示することもできる。
して2個以上のリンクの始点のアンカーの表示範囲が重
複する場合にはその重複を解消することを示したが、そ
の解消処理を行わずにノードテキスト表示サブステップ
において、リンクのフォローのためにアンカーの表示範
囲が重複する箇所をマウス等で選択された場合に、それ
らのアンカーに対する反転などの強調表示を順次切り替
えて表示することもできる。
【0019】
【実施例】本発明の、テキストのハイパーテキスト化方
法の一実施例を説明する。この方法の実施例を示すフロ
ー図を図1に示す。また、データフロー図を図2に示
す。
法の一実施例を説明する。この方法の実施例を示すフロ
ー図を図1に示す。また、データフロー図を図2に示
す。
【0020】まず、概要を説明する。
【0021】本実施例が入力とするテキストの一例を図
12に示す。ノードテーブル作成ステップ101におい
てテキストを入力してから、文分割ステップ102、単
語分割ステップ103、アンカー抽出ステップ104、
重要箇所抽出ステップ105、アンカーマーキングステ
ップ106、リンク作成ステップ107を経て、ハイパ
ーテキストの構成要素であるノード、アンカー、リンク
を作成する。その結果のイメージ図を図13に示す。細
線枠1301などの細線枠はノードを表し、反転表示部
分1302などの反転表示はアンカーを表し、矢印13
03などの矢印はリンクを表す。
12に示す。ノードテーブル作成ステップ101におい
てテキストを入力してから、文分割ステップ102、単
語分割ステップ103、アンカー抽出ステップ104、
重要箇所抽出ステップ105、アンカーマーキングステ
ップ106、リンク作成ステップ107を経て、ハイパ
ーテキストの構成要素であるノード、アンカー、リンク
を作成する。その結果のイメージ図を図13に示す。細
線枠1301などの細線枠はノードを表し、反転表示部
分1302などの反転表示はアンカーを表し、矢印13
03などの矢印はリンクを表す。
【0022】このハイパーテキストをハイパーテキスト
表示ステップ108において、表示すべきノードを決定
して、そのノードのテキストを表示する。その際にアン
カーを反転するなどの強調して表示する。利用者がマウ
スなどでアンカーの部分を選択すると、現在表示中のノ
ードに代えて、リンクによってそのアンカーとの関連が
示されたノードを表示する。
表示ステップ108において、表示すべきノードを決定
して、そのノードのテキストを表示する。その際にアン
カーを反転するなどの強調して表示する。利用者がマウ
スなどでアンカーの部分を選択すると、現在表示中のノ
ードに代えて、リンクによってそのアンカーとの関連が
示されたノードを表示する。
【0023】次に、本実施例の動作の詳細を説明する。
【0024】ノードテーブル作成ステップ101におい
て、テキストを入力してノードテーブルを作成する。ノ
ードはテキストの内容的なまとまりである。本実施例で
は、章、節、項などの文書構成要素に対応してノードを
作成する。また、各ノードは「概要説明」、「詳細説
明」など、説明の目的を持つ。ノードテーブルは、ノー
ドを構成するテキストの範囲、ノードの説明の目的タイ
プ、子ノード番号リストを記録するためのテーブルであ
る。
て、テキストを入力してノードテーブルを作成する。ノ
ードはテキストの内容的なまとまりである。本実施例で
は、章、節、項などの文書構成要素に対応してノードを
作成する。また、各ノードは「概要説明」、「詳細説
明」など、説明の目的を持つ。ノードテーブルは、ノー
ドを構成するテキストの範囲、ノードの説明の目的タイ
プ、子ノード番号リストを記録するためのテーブルであ
る。
【0025】図12のテキストに対応して作成するノー
ドテーブルを図14に示す。図中、「…」1408の
「…」は、文字や項目を省略してあることを示す。他の
図表においても同様である。
ドテーブルを図14に示す。図中、「…」1408の
「…」は、文字や項目を省略してあることを示す。他の
図表においても同様である。
【0026】「#」1401は、ノードの通し番号を表
す。「開始」1404、「終了」1405は、ノードを
構成する範囲を入力テキストの先頭の文字からの文字数
によって表現した値である。テキストに挿入されてい
る、「<DOC>」1201、「<CHAP>」120
2、「<SECT>」1203、「<SUBSECT
>」1204などの、文書構成要素の境界を示すデータ
によって、ノードの範囲を得る。
す。「開始」1404、「終了」1405は、ノードを
構成する範囲を入力テキストの先頭の文字からの文字数
によって表現した値である。テキストに挿入されてい
る、「<DOC>」1201、「<CHAP>」120
2、「<SECT>」1203、「<SUBSECT
>」1204などの、文書構成要素の境界を示すデータ
によって、ノードの範囲を得る。
【0027】「タグ」1402は、文書構成要素の境界
を示すデータの名称であり、文書構成要素の種別を表
す。「章節番号」1403は、文書構成要素の番号であ
る。
を示すデータの名称であり、文書構成要素の種別を表
す。「章節番号」1403は、文書構成要素の番号であ
る。
【0028】「目的タイプ」1406は、ノードの説明
の目的タイプである。ノードの説明の目的タイプを示す
データは、「<NTYPE>」1205、「</NTYPE>」120
6のようにNTYPEタグによってテキストに挿入されてい
る。したがってこのタグの間の文字列を、ノードの説明
の目的タイプとして得る。ノードの説明の目的タイプが
示されていないノードについては、その上位にあるノー
ドと同一であるものとする。
の目的タイプである。ノードの説明の目的タイプを示す
データは、「<NTYPE>」1205、「</NTYPE>」120
6のようにNTYPEタグによってテキストに挿入されてい
る。したがってこのタグの間の文字列を、ノードの説明
の目的タイプとして得る。ノードの説明の目的タイプが
示されていないノードについては、その上位にあるノー
ドと同一であるものとする。
【0029】「下位ノード#リスト」1407は、ノー
ドの下位にあるノードのリストである。章に対応するノ
ードに対して、その章を構成する節に対応するノード
は、下位のノードとなる。節のノードから見れば章のノ
ードは上位のノードとなる。
ドの下位にあるノードのリストである。章に対応するノ
ードに対して、その章を構成する節に対応するノード
は、下位のノードとなる。節のノードから見れば章のノ
ードは上位のノードとなる。
【0030】図14の「下位ノード#リスト」1407
が示すノードの上下関係を図15に図式的に示す。「#
1」1501などの「#」の左の番号は、ノードの番号
であり「#」1401の値と対応する。
が示すノードの上下関係を図15に図式的に示す。「#
1」1501などの「#」の左の番号は、ノードの番号
であり「#」1401の値と対応する。
【0031】文分割ステップ102において、ノード内
のテキストからタイトル、文を切り出して、文テーブル
を作成する。文テーブルには、各タイトル、文の開始位
置と文字数を記録する。文テーブルの例を図16に示
す。「#」1601は文の通し番号を表し、「開始」1
602は文の開始位置をテキストの先頭からの文字数で
表現した値である。「文字数」1603は切り出したタ
イトルや文の文字数であリ、「文」1604は切り出し
たタイトルや文の文字列である。べた書きされたテキス
トからタイトルや文を切り出す技術は機械翻訳に関連し
て公知の技術である。
のテキストからタイトル、文を切り出して、文テーブル
を作成する。文テーブルには、各タイトル、文の開始位
置と文字数を記録する。文テーブルの例を図16に示
す。「#」1601は文の通し番号を表し、「開始」1
602は文の開始位置をテキストの先頭からの文字数で
表現した値である。「文字数」1603は切り出したタ
イトルや文の文字数であリ、「文」1604は切り出し
たタイトルや文の文字列である。べた書きされたテキス
トからタイトルや文を切り出す技術は機械翻訳に関連し
て公知の技術である。
【0032】単語分割ステップ103において、各文、
タイトルを単語に分割し、単語の語幹と品詞を認識して
単語テーブルを作成する。文1605の単語分割の結果
を図17に示す。「#」1701は文内の単語の通し番
号を表し、「開始」1702は単語の開始位置をテキス
トの先頭からの文字数で表現した値である。「文字数」
1703は単語の文字数であリ、「表記」1704は単
語の文字列である。「語幹」1705は単語の語幹であ
り辞書の見出しを記録する。辞書に登録されていない単
語についてはその語幹を、1707「−」に示すよう
に、「−」とする。「品詞」1706は品詞を表す。単
語分割の技術も機械翻訳システムに関連して公知の技術
である。
タイトルを単語に分割し、単語の語幹と品詞を認識して
単語テーブルを作成する。文1605の単語分割の結果
を図17に示す。「#」1701は文内の単語の通し番
号を表し、「開始」1702は単語の開始位置をテキス
トの先頭からの文字数で表現した値である。「文字数」
1703は単語の文字数であリ、「表記」1704は単
語の文字列である。「語幹」1705は単語の語幹であ
り辞書の見出しを記録する。辞書に登録されていない単
語についてはその語幹を、1707「−」に示すよう
に、「−」とする。「品詞」1706は品詞を表す。単
語分割の技術も機械翻訳システムに関連して公知の技術
である。
【0033】アンカー抽出ステップ104において、単
語分割結果と予め記述されたアンカー抽出用パターンと
の対応付けによってアンカーを抽出し、アンカーテーブ
ルを作成する。
語分割結果と予め記述されたアンカー抽出用パターンと
の対応付けによってアンカーを抽出し、アンカーテーブ
ルを作成する。
【0034】アンカー抽出用パターンの例を図18に示
す。「#」1801はアンカー抽出用パターンの通し番
号を表し、「名称」1802はパターンの名称を表す。
「内容」1803は、バターンの内容を表す。アンカー
抽出用パターンは、正規表現として知られる文字列のパ
ターンの記述方法を拡張して、品詞と文字の並びとして
記述する。
す。「#」1801はアンカー抽出用パターンの通し番
号を表し、「名称」1802はパターンの名称を表す。
「内容」1803は、バターンの内容を表す。アンカー
抽出用パターンは、正規表現として知られる文字列のパ
ターンの記述方法を拡張して、品詞と文字の並びとして
記述する。
【0035】アンカーテーブルを図19に示す。「#」
1901はアンカーの通し番号を表す。「#」1902
はアンカーが存在したノードの番号を表し、ノードテー
ブルにおける「#」1401に対応する。「目的タイ
プ」1903は、そのノードの説明の目的タイプを表
し、ノードテーブルにける「目的タイプ」1406に対
応する。「開始」1904、「終了」1905は、抽出
したキーワードおよびキーフレーズの名詞部の開始位
置、終了位置をテキストの先頭からの文字数によって表
した値である。「語幹」1906は、キーワードおよび
キーフレーズの名詞または複合名詞の部分の単語の語幹
あるいは表記を結合したものである。今後、キーフレー
ズの名詞または複合名詞の部分を名詞部と呼ぶ。辞書に
登録されていた単語は語幹を、語幹が「−」の単語につ
いてはその表記を結合対象とする。「開始」1907、
「終了」1908、「語幹」1909は、キーフレーズ
の動詞またはサ変名詞の部分の単語について、キーワー
ドと同様の内容を記録する。今後、キーフレーズの動詞
またはサ変名詞の部分を述語部と呼ぶ。「パターン」1
910は、そのアンカーを抽出したアンカー抽出用パタ
ーンの名称であり、「名称」1802に対応する。
1901はアンカーの通し番号を表す。「#」1902
はアンカーが存在したノードの番号を表し、ノードテー
ブルにおける「#」1401に対応する。「目的タイ
プ」1903は、そのノードの説明の目的タイプを表
し、ノードテーブルにける「目的タイプ」1406に対
応する。「開始」1904、「終了」1905は、抽出
したキーワードおよびキーフレーズの名詞部の開始位
置、終了位置をテキストの先頭からの文字数によって表
した値である。「語幹」1906は、キーワードおよび
キーフレーズの名詞または複合名詞の部分の単語の語幹
あるいは表記を結合したものである。今後、キーフレー
ズの名詞または複合名詞の部分を名詞部と呼ぶ。辞書に
登録されていた単語は語幹を、語幹が「−」の単語につ
いてはその表記を結合対象とする。「開始」1907、
「終了」1908、「語幹」1909は、キーフレーズ
の動詞またはサ変名詞の部分の単語について、キーワー
ドと同様の内容を記録する。今後、キーフレーズの動詞
またはサ変名詞の部分を述語部と呼ぶ。「パターン」1
910は、そのアンカーを抽出したアンカー抽出用パタ
ーンの名称であり、「名称」1802に対応する。
【0036】アンカー抽出ステップ104は、図3に示
すように、キーワード抽出サブステップ301とキーフ
レーズ抽出サブステップ302から構成される。
すように、キーワード抽出サブステップ301とキーフ
レーズ抽出サブステップ302から構成される。
【0037】キーワード抽出サブステップ301におい
て、キーワード抽出用パターンによって、普通名詞およ
び複合名詞を抽出する。「W1」1804に示すよう
に、名称が「W」で始まるパターンをキーワード抽出用
パターンとする。それらのパターンを順次適用してキー
ワードを抽出する。
て、キーワード抽出用パターンによって、普通名詞およ
び複合名詞を抽出する。「W1」1804に示すよう
に、名称が「W」で始まるパターンをキーワード抽出用
パターンとする。それらのパターンを順次適用してキー
ワードを抽出する。
【0038】ここで、パターンの記述方法を簡単に説明
する。この記述方法は、文字列処理の分野では正規表現
として知られる、文字の並びのパターンの記述方法を拡
張し、文字の並びの他に品詞の記述を加えたものであ
る。品詞を「{」と「}」で囲み、文字列を「”」で囲
むことによって、品詞と文字列を区別する。文字列は従
来の正規表現のよって記述する。品詞と文字列はそれぞ
れ一つのサブパターンであり、サブパターンは、連接に
よって結合したり、AND「&」やOR「|」で結合す
ることができる。「(」と「)」は、サブパターンのま
とまりの範囲を表す。「*」はその左側に隣接するサブ
パターンの0回以上の繰り返しを表し、「+」はその左
側に隣接するサブパターンの1回以上の繰り返しを表
す。「@」によって、パターン内の抽出範囲を指定す
る。「@」に続く1文字によって抽出範囲の名称を指定
する。「@@」は、その範囲の終りを示す。
する。この記述方法は、文字列処理の分野では正規表現
として知られる、文字の並びのパターンの記述方法を拡
張し、文字の並びの他に品詞の記述を加えたものであ
る。品詞を「{」と「}」で囲み、文字列を「”」で囲
むことによって、品詞と文字列を区別する。文字列は従
来の正規表現のよって記述する。品詞と文字列はそれぞ
れ一つのサブパターンであり、サブパターンは、連接に
よって結合したり、AND「&」やOR「|」で結合す
ることができる。「(」と「)」は、サブパターンのま
とまりの範囲を表す。「*」はその左側に隣接するサブ
パターンの0回以上の繰り返しを表し、「+」はその左
側に隣接するサブパターンの1回以上の繰り返しを表
す。「@」によって、パターン内の抽出範囲を指定す
る。「@」に続く1文字によって抽出範囲の名称を指定
する。「@@」は、その範囲の終りを示す。
【0039】キーワード抽出用パターンの例としてパタ
ーン1805を説明する。パターン1805は、マニュ
アルの文書名を抽出するためのパターンである。パター
ン1805は、始めの単語の品詞は普通名詞または英字
であり、次に品詞は普通名詞または数字または英字であ
る単語が1回以上繰り返し、その次に空白文字が1文字
あって、その次に「文法/操作書」という文字列があれ
ば、その範囲全体を「N」という名称で抽出する、とい
う内容である。キーワード抽出サブステップ301にお
いては、抽出範囲の名称「N」をキーワードに対応する
部分として抽出する。
ーン1805を説明する。パターン1805は、マニュ
アルの文書名を抽出するためのパターンである。パター
ン1805は、始めの単語の品詞は普通名詞または英字
であり、次に品詞は普通名詞または数字または英字であ
る単語が1回以上繰り返し、その次に空白文字が1文字
あって、その次に「文法/操作書」という文字列があれ
ば、その範囲全体を「N」という名称で抽出する、とい
う内容である。キーワード抽出サブステップ301にお
いては、抽出範囲の名称「N」をキーワードに対応する
部分として抽出する。
【0040】パターン1805によって、アンカー19
11に示すように「DBS2△文法/操作書」を抽出
し、名詞部に記録する。キーワード抽出用パターンには
述語部の指定は無いので、アンカーテーブルにおいてキ
ーワードとして抽出したアンカーの述語部の各項目には
「−」を埋める。
11に示すように「DBS2△文法/操作書」を抽出
し、名詞部に記録する。キーワード抽出用パターンには
述語部の指定は無いので、アンカーテーブルにおいてキ
ーワードとして抽出したアンカーの述語部の各項目には
「−」を埋める。
【0041】「*」、「+」の繰り返し指定によって
「@」で指定される抽出範囲の対象箇所が複数箇所考え
られる場合は、パターンと単語分割結果との対応付け処
理においてバックトラックを行い、すべての対象を抽出
する。ただし、「*」、「+」が「@」で指定する抽出
範囲の内側にあって複数の重複した範囲が抽出対象とし
て考えられる場合は、それら重複する抽出対象について
は最大の範囲を抽出する。これは、例えば、複合名詞は
普通名詞の1回以上の繰り返しの範囲であるが、3語の
単語からなる複合名詞としては、その内の1語あるいは
2語の部分は抽出せず、複合名詞の全体である3語を抽
出することである。
「@」で指定される抽出範囲の対象箇所が複数箇所考え
られる場合は、パターンと単語分割結果との対応付け処
理においてバックトラックを行い、すべての対象を抽出
する。ただし、「*」、「+」が「@」で指定する抽出
範囲の内側にあって複数の重複した範囲が抽出対象とし
て考えられる場合は、それら重複する抽出対象について
は最大の範囲を抽出する。これは、例えば、複合名詞は
普通名詞の1回以上の繰り返しの範囲であるが、3語の
単語からなる複合名詞としては、その内の1語あるいは
2語の部分は抽出せず、複合名詞の全体である3語を抽
出することである。
【0042】キーフレーズ抽出サブステップ302にお
いて、キーフレーズ抽出用パターンによって、動詞また
はサ変名詞と、その動詞またはサ変名詞に意味的に接続
する格要素の内容を表す普通名詞および複合名詞とを抽
出する。「P1」1806に示すように、名称が「P」
で始まるパターンをキーフレーズ抽出用パターンとす
る。それらのパターンを順次適用してキーワードを抽出
する。パターンの記述中、抽出範囲の名称「N」が名詞
部に対応し、「P」が述語部に対応する。
いて、キーフレーズ抽出用パターンによって、動詞また
はサ変名詞と、その動詞またはサ変名詞に意味的に接続
する格要素の内容を表す普通名詞および複合名詞とを抽
出する。「P1」1806に示すように、名称が「P」
で始まるパターンをキーフレーズ抽出用パターンとす
る。それらのパターンを順次適用してキーワードを抽出
する。パターンの記述中、抽出範囲の名称「N」が名詞
部に対応し、「P」が述語部に対応する。
【0043】キーワード抽出用パターンによって抽出さ
れたキーワードが、キーフレーズ抽出用パターンの名詞
部に対応した場合、そのキーワードはアンカーテーブル
から削除する。
れたキーワードが、キーフレーズ抽出用パターンの名詞
部に対応した場合、そのキーワードはアンカーテーブル
から削除する。
【0044】アンカー抽出ステップ104における、上
記の処理の結果、図19に示すアンカーテーブルを作成
する。
記の処理の結果、図19に示すアンカーテーブルを作成
する。
【0045】重要箇所抽出ステップ105において、単
語分割結果と予め記述された重要箇所抽出用パターンと
の対応付けによって重要箇所を抽出し、重要箇所テーブ
ルを作成する。
語分割結果と予め記述された重要箇所抽出用パターンと
の対応付けによって重要箇所を抽出し、重要箇所テーブ
ルを作成する。
【0046】重要箇所抽出用パターンの例を図20に示
す。「#」2001は重要箇所抽出用パターンの通し番
号を表し、「名称」2002はパターンの名称を表す。
「内容」2003は、パターンの内容を表す。重要箇所
抽出用パターンは、アンカー抽出用パターンと同様、品
詞と文字の並びとして記述する。
す。「#」2001は重要箇所抽出用パターンの通し番
号を表し、「名称」2002はパターンの名称を表す。
「内容」2003は、パターンの内容を表す。重要箇所
抽出用パターンは、アンカー抽出用パターンと同様、品
詞と文字の並びとして記述する。
【0047】アンカー抽出用パターンの説明時に無かっ
た記号について説明する。パターンの始めの「^」は、
文頭を表す。「”」で示された文字列内の「[」
と「]」は文字クラス、つまり、「[」と「]」で囲ま
れた文字のいづれかの文字とマッチすることを表す。
「[」の次に「^」がある場合は、否定文字クラス、つ
まり、「^」から「]」ではさまれた文字以外の文字と
マッチすることを表す。「{.}」は、任意の品詞を表
す。
た記号について説明する。パターンの始めの「^」は、
文頭を表す。「”」で示された文字列内の「[」
と「]」は文字クラス、つまり、「[」と「]」で囲ま
れた文字のいづれかの文字とマッチすることを表す。
「[」の次に「^」がある場合は、否定文字クラス、つ
まり、「^」から「]」ではさまれた文字以外の文字と
マッチすることを表す。「{.}」は、任意の品詞を表
す。
【0048】重要箇所テーブルを図21に示す。「#」
2101は重要箇所の通し番号を表す。「開始」210
2、「終了」2103は、抽出した重要箇所の開始位
置、終了位置をテキストの先頭からの文字数によって表
した値である。「重要箇所」2104は、重要箇所とし
て抽出した部分の文字列である。
2101は重要箇所の通し番号を表す。「開始」210
2、「終了」2103は、抽出した重要箇所の開始位
置、終了位置をテキストの先頭からの文字数によって表
した値である。「重要箇所」2104は、重要箇所とし
て抽出した部分の文字列である。
【0049】重要箇所抽出ステップ105は、図4に示
すように、重要箇所仮抽出サブステップ401と除外箇
所抽出サブステップ402と抽出箇所統合サブステップ
403とから構成される。
すように、重要箇所仮抽出サブステップ401と除外箇
所抽出サブステップ402と抽出箇所統合サブステップ
403とから構成される。
【0050】重要箇所仮抽出サブステップ401におい
て、重要箇所仮抽出用パターンによって、文字列を抽出
する。「C1」2004に示すように、名称が「C」で
始まるパターンを重要箇所仮抽出用パターンとする。そ
れらのパターンを順次適用して文字列を仮重要箇所とし
て抽出する。
て、重要箇所仮抽出用パターンによって、文字列を抽出
する。「C1」2004に示すように、名称が「C」で
始まるパターンを重要箇所仮抽出用パターンとする。そ
れらのパターンを順次適用して文字列を仮重要箇所とし
て抽出する。
【0051】重要箇所仮抽出用パターンの例として、パ
ターン2005の内容について簡単に説明する。このパ
ターンは、文頭から「0」から「9」の数字または小数
点「.」が1文字以上繰り返し、その次に空白文字
「△」がある場合に、その次の単語から文末まで抽出範
囲名称「C」で取り出す。つまり、章、節、項のタイト
ルの行の、番号に続く章、節、項の名称を抽出する。
ターン2005の内容について簡単に説明する。このパ
ターンは、文頭から「0」から「9」の数字または小数
点「.」が1文字以上繰り返し、その次に空白文字
「△」がある場合に、その次の単語から文末まで抽出範
囲名称「C」で取り出す。つまり、章、節、項のタイト
ルの行の、番号に続く章、節、項の名称を抽出する。
【0052】仮重要箇所として抽出した文字列を仮重要
箇所および除外箇所テーブルに記録する。仮重要箇所お
よび除外箇所テーブルを図22に示す。「#」2201
は仮重要箇所および除外箇所の通し番号を表す。「開
始」2202、「終了」2203は、抽出した仮重要箇
所および除外箇所の開始位置、終了位置をテキストの先
頭からの文字数によって表した値である。「仮重要箇所
Cおよび除外箇所E」2204は、仮重要箇所および除
外箇所として抽出した部分の文字列である。「パター
ン」2205は、その仮重要箇所および除外箇所を抽出
した重要箇所抽出用パターンの名称であり、「名称」2
002に対応する。
箇所および除外箇所テーブルに記録する。仮重要箇所お
よび除外箇所テーブルを図22に示す。「#」2201
は仮重要箇所および除外箇所の通し番号を表す。「開
始」2202、「終了」2203は、抽出した仮重要箇
所および除外箇所の開始位置、終了位置をテキストの先
頭からの文字数によって表した値である。「仮重要箇所
Cおよび除外箇所E」2204は、仮重要箇所および除
外箇所として抽出した部分の文字列である。「パター
ン」2205は、その仮重要箇所および除外箇所を抽出
した重要箇所抽出用パターンの名称であり、「名称」2
002に対応する。
【0053】図22において、仮重要箇所2206から
仮重要箇所2207までが、重要箇所仮抽出サブステッ
プによって抽出した仮重要箇所を表す。
仮重要箇所2207までが、重要箇所仮抽出サブステッ
プによって抽出した仮重要箇所を表す。
【0054】除外箇所抽出サブステップ402におい
て、除外箇所抽出用パターンによって、文字列を抽出す
る。「E1」2006に示すように、名称が「E」で始
まるパターンを除外箇所抽出用パターンとする。それら
のパターンを順次適用して文字列を除外要箇所として抽
出し、仮重要箇所および除外箇所テーブルに記録する。
図22において、除外箇所2208が、除外箇所抽出サ
ブステップによって抽出した除外箇所を表す。
て、除外箇所抽出用パターンによって、文字列を抽出す
る。「E1」2006に示すように、名称が「E」で始
まるパターンを除外箇所抽出用パターンとする。それら
のパターンを順次適用して文字列を除外要箇所として抽
出し、仮重要箇所および除外箇所テーブルに記録する。
図22において、除外箇所2208が、除外箇所抽出サ
ブステップによって抽出した除外箇所を表す。
【0055】抽出箇所統合サブステップ403におい
て、除外箇所と「開始」2201、「終了」2202で
示される範囲が重複する仮重要箇所を削除する。更に除
外箇所を削除する。残った仮重要箇所を重要箇所テーブ
ルに記録する。重要箇所については既に説明した通りで
ある。この抽出箇所統合サブステップ403において、
仮重要箇所2207と除外箇所2208が重複するので
この仮重要箇所2207を削除し、また、除外箇所22
08を削除する。
て、除外箇所と「開始」2201、「終了」2202で
示される範囲が重複する仮重要箇所を削除する。更に除
外箇所を削除する。残った仮重要箇所を重要箇所テーブ
ルに記録する。重要箇所については既に説明した通りで
ある。この抽出箇所統合サブステップ403において、
仮重要箇所2207と除外箇所2208が重複するので
この仮重要箇所2207を削除し、また、除外箇所22
08を削除する。
【0056】アンカーマーキングステップ106におい
て、重要箇所テーブルに記録された重要箇所と範囲が重
複するアンカーに重要フラグを付け、重要箇所認識済み
アンカーテーブルを作成する。範囲の重複の有無は、重
要箇所テーブルの「開始」2102、「終了」210
3、アンカーテーブルの名詞部の「開始」1904、
「終了」1905、述語部の「開始」1907、「終
了」1908の値を調べることによって判定する。
て、重要箇所テーブルに記録された重要箇所と範囲が重
複するアンカーに重要フラグを付け、重要箇所認識済み
アンカーテーブルを作成する。範囲の重複の有無は、重
要箇所テーブルの「開始」2102、「終了」210
3、アンカーテーブルの名詞部の「開始」1904、
「終了」1905、述語部の「開始」1907、「終
了」1908の値を調べることによって判定する。
【0057】重要箇所認識済みアンカーテーブルを図2
3に示す。これは、アンカーテーブル図19の「パター
ン」1910の項目を削り、「重要フラグ」2310の
項目を追加したものである。重要フラグが付いているア
ンカーは「重要フラグ」2310の項目の値が1であ
り、フラグが無いアンカーはその値は0である。
3に示す。これは、アンカーテーブル図19の「パター
ン」1910の項目を削り、「重要フラグ」2310の
項目を追加したものである。重要フラグが付いているア
ンカーは「重要フラグ」2310の項目の値が1であ
り、フラグが無いアンカーはその値は0である。
【0058】リンク作成ステップ107において、アン
カーテーブルにおける名詞部の語幹または述語部の語幹
が一致するアンカーを結ぶリンクを作成し、リンクテー
ブルを作成する。その結果、図13に示すハイパーテキ
ストを作成する。
カーテーブルにおける名詞部の語幹または述語部の語幹
が一致するアンカーを結ぶリンクを作成し、リンクテー
ブルを作成する。その結果、図13に示すハイパーテキ
ストを作成する。
【0059】リンクテーブルを図24に示す。「#」2
401はリンクの通し番号を表す。リンクデータは、始
点アンカー情報、終点ノード情報、語幹情報からなる。
401はリンクの通し番号を表す。リンクデータは、始
点アンカー情報、終点ノード情報、語幹情報からなる。
【0060】始点アンカー情報の構成は、次のとおりで
ある。「始点アンカー」の下位項目である「#」240
2は、アンカーの通し番号であり、重要箇所認識済みア
ンカーテーブルの通し番号「#」2301に対応する。
「始点アンカー」の下位項目の「ノード」の下位項目で
ある「#」2403は、アンカーが存在するノードの通
し番号であり、重要箇所認識済みアンカーテーブルの
「ノード」の下位項目の通し番号「#」2302に対応
する。「ノード」の下位項目「開始」2404は、ノー
ドの開始位置をテキストの先頭からの文字数で表現した
値であり、ノードの通し番号「#」2403が表すノー
ドの、ノードテーブルにおける「開始」1404の値を
コピーしたものである。「相対位置」の下位項目である
「開始」2405、「終了」2406は、アンカーの表
示範囲をノードの先頭からの文字数で表現した値であ
り、重要箇所認識済みアンカーテーブルの「名詞部N」
の下位項目「開始」2304、「終了」2305、「述
語部P」の下位項目「開始」2307、「終了」230
8の値から「ノード」の下位項目の「開始」2404の
値を減じた値である。
ある。「始点アンカー」の下位項目である「#」240
2は、アンカーの通し番号であり、重要箇所認識済みア
ンカーテーブルの通し番号「#」2301に対応する。
「始点アンカー」の下位項目の「ノード」の下位項目で
ある「#」2403は、アンカーが存在するノードの通
し番号であり、重要箇所認識済みアンカーテーブルの
「ノード」の下位項目の通し番号「#」2302に対応
する。「ノード」の下位項目「開始」2404は、ノー
ドの開始位置をテキストの先頭からの文字数で表現した
値であり、ノードの通し番号「#」2403が表すノー
ドの、ノードテーブルにおける「開始」1404の値を
コピーしたものである。「相対位置」の下位項目である
「開始」2405、「終了」2406は、アンカーの表
示範囲をノードの先頭からの文字数で表現した値であ
り、重要箇所認識済みアンカーテーブルの「名詞部N」
の下位項目「開始」2304、「終了」2305、「述
語部P」の下位項目「開始」2307、「終了」230
8の値から「ノード」の下位項目の「開始」2404の
値を減じた値である。
【0061】終点ノード情報の構成は次のとおりであ
る。「終点ノード」の下位項目である「#」2407、
「開始」2408、「終了」2409は、リンクの終点
ノードの通し番号、開始位置、終了位置を表す。これら
はノードテーブルの「#」1401、「開始」140
4、「終了」1405に対応する。「開始」2408、
「終了」2409の値は、テキストの先頭からの文字数
によって表現する。
る。「終点ノード」の下位項目である「#」2407、
「開始」2408、「終了」2409は、リンクの終点
ノードの通し番号、開始位置、終了位置を表す。これら
はノードテーブルの「#」1401、「開始」140
4、「終了」1405に対応する。「開始」2408、
「終了」2409の値は、テキストの先頭からの文字数
によって表現する。
【0062】語幹情報の構成は次のとおりである。「名
詞部語幹N」2410は、重要箇所認識済みアンカーテ
ーブルの「名詞部」の下位項目の「語幹」2306に対
応し、「述語部語幹P」2411は、重要箇所認識済み
アンカーテーブルの「述語部」の下位項目の「語幹」2
309に対応する。
詞部語幹N」2410は、重要箇所認識済みアンカーテ
ーブルの「名詞部」の下位項目の「語幹」2306に対
応し、「述語部語幹P」2411は、重要箇所認識済み
アンカーテーブルの「述語部」の下位項目の「語幹」2
309に対応する。
【0063】リンク作成ステップ107は、図5に示す
ようにキーフレーズタイプリンク作成サブステップ50
1とキーワードタイプリンク作成サブステップ502と
からなる。
ようにキーフレーズタイプリンク作成サブステップ50
1とキーワードタイプリンク作成サブステップ502と
からなる。
【0064】キーフレーズタイプリンク作成サブステッ
プ501において、キーフレーズタイプのアンカー、す
なわち、重要箇所認識済みアンカーテーブルの「述語
部」の下位項目の「語幹」2309が「−」でないアン
カーについてリンクを作成する。キーフレーズタイプの
アンカーの各々を始点アンカーとして仮定し、名詞部、
述語部のそれぞれの語幹が一致するアンカーをサーチ
し、そのアンカーが存在するノードを終点とするリンク
を作成し、リンクテーブルに記録する。その詳細を図6
に示す。
プ501において、キーフレーズタイプのアンカー、す
なわち、重要箇所認識済みアンカーテーブルの「述語
部」の下位項目の「語幹」2309が「−」でないアン
カーについてリンクを作成する。キーフレーズタイプの
アンカーの各々を始点アンカーとして仮定し、名詞部、
述語部のそれぞれの語幹が一致するアンカーをサーチ
し、そのアンカーが存在するノードを終点とするリンク
を作成し、リンクテーブルに記録する。その詳細を図6
に示す。
【0065】始点アンカー仮定ステップ601におい
て、始点のアンカーとして重要箇所認識済みアンカーテ
ーブルの行の一つを、SAとする。次の重要フラグ判定
ステップ602において、SAが表すアンカーの重要フ
ラグを調べる。重要フラグが1である場合は、そのアン
カーを始点とするリンクは作成しない。
て、始点のアンカーとして重要箇所認識済みアンカーテ
ーブルの行の一つを、SAとする。次の重要フラグ判定
ステップ602において、SAが表すアンカーの重要フ
ラグを調べる。重要フラグが1である場合は、そのアン
カーを始点とするリンクは作成しない。
【0066】重要フラグが0である場合は、参照先アン
カーのサーチステップ603において、SAの参照先と
するアンカーを重要箇所認識済みアンカーテーブルから
サーチする。ここで、参照先アンカーの候補をTAとす
ると、次に示す条件(1)〜(4)に適合するTAを参
照先アンカーとする。
カーのサーチステップ603において、SAの参照先と
するアンカーを重要箇所認識済みアンカーテーブルから
サーチする。ここで、参照先アンカーの候補をTAとす
ると、次に示す条件(1)〜(4)に適合するTAを参
照先アンカーとする。
【0067】(1) SAとTAで名詞部語幹および述
語部語幹が一致する。
語部語幹が一致する。
【0068】(2) TAの重要フラグ=1である。
【0069】(3) SAがあるノードとTAがあるノ
ードのノード目的タイプの組合せが許可されている。
ードのノード目的タイプの組合せが許可されている。
【0070】(4) SAがあるノードとTAがあるノ
ードは異なり、かつ、直系の上下関係にはない。
ードは異なり、かつ、直系の上下関係にはない。
【0071】条件(1)において「名詞部語幹」とは、
重要箇所認識済みアンカーテーブルにおける「名詞部
N」の「語幹」2306を表し、「述語部語幹」は「述
語部P」の「語幹」2309を表す。同様に条件(2)
における「重要フラグ」とは「重要フラグ」2310を
表す。条件(3)における「ノード目的タイプ」とは
「目的タイプ」2303を表す。このノード目的タイプ
の組合せの一例を、図25に示す。「1」2501は、
リンク作成を許可することを表し、「0」2502は、
リンク作成を許可しないことを表す。ノード目的タイプ
の組合せを限定することで、不要なリンクの作成を抑制
する。条件(4)において、ノードが直系の上下関係の
有無を調べることは、図15に示したノードの上下関係
を調べることであり、「#」2302の値をキーにし
て、ノードテーブル図14の「下位ノード#リスト」1
407を参照することによって判定する。
重要箇所認識済みアンカーテーブルにおける「名詞部
N」の「語幹」2306を表し、「述語部語幹」は「述
語部P」の「語幹」2309を表す。同様に条件(2)
における「重要フラグ」とは「重要フラグ」2310を
表す。条件(3)における「ノード目的タイプ」とは
「目的タイプ」2303を表す。このノード目的タイプ
の組合せの一例を、図25に示す。「1」2501は、
リンク作成を許可することを表し、「0」2502は、
リンク作成を許可しないことを表す。ノード目的タイプ
の組合せを限定することで、不要なリンクの作成を抑制
する。条件(4)において、ノードが直系の上下関係の
有無を調べることは、図15に示したノードの上下関係
を調べることであり、「#」2302の値をキーにし
て、ノードテーブル図14の「下位ノード#リスト」1
407を参照することによって判定する。
【0072】サーチが失敗した場合には、サーチ結果判
定ステップ604を経て現在のSAを始点とするリンク
作成処理を終了する。
定ステップ604を経て現在のSAを始点とするリンク
作成処理を終了する。
【0073】サーチが成功した場合は、始点アンカーの
表示範囲設定ステップ605において、始点アンカーの
表示範囲SADをSAの名詞部から述語部までの連続す
る範囲とする。すなわち、重要箇所認識済みアンカーテ
ーブルの名詞部Nの「開始」2304、「終了」230
5、述語部Pの「開始」2307、「終了」2308の
内の最小の値から最大の値の間の範囲をSADとする。
表示範囲設定ステップ605において、始点アンカーの
表示範囲SADをSAの名詞部から述語部までの連続す
る範囲とする。すなわち、重要箇所認識済みアンカーテ
ーブルの名詞部Nの「開始」2304、「終了」230
5、述語部Pの「開始」2307、「終了」2308の
内の最小の値から最大の値の間の範囲をSADとする。
【0074】終点ノード設定ステップ606において、
終点ノードTNを参照先アンカーTAが存在するノード
とする。
終点ノードTNを参照先アンカーTAが存在するノード
とする。
【0075】そして、キーフレーズタイプのリンク登録
ステップ607において、始点アンカーの表示範囲SA
Dを調整してから、SADを始点としTNを終点とする
リンクをリンクテーブルに登録する。キーフレーズタイ
プのリンク登録ステップ607の詳細を図7に示す。
ステップ607において、始点アンカーの表示範囲SA
Dを調整してから、SADを始点としTNを終点とする
リンクをリンクテーブルに登録する。キーフレーズタイ
プのリンク登録ステップ607の詳細を図7に示す。
【0076】リンクテーブルサーチステップ701にお
いて、始点の表示範囲がSADと重複するリンクをリン
クテーブルからサーチする。
いて、始点の表示範囲がSADと重複するリンクをリン
クテーブルからサーチする。
【0077】サーチが失敗した場合は、始点アンカーの
表示範囲の調整は不要であり、サーチ結果判定ステップ
702を経てリンク登録ステップ703において、SA
DとTNのリンクを表す情報として、始点アンカー情
報、終点ノード情報、および語幹をリンクテーブルに登
録する。
表示範囲の調整は不要であり、サーチ結果判定ステップ
702を経てリンク登録ステップ703において、SA
DとTNのリンクを表す情報として、始点アンカー情
報、終点ノード情報、および語幹をリンクテーブルに登
録する。
【0078】リンクテーブルサーチステップ701にお
けるサーチが成功した場合は、始点アンカーの表示範囲
の調整を行う。
けるサーチが成功した場合は、始点アンカーの表示範囲
の調整を行う。
【0079】サーチ結果のアンカー設定ステップ704
において、SA1をリンクテーブルサーチステップ70
1におけるサーチ結果のリンクの始点アンカーとし、サ
ーチ結果のノード設定ステップ705において、TN1
をサーチ結果のリンクの終点ノードとし、ノード判定ス
テップ706において、TNとTN1とを比較する。
において、SA1をリンクテーブルサーチステップ70
1におけるサーチ結果のリンクの始点アンカーとし、サ
ーチ結果のノード設定ステップ705において、TN1
をサーチ結果のリンクの終点ノードとし、ノード判定ス
テップ706において、TNとTN1とを比較する。
【0080】TNとTN1とが一致しない場合は、始点
アンカーの名詞部判定ステップ707においてSAの名
詞部とSA1の名詞部を比較する。名詞部とはリンクテ
ーブル2おける「名詞部語幹N」2410である。
アンカーの名詞部判定ステップ707においてSAの名
詞部とSA1の名詞部を比較する。名詞部とはリンクテ
ーブル2おける「名詞部語幹N」2410である。
【0081】名詞部が異なる場合は、アンカー表示範囲
設定ステップ708において、SAの表示範囲SADを
SAの名詞部の範囲に設定しなおす。続くアンカー表示
範囲変更ステップ709において、SA1のアンカーの
表示範囲を名詞部の範囲に変更する。ここの変更にあた
っては、リンクテーブルの始点アンカーの番号2402
をキーにして重要箇所認識済みアンカーテーブルを参照
し、名詞部の範囲を得る。
設定ステップ708において、SAの表示範囲SADを
SAの名詞部の範囲に設定しなおす。続くアンカー表示
範囲変更ステップ709において、SA1のアンカーの
表示範囲を名詞部の範囲に変更する。ここの変更にあた
っては、リンクテーブルの始点アンカーの番号2402
をキーにして重要箇所認識済みアンカーテーブルを参照
し、名詞部の範囲を得る。
【0082】この変更は、例えば、「データ、テーブル
を変更する」というテキストから(データ、変更)、
(テーブル、変更)という2個のキーフレーズを抽出
し、それぞれのキーフレーズが始点アンカーとなる場合
に、動詞部が共通するためにキーフレーズの範囲が重複
するので、アンカーの表示範囲としては名詞部、つま
り、「データ」、「テーブル」の部分とするものであ
る。
を変更する」というテキストから(データ、変更)、
(テーブル、変更)という2個のキーフレーズを抽出
し、それぞれのキーフレーズが始点アンカーとなる場合
に、動詞部が共通するためにキーフレーズの範囲が重複
するので、アンカーの表示範囲としては名詞部、つま
り、「データ」、「テーブル」の部分とするものであ
る。
【0083】そして、リンク登録ステップ703におい
て、SADとTNのリンクを表す情報として、始点アン
カー情報、終点ノード情報、および語幹をリンクテーブ
ルに登録する。
て、SADとTNのリンクを表す情報として、始点アン
カー情報、終点ノード情報、および語幹をリンクテーブ
ルに登録する。
【0084】始点アンカーの名詞部判定ステップ707
においてSAの名詞部とSA1の名詞部が等しい場合
は、アンカー表示範囲設定ステップ710において、S
Aの表示範囲SADをSAの動詞部の範囲に設定しなお
す。続くアンカー表示範囲変更ステップ711におい
て、SA1のアンカーの表示範囲を動詞部の範囲に変更
する。そして、リンク登録ステップ703において、S
ADとTNのリンクを表す情報として、始点アンカー情
報、終点ノード情報、および語幹をリンクテーブルに登
録する。
においてSAの名詞部とSA1の名詞部が等しい場合
は、アンカー表示範囲設定ステップ710において、S
Aの表示範囲SADをSAの動詞部の範囲に設定しなお
す。続くアンカー表示範囲変更ステップ711におい
て、SA1のアンカーの表示範囲を動詞部の範囲に変更
する。そして、リンク登録ステップ703において、S
ADとTNのリンクを表す情報として、始点アンカー情
報、終点ノード情報、および語幹をリンクテーブルに登
録する。
【0085】ここのステップ710、ステップ711に
おける表示範囲の変更処理は、ステップ708、ステッ
プ709においてアンカーの表示範囲を「名詞部」とし
たことに対して「動詞部」とするものである。これは、
例えば、「データの登録、削除」というテキストから
(データ、登録)、(データ、削除)という2個のキー
フレーズを抽出しそれぞれのキーフレーズが始点アンカ
ーとなる場合に、名詞部が共通するためにキーフレーズ
の範囲が重複するので、アンカーの表示範囲としては述
語部、つまり、「登録」、「削除」の部分とするもので
ある。
おける表示範囲の変更処理は、ステップ708、ステッ
プ709においてアンカーの表示範囲を「名詞部」とし
たことに対して「動詞部」とするものである。これは、
例えば、「データの登録、削除」というテキストから
(データ、登録)、(データ、削除)という2個のキー
フレーズを抽出しそれぞれのキーフレーズが始点アンカ
ーとなる場合に、名詞部が共通するためにキーフレーズ
の範囲が重複するので、アンカーの表示範囲としては述
語部、つまり、「登録」、「削除」の部分とするもので
ある。
【0086】ノード判定ステップ706において、TN
とTN1とが一致する場合は、リンクを新たに登録せ
ず、サーチ結果のリンクの始点アンカーSA1の表示範
囲をSA1の表示範囲とSADの表示範囲の和とする。
とTN1とが一致する場合は、リンクを新たに登録せ
ず、サーチ結果のリンクの始点アンカーSA1の表示範
囲をSA1の表示範囲とSADの表示範囲の和とする。
【0087】以上、図7の処理を重要箇所認識済みアン
カーテーブルの各キーフレーズタイプのアンカーを始点
アンカーSAに仮定しながら繰り返す。この結果、リン
ク2412、リンク2413、リンク2414を作成す
る。ただし、図24において、リンク2412、リンク
2413の始点アンカーの開始位置2405、終了位置
2406の値は、上記の説明した処理の結果の値ではな
く、この後のキーワードタイプリンク作成サブステップ
502によって変更された結果を示している。以上でキ
ーフレーズタイプリンク作成サブステップ501の説明
を終わる。
カーテーブルの各キーフレーズタイプのアンカーを始点
アンカーSAに仮定しながら繰り返す。この結果、リン
ク2412、リンク2413、リンク2414を作成す
る。ただし、図24において、リンク2412、リンク
2413の始点アンカーの開始位置2405、終了位置
2406の値は、上記の説明した処理の結果の値ではな
く、この後のキーワードタイプリンク作成サブステップ
502によって変更された結果を示している。以上でキ
ーフレーズタイプリンク作成サブステップ501の説明
を終わる。
【0088】次に、キーワードタイプリンク作成サブス
テップ502において、重要箇所認識済みアンカーテー
ブルの各アンカーについてリンクを作成する。「述語
部」の下位項目の「語幹」2309が「−」であるか否
かは問わず、アンカーの各々を始点アンカーとして仮定
し、名詞部の語幹が一致するアンカーをサーチし、その
アンカーが存在するノードを終点とするリンクを作成す
る。その詳細を図8に示す。
テップ502において、重要箇所認識済みアンカーテー
ブルの各アンカーについてリンクを作成する。「述語
部」の下位項目の「語幹」2309が「−」であるか否
かは問わず、アンカーの各々を始点アンカーとして仮定
し、名詞部の語幹が一致するアンカーをサーチし、その
アンカーが存在するノードを終点とするリンクを作成す
る。その詳細を図8に示す。
【0089】図8のフローは、図6のフローとほぼ同様
である。図6と図8の相違は、図6はキーフレーズとキ
ーワードの相違による部分だけであり、処理の考え方は
同じである。つまり、図8のフローにおいて、終点ノー
ド設定ステップ806までの処理は、次のとおりであ
る。始点アンカーSAと名詞部が一致して、かつ、その
他の条件を満たす参照先のアンカーをサーチして、その
参照先アンカーのあるノードをTNとする。
である。図6と図8の相違は、図6はキーフレーズとキ
ーワードの相違による部分だけであり、処理の考え方は
同じである。つまり、図8のフローにおいて、終点ノー
ド設定ステップ806までの処理は、次のとおりであ
る。始点アンカーSAと名詞部が一致して、かつ、その
他の条件を満たす参照先のアンカーをサーチして、その
参照先アンカーのあるノードをTNとする。
【0090】図6と図8の相違点は、次のとおりであ
る。図6の参照先アンカーのサーチステップ603では
条件(1)で名詞部と述語部の一致を調べることに対し
て、図8の参照先アンカーのサーチステップ803にお
いては名詞部の一致を調べる。また、図6の始点アンカ
ーの表示範囲設定ステップ605において始点アンカー
の表示範囲SADをSAの名詞部から述語部までの連続
する範囲とすることに対して、図8の始点アンカーの表
示範囲設定ステップ805において始点アンカーの表示
範囲SADをSAの名詞部の範囲とする。また、図6で
はリンクの登録をキーフレーズタイプのリンク登録ステ
ップ607で行うことに対して、図8では、キーワード
タイプのリンク登録ステップ807で行う。
る。図6の参照先アンカーのサーチステップ603では
条件(1)で名詞部と述語部の一致を調べることに対し
て、図8の参照先アンカーのサーチステップ803にお
いては名詞部の一致を調べる。また、図6の始点アンカ
ーの表示範囲設定ステップ605において始点アンカー
の表示範囲SADをSAの名詞部から述語部までの連続
する範囲とすることに対して、図8の始点アンカーの表
示範囲設定ステップ805において始点アンカーの表示
範囲SADをSAの名詞部の範囲とする。また、図6で
はリンクの登録をキーフレーズタイプのリンク登録ステ
ップ607で行うことに対して、図8では、キーワード
タイプのリンク登録ステップ807で行う。
【0091】キーワードタイプのリンク登録ステップ8
07の詳細を図9に示す。
07の詳細を図9に示す。
【0092】リンクテーブルサーチステップ901、サ
ーチ結果ステップ902、リンク登録ステップ903の
処理は、図7のキーフレーズタイプのリンク登録処理に
おけるリンクテーブルサーチステップ701、サーチ結
果ステップ702、リンク登録ステップ703と同様で
ある。つまり、始点アンカーの表示範囲が重複するリン
クが他に無い場合は、そのまま、SADとTNが表すリ
ンクをリンクテーブルに登録する。ただし、SAがキー
フレーズタイプのアンカーであっても、リンクテーブル
の述語部は、値が無いことを表す「−」とする。
ーチ結果ステップ902、リンク登録ステップ903の
処理は、図7のキーフレーズタイプのリンク登録処理に
おけるリンクテーブルサーチステップ701、サーチ結
果ステップ702、リンク登録ステップ703と同様で
ある。つまり、始点アンカーの表示範囲が重複するリン
クが他に無い場合は、そのまま、SADとTNが表すリ
ンクをリンクテーブルに登録する。ただし、SAがキー
フレーズタイプのアンカーであっても、リンクテーブル
の述語部は、値が無いことを表す「−」とする。
【0093】サーチが成功した場合は、サーチ結果のア
ンカー設定ステップ904を経て、サーチ結果のノード
設定ステップ905に進む。ノード判定ステップ90
6、ノード上下関係判定ステップ907、アンカー表示
範囲変更ステップ908、リンク登録ステップ903と
進む流れは、キーワードタイプリンクを作成すると共
に、SAと始点アンカーの表示範囲が重複するリンクの
表示範囲を変更する処理である。SAと始点アンカーの
表示範囲が重複するリンクとはキーフレーズタイプのリ
ンクであり、そのキーフレーズタイプのリンクの始点ア
ンカーの表示範囲を述語部の範囲に変更する。例えば、
「データを変更する」というテキストから(データ、変
更)というキーフレーズを抽出するが、「データを変更
する」を始点アンカーの表示範囲とするキーフレーズタ
イプリンクと「データ」を始点アンカーの表示範囲とす
るキーワードタイプのリンクを作成するとき、キーフレ
ーズタイプリンクの始点アンカーの表示範囲を述語部
「変更する」の範囲に変更する。
ンカー設定ステップ904を経て、サーチ結果のノード
設定ステップ905に進む。ノード判定ステップ90
6、ノード上下関係判定ステップ907、アンカー表示
範囲変更ステップ908、リンク登録ステップ903と
進む流れは、キーワードタイプリンクを作成すると共
に、SAと始点アンカーの表示範囲が重複するリンクの
表示範囲を変更する処理である。SAと始点アンカーの
表示範囲が重複するリンクとはキーフレーズタイプのリ
ンクであり、そのキーフレーズタイプのリンクの始点ア
ンカーの表示範囲を述語部の範囲に変更する。例えば、
「データを変更する」というテキストから(データ、変
更)というキーフレーズを抽出するが、「データを変更
する」を始点アンカーの表示範囲とするキーフレーズタ
イプリンクと「データ」を始点アンカーの表示範囲とす
るキーワードタイプのリンクを作成するとき、キーフレ
ーズタイプリンクの始点アンカーの表示範囲を述語部
「変更する」の範囲に変更する。
【0094】この処理によって、リンク2415、リン
ク2416を作成し、リンク2412、リンク2413
の始点アンカーの表示範囲を変更する。図24には、変
更した結果の値を示す。
ク2416を作成し、リンク2412、リンク2413
の始点アンカーの表示範囲を変更する。図24には、変
更した結果の値を示す。
【0095】ノード上下関係判定ステップ907で上下
関係が無いとした場合は、SADとTNは内容的な関係
が無いものとして、リンクを作成しない。
関係が無いとした場合は、SADとTNは内容的な関係
が無いものとして、リンクを作成しない。
【0096】ノード判定ステップ906でTNとサーチ
結果のノードとが一致する場合は、リンクを新たに登録
せず、サーチ結果のリンクの始点アンカーSA1の表示
範囲をSA1の表示範囲とSADの表示範囲の和とす
る。
結果のノードとが一致する場合は、リンクを新たに登録
せず、サーチ結果のリンクの始点アンカーSA1の表示
範囲をSA1の表示範囲とSADの表示範囲の和とす
る。
【0097】以上で、リンク作成ステップ107の説明
を終わる。
を終わる。
【0098】上記の処理によって図24に示すリンクを
作成し、したがって図13に示すハイパーテキストを作
成する。図24のリンク2415は図13のリンク13
03に対応し、リンク2412はリンク1304に対応
し、リンク2414はリンク1305に対応し、リンク
2416はリンク1306に対応し、リンク2413は
リンク1307に対応する。
作成し、したがって図13に示すハイパーテキストを作
成する。図24のリンク2415は図13のリンク13
03に対応し、リンク2412はリンク1304に対応
し、リンク2414はリンク1305に対応し、リンク
2416はリンク1306に対応し、リンク2413は
リンク1307に対応する。
【0099】次に、ハイパーテキスト表示ステップ10
8において、ハイパーテキストのノードの一つを表示す
る。その詳細を図10に示す。
8において、ハイパーテキストのノードの一つを表示す
る。その詳細を図10に示す。
【0100】レイアウトステップ1001においてハイ
パーテキストの表示対象のノードのテキストをレイアウ
トする。このとき、文書に含まれる文書構成要素情報や
レイアウト情報を削除すると同時に、レイアウト前後の
文字の対応表を作成する。対応表を図26に示す。「レ
イアウト前」2601、「レイアウト後」2602は、
レイアウト前の文字の位置、レイアウト後の文字の位置
をそれぞれノードの先頭からの文字数で表した値であ
る。
パーテキストの表示対象のノードのテキストをレイアウ
トする。このとき、文書に含まれる文書構成要素情報や
レイアウト情報を削除すると同時に、レイアウト前後の
文字の対応表を作成する。対応表を図26に示す。「レ
イアウト前」2601、「レイアウト後」2602は、
レイアウト前の文字の位置、レイアウト後の文字の位置
をそれぞれノードの先頭からの文字数で表した値であ
る。
【0101】アンカー表示位置再計算ステップ1002
において、図26に示す対応表を参照してアンカーの表
示位置を再計算する。このとき、リンクテーブルにおけ
る始点アンカーの表示範囲のデータは、ノードの先頭か
らの文字数によって表しているので、リンクテーブルに
おける表示範囲の値、つまり「開始」2405および
「終了」2406の値とをそれぞれ対応表の「レイアウ
ト前」2601の値と対応付け、それと対応した「レイ
アウト後」2602の値を取り出すことでアンカー表示
位置の再計算を行うことができる。
において、図26に示す対応表を参照してアンカーの表
示位置を再計算する。このとき、リンクテーブルにおけ
る始点アンカーの表示範囲のデータは、ノードの先頭か
らの文字数によって表しているので、リンクテーブルに
おける表示範囲の値、つまり「開始」2405および
「終了」2406の値とをそれぞれ対応表の「レイアウ
ト前」2601の値と対応付け、それと対応した「レイ
アウト後」2602の値を取り出すことでアンカー表示
位置の再計算を行うことができる。
【0102】次に、ノードテキスト表示ステップ100
3においてレイアウト結果を表示しアンカーの範囲を反
転などで強調して表示する。
3においてレイアウト結果を表示しアンカーの範囲を反
転などで強調して表示する。
【0103】以上で本実施例の説明を終わる。
【0104】上記の説明では、図7および図9のリンク
の登録の際に、始点アンカーの表示範囲が重複する場合
はその重複を解消するとした。ここで、その変形例とし
て、リンクの登録の際の始点アンカーの表示範囲の重複
を解消せずにそのまま登録するものとし、ハイパーテキ
スト表示ステップにおいて対処する方法を説明する。
の登録の際に、始点アンカーの表示範囲が重複する場合
はその重複を解消するとした。ここで、その変形例とし
て、リンクの登録の際の始点アンカーの表示範囲の重複
を解消せずにそのまま登録するものとし、ハイパーテキ
スト表示ステップにおいて対処する方法を説明する。
【0105】ノードテキスト表示ステップ1003にお
いて、アンカーの範囲を反転などで強調して表示する際
に、範囲が重複するアンカーについてはその内の1個だ
けを表示する。そして、表示後に、マウスなどを介した
指示にしたがってアンカーの表所切り替える。
いて、アンカーの範囲を反転などで強調して表示する際
に、範囲が重複するアンカーについてはその内の1個だ
けを表示する。そして、表示後に、マウスなどを介した
指示にしたがってアンカーの表所切り替える。
【0106】図11は、アンカーの表示部分をマウスで
選択してマウスボタンが押された場合に、アンカーの表
所切り替える処理を示す。図11において、アンカー表
示箇所のマウス入力ステップ1101、マウス入力判定
ステップ1102、アンカー表示取消ステップ110
3、リンクテーブルサーチステップ1104、サーチ結
果判定ステップ1105、重複アンカー表示取消ステッ
プ1106、アンカー表示ステップ1107と進む流れ
は、マウス入力の箇所を始点アンカーの範囲として含む
リンクについて、アンカーの表示を切り替える処理であ
る。この処理によって、例えば、図27に示す表示にお
けるアンカー2701の表示と、図28に示すアンカー
2703をマウス入力にしたがって切り替える。矢印2
702はマウスポインタを表す。
選択してマウスボタンが押された場合に、アンカーの表
所切り替える処理を示す。図11において、アンカー表
示箇所のマウス入力ステップ1101、マウス入力判定
ステップ1102、アンカー表示取消ステップ110
3、リンクテーブルサーチステップ1104、サーチ結
果判定ステップ1105、重複アンカー表示取消ステッ
プ1106、アンカー表示ステップ1107と進む流れ
は、マウス入力の箇所を始点アンカーの範囲として含む
リンクについて、アンカーの表示を切り替える処理であ
る。この処理によって、例えば、図27に示す表示にお
けるアンカー2701の表示と、図28に示すアンカー
2703をマウス入力にしたがって切り替える。矢印2
702はマウスポインタを表す。
【0107】アンカー再表示ステップ1108は、マウ
ス入力の箇所を始点アンカーの範囲として含むリンクが
他に無かった場合の処理である。マウス入力に応じた処
理ステップ1109は、アンカーの表示の切り替えでは
なく、例えばリンクのフォローなどの処理を行う処理で
ある。
ス入力の箇所を始点アンカーの範囲として含むリンクが
他に無かった場合の処理である。マウス入力に応じた処
理ステップ1109は、アンカーの表示の切り替えでは
なく、例えばリンクのフォローなどの処理を行う処理で
ある。
【0108】以上で変形例の説明を終わる。
【0109】
【発明の効果】語句の意味的な内容として語幹の一致に
基づいてリンクを作成することにより、ノードの記述内
容の一部が他のノードと関連を持つ場合にリンクを作成
することができる。一致を調べる語句として、動詞又は
サ変名詞と、その動詞またはサ変名詞に意味的に接続す
る格要素の内容を表す普通名詞又は複合名詞との対をキ
ーフレーズとして使用することで、無関係の箇所に誤っ
てリンクを作成することを減らすことができる。リンク
の始点が存在するノードと終点のノードの文書構成要素
の説明の目的タイプの組合せを限定することによって、
不適切なリンクを減らすことができる。
基づいてリンクを作成することにより、ノードの記述内
容の一部が他のノードと関連を持つ場合にリンクを作成
することができる。一致を調べる語句として、動詞又は
サ変名詞と、その動詞またはサ変名詞に意味的に接続す
る格要素の内容を表す普通名詞又は複合名詞との対をキ
ーフレーズとして使用することで、無関係の箇所に誤っ
てリンクを作成することを減らすことができる。リンク
の始点が存在するノードと終点のノードの文書構成要素
の説明の目的タイプの組合せを限定することによって、
不適切なリンクを減らすことができる。
【0110】リンクの始点のアンカーの表示範囲を、ア
ンカーを構成する語句を包含する連続した最小の範囲と
することや、アンカーの範囲の重複を解消することや、
あるいは重複するアンカーを切り換えて表示することに
より、リンクの終点の内容を利用者が予想できるユーザ
インターフェースを提供することができる。
ンカーを構成する語句を包含する連続した最小の範囲と
することや、アンカーの範囲の重複を解消することや、
あるいは重複するアンカーを切り換えて表示することに
より、リンクの終点の内容を利用者が予想できるユーザ
インターフェースを提供することができる。
【0111】また、ノード内で重要な内容を持つ重要箇
所を各文の表現に基づいて抽出した結果に基づいてリン
クの終点のノードを決定することによって、終点のノー
ドとして始点のアンカーの内容を主たる説明内容とする
ノードを選択することができる。
所を各文の表現に基づいて抽出した結果に基づいてリン
クの終点のノードを決定することによって、終点のノー
ドとして始点のアンカーの内容を主たる説明内容とする
ノードを選択することができる。
【0112】ハイパーテキストの表示の際に、レイアウ
ト前後の文字の対応に基づいてアンカーの表示位置を再
計算することにより、異なるレイアウト規則を適用する
場合でも、レイアウト前のリンクデータを共通に使用す
ることができる。
ト前後の文字の対応に基づいてアンカーの表示位置を再
計算することにより、異なるレイアウト規則を適用する
場合でも、レイアウト前のリンクデータを共通に使用す
ることができる。
【図1】本発明のテキストのハイパーテキスト化方法の
一実施例を表すフロー図である。
一実施例を表すフロー図である。
【図2】本発明のテキストのハイパーテキスト化方法の
一実施例を表すデータフロー図である。
一実施例を表すデータフロー図である。
【図3】テキストのハイパーテキスト化方法におけるア
ンカー抽出サブステップの内容を表すフロー図である。
ンカー抽出サブステップの内容を表すフロー図である。
【図4】テキストのハイパーテキスト化方法における重
要箇所抽出サブステップの内容を表すフロー図である。
要箇所抽出サブステップの内容を表すフロー図である。
【図5】テキストのハイパーテキスト化方法におけるリ
ンク作成サブステップの内容を表すフロー図である。
ンク作成サブステップの内容を表すフロー図である。
【図6】リンク作成サブステップにおけるキーフレーズ
タイプリンク作成ステップの内容を表すフロー図であ
る。
タイプリンク作成ステップの内容を表すフロー図であ
る。
【図7】キーフレーズタイプリンク作成ステップにおけ
るキーフレーズタイプのリンク登録ステップの内容を表
すフロー図である。
るキーフレーズタイプのリンク登録ステップの内容を表
すフロー図である。
【図8】リンク作成サブステップにおけるキーワードタ
イプリンク作成ステップの内容を表すフロー図である。
イプリンク作成ステップの内容を表すフロー図である。
【図9】キーワードタイプリンク作成ステップにおける
キーワードタイプのリンク登録ステップの内容を表すフ
ロー図である。
キーワードタイプのリンク登録ステップの内容を表すフ
ロー図である。
【図10】テキストのハイパーテキスト化方法における
ハイパーテキスト表示サブステップの内容を表すフロー
図である。
ハイパーテキスト表示サブステップの内容を表すフロー
図である。
【図11】ハイパーテキスト表示サブステップにおける
アンカー表示切替処理を表すフロー図である。
アンカー表示切替処理を表すフロー図である。
【図12】本発明のテキストのハイパーテキスト化方法
に対して入力するテキストの一例を表す図である。
に対して入力するテキストの一例を表す図である。
【図13】本発明のテキストのハイパーテキスト化方法
によって作成されたハイパーテキストの一例を表す図で
ある。
によって作成されたハイパーテキストの一例を表す図で
ある。
【図14】テキストからノードを作成した結果を記録す
るノードテーブルの一例を表す図である。
るノードテーブルの一例を表す図である。
【図15】ノードテーブルにおけるノードの上下関係を
図式的に表した図である。
図式的に表した図である。
【図16】テキスト内の文を切り出した結果を記録する
文テーブルの一例を表す図である。
文テーブルの一例を表す図である。
【図17】テキスト内の文を単語に分割した結果を記録
する単語テーブルの一例を表す図である。
する単語テーブルの一例を表す図である。
【図18】アンカーを抽出するためのパターンの一例を
表す図である。
表す図である。
【図19】抽出したアンカーを記録するアンカーテーブ
ルの一例を表す図である。
ルの一例を表す図である。
【図20】重要箇所を抽出するためのパターンの一例を
表す図である。
表す図である。
【図21】抽出した重要箇所を記録する重要箇所テーブ
ルの一例を表す図である。
ルの一例を表す図である。
【図22】重要箇所を抽出する仮定で作成する仮重要箇
所および除外箇所テーブルの一例を表す図である。
所および除外箇所テーブルの一例を表す図である。
【図23】アンカーテーブルの各アンカーに対して重要
箇所テーブルの内容に基づいて重要箇所フラグを付けた
結果の重要箇所認識済みアンカーテーブルの一例を表す
図である。
箇所テーブルの内容に基づいて重要箇所フラグを付けた
結果の重要箇所認識済みアンカーテーブルの一例を表す
図である。
【図24】作成したリンクを記録するリンクテーブルの
一例を表す図である。
一例を表す図である。
【図25】リンク作成時にリンクの始点と終点のノード
の説明の目的タイプの組合せを指定するノード目的タイ
プマトリックスを表す図である。
の説明の目的タイプの組合せを指定するノード目的タイ
プマトリックスを表す図である。
【図26】ハイパーテキスト表示ステップにおけるレイ
アウトサブステップにおいて作成する、レイアウト前後
の文字の位置の対応表の一例を表す図である。
アウトサブステップにおいて作成する、レイアウト前後
の文字の位置の対応表の一例を表す図である。
【図27】アンカーの表示状態の一例を表す図である。
101…ノードテーブル作成ステップ、102…文分割
ステップ、103…単語分割ステップ、104…アンカ
ー抽出ステップ、105…重要箇所抽出ステップ、10
6…アンカーマーキングステップ、107…リンク作成
ステップ、108…ハイパーテキスト表示ステップ。
ステップ、103…単語分割ステップ、104…アンカ
ー抽出ステップ、105…重要箇所抽出ステップ、10
6…アンカーマーキングステップ、107…リンク作成
ステップ、108…ハイパーテキスト表示ステップ。
Claims (8)
- 【請求項1】章、節、項などの文書構成要素の境界を示
すデータを挿入されたテキストを入力として、そのデー
タに基づいてテキストの意味的なまとまりであるノード
を作成し、各文から語句を抽出し、ノード内で重要な内
容を持つ重要箇所を抽出し、重要箇所と重複する語句に
重要箇所フラグを付け、重要箇所フラグが無い語句を始
点のアンカーとして、その語句の意味内容と全体あるい
は一部が一致して重要箇所フラグが付いた語句が存在す
るノードを終点として、両者の関連を示すリンクを作成
することによってテキストをハイパーテキストに変換す
るテキストのハイパーテキスト化方法において、各文か
ら抽出する語句として、ノード内の各文から普通名詞お
よび複合名詞からなるキーワードと、意味的な接続関係
にある語句からなるキーフレーズとを抽出することと、
ノード内で重要な内容を持つ重要箇所を各文の表現に基
づいて抽出することと、語句の意味内容の全体あるいは
一部の一致を調べる方法として語句を単語に分割して各
単語の表記または語幹または意味概念を比較することと
を特徴とするテキストのハイパーテキスト化方法。 - 【請求項2】キーフレーズの抽出方法として、文を単語
に分割して品詞を認識して、単語の品詞および文字の並
びが予め定めたパターンと一致する部分をキーフレーズ
として抽出することを特徴とする請求項1に記載のテキ
ストのハイパーテキスト化方法。 - 【請求項3】動詞またはサ変名詞と、その動詞またはサ
変名詞に意味的に接続する格要素の内容を表す普通名詞
または複合名詞とを、キーフレーズを構成する意味的な
接続関係にある語句として抽出することを特徴とする請
求項1に記載のテキストのハイパーテキスト化方法。 - 【請求項4】章、節、項などの文書構成要素の境界を示
すデータに加えて、文書構成要素の説明の目的のタイプ
を示すデータを挿入されたテキストを入力として、関連
を示すリンクを作成する際に、リンクの始点が存在する
ノードとリンクの終点のノードのノードの目的タイプの
組合せが一定の組合せであるときのみリンクを作成する
ことを特徴とする請求項1に記載のテキストのハイパー
テキスト化方法 - 【請求項5】リンクを作成するときに、始点のアンカー
を構成する単語を包含する連続した最小の範囲をアンカ
ーの表示範囲とするリンクを作成することを特徴とする
請求項1に記載のテキストのハイパーテキスト化方法。 - 【請求項6】リンクをフォローするためにアンカーの範
囲内のある箇所をマウスなどで選択された時、その選択
箇所を始点のアンカーの表示範囲として含むリンクが2
個以上ある場合に、マウスなどによる箇所の選択操作の
度にそれらのアンカーの表示範囲を順次、反転などの強
調によって表示することを特徴とするハイパーテキスト
表示方法。 - 【請求項7】リンクを作成するときに、始点のアンカー
を構成する語句を包含する連続した最小の範囲をアンカ
ーの仮の表示範囲として、その範囲が重複する別のアン
カーを始点とするリンクがある場合、それぞれのアンカ
ーの表示範囲をアンカーを構成する語句単位で重複しな
い語句を包含する連続する最小の範囲とすることを特徴
とする請求項1に記載のテキストのハイパーテキスト化
方法。 - 【請求項8】レイアウトすることによってテキストに含
まれる文書構成要素情報やレイアウト情報を削除してテ
キストを表示する際に、レイアウト前のテキストとレイ
アウト後のテキストの文字を対応付けて、レイアウト前
の文字の位置に基づいて表現されたリンクの始点のアン
カーの表示範囲情報をレイアウト後のテキストの文字の
位置に基づいた表示範囲情報に変換してからアンカーの
表示を行うことを特徴とするハイパーテキスト表示方
法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7134915A JPH08329108A (ja) | 1995-06-01 | 1995-06-01 | テキストのハイパーテキスト化方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7134915A JPH08329108A (ja) | 1995-06-01 | 1995-06-01 | テキストのハイパーテキスト化方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08329108A true JPH08329108A (ja) | 1996-12-13 |
Family
ID=15139515
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7134915A Pending JPH08329108A (ja) | 1995-06-01 | 1995-06-01 | テキストのハイパーテキスト化方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08329108A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09305475A (ja) * | 1996-05-14 | 1997-11-28 | Oki Electric Ind Co Ltd | リンク付文書検索表示システム |
| JP2000099387A (ja) * | 1998-09-18 | 2000-04-07 | Hitachi Information Systems Ltd | 文書データ登録システムおよび登録方法 |
| WO2001050343A1 (en) * | 2000-01-05 | 2001-07-12 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| JP2003058529A (ja) * | 2001-08-10 | 2003-02-28 | Seiko Epson Corp | 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体 |
| JP2005063470A (ja) * | 2000-01-05 | 2005-03-10 | Mitsubishi Electric Corp | キーワード抽出装置 |
| JP2010219928A (ja) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | 情報提供装置、情報提供方法および情報提供プログラム |
| JP2021043954A (ja) * | 2019-09-06 | 2021-03-18 | 国人 小林 | 発明文書分析システム及び発明文書分析処理プログラム |
-
1995
- 1995-06-01 JP JP7134915A patent/JPH08329108A/ja active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09305475A (ja) * | 1996-05-14 | 1997-11-28 | Oki Electric Ind Co Ltd | リンク付文書検索表示システム |
| JP2000099387A (ja) * | 1998-09-18 | 2000-04-07 | Hitachi Information Systems Ltd | 文書データ登録システムおよび登録方法 |
| WO2001050343A1 (en) * | 2000-01-05 | 2001-07-12 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| JP2005063470A (ja) * | 2000-01-05 | 2005-03-10 | Mitsubishi Electric Corp | キーワード抽出装置 |
| US7191177B2 (en) | 2000-01-05 | 2007-03-13 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| JP4253152B2 (ja) * | 2000-01-05 | 2009-04-08 | 三菱電機株式会社 | キーワード抽出装置 |
| JP2003058529A (ja) * | 2001-08-10 | 2003-02-28 | Seiko Epson Corp | 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体 |
| JP2010219928A (ja) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | 情報提供装置、情報提供方法および情報提供プログラム |
| US8682920B2 (en) | 2009-03-17 | 2014-03-25 | Konica Minolta Business Technologies, Inc. | Information providing apparatus, information providing method, and information providing program embodied on computer readable medium |
| JP2021043954A (ja) * | 2019-09-06 | 2021-03-18 | 国人 小林 | 発明文書分析システム及び発明文書分析処理プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3691844B2 (ja) | 文書処理方法 | |
| JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
| US5200893A (en) | Computer aided text generation method and system | |
| US5564046A (en) | Method and system for creating a database by dividing text data into nodes which can be corrected | |
| JP3028738B2 (ja) | 文書共通論理情報編集装置 | |
| JP2000010986A (ja) | ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 | |
| JPH08329108A (ja) | テキストのハイパーテキスト化方法 | |
| JP2806867B2 (ja) | ドキュメントデータベースの構築方法、表示方法、及び表示装置 | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JP4965766B2 (ja) | 関係情報抽出装置および属性情報抽出装置 | |
| JP2838984B2 (ja) | 汎用参照装置 | |
| JPH04167049A (ja) | 文書処理装置 | |
| JP3379643B2 (ja) | 形態素解析方法および形態素解析プログラムを記録した記録媒体 | |
| JP3537260B2 (ja) | リンク付文書検索表示システム | |
| JPH1115826A (ja) | 文書解析装置及び方法 | |
| JPH04673A (ja) | 連語登録方法および装置 | |
| JP3747957B2 (ja) | 接続テーブル編集装置 | |
| JPH08235186A (ja) | 機械翻訳装置 | |
| JP3313483B2 (ja) | キーワード作成装置 | |
| JP3926906B2 (ja) | N単語連鎖を用いたかな漢字変換システム,方法および記録媒体 | |
| JPH08263490A (ja) | 法規文書更新システム | |
| JPH10171785A (ja) | 文書作成装置 | |
| JP3313482B2 (ja) | キーワード作成装置 | |
| JPH06124157A (ja) | 語句入力装置およびその方法 | |
| JPS6366665A (ja) | 文書解析整形装置 |