JP2004234582A

JP2004234582A - 辞書構築方法，システム及び画面

Info

Publication number: JP2004234582A
Application number: JP2003025359A
Authority: JP
Inventors: Ichiro Harashima; 一郎原島; Norito Watanabe; 範人渡辺; Hiroyuki Yuji; 弘幸湯地
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-02-03
Filing date: 2003-02-03
Publication date: 2004-08-19

Abstract

【課題】作業工数が膨大にかかっていた分野用語辞書の構築を、検索機能の履歴データから抽出された用語と元の辞書用語との比較により容易に構築することである。また、検索履歴データを利用することにより、実際に現在使われている用語を辞書の登録候補とすることが可能となり、より利用価値の高い辞書が構築する。
【解決手段】検索機能の利用履歴データから検索キーワードやその他の検索属性情報を抽出し、保存する手段と、すでに存在する辞書、あるいは辞書の用語分類データと、抽出された検索キーワードを比較し、重複しない用語のみを抽出，保存する手段と、すでに存在する辞書、あるいは用語分類データを表示する手段と、重複を除去した用語データから辞書登録候補を絞り込み、表示する手段と、絞り込まれた登録候補用語をすでに存在する辞書、あるいは用語分類データの中の用語と対応付ける編集手段と、編集結果を保存する手段とを有することである。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は辞書を構築する辞書構築方法，辞書構築システム，画面装置に関する。
【０００２】
【従来の技術】
インターネットやドキュメント管理システムにおいて、情報ソースとなるドキュメントやデータファイル等のコンテンツの量が膨大になってくると、ユーザが必要とする情報を入手するための手間も一般に多くなる。そこで、少ない手間で必要な情報を入手するために、ユーザが利用したい情報の分野毎の専門用語、および、その上位概念や下位概念，別名，類義語等の用語間の関係をあらかじめコンピュータが理解可能なように辞書データベース化しておき、この辞書データベースを情報の検索や抽出，分類に利用している。
【０００３】
しかしながら、上記のような専門用語の辞書データベースを構築する作業は、従来、その分野の有識者により人手で行われ、その作業工数も語数に応じてかなり多いという課題があった。具体的には、一般的な辞書構築方法としては、専門分野のドキュメントを入力として、これを自動的に用語に切り出す処理（形態素解析処理）を行って得られた用語集合に対して、人手で不要用語除去や分類作業を行っていた。
【０００４】
これらの人手作業を低減するために、特開平１１−２９６５４９号公報では概念情報の辞書編集のためのユーザインタフェースについて記載されており、特に関連度を用いて関連する概念情報の候補を一覧する方法が記載されている。
【０００５】
【特許文献１】
特開平１１−２９６５４９号公報
【０００６】
【発明が解決しようとする課題】
従来技術では、特定分野のドキュメント、あるいはドキュメント群を入力として形態素解析を行い、得られた用語集合を用語間の関連度合い等を利用して分類、あるいは分類候補を提示している。
【０００７】
しかしながら、入力を特定分野のドキュメントとすることにより、以下の課題がある。
【０００８】
まず、ドキュメントは用語の集合体であることから、専門用語を抽出する処理として形態素解析処理を用いる必要があるが、これにより一般にノイズ（不要用語）除去の手間が発生し、ドキュメントの規模に応じて増大する傾向にある。このノイズ除去にドキュメント中の用語出現頻度等のパラメータが使われる場合があるが、出現頻度が極端に多い、あるいは少ないことと、専門用語である可能性との関連性は一概に言えない。
【０００９】
また、用語の出現頻度等で一律に傾向を把握することはできても、古い用語と最新の用語を区別することはできず、用語の鮮度維持という観点では従来技術は利用できない。
【００１０】
そこで、本発明の目的は、辞書構築工数を低減する辞書構築方法，システム及び画面を提供することである。
【００１１】
【課題を解決するための手段】
本発明の一つの特徴は、辞書を構築する方法において、検索履歴情報から抽出された検索キーワード又は検索属性情報から、辞書を構築することである。
【００１２】
なお、本発明のその他の特徴は本願特許請求の範囲に記載のとおりである。
【００１３】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を説明する。
【００１４】
第１の実施例は、検索者１０（ユーザ）が検索機能を利用した際の検索履歴データを利用して、用語辞書の構築支援を行う例であり、図１はその一例である。
【００１５】
本実施例における検索機能とは、ファイルシステム，ドキュメント管理システム，メールシステム，インターネット等の検索エンジン等において、ユーザが必要とするファイル内の情報をキーワードを入力することで検索する機能を意味する。
【００１６】
ここで「ファイル」とは、ワードプロセッサやエディタ等で作成されたドキュメントデータやＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ），ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）等のインターネットにおける標準的なドキュメントデータ，ソフトウェアを記述するプログラムデータ，形状データ，解析データ，画像データ，動画データ等、データの１単位を意味する。
【００１７】
また、検索キーワードはキーボード入力，音声入力等、最終的に単語として電子化できるものを意味する。
【００１８】
まず、ユーザ検索者１０が検索機能１１を用いて自由に検索を行う。具体的には、ユーザがインターネットの検索エンジンを使用することである。これにより、検索履歴データ１２が得られる。なお、検索者１０が検索機能１１を用いて検索する回数が多いほど、検索履歴データ１２の量が多く、より充実した辞書を構築することが可能である。
【００１９】
そこで、この検索履歴データ１２から、検索キーワード抽出・保存処理部１３は、検索キーワードを抽出し、その結果を第１登録候補用語データ１４としてデータベースに格納する。次に、用語比較処理部１６は、すでに専門用語辞書が存在する場合は、これを編集前用語データ１５として、第１登録候補用語データ１４と用語の文字列パタンマッチングを行い、編集前用語データ１５に存在しない登録候補用語を抽出し、その結果を第２登録候補用語データ１７としてデータベースに格納する。
【００２０】
また、初回利用で編集前用語データ１５が存在しない場合は、基本となる用語分類データを作成して、編集前用語データ１５としてもよい。
【００２１】
これにより、古い用語と最新の用語を区別することが可能となり、用語の鮮度維持をすることができる。
【００２２】
次に、用語構成表示・編集処理部１８では、最初に編集前用語データ１５を読み込み、次に、辞書編集者１９の指定する絞り込み条件に従って、第２登録候補用語データ１７を読み込む。
【００２３】
ここで登録候補用語の絞り込み方法の例としては、
［表記］［意味］
Ｘ＊：先頭にＸがつく用語すべて
Ｘ？？？：Ｘの後に任意の３文字が続く
等の正規表現を利用して文字列マッチングを行う方法がある。
【００２４】
また、用語構成表示とは、文字列の用語データは一般に上位語，下位語等の分類階層を持つことから、ツリー形式で画面上に表示することを意味する。
【００２５】
以降、辞書編集者の操作により、画面上で、第２登録候補用語データから選択された用語を、ツリー形式で表示された編集前用語データ１５の中の最適なノード（用語）の下に追加することで、用語編集を実行する。
【００２６】
最後に、編集終了後は、編集結果を編集後用語データ１００としてデータベースに保存する。
【００２７】
なお、上記の説明では編集前用語データ１５と編集後用語データ１００は区別したが、一つのデータとして、編集後に上書きしてもよい。
【００２８】
以上の実施の形態より、検索履歴情報から作業工数を少なくて、用語鮮度の高い辞書を構築することが可能となる。
【００２９】
第２の実施例は、第１の実施例に、さらに検索属性データを利用して、辞書編集効率の向上をねらった例であり、図２はその一例である。
【００３０】
検索機能１１によって出力された検索履歴データ１２から、検索キーワード，検索属性データ抽出・保存処理部２０は、検索キーワード、および検索属性データを抽出し、その結果を、検索キーワードは第１登録候補用語データ２１として、検索属性データは２３としてデータベースに格納する。この際、２１と２３のデータ間は用語ＩＤ等で関連付けておく。
【００３１】
ここで検索属性データとは、検索者が検索機能を利用して検索した際の日時，ヒット数等、１回の検索操作に関する情報である。また、検索者を特定できるデータ、たとえば、使用マシンのＩＤ（ＩＰアドレス等）や、システムへのログイン情報から得られるユーザ情報も検索属性データに含まれる。
【００３２】
用語構成表示・編集処理部２４では、最初に編集前用語データ１５を読み込み、次に、辞書編集者１９の指定する絞り込み条件に従って、第２登録候補用語データ２２を読み込む。
【００３３】
ここで登録候補用語の絞り込みとしては、第一の実施例の正規表現を絞り込み条件とする方法の他に、検索日時，検索者，検索ヒット率等の検索属性データ
２３を用いて絞り込み条件とする。検索条件の例としては以下の通り。
検索日時：２０００年１月１日〜２００１年１２月３１日
検索者：山田太郎
検索ヒット数：１０件未満（または以上）
また、システムのユーザ管理情報からユーザの組織情報が得られる場合は、上記の検索者の部分に会社・部・課等の組織情報を指定してもよい。これにより、たとえば「Ａ会社」向け，「Ｂ設計部」向けといった専門辞書の構築が容易になる。また、検索ヒット数を絞り込み条件として用いることにより、まだ、あまり一般的に使われない用語、あるいは逆に、すでに一般的に使われている用語をある程度絞り込める。また、検索ヒット数０件の場合は、検索キーワードが正しくない可能性が高いと判断してもよい。
【００３４】
第３の実施例は、第２の実施例における第１登録候補用語データ２１，第２登録候補用語データ２２，検索属性データ２３のデータ構造の一例であり、図３はその一例である。
【００３５】
テーブル３０は第２の実施例における第１登録候補用語データ２１，第２登録候補用語データ２２のデータ構造で、登録候補用語ＩＤ３１と登録候補用語３２を一つの行として対応付ける。
【００３６】
さらにテーブル３３は第２の実施例における検索属性データ２３のデータ構造で、登録候補用語ＩＤ３４と検索日時３５，検索者３６、等の検索属性データを一つの行として対応付ける。ここでは検索者３６を識別するために、マシンの
ＩＰアドレスを利用している。
【００３７】
このようなデータ構造にすることによって、新たな検索属性項目の追加が容易になる。
【００３８】
第４の実施例は、第２の実施例における検索機能利用時、および辞書構築時の処理の流れを示し、図４はその一例である。
【００３９】
検索機能利用時は、処理４０のように、検索者１０が検索機能を利用して情報を検索した履歴を検索履歴データ１２として保存する。
【００４０】
一方、辞書構築時には、最初に、処理４１のように、検索履歴データ１２から検索キーワード，検索属性データを抽出し、検索キーワードを第１登録候補用語データ２１，検索属性データ２３として保存する。
【００４１】
次に、処理４２のように、編集前用語データ１５と第１登録候補用語データ
２１を比較して、編集前用語データ１５に存在しない登録候補用語を抽出し、第２登録候補用語データ２２として保存する。
【００４２】
さらに、辞書編集時には、処理４３のように、第２登録候補用語データ２２と編集前用語データ１５を読み込んで表示し、辞書編集者１９がその表示を受け付けて、指示を行うことにより用語の編集が行われる。編集後、処理４４のように、編集結果を編集後用語データ１００として保存する。
【００４３】
第５の実施例は、第１，第２の実施例における辞書編集画面の例を示し、図５はその一例である。
【００４４】
画面５０は、編集前用語データ１５をツリー表示・編集するエリア５７（画面左側）と、登録候補用語を選択するエリア（画面右側）に分かれる。
【００４５】
登録候補用語絞り込み条件指定エリア５１では、第１の実施例で示した用語の正規表現による絞り込み条件や、第２の実施例で示した検索属性データによる絞り込み条件を入力する。絞り込み条件入力後、登録候補用語絞り込みボタン５２をマウス等のポインティングデバイスでクリックすることにより、登録候補絞り込み処理が実行される。
【００４６】
次に、表示条件指定エリア５３では、上記で絞り込まれた用語の表示順序等、表示条件を指定する。表示条件としては、単純な用語一覧表示で降順，昇順の他、文字列パタンマッチングにより階層化して表示する方法等がある。表示条件入力後、表示条件反映ボタン５４をマウス等のポインティングデバイスでクリックすることにより、表示反映処理が実行され、登録候補用語選択エリア５５に結果が表示される。
【００４７】
登録候補用語選択エリア５５で、辞書編集者が辞書に登録したい用語５６をマウス等のポインティングデバイスで選択し、これを辞書用語編集エリア５７の該当すると思われる用語５８のところにドラッグ＆ドロップする。その結果、辞書用語編集エリア５７のドロップ先の用語５８の下位階層に、用語５６が追加される。
【００４８】
なお、辞書用語編集エリア５７内でも用語の移動がドラッグ＆ドロップで任意に行え、不要な用語があれば、用語選択後、用語削除ボタン５９をマウス等のポインティングデバイスでクリックすることにより、削除可能である。
【００４９】
最終的に辞書編集作業が終了した時点で、辞書登録ボタン５００をマウス等のポインティングデバイスでクリックすることにより、編集後用語データとして保存される。
【００５０】
これにより、辞書登録用語を登録する際に、編集前用語データ１５（既存の辞書）の用語と関連付けて辞書登録用語を登録することが可能となる。
【００５１】
第６の実施例は、第５の実施例における辞書用語編集エリアの別の画面例を示し、図６はその一例である。
【００５２】
登録候補用語選択エリア５５で、辞書編集者が辞書に登録したい用語５６をマウス等のポインティングデバイスで選択すると、その用語５６が辞書用語編集エリア６０の中央部に表示される。
【００５３】
同時に、用語５６と編集前用語データの各用語との文字列パタンマッチングにより、文字列一致度を算出する。たとえば、登録候補用語が「ＸＸＺ装置」の場合、「Ｘ装置」との文字列一致度の例としては、
一致文字検出方向：後方
位置が一致した文字数：ａ＝２文字
それ以外に一致した文字：ｂ＝１文字
（文字列一致度）＝ｗ１×ａ＋ｗ２×ｂ
ここで、ｗ１，ｗ２は重み（０以上の数値）で、一般に、ｗ１＞ｗ２とする。辞書用語編集エリア６０の中央部からの距離は、例として、
（距離）＝１／（文字列一致度）
のように、文字列一致度の逆数を用いる方法がある。
【００５４】
以上の方法により辞書用語編集エリア６０で各用語の配置位置を決定すると、用語６１に類似する用語が中央部近くに、類似しない用語が遠くに表示される。
【００５５】
辞書編集者は用語６１の近くに表示されている用語の中から該当すると思われる用語６２のところにドラッグ＆ドロップする。その結果、辞書用語編集エリアのドロップ先の用語６２の下位階層に、用語６１が追加される。
【００５６】
これにより、辞書登録用語を登録する際に、編集前用語データ１５（既存の辞書）に含まれる一致度の高い用語と関連付けて辞書登録用語を登録することが可能となる。
【００５７】
第７の実施例は、本発明を辞書構築サービスに適用した場合のシステム構成例であり、図７はその一例である。
【００５８】
検索サービスを行うための検索エンジン用サーバ７２は、インターネット等のネットワーク７４を介して、情報ソース７３から検索用のインデックスを生成しておく。また、情報検索者７６は検索用クライアント７５を通じて、ネットワーク７４を介して検索エンジン用サーバ７２にアクセスする。ここで、システム管理者７０は管理用クライアント７１を通じて検索エンジン用サーバ７２を管理している。
【００５９】
辞書構築サービスを受ける者は、同じ組織に属する情報検索者７６の検索履歴データ７８を、辞書構築サービス提供者７９に提供することを許可する。
【００６０】
辞書構築サービス提供者７９は検索履歴データ７８、および利用者データ７７を、本発明ですでに述べた辞書構築支援システム７００に取り込み、専門用語辞書を構築する。
【００６１】
サービス料金は、最終成果物である辞書の語数や情報検索者７６の人数等でランク分けして設定してもよい。
【００６２】
これにより、顧客に対して、円滑な辞書構築サービスを行うことが可能となる。
【００６３】
以上により、様々な実施の形態について説明したが、これを実現する装置は、専用の装置として構成することも可能であるが、図８に例示するように、キーボード８１と、前述したようなデータや処理プログラムを入力する入力手段，入力されたデータやプログラムをデータベースとして蓄積する記憶部，演算部などを備えたコンピュータ本体８２と、ディスプレイ８３で構成される汎用のコンピュータシステムとその上で稼働する処理プログラムによって実現することが可能である。
【００６４】
このような汎用のコンピュータシステムに処理プログラムを付加して実現するときには、処理プログラムは図９に例示するような磁気ディスク９１や図１０に例示するようなＣＤ−ＲＯＭ１０１などのメディアに記録して配送，保管，実装され、コンピュータ本体８２に設けた磁気ディスク読み取り装置やＣＤ−ＲＯＭ読み取り装置によって読み取って該コンピュータ本体８２内に取り込まれる。通信ネットワークを通じて配送される処理プログラムを入力手段によって取り込んで実現する場合には、取り込んだ処理プログラムを磁気ディスク等のメディアに記憶させて保存することにより、繰り返し使用できるようにする。
【００６５】
【発明の効果】
本発明によれば、辞書構築工数を低減する辞書構築方法，システム及び画面を提供できる。
【図面の簡単な説明】
【図１】本発明の実施例において、ユーザが検索機能を利用した際の検索履歴データを利用して、用語辞書の構築支援を実現するための機能ブロック図の一例である。
【図２】図１において、検索属性データを利用して、辞書編集効率の向上を実現する機能ブロック図の一例である。
【図３】図１，図２におけるデータベースのデータ構造図の一例である。
【図４】図２における検索機能利用時、および辞書構築時の処理の流れを表すフロー図の一例である。
【図５】第１，第２の実施例における辞書編集画面の一例である。
【図６】図５における辞書用語編集エリアの別画面の一例である。
【図７】本発明を辞書構築サービスに適用した場合のシステム構成例である。
【図８】コンピュータシステムの一例。
【図９】磁気ディスクの一例。
【図１０】ＣＤ−ＲＯＭの一例。
【符号の説明】
１０，３６…検索者、１１…検索機能、１２，７８…検索履歴データ、１３…検索キーワード抽出・保存処理部、１４，２１…第１登録候補用語データ、１５…編集前用語データ、１６…用語比較処理部、１７，２２…第２登録候補用語データ、１８，２４…用語構成表示・編集処理部、１９…辞書編集者、２０…検索キーワード，検索属性データ抽出・保存処理部、２３…検索属性データ、３０，３３…テーブル、３１，３４…登録候補用語ＩＤ、３２，５６，６１…登録候補用語、３５…検索日時、４０…図１，図２の検索時の処理ステップ、４１，４２，４３，４４…辞書構築時の処理ステップ、５０…画面、５１…登録候補用語絞り込み条件指定エリア、５２…登録候補用語絞り込みボタン、５３…表示条件指定エリア、５４…表示条件反映ボタン、５５…登録候補用語選択エリア、５７，６０…辞書用語編集エリア、５８，６２…登録先用語（親）、５９…用語削除ボタン、７０…システム管理者、７１…管理用クライアント、７２…検索エンジン用サーバ、７３…情報ソース、７４…ネットワーク、７５…検索用クライアント、７６…情報検索者、７７…利用者データ、７９…辞書構築サービス提供者、８１…キーボード、８２…コンピュータ本体、８３…ディスプレイ、９１…磁気ディスク、１００…編集後用語データ、１０１…ＣＤ−ＲＯＭ、５００…辞書登録ボタン、７００…辞書構築支援システム。

Claims

辞書を構築する方法において、
検索履歴情報から抽出された検索キーワード又は検索属性情報から、辞書を構築する辞書構築方法。
請求項１において、
前記検索履歴情報を入力とし、第１の検索用語を抽出し、第１登録候補用語データに保存する処理と、
編集前用語データと前記第１登録候補用語データとを比較し、前記編集前用語データに含まれていない第２の検索用語を前記第１登録候補用語データから抽出し、第２登録候補用語データとして保存する処理と、
前記編集前用語データに含まれる用語に前記第２の検索用語を関連づける処理と、
関連づけられた前記第２の検索用語を前記編集後用語データとして追加する処理とを有することを特徴とする辞書構築方法。
請求項２において、
前記編集前用語データを階層的に表示する処理を有することを特徴とする辞書構築方法。
請求項２において、
前記編集前用語データと前記編集後用語データは、同一のデータであることを特徴とする辞書構築方法。
請求項２記載の前記編集前用語データに含まれる用語に前記第２の検索用語を関連づける処理は、
前記第２の検索用語の中から登録候補の登録候補用語を選択する処理と、
前記登録候補用語を前記編集前用語データから検索し、類似度の高い用語順に提示する処理とを有することを特徴とする辞書構築方法。
請求項５記載の前記登録候補用語を前記編集前用語データから検索することは、正規表現又は検索属性データにより検索することを特徴とする辞書構築方法。
請求項２記載の前記編集前用語データに含まれる用語に前記第２の検索用語を関連づける処理は、
前記第２の検索用語の中から選択された登録候補用語を表示領域の中心部に配置して表示し、前記選択された登録候補用語と、前記編集前用語データに含まれる各用語との一致度を算出し、一致度の大きいものほど前記中心部に近く、一致度の小さいものほど前記中心部から遠い位置に、前記編集前用語データに含まれる各用語を表示する処理を有することを特徴とする辞書構築方法。
請求項２記載の前記編集前用語データに含まれる用語に前記第２の検索用語を関連づける処理は、
前記第２の検索用語の絞り込みを行うために、絞り込み条件を入力する処理と、
前記絞り込み条件を満足する第３の検索用語を検索し、提示する処理と、
前記第３の検索用語から登録候補用語を選択する処理とを有することを特徴とする辞書構築方法。
請求項８記載の前記第２の検索用語の絞り込みを行う処理は、
検索属性データ又は正規表現を利用して登録候補用語の絞り込み条件を入力する処理と、
前記絞り込み条件を満足する第３の検索用語を検索し、提示する処理と、
前記第３の検索用語から登録候補用語を選択する処理とを有することを特徴とする辞書構築処理。
コンピュータに請求項２記載の辞書構築処理を実行させるためのプログラム。
コンピュータに請求項２記載の辞書構築処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体。
検索履歴データから登録候補用語の絞り込みを行うために、登録候補用語の絞り込み条件を入力する部分と、
絞り込まれた前記登録候補用語を表示する部分とを有する画面装置。
請求項１２において、
前記登録候補用語を表示する表示条件を入力する部分とを有する画面装置。
検索履歴情報を入力とし、第１の検索用語を抽出し、第１登録候補用語データに保存する装置と、
編集前用語データと前記第１登録候補用語データとを比較し、前記編集前用語データに含まれていない第２の検索用語を前記第１登録候補用語データから抽出し、第２登録候補用語データに保存する装置と、
前記編集前用語データに含まれる用語に前記第２の検索用語を関連づける装置と、
関連づけられた前記第２の用語を前記編集後用語データに追加する装置とを有することを特徴とする辞書構築システム。