JPH0486948A - 分野別辞書を利用したカナ振りデータベースの作成方法 - Google Patents
分野別辞書を利用したカナ振りデータベースの作成方法Info
- Publication number
- JPH0486948A JPH0486948A JP2202973A JP20297390A JPH0486948A JP H0486948 A JPH0486948 A JP H0486948A JP 2202973 A JP2202973 A JP 2202973A JP 20297390 A JP20297390 A JP 20297390A JP H0486948 A JPH0486948 A JP H0486948A
- Authority
- JP
- Japan
- Prior art keywords
- data
- kana
- natural language
- language processing
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
発明の目的:
(産業上の利用分野)
この発明は、分野別辞書を利用したカナ振りデータベー
スの作成に自然言語処理システムを利用したCD−RO
M等のデータベースの作成方法に関する。
スの作成に自然言語処理システムを利用したCD−RO
M等のデータベースの作成方法に関する。
(従来の技術)
最近、印刷物用に蓄積した文書データを2次利用してC
D−ROMやデータベースを作成することが多くなって
いる。そして、データベース検索用のキーワードを抽出
する作業やカナ振りは、従来より専門家による手作業に
よっていた。特に人名。
D−ROMやデータベースを作成することが多くなって
いる。そして、データベース検索用のキーワードを抽出
する作業やカナ振りは、従来より専門家による手作業に
よっていた。特に人名。
住所、医療といった特殊な分野では読み方自身か非常に
難しく、専門家てないと殆ど作業が不可能であった。
難しく、専門家てないと殆ど作業が不可能であった。
(発明が解決しようとする課題)
データベース検索用のキーワードを抽出する作業が、従
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。特に人名等の特殊な分野ではキー
ワードの作成が非常に困難であった。
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。特に人名等の特殊な分野ではキー
ワードの作成が非常に困難であった。
この発明は上述のような事情より成されたものであり、
この発明の目的は、AI(人工知能)の−分野の自然言
語処理技術を利用すると共に、分野別辞書を利用したカ
ナ振りデータベースを自動的に作成するための方法を提
供することにある。
この発明の目的は、AI(人工知能)の−分野の自然言
語処理技術を利用すると共に、分野別辞書を利用したカ
ナ振りデータベースを自動的に作成するための方法を提
供することにある。
発明の構成:
(課題を解決するための手段)
この発明は分野別辞書を利用したカナ振りデータベース
の作成方法に関するもので、この発明の上記目的は、デ
ータベースを前処理し、分野別辞書及び基本辞書を参翌
して自然言語処理による自然言語処理出力ファイルを作
成し、後処理によってカナ振りデータベースを作成する
ことによって達成される。
の作成方法に関するもので、この発明の上記目的は、デ
ータベースを前処理し、分野別辞書及び基本辞書を参翌
して自然言語処理による自然言語処理出力ファイルを作
成し、後処理によってカナ振りデータベースを作成する
ことによって達成される。
(作用)
この発明では、カナ振りデータベースの作成にAIの一
種である自然言語処理を用いており、分野別辞書及び基
本辞書を参照して人力原文データに対して分かち書き(
品詞分解)及びカナ振りを自動的に行なっている。
種である自然言語処理を用いており、分野別辞書及び基
本辞書を参照して人力原文データに対して分かち書き(
品詞分解)及びカナ振りを自動的に行なっている。
コンピュータに内蔵した辞書とAIの手法により名詞、
助詞、動詞等の要素に分解し、分割された文書の漢字へ
の読みがなの付加とキーワードの抽出を行なう。従来は
人手によって行なわれた作業を機械が処理するので、後
は従来と同じチエツクだけで済む0作成されたカナ振り
データベースは、CD−ROMやオンラインデータベー
スのインデクスとして加工されて利用され、またカナ振
り機能を利用して総ルビの木として組版することもでき
る。
助詞、動詞等の要素に分解し、分割された文書の漢字へ
の読みがなの付加とキーワードの抽出を行なう。従来は
人手によって行なわれた作業を機械が処理するので、後
は従来と同じチエツクだけで済む0作成されたカナ振り
データベースは、CD−ROMやオンラインデータベー
スのインデクスとして加工されて利用され、またカナ振
り機能を利用して総ルビの木として組版することもでき
る。
(実施例)
先ず、この発明で用いる自然言語処理システムについて
説明する。
説明する。
第7図は自然言語処理システムのハードウェア構成例を
示しており、ホストマシンlOにはCPUII及び実装
メモリ12が内蔵されると共に、パスライン13を介し
て磁気ディスク装置14.カセット磁気テープ装置15
が接続されている。ホストマシンlOには、更に磁気テ
ープ装置20.レーザープリンタ21及びコンソール端
末23が接続されると共に、R5−=232Cのインタ
ーフェイス16を介して確認/修正用端末22が接続さ
れている。
示しており、ホストマシンlOにはCPUII及び実装
メモリ12が内蔵されると共に、パスライン13を介し
て磁気ディスク装置14.カセット磁気テープ装置15
が接続されている。ホストマシンlOには、更に磁気テ
ープ装置20.レーザープリンタ21及びコンソール端
末23が接続されると共に、R5−=232Cのインタ
ーフェイス16を介して確認/修正用端末22が接続さ
れている。
第8図は自然言語処理システムのソフトウェア構成を示
しており、磁気テープからの入力データは入力処理10
1されて取込まれ、ホストマシンlOで処理された情報
は出力処理120されて磁気テープの出力データとなる
。すなわち、人力処理101は自然言語処理システム人
力データ磁気テープをディスクファイル上に人力データ
102としてコピーし、漢字コート等のチエツクを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理120はディスク上の処理結果ファイルを処理
結果データ121 として自然言語処理出力磁気テープ
ヘコビーする。トライバ103は人力データ102の分
類/解析を行ない、日本語処理システム110を制御し
、分かち書き、カナ振り、キーワード抽出結果を取得し
、自然言語処理システム出力データ形式で、処理結果を
編集/圧力する。
しており、磁気テープからの入力データは入力処理10
1されて取込まれ、ホストマシンlOで処理された情報
は出力処理120されて磁気テープの出力データとなる
。すなわち、人力処理101は自然言語処理システム人
力データ磁気テープをディスクファイル上に人力データ
102としてコピーし、漢字コート等のチエツクを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理120はディスク上の処理結果ファイルを処理
結果データ121 として自然言語処理出力磁気テープ
ヘコビーする。トライバ103は人力データ102の分
類/解析を行ない、日本語処理システム110を制御し
、分かち書き、カナ振り、キーワード抽出結果を取得し
、自然言語処理システム出力データ形式で、処理結果を
編集/圧力する。
日本語処理システム110は基本辞書アクセスルーチン
112を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として圧力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の(a) 、 (b)に該当す
るときに名詞として抽出する。
112を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として圧力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の(a) 、 (b)に該当す
るときに名詞として抽出する。
(a)一般名詞、す変型名詞、形動型名詞、転成名詞1
時詞、数詞、固有名詞1代名詞、形式名詞 (b)接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。
時詞、数詞、固有名詞1代名詞、形式名詞 (b)接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。
■接頭辞の場合
後方品詞 一般名詞、す変型名詞、形動型名詞、転成名
詞1時間、数詞、固有 名詞1代名詞、形式名詞 ■接尾辞の場合 前方品詞・一般名詞、す変型名詞、形動型名詞、転成名
詞1時間、数詞、固有 名詞1代名詞、形式名詞 また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析。
詞1時間、数詞、固有 名詞1代名詞、形式名詞 ■接尾辞の場合 前方品詞・一般名詞、す変型名詞、形動型名詞、転成名
詞1時間、数詞、固有 名詞1代名詞、形式名詞 また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析。
構文解析、知識処理等の手法を用いてアクセスファイル
ルーチン111 と協働して入力日本語文章の解析を行
ない、キーワード抽出、絞り込み1重要度評価を行なう
。
ルーチン111 と協働して入力日本語文章の解析を行
ない、キーワード抽出、絞り込み1重要度評価を行なう
。
端末通信処理123は確記/修正用端末22との間て通
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト圧力処理122は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ21に出力する。
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト圧力処理122は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ21に出力する。
ところで、ホストマシンlOが扱い得る自然言語処理機
能は、 A、IA理種1・分かち書き BJIL理種2 カナ振りI (分かち書き単位のカナ
振り) c、IA埋種3:カナ振り+1 (漢字単位のカナ振り
、総ルビ振り) O3処理種4:キーワード抽出及びキーワードへのカナ
振り の4種であり、人力ファイルのレコード単位に上記各機
能を切替えて処理することができる。
能は、 A、IA理種1・分かち書き BJIL理種2 カナ振りI (分かち書き単位のカナ
振り) c、IA埋種3:カナ振り+1 (漢字単位のカナ振り
、総ルビ振り) O3処理種4:キーワード抽出及びキーワードへのカナ
振り の4種であり、人力ファイルのレコード単位に上記各機
能を切替えて処理することができる。
次に、各機能(処理種1〜4)について説明する。
A1分かち書き(処理種1)
日本語文章(漢字かな交じり文)を人力して分かち書き
を行ない、名詞、動詞、形容詞につし1て品詞情報を付
加する。出力される情報は、スラ・ンシュ“/”による
分かち書きと品詞情報(名詞。
を行ない、名詞、動詞、形容詞につし1て品詞情報を付
加する。出力される情報は、スラ・ンシュ“/”による
分かち書きと品詞情報(名詞。
動詞、形容詞、未知語)である。処理種1の出力形式は
第9図のようになる。
第9図のようになる。
B、カナ振りI (処理種2:分かち書き単位のカナ振
り): 日本語文章(漢字かな交じり分)を人力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き9品詞情報(名詞、動詞
、形容詞。
り): 日本語文章(漢字かな交じり分)を人力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き9品詞情報(名詞、動詞
、形容詞。
未知語)9分かち書き単語要素へのカナ振り結果である
。処理f12の出力形式は第1O図のようになる。
。処理f12の出力形式は第1O図のようになる。
C,カナ振りII (処理種3):
この処理f!!3は、分野別辞書106を使用したカナ
振り及び総ルビ振り(漢字(列)単位のカナ振り)の機
能を有している。分野別辞書106を使用したカナ振り
は人名、地名、各種専門用語等の項目データに対して、
品目専用の辞書を利用してカナ振りを行なうものである
。かな振りの方法は項目データをKEYにして分野別辞
i 1 Q 5をサーチし、マツチングした場合に分野
別辞書106に登録されているカナを振る。これてカナ
が得られなかった場合、日本語処理システムを呼出して
基本辞書115によってカナを振る。
振り及び総ルビ振り(漢字(列)単位のカナ振り)の機
能を有している。分野別辞書106を使用したカナ振り
は人名、地名、各種専門用語等の項目データに対して、
品目専用の辞書を利用してカナ振りを行なうものである
。かな振りの方法は項目データをKEYにして分野別辞
i 1 Q 5をサーチし、マツチングした場合に分野
別辞書106に登録されているカナを振る。これてカナ
が得られなかった場合、日本語処理システムを呼出して
基本辞書115によってカナを振る。
データの人力形式は、単項口データの場合は゛°項目デ
ータ”であり、複数項目データをルコードで処理する場
合は、“項目データ1”/“項目データ2”/・・・・
・・・・・/“項目データN”のように各項目データを
スラッシュで区切るようにしている。そして、8力され
る情報は、入力項目データに対する読み(カタカナ)と
カナデータの典拠辞書識別(どの辞書に基づいてカナが
振られたかの識別)である、、処理種3の出力形式はi
l1図のようになっており、■分野別辞書106で読み
が取得された場合、■基本辞書Itsて読みが取得され
た場合、■分野別辞書106及び基本辞書115の両方
共に読みが登録されていない場合、に分けて識別コート
(例えはAA、AB、A(:)を与えている。
ータ”であり、複数項目データをルコードで処理する場
合は、“項目データ1”/“項目データ2”/・・・・
・・・・・/“項目データN”のように各項目データを
スラッシュで区切るようにしている。そして、8力され
る情報は、入力項目データに対する読み(カタカナ)と
カナデータの典拠辞書識別(どの辞書に基づいてカナが
振られたかの識別)である、、処理種3の出力形式はi
l1図のようになっており、■分野別辞書106で読み
が取得された場合、■基本辞書Itsて読みが取得され
た場合、■分野別辞書106及び基本辞書115の両方
共に読みが登録されていない場合、に分けて識別コート
(例えはAA、AB、A(:)を与えている。
分野別辞書106を使用したカナ振りで処理対象となる
データは、人名、地名、各種専門用語等の項目データ(
主に固有名詞)であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り(
漢字(列)単位のカナ振り)の機能は、日本語文意(漢
字かな交じり文)を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、人力原文中の
漢字(列) (JIS非漢字以外)に対してカナ(ル
ビ)を振り、ルビは「群扱いルビ」の形式で振られる。
データは、人名、地名、各種専門用語等の項目データ(
主に固有名詞)であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り(
漢字(列)単位のカナ振り)の機能は、日本語文意(漢
字かな交じり文)を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、人力原文中の
漢字(列) (JIS非漢字以外)に対してカナ(ル
ビ)を振り、ルビは「群扱いルビ」の形式で振られる。
その出力形式は第12図のようになっている。
D、キーワード抽出及びキーワードへのカナ振り<m理
種4): 人力した日本語文意から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。
種4): 人力した日本語文意から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。
出力される情報は、抽出されたキーワードキーワードの
統み(カタカナ)及びキーワードの解析結果であり、出
力形式は第13図のようになっている。なお、解析情報
は、日本語処理システムによるキーワード認定の過程で
得られた解析情報かセットされるエリアである。
統み(カタカナ)及びキーワードの解析結果であり、出
力形式は第13図のようになっている。なお、解析情報
は、日本語処理システムによるキーワード認定の過程で
得られた解析情報かセットされるエリアである。
確認/修正用端末22の機能は、処理結果ファイルの中
の人力原文データと処理結果データ121をホストマシ
ン10より端末通信処理123を介して受は取り、端末
装置のデイスプレィに表示し、ポストマシン10のレー
ザープリンタ21に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末2
2からのキーボード操作により、確U/修正を行なう処
理結果ファイルのジョブ名指定を行ない、ルーコード毎
に人力原文データと処理結果データ121を端末装置の
デイスプレィ上に表示し、確認/修正作業を行なう。
の人力原文データと処理結果データ121をホストマシ
ン10より端末通信処理123を介して受は取り、端末
装置のデイスプレィに表示し、ポストマシン10のレー
ザープリンタ21に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末2
2からのキーボード操作により、確U/修正を行なう処
理結果ファイルのジョブ名指定を行ない、ルーコード毎
に人力原文データと処理結果データ121を端末装置の
デイスプレィ上に表示し、確認/修正作業を行なう。
デイスプレィの表示形式は、処理種により以下(A)〜
(D)のようになっている。
(D)のようになっている。
(A)処理種1(分かち書き)の場合は、入力原文と処
理された人力原文の分かち書き結果を画面比力する。
理された人力原文の分かち書き結果を画面比力する。
(B) IA理種2(分かち書き単位のカナ振り)の場
合は、人力原文と処理された入力原文の分かち書き単位
のカナ振り結果を画面出力する。
合は、人力原文と処理された入力原文の分かち書き単位
のカナ振り結果を画面出力する。
(C)処理種3(総ルビ振り)の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。
(D)処理種4(キーワード抽出)の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。
次に、キーボード操作により処理結果データの修正を行
なうが、基本的な修正機能を以下に挙げて説明する。
なうが、基本的な修正機能を以下に挙げて説明する。
処理種3及び処理種4の場合のみ修正が可能である。処
理種3(総ルビ振り)の場合はカナ振り結果の修正が可
能であり、処理種4(キーワード抽出)の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えか可能である。
理種3(総ルビ振り)の場合はカナ振り結果の修正が可
能であり、処理種4(キーワード抽出)の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えか可能である。
端末22て処理結果データ121の修正かあった場合、
キーホード操作によって修正後データをホストマシンl
Oに送信する。ホストマシン1oでは、修正後データを
基に処理結果ファイルのレコード更新を行なう。
キーホード操作によって修正後データをホストマシンl
Oに送信する。ホストマシン1oでは、修正後データを
基に処理結果ファイルのレコード更新を行なう。
一方、端末22からのキーホード操作により、ホストマ
シンlOのレーザープリンタ21に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう6オ
ペレータによるPキー(プリントキー)の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理極毎のフォーマットに合
せてホストマシンlOから取り出したレコードのプリン
タ出力を行なう。
シンlOのレーザープリンタ21に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう6オ
ペレータによるPキー(プリントキー)の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理極毎のフォーマットに合
せてホストマシンlOから取り出したレコードのプリン
タ出力を行なう。
以上が自然言語処理システムの概要であるが、この発明
は上記自然言語処理システムを用いて人名等のカナ振り
データへ−スを自動作成するものである。この実施例で
は分野別辞書105を人名として、人名かな振りデータ
ベースを作成する場合を説明する。
は上記自然言語処理システムを用いて人名等のカナ振り
データへ−スを自動作成するものである。この実施例で
は分野別辞書105を人名として、人名かな振りデータ
ベースを作成する場合を説明する。
%x図はこの発明の処理フローを示しており、磁気記憶
媒体等に格納されたデータベースに対して先ず前処理を
行なう(ステップ510)、前処理の詳細は第2図に示
すようになっており、最初にデータの抽出を行ない(ス
テップ5ll)、抽出したデータのコード変換を行なう
(ステップ512)。そして、コート変換されたデータ
に対して分野別辞書106のIDをセットしくステップ
513)、その後に自然言語処理入力ファイルを作成し
くステップ514)、全データに対して上28動作を縁
り返す。
媒体等に格納されたデータベースに対して先ず前処理を
行なう(ステップ510)、前処理の詳細は第2図に示
すようになっており、最初にデータの抽出を行ない(ス
テップ5ll)、抽出したデータのコード変換を行なう
(ステップ512)。そして、コート変換されたデータ
に対して分野別辞書106のIDをセットしくステップ
513)、その後に自然言語処理入力ファイルを作成し
くステップ514)、全データに対して上28動作を縁
り返す。
データの抽出はデータベースより当処理でかな振りを行
なう姓名の油圧を行なうもので、コート変換データはJ
ISコード及びCTS(Computer TypeS
e’tting)コードで作成されている場合が多い。
なう姓名の油圧を行なうもので、コート変換データはJ
ISコード及びCTS(Computer TypeS
e’tting)コードで作成されている場合が多い。
自然言語処理システムのコード体系は一散的にシステム
固有コードであるため、データのコード変換を行なう必
要がある。分野別辞書IDのセットにおいて、分野別辞
書106は、漢字とその読みが対になっているテーブル
である。処理を行なう分野毎に予めコンピュータへの登
録を行ない1からの通し番号(ID)で管理している。
固有コードであるため、データのコード変換を行なう必
要がある。分野別辞書IDのセットにおいて、分野別辞
書106は、漢字とその読みが対になっているテーブル
である。処理を行なう分野毎に予めコンピュータへの登
録を行ない1からの通し番号(ID)で管理している。
分野別辞書106を使用する場合には、自然言語処理人
力ファイルデータレコードのデータ属性に分野別辞書1
0のセットを行なう。また、自然言語処理入力ファイル
作成は、抽出したデータ毎に自然言語処理人力ファイル
レコードの作成を行なうものである。
力ファイルデータレコードのデータ属性に分野別辞書1
0のセットを行なう。また、自然言語処理入力ファイル
作成は、抽出したデータ毎に自然言語処理人力ファイル
レコードの作成を行なうものである。
上述のように前処理されたデータは次のステップS1で
自然言語処理されるが、これに関しては後に詳述する6
分野別辞書106を使用したカナ振りの場合、第3図に
示すように先ず分野別辞書108を参照してパターンマ
ツチングを行ない(ステップ51^)、マツチングのと
れた場合にはその読みを出力し、それ以外は基本辞書1
15を参照する通常の分かち書き/カナ振りを行なう(
ステップ5IB)。圧力形式は第11図に示すようにな
っている0通常の自然言語処理では自然百語第埋入カフ
アイルを作成し、自然言語処理で基本辞書115(シス
テム辞書131+ユーザ辞書132)を参照して、第4
図に示すような入力原文データに対して第5図に示すよ
うに分かち書き(品詞分解)及びカナ振りを行なう。分
かち書きされたデータの直前にはその単語の品詞識別1
0か付加されており、単語の品詞を判別てきるようにな
っている。次に、自然言語処理された自然言語処理出力
ファイルに対して後処理を行なう(ステップ520)、
後処理の詳細は第6図に示すようになっており、先ずコ
ード変換を行なう(ステップ521)、自然言語処理シ
ステムの処理結果はシステム固有コードで出力されるの
で、カナ振り処理結果データのCTSコードへのコート
変換を行ない(ステップ521)、次にデータベースの
作成を行なう(ステップ522)、つまり、コード変換
したデータをデータベース形式のファイルレコードに出
力し、データベースへの登録を行なう。次に、人名カナ
振りファイルの内容をリスト出力しくステップS2)、
赤字等を入れた後に姓名カナ振りデータの校正を行なう
0校正を終了したキーワードデータを人名カナ振りデー
タベースとする。カナ振りが正しく行なわれなかったデ
ータについて、分野別辞書106の修正を行ない、次回
の自然言語処理の精度の向上を図る。処理結果の典拠辞
書識別に従って処理するが、分野別辞書106て読みか
取得されたものについては分野別辞書中の当データの修
正を行ない、他のものについては、正しい読みが振うれ
ているかどうかのチエツクと修正を行なった後に分野別
辞書106への登録を行ない、次回からの自然言語処理
の精度の向上を図る。なお、分野別辞書としては他に医
学用語辞書、経済用語辞書化学技術用語辞書等の登録が
考えられる。
自然言語処理されるが、これに関しては後に詳述する6
分野別辞書106を使用したカナ振りの場合、第3図に
示すように先ず分野別辞書108を参照してパターンマ
ツチングを行ない(ステップ51^)、マツチングのと
れた場合にはその読みを出力し、それ以外は基本辞書1
15を参照する通常の分かち書き/カナ振りを行なう(
ステップ5IB)。圧力形式は第11図に示すようにな
っている0通常の自然言語処理では自然百語第埋入カフ
アイルを作成し、自然言語処理で基本辞書115(シス
テム辞書131+ユーザ辞書132)を参照して、第4
図に示すような入力原文データに対して第5図に示すよ
うに分かち書き(品詞分解)及びカナ振りを行なう。分
かち書きされたデータの直前にはその単語の品詞識別1
0か付加されており、単語の品詞を判別てきるようにな
っている。次に、自然言語処理された自然言語処理出力
ファイルに対して後処理を行なう(ステップ520)、
後処理の詳細は第6図に示すようになっており、先ずコ
ード変換を行なう(ステップ521)、自然言語処理シ
ステムの処理結果はシステム固有コードで出力されるの
で、カナ振り処理結果データのCTSコードへのコート
変換を行ない(ステップ521)、次にデータベースの
作成を行なう(ステップ522)、つまり、コード変換
したデータをデータベース形式のファイルレコードに出
力し、データベースへの登録を行なう。次に、人名カナ
振りファイルの内容をリスト出力しくステップS2)、
赤字等を入れた後に姓名カナ振りデータの校正を行なう
0校正を終了したキーワードデータを人名カナ振りデー
タベースとする。カナ振りが正しく行なわれなかったデ
ータについて、分野別辞書106の修正を行ない、次回
の自然言語処理の精度の向上を図る。処理結果の典拠辞
書識別に従って処理するが、分野別辞書106て読みか
取得されたものについては分野別辞書中の当データの修
正を行ない、他のものについては、正しい読みが振うれ
ているかどうかのチエツクと修正を行なった後に分野別
辞書106への登録を行ない、次回からの自然言語処理
の精度の向上を図る。なお、分野別辞書としては他に医
学用語辞書、経済用語辞書化学技術用語辞書等の登録が
考えられる。
姓名の分野別辞書を用いることによって、次の表1に示
すようなカナ振りを行なうことかできる 表1 基本辞書115は自然M語処理(分かち書き/カナ振り
)を行なう上で一番基本となる辞書で、システム辞g
131とユーザ辞書132 とから構成されている。ユ
ーザ辞書132の修正を行なう事により、自然言語処理
の精度を向上する事か出来る。
すようなカナ振りを行なうことかできる 表1 基本辞書115は自然M語処理(分かち書き/カナ振り
)を行なう上で一番基本となる辞書で、システム辞g
131とユーザ辞書132 とから構成されている。ユ
ーザ辞書132の修正を行なう事により、自然言語処理
の精度を向上する事か出来る。
この発明ではCTSの自然言語処理の汎用人出力ファイ
ルとして汎用ファイル(以下、N1.ファイルとする)
を用いているが、NLファイルでは第14図に示すよう
にNLゼインァイル、 IIILアウトファイル及びN
L情報ファイルの3種類で構成され、フォーマットは同
一である。全体のフォーマットはへダーレコード及びデ
ータレコードで成っており、ヘダーレコードにはレコー
ド識別、シーケンス番号、ファイル識別、ジョブ名、原
稿名、 CTSシステム名等がある。また、データレコ
ードとしてはレコード識別、シーケンス番号、データ番
号、IA理種、データ等が含まれている。
ルとして汎用ファイル(以下、N1.ファイルとする)
を用いているが、NLファイルでは第14図に示すよう
にNLゼインァイル、 IIILアウトファイル及びN
L情報ファイルの3種類で構成され、フォーマットは同
一である。全体のフォーマットはへダーレコード及びデ
ータレコードで成っており、ヘダーレコードにはレコー
ド識別、シーケンス番号、ファイル識別、ジョブ名、原
稿名、 CTSシステム名等がある。また、データレコ
ードとしてはレコード識別、シーケンス番号、データ番
号、IA理種、データ等が含まれている。
入力ルーチン5100は第15図に示すように、NLゼ
インァイルをパラメータと共に読込んで自然言語処理入
力ファイル及びNL情報ファイルを作成するようになっ
ており、その詳細は第16図に示すようになっている。
インァイルをパラメータと共に読込んで自然言語処理入
力ファイル及びNL情報ファイルを作成するようになっ
ており、その詳細は第16図に示すようになっている。
NLゼインァイルを読込んで、パラメータの指定による
ファンクションの削除及びコート変換(外部−システム
固有コード)を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコート
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチエツク(ステッ
プ5101)では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう、ヘダーレコード
作成(ステップ5102)では、NLゼインァイルのへ
ダーレコートの内容より、自然言語処理入力ファイル及
びNL情報ファイルのへダーレコーKを作成する。同デ
ータNOのデータの読込21(ステップ5203)の処
理は、同データNoを持つレコードの全有効データを処
理単位とする。
ファンクションの削除及びコート変換(外部−システム
固有コード)を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコート
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチエツク(ステッ
プ5101)では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう、ヘダーレコード
作成(ステップ5102)では、NLゼインァイルのへ
ダーレコートの内容より、自然言語処理入力ファイル及
びNL情報ファイルのへダーレコーKを作成する。同デ
ータNOのデータの読込21(ステップ5203)の処
理は、同データNoを持つレコードの全有効データを処
理単位とする。
従って、NLゼインファイルデータレコード中同データ
NOを持つデータレコードから有効データを抽出する。
NOを持つデータレコードから有効データを抽出する。
データの加工(ステップ5104)では、NLゼインァ
イルから抽出したデータのファンクションの削除及びコ
ート変換を行なう。削除したファンクションの情報及び
コート変換情報はNL情報ファイルへ、処理されたデー
タは自然言語処理人力ファイルに出力する。また、デー
タレコードの作成(ステップ5105)ては、同データ
NOの加工後(ファンクションの削除、コード変換)の
データを自然言語処理人力ファイルへ出力し、加工情報
をNL情報ファイルへ出力する。
イルから抽出したデータのファンクションの削除及びコ
ート変換を行なう。削除したファンクションの情報及び
コート変換情報はNL情報ファイルへ、処理されたデー
タは自然言語処理人力ファイルに出力する。また、デー
タレコードの作成(ステップ5105)ては、同データ
NOの加工後(ファンクションの削除、コード変換)の
データを自然言語処理人力ファイルへ出力し、加工情報
をNL情報ファイルへ出力する。
一方、第14図の出力ルーチン5200は第17図に示
すように、自然言語処理の後処理として自然言語処理出
力ファイルとNL情報ファイルを、パラメータと共に読
込んでNLアウトファイルを作成するものであり、その
詳細は?;18図のようになっている。すなわち、自然
言語処理出力ファイルとNL情報ファイルを統込んで、
パラメータの指定によるファンクションの復帰及びコー
ド変換(システム固有コード−外部)を行ない、NLア
ウトファイルを作成する。処理終了後にジョブ名等をリ
スト出力する。パラメータチエツク(ステップ5201
)では、ファンクション復帰実行の有無及びコード変換
情報の指示の解析を行なう。ヘダーレコードの作成(ス
テップ5203)では、NL情報ファイル及び自然言語
処理出力ファイルのへダーレコートの内容よりNLアウ
トファイルのへダーレコードを作成する。同データNo
のデータの読込み(ステップ5204)は同データNO
を持つレコードの全有効データを処理単位とする。自然
言語処理出力ファイルデータレコード中には、人力原文
データと処理結果データか存在するが、処理結果データ
のみを有効データとする。従って、自然言語処理圧カフ
アイルレコード中の同データNoを持つデータレコード
から処理結果データを抽出する。また、データの加工(
ステップ52o5)では、自然言語処理出力ファイルか
ら抽出したデータにファンクションの復帰及びコート変
換を行なう。加工したデータはNLアウトファイルに出
力する。
すように、自然言語処理の後処理として自然言語処理出
力ファイルとNL情報ファイルを、パラメータと共に読
込んでNLアウトファイルを作成するものであり、その
詳細は?;18図のようになっている。すなわち、自然
言語処理出力ファイルとNL情報ファイルを統込んで、
パラメータの指定によるファンクションの復帰及びコー
ド変換(システム固有コード−外部)を行ない、NLア
ウトファイルを作成する。処理終了後にジョブ名等をリ
スト出力する。パラメータチエツク(ステップ5201
)では、ファンクション復帰実行の有無及びコード変換
情報の指示の解析を行なう。ヘダーレコードの作成(ス
テップ5203)では、NL情報ファイル及び自然言語
処理出力ファイルのへダーレコートの内容よりNLアウ
トファイルのへダーレコードを作成する。同データNo
のデータの読込み(ステップ5204)は同データNO
を持つレコードの全有効データを処理単位とする。自然
言語処理出力ファイルデータレコード中には、人力原文
データと処理結果データか存在するが、処理結果データ
のみを有効データとする。従って、自然言語処理圧カフ
アイルレコード中の同データNoを持つデータレコード
から処理結果データを抽出する。また、データの加工(
ステップ52o5)では、自然言語処理出力ファイルか
ら抽出したデータにファンクションの復帰及びコート変
換を行なう。加工したデータはNLアウトファイルに出
力する。
この発明はCD−ROM等のデータベースの構築支援と
して利用でき、検索用キーワードの抽出、抽出したキー
ワードへの読みの付加を行ない得る。また、印刷業務で
の利用か可能で、カナ振り機能を利用した総ルビの印刷
物作成や名簿の住所1氏名なとの項目の自動カナ振り、
索引作成の支援システムとして利用できる。
して利用でき、検索用キーワードの抽出、抽出したキー
ワードへの読みの付加を行ない得る。また、印刷業務で
の利用か可能で、カナ振り機能を利用した総ルビの印刷
物作成や名簿の住所1氏名なとの項目の自動カナ振り、
索引作成の支援システムとして利用できる。
発明の効果。
以上のようにこの発明の分野別辞書を利用したかな振り
データベースの作成方法によれば、専門的な知識や技術
を要することなく自動的に人名専門用語等のデータベー
スを作成することかできる。
データベースの作成方法によれば、専門的な知識や技術
を要することなく自動的に人名専門用語等のデータベー
スを作成することかできる。
第1図はこの発明の動作例を示すフローチャート、第2
図は前処理の動作例を示すフローチャート、第3図は自
然言語処理の作用を示すフローチャート、第4図は自然
言語処理する原文の例を示す図、第5図は分かちカナの
例を示す図、第6図は後処理の動作例を示すフローチャ
ート、第7図は自然言語処理システムのハードウェア構
成例を示すブロック図、第8図はそのソフトウェア構成
例を示す図、第9図は分がち書きの出力形式を示す図、
第1O図は分かち書ぎ単位のカナ振りの出力形式を示す
図、il1図は分野別辞書を使用したカナ振りの出力形
式を示す図、第12図は総ルヒ振りの出力形式を示す図
、第13図はキーワード抽出及びキーワードへのカナ振
りの出力形式を示す図、第14図はこの発明に用いる汎
用ファイルの構成例を示すフローチャート、第15図は
入力ルーチンの人出力を示す図、第16図は人力ルーチ
ンの詳細を示すフローチャート、第17図は出ルリーチ
ンの人出力を示す図、第18図は出力ルーチンの詳細を
示すフローチャートである。 10・・・ホストマシン、11・・・CPII 、 1
2・・・メモリ、14・・・磁気ディスク装置、15・
・・カセット磁気テープ装置、20・・・磁気テープ装
置、21・・・レーザープリンタ、22・・・確認/修
正用端末、23・・・コンソール端末。 図面の浄書(内容に変更なし) 土願人代理人 安 形 雄 三 慕3 Ω 著 図 t9 図 雛 副 塾 図 享 図 め 図 都 図 某 図 手続補正書(方式) 平成2年11月20日 特許庁長官 植 松 敏 殿 口=1、事件の表
示 1′平成2年特許願第20
2973号 2、発明の名称 分野別辞書を利用したカナ振りデータベースの作成方法 事件との関係 特許出願人 (289)犬日本印刷株式会社 4、代理人 5、補正命令の日付 平成2年10月15日 (全送日 平成2年10月30日)
図は前処理の動作例を示すフローチャート、第3図は自
然言語処理の作用を示すフローチャート、第4図は自然
言語処理する原文の例を示す図、第5図は分かちカナの
例を示す図、第6図は後処理の動作例を示すフローチャ
ート、第7図は自然言語処理システムのハードウェア構
成例を示すブロック図、第8図はそのソフトウェア構成
例を示す図、第9図は分がち書きの出力形式を示す図、
第1O図は分かち書ぎ単位のカナ振りの出力形式を示す
図、il1図は分野別辞書を使用したカナ振りの出力形
式を示す図、第12図は総ルヒ振りの出力形式を示す図
、第13図はキーワード抽出及びキーワードへのカナ振
りの出力形式を示す図、第14図はこの発明に用いる汎
用ファイルの構成例を示すフローチャート、第15図は
入力ルーチンの人出力を示す図、第16図は人力ルーチ
ンの詳細を示すフローチャート、第17図は出ルリーチ
ンの人出力を示す図、第18図は出力ルーチンの詳細を
示すフローチャートである。 10・・・ホストマシン、11・・・CPII 、 1
2・・・メモリ、14・・・磁気ディスク装置、15・
・・カセット磁気テープ装置、20・・・磁気テープ装
置、21・・・レーザープリンタ、22・・・確認/修
正用端末、23・・・コンソール端末。 図面の浄書(内容に変更なし) 土願人代理人 安 形 雄 三 慕3 Ω 著 図 t9 図 雛 副 塾 図 享 図 め 図 都 図 某 図 手続補正書(方式) 平成2年11月20日 特許庁長官 植 松 敏 殿 口=1、事件の表
示 1′平成2年特許願第20
2973号 2、発明の名称 分野別辞書を利用したカナ振りデータベースの作成方法 事件との関係 特許出願人 (289)犬日本印刷株式会社 4、代理人 5、補正命令の日付 平成2年10月15日 (全送日 平成2年10月30日)
Claims (1)
- 【特許請求の範囲】 1、データベースを前処理し、分野別辞書及び基本辞書
を参照して自然言語処理による自然言語処理出力ファイ
ルを作成し、後処理によってカナ振りデータベースを作
成するようにしたことを特徴とする分野別辞書を利用し
たカナ振りデータベースの作成方法。 2、前記キーワードデータの校正時に前記分野別辞書を
修正するようになっている請求項1に記載の分野別辞書
を利用したカナ振りデータベースの作成方法。 3、前記前処理が、データの抽出、コード変換、前記分
野別辞書のIDセット及び自然言語処理入力ファイルの
作成の繰り返しである請求項1に記載の分野別辞書を利
用したカナ振りデータベースの作成方法。 4、前記後処理が、前記自然言語処理出力ファイルに対
してコード変換及びデータベース形式ファイルの作成を
行ない、上記動作を繰り返すようになっている請求項1
に記載の分野別辞書を利用したカナ振りデータベースの
作成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2202973A JPH0486948A (ja) | 1990-07-31 | 1990-07-31 | 分野別辞書を利用したカナ振りデータベースの作成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2202973A JPH0486948A (ja) | 1990-07-31 | 1990-07-31 | 分野別辞書を利用したカナ振りデータベースの作成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0486948A true JPH0486948A (ja) | 1992-03-19 |
Family
ID=16466226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2202973A Pending JPH0486948A (ja) | 1990-07-31 | 1990-07-31 | 分野別辞書を利用したカナ振りデータベースの作成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0486948A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
| JP2007171275A (ja) * | 2005-12-19 | 2007-07-05 | Canon Inc | 言語処理装置及び現後処理方法 |
-
1990
- 1990-07-31 JP JP2202973A patent/JPH0486948A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
| JP2007171275A (ja) * | 2005-12-19 | 2007-07-05 | Canon Inc | 言語処理装置及び現後処理方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
| EP0266001B1 (en) | A parser for natural language text | |
| Hockey | Electronic texts in the humanities: principles and practice | |
| JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
| US5200893A (en) | Computer aided text generation method and system | |
| US5311429A (en) | Maintenance support method and apparatus for natural language processing system | |
| JP2002215617A (ja) | 品詞タグ付けをする方法 | |
| JP2016186805A5 (ja) | ||
| JPS63231674A (ja) | コンピュータによる形態論的テキスト解析方法 | |
| US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
| JPH0731677B2 (ja) | 文書作成・校正支援装置 | |
| JPH05120324A (ja) | 言語処理方式 | |
| JPH02112068A (ja) | テキスト簡略表示方式 | |
| JP3016040B2 (ja) | 自然言語処理システム | |
| JPH0486948A (ja) | 分野別辞書を利用したカナ振りデータベースの作成方法 | |
| JPH04211868A (ja) | Cd―romデータの検索用キーワードの作成方法 | |
| JP2621999B2 (ja) | 文書処理装置 | |
| JPH04243477A (ja) | 自然言語処理システムによる索引語抽出方法 | |
| JPH0612453A (ja) | 未知語抽出登録装置 | |
| JP3501240B2 (ja) | 文書作成支援装置 | |
| JP3316884B2 (ja) | 言語翻訳装置 | |
| Morfeq | Bayan: A text database management system for Arabic engineering documents | |
| JP2978647B2 (ja) | 日本語変換装置ならびに日本語変換方法 | |
| JP2574741B2 (ja) | 言語処理方法 | |
| JPH0310361A (ja) | 自然言語インターフェース装置 |