JPH0486948A

JPH0486948A - 分野別辞書を利用したカナ振りデータベースの作成方法

Info

Publication number: JPH0486948A
Application number: JP2202973A
Authority: JP
Inventors: Masa Saito; 斎藤　雅; Hiroshi Teranishi; 浩寺西; Takahiro Nakajima; 孝浩中島
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 1990-07-31
Filing date: 1990-07-31
Publication date: 1992-03-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の目的：（産業上の利用分野）この発明は、分野別辞書を利用したカナ振りデータベー
スの作成に自然言語処理システムを利用したＣＤ−ＲＯ
Ｍ等のデータベースの作成方法に関する。

（従来の技術）最近、印刷物用に蓄積した文書データを２次利用してＣ
Ｄ−ＲＯＭやデータベースを作成することが多くなって
いる。そして、データベース検索用のキーワードを抽出
する作業やカナ振りは、従来より専門家による手作業に
よっていた。特に人名。

住所、医療といった特殊な分野では読み方自身か非常に
難しく、専門家てないと殆ど作業が不可能であった。

（発明が解決しようとする課題）データベース検索用のキーワードを抽出する作業が、従
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。特に人名等の特殊な分野ではキー
ワードの作成が非常に困難であった。

この発明は上述のような事情より成されたものであり、
この発明の目的は、ＡＩ（人工知能）の−分野の自然言
語処理技術を利用すると共に、分野別辞書を利用したカ
ナ振りデータベースを自動的に作成するための方法を提
供することにある。

発明の構成：（課題を解決するための手段）この発明は分野別辞書を利用したカナ振りデータベース
の作成方法に関するもので、この発明の上記目的は、デ
ータベースを前処理し、分野別辞書及び基本辞書を参翌
して自然言語処理による自然言語処理出力ファイルを作
成し、後処理によってカナ振りデータベースを作成する
ことによって達成される。

（作用）この発明では、カナ振りデータベースの作成にＡＩの一
種である自然言語処理を用いており、分野別辞書及び基
本辞書を参照して人力原文データに対して分かち書き（
品詞分解）及びカナ振りを自動的に行なっている。

コンピュータに内蔵した辞書とＡＩの手法により名詞、
助詞、動詞等の要素に分解し、分割された文書の漢字へ
の読みがなの付加とキーワードの抽出を行なう。従来は
人手によって行なわれた作業を機械が処理するので、後
は従来と同じチエツクだけで済む０作成されたカナ振り
データベースは、ＣＤ−ＲＯＭやオンラインデータベー
スのインデクスとして加工されて利用され、またカナ振
り機能を利用して総ルビの木として組版することもでき
る。

（実施例）先ず、この発明で用いる自然言語処理システムについて
説明する。

第７図は自然言語処理システムのハードウェア構成例を
示しており、ホストマシンｌＯにはＣＰＵＩＩ及び実装
メモリ１２が内蔵されると共に、パスライン１３を介し
て磁気ディスク装置１４．カセット磁気テープ装置１５
が接続されている。ホストマシンｌＯには、更に磁気テ
ープ装置２０．レーザープリンタ２１及びコンソール端
末２３が接続されると共に、Ｒ５−＝２３２Ｃのインタ
ーフェイス１６を介して確認／修正用端末２２が接続さ
れている。

第８図は自然言語処理システムのソフトウェア構成を示
しており、磁気テープからの入力データは入力処理１０
１されて取込まれ、ホストマシンｌＯで処理された情報
は出力処理１２０されて磁気テープの出力データとなる
。すなわち、人力処理１０１は自然言語処理システム人
力データ磁気テープをディスクファイル上に人力データ
１０２としてコピーし、漢字コート等のチエツクを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理１２０はディスク上の処理結果ファイルを処理
結果データ１２１　として自然言語処理出力磁気テープ
ヘコビーする。トライバ１０３は人力データ１０２の分
類／解析を行ない、日本語処理システム１１０を制御し
、分かち書き、カナ振り、キーワード抽出結果を取得し
、自然言語処理システム出力データ形式で、処理結果を
編集／圧力する。

日本語処理システム１１０は基本辞書アクセスルーチン
１１２を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として圧力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の（ａ）　、　（ｂ）に該当す
るときに名詞として抽出する。

（ａ）一般名詞、す変型名詞、形動型名詞、転成名詞１
時詞、数詞、固有名詞１代名詞、形式名詞（ｂ）接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。

■接頭辞の場合後方品詞　一般名詞、す変型名詞、形動型名詞、転成名
詞１時間、数詞、固有名詞１代名詞、形式名詞 ■接尾辞の場合前方品詞・一般名詞、す変型名詞、形動型名詞、転成名
詞１時間、数詞、固有名詞１代名詞、形式名詞また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析。

構文解析、知識処理等の手法を用いてアクセスファイル
ルーチン１１１　と協働して入力日本語文章の解析を行
ない、キーワード抽出、絞り込み１重要度評価を行なう
。

端末通信処理１２３は確記／修正用端末２２との間て通
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト圧力処理１２２は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ２１に出力する。

ところで、ホストマシンｌＯが扱い得る自然言語処理機
能は、Ａ、ＩＡ理種１・分かち書きＢＪＩＬ理種２　カナ振りＩ　（分かち書き単位のカナ
振り）ｃ、ＩＡ埋種３：カナ振り＋１　（漢字単位のカナ振り
、総ルビ振り）Ｏ３処理種４：キーワード抽出及びキーワードへのカナ
振りの４種であり、人力ファイルのレコード単位に上記各機
能を切替えて処理することができる。

次に、各機能（処理種１〜４）について説明する。

Ａ１分かち書き（処理種１）日本語文章（漢字かな交じり文）を人力して分かち書き
を行ない、名詞、動詞、形容詞につし１て品詞情報を付
加する。出力される情報は、スラ・ンシュ“／”による
分かち書きと品詞情報（名詞。

動詞、形容詞、未知語）である。処理種１の出力形式は
第９図のようになる。

Ｂ、カナ振りＩ　（処理種２：分かち書き単位のカナ振
り）：日本語文章（漢字かな交じり分）を人力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き９品詞情報（名詞、動詞
、形容詞。

未知語）９分かち書き単語要素へのカナ振り結果である
。処理ｆ１２の出力形式は第１Ｏ図のようになる。

Ｃ，カナ振りＩＩ　（処理種３）：この処理ｆ！！３は、分野別辞書１０６を使用したカナ
振り及び総ルビ振り（漢字（列）単位のカナ振り）の機
能を有している。分野別辞書１０６を使用したカナ振り
は人名、地名、各種専門用語等の項目データに対して、
品目専用の辞書を利用してカナ振りを行なうものである
。かな振りの方法は項目データをＫＥＹにして分野別辞
ｉ　１　Ｑ　５をサーチし、マツチングした場合に分野
別辞書１０６に登録されているカナを振る。これてカナ
が得られなかった場合、日本語処理システムを呼出して
基本辞書１１５によってカナを振る。

データの人力形式は、単項口データの場合は゛°項目デ
ータ”であり、複数項目データをルコードで処理する場
合は、“項目データ１”／“項目データ２”／・・・・
・・・・・／“項目データＮ”のように各項目データを
スラッシュで区切るようにしている。そして、８力され
る情報は、入力項目データに対する読み（カタカナ）と
カナデータの典拠辞書識別（どの辞書に基づいてカナが
振られたかの識別）である、、処理種３の出力形式はｉ
ｌ１図のようになっており、■分野別辞書１０６で読み
が取得された場合、■基本辞書Ｉｔｓて読みが取得され
た場合、■分野別辞書１０６及び基本辞書１１５の両方
共に読みが登録されていない場合、に分けて識別コート
（例えはＡＡ、ＡＢ、Ａ（：）を与えている。

分野別辞書１０６を使用したカナ振りで処理対象となる
データは、人名、地名、各種専門用語等の項目データ（
主に固有名詞）であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り（
漢字（列）単位のカナ振り）の機能は、日本語文意（漢
字かな交じり文）を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、人力原文中の
漢字（列）　　（ＪＩＳ非漢字以外）に対してカナ（ル
ビ）を振り、ルビは「群扱いルビ」の形式で振られる。

その出力形式は第１２図のようになっている。

Ｄ、キーワード抽出及びキーワードへのカナ振り＜ｍ理
種４）：人力した日本語文意から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。

出力される情報は、抽出されたキーワードキーワードの
統み（カタカナ）及びキーワードの解析結果であり、出
力形式は第１３図のようになっている。なお、解析情報
は、日本語処理システムによるキーワード認定の過程で
得られた解析情報かセットされるエリアである。

確認／修正用端末２２の機能は、処理結果ファイルの中
の人力原文データと処理結果データ１２１をホストマシ
ン１０より端末通信処理１２３を介して受は取り、端末
装置のデイスプレィに表示し、ポストマシン１０のレー
ザープリンタ２１に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末２
２からのキーボード操作により、確Ｕ／修正を行なう処
理結果ファイルのジョブ名指定を行ない、ルーコード毎
に人力原文データと処理結果データ１２１を端末装置の
デイスプレィ上に表示し、確認／修正作業を行なう。

デイスプレィの表示形式は、処理種により以下（Ａ）〜
（Ｄ）のようになっている。

（Ａ）処理種１（分かち書き）の場合は、入力原文と処
理された人力原文の分かち書き結果を画面比力する。

（Ｂ）　ＩＡ理種２（分かち書き単位のカナ振り）の場
合は、人力原文と処理された入力原文の分かち書き単位
のカナ振り結果を画面出力する。

（Ｃ）処理種３（総ルビ振り）の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。

（Ｄ）処理種４（キーワード抽出）の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。

次に、キーボード操作により処理結果データの修正を行
なうが、基本的な修正機能を以下に挙げて説明する。

処理種３及び処理種４の場合のみ修正が可能である。処
理種３（総ルビ振り）の場合はカナ振り結果の修正が可
能であり、処理種４（キーワード抽出）の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えか可能である。

端末２２て処理結果データ１２１の修正かあった場合、
キーホード操作によって修正後データをホストマシンｌ
Ｏに送信する。ホストマシン１ｏでは、修正後データを
基に処理結果ファイルのレコード更新を行なう。

一方、端末２２からのキーホード操作により、ホストマ
シンｌＯのレーザープリンタ２１に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう６オ
ペレータによるＰキー（プリントキー）の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理極毎のフォーマットに合
せてホストマシンｌＯから取り出したレコードのプリン
タ出力を行なう。

以上が自然言語処理システムの概要であるが、この発明
は上記自然言語処理システムを用いて人名等のカナ振り
データへ−スを自動作成するものである。この実施例で
は分野別辞書１０５を人名として、人名かな振りデータ
ベースを作成する場合を説明する。

％ｘ図はこの発明の処理フローを示しており、磁気記憶
媒体等に格納されたデータベースに対して先ず前処理を
行なう（ステップ５１０）、前処理の詳細は第２図に示
すようになっており、最初にデータの抽出を行ない（ス
テップ５ｌｌ）、抽出したデータのコード変換を行なう
（ステップ５１２）。そして、コート変換されたデータ
に対して分野別辞書１０６のＩＤをセットしくステップ
５１３）、その後に自然言語処理入力ファイルを作成し
くステップ５１４）、全データに対して上２８動作を縁
り返す。

データの抽出はデータベースより当処理でかな振りを行
なう姓名の油圧を行なうもので、コート変換データはＪ
ＩＳコード及びＣＴＳ（Ｃｏｍｐｕｔｅｒ　ＴｙｐｅＳ
ｅ’ｔｔｉｎｇ）コードで作成されている場合が多い。

自然言語処理システムのコード体系は一散的にシステム
固有コードであるため、データのコード変換を行なう必
要がある。分野別辞書ＩＤのセットにおいて、分野別辞
書１０６は、漢字とその読みが対になっているテーブル
である。処理を行なう分野毎に予めコンピュータへの登
録を行ない１からの通し番号（ＩＤ）で管理している。

分野別辞書１０６を使用する場合には、自然言語処理人
力ファイルデータレコードのデータ属性に分野別辞書１
０のセットを行なう。また、自然言語処理入力ファイル
作成は、抽出したデータ毎に自然言語処理人力ファイル
レコードの作成を行なうものである。

上述のように前処理されたデータは次のステップＳ１で
自然言語処理されるが、これに関しては後に詳述する６
分野別辞書１０６を使用したカナ振りの場合、第３図に
示すように先ず分野別辞書１０８を参照してパターンマ
ツチングを行ない（ステップ５１＾）、マツチングのと
れた場合にはその読みを出力し、それ以外は基本辞書１
１５を参照する通常の分かち書き／カナ振りを行なう（
ステップ５ＩＢ）。圧力形式は第１１図に示すようにな
っている０通常の自然言語処理では自然百語第埋入カフ
アイルを作成し、自然言語処理で基本辞書１１５（シス
テム辞書１３１＋ユーザ辞書１３２）を参照して、第４
図に示すような入力原文データに対して第５図に示すよ
うに分かち書き（品詞分解）及びカナ振りを行なう。分
かち書きされたデータの直前にはその単語の品詞識別１
０か付加されており、単語の品詞を判別てきるようにな
っている。次に、自然言語処理された自然言語処理出力
ファイルに対して後処理を行なう（ステップ５２０）、
後処理の詳細は第６図に示すようになっており、先ずコ
ード変換を行なう（ステップ５２１）、自然言語処理シ
ステムの処理結果はシステム固有コードで出力されるの
で、カナ振り処理結果データのＣＴＳコードへのコート
変換を行ない（ステップ５２１）、次にデータベースの
作成を行なう（ステップ５２２）、つまり、コード変換
したデータをデータベース形式のファイルレコードに出
力し、データベースへの登録を行なう。次に、人名カナ
振りファイルの内容をリスト出力しくステップＳ２）、
赤字等を入れた後に姓名カナ振りデータの校正を行なう
０校正を終了したキーワードデータを人名カナ振りデー
タベースとする。カナ振りが正しく行なわれなかったデ
ータについて、分野別辞書１０６の修正を行ない、次回
の自然言語処理の精度の向上を図る。処理結果の典拠辞
書識別に従って処理するが、分野別辞書１０６て読みか
取得されたものについては分野別辞書中の当データの修
正を行ない、他のものについては、正しい読みが振うれ
ているかどうかのチエツクと修正を行なった後に分野別
辞書１０６への登録を行ない、次回からの自然言語処理
の精度の向上を図る。なお、分野別辞書としては他に医
学用語辞書、経済用語辞書化学技術用語辞書等の登録が
考えられる。

姓名の分野別辞書を用いることによって、次の表１に示
すようなカナ振りを行なうことかできる表１基本辞書１１５は自然Ｍ語処理（分かち書き／カナ振り
）を行なう上で一番基本となる辞書で、システム辞ｇ　
１３１とユーザ辞書１３２　とから構成されている。ユ
ーザ辞書１３２の修正を行なう事により、自然言語処理
の精度を向上する事か出来る。

この発明ではＣＴＳの自然言語処理の汎用人出力ファイ
ルとして汎用ファイル（以下、Ｎ１．ファイルとする）
を用いているが、ＮＬファイルでは第１４図に示すよう
にＮＬゼインァイル、　ＩＩＩＬアウトファイル及びＮ
Ｌ情報ファイルの３種類で構成され、フォーマットは同
一である。全体のフォーマットはへダーレコード及びデ
ータレコードで成っており、ヘダーレコードにはレコー
ド識別、シーケンス番号、ファイル識別、ジョブ名、原
稿名、　ＣＴＳシステム名等がある。また、データレコ
ードとしてはレコード識別、シーケンス番号、データ番
号、ＩＡ理種、データ等が含まれている。

入力ルーチン５１００は第１５図に示すように、ＮＬゼ
インァイルをパラメータと共に読込んで自然言語処理入
力ファイル及びＮＬ情報ファイルを作成するようになっ
ており、その詳細は第１６図に示すようになっている。

ＮＬゼインァイルを読込んで、パラメータの指定による
ファンクションの削除及びコート変換（外部−システム
固有コード）を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコート
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチエツク（ステッ
プ５１０１）では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう、ヘダーレコード
作成（ステップ５１０２）では、ＮＬゼインァイルのへ
ダーレコートの内容より、自然言語処理入力ファイル及
びＮＬ情報ファイルのへダーレコーＫを作成する。同デ
ータＮＯのデータの読込２１（ステップ５２０３）の処
理は、同データＮｏを持つレコードの全有効データを処
理単位とする。

従って、ＮＬゼインファイルデータレコード中同データ
ＮＯを持つデータレコードから有効データを抽出する。

データの加工（ステップ５１０４）では、ＮＬゼインァ
イルから抽出したデータのファンクションの削除及びコ
ート変換を行なう。削除したファンクションの情報及び
コート変換情報はＮＬ情報ファイルへ、処理されたデー
タは自然言語処理人力ファイルに出力する。また、デー
タレコードの作成（ステップ５１０５）ては、同データ
ＮＯの加工後（ファンクションの削除、コード変換）の
データを自然言語処理人力ファイルへ出力し、加工情報
をＮＬ情報ファイルへ出力する。

一方、第１４図の出力ルーチン５２００は第１７図に示
すように、自然言語処理の後処理として自然言語処理出
力ファイルとＮＬ情報ファイルを、パラメータと共に読
込んでＮＬアウトファイルを作成するものであり、その
詳細は？；１８図のようになっている。すなわち、自然
言語処理出力ファイルとＮＬ情報ファイルを統込んで、
パラメータの指定によるファンクションの復帰及びコー
ド変換（システム固有コード−外部）を行ない、ＮＬア
ウトファイルを作成する。処理終了後にジョブ名等をリ
スト出力する。パラメータチエツク（ステップ５２０１
）では、ファンクション復帰実行の有無及びコード変換
情報の指示の解析を行なう。ヘダーレコードの作成（ス
テップ５２０３）では、ＮＬ情報ファイル及び自然言語
処理出力ファイルのへダーレコートの内容よりＮＬアウ
トファイルのへダーレコードを作成する。同データＮｏ
のデータの読込み（ステップ５２０４）は同データＮＯ
を持つレコードの全有効データを処理単位とする。自然
言語処理出力ファイルデータレコード中には、人力原文
データと処理結果データか存在するが、処理結果データ
のみを有効データとする。従って、自然言語処理圧カフ
アイルレコード中の同データＮｏを持つデータレコード
から処理結果データを抽出する。また、データの加工（
ステップ５２ｏ５）では、自然言語処理出力ファイルか
ら抽出したデータにファンクションの復帰及びコート変
換を行なう。加工したデータはＮＬアウトファイルに出
力する。

この発明はＣＤ−ＲＯＭ等のデータベースの構築支援と
して利用でき、検索用キーワードの抽出、抽出したキー
ワードへの読みの付加を行ない得る。また、印刷業務で
の利用か可能で、カナ振り機能を利用した総ルビの印刷
物作成や名簿の住所１氏名なとの項目の自動カナ振り、
索引作成の支援システムとして利用できる。

発明の効果。

以上のようにこの発明の分野別辞書を利用したかな振り
データベースの作成方法によれば、専門的な知識や技術
を要することなく自動的に人名専門用語等のデータベー
スを作成することかできる。

【図面の簡単な説明】

第１図はこの発明の動作例を示すフローチャート、第２
図は前処理の動作例を示すフローチャート、第３図は自
然言語処理の作用を示すフローチャート、第４図は自然
言語処理する原文の例を示す図、第５図は分かちカナの
例を示す図、第６図は後処理の動作例を示すフローチャ
ート、第７図は自然言語処理システムのハードウェア構
成例を示すブロック図、第８図はそのソフトウェア構成
例を示す図、第９図は分がち書きの出力形式を示す図、
第１Ｏ図は分かち書ぎ単位のカナ振りの出力形式を示す
図、ｉｌ１図は分野別辞書を使用したカナ振りの出力形
式を示す図、第１２図は総ルヒ振りの出力形式を示す図
、第１３図はキーワード抽出及びキーワードへのカナ振
りの出力形式を示す図、第１４図はこの発明に用いる汎
用ファイルの構成例を示すフローチャート、第１５図は
入力ルーチンの人出力を示す図、第１６図は人力ルーチ
ンの詳細を示すフローチャート、第１７図は出ルリーチ
ンの人出力を示す図、第１８図は出力ルーチンの詳細を
示すフローチャートである。１０・・・ホストマシン、１１・・・ＣＰＩＩ　、　１
２・・・メモリ、１４・・・磁気ディスク装置、１５・
・・カセット磁気テープ装置、２０・・・磁気テープ装
置、２１・・・レーザープリンタ、２２・・・確認／修
正用端末、２３・・・コンソール端末。図面の浄書（内容に変更なし）土願人代理人　　安　形　雄　三慕３ Ω 著図ｔ９図雛副塾図享図め図都図某図手続補正書（方式）平成２年１１月２０日特許庁長官　植　松　　　敏　殿　　口＝１、事件の表
示　　　　　　　　　　　　１′平成２年特許願第２０
２９７３号２、発明の名称分野別辞書を利用したカナ振りデータベースの作成方法事件との関係　　特許出願人（２８９）犬日本印刷株式会社４、代理人５、補正命令の日付平成２年１０月１５日（全送日　平成２年１０月３０日）

Claims

【特許請求の範囲】１、データベースを前処理し、分野別辞書及び基本辞書
を参照して自然言語処理による自然言語処理出力ファイ
ルを作成し、後処理によってカナ振りデータベースを作
成するようにしたことを特徴とする分野別辞書を利用し
たカナ振りデータベースの作成方法。２、前記キーワードデータの校正時に前記分野別辞書を
修正するようになっている請求項１に記載の分野別辞書
を利用したカナ振りデータベースの作成方法。３、前記前処理が、データの抽出、コード変換、前記分
野別辞書のＩＤセット及び自然言語処理入力ファイルの
作成の繰り返しである請求項１に記載の分野別辞書を利
用したカナ振りデータベースの作成方法。４、前記後処理が、前記自然言語処理出力ファイルに対
してコード変換及びデータベース形式ファイルの作成を
行ない、上記動作を繰り返すようになっている請求項１
に記載の分野別辞書を利用したカナ振りデータベースの
作成方法。