JPS6079469A

JPS6079469A - 日本語文の語「い」上「あい」味性検出装置

Info

Publication number: JPS6079469A
Application number: JP58188146A
Authority: JP
Inventors: Tadashi Hoshiai; 忠星合; Yoshio Izumida; 泉田　義男; Hiroshi Ishikawa; 博石川; Toshiaki Yoshino; 利明吉野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-10-07
Filing date: 1983-10-07
Publication date: 1985-05-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分骨〕本発明は、自然言語処理装置に係り、特に、語尾インデ
ックスを持つ単語辞書を備え、辞書引きを含む形態素解
析、および語粟上の曖昧性（語境界の曖昧性、同級異義
、同音異義、多品側）の検出を文字単位のパイプライン
処理に基いて高速に実行できる日本語文の語粟上曖昧性
検出装置に関する。

〔従来技術と問題点〕

形態素解析装置は、例えば「私は花が好きだ。」という
８つの文字列（句点の０を含む）よりなる日本語文があ
るとすると、これを、「私」、「は」、「花」、「が」
、「好き旭す６’５ｒｏＪのように、文を解析して単語
の切り出しを行って単語列を生成する処理を行う。とこ
ろで日本語の中には、同級異義、例えば「こうふ」と「
くふう」と読む「工夫」のような単語や、同音異義、例
えば「花」と「鼻」に対する読み「はな」のような単語
、多品詞、例えば名詞と動詞連用形のいずれにもなり得
る「思い」のような単語など、曖昧な単語がかな）存在
する。また、電文などの例としてよく用いられる「カネ
オクレタノム。」の場合、　「金送れ頼む。」なのか、
或いは「金なくれ頼む。」なのか、また、　「カ本」は
「金」なのか、或いは「鐘」なのかなどが曖昧になって
しまう。

従来の形態素解析装置としては、日本語の入力文が語垂
上の曖昧性を有する場合、■単語の分割において、何ら
かの制限を加えることによシ、１通りの単語列のみ出力
する方式と、■可能な単語列（複数個）を全て出力する
が処理形態は逐次処理である方式とがあるが、前者は、
構文解析、意味解析、文脈解析などによシ解釈を判定す
べき場合であっても、それらの情報を使わずに解釈を固
定してしまうことがあるという欠点を有し、また後者は
、曖昧な入力文を逐次処理することにより、処理時間が
解釈の数（単語列の数）に比例して増大するという欠点
を有する。

〔発明の目的〕

本発明は、上記の考察に基づ（ものであって、分かち書
きされない日本語文人力に対し、１文字分の処理を２動
作単位とし、同時にＮ個（Ｎは〕ぜイブラインの長さ）
の文を解析し得るノぐイブライン処理装置によシ形態素
解析をすることによって、入力文を持つ曖昧性を検出し
、可能な単語分かち書きを全て出力することを高速に実
現する日本語文の語垂上曖昧性検出装置を提供すること
を目的とするものである。

〔発明の構成〕

そのために本発明の日本語文の語粟上曖昧性検出装置は
、日本語の入力文章の文字列を分かち書きされた単語列
に変換して変換結果と曖昧性に関する情報を出力する日
本語文の語垂上曖昧性検出装置であって、日本語文の入
力を制御し入力文章に識別番号を添加する入力制御部、
語尾文字インデックスによシ単語が配列され各単語に曖
昧性に関する情報をもつ単語辞書、パイプライン処理に
おいて次の文字を先読みして当該文字を語尾文字インデ
ックスとして上記辞書から単語群を辞書引きする先読み
辞書引き部、文字単位のノ々イブライン処理により上記
先読み辞書引き部の前段で辞書引きされた単語群と前段
までに変換処理された単語・文字混合列の組とのマツチ
ングを行い、変換結果の単語・文字混合列の組と曖昧性
に関する情報を次段に送ると共に１次の文字を上記先読
み辞書引き部に送る曖昧性検出部、及び上記曖昧性検出
部で単語列として分かち書きされた変換結果と曖昧性に
関する情報を上記識別番号に従って出力する出力制御部
を具備することを特徴とするものである。

〔発明の実施例〕

以下、本発明の実施例を図面を参照しつつ説明する。

第１図は本発明が適用される曖昧性検出装置の１実施例
構成を示す図、第２図は語尾文字をインデックスとする
単語辞書の構成例を示す図、第３図は本発明の曖昧性検
出装置の他の実施例構成を示す図である。図において、
ａｌないしａＮは曖昧性検出器、ｂは出力バツフ了、Ｃ
１は入力制御器、Ｃ９は出力制御器、ｄは辞書、ｅ、な
いしｅＮは先読み辞書引き器、ｆｌ、１ないしｆＮ　Ｌ
Ｍは単語分割１の並列処理用プロセッサを示す。

本発明は、パイプライン処理の並列動作の特徴を利用す
ることにより、日本語文の語索上の曖昧性を高速に検出
するようにし、また、１文字車位のパイプライン処理に
最適な単語辞書として、語　。

尾文字インデックスによシ候補単語群の一括検索が可能
な語尾インデックス辞書を利用し、辞書の検索効率を上
げるようにしたものである。

漠字カナ交り表記の入力文章に対し、単語列に分かち書
きして出力し、さらに語常上の曖昧性（語境界の曖昧性
、同級異義、同音異議、多品詞）を含む場合には、それ
を検出し、可能な単語列を全て出力する機能を有する曖
昧性検出装置の１実施例構成を示したのが第１図である
。

第１図において、入力文章は２バイト・コード列として
入力制御器Ｃ８より入力され、句点６゜′によ＃）１文
ごとに区切られ、順次曖昧性検出器ａ０に送られる。そ
してＮ台の曖昧性検出器ａ、ないしａＮＮノミ、ａ、、
・・・・・・ａ８の順にパイプライン処理が施される。

各曖昧性検出器ａ１ないしａＮは、１〜、・文字ごとに文字列→単語列の変換を行うので、パイ
プライン処理が施され、パイプラインを通過すると、Ｎ
文字分の変換が施される。従って、日本語入力文の１文
当シの文字数の分布を考慮してＮを設定すべきである。

また、各検出器ａｈ　（↓−１，２、・・・・・・、Ｎ
）には、先読み辞書引き器ｅ↓が接続されておシ、次の
文字を先読みして、その文字を語尾とする単語群を辞書
ｄよシ獲得して、後続の曖昧性検出器ａＬ＋１へ送る。

辞書ｄは、第２図に示すように、語尾文字をインデック
スとして、°その文字を語尾とする単語群を一括して検
索できるようになっている。辞書項目としては、漠字カ
ナ交シ表記の見出し、見出しの文字数、曖昧性情報（曖
昧性の独別を示す）、読みがな、品詞分類があるが、こ
れらの項目は、応用によって増減してもよい。この語尾
文字をインデックスとする辞書ｄは、１文字を処理単位
とするパイプライン構造の場合、特に単語の切シ出しの
効率が高くなるので、有効な辞書構成法である。ま、た
、１文の長さがｍ文字（ｍ≦Ｎ）であるような文は、曖
昧性検出器ａｍにおいて、文字列→単語列の変換が終了
するので、変換結果の後部に未変換の文字が残っている
ような単語分割については、不適格として棄却する。そ
れ以外の単語分割については全て適格であり、それぞれ
の単語列は、曖昧性情報、文の識別番号Ｉとともに出力
バッフ了すに送られる。

文の長さは不特定であるので、出力バッファｂに送られ
る順番は必ずしも入力の順番と一致しない。

出力制御器Ｃ７は、既に出力法の最新の文の識別番号が
Ｊであるとき、出カバ、フ丁すのデータ中からＪ＋１の
文に対応するデータを探して出力する。もし、見つから
なければ、Ｊ＋１の文のデータが到着するまで待機する
。

また、出力制御器Ｃ７は、出力バッフ了すの状態を監視
し、出カバ、フ了すの容量近くまでデータが格納された
ときには、入力制御器Ｃ１に対して、入力の一時停止の
指示を送り、その後出力バザフフの状態が緩和されたと
きに入力再開の指示を送るＯ次に、パイプライン処理の成るフェーズＴＫニおける曖
昧性検出器ａＬの処理および曖昧性検出器ａ！＋１との
関係について詳述する。フェーズＴえの始めの時刻にお
いては、曖昧性検出器ａＡは、曖昧性検出器３Ｌ−１か
ら１番目の文Ｓ、のＡ−１番目の文字まで変換処理を施
した単語・文字混合らは文Ｓ　の１番目の文字ｌ、を語
尾とする単語文字ｌ、が句点である場合には、文末処理
（単語・文字混合列の組ｓｊ／−１の中から未変換の文
字列を含むような単語分割を棄却する）を施した後、文
識別番号Ｊを付けたまま出力バッファすへ送る。

しかし文字ｔＪ、が句点でない場合には、まず曖昧性検
出器ａ、は文字ｔ＞＋ｓを先読み辞書引き器ｅ４に送る
。先読み辞書引き器ｅＬは、文字１ｊ＋１を語尾インデ
ックスとして辞書ｄから単語群ｖ　（４＋ｔ　）を獲得
し、フェーズＴＰ：の終シの時刻（＝　Ｔｘ＋１の始め
の時刻）に曖昧性検出器ａｊ刊へ出力する。曖昧性検出
器ａ、は、上記の先読み辞書引き器ｅＬの動作と、は並
列に、文ｓ；＝１と単語群Ｖ（ＺＬ／）とのマッチンレ
・や図６ｏｔ□ゎち、文８．。各章お０文字混合↓−１列の文字１．以前の部分文字列と単語群Ｖ（Ｚ、）中の
各単語の中に一致するものがあるが否かを調べる。

今、１番目の文Ｓ／が文字列１．１．・・・・・・ｔ、
ＴＩであり、曖昧性検出器ａＬ−１の出方結果、文ｓニ
ー１の各単語・文字混合列の変換部分（Ａ−１文字目ま
で）が、Ｗ８．、・・・・・・・・・Ｗ、、ｔｌ（Ｚハ　・・・
・・・・・・１ｂ−ｓ　）Ｗ７，１・・・・・・・・Ｗ
、　、　ｔ、、　（ｌ、、・・・・・・・・・Ｔｏ−ｓ
　）ｗｎ、ｔ・・・・・・・”　Ｗｎ、ｔｎ　（２Ａｎ
・・・・・・・・・１．−１）但し、１１α１１：文字
列ａの長さとすると、また、ｘ　＝　ｌ、２、・・・・
・・、力についてｔＬＫ・・・・・・・・・ｔｌ−１φ
■（ｔＬＪ、−１）かつ　ｂ−Ｌｘ　＜’ｍａＸ　、−
１（Ｉｆ　ａ　ＩＩ　）ｄ５Ｖ（７／）であること。

である場合、文Ｓ；を得るためには、例えば第１番目の
Ｗｌ、１・・・・・・・・・ＷＩ　＋　ｔｓ　（Ａｈ　
ｌ−９−９１１−８）に対して■（ｔｌｒ・・・・・ｔ
ｔ１）ムこｖ（ｚ；）ならばＷｌ、１°°°００渭１ｔ
ｌ　Ｗ（ｔ、ｔ）＋　ｔｓ＋＞　（Ｈ８１但し・Ｗ（’
４　’　）　＋　ｔ１＋１　＝　（１−ＡＩ・・・・・
・ｔ、−ｘ　）　ｌｂ■Ｗ１．　ｔ、＋ｐ、−°−ＶＪ
、　、　ｔ、　（１，、−−−−−−ｔ　、−１）　ｔ
、　〔ｖ（ｌＪ、）ならばＷｌ、、°”Ｗｔ、ｔｓ−ｐｔ−＋Ｗ（ｓ、ｐｌａ）　
、ｔｔ−ｐｔε８７但し、Ｗ（１、ｐｔ＋＊　）　、　
ｔｌ−ｐｉ°Ｗ！、　ｔｌ−ｐｉ°°°°°゛…ｗ、、
ｔｌ（ｔＬ、・・・・・・・・・１．−１＞１にという
条件を満たさなければならない。

また、■と■のいずれも満たさない場合、■ＩＩ（ｔＬ
ｌ・・・・・・１ｈ−ｓ　）　１Ｌ１１　＜ＭＤのとき
、ＷＩ、ビ°１°０Ｗｔ　、’ｔｔ　（ｔｂ１……Ｉ　
Ａ−１）　’ＬＩＥＥＳ／但し、ＭＤは辞書中の見出し
の文字列の長さの最大値 ■ＩＩ（ｚ、１・・・・・・１ｂ−ｔ　）　１ｂ１１〉
Ｍｎのとき、単飴分割Ｗ口・・・・・・Ｗｌｌｔ、は不
適格となる。

次に、１文の文字数がＮを越える文の処理について述べ
る。この場合、Ｎ＋１文字目以降を処理するプロセッサ
が存在しないので、パイプライン処理を循環型に動作さ
せる。すなわち、曖昧性検出器ａｎへの入力文Ｓ７ｔか
ら入力文の長さがＮ　＋１以上であることがわかった場
合、曖昧性検出器ａ１は、入力制御器Ｃ１へ信号を送り
、入力制御器ｃ１が新たな入力文を曖昧性検出器ａｍに
入力しないように指示する。

そして、Ｎ＋１文字目の文字！／１　を先読み辞書引き
器ｅＮに送る。先読み辞■引き器ｅＮは、文字４＋１を
語尾インデックスとして辞書引きし、その結果とのマツ
チングを行い、不適格でないものを文ｓ、１として出力
し、曖昧性検出器ａ、へ送る。そして、次のフェーズに
おいて、曖昧性検出器ａ、は、５番目の文のＮ＋１文字
目について処理を行う。このフェーズにおいて、入力制
御器６に曖昧性検出器ａ、Ｉから新たな入力停止信号が
送られない限シ、入力制御器ＣＩは次のフェーズに新た
な入力文を入力する準備を行う。

本発明の他の実施例を示したのが第３図である。

第３図において、第１図に示す構成と異なるのは、■各
曖昧性検出器ａ１ないしａＮがＬ↓個ずつのプロセッサ
ｆＬＪＬから構成されている点であり、これにＬ＋１れぞれの単語分割について並列動作によって文Ｓ。

をめることができる点、及び■辞書において、語尾を文
字ｔとする単語群Ｖ　（Ｚ）の配列を逆配列（単語の綴
シを逆順に並べ換えた文字列を基準にして、アルファベ
ット順に辞書配列すること）にし、文字列１．・・・・
・・ｌＫの部分文字列になシ得る単語群Ｖ／　（ｔｌ・
・・・・・１Ｋ）を迅速に得ることによシ、文字列→単
語変換の処理をさらに高速化できる点の２点である。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、形態
素解析において、入力の日本語文章を高速に分かち書き
し、さらにａｔ上の曖昧性を能率良く検出できるという
りｌ果がある。

【図面の簡単な説明】

第１図は本発明が適用される曖昧性検出装置の１実施例
構成を示す図、第２図は語尾文字をインデックスとする
単語辞書の構成例を示す図、第３図は本発明の曖昧性検
出装置の他の実施例構成を示す図である。ａｌないしａ）Ｉ・・・曖昧性検出器、ｂ・・・出カバ
ッフ丁、Ｃ８・・・入力制御器、Ｃ２・・・出力制御器
、ｄ・・・辞書、ｅｌないしｅ）Ｉ・・・先読み辞書引
き器、’１１ないし’Ｎ、Ｉ、Ｎ・・・単語分割の並列
処理用プロセッサ。特許出願人　富士通株式会社代理人弁理士　京　谷　四　部

Claims

【特許請求の範囲】

日本語の入力文章の文字列を分がち書きされた単語列に
変換して変換結果と曖昧性に関する情報を出力する日本
語文の語粟上曖昧性検出装置であって、日本語文の入力
を制御し入力文章に識別番号を添加する入力制御部、語
尾文字インデックスにより単語が配列され各単語に曖昧
性に関する情報をもつ単語辞書、パイプライン処理にお
いて次の文字を先読みして当該文字を語尾文字インデッ
クスとして上記辞書から単語群を辞書引きする先読み辞
書引き部、文字単位のパイプライン処理により上記先読
み辞書引き部の前段で辞書引きされた単語群と前段まで
に変換処理された単語・文字混合列の組とのマツチング
を行い、変換結果の単語・文字混合列の組と曖昧性に関
する情報を次段に送ると共に、次の文字を上記先読み辞
書引き部に送る曖昧性検出部、及び上記曖昧性検出部で
単語列として分かち書きされた変換結果と曖昧性に関す
る情報を上記識別番号に従って出力する出力制御部を具
備することを特徴とする日本語文の語垂上曖昧性検出装
置。