JPH01306959A

JPH01306959A - 単語分割誤り検出方式

Info

Publication number: JPH01306959A
Application number: JP63137527A
Authority: JP
Inventors: Minoru Ashizawa; 実芦沢
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-06-06
Filing date: 1988-06-06
Publication date: 1989-12-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、日本語、中国語のように単語間にスペースを
置かず、へた書きされるテキストを単語に分割する処理
方式に係り、その誤解析を防止するための前編集支援に
好適な単語分割誤り検出方式に関する。

〔従来の技術〕

従来の単語分割処理方式として例えば特開昭６１’−４
０６７１号、特開昭６１−１６３６７号あるいは、特開
昭６１−２１０４７９号に記載の技術が知られている。

これら従来の方式は、単語の隣接の可否を単語の品詞あ
るいは品詞を細分化したものを用いて記述した品詞接続
行列を用いた文法チエツクを行なうことで、単語分割処
理における誤りを排除するとなっていた。

また、特開昭６１”−１２８０７号に記載のように、単
語分割処理の結果に複数のものが考えられる場合に、単
語の素性の組として表現された局所分割パターンの間の
選好順位を定義しておき、−次解を求めた後に、選好順
位低い局所的分割パターンと一致する一次解の部分につ
いて別解を求め、その別解が、より順位の高い局所的分
割パターンと一致する場合に一次解と別解を入れかえる
となっていた。

〔発明が解決しようとする課題〕

上記特開昭６＞４０６７１号などの従来技術は簡便で高
速な処理が可能であるが、文法的チエツクを行なう際に
、品詞あるいは品詞を細分したものだけを用いるため、
その解析精度に限界があった。

上記従来技術は機械翻訳等の自然言語処理技術を応用し
たシステムに組み込んで使用されることが多い。機械翻
訳等の自然言語処理技術は、数多くの処理ステップから
構成されている。したがって−に記従来技術の精度の限
界による単語分割の誤りがあったとしても、システムの
使用者がその結果を知るのは数多くの処理ステップを経
た後である。このため、システムの出力を見た限りでは
、出力中にあるのか、単語分割処理ステップにあるのか
を識別することが難しい場合があるという問題点がある
。

また、機械翻訳のように、第１言語から第２言語への翻
訳を行なう処理における誤りを発見するためには、第１
言語と第２言語の両方を解する人材を得ることが、第１
言語と第２言語の組み合わせによっては非常に困難であ
るという問題点がある。

非常に大量の文書を効率的に処理するためには、第１言
語しか解さない人相でもその処理を確認でき、更に確認
すべき項目を減らすことが重要であるが、そのようなも
のを単語分割処理にをして実現している例はない。

また、特願昭６１−１２８０７号のように、複数の解か
ら局所的分割パターンの優先順位によって１つの解を選
択する際にも、その正解率を向上させるためには統計的
な検討を重ねる必要があるだけではなく、明確な順位を
付けることが難しい場合が生ずるという問題点を残して
いる。また、辞書登録単語の不足等によって誤った単語
分割処理結果を得た場合のように、単語分割処理の結果
が唯一つしかないときでもその結果が誤りである場合の
考慮がされていないという問題点がある。

本発明の目的は、上記問題点を回避し、単語分割処理が
誤りである可能性が高い所を検出し、単語分割処理の結
果の確認を効率良く行なう手段を提供することにある。

〔課題を解決するための手段〕

上記目的は、テキスト記憶手段と、単語辞書記憶手段と
、単語のカテゴリの隣接の可否を表す行列を記憶する手
段を利用する単語分割処理方式において、入力されたテ
キストの新局的な分割パターンとした単語のカテゴリま
たは属性の組み合わせの並びを記憶する手段と、単語分
割処理の結果と記憶された局所的な分割パターンを比較
するステップと、その比較した結果が一致した単語分割
処理の結果の一部または全部を表示するステップを設け
ることにより達成される。

〔作用〕

本発明では、単語のカテゴリまたは属性の組み合わせの
並びの形式で、単語分割処理の結果として誤っている可
能性の高い局所的な分割パターンを記述し、局所的分割
パターン記憶手段に記憶しておき、テキスト記憶手段と
単語辞書記憶手段と接続行列記憶手段を利用する単語分
割処理方式によってテキストを単語に分割し、単語分割
処理の結果と、記憶されている局所分割パターンを比較
して、比較結果が一致した単語分割処理の結果の部分ま
たは全部を表示することにより単語分割処理が誤りであ
る可能性が高い部分を検出し、単語分割処理の結果を効
率良く行なうことができる。

〔実施例〕

第１図は本発明を示すフロー図である。第２図は品詞接
続行列の概念を表す図である。第２図において品詞Ｃｍ
と品詞Ｃ０の交点が１とあるのは、品詞Ｃｍに品詞Ｃ工
が後接可能であることを示す。

同様に、品詞Ｃｎと品詞Ｃ０の交点が０とあるのは、品
詞Ｃｎに品詞Ｃ８が後接不可であることを示す。第３図
は本発明を実現する装置の一例を示す図である。

第４図は、単語分割処理結果として誤っている可能性の
高い局所的な分割パターンと、それの対処を示すメツセ
ージの例である。

第１図のステップ１０１において、第３図の単語分割処
理手段３０２は、単語辞書記憶手段３０３と品詞接続行
列記憶手段３０４に記憶されている内容を参照しながら
、テキスト記憶手段３０１に記憶されているテキストを
単語に分割する。その結果をＷＯＲＤとする。例えば「
動的判別しきい値選定法」というテキストに対して、第
５図に示すような結果を得る。この例では、「しきい値
」という単語が辞書に記憶されていないために、「判別
しきい値」の部分が、「判別し」（す変動制連用形）＋
「き」　（力変動詞連用形）＋「い」　（ア行上−段動
詞「いる」連用形）＋「値」　（名詞）のように誤って
分割されている。

しかし、テキストの中に、辞書登録単語との対応づけが
できなかった部分がないので、従来の技術では、この誤
りを検出することができない。

この単語分割処理の後、第３の誤り検出手段３０７は第
１図のステップ１０２からステップ１１１において局所
的分割パターン記憶手段３０６に記憶されている内容と
、単語分割手段の結果を比較する。局所的分割パターン
記憶手段３０６には第４図に示す内容が記憶されている
。

まず、ステップ１０２において、第６図に示すような構
造をもつ変数ＷＲＯＮＧの各要素にＯを代入する。

次にステップ１０３において、局所的分割パターンのイ
ンデックスとして使用する変数Ｐ−ｉＤｘに１を代入す
る。この結果Ｐ−ｉＤｘは、第４図の局所的分割パター
ン４０１を指し示すようになる。

このため、ステップ１０４の条件は成立し、スフ− テップ１０５へ進９・。ここでＷＯＲＤの単語のインデ
ックスとして使用する変数Ｗ−ｉＤｘに１を代入する。

Ｗ−ｉＤｘは、「動的」を指し示すようになる。この「
動的」とそれに続く「判別し」は、現在のＰ−ｉＤｘが
指し示す局所的分割パターン（第４図４０１）とは一致
しないので、ステップ１０７．ステップ１０８を経てス
テップ１１０に進む。ここで、Ｗ−ｉＤｘに１が加えら
れ、Ｗ−ｉＤｘは、「判別し」を指し示すようになる。

再びステップ１０６を経てステップ１０７へ進む。「判
別し」と「き」は、現在のＰ−ｉＤｘが指し示す局所的
分割パターンと一致する。このため、ステップ１０８を
経てステップ１０９へ進む。ここて、変数ＷＲＯＮＧの
、単語「判別し」に対応する部分にＰ−ｉＤｘの内容を
代入する（第６図６０２）。

以下、同様な処理を繰り返して第６図に示すような比較
結果を得る。これは、第５図の５０２「判別しＪ、５０
３　ｒきＪ、５０４ｒいＪの各単語と第６図６０２，６
０３，６０４がそれぞれ対応し、それらが、第４図４０
１の局所的分割パターンと一致したことを示す。

この後、第１図ステップ１１２で、第３図の検出結果表
示手段３０７が第６図の内容を参照しながらテキストの
印字を行なう。即ち、第７図のよ　　　′うに、第６図
で値が１以上になっていることによって局所的分割パタ
ーンとの対応が示されている部分の単語を分かち書きし
、その範囲にアンダーラインを付す。更にその次の行に
、アンダーラインを付した範囲と対応する位置に、メツ
セージを印字する。

なお、第３図において、単語分割処理手段３ｏ２．誤り
検出手段３ｏ５．検出結果表示手段３０７を共通のプロ
セッサで実現することもでき、また、記憶手段３０１，
３０３，３０４，３０６を共通のメモリで実現すること
もできる。

〔発明の効果〕

本発明によれば、単語分割処理の結果で、誤っている可
能性の高い部分を明示することができるので、その処理
の正否の確認を効率的に行なうことができるようになる
。また、別解探索を行なう必要がないので、処理効率の
低下がなく、かつ、辞書登録単語の不足に起因する解析
誤りを検出することができるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図である。第２図は品
詞接続行列の概念を示す図である。第３図は本発明を実
現する装置の例を示す図である。第４図は局所的分割パターンと、対処方法を示すメツセ
ージの例を示す図である。第５図は、単語分割処理の誤
りのある結果の一例を示す図である。第６図は誤りの検出結果の一例を示す図である。第７図は本発明による誤りの検出結果を表、示の一例を
示す図である。

Claims

【特許請求の範囲】１、テキスト記憶手段と、単語辞書記憶手段と、単語の
カテゴリの隣接の可否を表す行列を記憶する接続行列記
憶手段を利用する単語分割処理方式において、入力され
たテキストの局所的な分割パターンとして単語のカテゴ
リまたは属性の組み合わせの並びを記憶する局所的分割
パターン記憶手段と、単語分割処理の結果と記憶された
局所的な分割パターンを比較する手段と、その比較した
結果が一致した単語分割処理の結果の部分または全部を
表示し、同時に、表示されたものに対処する方法を表示
する手段を設けたことを特徴とする単語分割誤り検出方
式。２、前記の局所的分割パターンは、単語のカテゴリの隣
接の可否を表す行列によっては排除できないような誤り
である単語の並びを表現するものであることを特徴とす
る請求項第１項記載の単語分割誤り検出方式。３、前記の局所的分割パターンが表現する単語分割誤り
に対処する方法を表示する文字列を、局所的分割パター
ンごとに定義することを可能とすることを特徴とする請
求項第１項記載の単語分割誤り検出方式。