JPH01306959A - 単語分割誤り検出方式 - Google Patents

単語分割誤り検出方式

Info

Publication number
JPH01306959A
JPH01306959A JP63137527A JP13752788A JPH01306959A JP H01306959 A JPH01306959 A JP H01306959A JP 63137527 A JP63137527 A JP 63137527A JP 13752788 A JP13752788 A JP 13752788A JP H01306959 A JPH01306959 A JP H01306959A
Authority
JP
Japan
Prior art keywords
word
local
result
division
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63137527A
Other languages
English (en)
Inventor
Minoru Ashizawa
実 芦沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63137527A priority Critical patent/JPH01306959A/ja
Publication of JPH01306959A publication Critical patent/JPH01306959A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語、中国語のように単語間にスペースを
置かず、へた書きされるテキストを単語に分割する処理
方式に係り、その誤解析を防止するための前編集支援に
好適な単語分割誤り検出方式に関する。
〔従来の技術〕
従来の単語分割処理方式として例えば特開昭61’−4
0671号、特開昭61−16367号あるいは、特開
昭61−210479号に記載の技術が知られている。
これら従来の方式は、単語の隣接の可否を単語の品詞あ
るいは品詞を細分化したものを用いて記述した品詞接続
行列を用いた文法チエツクを行なうことで、単語分割処
理における誤りを排除するとなっていた。
また、特開昭61”−12807号に記載のように、単
語分割処理の結果に複数のものが考えられる場合に、単
語の素性の組として表現された局所分割パターンの間の
選好順位を定義しておき、−次解を求めた後に、選好順
位低い局所的分割パターンと一致する一次解の部分につ
いて別解を求め、その別解が、より順位の高い局所的分
割パターンと一致する場合に一次解と別解を入れかえる
となっていた。
〔発明が解決しようとする課題〕
上記特開昭6>40671号などの従来技術は簡便で高
速な処理が可能であるが、文法的チエツクを行なう際に
、品詞あるいは品詞を細分したものだけを用いるため、
その解析精度に限界があった。
上記従来技術は機械翻訳等の自然言語処理技術を応用し
たシステムに組み込んで使用されることが多い。機械翻
訳等の自然言語処理技術は、数多くの処理ステップから
構成されている。したがって−に記従来技術の精度の限
界による単語分割の誤りがあったとしても、システムの
使用者がその結果を知るのは数多くの処理ステップを経
た後である。このため、システムの出力を見た限りでは
、出力中にあるのか、単語分割処理ステップにあるのか
を識別することが難しい場合があるという問題点がある
また、機械翻訳のように、第1言語から第2言語への翻
訳を行なう処理における誤りを発見するためには、第1
言語と第2言語の両方を解する人材を得ることが、第1
言語と第2言語の組み合わせによっては非常に困難であ
るという問題点がある。
非常に大量の文書を効率的に処理するためには、第1言
語しか解さない人相でもその処理を確認でき、更に確認
すべき項目を減らすことが重要であるが、そのようなも
のを単語分割処理にをして実現している例はない。
また、特願昭61−12807号のように、複数の解か
ら局所的分割パターンの優先順位によって1つの解を選
択する際にも、その正解率を向上させるためには統計的
な検討を重ねる必要があるだけではなく、明確な順位を
付けることが難しい場合が生ずるという問題点を残して
いる。また、辞書登録単語の不足等によって誤った単語
分割処理結果を得た場合のように、単語分割処理の結果
が唯一つしかないときでもその結果が誤りである場合の
考慮がされていないという問題点がある。
本発明の目的は、上記問題点を回避し、単語分割処理が
誤りである可能性が高い所を検出し、単語分割処理の結
果の確認を効率良く行なう手段を提供することにある。
〔課題を解決するための手段〕
上記目的は、テキスト記憶手段と、単語辞書記憶手段と
、単語のカテゴリの隣接の可否を表す行列を記憶する手
段を利用する単語分割処理方式において、入力されたテ
キストの新局的な分割パターンとした単語のカテゴリま
たは属性の組み合わせの並びを記憶する手段と、単語分
割処理の結果と記憶された局所的な分割パターンを比較
するステップと、その比較した結果が一致した単語分割
処理の結果の一部または全部を表示するステップを設け
ることにより達成される。
〔作用〕
本発明では、単語のカテゴリまたは属性の組み合わせの
並びの形式で、単語分割処理の結果として誤っている可
能性の高い局所的な分割パターンを記述し、局所的分割
パターン記憶手段に記憶しておき、テキスト記憶手段と
単語辞書記憶手段と接続行列記憶手段を利用する単語分
割処理方式によってテキストを単語に分割し、単語分割
処理の結果と、記憶されている局所分割パターンを比較
して、比較結果が一致した単語分割処理の結果の部分ま
たは全部を表示することにより単語分割処理が誤りであ
る可能性が高い部分を検出し、単語分割処理の結果を効
率良く行なうことができる。
〔実施例〕
第1図は本発明を示すフロー図である。第2図は品詞接
続行列の概念を表す図である。第2図において品詞Cm
と品詞C0の交点が1とあるのは、品詞Cmに品詞C工
が後接可能であることを示す。
同様に、品詞Cnと品詞C0の交点が0とあるのは、品
詞Cnに品詞C8が後接不可であることを示す。第3図
は本発明を実現する装置の一例を示す図である。
第4図は、単語分割処理結果として誤っている可能性の
高い局所的な分割パターンと、それの対処を示すメツセ
ージの例である。
第1図のステップ101において、第3図の単語分割処
理手段302は、単語辞書記憶手段303と品詞接続行
列記憶手段304に記憶されている内容を参照しながら
、テキスト記憶手段301に記憶されているテキストを
単語に分割する。その結果をWORDとする。例えば「
動的判別しきい値選定法」というテキストに対して、第
5図に示すような結果を得る。この例では、「しきい値
」という単語が辞書に記憶されていないために、「判別
しきい値」の部分が、「判別し」(す変動制連用形)+
「き」 (力変動詞連用形)+「い」 (ア行上−段動
詞「いる」連用形)+「値」 (名詞)のように誤って
分割されている。
しかし、テキストの中に、辞書登録単語との対応づけが
できなかった部分がないので、従来の技術では、この誤
りを検出することができない。
この単語分割処理の後、第3の誤り検出手段307は第
1図のステップ102からステップ111において局所
的分割パターン記憶手段306に記憶されている内容と
、単語分割手段の結果を比較する。局所的分割パターン
記憶手段306には第4図に示す内容が記憶されている
まず、ステップ102において、第6図に示すような構
造をもつ変数WRONGの各要素にOを代入する。
次にステップ103において、局所的分割パターンのイ
ンデックスとして使用する変数P−iDxに1を代入す
る。この結果P−iDxは、第4図の局所的分割パター
ン401を指し示すようになる。
このため、ステップ104の条件は成立し、スフ− テップ105へ進9・。ここでWORDの単語のインデ
ックスとして使用する変数W−iDxに1を代入する。
W−iDxは、「動的」を指し示すようになる。この「
動的」とそれに続く「判別し」は、現在のP−iDxが
指し示す局所的分割パターン(第4図401)とは一致
しないので、ステップ107.ステップ108を経てス
テップ110に進む。ここで、W−iDxに1が加えら
れ、W−iDxは、「判別し」を指し示すようになる。
再びステップ106を経てステップ107へ進む。「判
別し」と「き」は、現在のP−iDxが指し示す局所的
分割パターンと一致する。このため、ステップ108を
経てステップ109へ進む。ここて、変数WRONGの
、単語「判別し」に対応する部分にP−iDxの内容を
代入する(第6図602)。
以下、同様な処理を繰り返して第6図に示すような比較
結果を得る。これは、第5図の502「判別しJ、50
3 rきJ、504rいJの各単語と第6図602,6
03,604がそれぞれ対応し、それらが、第4図40
1の局所的分割パターンと一致したことを示す。
この後、第1図ステップ112で、第3図の検出結果表
示手段307が第6図の内容を参照しながらテキストの
印字を行なう。即ち、第7図のよ   ′うに、第6図
で値が1以上になっていることによって局所的分割パタ
ーンとの対応が示されている部分の単語を分かち書きし
、その範囲にアンダーラインを付す。更にその次の行に
、アンダーラインを付した範囲と対応する位置に、メツ
セージを印字する。
なお、第3図において、単語分割処理手段3o2.誤り
検出手段3o5.検出結果表示手段307を共通のプロ
セッサで実現することもでき、また、記憶手段301,
303,304,306を共通のメモリで実現すること
もできる。
〔発明の効果〕
本発明によれば、単語分割処理の結果で、誤っている可
能性の高い部分を明示することができるので、その処理
の正否の確認を効率的に行なうことができるようになる
。また、別解探索を行なう必要がないので、処理効率の
低下がなく、かつ、辞書登録単語の不足に起因する解析
誤りを検出することができるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図である。第2図は品
詞接続行列の概念を示す図である。第3図は本発明を実
現する装置の例を示す図である。 第4図は局所的分割パターンと、対処方法を示すメツセ
ージの例を示す図である。第5図は、単語分割処理の誤
りのある結果の一例を示す図である。 第6図は誤りの検出結果の一例を示す図である。 第7図は本発明による誤りの検出結果を表、示の一例を
示す図である。

Claims (1)

  1. 【特許請求の範囲】 1、テキスト記憶手段と、単語辞書記憶手段と、単語の
    カテゴリの隣接の可否を表す行列を記憶する接続行列記
    憶手段を利用する単語分割処理方式において、入力され
    たテキストの局所的な分割パターンとして単語のカテゴ
    リまたは属性の組み合わせの並びを記憶する局所的分割
    パターン記憶手段と、単語分割処理の結果と記憶された
    局所的な分割パターンを比較する手段と、その比較した
    結果が一致した単語分割処理の結果の部分または全部を
    表示し、同時に、表示されたものに対処する方法を表示
    する手段を設けたことを特徴とする単語分割誤り検出方
    式。 2、前記の局所的分割パターンは、単語のカテゴリの隣
    接の可否を表す行列によっては排除できないような誤り
    である単語の並びを表現するものであることを特徴とす
    る請求項第1項記載の単語分割誤り検出方式。 3、前記の局所的分割パターンが表現する単語分割誤り
    に対処する方法を表示する文字列を、局所的分割パター
    ンごとに定義することを可能とすることを特徴とする請
    求項第1項記載の単語分割誤り検出方式。
JP63137527A 1988-06-06 1988-06-06 単語分割誤り検出方式 Pending JPH01306959A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63137527A JPH01306959A (ja) 1988-06-06 1988-06-06 単語分割誤り検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63137527A JPH01306959A (ja) 1988-06-06 1988-06-06 単語分割誤り検出方式

Publications (1)

Publication Number Publication Date
JPH01306959A true JPH01306959A (ja) 1989-12-11

Family

ID=15200763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63137527A Pending JPH01306959A (ja) 1988-06-06 1988-06-06 単語分割誤り検出方式

Country Status (1)

Country Link
JP (1) JPH01306959A (ja)

Similar Documents

Publication Publication Date Title
US6694055B2 (en) Proper name identification in chinese
US5678051A (en) Translating apparatus with special display mode for supplemented words
US20050234898A1 (en) Method and system for searching a multi-lingual database
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
KR100798752B1 (ko) 한국어 맞춤법 검사기 및 검사방법
JPS58192173A (ja) 機械翻訳装置
JPS6118072A (ja) 辞書デ−タの自動登録方式
JPH01306959A (ja) 単語分割誤り検出方式
CN108564086A (zh) 一种字符串的识别校验方法及装置
CN109947908B (zh) 机器人知识库的建设方法及建设系统
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
KR101158331B1 (ko) 띄어쓰기 일관성 검사 방법
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JP3884001B2 (ja) 言語解析システムおよび方法
JPH0290364A (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP2958811B2 (ja) 日本語文章処理装置
JP3118880B2 (ja) 日本語文章処理装置
JPS62256069A (ja) 文書処理装置
JPS63234348A (ja) 文章校正支援方式
JPH07200592A (ja) 文章処理装置
JPH05120325A (ja) 電子化辞書
Rajashekara Murthy et al. ANon-WORD KANNADA SPELL CHECKER USING MORPHOLOGICAL ANALYZER AND DICTIONARY LOOKUP METHOD
JPH05135096A (ja) 形態素解析方式