JPS63284676A - 文字列処理装置 - Google Patents

文字列処理装置

Info

Publication number
JPS63284676A
JPS63284676A JP62118105A JP11810587A JPS63284676A JP S63284676 A JPS63284676 A JP S63284676A JP 62118105 A JP62118105 A JP 62118105A JP 11810587 A JP11810587 A JP 11810587A JP S63284676 A JPS63284676 A JP S63284676A
Authority
JP
Japan
Prior art keywords
character
numeral
character string
pointer
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62118105A
Other languages
English (en)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62118105A priority Critical patent/JPS63284676A/ja
Publication of JPS63284676A publication Critical patent/JPS63284676A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は文字列処理装置、特に数詞を含む文字列を処理
する装置に関する。
従来技術 日本語の文字列を翻訳等のために解析する場合には、形
態素解析や構文解析の前処理として、数詞を解析する処
理が必要となる。
従来の装置においては、l、2、三等の数字は解析でき
たが、数字を含む文字列、例えば「表1」に対しては、
rlJのみを数詞として認識し、1表1」全体を数詞と
して認識することができなかった。同様に「二億円」の
「億」や「数十人」の「数」を数詞として認識すること
ができないため、「二」と「億円」、「数」と「十人」
に分離して認識し、「二億円」、「数十人」全体を数詞
として認識することができなかった。
また、「円」を数詞の桁を表す語とともに辞書に登録し
ておくため、大きな辞書の容量を必要とした。
さらに算用数字と漢数字の両方を含む表現の場合にはま
とめて数詞と認識できないため、適切な解析を行うこと
ができなかった。
目   的 本発明はこのような従来技術の欠点を解消し、日本語の
文字列において、数詞を効率良く検出することのできる
文字列処理装置を提供することを目的とする。
構  成 本発明は上記の目的を達成させるため、文字列を入力す
る入力手段と、数字および漢数字相当字を格納する数字
記憶手段と、数字とともに用いられることにより数詞を
構成する曲数文字を格納する曲数文字記憶手段と、入力
手段から入力された文字列について、数字記憶手段およ
び曲数文字記憶手段を検索し、文字列が数詞であるか否
かを判断する数詞処理手段とを有し、数詞処理手段は、
文字列が数字および曲数文字からなる場合にもこれを全
体として数詞と認識することを特徴としたものである。
以下、本発明の一実施例に基づいて具体的に説明する。
第1図には本発明による文字列処理装置の一実施例が示
されている。
本装置は入力部10を有し、日本語の漢字かな混じり文
字列が入力される。入力部lOは例えば、文字キーや機
能キー等を有するキーボード、紙に記録された日本語の
文字列を読み取る光学的文字読み取り装置(OCR)お
よび磁気ディスク等の記憶媒体に記憶された日本語文を
読み込むファイル記憶装置等を含んでよい。
入力文字列ファイル12には入力部10から入力された
日本語の文字列が一時格納される。数詞処理部14は入
力文字列ファイル12から読み出された日本語の漢字か
な混じり文字列に含まれる数詞を、数字テーブル20、
曲数接頭辞テーブル22、曲数接尾辞テーブル24、禁
止テーブル26を参照することにより数詞処理し、数詞
の情報を付与して出力部IBへ出力する。
数字テーブル20に格納されるデータの例が第2図に示
されている。同図に示されるように、数字テーブル20
には、算用数字、漢数字、桁を表す漢数字、漢数字相当
字が格納され、それぞれに0〜3のフラグが立っている
。漢数字相当字とは、第2図に示されるように、何、数
、幾等のように数字の代わりに使用される文字である。
曲数接頭辞テーブル22の例が第3図に示されている。
同図に示されるように、曲数接頭辞テーブル22には数
字を含む数詞の先頭に用いられる文字が格納されている
曲数接尾辞テーブル24の例が第4図に示されている。
同図に示されるように、曲数接尾辞テーブル24には数
詞の末尾に用いられる文字が格納されている。
禁止テーブル26の例が第5図に示されている。
同図に示されるように、数字を含んだ文字列で独特の意
味を有する熟語または慣用表現となっているため、数詞
処理の対象としない方が良いものが登録yれている。禁
止テーブル28は後述する禁止処理の時にアクセスされ
る。
数詞処理部14における数詞処理は、数詞部分を次の4
つのパターンに分類して行われる。
(a)曲数接頭辞+数字+曲数接尾辞 例:第5回、約120年 (b)数字+曲数接尾辞 例=15人、数百台 (C)曲数接頭辞+数字 例:表1、図2 (d)数字 例二六、1900 したがって、数詞処理部14は数字または曲数接頭辞を
検出した場合に数詞処理に入り、数字は続く限り読みと
ばし、数字のなくなったところまでを数字部とする。そ
の直後に曲数接尾辞があれば、ここまでを数詞部分とし
てまとめる。また、数詞を含む熟語でひとまとまりに扱
った方が良いものは禁止テーブル26を参照することに
よって、数詞解析しないようにしている。
出力部16は例えばプリンタ、ディスプレイ、および磁
気ディスク等のファイル記憶装置を含む。
次に第6図(a) (b)のフローチャートにより、数
詞処理部14における数詞処理の動作を説明する。
解析を行う文字列の先頭箇所を示すポインタPと数字部
の先頭箇所Qを初期化しく102) 、文字列があるか
ないかを調べ(104) 、なければ処理を終了する。
文字列がある場合には、禁止処理を行う(106)。す
なわち、禁止テーブル26を検索し、数詞を含む熟語が
先頭にあるか否かを検査する。この禁止処理の詳細につ
いては後述する。
禁止処理の結果、解析できない、すなわち数詞処理して
はならないひとまとまりの熟語の場合にはに=Oを返し
、解析できる、すなわち数詞処理できる場合にはに=1
を返す。次にKがOであるか否かを判断しく+08) 
、 K = Oの場合には数詞処理を行わずに、ステッ
プ104に戻り、次の文字に進む。K=0でない場合に
は、数詞処理を行う。
まず、数字テーブル20を調べることにより、文字列の
先頭に数字があるか否かを判断する(110)。
文字列の先頭が数字である場合には、ここからを数詞部
分とみなし、この位置を示すポインタPの値をHに保存
しく124) 、  ステップ128に進む。
文字列の先頭が数字でない場合には、文字列の先頭に曲
数接頭辞があるか否かを判断しく+12)、曲数接頭辞
がない場合には次の文字にポインタを進め(114) 
、ステップ104に戻る。
曲数接頭辞がある場合には、数詞部分の先頭とみなし、
この位置を示すポインタPの値をHに保存する(11B
)。接頭辞の長さだけポインタを進め(118) 、ポ
インタを進めた結果先頭となる文字の位置をQに保存す
る(120)。この先頭の文字が数字か否かを判断しく
122) 、数字でなければ、数詞部分ではないと認め
、先頭となる文字の位置Qを初期化し、ポインタPを1
つ進めて次の文字へ進み(12B) 、  ステップ1
04に戻る。
先頭の文字が数字の場合には、ポインタPを1つ進め、
次の文字に進む(128)。また、ステップ124にお
いてポインタPの値をHに保存した後も、同様にポイン
タPを1つ進め(128) 、次の文字に進む。
次の文字が数字か否かを、数字テーブル20を調べるこ
とにより判断しく130) 、数字であればステップ1
28に戻り、ポインタPを1つ進めて次の文字へ進み、
同様に数字か否かを調べる(130)。
数字でなくなった場合に、ループを抜け、その文字が曲
数接尾辞であるか否かを、曲数接尾辞テーブル24を検
索することにより判断する(132)。曲数接尾辞であ
る場合には、Q>Hであるか否かを判断しく134) 
、 Q>Hの場合には先頭位置を保存したHからQ−1
までを接頭辞、数字部分の先頭位置Qからp−iまでを
数字部分、接尾辞の先頭部分のPから最後までを接尾辞
と認識する(13B)。すなわち、前記の(a)のパタ
ーンの数詞を認識する。
Q>Hでない場合には接頭辞がないので、数詞部分の先
頭位置を保存したHからP−1までが数字部分、Pから
後を接尾辞と認識する(13B)。この場合には前記の
(b)のパターンの数詞を認識する。
ステップ132において曲数接尾辞がない場合には、Q
>Hであるか否かを判断しく140) 、 Q>Hの場
合には先頭位置を保存したHからQ−1までを接頭辞、
数字部分の先頭位置QからP−1までを数字部分と認識
する(13B)。すなわち、前記の(C)のパターンの
数詞を認識する。
Q>Hでない場合には接頭辞がないので、数詞部分の先
頭位置を保存したHからP−1までを数字部分と認識す
る(138)。この場合には前記の(d)のパターンの
数詞を認識する。
このようにして数詞部分が検出された後、接尾辞があっ
たステップ138 、138の後にはポインタを接尾辞
の先頭部分のPから接尾辞の長さ分だけ進め、再びステ
ップ104に戻る。ステップ142.144の後はその
ままステップ104に戻る。
次に、ステップ10Bの禁止処理について第7図のフロ
ーチャートにより説明する。
禁止処理は、数詞部分を検出する前に、漢数字や漢数字
相当字で熟語をなしていてひとまとまりに扱った方がよ
いものを検出し、数詞処理しないようにするものである
。このような数詞処理しない方がよいものとしては、例
えば「四面楚歌」「五里霧中」 「白髪三千丈」等があ
る。
入力された文字列に対し、数詞処理を行ってはならない
、すなわち解析禁止となるのは、次の4つのパターンに
該当する場合である。
(1)漢数字孔当字で直後に数字か曲数接尾辞がある・
・・・・・解析可能 例:焼入、数十(2)漢数字孔当
字で直後に数字か曲数接尾辞がなく、漢数字孔当字もな
い・・・・・・解析禁止例:数、何処、幾何 (3)漢数字相当室以外の数字で禁止テーブルにある・
・・・・・解析禁止 例:四面楚歌(4)漢数字相当室
以外の数字で禁止テーブルにない・・・・・・解析可能
 例:四面、五人第7図において、まず文字列の先頭が
「何」「数」等の漢数字孔当字であるか否かを、数字テ
ーブル20を調べて判断しく202) 、漢数字孔当字
である場合にはポインタを1つすすめる(204)。
次の文字が曲数接尾辞であるか否かを、曲数接尾辞テー
ブル24を調べて判断しく20El) 、曲数接尾辞で
あれば解析可能と判断してポインタを1つ戻しく210
) 、解析可能であることを表すに=1を返す(212
)。
ステップ206において曲数接尾辞でなければ、漢数字
孔当字であるか否かを、数字テーブルのフラグにより調
べ(208) 、漢数字孔当字であれば解析可能と判断
してポインタを1つ戻しく210) 、解析可能である
ことを表すに=1を返す(212)。
漢数字孔当字でない場合には、解析禁止と判断してポイ
ンタを1つ進め(214) 、解析禁止であることを表
すに=Oを返す(21B)。
ステップ202において文字列の先頭が漢数字孔当字で
ない場合には、この文字列が禁止テーブル2Bにあるか
否かを調べ(21B) 、禁止テーブル26にない場合
にはポインタはそのままで、解析可能であることを表す
に=1を返す(220)。
禁止テーブル2Gにある場合には解析禁止であるから、
ポインタを禁止テーブル26にあった文字列の長さ分だ
け進め(222) 、解析禁止であることを表すに=O
を返す(224)。
このようにして禁止処理を行う。
次に具体例を挙げて本装置の動作を説明する。
入力文として第8図に示すような「私は第25回の・・
・」という文が入力された場合に、ます、ポインタPを
1とし、Qを0に初期化する(102)。
文字列があるから(104) 、第7図の禁止処理に移
り、「私Jは漢数字孔当字ではなく (202) 、禁
止テーブルにもないから(2+8) 、解析可能である
(220) 。$ 6図(a)の7o−に戻って、K=
Oでなく(+08)、先頭が数字でなく (+10) 
、曲数接頭辞でもないので(112) 、ポインタを1
つ進め(+14) 、次の文字「は」に進む(114)
「は」も「私」と同様に処理して、次の文字「第」に進
む(+14) 、禁止処理10Bにおいて第7図に移り
、「第」は漢数字孔当字でな((202)、禁止テーブ
ルにもないから(218) 、解析可能である(220
) 、第6図(a)のフローに戻って、K=0でなく 
(108) 、先頭が数字でなく (110) 、曲数
接頭辞であるから(112) 、 この位置を示すポイ
ンタPの伯をHに保存する(116)。すなわちH=3
とされる。次にポインタを接頭辞の長さ分だけ進める(
+18)。この場合接頭辞「第」は1文字であるから、
ポインタPを1つだけ進める。
ポインタを進めた結果先頭となる文字「二」の位置4を
Qに保存する(120)。この先頭となる文字「二」は
数字なので(122) 、ポインタを1つ進め(12,
8) 、次の文字に進む。次の「十」は数字なので(1
30) 、次の文字に進み(128)、「五」も数字な
ので(130) 、次の文字に進む(12B)。ポイン
タが7となり「回」の文字にくると、数字ではないので
(130) 、このループを抜け、「回」は曲数接尾辞
であるから(132) 、ステップ134に進みQとH
とを比較する。この場合、Q=4、H=3であり、Q>
Hであるから、前記(a)のパターンである(13B)
したがって、接頭辞はHからQ−1まで、すなわち3か
ら4−1までとなり、ポインタ3の「第」のみが接頭辞
となる。数字部分はQからP−1まで、すなわち4から
7−1までとなり、ポインタ4から6の「二十五」が数
字部分となる。接尾辞はPから、すなわち7からであり
、ポインタ7の「回」からが接尾辞となる。
これにより、数詞部分を検出したのでポインタを接尾辞
の長さ分だけ進め(14B) 、次のポインタ8の「の
」について同様の処理を行う。
次に、入力文として第9図に示すような[彼は幾何を勉
強する。」という文が入力された場合について説明する
「彼は」は、前記の例の「私は」と同様に、第7図の禁
止処理において、漢数字相当字ではなく(202) 、
禁止テーブルにもないから(218) 、解析可能であ
り(220) 、第6図(a)のに= On’なく(+
08) 、先頭が数字でなく(110) 、曲数接頭辞
でもないので(112) 、ポインタを1つ進め(11
4)、次の文字「幾」に進む(114)。
「幾」は第7図の禁止処理において、漢数字相当字であ
るから(202) 、ポインタを1つ進め(204) 
、次の文字「何」を見ると、曲数接尾辞ではなく (2
0Ei) 、漢数字相当字でもないので(208) 、
解析禁止と判断してポインタを進めて次の文字に進み(
214) 、 K = Oを返す(218)。$6図(
a)に戻り、K=Oなので(10B) 、数詞解析を行
わす、次の文字を処理する(104)。
本実施例によれば、数詞を含む文字列に対して数詞特有
のパターンを考慮した解析を行うことができる。すなわ
ち、従来数字として扱わなかった接頭辞および接尾辞、
例えば漢数字相当字や桁を表す漢数字を数詞の一部とし
て扱うことにより、これらと数字からなる文字列全体を
数詞として認識することができ、適切な数詞の処理を行
うことができる。したがって、漢数字相当字や桁を表す
漢数字を個別に辞書に登録しておく必要もなく、辞書の
容量も小さくてすむ。
さらに、算用数字と漢数字の混合された文字列も正しく
解析することができる。
また、数詞や数字部分を含んだ熟語や慣用表現等のよう
な、ひとまとまりにして扱った方がよいと思われるもの
は禁止処理で検出し、数詞解析を行わないようにしてい
るから、このような慣用表現等を、誤って数詞として処
理することもない。
効  果 本発明によれば、文字列が数字と接頭辞または接尾辞等
の曲数文字からなる場合にも、この文字列全体を数詞と
認識することができる。したがって、効率的に数詞を処
理することができる。
また、漢数字相当字や桁を表す漢数字を個別に辞書に登
録しておく必要がないため、辞書の容量を小さくするこ
とができる。
【図面の簡単な説明】
第1図は本発明による文字列処理装置の一実施例を示す
機能ブロック図、 第2図は第1図の数字テーブルに格納されるデータの一
例を示す図、 第3図は第1図の曲数接頭辞テーブルに格納されるデー
タの一例を示す図、 第4図は第1図の曲数接尾辞テーブルに格納されるデー
タの一例を示す図、 第5図は第1図の禁止テーブルに格納されるデータの一
例を示す図、 第6図(a) (b)は第1図の装置の動作を示すフロ
ーチャート、 第7図は第6図(a)の禁止処理の動作を示すフローチ
ャート、 第8図は第1図の装置に入力される入力文の一例を示す
図、 第9図は第1図の装置に入力される入力文の他の例を示
す図である。 主要部分の符号の説明 10、、、入力部 12、 、 、入力文字列ファイル 14、、、数詞処理部 16、、、出力部 20、、、数字テーブル 22、、、曲数接頭辞テーブル 24、、、曲数接尾辞テーブル 2B、、、禁止テーブル

Claims (1)

  1. 【特許請求の範囲】 1、文字列を入力する入力手段と、 数字および漢数字相当字を格納する数字記憶手段と、 前記数字とともに用いられることにより数詞を構成する
    助数文字を格納する助数文字記憶手段と、 前記入力手段から入力された文字列について、前記数字
    記憶手段および前記助数文字記憶手段を検索し、前記文
    字列が数詞であるか否かを判断する数詞処理手段とを有
    し、 該数詞処理手段は、前記文字列が前記数字および前記助
    数文字からなる場合にもこれを全体として数詞と認識す
    ることを特徴とする文字列処理装置。
JP62118105A 1987-05-16 1987-05-16 文字列処理装置 Pending JPS63284676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62118105A JPS63284676A (ja) 1987-05-16 1987-05-16 文字列処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62118105A JPS63284676A (ja) 1987-05-16 1987-05-16 文字列処理装置

Publications (1)

Publication Number Publication Date
JPS63284676A true JPS63284676A (ja) 1988-11-21

Family

ID=14728138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62118105A Pending JPS63284676A (ja) 1987-05-16 1987-05-16 文字列処理装置

Country Status (1)

Country Link
JP (1) JPS63284676A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325076A (ja) * 1993-03-03 1994-11-25 Internatl Business Mach Corp <Ibm> 入力テキストをワードで区切る方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325076A (ja) * 1993-03-03 1994-11-25 Internatl Business Mach Corp <Ibm> 入力テキストをワードで区切る方法

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
Palmer Tokenisation and sentence
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US7212963B2 (en) System for distinguishing names in Asian writing systems
US7136805B2 (en) System for distinguishing names of organizations in Asian writing systems
JPS63284676A (ja) 文字列処理装置
JP2792147B2 (ja) 文字処理方法およびその装置
Garabík et al. Naïve Terminological Annotation of Legal Texts in Slovak–Can it Be Useful
JP2621999B2 (ja) 文書処理装置
JP3470930B2 (ja) 自然語解析方法及び装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP2973369B2 (ja) 日本文形態素解析処理用日本語辞書構成装置
JPS646499B2 (ja)
Garabík et al. Naivno terminološko označivanje zakonskih tekstova u slovačkom–može li biti korisno?
JPS63163956A (ja) 文書作成・校正支援装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS6380361A (ja) 言語情報処理装置
JPS63234348A (ja) 文章校正支援方式
JPH0228761A (ja) 漢字読み付与方法
JPS60189573A (ja) 文字変換装置
JPH0424867A (ja) 文書作成装置
JPH07200592A (ja) 文章処理装置
JPH0727526B2 (ja) かな漢字変換装置