JPS63284676A

JPS63284676A - 文字列処理装置

Info

Publication number: JPS63284676A
Application number: JP62118105A
Authority: JP
Inventors: Masako Bosu; 雅子望主
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-05-16
Filing date: 1987-05-16
Publication date: 1988-11-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は文字列処理装置、特に数詞を含む文字列を処理
する装置に関する。

従来技術日本語の文字列を翻訳等のために解析する場合には、形
態素解析や構文解析の前処理として、数詞を解析する処
理が必要となる。

従来の装置においては、ｌ、２、三等の数字は解析でき
たが、数字を含む文字列、例えば「表１」に対しては、
ｒｌＪのみを数詞として認識し、１表１」全体を数詞と
して認識することができなかった。同様に「二億円」の
「億」や「数十人」の「数」を数詞として認識すること
ができないため、「二」と「億円」、「数」と「十人」
に分離して認識し、「二億円」、「数十人」全体を数詞
として認識することができなかった。

また、「円」を数詞の桁を表す語とともに辞書に登録し
ておくため、大きな辞書の容量を必要とした。

さらに算用数字と漢数字の両方を含む表現の場合にはま
とめて数詞と認識できないため、適切な解析を行うこと
ができなかった。

目　　　的本発明はこのような従来技術の欠点を解消し、日本語の
文字列において、数詞を効率良く検出することのできる
文字列処理装置を提供することを目的とする。

構　　成本発明は上記の目的を達成させるため、文字列を入力す
る入力手段と、数字および漢数字相当字を格納する数字
記憶手段と、数字とともに用いられることにより数詞を
構成する曲数文字を格納する曲数文字記憶手段と、入力
手段から入力された文字列について、数字記憶手段およ
び曲数文字記憶手段を検索し、文字列が数詞であるか否
かを判断する数詞処理手段とを有し、数詞処理手段は、
文字列が数字および曲数文字からなる場合にもこれを全
体として数詞と認識することを特徴としたものである。

以下、本発明の一実施例に基づいて具体的に説明する。

第１図には本発明による文字列処理装置の一実施例が示
されている。

本装置は入力部１０を有し、日本語の漢字かな混じり文
字列が入力される。入力部ｌＯは例えば、文字キーや機
能キー等を有するキーボード、紙に記録された日本語の
文字列を読み取る光学的文字読み取り装置（ＯＣＲ）お
よび磁気ディスク等の記憶媒体に記憶された日本語文を
読み込むファイル記憶装置等を含んでよい。

入力文字列ファイル１２には入力部１０から入力された
日本語の文字列が一時格納される。数詞処理部１４は入
力文字列ファイル１２から読み出された日本語の漢字か
な混じり文字列に含まれる数詞を、数字テーブル２０、
曲数接頭辞テーブル２２、曲数接尾辞テーブル２４、禁
止テーブル２６を参照することにより数詞処理し、数詞
の情報を付与して出力部ＩＢへ出力する。

数字テーブル２０に格納されるデータの例が第２図に示
されている。同図に示されるように、数字テーブル２０
には、算用数字、漢数字、桁を表す漢数字、漢数字相当
字が格納され、それぞれに０〜３のフラグが立っている
。漢数字相当字とは、第２図に示されるように、何、数
、幾等のように数字の代わりに使用される文字である。

曲数接頭辞テーブル２２の例が第３図に示されている。

同図に示されるように、曲数接頭辞テーブル２２には数
字を含む数詞の先頭に用いられる文字が格納されている
。

曲数接尾辞テーブル２４の例が第４図に示されている。

同図に示されるように、曲数接尾辞テーブル２４には数
詞の末尾に用いられる文字が格納されている。

禁止テーブル２６の例が第５図に示されている。

同図に示されるように、数字を含んだ文字列で独特の意
味を有する熟語または慣用表現となっているため、数詞
処理の対象としない方が良いものが登録ｙれている。禁
止テーブル２８は後述する禁止処理の時にアクセスされ
る。

数詞処理部１４における数詞処理は、数詞部分を次の４
つのパターンに分類して行われる。

（ａ）曲数接頭辞＋数字＋曲数接尾辞例：第５回、約１２０年（ｂ）数字＋曲数接尾辞例＝１５人、数百台（Ｃ）曲数接頭辞＋数字例：表１、図２（ｄ）数字例二六、１９００したがって、数詞処理部１４は数字または曲数接頭辞を
検出した場合に数詞処理に入り、数字は続く限り読みと
ばし、数字のなくなったところまでを数字部とする。そ
の直後に曲数接尾辞があれば、ここまでを数詞部分とし
てまとめる。また、数詞を含む熟語でひとまとまりに扱
った方が良いものは禁止テーブル２６を参照することに
よって、数詞解析しないようにしている。

出力部１６は例えばプリンタ、ディスプレイ、および磁
気ディスク等のファイル記憶装置を含む。

次に第６図（ａ）　（ｂ）のフローチャートにより、数
詞処理部１４における数詞処理の動作を説明する。

解析を行う文字列の先頭箇所を示すポインタＰと数字部
の先頭箇所Ｑを初期化しく１０２）　、文字列があるか
ないかを調べ（１０４）　、なければ処理を終了する。

文字列がある場合には、禁止処理を行う（１０６）。す
なわち、禁止テーブル２６を検索し、数詞を含む熟語が
先頭にあるか否かを検査する。この禁止処理の詳細につ
いては後述する。

禁止処理の結果、解析できない、すなわち数詞処理して
はならないひとまとまりの熟語の場合にはに＝Ｏを返し
、解析できる、すなわち数詞処理できる場合にはに＝１
を返す。次にＫがＯであるか否かを判断しく＋０８）　
、　Ｋ　＝　Ｏの場合には数詞処理を行わずに、ステッ
プ１０４に戻り、次の文字に進む。Ｋ＝０でない場合に
は、数詞処理を行う。

まず、数字テーブル２０を調べることにより、文字列の
先頭に数字があるか否かを判断する（１１０）。

文字列の先頭が数字である場合には、ここからを数詞部
分とみなし、この位置を示すポインタＰの値をＨに保存
しく１２４）　、　　ステップ１２８に進む。

文字列の先頭が数字でない場合には、文字列の先頭に曲
数接頭辞があるか否かを判断しく＋１２）、曲数接頭辞
がない場合には次の文字にポインタを進め（１１４）　
、ステップ１０４に戻る。

曲数接頭辞がある場合には、数詞部分の先頭とみなし、
この位置を示すポインタＰの値をＨに保存する（１１Ｂ
）。接頭辞の長さだけポインタを進め（１１８）　、ポ
インタを進めた結果先頭となる文字の位置をＱに保存す
る（１２０）。この先頭の文字が数字か否かを判断しく
１２２）　、数字でなければ、数詞部分ではないと認め
、先頭となる文字の位置Ｑを初期化し、ポインタＰを１
つ進めて次の文字へ進み（１２Ｂ）　、　　ステップ１
０４に戻る。

先頭の文字が数字の場合には、ポインタＰを１つ進め、
次の文字に進む（１２８）。また、ステップ１２４にお
いてポインタＰの値をＨに保存した後も、同様にポイン
タＰを１つ進め（１２８）　、次の文字に進む。

次の文字が数字か否かを、数字テーブル２０を調べるこ
とにより判断しく１３０）　、数字であればステップ１
２８に戻り、ポインタＰを１つ進めて次の文字へ進み、
同様に数字か否かを調べる（１３０）。

数字でなくなった場合に、ループを抜け、その文字が曲
数接尾辞であるか否かを、曲数接尾辞テーブル２４を検
索することにより判断する（１３２）。曲数接尾辞であ
る場合には、Ｑ＞Ｈであるか否かを判断しく１３４）　
、　Ｑ＞Ｈの場合には先頭位置を保存したＨからＱ−１
までを接頭辞、数字部分の先頭位置Ｑからｐ−ｉまでを
数字部分、接尾辞の先頭部分のＰから最後までを接尾辞
と認識する（１３Ｂ）。すなわち、前記の（ａ）のパタ
ーンの数詞を認識する。

Ｑ＞Ｈでない場合には接頭辞がないので、数詞部分の先
頭位置を保存したＨからＰ−１までが数字部分、Ｐから
後を接尾辞と認識する（１３Ｂ）。この場合には前記の
（ｂ）のパターンの数詞を認識する。

ステップ１３２において曲数接尾辞がない場合には、Ｑ
＞Ｈであるか否かを判断しく１４０）　、　Ｑ＞Ｈの場
合には先頭位置を保存したＨからＱ−１までを接頭辞、
数字部分の先頭位置ＱからＰ−１までを数字部分と認識
する（１３Ｂ）。すなわち、前記の（Ｃ）のパターンの
数詞を認識する。

Ｑ＞Ｈでない場合には接頭辞がないので、数詞部分の先
頭位置を保存したＨからＰ−１までを数字部分と認識す
る（１３８）。この場合には前記の（ｄ）のパターンの
数詞を認識する。

このようにして数詞部分が検出された後、接尾辞があっ
たステップ１３８　、１３８の後にはポインタを接尾辞
の先頭部分のＰから接尾辞の長さ分だけ進め、再びステ
ップ１０４に戻る。ステップ１４２．１４４の後はその
ままステップ１０４に戻る。

次に、ステップ１０Ｂの禁止処理について第７図のフロ
ーチャートにより説明する。

禁止処理は、数詞部分を検出する前に、漢数字や漢数字
相当字で熟語をなしていてひとまとまりに扱った方がよ
いものを検出し、数詞処理しないようにするものである
。このような数詞処理しない方がよいものとしては、例
えば「四面楚歌」「五里霧中」　「白髪三千丈」等があ
る。

入力された文字列に対し、数詞処理を行ってはならない
、すなわち解析禁止となるのは、次の４つのパターンに
該当する場合である。

（１）漢数字孔当字で直後に数字か曲数接尾辞がある・
・・・・・解析可能　例：焼入、数十（２）漢数字孔当
字で直後に数字か曲数接尾辞がなく、漢数字孔当字もな
い・・・・・・解析禁止例：数、何処、幾何（３）漢数字相当室以外の数字で禁止テーブルにある・
・・・・・解析禁止　例：四面楚歌（４）漢数字相当室
以外の数字で禁止テーブルにない・・・・・・解析可能
　例：四面、五人第７図において、まず文字列の先頭が
「何」「数」等の漢数字孔当字であるか否かを、数字テ
ーブル２０を調べて判断しく２０２）　、漢数字孔当字
である場合にはポインタを１つすすめる（２０４）。

次の文字が曲数接尾辞であるか否かを、曲数接尾辞テー
ブル２４を調べて判断しく２０Ｅｌ）　、曲数接尾辞で
あれば解析可能と判断してポインタを１つ戻しく２１０
）　、解析可能であることを表すに＝１を返す（２１２
）。

ステップ２０６において曲数接尾辞でなければ、漢数字
孔当字であるか否かを、数字テーブルのフラグにより調
べ（２０８）　、漢数字孔当字であれば解析可能と判断
してポインタを１つ戻しく２１０）　、解析可能である
ことを表すに＝１を返す（２１２）。

漢数字孔当字でない場合には、解析禁止と判断してポイ
ンタを１つ進め（２１４）　、解析禁止であることを表
すに＝Ｏを返す（２１Ｂ）。

ステップ２０２において文字列の先頭が漢数字孔当字で
ない場合には、この文字列が禁止テーブル２Ｂにあるか
否かを調べ（２１Ｂ）　、禁止テーブル２６にない場合
にはポインタはそのままで、解析可能であることを表す
に＝１を返す（２２０）。

禁止テーブル２Ｇにある場合には解析禁止であるから、
ポインタを禁止テーブル２６にあった文字列の長さ分だ
け進め（２２２）　、解析禁止であることを表すに＝Ｏ
を返す（２２４）。

このようにして禁止処理を行う。

次に具体例を挙げて本装置の動作を説明する。

入力文として第８図に示すような「私は第２５回の・・
・」という文が入力された場合に、ます、ポインタＰを
１とし、Ｑを０に初期化する（１０２）。

文字列があるから（１０４）　、第７図の禁止処理に移
り、「私Ｊは漢数字孔当字ではなく　（２０２）　、禁
止テーブルにもないから（２＋８）　、解析可能である
（２２０）　。＄　６図（ａ）の７ｏ−に戻って、Ｋ＝
Ｏでなく（＋０８）、先頭が数字でなく　（＋１０）　
、曲数接頭辞でもないので（１１２）　、ポインタを１
つ進め（＋１４）　、次の文字「は」に進む（１１４）
。

「は」も「私」と同様に処理して、次の文字「第」に進
む（＋１４）　、禁止処理１０Ｂにおいて第７図に移り
、「第」は漢数字孔当字でな（（２０２）、禁止テーブ
ルにもないから（２１８）　、解析可能である（２２０
）　、第６図（ａ）のフローに戻って、Ｋ＝０でなく　
（１０８）　、先頭が数字でなく　（１１０）　、曲数
接頭辞であるから（１１２）　、　この位置を示すポイ
ンタＰの伯をＨに保存する（１１６）。すなわちＨ＝３
とされる。次にポインタを接頭辞の長さ分だけ進める（
＋１８）。この場合接頭辞「第」は１文字であるから、
ポインタＰを１つだけ進める。

ポインタを進めた結果先頭となる文字「二」の位置４を
Ｑに保存する（１２０）。この先頭となる文字「二」は
数字なので（１２２）　、ポインタを１つ進め（１２，
８）　、次の文字に進む。次の「十」は数字なので（１
３０）　、次の文字に進み（１２８）、「五」も数字な
ので（１３０）　、次の文字に進む（１２Ｂ）。ポイン
タが７となり「回」の文字にくると、数字ではないので
（１３０）　、このループを抜け、「回」は曲数接尾辞
であるから（１３２）　、ステップ１３４に進みＱとＨ
とを比較する。この場合、Ｑ＝４、Ｈ＝３であり、Ｑ＞
Ｈであるから、前記（ａ）のパターンである（１３Ｂ）
。

したがって、接頭辞はＨからＱ−１まで、すなわち３か
ら４−１までとなり、ポインタ３の「第」のみが接頭辞
となる。数字部分はＱからＰ−１まで、すなわち４から
７−１までとなり、ポインタ４から６の「二十五」が数
字部分となる。接尾辞はＰから、すなわち７からであり
、ポインタ７の「回」からが接尾辞となる。

これにより、数詞部分を検出したのでポインタを接尾辞
の長さ分だけ進め（１４Ｂ）　、次のポインタ８の「の
」について同様の処理を行う。

次に、入力文として第９図に示すような［彼は幾何を勉
強する。」という文が入力された場合について説明する
。

「彼は」は、前記の例の「私は」と同様に、第７図の禁
止処理において、漢数字相当字ではなく（２０２）　、
禁止テーブルにもないから（２１８）　、解析可能であ
り（２２０）　、第６図（ａ）のに＝　Ｏｎ’なく（＋
０８）　、先頭が数字でなく（１１０）　、曲数接頭辞
でもないので（１１２）　、ポインタを１つ進め（１１
４）、次の文字「幾」に進む（１１４）。

「幾」は第７図の禁止処理において、漢数字相当字であ
るから（２０２）　、ポインタを１つ進め（２０４）　
、次の文字「何」を見ると、曲数接尾辞ではなく　（２
０Ｅｉ）　、漢数字相当字でもないので（２０８）　、
解析禁止と判断してポインタを進めて次の文字に進み（
２１４）　、　Ｋ　＝　Ｏを返す（２１８）。＄６図（
ａ）に戻り、Ｋ＝Ｏなので（１０Ｂ）　、数詞解析を行
わす、次の文字を処理する（１０４）。

本実施例によれば、数詞を含む文字列に対して数詞特有
のパターンを考慮した解析を行うことができる。すなわ
ち、従来数字として扱わなかった接頭辞および接尾辞、
例えば漢数字相当字や桁を表す漢数字を数詞の一部とし
て扱うことにより、これらと数字からなる文字列全体を
数詞として認識することができ、適切な数詞の処理を行
うことができる。したがって、漢数字相当字や桁を表す
漢数字を個別に辞書に登録しておく必要もなく、辞書の
容量も小さくてすむ。

さらに、算用数字と漢数字の混合された文字列も正しく
解析することができる。

また、数詞や数字部分を含んだ熟語や慣用表現等のよう
な、ひとまとまりにして扱った方がよいと思われるもの
は禁止処理で検出し、数詞解析を行わないようにしてい
るから、このような慣用表現等を、誤って数詞として処
理することもない。

効　　果本発明によれば、文字列が数字と接頭辞または接尾辞等
の曲数文字からなる場合にも、この文字列全体を数詞と
認識することができる。したがって、効率的に数詞を処
理することができる。

また、漢数字相当字や桁を表す漢数字を個別に辞書に登
録しておく必要がないため、辞書の容量を小さくするこ
とができる。

【図面の簡単な説明】

第１図は本発明による文字列処理装置の一実施例を示す
機能ブロック図、第２図は第１図の数字テーブルに格納されるデータの一
例を示す図、第３図は第１図の曲数接頭辞テーブルに格納されるデー
タの一例を示す図、第４図は第１図の曲数接尾辞テーブルに格納されるデー
タの一例を示す図、第５図は第１図の禁止テーブルに格納されるデータの一
例を示す図、第６図（ａ）　（ｂ）は第１図の装置の動作を示すフロ
ーチャート、第７図は第６図（ａ）の禁止処理の動作を示すフローチ
ャート、第８図は第１図の装置に入力される入力文の一例を示す
図、第９図は第１図の装置に入力される入力文の他の例を示
す図である。主要部分の符号の説明１０、、、入力部１２、　、　、入力文字列ファイル１４、、、数詞処理部１６、、、出力部２０、、、数字テーブル２２、、、曲数接頭辞テーブル２４、、、曲数接尾辞テーブル２Ｂ、、、禁止テーブル

Claims

【特許請求の範囲】１、文字列を入力する入力手段と、数字および漢数字相当字を格納する数字記憶手段と、前記数字とともに用いられることにより数詞を構成する
助数文字を格納する助数文字記憶手段と、前記入力手段から入力された文字列について、前記数字
記憶手段および前記助数文字記憶手段を検索し、前記文
字列が数詞であるか否かを判断する数詞処理手段とを有
し、該数詞処理手段は、前記文字列が前記数字および前記助
数文字からなる場合にもこれを全体として数詞と認識す
ることを特徴とする文字列処理装置。