JPS63187334A - 文字列パタ−ンマツチング装置 - Google Patents

文字列パタ−ンマツチング装置

Info

Publication number
JPS63187334A
JPS63187334A JP62018629A JP1862987A JPS63187334A JP S63187334 A JPS63187334 A JP S63187334A JP 62018629 A JP62018629 A JP 62018629A JP 1862987 A JP1862987 A JP 1862987A JP S63187334 A JPS63187334 A JP S63187334A
Authority
JP
Japan
Prior art keywords
character
pattern
characters
memory
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62018629A
Other languages
English (en)
Other versions
JPH07120356B2 (ja
Inventor
Haruo Hayamizu
速水 治夫
Ushio Inoue
潮 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP62018629A priority Critical patent/JPH07120356B2/ja
Publication of JPS63187334A publication Critical patent/JPS63187334A/ja
Publication of JPH07120356B2 publication Critical patent/JPH07120356B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、各文字が固定長のコードで表現されており、
テキストと呼ばれる比較的長い文字列中に、別途与えら
れたパターンと呼ばれる比較的短い文字列が部分列とし
て存在するか否かを判定する″文字列パターンマツチン
グ処理″に関するものである。
(従来の技術) データ処理システムの分野では、文章等の文字列データ
(テキストと呼ばれる)の集まりの中からパターンと呼
ばれる特定の部分文字列を含むもののみを検索したり、
テキストの中に含まれている全てのパターンを抽出する
ことがしばしば必要となる。
通常、1つの文字はnビット(固定長)のコードで表現
されるため、テキストおよびパターンはnビット単位の
コードの系列となる。
この様な文字列パターンマツチング処理を指定するコマ
ンドとして、SQLのLIKE述語が知られている。(
I B M Program Product S Q
 L /DS 適用業務プログラミング解説書)LIK
E述語では、パターンの文字として、通常の文字以外に
任意の1文字と一致する固定長不確定文字(Fixed
−1ength don’t care文字(FDC)
;H31で表す)、および任意桁の任意の文字列と一致
する可変長不確定文字(Variable−1engt
h don’tcare文字(VDC);”%″″で表
す)を使用することができる。
第6図は、この様な従来の文字列パターンマツチング機
構の説明図である。
第6図において、1はテキストが格納された記憶装置、
2は文字列パターンマツチング装置、3はデータ転送路
、4は検索結果を出力する信号線である。
文字列パターンマツチング装置2において、文字列パタ
ーンマツチングを行う方法として、従来より有限オート
マトンを用いる方法が知られている。(L、A、)lo
llaar、 ”Hardware Systems 
for TextInformation Retri
eval、”ACM 5IGIR6th Confer
ence 1983)第7図は、有限オートマトンの状
態遷移を表した説明図であり、50は有限オートマトン
の状態、60は状態遷移の方向を表し、テキストの中の
“BIC”という3文字のパターンを検出することがで
きる。
以下、この動作を説明する。
有限オートマトンの初期状態は状態(0)であり、入力
文字がII B IIであると状態(1)へ遷移する。
同図のIt # IIはその他の文字を表し、状態(0
)における入力文字がII B Tl以外ならば引き続
き状態(0)に留まる。
状態(1)においても同様であり、入力文字が1′″で
あると状態(2)へ、B″′であると状態(1)へ、そ
れ以外であると状態(0)へ遷移する。
状態(2)において、入力文字が110”であると“B
IC”というパターンを検出したことになる。
第8図は、テキストの中のIgB%C”というパターン
を検出する有限オートマトンの説明図である。
第9図は、テキストの中の”B  C”というパターン
を検出する有限オートマトンの説明図である。
これら図中の記号の説明は、第7図における説明と同様
である。
以上説明した、従来より知られた文字列パターンマツチ
ング装置では、FDC(”−”)、VDC(“%″)を
扱うことはできたが、文字の範囲を限定した不確定文字
を扱うことがきなかったため、以下のような欠点があっ
た。
例えば、パターンとして“BIC”、“82G”、“8
3C”、”84C”、”85C″、”B2O”、”87
G”、”88C”、”B9O”を扱いたい場合に、11
8C”とすると、”BAC”等も誤検出されるため、パ
ターンとして、陽に”BIC”〜”B9O”を記述せね
ばならない。この場合の有限オートマドンは第10図の
ごとくなり、状態数が多くなり、それを表現するテーブ
ルを格納するメモリの容量は大きくなり、テーブルの作
用時間も長くなる。
(発明の目的) 本発明の目的は、パターンの一部として、文字の範囲を
限定した、固定長または可変長の不確定文字を含むこと
を可能とする文字列パターンマツチング装置を提供する
ことにある。
(発明の構成) (発明の特徴と従来の技術の差異) 本発明は、パターンの一部として、文字の範囲を限定さ
れた不確定文字をマツチングする状態において、限定さ
れた範囲の文字が入力されたときのみパターン検出の条
件を維持することを特徴としている。
従来の無限定の不確定文字のみを対象とする文字列パタ
ーンマツチング装置では、その文字をマツチングする状
態においては、無条件にパターン検出の条件を維持して
いた点が異なる。
(実施例) 第1図は、本発明の一実施例を示したブロック図であり
、5は有限オートマトンの状態遷移情報(次の状態番号
)を格納するランダムアクセスメモリ(RAM)、6は
検出パターン情報を格納するRAM、7はRAM5およ
びRAM6から読み出すデータのアドレスを保持するア
ドレスレジスタ、8はRA M 5およびRAM6共通
のアドレスデコーダ、9,10はそれぞれRAM5.R
AM6から読み出したデータが格納されるメモリレジス
タ、11は検索結果を出力する判別回路である。
ここで、限定された範囲の任意の1文字と一致する固定
長不確定文字(RFDC)をILE]TTで、また任意
桁の限定された範囲の任意の文字と一致する可変長不確
定文字(RVDC)を%[コバで表すことにする。[コ
内が限定された範囲の文字を示す。
次に、第1図の動作について説明する。
入力文字はデータ転送路3よりアドレスレジスタ7の下
位8ビツトにセットされる。
アドレスレジスタ7の上位8ビツトには初期値としてx
’oo’がセットされており、アドレスレジスタ7の示
すアドレスに格納されている8ビツトのデータがRAM
5、RAM6からそれぞれ、メモリレジスタ9、メモリ
レジスタ10に読み出される。
メモリレジスタ9の内容は、次のサイクルでアドレスレ
ジスタ7の上位8ビツトにセットされる。
またメモリレジスタ10の内容は、判別回路11で検出
パターンが判定され信号線4に出力される。
以」二の動作は、テキスト中の文字列が1文字入力され
る毎に繰返される。
第2図は、1文字を8ビツトのコードで表現し、最大2
56状態の有限オートマトンを実現するシステムにおい
て、与えられたパターンが 11B%[1〜91C”である場合に、検索の準備動作
としてRAM5、RAM6にそれぞれ格納するデータの
一例を表したものである。
第2図において、12.13はそわぞれ、RAM5、R
AM6の1つワードに格納された8ビツトのデータ、1
4はRAMのアドレスの上位8ビツト、15はRAMの
アドレスの下位8ビツトである。
なお、論理的にはRAMアドレスの上位8ビツト14は
有限オートマトンの状態番号、RAMアドレスの下位8
ビツト15はテキストから入力された文字のコードに対
応する。また、16は各文字コードに対応する文字であ
る。
第2図のデータ12.13において、値が明示されてい
ない所はx’oo’が格納されているものとする。デー
タ12は次に遷移すべき状態番号である。
データ13はパターンが検出されたか否かを示すビット
マツプであり、例えば最下位ビットが1であれば1番目
のパターンが検出されたことを示す。
第3図は、第2図と同様な条件の基で与えられたパター
ンが、”B−[l〜91C”である場合に、検索の準備
動作としてRAM5、RAM6にそれぞれ格納するデー
タの一例を表したものである。
第4図は、第2図におけるRAM5、RAM6に格納さ
れた有限オートマトンの状態遷移情報、検出パターン情
報を状態遷移図で表したものである。状態遷移図の見方
は第7図と同様である。
=8− 第4図において、状態(1)は不確定文字をマツチング
する状態であり、限定された範囲の文字LL I II
〜II 9 TTが入力されている限り、パターン検出
の条件を維持しており、次に最後の文字11 C++が
入力されたとき、与えられたパターン “B%[1〜9]C”を検出したことになる。
RAM5、RAM6に第2図の内容が格納されていると
、第4図に示した状態遷移図に従った有限オートマトン
の動作をすることになる。
第5図は、第3図におけるRAM5、RAM6に格納さ
れた有限オートマトンの状態遷移情報、検出パターン情
報を状態遷移図で表したものである。第5図において、
状態(1)、(2)は不確定文字をマツチングする状態
であり、限定された範囲の文字″1”〜LL 9 ++
が入力されたときのみ、パターン検出の条件を維持して
状態(3)に遷移し、次に最後の文字# CITが入力
されたとき、与えられたパターン“B−[1〜9コCI
Iを検出したことになる。
同様に、第1図のRAM5、RAM6に第3図の内容が
格納されていると、第5図に示した状態遷移図に従った
有限オートマトンの動作をすることになる。
(発明の効果) 第2図と同様な条件の基で、第10図の有限オートマト
ンの制御情報をRAM5、RAM6に展開すると、第1
1図のごとくなる。
この場合に必要なメモリ容量は11ワードである。
一方、第3図の場合の必要メモリ容量は4ワードである
この様に、従来の文字列パターンマツチング装置では、
パターンとして文字の範囲を限定した不確定文字を含む
ことができなかったため、不確定文字の範囲を限定した
処理をやりたい場合に、多量のメモリを使用し、オート
マトンの作成効率も悪い。
一方、本発明の文字列パターンマツチング装置では、パ
ターンの一部として文字の範囲を限定した不確定文字を
処理する場合に、ホ量のメモリで有限オートマトンを効
率よく作成できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示したブロック図、第2図
は1文字を8ビツトのコードで表現し、最大256状態
の有限オートマトンを表現するシステムにおいて、与え
られたパターンが “8%[1〜91G”である場合のRAM5、RAM6
にそれぞれ格納されたデータの一例の説明図、第3図は
1文字を8ビツトのコードで表現し、最大256状態の
オートマトンを実現するシステムにおいて与えられたパ
ターンが”B  [1〜91C”である場合のRAM5
、RAM6にそれぞれ格納されたデータの一例の説明図
、 第4図は第2図におけるRAM5、RAM6に格納され
た有限オートマトンの状態遷移情報、検出パターン情報
を表現した状態遷移図、第5図は第3図におけるRAM
5、RAM6に格納された有限オートマトンの状態遷移
情報、検出パターン情報を表現した状態遷移図、第6図
は従来の文字列パターンマツチング機構の説明図、 第7図は従来の有限オートマトンの状態遷移を=11− 表した説明図、 第8図はテキストの中のttB%CItというパターン
を検出する有限オートマトンの説明図、第9図はテキス
トの中のIt B  C11というパターンを検出する
有限オートマトンの説明図、第10図は、テキストの中
(i’l”B I C”、 ”82 G”。 ・・・・・・、”89C”のいずれかのパターンを検出
する有限オートマトンの説明図、 第11図は従来の文字列パターンマツチング装置におい
て、与えられたパターンが”BIC”。 “B2O”、・・・・・・、”B10”である場合のR
AM5、RAM6にそれぞれ格納されたデータの一例の
説明図である。 1 ・・・テキストが格納された記憶装置、2・・・文
字列パターンマツチング装置、3 ・・・データ転送路
、 4 ・・・検索結果を出力する信号線、5・・・有限オ
ートマトンの状態遷移情報を格納するRAM、 6 ・・・検出パターン情報を格納するRAM、=12
− 7・・・RAM5およびRAM6のアドレスレジスタ、 8・・・RAM5およびRAM6共通のアドレスデコー
ダ、 9.10・・・RAM5.RAM6のメモリレジスタ、 11・・・検索結果を出力する判別回路、12、13・
・・RAM5.RAM6の1つワードに格納された8ビ
ツトのデータ、 14・・・RAMのアドレスの上位8ビツト、15・・
・RAMのアドレスの下位8ビツト、16・・・文字コ
ードに対応する文字。 50・・・有限オートマトンの状態、 60・・・状態遷移の方向。 特許出願人 日本電信電話株式会社 第2 ’l’ #2”3’  ”4’  写 ’6’  ”7
’ ”8’  ”グ ”B”C’ ン禮 6第3 ”l’ ”2”3’  ”4’  ”5’  ”6’ 
 7° ”8” ”9”  ”B”σン備 6第10図 第8図 第9図 第11

Claims (2)

    【特許請求の範囲】
  1. (1)各文字が固定長のコードで表現されており、テキ
    ストと呼ばれる比較的長い文字列中に、別途与えられた
    パターンと呼ばれる比較的短い文字列が部分列として存
    在するか否かを判定する文字列パターンマッチング処理
    において、パターンの一部として文字の範囲を限定した
    、固定長または可変長の不確定文字を含むことを特徴と
    する文字列パターンマッチング装置。
  2. (2)状態番号とコード番号との組に対応した次の状態
    番号および検出パターン番号を格納するためのメモリと
    、そのメモリへのデータ書き込みおよび読み出し機構と
    を備え、与えられたパターンに応じて予めそのメモリへ
    次の状態番号および検出パターン番号を格納しておき、
    テキストが入力された後は、テキストの各文字毎にその
    メモリを索引することにより実行する文字列パターンマ
    ッチング処理において、文字の範囲を限定した不確定文
    字をマッチングする状態で、入力された文字が限定され
    た範囲の対象文字であるときのみその状態に留まること
    を特徴とする特許請求の範囲第(1)項記載の文字列パ
    ターンマッチング装置。
JP62018629A 1987-01-30 1987-01-30 文字列パタ−ンマツチング装置 Expired - Fee Related JPH07120356B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62018629A JPH07120356B2 (ja) 1987-01-30 1987-01-30 文字列パタ−ンマツチング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62018629A JPH07120356B2 (ja) 1987-01-30 1987-01-30 文字列パタ−ンマツチング装置

Publications (2)

Publication Number Publication Date
JPS63187334A true JPS63187334A (ja) 1988-08-02
JPH07120356B2 JPH07120356B2 (ja) 1995-12-20

Family

ID=11976909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62018629A Expired - Fee Related JPH07120356B2 (ja) 1987-01-30 1987-01-30 文字列パタ−ンマツチング装置

Country Status (1)

Country Link
JP (1) JPH07120356B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法
WO1998011509A1 (fr) * 1996-09-13 1998-03-19 Hitachi, Ltd. Procede de traitement des informations de bibliotheque
CN112395853A (zh) * 2020-11-04 2021-02-23 苏宁云计算有限公司 文本内容检测方式确定方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58200343A (ja) * 1982-05-18 1983-11-21 Nec Corp 文字列パタ−ン・マツチング装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58200343A (ja) * 1982-05-18 1983-11-21 Nec Corp 文字列パタ−ン・マツチング装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法
WO1998011509A1 (fr) * 1996-09-13 1998-03-19 Hitachi, Ltd. Procede de traitement des informations de bibliotheque
CN112395853A (zh) * 2020-11-04 2021-02-23 苏宁云计算有限公司 文本内容检测方式确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JPH07120356B2 (ja) 1995-12-20

Similar Documents

Publication Publication Date Title
US4053871A (en) Method and system for the iterative and simultaneous comparison of data with a group of reference data items
US4254476A (en) Associative processor
US4327407A (en) Data driven processor
JPH024026B2 (ja)
JPS63187334A (ja) 文字列パタ−ンマツチング装置
JPH0315221B2 (ja)
JP3141428B2 (ja) 数値検索装置およびその方法
JPS62179083A (ja) 文字列照合方法
US3316538A (en) Circuit arrangement for processing parts of words in electronic computers
EP0468402A2 (en) Character string retrieving system and method
JPH03131969A (ja) 記号列検索方法および検索装置
JP2931934B2 (ja) 数値検索装置
JPH0664586B2 (ja) 文字列照合方法
JPH06139278A (ja) 文字コード変換機能を備えた文字列検索装置
JP2772124B2 (ja) 辞書検索方式
SU926717A1 (ru) Ассоциативное запоминающее устройство
JPH04223566A (ja) 数値検索装置および数値検索方法
JPS63286930A (ja) 文字列検索装置
JPH03147036A (ja) 可変長データ処理装置
JPH0193820A (ja) 検索装置
JPS6373422A (ja) 情報検索装置
JPS62278689A (ja) 単語検索方式
JPH02109169A (ja) 検索処理装置
JPS58117024A (ja) カナ文字入力処理方式
JPS62194535A (ja) 記号処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees