JPS6128133A - Symbol string collating device - Google Patents

Symbol string collating device

Info

Publication number
JPS6128133A
JPS6128133A JP14892584A JP14892584A JPS6128133A JP S6128133 A JPS6128133 A JP S6128133A JP 14892584 A JP14892584 A JP 14892584A JP 14892584 A JP14892584 A JP 14892584A JP S6128133 A JPS6128133 A JP S6128133A
Authority
JP
Japan
Prior art keywords
register
symbol string
symbol
output
register array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP14892584A
Other languages
Japanese (ja)
Other versions
JPH0527150B2 (en
Inventor
Hachiro Yamada
山田 八郎
Tsunesuke Takahashi
恒介 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP14892584A priority Critical patent/JPS6128133A/en
Publication of JPS6128133A publication Critical patent/JPS6128133A/en
Publication of JPH0527150B2 publication Critical patent/JPH0527150B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To extract flexibly an optional symbol string among non-structure symbol strings in a short time by inputting sequentially a long symbol string, checking the presence of the registered collation symbol string and transmitting it externaly. CONSTITUTION:The device is provided with a means 210 storing a collated symbol string in a bit pattern, an AND gate circuit being a transmission means 230 connected to each output, a register array 240 connected with the means 230 between registers 245, a register array 250 connected in series between registers 255, a means 260 outputting selectively an output of the array 240 selected by the content of the register 255 and a means 270 transmitting each output of the arrays 240, 250 selectively to the next array 240. Only when a symbol string ''ABABB'' is inputted to an address input 211, the content passes through a register of each stage of the array 240 and the content of a specific register is transmitted from a collated output terminal 280 via the means 270 and the arrays 240 are used to the collated symbol string comprising >7 by connecting them depending on the content of the array 250.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は情報処理システムの構成要素に係り、よシ具体
的には長大な記号列の中から特定の記号列を抽出する記
号列照合装置とその照合方式に関するものである。
Detailed Description of the Invention (Industrial Application Field) The present invention relates to a component of an information processing system, and more specifically, a symbol string matching device for extracting a specific symbol string from a long symbol string. and its matching method.

(従来技術とその問題点) 上記記号列照合装置はバタン認識システムでのへ゛¥徴
系列の抽出グワープロで作成された文章の原文ファイル
からのキーワードの抽出、言語翻訳の支援や通信文章の
略文の解読、図形、イメージ、テキスト等による非構造
データベースの構築に利用され、知能化されるこれらの
情報処理システムの形成に欠くことができないものであ
る。
(Prior art and its problems) The above-mentioned symbol string matching device is used to extract keywords from the original text file of sentences created with a Google processor, to support language translation, and to provide abbreviations of correspondence. It is used for deciphering information, constructing unstructured databases using figures, images, texts, etc., and is indispensable for the formation of intelligent information processing systems.

従来の記号列照合は汎用コンピュータのソフトウェアに
たよった逐次処理によるため、膨大な処理時間を必要と
し、小規模なものに限定されていた。1だ、単語毎に区
切られて構造化された記号列に照合対象が制限さオ]て
いた。−例として、n個の記号列からなるテキスト中に
m個の記号列からなるバタンかどこに有るかを調べる場
合には、m(n  m+1)回の照合処理を必要とする
。磁気ディスクや光ディスク等(で格納されたm=10
9個の文字列のテキストから、n=103個の文字列の
文章を抄すには1012回の照合処理を必要とする。従
って、テキストツイメージヌ図形y音声等の大容量な原
情報による検索は非現実的であるだめ、予め原情報にキ
ーワードを付加しての検索や表形式に構造化されたデー
タの検索に限定されていた。まだ、記号列の構成要素の
変動を許容する柔軟な記号列照合に対して処理時間の長
くなシすぎる欠点があった。
Conventional symbol string matching requires sequential processing using general-purpose computer software, requires an enormous amount of processing time, and is limited to small-scale applications. 1, the matching target was limited to structured symbol strings separated by words. - For example, when checking where a button consisting of m symbol strings is located in a text consisting of n symbol strings, m (n m+1) matching processes are required. m = 10 stored on magnetic disks, optical disks, etc.
Extracting a sentence with n=103 character strings from a text with 9 character strings requires 1012 matching processes. Therefore, it is impractical to search using a large amount of source information such as text, image, figure, voice, etc., so the search is limited to searching by adding keywords to the source information in advance or searching for data structured in table format. It had been. However, it still has the disadvantage that the processing time is too long for flexible symbol string matching that allows variations in the constituent elements of symbol strings.

さらに具体的に従来の記号列照合装置とその照合方式の
問題点について説明する。
More specifically, the problems of the conventional symbol string matching device and its matching method will be explained.

第1図は記号列照合の対象となるテキストを示している
。このテキストは報告書の始めの部分を一例として示し
ている。このようなテキストはワープロのファイルメモ
リに多数個格納される。それ等のテキストの中から必要
なものをさがし出す時に、要求内容を示す単語によって
直接に検索できる詞1が求められる。
FIG. 1 shows text that is the subject of symbol string matching. This text shows the beginning of the report as an example. A large number of such texts are stored in the file memory of the word processor. When searching for what is needed from among such texts, a word 1 is required that can be directly searched by a word indicating the desired content.

たとえば、第1図のテキストがmemory r bu
−bble %の記号列ケ含む論文であるかを知るため
には)そのデキストの中でmemory z memo
riesやbubble等の記号列に整合する部分があ
るか否がを検索する必要がろる。そのような記号列のテ
キストとの比較照合は従来のコンピュータとソフトウェ
アで対応させると、非常に長い時間を要する。
For example, if the text in Figure 1 is
-bble % symbol string (to know if the paper contains it)
It is necessary to search to see if there is a part that matches the symbol strings such as ries and bubble. Comparing such symbol strings with text would take a very long time if conventional computers and software were used.

一般のA、サイズの英文はワード間のスペースを含める
と、約3000文字分の長さになる。一方、比較照合を
行なう記号列の長さはmemoryの場合もbubbl
eの場合も6文字である。6文字と3000文字の記号
列間の照合に一般にその積に等しいオーダの回数に及ぶ
文字の比較を必要とする。マイクロプロセッサでの文字
比較時間が1μm1eCであったとしても各記号列の検
索に18 mse’cの時間がかかる。
A typical A-size English sentence is about 3,000 characters long, including the spaces between words. On the other hand, the length of the symbol string for comparison and matching is also bubble in the case of memory.
In the case of e, there are also 6 characters. Matching between 6-character and 3000-character strings generally requires a number of character comparisons on the order of the product. Even if the character comparison time in the microprocessor is 1 μm1eC, it takes 18 msec to search each symbol string.

現実に検索の対象となるテキストの文字数は10°個に
及び、照合を行なう記号列の文字数も100を越すこと
もあり得る。照合される記号列の数も1個だけでなく、
数10個に及ぶ。その場合の照合時間は数100時間に
及ぶ。故に、このような照合は現実的に不可能であり、
実除は人手により予めキーワードを抽出しておき、抽出
されたキーワードに対する照合に限定されていた。
In reality, the number of characters in the text to be searched is 10 degrees, and the number of characters in the symbol string to be matched may exceed 100. The number of symbol strings to be matched is not just one,
There are dozens of them. In that case, the verification time spans several hundreds of hours. Therefore, such a comparison is practically impossible,
Actual selection is limited to manually extracting keywords in advance and matching the extracted keywords.

〔発明の目的〕[Purpose of the invention]

本発明の目的は上記従来の記号列照合装置やその方式の
欠点を容易に解決し、テキスト2イメージを図形等の非
構造の記号列の中から任意の記号列を短時間にして、柔
軟な抽出が可能な記号列照合装置とその照合方式を提供
することにある。
An object of the present invention is to easily solve the drawbacks of the conventional symbol string matching device and its method, and to convert text 2 images into a flexible system by quickly converting arbitrary symbol strings from unstructured symbol strings such as figures. An object of the present invention is to provide a symbol string matching device capable of extraction and a matching method thereof.

まだ、本発明の他の目的は照合記号列の長さを任意に設
定可能な低価格な記号列照合装置を提供することにある
Another object of the present invention is to provide a low-cost symbol string matching device that can arbitrarily set the length of a matching symbol string.

まだ、本発明の他の目的は出力端子数の少ないL S 
I化が容易な記号列照合装置を提供することにある。
Another object of the present invention is to provide an L S with a small number of output terminals.
The object of the present invention is to provide a symbol string matching device that can be easily converted into an I/O.

(発明の構成) 従って本発明によれば、各記号に関連づけだビットパタ
ンで複数の照合記号列を記憶する記号列記憶手段と、こ
の各出力につながる第1の伝達手段と、互いに隣接する
各レジスタ間が第1の伝達手段により連結された複数の
第1のレジスタアレイと、I!”+接する各レジスタ間
が直列に接続された第2のレジスタアレイと、第2のレ
ジスタアレイの各段のレジスタの内容により、6第1の
レジスタアレイの出力を7′!ル択的に出力する出力手
段と、6第1のレジスタアレイの出力と第2のレジスト
アレイ内のレジスタの出力とを選択的に次の第1のレジ
スタアレイに伝達する第2の伝達手段とを含む記号列照
合装置及び該装置の出力手段にエンコーダ又はシフトレ
ジストが付加された記号列照合装fiが得られる。
(Structure of the Invention) Therefore, according to the present invention, a symbol string storage means for storing a plurality of collation symbol strings in a bit pattern associated with each symbol, a first transmission means connected to each of the outputs, and each adjacent A plurality of first register arrays in which the registers are connected by a first transmission means, and I! The second register array in which adjacent registers are connected in series and the contents of the registers in each stage of the second register array selectively output the output of the first register array. and a second transmission means for selectively transmitting the output of the first register array and the output of the register in the second register array to the next first register array. A symbol string matching device fi is obtained in which an encoder or a shift register is added to the device and the output means of the device.

(実施例) 第2図は本発明の第1の実施例の説明図である。(Example) FIG. 2 is an explanatory diagram of the first embodiment of the present invention.

この記号列照合装置は長大な記号列となるテキストを逐
次入力し、その中に登録した照合記号列が含1れている
か否かを調べ、外部に伝達するものであり、照合記号列
をビットバタンで記憶する記号列記憶手段210と、こ
の各出力につながる第1の伝達手段230となるアンド
ゲート回路と、互いに隣接する各レジスタ245間が該
アンドゲート回路230により連結された複数の第1の
レジスタアレイ240と、隣接する第2レジスタ255
間が直列姉接続された第2のレジスタアレイ250と、
第2のレジメ・タアレイ250の各レジスタ255の内
容により選択された第1のレジスタアレイ240の出力
を選択的に出力する出力手段260と、6第1のレジス
タアレイ240の出力と第2のレジスタアレイ250内
のレジスタ255の出力とを選択的に次の第1のレジス
タアレイ240に伝達する第2の伝達手段270とから
なる。
This symbol string verification device sequentially inputs text that is a long symbol string, checks whether the text contains a registered verification symbol string, and transmits the verification symbol string to the outside. A symbol string storage means 210 that stores the symbol string with a button, an AND gate circuit serving as a first transmission means 230 connected to each output, and a plurality of first register array 240 and an adjacent second register 255
a second register array 250 connected in series;
an output means 260 for selectively outputting the output of the first register array 240 selected according to the contents of each register 255 of the second register array 250; and a second transmission means 270 for selectively transmitting the output of the register 255 in the array 250 to the next first register array 240.

上段に位1賀する第1のレジスタアレイ240内には図
の例では6個の第ルジスタ245を含み、下段の第1の
レジスタアレイ240内には5個の第1のレジスタ24
5を含む。6第1のレジスタアレイ240間はオアゲー
ト回路270とアンドゲート回路230とで連結されて
いる。記号の個数が6個以下の照合記号列を用いる場合
には第2レジスタの第1番目の第2レジスタ255に”
1″を格納させる。この場合、fP、1番目の第2レジ
スタ255につながる第2の伝達手段270は第1のレ
ジスタアレイ240の出力を通過させずに第2レジスタ
255の内容すなわち@1″をアンドゲート回路に供給
する。従って、上段と下段に位置する6第1のレジスタ
アレイ240の入出力は分離される。また、上段の第1
のレジスタアレイ240は出力手段260を介して外部
に照合出力として出力される。
In the example shown in the figure, the first register array 240 in the upper stage includes six registers 245, and the first register array 240 in the lower stage includes five first registers 245.
Contains 5. 6. The first register arrays 240 are connected by an OR gate circuit 270 and an AND gate circuit 230. When using a collation symbol string with six or fewer symbols, "" is written in the first second register 255 of the second register.
In this case, fP, the second transmission means 270 connected to the first second register 255 stores the contents of the second register 255, ie @1'', without passing the output of the first register array 240. is supplied to the AND gate circuit. Therefore, the input and output of the six first register arrays 240 located in the upper and lower stages are separated. Also, the first
The register array 240 is outputted to the outside as a verification output via the output means 260.

一方、7個以上の記号を有する照合記号列に対しては、
第2のレジスタアレイ250の第1段目と第2段目のf
4fJ2レジスタ255に各々″0″と′1′を格納さ
せる。この場合、第2の伝達手段270は上段の第1の
レジスタアレイ240の出力を通過させ、アンドゲート
回路230に供給する。従って、上段と下段の第1のレ
ジスタアレイ240が連結される。また、出力手段26
0は下段の第1のレジスタアレイ240の出力を照合出
力として通過させる。仁のように、7個以上の記号から
なる照合記号列に対しては、6第1のレジスタアレイ2
40を連結させて用いる。この連結ハ第2のレジスタア
レイ250の内容により制御できる。
On the other hand, for collation symbol strings with seven or more symbols,
f of the first and second stages of the second register array 250
"0" and "1" are respectively stored in the 4fJ2 register 255. In this case, the second transmission means 270 passes the output of the first register array 240 in the upper stage and supplies it to the AND gate circuit 230. Therefore, the upper and lower first register arrays 240 are connected. In addition, the output means 26
0 passes the output of the first register array 240 in the lower stage as a verification output. For a collation symbol string consisting of seven or more symbols, such as jin, the first register array 2
40 are connected and used. This concatenation can be controlled by the contents of second register array 250.

照合記号列の各記号は記号記憶手段210の各ビットに
記号に関連づけたピッドパクンで格納される。このビッ
トパタンは記号で選択された番地のみ”1″になってい
る。第2図の例では11ビツトの記号記憶手段210に
”A、BABB″ の5個の記号からなる照合記号例を
格納している。すなわち、記号″A”で指定されるアド
レスの第1f3ビツトと記号″B”で指定されるアドレ
スの第:2j4+5ビツトにのみ1″が格納され、他は
0”が格納される。但し、記号列記憶手段2】0の第6
ビツトは全アドレスに1”を格納させる。
Each symbol of the collation symbol string is stored in each bit of the symbol storage means 210 in a bit pattern associated with the symbol. In this bit pattern, only the address selected by the symbol is "1". In the example shown in FIG. 2, the 11-bit symbol storage means 210 stores an example of collation symbols consisting of five symbols "A, BABB". That is, 1'' is stored only in the 1f3th bit of the address designated by the symbol "A" and the 2j4+5th bit of the address designated by the symbol "B", and 0" is stored in the other bits. However, the symbol string storage means 2] 6th of 0
The bit stores 1" in all addresses.

従って、それにつながるアンドゲート回路230は第5
番目の第ルジスタ245の内容Q5をそのまま第6番目
の第ルジスタ245に供給する。
Therefore, the AND gate circuit 230 connected thereto is the fifth
The content Q5 of the sixth register 245 is supplied as is to the sixth register 245.

また、第2のレジスタアレイ250の第1番目の第2レ
ジスタには1″を格納させ、上段の第1のレジスタアレ
イ240の出力Q 5 lx出力手段270を介して外
部に出力させる。
Further, 1'' is stored in the first second register of the second register array 250, and outputted to the outside via the output Q 5 lx output means 270 of the first register array 240 in the upper stage.

先にi兄明したように、記号記憶手段210の番地は記
号の種類に対応し、その第1.3ビツトの読取や出力は
記号゛A”が入力されたときのみ1”となシ、第2ν4
,5ビツトの読取り出力は”B″が入力されたときのみ
”1″となる。また、第6ビツトの読取り出力は常に”
1”を発生する。
As explained earlier, the address of the symbol storage means 210 corresponds to the type of symbol, and the 1.3rd bit is read or output as 1 only when the symbol "A" is input. 2nd ν4
, 5 bits read output becomes "1" only when "B" is input. Also, the read output of the 6th bit is always “
1” is generated.

照合しようとするテキストを構成する記号は逐次記号記
憶手段210のアドレス人力211に印加され、その記
号に対応する番地の内容が読み出される。記号記憶手段
210の第1ビツトの読取多出力は内部信号として第1
のレジスタアレイ240の初段のレジスタ245に供給
される。他の読取り出力はアンドゲート回路で構成され
た内部信号の伝達手段230に供給され、レジスタアレ
イ240内の各段のレジスタ245に蓄積された内部信
号を次段のレジスタ245に伝達するか否かを制御する
。このレジスタアレイ240内の各段のレジスタ245
は、記号の入力毎に印加される同一のクロック信号24
1で内部信号の取込みを行なう。内部信号は記号記憶手
段210のアドレス人力211に記号列”ABABB”
が入カネれたときにのみレジスタアレイ240の各段の
レジスタを通過し、出力手段270を介して特定のレジ
スタの内容が照合出力端子280から出力される。
The symbols constituting the text to be compared are sequentially applied to the address input 211 of the symbol storage means 210, and the contents of the address corresponding to the symbol are read out. The read output of the first bit of the symbol storage means 210 is output as the first internal signal.
The signal is supplied to the first stage register 245 of the register array 240. The other read output is supplied to an internal signal transmission means 230 composed of an AND gate circuit, and determines whether or not to transmit the internal signal accumulated in the register 245 at each stage in the register array 240 to the register 245 at the next stage. control. Registers 245 at each stage in this register array 240
is the same clock signal 24 applied for each symbol input.
1 to capture internal signals. The internal signal is a symbol string "ABABB" in the address 211 of the symbol storage means 210.
It passes through the registers at each stage of the register array 240 only when the amount is input, and the contents of the specific register are outputted from the verification output terminal 280 via the output means 270.

第3図は第2図の記号列照合装置の動作説明図である。FIG. 3 is an explanatory diagram of the operation of the symbol string matching device shown in FIG. 2.

これは第2図に示したように記号記憶手段210にAB
ABB”の照合記号列が格納され、そのアドレス人力2
11にテキスト”ABABAABBABABBAB″の
記号列が入力されたときの第1のレジスタアレイ240
の各段の出力Q1〜Q6を示している。第1のレジスタ
アレイ240の初段の出力Q1は記号”A″が入力され
たときのみ1”となり、まだ第2段の出力Q2はQlが
1で記号″B”が入力されたときにのみ1′となる。こ
のようにして、照合出力端子280に出力されるQ6は
テキスト内に照合記号夕じABABB”に等しい記号列
が現われたときに1″となる。
This is stored in the symbol storage means 210 as shown in FIG.
ABB" verification symbol string is stored, and its address
The first register array 240 when the symbol string of the text "ABABAAABBABABBAB" is input to 11
The outputs Q1 to Q6 of each stage are shown. The output Q1 of the first stage of the first register array 240 becomes 1 only when the symbol "A" is input, and the output Q2 of the second stage becomes 1 only when Ql is 1 and the symbol "B" is input. In this way, Q6 output to the collation output terminal 280 becomes 1'' when a symbol string equal to the collation symbol ABABB'' appears in the text.

この例では時刻T14にQ6が“1”となるので、それ
より一時刻前に入力された下線で示す記号列が照合記合
列に等しいとわかる。
In this example, since Q6 becomes "1" at time T14, it can be seen that the underlined symbol string input one time before that is equal to the matching string.

この例では記号記憶手段210に格納された照合記号列
″ABABB″のみ検知しているが、テキスト内の記号
列の1部が重複したシ、欠けたシしても混同がなければ
検知することも可能である。
In this example, only the collation symbol string "ABABB" stored in the symbol storage means 210 is detected, but even if part of the symbol string in the text is duplicated or missing, it can be detected if there is no confusion. is also possible.

たとえば、照合記号列の先頭が記号″Z″でも良いとす
る場合には記号記憶手段210の第0ピツトの記号2で
指定される番地にも1”を格納しておくことで、ABA
B B”および” ZBABB″の両記号列を抽出でき
る。
For example, if the head of the collation symbol string can be the symbol "Z", by storing 1" at the address specified by the symbol 2 at the 0th pit of the symbol storage means 210, the ABA
Both symbol strings “B B” and “ZBABB” can be extracted.

この記号列照合装置は単語等の意味を持つ記号列毎にス
ペース等の区切り記号等がない記号列の照合も可能にす
る。また、同様な意味を有する異なる記号列の照合も可
能である。英単語、特に名詞V1:単数形と板数形で最
終文字が異なる場合が多い。例えば’ rlemory
”は複数形になるとme−mories ”になる。こ
の場合、照合記号列としてmemo r y”とmem
ori ”すなわちS”memoryの最後に”y”と
i″の両記号を付加した記号列を記憶しておくことで、
”memory”と”m em −ories”の両記
号列を照合できる。
This symbol string matching device also makes it possible to match symbol strings that do not have delimiters such as spaces for each symbol string that has a meaning such as a word. It is also possible to match different symbol strings that have similar meanings. English words, especially nouns V1: The final letter often differs between singular and numeral forms. For example, ' rlemory
``me-mories'' becomes plural. In this case, the collation symbol string is “memory” and “mem”.
By storing a symbol string with both the symbols "y" and "i" added to the end of "ori", that is, S"memory,
Both symbol strings "memory" and "mem-ories" can be matched.

この記号列照合装置は容易にLSI化が可能であるので
低価格化をもたらし、また1個の記号を記号列記憶手段
、例えばICメモリのほぼサイクルタイムで照合可能で
あるため、高速な記号列照合を可能にする。また、種々
の長さの記号列長の照合記号列を取扱うことができる。
This symbol string matching device can be easily integrated into an LSI, resulting in a reduction in cost, and since it can match one symbol in approximately the cycle time of a symbol string storage means, such as an IC memory, it can produce high-speed symbol strings. Enables matching. Furthermore, it is possible to handle collation symbol strings of various symbol string lengths.

まだ、照合出力を発生する出力端子数が削減され、よシ
容易にLSI化を可能にする。
Still, the number of output terminals that generate verification outputs is reduced, making it easier to implement into an LSI.

第4図は本発明による記号列照合装置の他の実施例の説
明図である。この記号列照合装置は任意の記号列長の複
数の照合記号列を並列に照合できる。これを可能にする
ために、第2図の記号列記憶装置に使用した第2の伝達
手段270と第1の伝達手段230と出力手段260と
に各々対応するオアゲート回路470と第1のアンドゲ
ート回路430と第2のアンドゲート回路460と、さ
らに記号列記憶手段210と第1のレジスタアレイ44
0と第2のレジスタアレイ450と出力手段としてのア
ンドゲート回路460に付加されるエンコーダ490と
から構成される。
FIG. 4 is an explanatory diagram of another embodiment of the symbol string matching device according to the present invention. This symbol string matching device can match multiple matching symbol strings of arbitrary symbol string lengths in parallel. To make this possible, an OR gate circuit 470 and a first AND gate are provided, which correspond to the second transmission means 270, first transmission means 230, and output means 260 used in the symbol string storage device of FIG. The circuit 430, the second AND gate circuit 460, and further the symbol string storage means 210 and the first register array 44.
0, a second register array 450, and an encoder 490 added to an AND gate circuit 460 as an output means.

第1のレジスタアレイ440はM個有シ、各々N個のレ
ジスタ445を含んでいる。各節」のレジスタアレイ4
40内の各レジスタ445は第1のアンドゲート回路4
30を介して連結され、各節1のレジスタアレイ440
はオアゲート回路470と第1のアンドゲート回路43
0を介して接続される。第2のレジスタアレイ450は
第1のレジスタアレイ440の個数に対応するM個のレ
ジスタを含み、それらは直列に接続されている。
The first register array 440 includes M registers, each including N registers 445 . Register array 4 for each section
Each register 445 in 40 is connected to the first AND gate circuit 4
30 and register array 440 of each node 1
are the OR gate circuit 470 and the first AND gate circuit 43
Connected via 0. Second register array 450 includes M registers corresponding to the number of first register array 440, which are connected in series.

照合記号列は第2図と同様に記号に関連づけたビットバ
タンで記号列記憶手段210に格納される。すなわち、
照合記号列の記号で示される記号列記憶手段210のア
ドレスにのみ1″を書込むことでその記号が格納される
。照合記号列の記号数が第1のレジスタアレイ440の
レジスタ445の個数Nよシ小さい場合には、記号列記
憶手段210に第1のレジスタアレイ440に対応して
M個の照合記号列を格納できる。このとき、第2のレジ
スタアレイ450の各レジスタ455には、M個の照合
記号列を区切るマーカとして”1”を格納する。このマ
ーカはマーカ入力信号451と共に第2のレジスタアレ
イ450へのマーカ書込みクロック信号452を印加す
ることで直列に書込める。また、照合記号列の記号数と
Nとの差に相当する記号列記憶手段2100ピツトには
全てのアドレスに”1”を格納して訃く必要がある。
The collation symbol string is stored in the symbol string storage means 210 with a bit button associated with the symbol as in FIG. 2. That is,
By writing 1'' only in the address of the symbol string storage means 210 indicated by the symbol of the collation symbol string, that symbol is stored.The number of symbols of the collation symbol string is the number N of the registers 445 of the first register array 440. If the size is very small, M collation symbol strings can be stored in the symbol string storage means 210 corresponding to the first register array 440. At this time, each register 455 of the second register array 450 can store M collation symbol strings. "1" is stored as a marker that separates the verification symbol strings. This marker can be written in series by applying the marker input signal 451 and the marker write clock signal 452 to the second register array 450. It is necessary to store "1" at all addresses in the symbol string storage means 2100 pits corresponding to the difference between the number of symbols in the symbol string and N.

例えば、第1のレジスタアレイ440のレジスタ445
0個数Nを8とし、そこに6文字の照合記号列” me
mory”を格納する場合には、記号列記憶手段の第1
ビツト目と第2ビツト目の全アドレスに”1″を格納し
、第3ビツト目から第8ビツト目に各々 m″9″′e
″ 1 ” wO″ツ6r″?”y”の記号に対応する
アドレスにのみ1”を格納させる。このように格納する
と、第1のレジスタアレイ440内の第1段目と第2段
目のレジスタ445には、記号列入力端子221から入
力される記号にかかわらず常に”1″が保持され   
・る。その結果、照合記号夕1じmemory ″に等
しい6市袖列が記号列入力端子221から入力されたと
きのみ、”■”の内部信号が第1のレジスタアレイ44
0内の最終段のレジスタ445に伝達され、第2のアン
ドゲート回路460を介して、照合出力480が発生す
る。すなわち、レジスタ445の段数Nよシ短い詫号列
長の照合記号列の照合が可能となる。
For example, register 445 of first register array 440
Let the number N of zeros be 8, and add a 6-character collation symbol string "me"
When storing “Mory”, the first
Store "1" in all addresses of the 2nd and 2nd bits, and store m"9"'e in the 3rd to 8th bits respectively.
"1"wO"tsu6r"? 1” is stored only in the address corresponding to the symbol “y”. When stored in this way, the first and second stage registers 445 in the first register array 440 have symbol string input terminals. “1” is always held regardless of the symbol input from 221.
・Ru. As a result, the internal signal "■" is sent to the first register array 44 only when the 6-digit string equal to the collation symbol ``memory'' is input from the symbol string input terminal 221.
0 is transmitted to the final stage register 445, and a verification output 480 is generated via the second AND gate circuit 460. In other words, it is possible to match a verification symbol string having a length shorter than the number of stages N of the register 445.

一方:記号列長がNより大きい照合記号列に対しては、
2個以上の第1のレジスタアレイ44.0にまたがって
照合記号列を格納する。このために、その第1のレジス
タアレイ440のつなが9に対応する第2のレジスタア
レイ450のレジスタ455に連続していることを意味
するO″を格納させる。この結果、”0”を出力する第
2のレジスタアレイ450のレジスタ455につながる
一オアゲー)・回路470は、第1のレジスタアレイ4
40の最終段のレジスタ445の内容を次の策1のレジ
スタアレイ4400Å力につながるアンドゲート回路4
30に伝達する。すなわち、2個の第1のレジスタアレ
イ440が連わ1′、に接続されたことになる。とのよ
うに、第2のレジスタアレイ450内のレジスタ455
の内容により、各節1のレジスタアレイ440を直列に
接続しだシ、捷だ分離することができる。すなわち、第
1のレジスタアレイ440内のレジスタ445の段数N
の単位でそのレジスタ445・をっなけることできる。
On the other hand: For collation symbol strings whose symbol string length is greater than N,
A collation symbol string is stored across two or more first register arrays 44.0. For this purpose, the register 455 of the second register array 450 corresponding to the link 9 of the first register array 440 stores O'', which means continuous. As a result, "0" is output. A circuit 470 connected to the register 455 of the second register array 450 is connected to the register 455 of the second register array 450.
The contents of the register 445 at the final stage of 40 are converted to the AND gate circuit 4 which leads to the register array 4400 Å of the next plan 1.
30. That is, the two first register arrays 440 are connected in series 1'. register 455 in second register array 450, such as
Depending on the contents of , the register array 440 of each node 1 can be connected in series or separated. That is, the number of stages N of registers 445 in the first register array 440
The register 445 can be deleted in units of .

このように第2のレジスタアレイ450の内容により、
任意の第1のレジスタアレイ440内の最終段のレジス
タ445内の内部信号を照合出力480に導くことがで
き、複数の第1のレジスタアレイ440を任意に分割、
接続ができる。従って、記号列記憶手段210に任意の
記号列長の複数の照合記号列を格納でき、その照合記号
列に関する並列照合が可能となる。
Thus, depending on the contents of the second register array 450,
The internal signal in the final stage register 445 in any first register array 440 can be guided to the collation output 480, and the plurality of first register arrays 440 can be arbitrarily divided.
Connection is possible. Therefore, a plurality of collation symbol strings having an arbitrary symbol string length can be stored in the symbol string storage means 210, and parallel verification of the collation symbol strings can be performed.

また、照合出力端子480の数は、第1のレジスタアレ
イ440の数Mで複数の第1のレジスタアレイ440内
のレジスタ445の111数のN分の1である。出力端
子数が少ないため、容易にI、S■化が可能となシ価格
低下をもたらす。
Further, the number of collation output terminals 480 is 1/N of the number M of the first register arrays 440, which is 111 the number of registers 445 in the plurality of first register arrays 440. Since the number of output terminals is small, it is easy to convert into I and S, which lowers the price.

各照合出力480はエンコーダ490に導かれ、照合し
た記号列の分類コード49】をエンコーダは発生する。
Each matching output 480 is directed to an encoder 490, which generates a classification code 49 for the matched symbol string.

いずれの照合出力480もエンコーダ490に到達して
いない場合に、エンコーダ490は判別不能信号492
を出力する。このようなエンコーダ490はプライオリ
ティ・エンコーダの商品名で市販されている。分類コー
ト491のビット数は照合出力480の個数を2Nとす
ると、Nビットとなり、記号列照合装置の出力端子数を
削減し、容易にLS’I化を実現できる。
If none of the matching outputs 480 has reached the encoder 490, the encoder 490 sends an indiscernible signal 492
Output. Such an encoder 490 is commercially available under the trade name Priority Encoder. The number of bits of the classification code 491 is N bits when the number of collation outputs 480 is 2N, which reduces the number of output terminals of the symbol string collation device and easily realizes LS'I.

また、エンコーダ490の代シに照合出力480の信号
を並列に入力し、それを直列に出力するシフトレジスタ
に鰺換えることも可能である。仁の場合、出力端子数が
1個となりさらにLSI化が容易になる。
It is also possible to input the signal of the comparison output 480 in parallel to the encoder 490 and use a shift register that outputs the signal in series. In the case of a wire, the number of output terminals is one, which further facilitates LSI implementation.

々お、第12第2のアンドゲート回路430゜460及
びオアゲート回路470は各々内部信号の第1の伝達手
段、内部信号の出力手段、内部信号の第2の伝達 手段
の機能を有するものならば、他のゲート回路に11テ換
えることも可能である。
If the twelfth second AND gate circuit 430, 460 and the OR gate circuit 470 have the functions of a first internal signal transmission means, an internal signal output means, and a second internal signal transmission means, respectively. , it is also possible to replace the gate circuit with another gate circuit.

(発明の効果) 以上述べたように、本発明によれば従来の記号列照合に
おいて照合時間が掛かりすぎる問題を容易に解決した記
号列照合装置を実現できる。才だ一部の記号の誤りや変
化にも柔軟に対応できる照合が可能である。さらに、記
号列長が異なる複数の照合記号列を格納でき、それらを
並列に照合できる。従って、ハードウェアを効率的に利
用し、価格低下と照合時間の短縮をもたらす。
(Effects of the Invention) As described above, according to the present invention, it is possible to realize a symbol string matching device that easily solves the problem of the conventional symbol string matching requiring too much matching time. It is possible to perform verification that can flexibly deal with errors and changes in some symbols. Furthermore, multiple collation symbol strings with different symbol string lengths can be stored and collated in parallel. Therefore, hardware is used efficiently, resulting in lower costs and shorter collation times.

本発明の記号列照合装置は現状の256キロピツ) R
AMの半導体技術を用いれば、記号のコード長を8ビツ
トとすると、平均8個の記号列長の照合記号列を128
個を1チツプに収納でき、それらを並列に照合できる。
The symbol string matching device of the present invention is currently 256 kilopits) R
If AM semiconductor technology is used, and the code length of a symbol is 8 bits, the verification symbol string with an average length of 8 symbols will be 128.
can be stored on one chip and compared in parallel.

1チツプで256種の記号から成る記号列を128クラ
スに分類することができる事はワープロで作成した文章
の原文ファイルからシーケンシアルに読出される記号列
文章の中から128個寸でのキーワード(記号列)の抽
出を一挙にやシとけれる事を意味する。従来は多数のキ
ーワードの同時検索が困難であったから、上記チップの
インパクトは太きい。
The ability to classify a symbol string consisting of 256 types of symbols into 128 classes with one chip means that it can classify 128 keywords ( It means that the extraction of the symbol string) can be done all at once. In the past, it was difficult to search multiple keywords at the same time, so the impact of the above chip is significant.

この記号列識別装置はOCR装置や音声認識装置などバ
タン認識を行なうシステムにおける特徴系列の分X口に
おいても役立つ。この記号列識別装置の1チツプLSI
化は言語翻訳に必要な辞書としても役立つ。このチップ
に通常RAMを接続し各記号列の分類コードに対応すけ
て、単語の訳語を格納すると、1チツプにつき128単
語までの翻訳が記号列の入力の完了時に直ちに求まる。
This symbol string identification device is also useful for identifying feature sequences in systems that perform button recognition, such as OCR devices and speech recognition devices. 1-chip LSI of this symbol string identification device
It also serves as a dictionary necessary for language translation. If a normal RAM is connected to this chip and translations of words are stored in correspondence with the classification code of each symbol string, translations of up to 128 words per chip can be obtained immediately upon completion of inputting symbol strings.

記号列識別チップに接続される通常RAMには記号列の
分)頂コードに対応ずけて、各種の情報を格納すること
が可能であって、それによって種々の記号列情報処理機
能が達成される。たとえば、記号列の分’4’a4コー
ドに対応すけ、単語の品詞コードや記号列の出現回数や
記号列文章に対する処理命令を格納すると、知識情報の
収集や整理が行ないやすくなる。
The normal RAM connected to the symbol string identification chip can store various types of information corresponding to the top codes of the symbol strings, thereby achieving various symbol string information processing functions. Ru. For example, if the part-of-speech code of a word, the number of occurrences of a symbol string, and a processing command for a symbol string sentence are stored in correspondence with the '4'a4 code of a symbol string, it becomes easier to collect and organize knowledge information.

この記号列抽出装置の処理速度は、記号記憶手段に使わ
れる半導体RAMのサイクルタイムTcが1つの記号の
処理時間にはぼ対応する。Tcを100 nsとすると
、109個の記号列のテギス)K対する103個の記号
列による照合を10秒で行なえる。現状のソフトウェア
による照合では10時間程度を必要とするので、本発明
の記号列照合装置は著しく照合時間を短縮する。
The processing speed of this symbol string extraction device is such that the cycle time Tc of the semiconductor RAM used as the symbol storage means approximately corresponds to the processing time of one symbol. If Tc is 100 ns, matching of 103 symbol strings against Tegis) K of 109 symbol strings can be performed in 10 seconds. Since matching using current software requires about 10 hours, the symbol string matching device of the present invention significantly shortens the matching time.

以上まとめると、従来のマイコンとソフトウェアの組合
わせによる記号列の分類による処理時間の大きい事と柔
軟性に欠ける事の欠陥が容易に解決する。また、本発明
の記号列識別装置が1チツプのLSIにまとまシ易い事
を考えると、このようなLS’Iは文章の原文ファイル
からのキーワードの抽出や言語翻訳用の電子辞書やバタ
ン認識システムの特徴系列の分類において欠かすことの
できない機能素子になる。
In summary, the drawbacks of long processing time and lack of flexibility caused by conventional symbol string classification using a combination of a microcomputer and software can be easily solved. Furthermore, considering that the symbol string identification device of the present invention can be easily integrated into a single LSI chip, such an LS'I can be used for extracting keywords from original text files, electronic dictionaries for language translation, and slam recognition systems. It becomes an indispensable functional element in the classification of feature series.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は記号列照合問題の説明図、第2図は本発明によ
る記号列照合装置の一実施例の説明図、第7図 第3図
FIG. 1 is an explanatory diagram of the symbol string matching problem, FIG. 2 is an explanatory diagram of an embodiment of the symbol string matching device according to the present invention, FIG. 7, and FIG.

Claims (4)

【特許請求の範囲】[Claims] (1)各記号に関連づけたビットパタンで複数の照合記
号列を記憶する記号列記憶手段と、この各出力につなが
る第1の伝達手段と、互いに隣接する各レジスタ間が第
1の伝達手段により連結された複数の第1のレジスタア
レイと、隣接する各レジスタ間が直列に接続された第2
のレジスタアレイと、第2のレジスタアレイの各段のレ
ジスタの内容により各第1のレジスタアレイの出力を選
択的に出力する出力手段と、各第1のレジスタアレイの
出力と第2のレジスタアレイ内のレジスタの出力とを選
択的に次の第1のレジスタアレイに伝達する第2の伝達
手段とを備えたことを特徴とする記号列照合装置。
(1) Symbol string storage means for storing a plurality of collation symbol strings with bit patterns associated with each symbol, a first transmission means connected to each of the outputs, and a first transmission means that connects mutually adjacent registers. A plurality of connected first register arrays and a second register array in which adjacent registers are connected in series.
a register array, an output means for selectively outputting the output of each first register array according to the contents of the registers in each stage of the second register array, and output means for selectively outputting the output of each first register array and the second register array. a second transmitting means for selectively transmitting the outputs of the registers in the first register array to the next first register array.
(2)第1の伝達手段と出力手段がアンドゲート回路で
あり、前記第2の伝達手段がオアゲート回路であること
を特徴とする特許請求の範囲第1項記載の記号列照合装
置。
(2) The symbol string matching device according to claim 1, wherein the first transmission means and the output means are AND gate circuits, and the second transmission means is an OR gate circuit.
(3)各記号に関連づけたビットパタンで複数の照合記
号列を記憶する記号列記憶手段と、この各出力につなが
る第1の伝達手段と、互いに隣接する各レジスタ間が第
1の伝達手段により連結された複数の第1のレジスタア
レイと、隣接する各レジスタ間が直列に接続された第2
のレジスタアレイと、第2のレジスタアレイの各段のレ
ジスタの内容により各第1のレジスタアレイの出力を選
択的に出力する出力手段と、各第1のレジスタアレイの
出力と第2のレジスタアレイ内のレジスタの出力とを選
択的に次の第1のレジスタアレイに伝達する第2の伝達
手段と前記出力手段に付加するエンコーダ又はシフトレ
ジスタとを備えたことを特徴とする記号列照合装置。
(3) A symbol string storage means for storing a plurality of collation symbol strings with bit patterns associated with each symbol, a first transmission means connected to each of the outputs, and a first transmission means that communicates between each adjacent register. A plurality of connected first register arrays and a second register array in which adjacent registers are connected in series.
a register array, an output means for selectively outputting the output of each first register array according to the contents of the registers in each stage of the second register array, and output means for selectively outputting the output of each first register array and the second register array. 1. A symbol string collation device comprising: a second transmission means for selectively transmitting the output of a register in the first register array to the next first register array; and an encoder or a shift register added to the output means.
(4)第1の伝達手段と出力手段がアンドゲート回路で
あり、前記第2の伝達手段がオアゲート回路であること
を特徴とする特許請求の範囲第3項記載の記号列照合装
置。
(4) The symbol string matching device according to claim 3, wherein the first transmission means and the output means are AND gate circuits, and the second transmission means is an OR gate circuit.
JP14892584A 1984-07-18 1984-07-18 Symbol string collating device Granted JPS6128133A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14892584A JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14892584A JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Publications (2)

Publication Number Publication Date
JPS6128133A true JPS6128133A (en) 1986-02-07
JPH0527150B2 JPH0527150B2 (en) 1993-04-20

Family

ID=15463726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14892584A Granted JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Country Status (1)

Country Link
JP (1) JPS6128133A (en)

Also Published As

Publication number Publication date
JPH0527150B2 (en) 1993-04-20

Similar Documents

Publication Publication Date Title
US5450537A (en) Method and apparatus for completing a partially completed document in accordance with a blank form from data automatically retrieved from a database
JPH0533422B2 (en)
JP2737173B2 (en) Symbol string collating device and its control method
JP2715465B2 (en) Symbol string matching device
JPS6128133A (en) Symbol string collating device
JPH0554147B2 (en)
JPH0529950B2 (en)
JPH0554148B2 (en)
JPS6128130A (en) Collating device of symbol string and its control system
JPS5842904B2 (en) Handwritten kana/kanji character recognition device
JPS6195443A (en) Matching device of code string
JPS60225273A (en) Word retrieving system
JP3007697B2 (en) Word matching device and word matching method
JPH0438026B2 (en)
JPS5814710B2 (en) pattern classification device
JPH0583957B2 (en)
JP2784004B2 (en) Character recognition device
JPS6128131A (en) Symbol string collating device and its collating system
JPS60150169A (en) Electronic word dictionary
JPS6120178A (en) Code string discriminator and its controlling method
CN1147655A (en) Chinese character information searching method and electronic notebook using the said method
JPH0283594A (en) Morpheme composition type english word dictionary constituting system
JPS5833992B2 (en) information retrieval device
JPS63138479A (en) Character recognizing device
JPS61161588A (en) Character recognition post-processing method