JPS63219082A - parallel image processing processor - Google Patents

parallel image processing processor

Info

Publication number
JPS63219082A
JPS63219082A JP26640887A JP26640887A JPS63219082A JP S63219082 A JPS63219082 A JP S63219082A JP 26640887 A JP26640887 A JP 26640887A JP 26640887 A JP26640887 A JP 26640887A JP S63219082 A JPS63219082 A JP S63219082A
Authority
JP
Japan
Prior art keywords
image data
arithmetic
image
image processing
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP26640887A
Other languages
Japanese (ja)
Other versions
JPH0260028B2 (en
Inventor
Yoshiki Kobayashi
芳樹 小林
Tadashi Fukushima
忠 福島
Yoshiyuki Okuyama
奥山 良幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP26640887A priority Critical patent/JPS63219082A/en
Publication of JPS63219082A publication Critical patent/JPS63219082A/en
Publication of JPH0260028B2 publication Critical patent/JPH0260028B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

PURPOSE:To form an architecture suitable to LSI by providing an image data input port, plural shift registers, an arithmetic circuit, etc., and giving a product sum summation memory commonly to plural processor units. CONSTITUTION:When a product sum summation memory 15 is commonly given to processor units PE12#1-#4 and an image f14 is inputted from an image data input port 24 at time 1, images f11-f14 are given through a shift register 11 to respective PEs. A load W11 is read from the memory 15, the product with the input image is obtained and held at a cumulative arithmetic circuit 20. Next, an image f15 is inputted at time 2, images f12-f15 are given to respective PEs, the product with a next load W12 is obtained and the cumulative processing with a previous value is executed at the circuit 20. Thereafter, the same processing is executed in accordance with respective times, and a space product sum arithmetic result is continuously outputted through a partial sum output shift register 21 and a partial sum cumulative arithmetic circuit 14. Thus, the architecture suitable to the LSI can be formed.

Description

【発明の詳細な説明】 本発明は、空間積和演算等の局所近傍画像処理を実行す
る並列画像処理プロセッサに係り、特にLSI化に適し
たアーキテクチャを有する並列画像処理プロセッサに関
する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a parallel image processing processor that performs local neighborhood image processing such as spatial product-sum operations, and particularly to a parallel image processing processor having an architecture suitable for LSI implementation.

画像処理プロセッサは、通産省大型プロジェクト「パタ
ーン情報処理システム」 (昭和55年10月に研究開
発成果発表論文集が発行されている。)にて開発されて
いるように、画像データを並列処理し高速化を図ろうと
しているものが多い。
Image processing processors process image data in parallel at high speeds, as developed in the Ministry of International Trade and Industry's large-scale project "Pattern Information Processing System" (a collection of research and development results was published in October 1980). There are many things that we are trying to change.

画像データは2次元の広がりをもつため、全ての画像デ
ータを並列処理することは困難である。しかし、ノイズ
除去や輪郭抽出機能を実現する空間積和演算等のように
、近傍の画像データ間の演算が多いため、例えば画像の
m行×n列の局所的なデータを並列処理する例が多い。
Since image data has a two-dimensional spread, it is difficult to process all image data in parallel. However, since there are many calculations between neighboring image data, such as spatial product-sum calculations that realize noise removal and contour extraction functions, for example, it is difficult to process local data in m rows by n columns of an image in parallel. many.

このような局所並列形画像処理は、前記文献あるいは 木戸出正継二画像処理ハードウェアの動向:情報処理コ
ンピュータビジョン研究会資料8−6(1’980年9
月)にて総括的に説明されているが、CCDアナログ処
理形を除いてLSI化されたものはない。従来のアーキ
テクチャのプロセッサをそのままLSI化するには、 ■ 集積度 ■ ピン数 の点で困難がある。
This type of locally parallel image processing is described in the above-mentioned literature or Masatsugu Kido, Trends in Image Processing Hardware: Information Processing Computer Vision Study Group Material 8-6 (September 1'980).
Although it has been comprehensively explained in 2011, there is no LSI version except for the CCD analog processing type. There are difficulties in converting a processor with a conventional architecture into an LSI as it is in terms of: 1) the degree of integration, and 2) the number of pins.

本発明の目的は、LSI化に適したアーキテクチャを有
する並列画像処理プロセッサを提供するにある。
An object of the present invention is to provide a parallel image processing processor having an architecture suitable for LSI integration.

本発明の特徴は、画像データ供給源がらの画像データを
取込み局所並列画像データ処理を行なう並列画像処理プ
ロセッサにおいて、画像データ入力ポートと、前記画像
データ入力ポートがらの画像データを順次取込む複数個
の第1のシフトレジスタと、前記各第1のシフトレジス
タの内容を入力して画像処理演算を行なう複数個のプロ
セッサエレメントと、前記各プロセッサエレメント内の
演算結果を各プロセッサエレメントごとに累積加算する
複数個の第1の演算回路と、前記複数個の第1の演算回
路の演算結果を取込む第2のシフトレジスタと、前段の
基本モジュールにおける演算結果データを入力する演算
結果データ入力ポートと、前記演算結果データと前記第
2のシフトレジスタ内にセットされた前記第1の演算回
路の演算結果の加算を行なう第2の演算回路と、前記第
2の演算回路の演算結果データを出力する演算結果デー
タ出力ポートとからなる画像処理プロセッサ基本モジュ
ールを、複数組並列配置した並列画像処理プロセッサに
ある。
A feature of the present invention is that in a parallel image processing processor that takes in image data from an image data source and performs local parallel image data processing, it includes an image data input port and a plurality of parallel image processing processors that sequentially take in image data from the image data input ports. a first shift register, a plurality of processor elements that input the contents of each of the first shift registers and perform image processing operations, and cumulatively add the operation results in each of the processor elements for each processor element. a plurality of first arithmetic circuits, a second shift register that receives the arithmetic results of the plurality of first arithmetic circuits, and an arithmetic result data input port that inputs the arithmetic result data of the preceding basic module; a second arithmetic circuit that adds the arithmetic result data and the arithmetic result of the first arithmetic circuit set in the second shift register; and an arithmetic operation that outputs the arithmetic result data of the second arithmetic circuit. The parallel image processing processor includes a plurality of sets of image processing processor basic modules each consisting of a result data output port and a result data output port arranged in parallel.

以下、本発明を図示する実施例を用いて説明する。尚、
第1図〜第10図は最近考えられている並列画像処理技
術の説明図、第11図及び第12図は本発明の一実施例
である。
Hereinafter, the present invention will be explained using illustrative embodiments. still,
1 to 10 are explanatory diagrams of recently considered parallel image processing techniques, and FIGS. 11 and 12 are one embodiment of the present invention.

第1図は典型的な画像処理システムの構成を示すもので
、画像入力装置として工業用テレビジョンカメラ52画
像記憶装置として画像メモリ3゜及びこの内容を表示す
るCRTモニタ4が設けられている。画像メモリ3の画
像情報が画像処理プロセッサ2により処理され、この結
果がまた画像メモリ3に格納されたり、あるいはシステ
ム全体を制御する管理プロセッサ1に与えられる。
FIG. 1 shows the configuration of a typical image processing system, which includes an industrial television camera 5 as an image input device, an image memory 3 as an image storage device, and a CRT monitor 4 for displaying the contents thereof. The image information in the image memory 3 is processed by the image processor 2, and the results are also stored in the image memory 3 or provided to the management processor 1 which controls the entire system.

代表的な画像処理機能として空間積和演算がある。これ
は第2図に示すように、例えば4×4画素の局所画像デ
ータf!1〜f44に対し、定められた荷重Wll〜W
44を乗算し総和をとるものである。
A typical image processing function is spatial product-sum operation. As shown in FIG. 2, this is, for example, 4×4 pixel local image data f! 1 to f44, the determined loads Wll to W
44 and calculates the sum.

これにより ノイズ除去 輪郭強調 等の画像処理が行える。This results in noise removal Contour enhancement Image processing such as

このような1例えば4X4画素の局所画像データを処理
する画像処理プロセッサとして、第3図に示すような4
個のプロセッサエレメント(PE#1〜#4)12をも
つ画像処理プロセッサ基本モジュール10を4モジユ一
ル組合せた並列画像処理プロセッサ(タイプIと呼ぶ)
2−Iとしている。画像メモリ3からは、局所画像デー
タが1列分(第3図ではf14〜f44)並列に与えら
れ、その演算結果(第3図ではg)が画像メモリ3に格
納される。
As an image processing processor that processes local image data of 4×4 pixels, for example, a 4×4 image processor as shown in FIG.
A parallel image processing processor (referred to as type I) that combines four image processing processor basic modules 10 each having 12 processor elements (PE#1 to #4).
2-I. One column of local image data (f14 to f44 in FIG. 3) is given in parallel from the image memory 3, and the calculation result (g in FIG. 3) is stored in the image memory 3.

基本モジュール10は、処理対象の行の画像データを取
込む画像データ入力ポート24、内部処理結果を出力す
る演算結果データ出力ポート35をもつ。画像データf
14が入力されたとき、シフトレジスタ11を介して1
画素毎隣接した画素f 11 f sx、  f 11
も対応するPE#4〜1に入力さ・れる。画素fztは
、空間積和演算のサイズを4×4以上に拡張する場合の
ために、画像データ出力ポート25から出力される。P
E12には、シフトレジスタ11からの処理対象の画像
データfと、荷重記憶メモリ15からの荷重データWが
与えられ1乗算が実行される。この結果が4個のPE1
2の結果を加算する演算回路13により部分和がとられ
る。演算結果入力ポート30から入力される部分和が演
算回路14により次々と累算され、演算結果出力ポート
35より次段の基本モジュール10に出力される。
The basic module 10 has an image data input port 24 that takes in image data of a row to be processed, and a calculation result data output port 35 that outputs internal processing results. image data f
When 14 is input, 1 is input through shift register 11.
Pixel by pixel adjacent pixel f 11 f sx, f 11
is also input to the corresponding PE#4-1. Pixel fzt is output from the image data output port 25 in case the size of the spatial product-sum operation is expanded to 4×4 or more. P
The image data f to be processed from the shift register 11 and the load data W from the load storage memory 15 are given to E12, and multiplication by 1 is executed. This result is 4 PE1
A partial sum is calculated by the arithmetic circuit 13 which adds the results of the two results. Partial sums inputted from the calculation result input port 30 are accumulated one after another by the calculation circuit 14, and outputted from the calculation result output port 35 to the basic module 10 at the next stage.

このようにして、基本モジュール10を4段重ねること
により、最終基本モジュールIODからが出力される。
In this way, by stacking the basic modules 10 in four stages, the final basic module IOD outputs.

このタイムチャートを第4図に示す。前述した演算が基
本クロック時間Δt1内に実行され結果gが出力され、
次のΔt1では1画素分だけ移動した4×4絵素の入力
画像に対する結果gが出力されることになる。したがっ
て、次々と入力され 。
This time chart is shown in FIG. The above-mentioned operation is executed within the basic clock time Δt1 and the result g is output,
At the next Δt1, the result g for the input image of 4×4 picture elements shifted by one pixel is output. Therefore, they are input one after another.

る画像データに対する全ての4×4絵素の空間積和演算
結果が次々と出力される。
The spatial product-sum calculation results of all 4×4 picture elements for the image data are output one after another.

第5図の実施例は、前述の実施例のタイプ1画像処理プ
ロセッサ2−Iの基本クロック時間Δt1を、パイプラ
イン処理により短縮化した構成を示すものである。これ
をタイプ■のパイプラインバージョンの並列画像処理プ
ロセッサ2−IPと呼ぶ。即ち、タイプIでは基本クロ
ック時間Δt1は ■ 画像データf+、jのシフトレジスタ11への入力
処理 ■ プロセッサエレメント12による積和荷重Wl、J
と画像fl、Jとの乗算処理 ■ 演算回路13による部分和処理 ■ 演算回路14による部分和累算処理の全ての処理時
間の和以上である必要があった。
The embodiment shown in FIG. 5 shows a configuration in which the basic clock time Δt1 of the type 1 image processing processor 2-I of the previous embodiment is shortened by pipeline processing. This is called a pipeline version parallel image processing processor 2-IP of type (2). That is, in Type I, the basic clock time Δt1 is: ■ Input processing of image data f+, j to the shift register 11 ■ Product-sum load Wl, J by the processor element 12
Multiplication processing of images fl and J by image fl, J; Partial sum processing by arithmetic circuit 13; Partial sum accumulation processing by arithmetic circuit 14.

これに対して、例えば第5図の例のように、■と■、■
と■、及び■と■の間にパイプラインレジスタ16を介
在させることにより、その基本クロック時間Δt2を■
〜■の処理時間のうちの最大のもの(全ての和でない)
まで小さくすることが可能になる。このタイムチャート
を第6図に示す。
On the other hand, for example, as in the example in Figure 5, ■, ■, ■
By interposing the pipeline register 16 between and ■, and between ■ and ■, the basic clock time Δt2 can be changed to ■
The maximum processing time of ~■ (not the sum of all)
It is possible to make it as small as possible. This time chart is shown in FIG.

時刻1で処理■、2で■、3で■、4で■が実行される
。時刻2では次の入力画像に対する処理■。
Processing ■ is executed at time 1, ■ at time 2, ■ at time 3, and ■ at time 4. At time 2, the next input image is processed ■.

3で■、4で■、5で■が実行され、次々と各構成要素
をパイプライン的に動作させその処理速度を向上するこ
とができる。
3, 4, and 5 are executed, and the processing speed can be improved by operating each component one after another in a pipeline manner.

第7図の実施例は、前述の並列画像処理プロセッサ2−
IPの基本クロックΔt2を更に短縮化しうる構成を示
したもので、タイプ■のパイプラインースキューパージ
ョンの並列画像処理プロセッサ2−IPSと呼ぶ。第5
図のIPタイプでの基本クロック時間Δt2は、処理■
の部分和累積時間により制約される可能性が強い。とい
うのは基本モジュール10をn段にした場合、Δt2は
演算回路14での処理時間と演算結果30.35の入出
力時間との和のn倍の時間が必要になるからである。特
に基本モジュール10をLSI化した場合は入出力遅延
時間は無視できない。このため、第5図のタイプtpに
更に部分和の累積のパスにパイプラインレジスタ16を
入れ、基本モジュールl0A−D間での演算もパイプラ
イン処理するようにしたもので、前述のΔし2の時間規
制を1/nにしている。この第7図のIPSタイプでは
、第8図のタイムチャートで示すように、同時刻3で各
基本モジュールIOA〜Dの部分和が算出され累積の部
分でのタイミングが合わなくなる。第7図のIPSでは
、このタイミング合せのための可変段数スキュー補正用
シフトレジスタ17を画像データ入力ボート24に直後
に設置している。各基本モジュールl0A−Dの累積パ
スでのパイプライン段数は1段であるため、可変段数ス
キュー補正用シフトレジスタ17の段数は、基本モジュ
ールIOA・・・・・・・・・O段〃   B・・・・
・・・・・1段 C・・・・・・・・・2段 D・・・・・・・・・3段 に設定される。このようにして第8図のタイムチャート
における不整合(・・・部)が補正され、連続したΔt
3時間でのパイプライン動作が可能となる。
The embodiment of FIG. 7 is based on the parallel image processing processor 2-
This shows a configuration in which the IP basic clock Δt2 can be further shortened, and is called a type (2) pipeline-skew version parallel image processing processor 2-IPS. Fifth
The basic clock time Δt2 in the IP type shown in the figure is the processing ■
There is a strong possibility that it is constrained by the partial sum accumulation time of . This is because when the basic module 10 has n stages, Δt2 requires n times the sum of the processing time in the arithmetic circuit 14 and the input/output time of the arithmetic result 30.35. In particular, when the basic module 10 is implemented as an LSI, the input/output delay time cannot be ignored. For this reason, a pipeline register 16 is further added to the type tp shown in FIG. The time regulation is set to 1/n. In the IPS type shown in FIG. 7, as shown in the time chart of FIG. 8, the partial sums of the basic modules IOA to D are calculated at the same time 3, and the timing of the cumulative part does not match. In the IPS shown in FIG. 7, a variable stage skew correction shift register 17 for timing adjustment is installed immediately after the image data input port 24. Since the number of pipeline stages in the cumulative path of each basic module l0A-D is one stage, the number of stages of the variable stage number skew correction shift register 17 is as follows: basic module IOA...O stages B. ...
...1st step C...2nd step D...3rd step. In this way, the mismatch (... part) in the time chart of FIG. 8 is corrected, and the continuous Δt
Pipeline operation can be completed in 3 hours.

なお、容易にわかるように、スキュレジスタ17は、部
分和を求める演算回路13の直後に設置しても、あるい
は各PE12の直前、直後に設置しても同様にタイミン
グの不整合は解決される。
As can be easily seen, the timing mismatch is similarly resolved even if the skew register 17 is installed immediately after the arithmetic circuit 13 that calculates the partial sum, or even if it is installed immediately before or after each PE 12. .

第9図に、処理形態が異なる他の実施例を示す。FIG. 9 shows another embodiment with a different processing form.

前述までのタイプ■の構成では、画像データ入力をシフ
1−レジスタ11を介して各PE12#1〜−4に隣接
する絵素を分配していた。これに対し本実施例では、入
力画像データは各PE12#1〜4に共通に与え、この
乗算結果を演算回路18゜レジスタ19を介して累算し
て部分和Σ1を出力するようにしている。この動作を第
10図のタイムチャートを参照して説明する。
In the configuration of type (2) described above, image data input is distributed to adjacent picture elements to each PE 12 #1 to -4 via the shift 1 register 11. In contrast, in this embodiment, the input image data is commonly given to each PE 12 #1 to #4, and the multiplication results are accumulated via the arithmetic circuit 18° register 19 to output the partial sum Σ1. . This operation will be explained with reference to the time chart of FIG.

時刻1で画像データ入力ポート20より画像fltが入
力され、PE12#1にて荷重記憶メモリ15から読み
出された荷重Wllとの積f11−Wllがレジスタ1
9#2にセットされる。
At time 1, the image flt is input from the image data input port 20, and the product f11-Wll with the load Wll read out from the load storage memory 15 at PE12#1 is stored in register 1.
9 #2 is set.

時刻2で画像データfxzが入力され、PE12#2に
て荷重wt2との積f 1z* wzzがとられ、これ
とレジスタ19#2の値fl1mW11との和f11*
w1t+ft2*W12が演算回路18でとられ、レジ
スタ19#3にセットされる。
Image data fxz is input at time 2, and PE 12#2 takes the product f1z*wzz with load wt2, and calculates the sum f11* of this and the value fl1mW11 of register 19#2.
w1t+ft2*W12 is taken by the arithmetic circuit 18 and set in the register 19#3.

時刻3で画像データfzaが入力され、PE12#3に
て荷重W13との積f 1s−A13がとられ、これと
レジスタ19#3の値f 11 * wtt十f 12
嘲W12との和fll傘Wll+ftz傘W12+ f
 ta傘W13が演算回路18でとられ、レジスタ19
#4にセットされる。
Image data fza is input at time 3, and the product f1s-A13 with the load W13 is taken at PE12#3, and this and the value of register 19#3 f11 * wtt + f12
Japanese full umbrella with mock W12 Wll + ftz umbrella W12 + f
The ta umbrella W13 is taken by the arithmetic circuit 18, and the register 19
Set to #4.

時刻4で画像データfx4が入力され、PE12#4に
て荷重W14との積ft4傘W14がとられ、これとレ
ジスタ19#4の値f1を申w1t+fx2ネwxz+
ft3*wtaとの和Σ11=fli本Wll十〜+f
x4*wtaが演算回路18でとられる。この部分和Σ
1が各基本モジュールl0A−Dの演算回路14で累積
され、最終段から が出力される。
Image data fx4 is input at time 4, and PE12#4 takes the product ft4 umbrella W14 with load W14, and combines this with the value f1 of register 19#4 to obtain w1t+fx2newxz+
Sum of ft3*wta Σ11=fli book Wll 10~+f
x4*wta is taken by the arithmetic circuit 18. This partial sum Σ
1 is accumulated in the arithmetic circuit 14 of each basic module l0A-D, and is output from the final stage.

以下、各基本クロック時間Δt4間隔で空間積和演算結
果gが出力される。
Thereafter, the spatial product-sum calculation result g is output at intervals of each basic clock time Δt4.

このタイプHの並列画像処理プロセッサ2−nにも、タ
イプ!と同様に、タイプ■P及び■PSが考えられ、基
本クロック時間Δt4を小さくすることが可能である。
This type H parallel image processing processor 2-n also has type! Similarly, types ■P and ■PS can be considered, and it is possible to reduce the basic clock time Δt4.

これ、らは容易に類推できるのでここでは省略する。Since these and others can be easily inferred, they will be omitted here.

第11図は、本発明による並列画像処理プロセッサの一
実施例を示す。前述までの各PE12に独立に積和荷重
(メモリ)15を与えていた方式に対し、第11図の構
成では全PE12共通に積和荷重(メモ1月15を与え
る方式でありタイプ■の並列画像処理プロセッサ2−m
と呼ぶ。この動作を第12図のタイムチャートを参照し
て説明する。
FIG. 11 shows an embodiment of a parallel image processing processor according to the present invention. In contrast to the method described above in which a sum-of-products load (memory) 15 was given to each PE 12 independently, the configuration shown in Fig. 11 is a method of giving a sum-of-products load (memory 15) to all PEs 12 in common, and is a parallel type of type ■. Image processing processor 2-m
It is called. This operation will be explained with reference to the time chart of FIG.

まず時刻1で既に画像データ入力ポート20より画像f
14が入力されているとする。このときシフトレジスタ
11を介してPE12#1〜#4にはそれぞれfttt
 ftz、 f□3.f1番が与えられている。そして
荷重記憶メモリ15から荷重Witが読み出され、それ
ぞれの入力画像との積がとられる。演算回路20では、
時刻1のはじめに保持している値が1′0”クリアされ
、前述のf11〜f14とWllとの積がそれぞれ保持
される。
First, at time 1, the image f has already been input from the image data input port 20.
Assume that 14 is input. At this time, fttt is sent to PE12 #1 to #4 through the shift register 11.
ftz, f□3. The f1 number is given. Then, the load Wit is read out from the load storage memory 15 and multiplied by each input image. In the arithmetic circuit 20,
The value held at the beginning of time 1 is cleared to 1'0'', and the products of the aforementioned f11 to f14 and Wll are held respectively.

時刻2では画像f15が入力され、PE12#1〜#4
にはそれぞれf12〜15が与えられ、次の荷重W12
どの積がとられる。この後演算回路20で以前の値との
累積処理が行われる。例λばA1で2はf 111 W
1!+ f 121 A12、A2ではf 121 w
1t+ f 1s’s A12が結果として保持される
At time 2, image f15 is input, and PE12 #1 to #4
are respectively given f12 to f15, and the next load W12
Which product is taken? Thereafter, the arithmetic circuit 20 performs an accumulation process with the previous value. For example, λ is A1 and 2 is f 111 W
1! + f 121 A12, f 121 w in A2
1t+f 1s's A12 is retained as the result.

時刻3,4でも同上の処理が実行され、演算回路2o#
1〜#4には A1 :Σjl:: f tt * wtt+ f 1
2阜W12+ f 13” w1a+ f 14” W
14#2:Σi2:=4 tz* A11+ f 13
1 W12+f14申w1a+ f xe、* W14
#3:Σlδ= f la* wtt+ f 146 
A12+ f 15* wta+ f 1B” W14
#4:Σea=ft4申W11+ f ts$ W12
十ft8本wia+ f 1?−WL4とそれぞれの第
1部分和が得られ、これが時刻Δの終りでシフトレジス
タ21にセットされる。
The same process is executed at times 3 and 4, and the arithmetic circuit 2o#
A1 :Σjl:: f tt * wtt + f 1 for 1 to #4
2F W12+ f 13” w1a+ f 14” W
14#2:Σi2:=4 tz* A11+ f 13
1 W12 + f14 monkey w1a + f xe, * W14
#3: Σlδ= f la * wtt + f 146
A12+ f 15* wta+ f 1B” W14
#4: Σea=ft4 monkey W11+ f ts$ W12
10 ft 8 wia + f 1? -WL4 and the respective first partial sums are obtained, which are set in the shift register 21 at the end of time Δ.

時刻5〜8では、各基本モジュールl0A−Dのシフト
レジスタ21から、Σif〜Σ11.Σ)2〜Σ12.
Σ)3〜Σ13.Σi4〜Σ141が演算回路14によ
り順次累積され、結果gll〜g14を出力する。
At times 5 to 8, Σif to Σ11. Σ)2 to Σ12.
Σ)3 to Σ13. Σi4 to Σ141 are sequentially accumulated by the arithmetic circuit 14, and the results gll to g14 are output.

と同時に、PEA1では画像データfxδ〜f16゜P
EA2ではfza〜fto、PEA3ではf17〜fz
o、PEA4ではf ha〜f zlに対して時刻1〜
4と同様の処理が実行され、部分和Σ15.Σ1G。
At the same time, in PEA1, image data fxδ~f16°P
fza~fto in EA2, f17~fz in PEA3
o, in PEA4, time 1 to f ha to f zl
4 is executed, and the partial sum Σ15. Σ1G.

Σi7.Σ18を求め1時刻9〜12にてこれらが累積
され結果g16〜g1δが得られる。このようにして連
続して空間積和演算結果が出力される。
Σi7. Σ18 is calculated and these are accumulated at times 9 to 12 to obtain results g16 to g1δ. In this way, spatial product-sum calculation results are continuously output.

このタイプ■の並列画像処理プロセッサ2−IIIにも
、タイプ■と同様に、タイプ■P及び■PSが考えられ
、基本クロック時間Δt5を小さくすることが可能であ
る。
Similar to the type (2), types (2) P and (2) PS can be considered for the parallel image processing processor 2-III of the type (2), and it is possible to reduce the basic clock time Δt5.

さて、前述のタイプ■〜■までの実施例では、基本モジ
ュール10間の演算は、部分和演算回路14を直列接続
する形とし、この回路14も基本モジュール内に含めて
いた。しかしLSI化のためにピン数が問題となる場合
には、例えば第3図の点線部のみ基本子ジュールとし、
モジュール間演算は外部で並列に行うことも可能である
Now, in the embodiments of types (1) to (4) described above, calculations between the basic modules 10 are performed by connecting partial sum calculation circuits 14 in series, and this circuit 14 is also included in the basic module. However, if the number of pins becomes an issue for LSI implementation, for example, only the dotted line in Fig. 3 is set as the basic child Joule.
Inter-module operations can also be performed externally in parallel.

本発明によれば1局所並列画像プロセッサを少ない入出
力ポートでかつ規則的な配列のモジュールに分割できる
ため、LSI化に適したアーキテクチャとすることがで
きる。特に、積和荷重を各プロセッサエレメントに共通
に与えるので、荷重係数を収納するRAMを1個で共通
化でき、1個のポートですみ、LSIとして作り易いと
いう効果がある。
According to the present invention, one locally parallel image processor can be divided into modules with a small number of input/output ports and a regular arrangement, so that an architecture suitable for LSI implementation can be achieved. In particular, since the product-sum load is commonly applied to each processor element, one RAM for storing the load coefficients can be used in common, only one port is required, and it is easy to manufacture as an LSI.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図〜第10図は最近考えられている並列画像処理技
術の説明図であって、第1図は画像処理システムの構成
を示す図、第2図は局所並列処理の例を説明する図、第
3図、第5図、第7図、第9図は並列画像処理プロセッ
サの構成例を示すブロック図、第4図、第6図、第8図
、第10図は各並列画像処理プロセッサのタイムチャー
トであり、第11図は本発明による並列画像処理プロセ
ッサの一実施例図、第12図は第11図のタイムチャー
トである。 2・・・並列画像処理プロセッサ、3・・・画像メモリ
。 10・・・画像処理プロセッサ基本モジュール、11・
・・入力画像シフトレジスタ、12・・・プロセッサエ
レメント、13・・・部分和演算回路、14・・・部分
和累算演算回路、15・・・荷重記憶メモリ、16・・
・パイプラインレジスタ、17・・・(可変段数)スキ
ュー補正シフトレジスタ、18・・・伝播・累積演算回
路、19・・・伝播レジスタ、20・・・累積演算回路
、21・・・部分和出力シフトレジスタ、24・・・画
像データ入力ポート、25・・・画像データ出力ポート
。 30・・・演算結果データ入力ポート、35・・・演算
結第 1 図 第Z図 第3図 、f54c 2u    >tz  ・・・・ f+ 6 図 )II   Jrz 第grb 第9図 第1O図 ’in    2rz 第 l1図 第1Z図
Figures 1 to 10 are explanatory diagrams of recently considered parallel image processing techniques, with Figure 1 showing the configuration of an image processing system, and Figure 2 showing an example of local parallel processing. , FIG. 3, FIG. 5, FIG. 7, and FIG. 9 are block diagrams showing configuration examples of parallel image processing processors, and FIG. 4, FIG. 6, FIG. 8, and FIG. 10 are block diagrams showing configuration examples of parallel image processing processors. FIG. 11 is a diagram of an embodiment of a parallel image processing processor according to the present invention, and FIG. 12 is a time chart of FIG. 11. 2... Parallel image processing processor, 3... Image memory. 10... Image processing processor basic module, 11.
... Input image shift register, 12... Processor element, 13... Partial sum calculation circuit, 14... Partial sum accumulation calculation circuit, 15... Load storage memory, 16...
- Pipeline register, 17... (variable number of stages) skew correction shift register, 18... Propagation/accumulation calculation circuit, 19... Propagation register, 20... Accumulation calculation circuit, 21... Partial sum output Shift register, 24... image data input port, 25... image data output port. 30...Arithmetic result data input port, 35...Arithmetic result No. 1 Fig. Z Fig. 3, f54c 2u > tz ... f+ 6 Fig.) II Jrz No. grb Fig. 9 Fig. 1 O'in 2rz Figure l1 Figure 1Z

Claims (1)

【特許請求の範囲】[Claims] 1、画像データ供給源からの画像データを取込み局所並
列画像データ処理を行なう並列画像処理プロセッサにお
いて、画像データ入力ポートと、前記画像データ入力ポ
ートからの画像データを順次取込む複数個の第1のシフ
トレジスタと、前記各第1のシフトレジスタの内容を入
力して画像処理演算を行なう複数個のプロセッサエレメ
ントと、前記各プロセッサエレメント内の演算結果を各
プロセッサエレメントごとに累積加算する複数個の第1
の演算回路と、前記複数個の第1の演算回路の演算結果
を取込む第2のシフトレジスタと、前段の基本モジュー
ルにおける演算結果データを入力する演算結果データ入
力ポートと、前記演算結果データと前記第2のシフトレ
ジスタ内にセットされた前記第1の演算回路の演算結果
の加算を行なう第2の演算回路と、前記第2の演算回路
の演算結果データを出力する演算結果データ出力ポート
とからなる画像処理プロセッサ基本モジュールを、複数
組並列設置したことを特徴とする並列画像処理プロセッ
サ。
1. In a parallel image processing processor that takes in image data from an image data supply source and performs locally parallel image data processing, an image data input port and a plurality of first processors that sequentially take in image data from the image data input port are provided. a shift register, a plurality of processor elements that input the contents of each of the first shift registers and perform image processing operations, and a plurality of processor elements that cumulatively add the operation results in each of the processor elements for each processor element. 1
an arithmetic circuit; a second shift register that receives the arithmetic results of the plurality of first arithmetic circuits; an arithmetic result data input port that inputs the arithmetic result data of the preceding basic module; a second arithmetic circuit that adds arithmetic results of the first arithmetic circuit set in the second shift register; and an arithmetic result data output port that outputs arithmetic result data of the second arithmetic circuit. A parallel image processing processor characterized in that a plurality of image processing processor basic modules consisting of the following are installed in parallel.
JP26640887A 1987-10-23 1987-10-23 parallel image processing processor Granted JPS63219082A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26640887A JPS63219082A (en) 1987-10-23 1987-10-23 parallel image processing processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26640887A JPS63219082A (en) 1987-10-23 1987-10-23 parallel image processing processor

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP6232682A Division JPS58181171A (en) 1982-04-16 1982-04-16 Parallel picture processing processor

Publications (2)

Publication Number Publication Date
JPS63219082A true JPS63219082A (en) 1988-09-12
JPH0260028B2 JPH0260028B2 (en) 1990-12-14

Family

ID=17430518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26640887A Granted JPS63219082A (en) 1987-10-23 1987-10-23 parallel image processing processor

Country Status (1)

Country Link
JP (1) JPS63219082A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233934A (en) * 2006-03-03 2007-09-13 Kawasaki Microelectronics Kk Arithmetic circuit and arithmetic method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233934A (en) * 2006-03-03 2007-09-13 Kawasaki Microelectronics Kk Arithmetic circuit and arithmetic method

Also Published As

Publication number Publication date
JPH0260028B2 (en) 1990-12-14

Similar Documents

Publication Publication Date Title
EP0068358B1 (en) Apparatus for parallel processing of local image data
US4635292A (en) Image processor
JPS6326912B2 (en)
US4675836A (en) Discrete cosine transform calculation processor
US4644488A (en) Pipeline active filter utilizing a booth type multiplier
JPH08235159A (en) Inverse cosine converter
JPS61241877A (en) Space product sum arithmetic unit
US5867414A (en) Compact pipelined matrix multiplier utilizing encoding and shifting circuit configurations
JPS63219082A (en) parallel image processing processor
JPH07152730A (en) Discrete cosine transform device
JPS63140379A (en) Parallel-picture processor
JPS6379180A (en) LSI for parallel image processing
JPS58163061A (en) Parallel image processing processor and device
JP3553376B2 (en) Parallel image processor
JP2862388B2 (en) Filtering method for ultra-high-speed image processing system
JPH0566043B2 (en)
US4987557A (en) System for calculation of sum of products by repetitive input of data
JPH07141148A (en) Pipeline parallel multiplier
JPS6352269A (en) Image processor
JPS63273176A (en) Space filtering device
JPH08171538A (en) Signal processor
JPH0652215A (en) Matrix arithmetic processor
JPH03148780A (en) Picture processor
JPS61136169A (en) High-speed arithmetic unit
JPS6395586A (en) Data division and accumulation method and device