TWI869578B

TWI869578B - 用於計算的系統及方法

Info

Publication number: TWI869578B
Application number: TW110111352A
Authority: TW
Inventors: 克里希納特佳馬拉迪; 安德魯張
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2020-04-01
Filing date: 2021-03-29
Publication date: 2025-01-11
Also published as: EP3896574B1; EP3896574A1; US20210311739A1; US11467834B2; US12373212B2; TW202207046A; US20230069786A1; US20250355667A1; CN113495861A; KR20210122667A

Abstract

本發明揭露一種用於計算的系統及方法。在一些實施例中，系統包含：記憶體，記憶體包含一或多個記憶體內功能電路；以及快取同調協定介面電路，具有第一介面及第二介面。一或多個記憶體內功能電路中的記憶體內功能電路可經組態以對包含自記憶體檢索到的第一運算元的運算元進行運算以形成結果。第一介面可連接至記憶體，且第二介面可經組態為匯流排介面上的快取同調協定介面。

Description

用於計算的系統及方法

根據本揭露內容的實施例的一或多個態樣是關於記憶體內功能計算，且更特定來說，是關於一種用於用快取同調協定介面進行記憶體內功能計算的系統及方法。

此章節中提供的背景僅包含以設定上下文。不承認此章節的內容為先前技術。記憶體內功能計算可具有優於其他計算組態的優勢，所述優勢在於記憶體與多個記憶體內功能電路之間的資料路徑的總頻寬顯著大於記憶體與中央處理單元（central processing unit；CPU）或圖形處理單元（graphics processing unit；GPU）之間的資料路徑的頻寬。然而，實施記憶體內功能計算可為具有挑戰性的，此是部分地由於由記憶體內功能電路執行運算可能影響記憶體的運算的潛時。

因此，需要用於進行記憶體內功能計算的改良的系統及方法。

根據本發明的實施例，提供一種用於計算的系統，所述系統包含：記憶體，所述記憶體包含一或多個記憶體內功能電路；以及快取同調協定介面電路，具有第一介面及第二介面，所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果，所述第一介面連接至所述記憶體，且所述第二介面經組態為匯流排介面上的快取同調協定介面。

在一些實施例中：所述記憶體內功能電路以單指令多資料組態配置；或所述記憶體內功能電路以脈動組態配置。

在一些實施例中：所述快取同調協定介面電路為計算快捷鏈路（Compute Express Link；CXL）介面電路，且所述匯流排介面為快捷周邊組件互連（Peripheral Component Interconnect express；PCIe）端點介面。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路在具有動態隨機存取記憶體的半導體晶片上。

在一些實施例中，所述第一介面經組態以根據由DDR2、DDR3、DDR4以及DDR5所組成的群組中選出的協定來操作。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路包含：多個暫存器，多個多工器，以及算術邏輯單元。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由加法、減法、乘法以及除法所組成的群組中選出的算術運算。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由浮點加法、浮點減法、浮點乘法以及浮點除法所組成的群組中選出的算術運算。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由按位元及、按位元或、按位元互斥或以及按位元1的補數所組成的群組中選出的邏輯運算。

在一些實施例中，所述一或多個記憶體內功能電路中的記憶體內功能電路在第一狀態下經組態以將所述結果儲存於所述記憶體中，且在第二狀態下經組態以將所述結果發送至所述快取同調協定介面電路。

在一些實施例中，所述系統更包含連接至所述第二介面的主機處理電路。

在一些實施例中，所述主機處理電路包含具有連接至所述第二介面的根埠的PCIe根複合體。

根據本發明的實施例，提供一種用於計算的系統，所述系統包含：記憶體；以及快取同調協定介面電路，具有第一介面及第二介面，所述快取同調協定介面電路經組態以對儲存於所述記憶體中的資料進行算術運算，所述第一介面連接至所述記憶體，且所述第二介面經組態為匯流排介面上的快取同調協定介面。

在一些實施例中：所述記憶體包含一或多個記憶體內功能電路，且所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果。

在一些實施例中：所述快取同調協定介面電路為計算快捷鏈路（CXL）介面電路，且所述匯流排介面為快捷周邊組件互連（PCIe）端點介面。

在一些實施例中，所述第一介面經組態以根據由DDR2、DDR3、DDR4、DDR5、GDDR、HBM以及LPDDR所組成的群組中選出的協定來操作。

根據本發明的實施例，提供一種用於計算的方法，所述方法包含：由主機處理電路將一或多個CXL封包發送至CXL介面電路；由所述CXL介面電路回應於接收到所述CXL封包而將指令發送至連接至所述CXL介面電路的記憶體中的記憶體內功能電路；以及由所述記憶體內功能電路根據所述指令對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果。

下文結合隨附圖式闡述的詳細描述預期作為對根據本揭露內容提供的用於進行記憶體內功能計算的系統及方法的例示性實施例的描述，且不意欲表示可建構或利用本揭露內容的僅有形式。描述結合所示出實施例闡述本揭露內容的特徵。然而，應理解，可藉由亦意欲涵蓋於本揭露內容的範圍內的不同實施例實現相同或等效功能及結構。如本文中在別處所標示，相似元件數字意欲指示相似元件或特徵。

在一些實施例中，記憶體內功能電路為與記憶體電路整合或以其他方式比例如藉由標準記憶體匯流排連接至記憶體的CPU或GPU更靠近記憶體的處理電路。因此，多個記憶體內功能電路與記憶體之間的總頻寬可顯著大於記憶體匯流排的總頻寬，從而實現潛在更大的處理通量。

包含記憶體內功能電路的記憶體若連接至具有一些介面（諸如雙倍資料速率第2代（double data rate 2；DDR2）、雙倍資料速率第3代（DDR3）或類似者）的CPU或GPU，則在一些情況下可能不會正確地操作。此可部分地由於由記憶體內功能電路產生的回應的潛時可能違反記憶體控制器依賴於其來維持快取同調（最終儲存於多個區域快取中的共享資源資料的均一性）的潛時假設而發生。

在一些實施例中，可使用諸如計算快捷鏈路（CXL）介面的快取同調電腦協定（或「快取同調協定」）將記憶體連接至CPU或GPU來減輕或解決此問題。儘管一些實施例在本文中描述為使用CXL協定，但本發明不限於此類實施例。舉例而言，可採用適用於保持快取同調的任何其他協定（其在本文中可稱為「快取同調協定」）而非CXL。

參考圖1A，在一些實施例中，記憶體（例如，高頻寬記憶體（high bandwidth memory；HBM）或雙行記憶體模組（dual in-line memory module；DIMM））可經配置為各自包含多個庫105的多個庫群組（BG0、BG1、BG2、BG3）（其中，例如BG0包含標記為A、B、C以及D的庫105，BG1包含標記為E到H的庫105，BG2包含標記為I到L的庫105，並且BG3包含標記為M到P的庫105）。圖1A的一些特徵（諸如矽穿孔（through-silicon via；TSV））特定針對於HBM；然而，其他形式的記憶體（例如，DIMM）可以類似方式操作。DRAM記憶體可組織成排組、晶片以及庫105。「排組」可為具有共享的晶片選擇插腳的記憶體的一部分。每一排組可包含八個晶片，且每一晶片可包含16個庫105。晶片的庫105可組織成「大型庫（megabank）」，使得例如由來自排組中的八個晶片中的每一者的庫0組成的庫105的集合可為大型庫0。晶片可並行讀取至256位元寬的匯流排（256b）上，其中八個晶片中的每一者提供256個位元的資料中的32個位元。

記憶體可連接至主機處理電路205（例如，CPU或GPU，或具有額外元件（諸如記憶體控制器（memory controller；MC））的CPU或GPU）且為所述主機處理電路205提供儲存。在一些實施例中，主機處理電路205在網路路徑的主機側上（例如，其為主機伺服器）。在記憶體內計算（in-memory compute；IMC）系統，每一庫105可包含輸入/輸出感測放大器112（input/output sense amplifier；IOSA），以及記憶體內功能（function-in-memory；FIM）電路110（其亦可稱為「記憶體內計算電路」或「記憶體電路內程序」）。如本文中所使用，記憶體內功能電路為能夠進行算術運算或邏輯運算且比主機處理電路205更直接地（且亦比加速器更直接地）連接至記憶體的處理電路。舉例而言，在其中記憶體藉由DDR匯流排連接至主機處理電路205的系統中，可將DDR匯流排的記憶體側上的處理電路視為記憶體內功能電路，而不將DDR匯流排的主機處理電路側上的處理電路（例如，DDR匯流排的主機處理電路側上的加速器，主機處理電路205可向所述加速器委派計算任務）視為記憶體內功能電路。在一些實施例中，圖1B繪示此庫105的結構，且圖1C為繪示可由記憶體內功能電路110進行的運算的列表的表。在一些實施例中，主機處理電路205將一數字發送至記憶體內功能電路110（例如，對應於圖1C的表的列中的一者的在0與9之間的數字），且記憶體內功能電路110接著進行對應運算。指令（或等效地，識別指令的數字）可由主機處理電路205經由保留供未來使用（reserved-for-future-use；RFU）位元（例如，DDR介面的RFU位元）發送至記憶體內功能電路110。

如圖1B中所繪示，記憶體內功能電路110可包含暫存器115（例如，Rop及Rz）、算術邏輯單元（arithmetic logic unit；ALU）120以及多工器125（在圖1B中各自標記為「MUX」），其可一起用於執行指令（例如，在圖1C的表中列出的指令）。記憶體內功能電路110可進一步包含FIM邏輯220、控制器210以及記憶體映射暫存器225（下文更詳細地論述）。如圖1C的表中所繪示，指令可使得記憶體內功能電路110將一個暫存器的內容複製至另一暫存器中（例如，指令0至指令5以及指令9），或對兩個暫存器的內容進行運算（「op」）且將結果儲存於第三暫存器中（在圖1C的表的指令集的情況下，儲存於暫存器Rz中）。運算可為算術運算（例如，+、-、X或/，例如根據IEEE-754來進行），或邏輯運算（例如，按位元&（及）、按位元|（或）、按位元^（互斥或）或按位元~（1的補數））。當指令為圖1C的表中的指令6、指令7以及指令8中的一者時，暫存器（例如，記憶體映射暫存器225中的一者）可指定待進行的運算（例如，特定算術運算或邏輯運算）。返回至圖1B，算術邏輯單元120可包含16通路16位元浮點（floating point；FP-16）向量單元或8通路32位元浮點（FP-32）向量單元，從而進行可能的各種運算。非限制性實例可包含張量運算（例如，點積、外積、整流器或整流器線性單元（rectifier linear unit；ReLU）、vsSqr（對向量的元素進行乘方），以及vsSQrt（取向量的每一元素的平方根））。為了高效使用記憶體內功能電路110，資料可經配置於記憶體中，使得可在開放列中並行使用多個運算元。如本文中所使用，「開放列」是指（在發出列激活之後）感測放大器112中的資料。開放列可例如包含8192位元的資料，ALU可能夠自所述8192位元的資料中讀取多個運算元（例如，32位元運算元）。

主機處理電路205的記憶體控制器206（MC）可為遵從由聯合電子裝置工程委員會（Joint Electron Device Engineering Council；JEDEC）及主機處理電路205的BIOS公佈的DRAM介面的標準的記憶體控制器；在此情況下，記憶體控制器206可不實施快取或實施有限快取。在一些實施例中，記憶體控制器206可實施可能不遵從JEDEC的不同通信協定，例如，定時約束可能不同，或資料匯流排或位址及控制匯流排或兩者可分裂成兩個或大於兩個部分以提供多個寬度減小的匯流排。在一些實施例中，記憶體控制器206為交易性的，亦即，主機處理電路205可等待直至記憶體控制器206指示所請求資料就緒為止，而非保證將在某一時間返回任何記憶體存取的結果。主機處理電路205可僅具有草稿（其可能不需要快取同調），而非快取階層。在一些實施例中，主機處理電路205連接至大於一個記憶體，例如連接至包含記憶體內功能電路110且不存在快取的第一記憶體，以及不具有記憶體內功能電路且存在快取的第二記憶體。

在運算中，主機處理電路205可首先將運算元值寫入至記憶體。此可涉及向多個庫（例如，庫105）廣播值，如圖1A中所繪示。此類廣播可減少當多次再用運算元時（例如，在矩陣乘法中，其中第一矩陣的每一列可乘以第二矩陣的每一行）所使用的寫入週期的數目。主機處理電路205可接著藉由將運算元的位址發送至記憶體（使得將經定址記憶體位置的內容讀取至全局輸入輸出（全局input output；全局IO）暫存器中）且將指令（例如，0與9之間的數字，識別圖1C的表中的指令中的一者）發送至記憶體內功能電路110而使得在記憶體中進行處理。

舉例而言，記憶體內功能電路110可進行第一運算元及第二運算元的乘法，且將乘積返回至主機處理電路205，如下。主機處理電路205可將第一運算元的位址發送至記憶體（使得將第一運算元讀取至全局IO暫存器中），且將數字0（識別指令0，在圖1C的表中）發送至記憶體內功能電路110。在接收到指令0後，記憶體內功能電路110可接著將第一運算元儲存於Rop暫存器中（例如，將所述第一運算元自全局IO暫存器複製至Rop暫存器）。主機處理電路205可接著將第二運算元的位址發送至記憶體（使得將第二運算元讀取至全局IO暫存器中），且將數字6（識別指令6，在圖1C的表中）發送至記憶體內功能電路110。在接收到指令6後，記憶體內功能電路110可接著計算兩個運算元（第一運算元在Rop暫存器中且第二運算元在一般IO暫存器中）的乘積（在此情況下「op」為乘法），且將所述乘積儲存於暫存器Rz中。最後，主機處理電路205可將數字5（識別指令5，在圖1C的表中）發送至記憶體內功能電路110，使得將（儲存於Rz暫存器中的）乘積寫入至DQ輸出（亦即，返回至主機處理電路205）。

作為另一實例，記憶體內功能電路110可進行第一運算元及第二運算元的乘法，且藉由遵循相同步驟序列將乘積儲存於記憶體中，不同之處在於最終指令可為指令數字3（識別指令3，在圖1C的表中），使得乘積在由主機處理電路205並行發送至記憶體的位址指定的位置處寫回至記憶體（而非返回至主機處理電路205）。

圖2A及圖2B示出其中用標準動態隨機存取記憶體（DRAM）晶片（亦即，未修改DRAM晶片以與記憶體內功能電路110一起使用）實施記憶體內功能電路110的兩個組態。儘管在一些上下文中可將諸如此的組態稱為「近記憶體功能」，但如本文中所使用，術語「記憶體內功能」包含其中記憶體內功能電路110在與記憶體分開的半導體晶片上的組態（諸如圖2A及圖2B的組態）。在圖2A的實施例中，若干（例如，兩個）DIMM模組共享至主機處理電路205（其包含CPU及記憶體控制器（MC））的通道。DIMM模組中的每一者包含記憶體內功能電路110（或「FIM模組」）。DIMM模組可為負載減小的DIMM（load-reduced DIMM；LR-DIMM）模組以促進通道的共享。在圖2B的實施例中，記憶體模組的若干排組中的每一者與各別記憶體內功能電路110相關聯。圖2A及圖2B中的FIM模組中的每一者可包含控制器210、中間緩衝器215（圖1B的Rop暫存器可為所述中間緩衝器215的實例）、FIM邏輯220以及記憶體映射暫存器225。圖2B的記憶體可呈M.2或DIMM形狀因數。在圖2B的組態中，記憶體內功能電路110可製造於緩衝器晶片上，所述緩衝器晶片在無記憶體內功能電路的DIMM中可為主要進行重定時的晶片。

圖2C及圖2D示出兩個不同組態，在其中的每一者中，記憶體內功能電路110與DRAM在同一晶片上（例如，製造於同一矽晶片上）。在圖2C的實施例中，每一晶片230包含記憶體內功能電路110。圖2C的組態不影響DRAM核心，且部分地出於此原因，可比圖2D的組態更簡單地實施。此外，在圖2C的組態中，路由（其在圖2D的組態中用有限數目個金屬層實現可能是具有挑戰性的）可能更簡單。圖2C的組態在邏輯上類似於圖2B的組態，意為在此等兩個組態中的每一者中，多個DRAM庫連接至記憶體內功能電路110且由記憶體內功能電路110使用。圖2C及圖2D的組態可減小緩衝器晶片的複雜性（相較於其中記憶體內功能電路110製造於緩衝器晶片上的組態）。在圖2C及圖2D的實施例中，每一晶片230可僅略微大於標準記憶體晶片，且由於不存在用於記憶體內功能電路110的單獨晶片，故晶片230可比圖2A及圖2B的實施例更容易地以標準形狀因數（例如，在DIMM上）容納，在圖2A及圖2B的實施例中，記憶體內功能電路110在與DRAM分開的晶片上，且因此晶片（DRAM晶片及含有記憶體內功能電路110的晶片）可能佔據更多板空間。在圖2C的實施例中，每一記憶體內功能電路110僅存取一個記憶體晶片，且快取行可完全在一個晶片230內（亦即，資料可不跨多個晶片230條帶化；此類條帶化將使記憶體內功能電路110難以進行有用的運算）。如本文中所使用，「快取行」意謂主機處理電路205藉以存取記憶體（亦即，自記憶體讀取及寫入至記憶體）的粒度。舉例而言，對於CPU，快取行可為64個位元組，且對於GPU，快取行可為128個位元組。

在圖2D的實施例中，每一記憶庫105與記憶體內功能電路110相關聯，使得每一晶片230含有若干（例如，16個）記憶體內功能電路110。圖2D的實施例可包含比圖2C的實施例更多數目的記憶體內功能電路110，且因此可呈現比圖2C的實施例更佳的效能。對每一庫的IO路徑的改變（如圖1B中所繪示，其亦示出針對記憶體的每一庫具有一個記憶體內功能電路110的組態）可能消耗比例如圖2C的實施例的晶片面積更多的晶片面積，且設計的複雜性可能大於例如圖2C的實施例的設計的複雜性，部分地由於用有限數目個金屬層實現信號路由的挑戰。在圖2D的實施例中，每一庫105中的記憶體內功能電路110可在任何時間在相同位址上操作，此是由於過少的DRAM控制位元可用於使獨立的位址選擇可行。

記憶體內功能電路110之間的資料流可以各種方式發生。在一些實施例中，記憶體內功能電路110及其相關聯的記憶體部分可經組態為單指令多資料（single instruction, multiple data；SIMD）並行處理器，如圖3A中所示出。記憶體內功能電路110中的每一者可在任何時間用不同運算元或用不同運算元進行與其他記憶體內功能電路110相同的指令。在每一運算之後，可將運算的結果返回至主機處理電路205或保存於記憶體中，如上文在圖1B的上下文中所論述。

在一些實施例中，記憶體內功能電路110a、記憶體內功能電路110b、記憶體內功能電路110c（統稱為記憶體內功能電路110）以及其相關聯記憶體部分可經組態為脈動陣列，所述脈動陣列可指緊密耦接的資料處理電路的同質網路，如圖3B中所示出。在此實施例中，第一記憶體內功能電路110a的每一運算的結果可作為後續運算的引數傳遞至網路中的後續第二記憶體內功能電路110b。在一些實施例中，每一庫群組可連接至記憶體內功能電路110的各別鏈，如圖3B中所示出，且鏈之間不存在連接。每一庫群組內的庫105之間的資料路徑可能已存在於標準記憶體架構（例如，DIMM或HBM）中，但用於在連接的記憶體內功能電路110之間通信的邏輯可能不存在；若待使用圖3B的組態，則可添加此邏輯。邏輯可包含連接的記憶體內功能電路110之間的額外導體，其可例如由第一記憶體內功能電路110a用以通知其下游相鄰者（第二記憶體內功能電路110b）公用匯流排上的資料預期用於下游相鄰者。記憶體內功能電路110可連接至公用匯流排，且一次僅可能由記憶體內功能電路110中的一者來驅動匯流排。因此，可使用合適的邏輯及仲裁來實現記憶體內功能電路110之間的通信，同時避免匯流排競爭。圖3B的實施例可能不適合於一些計算。然而，圖3B的實施例對於其適合的計算可具有以下優勢：主機處理電路205沒有中間結果的負擔，若改為用圖3A的實施例進行類似計算則如此。在一些實施例中，可採用根據圖3A或根據圖3B的系統來進行基本線性代數子程式（basic linear algebra subprogram；BLAS）層級1（basic linear algebra subprogram level 1；BLAS1）或層級2（basic linear algebra subprogram level 2；BLAS2）或一般矩陣乘法（general matrix multiplication；GEMM）（其可為BLAS3的部分），或進行其部分。為了進行GEMM計算，系統可選擇所執行的迴路的次序，以便最大化並行性。根據圖3A或根據圖3B的系統亦可能夠對轉置的運算元進行運算（例如，其可能夠計算矩陣乘積AB、A^T B或AB^T ），而主機處理電路205不首先對記憶體中的資料進行重新排序。

圖4A繪示在一些實施例中的用於計算的系統。用於計算的系統包含CPU 405（其可操作為主機處理電路），所述CPU 405經由交換器410連接至多個（例如，兩個）硬體加速器415且連接至用於進行記憶體內功能計算的系統420。硬體加速器415中的每一者連接至各別記憶體425（例如，低功率DDR5記憶體），且可包含GPU或CPU或特殊應用積體電路（application specific integrated circuit；ASIC）或場可程式閘陣列（field programmable gate array；FPGA）。硬體加速器415中的每一者可經組態以自CPU 405接收由CPU 405委派給其的計算任務，執行委派的計算任務，且（i）將結果返回至CPU 405或（ii）儲存結果以用於額外的後續處理或用於由CPU 405稍後檢索。類似地，用於進行記憶體內功能計算的系統420（下文在圖4B的上下文中更詳細地論述）可經組態以自CPU 405接收由CPU 405委派給其的計算任務，執行委派的計算任務，且（i）將結果返回至CPU 405或（ii）儲存結果以用於額外的後續處理或用於由CPU 405稍後檢索。如本文中所使用，「計算任務」為待由電腦進行的運算的任何集合；因此，計算任務可由多個較小的計算任務組成或包含多個較小的計算任務。

用於計算的系統可包含連接至CPU 405的網路介面卡446，從而使得例如由另一處理系統經由遠端程序調用（remote procedure call；RPC）將計算任務委派給用於計算的系統成為可能。CPU 405可包含各自連接至各別記憶體（例如，DDR5記憶體）435的一或多個（例如，兩個）記憶體控制器430。CPU 405可更包含PCIe根複合體440（例如，PCIe 5根複合體，如所繪示），且所述PCIe根複合體440的根埠可連接至交換器410。交換器410可經組態以交換PCIe封包且其可知曉CXL，以便能夠處置CXL（其可不同於傳統PCIe）的封包大小及格式，且使得其可在64位元組封包基礎上進行路由及轉發。交換器410可與由CPU 405的PCIe根複合體440使用的PCIe（例如，PCIe 5）的版本相容。

由CPU 405經由交換器410與硬體加速器415及與用於進行記憶體內功能計算的系統420進行的通信可遵守計算快捷鏈路（CXL）協定。CXL為用於高速CPU至裝置及CPU至記憶體的開放標準互連。CXL為PCIe協定上的層，亦即，CXL封包可為PCIe封包。在一些實施例中，CXL為覆蓋於PCIe電PHY層之上的交易協定。使用CXL介面將硬體加速器415及用於進行記憶體內功能計算的系統420（經由交換器410）連接至CPU 405可具有以下優勢：CPU 405可保存CXL裝置中的記憶體區的快取拷貝，從而實現CPU 405與加速器415之間的細粒共享。另一方面，加速器亦可存取主機快取區，從而幫助其更快地完成。PCIe具有可變潛時，因此此概念有助於具有未判定潛時的記憶體加速，同時確保CPU 405仍可使用記憶體加速器415作為傳統記憶體裝置。另外，快取同調可不受由CPU 405向硬體加速器415以及向用於進行記憶體內功能計算的系統420委派計算任務的影響。

圖4B繪示在一些實施例中的用於進行記憶體內功能計算的系統420。用於進行記憶體內功能計算的系統420可包含近資料加速器或「CXL介面電路」445，以及包含記憶體內功能電路110的記憶體模組450（例如，根據圖2A至圖2D中所示出的實施例中的一者）。CXL介面電路445可具有用於與記憶體模組450通信的第一介面455（例如，DDR2介面、DDR3介面、雙倍資料速率第4代（DDR4）介面、雙倍資料速率第5代（DDR5）介面、圖形雙倍資料速率（GDDR）介面、高頻寬記憶體（HBM）介面或低功耗雙倍資料速率（LPDDR）介面），以及用於（例如，經由交換器410）與CPU 405通信的第二介面（例如，匯流排介面上的CXL介面，諸如PCIe端點介面）460。

CXL介面電路445可操作為CXL介面460與第一介面455之間的介面配接器電路，從而使得CPU 405能夠向記憶體模組450的記憶體內功能電路110委派計算任務。在一些實施例中，可首先執行控制流程。可將指令流寫入至記憶體的連續部分及開始指針，接著可將大小寫入至暫存器且可響起門鈴（亦即，設定中斷暫存器）。裝置辨識指令流，且在使用CRC確保資料完整性之後進行確認。裝置可接著對指令及記憶體區進行操作，同時繼續提供針對常規記憶體指令的處理器回應。處理引擎470提供諸如DMA及功率管理的所有輔助功能。DMA使得裝置能夠與系統中的其他IO裝置通信，所述其他IO裝置諸如網路卡或GPU或另一記憶體內處理裝置。一旦操作完成，即設定CPU正在等待的門鈴暫存器（使用中斷或輪詢）。CPU接著讀回結果且確認接收。來自CPU的連續指令流經管線化且具有附加至其的優先級，以幫助在記憶體內處理單元上高效執行。

CXL介面電路445亦可操作為加速器，例如進行由CPU 405委派給其的計算任務，其中計算任務的一部分（由CPU 405或由CXL介面電路445）進一步委派給記憶體模組450的記憶體內功能電路110或未進一步委派給所述記憶體內功能電路110。為了實現此操作，CXL介面電路445可更包含處理核心465及處理引擎470，所述處理核心465及處理引擎470可經設計以由CPU 405進行可能較適合委派的某些計算任務（例如，BLAS1或BLAS2運算）（例如，由於CPU可能相對不太適合於進行BLAS1或BLAS2運算）。高速互連475可將處理核心465及處理引擎470連接至主機管理器480、SRAM控制器485（連接至靜態隨機存取記憶體（static random-access memory；SRAM）模組486）以及DRAM控制器490。SRAM控制器亦可經修改以向主機發出快取監聽請求（其為CXL所實現的）。其亦可回應主機監聽（亦即，來自CPU的使線路失效的請求，使得主機必須將線路遷移至其自身且修改，亦即，M狀態或S狀態）。主機管理器480可實施CXL堆疊（包含PCIe堆疊）。在一些實施例中，CXL堆疊負責對CXL類型2記憶體或CXL類型3記憶體及加速器交易請求進行解碼。在鏈路層級下，其實施鏈路保護及流量控制。在PHY層處，其類似於PCIe 5.0。在一些實施例中，使得CXL介面電路445能夠操作為加速器的電路不存在，且其僅作為記憶體模組450及記憶體模組450含有的記憶體內功能電路110的介面電路操作。

圖5繪示在一些實施例中的用於計算的方法的流程圖。所述方法包含：在510處，由主機處理電路將多個CXL封包發送至CXL介面電路；以及在520處，由CXL介面電路回應於接收到CXL封包將指令發送至（連接至CXL介面電路的記憶體中的）記憶體內功能電路。所述方法更包含：在530處，由記憶體內功能電路根據指令對包含自記憶體檢索到的第一運算元的運算元進行運算以形成結果。

如本文中所使用，術語「或」應解釋為「及/或」，使得例如「A或B」意謂「A」或「B」或「A及B」中的任一者。應理解，儘管本文中可使用術語「第一」、「第二」、「第三」等來描述各種元件、組件、區、層及/或區段，但此等元件、組件、區、層及/或區段不應受此等術語限制。此等術語僅用以區分一個元件、組件、區、層或區段與另一元件、組件、區、層或區段。因此，本文中所論述的第一元件、組件、區、層或區段可稱為第二元件、組件、區、層或區段，而不脫離本發明概念的精神及範圍。

所描述的組件中的任一者或組件的任何組合（例如，在本文中所包含的任何系統圖中）可用於進行本文中所包含的任何流程圖的操作中的一或多者。另外，（i）操作為實例操作，且可涉及未明確覆蓋的各種額外步驟，且（ii）操作的時間次序可改變。

本文中所使用的術語僅出於描述特定實施例的目的，且不意欲限制本發明概念。如本文中所使用，術語「實質上」、「約」以及類似術語用作近似的術語且不用作程度的術語，且意欲考慮將由所屬技術領域中具有通常知識者辨識的量測值或計算值的固有偏差。

如本文中所使用，除非上下文另外明確指示，否則單數形式「一（a/an）」亦意欲包含複數形式。應進一步理解，術語「包括（comprises/comprising）」在用於本說明書中時指定所陳述特徵、整數、步驟、操作、元件及/或組件的存在，但不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組的存在或添加。如本文中所使用，術語「及/或」包含相關聯的所列項目中的一或多者的任何及所有組合。諸如「中的至少一者（at least one of）」的表述在位於元件列表之前時修飾元件的整個列表，而並不修飾列表中的個別元件。另外，當描述本發明概念的實施例時「可」的使用是指「本揭露內容的一或多個實施例」。此外，術語「例示性」意欲指代實例或圖示。如本文中所使用，可認為術語「使用（use/using/used）」分別與術語「利用（utilize/utilizing/utilized）」同義。

應理解，當將元件或層稱為「在」另一元件或層「上」、「連接至」另一元件或層、「耦接至」另一元件或層或「與」另一元件或層「相鄰」時，其可直接在所述另一元件或層上、直接連接至所述另一元件或層、直接耦接至所述另一元件或層或直接與所述另一元件或層相鄰，或可存在一或多個介入元件或介入層。相比之下，當將元件或層稱為「直接在」另一元件或層「上」、「直接連接至」另一元件或層、「直接耦接至」另一元件或層或「緊鄰」另一元件或層時，不存在介入元件或介入層。

本文中所列舉的任何數值範圍均意欲包含所列舉的範圍內所歸入的具有相同數值精確度的所有子範圍。舉例而言，「1.0至10.0」或「1.0與10.0之間」的範圍意欲包含所列舉的最小值1.0與所列舉的最大值10.0之間（且包含所列舉的最小值1.0及所列舉的最大值10.0）的所有子範圍，亦即，具有等於或大於1.0的最小值及等於或小於10.0的最大值，諸如（例如）2.4至7.6。本文中所列舉的任何最大數值限制意欲包含歸入於其中的所有更低數值限制，且本說明書中所列舉的任何最小數值限制意欲包含歸入於其中的所有更高數值限制。

術語「處理電路」在本文中用於意謂採用以處理資料或數位信號的硬體、韌體以及軟體的任何組合。處理電路硬體可包含例如特殊應用積體電路（ASIC）、通用或專用中央處理單元（CPU）、數位信號處理器（digital signal processor；DSP）、圖形處理單元（GPU）以及諸如場可程式閘陣列（FPGA）的可程式邏輯裝置。在處理電路中，如本文中所使用，藉由經組態（亦即，硬連線）以進行所述功能的硬體或藉由經組態以執行儲存於非暫時性儲存媒體中的指令的更一般目的硬體（諸如CPU）進行每一功能。處理電路可經製造於單一印刷電路板（printed circuit board；PCB）上或分佈於若干互連PCB上。處理電路可含有其他處理電路；例如，處理電路可包含在PWB上互連的兩個處理電路FPGA及CPU。

儘管已在本文中具體描述及示出用於進行記憶體內功能計算的系統及方法的例示性實施例，但許多修改及變化將對所屬技術領域中具有通常知識者顯而易見。因此，應理解，可除如在本文中具體描述以外而體現根據本揭露內容的原理來建構的用於進行記憶體內功能計算的系統及方法。本發明亦在以下申請專利範圍及其等效物中定義。

105、A、B、C、D、E、H、I、J、K、L、M、N、O、P:庫 110、110c:記憶體內功能電路 110a:第一記憶體內功能電路 110b:第二記憶體內功能電路 112:輸入/輸出感測放大器 115、Rop、Rz:暫存器 120:算術邏輯單元 125、MUX:多工器 205:主機處理電路 206、430:記憶體控制器 210:控制器 215:中間緩衝器 220:FIM邏輯 225:記憶體映射暫存器 256b:256位元寬的匯流排 230:晶片 405:CPU 410:交換器 415:硬體加速器/記憶體加速器 420:用於進行記憶體內功能計算的系統 425、435:記憶體 440:PCIe根複合體 445:CXL介面電路 446:網路介面卡 450:記憶體模組 455:第一介面 460:第二介面/CXL介面 465:處理核心 470:處理引擎 475:高速互連 480:主機管理器 485:SRAM控制器 486:靜態隨機存取記憶體模組 490:DRAM控制器 510、520、530:操作 BG0、BG1、BG2、BG3:庫群組

包含圖式以僅提供實例且不應理解為限制本發明的範圍。將參考本說明書、申請專利範圍以及隨附圖式來瞭解及理解本揭露內容的此等及其他特徵及優勢，其中：圖1A為根據本揭露內容的實施例的包含各自包含多個庫的多個庫群組的記憶體的方塊圖，所述記憶體更包含多個記憶體內功能電路。圖1B為根據本揭露內容的實施例的具有多個感測放大器、全局輸入輸出暫存器以及記憶體內功能電路的記憶庫的方塊圖。圖1C為根據本揭露內容的實施例的用於由記憶體內功能電路執行的指令的表。圖2A為根據本揭露內容的實施例的使用各自連接至記憶體內功能電路的多個標準動態隨機存取記憶體（dynamic random-access memory；DRAM）模組的記憶體內功能組態的方塊圖，所述DRAM模組共享至主機處理電路的通道。圖2B為根據本揭露內容的實施例的使用配置於多個排組（rank）中的多個標準DRAM模組的記憶體內功能組態的方塊圖，每一排組連接至記憶體內功能電路。圖2C為根據本揭露內容的實施例的使用多個修改的DRAM晶片的記憶體內功能組態的方塊圖，每一晶片包含記憶體內功能電路。圖2D為根據本揭露內容的實施例的使用多個修改的DRAM晶片的記憶體內功能組態的方塊圖，每一晶片包含多個DRAM庫及用於每一庫的記憶體內功能電路。圖3A為根據本揭露內容的實施例的其中多個記憶體內功能電路經配置為單指令多資料處理器的記憶體內功能組態。圖3B為根據本揭露內容的實施例的其中多個記憶體內功能電路以脈動陣列配置的記憶體內功能組態。圖4A為根據本揭露內容的實施例的用於計算的系統的方塊圖。圖4B為用於進行記憶體內功能計算的系統的方塊圖。圖5為根據本揭露內容的實施例的用於計算的方法的流程圖。

405:CPU

410:交換器

415:硬體加速器/記憶體加速器

420:用於進行記憶體內功能計算的系統

425、435:記憶體

430:記憶體控制器

440:PCIe根複合體

446:網路介面卡

Claims

一種用於計算的系統，所述系統包括：記憶體，所述記憶體包括一或多個記憶體內功能電路；以及快取同調協定介面電路，具有第一介面及第二介面，所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果，所述第一介面連接至所述記憶體，所述第二介面經組態為匯流排介面上的快取同調協定介面，以及所述快取同調協定介面電路進行由主機處理電路委派的計算任務，並且將所述計算任務的一部分委派給所述記憶體內功能電路。
如請求項1所述的系統，其中：所述記憶體內功能電路以單指令多資料組態配置；或所述記憶體內功能電路以脈動組態配置。
如請求項1所述的系統，其中：所述快取同調協定介面電路為計算快捷鏈路(CXL)介面電路，且所述匯流排介面為快捷周邊組件互連(PCIe)端點介面。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路在具有動態隨機存取記憶體的半導體晶片上。
如請求項1所述的系統，其中所述第一介面經組態以根據由雙倍資料速率第2代、雙倍資料速率第3代、雙倍資料速率第4代以及雙倍資料速率第5代所組成的群組中選出的協定來操作。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路包括：多個暫存器，多個多工器，以及算術邏輯單元。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由加法、減法、乘法以及除法所組成的群組中選出的算術運算。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由浮點加法、浮點減法、浮點乘法以及浮點除法所組成的群組中選出的算術運算。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以進行由按位元及、按位元或、按位元互斥或以及按位元1的補數所組成的群組中選出的邏輯運算。
如請求項1所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路在第一狀態下經組態以將所述結果儲存於所述記憶體中，且在第二狀態下經組態以將所述結果發送至所述快取同調協定介面電路。
如請求項1所述的系統，更包括連接至所述第二介面的該主機處理電路。
如請求項11所述的系統，其中所述主機處理電路包括具有連接至所述第二介面的根埠的快捷周邊組件互連根複合體。
一種用於計算的系統，所述系統包括：記憶體，所述記憶體包括一或多個記憶體內功能電路；以及快取同調協定介面電路，具有第一介面及第二介面，所述快取同調協定介面電路經組態以對儲存於所述記憶體中的資料進行算術運算，所述第一介面連接至所述記憶體，所述第二介面經組態為匯流排介面上的快取同調協定介面，以及所述快取同調協定介面電路進行由主機處理電路委派的計算任務，並且將所述計算任務的一部分委派給所述一或多個記憶體內功能電路中的記憶體內功能電路。
如請求項13所述的系統，其中：所述一或多個記憶體內功能電路中的記憶體內功能電路經組態以對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果。
如請求項14所述的系統，其中：所述記憶體內功能電路以單指令多資料組態配置；或所述記憶體內功能電路以脈動組態配置。
如請求項14所述的系統，其中：所述快取同調協定介面電路為計算快捷鏈路(CXL)介面電路，且所述匯流排介面為快捷周邊組件互連(PCIe)端點介面。
如請求項14所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路在具有動態隨機存取記憶體的半導體晶片上。
如請求項14所述的系統，其中所述第一介面經組態以根據由雙倍資料速率第2代、雙倍資料速率第3代、雙倍資料速率第4代、雙倍資料速率第5代、圖形雙倍資料速率、高頻寬記憶體以及低功耗雙倍資料速率所組成的群組中選出的協定來操作。
如請求項14所述的系統，其中所述一或多個記憶體內功能電路中的記憶體內功能電路在第一狀態下經組態以將所述結果儲存於所述記憶體中，且在第二狀態下經組態以將所述結果發送至所述快取同調協定介面電路。
一種用於計算的方法，所述方法包括：由主機處理電路將一或多個計算快捷鏈路封包發送至計算快捷鏈路介面電路；由所述計算快捷鏈路介面電路回應於接收到所述計算快捷鏈路封包而將指令發送至連接至所述計算快捷鏈路介面電路的記憶體中的記憶體內功能電路；以及由所述記憶體內功能電路根據所述指令對包含自所述記憶體檢索到的第一運算元的運算元進行運算以形成結果，其中所述計算快捷鏈路介面電路進行由所述主機處理電路委派的計算任務，並且將所述計算任務的一部分委派給所述記憶體內功能電路。