WO2023030153A1

WO2023030153A1 - 数据存储装置和数据处理方法

Info

Publication number: WO2023030153A1
Application number: PCT/CN2022/114735
Authority: WO
Inventors: 林晗; 陈宇轩; 曾建江
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-08-30
Filing date: 2022-08-25
Publication date: 2023-03-09
Anticipated expiration: 2024-02-29
Also published as: CN115729845A; EP4354309A4; US20240281381A1; EP4354309A1

Abstract

本申请公开了一种数据存储装置和数据处理方法。数据存储装置包括存储器和第一近数据计算NDP单元，第一NDP单元与存储器电连接，数据存储装置通过总线与处理器相连。第一NDP单元，用于存储第一物理地址信息，该信息指向第一地址空间，第一地址空间是第一NDP单元有权使用的一段连续内存空间；存储器，用于在第一地址空间存储来自处理器的第一数据；第一NDP单元，还用于基于获取的第一偏移地址和第一物理地址信息从第一地址空间中读取第一数据中的部分或全部数据，并执行计算。采用本申请实施例，可以消除地址翻译在第一NDP单元中带来的硬件开销，并大幅提升近数据计算过程中的计算性能和能耗比。

Description

数据存储装置和数据处理方法

本申请要求于2021年8月30日提交中国专利局、申请号为202111008166.4、申请名称为“数据存储装置和数据处理方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及芯片技术领域，尤其涉及一种数据存储装置和数据处理方法。

背景技术

近数据计算(Near Data Processing，NDP)是一种在存储器件(如内存)附近部署计算单元(如微处理单元(Microprocessor Unit,MPU)等)进行相关数据运算的技术。此种技术通过高带宽的链路将计算单元集成到存储器件中，赋予存储器件一部分计算能力。通过近数据计算技术可以将一些原本由中央处理单元(Central Processing Unit，CPU)执行的计算任务卸载到具有计算能力的存储器件中完成，从而大幅减少CPU与存储器件之间的远距离数据传输，以提升系统性能和降低能耗。

在近数据计算过程中，用于执行计算任务的计算单元可以采用虚拟地址方式或物理地址方式访问存储器，以获取相应的数据来执行计算任务。当采用物理地址访问内存时，计算单元在执行计算过程中需要与处理器进行多次交互。

上述现有技术中，当采用虚拟地址访问内存时，所设计的计算单元的硬件复杂度高；而采用物理地址访问内存时，总线上的通信开销和数据传输量都较大。

发明内容

本申请实施例提供了一种数据存储装置和数据处理方法，可以消除地址翻译带来的硬件开销，并大幅提升近数据计算过程中的计算性能和能耗比。

第一方面，本申请提供了一种数据存储装置，所述数据存储装置包括存储器和第一近数据计算NDP单元，所述第一NDP单元和所述存储器电连接，所述数据存储装置通过总线与处理器相连；其中，所述第一NDP单元，用于存储第一物理地址信息基址和第一长度；其中，所述第一物理地址信息基址和所述第一长度指向所述存储器中的第一地址空间，所述第一地址空间是所述第一NDP单元有权使用的一段连续内存空间；所述存储器，用于在所述第一地址空间中存储来自所述处理器的用于进行近数据计算的第一数据；所述第一NDP单元，还用于获取第一偏移地址，并基于获取的所述第一偏移地址和所述第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据；基于所述第一数据中的部分或全部数据执行计算。

从技术效果上看，本申请中，第一NDP单元通过在其内部存储用于指向第一地址空间的第一物理地址信息，使得后续可以基于物理地址在存储器中进行寻址，以从连续的第一地址空间中获取用于近数据计算的第一数据，相比现有技术中利用虚拟地址寻址来进行计算的过程，省略了第一NDP单元中地址翻译的过程(即虚拟地址和物理地址的转换过程)，可以有效降低第一NDP单元的硬件复杂度。此外，在利用本申请中的装置进行近数据计算过程中，只有在处理器为第一NDP单元分配第一地址空间以及向第一地址空间写入数据时，处理器与第一NDP单元才会通过总线进行交互，而第一NDP单元在启动计算的后续过程中再无需通过总线和处理器侧进行交互，只通过物理链路与存储装置中的存储器进行交互。因而本申请相对现有技术而言，可以显著降低NDP单元与处理器侧的交互次数，即显著降低总线上的通信开销以及数据传输量，进而大幅提升近数据计算过程中的计算性能和能耗比。

应当理解，上述数据存储装置可以包括多个NDP单元，每个NDP单元执行计算任务的过程与第一NDP单元执行计算任务的过程对应相同。

其中，上述数据存储装置可以是具有可编程处理能力的存储产品，例如，其可以是通用内存条或磁盘等。在一种可行的实施方式中，所述第一NDP单元包括第一寄存单元和近数据计算核心NDP core；所述第一NDP单元具体用于：通过所述第一寄存单元存储所述第一物理地址信息；通过所述NDP core从所述第一寄存单元获取所述第一物理地址信息，并基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据。

从技术效果上看，由于本申请通过寄存单元存储用于指向第一地址空间的第一物理地址信息，因而只要确保寄存单元中的数据不被非法修改，便可保证存储器被访问过程的安全性。

在一种可行的实施方式中，所述第一物理地址信息包括第一边界地址和第一长度；所述NDP core具体用于：当所述第一偏移地址小于或等于所述第一长度时，基于所述第一偏移地址和所述第一边界地址，计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。

在一种可行的实施方式中，所述第一物理地址信息包括第二边界地址和第三边界地址；所述NDP core具体用于：基于所述第一偏移地址和所述第二边界地址计算得到第一访问地址，或者基于所述第一偏移地址和所述第三边界地址计算得到所述第一访问地址；其中，所述第二边界地址和所述第三边界地址分别为所述第一地址空间的起始物理地址和所述第一地址空间的终止物理地址；当所述第一访问地址位于所述第二边界地址和所述第三边界地址之间时，从所述第一访问地址中读取所述第一数据中的部分或全部数据。

其中，第一偏移地址为相对第一地址空间的起始物理地址或终止物理地址的偏移量offset。

可选地，第一物理地址信息可以包括第一地址空间的起始物理地址、第一地址空间的终止物理地址和第一地址空间的长度(即第一长度)中的至少两个。

从技术效果上看，通过上述实施例中的第一NDP单元访问存储器的方式(即第一访问地址的计算方式)，可以确保NDP core的访问范围在预先设定的一段连续内存空间(即第一地址空间)的内部，不会超出该连续内存空间，从而提升存储器被访问过程的安全性。

在一种可行的实施方式中，所述数据存储装置还包括第二NDP单元，所述第二NDP单元和所述存储器电连接；所述第二NDP单元，用于存储第二物理地址信息；其中，所述第二物理地址信息用于指向所述存储器中的第二地址空间，所述第二地址空间是所述第二NDP单元有权使用的一段连续内存空间；所述存储器，用于在所述第二地址空间中存储来自所述处理器的用于进行近数据计算的第二数据；所述第一NDP单元，还用于基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；基于所述第二数据中的部分或全部数据执行计算。

从技术效果上看，在第一NDP单元执行计算任务的过程中，第一NDP单元不仅可以访问与其对应的第一地址空间，还可以访问其它NDP单元对应的地址空间(如第二NDP单元对应的第二地址空间)，即采用本申请实施例进行近数据计算过程中，当第一NDP单元需要与其它NDP单元(如第二NDP单元)进行数据交互时，可以基于存储的第二物理地址信息直接从第二地址空间获取用于计算的数据，相对于现有技术中需要遍历数据存储装置中的所有其它NDP单元对应的地址空间而言，本申请实施例可以使得第一NDP单元对存储器中除第一地址空间外的其它地址空间的访问具有良好的扩展性。

在一种可行的实施方式中，所述存储器还用于接收所述处理器的指令，所述指令指示所述存储器为所述第一NDP单元分配所述第一地址空间，以及指示所述存储器为所述第二NDP单元分配所述第二地址空间。

在一种可行的实施方式中，所述第一NDP单元还包括第二寄存单元和缓存单元；在所述第一NDP单元还用于基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述第一NDP单元具体用于：在所述缓存单元缓存有所述第二物理地址信息的情况下，通过所述NDP core从所述缓存单元中获取所述第二物理地址信息，并更新到所述第二寄存单元中；通过所述NDP core基于获取的所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；或者，在所述缓存单元未缓存所述第二物理地址信息的情况下，通过所述NDP core从所述第二NDP单元中获取所述第二物理地址信息，并更新到所述第二寄存单元和所述缓存单元中；通过所述NDP core基于获取的所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据。

其中，缓存单元从物理实现上，可以是靠近NDP core的缓存Cache，例如，可以是静态随机存储器SRAM，其在逻辑上可以理解为缓存有相应内容的数据结构，例如可以为用于存储第二物理基址和第二长度的表单。

从技术效果上看，本申请通过在第一NDP单元中设置缓存单元来缓存获取过的第二物理地址信息，从而当后续计算过程中如需再次使用时，可以直接从缓存单元中获取第二物理地址信息来计算相应的访问地址，从而基于计算得到的访问地址读取用于进行近数据计算的数据。由于本申请在近数据计算过程中增加了上述缓存机制，因而可以有效降低近数据计算过程的延迟，提高计算效率和能耗比。

在一种可行的实施方式中，所述第二物理地址信息包括第四边界地址和第二长度；在所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述NDP core具体用于：从所述第二寄存单元中读取所述第四边界地址和所述第二长度；其中，所述第四边界地址为所述第二地址空间的起始物理地址或所述第二地址空间的终止物理地址，所述第二长度为所述第二地址空间的长度；当所述第二偏移地址小于或等于所述第二长度时，基于所述第二偏移地址和所述第四边界地址计算得到第二访问地址；从所述第二地址空间中的所述第二访问地址中读取所述第二数据中的部分或全部数据。

在一种可行的实施方式中，所述第二物理地址信息包括第五边界地址和第六边界地址；在所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述NDP core具体用于：基于所述第二偏移地址和所述第五边界地址计算得到第二访问地址，或者基于所述第二偏移地址和所述第六边界地址计算得到所述第二访问地址；其中，所述第五边界地址和所述第六边界地址分别为所述第二地址空间的起始物理地址和所述第二地址空间的终止物理地址；当所述第二访问地址位于所述第五边界地址和所述第六边界地址之间时，从所述第二访问地址中读取所述第一数据中的部分或全部数据。

其中，第二偏移地址为相对第二地址空间的起始物理地址或终止物理地址的偏移量。

从技术效果上看，通过上述实施例中的第一NDP单元访问存储器中第二地址空间的方式，可以确保访问范围在第二地址空间的内部，不会超出第二地址空间，从而保证存储器被访问过程的安全性。

从技术效果上看，由于数据存储装置中的NDP单元不感知处理器中缓存的用于近数据计算的第一数据，因而在本申请中没有其它保证缓存一致性的机制时，需要将处理器中缓存的第一地址空间中的数据进行清除，以避免缓存一致性的问题。

在一种可行的实施方式中，所述第一寄存单元和所述第二寄存单元分别都包括至少一个寄存器。

其中，上述寄存单元可以为具有数据存储和数据读写功能的高速存储器件，其数据读写速度远高于硬盘、U盘等外部存储器件(外部存储器件指计算设备内存及处理器缓存以外的存储器件)。

其中，每个寄存单元中寄存器的数量要满足保存地址信息的要求。可选地，可以将第一物理地址信息共同存储在同一个寄存器中，或者分别存储在两个寄存器中。同理，第二物理地址信息也可以共同存储在同一个寄存器中，或者分别存储在两个寄存器中，本申请对此不限定。

从技术效果上看，由于第一物理地址信息是存储于寄存器中，因而只要确保寄存器中的数据不被非法修改，便可保证第一存储器被访问过程的安全性，即安全性好。

在一种可行的实施方式中，所述第一NDP单元，还用于在完成所述近数据计算后，通过所述总线向所述处理器发送第二信号；所述第二信号用于指示所述第一NDP单元已完成近数据计算。

从技术效果上看，当第一NDP单元完成近数据计算时，可以告知处理器侧其进度情况，以确保处理器侧能够掌握各NDP单元的近数据计算任务的完成情况。

第二方面，本申请提供了一种数据处理方法，应用于数据存储装置，所述数据存储装置包括存储器和第一近数据计算NDP单元，所述第一NDP单元和所述存储器电连接，所述数据存储装置通过总线与处理器相连；所述方法包括：通过所述第一NDP单元存储第一物理地址信息；其中，所述第一物理地址信息用于指向所述存储器中的第一地址空间，所述第一地址空间是第一NDP单元有权使用的一段连续内存空间；由所述存储器在所述第一地址空间中存储来自所述处理器的用于进行近数据计算的第一数据；由所述第一NDP单元基于获取的第一偏移地址和第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据；基于所述第一数据中的部分或全部数据执行计算。

在一种可行的实施方式中，所述第一NDP单元包括第一寄存单元和近数据计算核心NDP core；所述通过所述第一NDP单元存储第一物理地址信息，包括：通过所述第一寄存单元存储所述第一物理基址和所述第一长度；所述由所述第一NDP单元基于获取的第一偏移地址和第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：由所述NDP core从所述第一寄存单元获取所述第一物理地址信息，并基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据。

在一种可行的实施方式中，所述第一物理地址信息包括第一边界地址和第一长度；所述基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：当所述第一偏移地址小于或等于所述第一长度时，由所述NDP Core 基于所述第一偏移地址和所述第一边界地址，计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；由所述NDP Core从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。

在一种可行的实施方式中，所述第一物理地址信息包括第二边界地址和第三边界地址；所述基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：由所述NDP Core基于所述第一偏移地址和所述第二边界地址计算得到第一访问地址，或者基于所述第一偏移地址和所述第三边界地址计算得到所述第一访问地址；其中，所述第二边界地址和所述第三边界地址分别为所述第一地址空间的起始物理地址和所述第一地址空间的终止物理地址；当所述第一访问地址位于所述第二边界地址和所述第三边界地址之间时，由所述NDP Core从所述第一访问地址中读取所述第一数据中的部分或全部数据。

在一种可行的实施方式中，所述数据存储装置还包括第二NDP单元，所述第二NDP单元和所述存储器电连接；所述方法还包括：通过所述第二NDP单元存储第二物理地址信息；其中，所述第二物理地址信息用于指向所述存储器中的第二地址空间，所述第二地址空间是第二NDP单元有权使用的一段连续内存空间；由所述存储器在所述第二地址空间中存储来自所述处理器的用于进行近数据计算的第二数据；由所述第一NDP单元基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；基于所述第二数据中的部分或全部数据执行计算。

在一种可行的实施方式中，所述方法还包括：由所述存储器接收所述处理器的指令，所述指令指示所述存储器为所述第一NDP单元分配所述第一地址空间，以及指示所述存储器为所述第二NDP单元分配所述第二地址空间。

在一种可行的实施方式中，所述第一NDP单元还包括第二寄存单元和缓存单元；所述基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据，包括：在所述缓存单元缓存有所述第二物理地址信息的情况下，通过所述NDP core从所述缓存单元中获取所述第二物理地址信息，并更新到所述第二寄存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；或者，在所述缓存单元未缓存所述第二物理地址信息的情况下，通过所述NDP core从所述第二NDP单元中获取所述第二物理地址信息，并更新到所述第二寄存单元和所述缓存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据。

在一种可行的实施方式中，所述第二物理地址信息包括第四边界地址和第二长度；所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据，包括：通过所述NDP core从所述第二寄存单元中读取所述第四边界地址和所述第二长度；其中，所述第四边界地址为所述第二地址空间的起始物理地址或所述第二地址空间的终止物理地址，所述第二长度为所述第二地址空间的长度；当所述第二偏移地址小于或等于所述第二长度时，由所述NDP core基于所述第二偏移地址和所述第四边界地址计算得到第二访问地址；由所述NDP core从所述第二地址空间中的所述第二访问地址中读取所述第二数据中的部分或全部数据。在一种可行的实施方式中，所述第二物理地址信息包括第五边界地址和第六边界地址；所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，包括：由所述NDP core基于所述第二偏移地址和所述第五边界地址计算得到第二访问地址，或者基于所述第二偏移地址和所述第六边界地址计算得到所述第二访问地址；其中，所述第五边界地址和所述第六边界地址分别为所述第二地址空间的起始物理地址和所述第二地址空间的终止物理地址；当所述第二访问地址位于所述第五边界地址和所述第六边界地址之间时，由所述NDP core从所述第二访问地址中读取所述第一数据中的部分或全部数据。

在一种可行的实施方式中，所述方法还包括：在所述第一NDP单元完成所述近数据计算后，由所述第一NDP单元通过所述总线向所述处理器发送信号；所述信号用于指示所述第一NDP单元已完成近数据计算。

第三方面，本申请实施例提供了一种数据处理装置，包括处理器、上述第一方面中的任意一种实施方式所提供的数据存储装置以及耦合于该数据存储装置的分立器件。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被执行时，上述第二方面中任意一项所述的数据处理方法得以实现。

第五方面，本申请实施例提供了一种计算机程序，该计算机程序包括指令，当该计算机程序被执行时，上述第二方面中任意一项所述的数据处理方法得以实现。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1是本申请实施例中一种用于近数据计算的系统架构的结构示意图；

图2是本申请实施例中一种数据处理装置的结构示意图；

图3是本申请实施例中另一种数据处理装置的结构示意图；

图4是本申请实施例中一种访存地址的计算逻辑示意图；

图5是本申请实施例中又一种数据处理装置的结构示意图；

图6是本申请实施例中一种数据存储装置的硬件结构示意图；

图7是本申请实施例中一种连续内存空间的空间布局示意图；

图8是本申请实施例中一种数据处理方法的流程示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

首先对本申请实施例中的相关术语进行解释：

(1)近数据计算(Near-data Processing,NDP)：一种在存储器件附近部署计算单元的技术，旨在大幅减少远距离访存请求，以解决访存受限问题，提升整体性能和能耗比。

(2)缓存一致性：在采用层次结构存储系统的计算机系统中，保证高速缓冲存储器中数据与主存储器中数据相同机制。在一个系统中，当许多不同的设备共享一个共同存储器资源，在高速缓存中的数据不一致，就会产生问题。如果某些共享数据同时存在于不同设备的缓存中，也需要保证其中数据的一致性。

(3)地址翻译：指虚拟地址和物理地址的转换过程。虚拟地址通常是指由程序提供的地址，而物理地址则是指有效的存储器地址。由所有虚拟地址构成的集合叫做虚拟地址空间(Virtual Address Space)，由所有物理地址构成的集合叫做物理地址空间(Physical Address Space)。地址翻译的过程，可以简单理解为通过页表查询出虚拟地址对应的物理地址，而缩略语表格中的转译后备缓冲器(Translation Lookaside Buffer，TLB)就是用于缓存部分页表以加速查询过程的一种硬件结构。

(4)缓存(Cache)：计算机内存系统中一个层次，处于主存和处理器之间，是为了弥合两者之间的处理速度差异而加入的，与主存相比，cache访问速度更快，但容量更小。Cache通常也可分为多层，越靠近CPU的层次容量越小，访问速度也越快。

(5)硅通孔(Through Silicon Via，TSV)：在3D封装内存中通常采用的一种技术，可以将芯片中的多层结构在垂直方向上连接在一起，提供非常高的数据传输带宽。

(6)栈(Stack)：在内存中用于保存局部变量、函数调用参数等的一段特殊空间，具有后进先出的特征，一般从高地址向低地址方向增长。

(7)能耗比：性能功耗比，即性能与功耗的比值，通常表示处理器在特定功耗下的性能水平。该值越高，表示在固定功耗下处理器可以完成的计算越多。

(8)连续内存空间：指在物理上(存储器中)一段连续的存储空间，该内存空间对应一段连续的物理地址。

(9)偏移地址：指相对于所对应地址空间的起始物理地址或终止物理地址的偏移量offset。

请参见图1，图1为本申请实施例中一种用于近数据计算的系统架构的结构示意图。如图1所示，系统架构100可以包括中央处理单元110(Center Processing Unit,CPU)、图形处理单元120(Graphics Processing Unit，GPU)、数字信号处理器130(Digital Signal Processor，DSP)、M个数据存储装置150和总线160，其中M为正整数。

其中，CPU、GPU和DSP通过总线160与MC相连，MC通过物理连线与M个数据存储装置150直连。CPU、GPU和DSP可以作为系统级芯片(System on Chip，SOC)的一部分。每个数据存储装置可以包括一个存储器和一个或多个近数据计算NDP单元。例如，数据存储装置1包括存储器1和N个近数据计算NDP单元，数据存储装置M包括存储器M和K个NDP单元；其中，存储器和NDP单元通过物理链路直连，N和K为正整数。

其中，系统架构100中还可以包括存储控制器(Memory Controller，MC，图1未示出)，用于控制数据存储装置中的数据读写操作。

数据存储装置可以是具有可编程处理能力的存储产品。例如，通用内存条或磁盘等。数据存储装置中包括的存储器可以是随机存储器(Random Access Memory，RAM)或非易失性存储器(Non-Volatile Memory，NVM)中的任意一种。随机存储器RAM包括静态随机存储器(Static Random-Access Memory，SRAM)和动态随机存储器(Dynamic Random Access Memory，DRAM)等；非易失性存储器NVM包括只读存储器(Read-only Memory,ROM)和闪存FlashMemory等。

其中，上述系统架构100可以被包含于任意用于进行近数据计算的终端设备中，该终端设备可以是手机、电脑、平板、可穿戴设备或车载终端等。系统架构100可以应用于通用计算、高性能计算或人工智能等任意需要进行近数据计算的场景中，本申请对此不限定。

请参见图2，图2是本申请实施例中一种数据处理装置的结构示意图。如图2所示，数据处理装置200是基于图1中近数据计算的系统架构100得到的一种数据处理装置，包括：数据存储装置210、处理器220、总线230。数据存储装置210通过总线230和处理器220连接。数据存储装置210包括存储器211和第一NDP单元212，存储器211与第一NDP单元212电连接。

可选地，电连接可以指存储器211与第一NDP单元212之间通过铜箔或导线等可传输电信号的实体线路进行直接连接，即它们之间不再包含其他的器件。

其中，数据存储装置210可以是图1中M个数据存储装置中的任意一个。数据处理装置200可以是任意用于进行近数据计算的终端设备，如手机、电脑、平板、可穿戴设备或车载终端等。处理器220可以是中央处理单元(CPU)或其他处理核心。处理器220也可以是异构处理器，即不同类型处理器，关于处理器的具体实现方案本实施例不做展开。

第一NDP单元212，用于存储第一地址信息；其中，第一地址信息用于指向存储器中的第一地址空间，第一地址空间是由处理器为第一NDP单元212分配的一段连续内存空间。

具体地，在数据处理装置200进行近数据计算的过程中，首先由处理器220进行初始化，来为第一NDP单元212在存储器211中分配一段连续的内存空间，即第一地址空间。该第一地址空间可以是一系列连续的物理地址的集合。在处理器220为第一NDP单元212分配完第一地址空间后，由第一NDP单元212存储表征第一地址空间在存储器中具体位置的第一物理地址信息。

可选地，数据处理装置200可以通过处理器220运行一段初始化代码来执行相应初始化过程(也可称为近数据计算任务分发过程)，来为第一NDP单元212在存储器211中分配一段连续内存空间。其中，第一NDP单元可以是中央处理单元CPU或微处理单元(Microprocessor Unit，MCU)等，本申请对此不做限定。

存储器211，用于在第一地址空间中存储处理器发送的用于进行近数据计算的第一数据。

可选地，数据处理装置200可以通过在处理器220运行上述初始化代码，来实现向存储器211中第一地址空间中写入用于近数据计算的第一数据。具体地，在处理器220为第一NDP单元212分配完对应的第一地址空间后，可以通过总线230向第一地址空间中写入第一数据。

可选地，第一地址空间在存储器211中对应的连续内存空间在逻辑上可以划分为数据区块和代码区块，分别用于保存数据和代码，即用于近数据计算的第一数据中包括数据和代码。应当注意，在分页式内存管理系统中，上述由处理器220分配的连续内存空间大小不受页大小的限制。

其中，存储器211可以是随机存储器(Random Access Memory，RAM)或非易失性存储器(Non-Volatile Memory，NVM)中的任意一种。随机存储器RAM包括静态随机存储器(Static Random-Access Memory，SRAM)和动态随机存储器(Dynamic Random Access Memory，DRAM)等；非易失性存储器NVM包括只读存储器(Read-only Memory,ROM)和闪存FlashMemory等。

第一NDP单元212，还用于基于获取的第一偏移地址和所述第一物理地址信息从第一地址空间中读取第一数据中的部分或全部数据；基于第一数据中的部分或全部数据执行计算。

具体地，第一NDP单元212执行的计算可以包括一个或多个轮次的计算过程。在每轮计算的过程中，第一NDP单元都需要从存储器211中读取相应的数据。在该多轮计算的一轮计算过程中，第一NDP单元可以首先基于获取的第一偏移地址(也可称为第一偏移量)，然后基于第一偏移地址和第一物理地址信息从第一地址空间中读取第一数据中的部分或全部数据，然后基于读取的第一数据的部分或全部数据执行计算。可选的，第一NDP单元212可以从第一地址空间中的代码区块(例如，代码区块中load或store指令的操作数)或者第一NDP单元中的程序计数器(Program Counter，PC)寄存器中，或者上一轮计算过程中第一NDP单元从第一地址空间所读取的数据中获取该第一偏移地址，然后基于第一物理地址信息和第一偏移地址从第一地址空间中读取第一数据中的部分或者全部数据。

从技术效果上看，本申请中，第一NDP单元通过在其内部存储用于指向第一地址空间的第一物理地址信息，使得后续可以基于物理地址在存储器中进行寻址，以从连续的第一地址空间中获取用于近数据计算的第一数据，相比现有技术中利用虚拟地址寻址来进行近数据计算的过程，省略了第一NDP单元中地址翻译的过程(即虚拟地址和物理地址的转换过程)，可以有效降低第一NDP单元的硬件复杂度。此外，在利用本申请中的装置进行近数据计算过程中，只有在处理器为第一NDP单元分配第一地址空间以及向第一地址空间写入数据时，处理器与第一NDP单元才会通过总线进行交互，而第一NDP单元在启动计算的后续过程中再无需通过总线和处理器侧进行交互，只通过物理链路与存储装置中的存储器进行交互。因而本申请相对现有技术而言，可以显著降低NDP单元与处理器侧的交互次数，即显著降低总线上的通信开销以及数据传输量，进而大幅提升近数据计算过程中的计算性能和能耗比。

请参见图3，图3是本申请实施例中另一种数据处理装置的结构示意图，作为对图2中数据处理装置200中第一NDP单元212的细化。如图3所示，第一NDP单元212可以包括近数据计算核心NDP core2121和第一寄存单元2122。

在一种可行的实施方式中，所述第一NDP单元212具体用于：通过所述第一寄存单元2122存储所述第一物理地址信息；通过所述NDP core2121从所述第一寄存单元获取所述第一物理地址信息，并基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据。

具体地，第一NDP单元212基于第一物理地址信息和第一偏移地址从第一地址空间中读取数据的过程是由NDP core2121实现的。

在一种可行的实施方式中，所述第一物理地址信息包括第一边界地址和第一长度；所述NDP core具体用于：当所述第一偏移地址小于或等于所述第一长度时，基于所述第一偏移地址和所述第一边界地址计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。

其中，第一偏移地址为相对第一地址空间的起始物理地址或终止物理地址的偏移量。

具体地，当第一物理地址信息包括第一边界地址和第一长度时，NDP Core 2121首先比较第一偏移地址和第一长度的大小：当第一偏移地址小于或等于第一长度时，基于第一偏移地址和第一边界地址计算得到第一访问地址。

此时基于第一偏移地址和第一边界地址计算第一访问地址的过程共包含四种情况：

(1)第一偏移地址为相对于第一地址空间起始物理地址的偏移量，第一边界地址为第一地址空间的起始物理地址时，NDP Core 2121将第一边界地址和第一偏移地址相加，得到第一访问地址。

(2)第一偏移地址为相对于第一地址空间起始物理地址的偏移量，第一边界地址为第一地址空间的终止物理地址时，NDP Core 2121首先将第一边界地址减去第一长度，再加上第一偏移地址，得到第一访问地址。

(3)第一偏移地址为相对于第一地址空间终止物理地址的偏移量，第一边界地址为第一地址空间的起始物理地址时，NDP Core 2121将第一边界地址加上第一长度，再减去第一偏移量，得到第一访问地址。

(4)第一偏移地址为相对于第一地址空间终止物理地址的偏移量，第一边界地址为第一地址空间的终止物理地址时，NDP Core 2121将第一边界地址减去第一偏移量，得到第一访问地址。

具体地，当第一物理地址信息包括第二边界地址和第三边界地址时，NDP Core 2121首先可以基于第二边界地址、第三边界地址和第一偏移地址计算得到第一访问地址，然后判断计算得到的第一访问地址是否落入第一地址空间中，且当第一访问地址落入第一地址空间内时，从所述第一访问地址中读取所述第一数据中的部分或全部数据。

上述基于第二边界地址、第三边界地址和第一偏移地址计算得到第一访问地址包含两种情况：

(1)第一偏移地址为相对于第一地址空间起始物理地址的偏移量时，NDP Core 2121将第一偏移地址和第二边界地址相加，得到第一访问地址。

(2)第一偏移地址为相对于第一地址空间终止物理地址的偏移量时，NDP Core 2121利用第三边界地址减去第一偏移地址，得到第一访问地址。

从技术效果上看，当第一物理地址信息中分别包含不同的内容时，采用本申请实施例中的上述计算逻辑计算得到的第一访问地址可以正好落入第一地址空间中，即第一NDP单元212对存储器211的访问不会超出处理器预先为第一NDP单元分配的连续内存空间(即第一地址空间)，因而可以提升第一NDP单元212对存储器211访问过程的安全性。当第一偏移地址大于第一长度或者计算得到的第一访问地址未落入第一地址空间时，为保证存储器211被访问过程的安全性，此时第一NDP单元可以输出表征访问地址异常的信号。

请参见图4，图4为本申请实施例中一种访存地址的计算逻辑示意图。该计算过程可以由第一NDP单元中的硬件模块实现。如图4所示，用于计算访存地址所涉及的硬件模块可以包括：PC寄存器410、第一寄存器420、第二寄存器430、加法器440、比较器450和存取单元(Load Store Unit,LSU)460。

下面将参照图4中所示硬件逻辑来详细描述第一访问地址的计算过程。图4中硬件模块可以是第一NDP单元212所包含硬件模块的一部分。

具体地，在第一访问地址计算过程中，PC寄存器410用于存储第一偏移地址。第一寄存单元2122包括第一寄存器420和第二寄存器430，第一寄存器420和第二寄存器430可以用于分别存储第一物理地址信息中的两种信息(第一边界地址和第一长度，或者第二边界地址和第三边界地址)。当第一寄存器420和第二寄存器430分别存储第一边界地址和第一长度时，比较器450从PC寄存器410和第二寄存器430中分别获取第一偏移地址和第一长度，并比较第一偏移地址和第一长度大小。加法器440从PC寄存器和第一寄存器420中分别获取第一偏移地址和第一边界地址，并基于上述实施例中对应的四种计算方式中的一种来计算第一访问地址。存取单元460基于比较器的比较结果来决定是否从存储器211中的第一访问地址中读取用于计算的数据；具体地，当第一偏移地址小于或等于第一长度时，存取单元LSU从第一地址空间中的第一访问地址中进行数据读取；当第一偏移地址大于第一长度时，存取单元LSU生成地址异常信号。

应当理解，图4中所示的利用硬件计算访存地址的逻辑只是本申请实施例中的一个示例，本领域中技术人员可以采用其它硬件逻辑或软件逻辑来实现访存地址的计算，本申请对此不限定。

请参见图5，图5是本申请实施例中又一种数据处理装置的结构示意图，作为对图2或图3中数据处理装置200中部分模块的细化。如图5所示，数据存储装置200可以包括E个NDP单元(即第一NDP单元212、第二NDP单元213…第E个NDP单元214)，E为大于2的整数。该E个NDP单元分别对应存储器211中的E段连续内存空间，具体地，第一地址空间2112为处理器220为第一NDP单元212分配的一段连续内存空间、第二地址空间2113为处理器220为第二NDP单元分配的一段连续内存空间…第E地址空间2114位处理器220为第E个NDP单元分配的一段连续内存空间。上述E个地址空间可以由处理器220在进行初始化过程中一次性分配完成。该E个NDP单元通过互联网络(Crossbar Network)214进行连接。该E个NDP单元分别通过物理链路与存储器211直连。

应当理解，图5中为方便起见只示出了第一NDP单元212内部的具体结构，其它E-1个NDP单元的内部结构可以与第一NDP单元212内部结构相同或不同，本申请对此不限定。本申请实施例中的第一NDP单元212可以是数据存储装置210中包含的E个NDP单元中的任意一个。

在一种可行的实施方式中，所述第二NDP单元，用于存储第二物理地址信息；其中，所述第二物理地址信息用于指向所述存储器中的第二地址空间，所述第二地址空间是第二NDP单元有权使用的一段连续内存空间；所述存储器，用于在所述第二地址空间中存储来自所述处理器的用于进行近数据计算的第二数据；所述第一NDP单元，还用于基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；基于所述第二数据中的部分或全部数据执行计算。

可选地，在处理器220运行初始化代码来进行各NDP单元近数据计算任务分发的过程中，处理器220为第二NDP单元213在存储器211中分配一段连续内存空间，即第二地址空间2113。第二地址空间2113由第二物理基址和第二长度进行表征，即第二地址空间2113的起始物理地址为第二物理基址，第二地址空间2113的长度为第二长度。第二地址空间2113为一段连续的物理地址的集合。同时，在处理器220进行近数据计算任务分发的过程中，处理器220在为第二NDP单元213分配第二地址空间2113后，还用于通过总线230向第二地址空间2113中写入用于近数据计算的第二数据。

可选的，上述第一NDP单元212获取第二偏移地址的方式与获取第一偏移地址的方式可以对应相同，此处不再赘述。

应当理解，上述第一NDP单元212从第二地址空间读取第二数据中的部分或全部数据进行计算的过程可以是第一NDP单元212进行的一轮或多轮计算任务中的一轮。

从技术效果上看，第一NDP单元既可以从处理器220为其分配的第一地址空间2112中读取相应的数据进行计算，也可从处理器220为其它近数据计算单元分配的连续内存空间中读取相应的数据进行计算。即对于两个需要进行数据交互的NDP单元，其只需进行点到点通信，无需进行全局同步，因而本申请实施例中，每个NDP单元对存储器中远程地址空间的访问具有良好的扩展性。

应当理解，本申请实施例只是以第一NDP单元212为对象描述NDP单元进行计算的具体过程。当数据存储装置210中包含多个NDP单元时，每个NDP单元进行计算的过程与本申请实施例中第一NDP单元212进行计算的过程对应相同，此处不再赘述。

即第一地址空间和第二地址空间是由处理器为第一NDP单元和第二NDP单元分别分配的连续内存空间。

其中，缓存单元2124用于在第一NDP单元212进行计算的过程中，缓存用于指向第二地址空间2113的第二物理地址信息。

应当理解，该第二NDP单元213可以是除第一NDP单元212外的其它任意一个NDP单元，即第二地址空间2113可以是除第一地址空间2112外的任意一段连续内存空间，且第二地址空间2113是由处理器220为第二NDP单元213分配的一段连续内存空间。

可选地，缓存单元2124在硬件上可以是随机存储器RAM或其它可行的存储器中的任意一种。其中，随机存储器RAM可以包括静态随机存储器(Static Random-Access Memory，SRAM)和动态随机存储器(Dynamic Random Access Memory，DRAM)。缓存单元2124在逻辑上可以为用于存储第二物理地址和第二长度的表单。

上述通过NDP core基于获取的第二偏移地址和第二物理地址信息从第二地址空间中读取所述第二数据中的部分或全部数据，进一步包括：NDP Core从第二寄存单元2123中获取第二物理地址信息，基于第二物理地址信息和第二偏移地址从第二地址空间2113中获取第二数据中部分或全部数据，以进行接下来的一轮计算。

从技术效果上看，本申请通过在第一NDP单元中设置缓存单元来缓存获取过的第二物理地址信息，从而当后续计算过程中如需再次使用时，可以直接从缓存单元中获取第二物理地址信息来计算相应的访问地址，从而基于计算得到的访问地址读取用于进行计算的数据。由于本申请在近数据计算过程中增加了上述缓存机制，因而可以有效降低近数据计算过程的延迟，提高计算效率和能耗比。

具体地，上述第一NDP单元212通过NDP Core计算第二访问地址的具体过程可以参见与前述实施例中NDP core计算第一访问地址具体过程的对应描述，此处不再赘述。

在一种可行的实施方式中，处理器220可以在第一NDP单元212在基于第一访问地址从第一地址空间中获取用于计算的数据之前，清除处理器220中缓存的第一地址空间中的数据。

从技术效果上看，由于第一NDP单元212不感知其它部件的缓存结构，因而在第一NDP单元212启动计算之前，需要指示处理器220将其缓存的第一地址空间中的数据进行清除，且在后续第一NDP单元212进行计算期间不再访问处理器220缓存的第一地址空间的数据，从而避免缓存一致性的问题。

其中，上述寄存单元可以为具有数据存储和数据读写功能的高速存储器件，其数据读写速度远高于硬盘、U盘等外部存储器件(外部存储器件指计算设备内存及处理器缓存以外的存储器件)。寄存单元可以由具有高速读写速度的寄存器来实现。

其中，每个寄存单元中寄存器的数量要满足保存地址信息的要求。

具体地，当第一寄存单元2122包括一个寄存器且第一物理地址信息中包含两类信息时，可以将第一物理地址信息存入该一个寄存器中。例如，在64位寄存器中，可以用48位表示第一边界地址，剩余16位表示第一地址空间的长度，即第一长度，或者用32位表示第一边界地址，剩余32位表示第二边界地址。当第一寄存单元2122包括两个寄存器时，可以利用该两个寄存器分别存储第一物理地址信息中的两类信息(第一边界地址和第一长度，或者第二边界地址和第三边界地址)。同理，第二寄存单元也可以采用与第一寄存单元相同的方式存储第二物理地址信息，此处不再赘述。

从技术效果上看，本申请通过硬件寄存器来存储指向存储器211中第一地址空间2112的第一物理地址信息，由于硬件寄存器中信息很难被篡改，安全性高，因而本申请基于硬件逻辑完成第一访问地址的计算具有较高的安全性。同时，采用本申请中第一访问地址的计算逻辑，可以使得第一NDP单元212在存储器211中访问的范围不会超出第一物理地址信息所指向的连续内存空间，保证存储器211被访问过程的安全性。同理，也可保证第一NDP单元212访问存储器211中其它地址空间时的安全性。

可选地，本申请还可以通过增加简单的硬件逻辑，可以控制第一地址空间中不同区块的访问权限，以增强安全性。例如，可增加内存保护单元(Memory Protection Unit，MPU)来控制第一地址空间中代码区块和数据区块的读写权限。同理，对其它地址空间中的数据区块和代码区块也可设置不同的访问权限，此处不再赘述。

在一种可行的实施方式中，所述第一NDP单元，还用于在完成所述近数据计算后，通过所述总线向所述处理器发送信号；所述信号用于指示所述第一NDP单元已完成近数据计算。

具体地，在第一NDP单元212完成了处理器220为其分配的近数据计算任务(可以包括一轮或多轮计算过程)后，可以通过总线230向处理器220发送信号。

可选地，在处理器220收到上述信号后，处理器220可以维护一个计数器，在收到一个NDP单元发送的信号后，将该计数器的值增加1，并相应保存该NDP单元的标识；其中，标识可以是NDP单元的编号。

请参见图6，图6为本申请实施例中一种数据存储装置的硬件结构示意图。该数据存储装置600是基于混合存储立方体(Hybrid Memory Cube，HMC)的存储装置。数据存储装置600可以适用到图1、图2、图3或图5中的数据处理装置中，作为其中的数据存储装置。

如图6所示，该数据存储装置600包括8层堆叠的DRAM芯片(分别为图6中的晶粒A到晶粒H)和1层逻辑芯片，8层堆叠的DRAM芯片作为存储器，可以对应前述实施例中的存储器211；逻辑芯片作为控制单元，可以包括图2-图3实施例中的第一NDP单元或图5实施例中的E个NDP单元。各层芯片之间可以通过硅通孔(Through Silicon Via,TSV)连接。该数据存储装置600中的每层芯片在逻辑上可以划分为若干单元(如图6所示，每层被划分为32个区域，例如，晶粒Die A被划分为从P00A到P31A共32个区域，逻辑芯片被划分为32个逻辑单元)。垂直方向上的多层存储器和逻辑单元构成一个存储库Vault，数据存储装置600可被划分为32个Vault(Vault 00到Vault 31)，Vault 00包括逻辑单元00、以及垂直方向上的8个存储器(P00A到P00H)。

每个Vault通过内部的互联网络(Crossbar Network)连接，互联网络通过总线(高速串行链路)与处理器(图6中未示出)通信。数据存储装置600可以是8GB规格的存储装置，每层DRAM芯片的数据容量为1GB，互连网络通过8条40GB/s的高速串行链路与数据存储装置600外部的设备相连。

如图6所示，以Vault 00为例，Vault 00内部的逻辑单元00中包含存储库控制器VC00(Vault Controller,VC)和NDP单元00。VC00集成在逻辑单元00中，负责Vault 00内部的数据读写操作。NDP单元可以包括近数据计算核心(Near-Data Processing Core,NDP Core)、高速暂存存储器(Scratchpad Memory,SPM)、内存保护单元(Memory Protection Unit,MPU)、直接内存访问(Direct Memory Access,DMA)引擎。此外，每个NDP00单元还可以包括第一寄存单元、第二寄存单元和缓存单元，图6中为简便起见未示出。应当理解，其它逻辑单元的内部结构可以与逻辑单元00相同，此处不再赘述。

如图7所示，图7为本申请实施例中一种连续内存空间的空间布局示意图。图7所示的连续内存空间700可以是一个Vault中存储器内一段连续的物理地址空间，在初始化过程中该物理地址空间被分配给该Vault中的NDP单元。如图7所述，该连续内存空间包括：.text区域、.data区域和.stack区域。其中，.text区域用于保存计算任务源码编译后的机器指令,对应前述实施例中的代码区块；.data区域用于保存数据，对应前述实施例中的数据区块；.stack区域为一块预留的栈空间。

下面将以图7中连续内存空间700为例描述初始化过程(即近数据计算任务的分发过程)。

首先，处理器可以根据系统的计算需求和负载情况，通过总线将计算任务动态地分发给各个Vault中的NDP单元，具体地：处理器可以通过运行一段初始化代码，一次性为各NDP单元分别分配一段连续的内存空间，然后向每个NDP单元对应的连续内存空间中写入相应的用于近数据计算的数据。

具体地，处理器向每个连续内存空间写入相应用于近数据计算数据的过程可以包括：计算逻辑分发和计算数据分发。以连续内存空间700为例，在进行计算逻辑分发时，处理器将编译后的二进制计算任务源码写入连续内存空间700中的.text区域，然后设置NDP core中的PC寄存器来存储相应的偏移地址。在进行计算数据分发时，处理器将相应数据写入连续内存空间700中的.data区域。应当注意，如果内存分配阶段选用的数据划分和数据分布的策略合理，处理器可能在处理其它计算任务时已经完成了计算数据的分发过程，在这种情况下，只需进行计算逻辑的分发。

在处理器对各NDP单元完成近数据计算任务的分发后，各NDP单元可以开始独立地启动计算。在图6所示的NDP单元进行计算过程中，SPM用于存储NDP单元运行所需的数据；MPU用于提供对存储器中数据的保护，即为连续内存空间中的不同区域分配不同的访问权限；DMA引擎用于实现存储器与SPM之间的数据搬移。

请参见图8，图8为本申请实施例中一种数据处理方法的流程示意图。该方法应用于数据存储装置，所述数据存储装置包括存储器和第一近数据计算NDP单元，所述第一NDP单元与所述存储器电连接，所述数据存储装置通过总线与处理器相连。所述方法包括：

步骤S810：通过所述第一NDP单元存储第一物理地址信息；其中，所述第一物理地址信息用于指向所述存储器中的第一地址空间，所述第一地址空间是第一NDP单元有权使用的一段连续内存空间。

步骤S820：由所述存储器在所述第一地址空间中存储来自所述处理器的用于进行近数据计算的第一数据。

步骤S830：由所述第一NDP单元基于获取的第一偏移地址和第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据；基于所述第一数据中的部分或全部数据执行计算。

在一种可行的实施方式中，所述第一物理地址信息包括第一边界地址和第一长度；所述基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：当所述第一偏移地址小于或等于所述第一长度时，由所述NDP Core基于所述第一偏移地址和所述第一边界地址，计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；由所述NDP Core从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。

本申请实施例提供了一种数据处理装置，包括处理器、上述实施例中的任意一种实施方式所提供的数据存储装置以及耦合于该数据存储装置的分立器件。该数据处理装置可以是前述图2、图3和图5中任一实施例中所述的数据处理装置。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被执行时，使得第一NDP单元212可以执行如上述方法实施例中记载的任意一种的部分或全部步骤，以完成上述计算过程。

本申请实施例提供了一种计算机程序，该计算机程序包括指令，当该计算机程序被处理器或第一NDP单元212执行时，使得第一NDP单元212可以执行上述方法实施例中记载的任意一种的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种数据存储装置，其特征在于，所述数据存储装置包括存储器和第一近数据计算NDP单元，所述第一NDP单元与所述存储器电连接，所述数据存储装置通过总线与处理器相连；其中，

所述第一NDP单元，用于存储第一物理地址信息；其中，所述第一物理地址信息用于指向所述存储器中的第一地址空间，所述第一地址空间是所述第一NDP单元有权使用的一段连续内存空间；

所述存储器，用于在所述第一地址空间中存储来自所述处理器的用于进行近数据计算的第一数据；

所述第一NDP单元，还用于基于获取的第一偏移地址和所述第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据；基于所述第一数据中的部分或全部数据执行计算。
根据权利要求1所述的装置，其特征在于，所述第一NDP单元包括第一寄存单元和近数据计算核心NDP core；所述第一NDP单元具体用于：

通过所述第一寄存单元存储所述第一物理地址信息；

通过所述NDP core从所述第一寄存单元获取所述第一物理地址信息，并基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据。
根据权利要求2所述的装置，其特征在于，所述第一物理地址信息包括第一边界地址和第一长度；所述NDP core具体用于：

当所述第一偏移地址小于或等于所述第一长度时，基于所述第一偏移地址和所述第一边界地址，计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；

从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求2所述的装置，其特征在于，所述第一物理地址信息包括第二边界地址和第三边界地址；所述NDP core具体用于：

基于所述第一偏移地址和所述第二边界地址计算得到第一访问地址，或者基于所述第一偏移地址和所述第三边界地址计算得到所述第一访问地址；其中，所述第二边界地址和所述第三边界地址分别为所述第一地址空间的起始物理地址和所述第一地址空间的终止物理地址；

当所述第一访问地址位于所述第二边界地址和所述第三边界地址之间时，从所述第一访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求1-4中任一项所述的装置，其特征在于，所述数据存储装置还包括第二NDP单元，所述第二NDP单元和所述存储器电连接；

所述第二NDP单元，用于存储第二物理地址信息；其中，所述第二物理地址信息用于指向所述存储器中的第二地址空间，所述第二地址空间是所述第二NDP单元有权使用的一段连续内存空间；

所述存储器，用于在所述第二地址空间中存储来自所述处理器的用于进行近数据计算的第二数据；

所述第一NDP单元，还用于基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；基于所述第二数据中的部分或全部数据执行计算。
根据权利要求5所述的装置，其特征在于，所述存储器还用于：

接收所述处理器的指令，所述指令指示所述存储器为所述第一NDP单元分配所述第一地址空间，以及指示所述存储器为所述第二NDP单元分配所述第二地址空间。
根据权利要求5或6所述的装置，其特征在于，所述第一NDP单元还包括第二寄存单元和缓存单元；在所述第一NDP单元还用于基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述第一NDP单元具体用于：

在所述缓存单元缓存有所述第二物理地址信息的情况下，通过所述NDP core从所述缓存单元中获取所述第二物理地址信息，并更新到所述第二寄存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；

或者，

在所述缓存单元未缓存所述第二物理地址信息的情况下，通过所述NDP core从所述第二NDP单元中获取所述第二物理地址信息，并更新到所述第二寄存单元和所述缓存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据。
根据权利要求7所述的装置，其特征在于，所述第二物理地址信息包括第四边界地址和第二长度；在所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述NDP core具体用于：

从所述第二寄存单元中读取所述第四边界地址和所述第二长度；其中，所述第四边界地址为所述第二地址空间的起始物理地址或所述第二地址空间的终止物理地址，所述第二长度为所述第二地址空间的长度；

当所述第二偏移地址小于或等于所述第二长度时，基于所述第二偏移地址和所述第四边界地址计算得到第二访问地址；

从所述第二地址空间中的所述第二访问地址中读取所述第二数据中的部分或全部数据。
根据权利要求7所述的装置，其特征在于，所述第二物理地址信息包括第五边界地址和第六边界地址；在所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，所述NDP core具体用于：

基于所述第二偏移地址和所述第五边界地址计算得到第二访问地址，或者基于所述第二偏移地址和所述第六边界地址计算得到所述第二访问地址；其中，所述第五边界地址和所述第六边界地址分别为所述第二地址空间的起始物理地址和所述第二地址空间的终止物理地址；

当所述第二访问地址位于所述第五边界地址和所述第六边界地址之间时，从所述第二访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求5-9中任一项所述的装置，其特征在于，所述第一寄存单元和所述第二寄存单元分别都包括至少一个寄存器。
根据权利要求1-10中任一项所述的装置，其特征在于，

所述第一NDP单元，还用于在完成所述近数据计算后，通过所述总线向所述处理器发送信号；所述信号用于指示所述第一NDP单元已完成近数据计算。
一种数据处理方法，其特征在于，应用于数据存储装置，所述数据存储装置包括存储器和第一近数据计算NDP单元，所述第一NDP单元和所述存储器电连接，所述数据存储装置通过总线与处理器相连；所述方法包括：

通过所述第一NDP单元存储第一物理地址信息；其中，所述第一物理地址信息用于指向所述存储器中的第一地址空间，所述第一地址空间是所述第一NDP单元有权使用的一段连续内存空间；

由所述存储器在所述第一地址空间中存储来自所述处理器的用于进行近数据计算的第一数据；

由所述第一NDP单元基于获取的第一偏移地址和第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据；基于所述第一数据中的部分或全部数据执行计算。
根据权利要求12所述的方法，其特征在于，所述第一NDP单元包括第一寄存单元和近数据计算核心NDP core；

所述通过所述第一NDP单元存储第一物理地址信息，包括：

通过所述第一寄存单元存储所述第一物理基址和所述第一长度；

所述由所述第一NDP单元基于获取的第一偏移地址和第一物理地址信息从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：

由所述NDP core从所述第一寄存单元获取所述第一物理地址信息，并基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据。
根据权利要求13所述的方法，其特征在于，所述第一物理地址信息包括第一边界地址和第一长度；所述基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：

当所述第一偏移地址小于或等于所述第一长度时，由所述NDP Core基于所述第一偏移地址和所述第一边界地址，计算得到第一访问地址；其中，所述第一边界地址为所述第一地址空间的起始物理地址或所述第一地址空间的终止物理地址，所述第一长度为所述第一地址空间的长度；

由所述NDP Core从所述第一地址空间中的所述第一访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求13所述的方法，其特征在于，所述第一物理地址信息包括第二边界地址和第三边界地址；所述基于所述第一物理地址信息和所述第一偏移地址从所述第一地址空间中读取所述第一数据中的部分或全部数据，包括：

由所述NDP Core基于所述第一偏移地址和所述第二边界地址计算得到第一访问地址，或者基于所述第一偏移地址和所述第三边界地址计算得到所述第一访问地址；其中，所述第二边界地址和所述第三边界地址分别为所述第一地址空间的起始物理地址和所述第一地址空间的终止物理地址；

当所述第一访问地址位于所述第二边界地址和所述第三边界地址之间时，由所述NDP Core从所述第一访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求12-15中任一项所述的方法，其特征在于，所述数据存储装置还包括第二NDP单元，所述第二NDP单元和所述存储器电连接；所述方法还包括：

通过所述第二NDP单元存储第二物理地址信息；其中，所述第二物理地址信息用于指向所述存储器中的第二地址空间，所述第二地址空间是所述第二NDP单元有权使用的一段连续内存空间；

由所述存储器在所述第二地址空间中存储来自所述处理器的用于进行近数据计算的第二数据；

由所述第一NDP单元基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；基于所述第二数据中的部分或全部数据执行计算。
根据权利要求16所述的方法，其特征在于，所述方法还包括：

由所述存储器接收所述处理器的指令，所述指令指示所述存储器为所述第一NDP单元分配所述第一地址空间，以及指示所述存储器为所述第二NDP单元分配所述第二地址空间。
根据权利要求16或17所述的方法，其特征在于，所述第一NDP单元还包括第二寄存单元和缓存单元；所述基于获取的第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据，包括：

在所述缓存单元缓存有所述第二物理地址信息的情况下，通过所述NDP core从所述缓存单元中获取所述第二物理地址信息，并更新到所述第二寄存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据；

或者，

在所述缓存单元未缓存所述第二物理地址信息的情况下，通过所述NDP core从所述第二NDP单元中获取所述第二物理地址信息，并更新到所述第二寄存单元和所述缓存单元中；通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据。
根据权利要求18所述的方法，其特征在于，所述第二物理地址信息包括第四边界地址和第二长度；所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据，包括：

通过所述NDP core从所述第二寄存单元中读取所述第四边界地址和所述第二长度；其中，所述第四边界地址为所述第二地址空间的起始物理地址或所述第二地址空间的终止物理地址，所述第二长度为所述第二地址空间的长度；

当所述第二偏移地址小于或等于所述第二长度时，由所述NDP core基于所述第二偏移地址和所述第四边界地址计算得到第二访问地址；

由所述NDP core从所述第二地址空间中的所述第二访问地址中读取所述第二数据中的部分或全部数据。
根据权利要求18中所述的方法，其特征在于，所述第二物理地址信息包括第五边界地址和第六边界地址；所述通过所述NDP core基于所述第二偏移地址和所述第二物理地址信息从所述第二地址空间中读取所述第二数据中的部分或全部数据的方面，包括：

由所述NDP core基于所述第二偏移地址和所述第五边界地址计算得到第二访问地址，或者基于所述第二偏移地址和所述第六边界地址计算得到所述第二访问地址；其中，所述第五边界地址和所述第六边界地址分别为所述第二地址空间的起始物理地址和所述第二地址空间的终止物理地址；

当所述第二访问地址位于所述第五边界地址和所述第六边界地址之间时，由所述NDP core从所述第二访问地址中读取所述第一数据中的部分或全部数据。
根据权利要求18-20中任一项所述的方法，其特征在于，所述第一寄存单元和所述第二寄存单元分别都包括至少一个寄存器。
根据权利要求12-21中任一项所述的方法，其特征在于，所述方法还包括：

在所述第一NDP单元完成所述近数据计算后，由所述第一NDP单元通过所述总线向所述处理器发送信号；所述信号用于指示所述第一NDP单元已完成近数据计算。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时，权利要求12-21中任意一项所述的数据处理方法得以实现。
一种计算机程序，其特征在于，该计算机程序包括指令，当所述计算机程序被执行时，权利要求12-21中任意一项所述的数据处理方法得以实现。