JP6834097B1 - 推論のニューラルネットワークアクセラレータのハードウェア固有分割 - Google Patents
推論のニューラルネットワークアクセラレータのハードウェア固有分割 Download PDFInfo
- Publication number
- JP6834097B1 JP6834097B1 JP2020086356A JP2020086356A JP6834097B1 JP 6834097 B1 JP6834097 B1 JP 6834097B1 JP 2020086356 A JP2020086356 A JP 2020086356A JP 2020086356 A JP2020086356 A JP 2020086356A JP 6834097 B1 JP6834097 B1 JP 6834097B1
- Authority
- JP
- Japan
- Prior art keywords
- hardware chip
- memory
- layer
- inference
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0207—Addressing or allocation; Relocation with multidimensional access, e.g. row/column, matrix
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Neurology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Debugging And Monitoring (AREA)
- Complex Calculations (AREA)
Abstract
Description
Claims (20)
- コンピュータに操作を実行させるためのコンピュータによって実行可能な命令を含むコンピュータプログラムであって、
計算グラフ及びハードウェアチップの構成を取得することであって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノード及び複数のエッジを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは、活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得することと、
複数の層の推論を複数のグループに分割することであって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、前記分割することと、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成することと
を備えるコンピュータプログラム。 - 前記推論を分割することは、
複数のグループ分割候補の各々に対して前記ハードウェアチップの少なくとも持続時間又はエネルギー消費の前記推定を決定するべく前記ハードウェアチップによる前記ニューラルネットワークの推論の実行をシミュレートすることと、
前記複数の層のうち同じ層の各グループ分割候補の少なくとも持続時間又はエネルギー消費の前記推定を比較することと
をさらに含み
各グループ分割候補は前記複数の層の一意な分割を特定する請求項1に記載のコンピュータプログラム。 - 前記複数のグループ分割候補の各々は、前記複数の層の均等な分割を特定する請求項2に記載のコンピュータプログラム。
- 前記推論を分割することは、
前記複数のグループ分割候補は、第1のグループ分割候補として単一層を特定し、第2のグループ分割候補として層の前のグループを特定し、かつ、第3のグループ分割候補として層の前記前のグループとともに前記単一層を特定することをさらに含み、
前記比較することは、(i)前記第3のグループ分割候補の前記数学的操作を実行する少なくとも持続時間又はエネルギー消費の推定と、(ii)前記第1のグループ分割候補及び前記第2のグループ分割候補の前記数学的操作を実行する総持続時間及び総エネルギー消費の推定と、を比較することを含む
請求項2に記載のコンピュータプログラム。 - 前記シミュレートすることは、
前記ハードウェアチップが各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行するための命令を生成することと、
各クロックサイクルの操作を特定しつつ前記ハードウェアチップのシミュレーション上で前記命令を実行することと
を含み、
前記ハードウェアチップのエネルギー消費の前記推定は、各操作に関連付けられた個別のエネルギー消費の和に基づき、持続時間の前記推定は、クロックサイクルの数に基づいている請求項2から4のいずれか1項に記載のコンピュータプログラム。 - 複数の次元仕様候補の各々に対して前記ハードウェアチップの少なくとも持続時間又はエネルギー消費の前記推定を決定するべく、前記ハードウェアチップによる前記ニューラルネットワークの推論の実行をシミュレートすることと、
各次元仕様候補の少なくとも持続時間又はエネルギー消費の前記推定を比較することとによって、各層の前記部分の次元を決定することをさらに備え、
各次元仕様候補は前記オンチップメモリの容量及び前記ハードウェアチップの並列度に基づいている請求項1から5のいずれか1項に記載のコンピュータプログラム。 - 前記ニューラルネットワークは畳み込みニューラルネットワークであり、各層の前記部分はタイルであり、
前記ハードウェアチップの前記少なくとも一つのモジュールは少なくとも一つの畳み込みモジュールを含む
請求項1から6のいずれか1項に記載のコンピュータプログラム。 - 前記少なくとも一つの畳み込みモジュールは、少なくとも一つの専用のDW(depth−wise)畳み込みモジュール及び少なくとも一つのPW(point−wise)畳み込みモジュールを含む請求項7に記載のコンピュータプログラム。
- 前記少なくとも一つのモジュールは、活性化操作を実行するための少なくとも一つのモジュールと、前記活性化データを前記外部メモリから前記オンチップメモリ上に読み込むための少なくとも一つのモジュールと、活性化データを前記オンチップメモリから前記外部メモリへ格納するための少なくとも一つのモジュールと、前記畳み込みニューラルネットワークの重み付けを前記外部メモリから前記オンチップメモリへ読み込むための少なくとも一つのモジュールとをさらに含む請求項7又は8に記載のコンピュータプログラム。
- 前記ハードウェアチップに対する命令を生成することは、前記ハードウェアチップが、
前記外部メモリから各グループの最初の層の対応する部分の活性化データを取得し、
各グループの最後の層の対応する部分の前記数学的操作から得られた活性化データを外部メモリに記録する
ための命令を生成することをさらに含む請求項1から9のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップに対して命令を生成することは、
複数のキューのうちのキューに各操作を割り当てること、及び
各キューの操作の実行を順序付けること
をさらに含む請求項1から10のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップに対して命令を生成することは、
前記ニューラルネットワークの推論の実行のためのデータに前記オンチップメモリの位置を割り振ること、及び、
前記ニューラルネットワークの推論を実行するために前記外部メモリへデータの退避をスケジューリングすること
をさらに含む請求項1から11のいずれか1項に記載のコンピュータプログラム。 - 前記命令を生成することは、前記ハードウェアチップの前記少なくとも一つのモジュールがデータを前記外部メモリから前記割り振られた位置への読み込みを実行するための命令を生成することを含む請求項12に記載のコンピュータプログラム。
- 前記ハードウェアチップに対して命令を生成することは、従属性のある操作の相互の順序を保持するために注釈を付した同期フラグをさらに含む請求項1から13のいずれか1項に記載のコンピュータプログラム。
- 前記ハードウェアチップに対する命令を生成することは、命令を2進表現に変換することをさらに含む 請求項1から14のいずれか1項に記載のコンピュータプログラム。
- 前記ハードウェアチップは、複数のコア、前記数学的操作を実行するための前記少なくとも一つのモジュール及び前記複数のコア間に分配された前記オンチップメモリをさらに含み、
各コアは、コア間通信のため構成された少なくとも一つの送信機ブロック及び少なくとも一つの受信機ブロックを含み、
前記ハードウェアチップに対して命令を生成することは、前記コアに命令を分配することをさらに含む請求項1から15のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップは、マルチチップ構成の前記ハードウェアチップの第2のインスタンスと通信するよう構成された少なくとも一つの送信機ブロック及び少なくとも一つの受信機ブロックをさらに含む請求項1から16のいずれか1項に記載のコンピュータプログラム。
- コンピュータ実装される方法であって、
計算グラフ及びハードウェアチップの構成を取得することであって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノードと複数のエッジとを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得することと、
前記複数の層の推論を複数のグループに分割することであって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、前記分割することと、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成することと
を備える方法。 - 計算グラフ及びハードウェアチップの構成を取得するよう構成された取得部であって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノードと複数のエッジとを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得部と、
複数の層の推論を複数のグループに分割するよう構成された分割部であって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、分割部と、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成するよう構成された生成部と
を備える装置。 - 活性化データメモリと、
活性化データを外部メモリから前記活性化データメモリ上へ読み込むよう構成されたデータ読み込みモジュールと、
前記活性化データメモリからの活性化データを前記外部メモリ上に格納するよう構成されたデータ格納モジュールと、
重み付けメモリと、
重み値を外部メモリから前記重み付けメモリに読み込むよう構成された重み付け読み込みモジュールと、
蓄積メモリと、
前記活性化データメモリに格納された前記活性化データ及び前記重み付けメモリに格納された前記重み値に数学的操作を実行し、前記数学的操作から得られた値を前記蓄積メモリに格納するよう構成された複数の畳み込みモジュールと、
前記蓄積メモリに格納された前記値に活性化操作を実行し、得られた活性化データを前記活性化データメモリに格納するよう構成された複数の活性化モジュールと、
畳み込みニューラルネットワークの推論を実行すべく、前記外部メモリから、前記データ読み込みモジュール、前記データ格納モジュール、前記重み付け読み込みモジュール、前記複数の畳み込みモジュール及び前記複数の活性化モジュールへ命令を与えかつ同期させるよう構成された命令モジュールと
を備える装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020086356A JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
| US17/186,003 US11176449B1 (en) | 2020-05-15 | 2021-02-26 | Neural network accelerator hardware-specific division of inference into groups of layers |
| US17/492,681 US20220027716A1 (en) | 2020-05-15 | 2021-10-04 | Neural network accelerator |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020086356A JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP6834097B1 true JP6834097B1 (ja) | 2021-02-24 |
| JP2021179937A JP2021179937A (ja) | 2021-11-18 |
Family
ID=74665138
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020086356A Active JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
Country Status (2)
| Country | Link |
|---|---|
| US (2) | US11176449B1 (ja) |
| JP (1) | JP6834097B1 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
| CN115706703A (zh) * | 2021-08-13 | 2023-02-17 | 中移系统集成有限公司 | 边缘ai加速处理方法和装置、电子设备及可读存储介质 |
| EP4310731A4 (en) * | 2021-07-27 | 2024-09-11 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND METHOD FOR CONTROLLING ELECTRONIC DEVICE |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220019873A1 (en) * | 2020-07-20 | 2022-01-20 | Qualcomm Incorporated | Elastic bottleneck architectures for variable convolution operations |
| KR20220032861A (ko) * | 2020-09-08 | 2022-03-15 | 삼성전자주식회사 | 하드웨어에서의 성능을 고려한 뉴럴 아키텍처 서치 방법 빛 장치 |
| KR102911789B1 (ko) * | 2020-10-08 | 2026-01-14 | 삼성전자주식회사 | 뉴럴 네트워크 연산 방법 및 장치 |
| KR20220169085A (ko) * | 2021-06-18 | 2022-12-27 | 에스케이하이닉스 주식회사 | 강화 학습 장치 및 그 동작 방법 |
| CN114819084B (zh) * | 2022-04-26 | 2024-03-01 | 北京百度网讯科技有限公司 | 模型推理方法、装置、设备及存储介质 |
| GB2620113B (en) * | 2022-06-21 | 2024-09-18 | Imagination Tech Ltd | Mapping neural networks to hardware |
| CN117195982B (zh) * | 2023-01-09 | 2025-12-30 | 南京大学 | 基于存储访问的可编程神经网络推理加速器及方法 |
| WO2025089712A1 (ko) * | 2023-10-27 | 2025-05-01 | 세종대학교산학협력단 | 인공지능 가속 하드웨어 장치 및 그 동작 방법 |
| KR102749654B1 (ko) * | 2023-10-27 | 2025-01-03 | 세종대학교산학협력단 | 노이즈 제거를 위한 실시간 인공지능 가속 하드웨어 장치 및 그 동작 방법 |
| KR102749655B1 (ko) * | 2023-10-27 | 2025-01-03 | 세종대학교산학협력단 | 메모리 참조에 효과적인 실시간 인공지능 가속 하드웨어 장치 및 그 동작 방법 |
| CN118690699B (zh) * | 2024-08-23 | 2024-11-05 | 北京开源芯片研究院 | 电路设计的测试方法、装置、设备及存储介质 |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8423720B2 (en) * | 2007-05-10 | 2013-04-16 | International Business Machines Corporation | Computer system, method, cache controller and computer program for caching I/O requests |
| US7818273B2 (en) * | 2007-09-18 | 2010-10-19 | International Business Machines Corporation | System and method for cortical simulation |
| US9747546B2 (en) | 2015-05-21 | 2017-08-29 | Google Inc. | Neural network processor |
| US10387770B2 (en) * | 2015-06-10 | 2019-08-20 | Samsung Electronics Co., Ltd. | Spiking neural network with reduced memory access and reduced in-network bandwidth consumption |
| US10860925B2 (en) * | 2015-10-28 | 2020-12-08 | Google Llc | Processing computational graphs |
| JP2017102790A (ja) * | 2015-12-03 | 2017-06-08 | 富士通株式会社 | 情報処理装置、演算処理装置および情報処理装置の制御方法 |
| US10733350B1 (en) * | 2015-12-30 | 2020-08-04 | Sharat C Prasad | On-chip and system-area multi-processor interconnection networks in advanced processes for maximizing performance minimizing cost and energy |
| US10083347B2 (en) * | 2016-07-29 | 2018-09-25 | NTech lab LLC | Face identification using artificial neural network |
| US11157814B2 (en) * | 2016-11-15 | 2021-10-26 | Google Llc | Efficient convolutional neural networks and techniques to reduce associated computational costs |
| CN106557332A (zh) * | 2016-11-30 | 2017-04-05 | 上海寒武纪信息科技有限公司 | 一种指令生成过程的复用方法及装置 |
| US10019668B1 (en) | 2017-05-19 | 2018-07-10 | Google Llc | Scheduling neural network processing |
| EP3673458B1 (en) * | 2017-08-25 | 2024-11-06 | The Board of Trustees of the University of Illinois | Apparatus and method for agricultural data collection and agricultural operations |
| US12282838B2 (en) * | 2018-05-04 | 2025-04-22 | Apple Inc. | Systems and methods for assigning tasks in a neural network processor |
| US11093225B2 (en) * | 2018-06-28 | 2021-08-17 | Xilinx, Inc. | High parallelism computing system and instruction scheduling method thereof |
| US10846201B1 (en) * | 2018-09-21 | 2020-11-24 | Amazon Technologies, Inc. | Performance debug for networks |
| US11526759B2 (en) * | 2018-11-05 | 2022-12-13 | International Business Machines Corporation | Large model support in deep learning |
| CN110889497B (zh) * | 2018-12-29 | 2021-04-23 | 中科寒武纪科技股份有限公司 | 一种人工智能处理器的学习任务编译方法及相关产品 |
| US11488011B2 (en) * | 2019-03-13 | 2022-11-01 | United States Of America As Represented By The Secretary Of The Navy | Scalable extensible neural network system and methods |
| US11526736B2 (en) * | 2019-08-15 | 2022-12-13 | Intel Corporation | Methods, systems, articles of manufacture and apparatus to map workloads |
| CN112465129B (zh) * | 2019-09-09 | 2024-01-09 | 上海登临科技有限公司 | 片内异构人工智能处理器 |
| US11562205B2 (en) * | 2019-09-19 | 2023-01-24 | Qualcomm Incorporated | Parallel processing of a convolutional layer of a neural network with compute-in-memory array |
| US11561767B2 (en) * | 2019-09-25 | 2023-01-24 | Arm Limited | Mixed-precision computation unit |
| GB2589383B (en) * | 2019-11-29 | 2023-04-05 | Imagination Tech Ltd | Hardware implementation of a neural network |
| US11544191B2 (en) * | 2020-03-26 | 2023-01-03 | Intel Corporation | Efficient hardware architecture for accelerating grouped convolutions |
| CN111583940A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 极低功耗关键词唤醒神经网络电路 |
| US20210334072A1 (en) * | 2020-04-22 | 2021-10-28 | Facebook, Inc. | Mapping convolution to connected processing elements using distributed pipelined separable convolution operations |
-
2020
- 2020-05-15 JP JP2020086356A patent/JP6834097B1/ja active Active
-
2021
- 2021-02-26 US US17/186,003 patent/US11176449B1/en active Active
- 2021-10-04 US US17/492,681 patent/US20220027716A1/en active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
| CN112926733B (zh) * | 2021-03-10 | 2022-09-16 | 之江实验室 | 一种语音关键词检测专用芯片 |
| EP4310731A4 (en) * | 2021-07-27 | 2024-09-11 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND METHOD FOR CONTROLLING ELECTRONIC DEVICE |
| US12217092B2 (en) | 2021-07-27 | 2025-02-04 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
| CN115706703A (zh) * | 2021-08-13 | 2023-02-17 | 中移系统集成有限公司 | 边缘ai加速处理方法和装置、电子设备及可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20210357732A1 (en) | 2021-11-18 |
| US11176449B1 (en) | 2021-11-16 |
| US20220027716A1 (en) | 2022-01-27 |
| JP2021179937A (ja) | 2021-11-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6834097B1 (ja) | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 | |
| JP7029554B2 (ja) | 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
| CN114008586B (zh) | 使用处理元件阵列的转置运算 | |
| CN110619595B (zh) | 一种基于多fpga加速器互联的图计算优化方法 | |
| US12306752B2 (en) | Processor cluster address generation | |
| Biookaghazadeh et al. | Toward multi-fpga acceleration of the neural networks | |
| Singh et al. | Accelerating throughput-aware runtime mapping for heterogeneous MPSoCs | |
| JP2020537789A (ja) | 超並列ソフトウェア定義ハードウェアシステムにおける静的ブロックスケジューリング | |
| US20190057060A1 (en) | Reconfigurable fabric data routing | |
| US20190138373A1 (en) | Multithreaded data flow processing within a reconfigurable fabric | |
| Singh et al. | Resource and throughput aware execution trace analysis for efficient run-time mapping on MPSoCs | |
| US11880426B2 (en) | Integer matrix multiplication engine using pipelining | |
| US20200167309A1 (en) | Reconfigurable fabric configuration using spatial and temporal routing | |
| Isshiki et al. | Bit-serial pipeline synthesis for multi-FPGA systems with C++ design capture | |
| CN103870335B (zh) | 用于信号流编程的数字信号处理器代码的高效资源管理的系统和方法 | |
| CN118036776A (zh) | 一种模型训练方法及相关装置 | |
| Sun et al. | Cognn: efficient scheduling for concurrent gnn training on gpus | |
| CN110222410B (zh) | 一种基于Hadoop MapReduce的电磁环境仿真方法 | |
| Lin et al. | Hitgnn: High-throughput gnn training framework on cpu+ multi-fpga heterogeneous platform | |
| CN119783812A (zh) | 面向新一代异构超算大模型并行训练与推理适配优化方法 | |
| Gurumani et al. | High-level synthesis of multiple dependent CUDA kernels on FPGA | |
| CN101833439A (zh) | 基于分合思想的并行计算硬件结构 | |
| WO2020112992A1 (en) | Reconfigurable fabric configuration using spatial and temporal routing | |
| CN109213587A (zh) | GPU平台下的多Stream并行DAG图任务映射策略 | |
| CN120996207A (zh) | 混合专家模型的异步并行推理方法、系统、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200618 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201015 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201020 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210108 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6834097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |