ES3040478T3 - Apparatus and method for efficient parallel computation - Google Patents
Apparatus and method for efficient parallel computationInfo
- Publication number
- ES3040478T3 ES3040478T3 ES19723431T ES19723431T ES3040478T3 ES 3040478 T3 ES3040478 T3 ES 3040478T3 ES 19723431 T ES19723431 T ES 19723431T ES 19723431 T ES19723431 T ES 19723431T ES 3040478 T3 ES3040478 T3 ES 3040478T3
- Authority
- ES
- Spain
- Prior art keywords
- processing
- processing elements
- unit
- rate
- computer unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/329—Power saving characterised by the action undertaken by task scheduling
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3296—Power saving characterised by the action undertaken by lowering the supply or operating voltage
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
- G06F9/4893—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Power Sources (AREA)
- Multi Processors (AREA)
- Advance Control (AREA)
- Image Generation (AREA)
- Image Processing (AREA)
Abstract
La presente invención proporciona una unidad de cómputo para operar en un sistema de cómputo paralelo. Dicha unidad comprende una pluralidad de elementos de procesamiento y una interfaz para conectarla con otros componentes del sistema. Cada elemento de procesamiento tiene una tasa de procesamiento máxima nominal NPR e incluye una unidad de memoria respectiva que permite la transferencia de datos a una tasa máxima predeterminada MBW. La interfaz proporciona una tasa máxima de transferencia de datos CBW. Para lograr un rendimiento de cálculo máximo predeterminado PP para la unidad de cómputo, obtenible mediante n elementos de procesamiento que operan a la tasa máxima nominal, de modo que PP = n × NPR operaciones por segundo, la unidad incluye un múltiplo entero f × n de elementos de procesamiento, donde f es mayor que uno, y cada elemento está limitado a operar a una tasa de procesamiento de NPR/f. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Aparato y procedimiento de cálculo paralelo eficaz
La presente invención se refiere al campo de los sistemas de procesamiento paralelos y, en particular, al de los sistemas de procesamiento paralelos que ofrecen una eficacia mejorada en términos de rendimiento / consumo de energía.
En un sistema de procesamiento paralelo típico, múltiples nodos de cálculo, cada uno de los cuales comprende uno o más elementos de procesamiento, están conectados por una red de alta velocidad. Cada uno de los elementos de procesamiento de nodo de cálculo incorpora una memoria interna. Los elementos de procesamiento están conectados con su nodo de cálculo. Esta conectividad de los nodos de cálculo podría ejecutarse con la tecnología de la red de alta velocidad, con una red de alta velocidad de nodos de cálculo separada o con una memoria conjunta (como por ejemplo, en sistemas de Multiprocesamiento Simétrico, SMP). Dicha disposición se ilustra en la Fig. 1.
La Fig. 1 muestra una disposición de múltiples nodos de cálculo, CN, incluyendo cada nodo de cálculo una pluralidad de elementos de procesamiento PE, cada uno de los cuales presenta una respectiva memoria, MEM. Los nodos de cálculo están conectados entre sí por medio de una red de alta velocidad HSN, incluyendo cada nodo de cálculo una interfaz de nodo de red, NIC, para su conexión con la red de alta velocidad. Los elementos de procesamiento individuales están conectados entre sí y también se conectan con el controlador de interfaz de red.
Un elemento de procesamiento presenta un rendimiento de pico, PP, que es el límite superior del número de (punto flotante) operaciones que el elemento de procesamiento puede ejecutar por segundo, medido como operaciones de punto flotante por segundo o, abreviado, “flops” (mientras que en las operaciones de punto flotante pueden ser igualmente operaciones con números enteros). El rendimiento de pico de un nodo de cálculo, PPCN, es la suma de los rendimientos de pico de sus elementos de procesamiento. Una aplicación determinada A, en general, puede desarrollar únicamente una fracciónqAdel rendimiento de pico, denominándose 0 <qA< 1, siendoqla eficacia sostenida. La razón de ello es que la tasa de transferencia de datos, esto es, el ancho de banda de memoria (MBW) entre la memoria del elemento de procesamiento con respecto a sus registros de cálculo, es finita y, de esta manera, reducirá la explotación del rendimiento de pico aqApara una aplicación determinada. Un argumento similar puede aplicarse para la tasa de transferencia de datos de entrada / salida, esto es, al ancho de banda de comunicación (CBW) de un elemento de procesamiento con respecto a otro nodo de eliminación de cálculo de elementos de procesamiento, reduciendo con ello potencialmente la explotación del rendimiento de pico.
Por regla general, los ejecutantes de cálculos de alto rendimiento consideran una relaciónR= MBW / PP de 1 byte / operaciones de punto flotante, como un requisito necesario para conseguir queqsea próximo a 1 para una mayoría de aplicaciones intensivas de datos. Dependiendo de la tasa de transmisión de datos requerida para que una aplicación determinada A agote el rendimiento de pico, el ancho de banda de memoria efectivo del elemento de procesamiento determina elqAque pueda conseguirse respecto de la aplicación A.
Las actuales CPUs de gama alta adolecen de unaRtan baja como de 0,05 a 0,1 byte / “flop”, un número que fue continuamente disminuyendo en la última década junto con el incremento del número de núcleos de cálculo de un elemento de procesamiento creciente. Los actuales GPUs de alta gama consiguen unaRpor debajo de un 0,15 byte / “flop” únicamente, principalmente diseñadas para satisfacer las exigencias de transmisión de datos de aplicaciones gráficas y, justo recientemente, aplicaciones de aprendizaje profundo. Como consecuencia negativa, la mayoría de las aplicaciones intensivas de datos conseguirán unqApor debajo de un 5 a un 10% sobre las CPUs actuales y de alrededor de un 15% a priori sobre las GPUs actuales, con independencia de cualquier reducción ulterior mediante el algoritmo ejecutado o el paralelismo en términos de los elementos de procesamiento requeridos. Cuanto más intensivas sean las aplicaciones de datos, menor será la eficacia deqApara unaRdeterminada del elemento de procesamiento.
El problema ha sido identificado por otros analistas como se describe, por ejemplo, en un artículo de Al Wegner publicado en Electronic Design en 2011 con el título “El Muro de Memoria está Terminando con el Escalamiento Multinúcleo”, disponible en http://www.electronicdesign.com/analog/memory-wall-ending-multicore-scaling.
Una consideración similar puede efectuarse con respecto al ancho de banda de comunicación de un elemento de procesamiento determinado que describa la tasa de transferencia de datos con respecto a otro nodo de cálculo en línea y de nodos de cálculo fuera de línea de elementos de procesamiento. Aquí es importante el impacto del ancho de banda de comunicación acerca de la escabilidad del código.
Por lo que respecta al ancho de banda de comunicaciones del nodo de cálculo en línea, se pueden distinguir tres casos, nodos de cálculo, en los que los elementos de procesamiento están conectados por medio de la red de alta velocidad, nodos de cálculo en los que los elementos de procesamiento están conectados por medio de una red separada sobre el nodo de cálculo que está también conectado a la red de alta velocidad, y nodos de cálculo que intercambian datos de nodos de cálculo en línea mediante una memoria conjunta.
Con respecto al nodo de comunicación de cálculo fuera de línea, los profesionales informáticos de alto rendimiento consideran una relaciónr= CBW / MBW > 0,1 a 0,2 como apropiado para conseguir la escabilidad de una multitud de aplicaciones. Es evidente que cuanto más próximo sea el ancho de banda de comunicación con respecto al ancho de banda de memoria, mejores serán las condiciones de la escabilidad.
El ancho de banda de comunicación teóricamente posible se determina por el número de vías de datos seriales disponibles a partir del elemento de procesamiento sobre la red de alta velocidad (esto se aplica tanto para las CPUs como para las GPUs). Este número está limitado por la aplicación de los serializador - deserializador que está limitado por la tecnología de chips actual.
Es importante que el controlador de interfaz de red, NIC, del nodo de cálculo esté dimensionado adecuadamente para sostener el flujo de datos desde y hacia los elementos de procesamiento del nodo de cálculo.
El documento US 2005/0166073 A1 describe el uso de una frecuencia operativa variable de unos procesadores de sistema con el fin de maximizar un ancho de banda de memoria del sistema.
El documento US 2011/0167229 A1 describe un sistema de cálculo que comprende múltiples dispositivos de cálculo cada uno conectado a un dispositivo de almacenamiento, como por ejemplo, un disco duro, por oposición a una memoria. El objetivo del sistema es poner en correspondencia una tasa de transmisión de datos de los datos de recuperación almacenados y una velocidad de procesamiento. La propuesta de este documento consiste en utilizar las unidades de almacenamiento con una tasa de transferencia de datos superior, esto es, una unidad en estado sólido en lugar o además de una unidad de disco duro, combinadas con unos procesadores específicos de baja potencia que operen con una frecuencia de reloj inferior.
El documento US 2015/0095620 A1 describe una técnica para estimar la escabilidad de una carga de trabajo de un sistema de cálculo. El sistema presenta un procesador único multinúcleo.
La presente invención proporcionar una unidad informática para el cálculo de un sistema informático paralelo, comprendiendo la unidad informática una pluralidad de elementos de procesamiento y una interfaz para conectar la unidad informática con otros componentes del sistema informático, en la que cada elemento de procesamiento presenta una tasa de procesamiento máxima nominal, NPR y cada elemento de procesamiento incluye una respectiva unidad de memoria de acceso aleatorio, de manera que los datos puedan ser transferidos desde la unidad de memoria a una tasa de transferencia de datos máxima predeterminada, MBW, y la interfaz proporciona una tasa de transferencia de datos máxima, CBW, con la que, con el fin de determinar un rendimiento de cálculo de pico predeterminado para la unidad informática, PP, obtenible por un númeronde elementos de procesamiento que operan a la tasa de procesamiento máxima nominal, de manera que PP =nx NPR operaciones por segundo, la unidad informática incluye un múltiplo enterofmultiplicado por n elementos de procesamiento, en la quefes superior a 1 y cada elemento de procesamiento está limitado para operar a una tasa de procesamiento de n Pr /f.
En otro aspecto, la invención proporciona un procedimiento de operación de una unidad informática que comprende un procesador multinúcleo y una pluralidad de unidades de procesamiento gráficas, GPUs, presentando cada GPU un rendimiento de pico nominal de PPG operaciones por segundo, comprendiendo el procedimiento la operación de las GPUs con una fracción de 1 /fde su tasa de rendimiento de pico nominal, en la que la unidad informática proporciona un rendimiento de cálculo de pico predeterminado de PP operaciones por segundo, y la unidad informática presenta unas GPUsnmultiplicado porf,de manera que PP es igual a PPG multiplicado por n.
La presente invención se refiere al hecho de que una reducción de la frecuencia de relojvde un elemento de procesamiento mediante un factorfpuede reducir el consumo de energía del elemento de procesamiento mediante un factorfo superior. Este proceso se denomina reducción de frecuencia o de “subreloj”.
La siguiente fórmula aproximada se refiere al consumo de energía de un dispositivo de un elemento de procesamiento,P k C V 2v,siendo C la capacitancia, V, el voltaje yPel consumo de energía. Esto significa quePaumenta de manera lineal convy cuadráticamente conV.
De acuerdo con la frecuencia de reloj de las GPUs, a modo de ejemplo, en los últimos años, se ha publicado un gran número de artículos sobre el modelado de potencia, los cuales, entre otras cosas, persiguen asignar el consumo de energía a partes individuales del elemento de procesamiento. Con las últimas GPUs de NVIDIA, se puede cambiar la frecuencia de los multiprocesadores de flujo (SMs). Esto se diseña cada vez más de forma dinámica y se controla de manera autónoma por el hardware, con el fin de aprovechar al máximo la energía disponible. Según lo que dice la literatura, el subsistema de memoria no puede ser modificado y es autónomamente controlado por reloj en la generación actual. Esto hace posible aplicaciones cuyo rendimiento esté limitado por el ancho de banda de memoria para mejorar el equilibrio energético mediante la reducción en parte de la frecuencia de los SMs. De este modo, se puede esperar un efecto de aproximadamente un 10%.
El rendimiento de una máquina con frecuencia reducida (“underclocked”) es a menudo mejor del esperado. Con el uso de un ordenador normal de escritorio, raramente se requiere un rendimiento completo de los elementos de procesamiento. Incluso cuando el sistema está ocupado, se invierte generalmente mucho tiempo a la espera de los datos procedentes de la memoria u otros dispositivos.
Este hecho permite, en principio, la sustitución de un elemento de procesamiento montado sobre un nodo de cálculo, que opere a la frecuencia v, mediante un número defelementos de procesamiento que operen a la frecuenciav / f,sin modificar la capacidad de cálculo acumulada, PPCN, del nodo de cálculo. Así mismo, el consumo de energía del nodo de cálculo se mantiene o potencialmente se reduce. En la práctica, se elegiríaf= 2 of= 3.
Un aspecto clave de la invención es que, para los elementos de procesamiento como las modernas CPUs y GPUs, la frecuencia de cálculofpuede reducirse sin, al mismo tiempo, reducir el ancho de banda de memoria del elemento de procesamiento. Como consecuencia de ello, la relaciónRse incrementa por un factorfcon arreglo a esta modificación. Debe subrayarse que no es posible incrementar la frecuencia operativa de los núcleos de cálculo sin adaptar la velocidad de la memoria.
En segundo lugar, el incremento de los elementos de procesamiento de un nodo de cálculo por un factorfincrementa el número total de vías de datos seriales disponibles respecto del nodo de cálculo por un factorf. Por tanto, la relaciónrpara el nodo de las operaciones de entrada / salida fuera de cálculo se mejora también mediante un factorf.
Estas mejoras incrementan la concurrencia por nodo de cálculo por un factorf.Esto requiere la sintonización de los enfoques algorítmicos para las diversas aplicaciones altamente escalables, pero este principio no plantea problemas.
Aunque el consumo de energía se espera que permanezca constante, el incremento del número de los elementos de procesamiento podría incrementar, a primera vista, los costes de inversión. Sin embargo, un gran monto de estos costes se debería a la memoria, los cuales podrían reducirse respecto de cada elemento de procesamiento por un factor def,manteniendo constante al tiempo el monto total de memoria por constante por nodo de cálculo. Además, la utilización de elementos de procesamiento de alta gama a una menor frecuencia podría permitir la explotación del sector a un coste mucho menor del que podría operar a una frecuencia de pico.
Como segunda medida, una reducción del voltaje operativo,V,del elemento de procesamiento puede llevarse a cabo para conseguir una reducción adicional del consumo de energía. La dependencia respecto del voltaje puede ser drástica en cuanto que el consumo de energía aumentaría de manera proporcional con el voltaje. Esta “reducción de voltaje” se puede utilizar también para la reducción de frecuencia o de “subreloj” o separadamente y constituiría otro elemento de la estrategia de la presente invención para mejora el consumo de energía de la sección de cálculo del elemento de procesamiento.
La presente invención proporciona un aparato que incrementa la eficacia de los sistemas de procesamiento paralelos en términos de rendimiento y de consumo de energía. Se introducen modificaciones técnicas que reducen la frecuencia operativa de los elementos de procesamiento e incrementan en consecuencia los elementos de procesamiento para conseguir el mismo rendimiento de tipo del entero sistema con un rendimiento de aplicación incrementada. Estas modificaciones afectan a dos parámetros del sistema que afectan a la eficacia global; la memoria que registra el ancho de banda de datos divididos por el rendimiento de pico de los nodos de procesamiento, y el ancho de banda de los nodos de procesamiento dentro de la red de alta velocidad del sistema paralelo dividido por el rendimiento de pico de los nodos de procesamiento. Esto permite que se incremente el paralelismo de los nodos con un consumo de energía del nodo constante o incluso menor. De esta manera, el sistema puede ser ajustado para obtener un óptimo en el rendimiento de la aplicación. Este óptimo puede ser seleccionado respecto de cualquier medida deseada, por ejemplo, el rendimiento medio de la aplicación de un determinado portafolio de aplicación o de un rendimiento óptimo para una determinada aplicación. Los costes de inversión globales también se espera que permanezcan iguales, en cuanto los elementos de procesamiento utilizados actuarán a una frecuencia operativa inferior de los núcleos de cálculo de sus unidades de procesamiento al tiempo que se mantiene el rendimiento de la memoria y de las entradas / salidas.
La invención presente permite elegir el factorfel cual determina la reducción de la frecuencia del elemento de procesamiento y del correspondiente incremento del número de elementos de procesamiento sobre un nodo de cálculo, de acuerdo con los criterios seleccionados que se deseen, por ejemplo, con respecto a la potencia máxima media para un determinado portafolio de aplicaciones o respecto de la potencia máxima para una determinada aplicación. De hecho, ambas aplicaciones pueden ser aplicadas de forma independiente, dependiendo de la influencia de los parámetros críticos del sistema, como por ejemplo, el consumo de energía y los costes de inversión, así como del rendimiento óptimo, en especial con respecto a la interacción de la arquitectura y la aplicación relacionada con la escabilidad.
A continuación se describirán formas de realización preferentes de la invención, únicamente a modo de ejemplo, con referencia a los dibujos que se acompañan, en los que:
La Fig. 1 es un diagrama esquemático simplificado de un sistema de procesamiento paralelo convencional;
la Fig. 2 es un diagrama esquemático de un nodo de cálculo que incluye dos unidades de procesamiento gráficas, GPUs y una tasa de rendimiento de pico máximo de 25 teraflops; y
la Fig. 3 es un diagrama esquemático de un nodo de cálculo que incluye dos veces tantas unidades de procesamiento gráficas como las de la disposición de la Fig. 2, pero con la misma tasa de rendimiento de pico.
La presente invención puede llevarse a cabo con la tecnología existente hoy en día. Para exponer un ejemplo, este podría consistir en un procedimiento para acelerar los rendimientos de aplicación de un módulo intensificador dentro de un sistema superinformático modular que tenga como objetivo un rendimiento de escala de pico por 2021 según se describe en el documento WO 2012/0049247 A1 y aplicaciones posteriores WO 2018/065530 A1 y WO 2019/145 354 A1.
El objetivo de la invención es el de mejorar el rendimiento de las aplicaciones de los nodos en su ciclo de cálculo para los cálculos intensivos de datos en comparación con cualquier otro diseño arquitectónico diseñada por el factorf,y, además, el de incrementar el ancho de banda de comunicación con el fin de concordar con el ancho de banda de memoria para un mejor cambio de escala de muchas aplicaciones con un nodo de cálculo fuera de su ciclo con exigencias de comunicación considerables
Una realización se proporciona mediante un conjunto de nodos de cálculo que utilizan el sistema multinúcleo Mellanox BlueField (BF) sobre una tecnología de chips. Una tarjeta BlueField puede comprender múltiples unidades de procesadores gráficos, GPUs, un conmutador PCle 4 gen y una o más tasas elevadas de transferencia de datos, HDR, conmutadores. Cada tarjeta BlueField puede estar equipada con hasta 4 GPUs. Las tarjetas BF comprenden dos adaptadores de canal anfitrión Mellanox, HCAs, cada uno, así hasta poder conseguir un rendimiento de dos veces HDR de nodo de cálculo fuera del ciclo.
La GPU AMD Radeon Vega 20 se considera como un ejemplo concreto del elemento de procesamiento, esperado para la media de administración general de 2018. La GPU Vega - 20 puede estar conectada a la interfaz de PCI - e sobre el nodo de cálculo de BF por 16 vías de PCle de 4 gen. La GPU se espera que esté equipada con una memoria de 32 GigaByte HBM-2, separado en cuatro bancos de memoria de 8 GigaBytes cada uno. También es una posibilidad 16 GB de HBM-2, organizados también en cuatro bancos de memoria de 4 GigaBytes cada uno. Así, la tasa de memoria puede ser la misma para ambas configuraciones.
Con un ancho de memoria esperado de 1,28 TeraBytes por segundo y un rendimiento de pico esperado de 12,5 Teraflops por segundo (doble precisión),R= 0,1. Aunque esto se aleja por un factor 10 de la regla del profesional de 1 byte / flop, siguen siendo una de las mejores relaciones disponibles R.
El ancho de banda de comunicación está limitado por 16 vías de PCle de 4 gen, cada una capaz de 2 Gigabytes por vía y dirección. Con r = 64 Gigabytes / 1,28 Terabytes = 0,05, se tendrá ciertamente que afrontar severos problemas de escabilidad para aplicaciones intensivas de datos. A este respecto, cualquier mejora deRyrayudará.
Esto se ilustra esquemáticamente en las Figs. 2 y 3.
Supongamos que la configuración estándar comprende dos GPUs como elementos de procesamiento por BF - CN, operadas a una frecuencia de pico v obteniendo un rendimiento de pico. La configuración inicial se muestra en la Fig. 2. Por lo que se refiere al nodo de cálculo, se proporcionan o esperan los siguientes parámetros del sistema:
• un número de GPUs por nodo de cálculo: 2
• f: 1
• Consumo de energía por nodo de cálculo:2 x 150 W = 300 W
• Memoria por nodo de cálculo: 64 GB
• Ancho de banda de memoria por nodo de cálculo: 2,56 Terabytes por segundo
• rendimiento de tipo por nodo de cálculo: 25 teraflops por segundo dp
• R por nodo de cálculo: 0,1
• Vías PCle de 4 gen por nodo de cálculo: 32
• Bidirección de Velocidad de comunicación por nodo de cálculo: 128 Gbyte/s (A para el elemento de procesamiento por elemento de procesamiento, A de NIC)
• 2 x Mellanox HDR posible: 100 Gbyte por segundo bidireccional
• r por nodo de cálculo: 0,05
• NIC no equilibrado con la comunicación
Una configuración mejorada mostrada en la Fig. 3 comprende cuatro GPUs como elementos de procesamiento para un nodo de cálculo b F operado a la mitad de la frecuencia de pico v, siendof= 2, proporcionando de este modo el mismo valor de rendimiento de pico de los nodos nominales de cálculo. En este caso, el elemento de procesamiento operará hasta una mitad del rendimiento de pico de la configuración estándar. En cuanto al nodo de cálculo mejorado, se ofrecen o se esperan los siguientes parámetros del sistema:
# de GPUs por nodo de cálculo: 4
f: 2
Consumo de Energía por nodo de cálculo esperado: 4 x 75 W = 300 W
Memoria por nodo de cálculo: 64 GB @ 16 GB por GPU o 128 GB @ 32 GB
Ancho de banda de memoria por nodo de cálculo: 5,12 Terabytes por segundo
Rendimiento de pico por nodo de cálculo: 25 terflpos por segundo dp
R por nodo de cálculo: 0,2
Vías de PCle de 4 gen por nodo de cálculo: 64
Bidirección de velocidad de comunicación por nodo de cálculo: 256 Gbyte/s (A para el elemento de procesamiento por elemento de procesamiento, A de NIC)
2 x Mellanox HDR posible: 100 Gbyte por segundo bidireccional
r por nodo de cálculo: 0,05
NIC equilibrado por comunicación
A la reducción de la frecuencia de reloj se puede añadir una reducción de la frecuencia de voltaje para reducir aún más el consumo de energía. La estabilidad del elemento de procesamiento con arreglo a la reducción de voltaje podría resultar menos afectada que en el caso de la aplicación de un voltaje pleno.
En un aspecto de la presente invención, la tasa máxima de transferencia de datos, CBW, se sitúa dentro de un 30% de un elemento de procesamiento con respecto a una tasa de comunicación del elemento de procesamiento del nodo de cálculo.
Claims (7)
1. - Una unidad informática para operar en un sistema informático paralelo, comprendiendo la unidad informática una pluralidad de elementos de procesamiento y una interfaz para conectar la unidad informática con otros componentes del sistema informático, en la que cada elemento de procesamiento presenta una tasa de procesamiento máxima nominal, NPR, y cada elemento de procesamiento incluye una respectiva unidad de memoria de acceso aleatorio, de manera que los datos pueden ser transferidos desde la unidad de memoria a una tasa de transferencia de datos máxima predeterminada, MBW, y la interfaz proporciona una tasa de transferencia de datos máxima, CBW, en la que, con el fin de proporcionar un rendimiento de cálculo de tipo predeterminado, PP, para la unidad informática, obtenible por un númeronde elementos de procesamiento que operan a la tasa nominal de procesamiento máximo, de manera que PP =nx NPR operaciones por segundo, la unidad informática incluye un múltiplo enterofmultiplicado pornelementos de procesamiento en la quefes superior a uno y cada elemento de procesamiento está limitado para operar a una tasa de procesamiento de<n>P<r>/f.
2. - La unidad informática de acuerdo con la reivindicación 1, en la que la unidad informática que presentafmultiplicado pornelementos de procesamiento presenta un ancho de banda de memoria defmultiplicado por un ancho de banda de memoria de una unidad informática que presentanelementos de procesamiento.
3. - La unidad informática de acuerdo con la reivindicación 1 o 2, en la que los elementos de procesamiento de la unidad informática son unidades de procesamiento gráficas.
4. - La unidad informática de acuerdo con cualquier reivindicación precedente, en la que los elementos de procesamiento están conectados entre sí por una unidad de interfaz, estando cada elemento de procesamiento conectado a la unidad de interfaz por una pluralidad S de vías de datos seriales.
5. - La unidad informática de acuerdo con cualquier reivindicación precedente, en la que la unidad informática es una tarjeta de ordenador que comprende un procesador multinúcleo dispuesto para controlar los elementos de procesamiento.
6. - La unidad informática de acuerdo con cualquier reivindicación precedente, en la que la tasa de transferencia de datos máxima, CBW, se sitúa en un 30% de una tasa de comunicación desde un elemento de la pluralidad de elementos de procesamiento a otra pluralidad de elementos de procesamiento.
7. - Un procedimiento de operación de una unidad informática que comprende un procesador multinúcleo y una pluralidad de unidades de procesamiento gráficas, GPUs, presentando cada GPU un rendimiento de tipo nominal de PPG operaciones por segundo y una respectiva memoria de acceso aleatorio, comprendiendo el procedimiento una operación de las GPUs a una fracción de 1 /fde su tasa de rendimiento de pico nominal, en el quefes mayor de uno y en el que la unidad informática proporciona un rendimiento de cálculo de tipo predeterminado de PP operaciones por segundo y la unidad informática presenta un múltiplo enterofmultiplicado pornGPUs de tal manera que PP es igual anmultiplicado por PPG.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP18172497 | 2018-05-15 | ||
| PCT/EP2019/062483 WO2019219747A1 (en) | 2018-05-15 | 2019-05-15 | Apparatus and method for efficient parallel computation |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES3040478T3 true ES3040478T3 (en) | 2025-10-31 |
Family
ID=62217759
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES19723431T Active ES3040478T3 (en) | 2018-05-15 | 2019-05-15 | Apparatus and method for efficient parallel computation |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US12073259B2 (es) |
| EP (1) | EP3794448B1 (es) |
| JP (1) | JP7561033B2 (es) |
| KR (1) | KR102793011B1 (es) |
| CN (1) | CN112166414B (es) |
| CA (1) | CA3097289A1 (es) |
| ES (1) | ES3040478T3 (es) |
| HR (1) | HRP20251102T1 (es) |
| HU (1) | HUE072996T2 (es) |
| PL (1) | PL3794448T3 (es) |
| WO (1) | WO2019219747A1 (es) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20230253294A1 (en) * | 2022-02-09 | 2023-08-10 | Samsung Electronics Co., Ltd. | Computing device and electronic device guaranteeing bandwidth per computational performance |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002099433A (ja) | 2000-09-22 | 2002-04-05 | Sony Corp | 演算処理システム及び演算処理制御方法、タスク管理システム及びタスク管理方法、並びに記憶媒体 |
| US7321979B2 (en) | 2004-01-22 | 2008-01-22 | International Business Machines Corporation | Method and apparatus to change the operating frequency of system core logic to maximize system memory bandwidth |
| WO2008120393A1 (ja) | 2007-03-29 | 2008-10-09 | Fujitsu Limited | 情報処理装置、情報処理装置設計方法、情報処理装置設計プログラム |
| US8208395B2 (en) * | 2008-10-31 | 2012-06-26 | Verizon Patent And Licensing Inc. | System and method for measuring interface utilization using policers |
| FR2943158B1 (fr) * | 2009-03-12 | 2011-04-08 | St Wireless Sa | Procede de commande d'un transfert de donnees sur un bus informatique a transmission serie. |
| US20110167229A1 (en) | 2009-12-16 | 2011-07-07 | The Johns Hopkins University | Balanced data-intensive computing |
| EP2442228A1 (en) | 2010-10-13 | 2012-04-18 | Thomas Lippert | A computer cluster arrangement for processing a computaton task and method for operation thereof |
| WO2014052599A1 (en) * | 2012-09-26 | 2014-04-03 | Children's National Medical Center | Anastomosis clipping tool with half-loop clip |
| US9594560B2 (en) * | 2013-09-27 | 2017-03-14 | Intel Corporation | Estimating scalability value for a specific domain of a multicore processor based on active state residency of the domain, stall duration of the domain, memory bandwidth of the domain, and a plurality of coefficients based on a workload to execute on the domain |
| EP3126969A4 (en) | 2014-04-04 | 2017-04-12 | Microsoft Technology Licensing, LLC | Expandable application representation |
| US10496304B2 (en) | 2015-01-02 | 2019-12-03 | Reservoir Labs, Inc. | Systems and methods for minimizing communications |
| US20170212581A1 (en) | 2016-01-25 | 2017-07-27 | Qualcomm Incorporated | Systems and methods for providing power efficiency via memory latency control |
| CN107465500B (zh) | 2017-07-20 | 2020-04-03 | 广州慧睿思通信息科技有限公司 | 基于fpga的md5暴力破解系统及方法 |
-
2019
- 2019-05-15 HR HRP20251102TT patent/HRP20251102T1/hr unknown
- 2019-05-15 EP EP19723431.3A patent/EP3794448B1/en active Active
- 2019-05-15 JP JP2020564457A patent/JP7561033B2/ja active Active
- 2019-05-15 HU HUE19723431A patent/HUE072996T2/hu unknown
- 2019-05-15 US US17/048,457 patent/US12073259B2/en active Active
- 2019-05-15 KR KR1020207031743A patent/KR102793011B1/ko active Active
- 2019-05-15 PL PL19723431.3T patent/PL3794448T3/pl unknown
- 2019-05-15 CN CN201980031994.4A patent/CN112166414B/zh active Active
- 2019-05-15 ES ES19723431T patent/ES3040478T3/es active Active
- 2019-05-15 WO PCT/EP2019/062483 patent/WO2019219747A1/en not_active Ceased
- 2019-05-15 CA CA3097289A patent/CA3097289A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| CA3097289A1 (en) | 2019-11-21 |
| JP7561033B2 (ja) | 2024-10-03 |
| EP3794448C0 (en) | 2025-06-18 |
| KR102793011B1 (ko) | 2025-04-07 |
| US12073259B2 (en) | 2024-08-27 |
| EP3794448A1 (en) | 2021-03-24 |
| EP3794448B1 (en) | 2025-06-18 |
| CN112166414B (zh) | 2024-10-15 |
| HRP20251102T1 (hr) | 2025-11-21 |
| CN112166414A (zh) | 2021-01-01 |
| PL3794448T3 (pl) | 2025-10-20 |
| HUE072996T2 (hu) | 2025-12-28 |
| US20210157656A1 (en) | 2021-05-27 |
| WO2019219747A1 (en) | 2019-11-21 |
| JP2021523491A (ja) | 2021-09-02 |
| KR20210009311A (ko) | 2021-01-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI590255B (zh) | 記憶體裝置電力管理器及其方法 | |
| US9519615B2 (en) | Multiprocessor system with independent direct access to bulk solid state memory resources | |
| CN111052039B (zh) | 用于经池化的加速器架构的多标准功率管理方案 | |
| McCalpin | Memory bandwidth and system balance in hpc systems | |
| US11960900B2 (en) | Technologies for fast booting with error-correcting code memory | |
| US20130132587A1 (en) | Computer system and method for sharing computer memory | |
| JP7377811B2 (ja) | 集積回路のためのデータ処理エンジンタイルアーキテクチャ | |
| Wang et al. | Data motion acceleration: Chaining cross-domain multi accelerators | |
| ES3040478T3 (en) | Apparatus and method for efficient parallel computation | |
| WO2017151276A1 (en) | Hierarchical autonomous capacitance management | |
| WO2024129514A1 (en) | Fused data generation and associated communication | |
| Semin et al. | The performance characterization of the RSC PetaStream Module | |
| Barrett et al. | Reducing the bulk in the bulk synchronous parallel model | |
| WO2021108161A1 (en) | Method and system for memory control | |
| US11004476B2 (en) | Multi-column interleaved DIMM placement and routing topology | |
| RU2815262C2 (ru) | Устройство и способ эффективного параллельного вычисления | |
| CN105791172A (zh) | 一种基于龙芯2H的Rapid IO数据交换板 | |
| US12405830B2 (en) | Dynamic CPU core sharing | |
| Kapre et al. | A case for embedded fpga-based socs in energy-efficient acceleration of graph problems | |
| Wu et al. | A embedded real-time polymorphic computing platform architecture | |
| Parker | BG/Q architecture | |
| Vogt et al. | IBM BladeCenter QS22: Design, performance, and utilization in hybrid computing systems | |
| Tanabe et al. | An enhancer of memory and network for cluster and its applications | |
| TWM676601U (zh) | 結合運算及儲存功能之介面裝置 | |
| Plummer et al. | An lpar-customized mpi alltoallv for the materials science code castep |