ES2247459T3

ES2247459T3 - Sistema de computadores tolerante a fallos, metodo para la resincronizacion del mismo y programa para su resincronizacion.

Info

Publication number: ES2247459T3
Application number: ES03015796T
Authority: ES
Inventors: Shigeyuki Aino; Shigeo Yamazaki
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-07-12
Filing date: 2003-07-10
Publication date: 2006-03-01
Anticipated expiration: 2023-07-10
Also published as: TWI226983B; DE60301702D1; KR20040007322A; CN1326042C; EP1380952B1; CA2434494A1; CN1495611A; CA2434494C; TW200401187A; AU2003208108A1; EP1380952A1; US7225355B2; DE60301702T2; JP3982353B2; US20040010789A1; JP2004046611A; KR100566339B1

Abstract

Un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos (100, 200, 300) de computación que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304), en el que cada módulo (100, 200, 300) de computación procesa la misma cadena de instrucciones con sincronización entre sí, y que además comprende un detector (702) de fallos que monitoriza la existencia/no existencia de un fallo en todo el sistema, un dispositivo (700) de monitorización de bus que monitoriza un acceso del procesador de cada uno de dichos módulos (100, 200, 300) de computación a un bus (103, 203, 303) externo y cuando detecta discrepancia en la salida entre los respectivos módulos (100, 200, 300) de computación, notifica una interrupción a cada uno de dichos procesadores, y un controlador (701) de sincronización que re- sincroniza cada módulo (100, 200, 300) de computación ajustando la temporización de una respuesta a un acceso desde cada uno de dichos procesadores que es causada por dicha interrupción, caracterizado porque dicho dispositivo (700) de monitorización de bus notifica dicha interrupción a cada uno de dichos procesadores, encolando así una tarea predeterminada que es una tarea que consiste en ejecutar un acceso a un recurso predeterminado en dicho controlador (701) de sincronización, para re-sincronizar los módulos (100, 200, 300) de computación, si dicho detector (702) de fallos no detecta ningún fallo, y porque dicho controlador (701) de sincronización transmite una respuesta a todos los módulos (100, 200, 300) de computación simultáneamente, cuando se reciben accesos a dicho recurso desde todos los procesadores.

Description

Sistema de computadores tolerante a fallos, método para la re-sincronización del mismo y programa para su re-sincronización.

Antecedentes de la invención 1. Campo de la invención

La presente invención se refiere a un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que procesa la misma cadena de instrucciones de manera exactamente igual por una pluralidad de módulos de computación con sincronización de reloj entre sí. Más particularmente, se refiere a un sistema de computadores tolerante de fallos y a un método de control de re-sincronización de alta velocidad que consiguen acelerar el proceso de re-sincronización cuando se produce un fallo de sincronismo entre los módulos de computación (un paso de bloqueo se desprende).

2. Descripción de la técnica relacionada

Con un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo, cuando entre una pluralidad de módulos de computación que ejecutan la misma cadena de instrucciones al mismo tiempo, se detecta que un módulo de computación tiene una salida diferente de la de otros módulos de computación, debido a un fallo o a otro factor externo o interno, se llevan a cabo contramedidas como las que siguen. A partir de este punto, nos referiremos a un módulo de computación que falla en su funcionamiento en sincronización con otros módulos de computación como un módulo de computación que está en un estado de pérdida de paso.

Más específicamente, se toman medidas como separar un módulo de computación cuyo paso de bloqueo se separa de un estado operacional y sustituir el módulo de computación según lo requerido en función de un factor que provoca pérdida de paso o, cuando no es necesaria la sustitución, llevar a cabo el proceso de re-inicialización o similar según la necesidad de integrar el módulo de computación en el estado operacional.

En un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo, en el momento de esta re-integración al estado operacional, sin tener en cuenta si un módulo de computación que se encuentra en el estado de pérdida de paso ha sido sustituido o no, para que el módulo de computación se sincronice con otros módulos de computación que continúan en funcionamiento para llevar a cabo otra vez el mismo proceso, todos los datos de memoria almacenados por los módulos de computación en el estado operacional son copiados a una memoria del módulo de computación que se debe re-integrar en el momento de su re-integración.

En un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo, después de ejecutar la sustitución de un módulo de computación que está en el estado de pérdida de paso, re-inicializar el proceso en función de una parte causante de la pérdida de paso y similar, cuando se integra de nuevo el módulo de computación en cuestión al estado operacional, los módulos de computación en el estado operacional se interrumpen durante un largo período de tiempo.

Más específicamente, el sistema de computadores tolerante de fallos con sincronización por paso de bloqueo tiene un problema, que consiste en que mientras un módulo de computación que está en el estado de pérdida de paso es sometido a un proceso de re-integración, se detiene el funcionamiento de todo el sistema de computadores tolerante de fallos durante un largo período de tiempo (3 a 5 segundos en general o del orden de minutos).

La razón es que para integrar un módulo de computación que se encuentra en el estado de pérdida de paso al estado operacional, todos los contenidos de las memorias son copiados siempre desde los módulos de computación que continúan en funcionamiento al módulo de computación que debe ser re-integrado.

Cuando el funcionamiento de un módulo de computación normal continúa durante el proceso de copia, es posible que los contenidos de la memoria del módulo de computación normal cambien también durante el proceso de copia, de forma que la copia no se llevará a cabo adecuadamente. Para evitar dicha situación, un módulo de computación que está en el estado operacional es detenido temporalmente para evitar la actualización de los contenidos de su memoria.

Debido a que la capacidad de memoria de un módulo de computación hoy llega hasta varios Gigabytes, copiar toda la región de memoria requerirá un largo período de tiempo.

En un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo, un estado de pérdida de paso entre módulos de computación ocurre debido a varias causas.

El primer caso es un fallo fijo que ocurre dentro de un módulo de computación. En este caso, un módulo de computación que tiene un fallo debería ser reemplazado, y cuando se integrase el módulo de computación que debe ser reemplazado a un sistema operacional, todos los datos en una memoria de un módulo de computación en el estado operacional deben ser copiados.

En un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo, un estado de pérdida de paso puede ocurrir debido, además del fallo fijo arriba descrito, a que módulos de computación funcionen con temporizaciones diferentes debido a la diferencia de fabricación de cada unidad en cada módulo de computación, aunque su funcionamiento sea normal, o debido a un fallo intermitente de memoria corregible automáticamente, causado por los efectos de los rayos \alpha o similar.

En estos casos, debido a que un fallo fijo no ocurre propiamente en un módulo de computación, el módulo fundamentalmente no necesita ninguna sustitución, y mediante la sincronización de nuevo de su proceso con el de los otros módulos de computación en funcionamiento para integrar el módulo de computación en cuestión, todo el sistema de computadores tolerante de fallos puede ser devuelto a su estado normal de funcionamiento.

En la patente EP 1 029 267, se describe un método para mantener una ejecución sincronizada en un sistema de computadores insensible/tolerante a fallos. Un sistema de computadores tolerante de fallos incluye, al menos, dos elementos de computación conectados a, al menos, un controlador. Los elementos de computación funcionan según un primer y un segundo modo. En el primer modo, los elementos de computación ejecutan cada uno un primer flujo de instrucciones en paso de bloqueo de reloj simulado. En el segundo modo, los elementos de computación ejecutan un segundo flujo de instrucciones en paso de bloqueo de instrucciones. El funcionamiento del paso de bloqueo de instrucciones requiere que los elementos de computación lleven a cabo la misma secuencia de instrucciones en el mismo orden, pero no requiere que los elementos de computación lleven a cabo las instrucciones en el mismo ciclo de reloj como en el primer modo.

La patente US 5,020,024 describe un método y un aparato para detectar la ausencia seleccionada de sincronismo lógico digital. Equipamiento lógico digital en el que dos elementos lógicos funcionan con control de temporización con un elemento de reloj con sincronismo seleccionado, incluye un elemento de detección de fallos que detecta la ausencia del sincronismo seleccionado entre los dos elementos lógicos, incluso cuando cada uno está desarrollando, por otro lado, un funcionamiento lógico correcto.

Compendio de la invención

La invención está definida por las reivindicaciones.

Un objetivo de la presente invención es proporcionar un sistema de computadores tolerante de fallos, un método de re-sincronización para el mismo y un programa de re-sincronización para el mismo que permitan a un módulo de computación cuyo paso de bloqueo se desprende debido a causas diferentes de un fallo fijo sea integrado otra vez al estado operacional más rápidamente que mediante un método convencional, reduciendo así drásticamente el tiempo de parada temporal de funcionamiento del sistema debido al proceso de integración.

Otro objetivo de la presente invención es proporcionar un sistema de computadores tolerante de fallos, un método de re-sincronización para el mismo y un programa de re-sincronización para el mismo que consigan mejorar la disponibilidad del sistema mediante la reducción de tiempo para el proceso de re-integración arriba descrito.

Según el primer aspecto de la invención, se proporciona un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos de computación que tienen un procesador y una memoria en el que cada módulo de computación procesa la misma cadena de instrucciones de forma sincronizada entre sí, donde

cuando se detecta discrepancia en un estado de acceso a un bus externo entre los procesadores respectivos de cada módulo de computación, si no se detecta ningún fallo en el sistema incluyendo cada módulo de computación, se recupera la sincronización entre cada módulo de computación ajustando la temporización de una respuesta a un acceso que cada procesador ejecuta como una instrucción de control de sincronización por una interrupción.

El sistema de computadores tolerante de fallos comprende además un detector de fallos que monitoriza la existencia/no existencia de un fallo en todo el sistema;

un dispositivo de monitorización de bus, que monitoriza un acceso del procesador de cada uno de los módulos de computación al bus externo y cuando detecta discrepancia en la salida entre los respectivos módulos de computación, si no es detectado ningún fallo por el detector de fallos, notifica una interrupción a cada procesador, y un controlador de sincronización que re-sincroniza cada módulo de computación ajustando la temporización de una respuesta a un acceso desde cada uno de los procesadores que es provocado por la interrupción.

El dispositivo de monitorización de bus, cuando detecta discrepancia en la salida entre los respectivos módulos de computación, si no es detectado ningún fallo por el detector de fallos, interrumpe cada uno de los procesadores con una tarea predeterminada, que es una tarea consistente en ejecutar un acceso a un recurso predeterminado en el controlador de sincronización, para re-sincronizar los módulos de computación, y el controlador de sincronización transmite una respuesta a todos los módulos de computación simultáneamente, cuando recibe los accesos al recurso desde todos los procesadores.

Según otra construcción preferida, se proporcionan una pluralidad de pares del dispositivo de monitorización de bus, del detector de fallos y del controlador de sincronización.

Según otra construcción preferida, el dispositivo de monitorización de bus, el detector de fallos y el controlador de sincronización se disponen en una unidad periférica de control de dispositivos que controla un dispositivo periférico y está conectada al bus externo en el módulo de computación a través de un puente PCI.

Según el segundo aspecto de la invención, se proporciona un método de re-sincronización en un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos de computación que tienen un procesador y una memoria en el que cada módulo de computación procesa la misma cadena de instrucciones de forma sincronizada entre sí, comprendiendo los pasos de

cuando se detecta discrepancia en un estado de acceso a un bus externo entre los procesadores respectivos de cada módulo de computación, si no se detecta ningún fallo en el sistema incluyendo cada módulo de computación, generar una interrupción para todos los procesadores, y hacer que cada procesador ejecute una instrucción de control de sincronización para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo de computación continúe el funcionamiento en sincronización.

El método de re-sincronización comprende además las operaciones de

detectar la existencia/no existencia de un fallo en todo el sistema incluyendo cada módulo de computación, monitorizar un acceso del procesador de cada módulo de computación al bus externo,

cuando se detecta discrepancia en la salida entre los respectivos módulos de computación, si no se detecta ningún fallo en el sistema, notificar una interrupción a cada procesador, y hacer que cada procesador ejecute la instrucción de control de sincronización de reloj para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo de computación continúe el funcionamiento en sincronización.

El método de re-sincronización comprende además las operaciones de

cuando se detecta discrepancia en la salida entre los respectivos módulos de computación, si no se detecta ningún fallo en el sistema, interrumpe cada procesador con una tarea predeterminada para re-sincronizar los respectivos módulos de computación, que es una tarea consistente en ejecutar un acceso a un recurso predeterminado;

encolar los accesos al recurso desde cada procesador, y responder a los accesos desde todos los módulos de computación simultáneamente cuando todos los accesos de los procesadores se han recibido.

Según otro aspecto de la invención, un programa de re-sincronización para ejecutar un proceso de re-sincronización de un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos de computación que tienen un procesador y una memoria en el que cada módulo de computación procesa la misma cadena de instrucciones de forma sincronizada entre si, comprendiendo las funciones de

cuando se detecta discrepancia en un estado de acceso a un bus externo entre los procesadores respectivos de cada módulo de computación, si no se detecta ningún fallo en el sistema incluyendo cada módulo de computación, generar una interrupción para todos los procesadores, y hacer que cada procesador ejecute una instrucción de control de sincronización de reloj para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo de computación continúe el funcionamiento en sincronización.

El programa de re-sincronización además comprende las funciones de detectar la existencia/no existencia de un fallo en todo el sistema incluyendo cada módulo de computación, monitorizar un acceso del procesador de cada módulo de computación al bus externo.

Cuando se detecta discrepancia en la salida entre los respectivos módulos de computación, si no se detecta ningún fallo en el sistema, notificar una interrupción a cada procesador, y hacer que cada procesador ejecute la instrucción de control de sincronización para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo de computación continúe su funcionamiento en sincronización.

El programa de re-sincronización comprende además las funciones de, cuando se detecta discrepancia en la salida entre los respectivos módulos de computación, si no se detecta fallo en el sistema, interrumpe cada procesador con una tarea predeterminada para re-sincronizar los respectivos módulos de computación, la cual es una tarea que consiste en ejecutar un acceso a un recurso predeterminado;

encolar el acceso al recurso desde cada procesador, y responder a los accesos desde todos los módulos de computación simultáneamente cuando todos los accesos desde los procesadores se hayan recibi-
do.

Otros objetivos, características y ventajas de la presente invención serán evidentes a partir de la descripción detallada que se da en lo que sigue.

Breve descripción de los dibujos

La presente descripción se comprenderá más completamente a partir de la descripción detallada que se ofrece a partir de aquí y a partir de los dibujos que se acompañan de la realización preferida de la invención, que, sin embargo, no deberían tomarse como limitantes de la invención, ya que son sólo explicativos y por motivos de comprensión.

En los dibujos:

La Fig. 1 es un diagrama de bloques que muestra una estructura de un sistema de computadores tolerante de fallos según un primer modo de implementación de la presente invención;

La Fig. 2 es un diagrama utilizado para explicar los contenidos del proceso de re-sincronización del sistema de computadores tolerante de fallos;

La Fig. 3 es un diagrama de bloques que muestra una estructura de un sistema de computadores tolerante de fallos según un segundo modo de implementación de la presente invención; y

La Fig. 4 es un diagrama de bloques que muestra una estructura de un sistema de computadores tolerante de fallos según un tercer modo de implementación de la presente invención.

Descripción de la realización preferida

La realización preferida de la presente invención será tratada en detalle en lo que sigue haciendo referencia a los dibujos que se acompañan. En la siguiente descripción, se exponen numerosos detalles específicos para proporcionar una comprensión completa de la presente invención. Será obvio, sin embargo, para los entendidos en la materia que la presente invención se puede llevar a la práctica sin estos detalles específicos. Por otro lado, estructuras bien conocidas no se muestran en detalle para no oscurecer innecesariamente la presente invención.

Modos de implementación de la presente invención se describirán con detalle en lo que sigue haciendo referencia a los dibujos. La Fig. 1 es un diagrama de bloques que muestra una estructura de un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo según un primer modo de implementación de la presente invención.

Haciendo referencia a la Fig. 1, el sistema de computadores tolerante de fallos según el presente modo de implementación incluye una pluralidad de módulos 100, 200 y 300 de computación, procesando cada uno de dichos módulos 100, 200 y 300 de computación la misma cadena de instrucciones con sincronización de reloj entre sí. El sistema de computadores tolerante de fallos compara un resultado del proceso de cada módulo de computación. Incluso cuando un modo de computación tiene un fallo, el proceso puede ser continuado por el resto de los módulos de computación.

Los módulos 100, 200 y 300 de computación respectivos incluyen una pluralidad de procesadores 101 y 102, 201 y 202, y 301 y 302, buses 103, 203 y 303 externos del procesador, memorias 104, 204 y 304 y unidades 105, 205 y 305 de control de memoria, respectivamente.

Además, los módulos 100, 200 y 300 de computación están conectados a unidades 400 y 500 de control de dispositivos periféricos para controlar un dispositivo periférico a través de las unidades 105, 205 y 305 de control de memoria y de líneas 600, 601, 602, 610, 611 y 612 de señal de interfaz.

El sistema de computadores tolerante de fallos arriba descrito incluye además un dispositivo 700 de monitorización de bus, una unidad 702 de detección de fallos y una unidad 701 de control de sincronización.

El dispositivo 700 de monitorización de bus monitoriza un acceso de un procesador de cada módulo de computación al bus externo. El dispositivo 700 de monitorización de bus está conectado a los buses 103, 203 y 303 externos del procesador de los respectivos módulos 100, 200 y 300 de computación a través de líneas 710, 711 y 712 de señal de interfaz.

La unidad 702 de detección de fallos monitoriza la existencia/no-existencia de un fallo en todo el sistema, incluyendo los respectivos módulos de computación.

La unidad 701 de control de sincronización, que está conectada a cada módulo de computación, ajusta la temporización de una respuesta a un acceso desde cada módulo de computación para hacer que cada módulo de computación continúe su funcionamiento con sincronización de reloj. La unidad 701 de control de sincronización está conectada a las unidades 105, 205 y 305 de control de memoria de los respectivos módulos 100, 200 y 300 de computación a través de líneas 730, 731 y 732 de señal de interfaz.

A continuación, se hará una descripción del funcionamiento de un sistema de computadores tolerante de fallos estructurado así según el presente modo de implementación.

La unidad 702 de detección de fallos monitoriza la existencia/no-existencia de un fallo fijo en todo el sistema de computadores tolerante de fallos incluyendo los respectivos módulos 100, 200 y 300 de computación y las unidades 400 y 500 de control de dispositivos periféricos. Entonces, la unidad 702 de detección de fallos notifica un resultado de la monitorización al dispositivo 700 de monitorización de bus.

El dispositivo 700 de monitorización de bus, que está conectado a los buses 103, 203 y 303 externos del procesador de los módulos 100, 200 y 300 de computación respectivos a través de las líneas 710, 711 y 712 de señal de interfaz, compara las señales de control de acceso externo de los respectivos procesadores 101, 102, 201, 202, 301 y 302 para monitorizar si los respectivos procesadores 101, 102, 201, 202, 301 y 302 acceden a los buses 103, 203 y 303 externos en sincronización de reloj entre sí con la misma temporización o no.

En un caso en el que mediante la operación de monitorización arriba descrita, el dispositivo 700 de monitorización de bus detecta que cualquiera de los procesadores 101, 102, 201, 202, 301, y 302 funciona con una temporización diferente de la temporización de los demás, cuando la unidad 702 de detección de fallos no detecta ningún fallo fijo en ningún lugar del sistema de computadores tolerante de fallos, el dispositivo 700 de monitorización de bus detecta que la pérdida de paso no está provocada por un fallo. El resultado es notificado a todos los módulos 100, 200 y 300 de computación a través de las líneas 710, 711 y 712 de señal de interfaz para generar una interrupción a cada procesador. Además, el dispositivo 700 de monitorización de bus al mismo tiempo pasa a monitorizar los buses 103, 203 y 303 externos de los procesadores según un modo de interrupción.

Aquí, el dispositivo 700 de monitorización de bus monitoriza todos los accesos a los buses 103, 203 y 303 externos que incluyan un acceso de memoria desde el procesador y cuando detecta falta de sincronización en el funcionamiento entre los módulos de computación, instantáneamente interrumpe todos los procesadores 101, 102, 201, 202, 301 y 302 para interrumpir el proceso, de forma que en el momento en que se genera la interrupción, los contenidos de las memorias 104, 204 y 304 en los respectivos módulos 100, 200 y 300 de computación son todos coincidentes entre sí.

En lo que sigue, se hará una descripción de los contenidos específicos del funcionamiento del sistema de computadores tolerante de fallos según el presente modo de implementación haciendo referencia a la Fig. 2.

Cuando el dispositivo 700 de monitorización de bus detecta falta de sincronización en el funcionamiento entre los módulos de computación (Operación 201 en la Fig. 2), la detección es notificada a través de las líneas 710, 711 y 712 de señal de interfaz para generar una interrupción a cada procesador.

Todos los procesadores 101, 102, 201, 202, 301 y 302 están en el momento de la interrupción pertinente procesando y encolan una tarea de control de sincronización pensada para obtener la re-sincronización del funcionamiento con sincronización de reloj entre los respectivos módulos 100, 200 y 300 en la parte superior de una cola como una tarea de la más alta prioridad (Operación 202 en la Fig. 2).

La tarea de control de sincronización tiene la función de ejecutar una instrucción para acceder a un recurso especialmente prescrito en la unidad 701 de control de sincronización. A partir de ahí, cuando la tarea de control de sincronización arriba descrita es pasada a un estado de ejecución por un OS, la tarea ejecuta la instrucción para acceder al recurso prescrito en la unidad 701 de control de sincronización (Operación 203 en la Fig. 2).

En este momento de tiempo, un acceso al recurso prescrito desde un módulo de computación en el estado de pérdida de paso y un acceso al recurso prescrito desde otros módulos de computación en el estado de paso de bloqueo son naturalmente transmitidas a la unidad 701 de control de sincronización con un retraso de tiempo.

Al detectar un acceso desde los módulos 100, 200 y 300 de computación al recurso interno especialmente prescrito, la unidad 701 de control de sincronización, cuando el acceso es el primero, se abstiene de devolver una respuesta al módulo de computación pertinente y espera que lleguen los accesos de todos los demás módulos de computación (Operación 204 en la Fig. 2). Cuando los accesos desde todos los módulos 100, 200 y 300 son transmitidos, devuelve una respuesta a los accesos simultáneamente a todos los módulos 100, 200 y 300 de computación.

En respuesta a la respuesta desde la unidad 701 de control de sincronización, todos los procesadores de los respectivos módulos 100 200 y 300 de computación terminan la ejecución de la tarea de control de sincronización (Operación 205 en la Fig. 2). Después de esto, todos los procesadores continúan con el funcionamiento ordinario del programa (Operación 206 en la Fig. 2).

El funcionamiento descrito en lo que sigue habilita a los módulos 100, 200 y 300 de computación para continuar una vez más con su funcionamiento con sincronización de reloj entre sí. En este momento de tiempo, como se describió anteriormente, debido a que el proceso de sincronización se ejecuta antes de que los contenidos de las memorias 104, 204 y 304 de los módulos 100, 200 y 300 de computación pierdan la coincidencia, después de comenzar el funcionamiento de nuevo con sincronización de reloj, se permite de nuevo a todos los módulos 100, 200 y 300 de computación ejecutar la misma cadena de instrucciones con la misma temporización. Esto elimina la necesidad de copiar memoria para la re-sincronización que se requiere en un sistema de computadores tolerante de fallos convencional, permitiendo así una rápida ejecución del proceso de re-sincroniza-
ción.

La Fig. 3 es un diagrama de bloques que muestra una estructura de un sistema de computadores tolerante de fallos según un segundo modo de implementación de la presente invención. Con referencia a la Fig. 3, el sistema de computadores tolerante de fallos según el presente modo de implementación de la presente invención está estructurado para incluir una pluralidad de módulos 100 y 200 de computación, teniendo cada uno un procesador y una memoria y una pluralidad de unidades 400 y 500 de control de dispositivos periféricos, teniendo cada uno un puente 703 PCI. Cada uno de los módulos 100 y 200 procesa la misma cadena de instrucciones con sincronización de reloj entre sí. El sistema de computadores tolerante de fallos compara un resultado del proceso de cada módulo de computación. Incluso cuando un modo de computación tiene un fallo, el resto de módulos de computación puede continuar el proceso. Además, cada una de las unidades 400 y 500 de control de dispositivos periféricos está estructurada para ser multiplexada mediante control por software para habilitar, incluso cuando una unidad de control de dispositivos periféricos sufre un fallo, la continuación del proceso utilizando la otra unidad de control de dispositivos periféricos.

Cada unidad 400 de control de dispositivos periféricos incluye el puente 703 PCI conectado a las unidades 105 y 205 de control de memoria de los respectivos módulos 100 y 200 de computación a través de un PCI para establecer la conexión con un dispositivo periférico, un dispositivo 700 de monitorización de bus para monitorizar un acceso de cada procesador de cada uno de los módulos 100 y 200 de computación a un bus externo, una unidad 702 de detección de fallos para monitorizar la existencia/no existencia de un fallo en todo el sistema de computadores tolerante de fallos incluyendo los módulos 100 y 200 de computación, y una unidad 701 de control de sincronización conectada a cada módulo de computación a través del puente 703 PCI para ajustar la temporización de una respuesta a un acceso desde cada módulo de computación para recuperar la sincronización de reloj de cada módulo de computación.

Aunque no se ilustra en la figura, la unidad 500 de control de dispositivos periféricos también tiene los respectivos componentes arriba descritos de forma similar a la unidad 400 de control de dispositivos periféricos.

El sistema de computadores tolerante de fallos con sincronización por paso de bloqueo estructurado según el presente modo de implementación monitoriza generalmente el funcionamiento con sincronización de reloj de cada uno de los módulos 100 y 200 de computación y controla un dispositivo periférico utilizando la unidad 400 de control de dispositivos periféricos. Cuando se produce un fallo en la unidad 400 de control de dispositivos periféricos, se lleva a cabo el mismo proceso conmutando el uso a la unidad 500 de control de dispositivos periféricos.

En el presente modo de implementación, la ejecución de una instrucción para acceder al recurso prescrito en la unidad 701 de control de sincronización que se muestra en la Fig. 2 (Operación 203 en la Fig. 2) se lleva acabo mediante la ejecución de una instrucción de lectura a un registro en la unidad 701 de control de sincronización en la unidad 400 de control de dispositivos periféricos y la instrucción de lectura es transmitida a la unidad 701 de control de sincronización a través de los buses 800 y 801 PCI y del puente 703 PCI y su respuesta es transmitida a cada uno de los módulos 100 y 200 de computación a través de la misma ruta.

El contenido del proceso de re-sincronización según el presente modo de implementación es el mismo que el mostrado en la Fig. 2.

Además, aunque en el presente modo de implementación se muestra una realización en la que existen dos módulos de computación, estructuras que tengan tres módulos de computación como se muestra en el primer modo de implementación ilustrado en la Fig. 1 o estructuras que tengan cuatro o más módulos funcionan de la misma forma.

En el presente modo de implementación se muestra una estructura en la cual un dispositivo 700 de monitorización de bus está conectado a los módulos 100 y 200 de computación a través de un puente 703 PCI.

Según el presente modo de implementación, la monitorización de los buses 103 y 203 externos de los respectivos procesadores es ejecutada mediante una señal (protocolo bus PCI) transmitida al dispositivo 700 de monitorización de bus a través de unidades 105 y 205 de control de memoria de los respectivos módulos 100 y 200 de computación, los buses 800 y 801 PCI y el puente 703 PCI. Además, la transmisión de una interrupción desde el dispositivo 700 de monitorización de bus a cada módulo de computación es ejecutada a través de una ruta inversa a la ruta arriba descrita.

El contenido del proceso de re-sincronización en el presente modo de implementación es el mismo que el mostrado en la Fig. 2.

Aunque en el segundo y tercer modo de implementación, los respectivos módulos de computación y el dispositivo de monitorización de bus y similar se conectan utilizando un PCI, la conexión entre estos componentes puede establecerse utilizando un interfaz de otro estándar, como PCI-X o un interfaz exclusivo no estandarizado para múltiples usos, lo que no afecta a ninguno de los efectos de la presente invención.

En el sistema de computadores tolerante de fallos de la presente invención, el funcionamiento de cada unidad para ejecutar el proceso de re-sincronización puede ser llevado a cabo no sólo por hardware sino también cargando un programa 1000 de proceso de re-sincronización que ejecute el funcionamiento de cada una de las unidades arriba descritas dentro de una memoria de un dispositivo procesador de computadora para controlar el dispositivo procesador de computadora. El programa 1000 de proceso de re-sincronización es almacenado en un disco magnético, una memoria de semiconductor u otro medio de grabación y es cargado desde el medio de grabación al el dispositivo procesador de computadora para controlar el funcionamiento del dispositivo procesador de computadora, realizando así todas las funciones arriba descritas.

Aunque la presente invención ha sido descrita con respecto a los modos preferidos de implementación en lo anteriormente mencionado, la presente invención no se limita necesariamente a los modos de implementación arriba descritos, sino que se puede llevar a cabo de diferentes formas dentro del alcance de su idea técnica.

Aunque en cada uno de los modos de implementación arriba descritos se muestra la estructura en la que cada módulo de computación tiene dos procesadores, una estructura que tenga un procesador o tres o más procesadores funciona completamente de la misma manera.

Además, aunque en cada uno de los modos de implementación se muestra un caso en el que los respectivos procesadores comparten un bus externo y están conectados a dicho bus, ni, por ejemplo, una estructura en la que una pluralidad de procesadores estén conectados en forma de asterismo a una unidad de control de memoria ni una estructura en la que procesadores que formen un módulo de computación sean físicamente montados en una pluralidad de tarjetas afecta los efectos de la presente invención.

Como se describió anteriormente, la presente invención consigue los siguientes efectos.

El primer efecto es conseguir que un cierto módulo de computación de un sistema de computadores tolerante de fallos, cuando sale del estado de paso de bloqueo debido a causas diferentes que un fallo fijo, sea restaurado al estado de paso de bloqueo en un período de tiempo extremadamente corto.

La razón es que en un estado inicial de la generación de la pérdida de paso, cuando una memoria de cada módulo de computación están a punto de discrepar entre sí, el dispositivo de monitorización de bus genera una interrupción a un procesador para ejecutar preferencialmente una tarea de ejecutar una cadena de instrucciones para controlar la re-sincronización, recuperando así la sincronización sin copia de memoria.

El segundo efecto es mejorar la disponibilidad del sistema de computadores tolerante de fallos. La razón es que un período de parada de todo el sistema puede ser drásticamente reducido acelerando significativamente el tiempo de reintegración cuando se sale del paso de bloqueo.

Aunque la invención se ha ilustrado y descrito con respecto a la realización ejemplar de la misma, los expertos en la materia deben entender que se pueden realizar los cambios anteriormente descritos y varios otros, omisiones y adiciones en el mismo, sin salirse del alcance de las presente reivindicaciones.

Claims

1. Un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos (100, 200, 300) de computación que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304), en el que cada módulo (100, 200, 300) de computación procesa la misma cadena de instrucciones con sincronización entre sí, y que además comprende

un detector (702) de fallos que monitoriza la existencia/no existencia de un fallo en todo el sistema,

un dispositivo (700) de monitorización de bus que monitoriza un acceso del procesador de cada uno de dichos módulos (100, 200, 300) de computación a un bus (103, 203, 303) externo y cuando detecta discrepancia en la salida entre los respectivos módulos (100, 200, 300) de computación, notifica una interrupción a cada uno de dichos procesadores, y

un controlador (701) de sincronización que re-sincroniza cada módulo (100, 200, 300) de computación ajustando la temporización de una respuesta a un acceso desde cada uno de dichos procesadores que es causada por dicha interrupción,

caracterizado porque

dicho dispositivo (700) de monitorización de bus notifica dicha interrupción a cada uno de dichos procesadores, encolando así una tarea predeterminada que es una tarea que consiste en ejecutar un acceso a un recurso predeterminado en dicho controlador (701) de sincronización, para re-sincronizar los módulos (100, 200, 300) de computación, si dicho detector (702) de fallos no detecta ningún fallo, y porque

dicho controlador (701) de sincronización transmite una respuesta a todos los módulos (100, 200, 300) de computación simultáneamente, cuando se reciben accesos a dicho recurso desde todos los procesadores.

2. El sistema de computadores tolerante de fallos como el expuesto en la reivindicación 1, en el que se suministran una pluralidad de pares de dicho dispositivo (700) de monitorización de bus, dicho detector (702) de fallos y dicho controlador (701) de sincronización.

3. El sistema de computadores tolerante de fallos como el expuesto en la reivindicación 1, en el que dicho dispositivo (700) de monitorización de bus, dicho detector (702) de fallos y dicho controlador (701) de sincronización están dispuestos en una unidad (400, 500) de control de dispositivos periféricos que controla un dispositivo periférico y está conectado al bus externo en dicho módulo (100, 200, 300) de computación a través de un puente PCI.

4. Un método de re-sincronización para su uso en un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos (100, 200, 300) de computación que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304) en el que cada módulo (100, 200, 300) de computación procesa la misma cadena de instrucciones con sincronización entre sí, comprendiendo dicho método las operaciones de

detectar la existencia/no existencia de un fallo en todo el sistema incluyendo cada uno de dichos módulos (100, 200, 300) de computación,

monitorizar un acceso del procesador de cada uno de dichos módulos (100, 200, 300) de computación a un bus (103, 203, 303) externo,

cuando se detecta discrepancia en la salida entre los respectivos módulos (100, 200, 300) de computación, notificar una interrupción a cada uno de dichos procesadores, y

hacer que cada uno de dichos procesadores ejecute una instrucción de control de sincronización de reloj para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo (100, 200, 300) de computación reanude el funcionamiento en sincronización,

caracterizado porque

dicha interrupción de cada uno de dichos procesadores provoca una tarea predeterminada para re-sincronizar los respectivos módulos (100, 200, 300) de computación, la cual es una tarea que consiste en ejecutar un acceso a un recurso predeterminado, si no se detecta ningún fallo en el sistema, para encolar un acceso a dicho recurso desde cada procesador, y responder a dichos accesos desde todos los módulos (100, 200, 300) de computación simultáneamente cuando todos se reciben los accesos desde dichos procesadores.

5. Un programa de re-sincronización para ejecutar el proceso de re-sincronización de un sistema de computadores tolerante de fallos con sincronización por paso de bloqueo que incluye una pluralidad de módulos (100, 200, 300) de computación que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304), en el que cada módulo (100, 200, 300) de computación procesa la misma cadena de instrucciones con sincronización entre sí, comprendiendo dicho programa las funciones de

cuando se detecta discrepancia en la salida entre los respectivos módulos (100, 200, 300) de computación, si no se detecta ningún fallo en el sistema, notificar una interrupción a cada uno de dichos procesadores, y

hacer que cada uno de dichos procesadores ejecute una instrucción de control de sincronización para ajustar la temporización de una respuesta a un acceso desde cada procesador, haciendo así que cada módulo (100, 200, 300) de computación reanude el funcionamiento en sincronización,

caracterizado porque

dicha interrupción de cada uno de dichos procesadores provoca una tarea predeterminada para re-sincronizar los respectivos módulos (100, 200, 300) de computación, que es una tarea que consiste en ejecutar un acceso a un recurso predeterminado, si no se detecta ningún fallo en el sistema, para encolar un acceso a dicho recurso desde cada procesador, y responder a dichos accesos desde todos los módulos (100, 200, 300) de computación simultáneamente cuando se reciben todos los accesos desde dichos procesadores.