ES2248686T3

ES2248686T3 - Sistema de ordenador tolerante a fallos, metodo de resincronizacion para el mismo y programa de resincronizacion para el mismo.

Info

Publication number: ES2248686T3
Application number: ES03015797T
Authority: ES
Inventors: Shigeyuki Aino; Shigeo Yamazaki
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-07-12
Filing date: 2003-07-10
Publication date: 2006-03-16
Anticipated expiration: 2023-07-10
Also published as: EP1380953B1; AU2003208129A1; DE60302184D1; KR20040007338A; JP2004046599A; TWI229791B; KR100566338B1; US7107484B2; DE60302184T2; TW200401186A; US20040153857A1; EP1380953A1; CN1521625A

Abstract

Un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos (100, 200, 300) que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304) en el que cada módulo informático (100, 200, 300) procesa la misma cadena de instrucciones en sincronización entre sí, cuyo sistema de ordenador comprende un detector de fallos (700) que vigila la existencia/no existencia de un fallo en el sistema: un monitor (701) de bus que vigila un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300) y unos medios (702) de control de interrupción.

Description

Sistema de ordenador tolerante a fallos, método de resincronización para el mismo y programa de resincronización para el mismo.

Antecedentes del invento 1. Campo de aplicación del invento

El presente invento se refiere a un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que procesa la misma cadena de instrucciones de una manera completamente igual mediante una pluralidad de módulos informáticos en sincronización de reloj entre sí. Más particularmente, se refiere a un sistema de ordenador tolerante a fallos y a un método de controlar la resincronización a alta velocidad que realiza la aceleración del proceso de resincronización cuando se produce un fallo de sincronismo entre los módulos informáticos (se desconecta el sincronismo de funcionamiento al unísono).

2. Descripción de la técnica relacionada con el invento

Con un sistema convencional de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono, cuando, entre una pluralidad de módulos informáticos que ejecutan la misma cadena de instrucciones al mismo tiempo, se detecta un módulo informático que tiene una salida diferente de la de otros módulos informáticos debido a un fallo o a otro factor externo o interno, se toman las contramedidas que a continuación se indica. En lo que sigue, a un módulo informático que falle en el funcionamiento en sincronización con otros módulos informáticos se le hará referencia como un módulo informático en un estado de pérdida de funcionamiento al unísono.

Más específicamente, se toma una medida tal que, una vez que se corta un módulo informático cuyo funcionamiento al unísono se pierde y que se sustituye el módulo informático según se requiera de acuerdo con un factor que cause la salida del funcionamiento al unísono o cuando no sea necesaria su sustitución, conducir el proceso de reiniciación o un proceso similar de acuerdo con la necesidad de integrar el módulo informático en el estado operativo.

En el instante de la reintegración antes descrita al estado operativo en un sistema convencional tolerante a fallos con sincronismo de funcionamiento al unísono, porque independientemente de si se ha sustituido o no un módulo informático en el estado de pérdida de funcionamiento al unísono, para que el módulo informático se sincronice con otros módulos informáticos continuando con la operación para ejecutar de nuevo el mismo proceso, todos los datos de memoria retenidos por los módulos informáticos en el estado operativo se copian en una memoria mantenida por el módulo informático que se va a reintegrar en el instante de su reintegración.

En un sistema convencional tolerante a fallos con sincronismo de funcionamiento al unísono, después de ejecutar la sustitución de un módulo informático en el estado de pérdida de funcionamiento al unísono, procesar la reiniciación de acuerdo con una parte que cause la salida de la pérdida del funcionamiento al unísono o algo parecido, cuando se vuelva a integrar el módulo informático en cuestión al estado operativo, los módulos informáticos en el estado operativo se detienen durante un largo período de tiempo.

Más específicamente, el sistema convencional tolerante a fallos con sincronismo de funcionamiento al unísono tiene un problema en el sentido de que mientras un módulo informático en el estado de pérdida del funcionamiento al unísono está sometido al proceso de reintegración, el funcionamiento de todo el sistema de ordenador tolerante a fallos está detenido durante un largo período de tiempo (3 a 5 segundos en general o del orden de minutos).

La razón de lo anterior es que, con el fin de integrar un módulo informático en el estado de pérdida del funcionamiento al unísono en el estado operativo, todo el contenido de la memoria se copia todo el tiempo de los módulos informáticos que continúan con la operación en el módulo informático que se va a integrar.

Cuando la operación de un módulo informático normal continúa durante el proceso de copiado, el contenido de la memoria del módulo informático normal tiene una posibilidad de cambiarse también durante el proceso de copiado, con lo que el copiado no se puede realizar adecuadamente. Para evitar dicha situación, un módulo informático que se encuentre en el estado operativo se detiene temporalmente para evitar la actualización del contenido de su memoria.

Puesto que la capacidad de la memoria en un módulo informático actual asciende a varios Gigabytes, el copiado de toda la memoria requerirá un largo período de tiempo.

En un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono, un estado de pérdida del funcionamiento al unísono entre módulos informáticos ocurre debido a varias causas.

El primer caso es un fallo fijo que ocurre dentro de un módulo informático. En este caso, un módulo informático que tenga un fallo debería sustituirse, y cuando se integra el módulo informático que se va a sustituir en un sistema operativo, necesitan copiarse todos los datos contenidos en una memoria de un módulo informático en el estado operativo.

En un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono, se podría producir una pérdida del funcionamiento al unísono porque, además del fallo anteriormente descrito, los módulos informáticos funcionan en tiempos diferentes debido a la diferencia en la fabricación de cada unidad en un módulo informático aunque su funcionamiento sea normal, o debido a un fallo intermitente de memoria corregible automáticamente causado por los efectos de un rayo \alpha o a un fenómeno análogo.

En estos casos, puesto que un fallo fijo no ocurre en un módulo informático en sí mismo, el módulo fundamentalmente no necesita sustitución, y sincronizando de nuevo su proceso con el de otros módulos informáticos en operación para integrar el módulo informático en cuestión, la totalidad del sistema de ordenador tolerante a fallos se puede restablecer a su estado de operación normal.

En el documento DE-A- 41 04 114, se describe un sistema redundante de tratamiento de datos. El sistema redundante de tratamiento de datos comprende al menos dos unidades centrales y medios para detectar estados de interrupción, así como medios para sincronización después que se ha detectado un estado de interrupción. La unidad central con la ejecución del programa más adelantada se retiene en un estado de espera hasta que las otras unidades centrales han alcanzado el estado de programa de la citada unidad central con el fin de introducir una sincronización rápida.

En la patente de EE.UU. Nº 5.020.024, se describen un método y aparato para detectar la ausencia seleccionada de sincronismo lógico digital. El equipo lógico digital provisto, en el que dos elementos lógicos funcionan con control de temporización desde un elemento de reloj con sincronismo seleccionado, incluye un elemento detector de fallos que detecta la ausencia del sincronismo seleccionado entre los dos elementos lógicos aún cuando cada uno esté proporcionando de otro modo la operación lógica correcta.

Sumario del invento

Un objeto del presente invento, que se define mediante las reivindicaciones, es proveer un sistema de ordenador tolerante a fallos, un método de resincronización del mismo y un programa de resincronización del mismo que permiten que un módulo informático cuyo sincronismo de funcionamiento al unísono se desconecta debido a otras causas que a un fallo fijo se vuelva a integrar en un estado operativo a una velocidad mayor que mediante un sistema convencional, reduciendo drásticamente de ese modo el tiempo de detención provisional del funcionamiento del sistema causado por el proceso de la integración.

Otro objeto del presente invento es proveer un sistema de ordenador tolerante a fallos, un método de resincronización del mismo y un programa de resincronización del mismo que realizan un perfeccionamiento de la disponibilidad del sistema mediante la reducción de tiempo para el proceso de la reintegración anteriormente descrito.

De acuerdo con el primer aspecto del presente invento, un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono incluye una pluralidad de módulos informáticos que tienen un procesador y una memoria en los que cada módulo informático procesa la misma cadena de instrucciones en sincronización entre sí, en el que, cuando se detecta disconformidad en un estado de acceso a un bus externo entre los procesadores en cada uno de los módulos informáticos, si no se detecta fallo en el sistema que incluya cada uno de los módulos informáticos, se ejecuta el proceso de reanudar el funcionamiento en sincronización con respecto a cada uno de los módulos informáticos después de generar una interrupción a todos los procesadores para ejecutar el ajuste de retardo con el fin de hacer que sea coincidente un estado de ejecución de instrucción entre los módulos informáticos.

El sistema de ordenador tolerante a fallos comprende además un detector de fallos que vigila la existencia /no existencia de un fallo en el sistema;

un monitor de bus que vigila un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos informáticos;

unos medios de control de interrupción para, en un caso en el que el monitor de bus detecta carencia de sincronización en un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos de ordenador, cuando el detector de fallos detecta que no hay fallo, generar una interrupción para notificar el resultado de la detección a cada uno de los procesadores;

unos medios de control de comunicación entre sistemas conectados a cada uno de los módulos informáticos para notificar un estado de ejecución de instrucción entre los procesadores en cada uno de los módulos informáticos, y unos medios de control de sincronización conectados a cada uno de los módulos informáticos para generar una señal de reposición para reanudar el funcionamiento de todos los módulos informáticos en sincronización después de realizar el ajuste de retardo para hacer que sea coincidente un estado de ejecución de instrucción en cada uno de los módulos informáticos.

Cada uno de todos los procesadores incluye un contador de número de instrucciones que sirve para contar el número de instrucciones ejecutadas en el procesador; el contador de número de instrucciones tiene un fallo de funcionamiento cuando los procesadores reciben una interrupción procedente de los medios de control de interrupción para cambiar a un modo de gestión de procesador para resincronización;

cada uno de los procesadores compara un valor de su propio contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador correspondiente de otros módulos informáticos;

el módulo informático, que no incluye el contador de número de instrucciones que indique el valor máximo entre todos los contadores, realiza el ajuste de retardo de instrucciones de ejecución hasta que el valor del contador de número de instrucciones coincide con el máximo valor de contador de número de instrucciones y cuando los valores coinciden, envía una notificación al módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y el módulo informático, que incluye el contador de número de instrucciones que indica el valor máximo, espera para recibir una notificación de todos los demás módulos informáticos y, cuando recibe todas las notificaciones, instruye a los medios de control de sincronización para que generen una señal de reposición para causar que todos los módulos informáticosr reanuden el funcionamiento sincronizados entre sí.

En otra construcción preferida, en el ajuste de retardo en el que el módulo de ordenador cuyo valor de contador de número de instrucciones no es el máximo ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones, el procesador se configura a un modo de ejecución escalonado para cambiar al modo de gestión de procesador después de ejecutar una instrucción, y el procesador repite el proceso del modo de ejecución escalonado hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones.

En otra construcción preferida, cada uno de todos los procesadores que haya recibido una interrupción de los medios de control de interrupción cambia a un modo de gestión de procesador para realizar un proceso de resincronización en el que un contador de número de instrucciones para contar el número de instrucciones ejecutadas deja de funcionar y se guarda y almacena un valor de contador de programa;

cada uno de los procesadores lee un valor de contador de número de instrucciones de cada procesador y el valor de contador del programa guardado y transmite los valores a todos los demás módulos informáticos.

En otra construcción preferida, en el ajuste de retardo en el que el módulo informático cuyo valor de contador de número de instrucciones no es el máximo ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones, el procesador se configura en un modo de ejecución de designación de punto de ruptura para cambiar al modo de gestión de procesador después de ejecutar hasta una instrucción en una posición específica en una cadena de instrucciones designada;

como posición específica en la cadena de instrucciones, se ha designado una posición de instrucción indicada por el valor de contador de programa recibido del módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y después de ejecutar la cadena de instrucciones hasta una posición específica en una cadena de instrucciones designada, el procesador se cambia al modo de gestión de procesador.

En otra construcción preferida, después de leer un estado de ejecución de programa, el módulo informático, que incluye el contador de número de instrucciones que indica el valor máximo, espera la notificación de otros módulos informáticos;

después de ejecutar el procesamiento del ajuste de retardo, todos los demás módulos informáticos, que no incluyen el contador de número de instrucciones que indica el valor máximo, leen un estado de ejecución de programa y transmiten el estado de ejecución de programa junto con una notificación de terminación del procesamiento de ajuste de retardo al módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y el módulo informático que incluye el contador de número de instrucciones que indica el valor máximo compara los estados de ejecución de programa de todos los módulos informáticos, y cuando todos coinciden entre sí, da instrucciones sobre la generación de la señal de reposición para reanudar la operación de sincronización, y cuando se detecta que un módulo informático cuyo estado de ejecución de programa no es coincidente, da instrucciones sobre la generación de la señal de reposición para reanudar la operación en sincronización después de ejecutar el procesamiento del corte y de invalidar el módulo informático.

En otra construcción preferida, se ha provisto una pluralidad de pares del detector de fallos, del monitor de bus, de los medios de comunicación entre sistemas y de los medios de control de comunicación.

De acuerdo con otro aspecto del invento, se provee un método de resincronización en un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos que tienen un procesador y una memoria en el que cada módulo informático procesa la misma cadena de instrucciones en sincronización entre sí, que comprende las etapas de, cuando se detecta disconformidad en un estado de acceso a un bus externo entre los procesadores de cada módulo informático, si no se detecta un fallo en el sistema que incluye el módulo informático, generar una interrupción a todos los procesadores, y después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción coincida entre los módulos informáticos, ejecutar el proceso de reanudación de la operación en sincronización con respecto a cada uno de los módulos informáticos.

El método de resincronización de un sistema de ordenador tolerante a fallos comprende además las etapas de vigilar la existencia/no existencia de un fallo en el sistema;

vigilar un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos informáticos;

cuando detecta una disconformidad en un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos informáticos, generar una interrupción para notificar el resultado de la detección a todos los procesadores, y después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción sea coincidente entre los módulos informáticos, generar una señal de reposición para ejecutar el proceso de reanudar la operación en sincronización de todos los módulos informáticos.

El método de resincronización comprende además las etapas de cambiar a cada uno de todos los procesadores que hayan recibido la interrupción a un modo de gestión de procesador para el proceso de la resincronización en el que haya fallado la operación de un contador de número de instrucciones para contar el número de instrucciones en el procesador;

cada uno de los procesadores, comparar el valor leído de contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador de otros módulos informáticos;

el módulo informático, que no incluya el contador de número de instrucciones que indica el valor máximo entre todos los contadores, ejecutar el ajuste de retardo de instrucciones de ejecución hasta que el valor de contador de número de instrucciones coincida con el máximo valor de contador de número de instrucciones y cuando los valores coincidan, enviar una notificación al módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y el módulo informático, que incluye el contador de número de instrucciones que indica el valor máximo, esperar para recibir una notificación de todos los otros módulos informáticos y, cuando se reciban todas las notificaciones, generar la señal de reposición para causar que todos los módulos informáticos reanuden la operación en sincronización entre sí.

En otra construcción preferida, en el ajuste de retardo en el que el módulo informático cuyo valor de contador de número de instrucciones no es el máximo, ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones;

el procesador se configura en un modo de ejecución escalonado para cambiar al modo de gestión de procesador después de ejecutar una instrucción, y el procesador repite el proceso del modo de ejecución escalonado hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones.

En otra construcción preferida, cada uno de todos los procesadores que ha recibido la interrupción cambia a un modo de gestión de procesador para procesamiento de resincronización en el que un contador de número de instrucciones para contar el número de instrucciones ejecutadas en el procesador tiene un fallo de funcionamiento y se guarda y almacena un valor de contador de programa;

cada uno de los procesadores lee el valor de contador de instrucciones de cada procesador y el valor del contador de programa guardado y transmite los valores a todos los demás módulos informáticos.

En otra construcción preferida, en el ajuste de retardo en el que el módulo informático cuyo valor de contador de número de instrucciones no es el máximo, ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincida con el valor máximo de contador de número de instrucciones;

el procesador se configura en un modo de ejecución de designación de punto de ruptura para cambiar al modo de gestión de procesador después de ejecutar hasta una instrucción en una posición específica en una cadena de instrucciones designada;

después de ejecutar el proceso del retardo de ajuste, todos los otros módulos informáticos, que no incluyan el contador de número de instrucciones que indica el valor máximo, leen un estado de ejecución de programa y transmiten el estado de ejecución de programa junto con una notificación de terminación del proceso de ajuste de retardo al módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y el módulo informático que incluye el contador de número de instrucciones que indica el valor máximo compara los estados de ejecución de programa de todos los módulos informáticos, y cuando todos coinciden entre sí, da instrucciones sobre la generación de la señal de reposición para restablecer el funcionamiento de la sincronización, y cuando se detecte un módulo informático cuyo estado de ejecución de programa no sea coincidente, da instrucciones sobre la generación de la señal de reposición para reanudar la operación después de ejecutar el procesamiento de cortar e invalidar el módulo informático.

De acuerdo con otro aspecto del invento, se provee un programa de resincronización para ejecutar el proceso de resincronización de un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos que tienen un procesador y una memoria en el que cada módulo informático procesa la misma cadena de instrucciones en sincronización de reloj entre sí, que comprende las funciones de, cuando se detecta disconformidad en un estado de acceso a un bus externo entre los procesadores de cada módulo informático, si no se detecta un fallo en el sistema que incluye el módulo informático, generar una interrupción a todos los procesadores, y causar que cada procesador reanude la operación en sincronización después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción sea coincidente entre los módulos informáticos.

El programa de resincronización comprende además las funciones de vigilar la existencia/no existencia de un fallo en el sistema;

vigilar un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos informáticos; cuando detecta una disconformidad en un estado de acceso al bus externo de cada uno de los procesadores en cada uno de los módulos informáticos, si no se detecta un fallo en la monitorización de fallos, generar una interrupción para notificar el resultado de la detección a cada uno de los procesadores, y después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción sea coincidente entre los módulos informáticos, generar una señal de reposición para reanudar la operación en sincronización de todos los módulos informáticos.

El programa de resincronización comprende la función de cambiar a cada uno de todos los procesadores que hayan recibido la interrupción a un modo de gestión de procesador para el proceso de resincronización en el que haya fallado la operación de un contador de número de instrucciones para contar el número de instrucciones en el procesador;

la función de que cada uno de los procesadores compare el valor leído de contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador de otros módulos informáticos;

la función de que el módulo informático, que no incluya el contador de número de instrucciones que indica el valor máximo entre todos los contadores, ejecute el ajuste de retardo de instrucciones de ejecución hasta que el valor de contador de número de instrucciones coincida con el máximo valor de contador de número de instrucciones y cuando los valores coincidan, enviar una notificación al módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y la función de que el módulo informático, que incluye el contador de número de instrucciones que indica el valor máximo, espere a recibir una notificación de todos los otros módulos informáticos y, cuando se reciban todas las notificaciones, dar instrucciones sobre la generación de la señal de reposición para causar que todos los módulos informáticos reanuden la operación en sincronización.

En otra construcción preferida, el programa de resincronización comprende, en el ajuste de retardo en el que el módulo informático cuyo valor de contador de número de instrucciones no es el máximo, ejecutar instrucciones hasta que el valor de contador de número de instrucciones coincida con el valor máximo de contador de número de instrucciones;

la función de configurar el procesador en un modo de ejecución escalonada para cambiar al modo de gestión de procesador después de ejecutar una instrucción;

la función de que el procesador repita el proceso del modo de ejecución escalonada hasta que el valor del contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones.

En otra construcción preferida, el programa de resincronización comprende la función de cambiar a cada uno de todos los procesadores que hayan recibido la interrupción al modo de gestión de procesador para el proceso de resincronización en el que haya fallado un contador de número de instrucciones del procesador, y se guarda y almacena un valor de contador de programa;

la función de que cada procesador lee el valor de contador de número de instrucciones de cada procesador y el valor guardado de contador de programa y transmite los valores a todos los demás módulos informáticos;

la función de configurar el procesador en un modo de ejecución de punto de ruptura para cambiar al modo de gestión de procesador después de ejecutar al procesador hasta una instrucción en una posición específica en una cadena de instrucciones designada;

la función de, como posición específica en la cadena de instrucciones, designar una posición de instrucción indicada por el valor de contador de programa recibido del módulo informático que incluye el contador de número de instrucciones que indica el valor máximo, y la función de cambiar el procesador al modo de gestión de procesador después que el procesador ejecuta la cadena de instrucciones hasta la posición específica en una cadena de instrucciones designada.

En otra construcción preferida, el programa de resincronización comprende la función de que el módulo informático, que incluye el contador de número de instrucciones que indica el valor máximo, espera la notificación de todos los otros módulos informáticos después de leer un estado de ejecución de programa, la función de que todos los otros módulos informáticos, que no incluyan el contador de número de instrucciones que indique el valor máximo, lean un estado de ejecución de programa y transmitan el estado de ejecución de programa junto con una notificación de terminación del proceso de ajuste de retardo al módulo informático que incluya el contador de número de instrucciones que indique el, valor máximo después de ejecutar el proceso del ajuste de retardo, y la función de que el módulo informático que incluya el contador de número de instrucciones que indica el valor máximo compare los estados de ejecución de programa de todos los módulos informáticos, y cuando todos coincidan entre sí, dé instrucciones sobre la generación de la señal de reposición para reanudar la operación en sincronización y, cuando se detecte un módulo informático cuyo estado de ejecución de programa no sea coincidente, dé instrucciones sobre la generación de la señal de reposición para reanudar la operación en sincronización después de ejecutar el proceso de cortar e invalidar el módulo informático.

Otros objetos, características y ventajas del presente invento resultarán claros a partir de la descripción detallada que se da a continuación en la presente memoria.

Breve descripción de los dibujos

El presente invento se entenderá con mayor plenitud a partir de la descripción detallada que se dá a continuación en la presente memoria y a partir de los dibujos adjuntos de la realización preferida del invento, la cual, no obstante, no debe considerarse con carácter limitativo, sino únicamente a título de explicación y comprensión.

En los dibujos:

La Figura 1 es un diagrama de bloques que muestra una estructura de un sistema de ordenador tolerante a fallos de acuerdo con un primer modo de realización del presente invento;

La Figura 2 es un diagrama de flujo para usar en la explicación de la primera operación del sistema de ordenador tolerante a fallos de acuerdo con el primer modo;

La Figura 3 es un diagrama de flujo para usar en la explicación de la primera operación del sistema de ordenador tolerante a fallos;

La Figura 4 es un diagrama de flujo para usar en la explicación de la segunda operación del sistema de ordenador tolerante a fallos;

La Figura 5 es un diagrama de flujo para usar en la explicación de la segunda operación del sistema de ordenador tolerante a fallos;

La Figura 6 es un diagrama de flujo para usar en la explicación de la tercera operación del sistema de ordenador tolerante a fallos;

La Figura 7 es un diagrama de bloques que muestra una estructura de un sistema de ordenador tolerante a fallos de acuerdo con un segundo modo de realización;

La Figura 8 es un diagrama de flujo para usar en la explicación de la operación del sistema de ordenador tolerante a fallos de acuerdo con el segundo modo;

La Figura 9 es un diagrama de flujo para usar en la explicación de la operación del sistema de ordenador tolerante a fallos de acuerdo con la segunda realización; y

La Figura 10 es un diagrama de bloques que muestra una estructura de un sistema de ordenador tolerante a fallos de acuerdo con un tercer modo de realización.

Descripción de la realización preferida

A continuación se describe detalladamente en la presente memoria la realización preferida del presente invento con referencia a los dibujos adjuntos. En la descripción siguiente, se especifican numerosos detalles específicos con el fin de proporcionar una comprensión completa del presente invento. Sin embargo, para los expertos en la técnica será obvio que el invento se puede llevar a la práctica sin estos detalles específicos. En otros casos, no se muestran estructuras bien conocidas con el fin de no oscurecer innecesariamente el presente invento.

En lo siguiente se describirán con detalle los modos de realización del presente invento con referencia a los dibujos adjuntos.

En la Figura 1 se muestra la estructura de un sistema de ordenador tolerante a fallos de acuerdo con un primer modo de realización del presente invento. En la Figura 1, el sistema de ordenador tolerante a fallos incluye una pluralidad de módulos informáticos 100 y 200, cada uno de cuyos módulos informáticos 100 y 200 procesa la misma cadena de instrucciones en sincronización de reloj entre sí. El sistema de ordenador tolerante a fallos compara un resultado de procesamiento de cada módulo informático para activarlo. Cuando un módulo informático desarrolla un fallo, el proceso puede continuar mediante el restante módulo informático.

Los módulos informáticos incluyen una pluralidad de procesadores 101 y 102, un bus externo 103 de procesador, una memoria 104 y una unidad 105 de control de memoria. El módulo informático 200 incluye también los mismos componentes que el módulo informático 100. Adicionalmente, los módulos informáticos 100 y 200 están conectados a unas unidades 400 y 500 de control de dispositivo periférico para controlar un dispositivo periférico a través de las unidades 105 y 205 de control de memoria.

El sistema de ordenador tolerante a fallos anteriormente descrito incluye un detector 700 de fallos, un monitor 701 de bus, una unidad 702 de control de interrupción, una unidad 703 de control de comunicación entre sistemas, y una unidad 704 de control de sincronización.

El detector 700 de fallos vigila la existencia/no existencia de un fallo en la totalidad del sistema incluyendo los respectivos módulos informáticos 100 y 200.

El monitor 701 de bus vigila un estado de acceso a los buses externos 103 y 203 del procesador en cada uno de los módulos informáticos 100 y 200.

En un caso en el que el monitor 701 de bus detecta una disconformidad en la salida de cada procesador en los respectivos módulos informáticos 100 y 200 al bus externo, cuando el detector 700 de fallo detecta que no hay fallo, la unidad 702 de control de interrupción genera una interrupción para notificar el efecto a todos los procesadores.

La unidad 703 de control de comunicación entre sistemas, que está conectada a los respectivos módulos informáticos 100 y 200, proporciona un camino de comunicación para comprobar un estado de disconformidad en operación por los procesadores de los respectivos módulos informáticos 100 y 200.

La unidad 704 de control de sincronización, que está conectada a los respectivos módulos informáticos 100 y 200, genera una señal de reposición para controlar la resincronización a todos los módulos informáticos 100 y 200 en respuesta a una instrucción de cualquiera de los procesadores.

En este caso, el número de procesadores incluidos en cada uno de los módulos informáticos 100 y 200 no se limita a dos como se ha mostrado en el presente modo de realización, y cada módulo informático se puede instalar con uno, o tres o más procesadores.

Adicionalmente, el número de módulos informáticos no se limita a dos como se ha mostrado en el presente modo de realización, y se podrían incluir tres o más módulos informáticos que tendrían el mismo efecto que el del presente invento.

A continuación se describe con detalle la operación de dicha estructura de sistema de ordenador tolerante a fallos de acuerdo con el primer modo de realización, con referencia a las Figuras 1, 2 y 3.

El detector 700 de fallos vigila la existencia/no existencia de un fallo en la totalidad del sistema de ordenador tolerante a fallos incluyendo los respectivos módulos informáticos 100 y 200 y las respectivas unidades 400 y 500 de control de dispositivo periférico, y notifica el resultado a la unidad 702 de control de interrupción:

El monitor 701 de bus está conectado a los buses externos 103 y 203 de los procesadores de los respectivos módulos informáticos 100 y 200. El monitor 701 de bus compara un estado de acceso (protocolo de bus) de los procesadores 101, 102, 201 y 202 al bus externo para vigilar si los procesadores respectivos 101, 102, 201 y 202 acceden o no a los buses externos 103 y 203 de procesador en los mismos tiempos en sincronización entre sí. Cuando detecta una falta de coincidencia en la operación de los procesadores 101, 102, 201 y 202, el monitor 701 de bus notifica el efecto a la unidad 702 de control de interrupción.

Cuando el monitor 701 de bus ha notificado la detección de falta de sincronización en operación, si el detector 700 de fallo detecta que no hay fallo en el sistema de ordenador tolerante a fallos, la unidad 702 de control de interrupción genera una interrupción con el fin de notificar el efecto a todos los procesadores de cada módulo informático.

La unidad 702 de control de interrupción suprime también la generación de una nueva interrupción después de la generación de una interrupción hasta que se haya dado una instrucción procedente de la unidad 704 de control de sincronización. La supresión impide el reconocimiento de falta de sincronización en operación de un acceso al bus externo de los procesadores, que es causado por el procesamiento de resincronización para cada módulo informático, como una falta de sincronización en funcionamiento normal.

Cada uno de los procesadores 101, 102, 201 y 202 que haya recibido la interrupción procedente de la unidad 702 de control de interrupción corrige la desviación en operación (pérdida del funcionamiento al unísono) entre los respectivos módulos informáticos 100 y 200 mediante la ejecución del procesamiento de resincronización para recuperar un estado en el que la misma cadena de instrucciones se ejecute en sincronización de reloj entre sí.

A continuación se describe el proceso relevante de resincronización con referencia a los diagramas de flujo representados en las Figuras 2 y 3.

Tras recibir una interrupción, cada uno de los procesadores 101, 102, 201 y 202 cambia a un modo de gestión de procesador para el procesamiento de resincronización en el que deja de funcionar un contador de número de instrucciones para contar el número de instrucciones ejecutadas en el procesador (etapa 201).

Luego, cada uno de los procesadores 101, 102, 201 y 202 lee un valor de su propio contador de número de instrucciones (etapa 202) para transmitir el valor leído del contador de número de instrucciones a otro módulo informático a través de las unidades 105 y 205 de control de memoria y de la unidad 703 de control de comunicación entre sistemas (etapa 203).

Cada uno de los procesadores 101, 102, 201 y 202 lee también el valor del contador de número de instrucciones del procesador en otro módulo informático transmitido desde el otro módulo informático a través de la unidad 703 de control de comunicación entre sistemas y de las unidades 105 y 205 de control de memoria (etapa 204). Cada uno de los procesadores compara dicho valor con el valor del contador de número de instrucciones del procesador correspondiente en cada uno de todos los módulos informáticos (etapa 205).

En este caso, el módulo informático que incluye un procesador cuyo contador de número de instrucciones indica el valor máximo entre todos los contadores(de aquí en adelante se le denominará el módulo informático con el contador de número de instrucciones del valor máximo), mientras otros módulos informáticos ejecutan instrucciones equivalentes a un retardo como un resultado de la comparación de los valores de contador de número de instrucciones, realiza el proceso de poner a la cola la ejecución (etapa 206). Cuando los números de instrucciones ejecutadas en todos los módulos informáticos 100 y 200 coinciden entre sí, el módulo informático con el contador de número de instrucciones del valor máximo da instrucciones a la unidad 704 de control de sincronización a través de la unidad 105 ó 205 de control de memoria para generar una instrucción de reposición para procesamiento de resincronización a todos los módulos informáticos 100 y 200 (etapa 207).

Por otra parte, todos los módulos informáticos que no incluyen el contador de número de instrucciones que indica el valor máximo ejecutan un proceso de ajuste escalonado de retardo de instrucciones de ejecución hasta introducir el mismo estado de ejecución de cadena de instrucciones que el del módulo informático cuyo número de instrucciones ejecutadas (el valor del contador de número de instrucciones) es el máximo (etapa 208). Cada uno de los módulos informáticos, cuyo valor de contador de número de instrucciones no es el máximo, notifica la terminación del proceso de ajuste escalonado de retardo al módulo informático cuyo valor de contador de número de instrucciones es el máximo (etapa 209) y después de ello espera una instrucción de reposición para el proceso de resincronización (etapa 210).

Tras recibir la instrucción del módulo informático con el contador de número de instrucciones que indica el valor máximo, la unidad 704 de control de sincronización genera una señal de reposición para reanudar la operación en sincronización simultáneamente a todos los módulos informáticos 100 y 200. Adicionalmente, la unidad 704 al mismo tiempo da a la unidad 702 de control de interrupción una instrucción para permitir la generación de una interrupción, preparando de ese modo para operación normal en la sincronización que se va a restablecer.

La Figura 3 muestra la función detallada del proceso de ajuste escalonado de retardo ilustrado en la Figura 2.

En el proceso de ajuste escalonado de retardo (etapa 208 de la Figura 2), los procesadores se configuran a un modo de ejecución escalonado en el que los procesadores se cambian al modo de gestión de procesador justo después de ejecutar una instrucción (etapa 301). Después de ello, los procesadores se cambian a un modo de ejecución normal (etapa 302).

Como resultado, después de ejecutar solamente una instrucción (etapa 303), el procesador cambia al modo de gestión de procesador (etapa 304).

El procesador lee el valor de su propio contador de número de instrucciones (etapa 305) y compara el valor leído con el valor del contador de número de instrucciones ya recibido del módulo informático con el valor máximo (etapa 306). Cuando dejan de coincidir entre sí, el procesador repite de nuevo el proceso del modo de ejecución escalonado (etapa 301) y cuando coinciden entre sí, completa el procesamiento del ajuste escalonado de retardo.

La función anteriormente descrita permite que un estado de un módulo informático cuyo sincronismo de funcionamiento al unísono se haya perdido debido a otra causa que a un fallo fijado coincida con un estado de otros módulos informáticos. En general, cuando la carencia de sincronización se detecta primero por la vigilancia de los buses externos, aún en el estado de pérdida de sincronismo, su grado de pérdida de sincronismoes suficientemente bajo para ser restablecido al estado que ejecuta la misma cadena de instrucciones mediante la ejecución de varias etapas de proceso anteriormente descritas. Por tanto, su tiempo de proceso se puede reducir drásticamente comparado con un sistema convencional en el que se copian todas las regiones de la memoria.

Las Figuras 4 y 5 son diagramas de flujo que explican la segunda operación del proceso de resincronización en el sistema de ordenador tolerante a fallos estructurado como se muestra en la Figura 1.

En esta segunda operación, los procesadores 101, 102, 201 y 202 que han recibido una interrupción de la unidad 702 de control de interrupción ejecutan cada uno el procesamiento de resincronización ilustrado en la Figura 4 para corregir la desviación en operación (pérdida del sincronismo de funcionamiento al unísono) entre los respectivos módulos informáticos 100 y 200 y para recuperar el estado en que la misma cadena de instrucciones se ejecuta en sincronización.

Tras recibir la interrupción, cada uno de los procesadores 101, 102, 201 y 202 cambia al modo de gestión de procesador para proceso de resincronización en el que el contador de número de instrucciones del procesador para contar el número de instrucciones ejecutadas tiene un fallo en su operación y se guarda y almacena un valor del contador de programa (PC) en operación normal (etapa 401).

Cada uno de los procesadores 101, 102, 201 y 202 lee su propio valor de contador de número de instrucciones y el valor guardado del contador de programa (eyapa 402) y transmite los valores leídos a otros módulos informáticos a través de las unidades 105 y 205 de control de memoria y de la unidad 703 de control de comunicación entre sistemas (etapa 403).

Cada uno de los procesadores 101, 102, 201 y 202 lee también un valor del contador de número de instrucciones y un valor de contador de programa del procesador de otro módulo informático que se haya transmitido desde el otro módulo informático a través de la unidad 703 de control de comunicación entre sistemas, y de las unidades 105 y 205 de control de memoria (etapa 404). Cada uno de los procesadores compara el valor de su propio contador de número de instrucciones con el valor del contador de número de instrucciones del procesador correspondiente de cada uno de todos los módulos informáticos (etapa 405).

En este caso, el módulo informático que incluye un procesador cuyo contador de número de instrucciones indica el valor máximo entre todos los procesadores, mientras otros módulos informáticos ejecutan instrucciones equivalentes a un retardo como un resultado de la comparación, realiza el proceso de poner a la cola la ejecución (etapa 406). Cuando los números de instrucciones ejecutadas coinciden en todos los módulos informáticos, el módulo informático con el contador de número de instrucciones del valor máximo da instrucciones a la unidad 704 de control de sincronización a través de la unidad 105 ó 205 de control de memoria para generar una instrucción de reposición para el proceso de resincronización a todos los módulos informáticos (etapa 407).

Por otra parte, todos los módulos informáticos cuyo valor de contador de número de instrucciones no es el valor máximo ejecutan un proceso de ajuste de etapa de retardo de instrucciones de ejecución hasta que se ha ejecutado el mismo número de instrucciones que el del módulo informático cuyo contador de número de instrucciones indica el valor máximo (etapa 408). Cada uno de los módulos informáticos, en los que no existe el contador de número de instrucciones de valor máximo, notifica la terminación del proceso de ajuste escalonado de retardo al módulo informático cuyo valor de contador de número de instrucciones es el máximo (etapa 409) y después de ello espera una instrucción de reposición para el proceso de resincronización (etapa 410).

La Figura 5 muestra detalles del proceso de ajuste escalonado de retardo.

En el proceso de ajuste escalonado de retardo anteriormente descrito (etapa 408 en la Figura 4), los procesadores se configuran a un modo de ejecución de designación de punto de ruptura que vuelve a cambiar al procesador al modo de gestión de procesador después que se han ejecutado instrucciones hasta una posición específica en una cadena de instrucciones designada. En este momento, como posición específica de la cadena de instrucciones, se designa una posición de instrucción indicada por un valor de contador de programa recibido del módulo informático con el contador de número de instrucciones del valor máximo (etapa 501). Después de esto, los procesadores se cambian al modo de ejecución normal (etapa 502).

Como resultado, después de ejecutar las instrucciones hasta la posición específica en la cadena de instrucciones designada, es decir, hasta la misma posición en la cadena de instrucciones que la existente en el módulo informático con el contador de número de instrucciones del valor máximo (etapa 503), el procesdor completa el proceso de ajuste de etapa de retardo y cambia otra vez al modo de gestión de procesador (etapa 504).

La Figura 6 es un diagrama de flujo que explica la tercera operación del sistema de ordenador tolerante a fallos de acuerdo con el primer modo de realización, que en particular muestra otro ejemplo de proceso siguiente al proceso de comparación de contadores de número de instrucciones (etapa 205 de la Figura 2 y etapa 405 de la figura 4) en la operación mostrada en las Figuras 2 y 4.

En el proceso mostrado en la figura 6, después de leer un estado de ejecución de programa en el módulo informático con el contador de número de instrucciones del valor máximo (etapa 601), el módulo informático con el valor máximo espera una notificación de terminación del proceso de ajuste escalonado de retardo desde otros módulos informáticos (etapa 602).

Por otra parte, después de ejecutar el proceso de ajuste escalonado de retardo por cualquiera de los métodos anteriormente descritos o por un método similar (etapa 701), todos los demás módulos informáticos cuyo valor de contador de número de instrucciones no es el valor máximo, leen cada uno su estado de ejecución de programa (etapa 702). Cada uno de los otros módulos informáticos transmite el estado de ejecución de programa al módulo informático cuyo valor de contador de número de instrucciones es el máximo junto con la notificación de la terminación del proceso de ajuste escalonado de retardo (etapa 703) y después de ello espera una instrucción de reposición para el proceso de resincronización (etapa 704).

El módulo informático con el contador de número de instrucciones que indica el valor máximo que ha recibido los estados de ejecución de programa, compara los estados de ejecución de programa de todos los módulos informáticos (etapa 603). El módulo informático con el contador de número de instrucciones que indica el valor máximo ejecuta la operación de sincronización reanudando el proceso inmediatamente en un caso en el que todos los estados coincidan. Cuando se detecta un módulo informático cuyo estado deja de coincidir, el módulo informático con el contador de número de instrucciones que indica el valor máximo ejecuta la operación reanudando el proceso de todos los otros módulos informáticos (etapa 605) después de ejecutar el proceso de cortar solamente el módulo informátio en cuestión para invalidar el mismo (etapa 604).

El contenido del proceso mostrado en la Figura 6 permite incluso a un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono adoptar un procesador que no siempre está disponible en la ejecución escalonada y en la ejecución de punto de ruptura para realizar el presente invento sin tener resultados erróneos de proceso.

A continuación, con referencia a la Figura 7, se hará una descripción de un sistema de ordenador tolerante a fallos de acuerdo con un segundo modo de realización del presente invento.

Con referencia a la Figura 7, el sistema de ordenador tolerante a fallos de acuerdo con el presente modo de realización incluye una pluralidad de módulos informáticos 100, 200 y 300 cada uno de los cuales tiene un procesador y una memoria y una pluralidad de unidades 400 y 500 de control de dispositivo periférico que tienen unos mecanismos 803 y 804 para la conexión con un dispositivo periférico, respectivamente. Cada uno de los módulos informáticos 100, 200 y 300 procesa la misma cadena de instrucciones en sincronización entre sí y compara un resultado de proceso de cada módulo informático para activarlo. Aún cuando un módulo informático desarrolle un fallo, el proceso se puede continuar mediante los restantes módulos informáticos.

En el sistema de ordenador tolerante a fallos de acuerdo con el segundo modo de realización, cada una de las unidades 400 y 500 de control de dispositivo periférico incluye un detector 700 de fallos, un monitor 701 de bus, una unidad 702 de control de interrupción, una unidad 703 de control de comunicación entre sistemas, y una unidad 704 de control de sincronización que se muestran en la Figura 1 y además incluye un puente de interconexión de componentes periféricos (en adelante PCI) 705 para controlar la conexión entre cada módulo informático y cada unidad de control en la unidad de control de dispositivo periférico y en los mecanismos 803 y 804 de conexión de dispositivo periférico.

Aunque no se ha mostrado en las figuras, la estructura interna de la unidad 500 de control de dispositivo periférico es completamente igual que la de la unidad 400 de control de dispositivo periférico, y el tipo de medios de control que se van a usar en la unidad 400 de control de dispositivo periférico o en la unidad 500 de control de dispositivo periférico se puede determinar arbitrariamente mediante un programa a ejecutar en el procesador del módulo informático, permitiendo de ese modo, aún cuando la unidad 400 o 500 de control de dispositivo periférico relacionada con la sincronización desarrolle un fallo, aumentar la disponibilidad mediante el uso de la unidad 400 o 500 de control de dispositivo periférico que no haya fallado.

El presente modo de realización consigue el efecto del presente invento mediante la misma operación que el modo de realización anteriormente descrito mostrado en la Figura 1, excepto que la conexión entre los respectivos módulos informáticos 100, 200 y 300 y las respectivas unidades 400 y 500 de control de dispositivo periférico se establece usando el puente de PCI 705 como una interfaz representativa de conexión de dispositivo periférico y que la transmisión y recepción de datos a y desde la unidad 703 de control de comunicación entre sistemas y una instrucción de proceso de reposición a la unidad 704 de control de sincronización se ejecutan mediante el uso del protocolo de PCI.

Adicionalmente, el presente modo de realización muestra la estructura donde se han provisto tres módulos informáticos, y el funcionamiento detallado del proceso de resincronización con la estructura es como se ha ilustrado en las Figura 8 y 9. La Figura 8 muestra un flujo de operación generalizada a partir de la operación anteriormente descrita en la Figura 2 en un caso en el que un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono incluye tres o más módulos informáticos. Los contenidos de los procesos son los mismos que los mostrados en las Figuras 2 y 3, excepto que el número de módulos informáticos es diferente.

Más específicamente, en los diagramas de flujo mostrados en las Figuras 8 y 9, tras recibir una interrupción, cada procesador cambia al modo de gestión de procesador para resincronización, un modo en el que el contador de número de instrucciones que sirve para contar el número de instrucciones ejecutadas en el procesador tiene un fallo de funcionamiento (etapa 801).

Entonces, cada procesador lee un valor de su propio contador de número de instrucciones (etapa 802) y transmite el valor leído del contador de número de instrucciones a los otros módulos informáticos a través de las unidades 105 y 205 de control de memoria, puente PCI 705 y unidad 703 de control de comunicación entre sistemas (etapa 803).

Cada procesador lee también el valor del contador de número de instrucciones del procesador de otro módulo informático transmitido desde el otro módulo informático en cuestión a través de la unidad 703 de control de comunicación entre sistemas, del puente PCI 705 y de las unidades 105 y 205 de control de memoria (etapa 804). Cada procesador compara dicho valor con el valor del contador de número de instrucciones del procesador correspondiente en cada uno de todos los módulos informáticos (etapa 805).

En este caso, el módulo informático que incluye un procesador cuyo contador de número de instrucciones indica el valor máximo entre todos los contadores, mientras otros módulos informáticos ejecutan instrucciones equivalentes a un retardo como un resultado de la comparación de los valores de contador de número de instrucciones, realiza el proceso de poner a la cola la ejecución (etapa 806). Cuando los números de instrucciones ejecutadas en todos los módulos informáticos 100, 200 y 300 coinciden entre sí, el módulo informático con el contador de número de instrucciones del valor máximo da instrucciones a la unidad 704 de control de sincronización para generar una instrucción de reposición para el proceso de resincronización a todos los módulos informáticos 100, 200 y 300 a través de la unidad 105 ó 205 de control de memoria y del puente PCI 705 (etapa 807).

Por otra parte, todos los módulos informáticos cuyo valor de contador de número de instrucciones no es el valor máximo, ejecutan el proceso de ajuste de etapa de retardo de instrucciones de ejecución hasta introducir el mismo estado de ejecución de cadena de instrucciones que el del módulo informático con el contador de número de instrucciones que indica el valor máximo (etapa 808). Cada uno de los módulos informáticos, en los que no existe el contador de número de instrucciones de valor máximo, notifica la terminación del proceso de ajuste de etapa de retardo al módulo informático cuyo valor de contador de número de instrucciones es el máximo (etapa 809) y después de ello espera una instrucción de reposición para el proceso de resincronización (etapa 810).

Tras recibir la instrucción, la unidad 704 de control de sincronización genera una señal de reposición para restablecer la operación en sincronización simultáneamente a todos los módulos informáticos 100, 200 y 300. Adicionalmente, la unidad 704 al mismo tiempo da a la unidad 702 de control de interrupción una instrucción para permitir la generación de una interrupción cuando la operación carece de sincronización, preparando dse ese modo para que se restablezca la operación normal en sincronización.

La Figura 9 muestra la función detallada del proceso de ajuste escalonado de retardo ilustrado en la Figura 8.

En el proceso de ajuste escalonado de retardo (etapa 808 de la Figura 8), los procesadores se configuran a un modo de ejecución de etapa en el que los procesadores se cambian al modo de gestión de procesador justo después de ejecutar una instrucción (etapa 901), Después de esto, los procesadores se cambian a un modo de ejecución normal (etapa 902).

Como resultado, después de ejecutar solamente una instrucción (etapa 903), el procesador cambia al modo de gestión de procesador (etapa 904).

El procesador lee el valor de su propio contador de número de instrucciones (etapa 905), y compara el valor leído con el valor del contador de número de instrucciones ya recibido del módulo informático con el contador de número de instrucciones que indica el valor máximo (etapa 906). Cuando fallan en coincidir entre sí, el procesador repite de nuevo el proceso del modo de ejecución escalonada (etapa 901) y cuando coinciden entre sí, completa el proceso de ajuste escalonado de retardo.

La Figura 10 muestra una estructura de un sistema de ordenador tolerante a fallos de acuerdo con un tercer modo de realización del presente invento. Con referencia a la Figura 10, el sistema de ordenador tolerante a fallos de acuerdo con el presente modo de realización es el mismo que el del segundo modo de realización mostrado en la Figura 7, con la excepción de que la transmisión y recepción de información a y desde cada módulo informático por el monitor 701 de bus y la unidad 702 de control de interrupción se ejecutan también a través del puente PCI 705, y obtiene el mismo efecto por la misma operación mostrada en las Figuras 8 y 9.

En el sistema de ordenador tolerante a fallos del presente invento, la función de cada unidad que ejecuta el proceso de resincronización se puede realizar no sólo por hardware, sino también mediante la carga de un programa 1000 de proceso de resincronización que ejecuta la función de cada una de las unidades anteriormente descritas en una memoria de un dispositivo de proceso de ordenador para controlar el dispositivo de proceso de ordenador. El programa 1000 de proceso de resincronización se guarda en un medio de grabación tal como un disco magnético o una memoria de semiconductor y se carga desde el medio de grabación al dispositivo de proceso de ordenador para controlar la operación del dispositivo de proceso de ordenador, realizando de ese modo cada una de las funciones anteriormente descritas.

Aunque en lo anterior se ha descrito el presente invento con respecto a los modos preferidos de realización, el presente invento no se limita necesariamente a los modos de realización anteriormente descritos, sino que se realiza en formas diversas dentro del alcance de las reivindicaciones.

Con independencia de si el número de módulos informáticos es de dos, tres o más, el presente invento logra completamente el mismo efecto mediante la estructura y operación anteriormente descritas.

Adicionalmente, no se plantea restricción alguna sobre el número de procesadores de cada módulo informático, y la estructura que está provista de un procesador funciona completamente de la misma manera que la estructura provista de tres o más procesadores. Además, aunque se ha mostrado en cada uno de los modos de realización anteriormente descritos un caso en el que los respectivos procesadores comparten un bus externo y están conectados al mismo bus, ni, por ejemplo, una estructura en la que una pluralidad de procesadores están conectados en la forma de una constelación a una unidad de control de memoria, ni una estructura en la que los procesadores que forman un módulo informático están formados físicamente divididos en una pluralidad de regletas afectan a los efectos del presente invento.

Más aún, el presente invento podría incluir un par de un módulo informático y unidades respectivas para resincronización tales como un monitor de bus o una pluralidad de pares de estos componentes. Adicionalmente, estos componentes podrían proveerse en una unidad de control de dispositivo periférico o podrían formarse en un cuadro exclusivo o elemento similar.

Alternativamente, el módulo informático y otras unidades respectivas para resincronización tales como el monitor de bus podrían conectarse mediante una PCI o unos medios de interfaz u otros medios estándar tales como PCI-X, o por medios de interfaz exclusivos no normalizados para obtener el mismo efecto que el descrito anteriormente.

Según se ha descrito en la exposición anterior, el presente invento obtiene los efectos siguientes.

El primer efecto es permitir que un cierto módulo informático de un sistema de ordenador tolerante a fallos, cuando se desconecta del estado de sincronismo con funcionamiento al unísono debido a otra causa que un fallo fijado, se restablezca al estado sincronismo con funcionamiento al unísono en un período de tiempo extremadamente corto.

La razón es que en una etapa inicial de generación de pérdida de sincronismo, cuando la desviación en el proceso de cada módulo informático es pequeña, mediante la generación de una interrupción a un procesador y después de ajustar un retardo de un módulo informático cuyo proceso tiene un retardo para restablecer la operación en sincronización, se puede restablecer la operación de sincronización sin copiar toda la memoria.

El segundo efecto es mejorar la disponibilidad del sistema de ordenador tolerante a fallos. La razón es que un período de tiempo de detención de todo el sistema se puede reducir drásticamente acelerando significativamente el tiempo del proceso de resincronización cuando se pierde el sincronismo de funcionamiento al unísono.

Aunque el invento se ha ilustrado y descrito con respecto a una realización ejemplar del mismo, los expertos en la técnica entenderán que en el anterior se pueden hacer otros diversos cambios, omisiones y adiciones en el mismo y al mismo, sin apartarse del alcance de las presentes reivindicaciones.

Claims

1. Un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos (100, 200, 300) que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304) en el que cada módulo informático (100, 200, 300) procesa la misma cadena de instrucciones en sincronización entre sí, cuyo sistema de ordenador comprende

un detector de fallos (700) que vigila la existencia/no existencia de un fallo en el sistema:

un monitor (701) de bus que vigila un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300);

unos medios (702) de control de interrupción para, en un caso en que dicho monitor (701) de bus detecte carencia de sincronización en un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300), cuando dicho detector (700) de fallos detecta que no hay fallo, generar una interrupción para notificar el resultado de la detección a cada uno de dichos procesadores;

unos medios (703) de control de comunicación entre sistemas conectados a cada uno de dichos módulos informáticos (100, 200, 300) para notificar un estado de ejecución de instrucción entre dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300), y

unos medios (704) de control de sincronización conectados a cada uno de dichos módulos informáticos (100, 200, 300) para generar una señal de reposición para reanudar la operación de todos los mencionados módulos informáticos (100, 200, 300) en sincronización después de realizar un ajuste de retardo para hacer que sea coincidente un estado de ejecución de instrucción en cada uno de dichos módulos informáticos (100, 200, 300),

en el que cada uno de dichos módulos informáticos está configurado de tal manera que

cada uno de todos los mencionados procesadores incluye un contador de número de instrucciones para contar el número de instrucciones ejecutadas en el procesador, dicho contador de número de instrucciones tiene un fallo de operación cuando dichos procesadores reciben una interrupción de dichos medios (702) de control de interrupción y cambia a un modo de gestión de procesador para resincronización; cada uno de dichos procesadores compara su propio valor de contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador correspondiente de otros módulos informáticos (100, 200, 300),

dicho módulo informático (100, 200, 300) que no incluye el contador de número de instrucciones que indica el valor máximo entre todos los contadores, realiza un ajuste de retardo de instrucciones de ejecución hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones, y cuando los valores coinciden, envía una notificación al módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

dicho módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, espera a recibir una notificación de todos los demás módulos informáticos (100, 200, 300) y cuando recibe todas las notificaciones, da instrucciones a dichos medios (704) de control de sincronización para generar una señal de reposición para causar que todos los módulos informáticos (100, 200, 300) reanuden la operación en sincronización entre sí.

2. El sistema de ordenador tolerante a fallos según se ha reivindicado en la reivindicación 1, en el que

en el ajuste de retardo en el que dicho módulo informático (100, 200, 300) cuyo valor de contador de número de instrucciones no es el máximo ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones,

dicho procesador se configura en un modo de ejecución escalonado para cambiar a dicho modo de gestión de procesador después de ejecutar una instrucción, y

dicho procesador repite el proceso del modo de ejecución escalonado hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones.

3. El sistema de ordenador tolerante a fallos según se ha reivindicado en la reivindicación 1, en el que

en dicho modo de gestión de procesador para proceso de resincronización, cada uno de todos los mencionados procesadores que recibe una interrupción de dichos medios de control de interrupción guarda y almacena un valor de contador de programa,

cada uno de dichos procesadores lee un valor de contador de número de instrucciones de cada procesador y dicho valor guardado de contador de programa y transmite los valores a todos los otros módulos informáticos mencionados (100, 200, 300).

4. El sistema de ordenador tolerante a fallos según se ha reivindicado en la reivindicación 3, en el que

dicho procesador se configura en un modo de ejecución de designación de punto de ruptura para cambiar a dicho modo de gestión de procesador después de ejecutar hasta una instrucción en una posición específica de una cadena de instrucciones designada;

como dicha posición específica de la cadena de instrucciones, se designa una posición de instrucción indicada por el valor de contador de programa recibido de dicho módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

después de ejecutar la cadena de instrucciones hasta dicha posición específica de una cadena de instrucciones designada que es la misma posición de la cadena de instrucciones que la del módulo informático con el contador de número de instrucciones del valor máximo, dicho procesador se cambia al modo de gestión de procesador.

5. El sistema de ordenador tolerante a fallos según se ha reivindicado en la reivindicación 1, en el que

después de leer un estado de ejecución de programa, dicho módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, espera dicha notificación de otros módulos informáticos (100, 200, 300);

después de ejecutar el proceso de ajuste de retardo, todos los otros módulos informáticos (100, 200, 300) que no incluyen el contador de número de instrucciones que indica el valor máximo, leen un estado de ejecución de programa y transmiten el estado de ejecución de programa junto con una notificación de terminación del proceso de ajuste de retardo al módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

el módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo compara los estados de ejecución de programa de todos los módulos informáticos (100, 200, 300) y cuando todos coinciden entre sí, da una instrucción sobre la generación de la señal de reposición para reanudar la operación de sincronización y, cuando se detecta un módulo informático (100, 200, 300) cuyo estado de ejecución de programa no es coincidente, da una instrucción sobre la generación de la señal de reposición para reanudar la operación en sincronización después de ejecutar el proceso de corte e invalidación del módulo informático (100, 200, 300) cuyo estado no es coincidente.

6. El sistema de ordenador tolerante a fallos según se ha reivindicado en la reivindicación 1, en el que

se ha provisto una pluralidad de pares de dicho detector (700) de fallos, de dicho monitor (701) de bus, de dichos medios (702) de control de interrupción, de dichos medios (703) de control de comunicación entre sistemas, y de dichos medios (704) de control de sincronización.

7. Un método de resincronización para un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos (100, 200, 300) que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304) en el que cada módulo informático (100, 200, 300) procesa la misma cadena de instrucciones en sincronización entre sí,

cuyo método comprende las etapas de:

vigilar la existencia/no existencia de un fallo en el sistema;

vigilar un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300);

cuando se detecta una disconformidad en un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300), si no se detecta fallo, generar una interrupción para notificar el resultado de la detección a todos los citados procesadores, y

después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción sea coincidente entre dichos módulos informáticos (100, 200, 300), generar una señal de reposición para ejecutar el proceso de reanudar la operación en sincronización de todos los mencionados módulos informáticos (100, 200, 300),

cada uno de todos los citados procesadores que haya recibido dicha interrupción, cambiar a un modo de gestión de procesador para el proceso de resincronización en el que un contador de número de instrucciones que sirve para contar el número de instrucciones ejecutadas en el procesador tiene un fallo de funcionamiento;

cada uno de dichos procesadores, comparar su propio valor leído de contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador de otros módulos informáticos (100, 200, 300);

dicho módulo informático (100, 200, 300), que no incluye el contador de número de instrucciones que indica el valor máximo entre todos los contadores, ejecutar el ajuste de retardo mediante la ejecución de instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones y cuando los valores coinciden, envía una notificación al módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

dicho módulo informático (100, 200, 300), que incluye el contador de número de instrucciones que indica el valor máximo, esperar a recibir una notificación de todos los otros módulos informáticos (100, 200, 300) y, cuando recibe todas las notificaciones, generar una señal de reposición para causar que todos los módulos informáticos (100, 200, 300) reanuden la operación en sincronización entre sí.

8. El método de resincronización según se ha reivindicado en la reivindicación 7, en el que

en el ajuste de retardo en el que dicho módulo informático (100, 200, 300) cuyo valor mencionado de contador de número de instrucciones no es el máximo, ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones, el procesador de dicho módulo informático se configura a un modo de ejecución escalonado para cambiar a dicho modo de gestión de procesador después de ejecutar una instrucción, y

dicho procesador repite el proceso del modo de ejecución escalonado hasta que el valor del contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones.

9. El método de resincronización según se ha reivindicado en la reivindicación 7, en el que

en dicho modo de gestión de procesador para el proceso de resincronización, cada uno de todos los citados procesadores que haya recibido dicha interrupción guarda y almacena un valor de contador de programa,

cada uno de dichos procesadores lee el valor de contador de número de instrucciones de cada procesador y dicho valor guardado de contador de programa y transmite los valores a todos los otros módulos informáticos mencionados (100, 200, 300).

10. El método de resincronización según se ha reivindicado en la reivindicación 9, en el que

en el ajuste de retardo en el que dicho módulo informático (100, 200, 300) cuyo valor mencionado de contador de número de instrucciones no es el máximo, ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones;

el procesador de dicho módulo informático se configura a un modo de ejecución de designación de punto de ruptura para cambiar a dicho modo de gestión de procesador después de ejecutar hasta una instrucción en una posición específica de una cadena de instrucciones designada;

como dicha posición específica en la cadena de instrucciones, se designa una posición de instrucción indicada por el valor de contador de programa recibido de dicho módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

11. El método de resincronización según se ha reivindicado en la reivindicación 7, en el que

después de leer un estado de ejecución de programa, dicho módulo informático (100, 200, 300), que incluye el contador de número de instrucciones que indica el valor máximo, espera dicha notificación de otros módulos informáticos (100, 200, 300);

después de ejecutar el proceso de ajuste de retardo, todos los otros módulos informáticos (100, 200, 300), que no incluyen el contador de número de instrucciones que indica el valor máximo, leen un estado de ejecución de programa y transmiten el estado de ejecución de programa junto con una notificación de terminación del proceso de ajuste de retardo al módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

el módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo compara los estados de ejecución de programa de todos los módulos informáticos (100, 200, 300) y cuando todos coinciden entre sí, da una instrucción de generación de la señal de reposición para reanudar la operación de sincronización y cuando se detecta un módulo informático (100, 200, 300) cuyo estado de ejecución de programa no es coincidente, da una instrucción sobre la generación de la señal de reposición para reanudar la operación en sincronización después de ejecutar el proceso de corte e invalidación del módulo informático (100, 200, 300) cuyo estado de ejecución de programa no coincide.

12. Un programa de resincronización para ejecutar un proceso de resincronización de un sistema de ordenador tolerante a fallos con sincronismo de funcionamiento al unísono que incluye una pluralidad de módulos informáticos (100, 200, 300) que tienen un procesador (101, 102, 201, 202, 301, 302) y una memoria (104, 204, 304) en el que cada módulo informático (100, 200, 300) procesa la misma cadena de instrucciones en sincronización de reloj entre sí, cuyo programa comprende las funciones de:

vigilar la existencia/no existencia de un fallo en el sistema;

vigilar un estado de acceso al bus externo de cada procesador en cada uno de dichos módulos informáticos (100, 200, 300);

cuando se detecta una disconformidad en un estado de acceso al bus externo de cada uno de dichos procesadores de cada uno de dichos módulos informáticos (100, 200, 300), si no se detecta fallo en dicha vigilancia de fallos, generar una interrupción para notificar el resultado de la detección a cada uno de dichos procesadores; y

generar una señal de reposición para reanudar la operación en sincronización de todos los módulos informáticos mencionados (100, 200, 300) después de ejecutar el ajuste de retardo para hacer que un estado de ejecución de instrucción sea coincidente entre dichos módulos informáticos (100, 200, 300),

y que comprende además

la función de, cuando cada uno de todos los citados procesadores haya recibido dicha interrupción, cambiar a un modo de gestión de procesador para realizar un proceso de resincronización en el que un contador de número de instrucciones que sirve para contar el número de instrucciones ejecutadas en el procesador tiene un fallo de funcionamiento;

la función de que cada uno de dichos procesadores compare su propio valor leído de contador de número de instrucciones con un valor de contador de número de instrucciones recibido de cada procesador de otros módulos informáticos (100, 200, 300);

la función de que, dicho módulo informático (100, 200, 300), que no incluye el contador de número de instrucciones que indica el valor máximo entre todos los contadores, ejecute el ajuste de retardo de instrucciones de ejecución hasta que el valor del contador de número de instrucciones coincida con el valor máximo de contador de número de instrucciones y cuando los valores coincidan, enviar una notificación al módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

la función de que dicho módulo informático (100, 200,300), que incluye el contador de número de instrucciones que indica el valor máximo, espere a recibir una notificación de todos los otros módulos informáticos (100, 200, 300) y cuando haya recibido todas las notificaciones, da una instrucción de la generación de la señal de reposición para causar que todos los módulos informáticos (100, 200, 300) reanuden la operación en sincronización.

13. El programa de resincronización según se ha reivindicado en la reivindicación 12, que comprende

en el ajuste de retardo en el que dicho módulo informático (100, 200, 300) cuyo valor de contador de número de instrucciones no es el máximo ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones; la función de configurar dicho procesador a un modo de ejecución escalonadopara cambiar a dicho modo de gestión de procesador después de ejecutar una instrucción, y

la función de que dicho procesador repita el proceso del modo de ejecución escalonado hasta que el valor de contador de número de instrucciones coincida con el valor máximo de contador de número de instrucciones.

14. El programa de resincronización según se ha reivindicado en la reivindicación 12, que comprende:

en dicho modo de gestión de procesador para el proceso de resincronización, la función de que cada uno de todos los procesadores mencionados que haya recibido dicha interrupción guarde y almacene un valor de contador de programa,

la función de que cada uno de dichos procesadores lea el valor de contador de número de instrucciones de cada procesador y dicho valor guardado de contador de programa y transmita los valores a todos los otros módulos informáticos mencionados (100, 200, 300).

15. El programa de resincronización según se ha reivindicado en laa reivindicación 14, que comprende

en el ajuste de retardo en el que dicho módulo informático (100, 200, 300) cuyo mencionado valor de contador de número de instrucciones no es el máximo ejecuta instrucciones hasta que el valor de contador de número de instrucciones coincide con el valor máximo de contador de número de instrucciones,

la función de configurar el procesador de dicho módulo informático en un modo de ejecución de designación de punto de ruptura para cambiar a dicho modo de gestión de procesador después de ejecutar dicho procesador hasta una instrucción en una posición específica de una cadena de instrucciones designada,

la función de, como dicha posición específica en la cadena de instrucciones, designar una posición de instrucción indicada por el valor de contador de programa recibido de dicho módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, y

la función de cambiar dicho procesador al modo de gestión de procesador después que dicho procesador ejecuta la cadena de instrucciones hasta dicha posición específica de una cadena de instrucciones designada que es la misma posición en la cadena de instrucciones que la del módulo informático con el contador de número de instrucciones del valor máximo.

16. El programa de resincronización según se ha reivindicado en la reivindicación 12, que comprende:

la función de que dicho módulo informático (100, 200, 300), que incluye el contador de número de instrucciones que indica el valor máximo, espere dicha notificación de los otros módulos informáticos (100, 200, 300) después de leer un estado de ejecución de programa,

la función de que, todos los otros módulos informáticos (100, 200, 300) que no incluyan el contador de número de instrucciones que indica el valor máximo, lean un estado de ejecución de programa, y transmitan el estado de ejecución de programa junto con una notificación de terminación del proceso de ajuste de retardo al módulo informático (100, 200, 300) que incluya el contador de número de instrucciones que indica el valor máximo después de ejecutar el proceso de ajuste de retardo, y

la función de que el módulo informático (100, 200, 300) que incluye el contador de número de instrucciones que indica el valor máximo, compare los estados de ejecución de programa de todos los módulos informáticos (100, 200, 300) y cuando todos coincidan entre sí, dé una instrucción de la generación de la señal de reposición para reanudar la operación en sincronización y, cuando se detecta un módulo informático (100, 200, 300) cuyo estado de programa de ejecución no es coincidente, dé una instrucción de generación de la señal de reposición para reanudar la operación en sincronización después de ejecutar el proceso de cortar e invalidar el módulo informático (100, 200, 300) cuyo estado de ejecución de programa no coincide.