ES2667322T3 - Método de tratamiento de fallos, dispositivo relacionado y ordenador - Google Patents

Método de tratamiento de fallos, dispositivo relacionado y ordenador Download PDF

Info

Publication number
ES2667322T3
ES2667322T3 ES14896215.2T ES14896215T ES2667322T3 ES 2667322 T3 ES2667322 T3 ES 2667322T3 ES 14896215 T ES14896215 T ES 14896215T ES 2667322 T3 ES2667322 T3 ES 2667322T3
Authority
ES
Spain
Prior art keywords
error data
computer
processor
management controller
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14896215.2T
Other languages
English (en)
Inventor
Gang Song
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2667322T3 publication Critical patent/ES2667322T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)
  • Stored Programmes (AREA)
  • Hardware Redundancy (AREA)

Abstract

Un ordenador, que comprende un procesador (11) y un controlador de gestión de la placa base (12), donde el controlador de gestión de la placa base (12) se configura de modo que: cuando se determina que el ordenador se bloquea, envíe un mensaje de demanda de lectura al procesador (11), donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador (11); el procesador (11) se configura de modo que reciba el mensaje de demanda de lectura y envíe un mensaje de respuesta de lectura al controlador de gestión de la placa base (12); y el controlador de gestión de la placa base (12) se configura de modo que reciba el mensaje de respuesta de lectura devuelto por el procesador (11); cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, el controlador de gestión de la placa base (12) se configura de modo que dé instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador (11), de modo que el procesador (11) ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base (12); y el controlador de gestión de la placa base (12) se configura de modo que reciba los primeros datos de error enviados por el procesador (11).

Description

5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Método de tratamiento de fallos, dispositivo relacionado y ordenador Campo técnico
La presente invención se refiere a tecnologías informáticas, y en particular, a un método de tratamiento de fallos, un aparato relacionado y un ordenador.
Antecedentes
Con el desarrollo a gran escala de las tecnologías de la información, los ordenadores se utilizan ampliamente en diversos sectores. Los fallos en un ordenador pueden incluir en general un fallo de software, un fallo de hardware, un fallo de funcionamiento (configuración) y otros fallos. Un fallo de hardware tiene características tales como la dificultad de reproducción, la determinación depende principalmente de la experiencia del personal, la dificultad de ubicación de un fallo cuando tiene lugar un error, la necesidad de inserción y retirada/sustitución múltiples veces y similares. Por lo tanto, un fallo de hardware, por ejemplo, un fallo que tenga lugar en la memoria, un procesador, un dispositivo de entrada y salida (IO) o similar, es en general el más difícil de tratar.
En general, un fallo de hardware provoca un error imposible de corregir (error imposible de corregir) en un ordenador. Un error imposible de corregir no solo puede provocar una interrupción del servicio en el ordenador y reducir un tiempo de funcionamiento del ordenador, sino que también puede provocar incluso un caso de avería. En la técnica anterior, un fallo en un ordenador se trata principalmente utilizando el siguiente método: cuando tiene lugar un error imposible de corregir en un sistema, un procesador registra los datos de error y envía una notificación a un sistema operativo (Operating System, OS). Después de recibir la notificación, el OS captura los datos de error registrados por el procesador e imprime los datos de error, de modo que un usuario analice y ubique un fallo y realice un restablecimiento a partir del fallo.
En la técnica anterior, se necesita un OS para implementar la captura de los datos de error. No obstante, una vez que se produce un error grave imposible de corregir en un ordenador y que provoca que el ordenador se bloquee (en la presente invención, un bloqueo de un ordenador hace referencia a que se tiene una pantalla negra en el ordenador, no se aceptan entradas al utilizar un dispositivo de entrada tal como un ratón o teclado del ordenador, y un procesador de ordenador no puede ejecutar ninguna instrucción de ordenador), el OS deja de funcionar y no puede capturar los datos de error en el ordenador, lo que hace difícil de analizar y procesar un fallo y realizar un restablecimiento a partir del fallo.
El documento CN 101126995 A se refiere a métodos para gestionar errores fatales del hardware del ordenador. En particular, este expone que el microcontrolador embebido en el sistema lee y almacena la información referente al motivo de error irrecuperable.
El documento CN 102467440 A se refiere a un método y un sistema para detectar errores en memoria. En particular, este expone que la memoria de un servidor se conecta al procesador mediante un puente norte, donde la detección de error en memoria se puede llevar a cabo mediante el BIOS que lee el estado del puente norte.
El documento GB 2431262 A se refiere a un método y un sistema para registrar errores recuperables en un sistema de gestión de información. En particular, este expone que, si se detecta un error recuperable, el sistema registra el error recuperable en una unidad de memoria asociada con el controlador de gestión de la placa base.
El documento US 2007/0061634A se refiere a métodos y arquitecturas para llevar a cabo la gestión de errores de hardware utilizando los servicios coordinados del sistema operativo (OS) y el firmware.
Compendio
La presente invención, que se define con detalle en las reivindicaciones independientes adjuntas 1, 5, 9 y 12, proporciona un método de tratamiento de fallos, un aparato relacionado y un ordenador, de modo que se puedan adquirir los datos de error en un ordenador después de que se produzca un error grave imposible de corregir en el ordenador y provocar que el ordenador se bloquee.
De acuerdo con un primer aspecto, la presente invención proporciona un ordenador que incluye un procesador y un controlador de gestión de la placa base, donde el controlador de gestión de la placa base se configura para: cuando se determina que el ordenador se bloquea, enviar un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador;
el procesador se configura de modo que reciba el mensaje de demanda de lectura y envíe un mensaje de respuesta de lectura al controlador de gestión de la placa base; y
5
10
15
20
25
30
35
40
45
50
el controlador de gestión de la placa base se configura de modo que reciba el mensaje de respuesta de lectura devuelto por el procesador;
cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, el controlador de gestión de la placa base (12) se configura de modo que dé instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador que lleve a cabo un reinicio en caliente del ordenador, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador (11), de modo que el procesador (11) ejecuta, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base (12); y el controlador de gestión de la placa base (12) se configura de modo que reciba los primeros datos de error enviados por el procesador (11).
Haciendo referencia al primer aspecto, en una primera manera posible de implementación, el procesador se configura además de modo que adquiera los primeros datos de error y registre los primeros datos de error; y
que el controlador de gestión de la placa base se configura de modo que determine que el ordenador se bloquea es en concreto: el controlador de gestión de la placa base se configura de modo que reciba una indicación de un caso de fallo grave enviada por el procesador, donde el procesador envía la indicación de caso de fallo grave cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error grave imposible de corregir; y si al menos una parte de los primeros datos de error, enviados por el procesador, no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, el controlador de gestión de la placa base se configura de modo que determine que el ordenador se bloquea.
Haciendo referencia al primer aspecto o a la primera manera posible de implementación del primer aspecto, en una segunda manera posible de implementación, cuando el mensaje de respuesta de lectura contiene los primeros datos de error, el gestor de la placa base se configura de modo que obtenga, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
Haciendo referencia a la cuarta manera posible de implementación del primer aspecto, en una quinta manera posible de implementación, el controlador de gestión de la placa base se configura además de modo que analice la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo.
Haciendo referencia a la quinta manera posible de implementación del primer aspecto, en una sexta manera posible de implementación, antes de que se determine que el ordenador se bloquea, el controlador de gestión de la placa base se configura además de modo que reciba del procesador unos segundos datos de error, y examine los segundos datos de error, de acuerdo con el mecanismo de examen de fallos, con el fin de obtener una información del examen del fallo de los segundos datos de error, donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error; y
que el controlador de gestión de la placa base se configura de modo que analice la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo que incluye: el controlador de gestión de la placa base se configura de modo que analice la información del examen del fallo de los segundos datos de error y la información del examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, con el fin de obtener la sugerencia de tratamiento del fallo.
De acuerdo con un segundo aspecto, la presente invención proporciona un método de tratamiento de fallos, aplicado a un ordenador que incluye un controlador de gestión de la placa base y un procesador, y donde el método incluye:
cuando se determina que el ordenador se bloquea, enviar, mediante el controlador de gestión de la placa base, un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de unos primeros datos de error registrados por el procesador; y
recibir, mediante el controlador de gestión de la placa base, un mensaje de respuesta de lectura devuelto por el procesador;
cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, dar instrucciones, mediante el controlador de gestión de la placa base, a un módulo de reinicio en caliente o a un usuario del ordenador que lleve a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y
5
10
15
20
25
30
35
40
45
50
salida, y envíe los primeros datos de error al controlador de gestión de la placa base, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador; y
recibir, mediante el controlador de gestión de la placa base, los primeros datos de error enviados por el procesador.
Haciendo referencia al segundo aspecto, en una primera manera posible de implementación, el método incluye, además: recibir, mediante el controlador de gestión de la placa base, una indicación de caso de fallo grave enviada por el procesador, donde el procesador envía la indicación de caso de fallo grave cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error grave imposible de corregir; y si al menos una parte de los primeros datos de error, enviados por el procesador, no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, determinar que el ordenador se bloquea.
Haciendo referencia al segundo aspecto o a la primera manera posible de implementación del segundo aspecto, en una segunda manera posible de implementación, cuando el mensaje de respuesta de lectura contiene los primeros datos de error, obtener, mediante el controlador de gestión de la placa base a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
Haciendo referencia al segundo aspecto o a cualquiera de la primera a tercera manera posible de implementación del segundo aspecto, en una cuarta manera posible de implementación, después de la obtención, mediante el controlador de gestión de la placa base de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador, el método incluye, además: examinar, mediante el controlador de gestión de la placa base los primeros datos de error, de acuerdo con un mecanismo de examen de fallos, con el fin de obtener la información del examen del fallo de los primeros datos de error.
Haciendo referencia a la cuarta manera posible de implementación del segundo aspecto, en una quinta manera posible de implementación, el método incluye, además: analizar, mediante el control de gestión de la placa base, la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo.
Haciendo referencia a la quinta manera posible de implementación del segundo aspecto, en una sexta manera posible de implementación, antes de la determinación, mediante el controlador de gestión de la placa base que el ordenador se bloquea, donde el método incluye, además: recibir, mediante el controlador de gestión de la placa base, los segundos datos de error enviados por el procesador, donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error; y
el análisis, mediante el controlador de gestión de la placa base, de la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo incluye:
examinar, mediante el controlador de gestión de la placa base, los segundos datos de error, de acuerdo con el mecanismo de examen de fallos, con el fin de obtener la información del examen del fallo de los segundos datos de error, y analizar la información del examen del fallo de los segundos datos de error y la información del examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, con el fin de obtener la sugerencia de tratamiento del fallo.
De acuerdo con un tercer aspecto, la presente invención proporciona un controlador de gestión de la placa base, que incluye:
una unidad de envío, configurada para: cuando se determina que el ordenador se bloquea, enviar un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador; y
una unidad de recepción, configurada de modo que reciba un mensaje de respuesta de lectura devuelto por el procesador;
cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, la unidad de recepción (502) da instrucciones a una unidad de reinicio en caliente o a un usuario del ordenador para que lleve a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error a la unidad de recepción (502), donde la indicación de fallo de lectura se utiliza para indicar que el procesador no puede leer los primeros datos de error; y
la unidad de recepción (502) recibe los primeros datos de error enviados por el procesador.
4
5
10
15
20
25
30
35
40
45
50
55
Haciendo referencia al tercer aspecto, en una primera manera posible de implementación, el controlador de gestión de la placa base incluye, además: una unidad de determinación, configurada de modo que reciba una indicación de caso de fallo grave enviada por el procesador, donde el procesador envía la indicación de caso de fallo grave cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error grave imposible de corregir; y si al menos una parte de los primeros datos de error, enviados por el procesador, no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, determinar que el ordenador se bloquea.
Haciendo referencia al tercer aspecto o a la primera manera posible de implementación del tercer aspecto, en una segunda manera posible de implementación, cuando el mensaje de respuesta de lectura contiene los primeros datos de error, la unidad de recepción obtiene, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
Haciendo referencia al tercer aspecto o a cualquiera de la primera a tercera maneras de implementación posibles del tercer aspecto, en una cuarta manera posible de implementación, el controlador de gestión de la placa base incluye, además: una unidad de tratamiento de fallos, configurada de modo que examine los primeros datos de error, de acuerdo con un mecanismo de examen de fallos, con el fin de obtener la información del examen del fallo de los primeros datos de error.
Haciendo referencia a una cuarta manera de implementación posible del tercer aspecto, en una quinta manera posible de implementación, la unidad de tratamiento de fallos se configura además de modo que analice la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo.
Haciendo referencia a la quinta manera posible de implementación del tercer aspecto, en una sexta manera posible de implementación, la unidad de recepción se configura además de modo que reciba unos segundos datos de error enviados por el procesador; la unidad de tratamiento de fallos se configura además de modo que examine los segundos datos de error, de acuerdo con el mecanismo de tratamiento de fallos, con el fin de obtener una información del examen del fallo de los segundos datos de error, donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error; y que la unidad de tratamiento de fallos que se configura de modo que analice la información del examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos, con el fin de obtener una sugerencia de tratamiento del fallo incluye: la unidad de tratamiento de fallos analiza la información del examen del fallo de los segundos datos de error y la información del examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, con el fin de obtener la sugerencia de tratamiento del fallo.
De acuerdo con un cuarto aspecto, la presente invención proporciona un controlador de gestión de la placa base, donde el controlador de gestión de la placa base incluye un procesador, una memoria, un bus y una interfaz de comunicaciones, donde
la memoria se configura de modo que almacene instrucciones ejecutables por ordenador, donde el procesador está conectado a la memoria utilizando el bus, y cuando el controlador de gestión de la placa base trabaja, el procesador ejecuta las instrucciones ejecutables por ordenador almacenadas en la memoria, de modo que el controlador de gestión de la placa base lleve a cabo el método de tratamiento de fallos de acuerdo con el segundo aspecto, o el método de tratamiento de fallos de acuerdo con cualquiera de las maneras posibles de implementación del segundo aspecto.
De acuerdo con un quinto aspecto, la presente invención proporciona un soporte legible por ordenador, que incluye unas instrucciones ejecutables por ordenador, de modo que cuando un procesador de un ordenador ejecuta las instrucciones ejecutables por ordenador, el ordenador lleva a cabo el método de tratamiento de fallos de acuerdo con el segundo aspecto, o el método de tratamiento de fallos de acuerdo con cualquiera de las maneras de implementación posibles del segundo aspecto.
En la presente invención, cuando se determina que un ordenador se bloquea, un controlador de gestión de la placa base en el ordenador puede enviar un mensaje de demanda de lectura a un procesador en el ordenador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador, recibir un mensaje de respuesta de lectura devuelto por el procesador, y obtener, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. Por medio del modo anterior, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador.
Breve descripción de los dibujos
5
10
15
20
25
30
35
40
45
50
Para describir las soluciones técnicas de la presente invención más claramente, a continuación, se presentan de manera breve los dibujos anexos que describen las realizaciones de la presente invención. Obviamente, los dibujos anexos de la siguiente descripción muestran simplemente algunas realizaciones de la presente invención.
La figura 1 es un diagrama esquemático de un ordenador, de acuerdo con una realización de la presente invención;
la figura 2 es un diagrama esquemático de otro ordenador, de acuerdo con una realización de la presente invención;
la figura 3 es un diagrama de flujo del método de un método de tratamiento de fallos, de acuerdo con una realización de la presente invención;
la figura 4 es un diagrama de flujo del método de otro método de tratamiento de fallos, de acuerdo con una realización de la presente invención;
la figura 5 es un diagrama esquemático de un controlador de gestión de la placa base, de acuerdo con una realización de la presente invención; y
la figura 6 es un diagrama estructural esquemático de la composición de otro controlador de gestión de la placa base, de acuerdo con una realización de la presente invención.
Descripción de las realizaciones
La presente invención proporciona un método de tratamiento de fallos, un aparato relacionado y un ordenador, de modo que se puedan adquirir los datos de error en un ordenador después de que tenga lugar un error grave imposible de corregir en el ordenador y provoque un bloqueo del ordenador.
Realización 1
La figura 1 es un diagrama esquemático de un ordenador de acuerdo con esta realización de la presente invención. El ordenador incluye un procesador 11 y un controlador de gestión de la placa base 12 (Baseboard Management Controller, BMC).
El controlador de gestión de la placa base 12 se configura para: cuando se determina que el ordenador se bloquea, enviar un mensaje de demanda de lectura al procesador 11, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador 11, donde los primeros datos de error son datos de error generados en el ordenador, y pueden ser todos los datos de error generados en el ordenador o pueden ser además una parte de los datos de error generados en el ordenador. Por ejemplo, los primeros datos de error pueden ser los datos de error generados en los 2 segundos previos antes de que el ordenador se bloquee, lo que no está limitado en la presente en esta realización de la presente invención.
El procesador 11 se configura de modo que reciba el mensaje de demanda de lectura y envíe un mensaje de respuesta de lectura al controlador de gestión de la placa base 12. En este momento, aunque el ordenador se ha bloqueado y el procesador no puede ejecutar ninguna instrucción de ordenador, el procesador puede recibir y responder al mensaje de demanda de lectura.
El controlador de gestión de la placa base 12 se configura de modo que reciba el mensaje de respuesta de lectura devuelto por el procesador 11, y obtenga, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador 11.
Por ejemplo, el procesador 11 puede registrar los primeros datos de error en un registro del procesador 11. El controlador de gestión de la placa base 12 puede enviar un mensaje de demanda de lectura al procesador 11 utilizando una dirección del registro, para adquirir los primeros datos de error del registro. Aunque el ordenador se ha bloqueado y no puede ejecutar una instrucción de ordenador, el registro del procesador 11 puede responder al mensaje de demanda de lectura y devolver un mensaje de respuesta de lectura, por ejemplo, devolver los primeros datos de error, de modo que el controlador de gestión de la placa base 12 pueda obtener los primeros datos de error de acuerdo con el mensaje de respuesta de lectura. Cabe destacar que, en esta realización de la presente invención, los primeros datos de error pueden incluir uno o más fragmentos de datos de error, lo que no está limitado en la presente en esta realización de la presente invención.
En esta realización de la presente invención, cuando se determina que el ordenador se bloquea, un controlador de gestión de la placa base 12 puede enviar un mensaje de demanda de lectura a un procesador 11, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador 11, recibir un mensaje de respuesta de lectura devuelto por el procesador 11 y obtener los primeros datos de error de acuerdo con el mensaje de respuesta de lectura registrado por el procesador 11. En esta realización de la presente invención, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el
5
10
15
20
25
30
35
40
45
50
55
que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador.
Esta realización de la presente invención se introduce con detalle a continuación.
(1) Sobre como determinar un bloqueo de un ordenador
En general, un error imposible de corregir (Error imposible de corregir) provocado por un fallo en un ordenador se puede clasificar como un error catastrófico (Error Catastrófico), un error fatal (Error Fatal) y un error recuperable (Error Recuperable). El error catastrófico y el error fatal son los más graves, y pueden provocar que se produzca una pantalla azul, una pantalla violeta o incluso un bloqueo (por ejemplo, una pantalla negra y una suspensión) en el ordenador. Por lo tanto, un error catastrófico o un error fatal en el ordenador se pueden monitorizar. Por ejemplo, se monitorizan un error interno (Internal Error, IERR, que se considera un error catastrófico) o un error de comprobación de máquina (Machine Check Error, MCERR, que se considera un error fatal). Cuando se produce un error catastrófico o un error fatal en el ordenador, si el ordenador no puede ejecutar una instrucción de un sistema básico de entrada y salida (Basic Input Output System, BIOS) o una instrucción de un sistema operativo (Operating System, OS), se puede determinar que el ordenador se bloquea.
De manera específica, el procesador 11 se puede configurar además de modo que adquiera los primeros datos de error, y registrar los primeros datos de error. Por ejemplo, el procesador 11 puede generar o recibir los primeros datos de error, y registrar los primeros datos de error en una memoria caché del ordenador, o en el registro del procesador 11, o en otro módulo que tenga capacidad de almacenamiento. En un aspecto, después de que el procesador 11 adquiera los primeros datos de error, si el ordenador no se bloquea, el procesador 11 puede enviar los primeros datos de error al controlador de gestión de la placa base, por ejemplo, configurar previamente una instrucción de recogida de errores del sistema básico de entrada y salida en el ordenador. Si el ordenador no se bloquea, el procesador 11 ejecuta la instrucción de recogida de errores del sistema básico de entrada y salida, y envía los primeros datos de error al controlador de gestión de la placa base 12, de acuerdo con la instrucción de recogida de errores del sistema básico de entrada y salida. Si el ordenador se bloquea, el procesador 11 no puede ejecutar ninguna instrucción de ordenador. En otro aspecto, después de que el procesador 11 adquiera los primeros datos de error, si los primeros datos de error son de un tipo de error grave imposible de corregir, el procesador 11 puede enviar además una indicación de caso de fallo grave, con el fin de notificar al controlador de gestión de la placa base 12 de que se ha producido un error catastrófico o un error fatal en el ordenador y puede provocar un bloqueo. Que los primeros datos de error sean de un tipo de error grave imposible de corregir hace referencia a que los primeros datos de error pertenecen a un error catastrófico o un error fatal. Por lo tanto, el controlador de gestión de la placa base 12 se puede configurar de modo que reciba la indicación de caso de fallo grave enviada por el procesador 11. Si al menos una parte de los primeros datos de error, enviados por el procesador 11, no se reciben dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, el controlador de gestión de la placa base 12 puede determinar que el ordenador se bloquea.
Adicionalmente, el controlador de gestión de la placa base 12 puede determinar, además, de acuerdo con una notificación de un usuario, que el ordenador se bloquea. Por ejemplo, cuando descubre que el ordenador se bloquea, el usuario puede notificarlo al controlador de gestión de la placa base 12, y el controlador de gestión de la placa base 12 puede determinar, de acuerdo con la notificación del usuario, que el ordenador se bloquea, de forma que se comience la adquisición de los primeros datos de error.
(2) Sobre la adquisición de los primeros datos de error
Cuando se recibe el mensaje de demanda de lectura, el procesador 11 puede añadir los primeros datos de error al mensaje de respuesta de lectura de acuerdo con el mensaje de demanda de lectura y devolver el mensaje de respuesta de lectura al controlador de gestión de la placa base 12. En este momento, el controlador de gestión de la placa base 12 lee con éxito los datos, y el controlador de gestión de la placa base 12 puede obtener, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador 11.
No obstante, cuando algunos fallos de hardware provocan un error imposible de corregir y además dan como resultado un bloqueo del ordenador, el controlador de gestión de la placa base 12 es posible que no pueda leer los primeros datos de error, y el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador 11. El controlador de gestión de la placa base 12 se puede configurar de modo que dé instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador 11 ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base 12. El controlador de gestión de la placa base 12 puede recibir los primeros datos de error enviados por el procesador 11, para completar la adquisición de los primeros datos de error.
5
10
15
20
25
30
35
40
45
50
55
Cabe destacar que, un reinicio de un ordenador se puede clasificar como un reinicio en caliente y un reinicio en frío. Durante un reinicio en frío, el ordenador se apaga, el ordenador se inicia, y después del reinicio en frío, se puede provocar una pérdida de información. Por ejemplo, después de un reinicio en frío, se pierde la información guardada en un registro de un procesador. Un reinicio en frío se lleva a cabo en el ordenador cuando se presiona un
interruptor de alimentación de reinicio. De modo diferente a un reinicio en frío, durante un reinicio en caliente, el
ordenador no se apaga, el ordenador no se inicia, y no se pierde la información guardada en el registro del procesador. Un reinicio en caliente hace referencia a clicar “reinicio” en el comienzo para apagar y encender el ordenador de acuerdo con un procedimiento normal. En esta realización y en realizaciones posteriores de la presente invención, llevar a cabo un reinicio en caliente en el ordenador tiene el mismo significado que lo anterior.
Además, el controlador de gestión de la placa base 12 se puede configurar además para: después de que se adquieren los primeros datos de error, enviar un mensaje de eliminación de datos al procesador 11, con el fin de dar instrucciones al procesador 11 para borrar los primeros datos de error registrados por el procesador 11, lo que evita de ese modo un desaprovechamiento de un recurso de almacenamiento.
De manera opcional, el controlador de gestión de la placa base 12 se puede configurar además para: después de
que se recibe la indicación de caso de fallo grave enviada por el procesador 11, enviar un mensaje de alarma a un
módulo de alarma de fallo del ordenador o llevar a cabo una operación de impresión, de modo que se notifique al usuario el caso de fallo grave con el fin de que se facilite al usuario adquirir un fallo en el ordenador a tiempo.
(3) Sobre el análisis, ubicación y tratamiento de un fallo
En la técnica anterior, en general, únicamente se pueden imprimir los datos de error en un caso en el que un ordenador no se bloquee, de modo que no hay un registro completo de fallos, y un fallo se puede analizar, ubicar y tratar únicamente de manera manual. En esta realización de la presente invención, el controlador de gestión de la placa base 12 puede guardar un registro completo de fallos, y de manera automática ubicar además una fuente de fallo y proporcionar una sugerencia de tratamiento del fallo, que proporciona ayuda a la hora de tratar un fallo y recuperarse del fallo a tiempo. Una solución específica es como sigue:
Los primeros datos de error registrados por el procesador 11 es información general representada por “0” o “1”. Por lo tanto, el controlador de gestión de la placa base 12 se puede configurar además de modo que examine los primeros datos de error de acuerdo con un mecanismo de examen de fallos, con el fin de obtener una información de examen del fallo de los primeros datos de error. La información de examen del fallo de los primeros datos de error puede incluir: el momento en el que se genera cada fragmento de datos de error en los primeros datos de error, quién recoge los datos de error, de qué procesador provienen los datos de error, de qué núcleo (Core), a qué error pertenecen los datos de error y similares. Por ejemplo, en un caso de un ordenador de X86, el controlador de gestión de la placa base 12 puede examinar, de acuerdo con las definiciones de los códigos de fallo de Intel, los primeros datos de error en una forma binaria, con el fin de obtener la información de examen del fallo. La información de examen del fallo no solo se puede proporcionar a un personal de mantenimiento o a un usuario para entender un caso de un fallo, sino que también se puede utilizar además para una ubicación, análisis y tratamiento posterior del fallo.
El controlador de gestión de la placa base 12 se puede configurar además de modo que analice la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo. El mecanismo de tratamiento de fallos preestablecido puede ser un mecanismo de fallos o un conocimiento experimental de tratamiento de fallos para X86, y la sugerencia de tratamiento del fallo obtenida puede incluir la información de ubicación del fallo y/o la información de sugerencia de tratamiento, de modo que el usuario o un personal de rectificación de fallos puedan llevar a cabo el tratamiento en el ordenador, de acuerdo con la sugerencia de tratamiento del fallo para recuperar el ordenador. Asimismo, los primeros datos de error pueden ser datos de error generados únicamente dentro de un período de tiempo muy corto antes de que el ordenador se bloquee. Por ejemplo, los primeros datos de error son datos de error generados durante los 0.5 segundos antes de que el ordenador se bloquee y, por lo tanto, para mejorar la precisión de la ubicación y el análisis de un fallo, se puede analizar la información de examen del fallo de más datos de error. De manera específica, antes de que se determine que el ordenador se bloquea, el controlador de gestión de la placa base 12 puede recibir además unos segundos datos de error enviados por el procesador 11, donde los segundos datos de error son diferentes de los primeros datos de error, y donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error. El controlador de gestión de la placa base 12 puede examinar los segundos datos de error de acuerdo con el mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los segundos datos de error, y analizar la información de examen del fallo de los segundos datos de error y la información de examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, con el fin de obtener la sugerencia de tratamiento del fallo. Por ejemplo, los primeros datos de error pueden ser datos de error generados en los 0.5 segundos anteriores a que el ordenador se bloquee, y cuando el tiempo preestablecido es de 4.5 segundos, los segundos datos de error pueden ser datos de error generados en los 5 segundos anteriores a que el ordenador se bloquee menos los 0.5 segundos antes de que el ordenador se bloquee; en este caso, el controlador
5
10
15
20
25
30
35
40
45
50
55
de gestión de la placa base 12 puede analizar, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, la información de examen del fallo de los datos de error en los 5 segundos anteriores a que el ordenador se bloquee, con el fin de obtener la sugerencia de tratamiento del fallo.
Asimismo, el controlador de gestión de la placa base 12 se puede configurar además de modo que imprima la información de examen del fallo de los primeros datos de error o la información de examen del fallo de los primeros datos de error o la sugerencia de tratamiento del fallo, de modo que el usuario o el personal de rectificación de fallos pueda procesar el fallo en el ordenador de acuerdo con la información impresa.
Asimismo, el controlador de gestión de la placa base 12 puede guardar además al menos una de la información de examen del fallo de los primeros datos de error, la información de examen del fallo de los segundos datos de error, los primeros datos de error y los segundos datos de error en una base informativa de fallos del ordenador, con el fin de obtener un registro de fallos del ordenador, de modo que proporcione ayuda posteriormente a la hora de ubicar el fallo y para recuperarse del fallo. Por ejemplo, el controlador de gestión de la placa base 12 puede guardar la información de examen de fallo de los primeros datos de error y la información de examen del fallo de los segundos datos de error en la base informativa de fallos, de modo que la base informativa de fallos guarde los datos de error completos y pueda proporcionar un registro completo de fallos. En esta realización de la presente invención, la base informativa de fallos se puede colocar en el controlador de gestión de la placa base 12 o también se puede colocar fuera del controlador de gestión de la placa base 12.
Cabe destacar que, en un proceso de aplicación práctica, se pueden utilizar diferentes maneras de ubicar, analizar y tratar un fallo en un ordenador de acuerdo con diferentes escenarios de aplicación. Por ejemplo, para un escenario de aplicación de nodo no individual, un sistema puede incluir múltiples ordenadores de acuerdo con esta realización de la presente invención. Cada ordenador, de acuerdo con esta realización de la presente invención, puede ser capaz de ubicar, analizar y tratar un fallo. En este momento, un controlador de gestión de la placa base de un ordenador (por ejemplo, un ordenador principal) de los múltiples ordenadores puede recoger los datos de error de los controladores de gestión de las placas base de otros ordenadores, y el controlador de gestión de la placa base del primer ordenador lleva a cabo una ubicación, análisis y tratamiento conjunto del fallo en todos los ordenadores del sistema. Como alternativa, los controladores de gestión de las placas base de los múltiples ordenadores en el sistema pueden informar datos de error, obtenidos mediante los controladores de gestión de las placas base, a un dispositivo de gestión (por ejemplo, un servidor de gestión) en el sistema, y el dispositivo de gestión lleva a cabo una ubicación, análisis y tratamiento conjunto del fallo en todos los ordenadores del sistema utilizando la manera de esta realización del método.
En esta realización de la presente invención, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base 12 para implementar la adquisición de los datos de error en un ordenador después de que el ordenado se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador. Además, el controlador de gestión de la placa base 12 puede registrar además un fallo completo en la base de registro de fallos, y puede examinar además los primeros datos de error, analizar la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, para ubicar una fuente del fallo y proporcionar una sugerencia de tratamiento.
Realización 2
Para describir mejor la presente invención, se proporcionan a continuación diversos detalles específicos de maneras específicas de implementación. Un experto en la técnica debería entender que la presente invención también se puede implementar sin algunos detalles específicos. En esta realización de la presente invención, se presentan con detalle la composición y funciones estructurales del procesador 11 y del controlador de gestión de la placa base 12 de la realización 1, haciendo referencia a la figura 2.
La figura 2 es un diagrama estructural esquemático de la composición de un ordenador de acuerdo con esta realización de la presente invención. El ordenador incluye un procesador 11 y un controlador de gestión de la placa base 12. El procesador 11 puede incluir un módulo de registro 21, un módulo de almacenamiento 22 y un módulo de ejecución de instrucciones 23. El módulo de registro 21 puede tener una Arquitectura de Comprobación de Fallos de Hardware (Arquitectura de Comprobación de Máquina, Machine Check Architecture, MCA) responsable de los módulos de funcionamiento interno del procesador 11, y/o un Mecanismo de Información de Fallos (Información de Error Avanzada, Advanced Error Reporting, AER) responsable de un estándar PCIe de un dispositivo de entrada y salida del ordenador. De manera correspondiente, el módulo de almacenamiento 22 puede ser un registro de la MCA y/o un registro del AER. El registro de la MCA y el registro de la AER pueden estar ubicados dentro del procesador 11. El módulo de ejecución de instrucciones 23 puede ser un núcleo del procesador 11 y se configura de modo que ejecute una instrucción de un sistema básico de entrada y salida y una instrucción de un sistema operativo.
El módulo de registro 21 se puede configurar de modo que adquiera los datos de error en el ordenador, por ejemplo, preparar los datos de error generados mientras se produce un fallo en los módulos funcionales internos del
5
10
15
20
25
30
35
40
45
50
55
60
procesador 11, o como otro ejemplo, recibir los datos de error generados mientras se produce un fallo en el dispositivo IO. Los datos de error en el ordenador incluyen, aunque sin carácter limitante, los primeros datos de error y los segundos datos de error en esta realización de la presente invención. El módulo de registro 21 puede registrar, en el módulo de almacenamiento 22, los datos de error adquiridos en el ordenador. De manera específica, si los datos de error en el ordenador se adquieren mediante la MCA, la MCA puede registrar, en el registro de la MCA, los datos de error en el ordenador. Si los datos de error en el ordenador se adquieren mediante la AER, la AER puede registrar, en el registro de la AER, los datos de error en el ordenador, donde se puede implementar un conjunto de datos de error adquiridos mediante la MCA o la AER al configurar el registro correspondiente utilizando el BIOS. De manera opcional, cuando se registra/después de registrar, en el registro correspondiente, los datos de error del ordenador, la MAC o la AER pueden guardar, además, en un primer registro, una dirección de un registro que registra lo datos de error en el ordenador, de modo que posteriormente el módulo de ejecución de instrucciones 23 pueda adquirir los datos de error en el ordenador, de acuerdo con una instrucción de recogida de errores del sistema básico de entrada y salida, y utilizar la dirección registrada en el primer registro.
Cuando se adquieren los datos de error en el ordenador, el módulo de registro 21 puede activar además una interrupción del sistema de gestión (System Management Interrupt, SMI). La interrupción del sistema de gestión se configura de modo que active el módulo de ejecución de instrucciones 23 con el fin de ejecutar la instrucción de recogida de errores del sistema básico de entrada y salida. Si el ordenador no se bloquea, el módulo de ejecución de instrucciones 23 puede adquirir, del módulo de almacenamiento 22, los datos de error en el ordenador de acuerdo con la instrucción de recogida de errores del sistema básico de entrada y salida, y enviar los datos de error al controlador de gestión de la placa base 12. Si el ordenador se bloquea, el módulo de ejecución de instrucciones 23 no puede ejecutar ninguna instrucción de ordenador, donde la instrucción de recogida de errores del sistema básico de entrada y salida se puede configurar a priori en una memoria que almacene la instrucción del sistema básico de entrada y salida.
En la práctica, se puede conocer de acuerdo con la realización 1, que los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error y, por lo tanto, el módulo de registro 21 adquiera primero los segundos datos de error y a continuación adquiera los primeros datos de error. Por lo tanto, cuando se adquieren los segundos datos de error, en un aspecto, el módulo de registro 21 puede registrar los segundos datos de error en el módulo de almacenamiento 22, y en otro aspecto, puede activar la interrupción del sistema de gestión. Si el ordenador no se bloquea, el módulo de ejecución de instrucciones 23 puede ejecutar la instrucción de recogida de errores del sistema básico de entrada y salida, de acuerdo con la interrupción de gestión del sistema, y adquirir los segundos datos de error del módulo de almacenamiento 22, de acuerdo con la instrucción de recogida de errores del sistema básico de entrada y salida, y enviar los segundos datos de error al controlador de gestión de la placa base 12. De manera opcional, el módulo de ejecución de instrucciones 23 puede enviar los segundos datos de error al controlador de gestión de la placa base 12 utilizando un estándar de interfaz de gestión de la plataforma inteligente (Intelligent Platform Management Interface, IPMI), y el controlador de gestión de la placa base 12 puede recibir, utilizando el estándar IPMI, los segundos datos de error enviados por el módulo de ejecución de instrucciones 23. Cabe destacar que, cuando los segundos datos de error incluyen múltiples fragmentos de datos de error y el módulo de registro 21 puede adquirir únicamente los segundos datos de error después de múltiples veces, el módulo de registro 21 puede activar la interrupción del sistema de gestión cada vez, cuando el módulo de registro 21 adquiere una parte de los segundos datos de error. De manera correspondiente, el módulo de ejecución de instrucciones 23 puede ejecutar la instrucción de recogida de errores del sistema básico de entrada y salida múltiples veces para llevar a cabo el envío múltiples veces de los segundos datos de error al controlador de gestión de la placa base 12. De manera opcional, después de enviar los segundos datos de error al controlador de gestión de la placa base 12, el módulo de ejecución de instrucciones 23 puede ejecutar una instrucción de borrado del sistema operativo con el fin de borrar, de acuerdo con la instrucción de borrado del sistema operativo, los segundos datos de error guardados en el módulo de registro 21. En otras palabras, el módulo de ejecución de instrucciones 23 puede borrar, del módulo de almacenamiento 22, los datos de error que se han enviado al controlador de gestión de la placa base 12, lo que evita de ese modo que se envíen de manera repetida los datos de error al controlador de gestión de la placa base 12.
Si el módulo de registro 21 adquiere los primeros datos de error después de adquirir los segundos datos de error, el módulo de registro 21 también puede activar la interrupción del sistema de gestión. Asimismo, si los primeros datos de error son de un tipo de error grave imposible de corregir, es decir, los primeros datos de error pertenecen a un error catastrófico o a un error fatal, el módulo de registro 21 puede activar además una indicación de caso de fallo grave, para notificar al controlador de gestión de la placa base 12 de que se ha producido un error catastrófico o un error fatal en el ordenador y puede provocar un bloqueo. Cuando los primeros datos de error son realmente del tipo de error grave imposible de corregir y el ordenador se bloquea, el módulo de ejecución de instrucciones 23 no puede ejecutar una instrucción de ordenador, y aunque el módulo de registro 21 haya activado la interrupción del sistema de gestión, el módulo de ejecución de instrucciones 23 aún no puede ejecutar la instrucción de recogida de errores del sistema básico de entrada y salida, y no puede adquirir los primeros datos de error del módulo de almacenamiento 22 para el controlador de gestión de la placa base 12. Por lo tanto, si el controlador de gestión de la placa base 12 no recibe al menos una parte de los primeros datos de error, enviados por el procesador 11, dentro de un tiempo de espera preestablecido, que comienza a partir de que se recibe la indicación de caso de fallo grave, se
5
10
15
20
25
30
35
40
45
50
55
puede determinar que el ordenador se bloquea. De manera específica, la activación de la indicación de caso de fallo grave por parte del módulo de registro 21 se puede implementar cambiando un nivel de un pin CATEER_N o ERROR_N, y el controlador de gestión de la placa base 12 puede recibir la indicación de caso de fallo grave al recibir una señal de nivel desde el pin CATEER_N o ERROR_N.
Cuando se determina que el ordenador se bloquea, el controlador de gestión de la placa base 12 puede enviar un mensaje de demanda de lectura al módulo de registro 21, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error. Después de que el ordenador se bloquea, el módulo de registro 21 aún puede recibir el mensaje de demanda de lectura y enviar un mensaje de respuesta de lectura al controlador de gestión de la placa base 12. Por lo tanto, el controlador de gestión de la placa base 12 puede recibir el mensaje de respuesta de lectura y obtener los primeros datos de error de acuerdo con el mensaje de respuesta de lectura registrado por el procesador 11. De manera específica, el controlador de gestión de la placa base 12 puede atravesar el registro de la MAC o el registro de la AER utilizando un bus de una interfaz de control del entorno de la plataforma (Platform Environment Control Interface, PECI), para leer los primeros datos de error del registro de la MAC o del registro de la AER. Si el controlador de gestión de la placa base 12 lee con éxito los datos del registro de la MAC o el registro de la AER, un mensaje de respuesta de lectura devuelto por el registro de la MAC o el registro de la AER contiene los primeros datos de error, y el controlador de gestión de la placa base 12 puede adquirir los primeros datos de error. Si el controlador de gestión de la placa base 12 no puede leer los datos del registro de la MAC o el registro de la AER, un mensaje de respuesta de lectura devuelto por el registro de la MAC o el registro de la AER contiene una indicación de fallo de lectura, por ejemplo, caracteres ilegibles. Por lo tanto, el controlador de gestión de la placa base 12 puede dar instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador para que lleve a cabo un reinicio en caliente del ordenador, de modo que el módulo de ejecución de instrucciones 23 ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos del sistema básico de entrada y salida, atraviese el registro de la MAC o el registro de la AER, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, adquiera los primeros datos de error y envíe los primeros datos de error al controlador de gestión de la placa base 12, utilizando el estándar IPMI, y el controlador de gestión de la placa base 12 puede recibir los primeros datos de error enviados por la instrucción de recogida de fallos.
En esta realización de la presente invención, el controlador de gestión de la placa base 12 coopera con el procesador 11 para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquea, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador.
Realización 3
Esta realización de la presente invención proporciona un método de tratamiento de fallos, utilizado en el ordenador mostrado en la figura 1 o la figura 2, donde el ordenador incluye un controlador de gestión de la placa base y un procesador, donde el método incluye:
S301: Cuando se determina que el ordenador se bloquea, un controlador de gestión de la placa base envía un mensaje de demanda de lectura a un procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador.
El procesador puede adquirir los primeros datos de error y registrar los primeros datos de error. Cuando se determina que el ordenador se bloquea, el controlador de gestión de la placa base puede enviar un mensaje de demanda de lectura al procesador, para leer los primeros datos de error registrados por el procesador. En este momento, aunque el ordenador se ha bloqueado y el procesador no puede ejecutar ninguna instrucción de ordenador, el procesador puede recibir y responder al mensaje de demanda de lectura, de modo que el controlador de gestión de la placa base puede adquirir los primeros datos de error. Por ejemplo, el procesador puede registrar los primeros datos de error en un registro del procesador, y el controlador de gestión de la placa base puede enviar el mensaje de demanda de lectura al registro del procesador. El registro del procesador puede recibir el mensaje de demanda de lectura y devolver un mensaje de respuesta de lectura. En esta realización de la presente invención, los primeros datos de error pueden incluir uno o más fragmentos de datos de error, lo que no está limitado en la presente en esta realización de la presente invención.
El controlador de gestión de la placa base determina que el ordenador se bloquea de múltiples maneras, y de manera específica, se hace referencia a la realización 1 o la realización 2, y sus detalles no se describen de nuevo en la presente en esta realización de la presente invención.
S302: El controlador de gestión de la placa base recibe un mensaje de respuesta de lectura devuelto por el procesador, y obtiene, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
Si el controlador de gestión de la placa base lee los datos del procesador con éxito, el mensaje de respuesta de lectura puede contener los primeros datos de error, y el controlador de gestión de la placa base puede obtener, a
5
10
15
20
25
30
35
40
45
50
partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. Si el controlador de gestión de la placa base no puede leer los datos del procesador, el mensaje de respuesta de lectura puede contener una indicación de fallo de lectura, y el controlador de gestión de la placa base puede adquirir los primeros datos de error de otra manera. Por ejemplo, se puede configurar a priori en el ordenador una instrucción de recogida de fallos del sistema básico de entrada y salida. Cuando el mensaje de respuesta de lectura contiene la indicación de fallo de lectura, el controlador de gestión de la placa base puede dar instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador de que lleve a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, el fallo en la instrucción de recogida de fallos del ordenador, del sistema básico de entrada y salida, adquiera los primeros datos de error de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base, y el controlador de gestión de la placa base puede completar la adquisición de los primeros datos de error al recibir los primeros datos de error enviados por el procesador.
En esta realización de la presente invención, cuando se determina que el ordenador se bloquea, un controlador de gestión de la placa base de un ordenador puede enviar un mensaje de demanda de lectura a un procesador del ordenador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador, recibir un mensaje de respuesta de lectura devuelto por el procesador y obtener, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. Por medio de esta realización de la presente invención, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador.
Realización 4
Esta realización de la presente invención proporciona un método de tratamiento de fallos utilizado en el ordenador mostrado en la figura 1 o la figura 2, incluyendo el ordenador un controlador de gestión de la placa base y un procesador, donde el método incluye:
S401: Un controlador de gestión de la placa base recibe una indicación de caso de fallo grave enviada por un procesador, donde el procesador envía la indicación de caso de fallo grave cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error grave imposible de corregir.
S402: El controlador de gestión de la placa base envía un mensaje de alarma a un módulo de alarma de fallo del ordenador o lleva a cabo una operación de impresión, con el fin de notificar a un usuario del caso de alarma de fallo grave.
Después de recibir la indicación de caso de fallo grave enviada por el procesador, el controlador de gestión de la placa base puede activar un sensor de alarma de fallo utilizando el mensaje de alarma o llevar a cabo la operación de impresión, con el fin de notificar al usuario de que se ha producido un fallo grave en el ordenador y puede provocar un bloqueo. En esta realización de la presente invención, el S402 es un paso opcional.
S403: Si el controlador de gestión de la placa base no recibe al menos una parte de los primeros datos de error, enviados por el procesador, dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, determinar que el ordenador se bloquea y llevar a cabo el paso S404.
Después de que el procesador adquiere los primeros datos de error, si el ordenador no se bloquea, el procesador puede ejecutar una instrucción de recogida de errores del sistema básico de entrada y salida, y enviar los primeros datos de error al controlador de gestión de la placa base, de acuerdo con la instrucción de recogida de errores del sistema básico de entrada y salida. Si el ordenador se bloquea, el procesador no puede ejecutar ninguna instrucción de ordenador. Por lo tanto, si el controlador de gestión de la placa base no recibe al menos una parte de los primeros datos de error, enviados por el procesador, dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, se puede determinar que el ordenador se bloquea.
S404: El controlador de gestión de la placa base envía un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador.
Después se determina que el ordenador se bloquea, donde el controlador de gestión de la placa base puede adquirir los primeros datos de error del procesador, con el fin de implementar la adquisición de los datos de error en el ordenador después de que el ordenador se bloquea.
5
10
15
20
25
30
35
40
45
50
55
S405: El controlador de gestión de la placa base recibe un mensaje de respuesta de lectura devuelto por el procesador, y obtiene, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
El controlador de gestión de la placa base obtiene, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador, y de manera específica, se puede utilizar la manera de S405a, o se puede utilizar la manera de S405a.
S405a: Si el mensaje de respuesta de lectura contiene los primeros datos de error, el controlador de gestión de la placa base obtiene, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
Si el mensaje de respuesta de lectura contiene los primeros datos de error, este indica que el controlador de gestión de la placa base lee con éxito los primeros datos de error del procesador, y el controlador de gestión de la placa base puede obtener, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
S405b: Si el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador, donde el controlador de gestión de la placa base da instrucciones a un módulo de reinicio en caliente o al usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base; y donde el controlador de gestión de la placa base recibe los primeros datos de error enviados por el procesador.
La instrucción de recogida de fallos del sistema básico de entrada y salida se puede configurar a priori en el ordenador. Cuando el controlador de gestión de la placa base no puede leer los primeros datos de error desde el procesador, el mensaje de respuesta de lectura contiene la indicación de fallo de lectura y el controlador de gestión de la placa base da instrucciones al módulo de reinicio en caliente o al usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, la instrucción de recogida de fallos del sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y los envíe al controlador de gestión de la placa base.
S406: El controlador de gestión de la placa base examina los primeros datos de error, de acuerdo con un mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los primeros datos de error.
Después de adquirir los primeros datos de error, el controlador de gestión de la placa base examina los primeros datos de error de acuerdo con el mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los primeros datos de error, donde la información de examen del fallo de los primeros datos de error puede incluir: el momento en el que se genera cada fragmento de datos de error en los primeros datos de error, quién recoge los datos de error, de qué procesador proceden los datos de error, de qué núcleo (Core), a qué error pertenecen los datos de error y similares. La información de examen del fallo no solo se puede proporcionar a un personal de mantenimiento o al usuario para entender un caso de un fallo, sino que también se puede utilizar además para la ubicación, el análisis y el tratamiento posteriores del fallo.
S407: El controlador de gestión de la placa base analiza la información de examen del fallo de los primeros datos de error de acuerdo con un mecanismo de tratamiento de fallos, con el fin de obtener la sugerencia de tratamiento del fallo.
El mecanismo de tratamiento de fallos preestablecido puede ser un mecanismo de fallos o un conocimiento experimental de tratamiento de fallos para X86. El controlador de gestión de la placa base analiza la información de examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de tratamiento de fallos preestablecido, y obtiene la sugerencia de tratamiento del fallo, donde la sugerencia de tratamiento del fallo puede ser la información de la ubicación del fallo o la información de la sugerencia de tratamiento, de modo que el usuario o el personal de rectificación de fallos pueda llevar a cabo el tratamiento en el ordenador de acuerdo con la sugerencia de tratamiento del fallo, con el fin de recuperar el ordenador.
S408: El controlador de gestión de la placa base imprime la sugerencia de tratamiento del fallo.
Después de obtener la sugerencia de tratamiento del fallo, el controlador de gestión de la placa base puede imprimir la sugerencia de tratamiento del fallo, o puede imprimir además la sugerencia de tratamiento del fallo y la información de examen del fallo de los primeros datos de error, de modo que el usuario o el personal de rectificación de fallos pueda llevar a cabo el tratamiento en el ordenador de acuerdo con la información impresa, con el fin de
5
10
15
20
25
30
35
40
45
50
55
recuperar el ordenador. En esta realización de la presente invención, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador. Además, el controlador de gestión de la placa base puede examinar además los primeros datos de error, y analizar la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, para ubicar una fuente del fallo y proporcionar una sugerencia de tratamiento.
Debido al paso S407, se analiza la información de examen del fallo de solo los primeros datos de error, con el fin de obtener la sugerencia de tratamiento del fallo, donde los primeros datos de error pueden ser únicamente datos de error generados dentro de un período de tiempo muy corto antes de que el ordenador se bloquee. Por ejemplo, los primeros datos de error son datos de error generados en los 2 segundos anteriores a que el ordenador se bloquee y, por lo tanto, para mejorar la precisión de la ubicación y análisis de un fallo, se puede analizar la información de examen del fallo de más datos de error. Antes del paso S403, el controlador de gestión de la placa base puede recibir además unos segundos datos de error enviados por el procesador, donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error.
El paso S407 puede ser, además: El controlador de gestión de la placa base examina los segundos datos de error de acuerdo con el mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los segundos datos de error, y analiza la información de examen del fallo de los segundos datos de error y la información de examen del fallo de los primeros datos de error, con el fin de obtener la sugerencia de tratamiento del fallo.
En esta realización de la presente invención, el controlador de gestión de la placa base puede analizar la información de examen del fallo de los segundos datos de error y la información de examen del fallo de los primeros datos de error, con el fin de obtener la sugerencia de tratamiento del fallo, de modo que se mejore la precisión de la ubicación y el análisis de un fallo.
De manera opcional, después del paso S405, el controlador de gestión de la placa base puede guardar además al menos uno de la información de examen del fallo de los primeros datos de error, la información de examen del fallo de los segundos datos de error, los primeros datos de error y los segundos datos de error en una base informativa de fallos del ordenador. Por ejemplo, la información de examen del fallo de los primeros datos de error y la información de examen del fallo de los segundos datos de error se guardan en la base informativa de fallos, o los primeros datos de error y los segundos datos de error se guardan en la base informativa de fallos, de modo que se guarde un registro completo de fallos en la base de registro de fallos.
De manera opcional, después del paso S405, el controlador de gestión de la placa base puede enviar además un mensaje de eliminación de datos al procesador, con el fin de dar instrucciones al procesador para borrar los primeros datos de error registrados por el procesador, lo que evita de ese modo un desaprovechamiento de un recurso de almacenamiento.
De manera específica, para el controlador de gestión de la placa base en la realización 3 o la realización 4 de la presente invención se puede hacer referencia a la interacción y al tratamiento de fallos del controlador de gestión de la placa base en la realización 1 o la realización 2 de la presente invención y un procesador.
Realización 5
Esta realización de la presente invención proporciona un controlador de gestión de la placa base, utilizado en un ordenador que incluye el controlador de gestión de la placa base y un procesador, por ejemplo, utilizado en el ordenador mostrado en la figura 1 o 2. Tal como se muestra en la figura 5, el controlador de gestión de la placa base puede incluir una unidad de envío y una unidad de recepción.
La unidad de envío se configura para: cuando se determina que el ordenador se bloquea, enviar un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador. Aunque el ordenador se ha bloqueado y el procesador no puede ejecutar ninguna instrucción de ordenador, el procesador puede recibir y responder al mensaje de demanda de lectura.
La unidad de recepción se configura de modo que reciba un mensaje de respuesta de lectura devuelto por el procesador, y obtenga, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. Por ejemplo, cuando el mensaje de respuesta de lectura contiene los primeros datos de error, la unidad de recepción puede obtener, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. En otro ejemplo, cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, la unidad de recepción puede dar instrucciones a una unidad de reinicio en caliente o a un
5
10
15
20
25
30
35
40
45
50
55
usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error a la unidad de recepción, donde se utiliza la indicación de fallo de lectura para indicar que no se pueden leer los primeros datos de error desde el procesador; y donde la unidad de recepción recibe los primeros datos de error enviados por el procesador. De manera opcional, después de que se adquieren los primeros datos de error, la unidad de recepción puede enviar además un mensaje de eliminación de datos al procesador, con el fin de dar instrucciones al procesador para borrar los primeros datos de error registrados por el procesador, lo que evita de ese modo un desaprovechamiento de un recurso de almacenamiento.
De manera opcional, el controlador de gestión de la placa base puede incluir además una unidad de determinación, configurada de modo que reciba una indicación de caso de fallo grave enviada por el procesador, donde el procesador envía la indicación de caso de fallo grave cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error grave imposible de corregir; y si al menos una parte de los primeros datos de error enviados por el procesador no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo grave, determinar que el ordenador se bloquea.
De manera opcional, el controlador de gestión de la placa base puede incluir además una unidad de alarma de fallo, configurada de modo que: después de que la unidad de determinación recibe la indicación de caso de fallo grave enviada por el procesador, envíe un mensaje de alarma a la unidad de alarma de fallo del ordenador o lleve a cabo una operación de impresión, con el fin de notificar al usuario del caso de alarma de fallo grave.
De manera opcional, el controlador de gestión de la placa base puede incluir además una unidad de tratamiento de fallos, configurada de modo que examine los primeros datos de error de acuerdo con un mecanismo de examen de fallos, con el fin de obtener una información de examen del fallo de los primeros datos de error. La información de examen del fallo de los primeros datos de error puede incluir: el momento en el que se genera cada fragmento de los datos de error en los primeros datos de error, quién recoge los datos de error, de qué procesador proceden los datos de error, de qué núcleo (Core), a qué error pertenecen los datos de error y similares. La información de examen del fallo no solo se puede proporcionar a un personal de mantenimiento o al usuario para entender un caso de un fallo, sino que también se puede utilizar para la ubicación, el análisis y el tratamiento posterior del fallo.
Por otra parte, la unidad de tratamiento de fallos se puede configurar además de modo que analice la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo. El mecanismo de tratamiento de fallos preestablecido puede ser un mecanismo de fallos o un conocimiento experimental de tratamiento de fallos para X86. La sugerencia de tratamiento del fallo puede ser la información de ubicación del fallo o la información de sugerencia de tratamiento, de modo que el usuario o el personal de rectificación de fallos pueda llevar a cabo el tratamiento en el ordenador de acuerdo con la sugerencia de tratamiento del fallo, con el fin de recuperar el ordenador. Debido a que la unidad de tratamiento de fallos analiza la información de examen del fallo solo de los primeros datos de error para obtener la sugerencia de tratamiento del fallo, los primeros datos de error solo pueden ser datos de error generados dentro de un período de tiempo muy corto antes de que el ordenador se bloquee. Por ejemplo, los primeros datos de error son los datos de error generados en los 0.8 segundos anteriores a que el ordenador se bloquee y, por lo tanto, para mejorar la precisión de la ubicación y el análisis de un fallo, la unidad de tratamiento de fallos puede analizar la información de examen del fallo de más datos de error. De manera específica, la unidad de recepción se configura además de modo que reciba los segundos datos de error enviados por el procesador, donde los segundos datos de error son datos de error generados dentro de un tiempo preestablecido antes de que el ordenador genere los primeros datos de error, y puede examinar los segundos datos de error de acuerdo con el mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los segundos datos de error, y analizar la información de examen del fallo de los segundos datos de error y la información de examen del fallo de los primeros datos de error, de acuerdo con el mecanismo de procesamiento de fallos preestablecido, con el fin de obtener la sugerencia de tratamiento del fallo.
De manera opcional, la unidad de tratamiento de fallos se configura además de modo que imprima la información de examen del fallo de los primeros datos de error o la sugerencia de tratamiento del fallo.
De manera opcional, la unidad de tratamiento de fallos se configura además de modo que guarde al menos una de la información de examen del fallo de los primeros datos de error, la información de examen del fallo de los segundos datos de error, los primeros datos de error y los segundos datos de error en una base informativa de fallos del ordenador. Por ejemplo, la información de examen del fallo de los primeros datos de error y la información de examen del fallo de los segundos datos de error se guardan en la base informativa de fallos, o los primeros datos de error y los segundos datos de error se guardan en la base informativa de fallos, de modo que se guarde un registro completo de fallos en la base de registro de fallos. De manera específica, para el controlador de gestión de la placa base en esta realización de la presente invención se puede hacer referencia a la interacción y al tratamiento de fallos
5
10
15
20
25
30
35
40
45
50
del controlador de gestión de la placa base en la realización 1 o la realización 2 de la presente invención y un procesador.
En esta realización de la presente invención, cuando se determina que el ordenador se bloquea, la unidad de envío puede enviar un mensaje de demanda de lectura a un procesador del ordenador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador, y la unidad de recepción puede recibir un mensaje de respuesta de lectura devuelto por el procesador, y obtener, de acuerdo con el mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador. Por medio de esta realización de la presente invención, no se necesita utilizar un sistema operativo, únicamente se necesita un controlador de gestión de la placa base para implementar la adquisición de los datos de error en un ordenador después de que el ordenador se bloquee, y se soluciona un problema de la técnica anterior, que provoca el bloqueo del sistema, por el que los datos de error en un ordenador no se pueden adquirir después de que tenga lugar un error grave imposible de corregir en el ordenador.
Una realización de la presente invención proporciona un soporte legible por ordenador, que incluye una instrucción ejecutable por ordenador, de modo que cuando un procesador de un ordenador ejecuta la instrucción ejecutable por ordenador, el ordenador puede ejecutar el método de tratamiento de fallos de la realización 3 o la realización 4.
La figura 6 muestra un controlador de gestión de la placa base que se proporciona en una realización de la presente invención, donde el controlador de gestión de la placa base puede incluir:
un procesador 601, una memoria 602, un bus del sistema 604 y una interfaz de comunicaciones 605, donde el procesador 601, la memoria 602 y la interfaz de comunicaciones 605 están conectados y logran una comunicación entre sí utilizando el bus del sistema 604.
El procesador 601 puede ser una unidad central de procesamiento de un núcleo o múltiples núcleos, o puede ser un circuito integrado específico, o se puede configurar como uno o más circuitos integrados para implementar esta realización de la presente invención.
La memoria 602 puede ser una memoria RAM de alta velocidad, o puede ser una memoria no volátil (memoria no volátil), por ejemplo, al menos una memoria de disco.
La memoria 602 se configura con una instrucción ejecutable por ordenador 603. De manera específica, la instrucción ejecutable por ordenador 603 puede incluir un código de programa.
Cuando el controlador de gestión de la placa base está activo, el procesador 601 ejecuta la instrucción ejecutable por ordenador 603 para llevar a cabo un procedimiento del método del método de tratamiento de fallos de la realización 3 o la realización 4.
Un experto en la técnica puede entender que cada aspecto de la presente invención, o una manera posible de implementación de cada aspecto, se puede implementar de manera específica como un sistema, un método o un producto de programa informático. Por lo tanto, cada aspecto de la presente invención, o una manera posible de implementación de cada aspecto, puede utilizar formatos con realizaciones únicamente de hardware, realizaciones únicamente de software (que incluyen firmware, software residente y similares) o realizaciones con una combinación de software y hardware, que se denominan de igual manera como “circuito”, “módulo” o “sistema” en la presente. Además, cada aspecto de la presente invención, o la manera posible de implementación de cada aspecto, puede adoptar una forma de producto de programa informático, donde el producto de programa informático hace referencia a un código de programa legible por ordenador almacenado en un soporte legible por ordenador.
El soporte legible por ordenador puede ser un soporte de señal legible por ordenador o un soporte de almacenamiento legible por ordenador. El soporte de almacenamiento legible por ordenador incluye, aunque sin carácter limitante, un sistema, dispositivo o aparato electrónico, magnético, óptico, electromagnético, infrarrojo o semiconductor, o cualquier combinación adecuada de estos, tal como una memoria de acceso aleatorio (RAM), una memoria solo de lectura (ROM), una memoria solo de lectura que se puede programar y borrar (EPROM o la memoria flash), una fibra óptica y una memoria solo de lectura en disco compacto (CD-ROM).
Un procesador en un ordenador lee el código de programa legible por ordenador en un soporte legible por ordenador, de modo que el procesador pueda llevar a cabo una función y una acción específicas en cada paso, o una combinación de pasos, en un diagrama de flujo; se genera un aparato para implementar una función y una acción específicas en cada bloque, o una combinación de bloques, en un diagrama de bloques.
Todo el código de programa legible por ordenador se puede ejecutar en un ordenador personal, o alguno se puede ejecutar en un ordenador personal como un paquete de software independiente, o alguno se puede ejecutar en un ordenador personal mientras parte se ejecuta en un ordenador remoto, o todo el código se pude ejecutar en un ordenador remoto o un ordenador. También cabe destacar que, en algunas soluciones alternativas de implementación, cada paso en los diagramas de flujo o las funciones especificadas en cada bloque en los diagramas
de bloque puede que no tengan lugar en el orden ilustrado. Por ejemplo, dos pasos o bloques consecutivos en la ilustración, que dependen de una función involucrada, se pueden ejecutar de hecho sustancialmente al mismo tiempo, o estos bloques, a veces, se pueden ejecutar en orden inverso.
Alguien que sea experto en la técnica puede tener en cuenta que, en combinación con los ejemplos descritos en las 5 realizaciones expuestas en la memoria descriptiva, se pueden implementar unidades y pasos de algoritmos mediante hardware electrónico o una combinación de software informático y hardware electrónico. Que las funciones se lleven a cabo mediante hardware o software depende de las aplicaciones particulares y de las condiciones de las restricciones de diseño de las soluciones técnicas. Un experto en la técnica puede utilizar diferentes métodos para implementar las funciones descritas para cada aplicación particular, aunque no se debería considerar que la 10 implementación está fuera del alcance de la presente invención.
Las descripciones anteriores son simplemente maneras específicas de implementación de la presente invención y no pretenden limitar la presente invención.

Claims (12)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    REIVINDICACIONES
    1. Un ordenador, que comprende un procesador (11) y un controlador de gestión de la placa base (12), donde
    el controlador de gestión de la placa base (12) se configura de modo que: cuando se determina que el ordenador se bloquea, envíe un mensaje de demanda de lectura al procesador (11), donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador (11);
    el procesador (11) se configura de modo que reciba el mensaje de demanda de lectura y envíe un mensaje de respuesta de lectura al controlador de gestión de la placa base (12); y el controlador de gestión de la placa base (12) se configura de modo que reciba el mensaje de respuesta de lectura devuelto por el procesador (11);
    cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, el controlador de gestión de la placa base (12) se configura de modo que dé instrucciones a un módulo de reinicio en caliente o a un usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador (11), de modo que el procesador (11) ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base (12); y
    el controlador de gestión de la placa base (12) se configura de modo que reciba los primeros datos de error enviados por el procesador (11).
  2. 2. El ordenador de acuerdo con la reivindicación 1, donde el procesador (11) se configura además de modo que adquiera los primeros datos de error, y registre los primeros datos de error; y
    que el controlador de gestión de la placa base (12) se configura de modo que determine que el ordenador se bloquea es en concreto:
    el controlador de gestión de la placa base (12) se configura de modo que reciba una indicación de caso de fallo enviada por el procesador (11), donde el procesador (11) envía la indicación de caso de fallo cuando el procesador (11) adquiere los primeros datos de error y los primeros datos de error son de un tipo de error imposible de corregir; y
    si al menos una parte de los primeros datos de error enviados por el procesador (11) no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo, el controlador de gestión de la placa base (12) se configura de modo que determine que el ordenador se bloquea.
  3. 3. El ordenador de acuerdo con la reivindicación 1 o 2, donde: cuando el mensaje de respuesta de lectura contiene los primeros datos de error, el controlador de gestión de la placa base (12) se configura de modo que se obtenga, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador (11).
  4. 4. El ordenador de acuerdo con cualquiera de las reivindicaciones 1 a 3, donde el controlador de gestión de la placa base (12) se configura además de modo que examine los primeros datos de error de acuerdo con un mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los primeros datos de error; y
    analice la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos, con el fin de obtener una sugerencia de tratamiento del fallo.
  5. 5. Un método de tratamiento de fallos, aplicado a un ordenador que comprende un controlador de gestión de la placa base y un procesador, y donde el método comprende:
    cuando se determina que el ordenador se bloquea, enviar, por medio del controlador de gestión de la placa base, un mensaje de demanda de lectura al procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador; y
    recibir, por medio del controlador de gestión de la placa base, un mensaje de respuesta de lectura devuelto por el procesador;
    cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, dar instrucciones, por medio del controlador de gestión de la placa base, a un módulo de reinicio en caliente o a un usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error al controlador de gestión de la placa base, donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador; y
    recibir, por medio del controlador de gestión de la placa base, los primeros datos de error enviados por el procesador.
  6. 6. El método de acuerdo con la reivindicación 5, donde el método comprende, además:
    recibir, por medio del controlador de gestión de la placa base, una indicación de caso de fallo enviada por el procesador, donde el procesador envía la indicación de caso de fallo cuando el procesador adquiere los primeros datos de error y los primeros datos de error son de un tipo de error imposible de corregir; y si al menos una parte de los primeros datos de error enviados por el procesador no se recibe dentro de un tiempo de espera preestablecido, que comienza a partir del momento en el que se recibe la indicación de caso de fallo, determinar que el ordenador se bloquea.
  7. 7. El método de acuerdo con la reivindicación 5 o 6, donde:
    cuando el mensaje de respuesta de lectura contiene los primeros datos de error, obtener, por medio del controlador de gestión de la placa base, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
  8. 8. El método de acuerdo con cualquiera de las reivindicaciones 5 a 7, donde después de la obtención, por medio del controlador de gestión de la placa base, de acuerdo con el mensaje de respuesta de lectura, de los primeros datos de error registrados por el procesador, el método comprende, además: examinar, por medio del controlador de gestión de la placa base, los primeros datos de error de acuerdo con un mecanismo de examen de fallos, con el fin de obtener una información de examen del fallo de los primeros datos de error; y analizar, por medio del controlador de gestión de la placa base, la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo.
  9. 9. Un controlador de gestión de la placa base (50), que comprende:
    una unidad de envío (501), configurada de modo que: cuando se determina que un ordenador se bloquea, envíe un mensaje de demanda de lectura a un procesador, donde el mensaje de demanda de lectura se utiliza para solicitar la lectura de los primeros datos de error registrados por el procesador; y
    una unidad de recepción (502), configurada de modo que reciba un mensaje de respuesta de lectura devuelto por el procesador;
    cuando el mensaje de respuesta de lectura contiene una indicación de fallo de lectura, la unidad de recepción (502) da instrucciones a una unidad de reinicio en caliente o a un usuario del ordenador para llevar a cabo un reinicio en caliente del ordenador, de modo que el procesador ejecute, durante el reinicio en caliente del ordenador, una instrucción de recogida de fallos de un sistema básico de entrada y salida del ordenador, adquiera los primeros datos de error, de acuerdo con la instrucción de recogida de fallos del sistema básico de entrada y salida, y envíe los primeros datos de error a la unidad de recepción (502), donde la indicación de fallo de lectura se utiliza para indicar que los primeros datos de error no se pueden leer desde el procesador; y
    la unidad de recepción (502) recibe los primeros datos de error enviados por el procesador.
  10. 10. El controlador de gestión de la placa base (50) de acuerdo con la reivindicación 9, donde: cuando el mensaje de respuesta de lectura contiene los primeros datos de error, la unidad de recepción (502) obtiene, a partir del mensaje de respuesta de lectura, los primeros datos de error registrados por el procesador.
  11. 11. El controlador de gestión de la placa base (50) de acuerdo con cualquiera de las reivindicaciones 9 a 10, que comprende, además:
    una unidad de tratamiento de fallos (505), configurada de modo que examine los primeros datos de error, de acuerdo con un mecanismo de examen de fallos, con el fin de obtener la información de examen del fallo de los primeros datos de error; y analizar la información de examen del fallo de los primeros datos de error, de acuerdo con un mecanismo de tratamiento de fallos preestablecido, con el fin de obtener una sugerencia de tratamiento del fallo.
  12. 12. Un soporte legible por ordenador, que comprende instrucciones ejecutables por ordenador, de modo que cuando un procesador de un ordenador ejecute las instrucciones ejecutables por ordenador, el ordenador lleve a cabo el método de tratamiento de fallos de acuerdo con cualquiera de las reivindicaciones 5 a 8.
ES14896215.2T 2014-06-24 2014-06-24 Método de tratamiento de fallos, dispositivo relacionado y ordenador Active ES2667322T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/080618 WO2015196365A1 (zh) 2014-06-24 2014-06-24 一种故障处理方法、相关装置及计算机

Publications (1)

Publication Number Publication Date
ES2667322T3 true ES2667322T3 (es) 2018-05-10

Family

ID=54936439

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14896215.2T Active ES2667322T3 (es) 2014-06-24 2014-06-24 Método de tratamiento de fallos, dispositivo relacionado y ordenador

Country Status (14)

Country Link
US (3) US10353763B2 (es)
EP (2) EP3355197B1 (es)
JP (1) JP6333410B2 (es)
KR (1) KR101944874B1 (es)
CN (2) CN105659215B (es)
AU (1) AU2014399227B2 (es)
BR (1) BR112016022329B1 (es)
CA (1) CA2942045C (es)
DK (1) DK3121726T3 (es)
ES (1) ES2667322T3 (es)
NO (1) NO3121726T3 (es)
SG (1) SG11201607545PA (es)
WO (1) WO2015196365A1 (es)
ZA (1) ZA201606180B (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975377B (zh) * 2016-04-29 2018-05-25 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
WO2018103185A1 (zh) * 2016-12-05 2018-06-14 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
JP7063445B2 (ja) * 2017-03-22 2022-05-09 Necプラットフォームズ株式会社 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム
KR102455880B1 (ko) 2018-01-12 2022-10-19 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작 방법
US11636014B2 (en) * 2017-10-31 2023-04-25 SK Hynix Inc. Memory system and data processing system including the same
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
US10846162B2 (en) * 2018-11-29 2020-11-24 Oracle International Corporation Secure forking of error telemetry data to independent processing units
CN109783325B (zh) * 2018-12-14 2023-07-25 平安证券股份有限公司 业务监控方法、装置、设备及存储介质
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
TWI709082B (zh) * 2019-07-08 2020-11-01 神雲科技股份有限公司 應用於開機階段及開機後運行階段的除錯訊息紀錄方法
CN112346786B (zh) * 2019-08-08 2022-07-12 佛山市顺德区顺达电脑厂有限公司 应用于开机阶段及开机后运行阶段的除错信息纪录方法
CN110532160B (zh) * 2019-09-03 2023-07-25 深圳市智微智能科技股份有限公司 一种bmc记录服务器系统热重启事件的方法
TWI715201B (zh) * 2019-09-18 2021-01-01 神雲科技股份有限公司 開機錯誤資訊記錄方法
US11243859B2 (en) * 2019-10-09 2022-02-08 Microsoft Technology Licensing, Llc Baseboard management controller that initiates a diagnostic operation to collect host information
US11176020B2 (en) * 2019-11-05 2021-11-16 Microsoft Technology Licensing, Llc Server status monitoring system and method using baseboard management controller
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置
US11132314B2 (en) * 2020-02-24 2021-09-28 Dell Products L.P. System and method to reduce host interrupts for non-critical errors
CN113535502B (zh) * 2020-04-17 2024-06-25 捷普科技(上海)有限公司 用于服务器系统的错误日志收集方法
US11204821B1 (en) * 2020-05-07 2021-12-21 Xilinx, Inc. Error re-logging in electronic systems
CN111581058B (zh) * 2020-05-09 2024-03-19 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN111737039B (zh) * 2020-06-19 2024-11-12 广东浪潮大数据研究有限公司 一种错误信息辅助提取方法、装置、设备及可读存储介质
CN112181522B (zh) * 2020-09-28 2024-08-09 亚信科技(中国)有限公司 数据处理的方法、装置以及电子设备
CN112256467B (zh) * 2020-10-23 2022-08-02 英业达科技有限公司 错误类型判断系统及其方法
US11269729B1 (en) * 2020-12-21 2022-03-08 Microsoft Technology Licensing, Llc Overloading a boot error signaling mechanism to enable error mitigation actions to be performed
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN113076210B (zh) * 2021-03-26 2023-01-20 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质
CN115495291A (zh) * 2021-06-18 2022-12-20 联想(北京)有限公司 用于促进系统致命错误的记录的方法和设备
CN113726555A (zh) * 2021-08-02 2021-11-30 华迪计算机集团有限公司 一种适用于数据通信网络辅助解析告警的系统及方法
CN114201360B (zh) * 2021-11-26 2023-11-17 苏州浪潮智能科技有限公司 一种aer功能管理方法、装置、服务器和存储介质
US11921582B2 (en) * 2022-04-29 2024-03-05 Microsoft Technology Licensing, Llc Out of band method to change boot firmware configuration
CN115391073B (zh) * 2022-07-22 2025-12-16 超聚变数字技术有限公司 内存故障的处理方法、基板管理控制器及计算系统
TWI800443B (zh) * 2022-08-15 2023-04-21 緯穎科技服務股份有限公司 快速周邊組件互連裝置的錯誤回報優化方法以及快速周邊組件互連裝置的錯誤回報優化系統
CN117215859B (zh) * 2023-11-07 2024-02-09 苏州元脑智能科技有限公司 主备bios自动切换方法、自动切换装置和计算机
US12321221B1 (en) * 2023-11-29 2025-06-03 Dell Products, L.P. Systems and methods for accident detection and handling
CN118132358B (zh) * 2024-04-29 2024-08-30 苏州元脑智能科技有限公司 注错方法、系统、上位机、控制器、设备和存储介质
CN118467221A (zh) * 2024-05-06 2024-08-09 北京安讯天维科技有限公司 一种服务器故障危险等级识别及故障恢复方法
CN120429158B (zh) * 2025-07-08 2025-10-03 苏州元脑智能科技有限公司 系统管理器、错误数据的处理方法、设备及程序产品

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02234241A (ja) * 1989-03-08 1990-09-17 Hitachi Ltd リセット・リトライ回路
JPH0375844A (ja) * 1989-08-17 1991-03-29 Nec Corp 障害自動解析方式
JPH05233377A (ja) * 1992-01-09 1993-09-10 Nec Corp レジスタ情報収集方式
JPH09288602A (ja) * 1996-04-23 1997-11-04 Fujitsu Ltd 障害情報記憶装置の書込み保護装置とリセット制御方法
JPH09286602A (ja) 1996-04-24 1997-11-04 Mitsubishi Gas Chem Co Inc 一酸化炭素及び水素の混合ガスの製造方法
US20030070115A1 (en) * 2001-10-05 2003-04-10 Nguyen Tom L. Logging and retrieving pre-boot error information
JP3902564B2 (ja) * 2003-04-15 2007-04-11 中部日本電気ソフトウェア株式会社 障害通報装置および障害通報方法
US7844866B2 (en) * 2007-10-02 2010-11-30 International Business Machines Corporation Mechanism to report operating system events on an intelligent platform management interface compliant server
JP2005251060A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd 故障表示装置および故障部位表示方法
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
US7546487B2 (en) * 2005-09-15 2009-06-09 Intel Corporation OS and firmware coordinated error handling using transparent firmware intercept and firmware services
US20070088988A1 (en) 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US20070234123A1 (en) * 2006-03-31 2007-10-04 Inventec Corporation Method for detecting switching failure
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
US20080270827A1 (en) * 2007-04-26 2008-10-30 International Business Machines Corporation Recovering diagnostic data after out-of-band data capture failure
US8024609B2 (en) * 2009-06-03 2011-09-20 International Business Machines Corporation Failure analysis based on time-varying failure rates
JP5514643B2 (ja) * 2010-06-21 2014-06-04 株式会社日立ソリューションズ 障害原因判定ルール変化検知装置及びプログラム
CN102375775B (zh) 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
JP5541519B2 (ja) * 2010-10-06 2014-07-09 エヌイーシーコンピュータテクノ株式会社 情報処理装置、故障部位判別方法および故障部位判別プログラム
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467417B (zh) 2010-11-19 2014-04-23 英业达股份有限公司 计算机系统
TWI446161B (zh) * 2010-12-30 2014-07-21 Ibm 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
US8898408B2 (en) * 2011-12-12 2014-11-25 Dell Products L.P. Memory controller-independent memory mirroring
AU2012398458B2 (en) * 2012-06-06 2016-05-19 Intel Corporation Recovery after input/output error-containment events
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
JP6087540B2 (ja) * 2012-08-30 2017-03-01 Necプラットフォームズ株式会社 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム
CN103647804B (zh) * 2013-11-22 2017-04-26 华为技术有限公司 一种存储单元的数据处理方法、设备及系统
WO2016167551A1 (ko) 2015-04-13 2016-10-20 삼성전자 주식회사 통신 시스템에서 프로파일을 관리하는 기법

Also Published As

Publication number Publication date
ZA201606180B (en) 2019-04-24
AU2014399227A1 (en) 2016-09-22
US20170102985A1 (en) 2017-04-13
JP6333410B2 (ja) 2018-05-30
EP3355197A1 (en) 2018-08-01
BR112016022329B1 (pt) 2019-01-02
US11360842B2 (en) 2022-06-14
CA2942045A1 (en) 2015-12-30
CN105659215B (zh) 2017-08-25
BR112016022329A2 (pt) 2017-08-15
KR101944874B1 (ko) 2019-02-01
NO3121726T3 (es) 2018-06-30
EP3355197B1 (en) 2019-10-23
EP3121726A4 (en) 2017-05-03
JP2017517060A (ja) 2017-06-22
US10353763B2 (en) 2019-07-16
US20210182136A1 (en) 2021-06-17
DK3121726T3 (en) 2018-05-22
CN107357671A (zh) 2017-11-17
AU2014399227B2 (en) 2017-07-27
SG11201607545PA (en) 2016-10-28
KR20160128404A (ko) 2016-11-07
CA2942045C (en) 2019-04-16
CN105659215A (zh) 2016-06-08
US20190332453A1 (en) 2019-10-31
WO2015196365A1 (zh) 2015-12-30
EP3121726B1 (en) 2018-01-31
EP3121726A1 (en) 2017-01-25

Similar Documents

Publication Publication Date Title
ES2667322T3 (es) Método de tratamiento de fallos, dispositivo relacionado y ordenador
CN105589776B (zh) 一种故障定位方法及服务器
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
US10713128B2 (en) Error recovery in volatile memory regions
EP2901281B1 (en) Notification of address range including non-correctable error
US8689059B2 (en) System and method for handling system failure
TW201828071A (zh) 開關裝置及偵測積體電路匯流排之方法
CN106936616A (zh) 备份通信方法和装置
CN101135984B (zh) 硬件信息备份装置、运行信息备份及检测信息保存方法
CN119201525A (zh) 一种错误解析方法、系统、电子设备及介质
CN101025709A (zh) 一种计算机操作系统故障现场信息获取的系统和方法
JP3711871B2 (ja) Pciバスの障害解析容易化方式
CN118093265A (zh) 一种pcie设备故障处理方法及服务器
CN116340031A (zh) 检测偏差的计算机系统及方法和非暂态计算机可读介质
TWI324304B (en) Method for reading data of input/output port
CN120723526B (zh) 通信故障确定方法和设备
CN117687821A (zh) 高速缓冲存储器坏块的处理方法、装置和电子设备
JP2006119778A (ja) 情報処理システム、入出力装置及びそれに用いるシステム障害時の自動データ送出方法並びにそのプログラム