ES3023268T3

ES3023268T3 - Method for controlling rail traffic of a plurality of railway vehicles, computing unit and computer program

Info

Publication number: ES3023268T3
Application number: ES21170890T
Authority: ES
Inventors: Caroline Campbell-Smith; Karl-Heinz Erhard; Daniel Hein; Steffen Limmer
Original assignee: Siemens Mobility GmbH
Current assignee: Siemens Mobility GmbH
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2025-05-30
Anticipated expiration: 2041-04-28
Also published as: EP4082869C0; EP4082869A1; EP4082869B1

Abstract

La invención se refiere a un método (100) para controlar el tráfico ferroviario de una pluralidad de vehículos ferroviarios (215), que comprende: - recibir (101) datos de estado del tráfico ferroviario; - recibir (103) un objetivo de control (KPI1, KPI2, KPIN) para controlar el tráfico ferroviario de la pluralidad de vehículos ferroviarios (215); - seleccionar (105) al menos una regla de selección de acción (Π1, Π2, ΠN) de una pluralidad de reglas de selección de acción (Π1, Π2, ΠN) en función del objetivo de control (KPI1, KPI2, KPIN), donde las reglas de selección de acción (Π1, Π2, ΠN) están configuradas para determinar acciones de control del tráfico ferroviario en función de los datos de estado del tráfico ferroviario, donde al ejecutar las acciones de control por los vehículos ferroviarios (215), el tráfico ferroviario se lleva a un estado optimizado con respecto a un objetivo de control (KPI1, KPI2, KPIN). se pueden transferir; - ejecutar (107) la al menos una regla de selección de acción seleccionada (Π1, Π2, ΠN) sobre los datos de estado recibidos y determinar acciones de control; y - proporcionar (109) las acciones de control para controlar la pluralidad de vehículos ferroviarios (215). (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios, unidad informática y programa informático

La presente invención hace referencia a un procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios.

Un control de un tráfico ferroviario de una pluralidad de vehículos ferroviarios, como por ejemplo en una red de metros o tranvías, puede estar optimizado en cuanto a distintos objetivos de control, por ejemplo, en cuanto a un consumo de energía ventajoso o a tiempos de retardo lo más reducido posibles. Para ello, pueden generarse horarios optimizados de modo correspondiente, según los cuales puede controlarse el tráfico ferroviario y en particular la pluralidad de vehículos ferroviarios. Esos horarios optimizados habitualmente se determinan o calculan fuera de línea, es decir, no cuando el transporte ferroviario está en funcionamiento. Sin embargo, si durante la operación del tráfico ferroviario se presentan situaciones en las que se debe diferir del horario predefinido y optimizado, se presenta el problema de cómo alcanzar un control lo más óptimo posible del tráfico ferroviario en el estado en línea, es decir, durante el funcionamiento.

Por la solicitud WO 2020/043397 A1 se conoce una optimización de energía para operar una flota de vehículos ferroviarios. Además, en la solicitud US 6,459,964 B1 se describe un procedimiento para perfeccionar un horario de trenes, y en la solicitud EP 2619 067 B1 se describe un procedimiento para el control automático de una pluralidad de vehículos guiados.

El objeto de la presente invención consiste en proporcionar un procedimiento mejorado para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios.

Dicho objeto se soluciona mediante un procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios según la reivindicación 1 independiente. En las reivindicaciones dependientes se indican configuraciones ventajosas.

Según un aspecto de la invención se proporciona un procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios, donde el procedimiento comprende:

- recepción de datos de estado de la pluralidad de vehículos ferroviarios del tráfico ferroviario, donde los datos de estado describen estados de control de la pluralidad de vehículos ferroviarios y comprenden al menos datos de posición de los vehículos ferroviarios dentro de una red de tráfico ferroviario;

- recepción de un objetivo de control para controlar el tráfico ferroviario de la pluralidad de vehículos ferroviarios;

- selección de al menos una regla de selección de acción de una pluralidad de reglas de selección de acción en base al objetivo de control, donde las reglas de selección de acción están configuradas para, en base a datos de estado del tráfico ferroviario, determinar acciones de control del tráfico ferroviario, donde mediante la ejecución de las acciones de control por los vehículos ferroviarios, el tráfico ferroviario puede pasarse a un estado optimizado con respecto a un objetivo de control, donde cada regla de selección de acción está configurada para la optimización con respecto a un objetivo de control individual, y donde al menos una regla de selección de acción seleccionada está configurada para una optimización con respecto al objetivo de control recibido;

- ejecución de al menos una regla de selección de acción seleccionada en cuanto a los datos de estado recibidos y determinación de acciones de control; y

- puesta a disposición de las acciones de control para controlar la pluralidad de vehículos ferroviarios.

Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un procedimiento mejorado para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios, en el que durante la operación del tráfico ferroviario y el desplazamiento de los vehículos ferroviarios dentro de una red de tráfico ferroviario, puede efectuarse una modificación de un objetivo de control, según el cual puede controlarse u optimizarse el tráfico ferroviario. Para ello se dispone de una pluralidad de reglas de selección de acción diferentes, mediante las cuales, en base a datos de estado del tráfico ferroviario, pueden determinarse acciones de control que, al ser ejecutadas por la pluralidad de vehículos ferroviarios del tráfico ferroviario, posibilitan una optimización del tráfico ferroviario con respecto a un objetivo de control predeterminado. Al recibirse un objetivo de control que debe modificarse de modo correspondiente, de este modo, puede seleccionarse una regla de selección de acción que está optimizada o configurada para el respectivo objetivo de control, para determinar acciones de control correspondientes que están configuradas para, al ser ejecutadas por los respectivos vehículos ferroviarios, alcanzar el objetivo de control correspondiente. Gracias a esto puede lograrse que, durante la operación del tráfico ferroviario, pueda efectuarse de forma deseada una modificación del objetivo de control, y fácilmente, mediante la ejecución de las respectivas reglas de selección de acción, puedan determinarse acciones de control para optimizar el tráfico ferroviario con respecto al objetivo de control seleccionado. Con ello se suprime una adaptación compleja del control del tráfico ferroviario.

Una regla de selección de acción, en el sentido de la solicitud, es una política (policy) conocida en el ámbito del aprendizaje de refuerzo (reinforcement learning), que está configurada para, en cualquier estado del tráfico ferroviario, determinar acciones de control correspondientes que sean adecuadas para pasar el tráfico ferroviario a un estado optimizado con respecto a un objetivo de control predeterminado.

Un objetivo de control, en el sentido de la solicitud, es una especificación objetivo, según la que debe optimizarse o mejorarse el tráfico ferroviario de la pluralidad de vehículos ferroviarios. Un objetivo de control o un criterio de optimización correspondiente del tráfico ferroviario, por ejemplo, puede comprender un consumo de energía, un retardo total de los vehículos ferroviarios, o factores similares, relevantes para la operación de una pluralidad de vehículos ferroviarios.

Un tráfico ferroviario, en el sentido de la solicitud, es una totalidad de una pluralidad de vehículos ferroviarios dentro de una red de tráfico ferroviario, y está caracterizado por estados, aquellos estados de control de los vehículos ferroviarios individuales que comprenden al menos datos de posición de los vehículos ferroviarios dentro de la red de tráfico ferroviario, así como datos de tiempo, por ejemplo tiempos de retardo de la pluralidad de vehículos ferroviarios relativamente con respecto a un horario predeterminado, consumos de energía u otros parámetros de control de la totalidad de la pluralidad de vehículos ferroviarios. Una variación del tráfico ferroviario en el curso del control de los vehículos ferroviarios dentro de la red de tráfico ferroviario se describe mediante variaciones de estado del tráfico ferroviario, en las que los estados de control de la pluralidad de vehículos ferroviarios, como también los parámetros de control, como consumo de energía o retardo total, experimentan una variación de tiempo.

Las acciones de control, en el sentido de la solicitud, son acciones o criterios de control según los que debe controlarse la pluralidad de vehículos ferroviarios. Las acciones de control, en el sentido de la solicitud, junto con órdenes de control explícitas para los vehículos ferroviarios individuales, comprenden datos de tiempo que por ejemplo describen tiempos de llegada, tiempos de partida o tiempos de detención de los vehículos ferroviarios individuales en paradas dentro de la red de tráfico ferroviario. De este modo, los vehículos ferroviarios deben controlarse de manera que cumplan o respeten los datos de tiempo correspondientes de las especificaciones.

Una optimización del tráfico ferroviario con respecto a un objetivo de control seleccionado o predeterminado, en el sentido de la solicitud, comprende una mejora de un estado real del vehículo ferroviario, con respecto al respectivo objetivo de control. Una optimización del tráfico ferroviario, de este modo, en el sentido de la solicitud no debe conducir forzosamente a un estado óptimo del tráfico ferroviario con respecto al respectivo objetivo de control, sino que solamente puede estar limitado por una mejora con respecto al objetivo de control y en comparación con estados del tráfico ferroviario, precedentes en el tiempo.

El procedimiento según la invención para controlar un tráfico ferroviario, de este modo, puede ejecutarse durante la operación del tráfico ferroviario, el efectuarse el desplazamiento de los vehículos ferroviarios individuales dentro de la red de tráfico ferroviario. La optimización del tráfico ferroviario puede efectuarse aquí con respecto a un horario predeterminado, según el que debe controlarse la pluralidad de los vehículos ferroviarios dentro de la red de tráfico ferroviario.

Según una forma de ejecución, el objetivo de control recibido es un objetivo de control combinado y comprende una pluralidad de objetivos de control, donde los objetivos de control con ponderaciones individuales se incluyen en el objetivo de control combinado; que comprende:

- selección de una pluralidad de reglas de selección de acción, donde cada regla de selección de acción respectivamente está configurada para una optimización con respecto a uno de la pluralidad de objetivos de control del objetivo de control combinado; y

- ejecución de la pluralidad de las reglas de selección de acción seleccionadas, según una relación de ejecución, donde la relación de ejecución, para cada regla de selección seleccionada, determina una porción de tiempo en una duración de ejecución total de la pluralidad de reglas de selección de acción seleccionadas, y donde una ejecución de la pluralidad de reglas de selección de acción, según la relación de ejecución, cumple con el objetivo de control combinado.

Gracias a ello puede alcanzarse la ventaja técnica de que puede conseguirse otra mejora del control del tráfico ferroviario, al posibilitarse una consideración de objetivos de control combinados y una optimización correspondiente del tráfico ferroviario con respecto a objetivos de control de esa clase. Un objetivo de control combinado comprende en este caso una pluralidad de objetivos de control predeterminados que respectivamente con una ponderación correspondiente se incluyen en el objetivo de control combinado. Con ello se posibilita un control del tráfico ferroviario con respecto a una pluralidad de objetivos de control.

Un objetivo de control combinado, en el sentido de la solicitud, está dado por una pluralidad de al menos dos objetivos de control predeterminados que, con una ponderación correspondiente, se incluyen en el objetivo de control combinado. Un tráfico ferroviario, con ello, puede controlarse simultáneamente con respecto a los objetivos de control consumo de energía y reducción del retardo, por ejemplo en una relación de 60 a 40. Para ello, se selecciona una pluralidad de reglas de selección de acción correspondientes que respectivamente están optimizadas en cuanto a objetivos de control predeterminados individuales del objetivo de control combinado, y se ejecuta según una relación de ejecución. En este caso, la relación de ejecución está configurada de manera que la ejecución de las reglas de selección de acción seleccionadas, según la relación de ejecución, conducen al cumplimiento del objetivo de control combinado.

Una ejecución de una pluralidad de reglas de selección de acción, según una relación de ejecución, en el sentido de la solicitud, corresponde a una ejecución de las acciones de control respectivamente determinadas mediante las reglas de selección de acción individuales, según la respectiva relación de ejecución. Una relación de ejecución, aquí en el sentido de la solicitud, para cada regla de selección de acción que debe considerarse de modo correspondiente, describe una porción de tiempo de la respectiva ejecución de la regla de selección de acción dentro de un periodo de ejecución predeterminado. La ejecución de las acciones de control individuales de las distintas reglas de selección de acción, según la relación de ejecución, en el sentido de la solicitud significa que, según la respectiva relación de ejecución, el tráfico ferroviario se controla según las respectivas reglas de selección de acción.

Según la forma de ejecución, mediante la relación de ejecución, para cada regla de selección de acción está determinada una duración de ejecución y/o una secuencia en el tiempo de la pluralidad de reglas de selección de acción.

Gracias a esto puede alcanzarse la ventaja técnica de que es posible una relación de ejecución precisa y que puede determinarse con facilidad, en la que para cada regla de selección de acción se determina una duración de ejecución dentro del respectivo periodo de ejecución y/o para la pluralidad de reglas de selección de acción involucradas se determina un orden de ejecución.

Según una forma de ejecución, mediante la relación de ejecución, para cada regla de selección de acción seleccionada, está determinada una probabilidad de ejecución, según la cual la regla de selección de acción debe ser ejecutada en un periodo de ejecución.

Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un relación de ejecución precisa y que puede determinarse con facilidad. Para ello, para cada regla de selección de acción involucrada se determina una probabilidad de ejecución de una ejecución de la respectiva regla de selección de acción dentro de un periodo de ejecución correspondiente. La probabilidad de ejecución describe en este caso la probabilidad de que el tráfico ferroviario se controle según las acciones de control determinadas mediante la respectiva regla de selección de acción, durante un periodo predeterminado.

Según una forma de ejecución, las reglas de selección de acción seleccionadas se ejecutan cíclicamente, donde el tráfico ferroviario se controla cíclicamente según las acciones de control determinadas mediante las reglas de selección de acción.

Gracias a esto puede alcanzarse la ventaja técnica de que se posibilita un control preciso del tráfico ferroviario.

Según una forma de ejecución, la selección y/o la ejecución de las reglas de selección de acción se ejecuta mediante una función de división de tiempo, donde la función de división de tiempo está entrenada mediante aprendizaje automático, para determinar relaciones de ejecución correspondientes para objetivos de control combinados.

Gracias a esto puede alcanzarse la ventaja técnica de que es posible una selección precisa de las respectivas acciones de control que pueden ejecutarse y una determinación precisa de las respectivas relaciones de ejecución. Mediante la función de división de tiempo que, mediante técnicas del aprendizaje automático, está entrenada para determinar relaciones de ejecución correspondientes para objetivos de control combinados deseados, puede alcanzarse de modo preciso y fiable un control de alta complejidad de un tráfico ferroviario que comprende una pluralidad de vehículos ferroviarios y una optimización de la misma con respecto a objetivos de control combinados. La utilización de las técnicas del aprendizaje automático posibilita en este caso una determinación más precisa de las relaciones de ejecución correspondientes y, asociado a ello, un control más efectivo y más eficiente, del tráfico ferroviario.

Según la invención, las reglas de selección de acción están entrenadas mediante aprendizaje de refuerzo. Según una forma de ejecución, la función de división de tiempo está entrenada mediante aprendizaje de refuerzo.

Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un entrenamiento preciso y eficiente de la función de división de tiempo, así como de las reglas de selección de acción.

Según una forma de ejecución, el entrenamiento de las reglas de selección de acción y/o de la función de división de tiempo se ejecuta en base a datos de simulación, donde los datos de simulación se basan en una simulación de un tráfico ferroviario de una pluralidad de vehículos ferroviarios.

Gracias a esto puede alcanzarse la ventaja técnica de que se posibilita un entrenamiento efectivo y eficiente de las reglas de selección de acción, así como de la función de división de tiempo. Además, puede prescindirse de una generación de datos de entrenamiento correspondiente mediante marchas efectivamente realizadas de la pluralidad de vehículos ferroviarios.

Según la invención, el entrenamiento de las reglas de selección de acción comprende una maximización de funciones de recompensa y las funciones de recompensa definen objetivos de control y/u objetivos de control combinados.

Según una forma de ejecución, el entrenamiento de la función de división de tiempo comprende una maximización de funciones de recompensa, donde las funciones de recompensa definen objetivos de control y/u objetivos de control combinados.

Gracias a esto puede alcanzarse la ventaja técnica de que puede posibilitarse un entrenamiento efectivo y eficiente de las reglas de selección de acción, así como de la función de división de tiempo.

Según una forma de ejecución, las reglas de selección de acción y las funciones de división de tiempo se entrenan simultáneamente. Gracias a esto puede alcanzarse la ventaja técnica de que se posibilita un control mejorado del tráfico ferroviario. Mediante el entrenamiento simultáneo de la función de división de tiempo y de la pluralidad de reglas de selección de acción con respecto a objetivos de control combinados, puede lograrse que las acciones de control individuales de las distintas reglas de selección de acción puedan adaptarse a la interacción con las respectivamente otras reglas de selección de control. Mediante la adaptación puede alcanzarse un mejor rendimiento de las reglas de selección de acción que lo que sería posible en el caso de un entrenamiento individual de las reglas de selección de acción individuales en cuanto a objetivos de control individuales y solamente una combinación de las reglas de selección de acción entrenadas de forma individual, mediante la función de división de tiempo, para cumplir con un objetivo de control combinado. Según una forma de ejecución, las reglas de selección de acción y/o la función de división de tiempo está diseñada como red neuronal.

Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse una configuración eficaz y robusta de las reglas de selección de acción o de las funciones de división de tiempo.

Según una forma de ejecución, los objetivos de control comprenden: la minimización de un consumo de energía de la pluralidad de vehículos ferroviarios y/o la minimización de consumos de energía de vehículos ferroviarios individuales, y/o la minimización de un retardo total de la pluralidad de vehículos ferroviarios y/o la minimización de un retardo máximo de vehículos ferroviarios individuales, y/o la minimización de una suma de desviación cuadrada o absoluta de los retardos con respecto a un valor de retardo medio o mediano de la pluralidad de vehículos ferroviarios.

Gracias a esto puede alcanzarse la ventaja técnica de que se posibilita un control preciso del tráfico ferroviario, en el que el tráfico ferroviario puede optimizarse con respecto a objetivos de control relevantes.

Según una forma de ejecución, las acciones de control comprenden tiempos de llegada y/o tiempos de partida y/o tiempos de detención de la pluralidad de vehículos ferroviarios en paradas dentro de la red de tráfico ferroviario.

Gracias a esto puede alcanzarse la ventaja técnica de que se posibilita un control eficiente del tráfico ferroviario, considerando objetivos de control combinados. Mediante la consideración de tiempos de partidas y/o tiempos de llegada y/o tiempos de detención de los vehículos ferroviarios en paradas dentro de la red de tráfico ferroviario en las respectivas acciones de control, puede alcanzarse un control preciso del tráfico ferroviario. Los tiempos de llegada y/o tiempos de partida y/o tiempos de parada correspondientes en este caso pueden relacionarse con un horario optimizado predeterminado. Un control de los vehículos individuales del tráfico ferroviario en este caso puede configurarse de manera que los respectivos vehículos ferroviarios observen los tiempos de partida y/o tiempos de llegada y/o tiempos de detención definidos en las acciones de control.

De acuerdo con un segundo aspecto se proporciona una unidad informática, donde la unidad informática está diseñada para ejecutar el procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios según una de las formas de ejecución precedentes.

Según un tercer aspecto de la invención se proporciona un producto de programa informático que comprende comandos que, al ser ejecutado el programa mediante una unidad de procesamiento de datos, disponen al mismo a ejecutar el procedimiento para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios, según una de las formas de ejecución precedentes.

Las características y ventajas de esta invención, descritas anteriormente, así como el modo de alcanzar las mismas, se aclaran y se vuelven más compresibles mediante las explicaciones de las siguientes representaciones, muy simplificadas, de ejemplos de ejecución preferentes. Respectivamente, muestran:

Figura 1 una representación esquemática de un sistema para controlar un tráfico ferroviario, según una forma de ejecución.

Figura 2 un diagrama de flujo de un procedimiento para controlar un tráfico ferroviario, según una forma de ejecución;

Figura 3 un diagrama de una optimización de un tráfico ferroviario con respecto a dos objetivos de control;

Figura 4 una representación esquemática de una ejecución de dos reglas de selección de acción según una relación de ejecución;

Figura 5 una representación esquemática de una arquitectura para una función de división de tiempo, según una forma de ejecución;

Figura 6 otra representación esquemática de una arquitectura para una función de división de tiempo, según otra forma de ejecución;

Figura 7 un diagrama de un hipervolumen de un estado de optimización de un tráfico ferroviario; y Figura 8 una representación esquemática de un producto de programa informático.

La Figura 1 muestra una representación esquemática de un sistema 200 para optimizar un tráfico ferroviario, según una forma de ejecución.

Un sistema 200 para optimizar un tráfico ferroviario, según la forma de ejecución mostrada, comprende una pluralidad de módulos que pueden ejecutarse en una unidad informática 201. El sistema 200, además, puede estar dividido en un subsistema fuera de línea 202 y un subsistema en línea 204, donde el subsistema fuera de línea 202 se ejecuta fuera de línea, es decir, independientemente de un funcionamiento de los vehículos ferroviarios 215, mientras que el subsistema en línea 204 se ejecuta durante el funcionamiento de los vehículos ferroviarios 215.

El componente central del subsistema fuera de línea 202 es un módulo de optimización de horario 211. El módulo de optimización de horario 211 se utiliza para crear un horario optimizado para un tráfico ferroviario de una pluralidad de vehículos ferroviarios de una red de tráfico ferroviario. El módulo de optimización de horario 211, mediante una primera interfaz, puede transmitir el horario optimizado, creado en subsistema fuera de línea 202, al subsistema en línea 204, para que se pueda ejecutar el horario para controlar el tráfico ferroviario.

En la operación efectiva del tráfico ferroviario, el horario, ahora denominado horario en línea, es gestionado por un módulo de gestión de horario 205. Para ello, datos de posición de vehículos ferroviarios individuales del tráfico ferroviario, mediante un módulo automático de seguimiento de vehículos ferroviarios 207, por medio de una segunda interfaz S2, puede transmitirse al módulo de gestión de horario 205, para que el mismo pueda realizar una comparación entre movimientos objetivo del horario y movimientos reales efectivamente realizados por los vehículos ferroviarios del tráfico ferroviario.

El módulo de gestión de horario 205, mediante una tercera interfaz S3, puede transmitir órdenes para la selección de recorridos ferroviarios que pueden transitarse de modo correspondiente, a un módulo automático de selección de vía 209. Con ello, pueden reservarse a tiempo rutas ferroviarias correspondientes para garantizar una operación de los vehículos ferroviarios con retardos mínimos.

El módulo de gestión de horario 205 presenta además una interfaz bidireccional S2, S4 con un módulo automático de regulación del vehículo ferroviario 203. En el caso de que el horario en línea deba modificarse, debido a un nuevo horario objetivo del módulo de optimización de horario 211 o a modificaciones de un guardagujas, el módulo automático de regulación de vehículos ferroviarios 203 puede ser informado de modo correspondiente para provocar una modificación del horario en línea. Para ello, el módulo automático de regulación de vehículos ferroviarios 203, además, necesita datos de posición reales de los vehículos ferroviarios, para determinar retardos reales de los vehículos ferroviarios y, en el caso de desviaciones mayores, poder iniciar regulaciones adecuadas.

Esas regulaciones pueden comprender acciones de control que deben ser ejecutadas por los vehículos ferroviarios, con aquellos tiempos de partida y/o tiempos de llegada y tiempos de detención de los vehículos ferroviarios en paradas de los recorridos ferroviarios de la red de tráfico ferroviario, que son deseados o que deben ser alcanzados u observados por los vehículos ferroviarios para evitar el retardo y para modificar el horario. Las regulaciones correspondientes y/o acciones de control pueden transmitirse al módulo de gestión de horario 205 mediante una quinta interfaz S5.

Por último, para la adaptación del horario, las regulaciones y acciones de control correspondientes y los tiempos de llegada/tiempos de partida/tiempos de detención optimizados correspondientes, desde el módulo automático de gestión de vehículos ferroviarios 205, mediante una sexta interfaz S6, se transmiten a módulos automáticos de control de vehículos ferroviarios 213 de los vehículos ferroviarios 315 individuales del tráfico ferroviario, para que los mismos puedan ejecutar esa modificación deseada o acciones de control para alcanzar u observar los tiempos de llegada/tiempos de partida/tiempos de detención optimizados.

En el caso de vehículos ferroviarios que circulan de forma automática, el módulo automático de control de vehículos ferroviarios 213 puede determinar trayectorias de marcha del vehículo ferroviario 203, optimizadas en cuanto a la energía, que encajan mejor en el horario en línea real. En el caso de la marcha manual, se informa al conductor del vehículo, pero el mismo es libre de implementar las regulaciones.

En la forma de ejecución mostrada, el módulo automático de regulación de vehículos ferroviarios 203, en base a los datos de estado de un tráfico ferroviario que debe optimizarse, de una pluralidad de vehículos ferroviarios, está configurado para ejecutar el procedimiento según la invención para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios 215.

La Figura 2 muestra un diagrama de flujo de un procedimiento 100 para controlar un tráfico ferroviario, según una forma de ejecución.

El procedimiento 100 según la invención para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios 215 puede realizarse mediante un sistema 200 según la forma de ejecución en la Figura 1 y en particular mediante un módulo de regulación automático del vehículo ferroviario 203.

Para controlar un tráfico ferroviario, según el procedimiento 100 según la invención, en primer lugar, en una etapa del procedimiento 101, se reciben datos de estado del tráfico ferroviario de la pluralidad de vehículos ferroviarios 215. Los datos de estado describen en este caso estados del tráfico ferroviarios y comprenden al menos datos de posición de la pluralidad de vehículos ferroviarios, según los cuales es posible un posicionamiento de los vehículos ferroviarios dentro de la red de tráfico ferroviario. Los datos de estado, además, pueden comprender criterios de control del tráfico ferroviario, por ejemplo consumos de energía del tráfico ferroviario o de los vehículos ferroviarios individuales, o retardos de los vehículos ferroviarios, tanto como totalidad, como también individualmente, y otros criterios relevantes para controlar un tráfico ferroviario.

El procedimiento puede ejecutarse durante una operación del tráfico ferroviario, en la que los vehículos ferroviarios circulan dentro de una red ferroviaria en correspondencia con un horario. Los datos de estado describen aquí estados del tráfico ferroviario y describen al menos las posiciones dentro de la red ferroviaria en la que se encuentran vehículos en un instante determinado. Los datos de estado además pueden comprender datos de tiempo, por ejemplo datos de retardo de los vehículos ferroviarios individuales con respecto a un horario optimizado.

En otra etapa del procedimiento 103 se recibe un objetivo de control KPI<1>, KPI<2>, KPIn. El objetivo de control puede estar dado por ejemplo mediante un consumo de energía de la totalidad de los vehículos ferroviarios o un retardo total de la totalidad de los vehículos ferroviarios, mediante retardos individuales de los vehículos ferroviarios individuales.

El objetivo de control KPI<1>, KPI<2>, KPI<n>puede recibirse durante la operación del tráfico ferroviario y, con ello, durante la circulación de los vehículos ferroviarios dentro de la red ferroviaria. Esto posibilita una variación del objetivo de control KPI<1>, KPI<2>, KPIn durante el funcionamiento en línea del tráfico ferroviario. El objetivo de control indica aquí un criterio según el cual puede efectuarse el control del tráfico ferroviario. Por ejemplo, el tráfico ferroviario puede controlarse de manera que un consumo de energía total de los vehículos ferroviarios sea mínimo. De manera alternativa, el tráfico ferroviario puede controlarse para evitar o reducir a un mínimo retardos de los vehículos ferroviarios con respecto al horario.

En una etapa del procedimiento 105, a continuación, al menos una regla de selección de acción ni, n<2>, nN se selecciona de una pluralidad de reglas de selección de acción m, n<2>, nN almacenadas previamente. Las reglas de selección de acción m, n<2>, nN están configuradas para, en base a datos de estado del tráfico ferroviario, determinar acciones de control que, en el caso ejecuciones mediante los vehículos ferroviarios del tráfico ferroviario, conducen a una optimización del tráfico ferroviario con respecto a un objetivo de control KPI<1>, KPI<2>, KPI<n>predeterminado. Las reglas de selección de acción m, n<2>, nN individuales están optimizadas con respecto a un objetivo de control KPI<1>, KPI<2>, KPI<n>individual. Por ejemplo, una regla de selección de acción rn, n<2>, nN está optimizada en cuanto a una optimización con respecto a un consumo de energía total del tráfico ferroviario, mientras que otra regla de selección de acción está optimizada con respecto a una minimización de un retardo total de los vehículos ferroviarios del tráfico ferroviario. Una optimización de una regla de selección de acción m, n<2>, nN con respecto a un objetivo de control KPI<1>, KPI<2>, KPI<n>puede entenderse de manera que la respectiva regla de selección de acción m, n<2>, nN está configurada para determinar acciones de control correspondientes que, en el caso de la ejecución mediante los vehículos ferroviarios, conducen a una optimización del tráfico ferroviario con respecto al respectivo objetivo de control KPI<1>, KPI<2>, KPIn. Por consiguiente, en la etapa del procedimiento 105, de la pluralidad de reglas de selección de acción m, n<2>, nN almacenadas previamente, se selecciona la regla de selección de acción rn, n<2>, nN que está optimizada con respecto al objetivo de control KPI<1>, KPI<2>, KPIn recibido.

Las acciones de control determinadas mediante las reglas de selección de acción m, n<2>, nN en base a los datos de estado del tráfico ferroviario, junto con órdenes de control efectivas para los vehículos ferroviarios, o de forma alternativa a las mismas, pueden comprender especificaciones de tiempo en forma de tiempos de llegada, de partida y/o de detención de los vehículos ferroviarios en paradas de la red ferroviaria. Una regla de selección de acción m, n<2>, nN optimizada por ejemplo en cuanto a un consumo de energía de la pluralidad de vehículos ferroviarios, de este modo, está configurada para, en base a los datos de estado del tráfico ferroviario, en los que están descritas al menos las posiciones de los vehículos ferroviarios en un instante determinado, determinar tiempos de llegada, de partida y/o de detención de los vehículos ferroviarios para paradas que deben controlarse en el futuro, en donde los tiempos de llegada, de partida y/o de detención están configurados de manera que al controlarse los vehículos ferroviarios se logra que los vehículos ferroviarios cumplan con los tiempos de llegada, de partida y/o de detención, reduciéndose a un mínimo el consumo de energía de los vehículos.

Los tiempos de llegada, de partida y/o de detención determinados de modo correspondiente pueden variar aquí para distintos objetivos de control. Por ejemplo, para reducir un consumo de energía puede ser ventajoso que un vehículo se detenga más tiempo en una parada, para sincronizar la puesta en marcha del vehículo con la aceleración y/o el frenado de otros vehículos ferroviarios. En cambio, para reducir un retardo de los vehículos ferroviarios pueden no requerirse tiempos de detención más prolongados, ya que debido a eso se generarían muchos más retardos. Además, los tiempos de llegada, de partida y/o detención determinados de modo correspondiente dependen de los datos de estado del tráfico ferroviario y en particular de los posicionamientos de los vehículos individuales.

En una etapa del procedimiento 107, se ejecuta al menos una regla de selección de acción rn, n<2>, nN seleccionada en cuanto a los datos de estado recibidos del tráfico ferroviario y se determinan acciones de control correspondientes. Las acciones de control determinadas, por ejemplo los tiempos de llegada, de partida y/o de detención correspondientes, en este caso están configuradas de manera que al controlarse de modo correspondiente los vehículos ferroviarios el tráfico ferroviario puede pasarse a un estado que está optimizado con respecto al respectivo objetivo de control o que al menos está mejorado en comparación con estados anteriores en el tiempo. Por ejemplo, en un estado generado de ese modo, puede estar reducido un retardo con respecto a un horario predeterminado o puede estar reducido un consumo de energía.

En una etapa del procedimiento 109, las acciones de control según la forma de ejecución relativa a la Figura 1 se proporcionan a los distintos módulos del sistema 200, de manera que se posibilita un control del tráfico ferroviario. El control en este caso comprende el hecho de que los vehículos ferroviarios se controlen de manera que los vehículos ferroviarios observen los tiempos de llegada, de partida y/o de detención determinados en la etapa del procedimiento. Los tiempos de llegada, de partida y/o de detención correspondientes, en este caso, junto con una parada directamente situada adelante para un respectivo vehículo en una vía de la red de transporte, pueden considerar una pluralidad de paradas que son alcanzadas por el vehículo ferroviario en la vía en un periodo de tiempo predeterminado en el caso de un control correspondiente. Con ello, las acciones de control correspondientes, para un vehículo ferroviario, pueden comprender un conjunto de tiempos de llegada, de partida y/o de detención para una pluralidad de paradas.

Según una forma de ejecución, en la etapa del procedimiento 103 se recibe un objetivo de control KPI combinado. El objetivo de control KPI combinado comprende una pluralidad de los objetivos de control KPI<1>, KPI<2>, KPI<n>predeterminados, que respectivamente se incluyen con ponderaciones W<1>, W<2>, W<n>individuales en el objetivo de control KPI combinado. Un objetivo de control KPI combinado, con ello, puede comprender por ejemplo una optimización simultánea con respecto a un consumo de energía, y con respecto a una minimización de un retardo total del tráfico ferroviario, donde la optimización con respecto al consumo de energía y la optimización con respecto al retardo total pueden incluirse en cualquier relación, por ejemplo de 60 a 40, en el objetivo de control KPI combinado. Con ello, un control puede tener lugar de manera que por ejemplo se alcancen en un 60% una reducción del consumo de energía y en un 40% una reducción de un retardo. Los objetivos de control descritos y las relaciones y porcentajes indicados son solamente ilustrativos y no representan ninguna limitación de la invención.

En la etapa del procedimiento 105, a continuación, se selecciona una pluralidad de reglas de selección de acción n , n<2>, nN de las reglas de selección de acción ni, n<2>, nN previamente almacenadas. Las reglas de selección de acción n , n<2>, nN seleccionadas en este caso están optimizadas en cuanto a objetivos de control KPI<1>, KPI<2>, KPIn correspondientes del objetivo de control KPI combinado.

En la etapa del procedimiento 107, a continuación, se ejecutan las reglas de selección de acción n , n<2>, nN de la pluralidad seleccionada, según una relación de ejecución. La relación de ejecución, en este caso, para cada una de las reglas de selección de acción n , n<2>, nN seleccionadas, describe una porción de tiempo en una duración de ejecución total de la pluralidad de reglas de selección de acción n , n<2>, nN ejecutadas y permite cumplir con el objetivo de control KPI combinado mediante la ejecución de las reglas de selección de acción rn, n<2>, nN seleccionadas, según la relación de ejecución correspondiente. Para controlar el tráfico ferroviario, los vehículos ferroviarios, según las acciones de control determinadas mediante las reglas de selección de acción rn, n<2>, nN seleccionadas, se controlan en la respectiva relación de ejecución. En este caso, la relación de ejecución puede corresponder a la ponderación de los objetivos de control KPI<1>, KPI<2>, KPIn individuales del objetivo de control KPI combinado, de modo que el tráfico ferroviario, según el ejemplo antes descrito, se controla por ejemplo en un 60 % de un periodo de control, según una optimización con respecto a un consumo de energía y en un 40 % del periodo de ejecución según una optimización con respecto a un retardo total. El control de los vehículos ferroviarios, de este modo, tiene lugar según las acciones de control determinadas mediante las reglas de selección de acción rn, n<2>, m La relación de ejecución, sin embargo, también puede diferir de la respectiva ponderación W<1>, W<2>, W<n>de los objetivos de control KPI<1>, KPI<2>, KPIn individuales del objetivo de control KPI combinado.

La relación de ejecución, en este caso, según una forma de ejecución, puede describir una duración de ejecución t<1>, t2, tN para cada una de las reglas de selección de acción n , n<2>, nN individuales y/o puede determinar una secuencia en el tiempo de la pluralidad de reglas de selección de acción n , n<2>, m Con ello, de acuerdo con el ejemplo antes descrito, el tráfico ferroviario puede optimizarse por una duración de ejecución t<1>, t2 determinada de modo correspondiente con respecto al consumo de energía y puede optimizarse por una duración t<1>, t2 correspondiente con respecto a un retardo total. Las duraciones de ejecución t<1>, t2, en este caso, pueden dividirse en ventanas de tiempo correspondientes, de manera que, por ejemplo, de forma alternada, el tráfico ferroviario puede optimizarse con respecto a un objetivo de control y a continuación con respecto al otro.

El control del tráfico ferroviario según la relación de ejecución y la duración de ejecución t<1>, t<2>, tN determinada de modo correspondiente, para las distintas reglas de selección de acción n , n<2>, m , significa aquí que los vehículos ferroviarios se controlan por una duración de ejecución, de manera que se alcanzan u observan esos tiempos de llegada, de partida y/o de detención, que son adecuados para alcanzar un primer objetivo de control, y se controlan por otra duración de ejecución para alcanzar u observar otros tiempos de llegada, de partida y/o de detención, que están configurados para alcanzar otro objetivo de control del objetivo de control combinado.

Según otra forma de ejecución, la relación de ejecución, para cada regla de selección de acción ni, n<2>, nN seleccionada, puede determinar una probabilidad de ejecución P, según la cual la regla de selección de acción rn, n<2>, nN debe ejecutarse en un periodo de ejecución. Según la relación de ejecución, con ello, se determina de forma estocástica con qué probabilidad P debe ejecutarse cada regla de selección de acción ni, n<2>, nN en un periodo de ejecución correspondiente. Esto significa que el tráfico ferroviario, según la probabilidad de ejecución P correspondiente, puede optimizarse durante un periodo de ejecución con respecto al consumo de energía o al retardo total. Un tiempo de ejecución, por ejemplo, puede estar dado por un tiempo de ciclo en el caso de un control cíclico del tráfico ferroviario, de manera que para cada tiempo de ciclo, de un ciclo que debe ejecutarse del control del tráfico ferroviario, según las probabilidades de ejecución P correspondientes, el tráfico ferroviario puede optimizarse con respecto a los respectivos objetivos de control KPIi, KPI<2>, KPI<n>.

La selección en la etapa del procedimiento 105 y/o la ejecución en la etapa del procedimiento 107 de la pluralidad de reglas de selección de acción ni, n<2>, nN, puede ejecutarse mediante una función de división de tiempo 300. La función de división de tiempo 300, en este caso, mediante técnicas del aprendizaje automático, puede determinar relaciones de ejecución correspondientes considerando objetivos de control KPI combinados. La función de división de tiempo 300, por ejemplo, puede estar entrenada mediante aprendizaje de refuerzo. En particular, la función de división de tiempo 300 puede estar diseñada mediante una red neuronal 303 entrenada de modo correspondiente.

De manera correspondiente, las reglas de selección de acción rn, n<2>, nN están entrenadas mediante aprendizaje de refuerzo en cuanto a una optimización con respecto a los respectivos objetivos de control KPIi, KPI<2>, KPIn. Las reglas de selección de acción rn, n<2>, nN igualmente pueden estar diseñadas como redes neuronales entrenadas de modo correspondiente.

El entrenamiento de la función de división de tiempo 300, así como de las reglas de selección de acción rn, n<2>, nN, en este caso pueden ejecutarse en base a datos de simulación de una simulación de un tráfico ferroviario. Los datos de simulación, en este caso, pueden proporcionarse mediante una simulación correspondiente, por ejemplo mediante el programa de simulación Falko.

El entrenamiento de las reglas de selección de acción rn, n<2>, nN comprende una maximización de una función de recompensa y/o el entrenamiento de la función de división de tiempo 300 puede comprender en este caso una maximización de una función de recompensa que, de modo correspondiente, comprende los respectivos objetivos de control KPIi, KPI<2>, KPI<n>u objetivos de control KPI combinados.

El entrenamiento de las reglas de selección de acción rn, n<2>, nN puede realizarse aquí individualmente, de modo que cada regla de selección de acción rn, n<2>, nN se entrena para un objetivo de control KPIi, KPI<2>, KPIn individual. En base a las reglas de selección de acción rn, n<2>, nN entrenadas previamente, a continuación, la función de división de tiempo 300 puede entrenarse para distintos objetivos de control KPI combinados, que respectivamente, considerando diferentes ponderaciones Wi, W<2>, W<n>, comprenden los objetivos de control KPIi, KPI<2>, KPIn de las reglas de selección de acción rn, n<2>, nN individuales, en cuanto a la determinación de relaciones de ejecución correspondientes.

De manera alternativa, puede efectuarse un entrenamiento simultáneo de las reglas de selección de acción ni, n<2>, nN y de la función de división de tiempo 300. En un entrenamiento simultáneo de las reglas de selección de acción rn, n<2>, nN y de la función de división de tiempo 300, de este modo, las reglas de selección de acción rn, n<2>, nN previamente entrenadas y optimizadas en cuanto a los objetivos de control KPIi, KPI<2>, KPIn individuales, pueden entrenarse para cumplir con el objetivo de control KPI combinado, mientras que la función de división de tiempo 300 se entrena para determinar una relación de ejecución correspondiente.

El procedimiento según la invención puede aplicarse en una pluralidad de objetivos de control KPIi, KPI<2>, KPIn deseados y objetivos de control KPI combinados correspondientes, y puede aplicarse en cuanto a un número deseado correspondiente de reglas de selección de acción rn, n<2>, nN entrenadas de modo correspondiente.

La Figura 3 muestra un diagrama de una optimización de un tráfico ferroviario con respecto a dos objetivos de control (KPIi, KPI<2>, KPIn).

La Figura 3 muestra un diagrama de un Frente de Pareto de un tráfico ferroviario que se controla u optimiza con respecto a dos objetivos de control KPIi, KPI<2>. El diagrama en la Figura 3 muestra en este caso una optimización porcentual Oí con respecto al primer objetivo de control KPIi y una optimización porcentual O<2>con respecto al segundo objetivo de control KPI<2>. Se muestran varios estados optimizados Opt, Opt1, Opt2. Los puntos representados del Frente de Pareto muestran aquí optimizaciones del tráfico ferroviario con respecto a los dos objetivos de optimización KP1<1>, KPI<2>para ponderaciones W<2>diferentes del segundo objetivo de control KPI<2>. El punto Opt1 muestra aquí un estado optimizado del tráfico ferroviario para una ponderación W<2>igual a 0 del segundo objetivo de control KPI<2>, de modo que el tráfico ferroviario, en el estado de optimización Opt1 mostrado, está optimizado en 100 % con respecto al primer objetivo de control KPI<1>. El estado optimizado Opt2, en cambio, muestra una optimización del tráfico ferroviario para una ponderación W<2>igual a 100 del segundo objetivo de control KPI<2>, de modo que en ese estado optimizado el tráfico ferroviario está optimizado exclusivamente en una optimización con respecto al segundo objetivo de control KPI<2>. Los otros estados optimizados muestran distintas relaciones de los dos objetivos de control KPI<1>, KPI<2>que, según las respectivas ponderaciones W<1>, W<2>, están reunidos en un objetivo de control KPI combinado.

En el diagrama mostrado está representada una optimización del tráfico ferroviario con respecto a un estado de referencia Ref, de modo que las optimizaciones porcentuales O<1>, O<2>están representadas como mejoras del tráfico ferroviario con respecto a los primeros y segundos objetivos de control KPI<1>, KPI<2>con respecto al estado de referencia Ref.

Los valores numéricos mostrados son solamente ilustrativos y no representan una optimización real de un tráfico ferroviario. El proceso de optimización representado del tráfico ferroviario por ejemplo puede describir una situación en la que mediante el funcionamiento de los vehículos ferroviarios el tráfico ferroviario ha diferido de un horario optimizado predeterminado y, con ello, mediante la ejecución del procedimiento según la invención y mediante la optimización correspondiente del tráfico ferroviario con respecto a los respectivos objetivos de control KPI<1>, KPI<2>, KPI<n>, debe conseguirse una mejora o reconducción del tráfico ferroviario al horario optimizado predeterminado, considerando los respectivos objetivos de control.

La Figura 4 muestra una representación esquemática de una ejecución de dos reglas de selección de acción (rn, n<2>) según una relación de ejecución.

La Figura 4 muestra una curva en el tiempo de una ejecución de dos reglas de selección de acción ni, n<2>durante un periodo de ejecución que, en la forma de ejecución mostrada, está dado mediante un tiempo de ciclo tc. En la forma de ejecución mostrada, la primera regla de selección de acción rn respectivamente se ejecuta para una primera duración de ejecución t<1>, mientras que la segunda regla de selección de acción n<2>, a continuación, se ejecuta para una segunda duración de ejecución t<2>. En la forma de ejecución mostrada, el periodo de ejecución del tiempo de ciclo tc se ejecuta respectivamente en intervalos de tiempo ts individuales. Las reglas de selección de acción m, n respectivamente se ejecutan en los intervalos de tiempo ts y, con ello, según las respectivas acciones de control, provocan pasajes del tráfico ferroviario a distintos estados St, St+<1>, ..., St+<9>. La representación en la Figura 4 muestra un ejemplo de una relación de ejecución en la que a cada regla de selección de acción m, n<2>está asociada una duración de ejecución t<1>, t<2>correspondiente. De forma alternativa a lo mencionado, a las primeras y segundas reglas de selección de acción m, n<2>pueden asociarse probabilidades de ejecución P correspondientes, de modo que las reglas de selección de acción m, n<2>se ejecuten en los intervalos de tiempo ts individuales, según las probabilidades de ejecución P respectivamente asociadas.

La Figura 5 muestra una representación esquemática de una arquitectura para una función de división de tiempo 300, según una forma de ejecución.

La Figura 5 muestra una arquitectura de una función de división de tiempo 300 para la ejecución y el control de un tráfico ferroviario. En la función de ejecución mostrada, la función de división de tiempo 300 se aplica para controlar el tráfico ferroviario en cuanto a un objetivo de control KPI combinado que comprende objetivos de control KPI<1>, KPI<2>, KPI<n>provistos de las ponderaciones W<1>, W<2>, W<n>correspondientes. La función de división de tiempo 300 en este caso está configurada para generar una relación de ejecución según la forma de ejecución mostrada en la Figura 4, que para cada regla de selección de acción m, n<2>, nN determina una duración de ejecución correspondiente.

En la forma de ejecución mostrada, la función de división de tiempo 300 comprende un módulo de división de tiempo 301 y un módulo de selección 302. El módulo de división de tiempo 301 está configurado para determinar relaciones de ejecución correspondientes para objetivos de control KPI combinados. Además, el módulo de selección 302 está configurado para, en base a las relaciones de ejecución determinadas, seleccionar las respectivas reglas de selección de acción rn, n<2>, m En la forma de ejecución mostrada, el módulo de división de tiempo 301 está diseñado como red neuronal 303. El módulo de selección 302, en la forma de ejecución mostrada, comprende además una función Argmax que está configurada para seleccionar las respectivas reglas de selección de acción m, n<2>, m

Junto con los objetivos de control KPIi, KPI<2>, KPIn provistos de las ponderaciones Wi, W<2>, Wn, un operador de modulación mod, como función de activación, se incluye en la red neuronal 303 del módulo de división de tiempo 301. El operador de modulación mod posibilita en este caso una consideración de la división del tiempo de ciclo tc como periodo de ejecución en los intervalos de tiempo ts representados en la Figura 4. A diferencia de la forma de ejecución mostrada, el operador de modulación mod, como función de activación, también puede estar dispuesto en capas más profundas de la red neuronal. En conjunto, las estructuras de las redes neuronales, mostradas en las Figuras 5, 6, solamente son ilustrativas y no describen estructuras de redes neuronales que puedan realizarse de manera efectiva.

En la arquitectura mostrada, la función de división de tiempo 300 está entrenada para determinar una relación de ejecución correspondiente para objetivos de control KPI combinados del modo deseado, según la cual deben ejecutarse las reglas de selección de acción ni, n<2>, nN optimizadas en cuanto a los objetivos de control KPIi, KPI<2>, KPI<n>individuales.

Para ejecutar la función de división de tiempo 300 y las reglas de selección de acción ni, n<2>, nN para controlar el tráfico ferroviario según el procedimiento 100 según la invención, durante la operación del tráfico ferroviario y durante la operación de la pluralidad de vehículos ferroviarios, se reciben datos de estado de los vehículos ferroviarios. En este caso, por ejemplo, los datos de estado pueden indicar que un estado real del tráfico ferroviario difiere de un horario predeterminado.

Con ello, un control del tráfico ferroviario puede prever llevar el tráfico ferroviario nuevamente a una coincidencia con el horario optimizado y, de modo correspondiente, reducir los retardos. Dicho control puede preverse con respecto a distintos objetivos de control KPIi, KPI<2>, KPIn. Por ejemplo, puede preverse el control del tráfico ferroviario con el mayor ahorro de energía posible. Alternativamente, puede preverse una reducción lo más rápida posible de los retardos.

En la forma de ejecución mostrada, se prevé el control del tráfico ferroviario considerando un objetivo de control KPI combinado que comprende una pluralidad de objetivos de control KPIi, KPI<2>, KPI<n>en una ponderación determinada. Por ejemplo, el control del tráfico ferroviario puede preverse de manera que el restablecimiento del horario óptimo tenga lugar considerando un consumo de energía minimizado y considerando un tiempo lo más reducido posible, hasta una nueva coincidencia con el horario optimizado.

Para controlar el tráfico ferroviario, por consiguiente, se recibe un objetivo de control KPI combinado correspondiente que comprende los respectivos objetivos de control KPIi, KPI<2>, KPI<n>previstos con ponderaciones correspondientes, donde las ponderaciones Wi, W2, W<n>, para cada KPIi, KPI<2>, KPI<n>, describen una prioridad dentro del control del tráfico ferroviario.

Para el control, la función de división de tiempo 300 se aplica en cuanto al objetivo de control KPI combinado recibido, y se determina una relación de ejecución correspondiente. La relación de ejecución indica aquí una relación según la cual deben ejecutarse las reglas de selección de acción m, n<2>, nN correspondientes a los respectivos objetivos de control KPIi, KPI<2>, KPI<n>y optimizadas en cuanto a los mismos, y según la cual el tráfico ferroviario debe controlarse con respecto a las respectivas acciones de control de las reglas de selección de acción m, n<2>, nN.

Según la relación de ejecución determinada, mediante el módulo de selección 302 se seleccionan las reglas de selección de acción m, n<2>, nN correspondientes, y las reglas de selección de acción m, n<2>, nN seleccionadas se aplican en cuanto a los datos de estado del tráfico ferroviario recibidos. La aplicación de las reglas de selección de acción m, n<2>, nN en cuanto a los datos de datos de estado, del modo antes descrito, comprende la determinación de acciones de control correspondiente y eventualmente de tiempos de llegada, de partida y de detención correspondientes que están optimizados en cuanto a los respectivos objetivos de control. Cada regla de selección de acción m, n<2>, nN y las acciones de control que pueden determinarse de modo correspondiente mediante las mismas, están optimizadas en cuanto a uno de los objetivos de control.

Mediante una ejecución de una regla de selección de acción m, n<2>, nN en cuanto a los datos de estado del tráfico ferroviario, la regla de selección de acción m, n<2>, nN es capaz de determinar acciones de control que están configuradas para, al ser ejecutada por los vehículos ferroviarios, pasar el tráfico ferroviario desde un estado real a un estado que está optimizado con respecto al respectivo objetivo de control o que al menos está mejorado en comparación con el estado precedente en el tiempo.

En la forma de ejecución mostrada, la relación de ejecución describe una relación en el tiempo que a cada regla de selección de acción m, n<2>, nN involucrada asocia una duración de ejecución que indica el intervalo de tiempo durante el cual debe ejecutarse la respectiva regla de selección de acción m, n<2>, nN. La relación en el tiempo, en este caso, está configurada de manera que se alcanza el respectivo objetivo de control KPI combinado.

El control del tráfico ferroviario puede ejecutarse cíclicamente, de modo que según ciclos de control predeterminados se reciben datos de estado y objetivos de control, la función de división de tiempo 300 se aplica en cuanto a los objetivos de control, se determinan relaciones de ejecución correspondientes, las reglas de selección de acción m, n<2>, nN correspondientes se ejecutan según las respectivas relaciones de ejecución en cuanto a los datos de estado recibidos, se determinan acciones de control correspondientes y los vehículos ferroviarios se controlan según las acciones de control y, con ello, el tráfico ferroviario se pasa a un estado optimizado o al menos mejorado con respecto al respectivo objetivo de control.

La representación mostrada de la función de división de tiempo 300 es solamente ilustrativa. La red neuronal 301 representada no representa una red neuronal que debe realizarse de manera efectiva.

La Figura 6 muestra otra representación esquemática de una arquitectura de entrenamiento para una función de división de tiempo 300, según otra forma de ejecución.

La Figura 6 muestra otra forma de ejecución de una arquitectura para una función de división de tiempo 300. En la forma de ejecución mostrada, la función de división de tiempo 300 está entrenada para determinar una relación de ejecución que, para cada regla de selección de acción ni, n<2>, nN, determine probabilidades de ejecución P correspondientes. A diferencia de la forma de ejecución en la Figura 5, el módulo de selección 300 comprende una función Softmax 305 que está configurada para, en base a las probabilidades de ejecución P determinadas mediante el módulo de división de tiempo 301, seleccionar las reglas de selección de acción ni, n<2>, nN correspondientes.

La ejecución de la arquitectura tiene lugar de forma análoga a la ejecución de la arquitectura en la Figura 6. En lugar de la duración de ejecución allí descrita, en la arquitectura representada en la Figura 7, sin embargo, las distintas reglas de selección de acción se ejecutan por intervalos de tiempo predeterminados según las probabilidades de ejecución P determinadas mediante la función de división de tiempo 300.

La Figura 7 muestra un diagrama de un hipervolumen HV de un estado de optimización de un tráfico ferroviario.

La Figura 7 muestra una representación gráfica de un hipervolumen HV para distintos estados optimizados de un tráfico ferroviario que debe optimizarse con respecto a dos objetivos de control KPIi, KPI<2>. En este caso, el hipervolumen puede utilizarse como variable objetiva para determinar la calidad de un proceso de entrenamiento o la calidad de las capacidades de optimización de las reglas de selección de acción m, n<2>, nN individuales, o de la función de división de tiempo 300.

La Figura 8 muestra una representación esquemática de un producto de programa informático 40 que comprende comandos que, al ser ejecutado el programa mediante una unidad informática, disponen al mismo a ejecutar el procedimiento 100 según una de las formas de ejecución antes mencionadas.

El producto de programa informático 400, en la forma de ejecución mostrada, está almacenado en un medio de almacenamiento 401. En este caso, el medio de almacenamiento 401 puede ser cualquier medio de almacenamiento conocido por el estado de la técnica.

Si bien la invención fue ilustrada y descrita en detalle mediante el ejemplo de ejecución preferente, la invención no está limitada por los ejemplos descritos, y el experto puede deducir de éstos otras variaciones, sin abandonar el alcance de protección de la invención.

Claims

REIVINDICACIONES

1. Procedimiento (100) para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios (215), que comprende:

- recepción (101) de datos de estado del tráfico ferroviario, donde los datos de estado describen estados de control del tráfico ferroviario de la pluralidad de vehículos ferroviarios (215) y comprenden al menos datos de posición de la pluralidad de vehículos ferroviarios;

- recepción (103) de un objetivo de control (KPI<1>, KPI<2>, KPIn) para controlar el tráfico ferroviario de la pluralidad de vehículos ferroviarios (215);

- selección (105) de al menos una regla de selección de acción (m, n<2>,<hn>) de una pluralidad de reglas de selección de acción (m, n<2>, hn) en base al objetivo de control (KPI<1>, KPI<2>, KPIn), donde las reglas de selección de acción (ni, n<2>, hn) están configuradas para, en base a datos de estado del tráfico ferroviario, determinar acciones de control del tráfico ferroviario, donde mediante la ejecución de las acciones de control por los vehículos ferroviarios (215), el tráfico ferroviario puede pasarse a un estado optimizado con respecto a un objetivo de control (KPI<1>, KPI<2>, KPI<n>), donde cada regla de selección de acción (m, n<2>,<hn>) está configurada para la optimización con respecto a un objetivo de control (KPI<1>, KPI<2>, KPI<n>) individual, y donde al menos una regla de selección de acción (m, n<2>,<hn>) seleccionada está configurada para la optimización con respecto al objetivo de control (KPI<1>, KPI<2>, KPIn) recibido;

- ejecución (107) de al menos una regla de selección de acción (m, n<2>, hn) seleccionada en cuanto a los datos de estado recibidos y determinación de acciones de control; y

- puesta a disposición (109) de las acciones de control para controlar la pluralidad de vehículos ferroviarios (215),

donde las reglas de selección de acción (m, n<2>,<hn>) están entrenadas mediante aprendizaje reforzado, el entrenamiento de las reglas de selección de acción (m, n<2>,<hn>) comprende una maximización de funciones de recompensa y las funciones de recompensa definen objetivos de control (KPI<1>, KPI<2>, KPIn) y/u objetivos de control (KPI) combinados.

2. Procedimiento (100) según la reivindicación 1, donde el objetivo de control (KPI<1>, KPI<2>, KPI<n>) recibido comprende un objetivo de control (KPI) combinado y una pluralidad de objetivos de control (KPI<1>, KPI<2>, KPIn), y donde los objetivos de control (KPI<1>, KPI<2>, KPIn) con ponderaciones (W1, W2, WN) individuales se incluyen en el objetivo de control (KPI) combinado; que comprende:

- selección (105) de una pluralidad de reglas de selección de acción (KPI<1>, KPI<2>, KPIn), donde cada regla de selección de acción (m, n<2>,<hn>) respectivamente está configurada para una optimización con respecto a uno de la pluralidad de objetivos de control (KPI<1>, KPI<2>, KPIn) del objetivo de control (KPI) combinado; y

- ejecución (107) de la pluralidad de las reglas de selección de acción (m, n<2>,<hn>) seleccionadas, según una relación de ejecución, donde la relación de ejecución, para cada regla de selección de acción (m, n<2>, hn) seleccionada, determina una porción de tiempo en una duración de ejecución total de la pluralidad de reglas de selección de acción (m, n<2>,<hn>) seleccionadas, y donde una ejecución de la pluralidad de reglas de selección de acción, según la relación de ejecución, cumple con el objetivo de control (KPI) combinado.

3. Procedimiento (100) según la reivindicación 2, donde mediante la relación de ejecución, para cada regla de selección de acción (m, n<2>,<hn>), está determinada una duración de ejecución (t<1>, t2) y/o una secuencia en el tiempo de la pluralidad de reglas de selección de acción (m, n<2>, hn).

4. Procedimiento (100) según la reivindicación 2, donde mediante la relación de ejecución, para cada regla de selección de acción (m, n<2>, nN) seleccionada, está determinada una probabilidad de ejecución (P), según la cual la regla de selección de acción (m, n<2>, hn) debe ser ejecutada en un periodo de ejecución.

5. Procedimiento (100) según una de las reivindicaciones 2 a 4 precedentes, donde las reglas de selección de acción (m, n<2>, hn) seleccionadas se ejecutan cíclicamente, y donde el tráfico ferroviario se controla cíclicamente según las acciones de control determinadas mediante las reglas de selección de acción (m, n<2>, hn).

6. Procedimiento (100) según una de las reivindicaciones precedentes, donde la selección y/o la ejecución de las reglas de selección de acción (ni, n<2>,<hn>) se ejecuta mediante una función de división de tiempo (300), y donde la función de división de tiempo (200) está entrenada mediante aprendizaje automático, para determinar relaciones de ejecución correspondientes para objetivos de control (KPI) combinados.

7. Procedimiento (100) según una de las reivindicaciones precedentes, donde la función de división de tiempo (200) está entrenada mediante aprendizaje de refuerzo.

8. Procedimiento (100) según la reivindicación 7, donde el entrenamiento de las reglas de selección de acción (ni, n<2>, hn) y/o de la función de división de tiempo (300) se ejecuta en base a datos de simulación, y donde los datos de simulación se basan en una simulación de un tráfico ferroviario de una pluralidad de vehículos ferroviarios (215).

9. Procedimiento (100) según la reivindicación 7 u 8, donde el entrenamiento de la función de división de tiempo (300) comprende una maximización de funciones de recompensa, y donde las funciones de recompensa definen objetivos de control (KPI<1>, KPI<2>, KPI<n>) y/u objetivos de control (KPI) combinados.

10. Procedimiento (100) según la reivindicación 7, 8 o 9, donde las reglas de selección de acción (m, n<2>, hn) y las funciones de división de tiempo (300) se entrenan simultáneamente.

11. Procedimiento (100) según una de las reivindicaciones precedentes, donde las reglas de selección de acción (m, n<2>, hn) y/o la función de división de tiempo (300) están diseñadas como redes neuronales (303).

12. Procedimiento (100) según una de las reivindicaciones precedentes, donde los objetivos de control (KPI<1>, KPI<2>, KPI<n>) comprenden: la minimización de un consumo de energía de la pluralidad de vehículos ferroviarios (215) y/o la minimización de consumos de energía de vehículos ferroviarios (215) individuales, y/o la minimización de un retardo total de la pluralidad de vehículos ferroviarios (215) y/o la minimización de un retardo máximo de vehículos ferroviarios (215) individuales, y/o la minimización de una suma de desviación cuadrada o absoluta de los retardos con respecto a un valor de retardo medio o mediano de la pluralidad de vehículos ferroviarios (215).

13. Procedimiento (100) según una de las reivindicaciones precedentes, donde las acciones de control comprenden tiempos de llegada y/o tiempos de partida y/o tiempos de detención de la pluralidad de vehículos ferroviarios (215) en paradas dentro de la red de tráfico ferroviario.

14. Unidad informática (201), donde la unidad informática (201) está diseñada para ejecutar el procedimiento (100) para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios según una de las reivindicaciones 1 a 13 precedentes.

15. Producto de programa informático (400) que comprende órdenes que, al ser ejecutado el programa por una unidad de procesamiento de datos, disponen al mismo a ejecutar el procedimiento (100) para controlar un tráfico ferroviario de una pluralidad de vehículos ferroviarios según una de las reivindicaciones 1 a 13 precedentes.