[0001] Die Erfindung betrifft ein Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug.
Die Erfindung betrifft ferner eine Steuerung und ein Schienenfahrzeug mit einer Steuerung.
[0002] Für den automatischen Zugbetrieb ist eine Steuerung erforderlich, die eine gewünschte
Trajektorie von einer übergeordneten Planungseinheit in die zum Fahren der Trajektorie
erforderlichen Beschleunigungs- und Bremsbefehle übersetzen kann. Typischerweise erfordern
die verwendeten Steuerungen einen erheblichen Abstimmungsaufwand, um sich an die spezifischen
Eigenschaften der einzelnen Fahrzeuge anzupassen.
[0003] Typische Ansätze für Steuerungen basieren auf Proportional-Integral-Derivative (PID)-Reglern
und Model Predictive Control (MPC)-Reglern. PID-Regler werden sehr häufig verwendet,
da sie sehr einfach zu implementieren sind. Sie erfordern jedoch einen erheblichen
Abstimmungsaufwand, wenn sie in einem neuen Fahrzeug eingesetzt werden. Außerdem berücksichtigen
sie nicht mehr als den aktuellen Zeitschritt und können daher bei Systemen, bei denen
es eine Verzögerung in der Reaktion des Systems auf die Steuereingaben gibt, eine
schlechte Leistung aufweisen. In diesen Fällen werden typischerweise MPC-Regler eingesetzt.
Die MPC-Steuerung setzt jedoch ein genaues Modell des zu steuernden Systems voraus.
Bei komplexen Systemen kann dieses jedoch aufwändig sein beziehungsweise nicht mit
ausreichender Präzision erreicht werden.
[0004] Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum Trainieren
einer Steuerung für ein Schienenfahrzeug, eine verbesserte Steuerung und ein Schienenfahrzeug
mit einer Steuerung bereitzustellen.
[0005] Diese Aufgabe wird durch ein Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs,
eine entsprechend trainierte Steuerung und ein Schienenfahrzeug mit einer trainierten
Steuerung gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausgestaltungen sind
in den Unteransprüchen angegeben.
[0006] Nach einem Aspekt der Erfindung wird ein Verfahren zum Trainieren einer Steuerung
eines Schienenfahrzeugs bereitgestellt, wobei das Verfahren umfasst:
- Bereitstellen von Trainingsdaten basierend auf Sensordaten eines Schienenfahrzeugs;
- Trainieren eines Surrogat-Modells des Schienenfahrzeugs basierend auf den Trainingsdaten
bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs des Schienenfahrzeugs
und einer resultierenden Geschwindigkeit des Schienenfahrzeugs;
- Trainieren einer Aktionsauswahlregel basierend auf den Trainingsdaten und dem Surrogat-Modell
unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines
objektiven Steuerungsziels, wobei die Aktionsauswahlregel Steuerungsanweisungen zum
Ansteuern des Antriebs des Schienenfahrzeugs umfasst, die eingerichtet sind, das Schienenfahrzeug
aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand
zu beschleunigen; und
- Generieren einer trainierten Aktionsauswahlregel, wobei die trainierte Aktionsauswahlregel
Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug zu beschleunigen
und das Steuerungsziel zu erfüllen.
[0007] Hierdurch kann der technische Vorteil erreicht werden, dass ein verbessertes Verfahren
zum Trainieren einer Steuerung eines Schienenfahrzeugs bereitgestellt werden kann.
Die Steuerung des Schienenfahrzeugs wird hierbei unter Berücksichtigung von Techniken
des Maschinenlernens trainiert. Hierzu werden auf Sensordaten eines Schienenfahrzeugs
basierende Trainingsdaten bereitgestellt. Basierend auf den Trainingsdaten wird darauffolgend
ein Surrogat-Modell des Schienenfahrzeugs in Bezug auf eine Relation zwischen einer
Ansteuerung eines Antriebs des Schienenfahrzeugs und einer hieraus resultierenden
Geschwindigkeit des Schienenfahrzeugs trainiert. Darauffolgend wird eine Aktionsauswahlregel
basierend auf den Trainingsdaten und dem trainierten Surrogat-Modell mittels Techniken
des bestärkenden Lernens und unter Berücksichtigung wenigstens eines Steuerungsziels
trainiert und eine trainierte Aktionsauswahlregel generiert. Basierend auf der trainierten
Aktionsauswahlregel kann das Schienenfahrzeug gesteuert und das jeweils vorbestimmte
Steuerungsziel erreicht werden.
[0008] Ein Surrogat-Modell eines Schienenfahrzeugs ist im Sinne der Anmeldung ein virtuelles
Modell eines realen Schienenfahrzeugs, das alle relevanten Merkmale des realen Schienenfahrzeugs
darstellt. Ein Surrogat-Modell kann analog zu einem virtuellen Zwilling einer realen
Maschine ausgebildet sein und den Betrieb einer realen Maschine bzw. eines Schienenfahrzeugs
virtuell simulieren. Das Surrogat-Modell ist somit eingerichtet, ein Verfahren eines
Schienenfahrzeugs durch eine entsprechende Ansteuerung zu simulieren. Das Surrogat-Modell
kann beispielsweise als ein entsprechend trainiertes neuronales Netz ausgebildet sein,
und kann darauf trainiert sein, das Fahrverhalten bzw. die steuerungsrelevanten Eigenschaften
des Schienenfahrzeugs zu simulieren bzw. darzustellen.
[0009] Eine Aktionsauswahlregel im Sinne der Anmeldung ist eine Mehrzahl von Steuerungsanweisungen,
die eingerichtet sind, das Schienenfahrzeug aus einem ersten Geschwindigkeitszustand
in einen zweiten Geschwindigkeitszustand zu beschleunigen. Die ersten und zweiten
Geschwindigkeitszustände können hierbei ein Ist-Zustand, in dem sich das Schienenfahrzeug
zu einem bestimmten Zeitpunkt befindet, und ein Soll-Zustand sein, in den das Schienenfahrzeug
durch Ansteuern des Antriebs zu überführen ist. Die ersten und zweiten Geschwindigkeitszustände
können alternativ hierzu zwei zeitlich nacheinander folgende Zustände des Schienenfahrzeugs
sein, in die das Schienenfahrzeug beim Ansteuern durch die Steuerung überführt wird.
Durch Ausführen der Steuerungsanweisungen der Aktionsauswahlregel durch die Steuerung
kann das jeweilige Schienenfahrzeug somit unter Berücksichtigung des zu erreichenden
Steuerungsziels gesteuert werden.
[0010] Steuerungsanweisung sind im Sinne der Anmeldung Anweisung bzw. Befehle zum Steuern
des Schienenfahrzeugs. Steuerungsanweisungen können beispielsweise das Beschleunigen
oder Abbremsen des Schienenfahrzeugs inklusive detaillierter Ansteuerung des Antriebs
umfassen. Darüber hinaus können Steuerungsanweisungen das Schalten in verschiedene
Gänge oder in einen Energiesparmodus des Antriebs umfassen. Darüber hinaus können
in den Steuerungsanweisungen verschiedene steuerungsrelevante Aspekte in Form entsprechender
Anweisungen berücksichtigt sein.
[0011] Steuerungsziele sind im Sinne der Anmeldung Ziele, die durch das Ansteuern der Steuerung
zu erreichen sind. Steuerungsziele können beispielsweise eine Geschwindigkeit sein,
auf die durch Ansteuern der Steuerung das Schienenfahrzeug beschleunigt werden soll.
Steuerungsziele können alternativ oder zusätzlich für verschiedene zukünftige Zeitpunkte
definiert sein, beispielsweise über Geschwindigkeitstrajektorien definiert sein. Alternativ
können Steuerungsziele einen Energieverbrauch definieren, der bei der Ansteuerung
des Schienenfahrzeugs zu erreichen oder nicht zu überschreiten ist. Die Steuerungsziele
sind im Sinne der Anmeldung basierend auf den Trainingsdaten definiert, die wiederum
basierend auf Sensordaten eines Schienenfahrzeugs generiert sind. Steuerungsziele
können hierbei aus den Sensordaten des Schienenfahrzeugs generiert sein. Die Steuerungsziele
können sich aus den Sensordaten ergeben und beispielsweise zu erzielende Geschwindigkeiten
oder Energieverbräuche beschreiben, gemäß denen das Schienenfahrzeug während der Aufnahme
der Sensordaten gesteuert würde. Steuerungsziele können auch während der Ausführung
der trainierten Aktionsauswahlregel zur Steuerung des Schienenfahrzeugs durch übergeordnete
Systeme, beispielsweise entsprechende Planungsmodule zur Steuerung des Schienenfahrzeugs,
definiert oder geändert werden.
[0012] Nach einer Ausführungsform ist das maschinelle Lernen als bestärkendes Lernen ausgebildet.
[0013] Hierdurch kann der technische Effekt erreicht werden, dass ein effizientes Trainieren
der Aktionsauswahlregel ermöglicht ist.
[0014] Bestärkendes Lernen (Reinforcement Learning) ist im Sinne der Anmeldung ein Bereich
des maschinellen Lernens, der sich mit dem Trainieren von operationellen Teilnehmern
beschäftigt, gewünschte Aktionen auszuführen, um somit den Teilnehmer aus einem Ist-Zustand
in einen gewünschten Soll-Zustand zu überführen. Das Trainieren des Teilnehmers wird
hierbei unter Berücksichtigung eines Steuerungsziels getätigt, das durch die Ausführung
der Handlung des Teilnehmers zu erreichen ist. Das Training kann ein Maximieren einer
Belohnungsfunktion berücksichtigen, durch die dem Teilnehmer die ausführende Handlung
und das zu erreichende Ziel dargestellt ist.
[0015] Nach einer Ausführungsform umfasst das Trainieren: Randomisiertes Abändern des wenigstens
einen auf den Trainingsdaten basierenden objektiven Steuerungsziels und Definieren
von abgeänderten Steuerungszielen; und Trainieren der Aktionsauswahlregel in Bezug
auf Erfüllung der abgeänderten Steuerungsziele.
[0016] Hierdurch kann der technische Vorteil erreicht werden, dass ein präziseres Training
der Steuerung des Schienenfahrzeugs bereitgestellt werden kann. Durch das randomisierte
Abändern des wenigstens einen Steuerungsziels und das damit verbundene Definieren
von abgeänderten Steuerungszielen können die Trainingsdaten zum Trainieren der Steuerung
effektiver ausgenutzt werden. Durch das Abändern der Steuerungsziele und das Generieren
bzw. Definieren von abgeänderten Steuerungszielen können Steuerungsziele definiert
werden, die durch die Trainingsdaten gestützt, jedoch nicht auf diese beschränkt sind.
[0017] Die geänderten Steuerungsziele ergeben somit Steuerungsziele, die nicht auf Trainingsdaten
basieren, sondern Steuerungsziele darstellen, die über die Steuerungsziele hinausgehen,
gemäß denen das Schienenfahrzeug während der Aufnahme der Sensordaten angesteuert
wurde. Durch das Trainieren der Aktionsauswahlregel basierend auf den abgeänderten
Steuerungszielen kann eine verbesserte trainierte Aktionsauswahlregel generiert werden,
die Steuerungsanweisungen für eine erhöhte Anzahl verschiedener Steuerungsziele definiert.
Hierdurch kann eine verbesserte Steuerung bereitgestellt werden.
[0018] Nach einer Ausführungsform umfasst das Trainieren der Aktionsauswahlregel ein Maximieren
einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel
maximal ist, die das objektive Steuerungsziel und/oder die abgeänderten Steuerungsziele
erfüllt.
[0019] Hierdurch kann der technische Vorteil erreicht werden, dass ein möglichst präzises
Training der Aktionsauswahlregel gemäß den Techniken des bestärkenden Lernens erreicht
werden kann.
[0020] Nach einer Ausführungsform berücksichtigt die Belohnungsfunktion eine Differenz zwischen
einem durch Ausführen einer Steuerungsaktion der Aktionsauswahlregel erzielten Geschwindigkeitszustand
und dem objektiven Steuerungsziel und/oder den abgeänderten Steuerungszielen.
[0021] Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training
der Aktionsauswahlregel und eine präzise trainierte Aktionsauswahlregel bereitgestellt
werden kann, die präzise das zu erreichende Steuerungsziel erfüllt.
[0022] Nach einer Ausführungsform wird das Maximieren der Belohnungsfunktion durch ein künstliches
neuronales Netz ausgeführt.
[0023] Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training
der Aktionsauswahlregel bzw. der Steuerung des Schienenfahrzeugs bereitgestellt werden
kann.
[0024] Nach einer Ausführungsform umfasst das Steuerungsziel eine Sollgeschwindigkeit des
Schienenfahrzeugs und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung
und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten.
[0025] Hierdurch kann der technische Vorteil erreicht werden, dass eine effizient trainierte
Aktionsauswahlregel und damit verbunden eine effizient trainierte Steuerung eines
Schienenfahrzeugs bereitgestellt werden kann. Die derart trainierte Aktionsauswahlregel
umfasst hierbei Steuerungsanweisungen, die geeignet sind, das Schienenfahrzeug unter
Berücksichtigung der genannten Steuerungsziele zu steuern.
[0026] Nach einer Ausführungsform werden die Trainingsdaten während eines Verfahrens des
Schienenfahrzeugs aufgenommen und umfassen Sensordaten von Zustandsvariablen, Steuerungsaktionen
und Geschwindigkeitstrajektorien, wobei die Zustandsvariablen Geschwindigkeitsdaten,
Beschleunigungsdaten, Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs
umfassen, wobei die Steuerungsaktionen Antriebs- und/oder Bremsbetätigungen umfassen,
und wobei die Geschwindigkeitstrajektorien entsprechende zeitliche Geschwindigkeitsentwicklungen
des Schienenfahrzeugs beschreiben.
[0027] Hierdurch kann der technische Vorteil erreicht werden, dass durch umfassende Trainingsdaten
ein präzises Training der Steuerung ermöglicht ist.
[0028] Nach einem zweiten Aspekt der Erfindung wird eine Steuerung für ein Schienenfahrzeug
bereitgestellt, wobei die Steuerung wenigstens eine trainierte Aktionsauswahlregel
umfasst, die nach einem Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs
nach einer der voranstehenden Ausführungsformen trainiert ist, und wobei die Steuerung
eingerichtet ist, das Schienenfahrzeug unter Ausführung der trainierten Aktionsauswahlregel
zu steuern.
[0029] Hierdurch kann eine verbesserte Steuerung für ein Schienenfahrzeug bereitgestellt
werden, die unter Verwendung von Methoden des maschinellen Lernens, insbesondere des
bestärkenden Lernens, trainiert ist. Die Steuerung weist hierzu eine trainierte Aktionsauswahlregel
auf, die gemäß dem erfindungsgemäßen Verfahren zum Trainieren einer Steuerung eines
Schienenfahrzeugs gemäß den oben genannten Ausführungsformen trainiert ist. Basierend
auf der trainierten Aktionsauswahlregel, die eine Mehrzahl von Steuerungsanweisungen
zum Steuern des Schienenfahrzeugs unter Berücksichtigung verschiedener Steuerungsziele
aufweist, kann das Schienenfahrzeug zum Erreichen der jeweiligen Steuerungsziele angesteuert
werden. Durch das Trainieren der Aktionsauswahlregel basierend auf dem Surrogat-Modell
des Schienenfahrzeugs kann die Steuerung für beliebige Schienenfahrzeuge, die dem
Surrogat-Modell entsprechen, trainiert werden, sodass bei einem neuen Schienenfahrzeug
eine aufwändige Anpassung des zur Steuerung verwendeten Modells einer Steuerung, wie
dies bei einem Model Predictive Control (MPC)-Regler notwendig ist, entfallen kann.
Hierdurch kann eine präzise, zuverlässige und variable Steuerung für Schienenfahrzeuge
bereitgestellt werden.
[0030] Nach einem dritten Aspekt wird ein Schienenfahrzeug mit einer Steuerung nach einer
der voranstehenden Ausführungsformen bereitgestellt.
[0031] Hierdurch kann ein Schienenfahrzeug mit einer verbesserten Steuerung mit den obengenannten
Vorteilen bereitgestellt werden.
[0032] Nach einem vierten Aspekt wird ein Computerprogrammprodukt umfassend Befehle bereitgestellt,
die bei der Ausführung des Programms durch eine Datenverarbeitungseinheit diese veranlassen,
das Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug nach einer der
voranstehenden Ausführungsformen auszuführen.
[0033] Die oben beschriebenen Merkmale und Vorteile dieser Erfindung sowie die Art und Weise,
wie diese erreicht werden, werden klarer und deutlicher verständlich durch die Erläuterungen
der folgenden, stark vereinfachten, schematischen Darstellungen bevorzugter Ausführungsbeispiele.
Hierbei zeigen:
- FIG 1
- ein Flussdiagramm eines Verfahrens zum Trainieren einer Steuerung eines Schienenfahrzeugs
gemäß einer Ausführungsform;
- FIG 2
- eine schematische Darstellung eines Schienenfahrzeugs mit einer Steuerung nach einer
Ausführungsform; und
- FIG 3
- eine schematische Darstellung eines Computerprogrammprodukts.
[0034] FIG 1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Trainieren einer Steuerung
200 eines Schienenfahrzeugs 201 gemäß einer Ausführungsform.
[0035] Zum Trainieren der Steuerung 200 des Schienenfahrzeugs 201 werden zunächst in einem
ersten Verfahrensschritt 101 Trainingsdaten bereitgestellt. Die Trainingsdaten basieren
hierbei auf Sensordaten eines Schienenfahrzeugs 201 und umfassen in der gezeigten
Ausführungsform Zustandsvariablen 217, Steuerungsaktionen 219 und Geschwindigkeitstrajektorien
221. Die Trainingsdaten 203, insbesondere die Sensordaten des Schienenfahrzeugs 201,
können beispielsweise während eines Fahrens des Schienenfahrzeugs 201 oder eines vergleichbaren
Schienenfahrzeugs durch eine entsprechende Sensorik aufgenommen sein.
[0036] Zustandsvariablen 217 beschreiben im Sinne der Anmeldung Punkte innerhalb eines Zustandsraums,
der verschiedene Zustände des Schienenfahrzeugs 201 beschreibt. Insbesondere können
die Zustandsvariablen 217 Geschwindigkeitsdaten, Beschleunigungsdaten und/oder Ortsdaten
des Schienenfahrzeugs 201 umfassen, die während des Verfahrens des Schienenfahrzeugs
201 oder des vergleichbaren Schienenfahrzeugs aufgenommen wurden. Das vergleichbare
Schienenfahrzeug kann beispielsweise ein Schienenfahrzeug identischen Typs sein. Darüber
hinaus können die Zustandsvariablen 217 Spezifikationsdaten des Antriebs und/oder
des Schienenfahrzeugs 201 umfassen, die beispielsweise die Art des Antriebs, maximale
Leistung bzw. Drehzahl und andere Parameter des Antriebs oder eine Größe bzw. ein
Gewicht des Schienenfahrzeugs 201 umfassen.
[0037] Steuerungsaktionen 219 sind im Sinne der Anmeldung Aktionen, die während des Verfahrens
des Schienenfahrzeugs 201 zum Steuern des Schienenfahrzeugs 201 durch die Steuerung
200 ausgeführt werden. Steuerungsaktionen 219 können beispielsweise die Betätigung
des Gaspedals oder des Steuerungshebels eines Schienenfahrzeugs bzw. die Betätigung
der Bremse des Schienenfahrzeugs 201 umfassen.
[0038] Geschwindigkeitstrajektorien 221 sind im Sinne der Anmeldung durch den Zustandsraum
verlaufende Spuren von zeitlich aufeinander folgenden Geschwindigkeitswerten, die
während des Verfahrens des Schienenfahrzeugs 201 erreicht wurden.
[0039] Nach Bereitstellen der Trainingsdaten 203 wird in einem weiteren Verfahrensschritt
103 ein Surrogat-Modell 205 des Schienenfahrzeugs 201 generiert bzw. trainiert und
dem Surrogat-Modell 205 eine Relation zwischen Ansteuerungen eines Antriebs 207 des
Schienenfahrzeugs 201 und einer hieraus resultierenden Geschwindigkeit des Schienenfahrzeugs
201 gelernt.
[0040] Basierend auf den Trainingsdaten 203, die während des Verfahrens des Schienenfahrzeugs
201 aufgenommen wurden, wird dem Surrogat-Modell 205, das eine virtuelle Kopie des
Schienenfahrzeugs 201 darstellt, mittels Methoden des Maschinenlernens trainiert,
welche Steuerungsaktionen 219, Betätigung des Gaspedals oder Betätigung der Bremse,
zu welchen Endgeschwindigkeiten des Schienenfahrzeugs 201, die basierend auf den entsprechenden
Zustandsvariablen 217 ermittelt werden, führen. Das derart trainierte Surrogat-Modell
205 ermöglicht somit eine Simulation der Steuerung 200 des Schienenfahrzeugs 201,
bei der durch Ausführung entsprechender Steuerungsfunktionen 219 entsprechende Geschwindigkeitstrajektorien
221 erzielt werden können.
[0041] In einem weiteren Verfahrensschritt 105 wird eine Aktionsauswahlregel 209 basierend
auf den Trainingsdaten 203 und dem trainierten Surrogat-Modell 205 unter Verwendung
von Methoden des bestärkenden Lernens und unter Berücksichtigung wenigstens eines
objektiven Steuerungsziels 211 trainiert. Die Aktionsauswahlregel 209 umfasst hierbei
Steuerungsanweisungen zum Steuern des Antriebs 207 des Schienenfahrzeugs 201. Die
Steuerungsanweisungen sind hierbei eingerichtet, das Schienenfahrzeug 201 aus einem
ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen.
[0042] Die Steuerungsanweisungen können beispielsweise den Steuerungsaktionen 219 entsprechen,
die als Trainingsdaten 203 während des Verfahrens des Schienenfahrzeugs 201 aufgenommen
wurden, und das Beschleunigen bzw. Abbremsen des Schienenfahrzeugs umfassen. Die Aktionsauswahlregel
209 kann hierzu eine Mehrzahl von Steuerungsanweisungen aufweisen, mittels denen der
Antrieb 207 des Schienenfahrzeugs 201 angesteuert werden kann. Die Steuerungsanweisungen
sind hierbei derart ausgebildet, dass während des Ansteuerns des Antriebs 207 des
Schienenfahrzeugs 201 das objektive Steuerungsziel 211 erreicht wird. Das objektive
Steuerungsziel 211 kann hierbei beispielsweise eine zu erreichende Endgeschwindigkeit,
ein gewünschter Energieverbrauch oder eine maximale Beschleunigung des Schienenfahrzeugs
201 sein, die jeweils während des Ansteuerns des Schienenfahrzeugs 201 zu erreichen
bzw. einzuhalten sind. Das objektive Steuerungsziel 211 kann ebenfalls durch die Trainingsdaten
203 bereitgestellt sein. Beispielsweise kann das Steuerungsziel 211 durch die aufgezeichneten
Geschwindigkeitstrajektorien 221 der Trainingsdaten 203 dargestellt sein.
[0043] Die ersten und zweiten Geschwindigkeitszustände können hierbei jeweils ein Ist-Zustand
bzw. ein Soll-Zustand des Schienenfahrzeugs 201 sein, wobei das Schienenfahrzeug 201
durch das Ansteuern gemäß den Steuerungsanweisungen der Aktionsauswahlregel 209 aus
dem Ist-Zustand in den Soll-Zustand zu überführen ist. Alternativ hierzu können die
ersten und zweiten Geschwindigkeitszustände zwei zeitlich nacheinander eintretende
Zustände des Zustandsraums sein, in die das Schienenfahrzeug 201 durch Ansteuern gemäß
den Steuerungsanweisungen der Aktionsauswahlregel zu überführen ist.
[0044] Zum Trainieren der Aktionsauswahlregel 209 durch bestärkendes Lernen wird eine beliebig
ausgewählte Aktionsauswahlregel mit beliebigen Steuerungsanweisungen basierend auf
den Trainingsdaten 203 inklusive der Zustandsvariablen 217 des Zustandsraums des Schienenfahrzeugs
201 und unter Berücksichtigung des jeweils ausgewählten Steuerungsziels 211 trainiert
bzw. optimiert, sodass die Aktionsauswahlregel 209 eingerichtet ist, das ausgewählte
Steuerungsziel 211 zu erreichen. In der gezeigten Ausführungsform wird das Training
der beliebig gewählten Aktionsauswahlregel 209 in einem weiteren Verfahrensschritt
111 durch ein Maximieren einer entsprechend eingerichteten Belohnungsfunktion ausgeführt.
Die Belohnungsfunktion kann hierbei beispielsweise eine Differenz zwischen einem durch
Ausführen einer Steuerungsaktion 219 der Aktionsauswahlregel 209 erzielten Geschwindigkeitszustand
und dem objektiven Steuerungsziel 211 definiert sein. Das Training der Aktionsauswahlregel
209 erfolgt somit dadurch, dass die Steuerungsanweisungen bzw. die Aktionsauswahlregel
209 derart modifiziert werden, dass die entsprechend definierte Belohnungsfunktion
einen maximalen Wert erreicht. Eine Aktionsauswahlregel 209 mit einer maximalen Belohnungsfunktion
ist demzufolge in der Lage, das ausgewählte Steuerungsziel 211 zu erreichen. Durch
das derartige Trainieren der Aktionsauswahlregel 209 kann der durch die Trainingsdaten
203 definierte Zustandsraum des Schienenfahrzeugs 201, in dem verschiedene Zustände
des Schienenfahrzeugs 201 angeführt sind, durchquert werden, um die optimale Aktionsauswahlregel
209 zu bestimmen, die eingerichtet ist, durch Ausführung der entsprechenden Steuerungsanweisungen
das Schienenfahrzeug 201 in einer optimierten Trajektorie in Zustände zu überführen,
die eine optimale Steuerung 200 und das Erreichen des vorbestimmten objektiven Steuerungsziels
211 gewährleisten.
[0045] Gemäß der gezeigten Ausführungsform wird zum Trainieren der Aktionsauswahlregel 209
in einem Verfahrensschritt 109 das objektive Steuerungsziel 211 randomisiert geändert
und geänderte Steuerungsziele 215 generiert. Durch das randomisierte Ändern des Steuerungsziels
211 können geänderte Steuerungsziele 215 generiert werden, die von den Trainingsdaten
203 abweichen können.
[0046] Beispielsweise kann das objektive Steuerungsziel 211 durch eine Geschwindigkeitstrajektorie
221 der Trainingsdaten 203 gebildet sein. Die jeweilige Geschwindigkeitstrajektorie
221 kann hierbei durch die Sensordaten des Schienenfahrzeugs 201 gestützt sein, die
während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden. Durch Verändern
einzelner Werte der Geschwindigkeitstrajektorie 221 können somit abgeänderte Geschwindigkeitstrajektorien
221 als abgeänderte Steuerungsziele 215 generiert werden, wobei die abgeänderten Geschwindigkeitstrajektorien
221 nicht vollständig durch die Trainingsdaten 203 gestützt sind und Geschwindigkeitswerte
aufweisen, die während des Verfahrens des Schienenfahrzeugs 201 und der Aufnahme der
jeweiligen Geschwindigkeitswerte des Schienenfahrzeugs 201 abweichen. Durch das Ändern
der Geschwindigkeitstrajektorie 221 können somit Punkte im Zustandsraum des Schienenfahrzeugs
201 erreicht werden, für die keine expliziten Trainingsdaten 203 generiert wurden.
[0047] Alternativ hierzu können auch mehrere Steuerungsziele 211, 215 beim Training der
Aktionsauswahlregel 209 berücksichtigt werden, sodass die Aktionsauswahlregel 209
eingerichtet ist, eine Mehrzahl von Steuerungszielen 211, 215 zu erfüllen. Die Steuerungsziele
können hierbei neben der zu erreichenden Endgeschwindigkeit des Schienenfahrzeugs
201 beispielsweise ein Energieverbrauch des Schienenfahrzeugs 201 oder eine maximal
zulässige Beschleunigung des Schienenfahrzeugs 201 umfassen, die während der Steuerung
200 des Schienenfahrzeugs 201 zu erfüllen bzw. zu berücksichtigen sind.
[0048] Nach dem Trainieren der Aktionsauswahlregel 209 im Verfahrensschritt 105 wird basierend
auf der Ausgangs-Aktionsauswahlregel 209 eine entsprechend trainierte Aktionsauswahlregel
213 generiert, die Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug
201 zu beschleunigen und das Steuerungsziel 211 bzw. die abgeänderten Steuerungsziele
215 zu erfüllen.
[0049] Das Trainieren der Aktionsauswahlregel 209 bzw. das Maximieren der Belohnungsfunktion
kann durch eine trainierte künstliche Intelligenz, beispielsweise durch ein entsprechend
trainiertes neuronales Netz, durchgeführt werden. Durch Maximieren der entsprechend
eingerichteten Belohnungsfunktion kann somit eine Aktionsauswahlregel 213 generiert
werden, die die entsprechenden Steuerungsziele 211, 215 erfüllt und somit eine optimierte
Steuerung 200 des Schienenfahrzeugs 201 gewährleistet.
[0050] FIG 2 zeigt eine schematische Darstellung eines Schienenfahrzeugs 201 mit einer Steuerung
200 nach einer Ausführungsform.
[0051] Fig. 2 zeigt ein Schienenfahrzeug 201 mit einer Steuerung 200, wobei die Steuerung
200 eine gemäß dem erfindungsgemäßen Verfahren 100 zum Trainieren einer Steuerung
200 eines Schienenfahrzeugs 201 trainierte Aktionsauswahlregel 213 umfasst. Das Schienenfahrzeug
201 umfasst ferner einen Antrieb 207 und einen Sensor 223. Über den Sensor 223 können
Sensorwerte des Antriebs 207 aufgenommen werden, um eine Ansteuerung des Antriebs
207 mittels der Steuerung 200 zu verfolgen. Das Schienenfahrzeug 201 umfasst ferner
eine Planungseinheit 225, die mit der Steuerung 200 verbunden ist. Zur Ansteuerung
des Schienenfahrzeugs 201 kann somit die Steuerung 200 von der Planungseinheit 225
eine entsprechende Geschwindigkeitstrajektorie 221 empfangen, die einen geplanten
Geschwindigkeitsverlauf des Verfahrens des Schienenfahrzeugs 201 beschreibt. Durch
Ausführen der durch die trainierte Aktionsauswahlregel 213 definierten Steuerungsanweisungen
kann somit die Steuerung 200 die entsprechenden Steuerungsanweisungen ausführen, die
geeignet sind, das Schienenfahrzeug 201 gemäß der geplanten Geschwindigkeitstrajektorie
221 der Planungseinheit 225 zu beschleunigen. Die Steuerung 200 des Schienenfahrzeugs
201 kann hierbei verschiedene Steuerungsziele 211, 215 berücksichtigen. Beispielsweise
kann das Schienenfahrzeug 201 unter einem vorbestimmten maximalen Energieverbrauch
angesteuert werden. Alternativ oder zusätzlich hierzu kann das Schienenfahrzeug 201
unter Berücksichtigung einer maximal zulässigen Beschleunigung angesteuert werden.
Indem die entsprechend trainierte Aktionsauswahlregel 213 für eine Vielzahl verschiedener
Steuerungsziele 211, 215 entsprechende Steuerungsanweisungen umfasst, die geeignet
sind, das Schienenfahrzeug 201 unter Berücksichtigung der jeweiligen Steuerungsziele
211, 215 anzusteuern, können während des Betriebs des Schienenfahrzeugs 201 und insbesondere
bei bereits installierter Steuerung 200 entsprechende Steuerungsziele 211, 215 abgeändert
werden, die während des Steuerns des Schienenfahrzeugs 201 erreicht werden sollen.
Eine Änderung der Steuerung 200 und insbesondere eine Anpassung der jeweiligen definierten
Steuerungsanweisungen ist aufgrund des Trainings der trainierten Aktionsauswahlregel
213 nicht erforderlich.
[0052] FIG 3 zeigt eine schematische Darstellung eines Computerprogrammprodukts 300.
[0053] Figur 3 zeigt ein Computerprogrammprodukt 300, umfassend Befehle, die bei der Ausführung
des Programms durch eine Recheneinheit dieses veranlassen, das Verfahren 100 nach
einer der oben genannten Ausführungsformen auszuführen. Das Computerprogrammprodukt
300 ist in der gezeigten Ausführungsform auf einem Speichermedium 301 gespeichert.
Das Speichermedium 301 kann hierbei ein beliebiges aus dem Stand der Technik bekanntes
Speichermedium sein.
[0054] Obwohl die Erfindung im Detail durch das bevorzugte Ausführungsbeispiel näher illustriert
und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele
eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden,
ohne den Schutzumfang der Erfindung zu verlassen.
1. Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201),
umfassend:
- Bereitstellen (101) von Trainingsdaten (203) basierend auf Sensordaten eines Schienenfahrzeugs
(201);
- Trainieren (103) eines Surrogat-Modells (205) des Schienenfahrzeugs (201) basierend
auf den Trainingsdaten (203) bezüglich einer Relation zwischen einer Ansteuerung eines
Antriebs (207) des Schienenfahrzeugs (201) und einer resultierenden Geschwindigkeit
des Schienenfahrzeugs (201);
- Trainieren (105) einer Aktionsauswahlregel (209) basierend auf den Trainingsdaten
(203) und dem Surrogat-Modell (205) unter Verwendung von maschinellem Lernen und unter
Berücksichtigung wenigstens eines objektiven Steuerungsziels (211), wobei die Aktionsauswahlregel
(209) Steuerungsanweisungen zum Ansteuern des Antriebs (207) des Schienenfahrzeugs
(201) umfasst, die eingerichtet sind, das Schienenfahrzeug (201) aus einem ersten
Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen;
und
- Generieren (107) einer trainierten Aktionsauswahlregel (213), wobei die trainierte
Aktionsauswahlregel (213) Steuerungsanweisungen umfasst, die eingerichtet sind, das
Schienenfahrzeug (201) zu beschleunigen und das Steuerungsziel (211) zu erfüllen.
2. Verfahren (100) nach Anspruch 1, wobei das maschinelle Lernen als bestärkendes Lernen
ausgebildet ist.
3. Verfahren (100) nach Anspruch 1 oder 2, wobei das Trainieren (105) der Aktionsauswahlregel
(209) umfasst:
Randomisiertes Abändern (109) des wenigstens einen auf den Trainingsdaten (203) basierenden
objektiven Steuerungsziels (211) und Definieren von abgeänderten Steuerungszielen
(215);
und
Trainieren der Aktionsauswahlregel (209) in Bezug auf Erfüllung der abgeänderten Steuerungsziele
(215).
4. Verfahren (100) nach Anspruch 1, 2 oder 3, wobei das Trainieren (105) der Aktionsauswahlregel
(209) umfasst:
Maximieren (111) einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel
(209) maximal ist, die das objektive Steuerungsziel (211) und/oder die abgeänderten
Steuerungsziele (215) erfüllt.
5. Verfahren (100) nach Anspruch 4, wobei die Belohnungsfunktion eine Differenz zwischen
einem durch Ausführen einer Steuerungsanweisung der Aktionsauswahlregel (209) erzielten
Geschwindigkeitszustand und dem objektiven Steuerungsziel (211) und/oder den abgeänderten
Steuerungszielen (215) berücksichtigt.
6. Verfahren (100) nach Anspruch 4 oder 5, wobei das Maximieren (111) der Belohnungsfunktion
durch ein künstliches neuronales Netz ausgeführt wird.
7. Verfahren (100) nach einem der voranstehenden Ansprüche, wobei das Steuerungsziel
(211) und/oder die abgeänderten Steuerungsziele (215) eine Sollgeschwindigkeit des
Schienenfahrzeugs (201) und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung
und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten umfasst.
8. Verfahren (100) nach einem der voranstehenden Ansprüche, wobei die Trainingsdaten
(203) während eines Verfahrens des Schienenfahrzeugs (201) aufgenommen werden und
Sensordaten von Zustandsvariablen (217), Steuerungsaktionen (219) und Geschwindigkeitstrajektorien
(221) umfassen, wobei die Zustandsvariablen (217) Geschwindigkeitsdaten, Beschleunigungsdaten,
Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs (201) umfassen,
wobei die Steuerungsaktionen (219) Antriebs- und/oder Bremsbetätigungen umfassen,
und wobei die Geschwindigkeitstrajektorien (221) entsprechende zeitliche Geschwindigkeitsentwicklungen
des Schienenfahrzeugs (201) beschreiben.
9. Steuerung (200) für ein Schienenfahrzeug (201), wobei die Steuerung (200) wenigstens
eine trainierte Aktionsauswahlregel (213) umfasst, die nach einem Verfahren (100)
zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201) nach einem der
voranstehenden Ansprüche 1 bis 8 trainiert ist, und wobei die Steuerung (200) eingerichtet
ist, das Schienenfahrzeug (201) unter Ausführung der trainierten Aktionsauswahlregel
(213) zu steuern.
10. Schienenfahrzeug (201) mit einer Steuerung (200) nach Anspruch 9.
11. Computerprogrammprodukt (300) umfassend Befehle, die bei der Ausführung des Programms
durch eine Datenverarbeitungseinheit diese veranlassen, das Verfahren (100) nach einem
der voranstehenden Ansprüche 1 bis 8 auszuführen.