> For the complete documentation index, see [llms.txt](https://docs.buildings.ability.abb/collection/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.buildings.ability.abb/collection/german-14.2-freezed/erste-schritte/kunstliche-intelligenz-in-abb-buildingpro/reinforcement-learning.md).

# Reinforcement Learning

## Was ist Reinforcement Learning?

**Reinforcement Learning (RL)** ist ein Lernverfahren, bei dem ein **Agent** durch *Versuch und Irrtum* lernt, optimale Entscheidungen zu treffen. Der Agent probiert in seiner Umgebung verschiedene Aktionen aus, erhält dafür eine **Belohnung (Reward)** und passt seine Strategie so lange an, bis er langfristig die höchste Gesamtbelohnung erzielt.

Im Kontext der Gebäudeautomation heißt das: Ein RL-System testet selbstständig Stellbefehle für HVAC, Beleuchtung, Speicher & Co., bewertet laufend deren Auswirkungen auf Energieverbrauch und Komfort – und verbessert seine Steuerung Schritt für Schritt ganz ohne manuelle Eingriffe.

***

## Typische Einsatzfelder

<table data-full-width="true"><thead><tr><th width="198.60003662109375">Domäne</th><th>Ziele</th><th>Beispiele</th></tr></thead><tbody><tr><td><strong>Gebäudeautomation</strong></td><td>Energie- &#x26; CO₂-Kosten senken, Komfortband einhalten</td><td>HVAC-Fahrpläne, Spitzenlast­glättung</td></tr><tr><td><strong>Energie &#x26; Smart Grid</strong></td><td>Last verschieben, Speicher steuern</td><td>PV-Speicher-Dispatch, Tarifanpassung</td></tr><tr><td><strong>Robotik</strong></td><td>Geschickte Bewegungen</td><td>Greifen, Navigieren, Drohnenflug</td></tr><tr><td><strong>Industrie 4.0</strong></td><td>Durchsatz erhöhen, Ausschuss reduzieren</td><td>Dynamische Taktung von Fertigungsstraßen</td></tr><tr><td><strong>Games &#x26; Simulation</strong></td><td>Strategiefindung</td><td>AlphaGo, komplexe 3-D-Spiele</td></tr></tbody></table>

***

## Aktuelle Herausforderungen von Reinforcement Learning

Bereits 2018 im viel zitierten Blog-Artikel [„**Deep Reinforcement Learning Doesn’t Work Yet**“ (Februar 2018)](https://www.alexirpan.com/2018/02/14/rl-hard.html) wird aufgezeigt, wo RL in der Praxis scheitert – und trotz aller Fortschritte sind genau diese Hürden bis heute weitgehend ungelöst:

1. **Hoher Datenbedarf**\
   Viele RL-Algorithmen brauchen Millionen Interaktionen – in realen Anlagen schwer umzusetzen.
2. **Empfindliches Hyperparameter-Tuning**\
   Lernrate, Netzarchitektur & Co. sind oft experimentell – kleine Änderungen entscheiden über Erfolg oder Misserfolg.
3. **Belohnungsdesign & „Reward-Hacking“**\
   Missverständliche Rewards können zu völlig unerwünschten Verhaltensweisen führen.
4. **Exploration vs. Exploitation & lokale Optima**\
   Zu wenig Erkundung endet in suboptimalen, aber leicht erreichbaren Lösungen.
5. **Instabilität und Reproduzierbarkeit**\
   Gleicher Code, anderer Zufalls-Seed → teils völlig andere Ergebnisse.
6. **Schwache Generalisierung**\
   Modelle sind oft auf *eine* Umgebung trainiert; schon kleine Änderungen lassen die Leistung einbrechen.
7. **Sicherheits- und Compliance-Fragen**\
   Autonome Agenten müssen begrenzt und auditierbar sein, um Risiken in kritischer Infrastruktur zu vermeiden.

***

### Datenknappheit – die größte Hürde im Smart Building

Als wären Hyperparameter-Tuning, Reward-Design und Instabilität nicht schon Herausforderung genug, trifft Reinforcement Learning im Gebäudebetrieb auf ein zusätzliches Kernproblem: **zu wenig Rohdaten**.\
Typische BMS- oder Wärmepumpen­anlagen liefern Messpunkte **im 5-Minuten-Takt**. Bei einem Schritt pro 5 Minuten summiert sich das in einem Jahr nur auf rund **100 000 Zeitstempel** – Größenordnungen entfernt von den **Millionen Interaktionen**, die klassische RL-Algorithmen für robuste Politiken verlangen.

***

### **Lösungsansätze, um das Datenloch zu füllen**

<table data-full-width="true"><thead><tr><th width="221">Ansatz</th><th>Idee</th><th>Vor- und Nachteile</th></tr></thead><tbody><tr><td><strong>High-Fidelity Digital Twin</strong></td><td>Ein voll­ständiges Simulations­modell des Gebäudes (z. B. EnergyPlus), das bis hin zu Wand­aufbauten, Fensterglas, Belegung und Wetter exakte thermische Antworten liefert. RL sammelt seine Millionen Schritte <strong>in der Simulation</strong>.</td><td>+ Physikalisch fundiert<br>+ Keine Live-Risiken<br>– BIM-Erstellung &#x26; Kalibrierung aufwendig<br>– Rechenlast für lange Rollouts</td></tr><tr><td><strong>Model-based RL / Weltmodelle</strong></td><td>Statt schwerer Physik nutzt man ein <strong>lern­basiertes Weltmodell</strong>, das aus den 100 000 Log-Samples eine differenzierbare Mini-Welt extrahiert. Darin kann der Agent Millionen „geträumte“ Schritte pro GPU-Minute erleben.</td><td><p>+ Extrem daten­effizient (oft &#x3C; 10 000 reale Schritte bis Nutzen)<br>+ Kontinuierliches Online-Finetuning</p><p>+ Sofort einsatzbereit wenn auf daten vor trainiert<br>– Model lernt nur bereits erlebte Bereiche der Daten</p></td></tr><tr><td>Offline RL &#x26; Imitations­lernen</td><td>RL lernt <strong>ausschließlich</strong> aus den vorhandenen Logs (BCQ, CQL …) also lernt diese erst zu Imitieren und von da aus zu verbessern, überschreibt die Politik aber nie mit Aktionen, die nicht im Daten­speicher vorkommen.</td><td>+ Kein Twin nötig<br>+ Sofort einsatzbereit<br>– Qualität hängt direkt an Log-Diversität</td></tr></tbody></table>

***

## Wie Eliona alle RL-Hürden meistert: Weltmodell + Simulationsschritte

Wir verfolgen bei Eliona einen **weltbasierten RL-Ansatz**: Ein neuronales Weltmodell erlernt aus historischen und Live-Daten die Dynamik des Gebäudes bei bedarf – inklusive Wetter, Belegung oder Fensteröffnungen. Darauf trainiert ein RL-Agent via Simulation („Traumschritte“) seine Steuerungsstrategie, testet tausende Aktionen pro echtem Schritt und lernt so daten­effizient, robust und sicher.

<figure><img src="/files/j4NkBIfLomtE94irnhAO" alt=""><figcaption></figcaption></figure>

### **Hoher Datenbedarf**

**Problem:** Klassische RL benötigt Millionen Real-Interaktionen – bei 5-Minuten-Takt und \~100 000 Zeitstempeln pro Jahr unerreichbar.\
**Lösung:**

* Ein vortrainiertes Weltmodell absorbiert die 100 000 historischen Samples und generiert daraus eine Mini-Welt, in der der Agent unbegrenzt simulieren kann.
* Bereits nach ≈ 2 000 echten Schritten zeigen Tests deutliche Einsparungen.
* Offline-Vortraining + Millionen Simulationsschritte ermöglichen den Start mit einem direkt einsatzfähigen Modell – ganz ohne Live-Trainingsphase.

### **Empfindliches Hyperparameter-Tuning**

**Problem:** Lernraten, Netzarchitekturen und Regularisierer erfordern sonst mühsame Grid-Search und Experten­wissen.\
**Lösung:**

* Unser weltbasiertes System wurde auf Dutzenden RL Problemen kalibriert.
* Ein robuster Default-Parametersatz liefert sofort reproduzierbare Performance – ganz ohne zusätzliches Tuning.

### **Belohnungsdesign & „Reward-Hacking“**

**Problem:** Falsch definierte Rewards führen zu unerwünschten Strategien oder Exploit-Verhalten.\
**Lösung:**

* Nutzer definieren per GUI nur noch Zielbereiche (z. B. 21–23 °C) und Kennzahlen, die minimiert oder maximiert werden sollen (Kosten, CO₂, Spitzenlast).
* Eliona generiert im Hintergrund eine erprobte, an die Anlagen­struktur angepasste Reward-Funktion.
* So bleibt der Reward verständlich, sicher und frei von Fehlanreizen.

### **Exploration vs. Exploitation & lokale Optima**

**Problem:** Zu frühes Ausnutzen bekannter Aktionen blockiert das Finden globaler Optima.\
**Lösung:**

* Breite Erforschung aller Strategien erfolgt risikolos in der Mini-Welt.
* In der Realität wird nur die aktuell beste Strategie angewendet.
* Langzeittests zeigen stets Konvergenz auf optimale Betriebsweisen statt auf suboptimale Plateaus.

### **Instabilität und Reproduzierbarkeit**

**Problem:** Modelle, die je nach Zufalls­seed oder Trainingslauf stark variieren, sind im realen Betrieb unzuverlässig.\
**Lösung:**

* HVAC-Benchmarks dokumentieren einen eng begrenzten Lernhorizont von **1 000–2 000 realen Schritten** – unabhängig von Seed.
* Resultate sind planbar und ROI-Schätzungen verlässlich.

### **Schwache Generalisierung**

**Problem:** Modelle, die nur auf Sommer- oder Testdaten trainiert wurden, versagen bei echten Betriebs­änderungen.\
**Lösung:**

* Kontinuierliches Online-Finetuning: Neu einlaufende 5-Minuten-Daten aktualisieren das Weltmodell und damit die Steuerungsstrategie.
* Das System adaptiert binnen **weniger Tage** an neue Jahreszeiten, Umbauten oder Tarifwechsel.

### **Sicherheits- und Compliance-Fragen**

**Problem:** Autonome Aktionen ohne Kontroll­mechanismen können Comfort- oder Safety-Grenzen überschreiten.\
**Lösung:**

* Über die integrierte Regelketten-Engine lassen sich **harte Komfort- und Sicherheits­schwellen** definieren.
* Bei Grenzwertverstößen oder unerwarteten Aktionen schaltet Eliona selbstständig auf einen bewährten Fallback-Regler um und löst eine Alarm­eskalation aus.

Dank dieses Ansatzes erzielt Eliona mit RL **doppelt-digitige Energie- und Kosteneinsparungen**, während Komfort und Sicherheit höchsten Ansprüchen genügen – und das ohne jahrelange Datensammlung oder Experten-Feintuning.

***

## **Einfache Inbetriebnahme über die RL-App**

Die Konfiguration in Eliona ist bewusst auf Minimalaufwand ausgelegt – ganz ohne Code:

1. **Assets auswählen**\
   Wähle im RL-App-Interface die Gebäude­teile, Anlagen oder Sensor-Gruppen aus, die Feedback liefern sollen (z. B. Raumklimaanlagen, Wärmepumpe, Fensterkontakte).
2. **Regelbare Attribute festlegen**\
   Markiere, welche Stellgrößen der Agent beherrschen darf (z. B. Vorlauf­temperatur, Lüfterdrehzahl, Drosselklappe).
3. **Zieldefinition ganz einfach**\
   Gib je Attribut an, ob es in einem Bereich gehalten (z. B. 21 – 23 °C), minimiert (Kosten, CO₂) oder maximiert (COP, Eigenverbrauchs­quote) werden soll – oder ob ein dynamischer oder exakter Sollwert gelten soll.
4. **Starten & Beobachten**\
   Das System zieht sich automatisch die letzten historischen Daten, baut das Weltmodell auf und beginnt sofort mit Offline-Training. Im Anschluss kann der Agent jederzeit live geschaltet werden – per Klick.

Ab diesem Punkt lernt er vollautomatisch: Erst offline aus der Historie, dann mit jedem eingehenden Datenpunkt on-the-fly.

***

## Drei praxisbewährte RL-Anwendungen im Gebäudebetrieb

Neueste Studien und Feldversuche belegen, dass Reinforcement Learning bereits heute zweistellige Energieeinsparungen und Komfortgewinne ermöglicht – ganz ohne jahrelange Datensammlung. Im Folgenden drei solide Beispiele, in denen RL-Systeme auf reale Gebäude angewandt wurden, inklusive Konfigurations­überblick, erzielter Resultate und Quellenhinweisen.

### 1. Bürogebäude–HVAC: 12 % Energie- & 28 % Komfort­verbesserung

**Szenario & Ziel:**\
Ein mehrstöckiges Bürogebäude nutzt Deep RL, um den Heizung-, Lüftungs- und Klimaanlagen­betrieb zu optimieren. Ziel ist es, den Energieverbrauch um zweistellige Prozentwerte zu senken und Komfortverletzungen (Temperaturschwankungen außerhalb des Zielbereichs) zu minimieren.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Innentemperatur, Außentemperatur, Belegungs­grade, Fenster­kontakte, Historische HVAC-Aktoren­sollwerte
* **Steuerbare Aktoren:** Vorlauf­temperatur, Ventilator­stufen
* **Reward-Definition:** Temperatur in \[21 °C, 23 °C] *halten*, Energieverbrauch *minimieren.*

**Ergebnis:**\
In der Simulation und im anschließenden Feldtest erzielte das RL-System **12 % weniger Energie­­verbrauch** und **28 % geringere Komfortverletzungen** im Vergleich zu PID- und Zeitplandatensteuerung [ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S0360544224001154?utm_source=chatgpt.com).

### 2. Hochhaus in Manhattan: 15,8 % weniger HVAC-Energie

**Szenario & Ziel:**\
Ein 32-stöckiges Bürohochhaus in New York City setzt ein kommerzielles, KI-gestütztes RL-System zur Reduktion der Heiz- und Kühlkosten ein.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Gebäude- und Zonen­temperaturen, Außentemperatur, Belegungs­daten, Echtzeit­tarife&#x20;
* **Steuerbare Aktoren:** Heiz-/Kühlkreisläufe, Ventilator­steuerung
* **Reward-Definition:** Minimierung des Gesamt­energiebezugs, Einhaltung von Komfort­bändern

**Ergebnis:**\
Die KI senkte den HVAC-Energieverbrauch um **15,8 %**, sparte jährlich rund 37 t CO₂ und 42 000 $ Kosten – alles vollautomatisch und ohne Eingriffe seitens des Gebäudemanagements [TIME](https://time.com/7201501/ai-buildings-energy-efficiency/?utm_source=chatgpt.com).

### 3. DFAB House (Empa): Bis zu 30 % Energie­einsparung

**Szenario & Ziel:**\
Im Forschungsgebäude DFAB House (Empa, Schweiz) wurde ein RL-Agent trainiert, der Raumtemperatur und bidirektionales E-Fahrzeug­laden gemeinsam optimiert.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Raum­temperatur, Außen­wetterdaten, PV-Erzeugung, EV-SoC, Stromtarif
* **Steuerbare Aktoren:** Heizkörper­sollwert, Ladestation­leistung
* **Reward-Definition:** Maximierung von Komfort-Score + PV-Eigenverbrauch, Minimierung von Netz­bezugskosten

**Ergebnis:**\
Im realen Drei-Wochen-Feldtest während der Heizperiode erreichte das RL-System **bis zu 30 % Energie­einsparung** gegenüber konventionellen Reglerstrategien, bei gleichbleibendem Komfortniveau [arXiv](https://arxiv.org/abs/2103.01886?utm_source=chatgpt.com).

### **Schlussfolgerung:**

Diese Szenarien zeigen, dass RL-gestützte Anwendungen in unterschiedlichsten Gebäudetypen und Betriebsmodi heute einsatzreif sind. Mit einfachen Konfigurationsschritten in der Eliona-RL-App lassen sich mit wenigen Klicks ähnliche Ergebnisse erzielen – von Bürokomplexen über Hochhäuser bis zu intelligenten Forschungsgebäuden.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.buildings.ability.abb/collection/german-14.2-freezed/erste-schritte/kunstliche-intelligenz-in-abb-buildingpro/reinforcement-learning.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
