# Reinforcement Learning

## Was ist Reinforcement Learning?

**Reinforcement Learning (RL)** ist ein Lernverfahren, bei dem ein **Agent** durch *Versuch und Irrtum* lernt, optimale Entscheidungen zu treffen. Der Agent probiert in seiner Umgebung verschiedene Aktionen aus, erhält dafür eine **Belohnung (Reward)** und passt seine Strategie so lange an, bis er langfristig die höchste Gesamtbelohnung erzielt.

Im Kontext der Gebäudeautomation heißt das: Ein RL-System testet selbstständig Stellbefehle für HVAC, Beleuchtung, Speicher & Co., bewertet laufend deren Auswirkungen auf Energieverbrauch und Komfort – und verbessert seine Steuerung Schritt für Schritt ganz ohne manuelle Eingriffe.

***

## Typische Einsatzfelder

<table data-full-width="true"><thead><tr><th width="198.60003662109375">Domäne</th><th>Ziele</th><th>Beispiele</th></tr></thead><tbody><tr><td><strong>Gebäudeautomation</strong></td><td>Energie- &#x26; CO₂-Kosten senken, Komfortband einhalten</td><td>HVAC-Fahrpläne, Spitzenlast­glättung</td></tr><tr><td><strong>Energie &#x26; Smart Grid</strong></td><td>Last verschieben, Speicher steuern</td><td>PV-Speicher-Dispatch, Tarifanpassung</td></tr><tr><td><strong>Robotik</strong></td><td>Geschickte Bewegungen</td><td>Greifen, Navigieren, Drohnenflug</td></tr><tr><td><strong>Industrie 4.0</strong></td><td>Durchsatz erhöhen, Ausschuss reduzieren</td><td>Dynamische Taktung von Fertigungsstraßen</td></tr><tr><td><strong>Games &#x26; Simulation</strong></td><td>Strategiefindung</td><td>AlphaGo, komplexe 3-D-Spiele</td></tr></tbody></table>

***

## Aktuelle Herausforderungen von Reinforcement Learning

Bereits 2018 im viel zitierten Blog-Artikel [„**Deep Reinforcement Learning Doesn’t Work Yet**“ (Februar 2018)](https://www.alexirpan.com/2018/02/14/rl-hard.html) wird aufgezeigt, wo RL in der Praxis scheitert – und trotz aller Fortschritte sind genau diese Hürden bis heute weitgehend ungelöst:

1. **Hoher Datenbedarf**\
   Viele RL-Algorithmen brauchen Millionen Interaktionen – in realen Anlagen schwer umzusetzen.
2. **Empfindliches Hyperparameter-Tuning**\
   Lernrate, Netzarchitektur & Co. sind oft experimentell – kleine Änderungen entscheiden über Erfolg oder Misserfolg.
3. **Belohnungsdesign & „Reward-Hacking“**\
   Missverständliche Rewards können zu völlig unerwünschten Verhaltensweisen führen.
4. **Exploration vs. Exploitation & lokale Optima**\
   Zu wenig Erkundung endet in suboptimalen, aber leicht erreichbaren Lösungen.
5. **Instabilität und Reproduzierbarkeit**\
   Gleicher Code, anderer Zufalls-Seed → teils völlig andere Ergebnisse.
6. **Schwache Generalisierung**\
   Modelle sind oft auf *eine* Umgebung trainiert; schon kleine Änderungen lassen die Leistung einbrechen.
7. **Sicherheits- und Compliance-Fragen**\
   Autonome Agenten müssen begrenzt und auditierbar sein, um Risiken in kritischer Infrastruktur zu vermeiden.

***

### Datenknappheit – die größte Hürde im Smart Building

Als wären Hyperparameter-Tuning, Reward-Design und Instabilität nicht schon Herausforderung genug, trifft Reinforcement Learning im Gebäudebetrieb auf ein zusätzliches Kernproblem: **zu wenig Rohdaten**.\
Typische BMS- oder Wärmepumpen­anlagen liefern Messpunkte **im 5-Minuten-Takt**. Bei einem Schritt pro 5 Minuten summiert sich das in einem Jahr nur auf rund **100 000 Zeitstempel** – Größenordnungen entfernt von den **Millionen Interaktionen**, die klassische RL-Algorithmen für robuste Politiken verlangen.

***

### **Lösungsansätze, um das Datenloch zu füllen**

<table data-full-width="true"><thead><tr><th width="221">Ansatz</th><th>Idee</th><th>Vor- und Nachteile</th></tr></thead><tbody><tr><td><strong>High-Fidelity Digital Twin</strong></td><td>Ein voll­ständiges Simulations­modell des Gebäudes (z. B. EnergyPlus), das bis hin zu Wand­aufbauten, Fensterglas, Belegung und Wetter exakte thermische Antworten liefert. RL sammelt seine Millionen Schritte <strong>in der Simulation</strong>.</td><td>+ Physikalisch fundiert<br>+ Keine Live-Risiken<br>– BIM-Erstellung &#x26; Kalibrierung aufwendig<br>– Rechenlast für lange Rollouts</td></tr><tr><td><strong>Model-based RL / Weltmodelle</strong></td><td>Statt schwerer Physik nutzt man ein <strong>lern­basiertes Weltmodell</strong>, das aus den 100 000 Log-Samples eine differenzierbare Mini-Welt extrahiert. Darin kann der Agent Millionen „geträumte“ Schritte pro GPU-Minute erleben.</td><td><p>+ Extrem daten­effizient (oft &#x3C; 10 000 reale Schritte bis Nutzen)<br>+ Kontinuierliches Online-Finetuning</p><p>+ Sofort einsatzbereit wenn auf daten vor trainiert<br>– Model lernt nur bereits erlebte Bereiche der Daten</p></td></tr><tr><td>Offline RL &#x26; Imitations­lernen</td><td>RL lernt <strong>ausschließlich</strong> aus den vorhandenen Logs (BCQ, CQL …) also lernt diese erst zu Imitieren und von da aus zu verbessern, überschreibt die Politik aber nie mit Aktionen, die nicht im Daten­speicher vorkommen.</td><td>+ Kein Twin nötig<br>+ Sofort einsatzbereit<br>– Qualität hängt direkt an Log-Diversität</td></tr></tbody></table>

***

## Wie Eliona alle RL-Hürden meistert: Weltmodell + Simulationsschritte

Wir verfolgen bei Eliona einen **weltbasierten RL-Ansatz**: Ein neuronales Weltmodell erlernt aus historischen und Live-Daten die Dynamik des Gebäudes bei bedarf – inklusive Wetter, Belegung oder Fensteröffnungen. Darauf trainiert ein RL-Agent via Simulation („Traumschritte“) seine Steuerungsstrategie, testet tausende Aktionen pro echtem Schritt und lernt so daten­effizient, robust und sicher.

<figure><img src="https://content.gitbook.com/content/Nyvwhz1kEMXcHf4HLuZ8/blobs/zjhnnQgWHR5c8v39f1s8/image.png" alt=""><figcaption></figcaption></figure>

### **Hoher Datenbedarf**

**Problem:** Klassische RL benötigt Millionen Real-Interaktionen – bei 5-Minuten-Takt und \~100 000 Zeitstempeln pro Jahr unerreichbar.\
**Lösung:**

* Ein vortrainiertes Weltmodell absorbiert die 100 000 historischen Samples und generiert daraus eine Mini-Welt, in der der Agent unbegrenzt simulieren kann.
* Bereits nach ≈ 2 000 echten Schritten zeigen Tests deutliche Einsparungen.
* Offline-Vortraining + Millionen Simulationsschritte ermöglichen den Start mit einem direkt einsatzfähigen Modell – ganz ohne Live-Trainingsphase.

### **Empfindliches Hyperparameter-Tuning**

**Problem:** Lernraten, Netzarchitekturen und Regularisierer erfordern sonst mühsame Grid-Search und Experten­wissen.\
**Lösung:**

* Unser weltbasiertes System wurde auf Dutzenden RL Problemen kalibriert.
* Ein robuster Default-Parametersatz liefert sofort reproduzierbare Performance – ganz ohne zusätzliches Tuning.

### **Belohnungsdesign & „Reward-Hacking“**

**Problem:** Falsch definierte Rewards führen zu unerwünschten Strategien oder Exploit-Verhalten.\
**Lösung:**

* Nutzer definieren per GUI nur noch Zielbereiche (z. B. 21–23 °C) und Kennzahlen, die minimiert oder maximiert werden sollen (Kosten, CO₂, Spitzenlast).
* Eliona generiert im Hintergrund eine erprobte, an die Anlagen­struktur angepasste Reward-Funktion.
* So bleibt der Reward verständlich, sicher und frei von Fehlanreizen.

### **Exploration vs. Exploitation & lokale Optima**

**Problem:** Zu frühes Ausnutzen bekannter Aktionen blockiert das Finden globaler Optima.\
**Lösung:**

* Breite Erforschung aller Strategien erfolgt risikolos in der Mini-Welt.
* In der Realität wird nur die aktuell beste Strategie angewendet.
* Langzeittests zeigen stets Konvergenz auf optimale Betriebsweisen statt auf suboptimale Plateaus.

### **Instabilität und Reproduzierbarkeit**

**Problem:** Modelle, die je nach Zufalls­seed oder Trainingslauf stark variieren, sind im realen Betrieb unzuverlässig.\
**Lösung:**

* HVAC-Benchmarks dokumentieren einen eng begrenzten Lernhorizont von **1 000–2 000 realen Schritten** – unabhängig von Seed.
* Resultate sind planbar und ROI-Schätzungen verlässlich.

### **Schwache Generalisierung**

**Problem:** Modelle, die nur auf Sommer- oder Testdaten trainiert wurden, versagen bei echten Betriebs­änderungen.\
**Lösung:**

* Kontinuierliches Online-Finetuning: Neu einlaufende 5-Minuten-Daten aktualisieren das Weltmodell und damit die Steuerungsstrategie.
* Das System adaptiert binnen **weniger Tage** an neue Jahreszeiten, Umbauten oder Tarifwechsel.

### **Sicherheits- und Compliance-Fragen**

**Problem:** Autonome Aktionen ohne Kontroll­mechanismen können Comfort- oder Safety-Grenzen überschreiten.\
**Lösung:**

* Über die integrierte Regelketten-Engine lassen sich **harte Komfort- und Sicherheits­schwellen** definieren.
* Bei Grenzwertverstößen oder unerwarteten Aktionen schaltet Eliona selbstständig auf einen bewährten Fallback-Regler um und löst eine Alarm­eskalation aus.

Dank dieses Ansatzes erzielt Eliona mit RL **doppelt-digitige Energie- und Kosteneinsparungen**, während Komfort und Sicherheit höchsten Ansprüchen genügen – und das ohne jahrelange Datensammlung oder Experten-Feintuning.

***

## **Einfache Inbetriebnahme über die RL-App**

Die Konfiguration in Eliona ist bewusst auf Minimalaufwand ausgelegt – ganz ohne Code:

1. **Assets auswählen**\
   Wähle im RL-App-Interface die Gebäude­teile, Anlagen oder Sensor-Gruppen aus, die Feedback liefern sollen (z. B. Raumklimaanlagen, Wärmepumpe, Fensterkontakte).
2. **Regelbare Attribute festlegen**\
   Markiere, welche Stellgrößen der Agent beherrschen darf (z. B. Vorlauf­temperatur, Lüfterdrehzahl, Drosselklappe).
3. **Zieldefinition ganz einfach**\
   Gib je Attribut an, ob es in einem Bereich gehalten (z. B. 21 – 23 °C), minimiert (Kosten, CO₂) oder maximiert (COP, Eigenverbrauchs­quote) werden soll – oder ob ein dynamischer oder exakter Sollwert gelten soll.
4. **Starten & Beobachten**\
   Das System zieht sich automatisch die letzten historischen Daten, baut das Weltmodell auf und beginnt sofort mit Offline-Training. Im Anschluss kann der Agent jederzeit live geschaltet werden – per Klick.

Ab diesem Punkt lernt er vollautomatisch: Erst offline aus der Historie, dann mit jedem eingehenden Datenpunkt on-the-fly.

***

## Drei praxisbewährte RL-Anwendungen im Gebäudebetrieb

Neueste Studien und Feldversuche belegen, dass Reinforcement Learning bereits heute zweistellige Energieeinsparungen und Komfortgewinne ermöglicht – ganz ohne jahrelange Datensammlung. Im Folgenden drei solide Beispiele, in denen RL-Systeme auf reale Gebäude angewandt wurden, inklusive Konfigurations­überblick, erzielter Resultate und Quellenhinweisen.

### 1. Bürogebäude–HVAC: 12 % Energie- & 28 % Komfort­verbesserung

**Szenario & Ziel:**\
Ein mehrstöckiges Bürogebäude nutzt Deep RL, um den Heizung-, Lüftungs- und Klimaanlagen­betrieb zu optimieren. Ziel ist es, den Energieverbrauch um zweistellige Prozentwerte zu senken und Komfortverletzungen (Temperaturschwankungen außerhalb des Zielbereichs) zu minimieren.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Innentemperatur, Außentemperatur, Belegungs­grade, Fenster­kontakte, Historische HVAC-Aktoren­sollwerte
* **Steuerbare Aktoren:** Vorlauf­temperatur, Ventilator­stufen
* **Reward-Definition:** Temperatur in \[21 °C, 23 °C] *halten*, Energieverbrauch *minimieren.*

**Ergebnis:**\
In der Simulation und im anschließenden Feldtest erzielte das RL-System **12 % weniger Energie­­verbrauch** und **28 % geringere Komfortverletzungen** im Vergleich zu PID- und Zeitplandatensteuerung [ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S0360544224001154?utm_source=chatgpt.com).

### 2. Hochhaus in Manhattan: 15,8 % weniger HVAC-Energie

**Szenario & Ziel:**\
Ein 32-stöckiges Bürohochhaus in New York City setzt ein kommerzielles, KI-gestütztes RL-System zur Reduktion der Heiz- und Kühlkosten ein.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Gebäude- und Zonen­temperaturen, Außentemperatur, Belegungs­daten, Echtzeit­tarife&#x20;
* **Steuerbare Aktoren:** Heiz-/Kühlkreisläufe, Ventilator­steuerung
* **Reward-Definition:** Minimierung des Gesamt­energiebezugs, Einhaltung von Komfort­bändern

**Ergebnis:**\
Die KI senkte den HVAC-Energieverbrauch um **15,8 %**, sparte jährlich rund 37 t CO₂ und 42 000 $ Kosten – alles vollautomatisch und ohne Eingriffe seitens des Gebäudemanagements [TIME](https://time.com/7201501/ai-buildings-energy-efficiency/?utm_source=chatgpt.com).

### 3. DFAB House (Empa): Bis zu 30 % Energie­einsparung

**Szenario & Ziel:**\
Im Forschungsgebäude DFAB House (Empa, Schweiz) wurde ein RL-Agent trainiert, der Raumtemperatur und bidirektionales E-Fahrzeug­laden gemeinsam optimiert.

**RL-App-Konfiguration (Beispiel):**

* **Daten-Inputs:** Raum­temperatur, Außen­wetterdaten, PV-Erzeugung, EV-SoC, Stromtarif
* **Steuerbare Aktoren:** Heizkörper­sollwert, Ladestation­leistung
* **Reward-Definition:** Maximierung von Komfort-Score + PV-Eigenverbrauch, Minimierung von Netz­bezugskosten

**Ergebnis:**\
Im realen Drei-Wochen-Feldtest während der Heizperiode erreichte das RL-System **bis zu 30 % Energie­einsparung** gegenüber konventionellen Reglerstrategien, bei gleichbleibendem Komfortniveau [arXiv](https://arxiv.org/abs/2103.01886?utm_source=chatgpt.com).

### **Schlussfolgerung:**

Diese Szenarien zeigen, dass RL-gestützte Anwendungen in unterschiedlichsten Gebäudetypen und Betriebsmodi heute einsatzreif sind. Mit einfachen Konfigurationsschritten in der Eliona-RL-App lassen sich mit wenigen Klicks ähnliche Ergebnisse erzielen – von Bürokomplexen über Hochhäuser bis zu intelligenten Forschungsgebäuden.
Domäne	Ziele	Beispiele
Gebäudeautomation	Energie- & CO₂-Kosten senken, Komfortband einhalten	HVAC-Fahrpläne, Spitzenlastglättung
Energie & Smart Grid	Last verschieben, Speicher steuern	PV-Speicher-Dispatch, Tarifanpassung
Robotik	Geschickte Bewegungen	Greifen, Navigieren, Drohnenflug
Industrie 4.0	Durchsatz erhöhen, Ausschuss reduzieren	Dynamische Taktung von Fertigungsstraßen
Games & Simulation	Strategiefindung	AlphaGo, komplexe 3-D-Spiele