Aufgabe des IHM ist es eine Planungsoptimierung auf Basis des Reinforcement Learnings zu entwickeln und der ML-basierten Optimalsteuerung zur Verfügung zu stellen. Insbesondere herausfordernd dabei ist, dass komplexe System der Notaufnahme mit seiner großen Anzahl an Akteuren und technischen Geräten allumfänglich zu erfassen. Zunächst müssen demnach die unterschiedlichen Anwendungsfelder, sowie die dafür geeigneten Verfahren identifiziert werden. Um geeignete Verfahren zu identifizieren. Durch Reproduktion ausgewählter Ergebnisse werden die für das NotPASS-System geeigneten Verfahren identifiziert.
Als State-of-the-Art-Verfahren für eine dateneffiziente, ML-basierte Optimalsteuerung hat sich das Bayesian Reinforcement Learning (BRL) etabliert. Die Methode PILCO - Probabilistic Inference for Learning Control ist allerdings für komplexe inverse Aufgabenstellungen aufgrund der Nutzung von Standard-Gaußprozessen und unflexiblen Kostenfunktionalen und Controllern in dem Kontext der Modellvalidierung nicht allgemein einsetzbar. Methoden des Deep Reinforcement Learning (DRL), modellieren die zeitliche Dynamik durch ein Ensemble von probabilistischen, neuronalen Netzen als Controller. Basierend auf einer modellprädiktiven Regelung ermöglicht es, dateneffizient dynamische Systeme zu steuern. Beide Verfahren beruhen darauf, dass ein vordefiniertes Kostenfunktional direkt minimiert wird. Das Kostenfunktional enthält vielfache Verkettungen des ML-Modells mit sich selbst. Dies führt bei hochdimensionalen Fragestellungen und auch bereits bei einer moderaten Anzahl von Stichproben zu Problemen hinsichtlich der Laufzeit und der Konvergenz, so dass in diesem Verbundprojekt ein neuer Ansatz für die ML-basierte Optimalsteuerung verfolgt werden soll. Um die aufgezählten Beschränkungen des BRL zu überwinden, soll in dem Verbundprojekt der Algorithmus Proximal Policy Optimization (PPO) so erweitert werden, dass beliebige Kostenfunktionale hinreichend genau approximiert werden können. Hierfür sollen statt der üblichen Künstlichen Neuronalen Netzwerke (KNN), probabilistische ML-Modelle als Actor und Critic unter Einbeziehung der Modellunsicherheiten verwendet werden. Das von den Antragstellern entwickelte neuartige ML-Verfahren Deep Gaussian Covariance Networks (DGCN) nutzt KNN in Kombination mit Gaußprozessen (GP) zur Abbildung hochgradig multimodaler, nichtlinearer und “verrauschter” Daten. Es ist zu erwarten, dass mittels DGCN die Klasse der zulässigen Kostenfunktionale mit deutlich weniger Daten und Stichproben erweitert werden kann.
Zur Absicherung und zur Überprüfung der Extrapolationsfähigkeit und Prognosefähigkeit der entwickelten ML-Algorithmen erfolgen Validierungen, deren Daten wiederum während des Online Learnings der ML-Modelle genutzt werden können. In diesem Zusammenhang sollen die probabilistischen Eigenschaften von DGCN genutzt werden, um eine zuverlässige Aussage über die Fehlerwahrscheinlichkeit der Modellvorhersagesicherheit zu treffen. Mithilfe von geeigneten Prognosemaßen soll hier die Erklärbarkeit der Daten mit der Hilfe von Cross-Validierung und Konfidenzintervallen analysiert und somit Transparenz geschaffen werden, in wie weit das Modell zuverlässig in der Vorhersage und Analyse der Daten ist. Die Algorithmen sollen im Projekt stetig weiter optimiert werden damit schließlich die Ergebnisse an ein Feedback-System übermittelt werden können. Im weiteren Projektverlauf wird schließlich die Ausgabe der Optimierungsergebnisse angepasst um diese für das NotPASS-System verwendbar zu machen.