KI Monitoring im Regelbetrieb

Nach dem Go-live beginnt die eigentliche Verantwortung.

Eine KI-Zulassung ist kein Freifahrtschein.
Was ein System in kontrollierten Testbedingungen leistet, muss im klinischen Alltag kontinuierlich gemessen, bewertet und dokumentiert werden – rechtssicher, systematisch und mit klaren Zuständigkeiten.
Die Einführung von KI ist nicht das Ende der Verantwortung, sondern der Beginn einer neuen Betriebsphase. Entscheidend ist, wie KI-Systeme im Alltag überwacht, bewertet und nachgesteuert werden – fachlich, organisatorisch und regulatorisch.

Das Kernproblem
KI-Systeme im Gesundheitswesen werden häufig nach erfolgreicher Zulassung als „erledigt" betrachtet.
Doch Modelle driften, Patientenpopulationen verschieben sich, Scanner-Software wird aktualisiert – und plötzlich liefert dasselbe System andere, schlechtere Ergebnisse.
Ohne strukturierte Überwachung bemerkt das niemand rechtzeitig.

Zwei aktuelle Publikationen – NIST AI 800-4: Challenges to the Monitoring of Deployed AI Systems (März 2026) und die Leitlinien des Royal College of Radiologists zur Post-deployment monitoring and safety reporting of AI medical imaging devices (März 2026) – zeichnen ein klares Bild:
Post-Deployment Monitoring ist kein optionales Add-on, sondern eine regulatorische und ethische Kernpflicht.

Definition
KI-Betriebsüberwachung (Post-Deployment Monitoring) bezeichnet die kontinuierliche Messung, Bewertung und Dokumentation eines KI-Systems nach dessen produktivem Einsatz – mit dem Ziel, Zuverlässigkeit, Patientensicherheit und regulatorische Konformität im klinischen Alltag sicherzustellen.

Das Besondere im Gesundheitswesen: KI-Outputs sind nicht-deterministisch. Dasselbe System kann auf dieselbe Eingabe unterschiedliche Ergebnisse liefern. Hinzu kommen Verteilungsverschiebungen (Drift), systemische Biases gegenüber bestimmten Patientengruppen und Abhängigkeiten von Infrastrukturänderungen. Was im Piloten funktioniert hat, muss im Regelbetrieb nicht funktionieren.

Warum Monitoring wichtig ist!

Vortests und Zulassung reichen nicht aus. Erst im Echtbetrieb zeigen sich Drift, Fehlanreize, Workflow-Brüche, Mensch-KI-Fehlinteraktionen, Sicherheitslücken oder unklare Verantwortlichkeiten.

Worauf Organisationen achten müssen!

Governance, Auditierbarkeit, Incident Reporting, lokale Validierung, Schulung, Lieferantensteuerung, technische Betriebsdaten und die Wirkung auf klinische Entscheidungen gehören zusammen.

Was muss gemacht werden!

Internationale Leitlinien müssen in eine pragmatische Umsetzungslogik übersetzt werden.
Was in Brüssel beschlossen wird, muss im deutschen Gesundheitswesen funktionieren.

Was KI-Monitoring im Regelbetrieb konkret bedeutet

Nach dem Go-live muss nicht nur das Modell selbst beobachtet werden. Ebenso relevant sind Prozessstabilität, technische Betriebsfähigkeit, Nutzerverhalten, Sicherheitsaspekte, Compliance und die tatsächlichen Auswirkungen auf Versorgung und Organisation.

1. Funktionalität

Arbeitet das System weiterhin wie vorgesehen? Werden Leistung, Genauigkeit, Abweichungen und mögliche Drift systematisch erkannt?

2. Betrieb

Läuft die Infrastruktur stabil? Werden Verarbeitungszeiten, Ausfälle, Schnittstellen und technische Veränderungen sauber überwacht?

3. Mensch-KI-Interaktion

Wird die KI so genutzt, wie sie gedacht ist? Verstehen Mitarbeitende Grenzen, Fehlermuster und den richtigen Umgang mit Overrides?

4. Sicherheit

Gibt es Angriffsflächen, Missbrauch, unerwartetes Verhalten oder Anzeichen, dass das System sich unter Beobachtung anders verhält?

5. Compliance

Werden regulatorische Vorgaben, interne Richtlinien, Dokumentationspflichten und Lieferantenpflichten belastbar eingehalten?

6. Wirkung

Verändert die KI klinische Entscheidungen, Arbeitsabläufe, Priorisierung, Versorgungsqualität oder Risiken auf eine Weise, die aktiv beobachtet werden muss?

Ein praxistauglicher 5-Schritte-Rahmen

Schritt 1: KI-Inventar aufbauen

Welche Systeme sind im Einsatz, in welcher Version, seit wann, in welchem Workflow und mit welcher lokalen Verantwortung?

Schritt 2: Monitoring-Ziele definieren

Was wird überwacht: Menschen, Prozesse, Produktleistung, Sicherheit, Compliance und Auswirkungen auf nachgelagerte Entscheidungen.

Schritt 3: Datenbasis sichern

Referenzstandards, Audit-Stichproben, Abweichungsraten, Fehlermuster, Scanner-, Software- und Workflow-Unterschiede sowie Änderungsprotokolle erfassen.

Schritt 4: Eskalation festlegen

Welche Schwellenwerte lösen Review, Revalidierung, Lieferantenkontakt, Incident Reporting oder temporäre Einschränkungen aus?

Schritt 5: Lernen in den Betrieb integrieren

Monitoring ist kein Nebenprozess. Ergebnisse müssen in Schulung, Governance, Beschaffung, Qualitätssicherung und strategische Entscheidungen zurückgespielt werden.

Operative Modellüberwachung nach Microsoft
Vom Governance-Rahmen zur laufenden Kontrolle

Governance beschreibt die Verantwortung. Operative Modellüberwachung macht sie im Alltag messbar.
Für generative KI-Systeme reicht es nicht, nur Richtlinien, Rollen und Freigaben zu definieren.
Entscheidend ist, ob reale Nutzung, Antwortqualität, Sicherheitslage, Kosten, Latenz und Fehlermuster im laufenden Betrieb kontinuierlich beobachtet und bei Abweichungen automatisch eskaliert werden.

Microsoft strukturiert diese operative Überwachung entlang von Produktionsdaten, Qualitätsmetriken, Schwellenwerten, Alerts, Dashboards und Tracing.
Für Gesundheitseinrichtungen ist das besonders relevant, weil KI-Systeme nicht nur technisch funktionieren müssen, sondern auch im Versorgungskontext nachvollziehbar, sicher und organisationsfähig bleiben.

Wie KI-Monitoring in klinische und pflegerische Prozesse eingebaut werden muss!

KI-Monitoring darf im Gesundheitswesen nicht als isoliertes IT-Dashboard betrieben werden. Es muss in bestehende klinische und pflegerische Standardprozesse eingebettet werden: in Freigaben, Dokumentation, Übergaben, Qualitätszirkel, Abweichungsmanagement, Datenschutz, Informationssicherheit und konkrete Eskalationswege.

Der operative Grundsatz lautet: Jedes KI-System braucht eine SOP, die nicht nur die Nutzung, sondern auch die laufende Überwachung, Bewertung und Reaktion auf Auffälligkeiten verbindlich regelt.

1. SOP-Verankerung im Regelbetrieb

Die SOP sollte festlegen, an welcher Stelle im Versorgungs- oder Pflegeprozess das KI-System eingesetzt wird, wer es nutzen darf, welche Daten einfließen, welche Ergebnisse weiterverwendet werden dürfen und an welchen Punkten eine menschliche Prüfung zwingend vorgeschrieben ist.

2. Klare Rollen und Verantwortlichkeiten

Für jedes KI-gestützte Verfahren müssen Rollen benannt werden: Fachverantwortung, IT-Betrieb, Datenschutz, Informationssicherheit, Qualitätsmanagement und Anwenderseite.

3. Einbindung in bestehende Prüf- und Freigabeschritte

Monitoring-Ergebnisse müssen an bestehende Strukturen anschließen: Stationsleitung, Pflegevisite, ärztliche Supervision, QM-Routinen, CIRS oder Datenschutz-Folgenabschätzung.

4. Eskalationslogik statt bloßer Beobachtung

Die SOP muss definieren, was bei Abweichungen passiert: Informationswege, Einschränkungen der Nutzung, Review-Prozesse oder temporäre Abschaltung.

5. Dokumentation und Nachvollziehbarkeit

Monitoring-Ereignisse gehören in die geregelte Dokumentation: Qualitätsabweichungen, Fehlentscheidungen, Halluzinationen, Systemverhalten und Gegenmaßnahmen.

6. Regelmäßige Review-Termine

KI-Monitoring braucht feste Taktung: tägliche Alerts, wöchentliche Reviews, monatliche Qualitätsbewertungen und Sonderprüfungen.

Empfohlene Monitoring-Kennzahlen für generative KI im Gesundheitswesen

SOP-Baustein	Regelungsinhalt	Praxisfrage
Einsatzbereich	Wo und für welchen Zweck wird die KI genutzt?	Assistenz, Dokumentation, Triage, Kommunikation oder Wissenszugriff?
Freigabegrenzen	Welche Outputs dürfen direkt genutzt werden, welche nur nach Prüfung?	Wann ist ein Human-in-the-Loop zwingend?
Monitoring-Kennzahlen	Welche Metriken werden beobachtet?	Qualität, Relevanz, Groundedness, Latenz, Fehler, Kosten, Safety?
Grenzwerte	Ab wann gilt eine Auffälligkeit als kritisch?	Welche Schwelle löst Review oder Eskalation aus?
Eskalation	Wer reagiert in welcher Frist?	Fachabteilung, IT, QM, Datenschutz oder Hersteller?
Dokumentation	Wie werden Vorfälle und Maßnahmen festgehalten?	Wo liegt der Audit-Trail und wer prüft ihn?
Fallback	Wie läuft der Prozess ohne KI weiter?	Gibt es einen sicheren manuellen Rückfallprozess?
Review-Zyklus	Wann wird die SOP selbst überprüft?	Monatlich, quartalsweise oder nach jedem relevanten Vorfall?

Was internationale KI-Monitoring-Standards für die Praxis tatsächlich bedeuten!

KI-Monitoring-Standards sprechen von Telemetrie, Drift-Detection und Feedback-Loops – das klingt technisch, ist aber übersetzbar.
Der eigentliche Mehrwert entsteht erst, wenn diese Konzepte in Strukturen greifen, die Organisationen bereits kennen: Qualitätsmanagement, klinische Governance, Informationssicherheit, Lieferantensteuerung und interne Audits.

KI-Monitoring = Governance + Telemetrie + Qualitätsmetriken + Eskalationslogik.

Darum geht es in der Praxis!
KI-Monitoring nicht als neue Parallelwelt einzuführen, sondern als integrierten Bestandteil in bestehende Betriebsstrukturen zu verankern – mit klarer Governance, messbaren Qualitätskriterien und einer Eskalationslogik, die im Ernstfall funktioniert.

Typische Risiken nach der Einführung

Leistungsabfall durch Drift, neue Patientengruppen oder veränderte Eingangsdaten

Falsche Nutzung außerhalb des vorgesehenen Einsatzbereichs

Fehlende Transparenz bei Updates von Software, Modellen oder Bildgebungssystemen

Unklare Zuständigkeiten zwischen Hersteller, Plattform, IT, Klinik und Anwendern

Zu hohe Belastung durch manuelles Monitoring ohne klare Priorisierung

Fehlende Rückkopplung zwischen realem Einsatz, Audit und Governance

Zwei Referenzrahmen!

Das Royal College of Radiologists liefert einen der wenigen sektorspezifischen Leitfäden, der Post-Deployment-Monitoring konsequent aus klinischer Verantwortung heraus denkt – nicht aus IT-Perspektive.
Das NIST AI 800-4 setzt den technisch-methodischen Rahmen: systematisch, auditierbar, auf internationale Normen abgestimmt.
Zusammen ergeben diese beiden Quellen das, was deutsche Einrichtungen brauchen: eine Brücke zwischen klinischer Praxis und technischer Governance – anschlussfähig an MDR, EU AI Act und interne Qualitätssysteme.