Validierte KI Vorhersagemodelle

Wissenschaft · Klinische KI · EU AI Act Art. 4

Es gibt kein validiertes Vorhersagemodell

Van Calster et al. (2023) belegen: Eine einzige externe Validierung reicht nie aus, um ein klinisches Prognosemodell als „validiert" zu bezeichnen. Populationen variieren, Messverfahren variieren, und beides ändert sich über die Zeit.

Diese Seite fasst die Kernergebnisse zusammen und bietet Ihnen einen Selbsttest zur Kompetenz-Readiness nach EU AI Act Artikel 4.

Quelle: Van Calster B., Steyerberg EW., Wynants L., van Smeden M. · BMC Medicine (2023) 21:70 · DOI: 10.1186/s12916-023-02779-w · Open Access CC BY 4.0

3 Kernargumente Warum kein Vorhersagemodell wirklich „validiert" ist – trotz guter Testdaten

4 Empfehlungen Für eine robuste, heterogenitätssensible Validierungsstrategie

Hintergrund

Was sind klinische Vorhersagemodelle?

Klinische Vorhersagemodelle kombinieren Patienten- und Krankheitsmerkmale, um diagnostische oder prognostische Ergebnisse abzuschätzen.
Sie sollen Risikostratifizierung leiten und optimale Behandlungsentscheidungen für einzelne Patienten unterstützen.

Reproduzierbarkeit prüfen

Das Modell wird an derselben Patientengruppe getestet, für die es entwickelt wurde – z. B. per Train-Test-Split und Kreuzvalidierung oder Bootstrapping . Fokus liegt auf Überanpassung (Overfitting).

Übertragbarkeit prüfen

Das Modell wird an neuen Patienten getestet – zeitlich (temporale Validierung) oder geografisch (an einem anderen Standort). Ziel: Transportierbarkeit der Modellleistung.

„Obwohl die Bewertung der Übertragbarkeit von entscheidender Bedeutung ist, beweist eine externe Validierung mit günstigen Ergebnissen keine universelle Anwendbarkeit und rechtfertigt nicht die Behauptung, das Modell sei ‚extern validiert'." Van Calster et al., BMC Medicine 2023

Die drei Kernargumente

Warum Vorhersagemodelle niemals wirklich validiert sind

Die Autoren begründen ihre These mit drei strukturellen Problemen, die eine abschließende Validierung grundsätzlich unmöglich machen.

Patientenpopulationen variieren

Selbst bei gleichen Ein- und Ausschlusskriterien unterscheiden sich Patientenmerkmale zwischen Zentren erheblich:

Demografische Unterschiede (Alter, Risikofaktoren, Schweregrad)
Unterschied Sekundär- vs. Tertiärversorgung
Länderspezifische Versorgungsstrukturen
Homogenere Populationen reduzieren die Diskriminanz ( c-Statistik )

📊 Beispiel: Eierstockkrebsstudie 17 Zentren, 7 Länder: Patientenalter variierte von 43 bis 56 Jahren. Malignomrate 26 % (Onkologiezentren) vs. 10 % (andere Zentren).

Messverfahren variieren

Prädiktoren und Endpunkte werden unterschiedlich gemessen – das verzerrt die Modellleistung:

Verschiedene Geräte/Hersteller (z. B. Assay-Kits, Scanner)
Methoden- und Zeitpunktabhängigkeit (z. B. Blutdruckmessung)
Subjektivität (Erfahrung des Klinikers)
Biologische Variation bei Biomarkern
Variable klinische Praxisgewohnheiten

📊 Beispiel: Hüftfraktur-KI c-Statistik sank von 0,78 auf 0,52, sobald Scannertyp und Prozessvariablen kontrolliert wurden.

Populationen ändern sich über Zeit

Jedes Vorhersagemodell hat ein implizites Verfallsdatum:

Wandel in Behandlungsstandards und Therapieoptionen
Demografischer Wandel (Alterung, Lebensstil)
Kalibrierungsdrift durch veränderte Ereignisraten
Modellimplementierung verändert das klinische Verhalten

📊 Beispiel: EuroSCORE Überschätzung der Sterblichkeit wuchs von 5,6 % auf 7,6 % (geschätzt) bei tatsächlich sinkender Mortalität von 4,1 % auf 2,8 %.

Achillesferse der KI

Kalibrierung – das unterschätzte Qualitätskriterium

Die Diskriminanz (c-Statistik, AUC ) bleibt oft stabil, wenn ein Modell auf neue Populationen übertragen wird.
Die Kalibrierung hingegen bricht häufig ein – und das ist klinisch gefährlich.

Was ist Kalibrierung?

Übereinstimmung zwischen modellgeschätzten Risiken und tatsächlich beobachteten Ereignisanteilen. Ein gut kalibriertes Modell sagt 10 % Risiko – und bei diesen Patienten treten auch tatsächlich ~10 % Ereignisse auf.

Fehlkalibrierung – zwei Muster

Überschätzung Modell sagt 20 % Risiko, tatsächlich nur 8 % → unnötige Interventionen

Unterschätzung Modell sagt 5 % Risiko, tatsächlich 18 % → verpasste Hochrisikopatienten

Kalibrierungsdrift im Zeitverlauf

Wie das EuroSCORE Beispiel zeigt: Die Diskriminanz kann stabil bleiben (0,79–0,85), während die Kalibrierung massiv abdriftet. Deshalb reicht die c-Statistik allein nicht aus.

Dimension	Häufige Praxis	Empfehlung
Validierungskriterium	Nur c-Statistik	c-Statistik + Kalibrierungskurve
Validierungsumfang	1 externe Validierung	Viele Standorte, Zeitpunkte
Stichprobengröße	Oft zu klein	≥ 100–200 Ereignisse empfohlen
Reporting	Selektiv, unvollständig	TRIPOD-Leitlinie einhalten
Monitoring	Einmalig bei Einführung	Kontinuierlich, dynamisch
Modellaktualisierung	Selten, reaktiv	Regelmäßig, proaktiv

Handlungsempfehlungen

Was Van Calster et al. fordern

Die Autoren empfehlen einen Paradigmenwechsel: weg vom Fokus auf Modellentwicklung, hin zu strukturierten, langfristigen Validierungsstrategien.

Multizentrische Entwicklung

Mehrere Standorte und Populationen bereits bei der Modellentwicklung einbeziehen. Interne-externe Kreuzvalidierung (leave-one-out) durchführen. Prädiktordefinitionen standardisieren.

Heterogenität quantifizieren

Externe Validierung an mehreren Standorten und Zeitpunkten durchführen. Leistungsheterogenität aktiv messen und berichten – nicht als Fehler, sondern als Information.

TRIPOD-Standard einhalten

Vollständiges und transparentes Reporting gemäß TRIPOD-Richtlinie (inkl. TRIPOD-Cluster für multizentrische Daten). Alle Prädiktoren definieren. Modell für unabhängige Validierung verfügbar machen.

Kontinuierliches Monitoring & Update

Vor Einführung: lokale Validierungsstudie. Danach: regelmäßige Kalibrierungsüberwachung. Bei Drift: dynamische Modellaktualisierung – insbesondere wenn die Kalibrierung problematisch wird.

Häufige Fragen

Bedeutet das, dass Validierung sinnlos ist?

Nein – aber der Anspruch muss sich ändern. Hier die wichtigsten Missverständnisse im Überblick.

Nein. Eine einzige Validierungsstudie ist immer nur eine Momentaufnahme – in einem bestimmten geografischen Umfeld, zu einem bestimmten Zeitpunkt, mit einer bestimmten Patientenpopulation. Sie kann keine Transportierbarkeit über diesen spezifischen Kontext hinaus belegen. Modelle, die in Dutzenden Zentren mit breiter geografischer Streuung gut abschneiden, bieten deutlich mehr Evidenz – aber auch dann keine 100%ige Garantie.

Nein. Die c-Statistik misst nur Diskriminanz – ob das Modell Hochrisikopatienten von Niedrigrisikopatienten trennen kann. Sie sagt nichts über Kalibrierung aus: ob die Risikoschätzungen in absoluten Zahlen stimmen. Ein Modell kann perfekt diskriminieren, aber systematisch das Risiko verdoppeln. In der klinischen Entscheidungsfindung (Therapieschwellen) ist Kalibrierung mindestens ebenso wichtig. Kritisch ist auch: Kalibrierung driftet über die Zeit, Diskriminanz bleibt oft stabil – das Modell "sieht gut aus", ist aber gefährlich falsch kalibriert.

Wenn ein Modell z. B. vor 10 Jahren mit einer Ereignisrate von 7,7 % entwickelt wurde, die Ereignisrate heute aber bei 6,2 % liegt (durch bessere Prävention), überschätzt das Modell das Risiko systematisch. Das führt zu unnötigen Interventionen und Überbehandlung. Beim EuroSCORE war die Diskrepanz dramatisch: Das Modell schätzte am Ende eine Sterblichkeit von 7,6 %, die tatsächliche lag bei 2,8 %.

KI-Systeme, die als Hochrisiko-Systeme nach Anhang III EU AI Act eingestuft werden (z. B. Medizinprodukte, Systeme zur Patientenrisikoeinschätzung), unterliegen strengen Anforderungen an Genauigkeit, Robustheit und Transparenz. Artikel 4 verpflichtet Organisationen, KI-Kompetenz bei allen Beteiligten sicherzustellen. Das Wissen um die inhärenten Grenzen klinischer Vorhersagemodelle – wie sie Van Calster et al. beschreiben – ist eine Kernkomponente dieser Kompetenzanforderung.

Wenn ein Prognosemodell erfolgreich eingesetzt wird und dazu führt, dass Hochrisikopatienten besser behandelt werden, sinkt deren Ereignisrate. Das Modell wird damit "Opfer seines eigenen Erfolgs": Die Vorhersagen gelten für eine Welt ohne diese Interventionen – in der Welt mit Interventionen sind sie systematisch falsch kalibriert. Zudem kann die Implementierung die Messqualität der Prädiktoren verändern, was die Validität der Vorhersagen weiter verzerrt.

Selbsttest

Kompetenz-Readiness: Klinische Vorhersagemodelle & EU AI Act

Überprüfen Sie Ihr Verständnis der Kernkonzepte – und bewerten Sie Ihre Readiness als KI-Anwender oder KI-Verantwortlicher im Gesundheitswesen gemäß EU AI Act Art. 4. Markieren Sie alle Aussagen, die Sie sicher beantworten können.

A · Grundkonzepte der Modellvalidierung

Ich kenne den Unterschied zwischen interner und externer Validierung und wann welche eingesetzt wird.

Ich verstehe, warum eine einzige externe Validierung keine universelle Übertragbarkeit belegt.

Ich kann erklären, was Diskriminanz (c-Statistik/AUC) misst – und was nicht.

Ich kann erläutern, was Kalibrierung bedeutet und warum sie klinisch entscheidend ist.

B · Heterogenität und Risikofaktoren

Ich kenne die drei Hauptgründe, warum Vorhersagemodelle nie wirklich validiert sind (Populationen, Messungen, Zeitwandel).

Ich verstehe, wie Messvariation (Geräte, Subjektivität, Timing) die Modellleistung beeinflusst.

Ich kann Kalibrierungsdrift erklären und an einem klinischen Beispiel illustrieren.

Ich verstehe das Paradoxon: Wie eine erfolgreiche Modellimplementierung die eigenen Vorhersagen ungültig machen kann.

C · EU AI Act & Governance

Ich kenne die Kompetenzanforderungen nach EU AI Act Art. 4 für meinen Bereich (Krankenhaus/Pflegeeinrichtung/Gemeinde).

Ich weiß, welche KI-Systeme in meiner Einrichtung als Hochrisiko-KI nach Anhang III EU AI Act gelten könnten.

Meine Einrichtung hat (oder plant) ein Monitoring-Konzept für eingesetzte KI-Prognosemodelle.

Ich kann kritisch beurteilen, ob ein Anbieter valide Validierungsevidenz für ein KI-Produkt vorweist.

D · Anwendung & Handlungskompetenz

Ich kann TRIPOD-konforme Validierungsberichte lesen und kritisch bewerten.

Ich weiß, wie man eine lokale Validierungsstudie vor Modelleinsatz initiiert oder beauftragt.

Ich kann Kolleginnen und Kollegen erklären, warum "validiert" kein finaler Qualitätsstempel ist.

Ich kenne Warnsignale im Umgang mit Anbietern, die übertriebene Validierungsbehauptungen machen.

0 von 16 Aussagen markiert

0/16

–

Originalveröffentlichung

van Calster B.,Steyerberg E.W., Wynants L, van Smeden M.

There is no such thing as a validated prediction model
BMC Med. 2023 Feb 24;21(1):70. doi: 10.1186/s12916-023-02779-w.

Link zur Studie

Partizipative KI-Einführung begleiten lassen?

Ich zeige Ihnen, wie Sie Pflegefachpersonen strukturiert einbinden, Bias-Risiken erkennen und EU AI Act-Anforderungen erfüllen.

Let’s talk