Diese Website verwendet ausschließlich technisch notwendige Cookies, die für den Betrieb der Seite erforderlich sind. Weitere Informationen


Validierte KI Vorhersagemodelle



thomas-bade.de KI-Kompetenz Validierungsillusion
Wissenschaft · Klinische KI · EU AI Act Art. 4

Es gibt kein validiertes Vorhersagemodell

Van Calster et al. (2023) belegen: Eine einzige externe Validierung reicht nie aus, um ein klinisches Prognosemodell als „validiert" zu bezeichnen. Populationen variieren, Messverfahren variieren, und beides ändert sich über die Zeit.

Diese Seite fasst die Kernergebnisse zusammen und bietet Ihnen einen Selbsttest zur Kompetenz-Readiness nach EU AI Act Artikel 4.

Quelle: Van Calster B., Steyerberg EW., Wynants L., van Smeden M. · BMC Medicine (2023) 21:70 · DOI: 10.1186/s12916-023-02779-w · Open Access CC BY 4.0

3 Kernargumente Warum kein Vorhersagemodell wirklich „validiert" ist – trotz guter Testdaten
4 Empfehlungen Für eine robuste, heterogenitätssensible Validierungsstrategie
Hintergrund

Was sind klinische Vorhersagemodelle?

Klinische Vorhersagemodelle kombinieren Patienten- und Krankheitsmerkmale, um diagnostische oder prognostische Ergebnisse abzuschätzen.
Sie sollen Risikostratifizierung Unter Risikostratifizierung versteht man die Bewertung und Einteilung von Patienten in verschiedene Risikogruppen. Anhand von Kriterien wie Vorerkrankungen, Laborwerten und Symptomen dient sie dazu, Behandlungsintensität und Überwachungsbedarf individuell auszurichten. leiten und optimale Behandlungsentscheidungen für einzelne Patienten unterstützen.

Interne Validierung Die interne Validierung von Künstlicher Intelligenz (KI) bezeichnet die Überprüfung eines Modells auf seine Zuverlässigkeit, Genauigkeit und Fehlerfreiheit innerhalb der eigenen Entwicklungsumgebung. Sie stellt sicher, dass das System intern korrekt funktioniert, bevor es an reale Testdaten oder den operativen Betrieb übergeben wird.

Reproduzierbarkeit prüfen

Das Modell wird an derselben Patientengruppe getestet, für die es entwickelt wurde – z. B. per Train-Test-Split und Beim Train-Test-Split (auch Holdout-Methode) wird ein Datensatz im Data Science und Machine Learning in zwei Teile aufgeteilt: Das Trainingsset dient dem Modell zum Lernen, während das Testset die Leistung des Modells anhand unbekannter Daten bewertet. Kreuzvalidierung Die Kreuzvalidierung (engl. Cross-Validation) ist eine statistische Methode, um die Leistungsfähigkeit eines Machine-Learning-Modells zu bewerten. Sie prüft, wie gut das Modell Vorhersagen auf unbekannten Daten treffen kann (Generalisierbarkeit), und verhindert so eine Überanpassung (Overfitting). oder Bootstrapping Bootstrapping (abgeleitet von der englischen „Stiefelschlaufe“) beschreibt das Erreichen eines Ziels aus eigener Kraft. Je nach Kontext – Wirtschaft, Informatik oder Statistik – hat der Begriff eine andere konkrete Bedeutung. . Fokus liegt auf Überanpassung (Overfitting).

Externe Validierung Die externe Validierung von Künstlicher Intelligenz (KI) ist der entscheidende Prozess, bei dem ein bereits trainiertes KI- oder Machine-Learning-Modell mit völlig neuen, ungesehenen Daten getestet wird, die aus einer anderen Quelle oder Population stammen als die Trainings- und internen Validierungsdaten. Sie beweist, dass die KI robust und verallgemeinerbar ist.

Übertragbarkeit prüfen

Das Modell wird an neuen Patienten getestet – zeitlich (temporale Validierung) oder geografisch (an einem anderen Standort). Ziel: Transportierbarkeit der Modellleistung.

„Obwohl die Bewertung der Übertragbarkeit von entscheidender Bedeutung ist, beweist eine externe Validierung mit günstigen Ergebnissen keine universelle Anwendbarkeit und rechtfertigt nicht die Behauptung, das Modell sei ‚extern validiert'." Van Calster et al., BMC Medicine 2023
Die drei Kernargumente

Warum Vorhersagemodelle niemals wirklich validiert sind

Die Autoren begründen ihre These mit drei strukturellen Problemen, die eine abschließende Validierung grundsätzlich unmöglich machen.

1

Patientenpopulationen variieren

Selbst bei gleichen Ein- und Ausschlusskriterien unterscheiden sich Patientenmerkmale zwischen Zentren erheblich:

  • Demografische Unterschiede (Alter, Risikofaktoren, Schweregrad)
  • Unterschied Sekundär- vs. Tertiärversorgung
  • Länderspezifische Versorgungsstrukturen
  • Homogenere Populationen reduzieren die Diskriminanz ( c-Statistik Die c-Statistik (oft als Konkordanz-Index oder C-Index bezeichnet) ist ein statistisches Maß zur Bewertung der Diskriminierungsfähigkeit eines Vorhersagemodells. Sie gibt an, wie gut ein Modell zwischen Patienten oder Fällen mit unterschiedlichem Risiko (z. B. krank vs. gesund) unterscheiden kann. )
📊 Beispiel: Eierstockkrebsstudie 17 Zentren, 7 Länder: Patientenalter variierte von 43 bis 56 Jahren. Malignomrate 26 % (Onkologiezentren) vs. 10 % (andere Zentren).
2

Messverfahren variieren

Prädiktoren und Endpunkte werden unterschiedlich gemessen – das verzerrt die Modellleistung:

  • Verschiedene Geräte/Hersteller (z. B. Assay-Kits, Scanner)
  • Methoden- und Zeitpunktabhängigkeit (z. B. Blutdruckmessung)
  • Subjektivität (Erfahrung des Klinikers)
  • Biologische Variation bei Biomarkern
  • Variable klinische Praxisgewohnheiten
📊 Beispiel: Hüftfraktur-KI c-Statistik sank von 0,78 auf 0,52, sobald Scannertyp und Prozessvariablen kontrolliert wurden.
3

Populationen ändern sich über Zeit

Jedes Vorhersagemodell hat ein implizites Verfallsdatum:

  • Wandel in Behandlungsstandards und Therapieoptionen
  • Demografischer Wandel (Alterung, Lebensstil)
  • Kalibrierungsdrift durch veränderte Ereignisraten
  • Modellimplementierung verändert das klinische Verhalten
📊 Beispiel: EuroSCORE Überschätzung der Sterblichkeit wuchs von 5,6 % auf 7,6 % (geschätzt) bei tatsächlich sinkender Mortalität von 4,1 % auf 2,8 %.
Achillesferse der KI

Kalibrierung – das unterschätzte Qualitätskriterium

Die Diskriminanz (c-Statistik, AUC Der Begriff AUC (Area Under the Curve) bezieht sich in der Künstlichen Intelligenz (KI) auf ein wichtiges Leistungsmaß zur Bewertung von Klassifizierungsmodellen. Der Begriff KI ist die gängige Abkürzung für Künstliche Intelligenz. ) bleibt oft stabil, wenn ein Modell auf neue Populationen übertragen wird.
Die Kalibrierung hingegen bricht häufig ein – und das ist klinisch gefährlich.

Was ist Kalibrierung?

Übereinstimmung zwischen modellgeschätzten Risiken und tatsächlich beobachteten Ereignisanteilen. Ein gut kalibriertes Modell sagt 10 % Risiko – und bei diesen Patienten treten auch tatsächlich ~10 % Ereignisse auf.

Fehlkalibrierung – zwei Muster

Überschätzung Modell sagt 20 % Risiko, tatsächlich nur 8 % → unnötige Interventionen

Unterschätzung Modell sagt 5 % Risiko, tatsächlich 18 % → verpasste Hochrisikopatienten

Kalibrierungsdrift im Zeitverlauf

Wie das EuroSCORE Der EuroSCORE (European System for Cardiac Operative Risk Evaluation) ist ein medizinisches Punktesystem. Er schätzt das Sterberisiko (Mortalität) von Patienten nach einer Herzoperation ein. Der aktuell genutzte Standard ist der EuroSCORE II. Beispiel zeigt: Die Diskriminanz kann stabil bleiben (0,79–0,85), während die Kalibrierung massiv abdriftet. Deshalb reicht die c-Statistik allein nicht aus.

Dimension Häufige Praxis Empfehlung
Validierungskriterium Nur c-Statistik c-Statistik + Kalibrierungskurve
Validierungsumfang 1 externe Validierung Viele Standorte, Zeitpunkte
Stichprobengröße Oft zu klein ≥ 100–200 Ereignisse empfohlen
Reporting Selektiv, unvollständig TRIPOD-Leitlinie einhalten
Monitoring Einmalig bei Einführung Kontinuierlich, dynamisch
Modellaktualisierung Selten, reaktiv Regelmäßig, proaktiv
Handlungsempfehlungen

Was Van Calster et al. fordern

Die Autoren empfehlen einen Paradigmenwechsel: weg vom Fokus auf Modellentwicklung, hin zu strukturierten, langfristigen Validierungsstrategien.

1
Multizentrische Entwicklung

Mehrere Standorte und Populationen bereits bei der Modellentwicklung einbeziehen. Interne-externe Kreuzvalidierung (leave-one-out) durchführen. Prädiktordefinitionen standardisieren.

2
Heterogenität quantifizieren

Externe Validierung an mehreren Standorten und Zeitpunkten durchführen. Leistungsheterogenität aktiv messen und berichten – nicht als Fehler, sondern als Information.

3
TRIPOD-Standard einhalten

Vollständiges und transparentes Reporting gemäß TRIPOD-Richtlinie Die TRIPOD-Richtlinie (Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis) ist ein internationaler Leitfaden zur transparenten und vollständigen Berichterstattung über Studien, die medizinische Vorhersagemodelle (Prognose- oder Diagnosemodelle) entwickeln, validieren oder aktualisieren. (inkl. TRIPOD-Cluster Das TRIPOD-Cluster (Erweiterung der TRIPOD-Leitlinien) ist ein internationaler Berichtsstandard für medizinische Prognosemodelle, die auf geclusterten Daten (z. B. Patienten in verschiedenen Krankenhäusern, Regionen oder Familien) basieren. Es hilft Forschern, Studien zur Modellentwicklung oder -validierung transparent und fehlerfrei zu dokumentieren. für multizentrische Daten). Alle Prädiktoren definieren. Modell für unabhängige Validierung verfügbar machen.

4
Kontinuierliches Monitoring & Update

Vor Einführung: lokale Validierungsstudie. Danach: regelmäßige Kalibrierungsüberwachung. Bei Drift: dynamische Modellaktualisierung – insbesondere wenn die Kalibrierung problematisch wird.

Häufige Fragen

Bedeutet das, dass Validierung sinnlos ist?

Nein – aber der Anspruch muss sich ändern. Hier die wichtigsten Missverständnisse im Überblick.

Nein. Eine einzige Validierungsstudie ist immer nur eine Momentaufnahme – in einem bestimmten geografischen Umfeld, zu einem bestimmten Zeitpunkt, mit einer bestimmten Patientenpopulation. Sie kann keine Transportierbarkeit über diesen spezifischen Kontext hinaus belegen. Modelle, die in Dutzenden Zentren mit breiter geografischer Streuung gut abschneiden, bieten deutlich mehr Evidenz – aber auch dann keine 100%ige Garantie.
Nein. Die c-Statistik misst nur Diskriminanz – ob das Modell Hochrisikopatienten von Niedrigrisikopatienten trennen kann. Sie sagt nichts über Kalibrierung aus: ob die Risikoschätzungen in absoluten Zahlen stimmen. Ein Modell kann perfekt diskriminieren, aber systematisch das Risiko verdoppeln. In der klinischen Entscheidungsfindung (Therapieschwellen) ist Kalibrierung mindestens ebenso wichtig. Kritisch ist auch: Kalibrierung driftet über die Zeit, Diskriminanz bleibt oft stabil – das Modell "sieht gut aus", ist aber gefährlich falsch kalibriert.
Wenn ein Modell z. B. vor 10 Jahren mit einer Ereignisrate von 7,7 % entwickelt wurde, die Ereignisrate heute aber bei 6,2 % liegt (durch bessere Prävention), überschätzt das Modell das Risiko systematisch. Das führt zu unnötigen Interventionen und Überbehandlung. Beim EuroSCORE war die Diskrepanz dramatisch: Das Modell schätzte am Ende eine Sterblichkeit von 7,6 %, die tatsächliche lag bei 2,8 %.
KI-Systeme, die als Hochrisiko-Systeme nach Anhang III EU AI Act eingestuft werden (z. B. Medizinprodukte, Systeme zur Patientenrisikoeinschätzung), unterliegen strengen Anforderungen an Genauigkeit, Robustheit und Transparenz. Artikel 4 verpflichtet Organisationen, KI-Kompetenz bei allen Beteiligten sicherzustellen. Das Wissen um die inhärenten Grenzen klinischer Vorhersagemodelle – wie sie Van Calster et al. beschreiben – ist eine Kernkomponente dieser Kompetenzanforderung.
Wenn ein Prognosemodell erfolgreich eingesetzt wird und dazu führt, dass Hochrisikopatienten besser behandelt werden, sinkt deren Ereignisrate. Das Modell wird damit "Opfer seines eigenen Erfolgs": Die Vorhersagen gelten für eine Welt ohne diese Interventionen – in der Welt mit Interventionen sind sie systematisch falsch kalibriert. Zudem kann die Implementierung die Messqualität der Prädiktoren verändern, was die Validität der Vorhersagen weiter verzerrt.
Selbsttest

Kompetenz-Readiness: Klinische Vorhersagemodelle & EU AI Act

Überprüfen Sie Ihr Verständnis der Kernkonzepte – und bewerten Sie Ihre Readiness als KI-Anwender oder KI-Verantwortlicher im Gesundheitswesen gemäß EU AI Act Art. 4. Markieren Sie alle Aussagen, die Sie sicher beantworten können.

A · Grundkonzepte der Modellvalidierung
Ich kenne den Unterschied zwischen interner und externer Validierung und wann welche eingesetzt wird.
Ich verstehe, warum eine einzige externe Validierung keine universelle Übertragbarkeit belegt.
Ich kann erklären, was Diskriminanz (c-Statistik/AUC) misst – und was nicht.
Ich kann erläutern, was Kalibrierung bedeutet und warum sie klinisch entscheidend ist.
B · Heterogenität und Risikofaktoren
Ich kenne die drei Hauptgründe, warum Vorhersagemodelle nie wirklich validiert sind (Populationen, Messungen, Zeitwandel).
Ich verstehe, wie Messvariation (Geräte, Subjektivität, Timing) die Modellleistung beeinflusst.
Ich kann Kalibrierungsdrift erklären und an einem klinischen Beispiel illustrieren.
Ich verstehe das Paradoxon: Wie eine erfolgreiche Modellimplementierung die eigenen Vorhersagen ungültig machen kann.
C · EU AI Act & Governance
Ich kenne die Kompetenzanforderungen nach EU AI Act Art. 4 für meinen Bereich (Krankenhaus/Pflegeeinrichtung/Gemeinde).
Ich weiß, welche KI-Systeme in meiner Einrichtung als Hochrisiko-KI nach Anhang III EU AI Act gelten könnten.
Meine Einrichtung hat (oder plant) ein Monitoring-Konzept für eingesetzte KI-Prognosemodelle.
Ich kann kritisch beurteilen, ob ein Anbieter valide Validierungsevidenz für ein KI-Produkt vorweist.
D · Anwendung & Handlungskompetenz
Ich kann TRIPOD-konforme Validierungsberichte lesen und kritisch bewerten.
Ich weiß, wie man eine lokale Validierungsstudie vor Modelleinsatz initiiert oder beauftragt.
Ich kann Kolleginnen und Kollegen erklären, warum "validiert" kein finaler Qualitätsstempel ist.
Ich kenne Warnsignale im Umgang mit Anbietern, die übertriebene Validierungsbehauptungen machen.

0 von 16 Aussagen markiert

0/16
Originalveröffentlichung

van Calster B.,Steyerberg E.W., Wynants L, van Smeden M.

There is no such thing as a validated prediction model
BMC Med. 2023 Feb 24;21(1):70. doi: 10.1186/s12916-023-02779-w.

Link zur Studie
Partizipative KI-Einführung begleiten lassen?

Ich zeige Ihnen, wie Sie Pflegefachpersonen strukturiert einbinden, Bias-Risiken erkennen und EU AI Act-Anforderungen erfüllen.


CC BY-ND 4.0 Creative Commons Lizenz (CC BY-ND 4.0)
Inhalte dieser Webseite und der Selbsttest "Partizipative KI-Readiness-Check" dürfen geteilt werden, sofern der Urheber genannt wird und keine Bearbeitungen verbreitet werden.