Validierte KI Vorhersagemodelle

Es gibt kein validiertes Vorhersagemodell
Van Calster et al. (2023) belegen: Eine einzige externe Validierung reicht nie aus, um ein klinisches Prognosemodell als „validiert" zu bezeichnen. Populationen variieren, Messverfahren variieren, und beides ändert sich über die Zeit.
Diese Seite fasst die Kernergebnisse zusammen und bietet Ihnen einen Selbsttest zur Kompetenz-Readiness nach EU AI Act Artikel 4.
Was sind klinische Vorhersagemodelle?
Klinische Vorhersagemodelle kombinieren Patienten- und Krankheitsmerkmale, um diagnostische oder prognostische Ergebnisse abzuschätzen.
Sie sollen
Risikostratifizierung
Unter Risikostratifizierung versteht man die Bewertung und Einteilung von Patienten in verschiedene Risikogruppen. Anhand von Kriterien wie Vorerkrankungen, Laborwerten und Symptomen dient sie dazu, Behandlungsintensität und Überwachungsbedarf individuell auszurichten.
leiten und optimale Behandlungsentscheidungen für einzelne Patienten unterstützen.
Reproduzierbarkeit prüfen
Das Modell wird an derselben Patientengruppe getestet, für die es entwickelt wurde – z. B. per Train-Test-Split und Beim Train-Test-Split (auch Holdout-Methode) wird ein Datensatz im Data Science und Machine Learning in zwei Teile aufgeteilt: Das Trainingsset dient dem Modell zum Lernen, während das Testset die Leistung des Modells anhand unbekannter Daten bewertet. Kreuzvalidierung Die Kreuzvalidierung (engl. Cross-Validation) ist eine statistische Methode, um die Leistungsfähigkeit eines Machine-Learning-Modells zu bewerten. Sie prüft, wie gut das Modell Vorhersagen auf unbekannten Daten treffen kann (Generalisierbarkeit), und verhindert so eine Überanpassung (Overfitting). oder Bootstrapping Bootstrapping (abgeleitet von der englischen „Stiefelschlaufe“) beschreibt das Erreichen eines Ziels aus eigener Kraft. Je nach Kontext – Wirtschaft, Informatik oder Statistik – hat der Begriff eine andere konkrete Bedeutung. . Fokus liegt auf Überanpassung (Overfitting).
Übertragbarkeit prüfen
Das Modell wird an neuen Patienten getestet – zeitlich (temporale Validierung) oder geografisch (an einem anderen Standort). Ziel: Transportierbarkeit der Modellleistung.
Warum Vorhersagemodelle niemals wirklich validiert sind
Die Autoren begründen ihre These mit drei strukturellen Problemen, die eine abschließende Validierung grundsätzlich unmöglich machen.
Patientenpopulationen variieren
Selbst bei gleichen Ein- und Ausschlusskriterien unterscheiden sich Patientenmerkmale zwischen Zentren erheblich:
- Demografische Unterschiede (Alter, Risikofaktoren, Schweregrad)
- Unterschied Sekundär- vs. Tertiärversorgung
- Länderspezifische Versorgungsstrukturen
- Homogenere Populationen reduzieren die Diskriminanz ( c-Statistik Die c-Statistik (oft als Konkordanz-Index oder C-Index bezeichnet) ist ein statistisches Maß zur Bewertung der Diskriminierungsfähigkeit eines Vorhersagemodells. Sie gibt an, wie gut ein Modell zwischen Patienten oder Fällen mit unterschiedlichem Risiko (z. B. krank vs. gesund) unterscheiden kann. )
Messverfahren variieren
Prädiktoren und Endpunkte werden unterschiedlich gemessen – das verzerrt die Modellleistung:
- Verschiedene Geräte/Hersteller (z. B. Assay-Kits, Scanner)
- Methoden- und Zeitpunktabhängigkeit (z. B. Blutdruckmessung)
- Subjektivität (Erfahrung des Klinikers)
- Biologische Variation bei Biomarkern
- Variable klinische Praxisgewohnheiten
Populationen ändern sich über Zeit
Jedes Vorhersagemodell hat ein implizites Verfallsdatum:
- Wandel in Behandlungsstandards und Therapieoptionen
- Demografischer Wandel (Alterung, Lebensstil)
- Kalibrierungsdrift durch veränderte Ereignisraten
- Modellimplementierung verändert das klinische Verhalten
Kalibrierung – das unterschätzte Qualitätskriterium
Die Diskriminanz (c-Statistik,
AUC
Der Begriff AUC (Area Under the Curve) bezieht sich in der Künstlichen Intelligenz (KI) auf ein wichtiges Leistungsmaß zur Bewertung von Klassifizierungsmodellen. Der Begriff KI ist die gängige Abkürzung für Künstliche Intelligenz.
) bleibt oft stabil, wenn ein Modell auf neue Populationen übertragen wird.
Die Kalibrierung hingegen bricht häufig ein – und das ist klinisch gefährlich.
Übereinstimmung zwischen modellgeschätzten Risiken und tatsächlich beobachteten Ereignisanteilen. Ein gut kalibriertes Modell sagt 10 % Risiko – und bei diesen Patienten treten auch tatsächlich ~10 % Ereignisse auf.
Überschätzung Modell sagt 20 % Risiko, tatsächlich nur 8 % → unnötige Interventionen
Unterschätzung Modell sagt 5 % Risiko, tatsächlich 18 % → verpasste Hochrisikopatienten
Wie das EuroSCORE Der EuroSCORE (European System for Cardiac Operative Risk Evaluation) ist ein medizinisches Punktesystem. Er schätzt das Sterberisiko (Mortalität) von Patienten nach einer Herzoperation ein. Der aktuell genutzte Standard ist der EuroSCORE II. Beispiel zeigt: Die Diskriminanz kann stabil bleiben (0,79–0,85), während die Kalibrierung massiv abdriftet. Deshalb reicht die c-Statistik allein nicht aus.
| Dimension | Häufige Praxis | Empfehlung |
|---|---|---|
| Validierungskriterium | Nur c-Statistik | c-Statistik + Kalibrierungskurve |
| Validierungsumfang | 1 externe Validierung | Viele Standorte, Zeitpunkte |
| Stichprobengröße | Oft zu klein | ≥ 100–200 Ereignisse empfohlen |
| Reporting | Selektiv, unvollständig | TRIPOD-Leitlinie einhalten |
| Monitoring | Einmalig bei Einführung | Kontinuierlich, dynamisch |
| Modellaktualisierung | Selten, reaktiv | Regelmäßig, proaktiv |
Was Van Calster et al. fordern
Die Autoren empfehlen einen Paradigmenwechsel: weg vom Fokus auf Modellentwicklung, hin zu strukturierten, langfristigen Validierungsstrategien.
Mehrere Standorte und Populationen bereits bei der Modellentwicklung einbeziehen. Interne-externe Kreuzvalidierung (leave-one-out) durchführen. Prädiktordefinitionen standardisieren.
Externe Validierung an mehreren Standorten und Zeitpunkten durchführen. Leistungsheterogenität aktiv messen und berichten – nicht als Fehler, sondern als Information.
Vollständiges und transparentes Reporting gemäß TRIPOD-Richtlinie Die TRIPOD-Richtlinie (Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis) ist ein internationaler Leitfaden zur transparenten und vollständigen Berichterstattung über Studien, die medizinische Vorhersagemodelle (Prognose- oder Diagnosemodelle) entwickeln, validieren oder aktualisieren. (inkl. TRIPOD-Cluster Das TRIPOD-Cluster (Erweiterung der TRIPOD-Leitlinien) ist ein internationaler Berichtsstandard für medizinische Prognosemodelle, die auf geclusterten Daten (z. B. Patienten in verschiedenen Krankenhäusern, Regionen oder Familien) basieren. Es hilft Forschern, Studien zur Modellentwicklung oder -validierung transparent und fehlerfrei zu dokumentieren. für multizentrische Daten). Alle Prädiktoren definieren. Modell für unabhängige Validierung verfügbar machen.
Vor Einführung: lokale Validierungsstudie. Danach: regelmäßige Kalibrierungsüberwachung. Bei Drift: dynamische Modellaktualisierung – insbesondere wenn die Kalibrierung problematisch wird.
Bedeutet das, dass Validierung sinnlos ist?
Nein – aber der Anspruch muss sich ändern. Hier die wichtigsten Missverständnisse im Überblick.
Kompetenz-Readiness: Klinische Vorhersagemodelle & EU AI Act
Überprüfen Sie Ihr Verständnis der Kernkonzepte – und bewerten Sie Ihre Readiness als KI-Anwender oder KI-Verantwortlicher im Gesundheitswesen gemäß EU AI Act Art. 4. Markieren Sie alle Aussagen, die Sie sicher beantworten können.
0 von 16 Aussagen markiert
|
Originalveröffentlichung
van Calster B.,Steyerberg E.W., Wynants L, van Smeden M. There is no such thing as a validated prediction model |
Partizipative KI-Einführung begleiten lassen?
Ich zeige Ihnen, wie Sie Pflegefachpersonen strukturiert einbinden, Bias-Risiken erkennen und EU AI Act-Anforderungen erfüllen. |
Inhalte dieser Webseite und der Selbsttest "Partizipative KI-Readiness-Check" dürfen geteilt werden, sofern der Urheber genannt wird und keine Bearbeitungen verbreitet werden.