Vom klinischen Problem zum wissenschaftlichen Paper: wie KOI entstand, die KI die Aerzten bei der Anaesthesierisiko-Klassifikation hilft

KOIGesundheitswesenAnaesthesiologieLLMMedizinproduktPeer Review

Ein Problem das 300 Millionen Operationen pro Jahr betrifft

Jedes Mal wenn ein Patient operiert werden muss, bewertet ein Anaesthesist seinen Gesundheitszustand und vergibt einen Score: die ASA-PS-Klassifikation (American Society of Anesthesiologists Physical Status). Es ist eines der weltweit am haeufigsten verwendeten Systeme in der Medizin — seit ueber 80 Jahren.

Das Problem? Aerzte sind sich uneinig. Studien mit Hunderten von Anaesthesisten zeigen, dass die korrekte Klassifikation nur in 70% der Faelle vergeben wird. Bei einem Drittel der Bewertungen wird nicht einmal ein Konsens erreicht.

Es ist kein Kompetenzproblem: Es ist ein Problem der inherenten Variabilitaet in einem System, das auf subjektiven Urteilen basiert.

Die Erkenntnis: KI denkt, sie raet nicht

2024 begann HT-X sich zu fragen: Koennen Sprachmodelle der neuen Generation — solche mit strukturiertem Reasoning (Chain-of-Thought) — besser abschneiden?

Nicht besser als die besten Spezialisten. Besser als der Durchschnitt der Aerzte, mit einer Konsistenz die kein Mensch ueber Tausende von Bewertungen garantieren kann.

Um das zu beantworten, brauchte es wissenschaftliche Strenge, keine Demo.

Der Partner: Centro Ortopedico di Quadrante (Ramsay Santé)

HT-X hat mit dem Centro Ortopedico di Quadrante zusammengearbeitet, Teil der internationalen Ramsay Santé-Gruppe, einem der groessten Krankenhauskonzerne Europas.

Die Zusammenarbeit fuehrte zu einem wissenschaftlichen Paper, eingereicht bei Informatics in Medicine Unlocked (Elsevier): “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation”.

Die Studie: 11 KI-Modelle, 20 klinische Faelle, 2 Sprachen

Das Team testete 11 verschiedene KI-Modelle — von fruehen (GPT-4, LLaMA, Mistral, Phi-4) bis zu fortgeschrittenen Reasoning-Modellen (GPT-o3, GPT-o4-mini, Claude Sonnet 3.7, Gemini 2.5, DeepSeek R1) — an 20 standardisierten klinischen Faellen aus der wissenschaftlichen Literatur.

Jeder Fall wurde sowohl auf Englisch als auch auf Italienisch bewertet.

Ergebnisse

Kennzahl	Menschliche Aerzte	Fruehe LLMs	Reasoning-LLMs
Mittlere Genauigkeit	7,7/10 (77%)	7,7/10 (77%)	9,75/10 (97,5%)
Fehler pro 10 Faelle	2,3	2,3	0,25
Fehlerreduktion	—	—	-89%

Die wichtigsten Zahlen:

97,5% Genauigkeit fuer fortgeschrittene Modelle (95% KI: 92,9%–99,1%)
89% Fehlerreduktion gegenueber sowohl Aerzten als auch Modellen der ersten Generation
DeepSeek R1: perfekte Genauigkeit (10/10) mit vollstaendiger Reproduzierbarkeit
Kein Unterschied zwischen englischen und italienischen Bewertungen
Unter 10 Sekunden pro Klassifikation

Warum On-Premise und nicht ChatGPT

38% der LLM-Studien im Gesundheitswesen befassen sich nicht einmal mit dem Datenschutz der Patienten. HT-X hat ihn ins Zentrum gestellt:

DeepSeek R1 laeuft auf EU-Cloud: Keine Patientendaten verlassen Europa
DSGVO- und Gesundheitsvorschriften-konform by Design
KI-Verordnung: Das System ist derzeit Research Use Only und befindet sich in der Medizinprodukt-Zertifizierung, mit vollstaendigem Audit Trail und menschlicher Aufsicht
Identische Leistung wie Cloud-Modelle: DeepSeek R1 (On-Premise) erreicht dasselbe 10/10 wie GPT-o3 und Claude Sonnet (Cloud)

ChatGPT zur Patientenklassifikation zu nutzen wuerde bedeuten, Krankengeschichten, Diagnosen und klinische Daten an OpenAI-Server zu senden. Fuer ein europaeisches Krankenhaus ist das keine Option.

Vom Paper zum Produkt: wie KOI entstand

Die wissenschaftliche Studie sollte nicht in einer Zeitschrift bleiben. Sie ist das Fundament, auf dem HT-X KOI gebaut hat, ein klinisches Entscheidungsunterstuetzungssystem fuer die Anaesthesieklassifikation.

Der Weg vom Problem zum Produkt:

1. Identifikation des klinischen Bedarfs → Die Variabilitaet der ASA-PS-Klassifikation ist seit Jahrzehnten dokumentiert.

2. Rigorose wissenschaftliche Forschung → Benchmarks an standardisierten Faellen, Vergleich mit veroeffentlichten menschlichen Daten, vollstaendige statistische Analyse, Peer Review.

3. Technologiewahl → Open-Source-Modelle (DeepSeek R1) On-Premise installierbar, PRISMA-Infrastruktur (Private Intelligence Stack for Modular AI).

4. Mehrsprachige Validierung → KI muss in der Sprache des Krankenhauses funktionieren. Ergebnisse auf Italienisch sind identisch mit Englisch.

5. Regulatorischer Pfad → Medizinprodukt-Zertifizierung (MDR, IEC 62304).

6. Klinisches Deployment → On-Premise-Installation in der Krankenhausinfrastruktur.

Was das fuer Gesundheitseinrichtungen bedeutet

Wenn in Ihrer Einrichtung klinische Prozesse existieren, bei denen die Variabilitaet zwischen Operatoren ein bekanntes Problem ist — Klassifikationen, Triage, Befundinterpretation — ist der Ansatz derselbe: von Daten ausgehen, rigoros validieren, mit Datenschutz bereitstellen.

Das Paper

Die Studie wurde zur Peer Review bei Informatics in Medicine Unlocked (Elsevier) eingereicht. Autoren: Francesco Menegoni (HT-X), Claudio Trotti, Maria Beatrice Pagani, Paola Pisano.

Fuer Informationen zu KOI oder zur Bewertung von KI-Moeglichkeiten in Ihrer Gesundheitseinrichtung kontaktieren Sie HT-X.

Haeufig gestellte Fragen

Fruehe Modelle wie GPT-4 erreichen etwa 77% Genauigkeit — das gleiche Niveau wie menschliche Aerzte. Aber das eigentliche Problem ist nicht die Praezision: ChatGPT sendet klinische Patientendaten an OpenAI-Server in den USA und verstoesst damit gegen die DSGVO und europaeische Gesundheitsvorschriften. KOI von HT-X nutzt On-Premise-KI-Modelle (wie DeepSeek R1) mit 97,5% Genauigkeit, ohne dass Daten das Krankenhaus verlassen.

Die ASA-PS-Klassifikation (American Society of Anesthesiologists Physical Status) ist der weltweite Standard zur praeoperativen Risikobewertung. Sie reicht von ASA 1 (gesunder Patient) bis ASA 5 (moribunder Patient). Sie ist entscheidend, weil sie die Anaesthesievorkehrungen bestimmt, aber Aerzte stimmen nur in 70% der Faelle ueberein.

KOI befindet sich in der Zertifizierung als Medizinprodukt gemaess der europaeischen MDR-Verordnung und der Norm IEC 62304 fuer medizinische Software. Das System ist als Entscheidungsunterstuetzungswerkzeug konzipiert: die endgueltige Klassifikation bleibt in der Verantwortung des Anaesthesisten.

Suchen Sie ein privates ChatGPT fuer Ihr Unternehmen?

ORCA ist die On-Premise-KI-Plattform von HT-X (Human Technology eXcellence): Ihre Daten bleiben bei Ihnen, DSGVO- und KI-Verordnung-konform.

ORCA entdecken