Un problema che riguarda 300 milioni di interventi l’anno
Ogni volta che un paziente deve essere operato, un anestesista valuta il suo stato di salute e gli assegna un punteggio: la classificazione ASA-PS (American Society of Anesthesiologists Physical Status). È uno dei sistemi più usati al mondo in medicina — da oltre 80 anni.
Il problema? I medici non concordano. Studi su centinaia di anestesisti dimostrano che la classificazione corretta viene assegnata solo nel 70% dei casi. In un terzo delle valutazioni, non si raggiunge nemmeno il consenso. Un paziente classificato ASA 2 da un medico può essere classificato ASA 3 da un altro — con conseguenze concrete sulle precauzioni anestesiologiche, la preparazione della sala operatoria e la gestione post-operatoria.
Non è un problema di competenza: è un problema di variabilità intrinseca in un sistema che si basa su giudizi soggettivi.
L’intuizione: l’AI ragiona, non tira a indovinare
Nel 2024, HT-X ha iniziato a chiedersi: i modelli linguistici di nuova generazione — quelli capaci di ragionamento strutturato (chain-of-thought) — possono fare meglio?
Non meglio dei migliori specialisti. Meglio della media dei medici, con una consistenza che un essere umano non può garantire su migliaia di valutazioni.
Per rispondere serviva rigore scientifico, non una demo. Servivano dati validati, un partner clinico serio, e un metodo pubblicabile su rivista peer-reviewed.
Il partner: il Centro Ortopedico di Quadrante (Ramsay Santé)
HT-X ha collaborato con il Centro Ortopedico di Quadrante, parte del gruppo internazionale Ramsay Santé, uno dei maggiori gruppi ospedalieri europei. Il team clinico — anestesisti e data scientist ospedalieri — ha lavorato con i ricercatori HT-X per progettare uno studio rigoroso.
La collaborazione ha portato a un paper scientifico sottoposto a Informatics in Medicine Unlocked (Elsevier), una delle riviste di riferimento per l’informatica medica: “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation”.
Lo studio: 11 modelli AI, 20 casi clinici, 2 lingue
Il team ha testato 11 modelli AI diversi — dai primi (GPT-4, LLaMA, Mistral, Phi-4) ai più avanzati con ragionamento (GPT-o3, GPT-o4-mini, Claude Sonnet 3.7, Gemini 2.5, DeepSeek R1) — su 20 casi clinici standardizzati tratti dalla letteratura scientifica.
Ogni caso è stato valutato sia in inglese che in italiano, per verificare che l’AI funzioni anche nella lingua dell’ospedale.
I risultati
| Metrica | Medici umani | LLM prima generazione | LLM con ragionamento |
|---|---|---|---|
| Accuratezza media | 7,7/10 (77%) | 7,7/10 (77%) | 9,75/10 (97,5%) |
| Errori ogni 10 casi | 2,3 | 2,3 | 0,25 |
| Riduzione errori | — | — | -89% |
I numeri chiave:
- 97,5% di accuratezza per i modelli avanzati (intervallo di confidenza: 92,9%–99,1%)
- Riduzione dell'89% degli errori rispetto sia ai medici che ai modelli di prima generazione
- DeepSeek R1: accuratezza perfetta (10/10) con riproducibilità totale su prove ripetute
- Nessuna differenza tra valutazioni in inglese e italiano
- Sotto i 10 secondi per ogni classificazione
Il dato più rilevante per un’azienda sanitaria: la differenza tra i modelli di prima generazione e quelli avanzati è statisticamente significativa (p = 0,0008, Cohen’s d ≈ 1,21 — un effetto “molto grande”).
Perché on-premise e non ChatGPT
Uno degli aspetti centrali del paper — e del prodotto KOI che ne deriva — è la scelta dell’AI on-premise.
Il 38% degli studi su LLM in sanità non affronta nemmeno il tema della privacy dei dati dei pazienti. HT-X l’ha messo al centro:
- DeepSeek R1 gira su cloud EU: nessun dato del paziente esce dall’Europa
- Conformità GDPR e normativa sanitaria italiana by design
- AI Act: il sistema è attualmente Research Use Only e in fase di certificazione come dispositivo medico, con audit trail completo e supervisione umana
- Prestazioni identiche ai modelli cloud: DeepSeek R1 (on-premise) ottiene lo stesso 10/10 di GPT-o3 e Claude Sonnet (cloud)
Usare ChatGPT per classificare i pazienti significherebbe inviare anamnesi, diagnosi e dati clinici ai server di OpenAI. Per un ospedale europeo, questo non è un’opzione.
Da paper a prodotto: come nasce KOI
Lo studio scientifico non è nato per restare su una rivista. È il fondamento su cui HT-X ha costruito KOI, un sistema di supporto alla decisione clinica per la classificazione anestesiologica.
Il percorso dal problema al prodotto:
1. Identificazione del bisogno clinico → La variabilità nella classificazione ASA-PS è documentata da decenni. Non mancano le linee guida — manca la consistenza nell’applicarle.
2. Ricerca scientifica rigorosa → Benchmark su casi standardizzati dalla letteratura, confronto con dati umani pubblicati, analisi statistica completa, peer review.
3. Scelta tecnologica → Modelli open-source (DeepSeek R1) installabili on-premise, nessuna dipendenza da provider cloud, infrastruttura PRISMA (Private Intelligence Stack for Modular AI).
4. Validazione multilingue → L’AI deve funzionare nella lingua dell’ospedale. I risultati in italiano sono identici a quelli in inglese.
5. Percorso regolatorio → Certificazione come dispositivo medico (MDR, IEC 62304). Il sistema è uno strumento di supporto: l’anestesista decide.
6. Deployment clinico → Installazione on-premise nell’infrastruttura ospedaliera, integrazione con i sistemi informativi esistenti.
Cosa significa per le aziende sanitarie
Questo caso dimostra un approccio che HT-X applica sistematicamente:
- Partire da un problema reale — non dalla tecnologia
- Validare scientificamente — con studi pubblicabili, non con demo
- Costruire on-premise — perché in sanità i dati non possono uscire
- Certificare — perché il software che tocca le decisioni cliniche è un dispositivo medico
Se nella vostra struttura ci sono processi clinici dove la variabilità tra operatori è un problema noto — classificazioni, triage, interpretazione di referti — l’approccio è lo stesso: partire dai dati, validare con rigore, deployare con privacy.
Il paper
Lo studio “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation” è stato sottoposto a peer review su Informatics in Medicine Unlocked (Elsevier). Autori: Francesco Menegoni (HT-X), Claudio Trotti, Maria Beatrice Pagani, Paola Pisano.
Per informazioni su KOI o per una valutazione delle opportunità di AI clinica nella vostra struttura, contattate HT-X.
Domande frequenti
I primi modelli come GPT-4 raggiungono circa il 77% di accuratezza — lo stesso livello dei medici umani. Ma il vero problema non è la precisione: è che ChatGPT invia i dati clinici del paziente ai server di OpenAI negli USA, violando il GDPR e le normative sanitarie italiane. KOI di HT-X usa modelli AI on-premise (come DeepSeek R1) che raggiungono il 97,5% di accuratezza senza che nessun dato esca dall'ospedale.
La classificazione ASA-PS (American Society of Anesthesiologists Physical Status) è il sistema standard mondiale per valutare il rischio preoperatorio dei pazienti. Va da ASA 1 (paziente sano) ad ASA 5 (paziente moribondo). È fondamentale perché determina le precauzioni anestesiologiche, ma i medici concordano sulla classe corretta solo nel 70% dei casi — un problema che l'AI può risolvere.
KOI è in fase di certificazione come dispositivo medico secondo il regolamento MDR europeo e la norma IEC 62304 per il software medicale. Il sistema è progettato come strumento di supporto alla decisione: la classificazione finale resta responsabilità dell'anestesista. Lo studio scientifico è stato sottoposto a peer review su Informatics in Medicine Unlocked (Elsevier).
Cerchi un ChatGPT privato per la tua azienda?
ORCA è la piattaforma AI on-premise di HT-X (Human Technology eXcellence): i tuoi dati restano tuoi, conforme GDPR e AI Act.
Scopri ORCA