Du problème clinique à l'article scientifique : comment est né KOI, l'IA qui aide les médecins à classifier le risque anesthésique

KOIsantéanesthésiologieLLMdispositif médicalévaluation par les pairs

Un problème qui concerne 300 millions d’interventions chirurgicales par an

Chaque fois qu’un patient doit être opéré, un anesthésiste évalue son état de santé et lui attribue un score : la classification ASA-PS (American Society of Anesthesiologists Physical Status). C’est l’un des systèmes les plus utilisés en médecine — depuis plus de 80 ans.

Le problème ? Les médecins ne sont pas d’accord. Des études portant sur des centaines d’anesthésistes montrent que la bonne classification n’est attribuée que 70 % du temps. Dans un tiers des évaluations, le consensus n’est même pas atteint. Un patient classé ASA 2 par un médecin peut être classé ASA 3 par un autre — avec des conséquences réelles sur les précautions anesthésiques, la préparation du bloc opératoire et la gestion postopératoire.

Ce n’est pas un problème de compétence : c’est un problème de variabilité inhérente à un système basé sur des jugements subjectifs.

L’intuition : l’IA raisonne, elle ne devine pas

En 2024, HT-X a commencé à se poser la question : les modèles de langage de nouvelle génération — ceux capables de raisonnement structuré (chain-of-thought) — peuvent-ils faire mieux ?

Pas mieux que les meilleurs spécialistes. Mieux que le médecin moyen, avec une constance qu’aucun humain ne peut garantir sur des milliers d’évaluations.

Pour y répondre, il fallait de la rigueur scientifique, pas une démonstration. Il fallait des données validées, un partenaire clinique sérieux, et une méthode publiable dans une revue à comité de lecture.

Le partenaire : Centro Ortopedico di Quadrante (Ramsay Santé)

HT-X a collaboré avec le Centro Ortopedico di Quadrante, qui fait partie du groupe international Ramsay Santé, l’un des plus grands groupes hospitaliers d’Europe. L’équipe clinique — anesthésistes et data scientists hospitaliers — a travaillé avec les chercheurs de HT-X pour concevoir une étude rigoureuse.

Cette collaboration a produit un article scientifique soumis à Informatics in Medicine Unlocked (Elsevier) : « Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation ».

L’étude : 11 modèles IA, 20 cas cliniques, 2 langues

L’équipe a testé 11 modèles IA différents — des modèles de première génération (GPT-4, LLaMA, Mistral, Phi-4) aux modèles de raisonnement avancés (GPT-o3, GPT-o4-mini, Claude Sonnet 3.7, Gemini 2.5, DeepSeek R1) — sur 20 cas cliniques standardisés issus de la littérature scientifique.

Chaque cas a été évalué en anglais et en italien, pour vérifier que l’IA fonctionne dans la langue de l’hôpital.

Résultats

Métrique	Médecins humains	LLM 1re génération	LLM de raisonnement
Précision moyenne	7,7/10 (77 %)	7,7/10 (77 %)	9,75/10 (97,5 %)
Erreurs pour 10 cas	2,3	2,3	0,25
Réduction des erreurs	—	—	-89 %

Chiffres clés :

97,5 % de précision pour les modèles avancés (IC 95 % : 92,9 %–99,1 %)
89 % de réduction des erreurs par rapport aux médecins et aux modèles de première génération
DeepSeek R1 : précision parfaite (10/10) avec reproductibilité totale sur des essais répétés
Aucune différence entre les évaluations en anglais et en italien
Moins de 10 secondes par classification

Le chiffre le plus pertinent pour un établissement de santé : la différence entre les modèles de première et de nouvelle génération est statistiquement significative (p = 0,0008, d de Cohen ≈ 1,21 — un effet « très grand »).

Pourquoi on-premise et pas ChatGPT

L’un des aspects centraux de l’article — et du produit KOI qui en découle — est le choix de l’IA on-premise.

38 % des études sur les LLM en santé n’abordent même pas la confidentialité des données patients. HT-X en a fait un enjeu central :

DeepSeek R1 fonctionne sur un cloud UE : aucune donnée patient ne quitte l’Europe
Conforme au RGPD et aux réglementations de santé par conception
AI Act : le système est actuellement en usage de recherche uniquement et en cours de certification comme dispositif médical, avec piste d’audit complète et supervision humaine
Performance identique aux modèles cloud : DeepSeek R1 (on-premise) atteint le même 10/10 que GPT-o3 et Claude Sonnet (cloud)

Utiliser ChatGPT pour classifier des patients signifierait envoyer des antécédents médicaux, des diagnostics et des données cliniques aux serveurs d’OpenAI. Pour un hôpital européen, ce n’est pas envisageable.

De l’article au produit : comment KOI est né

L’étude scientifique n’était pas destinée à rester dans une revue. C’est le fondement sur lequel HT-X a construit KOI, un système d’aide à la décision clinique pour la classification anesthésique.

Le parcours du problème au produit :

1. Identification du besoin clinique → La variabilité dans la classification ASA-PS est documentée depuis des décennies. Ce ne sont pas les lignes directrices qui manquent — c’est la constance dans leur application.

2. Recherche scientifique rigoureuse → Benchmarks sur des cas standardisés de la littérature, comparaison avec des données humaines publiées, analyse statistique complète, évaluation par les pairs.

3. Choix technologique → Modèles open source (DeepSeek R1) installables on-premise, aucune dépendance à un fournisseur cloud, infrastructure PRISMA (Private Intelligence Stack for Modular AI).

4. Validation multilingue → L’IA doit fonctionner dans la langue de l’hôpital. Les résultats en italien sont identiques à ceux en anglais.

5. Parcours réglementaire → Certification comme dispositif médical (MDR, IEC 62304). Le système est un outil d’aide : l’anesthésiste décide.

6. Déploiement clinique → Installation on-premise dans l’infrastructure hospitalière, intégration avec les systèmes d’information existants.

Ce que cela signifie pour les établissements de santé

Ce cas démontre une approche que HT-X applique systématiquement :

Partir d’un vrai problème — pas de la technologie
Valider scientifiquement — avec des études publiables, pas des démonstrations
Construire on-premise — parce qu’en santé, les données ne peuvent pas sortir
Certifier — parce qu’un logiciel touchant des décisions cliniques est un dispositif médical

Si votre établissement a des processus cliniques où la variabilité inter-opérateurs est un problème connu — classifications, triage, interprétation de comptes rendus — l’approche est la même : partir des données, valider rigoureusement, déployer en préservant la confidentialité.

L’article scientifique

L’étude « Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation » a été soumise pour évaluation par les pairs à Informatics in Medicine Unlocked (Elsevier). Auteurs : Francesco Menegoni (HT-X), Claudio Trotti, Maria Beatrice Pagani, Paola Pisano.

Pour des informations sur KOI ou pour évaluer les opportunités de l’IA dans votre établissement de santé, contactez HT-X.

Questions fréquentes

Les premiers modèles comme GPT-4 atteignent environ 77 % de précision — le même niveau que les médecins humains. Mais le vrai problème n'est pas la précision : c'est que ChatGPT envoie les données cliniques des patients aux serveurs d'OpenAI aux États-Unis, violant le RGPD et les réglementations européennes de santé. KOI de HT-X utilise des modèles IA on-premise (comme DeepSeek R1) atteignant 97,5 % de précision sans qu'aucune donnée ne quitte l'hôpital.

La classification ASA-PS (American Society of Anesthesiologists Physical Status) est la norme mondiale pour l'évaluation du risque préopératoire. Elle va de ASA 1 (patient en bonne santé) à ASA 5 (patient moribond). Elle est cruciale car elle détermine les précautions anesthésiques, mais les médecins ne s'accordent sur la bonne classe que 70 % du temps — un problème que l'IA peut résoudre.

KOI est en cours de certification comme dispositif médical selon la réglementation européenne MDR et la norme IEC 62304 pour les logiciels médicaux. Le système est conçu comme un outil d'aide à la décision : la classification finale reste la responsabilité de l'anesthésiste. L'étude scientifique a été soumise pour évaluation par les pairs à Informatics in Medicine Unlocked (Elsevier).

Vous cherchez un ChatGPT privé pour votre entreprise ?

ORCA est la plateforme IA on-premise de HT-X (Human Technology eXcellence) : vos données restent les vôtres, conforme RGPD et AI Act.

Découvrir ORCA