Un problema que afecta a 300 millones de cirugías al año
Cada vez que un paciente necesita cirugía, un anestesista evalúa su estado de salud y asigna una puntuación: la clasificación ASA-PS (American Society of Anesthesiologists Physical Status). Es uno de los sistemas más utilizados en medicina — desde hace más de 80 años.
¿El problema? Los médicos discrepan. Estudios con centenares de anestesistas muestran que la clasificación correcta se asigna solo el 70% de las veces. En un tercio de las evaluaciones, ni siquiera se alcanza consenso. Un paciente clasificado ASA 2 por un médico puede ser clasificado ASA 3 por otro — con consecuencias reales para las precauciones anestésicas, la preparación del quirófano y la gestión postoperatoria.
No es un problema de competencia: es un problema de variabilidad inherente en un sistema basado en juicios subjetivos.
La intuición: la IA razona, no adivina
En 2024, HT-X empezó a preguntarse: ¿pueden los modelos de lenguaje de nueva generación — capaces de razonamiento estructurado (chain-of-thought) — hacerlo mejor?
No mejor que los mejores especialistas. Mejor que el médico promedio, con una consistencia que ningún humano puede garantizar a lo largo de miles de evaluaciones.
Responder a esto requería rigor científico, no una demo. Requería datos validados, un socio clínico serio y un método publicable en una revista con peer review.
El socio: Centro Ortopedico di Quadrante (Ramsay Santé)
HT-X colaboró con el Centro Ortopedico di Quadrante, parte del grupo internacional Ramsay Santé, uno de los mayores grupos hospitalarios de Europa. El equipo clínico — anestesistas y científicos de datos del hospital — trabajó con los investigadores de HT-X para diseñar un estudio riguroso.
La colaboración produjo un artículo científico enviado a Informatics in Medicine Unlocked (Elsevier): “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation”.
El estudio: 11 modelos de IA, 20 casos clínicos, 2 idiomas
El equipo probó 11 modelos de IA diferentes — desde los primeros (GPT-4, LLaMA, Mistral, Phi-4) hasta modelos de razonamiento avanzado (GPT-o3, GPT-o4-mini, Claude Sonnet 3.7, Gemini 2.5, DeepSeek R1) — en 20 casos clínicos estandarizados de la literatura científica.
Cada caso fue evaluado tanto en inglés como en italiano, para verificar que la IA funciona en el idioma del hospital.
Resultados
| Métrica | Médicos humanos | LLMs primera generación | LLMs de razonamiento |
|---|---|---|---|
| Precisión media | 7,7/10 (77%) | 7,7/10 (77%) | 9,75/10 (97,5%) |
| Errores por 10 casos | 2,3 | 2,3 | 0,25 |
| Reducción de errores | — | — | -89% |
Cifras clave:
- 97,5% de precisión para modelos avanzados (IC 95%: 92,9%–99,1%)
- 89% de reducción de errores respecto a médicos y modelos de primera generación
- DeepSeek R1: precisión perfecta (10/10) con reproducibilidad total en ensayos repetidos
- Sin diferencia entre evaluaciones en inglés e italiano
- Menos de 10 segundos por clasificación
La cifra más relevante para una organización sanitaria: la diferencia entre modelos tempranos y avanzados es estadísticamente significativa (p = 0,0008, d de Cohen ≈ 1,21 — un efecto “muy grande”).
Por qué on-premise y no ChatGPT
Uno de los aspectos centrales del artículo — y del producto KOI que se deriva de él — es la elección de IA on-premise.
El 38% de los estudios de LLM en sanidad ni siquiera abordan la privacidad de los datos del paciente. HT-X lo hizo central:
- DeepSeek R1 se ejecuta en cloud de la UE: ningún dato de paciente sale de Europa
- Conforme al RGPD y la regulación sanitaria por diseño
- AI Act: el sistema está actualmente en fase de uso exclusivamente investigador y en proceso de certificación como dispositivo médico, con trazabilidad completa y supervisión humana
- Rendimiento idéntico a modelos cloud: DeepSeek R1 (on-premise) alcanza el mismo 10/10 que GPT-o3 y Claude Sonnet (cloud)
Usar ChatGPT para clasificar pacientes significaría enviar historiales médicos, diagnósticos y datos clínicos a los servidores de OpenAI. Para un hospital europeo, eso no es una opción.
Del artículo al producto: cómo nació KOI
El estudio científico no estaba destinado a quedarse en una revista. Es la base sobre la que HT-X construyó KOI, un sistema de apoyo a la decisión clínica para clasificación anestésica.
El recorrido del problema al producto:
1. Identificar la necesidad clínica → La variabilidad en la clasificación ASA-PS está documentada desde hace décadas. No faltan directrices — falta consistencia en su aplicación.
2. Investigación científica rigurosa → Benchmarks en casos estandarizados de la literatura, comparación con datos humanos publicados, análisis estadístico completo, peer review.
3. Elección tecnológica → Modelos de código abierto (DeepSeek R1) instalables on-premise, sin dependencia de proveedores cloud, infraestructura PRISMA (Private Intelligence Stack for Modular AI).
4. Validación multilingüe → La IA debe funcionar en el idioma del hospital. Los resultados en italiano son idénticos a los del inglés.
5. Vía regulatoria → Certificación como dispositivo médico (MDR, IEC 62304). El sistema es una herramienta de apoyo: el anestesista decide.
6. Despliegue clínico → Instalación on-premise en la infraestructura del hospital, integración con los sistemas de información existentes.
Qué significa para las organizaciones sanitarias
Este caso demuestra un enfoque que HT-X aplica sistemáticamente:
- Partir de un problema real — no de la tecnología
- Validar científicamente — con estudios publicables, no demos
- Construir on-premise — porque en sanidad, los datos no pueden salir
- Certificar — porque el software que toca decisiones clínicas es un dispositivo médico
Si tu centro tiene procesos clínicos donde la variabilidad inter-operador es un problema conocido — clasificaciones, triaje, interpretación de informes — el enfoque es el mismo: partir de datos, validar rigurosamente, desplegar con privacidad.
El artículo
El estudio “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation” ha sido enviado para peer review a Informatics in Medicine Unlocked (Elsevier). Autores: Francesco Menegoni (HT-X), Claudio Trotti, Maria Beatrice Pagani, Paola Pisano.
Para información sobre KOI o para evaluar oportunidades de IA en tu centro sanitario, contacta a HT-X.
Preguntas frecuentes
Los primeros modelos como GPT-4 alcanzan aproximadamente un 77% de precisión — el mismo nivel que los médicos humanos. Pero el verdadero problema no es la precisión: es que ChatGPT envía datos clínicos de los pacientes a los servidores de OpenAI en EE. UU., violando el RGPD y las regulaciones sanitarias europeas. KOI de HT-X usa modelos de IA on-premise (como DeepSeek R1) alcanzando un 97,5% de precisión sin que ningún dato salga del hospital.
La clasificación ASA-PS (American Society of Anesthesiologists Physical Status) es el estándar global para la evaluación del riesgo preoperatorio. Va desde ASA 1 (paciente sano) hasta ASA 5 (paciente moribundo). Es crítica porque determina las precauciones anestésicas, pero los médicos coinciden en la clase correcta solo el 70% de las veces — un problema que la IA puede resolver.
KOI está en proceso de certificación como dispositivo médico bajo el reglamento europeo MDR y la norma IEC 62304 para software médico. El sistema está diseñado como herramienta de apoyo a la decisión: la clasificación final sigue siendo responsabilidad del anestesista. El estudio científico ha sido enviado para peer review a Informatics in Medicine Unlocked (Elsevier).
¿Buscas un ChatGPT privado para tu empresa?
ORCA es la plataforma de IA on-premise de HT-X (Human Technology eXcellence): tus datos siguen siendo tuyos, conforme al RGPD y al AI Act.
Descubre ORCA