Del problema clínico al artículo científico: cómo nació KOI, la IA que ayuda a los médicos a clasificar el riesgo anestésico

KOIsanidadanestesiologíaLLMdispositivo médicopeer review

Un problema que afecta a 300 millones de cirugías al año

Cada vez que un paciente necesita cirugía, un anestesista evalúa su estado de salud y asigna una puntuación: la clasificación ASA-PS (American Society of Anesthesiologists Physical Status). Es uno de los sistemas más utilizados en medicina — desde hace más de 80 años.

¿El problema? Los médicos discrepan. Estudios con centenares de anestesistas muestran que la clasificación correcta se asigna solo el 70% de las veces. En un tercio de las evaluaciones, ni siquiera se alcanza consenso. Un paciente clasificado ASA 2 por un médico puede ser clasificado ASA 3 por otro — con consecuencias reales para las precauciones anestésicas, la preparación del quirófano y la gestión postoperatoria.

No es un problema de competencia: es un problema de variabilidad inherente en un sistema basado en juicios subjetivos.

La intuición: la IA razona, no adivina

En 2024, HT-X empezó a preguntarse: ¿pueden los modelos de lenguaje de nueva generación — capaces de razonamiento estructurado (chain-of-thought) — hacerlo mejor?

No mejor que los mejores especialistas. Mejor que el médico promedio, con una consistencia que ningún humano puede garantizar a lo largo de miles de evaluaciones.

Responder a esto requería rigor científico, no una demo. Requería datos validados, un socio clínico serio y un método publicable en una revista con peer review.

El socio: Centro Ortopedico di Quadrante (Ramsay Santé)

HT-X colaboró con el Centro Ortopedico di Quadrante, parte del grupo internacional Ramsay Santé, uno de los mayores grupos hospitalarios de Europa. El equipo clínico — anestesistas y científicos de datos del hospital — trabajó con los investigadores de HT-X para diseñar un estudio riguroso.

La colaboración produjo un artículo científico enviado a Informatics in Medicine Unlocked (Elsevier): “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation”.

El estudio: 11 modelos de IA, 20 casos clínicos, 2 idiomas

El equipo probó 11 modelos de IA diferentes — desde los primeros (GPT-4, LLaMA, Mistral, Phi-4) hasta modelos de razonamiento avanzado (GPT-o3, GPT-o4-mini, Claude Sonnet 3.7, Gemini 2.5, DeepSeek R1) — en 20 casos clínicos estandarizados de la literatura científica.

Cada caso fue evaluado tanto en inglés como en italiano, para verificar que la IA funciona en el idioma del hospital.

Resultados

Métrica	Médicos humanos	LLMs primera generación	LLMs de razonamiento
Precisión media	7,7/10 (77%)	7,7/10 (77%)	9,75/10 (97,5%)
Errores por 10 casos	2,3	2,3	0,25
Reducción de errores	—	—	-89%

Cifras clave:

97,5% de precisión para modelos avanzados (IC 95%: 92,9%–99,1%)
89% de reducción de errores respecto a médicos y modelos de primera generación
DeepSeek R1: precisión perfecta (10/10) con reproducibilidad total en ensayos repetidos
Sin diferencia entre evaluaciones en inglés e italiano
Menos de 10 segundos por clasificación

La cifra más relevante para una organización sanitaria: la diferencia entre modelos tempranos y avanzados es estadísticamente significativa (p = 0,0008, d de Cohen ≈ 1,21 — un efecto “muy grande”).

Por qué on-premise y no ChatGPT

Uno de los aspectos centrales del artículo — y del producto KOI que se deriva de él — es la elección de IA on-premise.

El 38% de los estudios de LLM en sanidad ni siquiera abordan la privacidad de los datos del paciente. HT-X lo hizo central:

DeepSeek R1 se ejecuta en cloud de la UE: ningún dato de paciente sale de Europa
Conforme al RGPD y la regulación sanitaria por diseño
AI Act: el sistema está actualmente en fase de uso exclusivamente investigador y en proceso de certificación como dispositivo médico, con trazabilidad completa y supervisión humana
Rendimiento idéntico a modelos cloud: DeepSeek R1 (on-premise) alcanza el mismo 10/10 que GPT-o3 y Claude Sonnet (cloud)

Usar ChatGPT para clasificar pacientes significaría enviar historiales médicos, diagnósticos y datos clínicos a los servidores de OpenAI. Para un hospital europeo, eso no es una opción.

Del artículo al producto: cómo nació KOI

El estudio científico no estaba destinado a quedarse en una revista. Es la base sobre la que HT-X construyó KOI, un sistema de apoyo a la decisión clínica para clasificación anestésica.

El recorrido del problema al producto:

1. Identificar la necesidad clínica → La variabilidad en la clasificación ASA-PS está documentada desde hace décadas. No faltan directrices — falta consistencia en su aplicación.

2. Investigación científica rigurosa → Benchmarks en casos estandarizados de la literatura, comparación con datos humanos publicados, análisis estadístico completo, peer review.

3. Elección tecnológica → Modelos de código abierto (DeepSeek R1) instalables on-premise, sin dependencia de proveedores cloud, infraestructura PRISMA (Private Intelligence Stack for Modular AI).

4. Validación multilingüe → La IA debe funcionar en el idioma del hospital. Los resultados en italiano son idénticos a los del inglés.

5. Vía regulatoria → Certificación como dispositivo médico (MDR, IEC 62304). El sistema es una herramienta de apoyo: el anestesista decide.

6. Despliegue clínico → Instalación on-premise en la infraestructura del hospital, integración con los sistemas de información existentes.

Qué significa para las organizaciones sanitarias

Este caso demuestra un enfoque que HT-X aplica sistemáticamente:

Partir de un problema real — no de la tecnología
Validar científicamente — con estudios publicables, no demos
Construir on-premise — porque en sanidad, los datos no pueden salir
Certificar — porque el software que toca decisiones clínicas es un dispositivo médico

Si tu centro tiene procesos clínicos donde la variabilidad inter-operador es un problema conocido — clasificaciones, triaje, interpretación de informes — el enfoque es el mismo: partir de datos, validar rigurosamente, desplegar con privacidad.

El artículo

El estudio “Improving ASA-PS Classification Accuracy Using Privacy-Preserving Large Language Models: A Multilingual On-Premise Evaluation” ha sido enviado para peer review a Informatics in Medicine Unlocked (Elsevier). Autores: Francesco Menegoni (HT-X), Claudio Trotti, Maria Beatrice Pagani, Paola Pisano.

Para información sobre KOI o para evaluar oportunidades de IA en tu centro sanitario, contacta a HT-X.

Preguntas frecuentes

Los primeros modelos como GPT-4 alcanzan aproximadamente un 77% de precisión — el mismo nivel que los médicos humanos. Pero el verdadero problema no es la precisión: es que ChatGPT envía datos clínicos de los pacientes a los servidores de OpenAI en EE. UU., violando el RGPD y las regulaciones sanitarias europeas. KOI de HT-X usa modelos de IA on-premise (como DeepSeek R1) alcanzando un 97,5% de precisión sin que ningún dato salga del hospital.

La clasificación ASA-PS (American Society of Anesthesiologists Physical Status) es el estándar global para la evaluación del riesgo preoperatorio. Va desde ASA 1 (paciente sano) hasta ASA 5 (paciente moribundo). Es crítica porque determina las precauciones anestésicas, pero los médicos coinciden en la clase correcta solo el 70% de las veces — un problema que la IA puede resolver.

KOI está en proceso de certificación como dispositivo médico bajo el reglamento europeo MDR y la norma IEC 62304 para software médico. El sistema está diseñado como herramienta de apoyo a la decisión: la clasificación final sigue siendo responsabilidad del anestesista. El estudio científico ha sido enviado para peer review a Informatics in Medicine Unlocked (Elsevier).

¿Buscas un ChatGPT privado para tu empresa?

ORCA es la plataforma de IA on-premise de HT-X (Human Technology eXcellence): tus datos siguen siendo tuyos, conforme al RGPD y al AI Act.

Descubre ORCA