Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosBotsEarnCopy
GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias

MPOSTMPOST2025/05/14 22:22
Por:MPOST

En Resumen Los investigadores presentaron HealthBench, un nuevo punto de referencia que evalúa LLM como GPT-4 y Med-PaLM 2 en tareas médicas reales.

Los grandes modelos de lenguaje están en todas partes: desde la búsqueda hasta la codificación e incluso las herramientas de salud orientadas al paciente. Se introducen nuevos sistemas casi semanalmente, incluyendo herramientas que prometen... para automatizar los flujos de trabajo clínicos Pero ¿se puede realmente confiar en que tomen decisiones médicas reales? Un nuevo punto de referencia, llamado HealthBench, indica que aún no. Según los resultados, modelos como GPT-4 (Desde OpenAI) y Med-PaLM 2 (de Google DeepMind) aún no son suficientes para realizar tareas prácticas de atención médica, especialmente cuando la precisión y la seguridad son lo más importante.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 0

HealthBench se diferencia de las pruebas anteriores. En lugar de usar cuestionarios específicos o conjuntos de preguntas académicas, desafía a los modelos de IA con tareas del mundo real. Estas incluyen la selección de tratamientos, la realización de diagnósticos y la decisión de los pasos a seguir del médico. Esto hace que los resultados sean más relevantes para el uso real de la IA en hospitales y clínicas.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 1

En todas las tareas, GPT-4 Tuvo un mejor rendimiento que los modelos anteriores. Sin embargo, el margen no fue suficiente para justificar su implementación en el mundo real. En algunos casos, GPT-4 Eligieron tratamientos incorrectos. En otros casos, ofrecieron consejos que podrían retrasar la atención o incluso aumentar el daño. El punto de referencia deja algo claro: la IA puede parecer inteligente, pero en medicina, eso no es suficiente.

Tareas reales, fracasos reales: dónde la IA aún falla en la medicina

Una de las mayores contribuciones de HealthBench es la forma en que prueba los modelos. Incluye 14 tareas reales de atención médica en cinco categorías: planificación del tratamiento, diagnóstico, coordinación de la atención, gestión de la medicación y comunicación con el paciente. Estas preguntas no son inventadas. Provienen de guías clínicas, conjuntos de datos abiertos y recursos de expertos que reflejan el funcionamiento real de la atención médica.

En muchas tareas, los modelos de lenguaje grandes mostraron errores constantes. Por ejemplo, GPT-4 A menudo fallaban en la toma de decisiones clínicas, como determinar cuándo recetar antibióticos. En algunos casos, se prescribían en exceso. En otros, se pasaban por alto síntomas importantes. Este tipo de errores no solo son incorrectos, sino que podrían causar graves daños si se utilizan en la atención real al paciente.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 2

Los modelos también tuvieron dificultades con flujos de trabajo clínicos complejos. Por ejemplo, cuando se les pidió que recomendaran medidas de seguimiento tras los resultados de laboratorio, GPT-4 Ofrecía consejos genéricos o incompletos. A menudo omitía el contexto, no priorizaba la urgencia o carecía de profundidad clínica. Esto lo hace peligroso en casos donde el tiempo y el orden de las operaciones son cruciales.

En las tareas relacionadas con la medicación, la precisión disminuyó aún más. Los modelos confundían con frecuencia las interacciones farmacológicas o proporcionaban directrices obsoletas. Esto es especialmente alarmante, ya que los errores de medicación ya son una de las principales causas de daños prevenibles en la atención médica.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 3

Incluso cuando los modelos parecían seguros, no siempre acertaban. El análisis comparativo reveló que la fluidez y el tono no se correspondían con la precisión clínica. Este es uno de los mayores riesgos de la IA en el ámbito de la salud: puede parecer humana y, al mismo tiempo, estar equivocada en los hechos.

Por qué es importante HealthBench: Evaluación real para un impacto real

Hasta ahora, muchas evaluaciones de salud con IA utilizaban conjuntos de preguntas académicas como exámenes tipo MedQA o USMLE. Estos puntos de referencia ayudaban a medir el conocimiento, pero no evaluaban si los modelos podían pensar como médicos. HealthBench cambia esto al simular lo que sucede en la atención médica real.

En lugar de preguntas puntuales, HealthBench analiza toda la cadena de decisiones, desde la lectura de una lista de síntomas hasta la recomendación de medidas de cuidado. Esto ofrece una visión más completa de lo que la IA puede o no puede hacer. Por ejemplo, comprueba si un modelo puede controlar la diabetes en múltiples visitas o rastrear las tendencias de laboratorio a lo largo del tiempo.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 4

El punto de referencia también califica los modelos según diversos criterios, no solo la precisión. Comprueba la relevancia clínica, la seguridad y el potencial de causar daño. Esto significa que no basta con responder una pregunta técnicamente correctamente; la respuesta también debe ser segura y útil en situaciones reales.

Otra fortaleza de HealthBench es la transparencia. El equipo responsable publicó todas las indicaciones, rúbricas de puntuación y anotaciones. Esto permite a otros investigadores probar nuevos modelos, mejorar las evaluaciones y ampliar el trabajo. Es una convocatoria abierta a la comunidad de IA: si quiere afirmar que su modelo es útil en el ámbito sanitario, demuéstrelo aquí.

GPT-4 y Med-PaLM 2 aún no está listo para las clínicas

A pesar del reciente revuelo en torno a GPT-4 y otros modelos grandes, el punto de referencia muestra que aún cometen errores médicos graves. En total, GPT-4 Solo alcanzó un promedio de acierto del 60 al 65 % en todas las tareas. En áreas de alto riesgo, como las decisiones sobre tratamiento y medicación, la puntuación fue aún menor.

Med-PaLM 2, un modelo optimizado para tareas de atención médica, no tuvo un rendimiento mucho mejor. Mostró una precisión ligeramente mayor en la memoria médica básica, pero falló en el razonamiento clínico de varios pasos. En varios escenarios, ofreció consejos que ningún médico colegiado apoyaría. Estos incluyen la identificación errónea de síntomas de alerta y la sugerencia de tratamientos no convencionales.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 5

El informe también destaca un peligro oculto: el exceso de confianza. Modelos como GPT-4 A menudo dan respuestas incorrectas con un tono seguro y fluido. Esto dificulta que los usuarios, incluso los profesionales capacitados, detecten errores. Esta discrepancia entre el refinamiento lingüístico y la precisión médica es uno de los principales riesgos de implementar la IA en la atención médica sin medidas de seguridad estrictas.

Para decirlo claramente: parecer inteligente no es lo mismo que estar seguro.

Qué debe cambiar para que la IA sea confiable en la atención médica

Los resultados de HealthBench no son solo una advertencia. También indican qué necesita mejorar la IA. En primer lugar, los modelos deben entrenarse y evaluarse utilizando flujos de trabajo clínicos reales, no solo libros de texto o exámenes. Esto implica incluir a los médicos en el proceso, no solo como usuarios, sino también como diseñadores, evaluadores y revisores.

GPT-4 Fallos en tareas reales de atención médica: una nueva prueba de HealthBench revela las deficiencias image 6

En segundo lugar, los sistemas de IA deben diseñarse para solicitar ayuda en caso de incertidumbre. Actualmente, los modelos suelen hacer conjeturas en lugar de decir "No lo sé". Esto es inaceptable en el ámbito sanitario. Una respuesta incorrecta puede retrasar el diagnóstico, aumentar el riesgo o minar la confianza del paciente. Los sistemas futuros deben aprender a detectar la incertidumbre y derivar los casos complejos a los humanos.

En tercer lugar, evaluaciones como HealthBench deben convertirse en el estándar antes de su implementación real. Aprobar una prueba académica ya no es suficiente. Los modelos deben demostrar que pueden tomar decisiones reales con seguridad, o deberían mantenerse completamente fuera del ámbito clínico.

El camino a seguir: uso responsable, no publicidad exagerada

HealthBench no afirma que la IA no tenga futuro en la atención médica. Al contrario, muestra dónde nos encontramos hoy y cuánto queda por recorrer. Los modelos de lenguaje de gran tamaño pueden ayudar con las tareas administrativas, la elaboración de resúmenes o la comunicación con los pacientes. Sin embargo, por ahora, no están listos para reemplazar ni siquiera para apoyar de forma fiable a los médicos en la atención clínica.

El uso responsable implica límites claros. Implica transparencia en la evaluación, colaboración con profesionales médicos y pruebas constantes en situaciones médicas reales. Sin esto, los riesgos son demasiado altos.

Los creadores de HealthBench invitan a la comunidad de IA y atención médica a adoptarlo como un nuevo estándar. Si se implementa correctamente, podría impulsar el sector, pasando de la mera publicidad a un impacto real y seguro.

0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Bloquea y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!

También te puede gustar

Mercado Libre compró 150 bitcoin en silencio

CryptoNewsNet2025/05/15 03:44

Wyoming apuesta por un dólar digital estatal pese al veto a las CBDC

WYST es el nombre de la criptomoneda estable que será lanzada por el estado de Wyoming.¿Una stablecoin estatal no es lo mismo que una CBDC?

Criptonoticias2025/05/15 02:22
Wyoming apuesta por un dólar digital estatal pese al veto a las CBDC

Una plataforma acerca la stablecoin USDC a cuentas bancarias

Stable, una wallet de autocustodia de stablecoins, permite conectar TradFi y DeFi con USDC y dólares estadounidenses sin comisiones.¿Cómo funciona esta integración en Stable?Características de StableRestricciones actuales

Criptonoticias2025/05/15 02:22
Una plataforma acerca la stablecoin USDC a cuentas bancarias