GPT-4 Falhas em tarefas reais de saúde: novo teste do HealthBench revela as lacunas
Em Breve Os pesquisadores introduziram o HealthBench, um novo benchmark que testa LLMs como GPT-4 e Med-PaLM 2 em tarefas médicas reais.
Grandes modelos de linguagem estão por toda parte — da pesquisa à codificação e até mesmo ferramentas de saúde voltadas para o paciente. Novos sistemas são introduzidos quase semanalmente, incluindo ferramentas que prometem para automatizar fluxos de trabalho clínicos . Mas será que eles realmente podem ser confiáveis para tomar decisões médicas reais? Um novo benchmark, chamado HealthBench, diz que ainda não. De acordo com os resultados, modelos como GPT-4 (A partir de OpenAI) e Med-PaLM 2 (do Google DeepMind) ainda não cumprem com tarefas práticas de assistência médica, principalmente quando precisão e segurança são mais importantes.

O HealthBench é diferente de testes mais antigos. Em vez de usar questionários restritos ou conjuntos de perguntas acadêmicas, ele desafia modelos de IA com tarefas do mundo real. Essas tarefas incluem escolher tratamentos, fazer diagnósticos e decidir quais etapas um médico deve seguir. Isso torna os resultados mais relevantes para o uso real da IA em hospitais e clínicas.

Em todas as tarefas, GPT-4 teve um desempenho melhor do que os modelos anteriores. Mas a margem não foi suficiente para justificar a implantação no mundo real. Em alguns casos, GPT-4 escolheu tratamentos incorretos. Em outros, ofereceu conselhos que poderiam atrasar o tratamento ou até mesmo aumentar os danos. O benchmark deixa uma coisa clara: a IA pode parecer inteligente, mas na medicina, isso não é bom o suficiente.
Tarefas reais, falhas reais: onde a IA ainda falha na medicina
Uma das maiores contribuições do HealthBench é a forma como ele testa modelos. Ele inclui 14 tarefas de saúde do mundo real em cinco categorias: planejamento de tratamento, diagnóstico, coordenação de cuidados, gerenciamento de medicamentos e comunicação com o paciente. Essas não são perguntas inventadas. Elas vêm de diretrizes clínicas, conjuntos de dados abertos e recursos criados por especialistas que refletem como a saúde funciona na prática.
Em muitas tarefas, grandes modelos de linguagem apresentaram erros consistentes. Por exemplo, GPT-4 frequentemente falhava na tomada de decisões clínicas, como determinar quando prescrever antibióticos. Em alguns casos, havia prescrição excessiva. Em outros, não detectava sintomas importantes. Esses tipos de erros não são apenas errados — podem causar danos reais se aplicados no atendimento real ao paciente.

Os modelos também tiveram dificuldades com fluxos de trabalho clínicos complexos. Por exemplo, quando solicitados a recomendar etapas de acompanhamento após os resultados laboratoriais, GPT-4 dava conselhos genéricos ou incompletos. Muitas vezes, ignorava o contexto, não priorizava a urgência ou carecia de profundidade clínica. Isso o torna perigoso em casos em que o tempo e a ordem das operações são cruciais.
Em tarefas relacionadas à medicação, a precisão caiu ainda mais. Os modelos frequentemente confundiam interações medicamentosas ou forneciam orientações desatualizadas. Isso é especialmente alarmante, visto que erros de medicação já são uma das principais causas de danos evitáveis na área da saúde.

Mesmo quando os modelos pareciam confiantes, nem sempre estavam certos. O benchmark revelou que a fluência e o tom não correspondiam à correção clínica. Este é um dos maiores riscos da IA na saúde — ela pode "soar" humana e, ao mesmo tempo, estar factualmente errada.
Por que o HealthBench é importante: avaliação real para impacto real
Até agora, muitas avaliações de saúde com IA utilizavam conjuntos de questões acadêmicas, como exames do tipo MedQA ou USMLE. Esses benchmarks ajudavam a mensurar o conhecimento, mas não testavam se os modelos conseguiam pensar como médicos. O HealthBench muda isso ao simular o que acontece na prestação de cuidados de saúde.
Em vez de perguntas pontuais, o HealthBench analisa toda a cadeia de decisão — desde a leitura de uma lista de sintomas até a recomendação de medidas de tratamento. Isso oferece uma visão mais completa do que a IA pode ou não fazer. Por exemplo, ele testa se um modelo consegue controlar o diabetes em várias consultas ou monitorar tendências laboratoriais ao longo do tempo.

O benchmark também avalia os modelos com base em múltiplos critérios, não apenas na precisão. Ele verifica a relevância clínica, a segurança e o potencial de causar danos. Isso significa que não basta acertar tecnicamente uma pergunta — a resposta também precisa ser segura e útil em situações da vida real.
Outro ponto forte do HealthBench é a transparência. A equipe responsável por ele divulgou todos os prompts, rubricas de pontuação e anotações. Isso permite que outros pesquisadores testem novos modelos, aprimorem as avaliações e desenvolvam o trabalho. É um chamado aberto à comunidade de IA: se você quer afirmar que seu modelo é útil na área da saúde, comprove isso aqui.
GPT-4 e Med-PaLM 2 ainda não está pronto para clínicas
Apesar do recente hype em torno GPT-4 e outros modelos de grande porte, o benchmark mostra que eles ainda cometem erros médicos graves. No total, GPT-4 obteve apenas cerca de 60 a 65% de acertos em média em todas as tarefas. Em áreas de alto risco, como decisões sobre tratamento e medicamentos, a pontuação foi ainda menor.
O Med-PaLM 2, um modelo otimizado para tarefas na área da saúde, não apresentou desempenho muito melhor. Mostrou uma precisão ligeiramente superior na recordação médica básica, mas falhou no raciocínio clínico em várias etapas. Em vários cenários, ofereceu recomendações que nenhum médico licenciado apoiaria. Entre elas, a identificação incorreta de sintomas de alerta e a sugestão de tratamentos não padronizados.

O relatório também destaca um perigo oculto: o excesso de confiança. Modelos como GPT-4 frequentemente dão respostas erradas em um tom confiante e fluente. Isso dificulta a detecção de erros por parte dos usuários — mesmo de profissionais treinados. Essa incompatibilidade entre o refinamento linguístico e a precisão médica é um dos principais riscos da implantação de IA na área da saúde sem salvaguardas rigorosas.
Para ser mais claro: parecer inteligente não é a mesma coisa que ser seguro.
O que precisa mudar para que a IA seja confiável na área da saúde
Os resultados do HealthBench não são apenas um alerta. Eles também apontam para o que a IA precisa melhorar. Primeiro, os modelos devem ser treinados e avaliados usando fluxos de trabalho clínicos do mundo real, não apenas livros didáticos ou exames. Isso significa incluir os médicos no processo — não apenas como usuários, mas como designers, testadores e revisores.

Em segundo lugar, os sistemas de IA devem ser desenvolvidos para pedir ajuda em caso de incerteza. Atualmente, os modelos muitas vezes chutam em vez de dizer "não sei". Isso é inaceitável na área da saúde. Uma resposta errada pode atrasar o diagnóstico, aumentar o risco ou quebrar a confiança do paciente. Os sistemas futuros precisam aprender a sinalizar incertezas e encaminhar casos complexos para humanos.
Terceiro, avaliações como a HealthBench devem se tornar o padrão antes da implementação real. Apenas passar em um teste acadêmico não é mais suficiente. Os modelos devem provar que podem lidar com decisões reais com segurança, ou devem ficar totalmente fora dos ambientes clínicos.
O caminho a seguir: uso responsável, sem exageros
O HealthBench não afirma que a IA não tem futuro na área da saúde. Em vez disso, mostra onde estamos hoje — e o quanto ainda há a percorrer. Modelos de linguagem de grande porte podem auxiliar em tarefas administrativas, sumarização ou comunicação com pacientes. Mas, por enquanto, eles não estão prontos para substituir ou mesmo apoiar de forma confiável os médicos no atendimento clínico.
Uso responsável significa limites claros. Significa transparência na avaliação, parcerias com profissionais médicos e testes constantes em relação a tarefas médicas reais. Sem isso, os riscos são muito altos.
Os criadores do HealthBench convidam a comunidade de IA e saúde a adotá-lo como um novo padrão. Se feito corretamente, pode impulsionar o campo — do hype para um impacto real e seguro.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Perda de bilhões de reais para criptomoedas preocupa setor financeiro brasileiro

Trump amplia exposição ao Bitcoin: cripto já representa 60% de sua fortuna

SharpLink é a maior investidora de Ethereum listada publicamente

Méliuz levanta R$ 180 milhões para reforçar caixa com Bitcoin

Populares
MaisPreços de criptomoedas
Mais








