Confiabilidade dos Chatbots em Questões de Saúde
Um recente estudo publicado na revista Nature Medicine levanta preocupações sobre a eficácia dos chatbots de inteligência artificial (IA) em fornecer conselhos médicos corretos. Segundo a pesquisa, esses sistemas de IA não superam o Google, que já é conhecido por fornecer informações de saúde imprecisas. Os pesquisadores testaram modelos de chatbots amplamente disponíveis, como o ChatGPT da OpenAI e o Llama da Meta, para avaliar sua habilidade em orientar usuários sobre diagnósticos e próximos passos em situações de saúde.
No experimento, mais de 1.200 participantes britânicos, sem formação médica, receberam cenários médicos detalhados e foram instruídos a interagir com os chatbots para determinar suas condutas, como a necessidade de chamar uma ambulância ou realizar automedicação. Os resultados foram alarmantes: os participantes identificaram a conduta correta em menos de 50% das ocasiões e diagnosticaram corretamente apenas 34% das condições apresentadas, como cálculos biliares ou hemorragia subaracnóidea.
Os pesquisadores, liderados por Adam Mahdi, professor do Instituto de Internet de Oxford, alertam que os chatbots ainda não estão prontos para serem usados no atendimento direto ao paciente. Ele enfatizou que a medicina é uma área complexa, onde questões diretas não refletem a realidade do atendimento médico. Os resultados indicam que, em muitos casos, os chatbots falharam devido a informações insuficientes fornecidas pelos participantes.
O Desafio da Interação com Chatbots
Em algumas situações, os participantes deixaram de informar detalhes cruciais sobre seus sintomas, fazendo com que os chatbots fornecessem conselhos com base em informações incompletas. Por exemplo, um modelo sugeriu que dores de estômago intensas poderiam ser causadas por indigestão, sem considerar a intensidade e frequência da dor, que poderiam indicar cálculos biliares. Quando as informações foram fornecidas de maneira mais completa, os chatbots conseguiram diagnosticar corretamente em 94% dos casos.
Andrew Bean, autor principal do estudo e estudante de pós-graduação em Oxford, defendeu que a responsabilidade não deve recair apenas sobre os usuários para formular perguntas precisas. Ele sugere que os chatbots deveriam fazer perguntas complementares, assim como os médicos fazem durante a consulta. Essa abordagem poderia melhorar significativamente a precisão das recomendações.
Um porta-voz da OpenAI afirmou que os modelos de ChatGPT atualmente em uso são significativamente mais eficazes do que os testados no estudo, destacando melhorias que tornaram esses sistemas menos propensos a erros e alucinações.
A Luta pela Precisão na Saúde Digital
Além das falhas na coleta de informações, os pesquisadores notaram que pequenos ajustes na maneira como os participantes descreviam seus sintomas poderiam alterar drasticamente a orientação fornecida pelos chatbots. Em um cenário, dois participantes com sintomas semelhantes receberam conselhos completamente diferentes, um considerado um problema menor e o outro um sinal de emergência. Essas discrepâncias sinalizam a necessidade urgente de aprimoramentos nos sistemas de IA em saúde.
Danielle Bitterman, doutora que pesquisa a interação entre pacientes e IA, sugere que as dificuldades dos chatbots em distinguir entre situações que requerem atenção imediata e aquelas que não são urgentes estão ligadas à formação desses sistemas, que muitas vezes se baseiam em literatura médica em vez de experiências práticas de tomada de decisão. Em um dos casos analisados, um chatbot até sugeriu que um participante ligasse para um número de emergência fictício que não existia.
À medida que a tecnologia avança, as empresas de IA estão cientes dos desafios e estão trabalhando para aprimorar suas ferramentas. No entanto, o estudo serve como um importante alerta sobre a necessidade de cautela ao usar chatbots para questões de saúde, ressaltando que a interação humana ainda é fundamental para um diagnóstico preciso e seguro.
