Relatórios de sintomas para chatbots médicos de IA perdem 8% de qualidade

Inês Margarida Carvalho • June 21, 2026 10:56

A maioria das pessoas, por instinto, descreve muito mais pormenores a um médico do que a uma aplicação. Uma dor de cabeça transforma-se numa narrativa mais completa: onde dói, há quanto tempo dura, e se surgiu acompanhada de náuseas ou sensibilidade à luz.

Já nas ferramentas digitais, a informação tende a vir “em versão comprimida”. Investigadores dizem agora que este hábito também se aplica aos chatbots médicos.

Um novo estudo quantificou, com precisão, quanta informação as pessoas omitem quando acreditam que é a IA a ler os seus sintomas - e se essas omissões alteram a utilidade do relato.

As pessoas escreveram menos para a IA

Uma equipa liderada por Moritz Reis, investigador associado no Instituto de Psicologia da Universidade de Würzburg (JMU), recrutou 500 adultos no Reino Unido para um teste simples.

Cada participante escreveu dois relatos de sintomas: um sobre uma dor de cabeça invulgar e outro sobre uma doença com sintomas semelhantes aos da gripe.

Metade foi informada de que um médico iria ler a descrição. A outra metade foi informada de que seria um chatbot de IA.

A formulação apresentada na página variava, mas as instruções eram as mesmas. Os textos destinados ao médico humano tiveram, em média, 256 caracteres. Os relatos para o chatbot ficaram nos 229 caracteres - cerca de uma frase a menos.

Avaliar relatos sem saber o destinatário

Para perceber se “mais curto” também significava “pior”, a equipa submeteu todos os relatos a um sistema de pontuação.

O objetivo era medir quão útil era a descrição para decidir quem precisava de cuidados urgentes.

Uma pontuação mais alta indicava que um médico conseguiria ler as frases e dar orientação com confiança.

Em média, os relatos enviados ao chatbot obtiveram uma pontuação 8% mais baixa. Quatro médicos com licença profissional analisaram os dados: dois neurologistas e dois pneumologistas.

Estes médicos observaram um subconjunto aleatório sem saber se o texto tinha sido escrito para um médico ou para um chatbot. As avaliações deles coincidiram com a pontuação atribuída pela IA.

Pequenas omissões acumulam-se depressa

O que desaparece costuma ser o contexto de que um médico se serve para construir uma imagem completa. Por exemplo, durante quanto tempo a dor de cabeça se manteve, ou como soava a tosse às 03:00.

Nada disto é particularmente difícil de escrever. Ainda assim, quando as pessoas acreditavam que era uma máquina a ler, acabavam por incluir menos destes detalhes.

Os investigadores ligaram a descida da qualidade diretamente ao tamanho do texto. Menos caracteres significaram um relato menos útil para a auto-triagem - o filtro inicial que ajuda a decidir quem precisa de consultar um médico de imediato.

A precisão dos chatbots pode falhar

As ferramentas de IA costumam ser avaliadas com cenários padronizados, e não com os parágrafos confusos que as pessoas realmente escrevem.

Isso tende a ocultar o problema: um chatbot pode ter um desempenho excelente numa prova de referência e, mesmo assim, encaminhar mal um doente real se esse doente lhe der apenas “meia história”.

Essa diferença de qualidade manteve-se mesmo entre participantes que, no momento, estavam a sentir sintomas relevantes - e não apenas entre os que os estavam a imaginar.

Um artigo separado sobre a precisão de verificadores de sintomas online apontou cautelas semelhantes. A precisão de laboratório não resiste ao contacto com o tipo de informação que os utilizadores fornecem no dia a dia.

Mal interpretados pelas máquinas

Porque é que as pessoas são mais contidas com um chatbot? A equipa descreve um fenómeno chamado negligência da singularidade - a crença de que a IA o vê como um “caso-tipo”, e não como uma pessoa.

Se a ferramenta apenas faz correspondências de padrões, pensa-se, para quê detalhar as especificidades estranhas?

“Many people assume that AI cannot grasp the individual nuances of their personal situation and instead merely matches standardized patterns,” explained Professor Wilfried Kunde.

As preocupações com privacidade também podem contribuir. O mesmo pode acontecer com o ceticismo geral sobre se um algoritmo consegue, de facto, diagnosticar alguma coisa.

Um estudo anterior do mesmo grupo concluiu que as pessoas avaliam conselhos médicos idênticos como menos fiáveis e menos dignos de ser seguidos assim que lhes dizem que foi uma IA a escrevê-los.

Conceber melhores perguntas

A solução, defendem os autores, não é necessariamente um modelo mais “inteligente”, mas sim uma entrevista melhor conduzida. Os chatbots médicos deveriam incentivar ativamente os utilizadores a fornecer os detalhes que um médico perguntaria.

Detalhes como duração, gravidade, e o que melhora ou piora os sintomas - em vez de esperar que o utilizador adivinhe o que conta.

Mostrar exemplos concretos de descrições bem feitas poderá ajudar a reforçar a qualidade do aconselhamento médico.

Outra estratégia seria explicar o que o sistema faz com a informação. Quando percebem a lógica da ferramenta, as pessoas podem escrever mais - e não menos.

“If we don’t trust a machine to understand our uniqueness, we may unconsciously withhold the information it would need to provide precise assistance,” said Reis.

A doença real pode alterar o comportamento

Os participantes escreveram sobre situações que lhes pediram para imaginar, e não sobre momentos em que estivessem realmente doentes e a precisar de ajuda urgente.

Os investigadores sublinham que relatos do mundo real, em que a carga emocional é maior, podem diferir de formas que esta experiência não conseguiu captar.

Ainda falta testar se a diferença se mantém em encontros clínicos reais, e isso exigirá investigação adicional.

O lado humano da triagem com IA

Até agora, ninguém tinha medido o que os doentes deixam de fora antes de a IA sequer receber a pergunta. As avaliações de chatbots médicos focavam-se quase totalmente no lado do modelo da conversa.

Este estudo fez o inverso. Quantificou o lado humano, mostrando relatos 8% menos úteis, explicados por menos 27 caracteres, em adultos saudáveis a falar com uma máquina.

Oito por cento por pessoa pode parecer pouco. Multiplicado pelos milhões de perguntas que chegam a verificadores de sintomas e a chatbots de consumo, o detalhe em falta confirma decisões de triagem feitas com base em informação incompleta.

Os programadores passam a ter um problema específico para resolver no design. E os doentes ganham um motivo para escrever mais, e não menos, mesmo quando não é um humano a ler.