Quando a IA publica um falso mas convincente resumo de investigação

Se tem, por vezes, dificuldade em decifrar o jargão dos cientistas, não se preocupe: muitos investigadores de uma disciplina têm dificuldade em decifrar o jargão de uma outra disciplina. E, com a inteligência artificial (IA) capaz de escrever textos convincentes, isto não vai melhorar.

Investigadores não conseguiram detectar alguns dos falsos resumos de investigação (“abstracts”) escritos pelo ChatGPT, segundo uma pequena experiência realizada em Dezembro e publicada no site de pré-publicação bioRxiv (o que significa que é investigação que não foi revista pelos pares antes da sua publicação).

O ChatGPT é a aplicação “conversacional” que tem causado agitação desde a sua revelação pública a 30 de Novembro, porque é capaz de criar textos realistas em resposta a pedidos de qualquer tipo. Para o conseguir, os seus criadores forneceram-lhe enormes quantidades de texto gerado pelos humanos. As chamadas aplicações “geradoras de linguagem” existem há décadas, mas o salto em frente do ChatGPT na qualidade do texto que produz, mais o facto de estar livremente disponível, criou alguma agitação.

Para a sua curta experiência, investigadores liderados por Catherine Gao do Departamento de Medicina da Northwestern University em Chicago (EUA) pediram ao “robot” para escrever 50 resumos de investigação médica, “ao estilo” de uma das cinco publicações científicas: American Medical Association Journal, New England Journal of Medicine, British Medical Journal, Lancet e Nature Medicine. O robô foi “alimentado” de investigações publicadas em Novembro e Dezembro nessas revistas.

Além de perguntarem a quatro investigadores se podiam detectar os falsos “abstracts”, os autores da experiência também analisaram estes resumos através de uma aplicação concebida para detectar o plágio, e por uma outra (da mesma firma californiana que o ChatGPT) concebida para detectar texto gerado por IA.

O detector de plágio deu uma pontuação de 100%: por outras palavras, nenhum dos 50 resumos poderia ser acusado de plágio de qualquer das investigações nas quais se “inspirou”. O detector de textos gerado por IA identificou correctamente dois em cada três.

Quanto aos humanos, identificaram correctamente 68% dos textos gerados por IA, e 86% dos textos gerados por humanos. Isto ainda deixa quase um terço dos textos gerados por IA e que foram considerados realistas.

No entanto, os revisores foram avisados de que havia “falsificações” na lista que lhes foi dada, o que os pode ter tornado mais vigilantes do que seriam normalmente.

Com apenas quatro humanos, o “teste” não tem mais do que um valor simbólico: desde 30 de Novembro, muitas pessoas tiveram a oportunidade de descobrir o realismo dos textos de IA. Mas com o texto de uma investigação científica, vamos para um outro nível, num contexto em que sabemos que em todo o mundo, investigadores sem escrúpulos estão prontos a ir muito longe para ter sucesso na publicação de qualquer investigação; e que as chamadas publicações “predatórias” estão prontas a publicar qualquer coisa, em troca de pagamento.

Por Agence Science-Presse