Selon une étude récente publiée par la Royal Society, jusqu’à 73 % des réponses qui semblent fiables produites par les IA génératives de texte pourraient en réalité être incorrectes.
Les chercheurs ont analysé près de 5 000 résumés générés par dix chatbots d’IA largement utilisés, à partir d’articles scientifiques. Ils ont constaté que, même lorsque les modèles étaient explicitement incités à fournir des informations exactes, leurs réponses omettaient des détails essentiels cinq fois plus souvent que les résumés rédigés par des humains.
Par exemple, l’ancienne version ChatGPT-4 Turbo avait environ 2,6 fois plus de chances d’oublier des éléments clés par rapport aux textes d’origine, tandis que le modèle plus récent ChatGPT-4o était neuf fois plus susceptible de le faire. Une tendance à la généralisation excessive qui a également été observée avec le modèle LLaMA 3.3 70B de Meta, qui est, d’après l’étude, 36,4 fois plus enclin à simplifier à l’excès par rapport à ses versions antérieures.
