Science

Étude : ChatGPT affiche un taux d'erreur élevé en vérification scientifique

Une étude de la Washington State University révèle que ChatGPT-3.5 a incorrectement évalué des hypothèses scientifiques plus de 20% du temps, soulevant des inqu

Image from news.wsu.edu

Image: news.wsu.edu

Une étude récente de la Washington State University a quantifié des inexactitudes significatives dans la capacité de ChatGPT à vérifier des affirmations scientifiques. Dirigée par le professeur Mesut Cicek, l'équipe a testé le modèle d'IA en lui demandant d'évaluer si des hypothèses spécifiques tirées d'articles scientifiques publiés étaient étayées par des recherches ultérieures.

L'étude, publiée dans la revue 'Information Services & Use', a révélé que ChatGPT-3.5 fournissait des évaluations incorrectes pour plus d'une affirmation scientifique sur cinq (plus de 20%). Les erreurs comprenaient à la fois des faux positifs, où il affirmait à tort qu'une hypothèse était soutenue, et des faux négatifs, où il ne parvenait pas à reconnaître des conclusions étayées.

Les chercheurs ont noté que les réponses de l'IA étaient souvent incohérentes, fournissant des réponses différentes à la même question lorsqu'elle était posée à plusieurs reprises. Cette incohérence et le taux d'erreur élevé soulignent les risques potentiels à s'appuyer sur les modèles de langage de grande taille de la génération actuelle pour une vérification scientifique précise sans supervision humaine.

Les auteurs de l'étude soulignent que si les outils d'IA comme ChatGPT sont puissants pour générer du texte et des idées, leur utilisation pour une validation factuelle, en particulier dans des domaines spécialisés comme la science, nécessite prudence et évaluation critique par des experts du domaine.

📰 Original source: news.wsu.edu Read original →
Partager: