Étude : ChatGPT affiche un taux d'erreur élevé en vérification scientifique

Une étude récente de la Washington State University a quantifié des inexactitudes significatives dans la capacité de ChatGPT à vérifier des affirmations scientifiques. Dirigée par le professeur Mesut Cicek, l'équipe a testé le modèle d'IA en lui demandant d'évaluer si des hypothèses spécifiques tirées d'articles scientifiques publiés étaient étayées par des recherches ultérieures.

L'étude, publiée dans la revue 'Information Services & Use', a révélé que ChatGPT-3.5 fournissait des évaluations incorrectes pour plus d'une affirmation scientifique sur cinq (plus de 20%). Les erreurs comprenaient à la fois des faux positifs, où il affirmait à tort qu'une hypothèse était soutenue, et des faux négatifs, où il ne parvenait pas à reconnaître des conclusions étayées.

Les chercheurs ont noté que les réponses de l'IA étaient souvent incohérentes, fournissant des réponses différentes à la même question lorsqu'elle était posée à plusieurs reprises. Cette incohérence et le taux d'erreur élevé soulignent les risques potentiels à s'appuyer sur les modèles de langage de grande taille de la génération actuelle pour une vérification scientifique précise sans supervision humaine.

Les auteurs de l'étude soulignent que si les outils d'IA comme ChatGPT sont puissants pour générer du texte et des idées, leur utilisation pour une validation factuelle, en particulier dans des domaines spécialisés comme la science, nécessite prudence et évaluation critique par des experts du domaine.

Étude : ChatGPT affiche un taux d'erreur élevé en vérification scientifique

Related Articles

Étude : Les reines de bourdons survivent des jours sous l'eau en hibernation

Canis Minor brille haut dans le ciel du soir

Les scientifiques développent une nouvelle méthode pour modéliser la production de carburant solaire

La mission DART de la NASA modifie avec succès l'orbite d'un astéroïde