Une liste de contrôle pour les rapports sur les grands modèles de langage (LLM) en sciences comportementales a été développée pour remédier aux incohérences dans la description de ces modèles dans la recherche scientifique. Publiée dans une revue à comité de lecture, cette liste vise à améliorer la reproductibilité et la transparence en exigeant des chercheurs qu'ils précisent la version exacte du modèle, les paramètres et les données d'entraînement utilisés.
Les éléments clés incluent la documentation de l'architecture du modèle, les détails du réglage fin et les techniques d'ingénierie de prompt. La liste souligne également la nécessité de signaler les biais potentiels et les limites du LLM, ainsi que la date d'accès, car les modèles sont fréquemment mis à jour.
Cette initiative répond aux préoccupations croissantes concernant la fiabilité des études utilisant des LLM comme GPT-4 ou Claude, où des rapports vagues peuvent rendre les résultats impossibles à reproduire. La liste est conçue pour être adaptable à différents contextes de recherche et types de modèles.