Digital Content Next, une organisation professionnelle représentant les éditeurs numériques américains, a envoyé une lettre de cessation à la Common Crawl Foundation, exigeant qu'elle cesse de collecter le contenu des éditeurs et supprime les éléments déjà présents dans ses ensembles de données, selon un rapport de Reuters daté du 9 juin 2026.
La lettre, datée du 8 juin 2026, allègue que les activités de crawl web de Common Crawl violent les lois sur le droit d'auteur en collectant et distribuant systématiquement du contenu protégé sans autorisation. Common Crawl, une organisation à but non lucratif fournissant des données de crawl web gratuites pour la recherche et la formation en IA, n'a pas encore répondu publiquement à la lettre au 10 juin 2026.
Cette action fait suite à des tensions croissantes entre les créateurs de contenu et les développeurs d'IA concernant l'utilisation de données collectées pour former des modèles de langage. Digital Content Next représente des éditeurs majeurs comme The New York Times, The Wall Street Journal et The Washington Post.
Le différend met en lumière les débats juridiques et éthiques autour du scraping web pour la formation en IA, les éditeurs cherchant une compensation ou des mécanismes d'opt-out pour leur contenu. Les ensembles de données de Common Crawl ont été largement utilisés par des entreprises comme OpenAI et Google pour former des systèmes d'IA.