Les éditeurs américains exigent l'arrêt du scraping par Common Crawl

Digital Content Next a envoyé une lettre de cessation à Common Crawl Foundation exigeant l'arrêt du scraping de contenu d'éditeurs.

US Publishers Demand Common Crawl Stop Scraping

Image: searchenginejournal.com

Digital Content Next, une organisation professionnelle représentant les éditeurs numériques américains, a envoyé une lettre de cessation à la Common Crawl Foundation, exigeant qu'elle cesse de collecter le contenu des éditeurs et supprime les éléments déjà présents dans ses ensembles de données, selon un rapport de Reuters daté du 9 juin 2026.

La lettre, datée du 8 juin 2026, allègue que les activités de crawl web de Common Crawl violent les lois sur le droit d'auteur en collectant et distribuant systématiquement du contenu protégé sans autorisation. Common Crawl, une organisation à but non lucratif fournissant des données de crawl web gratuites pour la recherche et la formation en IA, n'a pas encore répondu publiquement à la lettre au 10 juin 2026.

Cette action fait suite à des tensions croissantes entre les créateurs de contenu et les développeurs d'IA concernant l'utilisation de données collectées pour former des modèles de langage. Digital Content Next représente des éditeurs majeurs comme The New York Times, The Wall Street Journal et The Washington Post.

Le différend met en lumière les débats juridiques et éthiques autour du scraping web pour la formation en IA, les éditeurs cherchant une compensation ou des mécanismes d'opt-out pour leur contenu. Les ensembles de données de Common Crawl ont été largement utilisés par des entreprises comme OpenAI et Google pour former des systèmes d'IA.

❓ Frequently Asked Questions

What is Common Crawl?

Common Crawl is a nonprofit organization that provides free web crawl data for research and AI training.

Why did Digital Content Next send a cease and desist letter?

The letter alleges Common Crawl violates copyright by scraping and distributing publisher content without authorization.

Which publishers are represented by Digital Content Next?

Digital Content Next represents major U.S. digital publishers including The New York Times, The Wall Street Journal, and The Washington Post.

📰 Source:
searchenginejournal.com →
Partager: