La Wayback Machine face à la censure : les géants de la presse ferment l’accès à leurs archives pour contrer l’IA

Le rêve d’un web libre et accessible à tous s’efface peu à peu. De plus en plus de grands médias bloquent l’accès à leurs archives pour empêcher l’exploitation de leurs contenus par l’intelligence artificielle. Entre pressions économiques, menaces technologiques et défense du bien commun, une bataille silencieuse est en cours.

Les archives du web sous verrou

Depuis 1996, Internet Archive s’efforce de préserver l’histoire du web à travers la Wayback Machine. Un outil incontournable pour les chercheurs, journalistes ou enseignants. Pourtant, des poids lourds de la presse comme The Guardian, The New York Times, Financial Times ou USA Today ont récemment décidé de bloquer l’archivage automatique de leurs contenus.

Officiellement, ces groupes soutiennent la mission de préservation numérique. Mais dans les faits, ils perçoivent l’accès libre comme une menace directe pour leur modèle économique, notamment face aux géants technologiques qui aspirent leurs contenus pour entraîner des intelligences artificielles.

L’intelligence artificielle, avide de contenus journalistiques

Les modèles génératifs comme ChatGPT, Gemini ou Copilot reposent sur des masses considérables de données textuelles pour apprendre à écrire, comprendre et simuler. Articles de presse, essais, œuvres artistiques, études scientifiques : tout est bon à ingérer, parfois sans accord préalable.

Cette captation a entraîné une série de procédures judiciaires, notamment :

The New York Times a poursuivi OpenAI et Microsoft
Le Center for Investigative Reporting a engagé une action similaire
Wall Street Journal et New York Post ont attaqué Perplexity AI
The Atlantic, The Guardian et Politico ont visé Cohere
Penske Media a assigné Google en justice
Chicago Tribune et New York Times ont, elles aussi, lancé des poursuites contre Perplexity

A lire : Google supprime des vidéos d’IA avec des personnages Disney après une mise en demeure

Selon Robert Hahn, directeur des partenariats commerciaux au Guardian : “Les entreprises d’IA recherchent des bases de données bien structurées et facilement exploitables. L’API de la Wayback Machine s’est vite imposée comme une cible idéale pour extraire de la propriété intellectuelle.”

Du web ouvert aux licences fermées

Face à ce risque, plusieurs éditeurs optent désormais pour la monétisation de leurs archives. NewsCorp a signé un accord de 250 millions de dollars sur cinq ans avec OpenAI. Des éditeurs scientifiques comme Taylor & Francis ou Elsevier ont cédé l’accès à plus de 3 000 revues à Microsoft, pour 10 millions de dollars.

En parallèle, de nombreux sites renforcent leur protection contre les robots d’indexation, y compris ceux de la Wayback Machine. Plusieurs journaux dénoncent même cette plateforme comme une “porte dérobée” permettant aux entreprises technologiques de contourner les restrictions commerciales.

Certains médias préfèrent désormais négocier directement la vente de leurs contenus à des acteurs de l’IA… sans garantir une juste rémunération pour les auteurs. Une dérive qui rappelle les tensions déjà vives dans le monde du livre, de la musique ou de l’art face aux outils génératifs.

L’illusion du journalisme gratuit

À la fin des années 1990, l’arrivée des journaux sur Internet a banalisé l’accès gratuit à l’information. Ce choix stratégique, salué à l’époque, est aujourd’hui considéré comme une erreur fondatrice de l’économie numérique des médias.

Le public s’est habitué à ne rien payer. Résultat : les recettes publicitaires n’ont pas suffi à compenser, et les rédactions les plus vulnérables ont été mises en difficulté. Le passage à un modèle par abonnement, quant à lui, a fragmenté l’accès à l’information : il faut désormais multiplier les abonnements pour consulter plusieurs sources fiables.

A lire : Clonage de ses IA : OpenAI passe en mode alerte maximale face aux ambitions chinoises

Un trou béant dans la mémoire du web

La Wayback Machine reste l’un des derniers remparts face à l’effacement numérique. Utilisée par des millions de personnes, elle constitue une mémoire vivante du web.

Mais en interdisant l’archivage de leurs contenus, les grands médias créent un vide documentaire considérable. Aujourd’hui, on peut encore consulter la une du New York Times de juin 1997. Dans trente ans, rien ne garantit que les pages de 2024 seront encore disponibles.

Un web de plus en plus verrouillé

Trois visions s’affrontent désormais :

Les éditeurs, qui veulent protéger leurs droits et rentabiliser leurs contenus
Les acteurs de l’IA, en quête de données pour entraîner leurs modèles
Les organisations à but non lucratif comme Internet Archive ou Wikipédia, qui défendent un web libre et accessible

Le web devient chaque jour plus cloisonné. L’accès aux archives se restreint, les barrières commerciales se multiplient, et la connaissance commune s’effrite. Le web ouvert n’est plus une évidence : il devient une exception en voie de disparition.

Samuel

Samuel Le Goff suit l’actualité des smartphones, des systèmes d’exploitation mobiles et de l’intelligence artificielle depuis plus de 14 ans. Il couvre notamment Samsung, Xiaomi, Apple, Android, iOS et les grandes tendances du numérique.

Samuel

Articles similaires

ChatGPT, Claude et Gemini révèlent quels sont les meilleurs smartphones selon l’intelligence artificielle

Google a enfin corrigé l’une des choses les plus agaçantes dans Waze

GPT-5.6 Sol mise sur l’Espagne, sept autres modèles voient la France championne du monde

Tokens IA : les méthodes les plus efficaces pour réduire les coûts

ChatGPT assouplit temporairement ses limites face à l’explosion de la demande pour GPT-5.6

GPT-5.6 : la raison pour laquelle OpenAI rebat les cartes de tout le marché de l’IA

Laisser un commentaire Annuler la réponse