Actualité GeekIT, Data & IATechnologies

Meta face à des accusations : l’entreprise aurait entraîné son intelligence artificielle avec des contenus piratés

Le géant technologique Meta est de nouveau au centre d’une controverse, cette fois pour des allégations selon lesquelles son intelligence artificielle, Meta AI, aurait été entraînée à l’aide de contenus piratés issus de torrents. Une révélation qui soulève des questions sur les pratiques d’acquisition de données pour les modèles d’intelligence artificielle.

Des torrents au cœur de l’entraînement de Meta AI

Pour qu’une intelligence artificielle fonctionne efficacement, elle doit être formée avec de grandes quantités de données. Ces données proviennent généralement de sources légales accessibles sur Internet. Toutefois, selon un rapport du média Wired, Meta aurait utilisé des matériaux piratés provenant de torrents, en violation présumée des droits d’auteur.

En 2023, Meta a été poursuivie dans l’affaire « Kadrey et al. v. Meta Platforms », déposée par les écrivains Richard Kadrey et Christopher Golden. Ils affirment que Meta a exploité leurs œuvres protégées par le droit d’auteur pour entraîner Llama, son modèle de langage avancé.

Lors du procès, des documents internes de Meta ont été divulgués après une décision du juge Vince Chhabria, de la cour fédérale du district nord de Californie. Ces documents révèlent des échanges troublants entre employés, dont un où un ingénieur note que « télécharger via torrent depuis un ordinateur portable de l’entreprise semble inapproprié ». Une autre conversation mentionne que Mark Zuckerberg lui-même aurait approuvé l’utilisation de ces contenus controversés.

Des sources piratées bien identifiées

Parmi les sources exploitées, figure LibGen (Library Genesis), une base de données massive contenant des livres, articles scientifiques et journaux protégés par le droit d’auteur. Cette bibliothèque, créée en Russie en 2018, fait régulièrement l’objet de poursuites judiciaires, mais demeure active. D’autres bases similaires auraient également été utilisées par Meta selon le rapport.

La réponse de Meta

Face à ces accusations, Meta nie toute infraction. L’entreprise affirme que ses pratiques respectent la doctrine juridique de l’« usage équitable », qui permet, dans certaines conditions, d’utiliser des contenus protégés sans autorisation explicite. Cependant, chaque cas d’usage équitable est examiné individuellement, et cette défense est loin de convaincre ses détracteurs.

Meta n’est pas seule dans cette tourmente. D’autres géants, tels qu’Apple, ont également été accusés de pratiques similaires. En 2022, une enquête a révélé que le modèle OpenELM d’Apple s’appuyait sur des sous-titres provenant de plus de 170 000 vidéos YouTube.

Un débat qui perdure

Ces révélations soulignent une problématique majeure dans le développement des IA : où tracer la frontière entre innovation et respect des droits d’auteur ? Si l’usage de données protégées sans autorisation se confirme, cela pourrait non seulement entacher la réputation de Meta, mais aussi influencer l’ensemble de l’industrie technologique.

Sarah Bouchaib, Je suis une passionnée de technologie et de culture geek. J’adore les jeux vidéo, les cryptomonnaies, les télécoms, et tout ce qui touche au numérique.

Sarah Bouchaib

Sarah Bouchaib, Je suis une passionnée de technologie et de culture geek. J'adore les jeux vidéo, les cryptomonnaies, les télécoms, et tout ce qui touche au numérique.

Voir tous les articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *