Apple rompt le silence sur les allégations selon lesquelles il aurait utilisé des « vidéos YouTube volées » pour entraîner l'IA
Le géant de la technologie basé à Cupertino clarifie les récentes accusations.
Un nouveau rapport affirme que des géants de la technologie, dont Apple, Nvidia, Anthropic et Salesforce, ont utilisé des données provenant de « milliers de vidéos YouTube » pour entraîner l'IA. L'enquête, réalisée par Proof News et publiée sur Wired, affirme que les sous-titres de 173 000 vidéos YouTube ont été récupérés pour les modèles d'IA des entreprises.
Baptisé « YouTube Subtitles », cet ensemble de données contient des transcriptions de vidéos provenant de chaînes éducatives comme Khan Academy, MIT et Harvard, ainsi que du Wall Street Journal, NPR et de la BBC. Des contenus de stars de YouTube comme PewDiePie, Marques Brownlee et MrBeast ont également été découverts.
Nous n'avons pas encore eu de nouvelles d'Anthropic et de Salesforce (nous avons contacté Apple pour obtenir des commentaires), mais Apple a publié une réponse au rapport de Wired.
Apple utilisera-t-il ces données pour Apple Intelligence et d’autres services d’IA ?
La réponse courte est non, mais voici la réponse plus longue pour ceux qui ne s'identifient pas à la foule « TLDR » :
Dans un e-mail adressé à Indigo Buzz, Apple a déclaré que son modèle de langage open source, OpenELM, utilisait effectivement l'ensemble de données, mais pas de la manière dont certains pourraient le penser.
Le projet OpenELM s'inscrit dans le cadre des efforts continus d'Apple pour bénéficier à la communauté de recherche au sens large. En d'autres termes, selon Apple, le modèle OpenELM a été créé uniquement à des fins de recherche, ce qui indique clairement qu'il ne servira de base ni à aucun de ses matériels basés sur l'apprentissage automatique ni à aucun de ses services d'IA, y compris Apple Intelligence.
Pour les non-initiés, Apple Intelligence est la nouvelle suite de fonctionnalités d'IA de la société, qui ont été révélées lors de la WWDC 2024 (l'événement annuel d'Apple où elle dévoile ce qui va arriver avec ses offres logicielles, notamment iOS et iPadOS).
Apple Intelligence, par exemple, peut aider à résumer un texte, qu'il s'agisse d'un e-mail ou d'un SMS, pour des interactions plus rapides avec des amis, des proches, des collègues, etc. Elle permettra également de soutenir des fonctionnalités plus axées sur le divertissement, comme Genmoji, qui génère de nouveaux émojis iOS avec une invite. Il existe également Image Playground, qui permet aux utilisateurs de créer des images générées par l'IA à la volée.
En ce qui concerne les services d’IA destinés à ses consommateurs, Apple a souligné qu’elle offrait aux sites Web la possibilité de refuser que leur contenu soit utilisé pour la formation de l’IA. Apple a assuré que ses modèles génératifs sont construits et affinés à l’aide de données de haute qualité, notamment du contenu sous licence d’éditeurs et de sociétés d’images, ainsi que des données accessibles au public sur le Web.
Pour le dire succinctement, Apple ne nie pas que son modèle de langage open source, OpenELM, a utilisé l'ensemble de données, mais veut préciser qu'il ne soutiendra aucun de ses services d'IA, y compris Apple Intelligence.
Qu'a à dire Nvidia ?
Nous avons également contacté Nvidia pour obtenir un commentaire, mais la société, connue pour intégrer l'IA à bon nombre de ses matériels et services de jeu, a refusé de publier une déclaration.
Nous mettrons à jour cet article si nous entendons quelque chose d'Anthropic et de Salesforce.