Apple Intelligence : vers une IA transparente et respectueuse des données personnelles ?
La recette d’Apple pour une IA éthique : un zeste de transparence, une pincée de controverse.
Dans un document technique récemment publié, la firme à la pomme dévoile les coulisses de sa nouvelle gamme Apple Intelligence, un ensemble de fonctionnalités d’IA générative conçues pour ses systèmes d’exploitation phares. Face aux critiques concernant l’éthique de ses méthodes d’entraînement, le géant technologique réaffirme avec vigueur son attachement à la protection des données personnelles de ses utilisateurs.
Formation des modèles : des données publiques et sous licence
Soucieuse de dissiper les doutes, l’entreprise de Cupertino assure que ses modèles d’intelligence artificielle ont été nourris exclusivement de données publiques et dûment autorisées, écartant scrupuleusement toute information privée.
Le document stipule explicitement : « Le jeu de données pré-entraîné se compose de données que nous avons licenciées auprès des éditeurs, de jeux de données disponibles publiquement ou open source et d’informations accessibles au public recueillies par notre crawler, Applebot ». Apple montre donc patte blanche face à ses détracteurs et souhaite manifestement mettre en avant sa transparence et sa considération éthique dans son approche de l’IA.
Néanmoins, une ombre plane sur cette déclaration. En effet, Proof News a révélé en juillet qu’Apple avait puisé dans un corpus nommé The Pile, incorporant les sous-titres d’innombrables vidéos YouTube, pour façonner des modèles destinés au traitement en local.
Or, de nombreux créateurs de contenu YouTube, dont les sous-titres ont été ainsi exploités, n’en avaient été ni avisés ni n’y avaient consenti. Face à cette polémique, Apple s’est empressé de clarifier que ces modèles controversés ne seraient pas intégrés aux fonctionnalités d’IA de ses produits commercialisés.
Des accords lucratifs pour des données de qualité
Dans sa quête d’excellence en matière d’intelligence artificielle, Apple n’a pas lésiné sur les moyens. En effet, pour nourrir ses modèles Apple Foundation Models (AFM), elle a tissé un réseau de partenariats stratégiques.
Selon les révélations du New York Times, des accords pluriannuels d’une envergure considérable – pas moins de 50 millions de dollars – ont été conclus fin 2023 avec des mastodontes de l’édition tels que NBC, Condé Nast et IAC, octroyant à Apple un accès privilégié à leurs trésors d’archives journalistiques.
Parallèlement, les AFM ont été également abreuvés par du code open source, puisant notamment dans les vastes répertoires de GitHub. Ainsi, des langages aussi divers que Swift, Python et C++ ont contribué à entraîner ces modèles.
Néanmoins, cette démarche n’est pas sans soulever quelques sourcils dans la communauté des développeurs. Certains arguent que l’utilisation de codes open-source à des fins d’entraînement d’IA, sans autorisation explicite, demeure un sujet sensible. En effet, toutes les bases de code librement accessibles ne sont pas nécessairement assorties de licences permettant un tel usage.
Face à ces interrogations légitimes, Apple se veut rassurante. La société affirme avoir scrupuleusement « filtré les licences », ne retenant que les référentiels assortis de restrictions minimales, comme ceux régis par les licences MIT, ISC ou Apache. Une précaution qui, espère-t-elle certainement, saura apaiser les inquiétudes.
- Apple affirme exclure les données privées des utilisateurs dans le développement de ses modèles d’IA.
- Elle a utilisé il y a peu des sous-titres YouTube sans consentement pour entraîner ses modèles, mais précise que ces derniers ne seront pas monnayés.
- L’entreprise a conclu des accords de 50 millions de dollars avec des éditeurs et a également utilisé du code open source sous licence pour entraîner ses modèles.
HAL
30 juillet 2024 à 23 h 15 min
Apple ou quiconque ne produira pas plus d’AI transparente que respectueuse des données.
Cela reviendrait à dire ne pas dire la vérité n’est pas mentir !