Actualités
Découvrez les dernières avancées d’Apple dans l’iA
Pas suffisant pour l’iPhone 16 ?
Les chercheurs d’Apple ont publié une étude il y a peu concernant l’intelligence artificielle générative. Elle porte sur une nouvelle approche des méthodes d’entraînement pour les grands modèles de langage (LLM). Comme le rapporte Venture Beat, il pourrait s’agir d’une avancée significative dans le domaine.
Des combinaisons minutieuses
Les méthodes d’entraînement mises au point par les chercheurs Apple pourraient ouvrir la voie à des systèmes d’intelligence artificielle plus performants et polyvalents. Pour y arriver, l’idée est d’entraîner les LLM en utilisant des combinaisons de plusieurs éléments. Dans le rapport de l’étude, un chercheur à la pomme explique :
Nous avons découvert que pour entraîner efficacement des modèles multimodaux à grande échelle, il est crucial d’utiliser une variété de données, y compris des légendes d’images, des textes associés aux images, ainsi que des données textuelles seules.
L’exploitation des combinaisons de plusieurs éléments aurait permis de surpasser les attentes des chercheurs sur plusieurs points. On parle notamment de la description d’une image, des réponses à des questions basées sur une image, ou encore la compréhension du langage naturel.
Adaptation et mise à l’échelle des composants visuels
Les chercheurs de Cupertino ont également appris grâce à leurs tests que le choix des bonnes technologies pour traiter les éléments visuels était essentiel. Dans l’étude, il est mentionné :
Nous montrons que l’encodeur d’image ainsi que la résolution de l’image et le nombre de jetons d’image ont un impact substantiel, tandis que la conception du connecteur vision-langage est d’une importance relativement négligeable.
L’encodeur transforme les images en données compréhensibles pour l’ordinateur et représente un facteur important dans les performances du modèle, tout comme la résolution de l’image. Quant au nombre de jetons, ce sont des unités de données qui permettent de plus ou moins exploiter la puissance du LLM. Plus des jetons sont alloués, plus il peut analyser l’image avec précision.
Ainsi, les facteurs cités au-dessus sont les plus importants à prendre en compte, tant dit que la conception du connecteur vision-langage ne l’est pas. Cette dernière désigne la manière dont un modèle combine les informations visuelles (ce que l’image montre) avec le langage (ce que dit le texte qui y est associé).
Apple travaille énormément sur l’intelligence artificielle, mais il se pourrait que des résultats concluants pour une mise à disposition au grand public tardent à arriver, comme le montre le dernier rapport de Bloomberg. On y apprend qu’Apple serait en pourparlers avec Google pour intégrer Gemini à iOS, alors qu’on pensait que la pomme proposerait ses propres outils.
Développer une IA du niveau de ChatGPT est un défi de taille, qui prend du temps. Pour aller plus vite, Apple rachète de nombreuses entreprises dans l’IA, depuis l’an dernier. C’est peut être bon signe, mais il se pourrait également que cela dénote une difficulté à avancer dans le domaine vu le nombre conséquents d’acquisitions.
En regardant l’historique d’OpenAI, on se rend compte qu’ils n’ont pas racheté une trentaine d’entreprises dans l’IA comme Apple, mais ont plutôt compté sur leurs chercheurs pour en arriver là où ils sont. Bien sûr, cela a pris énormément de temps et de ratés. GPT 1 en 2018 n’avait rien à avoir avec ce qui est actuellement proposé avec GPT 4, en prenant en compte que GPT 5 pourrait sortir aux alentours de 2025, selon les dernières déclarations officielles d’OpenAI. Cependant, peut être qu’Apple proposera quelque chose du même niveau en moins de temps, l’avenir nous le dira.