Actualités

La réalité derrière le battage médiatique de Gemini par Google

Une réalité moins brillante que prévu

Il y a

le

© Google x iPhon.fr

Google a récemment mis des détails en lumière au sujet de l’un de ses projets les plus ambitieux de la décennie : Gemini, qui est développé en trois variantes, Nano, Pro, et Ultra. La firme a présenté la dernière variante comme le modèle de langage IA le plus performant du marché, en lui vantant notamment des résultats supérieurs à GPT-4 sur plusieurs tests de performance.

Elle a en outre publié près d’une vingtaine de vidéos à ce sujet sur sa chaîne YouTube, dont certaines montrent les supposées prouesses de Gemini. Une manière pour Alphabet de sortir les muscles face au succès fulgurant d’OpenAI. Il semblerait cependant que Google ait truqué l’une de ces démonstrations afin de susciter la stupéfaction des spectateurs. Une stratégie qui semble avoir parfaitement fonctionné au vu de la viralité qu’a obtenue la vidéo. Elle compte plus de deux millions de vues, alors que sur la vingtaine qu’a publié Google à propos de Gemini, seulement 5 dépassent les 200 000 vues. Des chiffres un peu faibles par rapport aux 11 millions d’abonnés que compte la chaîne de la firme sur sa propre plateforme.

“À couper le souffle”, oui, mais non

La vidéo “truquée” est celle qui montre la capacité de Gemini Pro à décrire ce qu’il voit. La vidéo semble montrer un être humain qui interagit en direct avec l’IA. L’individu dessine, puis demande de vive voix à Gemini de décrire ce qu’il vient de dessiner. Gemini rétorque rapidement à son tour en décrivant avec précision ce qu’il voit. Ce qui a rapidement fait réagir les internautes, certains qualifiant la vidéo de “à couper le souffle” sur le réseau social [X]. On vous le repartage de nouveau :

Google admet la supercherie

Au premier coup d’œil, on peut vite croire à des prouesses que l’IA n’est pas encore capable de réaliser. Mais en lisant la description de la vidéo, on se rend vite compte qu’il n’y a rien d’exceptionnel : “pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision”. En d’autres termes, Google a modifié la vitesse à laquelle l’IA répond en ajoutant de la voix et de la vidéo, ce qui laisse évidemment croire qu’il s’agit d’une interaction en direct avec Gemini, qui entend et regarde.

En réalité, la firme a uniquement obtenu des descriptions précises en “utilisant des images fixes de la séquence et des invites via du texte“, d’après ce qu’à rapporté Bloomberg par un porte-parole du groupe. Ce qui diffère donc grandement de ce que la vidéo peut laisser croire. Cela n’a rien d’exceptionnel étant donné qu’en effet, GPT4 peut également réaliser cela, la preuve ci-dessous. J’ai demandé à GPT4 de me décrire la photo de couverture de notre article sur le jeu Stray, qui est récemment sorti sur Mac, voici le résultat :

© iPhon.fr / Sami Trabcha

Comme vous pouvez le voir la description est précise et n’a rien à envier à ce que montre Google. Concernant les tests de performance supérieurs à GPT-4, il est bon de se rappeler que c’est un projet fini depuis plus d’un an déjà, et que Google a peiné à le dépasser de quelques points sur la plupart des critères, et n’y est pas parvenu sur certains.

D’une part, certains analystes estiment que vu le faible écart de score qu’il y a entre les deux, il n’y a pas d’évidence quant au fait que dans une utilisation réelle, il soit supérieur à GPT-4 étant donné que d’autres critères entrent en compte. Et d’autre part, alors qu’OpenAI développe GPT-5 depuis un moment déjà, Google fait à peine mieux que GPT-4, qui est sans doute bien moins performant que va l’être son petit frère.

Voir aussi :

i-nfo.fr - App officielle iPhon.fr
Par : Keleops AG
4.4 / 5
606 avis
Cliquez pour commenter

Sur le même sujet

Quitter la version mobile