Les IA d’OpenAI et Meta encore loin du compte : l’étude d’Apple qui dévoile leurs failles

Quand l’IA est moins douée qu’un élève de CE2 pour résoudre un problème de maths…

Publié le

14 octobre 2024 à 15:17

Par

Camille Coirault

Un gros grain de sable bloquerait les engrenages de certains systèmes d’IA ? C’est ce que suggère la dernière étude des chercheurs d’Apple, qui vient secouer le cocotier de l’intelligence artificielle. Alors que les géants du secteur comme OpenAI (ChatGPT) et Meta (Llama) font la course en tête, l’analyse de Cupertino révèle que leurs modèles de langage avancés ont encore du chemin à faire, notamment en matière de raisonnement fondamental.

Des maths qui donnent des boutons aux chatbots

L’équipe d’Apple a concocté un nouveau benchmark, baptisé GSM-Symbolic, pour mettre à l’épreuve les capacités de raisonnement des grands modèles de langage. Et le résultat est sans appel : il suffit de changer quelques mots dans une question pour que ces IA dernier cri se mettent à patauger dans la semoule. De très légères modifications dans la formulation des requêtes entraînaient des réponses radicalement différentes.

L’étude a exploré la « fragilité » du raisonnement mathématique en ajoutant des informations contextuelles aux requêtes. Ces informations, compréhensibles par un humain, mais sans impact sur la solution mathématique, ont néanmoins conduit à des réponses bien trop variables.

Dans leur rapport, le groupe de recherche explique : « […] Les performances de tous les modèles diminuent même lorsqu’on ne modifie que les valeurs numériques dans les questions du test GSM-Symbolic. De plus, la fragilité du raisonnement mathématique dans ces modèles montre que leurs performances se détériorent nettement à mesure que le nombre de clauses dans une question augmente ». Pas très rassurant.

Prenons un exemple concret ; l’équipe a développé un problème mathématique, baptisé « GSM-NoOp », comparable à un problème de maths niveau primaire. L’énoncé était le suivant : « Oliver cueille 44 kiwis vendredi, 58 samedi, et le double de vendredi dimanche. Parmi ceux de dimanche, cinq étaient plus petits que la moyenne. Combien de kiwis Oliver a-t-il au total ? » Vous avez la réponse ? Pas les IA d’OpenAI et Meta, qui se sont empressées de soustraire les cinq petits kiwis du total, alors que cette information était sans aucune importance pour le calcul final.

L’étude montre que l’ajout d’une seule phrase superflue peut faire chuter la précision des réponses jusqu’à 65 %. « Il est tout simplement impossible de créer des systèmes fiables sur cette base, où le fait de changer un mot ou deux de manière insignifiante, ou d’ajouter quelques informations non pertinentes, peut donner une réponse complètement différente » concluent les chercheurs.

Skynet, ce n’est pas pour maintenant

L’étude d’Apple ne se contente pas de pointer du doigt les erreurs de calcul. Elle met en lumière un problème plus profond : ces modèles de langage, aussi sophistiqués soient-ils, ne raisonnent pas réellement. Créer une conscience artificielle est un défi immense qui dépasse (pour l’instant) largement nos connaissances actuelles en neurosciences et en informatique. La conscience humaine est un phénomène extrêmement complexe qui implique bien plus que la simple capacité à traiter de l’information.

Les chercheurs ont donc conclu qu’ils n’avaient « trouvé aucune trace de véritable raisonnement dans les modèles de langage ». Même si Apple investit massivement dans la recherche en IA, il est peu probable, selon les données actuelles, que l’entreprise parvienne à faire bien mieux avec Apple Intelligence. Alors, faut-il jeter le bébé IA avec l’eau du bain ? Pas si vite. Cette étude, plutôt que de sonner le glas de l’intelligence artificielle, souligne plutôt l’importance de poursuivre les recherches pour renforcer ces systèmes.

Les IA d’OpenAI et Meta échouent face à de simples modifications dans des questions mathématiques.
Le benchmark GSM-Symbolic révèle que ces modèles changent radicalement de réponse avec de légers ajustements d’énoncés.
L’étude conclut que ces IA reposent sur des schémas répétitifs, sans véritable compréhension logique.