Le lancement de Llama 4, la dernière génération de modèles d’intelligence artificielle développée par Meta, était censé marquer un tournant technologique. Présenté comme plus performant que GPT-4o d’OpenAI ou Gemini 2.0 de Google, ce nouveau modèle suscite aujourd’hui la controverse. Des experts accusent l’entreprise de manipuler ses benchmarks pour gonfler artificiellement ses performances. Alors, Meta a-t-elle réellement triché ?
Trois versions de Llama 4, trois ambitions
Dévoilé le 5 avril 2025, Llama 4 se décline en trois versions distinctes :
- Llama 4 Scout : 17 milliards de paramètres actifs sur 109 milliards.
- Llama 4 Maverick : également 17 milliards de paramètres actifs, mais sur un socle de 400 milliards.
- Llama 4 Behemot : 2 888 milliards de paramètres actifs sur un total de 2 000 milliards — un chiffre qui, en soi, soulève déjà des questions.
D’après Meta, ces modèles surpasseraient la concurrence sur divers critères d’évaluation. C’est particulièrement le cas de Llama 4 Maverick, qui aurait atteint un score ELO de 1 417 sur la plateforme LM Arena, devançant OpenAI.
Mais un détail a fait grincer des dents.
Une version “optimisée” pour les tests ?
Très vite, plusieurs chercheurs en IA ont constaté que la version de Llama 4 utilisée pour les benchmarks ne correspondait pas exactement à celle disponible au public. Sur LM Arena, Meta aurait déployé une mouture spécialement optimisée pour les conversations, afin d’obtenir de meilleurs résultats lors des comparaisons avec les autres modèles.
Résultat : une performance dopée qui ne reflète pas la réalité de la version officiellement accessible aux développeurs et utilisateurs. Certains y voient une stratégie délibérée de manipulation, visant à faire croire à une supériorité technologique qui n’existe pas en conditions réelles.
La réponse officielle de Meta
Face aux critiques, Meta a rapidement réagi. Ahmad Al-Dahle, vice-président de l’IA générative du groupe, a rejeté toute accusation de manipulation. Il a expliqué que les écarts observés étaient liés à des “bugs temporaires” dans les déploiements initiaux, et que les modèles testés n’avaient pas été spécifiquement entraînés sur des données de benchmark.
Meta assure désormais que des ajustements ont été faits pour homogénéiser l’expérience entre les versions internes et publiques. Reste à savoir si ces explications suffiront à convaincre une communauté tech de plus en plus exigeante en matière de transparence.
Une crise de confiance dans l’évaluation de l’IA
Cette polémique met en lumière un problème de fond : l’absence de standardisation claire dans les procédures de test et de comparaison des modèles d’IA. Lorsque les résultats deviennent un outil marketing, la tentation de les “arranger” peut vite faire basculer les entreprises dans des zones grises.
La confiance dans les modèles d’IA ne repose pas seulement sur leurs performances, mais aussi sur la transparence des méthodes utilisées pour les évaluer. À l’heure où ces technologies s’imposent dans de nombreux domaines sensibles (santé, finance, éducation…), ce type de controverse rappelle que la rigueur scientifique doit primer sur la course à la visibilité.
Source : Numerama