Alors que les Game Awards ont révélé les nommés de leur édition 2025, j’ai cherché une manière à la fois ludique et instructive de vous en parler, tout en abordant les biais et limites que peuvent présenter les intelligences artificielles. J’ai donc demandé à quatre des principaux chat conversationnels de voter dans chaque catégorie, puis j'ai analysé leurs réponses. Voici le résultat.
Les résultats
Avant d’examiner les votes, intéressons-nous d’abord à la qualité des réponses fournies par chaque IA, ainsi qu’à leur expérience utilisateur. À noter : j’ai utilisé, lorsque c’était possible, la version la plus récente avec le mode de raisonnement activé.
ChatGPT 5.1
Le système de raisonnement de ChatGPT est particulièrement bien pensé. Une barre latérale apparaît à droite et affiche les étapes prévues (sous forme de checklist) ainsi que les sources consultées, qui se complètent progressivement. Pour chaque catégorie, l’IA détaille d’abord son raisonnement jeu par jeu, puis annonce son choix final. Cela peut créer un léger effet brouillon, puisqu’il faut se rendre au bas de chaque paragraphe pour connaître le verdict. Les sources, quant à elles, apparaissent à la fois dans les sections concernées et en fin de réponse, un peu comme sur Wikipédia.

Claude Sonnet 4.5
Claude propose lui aussi un mode réflexion. Cette fois, le raisonnement et les étapes sont présentés dès le début, de manière plus compacte. Les résultats de recherche sont regroupés, ce qui facilite la lecture. En revanche, l’IA m’a initialement proposé plusieurs choix par catégorie. J’ai dû lui demander explicitement de n’en retenir qu’un seul, car un vote implique de trancher. Après cette précision, Claude a fourni un choix unique et une justification simple, mais suffisante pour ce que j’avais demandé.

Mistral
Pour Mistral, j’ai privilégié le mode “recherche”, présenté comme le plus avancé (compte tenu que je ne peut faire que 3 utilisations par jours). J’ai d’abord été agréablement surpris : avant de me répondre, Mistral m’a demandé de définir les critères d'objectivités pour le vote. Là où les autres IA se contentaient du prompt “vote neutre et objectif”, Mistral a compris qu’une vraie objectivité nécessite des critères mesurables. Je lui ai donc indiqué d’utiliser les notes des critiques, les avis des joueurs et le niveau d’innovation.

À partir de là, ses réponses ont été particulièrement bien organisées : gagnant, justification, puis les autres prétendants éventuels. Pour le GOTY, il a même fourni les notes Metacritic et OpenCritic avec les taux de recommandation, chose que je fait moi-même pour mes recommandations d’animes. Les sources sont présentes à chaque paragraphe, et l’historique des recherches reste discret.
En bref, peut-être est-ce mon côté chauvin, mais le classement de l’État français sur les meilleurs LLM semble assez juste : les résultats de Mistral ont été mes préférés… et pas seulement parce qu’il a presque toujours choisi Clair Obscur : Expédition 33 (qui est mon GOTY).

Gemini 3
J’ai eu la “chance” de réaliser ce test le jour de la sortie de la dernière version de Gemini, ce qui m’a permis de l’utiliser immédiatement avec un test concret. Comme Mistral, son raisonnement apparaît au début de la réponse dans un menu déroulant. En revanche, aucune source n’est fournie, ni dans le texte ni en fin de réponse : il faut donc s’en remettre à l’IA sur parole, ce qui est ironique pour un modèle développé par un moteur de recherche. Ses réponses restent néanmoins propres et concises : le gagnant, une explication, et rien de superflu. J'apprécie le fait qu'il précise que 2XKO était auparavant nommé Project L.

Les votes
Voici le tableau récapitulatif des votes des différentes IA. On peut y constater six unanimités, indiquées en gras, ainsi qu’une dualité pour le titre de GOTY entre Expedition 33 et Hades II. Toutefois, si vous connaissez bien ces jeux, certains choix devraient vous surprendre et c’est précisément ce que nous allons analyser dans la prochaine section.
| Catégorie | Claude | Mistral | Gemini 3 | ChatGPT |
|---|---|---|---|---|
| Jeu de l'Année (GOTY) | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Hades II | Hades II |
| Meilleure Direction | Death Stranding 2 | Clair Obscur: Exp. 33 | Ghost of Yōtei | Hades II |
| Meilleure Narration | Death Stranding 2 | Clair Obscur: Exp. 33 | Silent Hill f | Death Stranding 2 |
| Meilleure Dir. Artistique | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Hollow Knight: Silksong | Hollow Knight: Silksong |
| Meilleure Musique | Hollow Knight: Silksong | Hollow Knight: Silksong | Clair Obscur: Exp. 33 | Hades II |
| Meilleur Design Audio | Death Stranding 2 | Death Stranding 2 | Death Stranding 2 | Death Stranding 2 |
| Meilleure Performance | Ben Starr | Charlie Cox | Ben Starr | Ben Starr |
| Meilleur RPG | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 |
| Meilleur Jeu Indépendant | Hades II | Clair Obscur: Exp. 33 | Hades II | Hades II |
| Meilleur Premier Jeu Indé | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 | Clair Obscur: Exp. 33 |
| Meilleur Jeu Action/Aventure | Death Stranding 2 | Ghost of Yōtei | Ghost of Yōtei | Ghost of Yōtei |
| Meilleur Jeu pour la Famille | Mario Kart World | Donkey Kong Bananza | Donkey Kong Bananza | Donkey Kong Bananza |
| Meilleur Multijoueur | Battlefield 6 | Split Fiction | Battlefield 6 | Battlefield 6 |
| Meilleure Adaptation | The Last of Us: S2 | The Last of Us: S2 | The Last of Us: S2 | The Last of Us: S2 |
| Jeu le plus Attendu | Grand Theft Auto VI | Grand Theft Auto VI | Grand Theft Auto VI | Grand Theft Auto VI |
| Meilleur Jeu Simu/Stratégie | Sid Meier's Civ. VII | Sid Meier's Civ. VII | Sid Meier's Civ. VII | Sid Meier’s Civ. VII |
| Meilleur Jeu Service/Support | Final Fantasy XIV | Final Fantasy XIV | Helldivers 2 | Final Fantasy XIV |
| Meilleur Support Communauté | Helldivers 2 | Baldur’s Gate 3 | Baldur’s Gate 3 | Baldur's Gate 3 |
| Meilleur "Game for Impact" | Lost Records B&R | Lost Records B&R | Lost Records B&R | South of Midnight |
| Meilleur Jeu d'Action | Hades II | Shinobi: AoV | Doom: The Dark Ages | Hades II |
| Meilleur Jeu de Combat | Fatal Fury: CoTW | Fatal Fury: CoTW | Fatal Fury: CoTW | 2XKO |
| Meilleur Jeu Sport/Course | Mario Kart World | Sonic Racing: CW | EA Sports FC 26 | EA Sports FC 26 |
| Innovation Accessibilité | AC Shadows | Doom: The Dark Ages | Atomfall | Atomfall |
| Meilleur Jeu Mobile | Wuthering Waves | Wuthering Waves | Wuthering Waves | Persona 5: The Phantom X |
| Créateur de Contenu de l'Année | Caedrel | Kai Cenat | Kai Cenat | Kai Cenat |
| Meilleur Jeu eSports | League of Legends | Valorant | Counter-Strike 2 | Counter-Strike 2 |
| Meilleur Athlète eSports | Chovy | ZywOo | Zyw0o | Zyw0o |
| Meilleure Équipe eSports | Gen.G - LoL | Team Vitality | Gen.G - LoL | Team Vitality |
Les limites de l’IA
J’ai choisi de baser cet article sur les Game Awards pour plusieurs raisons.
Premièrement un modèle d’intelligence artificielle se base sur des jeux de données qui vont obligatoirement le biaiser et cela à plusieurs moments du processus de création du LLM, que cela soit dans la récolte des données (une population, sa culture et donc sa façon de penser va changer en fonction de l’endroit où les données proviennent, il faudrait pouvoir avoir des données de façon égale pour chaque pays du monde pour mieux représenter le monde tel qu’il est réellement), la façon dont ils sont étiquetés (souvent dans des pays du tiers monde, dans des situations qui forcent à la rapidité et donc à de potentielles imprécisions) ou bien même avec les pré-prompts donnés (Elon Musk a volontairement modifié Grok pour y rajouter des prompts conservateurs pour orienter son IA qu’il jugeait trop “de gauche”). Tout cela amène à des résultats différents pour des questions identiques. Or lorsqu’on demande un traitement objectif, on ne peut avoir plusieurs résultats différents, l’objectivité relève des faits et non des avis, quelque chose impossible à empêcher lorsque l’on implique des biais humains dans la création d’une IA.

Dans certains cas, ces biais peuvent entraîner des discriminations. C’est-à-dire que l’algorithme aboutit à des propositions différentes selon, entre autres, que la personne soit d’un genre ou d’une origine ethnique spécifique. — Institut Montaigne
Deuxièmement, une IA ne pourra jamais évaluer un jeu vidéo ou toute autre œuvre artistique. Comment pensez-vous que les IA ont fait pour me donner leurs avis ? Elles n’ont pas joué aux jeux, elles n’ont pas non plus regardé un Let’s Play sur YouTube, ni même créé d’algorithme d’évaluation par rapport à des critères provenant d’avis. Elles ont juste regardé quelques critiques de presse et des avis sur les forums, d’ailleurs en regardant ce que faisait ChatGPT j’ai remarqué qu’il se basait beaucoup sur jeuxvideo.com, j’ai dû lui dire qu’il pouvait regarder des sites anglophones (car je lui avait posé la question en français ce qui la biaisé) et qu’il devait faire attention aux sites qui pouvaient avoir des conflits d’intérêts de par leurs revenus publicitaires provenant de studios de jeux vidéo, dans ce cas précis je pensait là aussi à jeuxvideo.com qui a mis la note de 16/20 à Call of Duty Black Ops 7, sûrement l’un des pires de la licence avec un 5/20 de la part de ses lecteurs, puis quelques jours plus tard a réalisé des vidéos sponsorisées pour parler de Call of Duty, un cas d’ailleurs très inquiétant pour l’un des plus gros sites de jeux vidéo d’Europe et qui est souvent jugé comme donnant des notes trop élevées. Ainsi, ici le biais ne vient pas de l’IA mais de là où elle prélève ses informations, ce sont ses sources mêmes qui vont orienter ses choix, créant inévitablement une forme de subjectivité.
Pour contourner ce problème, toutes les IA ont pensé à utiliser Metacritic et OpenCritic. C’est une approche logique : lorsqu’on voit une liste de nommés, notre premier réflexe est souvent de comparer les notes. Mais est-ce que cela suffit vraiment ? L’historique des Game Awards montre que non.
- En 2016, Overwatch (90 %) remporte le GOTY face à The Witcher 3 (92 %) et Uncharted 4 (93 %).
- En 2018, God of War (94 %) bat Red Dead Redemption 2 (95 %).
- En 2021, It Takes Two est élu GOTY alors que Forza Horizon 5 pourtant à 92 % n’était même pas nommé.
On comprend donc que la note ne fait pas le GOTY et cela crée une réflexion hors sujet de la part des IA car de par leurs raisonnements flous, même avec la possibilité de voir la réflexion qu’elles ont, il se peut qu’elles ne comprennent pas exactement le prompt et donnent ainsi un résultat faussé avec un semblant de ce que l’on voulait. Ainsi parmi les 4 chats conversationnels que j’ai testés dans cet article, 2 m’ont donné comme GOTY Hades II en expliquant qu’il avait la meilleure note Metacritic sans savoir comment est élu un GOTY car ce titre n’est pas décerné au jeu avec la meilleure note, il est décerné à celui qui a eu le plus gros impact sur l’industrie. Si Overwatch a obtenu cette récompense c’est exactement pour cette raison, car il a ouvert la voie à une nouvelle façon de faire du multijoueur : un mélange de MOBA et de fast FPS que l’on appellera par la suite hero shooter. Son impact n’a pas été si puissant qu’attendu, il faudra attendre plus tard pour voir des hero shooters exister et même disparaître avec Concord, mais il est la représentation d’une évolution dans le paysage. Le seul jeu qui n’a pas eu cet honneur c’est Fortnite car le thème du battle royale existait déjà avant, que ça soit avec PUBG, Minecraft ou Arma. Si Gemini et ChatGPT avaient réfléchi sur l’impact des jeux nommés dans l’industrie ils auraient compris que c’est Clair Obscur : Expédition 33 le plus grand favori de tous car nonobstant d’avoir la meilleure note des utilisateurs Metacritic de l’histoire il a réussi le tour de maître d’être un chef-d’œuvre réalisé par un studio de près de 30 développeurs dont la quasi-entièreté était des juniors. Et même si cette année est très particulière car il y a plus de jeux indés nommés au GOTY que de AAA, les autres jeux indés sont en plus d’être des suites, soit provenant d’équipes plus expérimentées (Hades et KCD2) soit des équipes composées de millionnaires qui pouvaient finir le jeu quand ils le voulaient avec aucune pression financière (Silksong). Ainsi la seule IA qui a eu la présence d’esprit de me demander les critères pour un vote objectif a été Mistral AI. Bon malheureusement après il a oublié de me mettre la moitié des catégories dans le tableau récapitulatif… mais au moins lui il a essayé de faire un tableau récapitulatif.
Conclusion
Si vous avez lu cet article dans son intégralité, vous comprenez désormais pourquoi il ne faut jamais faire une confiance aveugle aux intelligences artificielles : elles sont le produit de biais humains, qu’ils proviennent des données, du contexte, des sources, ou même d’une mauvaise interprétation de la demande.
Pour autant, elles ne sont pas à éviter, les IA permettent d’accomplir rapidement certaines tâches humaines, tant qu’elles ne reposent pas sur des critères subjectifs ou sensibles. Dans cet article, par exemple, j’ai utilisé Gemini 3 pour créer le tableau des votes, un autre tableau recensant les nommés au GOTY avec leurs notes metacritic et opencritic, et, comme pour tous mes articles, j’ai confié la correction orthographique et syntaxique à ChatGPT. Ce sont des tâches fondées sur des données tangibles (et dont le travail pour un humain est fastidieux), même si une relecture reste indispensable pour éviter les erreurs d’interprétation (et j'en ai tout le temps).
J’espère que cet article vous aura permis de mieux comprendre l’utilisation de l’IA tout en vous amusant à découvrir la diversité de leurs réponses. J’ai essayé d’être à la fois pédagogique et ludique.