Cette semaine a été riche en présentations pour l'intelligence artificielle, puisque juste avant la Google I/O, OpenAI a organisé une keynote qui a réussi en seulement 20 minutes à surpasser les deux heures prévues pour celle de Google le lendemain. Alors, qu'en est-il de cette compétition entre Google et OpenAI concernant l'IA, et pourquoi la Google I/O a-t-elle été si décevante ?

L'annonce de GPT-4o

La stratégie d'OpenAI est astucieuse mais très efficace : organiser une conférence juste avant ses concurrents. Consciente de son avance sur eux, elle sait que le public retiendra davantage ses annonces que celles des GAFAM. Ce fut une nouvelle fois le cas avec l'annonce de GPT-4o : la version multimodale de GPT-4. Jusque-là, rien de très surprenant, le modèle de Google, appelé Gemini, fait déjà cela, avec en prime une capacité d'un million de tokens contre les 128 milles de GPT-4. Ce qui est plus intéressant, c'est la compétence de l'agent conversationnel à répondre avec une voix fluide et humaine avec seulement 320 ms de latence en moyenne, soit un temps "équivalent" à celui des humains. Une prouesse technique qui n'a pas tardé à susciter des comparaisons avec le film "Her", de plus en plus inévitables. Cependant, il faudra un peu de patience, car pour l'instant, la fonctionnalité de communication vocale de l'IA n'est pas disponible sur le site pour les utilisateurs de ChatGPT Plus, qui commencent à adopter cette nouvelle version au fil des jours. Pour les utilisateurs gratuits, pas d'inquiétude, ils auront également accès à cette version dans très peu de temps, ce qui laisse penser que GPT-5 pourrait bientôt arriver, car dans son état actuel, l'offre payante perd de son intérêt.

Un thread d'exemples d'utilisation de GPT-4o

Une Google I/O décevante

Passons maintenant à la Google I/O, qui a lieu chaque année début mai et qui a l'habitude de nous dévoiler un peu plus sur le futur d'Android, avec parfois des annonces concernant la gamme Pixel (les versions "a"), ou encore des futurs appareils comme le Pixel Fold, ainsi que des appareils connectés Nest, avant même que la conférence "Made by Google" n'existe. Mais cette année, tout cela a été relégué au second plan au profit de Gemini.

Le récapitulatif de la Google I/O

Vous reprendrez un petit peu de Gemini ?

Vous connaissez ces conférences interminables de deux heures où l'on répète trois fois la même chose, mais dans trois sections différentes ? Eh bien, c'était exactement le cas de cette keynote. Le problème ? Sundar Pichai a littéralement spoilé l'intégralité du contenu dès le début de la conférence, et les sections suivantes n'ont pas apporté grand-chose de nouveau. Nous nous sommes donc retrouvés à écouter trois fois des personnes dire que le nombre de tokens pour Gemini passerait de 1 million à 2 millions.

Limite de token par IA

Autre nouveauté importante, Gemini Flash, qui sera spécialisé dans les réponses rapides comme GPT-4o. Cependant, il s'agit d'une version séparée de Gemini Pro, donc potentiellement moins puissante. Cela pose donc la question suivante : GPT-4o est-il aussi puissant que GPT-4, comme OpenAI nous l’a laissé penser ? Si tel est le cas, cela signifie qu’en plus d’avoir Gemini Pro 1.5 moins puissant que GPT-4, Gemini Flash, qui est censé être moins puissant que Gemini Pro, aura alors vraiment du mal à rivaliser avec GPT-4o. On peut noter aussi l'annonce de Veo pour la génération de vidéo et de Imagen 3 pour l'image, mais sans date de sortie pour le grand public, avec seulement la possibilité de s'inscrire dans une waitlist.

Google Veo — 5 amazing videos made by the new AI video generator | Tom's  Guide
Exemple de génération faite par Veo

Enfin, la plus grosse annonce a été la présentation du projet Astra : une fusion entre Gemini Flash et Google Assistant pour sa capacité à parler et qui est montré comme le concurrent direct de GPT-4o. Cependant, la voix du projet Astra reste tout de même très robotique et suscite pas mal de doutes quant à sa qualité. Nous n'avons pas beaucoup d'informations pour l'instant, mais il semble logique que le modèle utilisé soit plus performant que Gemini Flash, néanmoins, la présentation, qui a été réalisée via vidéo, nous rappelle une précédente présentation de décembre 2023 qui s'était révélée être un montage ne correspondant pas à la réalité. Depuis, les spécialistes restent sceptiques et attendent de voir le résultat en direct... ce qui n'a pas été fait lors de cette Google I/O. On peut tout de même remarquer la présence à la fin de la démonstration de l'utilisation de lunettes de réalité augmentée, ce qui semble prometteur, à condition que Google envisage de relancer ses Google Glass.

Présentation du projet Astra

Qu'en est-il d'Android, des Pixels et de la domotique ?

Terminons sur mon avis concernant cette conférence de la part de Google. Chaque année, j'attends avec impatience la Google I/O, une conférence initialement dédiée aux développeurs, mais qui au fil des années s'est ouverte à un public plus large, dévoilant même des produits destinés à la vente. C'était quelque chose qui existait par défaut, car faute d'autres conférences, Google ne pouvait présenter ses produits qu'ici. Mais depuis la création de la conférence "Made by Google", il y a de moins en moins de présentations de produits à la Google I/O. Il ne reste plus que les Pixel "a" qui sont présentés pour être en décalage des autres versions. Mais même là, Google décidé de les annoncer quelques jours avant pour se concentrer entièrement sur l'IA lors de la conférence, un choix mal accueilli, car Android a été relégué à seulement quelques minutes, et encore, en lien avec l'IA. Je comprends que l'on puisse vouloir se concentrer uniquement sur l'IA, mais quid des Google Nest, Nest Hub ou Chromecast ? Google a clairement l'intention de remplacer Google Assistant par Gemini, mais pourquoi ne pas avoir annoncé une version de Google Nest avec Gemini ou une mise à jour des modèles existants ? Il y a des rumeurs concernant un nouveau Chromecast, mais aucune information n'a été donnée à ce sujet. C'est dommage, car la prochaine conférence de Google aura probablement lieu en octobre, et pour l'instant, la seule façon d'utiliser Gemini sera via Internet et sur smartphone dans le futur puisqu’on nous a donné aucune date.

À quand la disponibilité ?

Si vous avez suivi les annonces de 2023, vous savez peut-être que Google est assez avare en ce qui concerne la sortie de ses modèles sur le vieux continent, et encore plus en France. C'est une pratique que je ne comprends toujours pas pour une entreprise aussi importante, alors même qu'OpenAI lance ses produits dans le monde entier. Cette année, c'est la même chose, avec des sorties de fonctionnalités prévue "avant la fin de l'année", mais seulement pour les États-Unis, pour la France, on se contente d’avoir la sortie de Gemini 1.5 pro disponible depuis 1 an aux États-Unis grâce à l’abonnement Google One AI Premium à 21,99€. Autant dire qu'il faudra encore attendre, tout comme nous attendons depuis des années de nombreuses fonctionnalités telles que celle permettant de parler à voix basse lors d'une conversation téléphonique que l'on ne veut pas prendre, ou celle permettant de prendre une réservation pour un restaurant. Autant de fonctionnalités qui nous font craindre le pire quant à la disponibilité des nouvelles fonctionnalités de Gemini en France.