Google I/O 2024 : suprématie de Gemini et omniprésence de l'IA

Le keynote annuel de Google, Google I/O 2024, s’est fortement concentré sur Gemini. « Nous sommes entrés de plain-pied dans l’ère Gemini », a déclaré le PDG d’Alphabet, Sundar Pichai dans son discours d’ouverture depuis Mountain View. Les annonces qui ont suivi ont été dominées par l’omniprésence de Gemini, mettant en avant de nouvelles fonctionnalités présentées comme les meilleures de leur catégorie voire révolutionnaires. Focus sur un événement où l’IA devient sans limite dans les produits Google.

Principale nouveauté liée au Search : omniprésence de l’IA Gemini dans le moteur de recherche Google

La principale nouveauté en matière de recherche annoncée par Google I/O est sans aucun doute l’intégration d’une IA multimodale, capable de se “comporter” et d’interagir comme le ferait un être humain.

La firme Mountain View a introduit le raisonnement en plusieurs étapes avec l’aide de l’IA (le Multi-Step Reasoning). Cette fonctionnalité vise à permettre au moteur de recherche de répondre à des requêtes complexes en regroupant les réponses dans une seule fenêtre, sans passer par les liens traditionnels cliquables.

Gemini : star du Search en 2024

Le modèle d’IA Gemini est capable de comprendre et de traiter différents types de contenus, comme le texte, les images et les vidéos. Gemini 1.5 pro devrait permettre de fournir des résultats de recherche toujours plus pertinents et plus complets sans passer par la barre de recherche traditionnelle actuelle.

Résumé de la conférence de Sundar Pichai : l’ère des Gémeaux

L’annonce met en avant les progrès de Google dans le domaine de l’IA, notamment avec le modèle Gemini, et comment il transforme ses produits et services.

Points clés à retenir :

L’ère des Gémeaux : Google est entré dans une nouvelle ère avec Gemini, un modèle multimodal de pointe capable de comprendre et de générer du texte, des images, des vidéos, du code, etc.
Progrès de Gemini : Gemini a démontré des performances de pointe sur les benchmarks multimodaux et a été intégré à de nombreux produits Google.
Intégration de Gemini dans les produits: Gemini est utilisé dans la recherche Google, Google Photos, Google Workspace, Android et bien plus encore.

Nouvelles fonctionnalités 2024 : l’IA au service de tous

« AI Overview » remplace Google SGE

Google SGE devient « AI Overview » pour les utilisateurs américains, avec l’intention de l’étendre « bientôt à d’autres pays ». Cette nouvelle expérience de recherche générative fournit des résumés complets et des informations contextuelles.
Sundar Pichai a ajouté que « d’ici la fin de l’année, les aperçus de l’IA seront disponibles pour plus d’un milliard de personnes utilisant la recherche Google » (…). Nous voulons que tout le monde profite de ce que Gemini peut faire », source Google The Keyword, 14 05 2024.

Ask Photos

« Ask Photos » est une nouvelle fonctionnalité de Google Photos qui utilise l’intelligence artificielle de Gemini pour vous aider à rechercher vos souvenirs de manière plus intuitive et puissante.

Voici comment Ask Photos fonctionne :

Recherche naturelle : au lieu de devoir se souvenir de mots-clés précis, vous pouvez poser des questions à Gemini comme vous le feriez à un assistant. Par exemple, vous pouvez demander « Montre-moi les photos de mon voyage à Paris » ou « Quand est-ce que ma fille a appris à faire du vélo ? »
Compréhension du contexte : Ask Photos comprend le contexte de vos questions et peut identifier les éléments importants dans vos photos, comme les personnes, les lieux, les objets et les dates.
Résultats pertinents : Ask Photos vous présente les photos les plus pertinentes en fonction de votre requête, même si elles ne contiennent pas les mots-clés exacts que vous avez utilisés.
Résumé des souvenirs : Ask Photos peut également vous proposer un résumé de vos souvenirs, en regroupant les photos et les vidéos qui correspondent à votre requête.

Exemples d’utilisation d’Ask Photos :

Trouver une photo spécifique : vous cherchez une photo de votre chien sur la plage ? Demandez à Ask Photos « Montre-moi les photos de mon chien sur la plage ».
Identifier un objet : vous avez oublié le nom d’une plante que vous avez photographiée ? Demandez à Ask Photos « Quelle est cette plante ? »
Revivre un événement : vous voulez revivre votre voyage de noces ? Demandez à Gemini « Montre-moi les photos de mon voyage de noces ».
Créer un album photo : vous voulez créer un album photo de votre enfant ? Demandez à Photos « Crée un album photo de mon enfant ».

Fonctionnalité révolutionnaire, Ask Photos rend la recherche de souvenirs dans Google Photos plus facile et plus agréable. Elle utilise la puissance de l’IA pour comprendre vos requêtes et vous présenter les photos les plus pertinentes.

Gemini 1.5 Pro : star de la multimodalité

Gemini 1.5 Pro est une version avancée du modèle d’IA multimodal de Google, Gemini. Il se distingue par sa capacité à gérer des contextes longs, ce qui signifie qu’il peut traiter et comprendre de grandes quantités d’informations à la fois.

Voici quelques points clés sur Gemini 1.5 Pro :

Capacités clés de Gemini 1.5 Pro

Fenêtre contextuelle de 1 million de jetons : Gemini 1.5 Pro peut traiter jusqu’à 1 million de tokens de texte, ce qui équivaut à environ 750 000 mots. Cela lui permet de comprendre et de raisonner sur des documents longs, des conversations complexes, des codes sources entiers, etc.
Multimodalité : comme tous les modèles, Gemini est multimodal, ce qui signifie qu’il peut comprendre et générer du texte, des images, des vidéos, de l’audio et du code.
Performances améliorées : Gemini 1.5 Pro a été entraîné sur un ensemble de données plus important et plus diversifié, ce qui lui permet d’offrir des performances améliorées dans des tâches telles que la traduction, le codage, la génération de texte et le raisonnement.

A savoir sur les tokens et les LLM :

Un « token » pour un LLM (Large Language Model) est une unité de base de texte. Imaginez-le comme un « morceau » de mot, un caractère ou une partie d’un mot.

Un million de tokens, c’est donc une énorme quantité de texte ! Pour vous donner une idée :

Un million de tokens équivaut à environ 750 000 mots.
Cela représente environ 300 pages de texte.
C’est plus que le nombre de mots dans un roman entier.

Pourquoi est-ce important pour un LLM ?

La capacité d’un LLM à traiter un grand nombre de tokens est cruciale pour plusieurs raisons :

Compréhension du contexte : un LLM avec une grande fenêtre contextuelle peut comprendre et se souvenir d’une plus grande quantité d’informations, ce qui lui permet de mieux saisir le contexte d’une conversation ou d’un document.
Raisonnement complexe : un LLM avec une grande fenêtre contextuelle peut effectuer des tâches de raisonnement plus complexes, comme la résolution de problèmes mathématiques, la génération de code ou la rédaction d’articles longs et cohérents.
Traitement de documents longs : un LLM avec une grande fenêtre contextuelle peut traiter des documents longs, comme des livres, des articles scientifiques ou des codes sources, sans perdre le fil de la conversation.

Bientôt deux millions de tokens ?

1 million de tokens pour un LLM représente une capacité de traitement du langage considérable, permettant de comprendre des contextes plus vastes, de raisonner de manière plus complexe et de traiter des documents longs.

Gemini 1.5 Pro, avec sa fenêtre contextuelle devrait s’étendre à 2 millions de tokens, devenant capable de gérer des quantités massives de texte, ouvrant ainsi de nouvelles possibilités pour les applications d’IA. Cette fonctionnalité est disponible pour les développeurs en aperçu privé.

Avantages de Gemini pour les utilisateurs

Traitement d’informations complexes : Gemini 1.5 Pro peut gérer des tâches qui nécessitent une compréhension approfondie du contexte, comme la rédaction d’articles longs, la traduction de documents techniques ou la création de scripts de code complexes.
Expériences plus immersives : la multimodalité de Gemini 1.5 Pro permet de créer des expériences plus immersives et interactives, par exemple en générant des vidéos ou des images à partir de descriptions textuelles.
Possibilités de développement accrues : les développeurs peuvent utiliser Gemini 1.5 Pro pour créer des applications et des services toujours plus puissants et plus intelligents.

Disponibilité de Gemini 1.5 Pro

Développeurs : Gemini 1.5 Pro est disponible pour les développeurs via AI Studio et Vertex AI.
Consommateurs : Gemini 1.5 Pro est également disponible pour les consommateurs via Gemini Advanced, qui offre un accès aux modèles les plus performants de Google.

Gemini 1.5 Pro est une avancée majeure dans le domaine de l’IA, offrant des capacités de traitement du langage et de la multimodalité inégalées.
Il ouvre de nouvelles possibilités pour les développeurs et les utilisateurs, permettant de créer des applications et des expériences plus intelligentes et plus immersives.

Generative media : VEO

VEO est un système d’IA développé par Google DeepMind, spécialisé dans la génération de vidéos. Il s’agit d’une avancée majeure dans le domaine de la création de contenu vidéo, permettant de générer des vidéos réalistes et de haute qualité à partir de descriptions textuelles (prompts ou invite).

Voici quelques points clés sur Veo :

Capacités clés de VEO :

Génération de vidéos à partir de texte : Veo peut créer des vidéos à partir de descriptions textuelles détaillées, en incluant des éléments comme les personnages, les décors, les actions et les émotions.
Contrôle créatif : Les utilisateurs peuvent contrôler différents aspects de la vidéo, comme la durée, le style, la musique et les effets spéciaux.
Réalisme et qualité : Veo génère des vidéos réalistes et de haute qualité, avec des mouvements fluides, des effets visuels convaincants et une attention aux détails.

Applications potentielles de VEO :

Création de contenu : Veo peut être utilisé pour créer des vidéos marketing, des tutoriels, des animations, des films courts et bien plus encore.
Éducation : Veo peut aider à créer des supports éducatifs interactifs et engageants.
Divertissement : Veo peut être utilisé pour créer des jeux vidéo, des expériences immersives et des contenus de divertissement interactifs.
Simulation : Veo peut être utilisé pour créer des simulations réalistes pour la formation, la recherche et le développement.

Veo de nouvelles possibilités pour la création de contenu

Veo représente une avancée significative dans le domaine de la génération de contenu vidéo. Il permet aux utilisateurs de créer des vidéos de haute qualité sans avoir besoin de compétences techniques ou d’équipements coûteux.
Cela ouvre de nouvelles possibilités pour la création de contenu, l’éducation, le divertissement et bien d’autres domaines.

Imagen 3

Imagen 3 est la dernière version du modèle d’IA de Google spécialisé dans la génération d’images à partir de descriptions textuelles. Il s’agit d’une avancée majeure dans le domaine de la création d’images par l’IA, offrant une qualité d’image et un niveau de réalisme encore plus élevés que les versions précédentes, comme Imagen 2, lancée en décembre 2023.

Voici quelques points clés sur Imagen 3 :

Capacités clés :

Génération d’images réalistes : Imagen 3 peut créer des images de haute qualité, avec des détails précis, des textures réalistes et des compositions complexes.
Compréhension du langage : il peut comprendre des descriptions textuelles complexes et les traduire en images visuellement cohérentes.
Contrôle créatif : les utilisateurs peuvent contrôler différents aspects de l’image générée, comme le style, la composition, les couleurs et les détails.
Diversité de styles : Imagen 3 peut générer des images dans une variété de styles, allant du photo-réalisme à l’art abstrait.

Avancées par rapport à Imagen 2

Qualité d’image améliorée : Imagen 3 offre une résolution d’image plus élevée et des détails plus précis.
Compréhension du langage plus avancée : il peut comprendre des descriptions textuelles plus complexes et plus nuancées.
Contrôle créatif accru : les utilisateurs ont plus de possibilités de personnaliser les images générées.
Diversité de styles élargie : Imagen 3 peut générer des images dans un éventail de styles encore plus large.

Projet Astra : révolutionner la façon dont nous interagissons avec les technologies

Le projet Astra est un projet de recherche et développement mené par Google DeepMind, visant à créer un agent IA universel.
Astra serait capable de comprendre et d’interagir avec le monde de manière multimodale et intelligente. Il représente une avancée majeure dans le domaine de l’IA, avec le potentiel de révolutionner la façon dont nous interagissons avec les technologies.

Voici ce que l’on sait sur le projet Astra :

Objectif : créer un agent IA capable de comprendre et d’interagir avec le monde de manière multimodale, en utilisant des informations provenant de différentes sources, comme le texte, les images, les vidéos, l’audio et le code.
Capacités : Astra vise à combiner les capacités de raisonnement, de planification, de mémoire et d’apprentissage des agents IA avec la compréhension multimodale de modèles comme Gemini.
Fonctionnement : Astra est conçu pour être un agent conversationnel en temps réel, capable de comprendre les intentions des utilisateurs, de répondre à leurs questions et de les aider à accomplir des tâches complexes.
Exemples d’utilisation : Google DeepMind a présenté des exemples d’utilisation d’Astra pour des tâches comme la planification de voyages, la recherche d’informations et l’aide à la prise de décision.
État actuel : Astra est encore en phase de développement et n’est pas encore disponible au public.

Il est important de noter que les informations sur le projet Astra sont encore limitées, car il s’agit d’un projet de recherche en cours. Google DeepMind n’a pas encore publié de détails complets sur ses fonctionnalités, ses capacités ou sa date de sortie.

Google Keynote Google I/0 2024 en intégralité

Impact sur le Search de Gemini

La fonction “AI Overview” de Google Search permettra aux utilisateurs d’obtenir des résumés des sites web sans avoir à les visiter.
Suprématie de l’intelligence artificielle et du dialogue avec celle-ci ; donc moins de clics et moins de liens vers les sites web… sauf, peut-être en référencement local.

Des requêtes locales plus précises et un affichage multimodal

Cependant, pour rester dans la course et être pioché par l’IA lors d’une requête ou conversation, le SEO On-site (et off-page) des sites, les fiches GMB devront être toujours plus pertinents, qualitatifs et eux-aussi, basés sur la multimodalité.

Source video, Google the Keyword

Recherche visuelle améliorée

L’ IA de Google comprend tout : images, ambiance, lieu, sons et musique… Grâce à la caméra du téléphone, elle voit, entend, analyse les situations et concepts, comme le ferait un être humain.

Vous pouvez désormais poser des questions sur des objets en mouvement dans une vidéo, comme « Pourquoi mon tourne-disque ne fonctionne pas ? »
L’IA analyse la vidéo et fournit des informations pertinentes, des étapes à suivre et des ressources pour résoudre le problème.
Cette fonctionnalité vous évite de devoir décrire le problème avec des mots, ce qui vous fait gagner du temps et vous permet d’obtenir des réponses plus rapidement.

Ces nouvelles fonctionnalités devraient avoir un impact significatif sur le Search, en rendant les résultats de recherche plus pertinents, plus complets et plus faciles d’accès. Cela signifie que les sites web devront s’adapter à ces changements pour maintenir leur visibilité et leur trafic. La recherche sera omnicanale et multimodale. Reste à savoir comment les utilisateurs vont se servir de cette IA débordante et omniprésente.

Comme le mentionne Greg Sterling dans son article, « Google a mis l’accent sur les liens et l’envoi de trafic vers des sites Web dans son discours d’ouverture. Mais l’impression dominante véhiculée est que l’ensemble du Web et tous les contenus servent désormais plus ou moins de nourriture à la machine IA de Google« , source Google I/O: Gemini Dominates Search, SGE Goes Live.

Intégrations de l’IA dans tous les produits Google

Comme le mentionne Pichai, « grâce à Gemini, nous pouvons créer des expériences de recherche beaucoup plus puissantes, y compris au sein de nos produits« , source Google THE KEYWORD, 14 05 2024.
Google a annoncé l’ajout d’un nouveau raccourci vers Gemini depuis Chrome et bientôt avec l’application mobile dédiée, il sera possible d’effectuer une recherche avec Gemini directement depuis la barre de recherche du navigateur.

Des produits Google plus intelligents ?

En plus de la recherche, les annonces sur Gemini touchent presque toutes les catégories de produits : DeepMind, Android, Assistant, Workspace, Photos, Google Cloud et autres.

Gemini peut bientôt tout faire ! Le Gemeau, multimodal, est conçu pour assister et améliorer l’efficacité de toutes les recherches, même les plus complexes.

Ces intégrations de l’IA devraient rendre les produits Google plus “intelligents”, plus intuitifs et plus faciles à utiliser.

Révolutionner notre manière de communiquer avec Gemini

La conférence Google I/O 2024 a mis en évidence la volonté de Google d’intégrer l’intelligence artificielle au cœur de son développement. Les innovations dévoilées, telles que Gemini, VEO et Ask Photos (et video), devraient révolutionner notre façon de communiquer et d’interagir avec notre environnement à la fois physique et numérique.

Après une année de développement, le lancement officiel des aperçus SGE/AI et les changements de SERP qui en découlent signifient le début d’une nouvelle ère incertaine pour la recherche et le référencement. Affaire à suivre de très près en 2024.

Sources de l’article

Google The Keyword 14 05 2024
Veo, Google Deep Mind
Imagen 2, Google Deep Mind
Imagen 3, Google Deep Mind
Project Astra: Our vision for the future of AI assistants
Google Keynote I/O 2024, 14 05 2024, YouTube
Get more done with Gemini: Try 1.5 Pro and more intelligent features, 14 05 2024
Google I/O: Gemini Dominates Search, SGE Goes Live, Near Media, 15 05 2024.

Google I/O 2024 : suprématie de Gemini et omniprésence de l’IA