Tutoriel - Comment extraire des informations visuelles de vos réunions avec Gemini

Dans l'environnement professionnel effréné d'aujourd'hui, les réunions sont essentielles à la collaboration, mais parcourir de longs enregistrements pour trouver des détails visuels spécifiques peut prendre beaucoup de temps. Les assistants IA traditionnels pour les réunions s'appuient souvent sur des transcriptions audio, négligeant les informations visuelles cruciales comme les diapositives, les schémas ou les notes sur tableau blanc. Gemini 1.5 Pro de Google comble cette lacune grâce à sa capacité à traiter des prompts contenant jusqu'à 2 millions de tokens de contexte, permettant ainsi de télécharger des vidéos allant jusqu'à 1 heure et d'en extraire simultanément le contenu visuel et audio.

Ce tutoriel vous guide dans l'utilisation de Gemini 1.5 Pro pour extraire des informations visuelles des enregistrements de réunions. Vous apprendrez à télécharger une vidéo sur Google AI Studio, à appliquer un prompt modèle complet pour capturer tous les détails visuels et audio, et à interpréter les résultats pour trouver des informations spécifiques. C'est idéal pour les professionnels qui doivent examiner efficacement les réunions sans manquer d'éléments visuels importants.

Bien que Gemini 2.5 Pro soit disponible depuis mai 2025, nous nous concentrons sur Gemini 1.5 Pro pour sa fenêtre de contexte de 2 millions de tokens, parfaite pour les longues vidéos. Les futures versions de Gemini 2.5 Pro pourraient offrir des capacités similaires, alors restez à l'écoute des annonces de Google.

Objectifs principaux :

Access and use Google AI Studio for Gemini 1.5 Pro.
Upload and process a long video with Gemini 1.5 Pro.
Understand video token counts and stay within limits.
Use a template prompt to extract comprehensive visual and audio information.

Étape 1 - Accéder à Google AI Studio

Commencez par accéder à Google AI Studio, la plateforme permettant d'interagir avec Gemini 1.5 Pro.

Rendez-vous sur Google AI Studio et connectez-vous avec votre compte Google. Si vous n'en avez pas, créez-en un en suivant les instructions.

Google AI Studio est préféré à d'autres plateformes comme le plus simple Gemini car il affiche le nombre de tokens pour les fichiers téléchargés, ce qui est crucial pour s'assurer que votre vidéo reste dans la limite des 2 millions de tokens. De plus, seul AI Studio permet de sélectionner des modèles plus anciens comme Gemini 1.5 Pro. Vertex AI est une alternative, mais l'interface conviviale d'AI Studio en fait l'outil idéal pour cette tâche.

Étape 2 - Sélection du modèle

Après vous être connecté à Google AI Studio, l'étape suivante consiste à choisir le bon modèle pour votre tâche de traitement vidéo. Suivez ces étapes pour sélectionner Gemini 1.5 Pro, qui est optimisé pour gérer les longues vidéos grâce à sa large fenêtre de contexte.

Choisir l'interface de chat : Dans le panneau de gauche de Google AI Studio, cliquez sur "Chat" pour accéder à l'interface interactive d'utilisation du modèle.
Accéder au sélecteur de modèle : Dans "Run settings", cliquez sur le menu déroulant du sélecteur de modèle pour voir les options disponibles.
Sélectionner la famille de modèles : Dans le menu déroulant, choisissez la famille "Gemini 1.5", qui comprend des modèles adaptés à diverses tâches avancées.
Spécifier le modèle : Sélectionnez "Gemini 1.5 Pro" dans la liste, en vous assurant d'avoir la version conçue pour l'analyse de longues vidéos.

Une fois Gemini 1.5 Pro sélectionné, vous êtes prêt à télécharger votre vidéo et à en extraire les informations visuelles nécessaires. Vérifiez bien votre sélection pour garantir une performance optimale.

Étape 3 - Téléchargement d'une longue vidéo

Une fois que vous avez accès à AI Studio et que le bon modèle est sélectionné, téléchargez votre enregistrement de réunion, qui peut durer jusqu'à 1 heure (voire 2) et idéalement au format MP4, le format standard pris en charge par Gemini 1.5 Pro.

Téléchargement direct vers AI Studio

Dans AI Studio, démarrez une nouvelle conversation avec Gemini 1.5 Pro. Repérez l'option "Upload File", symbolisée par un signe plus à droite du champ de chat, ou glissez-déposez directement votre vidéo MP4 dans la boîte de dialogue.

Si le téléchargement direct échoue, essayez la méthode alternative utilisant Google Drive.

Immédiatement après le téléchargement, AI Studio affichera le nombre de tokens, confirmant qu'il est dans la limite des 2 millions de tokens.

Nombre de tokens pour les vidéos

La fenêtre de contexte de 2 millions de tokens de Gemini 1.5 Pro peut traiter jusqu'à 1 heure de vidéo. Le nombre de tokens dépend de la durée et de la complexité visuelle de la vidéo :

Une vidéo d'1 minute utilise environ 18 000 tokens.
Une vidéo de 30 minutes utilise environ 540 000 tokens.
Une vidéo de 60 minutes utilise environ 1 080 000 tokens.

Ces deux durées restent largement dans les limites des 2 millions de tokens. La compression des vidéos peut réduire le nombre de tokens en diminuant le nombre d'images, mais pour plus de précision, utilisez le fichier original sauf si la taille du fichier pose problème. Les fichiers volumineux peuvent prendre plus de temps à télécharger, assurez-vous donc d'avoir une connexion internet stable.

Méthode alternative - Utilisation de Google Drive

Si vous rencontrez des problèmes avec le téléchargement direct, ou si votre vidéo est déjà stockée sur Google Drive, connectez AI Studio à votre Drive pour plus de commodité. Parcourez et sélectionnez votre fichier vidéo avec "My Drive" dans le menu de téléchargement (icône plus).

Étape 4 - Utilisation du prompt modèle

Une fois votre vidéo téléchargée, nous utilisons un seul prompt modèle pour extraire toutes les informations visuelles et audio, éliminant ainsi le besoin de prompts multiples. Le prompt suivant a été affiné pour plus de clarté et d'exhaustivité.

Créer une transcription détaillée de la vidéo :
Inclure les timestamps pour chaque segment
Identifier qui parle à chaque timestamp
Décrire en détail les diagrammes, organigrammes ou notes au tableau pendant les présentations
Extraire le contenu complet de toutes les diapositives clairement présentées
Noter qui partage son écran et quand
Mentionner tous les objets physiques montrés ou démontrés via le partage d'écran
Capturer tous les autres indices visuels ou informations non audibles

Dans la boîte de dialogue d'AI Studio, collez ce prompt. Assurez-vous que la vidéo téléchargée est jointe, ce qu'AI Studio fait généralement automatiquement. Cliquez sur 'Run' pour traiter le prompt avec Gemini 1.5 Pro.

Le traitement d'une vidéo de 30-60 minutes peut prendre plusieurs minutes, selon sa durée et sa complexité. Surveillez les indicateurs de progression dans AI Studio. En cas d'échec, vérifiez le nombre de tokens ou essayez de télécharger à nouveau la vidéo.

À ce jour, la longueur maximale de sortie dans les paramètres d'exécution est de 8192 tokens pour le modèle 1.5 pro. Si une sortie plus longue est nécessaire, nous recommandons de vérifier avec des modèles plus récents.

Étape 5 - Interpréter les résultats

Une fois le traitement terminé, Gemini 1.5 Pro génère une transcription détaillée incluant les horodatages, l'identification des intervenants, le contenu des diapositives et la description des éléments visuels comme les diagrammes ou les objets. Pour trouver des informations spécifiques, comme un chiffre de ventes brutes sur une diapositive, recherchez dans la transcription des mots-clés comme 'ventes brutes' ou 'diapositive'.

Cela vous permet de localiser rapidement les détails sans regarder la vidéo entière. Pour les transcriptions longues, sauvegardez la sortie dans un fichier texte pour faciliter la recherche. Vous pouvez également poser des questions complémentaires dans AI Studio, comme 'Fournir plus de détails sur la diapositive : objectifs budgétaires FY25', pour affiner les résultats.

Vérifiez les informations critiques, car l'IA peut parfois mal interpréter les visuels complexes. Si la sortie est incomplète, essayez de reformuler le prompt ou de découper la vidéo en segments plus courts, bien que cela soit rarement nécessaire avec la large fenêtre de contexte de Gemini 1.5 Pro.