Tutoriel - Créez des voix IA réalistes avec Gemini

Google AI Studio vient de lancer une fonctionnalité révolutionnaire pour tous ceux qui travaillent avec l'audio. Son nouvel outil de génération vocale vous permet de créer des contenus vocaux d'un naturel impressionnant, que vous ayez besoin d'un narrateur unique ou d'une conversation complète avec plusieurs intervenants. Idéal pour les podcasts, les voix off, les livres audio ou tout projet créatif, il rend la synthèse vocale de haute qualité plus simple et plus polyvalente que jamais.

Ce tutoriel vous guide à travers les étapes pour convertir du texte en une voix réaliste qui narre le contenu. Les possibilités d'utilisation de cette fonctionnalité sont infinies. Tout dépend de votre idée et de votre projet. Nous allons vous montrer comment accéder à l'outil de génération vocale, configurer le mode audio, écrire un script et personnaliser les voix.

À la fin de ce tutoriel, vous serez capable de :

Accéder à l'outil de génération vocale
Sélectionner un mode audio
Écrire votre script et personnaliser les voix
Générer l'audio

Commençons sans plus attendre !

Étape 1 - Accéder à l'outil de génération vocale

Rendez-vous sur Google AI Studio et connectez-vous avec votre compte Google ou créez-en un nouveau si ce n'est pas déjà fait.

Une fois sur le tableau de bord principal, trouvez la section "Generate Media" dans le menu de gauche et cliquez dessus.

Sélectionnez "Gemini speech generation" dans la liste des options qui apparaît.

Lorsque vous ouvrez l'interface de génération vocale, vous verrez le constructeur de script à gauche et le panneau de paramètres à droite. Par défaut, il utilise Gemini 2.5 Flash Preview TTS ; cependant, pour une qualité encore meilleure, vous pouvez passer à Gemini 2.5 Pro TTS en utilisant le menu déroulant.

Étape 2 - Sélectionner un mode audio

Avant de commencer le projet, assurez-vous d'avoir configuré les paramètres vocaux. Dans le panneau de droite, sélectionnez le mode audio qui correspond le mieux aux besoins de votre projet. Il existe deux options :

Audio mono-locuteur : Parfait pour les narrations, les livres audio ou les voix off. Il suffit d'insérer votre script complet dans une seule zone de texte et de choisir une voix pour tout lire.

Audio multi-locuteurs : Idéal pour les dialogues, les interviews ou tout contenu nécessitant une conversation. Vous disposerez de zones de texte séparées pour chaque intervenant, facilitant ainsi la création de conversations naturelles et réalistes.

Cliquez sur le mode souhaité dans le panneau des paramètres pour l'activer.

Pour distinguer facilement les intervenants, vous pouvez spécifier leurs noms dans le panneau des paramètres.

Étape 3 - Rédigez votre script et personnalisez les voix

En mode locuteur unique, il suffit de saisir votre script dans la zone principale. Si vous souhaitez définir l'ambiance ou ajouter une note, comme "Lire à voix haute avec une intonation dramatique", faites-le. Ensuite, sélectionnez une voix dans le menu déroulant et vous êtes prêt.

En mode multi-locuteurs, vous aurez des blocs séparés pour chaque personne participant à la conversation. Ajoutez des notes de style en haut, puis saisissez les répliques de chaque intervenant. Vous pouvez ajuster le nom et la voix de chaque locuteur en cliquant sur leurs paramètres. Besoin de plus d'échanges ? Cliquez simplement sur "Add dialog" pour poursuivre la conversation.

Étape 4 - Générez l'audio

L'outil de génération de voix Gemini dispose d'une fonctionnalité qui vous permet de préciser si votre script est destiné à une scène de film ou à un podcast. L'IA ajustera ses paramètres en fonction de votre choix.

Une fois votre script prêt, cliquez simplement sur le bouton bleu "Run" en bas. L'IA prendra le relais et créera l'audio en fonction de tous les paramètres que vous avez définis.

Une fois le traitement terminé, vous pouvez prévisualiser l'audio directement dans l'interface. Si quelque chose ne vous convient pas, modifiez votre script, changez de voix ou ajustez les notes de style, puis relancez la génération. Lorsque vous êtes satisfait du résultat, il vous suffit de télécharger le fichier pour l'utiliser dans votre vidéo, podcast ou tout autre projet.

Vous pouvez télécharger la conversation générée au format .WAV. Gemini vous permet également de régler la vitesse de lecture avant le téléchargement du script vocal. Cliquez sur l'icône des trois points dans le lecteur vocal généré par Gemini. Sélectionnez la vitesse de lecture et ajustez-la, ou téléchargez directement le fichier .WAV.

Et voilà, c'est la fin de ce tutoriel ! La fonction de génération vocale de Gemini vous offre de nombreuses possibilités créatives, que ce soit pour ajouter de la voix à des vidéos, créer un livre audio ou tout autre projet. Nous avons parcouru les bases de l'utilisation de cet outil pour transformer votre script en audio de haute qualité. C'est maintenant à vous de l'utiliser comme bon vous semble.