Utilisez l'IA pour nettoyer et formater vos données 10 fois plus rapidement.

Ce cours vous guidera à travers les bases de l'utilisation de ChatGPT pour automatiser les tâches fastidieuses de nettoyage et de formatage des données.

D'abord, qu'est-ce que le nettoyage de données ? Le nettoyage de données consiste à détecter et corriger (ou supprimer) les enregistrements corrompus ou inexacts d'un jeu de données. Par exemple, il arrive parfois qu'un champ soit manquant (cellule vide sur Excel) ou contienne une erreur (adresse e-mail se terminant sans extension de domaine comme .com ou .net)

Dans ce tutoriel, vous apprendrez comment :

  • Téléversez vos fichiers de données
  • Supprimez les données en double
  • Supprimez les espaces vides
  • Insérez des valeurs de substitution
  • Uniformisez le formatage
  • Étiquetez les données selon des règles spécifiques

Veuillez noter que nous utiliserons des données factices (générées par ChatGPT) ici !

Chargement et préparation de vos données

Tout d'abord, cliquez sur l'icône située à gauche de la barre de saisie.

Sélectionnez votre fichier (qui doit être au format CSV, xls ou xlsx) et transmettez-le à ChatGPT (ou glissez-déposez simplement le fichier dans la fenêtre).

Suppression des données en double

Les doublons peuvent ruiner votre analyse de données et doivent être supprimés.

Commençons par demander à ChatGPT de les supprimer.

Prompt :

Voici mon fichier de données. Supprime toutes les données en double. Les doublons auront le même id ou email. Montre un aperçu avant de générer un fichier de données mis à jour.

Nettoyage des lignes vides

Les lignes vides peuvent perturber le traitement des données. Il est maintenant temps de les supprimer !

Prompt :

Y a-t-il des lignes vides ? Si oui, supprime-les.

Vous voyez comme c'est facile ?

Insertion de valeurs par défaut dans les cellules vides

Selon les logiciels et les outils que vous utilisez, les valeurs erronées peuvent prendre plusieurs formes : NaN, NULL...

Ici, nous allons demander à ChatGPT de considérer ces éléments comme des cellules vides et de les standardiser.

Prompt :

Y a-t-il des cellules vides (une cellule contenant une valeur NaN ou NULL est aussi considérée comme vide) ? Si oui, insérer "N/A" dans ces cellules et montrer un aperçu avant de générer un fichier de données mis à jour.

S'assurer que les données sont correctement formatées

S'assurer que les données sont correctement formatées est essentiel lorsqu'on traite d'importants volumes de données. Des données mal formatées peuvent entraîner des erreurs dans vos analyses et projections, ce qui peut avoir de graves conséquences sur vos décisions et, par conséquent, sur votre entreprise.

Prenons l'exemple des adresses email. Une adresse email mal formatée est inutilisable et entraînera inévitablement des erreurs si elle n'est pas traitée correctement.

Prompt :

Vérifie si les adresses e-mail sont correctement formatées. Établis une liste de celles qui ne sont pas formatées correctement.

Notez que cette vérification des données peut être appliquée à chaque colonne !

Création de nouvelles colonnes

Vous pouvez créer de nouvelles colonnes à partir de celles existantes (par exemple, extraire le domaine des adresses e-mail).

Cela peut être utile pour comprendre la répartition des fournisseurs de messagerie ou pour l'analyse de données.

Prompt :

Créer une nouvelle colonne qui extrait le domaine des adresses email.

Vous avez maintenant découvert les principales fonctionnalités de nettoyage et de formatage des données avec ChatGPT. Bien entendu, n'hésitez pas à modifier les prompts et à les appliquer à de nouveaux cas d'usage.

Comme vous l'avez constaté, il est possible d'économiser des heures de travail sur Excel en utilisant directement ChatGPT pour manipuler nos données, sans avoir besoin de créer des fonctions.