Accéder au contenu principal
AccueilPython

Nettoyage de données en Python

Commencer Le Cours Gratuitement
4 heures13 vidéos44 exercices120 039 apprenantsTrophyDéclaration de réalisation

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.
Group

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d'entreprises


Description du cours

Découvrez comment nettoyer des données en Python

La préparation des données est fondamentale : les scientifiques des données passent 80 % de leur temps à nettoyer et manipuler les données, et seulement 20 % de leur temps à les analyser. Le nettoyage des données est une étape essentielle pour tout scientifique des données, car l'analyse de données sales peut conduire à des conclusions inexactes.

Dans ce cours, vous apprendrez à identifier, diagnostiquer et traiter divers problèmes de nettoyage de données en Python, allant du plus simple au plus avancé. Vous traiterez les types de données inappropriés, vous vérifierez que vos données se situent dans la bonne plage, vous gérerez les données manquantes, vous effectuerez le couplage d'enregistrements, et bien plus encore !

Apprenez à nettoyer différents types de données

Le premier chapitre du cours explore les problèmes courants liés aux données et la manière dont vous pouvez les résoudre. Vous commencerez par comprendre les types de données de base et la manière de les traiter individuellement. Ensuite, vous appliquerez des contraintes de plage et supprimerez les points de données dupliqués.

Le dernier chapitre explore le couplage d'enregistrements, un outil puissant permettant de fusionner plusieurs ensembles de données. Vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Enfin, vous utiliserez vos nouvelles compétences pour fusionner deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.

Gagnez en confiance dans le nettoyage des données

À la fin de la formation, vous serez en mesure de nettoyer des données de différents types et d'utiliser le couplage d'enregistrements pour fusionner plusieurs ensembles de données. Le nettoyage des données est une compétence essentielle pour les data scientists. Si vous souhaitez en savoir plus sur le nettoyage de données en Python et ses applications, consultez les cursus suivants : Data Scientist avec Python et Importation et nettoyage de données avec Python.
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.
DataCamp Pour Les EntreprisesPour une solution sur mesure , réservez une démo.

Dans les titres suivants

Certification disponible

Ingénieur de données en Python

Aller à la piste
Certification disponible

Scientifique de données associé en Python

Aller à la piste

Importation et nettoyage des données en Python

Aller à la piste
  1. 1

    Problèmes courants liés aux données

    Gratuit

    Dans ce chapitre, vous apprendrez à résoudre certains des problèmes de données sales les plus courants. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données dupliqués afin d'éviter les doubles comptages.

    Jouez Au Chapitre Maintenant
    Contraintes de type de données
    50 xp
    Types de données courants
    100 xp
    Données numériques ou ... ?
    100 xp
    Additionner des chaînes de caractères et concaténer des nombres
    100 xp
    Contraintes de plage de données
    50 xp
    Contraintes liées à la taille des pneus
    100 xp
    Retour vers le futur
    100 xp
    Contraintes d'unicité
    50 xp
    Quelle est la taille de votre sous-ensemble ?
    50 xp
    Recherche de doublons
    100 xp
    Traitement des doublons
    100 xp
  2. 2

    Problèmes liés aux données textuelles et catégorielles

    Les données catégorielles et textuelles peuvent souvent constituer l'une des parties les plus désordonnées d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d'espacement et de capitalisation dans les étiquettes de catégories, à réduire plusieurs catégories en une seule et à reformater les chaînes de caractères dans un souci de cohérence.

    Jouez Au Chapitre Maintenant
  3. 3

    Problèmes de données avancés

    Dans ce chapitre, vous vous pencherez sur des problèmes de nettoyage de données plus avancés, comme par exemple s'assurer que les poids sont tous écrits en kilogrammes et non en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.

    Jouez Au Chapitre Maintenant
  4. 4

    Lien entre les enregistrements

    Le couplage d'enregistrements est une technique puissante utilisée pour fusionner plusieurs ensembles de données, notamment lorsque des valeurs comportent des fautes de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour joindre deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.

    Jouez Au Chapitre Maintenant
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.

Dans les titres suivants

Certification disponible

Ingénieur de données en Python

Aller à la piste
Certification disponible

Scientifique de données associé en Python

Aller à la piste

Importation et nettoyage des données en Python

Aller à la piste

ensembles de données

Ride sharing datasetAirlines datasetBanking datasetRestaurants datasetRestaurants dataset II

collaborateurs

Collaborator's avatar
Maggie Matsui
Collaborator's avatar
Amy Peterson
Collaborator's avatar
Richie Cotton
Adel Nehme HeadshotAdel Nehme

VP of Media, DataCamp

Voir Plus

Qu’est-ce que les autres apprenants ont à dire ?

Inscrivez-vous 15 millions d’apprenants et commencer Nettoyage de données en Python Aujourd’hui!

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.