Nettoyage de données en Python
Commencer Le Cours Gratuitement4 heures13 vidéos44 exercices120 039 apprenantsDéclaration de réalisation
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.Formation de 2 personnes ou plus ?
Essayer DataCamp for BusinessApprécié par les apprenants de milliers d'entreprises
Description du cours
Découvrez comment nettoyer des données en Python
La préparation des données est fondamentale : les scientifiques des données passent 80 % de leur temps à nettoyer et manipuler les données, et seulement 20 % de leur temps à les analyser. Le nettoyage des données est une étape essentielle pour tout scientifique des données, car l'analyse de données sales peut conduire à des conclusions inexactes.Dans ce cours, vous apprendrez à identifier, diagnostiquer et traiter divers problèmes de nettoyage de données en Python, allant du plus simple au plus avancé. Vous traiterez les types de données inappropriés, vous vérifierez que vos données se situent dans la bonne plage, vous gérerez les données manquantes, vous effectuerez le couplage d'enregistrements, et bien plus encore !
Apprenez à nettoyer différents types de données
Le premier chapitre du cours explore les problèmes courants liés aux données et la manière dont vous pouvez les résoudre. Vous commencerez par comprendre les types de données de base et la manière de les traiter individuellement. Ensuite, vous appliquerez des contraintes de plage et supprimerez les points de données dupliqués.Le dernier chapitre explore le couplage d'enregistrements, un outil puissant permettant de fusionner plusieurs ensembles de données. Vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Enfin, vous utiliserez vos nouvelles compétences pour fusionner deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.
Gagnez en confiance dans le nettoyage des données
À la fin de la formation, vous serez en mesure de nettoyer des données de différents types et d'utiliser le couplage d'enregistrements pour fusionner plusieurs ensembles de données. Le nettoyage des données est une compétence essentielle pour les data scientists. Si vous souhaitez en savoir plus sur le nettoyage de données en Python et ses applications, consultez les cursus suivants : Data Scientist avec Python et Importation et nettoyage de données avec Python.Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Importation et nettoyage des données en Python
Aller à la piste- 1
Problèmes courants liés aux données
GratuitDans ce chapitre, vous apprendrez à résoudre certains des problèmes de données sales les plus courants. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données dupliqués afin d'éviter les doubles comptages.
Contraintes de type de données50 xpTypes de données courants100 xpDonnées numériques ou ... ?100 xpAdditionner des chaînes de caractères et concaténer des nombres100 xpContraintes de plage de données50 xpContraintes liées à la taille des pneus100 xpRetour vers le futur100 xpContraintes d'unicité50 xpQuelle est la taille de votre sous-ensemble ?50 xpRecherche de doublons100 xpTraitement des doublons100 xp - 2
Problèmes liés aux données textuelles et catégorielles
Les données catégorielles et textuelles peuvent souvent constituer l'une des parties les plus désordonnées d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d'espacement et de capitalisation dans les étiquettes de catégories, à réduire plusieurs catégories en une seule et à reformater les chaînes de caractères dans un souci de cohérence.
Contraintes liées à l'adhésion50 xpRéservé aux membres100 xpTrouver la cohérence100 xpVariables catégorielles50 xpCatégories d'erreurs100 xpCatégories incohérentes100 xpRemise en correspondance des catégories100 xpNettoyage des données textuelles50 xpSupprimer les titres et prendre les noms100 xpLa description de l'information100 xp - 3
Problèmes de données avancés
Dans ce chapitre, vous vous pencherez sur des problèmes de nettoyage de données plus avancés, comme par exemple s'assurer que les poids sont tous écrits en kilogrammes et non en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.
Uniformité50 xpDates ambiguës50 xpMonnaies uniformes100 xpDates des uniformes100 xpValidation transversale50 xpChamp croisé ou pas champ croisé ?100 xpComment se porte l'intégrité des données ?100 xpExhaustivité50 xpCette absence est-elle due au hasard ?50 xpInvestisseurs manquants100 xpSuivez l'argent100 xp - 4
Lien entre les enregistrements
Le couplage d'enregistrements est une technique puissante utilisée pour fusionner plusieurs ensembles de données, notamment lorsque des valeurs comportent des fautes de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour joindre deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.
Comparaison des chaînes de caractères50 xpDistance minimale d'édition50 xpLe point d'arrêt100 xpRemise en correspondance des catégories II100 xpCréation de paires50 xpLier ou ne pas lier ?100 xpPaires de restaurants100 xpRestaurants similaires100 xpLiaison des DataFrame50 xpObtenir le bon indice50 xpLes relier entre eux !100 xpFélicitations !50 xp
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Importation et nettoyage des données en Python
Aller à la pisteensembles de données
Ride sharing datasetAirlines datasetBanking datasetRestaurants datasetRestaurants dataset IIcollaborateurs
Adel Nehme
Voir PlusVP of Media, DataCamp
Qu’est-ce que les autres apprenants ont à dire ?
Inscrivez-vous 15 millions d’apprenants et commencer Nettoyage de données en Python Aujourd’hui!
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.