Accéder au contenu principal
AccueilSpark

Cleaning Data with PySpark

Learn how to clean data with Apache Spark in Python.

Commencer Le Cours Gratuitement
4 heures16 vidéos53 exercices27 316 apprenantsTrophyDéclaration de réalisation

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.
Group

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d'entreprises


Description du cours

Working with data is tricky - working with millions or even billions of rows is worse. Did you receive some data processing code written on a laptop with fairly pristine data? Chances are you’ve probably been put in charge of moving a basic data process from prototype to production. You may have worked with real world datasets, with missing fields, bizarre formatting, and orders of magnitude more data. Even if this is all new to you, this course helps you learn what’s needed to prepare data processes using Python with Apache Spark. You’ll learn terminology, methods, and some best practices to create a performant, maintainable, and understandable data processing platform.
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.
DataCamp Pour Les EntreprisesPour une solution sur mesure , réservez une démo.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste
  1. 1

    DataFrame details

    Gratuit

    A review of DataFrame fundamentals and the importance of data cleaning.

    Jouez Au Chapitre Maintenant
    Intro to data cleaning with Apache Spark
    50 xp
    Data cleaning review
    50 xp
    Defining a schema
    100 xp
    Immutability and lazy processing
    50 xp
    Immutability review
    50 xp
    Using lazy processing
    100 xp
    Understanding Parquet
    50 xp
    Saving a DataFrame in Parquet format
    100 xp
    SQL and Parquet
    100 xp
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste

ensembles de données

Dallas Council VotesDallas Council VotersFlights - 2014Flights - 2015Flights - 2016Flights - 2017

collaborateurs

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Hillary Green-Lerman
Mike Metzger HeadshotMike Metzger

Data Engineer Consultant @ Flexible Creations

Voir Plus

Qu’est-ce que les autres apprenants ont à dire ?

Inscrivez-vous 15 millions d’apprenants et commencer Cleaning Data with PySpark Aujourd’hui!

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.