Saltar al contenido principal
InicioReportingCleaning Data with PySpark

Cleaning Data with PySpark

Learn how to clean data with Apache Spark in Python.

Comience El Curso Gratis
4 Horas16 Videos53 Ejercicios
25.015 AprendicesTrophyDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas

Preferido por estudiantes en miles de empresas


Descripción del curso

Working with data is tricky - working with millions or even billions of rows is worse. Did you receive some data processing code written on a laptop with fairly pristine data? Chances are you’ve probably been put in charge of moving a basic data process from prototype to production. You may have worked with real world datasets, with missing fields, bizarre formatting, and orders of magnitude more data. Even if this is all new to you, this course helps you learn what’s needed to prepare data processes using Python with Apache Spark. You’ll learn terminology, methods, and some best practices to create a performant, maintainable, and understandable data processing platform.
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más
Pruebe DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.

En las siguientes pistas

Big Data con PySpark

Ir a la pista
  1. 1

    DataFrame details

    Gratuito

    A review of DataFrame fundamentals and the importance of data cleaning.

    Reproducir Capítulo Ahora
    Intro to data cleaning with Apache Spark
    50 xp
    Data cleaning review
    50 xp
    Defining a schema
    100 xp
    Immutability and lazy processing
    50 xp
    Immutability review
    50 xp
    Using lazy processing
    100 xp
    Understanding Parquet
    50 xp
    Saving a DataFrame in Parquet format
    100 xp
    SQL and Parquet
    100 xp
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más

En las siguientes pistas

Big Data con PySpark

Ir a la pista

Sets De Datos

Dallas Council VotesDallas Council VotersFlights - 2014Flights - 2015Flights - 2016Flights - 2017

Colaboradores

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Hillary Green-Lerman
Mike Metzger HeadshotMike Metzger

Data Engineer Consultant @ Flexible Creations

Ver Mas

¿Qué tienen que decir otros alumnos?

¡Únete a 13 millones de estudiantes y empieza Cleaning Data with PySpark hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.