Pular para o conteúdo principal

curso

Cleaning Data with PySpark

Avançado

Updated 01/2025

Learn how to clean data with Apache Spark in Python.

Iniciar curso gratuitamente

Incluído gratuitamentePremium or Teams

SparkPreparação de dados4 horas16 vídeos53 exercícios4,150 XP27,749Declaração de Realização

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas

Descrição do curso

Working with data is tricky - working with millions or even billions of rows is worse. Did you receive some data processing code written on a laptop with fairly pristine data? Chances are you’ve probably been put in charge of moving a basic data process from prototype to production. You may have worked with real world datasets, with missing fields, bizarre formatting, and orders of magnitude more data. Even if this is all new to you, this course helps you learn what’s needed to prepare data processes using Python with Apache Spark. You’ll learn terminology, methods, and some best practices to create a performant, maintainable, and understandable data processing platform.

Pré-requisitos

Intermediate Python Introduction to PySpark

1

DataFrame details

Iniciar capítulo

Intro to data cleaning with Apache Spark

Data cleaning review

Defining a schema

Immutability and lazy processing

Immutability review

Using lazy processing

Understanding Parquet

Saving a DataFrame in Parquet format

SQL and Parquet

2

Manipulating DataFrames in the real world

Iniciar capítulo

DataFrame column operations

Filtering column content with Python

Filtering Question #1

Filtering Question #2

Modifying DataFrame columns

Conditional DataFrame column operations

when() example

When / Otherwise

User defined functions

Understanding user defined functions

Using user defined functions in Spark

Partitioning and lazy processing

Adding an ID Field

IDs with different partitions

More ID tricks

3

Improving Performance

Iniciar capítulo

Caching a DataFrame

Removing a DataFrame from cache

Improve import performance

File size optimization

File import performance

Cluster configurations

Reading Spark configurations

Writing Spark configurations

Performance improvements

Normal joins

Using broadcasting on Spark joins

Comparing broadcast vs normal joins

4

Complex processing and data pipelines

Iniciar capítulo

Introduction to data pipelines

Quick pipeline

Pipeline data issue

Data handling techniques

Removing commented lines

Removing invalid rows

Splitting into columns

Further parsing

Data validation

Validate rows via join

Examining invalid rows

Final analysis and delivery

Dog parsing

Per image count

Percentage dog pixels

Congratulations and next steps

Cleaning Data with PySpark

Curso
Completo

Declaração de Realização Earn

Adicione esta credencial ao seu perfil, currículo ou currículo do LinkedIn
Compartilhe nas redes sociais e em sua avaliação de desempenho

Incluído comPremium or Teams

Inscreva-se agora

Junte-se a mais 15 milhões de alunos e comece Cleaning Data with PySpark Hoje!

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.