Pular para o conteúdo principal

curso

Introdução ao PySpark

Intermediário

Updated 12/2024

"Aprenda a implementar gestão de dados distribuídos e aprendizado de máquina no Spark com PySpark."

Iniciar curso gratuitamente

Incluído gratuitamentePremium or Teams

SparkEngenharia de dados4 horas45 exercícios3,850 XP148,572Declaração de Realização

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas

Descrição do curso

Neste curso, você aprenderá a usar o Spark no Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você vai usar esse pacote para trabalhar com dados de voos de Portland e Seattle. Você vai aprender a preparar esses dados e criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de brilho em seus códigos Python com o Spark e mergulhar no mundo do aprendizado de máquina de alto desempenho!

Pré-requisitos

Introduction to Python

1

Visão geral do PySpark

Iniciar capítulo

Afinal, o que faz o Spark?

Como usar o Spark no Python

Análise do SparkContext

Uso de DataFrames

Como criar uma SparkSession

Exibição de tabelas

Curioso para fazer consultas?

Como pandificar um DataFrame do Spark

Use o Spark para dar brilho aos dados

Chega de intermediários

2

Manipulação de dados

Iniciar capítulo

Criação de colunas

Introdução rápida ao SQL

Introdução rápida ao SQL (2)

Filtragem de dados

Seleção II

Agregação

Agregação II

Agrupamento e agregação I

Agrupamento e agregação II

Junções II

3

Introdução a pipelines de aprendizado de máquina

Iniciar capítulo

Pipelines de aprendizado de máquina

Junção dos DataFrames

Tipos de dados

De string para inteiro

Crie uma nova coluna

Como criar um booleano

Strings e fatores

Companhia aérea

Monte um vetor

Crie o pipeline

Teste x Treinamento

Transforme os dados

Divida os dados

4

Ajuste e seleção de modelos

Iniciar capítulo

O que é regressão logística?

Crie o modelador

Validação cruzada

Crie o avaliador

Faça uma grade

Crie o validador

Ajuste o(s) modelo(s)

Avaliação de classificadores binários

Avalie o modelo

Introdução ao PySpark

Curso
Completo

Declaração de Realização Earn

Adicione esta credencial ao seu perfil, currículo ou currículo do LinkedIn
Compartilhe nas redes sociais e em sua avaliação de desempenho

Incluído comPremium or Teams

Inscreva-se agora

Junte-se a mais 15 milhões de alunos e comece Introdução ao PySpark Hoje!

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.