Pular para o conteúdo principal
InícioSpark

Introdução ao PySpark

"Aprenda a implementar gestão de dados distribuídos e aprendizado de máquina no Spark com PySpark."

Comece O Curso Gratuitamente
4 horas45 exercícios146.219 aprendizesTrophyDeclaração de Realização

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
Group

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas


Descrição do Curso

Neste curso, você aprenderá a usar o Spark no Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você vai usar esse pacote para trabalhar com dados de voos de Portland e Seattle. Você vai aprender a preparar esses dados e criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de brilho em seus códigos Python com o Spark e mergulhar no mundo do aprendizado de máquina de alto desempenho!
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.
DataCamp Para EmpresasPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina em Python

Ir para a trilha
  1. 1

    Visão geral do PySpark

    Gratuito

    Neste capítulo, você aprenderá como o Spark gerencia dados e como você pode ler e gravar tabelas no Python.

    Reproduzir Capítulo Agora
    Afinal, o que faz o Spark?
    50 xp
    Como usar o Spark no Python
    50 xp
    Análise do SparkContext
    100 xp
    Uso de DataFrames
    50 xp
    Como criar uma SparkSession
    100 xp
    Exibição de tabelas
    100 xp
    Curioso para fazer consultas?
    100 xp
    Como pandificar um DataFrame do Spark
    100 xp
    Use o Spark para dar brilho aos dados
    100 xp
    Chega de intermediários
    100 xp
  2. 3

    Introdução a pipelines de aprendizado de máquina

    O PySpark tem rotinas de aprendizado de máquina de ponta integradas, além de utilitários para criar pipelines completos de aprendizado de máquina. Você aprenderá sobre eles neste capítulo.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina em Python

Ir para a trilha

conjuntos de dados

AirportsFlightsPlanes

colaboradores

Collaborator's avatar
Colin Ricardo

pré-requisitos

Introduction to Python
Lore Dirick HeadshotLore Dirick

Director of Data Science Education at Flatiron School

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 15 milhões de alunos e comece Introdução ao PySpark hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.