Introdução ao PySpark
"Aprenda a implementar gestão de dados distribuídos e aprendizado de máquina no Spark com PySpark."
Comece O Curso Gratuitamente4 horas45 exercícios146.219 aprendizesDeclaração de Realização
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?
Tentar DataCamp for BusinessAmado por alunos de milhares de empresas
Descrição do Curso
Neste curso, você aprenderá a usar o Spark no Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você vai usar esse pacote para trabalhar com dados de voos de Portland e Seattle. Você vai aprender a preparar esses dados e criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de brilho em seus códigos Python com o Spark e mergulhar no mundo do aprendizado de máquina de alto desempenho!
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina em Python
Ir para a trilha- 1
Visão geral do PySpark
GratuitoNeste capítulo, você aprenderá como o Spark gerencia dados e como você pode ler e gravar tabelas no Python.
Afinal, o que faz o Spark?50 xpComo usar o Spark no Python50 xpAnálise do SparkContext100 xpUso de DataFrames50 xpComo criar uma SparkSession100 xpExibição de tabelas100 xpCurioso para fazer consultas?100 xpComo pandificar um DataFrame do Spark100 xpUse o Spark para dar brilho aos dados100 xpChega de intermediários100 xp - 2
Manipulação de dados
Neste capítulo, você aprenderá sobre o módulo pyspark.sql, que disponibiliza consultas de dados otimizadas à sua sessão do Spark.
- 3
Introdução a pipelines de aprendizado de máquina
O PySpark tem rotinas de aprendizado de máquina de ponta integradas, além de utilitários para criar pipelines completos de aprendizado de máquina. Você aprenderá sobre eles neste capítulo.
Pipelines de aprendizado de máquina50 xpJunção dos DataFrames100 xpTipos de dados50 xpDe string para inteiro100 xpCrie uma nova coluna100 xpComo criar um booleano100 xpStrings e fatores50 xpCompanhia aérea100 xpDestino100 xpMonte um vetor100 xpCrie o pipeline100 xpTeste x Treinamento50 xpTransforme os dados100 xpDivida os dados100 xp - 4
Ajuste e seleção de modelos
Neste último capítulo, você aplicará o que aprendeu para criar um modelo capaz de prever quais voos sofrerão atrasos.
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina em Python
Ir para a trilhaLore Dirick
Ver MaisDirector of Data Science Education at Flatiron School
Nick Solomon
Ver MaisData Scientist
O que os outros alunos têm a dizer?
Junte-se a mais de 15 milhões de alunos e comece Introdução ao PySpark hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.