Introdução ao PySpark
Aprenda a implementar gerenciamento de dados distribuídos e aprendizado de máquina no Spark usando o pacote PySpark.
Comece O Curso Gratuitamente4 horas45 exercícios
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?Experimente o DataCamp For Business
Amado por alunos de milhares de empresas
Descrição do Curso
Neste curso, você aprenderá a usar o Spark com Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você usará esse pacote para trabalhar com dados sobre voos de Portland e Seattle. Você aprenderá a lidar com esses dados e a criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de Spark em seu código Python e mergulhar no mundo do aprendizado de máquina de alto desempenho!
Para Empresas
Treinar 2 ou mais pessoas?
Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizadosNas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina com Python
Ir para a trilha- 1
Conhecendo o PySpark
GratuitoNeste capítulo, você aprenderá como o Spark gerencia os dados e como você pode ler e gravar tabelas no Python.
Afinal, o que é o Spark?50 xpUsando o Spark em Python50 xpExaminando o SparkContext100 xpUso de DataFrames50 xpCriando uma SparkSession100 xpExibição de tabelas100 xpVocê tem alguma dúvida?100 xpPandafy a Spark DataFrame100 xpColoque um pouco de Spark em seus dados100 xpEliminando o intermediário100 xp - 2
Manipulação de dados
Neste capítulo, você aprenderá sobre o módulo pyspark.sql, que fornece consultas de dados otimizadas à sua sessão do Spark.
- 3
Introdução aos pipelines de aprendizado de máquina
O PySpark tem rotinas de aprendizado de máquina integradas e de ponta, além de utilitários para criar pipelines completos de aprendizado de máquina. Você aprenderá sobre eles neste capítulo.
Pipelines de aprendizado de máquina50 xpUnir os DataFrames100 xpTipos de dados50 xpDe string para inteiro100 xpCriar uma nova coluna100 xpCriando um booleano100 xpCordas e fatores50 xpTransportadora100 xpDestino100 xpMontar um vetor100 xpCriar o pipeline100 xpTeste vs. teste de qualidade. Trem50 xpTransformar os dados100 xpDividir os dados100 xp - 4
Ajuste e seleção de modelos
Neste último capítulo, você aplicará o que aprendeu para criar um modelo que preveja quais voos sofrerão atrasos.
Para Empresas
Treinar 2 ou mais pessoas?
Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizadosNas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina com Python
Ir para a trilhaLore Dirick
Ver MaisDirector of Data Science Education at Flatiron School
Nick Solomon
Ver MaisData Scientist
O que os outros alunos têm a dizer?
Junte-se a mais de 14 milhões de alunos e comece Introdução ao PySpark hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.