Aprendizado de máquina com PySpark
Aprenda a fazer previsões com Apache Spark usando árvores de decisão, regressões e pipelines.
Comece O Curso Gratuitamente4 horas16 vídeos56 exercícios23.657 aprendizesDeclaração de Realização
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?
Tentar DataCamp for BusinessAmado por alunos de milhares de empresas
Descrição do Curso
Aprenda a usar o Apache Spark para aprendizado de máquina
O Spark é uma ferramenta avançada e de uso geral para trabalhar com Big Data. O Spark lida de forma transparente com a distribuição de tarefas de computação em um cluster. Isso significa que as operações são rápidas, mas também permite que você se concentre na análise em vez de se preocupar com detalhes técnicos. Neste curso, você aprenderá como colocar os dados no Spark e, em seguida, se aprofundará nos três algoritmos fundamentais do Spark Machine Learning: Regressão linear, regressão logística/classificadores e criação de pipelines.Criar e testar árvores de decisão
Criar suas próprias árvores de decisão é uma ótima maneira de começar a explorar os modelos de aprendizado de máquina. Você usará um algoritmo chamado "Recursive Partitioning" para dividir os dados em duas classes e encontrar um preditor dentro dos dados que resulte na divisão mais informativa das duas classes, e repetirá essa ação com outros nós. Em seguida, você pode usar a árvore de decisão para fazer previsões com novos dados.Domine a regressão logística e linear no PySpark
A regressão logística e linear são técnicas essenciais de aprendizado de máquina que são suportadas pelo PySpark. Você aprenderá a criar e avaliar modelos de regressão logística, antes de passar para a criação de modelos de regressão linear para ajudá-lo a refinar seus preditores para apenas as opções mais relevantes.Ao final do curso, você se sentirá confiante para aplicar seus novos conhecimentos de aprendizado de máquina, graças às tarefas práticas e aos conjuntos de dados práticos encontrados ao longo do curso.
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina em Python
Ir para a trilha- 1
Introdução
GratuitoO Spark é uma estrutura para trabalhar com Big Data. Neste capítulo, você abordará algumas informações básicas sobre o Spark e a aprendizagem automática. Em seguida, você descobrirá como se conectar ao Spark usando Python e carregar os dados do CSV.
- 2
Classificação
Agora que você está familiarizado com a obtenção de dados no Spark, você passará a criar dois tipos de modelo de classificação: Árvores de decisão e regressão logística. Você também conhecerá algumas abordagens para a preparação de dados.
Preparação de dados50 xpRemoção de colunas e linhas100 xpManipulação de coluna100 xpColunas categóricas100 xpMontagem de colunas100 xpÁrvore de decisão50 xpDivisão de treinamento/teste100 xpCriar uma árvore de decisão100 xpAvaliar a árvore de decisão100 xpRegressão logística50 xpCriar um modelo de regressão logística100 xpAvalie o modelo de regressão logística100 xpTransformando texto em tabelas50 xpPontuação, números e tokens100 xpParar palavras e hashing100 xpTreinamento de um classificador de spam100 xp - 3
Regressão
Em seguida, você aprenderá a criar modelos de regressão linear. Você também descobrirá como aumentar seus dados com a engenharia de novos preditores, bem como uma abordagem robusta para selecionar apenas os preditores mais relevantes.
Codificação de um ponto50 xpCodificação da origem do voo100 xpCodificação de tamanhos de camisetas50 xpRegressão50 xpModelo de duração de voo: Apenas distância100 xpInterpretação dos coeficientes100 xpModelo de duração de voo: Adicionar aeroporto de origem100 xpInterpretação de coeficientes100 xpBaldeação e engenharia50 xpHorário de partida da baldeação100 xpModelo de duração de voo: Adicionar horário de partida100 xpRegularização50 xpModelo de duração de voo: Mais recursos!100 xpModelo de duração de voo: Regularização!100 xp - 4
Conjuntos e pipelines
Por fim, você aprenderá a tornar seus modelos mais eficientes. Você descobrirá como usar pipelines para tornar seu código mais claro e fácil de manter. Em seguida, você usará a validação cruzada para testar melhor seus modelos e selecionar bons parâmetros de modelo. Por fim, você se dedicará a dois tipos de modelo de conjunto.
Pipeline50 xpModelo de duração de voo: Estágios do pipeline100 xpModelo de duração de voo: Modelo de tubulação100 xpSMS pipeline de spam100 xpValidação cruzada50 xpValidação cruzada de um modelo simples de duração de voo100 xpValidação cruzada do pipeline do modelo de duração de voo100 xpPesquisa na grade50 xpOtimização da regressão linear de voos100 xpDissecando o melhor modelo de duração de voo100 xpSMS otimizado para spam100 xpQuantos modelos você tem para a pesquisa de grade?50 xpConjunto50 xpVoos atrasados com árvores com reforço gradiente100 xpVoos atrasados com uma floresta aleatória100 xpAvaliação do Random Forest100 xpConsiderações finais50 xp
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilhaCientista de aprendizado de máquina em Python
Ir para a trilhacolaboradores
Andrew Collier
Ver MaisData Scientist @ Exegetic Analytics
O que os outros alunos têm a dizer?
Junte-se a mais de 15 milhões de alunos e comece Aprendizado de máquina com PySpark hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.