Fundamentos de Big Data com PySpark
"Aprenda os fundamentos de trabalhar com big data usando PySpark."
Comece O Curso Gratuitamente4 horas16 vídeos55 exercícios52.028 aprendizesDeclaração de Realização
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?
Tentar DataCamp for BusinessAmado por alunos de milhares de empresas
Descrição do Curso
Nos últimos anos, tem havido muito burburinho sobre Big Data, e ele finalmente se tornou popular para muitas empresas. Mas o que é esse Big Data? Este curso aborda os fundamentos do Big Data por meio do PySpark. O Spark é uma estrutura de "computação em cluster extremamente rápida" para Big Data. Ele fornece um mecanismo de plataforma de processamento de dados geral e permite que você execute programas até 100 vezes mais rápido na memória ou 10 vezes mais rápido no disco do que o Hadoop. Você usará o PySpark, um pacote Python para programação do Spark e suas poderosas bibliotecas de nível superior, como SparkSQL, MLlib (para aprendizado de máquina), etc. Você explorará as obras de William Shakespeare, analisará dados da Fifa 2018 e realizará agrupamento em conjuntos de dados genômicos. Ao final deste curso, você terá adquirido um conhecimento profundo do PySpark e de sua aplicação à análise geral de Big Data.
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilha- 1
Introdução à análise de Big Data com o Spark
GratuitoEste capítulo apresenta o empolgante mundo do Big Data, bem como os vários conceitos e estruturas diferentes para o processamento de Big Data. Você entenderá por que o Apache Spark é considerado a melhor estrutura para BigData.
- 2
Programação no PySpark RDD's
A principal abstração que o Spark oferece é um conjunto de dados distribuídos resilientes (RDD), que é o tipo de dados fundamental e a espinha dorsal desse mecanismo. Este capítulo apresenta RDDs e mostra como RDDs pode ser criado e executado usando RDD Transformations and Actions.
Abstração de dados com RDDs50 xpRDDs de coleções paralelizadas100 xpRDDs de conjuntos de dados externos100 xpPartições em seus dados100 xpBásico RDD Transformações e ações50 xpMapear e coletar100 xpFiltrar e contar100 xpPair RDDs no PySpark50 xpReduceBykey e Collect100 xpSortByKey e Collect100 xpAções avançadas do site RDD50 xpCountingBykeys100 xpCrie uma base RDD e transforme-a100 xpRemover palavras de parada e reduzir o conjunto de dados100 xpImprimir frequências de palavras100 xp - 3
PySpark SQL e DataFrames
Neste capítulo, você aprenderá sobre o Spark SQL, que é um módulo do Spark para processamento de dados estruturados. Ele fornece uma abstração de programação chamada DataFrames e também pode atuar como um mecanismo de consulta distribuído SQL. Este capítulo mostra como o Spark SQL permite que você use DataFrames em Python.
Abstração de dados com DataFrames50 xpRDD para DataFrame100 xpCarregando CSV em um DataFrame100 xpOperando em DataFrames no PySpark50 xpInspecionando dados no PySpark DataFrame100 xpSubconjunto e limpeza do PySpark DataFrame100 xpFiltragem de seu DataFrame100 xpInteragindo com DataFrames usando PySpark SQL50 xpExecutando as consultas do site SQL programaticamente100 xpSQL consultas para filtragem da tabela100 xpVisualização de dados no PySpark usando DataFrames50 xpVisualização do DataFrame do PySpark100 xpParte 1: Criar um DataFrame a partir do arquivo CSV100 xpParte 2: SQL Consultas em DataFrame100 xpParte 3: Visualização de dados100 xp - 4
Aprendizado de máquina com PySpark MLlib
PySpark MLlib é a biblioteca de aprendizado de máquina escalável do Apache Spark em Python, que consiste em algoritmos e utilitários comuns de aprendizado. Ao longo deste último capítulo, você aprenderá algoritmos importantes de Machine Learning. Você criará um mecanismo de recomendação de filmes e um filtro de spam e usará o agrupamento k-means.
Visão geral da biblioteca do PySpark ML50 xpPySpark ML bibliotecas50 xpPySpark MLlib algorithms100 xpFiltragem colaborativa50 xpCarregando o conjunto de dados de lentes de filme em RDDs100 xpTreinamento e previsões de modelos100 xpAvaliação do modelo usando MSE100 xpClassificação50 xpCarregamento de dados de spam e não spam100 xpHash de recursos e LabelPoint100 xpTreinamento do modelo de regressão logística100 xpAgrupamento50 xpCarregando e analisando os dados de 5000 pontos100 xpTreinamento K-means100 xpVisualização de clusters100 xpParabéns!50 xp
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.Nas seguintes faixas
Big Data com PySpark
Ir para a trilhacolaboradores
pré-requisitos
Introduction to PythonUpendra Kumar Devisetty
Ver MaisScience Analyst at CyVerse
O que os outros alunos têm a dizer?
Junte-se a mais de 15 milhões de alunos e comece Fundamentos de Big Data com PySpark hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.