Pular para o conteúdo principal

curso

Fundamentos de Big Data com PySpark

Avançado

Updated 01/2025

"Aprenda os fundamentos de trabalhar com big data usando PySpark."

Iniciar curso gratuitamente

Incluído gratuitamentePremium or Teams

SparkEngenharia de dados4 horas16 vídeos55 exercícios4,600 XP53,342Declaração de Realização

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas

Descrição do curso

Nos últimos anos, tem havido muito burburinho sobre Big Data, e ele finalmente se tornou popular para muitas empresas. Mas o que é esse Big Data? Este curso aborda os fundamentos do Big Data por meio do PySpark. O Spark é uma estrutura de "computação em cluster extremamente rápida" para Big Data. Ele fornece um mecanismo de plataforma de processamento de dados geral e permite que você execute programas até 100 vezes mais rápido na memória ou 10 vezes mais rápido no disco do que o Hadoop. Você usará o PySpark, um pacote Python para programação do Spark e suas poderosas bibliotecas de nível superior, como SparkSQL, MLlib (para aprendizado de máquina), etc. Você explorará as obras de William Shakespeare, analisará dados da Fifa 2018 e realizará agrupamento em conjuntos de dados genômicos. Ao final deste curso, você terá adquirido um conhecimento profundo do PySpark e de sua aplicação à análise geral de Big Data.

Pré-requisitos

Introduction to Python

1

Introdução à análise de Big Data com o Spark

Iniciar capítulo

O que é Big Data?

Os 3 Vs do Big Data

PySpark: Spark com Python

Entendendo o SparkContext

Uso interativo do PySpark

Carregando dados no shell do PySpark

Revisão da programação funcional em Python

Uso de lambda() com map()

Uso de lambda() com filter()

2

Programação no PySpark RDD's

Iniciar capítulo

Abstração de dados com RDDs

RDDs de coleções paralelizadas

RDDs de conjuntos de dados externos

Partições em seus dados

Básico RDD Transformações e ações

Mapear e coletar

Filtrar e contar

Pair RDDs no PySpark

ReduceBykey e Collect

SortByKey e Collect

Ações avançadas do site RDD

CountingBykeys

Crie uma base RDD e transforme-a

Remover palavras de parada e reduzir o conjunto de dados

Imprimir frequências de palavras

3

PySpark SQL e DataFrames

Iniciar capítulo

Abstração de dados com DataFrames

RDD para DataFrame

Carregando CSV em um DataFrame

Operando em DataFrames no PySpark

Inspecionando dados no PySpark DataFrame

Subconjunto e limpeza do PySpark DataFrame

Filtragem de seu DataFrame

Interagindo com DataFrames usando PySpark SQL

Executando as consultas do site SQL programaticamente

SQL consultas para filtragem da tabela

Visualização de dados no PySpark usando DataFrames

Visualização do DataFrame do PySpark

Parte 1: Criar um DataFrame a partir do arquivo CSV

Parte 2: SQL Consultas em DataFrame

Parte 3: Visualização de dados

4

Aprendizado de máquina com PySpark MLlib

Iniciar capítulo

Visão geral da biblioteca do PySpark ML

PySpark ML bibliotecas

PySpark MLlib algorithms

Filtragem colaborativa

Carregando o conjunto de dados de lentes de filme em RDDs

Treinamento e previsões de modelos

Avaliação do modelo usando MSE

Classificação

Carregamento de dados de spam e não spam

Hash de recursos e LabelPoint

Treinamento do modelo de regressão logística

Agrupamento

Carregando e analisando os dados de 5000 pontos

Treinamento K-means

Visualização de clusters

Fundamentos de Big Data com PySpark

Curso
Completo

Declaração de Realização Earn

Adicione esta credencial ao seu perfil, currículo ou currículo do LinkedIn
Compartilhe nas redes sociais e em sua avaliação de desempenho

Incluído comPremium or Teams

Inscreva-se agora

Junte-se a mais 15 milhões de alunos e comece Fundamentos de Big Data com PySpark Hoje!

Crie sua conta gratuita

Google LinkedIn Facebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.