Pular para o conteúdo principal
InícioSparkFundamentos de Big Data com PySpark

Fundamentos de Big Data com PySpark

"Aprenda os fundamentos de trabalhar com big data usando PySpark."

Comece O Curso Gratuitamente
4 horas16 vídeos55 exercícios
50.399 aprendizesTrophyDeclaração de Realização

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
GroupTreinar 2 ou mais pessoas?Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

Nos últimos anos, tem havido muito burburinho sobre Big Data, e ele finalmente se tornou popular para muitas empresas. Mas o que é esse Big Data? Este curso aborda os fundamentos do Big Data por meio do PySpark. O Spark é uma estrutura de "computação em cluster extremamente rápida" para Big Data. Ele fornece um mecanismo de plataforma de processamento de dados geral e permite que você execute programas até 100 vezes mais rápido na memória ou 10 vezes mais rápido no disco do que o Hadoop. Você usará o PySpark, um pacote Python para programação do Spark e suas poderosas bibliotecas de nível superior, como SparkSQL, MLlib (para aprendizado de máquina), etc. Você explorará as obras de William Shakespeare, analisará dados da Fifa 2018 e realizará agrupamento em conjuntos de dados genômicos. Ao final deste curso, você terá adquirido um conhecimento profundo do PySpark e de sua aplicação à análise geral de Big Data.
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha
  1. 1

    Introdução à análise de Big Data com o Spark

    Gratuito

    Este capítulo apresenta o empolgante mundo do Big Data, bem como os vários conceitos e estruturas diferentes para o processamento de Big Data. Você entenderá por que o Apache Spark é considerado a melhor estrutura para BigData.

    Reproduzir Capítulo Agora
    O que é Big Data?
    50 xp
    Os 3 Vs do Big Data
    50 xp
    PySpark: Spark com Python
    50 xp
    Entendendo o SparkContext
    100 xp
    Uso interativo do PySpark
    100 xp
    Carregando dados no shell do PySpark
    100 xp
    Revisão da programação funcional em Python
    50 xp
    Uso de lambda() com map()
    100 xp
    Uso de lambda() com filter()
    100 xp
  2. 4

    Aprendizado de máquina com PySpark MLlib

    PySpark MLlib é a biblioteca de aprendizado de máquina escalável do Apache Spark em Python, que consiste em algoritmos e utilitários comuns de aprendizado. Ao longo deste último capítulo, você aprenderá algoritmos importantes de Machine Learning. Você criará um mecanismo de recomendação de filmes e um filtro de spam e usará o agrupamento k-means.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

conjuntos de dados

Complete ShakespeareMovie ratings5000 pointsFIFA 2018PeopleSpamHam

colaboradores

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Chester Ismay

pré-requisitos

Introduction to Python
Upendra Kumar Devisetty HeadshotUpendra Kumar Devisetty

Science Analyst at CyVerse

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 14 milhões de alunos e comece Fundamentos de Big Data com PySpark hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.