Saltar al contenido principal

curso

Fundamentos de Big Data con PySpark

Avanzado

Updated 12/2024

Aprende los fundamentos de trabajar con big data usando PySpark.

Comienza el curso gratis

Incluido de forma gratuitaPremium or Teams

SparkIngeniería de datos4 horas16 vídeos55 ejercicios4,600 XP52,938Declaración de cumplimiento

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.

¿Entrenar a 2 o más personas?

Probar DataCamp for Business

Preferido por estudiantes en miles de empresas

Descripción del curso

En los últimos años se ha hablado mucho de Big Data, que por fin se ha convertido en la corriente dominante para muchas empresas. Pero, ¿qué es eso de Big Data? Este curso cubre los fundamentos de Big Data a través de PySpark. Spark es un marco de "computación en clúster a la velocidad del rayo" para Big Data. Proporciona un motor de plataforma general de procesamiento de datos y permite ejecutar programas hasta 100 veces más rápido en memoria, o 10 veces más rápido en disco, que Hadoop. Utilizarás PySpark, un paquete de Python para la programación Spark y sus potentes librerías de alto nivel como SparkSQL, MLlib (para aprendizaje automático), etc. Explorarás las obras de William Shakespeare, analizarás datos de la Fifa 2018 y realizarás clustering en conjuntos de datos genómicos. Al final de este curso, habrá adquirido un conocimiento profundo de PySpark y su aplicación al análisis general de Big Data.

Prerrequisitos

Introduction to Python

1

Introducción al análisis de Big Data con Spark

Iniciar capítulo

¿Qué son los macrodatos?

Las 3 V de Big Data

PySpark: Spark con Python

Comprender SparkContext

Uso interactivo de PySpark

Carga de datos en PySpark shell

Repaso a la programación funcional en Python

Uso de lambda() con map()

Uso de lambda() con filter()

2

Programación en PySpark RDD's

Iniciar capítulo

Abstracción de datos con RDDs

RDDs de colecciones paralelizadas

RDDs de conjuntos de datos externos

Particiones en sus datos

Transformaciones y acciones básicas de RDD

Mapa y Recogida

Filtrar y contar

Par RDDs en PySpark

ReduceBykey y Recoge

SortByKey y Collect

Acciones avanzadas de RDD

CountingBykeys

Crear una base RDD y transformarla

Eliminar las palabras vacías y reducir el conjunto de datos

Imprimir frecuencias de palabras

3

PySpark SQL y DataFrames

Iniciar capítulo

Abstracción de datos con DataFrames

RDD a DataFrame

Carga de CSV en DataFrame

Operar con DataFrames en PySpark

Inspección de datos en PySpark DataFrame

Subconjunto y limpieza de PySpark DataFrame

Filtrar el DataFrame

Interacción con DataFrames utilizando PySpark SQL

Ejecución programática de consultas en SQL

SQL consultas para filtrar Tabla

Visualización de datos en PySpark con DataFrames

Visualización PySpark DataFrame

Primera parte: Crear un DataFrame a partir del archivo CSV

Segunda parte: SQL Consultas sobre DataFrame

Parte 3: Visualización de datos

4

Aprendizaje automático con PySpark MLlib

Iniciar capítulo

Visión general de PySpark MLlib

Bibliotecas PySpark ML

PySpark MLlib algoritmos

Filtrado colaborativo

Carga del conjunto de datos Movie Lens en RDDs

Entrenamiento del modelo y predicciones

Evaluación de modelos mediante MSE

Clasificación

Carga de datos spam y no spam

Hashing de características y LabelPoint

Entrenamiento del modelo de regresión logística

Agrupación

Carga y análisis de los datos de 5000 puntos

Entrenamiento K-means

Visualización de clusters

¡Enhorabuena!

Fundamentos de Big Data con PySpark

Curso
Completo

Obtener Declaración de Logro

Añade esta credencial a tu perfil, currículum vitae o CV de LinkedIn
Compártelo en las redes sociales y en tu evaluación de desempeño

Incluido conPremium or Teams

Inscríbete ahora

Únete a más 15 millones de estudiantes y empezar Fundamentos de Big Data con PySpark ¡Hoy!

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.