Fundamentos de Big Data con PySpark
Aprende los fundamentos de trabajar con big data usando PySpark.
Comience El Curso Gratis4 horas16 vídeos55 ejercicios
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas
Preferido por estudiantes en miles de empresas
Descripción del curso
En los últimos años se ha hablado mucho de Big Data, que por fin se ha convertido en la corriente dominante para muchas empresas. Pero, ¿qué es eso de Big Data? Este curso cubre los fundamentos de Big Data a través de PySpark. Spark es un marco de "computación en clúster a la velocidad del rayo" para Big Data. Proporciona un motor de plataforma general de procesamiento de datos y permite ejecutar programas hasta 100 veces más rápido en memoria, o 10 veces más rápido en disco, que Hadoop. Utilizarás PySpark, un paquete de Python para la programación Spark y sus potentes librerías de alto nivel como SparkSQL, MLlib (para aprendizaje automático), etc. Explorarás las obras de William Shakespeare, analizarás datos de la Fifa 2018 y realizarás clustering en conjuntos de datos genómicos. Al final de este curso, habrá adquirido un conocimiento profundo de PySpark y su aplicación al análisis general de Big Data.
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pista- 1
Introducción al análisis de Big Data con Spark
GratuitoEste capítulo presenta el apasionante mundo de los Big Data, así como los diversos conceptos y los diferentes marcos para su procesamiento. Entenderás por qué Apache Spark es considerado el mejor framework para BigData.
- 2
Programación en PySpark RDD's
La principal abstracción que proporciona Spark es un conjunto de datos distribuido resistente (RDD), que es el tipo de datos fundamental y vertebrador de este motor. Este capítulo presenta RDDs y muestra cómo pueden crearse y ejecutarse RDDs utilizando RDD Transformaciones y Acciones.
Abstracción de datos con RDDs50 xpRDDs de colecciones paralelizadas100 xpRDDs de conjuntos de datos externos100 xpParticiones en sus datos100 xpTransformaciones y acciones básicas de RDD50 xpMapa y Recogida100 xpFiltrar y contar100 xpPar RDDs en PySpark50 xpReduceBykey y Recoge100 xpSortByKey y Collect100 xpAcciones avanzadas de RDD50 xpCountingBykeys100 xpCrear una base RDD y transformarla100 xpEliminar las palabras vacías y reducir el conjunto de datos100 xpImprimir frecuencias de palabras100 xp - 3
PySpark SQL y DataFrames
En este capítulo, aprenderás sobre Spark SQL que es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación denominada DataFrames y también puede actuar como motor de consulta distribuida SQL. Este capítulo muestra cómo Spark SQL permite utilizar DataFrames en Python.
Abstracción de datos con DataFrames50 xpRDD a DataFrame100 xpCarga de CSV en DataFrame100 xpOperar con DataFrames en PySpark50 xpInspección de datos en PySpark DataFrame100 xpSubconjunto y limpieza de PySpark DataFrame100 xpFiltrar el DataFrame100 xpInteracción con DataFrames utilizando PySpark SQL50 xpEjecución programática de consultas en SQL100 xpSQL consultas para filtrar Tabla100 xpVisualización de datos en PySpark con DataFrames50 xpVisualización PySpark DataFrame100 xpPrimera parte: Crear un DataFrame a partir del archivo CSV100 xpSegunda parte: SQL Consultas sobre DataFrame100 xpParte 3: Visualización de datos100 xp - 4
Aprendizaje automático con PySpark MLlib
PySpark MLlib es la biblioteca de aprendizaje automático escalable de Apache Spark en Python que consta de algoritmos y utilidades de aprendizaje comunes. A lo largo de este último capítulo, aprenderás importantes algoritmos de Aprendizaje Automático. Construirá un motor de recomendación de películas y un filtro de spam, y utilizará la agrupación k-means.
Visión general de PySpark MLlib50 xpBibliotecas PySpark ML50 xpPySpark MLlib algoritmos100 xpFiltrado colaborativo50 xpCarga del conjunto de datos Movie Lens en RDDs100 xpEntrenamiento del modelo y predicciones100 xpEvaluación de modelos mediante MSE100 xpClasificación50 xpCarga de datos spam y no spam100 xpHashing de características y LabelPoint100 xpEntrenamiento del modelo de regresión logística100 xpAgrupación50 xpCarga y análisis de los datos de 5000 puntos100 xpEntrenamiento K-means100 xpVisualización de clusters100 xp¡Enhorabuena!50 xp
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pistacolaboradores
requisitos previos
Introduction to PythonUpendra Kumar Devisetty
Ver MásScience Analyst at CyVerse
¿Qué tienen que decir otros alumnos?
¡Únete a 14 millones de estudiantes y empieza Fundamentos de Big Data con PySpark hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.