Introducción a PySpark
"Aprende a implementar gestión de datos distribuidos y aprendizaje automático en Spark con PySpark."
Comienza El Curso Gratis4 horas45 ejercicios147.786 aprendicesDeclaración de cumplimiento
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?
Probar DataCamp for BusinessPreferido por estudiantes en miles de empresas
Descripción del curso
En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir toda una canalización de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.
¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de machine learning en Python
Ir a la pista- 1
Conocer PySpark
GratuitoEn este capítulo, aprenderás cómo gestiona Spark los datos y cómo leer y escribir tablas desde Python.
- 2
Manipulación de datos
En este capítulo, aprenderás sobre el módulo pyspark.sql, que proporciona consultas de datos optimizadas a tu sesión Spark.
- 3
Introducción a las canalizaciones de machine learning
PySpark tiene rutinas de machine learning de última generación integradas, junto con utilidades para crear canalizaciones completas de machine learning. Aprenderás todo esto en este capítulo.
Canalizaciones de machine learning50 xpUnir los DataFrames100 xpTipos de datos50 xpDe cadena a entero100 xpCrear una nueva columna100 xpCreación de un valor booleano100 xpCadenas y factores50 xpOperador100 xpDestino100 xpEnsamblar un vector100 xpCrear la canalización100 xpProbar frente a entrenar50 xpTransformar los datos100 xpDividir los datos100 xp - 4
Ajuste y selección de modelos
En este último capítulo, aplicarás lo que has aprendido para crear un modelo que prevea qué vuelos sufrirán retrasos.
¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de machine learning en Python
Ir a la pistaLore Dirick
Ver MásDirector of Data Science Education at Flatiron School
Nick Solomon
Ver MásData Scientist
¿Qué tienen que decir otros alumnos?
¡Únete a 15 millones de estudiantes y empieza Introducción a PySpark hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.