Machine learning con PySpark
Aprende a hacer predicciones con Apache Spark usando árboles de decisión, regresión logística y más.
Comienza El Curso Gratis4 horas16 vídeos56 ejercicios23.730 aprendicesDeclaración de cumplimiento
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?
Probar DataCamp for BusinessPreferido por estudiantes en miles de empresas
Descripción del curso
Aprende a utilizar Apache Spark para el machine learning
Spark es una potente herramienta de propósito general para trabajar con Big Data. Spark gestiona de forma transparente la distribución de tareas de cálculo en un clúster. Esto significa que las operaciones son rápidas, pero también te permite centrarte en el análisis en lugar de preocuparte por los detalles técnicos. En este curso aprenderás a introducir datos en Spark y, a continuación, profundizarás en los tres algoritmos fundamentales de Spark Machine learning: Regresión lineal, regresión logística/clasificadores y creación de pipelines.Construir y probar árboles de decisión
Construir tus propios árboles de decisión es una forma estupenda de empezar a explorar los modelos de machine learning. Utilizarás un algoritmo llamado "Partición Recursiva" para dividir los datos en dos clases y encontrar un predictor dentro de tus datos que dé como resultado la división más informativa de las dos clases, y repetirás esta acción con más nodos. Luego puedes utilizar tu árbol de decisión para hacer predicciones con nuevos datos.Domina la Regresión Logística y Lineal en PySpark
La regresión logística y lineal son técnicas esenciales de machine learning compatibles con PySpark. Aprenderás a construir y evaluar modelos de regresión logística, antes de pasar a crear modelos de regresión lineal para ayudarte a refinar tus predictores a sólo las opciones más relevantes.Al final del curso, te sentirás seguro al aplicar tus nuevos conocimientos sobre machine learning, gracias a las tareas prácticas y a los conjuntos de datos de práctica que encontrarás a lo largo del curso.
¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de machine learning en Python
Ir a la pista- 1
Introducción
GratuitoSpark es un marco para trabajar con Big Data. En este capítulo cubrirás algunos antecedentes sobre Spark y Machine learning. A continuación, descubrirás cómo conectarte a Spark utilizando Python y cargar datos CSV.
- 2
Clasificación
Ahora que ya estás familiarizado con la introducción de datos en Spark, pasarás a construir dos tipos de modelos de clasificación: Árboles de decisión y regresión logística. También conocerás algunos enfoques para la preparación de datos.
Preparación de datos50 xpEliminar columnas y filas100 xpManipulación de columnas100 xpColumnas categóricas100 xpMontaje de columnas100 xpÁrbol de decisión50 xpDivisión entrenamiento/prueba100 xpConstruye un árbol de decisiones100 xpEvaluar el árbol de decisión100 xpRegresión logística50 xpConstruye un modelo de Regresión Logística100 xpEvalúa el modelo de Regresión Logística100 xpConvertir texto en tablas50 xpPuntuación, números y fichas100 xpDetener palabras y hashing100 xpEntrenar un clasificador de spam100 xp - 3
Regresión
A continuación aprenderás a crear modelos de Regresión Lineal. También descubrirás cómo aumentar tus datos mediante la ingeniería de nuevos predictores, así como un enfoque sólido para seleccionar sólo los predictores más relevantes.
Codificación en caliente50 xpCodificación del origen del vuelo100 xpCodificación de tallas de camisa50 xpRegresión50 xpModelo de duración del vuelo: Sólo distancia100 xpInterpretar los coeficientes100 xpModelo de duración del vuelo: Añadir aeropuerto de origen100 xpInterpretar los coeficientes100 xpBaldeo e ingeniería50 xpHora de salida del cubo100 xpModelo de duración del vuelo: Añadir hora de salida100 xpRegularización50 xpModelo de duración del vuelo: ¡Más funciones!100 xpModelo de duración del vuelo: ¡Regularización!100 xp - 4
Conjuntos y tuberías
Por último, aprenderás a hacer que tus modelos sean más eficaces. Descubrirás cómo utilizar canalizaciones para que tu código sea más claro y fácil de mantener. Luego utilizarás la validación cruzada para probar mejor tus modelos y seleccionar buenos parámetros de modelo. Por último, te adentrarás en dos tipos de modelo de conjunto.
Tuberías50 xpModelo de duración del vuelo: Etapas del oleoducto100 xpModelo de duración del vuelo: Modelo de tubería100 xpCanalización de spam SMS100 xpValidación cruzada50 xpValidación cruzada del modelo simple de duración de vuelo100 xpValidación cruzada del modelo de duración de vuelo100 xpBúsqueda en la cuadrícula50 xpOptimización de vuelos de regresión lineal100 xpDiseccionando el mejor modelo de duración de vuelo100 xpSMS spam optimizado100 xp¿Cuántos modelos para la búsqueda en cuadrícula?50 xpConjunto50 xpVuelos retrasados con árboles de gradiente reforzado100 xpVuelos retrasados con un Bosque Aleatorio100 xpEvaluación de Random Forest100 xpReflexiones finales50 xp
¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de machine learning en Python
Ir a la pistacolaboradores
Andrew Collier
Ver MásData Scientist @ Exegetic Analytics
¿Qué tienen que decir otros alumnos?
¡Únete a 15 millones de estudiantes y empieza Machine learning con PySpark hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.