Preprocesamiento para el aprendizaje automático en Python
Aprende a limpiar y preparar tus datos para el aprendizaje automático.
Comience El Curso Gratis4 horas20 vídeos62 ejercicios
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas
Preferido por estudiantes en miles de empresas
Descripción del curso
Este curso cubre los fundamentos de cómo y cuándo realizar el preprocesamiento de datos. Este paso esencial en cualquier proyecto de aprendizaje automático es cuando se preparan los datos para el modelado. Entre la importación y limpieza de los datos y el ajuste del modelo de aprendizaje automático es cuando entra en juego el preprocesamiento. Aprenderá a estandarizar sus datos para que tengan la forma adecuada para su modelo, a crear nuevas funciones para aprovechar mejor la información de su conjunto de datos y a seleccionar las mejores funciones para mejorar el ajuste de su modelo. Por último, practicará un poco de preprocesamiento obteniendo un conjunto de datos sobre avistamientos en UFO listo para la modelización.
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Científico de machine learning en Python
Ir a la pista- 1
Introducción al preprocesamiento de datos
GratuitoEn este capítulo aprenderá qué significa exactamente preprocesar datos. Dará los primeros pasos en cualquier viaje de preprocesamiento, incluida la exploración de los tipos de datos y el tratamiento de los datos que faltan.
Introducción al preprocesamiento50 xpExploración de los datos que faltan50 xpEliminación de los datos que faltan100 xpTrabajar con tipos de datos50 xpExplorar los tipos de datos50 xpConversión de un tipo de columna100 xpConjuntos de entrenamiento y prueba50 xpDesequilibrio de clases50 xpMuestreo estratificado100 xp - 2
Normalización de datos
Este capítulo trata de la normalización de los datos. A menudo, un modelo hará algunas suposiciones sobre la distribución o la escala de sus características. La normalización es una forma de hacer que los datos se ajusten a estos supuestos y mejorar el rendimiento del algoritmo.
Normalización50 xpCuándo normalizar50 xpModelización sin normalización100 xpNormalización logarítmica50 xpComprobación de la varianza50 xpNormalización de registros en Python100 xpEscala de datos para la comparación de características50 xpEscalado de datos - investigación de columnas50 xpEscalado de datos: normalización de columnas100 xpDatos y modelos normalizados50 xpKNN en datos no escalados100 xpKNN sobre datos a escala100 xp - 3
Ingeniería de funciones
En esta sección aprenderás sobre ingeniería de funciones. Explorará distintas formas de crear características nuevas y más útiles a partir de las que ya existen en su conjunto de datos. Verá cómo codificar, agregar y extraer información de características numéricas y textuales.
Ingeniería de funciones50 xpPrueba de conocimientos de ingeniería de rasgos50 xpIdentificación de áreas para la ingeniería de características50 xpCodificación de variables categóricas50 xpCodificación de variables categóricas - binarias100 xpCodificación de variables categóricas - one-hot100 xpCaracterísticas numéricas de ingeniería50 xpAgregación de características numéricas100 xpExtracción de componentes datetime100 xpCaracterísticas de los textos de ingeniería50 xpExtracción de patrones de cadenas100 xpVectorizar texto100 xpClasificación de textos mediante vectores tf/idf100 xp - 4
Selección de características para la modelización
En este capítulo se analizan distintas técnicas para seleccionar las características más importantes del conjunto de datos. Aprenderá a eliminar características redundantes, a trabajar con vectores de texto y a reducir el número de características de su conjunto de datos mediante el análisis de componentes principales (PCA).
Selección de características50 xpCuándo utilizar la selección de características50 xpIdentificación de áreas para la selección de características50 xpEliminación de funciones redundantes50 xpSelección de características relevantes100 xpComprobación de características correlacionadas100 xpSelección de características mediante vectores de texto50 xpExploración de vectores de texto, parte 1100 xpExploración de vectores de texto, parte 2100 xpEntrenamiento de Naive Bayes con selección de características100 xpReducción de la dimensionalidad50 xpUtilizando PCA100 xpEntrenamiento de un modelo con PCA100 xp - 5
Puesta en común
Ahora que has aprendido todo sobre el preprocesamiento, probarás estas técnicas en un conjunto de datos que registra información sobre avistamientos en UFO.
UFOs y preprocesamiento50 xpComprobación de los tipos de columna100 xpEliminación de los datos que faltan100 xpVariables categóricas y normalización50 xpExtraer números de cadenas100 xpIdentificación de características para la normalización100 xpNuevas funciones de ingeniería50 xpCodificación de variables categóricas100 xpCaracterísticas de las fechas100 xpVectorización de textos100 xpSelección y modelización de características50 xpSeleccionar el conjunto de datos ideal100 xpModelización del conjunto de datos UFO, parte 1100 xpModelización del conjunto de datos UFO, parte 2100 xp¡Enhorabuena!50 xp
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Científico de machine learning en Python
Ir a la pistacolaboradores
James Chapman
Ver MásCurriculum Manager, DataCamp
¿Qué tienen que decir otros alumnos?
¡Únete a 14 millones de estudiantes y empieza Preprocesamiento para el aprendizaje automático en Python hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.