Saltar al contenido principal
InicioMachine Learning

Introducción al control de versiones de datos con DVC

Explora el Control de Versiones de Datos para la gestión de datos en ML. Configura, automatiza y evalúa modelos.

Comienza El Curso Gratis
3 horas12 vídeos35 ejercicios

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group

¿Entrenar a 2 o más personas?

Probar DataCamp for Business

Preferido por estudiantes en miles de empresas


Descripción del curso

Este curso ofrece una introducción completa al Control de Versiones de Datos (DVC), una herramienta diseñada para la gestión eficiente y el versionado de datos de aprendizaje automático. Comprenderás el ciclo de vida del producto de aprendizaje automático, diferenciarás el versionado de datos del versionado de código y explorarás las funciones y casos de uso de DVC.

Explorando las funciones de DVC

Comprenderás las motivaciones que hay detrás del versionado de datos, el ciclo de vida del aprendizaje automático y las distintas características y casos de uso de DVC. También aprenderás sobre la configuración de DVC, abarcando la instalación, la inicialización del repositorio y el archivo .dvcignore. Explorarás los archivos de caché y de preparación de DVC, aprenderás a añadir y eliminar archivos, a gestionar cachés y a comprender los mecanismos subyacentes. Aprenderás sobre las remotas de DVC, explicarás la distinción entre DVC y las remotas de Git, añadirás remotas, las listarás y las modificarás. Aprenderás a interactuar con las remotas, a enviar y recibir datos, a comprobar versiones concretas y a traer datos a la caché.

Automatizar y evaluar

Estarás motivado para automatizar los pipelines de ML, haciendo hincapié en la modularización del código y la creación de un archivo de configuración. Se te presentará DVC pipelines como grafos acíclicos dirigidos, con experiencia práctica en la adición de etapas y sus entradas y salidas. Practicarás la ejecución eficaz de estas canalizaciones para permitir diferentes casos de uso en el entrenamiento de modelos de aprendizaje automático. El curso concluye centrándose en la evaluación, mostrando cómo se realiza el seguimiento de las métricas y las parcelas en DVC.
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.
DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.

En las siguientes pistas

Ingeniero de Aprendizaje Automático

Ir a la pista

Machine learning en la producción en Python

Ir a la pista
  1. 1

    Introducción a DVC

    Gratuito

    Este capítulo proporciona una introducción completa al Control de Versiones de Datos (DVC), una herramienta esencial para el versionado de datos en el aprendizaje automático. Los alumnos explorarán la motivación que hay detrás del versionado de datos, comprenderán sus diferencias con el versionado de código y experimentarán con un sencillo problema de clasificación. Repasarán los comandos básicos de Git, aprenderán sobre DVC, y practicarán la creación de un repositorio. El capítulo concluye con una visión general de las funciones y casos de uso de DVC, incluidos el versionado de datos y modelos, CI/CD para el aprendizaje automático, el seguimiento de experimentos, los pipelines y mucho más.

    Reproducir Capítulo Ahora
    Motivación del versionado de datos
    50 xp
    Anatomía de un modelo de aprendizaje automático
    100 xp
    Diferencias entre el control de versiones de datos y de código
    50 xp
    Comprender los hiperparámetros
    50 xp
    Introducción a DVC
    50 xp
    Trabajar con Git CLI
    100 xp
    Revisa DVC CLI
    50 xp
    DVC características y casos de uso
    50 xp
    DVC tuberías
    50 xp
    CI/CD para el aprendizaje automático
    50 xp
  2. 2

    DVC Configuración y gestión de datos

    Este capítulo profundiza en la configuración de DVC, abarcando aspectos como la instalación, la inicialización del repositorio y la utilización del archivo .dvcignore. Además, navega por la exploración de la caché DVC y los archivos de preparación, impartiendo conocimientos sobre cómo añadir y eliminar archivos, gestionar cachés y comprender los mecanismos subyacentes utilizando el hash MD5. El capítulo también aclara sobre las remotas de DVC, distinguiéndolas de las remotas de Git, y te guía sobre cómo añadirlas, listarlas y modificarlas. Por último, te enseña a interactuar con estas remotas enviando y recibiendo datos, comprobando versiones concretas y trayendo datos a la caché.

    Reproducir Capítulo Ahora
  3. 3

    Tuberías en DVC

    Este capítulo se centra en la automatización de ML pipelines utilizando DVC. Los alumnos crean un archivo de configuración que contiene ajustes e hiperparámetros. También aprenden sobre la visualización de tuberías mediante grafos acíclicos dirigidos y utilizan comandos para describir dependencias, órdenes y salidas. Se cubre la ejecución de los pipelines de DVC, incluido el entrenamiento de modelos locales y cómo Git rastrea los metadatos de DVC. Además, los alumnos exploran el seguimiento de métricas y trazados en DVC, incluyendo cómo imprimir métricas, crear archivos de trazado y comparar métricas y trazados en diferentes etapas del pipeline.

    Reproducir Capítulo Ahora
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.

En las siguientes pistas

Ingeniero de Aprendizaje Automático

Ir a la pista

Machine learning en la producción en Python

Ir a la pista

colaboradores

Collaborator's avatar
George Boorman
Collaborator's avatar
Arne Warnke
Collaborator's avatar
Katerina Zahradova

requisitos previos

Supervised Learning with scikit-learnIntroduction to Git
Ravi Bhadauria HeadshotRavi Bhadauria

Senior Machine Learning Engineer

Ver Más

¿Qué tienen que decir otros alumnos?

¡Únete a 15 millones de estudiantes y empieza Introducción al control de versiones de datos con DVC hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.