Pular para o conteúdo principal
InícioMachine Learning

Introdução ao controle de versão de dados com DVC

Explore o Controle de Versão de Dados para gestão de dados de ML. Configure, automatize e avalie modelos.

Comece O Curso Gratuitamente
3 horas12 vídeos35 exercícios

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
Group

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas


Descrição do Curso

Este curso oferece uma introdução abrangente ao Controle de versão de dados (DVC), uma ferramenta projetada para o gerenciamento eficiente e o controle de versão de dados de machine learning. Você entenderá o ciclo de vida do produto de machine learning, diferenciando o controle de versão de dados do controle de versão de código e explorando os recursos e casos de uso do DVC.

Explorando os recursos do site DVC

Você entenderá as motivações por trás do controle de versão de dados, o ciclo de vida do machine learning e os recursos e casos de uso distintos do DVC. Você também aprenderá sobre a configuração do DVC, abrangendo a instalação, a inicialização do repositório e o arquivo .dvcignore. Você explorará o cache DVC e os arquivos de preparação, aprenderá a adicionar e remover arquivos, gerenciar caches e entender os mecanismos subjacentes. Você aprenderá sobre os controles remotos do DVC, explicará a diferença entre os controles remotos do DVC e do Git, adicionará controles remotos, os listará e os modificará. Você aprenderá a interagir com controles remotos, enviar e receber dados, verificar versões específicas e buscar dados no cache.

Automatizar e avaliar

Você será motivado a automatizar os pipelines do ML, enfatizando a modularização do código e a criação de um arquivo de configuração. Você conhecerá os pipelines do DVC como gráficos acíclicos direcionados, com experiência prática na adição de estágios e suas entradas e saídas. Você praticará a execução eficiente desses pipelines para permitir diferentes casos de uso no treinamento de modelos de machine learning. O curso termina com foco na avaliação, mostrando como as métricas e os gráficos são programados em DVC.
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.
DataCamp Para EmpresasPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Engenheiro de aprendizado de máquina

Ir para a trilha

Aprendizado de máquina na produção em Python

Ir para a trilha
  1. 1

    Introdução a DVC

    Gratuito

    Este capítulo fornece uma introdução abrangente ao Controle de versão de dados (DVC), uma ferramenta essencial para o controle de versão de dados em machine learning. Os alunos explorarão a motivação por trás do controle de versão de dados, entenderão suas diferenças em relação ao controle de versão de código e farão experiências com um problema de classificação simples. Eles revisarão os comandos básicos do Git, aprenderão sobre DVC e praticarão a configuração de um repositório. O capítulo termina com uma visão geral dos recursos e casos de uso do DVC, incluindo dados e modelos de controle de versão, CI/CD para machine learning, rastreamento de experimentos, pipelines e muito mais.

    Reproduzir Capítulo Agora
    Motivação para o controle de versão de dados
    50 xp
    Anatomia de um modelo de machine learning
    100 xp
    Diferenças entre o controle de versão de dados e de código
    50 xp
    Entendendo os hiperparâmetros
    50 xp
    Introdução a DVC
    50 xp
    Trabalhando com o Git CLI
    100 xp
    Revisão DVC CLI
    50 xp
    DVC recursos e casos de uso
    50 xp
    DVC dutos
    50 xp
    CI/CD para machine learning
    50 xp
  2. 2

    DVC Gerenciamento de configuração e dados

    Este capítulo aborda a configuração do DVC, abrangendo aspectos como instalação, inicialização do repositório e a utilização do arquivo .dvcignore. Além disso, você navegará pela exploração do cache DVC e dos arquivos de preparação, transmitindo conhecimento sobre como adicionar e remover arquivos, gerenciar caches e compreender os mecanismos subjacentes usando o hash MD5. O capítulo também esclarece sobre os controles remotos do DVC, distinguindo-os dos controles remotos do Git, e orienta você sobre como adicioná-los, listá-los e modificá-los. Por fim, ele ensina você a interagir com esses controles remotos, enviando e extraindo dados, verificando versões específicas e buscando dados no cache.

    Reproduzir Capítulo Agora
  3. 3

    Dutos em DVC

    Este capítulo se concentra na automação dos pipelines do ML usando o DVC. Os alunos criam um arquivo de configuração que contém configurações e hiperparâmetros. Eles também aprendem sobre a visualização de pipeline usando gráficos acíclicos direcionados e usam comandos para descrever dependências, comandos e saídas. A execução dos pipelines do DVC é abordada, incluindo o treinamento de modelos locais e como o Git programa os metadados do DVC. Além disso, os alunos exploram o rastreamento de métricas e gráficos em DVC, incluindo como imprimir métricas, criar arquivos de gráficos e comparar métricas e gráficos em diferentes estágios do pipeline.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.

Nas seguintes faixas

Engenheiro de aprendizado de máquina

Ir para a trilha

Aprendizado de máquina na produção em Python

Ir para a trilha

colaboradores

Collaborator's avatar
George Boorman
Collaborator's avatar
Arne Warnke
Collaborator's avatar
Katerina Zahradova

pré-requisitos

Supervised Learning with scikit-learnIntroduction to Git
Ravi Bhadauria HeadshotRavi Bhadauria

Senior Machine Learning Engineer

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 15 milhões de alunos e comece Introdução ao controle de versão de dados com DVC hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.