Pular para o conteúdo principal
InícioMachine LearningIntrodução ao controle de versão de dados com DVC

Introdução ao controle de versão de dados com DVC

Explore o Controle de Versão de Dados para gestão de dados de ML. Configure, automatize e avalie modelos.

Comece O Curso Gratuitamente
3 horas12 vídeos35 exercícios

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
GroupTreinar 2 ou mais pessoas?Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

Este curso oferece uma introdução abrangente ao Controle de versão de dados (DVC), uma ferramenta projetada para o gerenciamento eficiente e o controle de versão de dados de machine learning. Você entenderá o ciclo de vida do produto de machine learning, diferenciando o controle de versão de dados do controle de versão de código e explorando os recursos e casos de uso do DVC.

Explorando os recursos do site DVC

Você entenderá as motivações por trás do controle de versão de dados, o ciclo de vida do machine learning e os recursos e casos de uso distintos do DVC. Você também aprenderá sobre a configuração do DVC, abrangendo a instalação, a inicialização do repositório e o arquivo .dvcignore. Você explorará o cache DVC e os arquivos de preparação, aprenderá a adicionar e remover arquivos, gerenciar caches e entender os mecanismos subjacentes. Você aprenderá sobre os controles remotos do DVC, explicará a diferença entre os controles remotos do DVC e do Git, adicionará controles remotos, os listará e os modificará. Você aprenderá a interagir com controles remotos, enviar e receber dados, verificar versões específicas e buscar dados no cache.

Automatizar e avaliar

Você será motivado a automatizar os pipelines do ML, enfatizando a modularização do código e a criação de um arquivo de configuração. Você conhecerá os pipelines do DVC como gráficos acíclicos direcionados, com experiência prática na adição de estágios e suas entradas e saídas. Você praticará a execução eficiente desses pipelines para permitir diferentes casos de uso no treinamento de modelos de machine learning. O curso termina com foco na avaliação, mostrando como as métricas e os gráficos são programados em DVC.
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Aprendizado de máquina na produção em Python

Ir para a trilha
  1. 1

    Introdução a DVC

    Gratuito

    Este capítulo fornece uma introdução abrangente ao Controle de versão de dados (DVC), uma ferramenta essencial para o controle de versão de dados em machine learning. Os alunos explorarão a motivação por trás do controle de versão de dados, entenderão suas diferenças em relação ao controle de versão de código e farão experiências com um problema de classificação simples. Eles revisarão os comandos básicos do Git, aprenderão sobre DVC e praticarão a configuração de um repositório. O capítulo termina com uma visão geral dos recursos e casos de uso do DVC, incluindo dados e modelos de controle de versão, CI/CD para machine learning, rastreamento de experimentos, pipelines e muito mais.

    Reproduzir Capítulo Agora
    Motivação para o controle de versão de dados
    50 xp
    Anatomia de um modelo de machine learning
    100 xp
    Diferenças entre o controle de versão de dados e de código
    50 xp
    Entendendo os hiperparâmetros
    50 xp
    Introdução a DVC
    50 xp
    Trabalhando com o Git CLI
    100 xp
    Revisão DVC CLI
    50 xp
    DVC recursos e casos de uso
    50 xp
    DVC dutos
    50 xp
    CI/CD para machine learning
    50 xp
  2. 2

    DVC Gerenciamento de configuração e dados

    Este capítulo aborda a configuração do DVC, abrangendo aspectos como instalação, inicialização do repositório e a utilização do arquivo .dvcignore. Além disso, você navegará pela exploração do cache DVC e dos arquivos de preparação, transmitindo conhecimento sobre como adicionar e remover arquivos, gerenciar caches e compreender os mecanismos subjacentes usando o hash MD5. O capítulo também esclarece sobre os controles remotos do DVC, distinguindo-os dos controles remotos do Git, e orienta você sobre como adicioná-los, listá-los e modificá-los. Por fim, ele ensina você a interagir com esses controles remotos, enviando e extraindo dados, verificando versões específicas e buscando dados no cache.

    Reproduzir Capítulo Agora
  3. 3

    Dutos em DVC

    Este capítulo se concentra na automação dos pipelines do ML usando o DVC. Os alunos criam um arquivo de configuração que contém configurações e hiperparâmetros. Eles também aprendem sobre a visualização de pipeline usando gráficos acíclicos direcionados e usam comandos para descrever dependências, comandos e saídas. A execução dos pipelines do DVC é abordada, incluindo o treinamento de modelos locais e como o Git programa os metadados do DVC. Além disso, os alunos exploram o rastreamento de métricas e gráficos em DVC, incluindo como imprimir métricas, criar arquivos de gráficos e comparar métricas e gráficos em diferentes estágios do pipeline.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

Nas seguintes faixas

Aprendizado de máquina na produção em Python

Ir para a trilha

colaboradores

Collaborator's avatar
George Boorman
Collaborator's avatar
Arne Warnke
Collaborator's avatar
Katerina Zahradova

pré-requisitos

Supervised Learning with scikit-learnIntroduction to Git
Ravi Bhadauria HeadshotRavi Bhadauria

Senior Machine Learning Engineer

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 14 milhões de alunos e comece Introdução ao controle de versão de dados com DVC hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.