Pular para o conteúdo principal
InícioArtificial IntelligenceAprendizado por reforço profundo em Python

Aprendizado por reforço profundo em Python

"Aprenda e use poderosos algoritmos de Aprendizado por Reforço Profundo, incluindo técnicas de otimização."

Comece O Curso Gratuitamente
4 horas15 vídeos49 exercícios

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
GroupTreinar 2 ou mais pessoas?Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

Descubra as técnicas de ponta que permitem que as máquinas aprendam e interajam com seus ambientes. Você mergulhará no mundo do Deep Reinforcement Learning (DRL) e ganhará experiência prática com os algoritmos mais poderosos que impulsionam o campo. Você usará o PyTorch e o ambiente Gymnasium para criar seus próprios agentes.

Domine os fundamentos da aprendizagem por reforço profundo

Nossa jornada começa com os fundamentos do DRL e sua relação com o aprendizado por reforço tradicional. A partir daí, passamos rapidamente à implementação de Deep Q-Networks (DQN) no PyTorch, incluindo refinamentos avançados, como Double DQN e Prioritized Experience Replay, para turbinar seus modelos. Leve suas habilidades para o próximo nível enquanto você explora métodos baseados em políticas. Você aprenderá e implementará técnicas essenciais de gradiente de política, como os métodos REINFORCE e Actor-Critic.

Use algoritmos de ponta

Você encontrará algoritmos poderosos de DRL comumente usados no setor atualmente, incluindo o Proximal Policy Optimization (PPO). Você ganhará experiência prática com as técnicas que impulsionam as inovações em robótica, IA de jogos e muito mais. Por fim, você aprenderá a otimizar seus modelos usando o Optuna para ajuste de hiperparâmetros. Ao final deste curso, você terá adquirido as habilidades para aplicar essas técnicas de ponta a problemas do mundo real e aproveitar todo o potencial do DRL!
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.
  1. 1

    Introdução ao aprendizado por reforço profundo

    Gratuito

    Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.

    Reproduzir Capítulo Agora
    Introdução ao aprendizado por reforço profundo
    50 xp
    Ambiente e configuração da rede neural
    100 xp
    DRL ciclo de treinamento
    100 xp
    Introdução à aprendizagem profunda de Q
    50 xp
    Aprendizagem profunda e DQN
    50 xp
    A arquitetura da rede Q
    100 xp
    Instanciando a rede Q
    100 xp
    O algoritmo barebone DQN
    50 xp
    Barebone DQN seleção de ações
    100 xp
    Barebone DQN função de perda
    100 xp
    Treinamento do barebone DQN
    100 xp
  2. 3

    Introdução aos métodos de gradiente de política

    Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, concentrando-se no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes do gradiente de política e dos métodos baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.

    Reproduzir Capítulo Agora
  3. 4

    Otimização da política proximal e DRL Dicas

    Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos modelos DRL.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

colaboradores

Collaborator's avatar
James Chapman
Collaborator's avatar
Jasmin Ludolf
Collaborator's avatar
Francesca Donadoni

Áudio Gravado por

Timothée Carayol's avatar
Timothée Carayol

pré-requisitos

Intermediate Deep Learning with PyTorchReinforcement Learning with Gymnasium in Python
Timothée Carayol HeadshotTimothée Carayol

Principal Machine Learning Engineer

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 14 milhões de alunos e comece Aprendizado por reforço profundo em Python hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.