Aprendizado por reforço profundo em Python

"Aprenda e use poderosos algoritmos de Aprendizado por Reforço Profundo, incluindo técnicas de otimização."

Comece O Curso Gratuitamente

4 horas15 vídeos49 exercícios

Crie sua conta gratuita

Google LinkedIn Facebook

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.

Treinar 2 ou mais pessoas?

Tentar DataCamp for Business

Amado por alunos de milhares de empresas

Descrição do Curso

Descubra as técnicas de ponta que permitem que as máquinas aprendam e interajam com seus ambientes. Você mergulhará no mundo do Deep Reinforcement Learning (DRL) e ganhará experiência prática com os algoritmos mais poderosos que impulsionam o campo. Você usará o PyTorch e o ambiente Gymnasium para criar seus próprios agentes.

Domine os fundamentos da aprendizagem por reforço profundo

Nossa jornada começa com os fundamentos do DRL e sua relação com o aprendizado por reforço tradicional. A partir daí, passamos rapidamente à implementação de Deep Q-Networks (DQN) no PyTorch, incluindo refinamentos avançados, como Double DQN e Prioritized Experience Replay, para turbinar seus modelos. Leve suas habilidades para o próximo nível enquanto você explora métodos baseados em políticas. Você aprenderá e implementará técnicas essenciais de gradiente de política, como os métodos REINFORCE e Actor-Critic.

Use algoritmos de ponta

Você encontrará algoritmos poderosos de DRL comumente usados no setor atualmente, incluindo o Proximal Policy Optimization (PPO). Você ganhará experiência prática com as técnicas que impulsionam as inovações em robótica, IA de jogos e muito mais. Por fim, você aprenderá a otimizar seus modelos usando o Optuna para ajuste de hiperparâmetros. Ao final deste curso, você terá adquirido as habilidades para aplicar essas técnicas de ponta a problemas do mundo real e aproveitar todo o potencial do DRL!

Para Empresas

Treinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.

1
Introdução ao aprendizado por reforço profundo
Gratuito
Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.
Reproduzir Capítulo Agora
Introdução ao aprendizado por reforço profundo
50 xp
Ambiente e configuração da rede neural
100 xp
DRL ciclo de treinamento
100 xp
Introdução à aprendizagem profunda de Q
50 xp
Aprendizagem profunda e DQN
50 xp
A arquitetura da rede Q
100 xp
Instanciando a rede Q
100 xp
O algoritmo barebone DQN
50 xp
Barebone DQN seleção de ações
100 xp
Barebone DQN função de perda
100 xp
Treinamento do barebone DQN
100 xp
2
Aprendizado Q profundo
Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.
Reproduzir Capítulo Agora
DQN com repetição de experiência
50 xp
A fila dupla
100 xp
Buffer de reprodução de experiência
100 xp
DQN com repetição de experiência
100 xp
O algoritmo DQN completo
50 xp
Epsilon-greediness
100 xp
Metas Q fixas
100 xp
Implementação do algoritmo DQN completo
100 xp
Duplo DQN
50 xp
Rede on-line e rede de destino em DDQN
100 xp
Treinar a dupla DQN
100 xp
Repetição de experiência priorizada
50 xp
Buffer de reprodução de experiência priorizada
100 xp
Amostragem do buffer PER
100 xp
DQN com reprodução de experiência priorizada
100 xp
3
Introdução aos métodos de gradiente de política
Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.
Reproduzir Capítulo Agora
Introdução ao gradiente de políticas
50 xp
A arquitetura da rede de políticas
100 xp
Trabalho com distribuições discretas
100 xp
Gradiente de políticas e REINFORCE
50 xp
Seleção de ações em REINFORCE
100 xp
Treinamento do algoritmo REINFORCE
100 xp
Vantagem do ator crítico
50 xp
Rede de críticos
100 xp
Cálculos de perda do Actor Critic
100 xp
Treinamento do algoritmo A2C
100 xp
4
Otimização da política proximal e DRL Dicas
Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.
Reproduzir Capítulo Agora
Otimização da política proximal
50 xp
A taxa de probabilidade cortada
100 xp
A função objetiva substituta recortada
100 xp
Bônus de entropia e PPO
50 xp
Playground de entropia
100 xp
Treinamento do algoritmo PPO
100 xp
Atualizações em lote no gradiente de política
50 xp
Minibatch e DRL
50 xp
A2C com atualizações em lote
100 xp
Otimização de hiperparâmetros com o Optuna
50 xp
Hiperparâmetro ou não?
100 xp
Prática com o Optuna
100 xp
Parabéns!
50 xp

Para Empresas

Treinar 2 ou mais pessoas?

Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.

colaboradores

James Chapman

Jasmin Ludolf

Francesca Donadoni

Áudio Gravado por

Timothée Carayol

pré-requisitos

Intermediate Deep Learning with PyTorch Reinforcement Learning with Gymnasium in Python

Timothée Carayol

Principal Machine Learning Engineer

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 15 milhões de alunos e comece Aprendizado por reforço profundo em Python hoje mesmo!

Crie sua conta gratuita

Google LinkedIn Facebook

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.

Descrição do Curso

Domine os fundamentos da aprendizagem por reforço profundo

Use algoritmos de ponta

.css-10r9e5n{-webkit-margin-end:8px;margin-inline-end:8px;}.css-1309hh9{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;-webkit-margin-end:8px;margin-inline-end:8px;}Treinar 2 ou mais pessoas?

Introdução ao aprendizado por reforço profundo

Aprendizado Q profundo

Introdução aos métodos de gradiente de política

Otimização da política proximal e DRL Dicas

Treinar 2 ou mais pessoas?

O que os outros alunos têm a dizer?

Junte-se a mais de .css-ou6dz6{color:#03ef62;}15 milhões de alunos e comece Aprendizado por reforço profundo em Python hoje mesmo!

Crie sua conta gratuita

Treinar 2 ou mais pessoas?

Junte-se a mais de 15 milhões de alunos e comece Aprendizado por reforço profundo em Python hoje mesmo!