Aprendizado por reforço profundo em Python
"Aprenda e use poderosos algoritmos de Aprendizado por Reforço Profundo, incluindo técnicas de otimização."
Comece O Curso Gratuitamente4 horas15 vídeos49 exercícios
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?
Tentar DataCamp for BusinessAmado por alunos de milhares de empresas
Descrição do Curso
Descubra as técnicas de ponta que permitem que as máquinas aprendam e interajam com seus ambientes. Você mergulhará no mundo do Deep Reinforcement Learning (DRL) e ganhará experiência prática com os algoritmos mais poderosos que impulsionam o campo. Você usará o PyTorch e o ambiente Gymnasium para criar seus próprios agentes.
Domine os fundamentos da aprendizagem por reforço profundo
Nossa jornada começa com os fundamentos do DRL e sua relação com o aprendizado por reforço tradicional. A partir daí, passamos rapidamente à implementação de Deep Q-Networks (DQN) no PyTorch, incluindo refinamentos avançados, como Double DQN e Prioritized Experience Replay, para turbinar seus modelos. Leve suas habilidades para o próximo nível enquanto você explora métodos baseados em políticas. Você aprenderá e implementará técnicas essenciais de gradiente de política, como os métodos REINFORCE e Actor-Critic.Use algoritmos de ponta
Você encontrará algoritmos poderosos de DRL comumente usados no setor atualmente, incluindo o Proximal Policy Optimization (PPO). Você ganhará experiência prática com as técnicas que impulsionam as inovações em robótica, IA de jogos e muito mais. Por fim, você aprenderá a otimizar seus modelos usando o Optuna para ajuste de hiperparâmetros. Ao final deste curso, você terá adquirido as habilidades para aplicar essas técnicas de ponta a problemas do mundo real e aproveitar todo o potencial do DRL!Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.- 1
Introdução ao aprendizado por reforço profundo
GratuitoDescubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.
Introdução ao aprendizado por reforço profundo50 xpAmbiente e configuração da rede neural100 xpDRL ciclo de treinamento100 xpIntrodução à aprendizagem profunda de Q50 xpAprendizagem profunda e DQN50 xpA arquitetura da rede Q100 xpInstanciando a rede Q100 xpO algoritmo barebone DQN50 xpBarebone DQN seleção de ações100 xpBarebone DQN função de perda100 xpTreinamento do barebone DQN100 xp - 2
Aprendizado Q profundo
Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.
DQN com repetição de experiência50 xpA fila dupla100 xpBuffer de reprodução de experiência100 xpDQN com repetição de experiência100 xpO algoritmo DQN completo50 xpEpsilon-greediness100 xpMetas Q fixas100 xpImplementação do algoritmo DQN completo100 xpDuplo DQN50 xpRede on-line e rede de destino em DDQN100 xpTreinar a dupla DQN100 xpRepetição de experiência priorizada50 xpBuffer de reprodução de experiência priorizada100 xpAmostragem do buffer PER100 xpDQN com reprodução de experiência priorizada100 xp - 3
Introdução aos métodos de gradiente de política
Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.
Introdução ao gradiente de políticas50 xpA arquitetura da rede de políticas100 xpTrabalho com distribuições discretas100 xpGradiente de políticas e REINFORCE50 xpSeleção de ações em REINFORCE100 xpTreinamento do algoritmo REINFORCE100 xpVantagem do ator crítico50 xpRede de críticos100 xpCálculos de perda do Actor Critic100 xpTreinamento do algoritmo A2C100 xp - 4
Otimização da política proximal e DRL Dicas
Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.
Otimização da política proximal50 xpA taxa de probabilidade cortada100 xpA função objetiva substituta recortada100 xpBônus de entropia e PPO50 xpPlayground de entropia100 xpTreinamento do algoritmo PPO100 xpAtualizações em lote no gradiente de política50 xpMinibatch e DRL50 xpA2C com atualizações em lote100 xpOtimização de hiperparâmetros com o Optuna50 xpHiperparâmetro ou não?100 xpPrática com o Optuna100 xpParabéns!50 xp
Treinar 2 ou mais pessoas?
Obtenha acesso à sua equipe à plataforma DataCamp completa, incluindo todos os recursos.colaboradores
Áudio Gravado por
Timothée Carayol
Ver MaisPrincipal Machine Learning Engineer
O que os outros alunos têm a dizer?
Junte-se a mais de 15 milhões de alunos e comece Aprendizado por reforço profundo em Python hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.