Aprendizaje profundo por refuerzo en Python
Aprende y utiliza potentes algoritmos de Aprendizaje por Refuerzo Profundo, incluyendo técnicas de optimización.
Comience El Curso Gratis4 horas15 vídeos49 ejercicios
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?
Probar DataCamp for BusinessPreferido por estudiantes en miles de empresas
Descripción del curso
Descubre las técnicas de vanguardia que permiten a las máquinas aprender e interactuar con su entorno. Te sumergirás en el mundo del Aprendizaje por Refuerzo Profundo (DRL) y adquirirás experiencia práctica con los algoritmos más potentes que hacen avanzar este campo. Utilizarás PyTorch y el entorno Gymnasium para construir tus propios agentes.
Domina los fundamentos del aprendizaje profundo por refuerzo
Nuestro viaje comienza con los fundamentos del DRL y su relación con el Aprendizaje por Refuerzo tradicional. A partir de ahí, pasamos rápidamente a implementar Deep Q-Networks (DQN) en PyTorch, incluyendo refinamientos avanzados como Double DQN y Prioritized Experience Replay para potenciar tus modelos. Lleva tus habilidades al siguiente nivel explorando métodos basados en políticas. Aprenderás y aplicarás técnicas esenciales de gradiente de políticas, como los métodos REINFORCE y Actor-Crítico.Utiliza algoritmos de vanguardia
Te encontrarás con potentes algoritmos DRL de uso común en la industria actual, incluida la Optimización de la Política Próxima (PPO). Adquirirás experiencia práctica con las técnicas que impulsan los avances en robótica, IA de juegos y mucho más. Por último, aprenderás a optimizar tus modelos utilizando Optuna para el ajuste de hiperparámetros. Al final de este curso, habrás adquirido los conocimientos necesarios para aplicar estas técnicas de vanguardia a problemas del mundo real y aprovechar todo el potencial de DRL.Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más- 1
Introducción al aprendizaje profundo por refuerzo
GratuitoDescubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.
Introducción al aprendizaje profundo por refuerzo50 xpEntorno y configuración de la red neuronal100 xpDRL bucle de entrenamiento100 xpIntroducción al aprendizaje profundo Q50 xpAprendizaje profundo y DQN50 xpLa arquitectura Q-Network100 xpInstanciar la red Q100 xpEl algoritmo barebone DQN50 xpBarebone DQN selección de acciones100 xpBarebone DQN función de pérdida100 xpEntrenar el barebone DQN100 xp - 2
Aprendizaje Q profundo
Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.
DQN con repetición de experiencia50 xpLa cola doble100 xpBúfer de repetición de experiencia100 xpDQN con repetición de experiencia100 xpEl algoritmo completo de DQN50 xpEpsilon-greediness100 xpObjetivos Q fijos100 xpAplicación del algoritmo completo DQN100 xpDoble DQN50 xpRed en línea y red de destino en DDQN100 xpEntrenamiento del doble DQN100 xpRepetición priorizada de la experiencia50 xpBuffer de repetición de experiencia priorizada100 xpMuestreo del búfer PER100 xpDQN con repetición priorizada de experiencias100 xp - 3
Introducción a los métodos de gradiente político
Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.
Introducción al gradiente político50 xpLa arquitectura de la red política100 xpTrabajar con distribuciones discretas100 xpGradiente político y REINFORCE50 xpSelección de acciones en REINFORCE100 xpEntrenamiento del algoritmo REINFORCE100 xpVentaja Actor Crítico50 xpRed de críticos100 xpCálculo de las pérdidas del Actor Crítico100 xpEntrenamiento del algoritmo A2C100 xp - 4
Optimización de la Política Proximal y Consejos DRL
Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.
Optimización de la política proximal50 xpLa relación de probabilidad recortada100 xpLa función objetivo sustitutiva recortada100 xpBonificación por entropía y PPO50 xpParque infantil Entropía100 xpEntrenamiento del algoritmo PPO100 xpActualizaciones por lotes en gradiente de política50 xpMinilotes y DRL50 xpA2C con actualizaciones por lotes100 xpOptimización de hiperparámetros con Optuna50 xp¿Hiperparámetro o no?100 xpPráctica con Optuna100 xp¡Enhorabuena!50 xp
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y máscolaboradores
Audio grabado por
Timothée Carayol
Ver MásPrincipal Machine Learning Engineer
¿Qué tienen que decir otros alumnos?
¡Únete a 14 millones de estudiantes y empieza Aprendizaje profundo por refuerzo en Python hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.