Saltar al contenido principal
InicioArtificial Intelligence

Aprendizaje profundo por refuerzo en Python

Aprende y utiliza potentes algoritmos de Aprendizaje por Refuerzo Profundo, incluyendo técnicas de optimización.

Comienza El Curso Gratis
4 horas15 vídeos49 ejercicios

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group

¿Entrenar a 2 o más personas?

Probar DataCamp for Business

Preferido por estudiantes en miles de empresas


Descripción del curso

Descubre las técnicas de vanguardia que permiten a las máquinas aprender e interactuar con su entorno. Te sumergirás en el mundo del Aprendizaje por Refuerzo Profundo (DRL) y adquirirás experiencia práctica con los algoritmos más potentes que hacen avanzar este campo. Utilizarás PyTorch y el entorno Gymnasium para construir tus propios agentes.

Domina los fundamentos del aprendizaje profundo por refuerzo

Nuestro viaje comienza con los fundamentos del DRL y su relación con el Aprendizaje por Refuerzo tradicional. A partir de ahí, pasamos rápidamente a implementar Deep Q-Networks (DQN) en PyTorch, incluyendo refinamientos avanzados como Double DQN y Prioritized Experience Replay para potenciar tus modelos. Lleva tus habilidades al siguiente nivel explorando métodos basados en políticas. Aprenderás y aplicarás técnicas esenciales de gradiente de políticas, como los métodos REINFORCE y Actor-Crítico.

Utiliza algoritmos de vanguardia

Te encontrarás con potentes algoritmos DRL de uso común en la industria actual, incluida la Optimización de la Política Próxima (PPO). Adquirirás experiencia práctica con las técnicas que impulsan los avances en robótica, IA de juegos y mucho más. Por último, aprenderás a optimizar tus modelos utilizando Optuna para el ajuste de hiperparámetros. Al final de este curso, habrás adquirido los conocimientos necesarios para aplicar estas técnicas de vanguardia a problemas del mundo real y aprovechar todo el potencial de DRL.
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.
DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.
  1. 1

    Introducción al aprendizaje profundo por refuerzo

    Gratuito

    Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.

    Reproducir Capítulo Ahora
    Introducción al aprendizaje profundo por refuerzo
    50 xp
    Entorno y configuración de la red neuronal
    100 xp
    DRL bucle de entrenamiento
    100 xp
    Introducción al aprendizaje profundo Q
    50 xp
    Aprendizaje profundo y DQN
    50 xp
    La arquitectura Q-Network
    100 xp
    Instanciar la red Q
    100 xp
    El algoritmo barebone DQN
    50 xp
    Barebone DQN selección de acciones
    100 xp
    Barebone DQN función de pérdida
    100 xp
    Entrenar el barebone DQN
    100 xp
  2. 2

    Aprendizaje Q profundo

    Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.

    Reproducir Capítulo Ahora
  3. 3

    Introducción a los métodos de gradiente político

    Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.

    Reproducir Capítulo Ahora
  4. 4

    Optimización de la Política Proximal y Consejos DRL

    Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

    Reproducir Capítulo Ahora
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.

colaboradores

Collaborator's avatar
James Chapman
Collaborator's avatar
Jasmin Ludolf
Collaborator's avatar
Francesca Donadoni

Audio grabado por

Timothée Carayol's avatar
Timothée Carayol

requisitos previos

Intermediate Deep Learning with PyTorchReinforcement Learning with Gymnasium in Python
Timothée Carayol HeadshotTimothée Carayol

Principal Machine Learning Engineer

Ver Más

¿Qué tienen que decir otros alumnos?

¡Únete a 15 millones de estudiantes y empieza Aprendizaje profundo por refuerzo en Python hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.