Deep Reinforcement Learning in Python
"Lernen und nutzen Sie leistungsstarke Deep Reinforcement Learning-Algorithmen, inkl. Optimierungstechniken."
Kurs Kostenlos Starten4 Stunden15 Videos49 Übungen
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.Trainierst du 2 oder mehr?
Versuchen DataCamp for BusinessBeliebt bei Lernenden in Tausenden Unternehmen
Kursbeschreibung
Entdecke die modernsten Techniken, die es Maschinen ermöglichen, zu lernen und mit ihrer Umgebung zu interagieren. Du wirst in die Welt des Deep Reinforcement Learning (DRL) eintauchen und praktische Erfahrungen mit den leistungsstärksten Algorithmen sammeln, die dieses Feld vorantreiben. Du wirst PyTorch und die Gymnasium-Umgebung nutzen, um deine eigenen Agenten zu bauen.
Beherrsche die Grundlagen des Deep Reinforcement Learning
Unsere Reise beginnt mit den Grundlagen von DRL und ihrer Beziehung zum traditionellen Reinforcement Learning. Von dort aus gehen wir schnell zur Implementierung von Deep Q-Networks (DQN) in PyTorch über, einschließlich fortgeschrittener Verfeinerungen wie Double DQN und Prioritized Experience Replay, um deine Modelle zu verbessern. Bringe deine Fähigkeiten auf die nächste Stufe, indem du politikbasierte Methoden erforschst. Du erlernst und implementierst wichtige politikorientierte Techniken wie die REINFORCE- und Actor-Critic-Methode.Modernste Algorithmen verwenden
Du wirst leistungsstarke DRL-Algorithmen kennenlernen, die heute in der Branche üblich sind, darunter die Proximal Policy Optimization (PPO). Du wirst praktische Erfahrungen mit den Techniken sammeln, die den Durchbruch in der Robotik, der Spiele-KI und darüber hinaus vorantreiben. Schließlich lernst du, wie du deine Modelle mithilfe von Optuna für die Abstimmung der Hyperparameter optimierst. Am Ende dieses Kurses wirst du in der Lage sein, diese hochmodernen Techniken auf reale Probleme anzuwenden und das volle Potenzial von DRL auszuschöpfen!Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.- 1
Einführung in Deep Reinforcement Learning
KostenlosEntdecke, wie Deep Reinforcement Learning das traditionelle Reinforcement Learning verbessert, während du deinen ersten Deep Q Learning-Algorithmus studierst und implementierst.
Einführung in Deep Reinforcement Learning50 xpUmgebung und Aufbau des neuronalen Netzes100 xpDRL Trainingsschleife100 xpEinführung in Deep Q Learning50 xpDeep Learning und DQN50 xpDie Architektur des Q-Netzes100 xpInstanziierung des Q-Netzes100 xpDer Barebone-Algorithmus DQN50 xpBarebone DQN Aktionsauswahl100 xpBarebone DQN Verlustfunktion100 xpAusbildung des Barebone DQN100 xp - 2
Deep Q-learning
Tauche ein in das Deep Q-learning, indem du den ursprünglichen DQN Algorithmus mit Experience Replay, Epsilon-Greediness und festen Q-Zielen implementierst. Über DQN hinaus wirst du zwei faszinierende Erweiterungen kennenlernen, die die Leistung und Stabilität von Deep Q-learning verbessern: Doppelte DQN und priorisierte Erfahrungswiederholung.
DQN mit Erlebniswiedergabe50 xpDie doppelendige Warteschlange100 xpPuffer für Erfahrungswiedergabe100 xpDQN mit Erlebniswiedergabe100 xpDer vollständige DQN Algorithmus50 xpEpsilon-Grausamkeit100 xpFeste Q-Ziele100 xpDen kompletten DQN Algorithmus implementieren100 xpDoppelter DQN50 xpOnline-Netzwerk und Zielnetzwerk in DDQN100 xpDas Doppelte trainieren DQN100 xpPriorisierte Erfahrungswiedergabe50 xpPriorisierter Erfahrungswiedergabepuffer100 xpProbenahme aus dem Puffer PER100 xpDQN mit priorisierter Erfahrungswiedergabe100 xp - 3
Einführung in politische Gradientenmethoden
Lerne die grundlegenden Konzepte der politischen Gradientenmethoden auf DRL kennen. Du beginnst mit dem politischen Gradiententheorem, das die Grundlage für diese Methoden bildet. Dann implementierst du den REINFORCE Algorithmus, einen leistungsstarken Ansatz zum Lernen von Richtlinien. Das Kapitel führt dich dann durch die Actor-Critic-Methoden und konzentriert sich dabei auf den Advantage Actor-Critic (A2C)-Algorithmus, der die Stärken der Policy-Gradienten- und der wertbasierten Methoden kombiniert, um die Lerneffizienz und die Stabilität zu verbessern.
Einführung in das Politikgefälle50 xpDie Architektur des Politiknetzwerks100 xpArbeiten mit diskreten Verteilungen100 xpPolitisches Gefälle und REINFORCE50 xpAktionsauswahl in REINFORCE100 xpTraining des REINFORCE Algorithmus100 xpVorteil Schauspieler-Kritiker50 xpKritiker-Netzwerk100 xpSchauspieler Kritische Verlustberechnungen100 xpTraining des A2C-Algorithmus100 xp - 4
Proximal Policy Optimization und DRL Tipps
Erforsche Proximal Policy Optimization (PPO) für eine robuste DRL Leistung. Als Nächstes wirst du die Verwendung eines Entropie-Bonus in PPO untersuchen, der die Erkundung fördert, indem er eine vorzeitige Konvergenz zu deterministischen Strategien verhindert. Du lernst auch etwas über Batch-Updates bei Policy-Gradienten-Methoden. Schließlich lernst du die Optimierung von Hyperparametern mit Optuna kennen, einem leistungsstarken Tool zur Optimierung der Leistung deiner DRL Modelle.
Optimierung der Politik in der Nähe50 xpDas abgeschnittene Wahrscheinlichkeitsverhältnis100 xpDie beschnittene Surrogat-Zielfunktion100 xpEntropie-Bonus und PPO50 xpEntropie Spielplatz100 xpTraining des PPO Algorithmus100 xpBatch-Updates im Policy-Gradienten50 xpMinibatch und DRL50 xpA2C mit Batch-Updates100 xpHyperparameter-Optimierung mit Optuna50 xpHyperparameter oder nicht?100 xpPraktische Erfahrung mit Optuna100 xpHerzlichen Glückwunsch!50 xp
Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.Mitwirkende
Audio aufgenommen von
Timothée Carayol
Mehr AnzeigenPrincipal Machine Learning Engineer
Was sagen andere Lernende?
Melden Sie sich an 15 Millionen Lernende und starten Sie Deep Reinforcement Learning in Python Heute!
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.