Descrizione
In questo corso apprenderete diversi algoritmi che possono apprendere politiche quasi ottimali basate sull'interazione di tentativi ed errori con l'ambiente, imparando dall'esperienza dell'agente. Imparare dall'esperienza reale è sorprendente perché non richiede una conoscenza preliminare delle dinamiche dell'ambiente, ma può comunque ottenere un comportamento ottimale. Tratteremo metodi Monte Carlo intuitivamente semplici ma potenti e metodi di apprendimento delle differenze temporali incluso Q-learning. Concluderemo questo corso indagando su come ottenere il meglio da entrambi i mondi: algoritmi che possono combinare la pianificazione basata su modelli (simile alla programmazione dinamica) e gli aggiornamenti delle differenze temporali per accelerare radicalmente l'apprendimento.
Entro la fine di questo corso sarai in grado di:
- Comprendere l'apprendimento della differenza temporale e Monte Carlo come due strategie per stimare le funzioni di valore dall'esperienza campionata
- Comprendere l'importanza dell'esplorazione, quando si utilizza l'esperienza campionata piuttosto che gli sweep di programmazione dinamici all'interno di un modello
- Comprendere le connessioni tra Monte Carlo e Dynamic Programming e TD.
- Implementare e applicare l'algoritmo TD, per la stima delle funzioni di valore
- Implementare e applicare Expected Sarsa e Q-learning (due metodi TD per il controllo)
- Comprendi la differenza tra il controllo in base alla policy e quello fuori policy
- Comprendere la pianificazione con un'esperienza simulata (al contrario delle classiche strategie di pianificazione)
- Implementare un approccio basato su modello a RL, chiamato Dyna, che utilizza l'esperienza simulata
- Condurre uno studio empirico per vedere i miglioramenti nell'efficienza del campione quando si utilizza Dyna
Prezzo: Iscriviti gratuitamente!
Lingua: Inglese
Sottotitoli: Inglese
Metodi di apprendimento basati su esempi - Università di Alberta
TUN aiuta gli studenti!
Borse di studio
Comunita'
Diritto d'autore, 2024 – TUN, Inc