Metodi di apprendimento basati su esempi

Descrizione

In questo corso apprenderete diversi algoritmi che possono apprendere politiche quasi ottimali basate sull'interazione di tentativi ed errori con l'ambiente, imparando dall'esperienza dell'agente. Imparare dall'esperienza reale è sorprendente perché non richiede una conoscenza preliminare delle dinamiche dell'ambiente, ma può comunque ottenere un comportamento ottimale. Tratteremo metodi Monte Carlo intuitivamente semplici ma potenti e metodi di apprendimento delle differenze temporali incluso Q-learning. Concluderemo questo corso indagando su come ottenere il meglio da entrambi i mondi: algoritmi che possono combinare la pianificazione basata su modelli (simile alla programmazione dinamica) e gli aggiornamenti delle differenze temporali per accelerare radicalmente l'apprendimento.

Entro la fine di questo corso sarai in grado di:

- Comprendere l'apprendimento della differenza temporale e Monte Carlo come due strategie per stimare le funzioni di valore dall'esperienza campionata
- Comprendere l'importanza dell'esplorazione, quando si utilizza l'esperienza campionata piuttosto che gli sweep di programmazione dinamici all'interno di un modello
- Comprendere le connessioni tra Monte Carlo e Dynamic Programming e TD.
- Implementare e applicare l'algoritmo TD, per la stima delle funzioni di valore
- Implementare e applicare Expected Sarsa e Q-learning (due metodi TD per il controllo)
- Comprendi la differenza tra il controllo in base alla policy e quello fuori policy
- Comprendere la pianificazione con un'esperienza simulata (al contrario delle classiche strategie di pianificazione)
- Implementare un approccio basato su modello a RL, chiamato Dyna, che utilizza l'esperienza simulata
- Condurre uno studio empirico per vedere i miglioramenti nell'efficienza del campione quando si utilizza Dyna