Previsione e controllo con approssimazione delle funzioni

Descrizione

In questo corso imparerai come risolvere problemi con spazi di stato grandi, ad alta dimensione e potenzialmente infiniti. Vedrai che la stima delle funzioni di valore può essere considerata come un problema di apprendimento supervisionato - approssimazione delle funzioni - permettendoti di costruire agenti che bilanciano attentamente generalizzazione e discriminazione per massimizzare la ricompensa. Inizieremo questo viaggio esaminando come i nostri metodi di valutazione o previsione delle politiche come Monte Carlo e TD possono essere estesi all'impostazione di approssimazione delle funzioni. Imparerai le tecniche di costruzione delle caratteristiche per RL e l'apprendimento della rappresentazione tramite reti neurali e backprop. Concludiamo questo corso con un approfondimento sui metodi del gradiente politico; un modo per apprendere le politiche direttamente senza apprendere una funzione di valore. In questo corso risolverai due compiti di controllo continuo dello stato e indagherai i vantaggi dei metodi del gradiente politico in un ambiente di azione continua.

Prerequisiti: questo corso si basa fortemente sui fondamenti dei Corsi 1 e 2 e gli studenti dovrebbero averli completati prima di iniziare questo corso. Gli studenti dovrebbero anche essere a proprio agio con probabilità e aspettative, algebra lineare di base, calcolo di base, Python 3.0 (almeno 1 anno) e implementazione di algoritmi da pseudocodice.

Alla fine di questo corso, sarai in grado di:

-Comprendere come utilizzare approcci di apprendimento supervisionato per approssimare le funzioni di valore
Comprendere gli obiettivi per la previsione (stima del valore) sotto l'approssimazione della funzione
-Implementare TD con approssimazione di funzione (aggregazione di stati), su un ambiente con uno spazio di stato infinito (spazio di stato continuo)
-Comprendere le basi fisse e gli approcci della rete neurale per la costruzione di funzionalità
-Implementare TD con l'approssimazione della funzione di rete neurale in un ambiente a stato continuo
- Comprendere nuove difficoltà nell'esplorazione quando si passa all'approssimazione delle funzioni
-Controllo di formulazioni di problemi scontate per il controllo rispetto a una formulazione di problemi di ricompensa media
-Applicare Sarsa e Q-learning previsti con l'approssimazione della funzione su un'attività di controllo dello stato continuo
-Comprendere gli obiettivi per la stima diretta delle politiche (obiettivi del gradiente delle politiche)
-Implementare un metodo gradiente di politica (chiamato Actor-Critic) su un ambiente a stati discreti