Continuação dos MDPs

12 Dezembro 2016, 09:30 Paulo Jorge Cunha Vaz Dias Urbano

MDPs com horizonte finito e infinito e episódicos
Ataxa de desconto que limita o horizonte infinito
As Equações de Bellman para calcular qualquer policy concreta e para calcular a policy óptima.
O conceito de função valor (V(s)) de um estado e de função valor acção de um estado (Q(s,a))
O algoritmo de iteração valor para encontrar V(s) e para calcular V*(s)