Ver Artigo · Introdução à Inteligência Artificial · Faculdade de Ciências da Universidade de Lisboa

12 Dezembro 2016, 09:30 • Paulo Jorge Cunha Vaz Dias Urbano

MDPs com horizonte finito e infinito e episódicos

Ataxa de desconto que limita o horizonte infinito

As Equações de Bellman para calcular qualquer policy concreta e para calcular a policy óptima.

O conceito de função valor (V(s)) de um estado e de função valor acção de um estado (Q(s,a))

O algoritmo de iteração valor para encontrar V(s) e para calcular V*(s)