Sumários

Ilustração do funcionamento do algoritmo de Iteração Valor

16 Dezembro 2016, 09:30 Paulo Jorge Cunha Vaz Dias Urbano

Ilustração do funcionamento do algoritmo de iteração Valor para o caso do benchmark do labirinto tanto para a policy específica como para calcular a policy óptima.



Desafio VI

15 Dezembro 2016, 12:00 Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048


Desafio VI

14 Dezembro 2016, 11:30 Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048


Desafio VI

12 Dezembro 2016, 11:30 Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048


Continuação dos MDPs

12 Dezembro 2016, 09:30 Paulo Jorge Cunha Vaz Dias Urbano

MDPs com horizonte finito e infinito e episódicos
Ataxa de desconto que limita o horizonte infinito
As Equações de Bellman para calcular qualquer policy concreta e para calcular a policy óptima.
O conceito de função valor (V(s)) de um estado e de função valor acção de um estado (Q(s,a))
O algoritmo de iteração valor para encontrar V(s) e para calcular V*(s)