Sumários

Ilustração do funcionamento do algoritmo de Iteração Valor

16 Dezembro 2016, 09:30 • Paulo Jorge Cunha Vaz Dias Urbano

Ilustração do funcionamento do algoritmo de iteração Valor para o caso do benchmark do labirinto tanto para a policy específica como para calcular a policy óptima.

Desafio VI

15 Dezembro 2016, 12:00 • Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048

Desafio VI

14 Dezembro 2016, 11:30 • Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048

Desafio VI

12 Dezembro 2016, 11:30 • Luis Antunes

Os alunos dedicaram-se ao sexto desafio: o puzzle 2048

Continuação dos MDPs

12 Dezembro 2016, 09:30 • Paulo Jorge Cunha Vaz Dias Urbano

MDPs com horizonte finito e infinito e episódicos

Ataxa de desconto que limita o horizonte infinito

As Equações de Bellman para calcular qualquer policy concreta e para calcular a policy óptima.

O conceito de função valor (V(s)) de um estado e de função valor acção de um estado (Q(s,a))

O algoritmo de iteração valor para encontrar V(s) e para calcular V*(s)