catena di Markov

ESERCIZIO: catena di Markov

In una catena di Markov con due stati (1,2) e due decisioni (a,b) si hanno le seguenti possibilità di transizione

P_a =	0.6	0.4
P_a =	0.1	0.9

P_b =	0.2	0.8
P_b =	0.4	0.6

e i seguenti guadagni per transizione:

R_a =	1	2
R_a =	4	3

R_b =	5	4
R_b =	1	3

Le politiche di decisione invarianti nel tempo sono pertanto quattro:

d^I =	a
	a

d^II =	a
	b

d^III =	b
	a

d^IV =	b
	b

(d^II = | a b|^T significa che se si è nello stato 1 si decide a se si è nello stato 2 si decide b).

Si dica se, ai fini della massimizzazione del guadagno medio per transizione, è preferibile la politica d^II o d^III.