ESERCIZIO: catena di Markov

In una catena di Markov con due stati (1,2) e due decisioni (a,b) si hanno le seguenti possibilitā di transizione


Pa =

0.6

0.4

0.1

0.9

Pb =

0.2

0.8

0.4

0.6


e i seguenti guadagni per transizione:

Ra =

1

2

4

3

Rb =

5

4

1

3

Le politiche di decisione invarianti nel tempo sono pertanto quattro:

dI =

 a

 a

dII =

 a

 b


dIII =

 b

 a

dIV =

 b

 b

(dII  = | a b|T significa che se si č nello stato 1 si decide a se si č nello stato 2 si decide b).

Si dica se, ai fini della massimizzazione del guadagno medio per transizione, č preferibile la politica dII o dIII.


   
soluzione