|
In una catena di Markov con due stati (1,2) e due decisioni (a,b) si hanno le seguenti possibilitā di transizione
e i seguenti guadagni per transizione:
Le politiche di decisione invarianti nel tempo sono pertanto quattro:
(dII = | a b|T significa che se si č nello stato 1 si decide a se si č nello stato 2 si decide b). Si dica se, ai fini della massimizzazione del guadagno medio per transizione, č preferibile la politica dII o dIII. |
soluzione |