Для каждого состояния i определяется альтернатива k, обеспечивающая следующее:
В качестве величины принимаются значения, получаемые на шаге 1. Результирующее оптимальное значение k для состояний i= формируют новую стратегию t.
Если S и t совпадают, то вычисления заканчиваются. В противном случае принимается, что S=t и производится к шагу 1. Стратегии S=(111) и t=(122) не равны, следовательно, осуществляется переход к шагу 1.
Согласно t=(122) выбираются матрица переходных вероятностей 8 и матрица дохода 8, подсчитывается матрица 8 одношаговых доходов и решается система уравнений:
Решение системы заносятся в таблицу:
Далее проводится улучшение стратегии, представленное ниже в таблицах:
Стратегии S=(122) и t=(122) равны, следовательно, следующего шага нет.
Примечание: колонка Nus – это максимальные значения дохода.