1. Природа задач, допускающая применение метода динамического программирования не меняется при изменении числа этапов, то есть их форма инвариантна относительно n.
2. Исходная задача погружается в класс однотипных задач, каждая из которых связана с отдельным этапом.
3. Каждому этапу сопоставляется оптимизационная задача, а процессу в целом совокупность оптимизационных задач.
4. Множество решений оптимизационных задач описывается системой функциональных уравнений, в этой системе каждое уравнение соответствует отдельному этапу и является рекуррентной.
5. Решение системы функциональных уравнений находится с помощью алгоритма прогонки: прямой или обратной.
6. Аналитической основой метода прогонки является принцип оптимальности.
Относительно характера управляемого процесса делаются следующие предположения:
1) Условия отсутствия последействия. Состояние, в котором окажется система в начале очередного этапа зависит от ее текущего состояния и выбранного управления и не зависит от того, каким образом система оказалась в текущем состоянии
Будущее не зависит от прошлого, лишь от настоящее.
2) Условие аддитивности: предполагается, что функция F(x1,u),характеризующая управленческую стратегию u, представляется суммой отдельных функций, характеризующих этап.
При выполнении этих условия оптимальное решение на каждом этапе находится в силу принципа оптимальности Беллмана: оно должно быть таким, чтобы вклад текущего этапа + оптимальный вклад всех последующих были оптимальны.
Оптимальный результат ф-ния системы на этапах j при условии, что в начале j+1 этапа система находилась в состоянии xj+1=
С течением времени система должна перейти в финальное состояние xn+1 Xn+1. Для оценки качества каждого управляемого решения u= оценивается функцией f(x1,u). u- вектор управления. Необходимо выбрать такую u*=(u1*, u2*,…un*) стратегию, которая доставляла бы оптимум показателя качества по совокупности всех возможных управленческих стратегий. f* = f*(x1,u*) = opt f(x1,u). Относительно характера управляемого процесса формулируем 2 принципа: 1. условие отсутствия последействия. Состояние, в котором окажется система на следующем этапе, зависит от ее текущего состояния и управления, принятого на данном этапе, но не зависит от способа, которым система оказалась в текущем состоянии.
2. свойство аддитивности. Качество управления uj, принятого на очередном этапе, оценивается функцией, зависящей от текущего состояния и выбранного управления: gj(xj, uj). Общая оценка всего процесса находится как сумма оценок по отдельным этапам:
.
Если процесс удовлетворяет условиям 1 и 2, то условно оптимальное решение на каждом этапе находится в силу принципа оптимальности Беллмана: каким бы ни было состояние системы перед очередным этапом, управление на данном этапе следует выбирать таким образом, чтобы результат данного этапа “+” оптимальный вклад всех последующих этапов в совокупности было оптимальным. fj(xj) = opt {gj(xj, uj) + f*j+1(xj+1)}; uj U; xj+1 = φ(xj, uj).