Описание градиентного метода в функциональном пространстве.

Градиентный метод является одним из эффективнейших численных методов решения задачи оптимального управления. Он состоит в последовательном “улучшении” некоторого произвольно заданного управления, а именно: на каждом этапе улучшения предыдущее управление исправляется в напрвлении наибыстрейшего приближения к искомому оптимальному управлению.

Перейдем к конструированию алгоритма, реализующего данный метод.

Пусть известно некоторое допустимое управление “нулевого приближения” u=u⁰(t), которому соответствует в силу (4.1), (4.2) фазовая траектория X⁰ (t) и некоторое численное значение функционала I⁰=I[u⁰(t)], вычисленное по формуле (4.3).

Построим новое управление

u(t)=u⁰(t) + du(t), "tÎ[t₀,t_k], (4.4)

где du(t) такова, что норма мала.

Тогда вариация фазовой траектории, вызванная таким равномерно малым изменением управления, будет подчиняться так называемым уравнениям в вариациях

, tÎ[t₀,t_k]; (4.5)

dX(t₀)=0. (4.6)

Интегрирование последних от t= t₀ до t= t_k с введением вспомогательной вектор-функции l(t)=(l₁(t), l₂(t),…, l_n(t)) приводит к следующему результату

(4.7)

Одноко, непосредственное варьирование функционала дает следующее соотношение

(4.8)

Добавим к правой части соотношения (4.8) равное нулю выражение (4.7)

Потребуем, чтобы вектор-функция l(t) удовлетворяла следующим условиям:

"tÎ[t₀,t_k]; (4.9)

l(t_k)=0. (4.10)

Тогда задача построения согласно формулам (4.4) нового “улучшенного” управления сводится к задаче минимизации функционала

(4.11)

где H₀=H(t, X⁰, u⁰, l)= - f₀ (t, X⁰, u⁰) + < l (t), f₀ (t, X⁰, u⁰)>. (4.12)

Очевидно, что поправки du = (du₁(t), du₂(t),…, du_r(t)), реализующие минимум dI в соответствии с (4.11), должны удовлетворять следующим необходимым условиям:

"tÎ[t₀,t_k]; (4.13)

Таким образом, “улучшенное” управление u(t)=(u₁(t), u₂(t), …, u_r(t)), "tÎ[t₀, t_k ], мы найдем по формулам (4.4), задавая достаточно малые абсолютные значения поправок du_i, i=1,...,r и определяя их знаки по формулам (4.13).

Следует однако отметить, что предложенное правило вычисления поправок du_i, i=1,...,r, "tÎ[t₀, t_k ] не гарантирует обязательного убывания функционала (4.3) на каждом этапе расчета. Это объясняется невозможностью заранее предполагать, что принятым значениям поправок будет соответствовать значение dI, близкое к DI. Поэтому на каждом этапе расчета следует находить DI=I - I⁰ и в случае, если DI³0, расчет следует повторить при уменьшенных |du_i|, i=1,...,r.

Алгоритм метода.

Итак, нами построен алгоритм расчета оптимального управления и соответствующей ему оптимальной траектории в виде следующей последовательности вычислительных операций.

Шаг 1. Задать управление “нулевого” приближения

u⁰(t)=(u₁⁰ (t), u₂⁰ (t), …, u_r⁰ (t)), "tÎ[t₀, t_k].

Шаг 2. Проинтегрировать от t= t0 до t= tk систему (4.1)

= f_i (t, X(t), u⁰(t)), i=1,...,n,

с начальными условиями (4.2) методом Рунге-Кутта с постоянным шагом h. Получить тем самым X⁰(t)=(x₁⁰ (t), x₂⁰ (t), …, x_n⁰ (t)), "tÎ[t₀, t_k ] и значения фазовых координат x_i⁰ (t_k), i=1,...,n в конечный момент времени t=t_k.

Шаг 3. Вычислить значение функционала (4.3) на управлении “нулевого” приближения

Например, по формуле Симпсона

где обязательно должно быть h= .

Вычисление функционала по приведенной формуле можно заменить интегрированием совместно с системой (4.1) уравнения

(t)=f₀ (t, X⁰(t), u⁰(t)), x_n+1 (t₀)=0.

Тогда значение функционала найдется так

I[u⁰(t)] = x⁰_n+1 (t_k).

Шаг 4. Если требуется вычислить функции влияния , i=1,...,r, то следующим выполняется шаг 5, иначе идти к шагу 9.

Шаг 5. Проинтегрировать в направлении от t= t_k до t= t₀ каноническую систему (4.1), (4.9)

с “начальными” условиями x_i(t_k)= x_ik, i=1,...,n; l_i(t_k)= 0, i=1,...,n; где x_ik, i=1,...,n– полученные на шаге 2 значения фазовых координат в момент времени t_k.

Шаг 6. Вычислить функции влияния

, i=1,...,r, "tÎ[t₀, t_k ].

Шаг 7. Вычислить поправки управляющих воздействий

du_i(t)=q× , i=1,...,r, "tÎ[t₀, t_k ],

где q – заранее заданная достаточно малая положительная величина- шаговый коэффициент.

Шаг 8. Вычислить новое “улучшенное” управление

u_i(t)=u_i⁰(t) + du_i(t), i=1,...,r, "tÎ[t₀,t_k]

и приступить к выбору надлежащего значения шагового коэффициента q путем повторения вычислений, начиная с шага 2 (но уже без вычислений функций влияния).

Шаг 9. Сравнить новое значение функционала I=I[u⁰+q ] с его предыдущим значением I⁰=I[u⁰(t)].

Если выполняется условие I0I, то следует уменьшать шаг

q=b×q, bÎ(0,1)

с последующим вычислением нового управления u(t)=u⁰(t) + q и соответствующего ему значения функционала I до тех пор, пока не будет достигнуто требуемое условие I⁰>I.

Если же уже при начальном значении шагового коэффициента получится I⁰<I, то можно попытаться увеличить шаг

q=a×q, a>1

двигаясь в том же направлении, пока наблюдается уменьшение значения функционала.

Шаг 10. Проверить условие

I[u⁰+du]-I[u⁰] ½£e,

где e- наперед заданное достаточно малое положительное число, определяющее точность результата.

Если условие выполняется, то оптимальное управление найдено и решение задачи следует прекратить; иначе – выполнить следующую итерацию, повторив все вычисления, начиная с шага 2.