8.6. ЛОКАЛЬНО-ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ


Пусть объект управления представлен, в общем, системой нелинейных дифференциальных уравнений вида

x' = F(x,t) + B(x,t)u,


где x, u – векторы состояния и управления.

Выпишем для него программу желаемого движения

x' = Ф(x,t).


Определение. Программа движения называется динамически совместной по отношению к объекту тогда, когда существует вектор управления, при котором движения объекта в любой точке пространства состояний следуют предписанной программе.

Теорема 1. Условия динамической совместности объекта и программы дает критерий

L(Ф(x,t) – F(x,t)) = 0, L = (E – B(x,t)B(x,t)+).


Доказательство. Приравняем векторы фазовых скоростей объекта и программы, отсюда получаем условие движения по программе

F(x,t) + B(x,t)u = Ф(x,t), иначе B(x,t)u = Ф(x,t) – F(x,t).


Минимум квадратичной нормы разности фазовых скоростей дает нормальное псевдорешение

u = B(x,t)+(Ф(x,t) – F(x,t)).


Подстановка его в исходное уравнение приводит к выписанному выше критерию. Доказательство окончено.

Утверждение банально, но сообщает пару фактов, которым можно удивиться. Во-первых, на классе линейных стационарных систем условие динамической совместности соответствуют уравнениям, ограничивающим свободу собственных векторов замкнутой системы. Во-вторых, вектор фазовой скорости программы может трактоваться как градиент некоторой функции Ляпунова, тогда локально-оптимальный регулятор ориентирован на обеспечение основного условия устойчивости.

Пусть объект управления представлен системой линейных дифференциальных уравнений вида

x' = Ax + Bu,


где x, u – векторы состояния и управления, на вектор управления наложены ограничения ag (u) ≤ b.

Ему соответствует программа желаемого движения

x' = Q(xx0),


где x0 – состояние желаемого равновесия.

Локально-оптимальное в смысле минимума квадратичной нормы разности скоростей объекта и программы управление внутри допустимой зоны вычисляется по формуле псевдорешения

u = B+(Q – A)x – B+Фx0.


Ее можно разнообразить вариантами обобщенного и взвешенного псевдорешений, но это уже легко достраиваемые детали.

Условие динамической совместности объекта и программы, а также условие совместности желаемого конечного состояния, выясненные без учета ограничений на управление, сводятся к уравнениям

L(Q – A) = 0, LAx0 = 0, где L = (E – BB+).


Они определяют степень отличия уравнений программы от уравнений объекта, а также подпространство, в котором разрешается размещать стабилизируемое конечное состояние.

Пусть программа движения несовместна с динамикой объекта. Тогда, как это следует из метода Ляпунова, нужно добиваться минимума разности векторов фазовых скоростей объекта и дифференциальной программы движения. Причин динамической несовместности может быть несколько, из них в качестве наиболее вероятных назовем дрейф параметров объекта или выход части управлений на ограничения. Выстраивается последовательная концепция синтеза регуляторов непосредственно на основе метода, используемого при анализе устойчивости. Вообще говоря, анализ и синтез систем всегда идут рука об руку. Пример дает модальное управление. Но в модальном синтезе не приходится сталкиваться с насыщением входов. Поэтому он может служить на этапе расчета матрицы замкнутой системы.

Перейдем к наиболее интересной части, в которой учитываются ограничения на управление. Функция Лагранжа на случай двусторонних неравенств составляется так

L(u,η,μ) = f(x) + (g(u) – a)Tη + (g(u) – b)Tμ.


где

f(u) = || Q(xx0) – Ax + Bu ||2.


На границах левые или правые множители Лагранжа отличны от нуля и соответствуют частным производным функции L по элементам вектора a или b, внутри разрешимой зоны они нулевые, соответственно, компоненты λ = η + μ играют роль то левого, то правого отличного от нуля множителя. Для каждого «зажатого» управления существует своя зона в пространстве состояний, цель дальнейших построений состоит в том, чтобы границы зон определить.

Необходимое условие минимума функции Лагранжа (после ее дифференцирования и приведения подобных членов) дает уравнение

BTBu – BT(Q(xx0) – Ax) + λ = 0.


Компонентам вектора управления, не находящимся на ограничениях, соответствуют нулевые компоненты внутри λ. Это позволяет вычислить свободные управления в форме нормального псевдорешения усеченной системы, где составляющие λ не фигурируют. Так как остальные управления находятся на упорах, они известны. Подставив это все в уравнение минимума, добираемся до нетривиальной части множителей Лагранжа. Их знак должен соответствовать знакам границ

λi < 0, если gi(u) = ai, λi > 0, если gi(u) = bi.


Поскольку λi вычислены как линейные функции вектора состояния, последние неравенства, совокупно с ограничениями на свободные управления, и дают уравнения зон.

Результатом синтеза является система с переменной настройкой. Очевидно, что она не всегда обеспечивает движение объекта по динамически совместной программе в тех случаях, когда органы управления находятся на ограничениях. Однако всегда гарантируется движение объекта наиболее близкое к программе и движение к целевой точке по программе в зоне свободных управлений.

Рассмотрим в качестве примера объект с двумя входами и динамически совместную программу с параметрами, соответственно,

A=
0
1
 –1 
0
B=
1
1
0
1
Q=
0
 –1 
 –1 
0
x0=
0
0


Заданы ограничения в виде |u1| ≤ 2, |u2| ≤ 2.

Приступим к расчету локально-оптимального закона управления и границ областей пространства состояний, в которых часть или все управления неизменно находятся на упорах.

Открытая область Ω0: пусть |u1| < 2, |u2| < 2, тогда

BTBu – BT(Q – A)x = 0, отсюда u = B–1(Q – A)x = [-2,0;1,-1]x.


Учитывая ограничения, получаем границы |x1| < 1, |x1x2| < 2.

Области Ω11, Ω12: пусть |u1| < 2, u2 = ±2.

В матрице входа индексами обозначим столбцы B=[B1 B2], тогда свободное управление и множитель Лагранжа находим из

u1 = B1+(Q – A)x – B1+B2u2 = – x1x2u2;


λ2 = B2T(E – B1B1+) (Q – A)x – B2T(E – B1B1+)B2u2 = x1x2u2.


Учитывая ограничение на управление и правило знаков для множителя Лагранжа, получаем границы, отмеченные ниже на рисунке.

Области Ω21, Ω22: пусть u1 = ±2, |u2| < 2.

Повторяем все, но теперь зажато первое управление.

Области Ω31, Ω32, Ω33, Ω34: пусть u1 = ±2, u2 = ±2.

Релейное управление, вектор λ = BT(Q – A x–BTBu. Из правила знаков извлекаем граничные неравенства. Результат моделирования приведен на рис. 8.9.



Рис. 8.9. Структура системы и фазовый портрет


Синтез локально-оптимальных систем управления преследует узкие тактические цели, отвечающие конкретным условиям. В этом смысле он проще оптимального синтеза, где минимизируется интегральный критерий качества, отвечающий за общую стратегию.

Теория оптимального управления длительное время развивалась в изоляции от относительно простых идей, навеянных методами теоретической механики. В физике определение сил и моментов, обеспечивающих движение тел по заданной траектории, называют основной или прямой задачей. Ею занимался еще Ньютон, проверяя закон всемирного тяготения. Постепенно, под влиянием теории дифференциальных уравнений, занятой, наоборот, поисками интегральных кривых, основную задачу стали именовать обратной. Оставим спор об окончательном названии затронутой темы на суд времени.

К обратным задачам динамики относится также учет ограничений на вектор состояния. Решение средствами теории оптимального управления не вызывает особого энтузиазма, поскольку при расчете ограничений приходиться сталкиваться, опять таки, с искусственными сложностями. Обращаясь к методу Ляпунова, заметим, что вдоль границы, отделяющей нежелательное состояние, следует создать заслон в виде лепестка функции, порождающей дифференциальную программу движения. Градиент квадратичной функции, а вслед за ним и направляемая им система, будут обтекать препятствие, поскольку это соответствует смыслу локально-оптимального управления. Строгих гарантий такая процедура не дает, однако она может оказаться вполне инженерным методом. Его и применяют, на практике, вводя барьерные отталкивающие воздействия.

Метод Ляпунова, при всей его популярности, используют косвенно для оценки результативности некоторых эвристических приемов. Скорее, мы имеем дело все с тем же с анализом, констатирующим факт устойчивости системы после проведения в жизнь той или иной программы синтеза. Лобовое применение метода, характеризующееся прямым привлечением положенной в его основу идеи, пока не столь распространено. Между тем, рассматриваемый формализм позволяет корректно справиться с проблемами, представляющие собой задачи неразрешимой сложности для типичных оптимизационных подходов. Во всяком случае, метод аналитического конструирования регуляторов приспособить под те же цели значительно труднее.

Итак, в этой небольшой по объему главе удалось продемонстрировать в действии формализмы Гамильтона и Якоби, Понтрягина и Ляпунова. Показано, что запаса прочности идей, сложивших теоретическую механику, хватает для решения разнообразных задач управления, и деление единой науки о движении на разделы весьма условное.

Rambler's Top100