Тема 2. Оптимальное управление.

С т р а т е г и я у п р а в л е н и я. Для уточнения способа выбора управления приведем определение стратегии управления. Естественно считать, что управление не может зависеть от будущих состояний процесса и будущих управлений. При этом оно может быть случайным. Обозначим через условную вероятность того, что управление в момент n принимает значение из множества , если предыдущие уравнения были а состояния процесса до момента n включительно . Она считается - измеримо зависящей от своих аргументов. Набор функций определяет стратегию управления. Такая стратегия называется рандомизированной. Предположим, что меры при всяком n сосредоточены в одной точке. Пусть это точки . Тогда

. Стратегии управления такого вида называются нерандомизированными. Функции также - измеримы.

Если заданы управляемый процесс и стратегия управления, то определена последовательность в пространстве c конечномерными распределениями

(1)

Такую последовательность будем называть процессом управления, отвечающим управляемому процессу, определяемому набором , и стратегии управления, определяемой набором . Из формулы (1) вытекает, что условное распределение при заданных совпадает с , а условное распределение при заданных совпадает с

Последовательность есть последовательность состояний управляемого процесса, а последовательность - последовательность управлений. В дальнейшем мы будем считать фиксированным управляемый процесс ( т. е. набор ) и стоимость управления , стратегию управления можно изменять, подбирая ее так, чтобы стоимость управления была по возможности меньше. Буде в дальнейшем обозначать стратегию одной буквой ( скажем S), отождествляя ее с набором , записывая . Через и , где S- некоторая стратегия, обозначим вероятность и математическое ожидание, относящиеся к процессу управления , если выбрана стратегия управления S.

Стратегия называется оптимальной на [0, N], если для всякой другой стратегии

 

Стратегия называется оптимальной, если для всякой другой стратегии

 

Для нахождения оптимальных и оптимальных стратегий нужно задать величину

,

которая называется ценой управления. Основная задача теории управляемых процессов – отыскать для всякого оптимальных уравнений.

Оптимальные и оптимальные уравнения. Рассмотрим простейший случай, когда N=1 и не зависит от . Покажем, как можно найти цену управления. Стратегия S задается распределением

Положим Эта функция не зависит от выбора стратегии,

 

и можно при весьма широких предположениях о характере функции выбрать так стратегию, чтобы

 

было сколь угодно мало. Значит,

 

Заметим, что если зависит от , то цена управления для такой функции будет такая же, как и для функции , поскольку управление можно выбрать так, чтобы значение было сколь –угодно близко к . Таким образом, в этом случае

 

Введем последовательность функций

 

 

 

 

 

, (2)

для n < N. Предполагаем, что все эти функции определены. Тогда естественно ожидать, что цена управления будет

(3)

Чтобы это было так, нужно, чтобы на каждом шаге в цепочке равенств (2) получалась измеримая функция и чтобы

(4)

Заметим, что в том случае, когда для всех существует и такая измеримая функция со значениями в U, что

(5)

то последовательность функций определяет нерандомизированное оптимальное управление. Ниже приводятся две теоремы об оптимальных и оптимальных управлениях.

С у щ е с т в о в а н и е и в и д о п т и м а л ь н ы х у п р а в л е н и й.

Будем предполагать, что Х и U – полные метрические сепарабельные пространства, через , где Z – топологическое пространство, обозначаем пространство вещественных ограниченных непрерывных функций на Z с нормой Будем говорить, что управляемый процесс, определяемый набором , удовлетворяет условию слабой непрерывности (у. с. н.), если для всех n и

(6)

Напомним, что вещественная функция , заданная на топологическом пространстве Z, называется непрерывной снизу, если для всех

 

Ниже приводятся некоторые свойства непрерывных снизу функций.

1. U – компакт, f (u) – непрерывна снизу, тогда f (u) ограничена снизу и существует .

2. Пусть f (z, u) непрерывна снизу на , Z – топологическое ространство, U – компакт.

Положим ( по 1 это всюду определенная функция). Тогда g (z) непрерывна снизу.

3. Пусть полное сепарабельное метрическое пространство, U – компакт,

f (z, u) - непрерывна снизу, , существует борелевская функция из Z в U такая, что ( это утверждение – один из вариантов теоремы об измеримом выборе).

Поясним это утверждение для случая, когда U – отрезок [a, b] прямой. Тогда множество замкнуто, и в качестве можно взять .

3. Всякая непрерывная снизу и ограниченная снизу функция g(z), определенная на полном сепарабельном метрическом пространстве, есть предел возрастающей последовательности непрерывных функций.

 

Т е о р е м а 1. Пусть Х – полное сепарабельное метрическое пространство, U – компакт. Если управляемый процесс удовлетворяет у. с. н., а стоимость управления непрерывна снизу и ограничена снизу на , то: 1) все функции, определяемые равенствами (2), непрерывны снизу, 2) цена управления задается равенством (3), 3) существует последовательность борелевских функций

,

удовлетворяющих соотношению (5).

Эти функции определяют нерандомизированное оптимальное управление.

Д о к а з а т е л ь с т в о. 1) Если непрерывна снизу, то непрерывность снизу вытекает из 1, если при этом ограничена снизу, то будет такой же. Можно показать, что при выполнении у. с. н.

 

для всех . Используя 4, отсюда получаем, что непрерывна снизу, если такой будет . Остальные утверждения вытекают из соотношения (5), которое есть следствие свойства 3.

о п т и м а л ь н ы е у п р а в л е н и я. Для дальнейшего нам понадобится понятие аналитического множества.

Пусть Z - полное сепарабельное метрическое пространство. Множество называется аналитическим, если можно указать такие компакт U и борелевское множество , что А есть проекция В на Z, т.е. .

Приведем без доказательства некоторые факты об аналитических множествах.

А1. Совокупность аналитических множеств пространства Z ( будем обозначать ее ) образует монотонный класс, замкнутой относительно операций и .

А2. Если Х и Z – полные сепарабельные метрические пространства, f – непрерывная функция из Х в Z, то для будет .

А3. Пополнение борелевской меры на Z определено на .

Обозначим через множество числовых функций на Z, для которых для всех .

А4. Если , то

А5. . Если то для всех .

А6. Пусть X, Z- полные сепарабельные метрические пространства, p(A, z) для всех мера на ( борелевской алгебре Х), для всех и .

Тогда

(7)

А7. ( Теорема об измеримом выборе). Пусть и для всех существует . Тогда существует борелевская функция такая, что

.

 

Т е о р е м а 2. Пусть Х и - полные сепарабельные метрические пространства, для всех принадлежит , , . Тогда:1) функции и , определяемые равенствами (2), принадлежат и соответственно; 2) цена управления задается равенством (3); 3) для всякого существует последовательность борелевских функций

 

определяющих нерандомизированное оптимальное управление.

Д о к а з а т е л ь с т в о. Утверждение 1) вытекает из свойств А4 и А6. То, что цена управления задается (3), если только функции в цепочке (2) измеримы ( в нашем случае это функции, измеримы относительно пополнения борелевской

-алгебры по любой мере), установлено выше. Установим 3). Для этого достаточно доказать, что для любого можно указать такую борелевскую функцию со значениями в U, что

(8)

Пусть , если Очевидно .Для всех существует и на основании А7 борелевская функция , для которой

 

Следовательно,

 

Заметим, что , так как множество в есть прообраз аналитического подмножества в при борелевском отображении в , определяемом равенствами . Выберем на каждом шаге управление и положим

 

, ,

 

 

.

Тогда по индукции устанавливаем:

 

 

 

Поэтому стоимость выбранного управления удовлетворяет неравенству

 

Выбирая , получим доказательство утверждения 3)