С т р а т е г и я у п р а в л е н и я. Для уточнения способа выбора управления приведем определение стратегии управления. Естественно считать, что управление не может зависеть от будущих состояний процесса и будущих управлений. При этом оно может быть случайным. Обозначим через условную вероятность того, что управление в момент n принимает значение из множества , если предыдущие уравнения были а состояния процесса до момента n включительно . Она считается - измеримо зависящей от своих аргументов. Набор функций определяет стратегию управления. Такая стратегия называется рандомизированной. Предположим, что меры при всяком n сосредоточены в одной точке. Пусть это точки . Тогда
. Стратегии управления такого вида называются нерандомизированными. Функции также - измеримы.
Если заданы управляемый процесс и стратегия управления, то определена последовательность в пространстве c конечномерными распределениями
(1)
Такую последовательность будем называть процессом управления, отвечающим управляемому процессу, определяемому набором , и стратегии управления, определяемой набором . Из формулы (1) вытекает, что условное распределение при заданных совпадает с , а условное распределение при заданных совпадает с
Последовательность есть последовательность состояний управляемого процесса, а последовательность - последовательность управлений. В дальнейшем мы будем считать фиксированным управляемый процесс ( т. е. набор ) и стоимость управления , стратегию управления можно изменять, подбирая ее так, чтобы стоимость управления была по возможности меньше. Буде в дальнейшем обозначать стратегию одной буквой ( скажем S), отождествляя ее с набором , записывая . Через и , где S- некоторая стратегия, обозначим вероятность и математическое ожидание, относящиеся к процессу управления , если выбрана стратегия управления S.
Стратегия называется оптимальной на [0, N], если для всякой другой стратегии
Стратегия называется оптимальной, если для всякой другой стратегии
Для нахождения оптимальных и оптимальных стратегий нужно задать величину
,
которая называется ценой управления. Основная задача теории управляемых процессов – отыскать для всякого оптимальных уравнений.
Оптимальные и оптимальные уравнения. Рассмотрим простейший случай, когда N=1 и не зависит от . Покажем, как можно найти цену управления. Стратегия S задается распределением
Положим Эта функция не зависит от выбора стратегии,
и можно при весьма широких предположениях о характере функции выбрать так стратегию, чтобы
было сколь угодно мало. Значит,
Заметим, что если зависит от , то цена управления для такой функции будет такая же, как и для функции , поскольку управление можно выбрать так, чтобы значение было сколь –угодно близко к . Таким образом, в этом случае
Введем последовательность функций
, (2)
для n < N. Предполагаем, что все эти функции определены. Тогда естественно ожидать, что цена управления будет
(3)
Чтобы это было так, нужно, чтобы на каждом шаге в цепочке равенств (2) получалась измеримая функция и чтобы
(4)
Заметим, что в том случае, когда для всех существует и такая измеримая функция со значениями в U, что
(5)
то последовательность функций определяет нерандомизированное оптимальное управление. Ниже приводятся две теоремы об оптимальных и оптимальных управлениях.
С у щ е с т в о в а н и е и в и д о п т и м а л ь н ы х у п р а в л е н и й.
Будем предполагать, что Х и U – полные метрические сепарабельные пространства, через , где Z – топологическое пространство, обозначаем пространство вещественных ограниченных непрерывных функций на Z с нормой Будем говорить, что управляемый процесс, определяемый набором , удовлетворяет условию слабой непрерывности (у. с. н.), если для всех n и
(6)
Напомним, что вещественная функция , заданная на топологическом пространстве Z, называется непрерывной снизу, если для всех
Ниже приводятся некоторые свойства непрерывных снизу функций.
1. U – компакт, f (u) – непрерывна снизу, тогда f (u) ограничена снизу и существует .
2. Пусть f (z, u) непрерывна снизу на , Z – топологическое ространство, U – компакт.
Положим ( по 1 это всюду определенная функция). Тогда g (z) непрерывна снизу.
3. Пусть полное сепарабельное метрическое пространство, U – компакт,
f (z, u) - непрерывна снизу, , существует борелевская функция из Z в U такая, что ( это утверждение – один из вариантов теоремы об измеримом выборе).
Поясним это утверждение для случая, когда U – отрезок [a, b] прямой. Тогда множество замкнуто, и в качестве можно взять .
3. Всякая непрерывная снизу и ограниченная снизу функция g(z), определенная на полном сепарабельном метрическом пространстве, есть предел возрастающей последовательности непрерывных функций.
Т е о р е м а 1. Пусть Х – полное сепарабельное метрическое пространство, U – компакт. Если управляемый процесс удовлетворяет у. с. н., а стоимость управления непрерывна снизу и ограничена снизу на , то: 1) все функции, определяемые равенствами (2), непрерывны снизу, 2) цена управления задается равенством (3), 3) существует последовательность борелевских функций
,
удовлетворяющих соотношению (5).
Эти функции определяют нерандомизированное оптимальное управление.
Д о к а з а т е л ь с т в о. 1) Если непрерывна снизу, то непрерывность снизу вытекает из 1, если при этом ограничена снизу, то будет такой же. Можно показать, что при выполнении у. с. н.
для всех . Используя 4, отсюда получаем, что непрерывна снизу, если такой будет . Остальные утверждения вытекают из соотношения (5), которое есть следствие свойства 3.
о п т и м а л ь н ы е у п р а в л е н и я. Для дальнейшего нам понадобится понятие аналитического множества.
Пусть Z - полное сепарабельное метрическое пространство. Множество называется аналитическим, если можно указать такие компакт U и борелевское множество , что А есть проекция В на Z, т.е. .
Приведем без доказательства некоторые факты об аналитических множествах.
А1. Совокупность аналитических множеств пространства Z ( будем обозначать ее ) образует монотонный класс, замкнутой относительно операций и .
А2. Если Х и Z – полные сепарабельные метрические пространства, f – непрерывная функция из Х в Z, то для будет .
А3. Пополнение борелевской меры на Z определено на .
Обозначим через множество числовых функций на Z, для которых для всех .
А4. Если , то
А5. . Если то для всех .
А6. Пусть X, Z- полные сепарабельные метрические пространства, p(A, z) для всех мера на ( борелевской алгебре Х), для всех и .
Тогда
(7)
А7. ( Теорема об измеримом выборе). Пусть и для всех существует . Тогда существует борелевская функция такая, что
.
Т е о р е м а 2. Пусть Х и - полные сепарабельные метрические пространства, для всех принадлежит , , . Тогда:1) функции и , определяемые равенствами (2), принадлежат и соответственно; 2) цена управления задается равенством (3); 3) для всякого существует последовательность борелевских функций
определяющих нерандомизированное оптимальное управление.
Д о к а з а т е л ь с т в о. Утверждение 1) вытекает из свойств А4 и А6. То, что цена управления задается (3), если только функции в цепочке (2) измеримы ( в нашем случае это функции, измеримы относительно пополнения борелевской
-алгебры по любой мере), установлено выше. Установим 3). Для этого достаточно доказать, что для любого можно указать такую борелевскую функцию со значениями в U, что
(8)
Пусть , если Очевидно .Для всех существует и на основании А7 борелевская функция , для которой
Следовательно,
Заметим, что , так как множество в есть прообраз аналитического подмножества в при борелевском отображении в , определяемом равенствами . Выберем на каждом шаге управление и положим
, ,
.
Тогда по индукции устанавливаем:
Поэтому стоимость выбранного управления удовлетворяет неравенству
Выбирая , получим доказательство утверждения 3)