Тема 3. Управляемые цепи Маркова. Уравнение Беллмана.

Как и в предыдущем параграфе, рассматриваем пространства - фазовое пространство процесса и - фазовое пространство управления. Управляемый процесс называется марковским ( управляемой цепью Маркова), если функции зависят лишь от и . Управляемая цепь Маркова задается набором своих вероятностей перехода , в отличие от общего случая начальное распределение не фиксируется ( это обычный подход при изучении марковских процессов). Оказывается, специальный вид условных вероятностей, определяющих управляемый процесс, не упрощает цепочки равенств (2), с помощью которых находятся цена управления и оптимальное ( или оптимальные) управления. Однако в предположении, что стоимость управления представляет собой сумму стоимостей управлений на каждом шаге, которые в свою очередь зависят лишь от исходного и конечного состояний процесса и выбранного управления, задача отыскания оптимального ( оптимального) управления допускает более эффектное решение

Аддитивная стоимость управления. Управление Беллмана.Будем предполагать, что для всех задана функция , определяющая затраты на управление на n-ом шаге, если процесс находится в состоянии х и после применения управления u перешел в состояние . Полная стоимость управления на отрезке [0, N], если процесс был в состоянии , а управления были будет

. (9)

Пусть есть цена управления, если начальное положение процесса совпадает с х. Рассмотрим теперь ту же управляющую цепь Маркова, только начиная с момента k<N. Стоимость управления для этой цепи будет

. (10)

Обозначим через цену управления для этого управляемого процесса в предположении, что начальное положение совпадает с х. Уравнения Беллмана связывают функции при разных k < N и дают возможность их вычислять рекуррентно.

Будем предполагать, что X,U – полные сепарабельные метрические пространства, функции и ограничены снизу, для всех замкнутых .

Т е о р е м а 3. Справедливы соотношения

(11)

k < N, при этом считаем, что

Д о к а з а т е л ь с т в о. Пусть , а при k < N функция определяются последовательно равенствами (11). Используя формулы (2) для функций вида (9) и соотношения (11) для находим

.

Далее,

 

Продолжая, находим , поэтому Аналогично, рассматривая управляемый процесс на [k, N], устанавливаем, что

З а м е ч а н и е 1. Предположим, что в (11) инфинум достигается для всех k и х. Тогда на основании утверждения А7 § 1 существует борелевская функция из Х в U, для которой

(12)

Последовательность функций определяет нерандомизированное оптимальное управление.

З а м е ч а н и е 2. Если функция непрерывны снизу и ограничены снизу, U- компакт, а вероятности перехода удовлетворяет у.с.н., то все функции и непрерывны снизу, поэтому существование борелевских функций , удовлетворяющих (12), вытекает из утверждения 3 § 1.

О п р е д е л е н и е 1. Нерандомизированное управление вида называется марковским ( соответствующая стратегия также называется марковской ).

Таким образом в замечаниях 1, 2 даются условия существования марковского оптимального управления.

З а м е ч а н и е 3. Если для всех k выбрать функцию такую, что

(13)

существование таких борелевских функций вытекает из утверждения А7 § 1, то последовательность функций , k=0,…..,N-1 определяет оптимальное марковское управление, если только . Это устанавливается точно так, как в теореме 2.