Тема 1. Управляемые случайные последовательности.

Рассмотрим сначала управляемый случайный процесс с дискретным временем. Это более простой вариант процесса, здесь проще и определение процесса, и постановка задачи, и ее решение. Пусть , - два измеримых пространства, первое называется фазовым пространством процесса, второе – фазовым пространством управления. Чтобы определить управляемый случайный процесс, рассмотрим сначала вырожденный случай, когда случайность отсутствует. Процесс внешне проявляется двумя последовательностями: в Х и в U – последовательностью состояний управляемого процесса и последовательностью управлений. Управления выбираются произвольно и определяют состояния управляемого процесса начального положения, при этом для определения в момент t нужно знать управления лишь в предыдущие моменты времени. Таким образом управляемый процесс определяется последовательностью функций

Заметим, что более естественное определение процесса, при котором состояние в момент t определяется предыдущими состояниями и управлениями до момента t, очевидно сводится к сформулированному выше.

При определении случайного управления процесса будем считать, что распределение состояний процесса в момент t зависит от предыдущих состояний процесса и управлений до момента t. Поэтому такой процесс задается последовательностью условных распределений

n = 0,1,2,…

определяющих вероятностей того, что состояние процесса в момент t=n принадлежит , если предыдущие значения процесса , а управления - ( распределение состояния процесса в момент t=0 определяется функцией ). Будем предполагать, что функция зависит - измеримо от своих аргументов. Обычно задача управления состоит в выборе « оптимального» управления. Уточнению смысла этого термина посвящен следующий пункт.

Постановка задачи. Пусть управляемый процесс функционирует на конечном отрезке времени: t = 0,1,2,…,T. Обычно цель управления – либо получить доход, либо прийти к определенному результату с наименьшими затратами, либо уменьшить ожидаемый убыток. И доход, и убыток, и затраты зависят от значений управляемого процесса и использованных управлений. Доход можно рассматривать как отрицательный убыток, а убыток как затраты на функционирование управляемого процесса. Будем поэтому предполагать, что задана функция , характеризующая затраты на управление, если были использованы управления состояния процесса были . Оптимальное управление должно минимизировать стоимость управления. Пусть были выбраны управления тогда совместное распределение состояний процесса ( это случайные элементы в Х, - состояние процесса в момент k ) будет

Средняя стоимость управления

есть функция от использованных управлений. Если использовать управления наперед выбранные, то оптимальным будет то управление, которое доставляет минимум функции . Однако можно существенно улучшить управление, если выбирать его зависящим от состояний процесса.

П р и м е р. Пусть где - последовательность независимых одинаково распределенных величин, , , . Тогда

. Если считать, что управление на k-ом шаге может зависеть от состояний процесса до момента k включительно, можем записать

Выбирая управления так, чтобы , получим уравнение со средней стоимостью 1, которую уже нельзя уменьшить.