Принятие решений в условиях неизвестной среды

В случае неизвестной среды нет достаточных оснований для предположений о том, какие значения будут принимать параметры, характеризующие состояние среды на рассматриваемом временном интервале. При этом возможно два направления создания информационной базы для принятия решения.

П е р в о е направление связано с наблюдением за изменением состояний среды, и затем на основе собранной информации (статистики) строится вероятностное распределение состояний среды. После этого возникает возможность использования методов выбора в условиях стохастической среды. Здесь можно различать две ситуации: а) имеются достаточные объективные предпосылки для априорного задания вида закона вероятностного распределения состояний среды и необходимо только определить (на основе сбора и статистической обработки информации) параметры этого закона (параметрические статистики); б) в ходе наблюдения за изменением состояний среды необходимо выявить сам закон вероятностного распределения состояний среды (непараметрические статистики).

При анализе возможностей принятия решения в рамках данного направления следует учитывать следующее:

1) для сбора и обработки статистики необходим ресурс времени, который на практике довольно часто отсутствует;

2) изменение состояний среды должно обладать свойством статистической устойчивости, т.е. состояния повторяются с определенной частотой в массовых явлениях. Вместе с тем в сложных системах, особенно, когда в контуре управления присутствуют люди, такое свойство довольно часто не выполняется.

В т о р о е направление связано с получением экспертной информации о целесообразном поведении в сложившейся ситуации или об оценках возможных состояний среды, которая учитывается в том или ином виде.

Рассмотрим здесь второе направление, связанное с анализом способов учета экспертной информации в моделях принятия решений.

 

5.4.1. Модели типа "игра с природой".

Специфическим видом игр, имеющих важное прикладное значение для анализа ситуаций, возникающих при принятии решений в сложных системах, являются так называемые "игры с природой". В этих играх в качестве второго игрока выступает "природа", которая не заинтересована в результатах игры и, следовательно, действует по своим законам, не противодействуя сознательно другой оперирующей стороне. К прикладным проблемам, использующим модели типа "игра с природой", можно отнести многие экономические задачи разработки систем, задачи планирования хозяйственных действий в различных условиях. Неопределенность воздействия среды может определяться как принципиальной невозможностью ее изучения, так и ограничениями ресурсного характера, связанными с этим изучением. Под такими ограничениями, как правило, понимается время, материальные и финансовые затраты и т.п.

Множество с о с т о я н и й п р и р о д ы R (стратегий) интерпретируется как известное по своему составу множество состояний внешней среды. При этом предполагается, что в каждой конкретной ситуации принятия решения реализуется только один элемент из R, который при решении задачи выбора полагается неизвестным. Будем полагать, что множество состояний природы конечно R = { R1,...,Rs }.

Тогда возможные исходы игры можно характеризовать платежной матрицей F:

  R 1 R 2 . . . . . . . . . R s
x1 f11 f12 . . . . . . . . . f1s
x2 f21 f22 . . . . . . . . . f2s
F = . . . . . . . . . . . . . . . . . .
  . . . . . . . . . . . . . . . . . .
xm fm1 fm2 . . . . . . . . . fms

Рис.5.4

Существенным отличием данной ситуации от ситуаций, рассмотренных в условиях целенаправленной среды, является то, что здесь второй игрок (природа) не стремится действовать максимально во вред первому. Это создает возможность первому игроку повысить свой выигрыш по сравнению с гарантированной стратегией (оптимальной смешанной), в то же время неопределенность состояния природы, в которых она может находиться, требует введения лицом, принимающим решение, некоторых предположений, выраженных в аксиомах, принципах оптимизации и т.п., а также соответствующих этим предположениям критериев выбора поведения. Следует отметить, что такой неформальный ввод, осуществляемый на основе экспертного анализа складывающейся ситуации, некоторого принципа во многом определяет дальнейший поиск оптимального решения. Естественно, насколько полно будет проведен такой анализ, и насколько полно выбранный принцип оптимизации будет соответствовать реальности, настолько будет эффективным принятое решение.

Предположения (принципы, аксиомы), вводимые лицом, принимающим решение, позволяют свести ситуацию принятия решения в условиях неизвестной среды к ситуации принятия решения в условиях стохастической или целенаправленной среды.

Так, в частности, исходная ситуация сводится к стохастической среде, при введении предположения о равновероятном распределении состояний природы.

Принцип равновероятных состояний среды (критерий Лапласа)

Следует отметить, что знание вероятностного распределения состояний среды (ее смешанной стратегии q) делает ситуацию вполне определенной - в этом случае целесообразно выбирать i-ю чистую стратегию из X, на которой достигается максимальный средний выигрыш, найденный в соответствии с

s

x*i = arg max F(xi), где F(xi) = Fi = S fijqj, i=1,...,m.

i j=1

Тогда, если состояния среды равновероятны, то следует выбирать решение

s s

x*i = arg max 1/s Sfij = arg max S fij .

i j=1 i j=1

Существует ряд широко распространенных принципов оптимальности и соответствующих им критериев, позволяющих свести исходную неизвестную ситуацию к целенаправленной среде.

 

Принцип гарантированного результата
(критерий пессимизма, критерий Вальда)

Это известный принцип максимина, который позволяет получить гарантированный результат для оперирующей стороны (1-ый игрок) независимо от того, в каком состоянии находится среда (даже если она будет преследовать строго антагонистические цели). Правило выбора ЛПР (1 игрока) имеет следующий вид:

x* = arg max min f(x,r),

xÎX rÎR

здесь f(x, r) - функция выигрыша оперирующей стороны.

Данный принцип является выражением крайнего пессимизма, поскольку рекомендует ориентироваться на самые худшие условия.

 

Принцип максимального оптимизма

Этот принцип оптимальности, противоположный предыдущему, ориентирует оперирующую сторону на то, что среда максимально благоприятствует ее действиям. В указанной ситуации ЛПР осуществляет выбор в соответствии с правилом:

x* = arg max max f(x,r),

xÎX rÎR

 

Принцип пессимизма-оптимизма (критерий Гурвица)

На основе введения числа g, характеризующего степень оптимизма оперирующей стороны, и изменяющегося от 0 до 1, осуществляется линейная свертка первых двух правил выбора:

x* = arg max (g max f(x,r) + (1-g) min f(x,r)).

xÎX rÎR rÎR

Поскольку g характеризует степень оптимизма оперирующей стороны, то, если g = 0 - получаем критерий пессимизма Вальда; если g = 1 - получаем критерий оптимизма.

 

Принцип минимума максимальных потерь

(критерий минимизации риска, критерий Сэвиджа)

Критерий гарантирует наименьшую величину максимально возможной потери выигрыша по сравнению с тем, который мог бы быть достигнут, если бы было известно состояние среды rÎR. Этот критерий аналогичен критерию Вальда, но сам пессимизм ЛПР здесь понимается по другому. Вводится функция риска

z(x,r) = max f(x,r) - f(x,r),

xÎX

которая характеризует отклонение выигрыша при некоторой стратегии x и состоянии среды r от максимального при данном состоянии природы выигрыша. Тогда критерий Сэвиджа имеет вид:

x* = arg max min z(x,r),

xÎX rÎR

В некоторых случаях решения, выбранные по разным критериям, совпадают друг с другом, и тогда, естественно, целесообразно принять такое решение в качестве окончательного. Однако довольно часто этого не происходит, и эффективность решения определяется тем, насколько правильно будет произведена неформальная оценка неизвестных состояний среды. Тем не менее, всегда целесообразно провести предварительное исследование с использованием различных критериев, проанализировать причины несовпадения решений (если оно имеет место) и после этого принять окончательное решение.