Игра в смешанных стратегиях

 

Если платежная матрица не имеет седловой точки, то если игрок будет пользоваться смешанными стратегиями, т.е. при каждом ходе менять стратегию случайным образом, то игрок А выигрывает больше, чем a, а игрок В проигрывает больше, чем b.

Рассмотрим платежную матрицу (7.1). Пусть игрок А использует чистые стратегии А1, А2, … Аi,…Аm с вероятностями p1, p2, … pi,…pm, причем =1, а игрок В использует свои чистые стратегии В1, В2, … Вj,…Bn с вероятностями q1, q2, … qj,… qn, причем = 1.

Тогда набор SA = (p1, p2, … pi,…pm) называется смешанной стратегией игрока А, а набор SB = (q1, q2, … qj,… qn) - смешанной стратегией игрока В.

Поскольку игроки выбирают свои стратегии случайным образом, то вероятность выбрать комбинацию АiВj по теории вероятности равна (Pi × qj). При использовании смешанных стратегий игра становится случайной, тогда говорят о среднем значении выигрыша, который определяется платежной функцией

f(SA, SB) = . (7.2)

 

Смешанные стратегии = (,,…) и = (,,…) называются оптимальными, т.е. дающими каждой стороне максимальный возможный для нее средний выигрыш (для А) или минимальный средний проигрыш (для В), если они образуют седловую точку для платежной функции (7.2), т.е. если выполняется следующее условие:

f(SA, ) £ f(,) £ f(, SB).

 

Величина u = f(, SB) называется ценой игры.

Теорема 2. В смешанных стратегиях любая матричная игра имеет седловую точку, или каждая матричная игра с нулевой суммой имеет решение в смешанных стратегиях.

 

Решение игры в смешанных стратегиях

Теорема 3. Для того чтобы смешанные стратегии и были оптимальными в игре с матрицей (7.1) и ценой игры u, необходимо и достаточно, чтобы выполнялись следующие неравенства:

³ u; j = , причем = 1; (7.3)

£ u; i = , причем = 1. (7.4)

 

Нахождение оптимальной стратегии можно свести к решению задачи линейного программирования.

Пусть требуется найти оптимальные стратегии для игры с заданной платежной матрицей (7.1), для которой aij строго больше нуля (аij >0, i=,j = ), тогда цена игры u > 0. Найдем оптимальную стратегию игрока А – ().

Разделим левую и правую части в выражении (7.3) на положительную величину u:

³ 1; = .

Введем обозначение = Хi, тогда

Хi ³ 1; j = ; = .

Поскольку игрок А стремится сделать свой гарантированный выигрыш (u) как можно большим (u ® max), то величина должна быть как можно меньше (u ® min), тогда имеем следующую задачу линейного программирования:

f(x) = ® min, (7.5)

Хi ³ 1; j = , (7.6)

Хi ³ 0; i = . (7.7)

 

Если Х* = (,,…) – оптимальный план задачи (7.5) – (7.7), а минимум функции f(x) = f(x*) = f*, то цена игры u при этом составит u = , а т.к. = Хi, тогда = (u × ,… u × ) = (,…) – оптимальная смешанная стратегия игрока А.

Для игрока В используя выражение (7.4), получим

g(y) = ® max.

yj £ 1, i = .

yj ³ 0; j = .

Решение игры u = ;

= (u × ,… u × ) = (,…).

 

Пример. Найти оптимальные смешанные стратегии игры, заданной следующей платежной матрицей:

 

  В1 В2 В3 нижняя цена игры a = 4, верхняя цена игры b = 5, т.е. a ¹ b – седловой точки нет.
А1
А2

 

Сведем данную задачу к задаче линейного программирования.

Найдем оптимальную стратегию игрока А – ():

f(x) = X1 + X2 ® min.

 

X1 + 8X2 ³ 1,

10X1 + 4X2 ³ 1,

3X1 + 5X2 ³ 1,

 

X1 , X2 ³ 0.

 

f(x) = 0,21; X1 = 0,026; X2 = 0,184,

отсюда

u = = 4,76; P1 = 4,76 × 0,026 = 0,124;

P2 = 4,76 × 0,184 = 0,876.

Найдем оптимальную стратегию игрока В – ():

g(y) = y1 + y2 + y3 ® max.

y1 + 10y2 + 3y3 £ 1,

8y1 + 4y2 + 5y3 £ 1,

y1 , y2 , y3 ³ 0.

 

g(y) = 0,21; y1 = 0; y2 = 0,0526; y3 = 0,158,

 

отсюда

q1 = 0; q2 = 4,76 × 0,0526 = 0,25;

q3 = 4,76 × 0,158 = 0,75.

 

Таким образом, применяя свою первую чистую стратегию с вероятностью 0,124 и вторую – с вероятностью 0,876, игрок А выигрывает величину 4,76. Игрок В, применяя свою вторую чистую стратегию с вероятностью 0,25 и третью – с вероятностью 0,75, проигрывает величину 4,76, иначе он проигрывает больше.

 

Игра два на два (2 х 2)

Рассмотрим игру, в которой у игроков А и В по две стратегии. Платежная матрица имеет вид

 

  В1 В2   (7.8)
А1 a11 a12
А2 a21 a22

Рассмотрим случай, когда игра не имеет седловой точки.

Теорема 4. Пусть и – оптимальные смешанные стратегии игры с платежной матрицей (7.1) и ценой игры u, тогда для любого i, при котором выполняется строгое неравенство

qj < u,

имеет место равенство pi = 0. А если pi > 0, то

qj = u.

Аналогично, если для некоторых j

× pi > u,

то для этих j qj = 0. А если qj > 0, то

× pi = u.

Определим оптимальную смешанную стратегию игрока А, а для этого решим систему трех уравнений с тремя неизвестными

 

а11 × p1 + а21 × p2 = u,

а12 × p1 + а22 × p2 = u,

p1 + p2 = 1.

Решив следующую систему, найдем оптимальную стратегию игрока В:

а11 × q1 + а12 × q2 = u,

а21 × q1 + а22 × q2 = u,

q1 + q2 = 1.

 

Рассмотрим первую систему. Вычитая из первого равенства второе, получая

11 - а12) × p1 + (а21 - а22) × p2 = 0.

 

Подставим P2 = 1 – P1, тогда

11 – а12) × p1 + (а21 – а22) (1– p1 ) = 0,

отсюда оптимальная смешанная стратегия для игрока А – S*( p1, p2)

это – хорошо

P1 = (а22 – а21)/( а11 – а12 + а22 – а21),

P2 = 1– P1 = (а11 – а12)/( а11 – а12 + а22 – а21).

цена игры

u = ( а11 × а22 – а21 × а12)/( а11 – а12 + а22 – а21).

Рассуждая аналогично, для определения оптимальной стратегии игрока В получая

q1 = (а22 – а12)/( а11 – а12 + а22 – а21),

q2 = (а11 – а21)/( а11 – а12 + а22 – а21).

Пример. Имеются две конкурирующие фирмы А и В, выпускающие изделия двух модификаций. Изучение спроса покупателей показало, что если выпускаются изделия первой модификации обеими фирмами, А1 и В1, то 40 % покупателей предпочитают изделия фирмы А и 60 % - фирмы В. Если выпускаются изделия А1 и В2, то 90 % покупателей приобретают изделия А. Если изготавливаются изделия А2 и В1, будет продано 70 % изделий фирмы А. Наконец, если выпускаются изделия второй модификации А2 и В2 обеими фирмами, то 20 % покупателей предпочитают изделия фирмы А.

Решение. Представим выигрыш фирмы А в табличной форме

а11 = 40 % - 60 % = -20 %; а12 = 90 % - 10 % = 80 %;

а21 = 70 % - 30 % = 40 %; а22 = 20 % - 80 % = -60 %.

 

В1 В2 ai
А1 -20 -20
А2 -60 -60
bj  

Нижняя цена игры составляет (-20), верхняя равна 40. Игра не имеет седловой точки. Найдем оптимальные смешанные стратегии

p1 = (-60 - 40)/(-20 –80-60-40) = ; p2 = ;

u = [-20 × (-60)- 40 × 80]/ (-20 –80-60-40) = 10;

q1 = (-60 - 80)/(-20 –80-60-40) = ; q2 = .

Выигрыш фирмы А в соответствии с ценой игры составит 10 %. Следовательно, предпочтение покупателей можно выразить как А – В = 10 %, но А + В = 100 %, тогда А = 55 %; В = 45 %. Следовательно, при таких оптимальных стратегиях изделия фирмы А будут покупать 55 % потребителей, а фирма В – 45 % потребителей.

 

Геометрическое решение игры

 

Пусть игра 2 х 2 имеет платежную матрицу (7.8). Изобразим на оси абсцисс отрезок горизонтальной линии единичной длины и обозначим концы отрезка через нуль и единицу. Из точек 0 и 1 по осям ординат восстановим перпендикулярные линии и изобразим на них выигрыши игрока А при использовании им соответственно чистых стратегий А1 и А2. Все промежуточные точки отрезка () будут изображать смешанные стратегии:

 

 

При оптимальной смешанной стратегии выигрыш игрока А будет составлять величину u и отмечен точкой М.

 

Произведем аналогичные построения для игрока В:

 

 

 

При графическом решении игр возможны и другие ситуации:

 

 

 
 

 

 

Пример. Найдем графическое и аналитическое решение игры:

 

  В1 В2 a = 4, b = 5, a ¹ b - следовательно, седловой точки нет.
А1
А2

 
 

Найдем оптимальную смешанную стратегию игрока А

 

Найдем оптимальную смешанную стратегию игрока В:

 

 

 

Игры 2 х n и m х 2

 

Допустим, платежная матрица задана и имеет вид 2 х n:

 

  В1 В2 Вn Игрок А имеет две стратегии, а игрок В – неограниченное число стратегий.
А1 a11 a12 a1n
А2 a21 a22 a2n

 

Допустим, платежная матрица имеет вид m х 2:

 
 

 

Минимум М находится на пересечении стратегий А1 и Аm, остальные отбрасываются, далее игра решается как задача 2 х 2.

 

 

Пример. Пусть игра задана в виде платежной матрицы

 

  В1 В2 В3 Игра (2 х 3) не имеет седловой точки a = 4, b = 5, a ¹ b, имеем игру в смешанных стратегиях.
А1
А2

 

 
 

Решим задачу графически и аналитически. Для игрока А: получаем игру 2 х 2, используя стратегии В2 и В3 игрока В:

 

Для игрока В: