Модели множественного выбора

От многомерных probit-моделей отличаются модели множественного выбора. Многомерные probit-модели предполагают принятие нескольких решений, каждое из которых заключается в выборе одного из двух альтернативных вариантов. В моделях множественного выбора нужно принять одно решение, но выбрать между тремя и более вариантами. Часто рассматриваются два возможных типа альтернатив: упорядоченные и неупорядоченные. Например, выбор средств добраться до работы (на машине, на метро, на автобусе и т. д.) – выбор среди неупорядоченных вариантов. Выбор ценных бумаг, исходя из их рейтинга, – выбор среди упорядоченных вариантов.

Рассмотрим сначала модели с неупорядоченными альтернативными вариантами.

В них предполагается, что наблюдаемое значение выбора t-м индивидуумом j-го варианта (уt=j) связывается со значениями факторов, сопутствующих его выбору, эконометрическим уравнением следующего вида:

уt=h(a¢,ztj)+etj, (10.84)

 

где h – функция, отражающая характер влияния факторов на выбор t-м индивидуумом j-го варианта; etj – ошибка модели; a – вектор параметров модели; ztj – вектор независимых переменных –значений факторов, влияющих на выбор t-го индивидуума, которые могут характеризовать самого индивидуума, альтернативный вариант, либо и то и другое одновременно. Например, при выборе торгового центра для покупки набора товаров вектор ztj может иметь следующую структуру:

 

ztj =(Kj, Rtj, Dt), (10.85)

 

где Kj – количество магазинов в j-м торговом центре; Rtj – расстояние от дома t-го индивидуума до j-го торгового центра; Dt – доход t-го индивидуума.

Заметим, что ошибки etj (t=1,2,...,Т) модели (10.84) определяются как et1=1–h(a¢,zt1), et2=2–h(a¢,zt2),..., etJ=Jh(a¢,ztJ).

На основании модели (10.84) могут быть оценены вероятности выбора t-м индивидуумом каждого из альтернативных вариантов, т. е. Р(уt=1), Р(уt=2),..., Р(уt=J). Для этого должны быть известны:

1) функция h(a¢,ztj);

2) закон распределения ошибок etj.

Предположим, что функция h(a¢,ztj) имеет линейный вид:

 

h(a¢×ztj)=a¢×ztj=

 

где – i-я компонента вектора ztj (i=1,...,п).

Соответственно ошибки etj (t=1,2,...,Т) модели (10.84) примут следующий вид: et1=1–a¢×zt1, et2=2–a¢×zt2,..., etJ=Ja¢×ztJ.

Предположим, что ошибки etj независимы и распределены по нормальному закону, тогда вероятность выбора t-м индивидуумом j-го варианта определяется следующим образом:

 

ò...òò...

ò

где u1,..., uJ – переменные интегрирования, а плотность совместного распределения ошибок jJ (.) определяется как

 

 

 

В выражении (10.88)

Из-за сложности вычисления многомерных интегралов в выражении (10.87) модели, основанные на нормальном распределении ошибок (probit-модели), не нашли широкого применения в исследованиях множественного выбора.

Определение вероятностей выбора Р(уt=1), Р(уt=2),..., Р(уt=J) существенно упрощается, если предположить, что ошибки etj независимы и распределены по закону Вейбулла, т. е.

Тогда их совместная плотность распределения может быть представлена в следующем виде:

 

 

На основании выражения (10.89) получим, что вероятность выбора выбора t-м индивидуумом j-го варианта определяется как

 

ò...òò...

ò

 

С учетом того, что величина ошибки etj зависит от величины –a¢×ztj, и в этом случае окончательно имеем:

 

Выражение (10.91) лежит в основе logit-моделей множественного выбора.

Заметим, что при способе формирования независимых факторов, соответствующем выражению (10.85), вероятность выбора t-м индивидуумом j-го варианта будет зависеть от тех факторов, которые отражают характеристики только варианта j (число магазинов в j-м торговом центре) либо совместные характеристики варианта j и индивидуума t (например, расстояние от дома индивидуума до торгового центра является их совместной характеристикой).

Это можно показать следующим образом. Представим вектор ztj в следующем виде: ztj =[хtj, wt], где вектор хtj образован факторами, отражающими характеристики варианта j и совместные характеристики варианта j и индивидуума t, а вектор wt – факторами, отражающими исключительно характеристики индивидуума t (например, доход). Вектор параметров a также представим как совокупность двух векторов a=[a*, b], где a* – вектор коэффициентов, соответствующих независимым переменным хtj, а b – вектор коэффициентов, соответствующих независимым переменным wt. Введя такое представление в модель (10.88), получим следующее выражение, определяющее вероятность выбора t-м индивидуумом j-го варианта:

 

Из выражения (10.92) непосредственно следует, что независимые переменные wt, которые характеризуют индивидуума (но не характеризуют альтернативный вариант), действительно не будут влиять на распределение вероятностей выбора.

Для учета влияния признаков индивидуумов в модели (10.91) необходимо сформировать несколько другую структуру векторов ztj, отличающуюся от структуры, определенной выражением (10.85). Вектора ztj должны выглядеть следующим образом:

 

 

где L – число компонент в векторе wt.

В рассмотренном выше примере, когда индивидуум с доходом Dt выбирает один из трех торговых центров в соответствии с выражением (10.93) вектора ztj примут следующий вид:

 

zt1=(K1, Rt1, Dt, 0);

zt2=(K2, Rt2, 0, Dt); (10.94)

zt3=(K3, Rt3, 0, 0).

 

где Kj – число магазинов в j-м торговом центре, Rtj – расстояние от дома t-го индивидуума до j-го торгового центра.

Таким образом, вероятность выбора t-м индивидуумом j-го альтернативного варианта ставится в зависимость и от характеристик варианта и от характеристик индивидуумов. Однако на практике обычно формируются модели, содержащие только какой-либо один набор однородных факторов. Logit-модель, учитывающая влияние на вероятность выбора t-м индивидуумом j-го альтернативного варианта факторов хtj, включающих характеристики варианта j и совместные характеристики варианта j и индивидуума t, называются условной logit-моделью. Заметим, что в условной logit-модели наряду с ранее отмеченными свойствами независимости ошибок и их распределения по закону Вейбулла также предполагается, что ошибки гомоскедастичны.

Для условной logit-модели вероятности Р(уt=j), j=1,...,J также могут быть определены на основе выражения (10.92). Маржинальные эффекты непрерывных независимых переменных х могут быть получены путем дифференцирования вероятностей по факторам х:

=[Pj×(dPk)]×a *, (10.95)

 

где d=1, если j=k, и d=0 – в противном случае. (Для избежания путаницы в обозначениях индексы наблюдений здесь опущены).

При практическом использовании условной logit-модели часто выясняется, что предположение о независимости ошибок etj не соответствует действительности. Например, при выборе одного из трех торговых центров может оказаться, что количество магазинов в первом из них вдвое больше, чем во втором (K1=2K2), но и расстояние до него вдвое больше, чем до второго (Rt1=2Rt2). Ошибки et1 и et2 в этом случае определяются как

 

et1=ln1–a12K2a22Rt2;

et2=ln2–a1K2a2Rt2. (10.96)

 

Из выражения (10.96) следует, что ошибки являются зависимыми:

et1=–2(ln2–et2). (10.97)

 

Зависимость ошибок влечет за собой потерю эффективности оценок параметров a условной logit-модели, полученных при использовании “традиционных” методов оценивания.

Вместе с тем, если рассмотреть несколько другую процедуру выбора t-м индивидуумом альтернативных вариантов, то неэффективность оценок модели можно устранить. В частности, это можно сделать, сформировав последовательную процедуру выбора, на каждом шаге которой выбирается одно из двух возможных решений. Такая процедура может быть описана многомерной probit-моделью, которая может быть представлена в следующем виде:

 

ytj=a¢×xj+etj

(ytj=1, если индивидуум t выбрал вариант j;

ytj=0 – в противном случае);

[e1, e2,..., eJ]~N[0, S]. (10.98)

где xj – вектор независимых переменных, характеризующих j-й вариант, a – вектор параметров модели; ej – ошибка модели, распределенная по нормальному закону с нулевым средним и ковариационной матрицей S (в общем случае неизвестной).

Рассмотрим следующий пример, отражающий особенности применения данного подхода. Предположим, что изучается выбор одного из трех видов транспорта для поездки на работу (автомобиль, автобус, метро). Введем три бинарные переменные соответствующие каждому средству передвижения: y1=1, если выбран автомобиль, y1=0 для всех остальных видов транспорта; y2=1, если выбран автобус, y2=0 для всех остальных видов транспорта; y3=1, если выбрано метро, y3=0 для всех остальных видов транспорта. Требуется оценить следующий набор вероятностей: P(y1=1); P(y2=1) и P(y3=1).

Выбор одного из трех альтернативных вариантов можно описать в виде “дерева” последовательных решений, в узлах которого происходит бинарный выбор (см. рис 10.3).

 

автомобиль

y1=1

автобус

y1=0

y2=1

y2=0

метро