Режимы подкрепления

Суть оперантного научения состоит в том, что подкрепленное поведение стремит­ся повториться, а поведение неподкрепленное или наказуемое имеет тенденцию не повторяться или подавляться. Следовательно, концепция подкрепления играет ключевую роль в теории Скиннера.

Скорость, с которой Оперантное поведение приобретается и сохраняется, зави­сит от режима применяемого подкрепления. Режим подкрепления — правило, устанавливающее вероятность, с которой подкрепление будет происходить. Са­мым простым правилом является предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию. Это называется режимом непрерывного под­крепления и обычно используется на начальном этапе любого оперантного науче­ния, когда организм учится производить правильную реакцию. В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономич­но для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. В большинстве случаев социальное поведение человека подкрепляется только иногда. Ребенок плачет неоднократно, прежде чем добьется внимания матери. Ученый много раз ошибается, прежде чем прихо­дит к правильному решению трудной проблемы. В обоих этих примерах непод-крепленные реакции встречаются до тех пор, пока одна из них не будет подкреп­лена.

Скиннер тщательно изучал, как режим прерывистого, или частичного, под­крепления влияет на Оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя основными параметрами: 1) подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыду­щего подкрепления (так называемый режим временного подкрепления); 2) под­крепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропор­ционального подкрепления). В соответствии с этими двумя параметрами выделя­ют четыре основных режима подкрепления. 1. Режим подкрепления с постоянным соотношением (ПС). В данном режиме организм подкрепляется по наличию заранее определенного или «постоянного» числа соответствующих реакций. Этот режим является всеобщим в повседневной жизни и ему принадлежит значительная роль в контроле над поведением. Во мно­гих сферах занятости сотрудникам платят отчасти или даже исключительно в со­ответствии с количеством единиц, которые они производят или продают. В про­мышленности эта система известна как плата за единицу продукции. Режим ПС обычно устанавливает чрезвычайно высокий оперантный уровень, так как чем чаще организм реагирует, тем большее подкрепление он получает.

2. Режим подкрепления с постоянным интервалом (ПИ). В режиме подкреп­ления с постоянным интервалом организм подкрепляется после того, как твердо установленный или «постоянный» временной интервал проходит с момента пре­дыдущего подкрепления. На уровне человека режим ПИ действителен при вы­плате зарплаты за работу, выполненную за час, неделю или месяц. Подобно этому, еженедельная выдача денег ребенку на карманные расходы образует ПИ форму подкрепления. Университеты обычно работают в соответствии с временным режи­мом ПИ. Экзамены устанавливаются на регулярной основе и отчеты об академи­ческой успеваемости издаются в установленные сроки. Любопытно, что режим ПИ дает низкую скорость реагирования сразу после того, как получено подкрепле­ние — феномен, названный паузой после подкрепления. Это показательно для сту­дентов, испытывающих трудности при обучении в середине семестра (предполага­ется, что они сдали экзамен хорошо), так как следующий экзамен будет еще неско­ро. Они буквально делают перерыв в обучении.

3. Режим подкрепления с вариативным соотношением (ВС). В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного числа реакций. Возможно, наиболее драматической иллюстрацией поведения человека, находящегося под контролем режима ВС, является захватывающая азартная игра. Рассмотрим действия человека, играющего в игральный автомат, где нужно опус­кать монетку или специальной рукояткой вытягивать приз. Эти аппараты запро­граммированы таким образом, что подкрепление (деньги) распределяется в соот­ветствии с числом попыток, за которые человек платит, чтобы управлять рукоят­кой. Однако выигрыш непредсказуем, непостоянен и редко позволяет получать свыше того, что вложил игрок. Это объясняет тот факт, почему владельцы казино получают значительно больше подкреплений, чем их постоянные клиенты. Далее, угасание поведения, приобретенного в соответствии с режимом ВС, происходит очень медленно, так как организм точно не знает, когда будет следующее подкреп­ление. Таким образом, игрок принуждается опускать монеты в прорезь автомата, несмотря на ничтожный выигрыш (или даже проигрыш), в полной уверенности, что в следующий раз он «сорвет куш». Такая настойчивость типична для поведе­ния, вызванного режимом ВС.

4. Режим подкрепления с вариативным интервалом (ВИ). В этом режиме организм получает подкрепление после того, как проходит неопределенный вре­менной интервал. Подобно режиму ПИ, подкрепление при этом условии зависит от времени. Однако время между подкреплениями по режиму ВИ варьирует вокруг какой-то средней величины, а не является точно установленным. Как пра­вило, скорость реагирования при режиме ВИ является прямой функцией примененной длины интервала: короткие интервалы порождают высокую скорость, а длинные интервалы порождают низкую скорость. Также при подкреплении в режиме ВИ организм стремится установить постоянную скорость реагирова­ния, и при отсутствии подкрепления реакции угасают медленно. В конечном ито­ге, организм не может точно предвидеть, когда будет следующее подкрепление.

В повседневной жизни режим ВИ нечасто встречается, хотя несколько его вариантов можно наблюдать. Родитель, например, может хвалить поведение ре­бенка довольно произвольно, рассчитывая, что ребенок будет продолжать вести себя соответствующим образом и в неподкрепленные интервалы времени. Подоб­но этому, профессора, которые дают «неожиданные» контрольные работы, часто­та которых варьирует от одной в три дня до одной в три недели, в среднем одна в две недели, используют режим ВИ. При этих условиях от студентов можно ожидать сохранения относительно высокого уровня прилежания, так как они ни­когда не знают, в какой момент будет следующая контрольная работа.

Как правило, режим ВИ порождает более высокую скорость реагирования и большую сопротивляемость угасанию, чем режим ПИ.