Концепции тестирования и измерения

Существует множество важных концепций тестирования, и мы будем их приводить в ходе обсуждения оценки персонологами тех пли иных характеристик людей. До того, как тот или иной способ тестирования получит право считаться научно при­емлемым методом измерения индивидуальных различий, он должен пройти про­верку по четырем специальным критериям. Эти критерии — стандартизация, нормы, надежность и валидность.

Стандартизация.Ключевым аспектом измерения личностных характеристик является стандартизация. Стандартизация подразумевает единообразие проце­дур проведения теста и подсчета результатов. Например, в случае применения шкал самооценки экспериментатор должен приложить максимальные усилия и убедиться, что все испытуемые читают и понимают отпечатанные инструкции, все отвечают на одни и те же вопросы, а также укладываются в заданные временные интервалы. Стандартизация также предполагает наличие следующей информации (обычно содержащейся в прилагаемом руководстве): при каких условиях тест можно или нельзя проводить, кто должен или не должен подвергаться тестирова­нию (контрольная группа), процедуры обсчета теста, а также интерпретация по­лученных результатов.

Нормы.Стандартизация личностного теста включает также информацию о том, является ли данная конкретная «сырая (первичная) оценка» низкой, высокой или средней относительно других «сырых оценок» теста. Такая информация, называе­мая тестовыми нормами, служит стандартом, с которым сравниваются оценки ис­пытуемых. Обычно сырые тестовые оценки переводятся в процентильные показате­ли, которые обозначают процентную долю испытуемых из выборки стандартизации, первичная оценка которых ниже или равна первичной оценке данного испытуемого. Например, вы можете использовать шкалу депрессии из тридцати вопросов и полу­чить первичный тестовый результат 18 (то есть ваши ответы в 18 случаях совпали с. признаками депрессии, перечисленными на листке с правильными ответами).

Сам по себе показатель 18 ничего не значит до тех пор, пока вы не обратитесь к тестовым нормам и не убедитесь, что ваш результат соответствует 75 процентилям. Эта информация говорит о том, что вы в большей степени подавлены, чем 7:5 % из выборки рапсе обследованных людей, образующих нормативную группу. Таким образом, тестовые нормы позволяют сравнивать оценки отдельных индивидуумов с оценками группы стандартизации, что в результате дает количественную оценку по­ложения испытуемого относительно нормативной группы.

Надежность. Другое требование ко всем методам оценки личности заключает­ся в том, что они должны быть надежными. Это означает, что повторное проведе­ние того же самого теста или другой формы этого теста должно давать приемлемо сходные результаты или оценки. Таким образом, надежность имеет отношение к постоянству или стабильности метода оценки, которая обнаруживается при по­вторном обследовании данной группы людей. Количественно постоянство метода оценки определяется коэффициентом ретестовой надежности [Anastasi, 1988]. Коэффициент ретестовой надежности равен обычной корреляции между результа­тами, полученными на одних и тех же испытуемых в каждом из двух случаев про­ведения теста. Ретестовая надежность дает нам оценку постоянства теста во време­ни. Хотя не существует каких-либо фиксированных величин приемлемого уровня надежности, коэффициенты надежности для большинства стандартизованных пси­хологических тестов выше —0,70. Чем ближе величина коэффициента надежности к + 1, тем более надежным является тест (то есть оценки испытуемых при повтор­ном тестировании вплотную приближаются к оценкам при первом тестировании). Второй вид надежности определяют путем коррелирования параллельных форм теста. Для этого чаще всего тест делят на две сопоставимые части (например, на четные и нечетные пункты), потом по каждой половине рассчитывают суммарные баллы и между двумя рядами баллов по испытуемым рассчитывают допустимые коэффициенты корреляции. Полученный таким образом коэффициент называют коэффициентом внутренней согласованности. Внутренняя согласованность от­ражает внутреннее постоянство теста. Если обе части теста измеряют одно и то же свойство личности, то испытуемые, получившие высокие оценки по нечетным пун­ктам, должны также получить высокие оценки и по четным; а те. кто получил низ­кие оценки по нечетным пунктам, должны получить низкие оценки и по четным пунктам (что снова выразится в высокой положительной корреляции).

Третий тип надежности основывается на корреляции между двумя сопостави­мыми вариантами одного и того же теста (состоящими из аналогичных вопросов), проведенного на одной и той же группе испытуемых. Если по этим разным фор­мам теста получены примерно одинаковые оценки, тест обладает надежностью параллельных форм. В таком случае положительная корреляция между двумя взаимозаменяемыми формами будет означать, что пункты обоих вариантов теста измеряют одно и то же.

Наконец, надежность также касается того, насколько будут согласны между со­бой двое или более экспертов при подсчете результатов одного и того же теста. Этот тип надежности называется надежностью субъективных оценок. Надеж­ность субъективных оценок должна обязательно учитываться, если тест предпо­лагает субъективные интерпретации, подобные тем, что дают персонологи при оцен­ке результатов проективных тестов. Этот тип надежности имеет особенно низкие значения в отношении любых качественных методов, таких как интервью, анализ

сновидений и других форм свободных ответов, не поддающихся количественной оценке. Однако согласованность возрастает, когда эксперты пользуются руковод­ствами, содержащими четкие правила оценки и инструкции для анализа подобных данных [Yin, 1984].

Валидность.Хотя надежность имеет очень большое значение, она, тем не менее, не является единственным решающим критерием опенки пригодности теста. Возможно, даже более важным является вопрос о том, измеряет ли тест именно то, что он предназначен измерять, а также предсказывает ли он именно то, что предполагалось предсказывать с его помощью. Эта проблема имеет отно­шение к кардинальному критерию достоинства оценочной техники — валидности. Психологи часто различают три типа валидности: 1) содержательная валидность, 2) критериальная валидность и 3) конструктная валидность.

Содержательная валидность. Чтобы считаться валидным, метод оценки должен включать такие пункты, содержание которых соответствует репрезента­тивной выборке измеряемой области поведения. Предположим, перед нами тест, измеряющий застенчивость. Для того чтобы быть валидным по содержанию, он должен состоять из вопросов, которые действительно раскрывают личностные аспекты застенчивости (например, «Является ли застенчивость основным источ­ником вашего личностного дискомфорта?»), социальные аспекты застенчивости (например, «Смущаетесь ли вы, когда выступаете перед большой аудиторией?») и когнитивные аспекты (например, «Убеждены ли вы в том, что окружающие всегда осуждают вас?»). Валидный по содержанию тест застенчивости должен оцени­вать каждый из компонентов, входящих в понятие «застенчивость». Содержа­тельная валидность почти всегда определяется путем соглашения экспертов о том, что каждый пункт теста фактически отражает аспекты переменной, или личност­ного качества, подлежащие измерению.

Критериальная валидность. Оценка личности обычно предпринимается с целью прогнозирования определенных аспектов поведения индивидуума. Пред­сказание поведения может касаться успешности обучения в аспирантуре, адекват­ности терапевтической программы, профессиональной успешности и многого дру­гого, за очень небольшими исключениями. То, с какой точностью результаты теста предсказывают интересующий нас аспект поведения индивида в настоящем или будущем, определяется корреляцией оценок субъектов по данному тесту и показа­телей по некоему критерию, не зависящему оттого, что должен предсказать тест. Например, предположим, что критерий — успеваемость в школе права — измеря­ется по среднему баллу успеваемости, тогда SAT будет считаться валидным, если он будет точно предсказывать средний балл успеваемости.

Различают два подтипа критериальной валидности. Первый получил назва­ние прогностическая валидность. Прогностическая валидность определяется способностью теста предсказывать поведение в будущем, соответственно крите­рию. Тест измерения интеллекта прогностически валиден, если он точно предска­зывает оценки в школе. Второй подтип имеет название текущая валидность. Текущая валидность определяется величиной значимой корреляции результатов данного теста с другими имеющимися критериальными оценками. Например, если оценки пациента по тесту, измеряющему параноидные тенденции, положи­тельно коррелируют с оценками выраженности параноидных тенденций, данными клиническими психологами, то мы можем говорить о наличии текущей валид­ности. Конечно, клиницисты в этом случае не должны знать заранее о результатах тестирования. Иначе имеющаяся у них информация может повлиять на оценки, которые они дают — это явление называется контаминацией критерия.

Конструктная валидность. Третий тип валидности, один из наиболее важ­ных для оценки личности как целого, называется конструктная валидность. Она отражает степень репрезентации исследуемого психологического конструкта в результатах теста [Cronbaeh, Meehl, 1955]. Абстрактная природа многих психо­логических конструктов — таких как самоактуализация, эго-идентичность, соци­альный интерес и вытеснение - усложняет тестирование и придает результатам неопределенность. Попросту говоря, для этих и других абстрактных концепций функционирования личности (или того, что мы иначе называем гипотетическими конструктами) не существует твердо установленных критериальных величин. Хотя иногда можно наблюдать примеры вытеснения, само вытеснение недоступно прямому наблюдению, оно не имеет физических проявлений. Далее, гипотетиче­ский конструкт, существование которого невозможно доказать на основании како­го-либо поведенческого критерия, для психологии личности бесполезен, посколь­ку она использует для получения знаний эмпирический подход. Именно здесь и встает вопрос о конструктной валидности.

Конструктная валидизация — это процесс сбора доказательств того, что тест измеряет определенный гипотетический конструкт, выведенный из теории. Это сложный и трудоемкий процесс, требующий проведения многих исследований, в ходе которых подвергаются проверке корреляции между тестовыми оценками и теми величинами, которые предположительно связаны с рассматриваемой концеп­цией. Один путь валидизации заключается в установлении корреляций между тес­товыми опенками исследуемого конструкта и показателями другого теста, который предположительно измеряет тот же самый конструкт. Эта процедура на практике известна как конвергентная валидизация [Campbell, Fiske, 1959]. Предположим, перед нами новый тест, который, как мы думаем, измеряет конструкт самооценки. Если этот наш новый тест на самом деле измеряет самооценку, он должен положи­тельно коррелировать с другой процедурой измерения самооценки, хорошо зареко­мендовавшей себя и валидной. Если несколько разных измерений самооценки со­гласуются друг с другом и с нашим новым тестом, мы имеем некоторые доказатель­ства конструктной валидности нашего нового теста самооценки.

Другой путь установления конструктной валидности — показать, что вновь разработанная измерительная процедура не коррелирует с показателями, для из­мерения которых данная процедура не предназначена, явно не связанными с кон­цептуальным определением, данным теоретиком. Этот аспект валидизации извес­тен на практике под рабочим названием дивергентная валидность [Campbell, Fiske, 1959] (. Например, если наш новый тест самооценки не коррелирует со зна­чениями других тестов, разработанных для измерения концептуально отличных от представленных в нем качеств, мы получаем доказательства дискриминантной валидности? поскольку наша процедура измерения самооценки отличается от тех, что измеряют не самооценку, а нечто другое, так и должно быть). Это важный этап установления конструктной валидности оценочной процедуры.

Перечисление трудностей, сопряженных с демонстрацией конструктной ва­лидности методов оценки, выходит далеко за пределы темы данной книги. Однако, поскольку мы сейчас рассматриваем различные типы подходов к оценке личности. мы должны помнить, что достоинство любого метода оценки определяется в конке концов его конструктной валидностью. Если данная методика содержит признаки слабой конструктной валидности, то в процессе ее использования мы можем полу­чить результаты, не имеющие ничего общего с проверяемой концепцией.