Реферат Курсовая Конспект
Вопросы - раздел Психология, ЭКСПЕРИМЕНТАЛЬНАЯ ПСИХОЛОГИЯ 1. Какие Источники Артефактов Позволяет Контролировать План Соломона? ...
|
1. Какие источники артефактов позволяет контролировать план Соломона?
2. Чем квазиэксперимент отличается от эксперимента?
3. В чем состоит преимущество планирования по методу "латинского квадрата", по сравнению с использованием полного факторного плана?
4. В каких случаях прибегают к схемам уравнивания?
5. Каковы особенности многомерного эксперимента?
ГЛАВА 6 ПСИХОЛОГИЧЕСКОЕ ИЗМЕРЕНИЕ
Содержание. Основания теории измерений, классическая теория психологических измерений. Типы шкал и виды допустимых преобразований. Виды шкальных преобразований. Психологическое тестирование, обобщенная модель теста. Основные виды психологических измерений, их классификация. Классическая статистическая теория теста. Измерительные качества теста и их оценка. Стохастическая теория тестов (теория выбора ответа) и ее модификации: модели Лазарсфельда, Раша, Бирнбаума. Оценка трудности заданий и градуировка теста.
Основные понятия. Измерение, шкалы, числовая система с отношениями, эмпирическая система с отношениями, отображение, порядок, номинация, метрика, свойство, шкалограмма, тест, валид-ность, надежность, гомогенность, прогностичность, тестовые нормы, латентно-структурный анализ, латентная переменная, логит, трудность задания, дискриминантность задания.
6.1. Элементы теории психологических измерений
Измерение может быть самостоятельным исследовательским методом, но может выступать как компонент целостной процедуры эксперимента.
Как самостоятельный метод, он служит для выявления индивидуальных различий поведения субъекта и отражения им окружающего мира, а также для исследования адекватности отражения (традиционная задача психофизики) и структуры индивидуального опыта.
Измерение включается в контекст эксперимента как метод регистрации состояния объекта исследования и соответственно изменения этого состояния в ответ на экспериментальное воздействие. /^
Исследования, проводимые по плану временных проб, зачастую сводятся лишь к измерениям особенностей поведения испытуемых
через различные промежутки времени. Время выступает в этом случае как единственная переменная, воздействующая на объект.
На основе теории измерения строятся психологические тесты. Тест — сокращенная по времени и упрощенная процедура психологического измерения, применяемая для решения практических (иногда — исследовательских) задач.
В чем же заключается суть психологического измерения?
В психологии различают три основные процедуры психологического измерения. Основанием для различения являетсяобъект измерения. Во-первых, психолог может измерять особенности поведения людей для того, чтобы определить, чем один человек отличается от другого с точки зрения выраженности тех или иных свойств, наличия того или иного психического состояния или для отнесения его к определенному типу личности. Психолог, измеряя особенности поведения, определяет сходства или различия людей. Психологическое измерение становится измерениемиспытуемых.
Во-вторых, исследователь может использовать измерение какза-дачу испытуемого, в ходе выполнения которой онизмеряет (классифицирует, ранжирует, оценивает и т.п.) внешние объекты: других людей, стимулы или предметы внешнего мира, собственные состояния. Часто эта процедура оказывается измерением стимулов. Понятие "стимул" используется в широком смысле, а не вузкопсихофи-зическом или поведенческом. Под стимулом понимается любой шкалируемый объект.
В-третьих, существует процедура так называемого совместного измерения (или совместного шкалирования) стимулов и людей. При этом предполагается, что "стимулы" и "испытуемые" могут быть расположены на одной оси. Поведение испытуемого рассматривается как проявление взаимодействия личности и ситуации. Подобная процедура применяется при тестировании знаний и задач по Кумбсу, Гуттману или Рашу.
Внешне процедура психологического измерения ничем не отличается от процедуры психологического эксперимента. Более того, в психологической исследовательской практике "измерение" и "эксперимент" часто используются как синонимы. Однако при проведении психологического эксперимента нас интересуют причинные связи между переменными, а результатом психологического измерения является всего лишь отнесение испытуемого либо оцениваемого им объекта к тому или иному классу, точке шкалы или пространству признаков.
В строгом смысле слова психологическим измерением можно назвать лишь измерение поведения испытуемых, т.е. измерение в
первом значении этого понятия.
Психологическое измерение стимулов является задачей, которую выполняет не экспериментатор, а испытуемый в ходе обычного психологического (точнее — психофизического) эксперимента. В этом случае измерение используется только как методический прием наряду с другими методами психологического исследования; испытуемый же "играет роль" измерительного прибора. Поскольку результаты такого рода "измерений" интерпретируются на основе той же модели измерений, а обрабатываются с применением тех же математических процедур, что и результаты измерения поведения испытуемых, в психологии принято употреблять понятие "психологическое измерение" в двух различных смыслах.
Процедура психологического измерения состоит из ряда этапов, аналогичных этапам экспериментального исследования.
Основой психологических измерений является математическая теория измерений — раздел психологии, интенсивно развивающийся параллельно и в тесном взаимодействии с развитием процедур психологического измерения. Сегодня это — крупнейший раздел математической психологии.
С математической точки зрения измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (как частный случай — чисел). Символы (числа) приписываются вещам по определенным правилам.
Правила, на основании которых числа приписываются объектам, определяют шкалу измерения.
Измерительная шкала — основное понятие, введенное в психологию в 1950 г. С.С.Стивенсом; его трактовка шкалы и сегодня используется в научной литературе.
Итак, приписывание чисел объектам создает шкалу. Создание шкалы возможно, поскольку существует изоморфизм формальных систем и систем действий, производимых над реальными объектами.
Числовая система является множеством элементов с реализованными на нем отношениями и служит моделью для множества измеряем ых объектов.
"Различают несколько типов таких систем и соответственно несколько типов шкал. Операции, а именно — способы измерения объектов, задают тип шкалы. Шкала в свою очередь характеризуете^ видом преобразований, которые могут быть отнесены к результатам измерения. Если не соблюдать это правило, то структура шкалы нарушится, а данные измерения нельзя будет осмысленно интерпретировать.
Тип шкалы однозначно определяет совокупность статистических методов, которые могут быть применены для обработки данных измерения.
Шкала (лат. scala — лестница) в буквальном значении есть измерительный инструмент.
П.Суппес и Дж. Зиппес дали классическое определение шкалы:
"ПустьА—эмпирическая система с отношениями (ЭСО), R— полная числовая система с отношениями (ЧСО), f— функция, которая гомоморфно отображает А в подсистему R (если в области нет двух разных объектов с одинаковой мерой, что является отображением изоморфизма). Назовем шкалой упорядоченную тройку <А; R; f>".
Обычно в качестве числовой системы R выбирается системадей-ствительных чисел или ее подсистема. Множество А — это совокупность измеряемых объектов с системой отношений, определенной на этом множестве. Отображение f— правило приписывания каждому объекту определенного числа.
В настоящее время определение Суппеса и Зиппеса уточнено. Во-первых, в определение шкалы вводится G — группа допустимых преобразований. Во-вторых, множество А понимается не только как числовая система, но и каклюбая формальная знаковая система, которая может быть поставлена в отношение гомоморфизма с эмпирической системой. Таким образом, шкала — это четверка <А; R; f;
G>. Согласно современным представлениям, внутренней характеристикой шкалы выступает именно группа G, а f является лишь привязкой шкалы к конкретной ситуации измерения.
В настоящее время под измерением понимается конструирование любой функции, которая изоморфно отображает эмпирическую структуру в символическую структуру. Как уже отмечено выше, совсем не обязательно такой структурой должна быть числовая. Это может быть любая структура, с помощью которой можно измерить характеристики объектов, заменив их другими, более удобными в обращении (в том числе — числами).
Подробнее математические основания теории психологических измерений изложены в монографии А.Д.Логвиненко "Измерения в психологии: математические основы" (1993).
Существуют следующие основные типы шкал: наименований, порядка, интервалов, отношений. Ряд специалистов выделяют также абсолютную шкалу и шкалу разностей.
Рассмотрим особенности каждого типа шкал.
Шкала наименований Шкала наименований получается путем присвоения "имен" объ-
ектам. При этом нужно разделить множество объектов на непересекающиеся подмножества.
Иными словами, объекты сравниваются друг с другом и определяется их эквивалентность — неэквивалентность. В результате процедуры образуется совокупность классов эквивалентности. Объекты, принадлежащие одному классу, эквивалентны друг другу и отличны от объектов, относящихся к другим классам. Эквивалентным объектам присваиваются одинаковые имена.
Операция сравнения является первичной для построения любой шкалы. Для построения такой шкалы нужно, чтобы объект был равен или подобен сам себе (х=хдля всех значений х), т.е. на множестве объектов должно быть реализовано отношение рефлексивности. Для психологических объектов, например испытуемых или психических образов, это отношение реализуемо, если абстрагироваться от времени. Но поскольку операции попарного (в частности) сравнения множества всех объектов эмпирически реализуются неодновременно, то в ходе эмпирического измерения даже это простейшее условие не выполняется.
Следует запомнить: любая шкала есть идеализация, модель реальности, даже такая простейшая, как шкала наименований.
На объектах должно быть реализовано отношение симметрии (R (X=Y) -> R (Y=X)) и транзитивности R (X=Y, Y=Z) -> R (X=Z). Но на множестве результатов психологических экспериментов эти условия могут нарушаться.
Кроме того, многократное повторение эксперимента (накопление статистики) приводит к "перемешиванию" состава классов: в лучшем случае мы можем получить оценку, указывающую на вероятность принадлежности объекта к классу.
Таким образом, нет оснований говорить о шкале наименований (номинативной шкале или шкале строгой классификации) как простейшей шкале, начальном уровне измерения в психологии.
Существуют более "примитивные" (с эмпирической, но не с математической точки зрения) виды шкал: шкалы, основанные на отношениях толерантности; шкалы "размытой" классификации и т.п.
О шкале наименований можно говорить в том случае, когда эмпирические объекты просто "метятся" числом. Примером являются номера на майках футболистов: цифру " 1" по традиции получает вратарь, и это указывает на то, что по своей функции он отличен от всех остальных ифоков; но его функция на футбольном поле эквивалентна функции других вратарей, если не учитывать качество игры.
В принципе вместо чисел при использовании шкалы наименований необходимо применять другие символы, ибо числовая шкала
(натуральный ряд чисел) характеризуется разными системами операций.
Итак, если объекты в каком-то отношении эквивалентны, то мы имеем право отнести их к одному классу. Главное, как говорил Стивене, не приписывать один и тот же символ разным классам или разные символы одному и тому же классу.
Для этой шкалы допусти мол юбое взаимно однозначное преобразование.
Несмотря на тенденцию "завышать" мощность шкалы, психологи очень часто применяют шкалу наименований в исследованиях. "Объективные" измерительные процедуры при диагностике личности приводят ктипологизации: отнесению конкретной личности к тому или иному типу. Примером такой типологии являются классические темпераменты: холерик, сангвиник, меланхолик и флегматик.
В "субъективной" психологии измерения используются также классификации. Примеры: сортировка объектов по Гарднеру, метод константных стимулов в психофизике и т.д.
Исследователь, пользующийся шкалой наименований, может применять следующие инвариантные статистики: относительные частоты, моду, корреляции случайных событий, критерий^2.
Шкала порядка
Порядковая шкала образуется, если на множестве реализовано одно бинарное отношение — порядок (отношения "не больше" и "меньше"). Построение шкалы порядка — процедура более сложная, чем создание шкалы наименований.
На шкале порядка объект может находиться "между" двумя другими, причем если а "больше" b, b "больше" с, то а "больше" с (правило транзитивности отношений).
Классы эквивалентности, выделенные при помощи шкалы наименований, могут быть упорядочены по некоторому основанию. Различают шкалу строгого порядка (строгая упорядоченность) и шкалу слабого порядка (слабая упорядоченность). В первом случае на элементах множества реализуются отношения "не больше" и "меньше", а во втором — "не больше или равно" и "меньше или равно".
Шкала порядка сохраняет свои свойства при изотонических преобразованиях. Все функции, которые не имеют максимума (монотонные), отвечают этой группе преобразований.
Значения величин можно заменять квадратами, логарифмами, нормализовать и т.д. При таких преобразованиях значений величин, определенных по шкале порядка, место объектов на шкале не изменяется, т.е. не происходит инверсий.
Еще Стивене высказывал точку зрения, что результаты большинства психологических измерений в лучшем случае соответствуют лишь шкалам порядка.
Шкалы порядка широко используются в психологии познавательных процессов, экспериментальной психосемантике, социальной психологии: ранжирование, оценивание, в том числе педагогическое, дают порядковые шкалы. Классическим примером использования порядковых шкал является тестирование личностных черт, а также способностей. Большинство же специалистов в области тестирования интеллекта полагают, что процедура измерения этого свойства позволяет использовать интервальную шкалу и даже шкалу отношений.
Как бы то ни было, эта шкала позволяет ввести линейную упорядоченность объектов на некоторой оси признака. Тем самым вводится важнейшее понятие — измеряемое свойство, или линейное свойство, тогда как шкала наименований использует "вырожденный" вариант интерпретации понятия "свойство": "точечное" свойство (свойство есть — свойства нет).
Переходным вариантом шкалы можно считать дихотомическую классификацию, проводимую по принципу "есть свойство — нет свойства" (I; 0) при 1 > 0. Дихотомическое разбиение множества позволяет применять не только порядок, но и метрику. Для интерпретации данных, полученных посредством порядковой шкалы, можно использовать более широкий спектр статистических мер (в дополнение к тем, которые допусти мы для шкалы наименований).
В качестве характеристики центральной тенденции можно использовать медиану, а в качестве характеристики разброса — про-центили. Для установления связи двух измерений допустима порядковая корреляция (т-Кэнделла ир-Спирмена).
Числовые значения порядковой шкалы нельзя складывать, вычитать, делить и умножать.
Шкала интервалов
Шкала интервалов является первой метрической шкалой. Собственно, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого слова — о введении меры на множестве объектов. Шкала интервалов определяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, на сколько более или менее выражено определенное свойство у одного объекта, чем у другого.
Шкала интервалов очень часто используется исследователями. Классическим примером применения этой шкалы в физике являет-
ся измерение температуры по Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно, поэтому нет смысла говорить, во сколько раз больше или меньше утренняя температура воздуха, измеренная шкалой Цельсия, чем дневная.
Значения интервальной шкалы инвариантны относительно группы аффинных преобразований прямой. То есть мы имеем право изменять масштаб шкалы, умножая каждое значение на константу, и производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу).
Интервальная шкала позволяет применять практически всю параметрическую статистику для анализа данных, полученных с ее помощью. Помимо медианы и моды для характеристики центральной тенденции используется среднее арифметическое, а для оценки разброса—дисперсия. Можно вычислять коэффициенты асимметрии и эксцесса и другие параметры распределения. Для оценки величины статистической связи между переменными применяется коэффициент линейной корреляции Пирсона и т.д.
Большинство специалистов по теории психологических измерений полагают, что тесты измеряют психические свойства с помощью шкалы интервалов. Прежде всего это касается тестов интеллекта и достижений. Численные значения одного теста можно переводить в численные значения другого теста с помощью линейного преобразования: х' = ах + Ь.
Ряд авторов полагают, что относить тесты интеллекта к шкалам интервалов нет оснований. Во-первых, каждый тест имеет "нуль" — любой индивид может получить минимальный балл, если не решит ни одной задачи в отведенное время. Во-вторых, тест имеет максимум шкалы — балл, который испытуемый может получить, решив все задачи за минимальное время. В-третьих, разница между отдельными значениями шкалы неодинакова. По крайней мере, нет никаких теоретических и эмпирических оснований утверждать, что 100 и 120 баллов по шкале IQ отличаются на столько же, на сколько 80 и 100 баллов.
Скорее всего, шкала любого теста интеллекта является комбинированной шкалой, с естественным минимумом иили максимумом, но порядковой. Однако эти соображения не мешают тестологам рассматривать шкалу IQ как интервальную, преобразуя "сырые" значения в шкальные с помощью известной процедуры "нормализации" шкалы.
Шкала отношений
Шкала отношений — наиболее часто используемая в физике. По крайней мере, идеалом измерительной процедуры является получение таких данных о выраженности свойств объектов, когда можно сказать, во сколько раз один объект больше или меньше другого.
Это возможно лишь тогда, когда помимо определения равенства, рангового порядка, равенства интервалов известно равенство отношений. Шкала отношений отличается от шкалы интервалов тем, что на ней определено положение "естественного" нуля. Классический пример — шкала температур Кельвина.
В психологии шкалы отношений практически не применяются. Одним из исключений являются шкалы оценки компетентности, основанные на модели Раша (о ней пойдет речь позже). Действительно, вполне можно представить уровень "нулевой" осведомленности испытуемого в какой-то области знаний (например, знание автором этого учебника эскимосского языка) или же "нулевой" уровень владения каким-либо навыком. Авторы стохастической теории теста доказывают, что, введя единую шкалу "трудности задачи — способности испытуемого", можно измерить во сколько раз одна задача труднее другой или же один испытуемый компетентнее другого.
Значения шкалы отношений инвариантны относительно преобразования вида: х' = ах.
Значения шкалы можно умножать на константу. К ним применимы любые статистические меры.
Измерения массы, времени реакции и выполнения тестового задания — области применения шкалы отношений.
Отличием этой шкалы от абсолютной является отсутствие "естественной" масштабной единицы.
Другие шкалы
а. Дихотомическая классификация часто рассматривается как вариант шкалы наименований. Это верно, за исключением одного случая, когда мы измеряем свойство, имеющее всего лишь два уровня выраженности: "есть — нет", так называемое "точечное" свойство. Примеров таких свойств много: наличие или отсутствие у испытуемою какой-либо наследственной болезни (дальтонизм, болезньДау-на, гемофилия и др.), абсолютного слуха и др. В этом случае исследователь имеет право проводить "оцифровку" данных, присваивая каждому из типов цифру "1" или "О", и работать с ними, как со значениями шкалы интервалов.
В ряде пособий неверно утверждается, что шкала наименований различает предметы по проявлению свойства, но не различает их по
уровню проявления свойства. Шкала наименований вообще не основана на понятии "свойство", которое вводится, лишь начиная со шкалы порядка, а базируется на представлении о "типе" — множестве эквивалентных объектов. Для того, чтобы ввести понятие "свойство", требуется ввести отношения не между объектами, а между классами (типами) эквивалентных объектов (которые, конечно, могут содержать всего лишь один объект).
б. Шкала разностей, в отличие от шкалы отношений, не имеет естественного нуля, но имеет естественную масштабную единицу измерения. Ей соответствует аддитивная группа действительных чисел. Классическим примером этой шкалы является историческая хронология. Она сходна со шкалой интервалов. Разница лишь в том, что значения этой шкалы нельзя умножать (делить) на константу. Поэтому считается, что шкала разностей — единственная с точностью до сдвига. Некоторые исследователи полагают, что Иисус Христос родился за четыре года до общепринятого начала нашего христианского летосчисления. Сдвиг на четыре года назад ничего не изменит в хронологии. Можно использовать мусульманское ле-тосчисление или же от сотворения мира. Кому как нравится.
В психологии шкала разностей используется в методиках парных сравнений.
в. Абсолютная шкала является развитием шкалы отношений и отличается от нее тем, что обладает естественной единицей измерения. В этом ее сходство со шкалой разностей. Число решенных задач ("сырой" балл), если задачи эквивалентны, — одно из проявлений абсолютной шкалы.
В психологии абсолютные шкалы не используются. Данные, полученные с помощью абсолютной шкалы, не преобразуются, шкала тождественна сама себе. Любые статистические меры допустимы.
г. В литературе, посвященной проблемам психологических измерений, упоминаются и другие типы шкал: ординальная (порядковая) с естественным началом, лог-интервальная, упорядоченная метрическая и др. О свойствах порядковой шкалы с естественным началом упоминалось в данном разделе.
Все написанное выше относится к одномерным шкалам. Шкалы могут быть и многомерными: шкалируемый признак в этом случае имеет ненулевые проекции на два (или более) соответствующих параметра. Векторные свойства, в отличие от скалярных, являются многомерными.
Шкальныепреобразования Возможны два варианта шкальных преобразований:
1) повышение мощности шкалы;
2) понижение мощности шкалы.
Вторая из процедур является тривиальной. Поскольку все возможные процедуры преобразований, которые приемлемы для более мощной шкалы (например, шкалы интервалов), допустимы и для менее мощной (например, шкалы порядка), то у нас есть право рассматривать данные, полученные с помощью интервальной шкалы, как порядковые или, допустим, порядковую шкалу — в качестве номинальной.
Другое дело, если (по каким-либо соображениям) у нас возникает потребность перейти от шкалы наименований к шкале порядка и т.д. Для этого требуется вводить необъективные (с позиций математической теории измерений) допущения и эмпирические приемы, базирующиеся лишь на интуиции и правдоподобных рассуждениях. Но в большинстве случаев производится эмпирическая проверка: в какой мере данные, полученные с помощью "слабой" шкалы, удовлетворяют требованиям более "мощной" шкалы.
Рассмотрим переход от шкалы наименований к порядковой шкале. Естественно, для этого нужно упорядочить классы по некоторому основанию. Предположим, что принадлежность объекта к некоторому классу есть случайная функция. Тогда переход от номинативной шкалы к шкале порядка возможен в том случае, если существует упорядоченность классов. Во-первых, для каждого элемента существует модальный класс, вероятность принадлежности к которому значимо больше, чем к другим классам. Во-вторых, для каждого элемента существует только одна функция вероятностной принадлежности к множеству классов, такая, что эти классы можно упорядочить единственным образом. Проще говоря, каждый класс должен иметь только двух соседей: "слева" и "справа", а порядок соседства определяется эмпирической частотой попадания элементов в различные классы. В "свой" класс элемент попадает чаще, в соседние со "своим" — реже и в отдаленные — еще реже. При обработке данных осуществляется эмпирическая проверка каждой тройки классов на стохастическую транзитивность. Преобразование шкалы порядка в шкалу интервалов — более частый вариант. Он подробно описан в литературе, посвященной теории психологических измерений, в частности в теории тестов.
6.2. Виды психологических измерений
В психологии используется множество конкретных измерительных методик. Удобную классификацию психологических измерений дал С.С. Паповян. Будем придерживаться ее вдальнейшем изложении.
Методы психологических измерений могут быть классифицированы по различным основаниям:
1) процедуре сбора "сырых" данных;
2) предмету измерения;
3) виду используемой шкалы;
4) типу шкалируемого материала;
5) моделям шкалирования;
6) числу мерностей (одномерные и многомерные);
7) мощности метода сбора данных (мощные или слабые);
8)типу ответа индивида;
9) какими они являются: детерминистскими или вероятностными.
Для психолога-экспериментатора главными основаниями являются процедура сбора данных и предмет измерения.
Чаще всего применяются следующие процедуры субъективного шкалирования:
Метод ранжирования. Все объекты представляются испытуемому одновременно, он должен их упорядочить по величине измеряемого признака.
Метод парных сравнений. Объекты предъявляются испытуемому попарно (число предъявлении равно числу сочетаний (п)). Испытуемый оценивает сходства—различия между членами пар.
Метод абсолютной оценки. Стимулы предъявляются по одному. Испытуемый дает оценку стимула в единицах предложенной шкалы.
Метод выбора. Индивиду предлагается несколько объектов (стимулов, высказываний и т.д.), из которых он должен выбрать те, которые соответствуют заданному критерию.
По предмету измерения все методики делятся на а) методики шкалирования объектов; б) методики шкалирования индивидов и в) методики совместного шкалирования объектов и индивидов.
Методики шкалирования объектов (стимулов, высказываний и др.) встраиваются в контекст экспериментальной или измерительной процедуры. По своей сути они не являются задачей исследователя, а представляют собой экспериментальную задачу испытуемого. Исследователь использует эту задачу для выявления поведения
испытуемого (в данном случае — реакций, действий, вербальных оценок и др.), чтобы знать особенности его психики. Поэтому нет оснований причислять эти техники к методам психологического измерения поведения, если под измерением понимать только задачу экспериментатора.
При субъективном шкалировании испытуемый выполняет функции измерительного прибора, а экспериментатор мало интересуется особенностями "измеряемых" испытуемым объектов и исследует сам "измерительный прибор".
Парадигма субъективного шкалирования перешла в другие области психологии из психофизики, где классификация задач испытуемого в эксперименте очень хорошо разработана. Этого нельзя сказать о других областях психологии.
Но по укоренившейся традиции методики и модели субъективного шкалирования рассматриваются в одном разделе с техниками и моделями измерения поведения. Традиция эта связана с тем, что и при "шкалировании объектов", и при "шкалировании индивидов" в ходе обработки и интерпретации данных используется сходный математический аппарат.
Процедуре одномерного и многомерного субъективного шкалирования посвящена обширная научная и учебная литература (см. "Списоклитературы").
Остановимся на моделях совместного шкалирования объектов и испытуемых. Модели делятся на два вида: детерминистические и вероятностные. Суть этих моделей в том, что и объекты, и индивиды, которые высказывают суждения об объектах, "отображаются" на одну шкалу на основании обработки данных поведенческого измерения либо субъективного шкалирования.
Основными детерминистическими моделями являются метод развертывания К.Кумбса и шкалограммный анализ Л. Гуттмана. К вероятностным моделям относится латентно-структурный анализ IRT (item response theory) (см. разд. 6.5). Здесь же мы кратко остановимся на детерминистических моделях.
Метод развертывания Кумбса исходит из предположения, что объекты и индивиды могут быть размещены на шкале одномерного признака. Индивид может предпочитать один объект другому. Существует "идеальная точка" индивида — субъективный эталон. Индивид предпочитает тот стимул, который "ближе" к субъективному эталону.
Процедура измерения состоит в следующем. Испытуемому предъявляются пары стимулов, которые он сравнивает. Формируется мат-рица частоты предпочтений стимулов размером m х п (т — стиму-
лы, n — индивиды). В клеточках матрицы — относительные частоты предпочтений.
Шкалограммный анализ Гуттмана используется для построения опросников. Наиболее часто применяется при дихотомической оценке ответа испытуемого ("да" — "нет", "решил" — "не решил").
Предполагается следующее: принятие индивидом пункта (решение задачи, ответ "да" и т.д.) означает то, что его шкальное значение не меньше величины пункта. Если индивид решает данную задачу, то он решает любую другую (болеелегкую) задачу. Принятие индивидом пункта опросника или правильное решение задачи обозначается как " 1", неприятие пункта или неверное решение — "О".
В ходе обработки строки и столбцы исходной матрицы данных переставляются так, чтобы она соответствовала "совершенной" шка-лограмме: матрица выше диагонали, т.е. верхняя правая часть матрицы должна состоять из единиц, а нижняя левая — включать только нули. Порядок индивидов по строкам должен соответствовать порядку заданий по столбцам по величине выраженности свойства.
Задачи
4 5 | ||||
1 1 | ||||
1 1 | ||||
Индивиды з | 1 1 | |||
1 1 | ||||
0 1 |
Практически никогда идеальная шкалограмма не получается. Оценка одномерности признака предложена Гуттманом и называется коэффициентом воспроизводимости-.
R = I - e/nk,
где
е — число "ошибок" в откликах испытуемых, n — количество испытуемых, k — число заданий.
Существует также модификация модели Гуттмана, описывающая процедуру с несколькими вариантами ответов.
6.3. Тестирование и теория измерений
Тестирование (в частности, психологическое) является разновидностью процедуры измерения свойств объекта. Свойство — фило-
софская категория, выражающая такую сторону предмета, которая обусловливает его различия и общность с другими предметами и обнаруживается в его отношении к ним.
В логике под свойством понимается одноместный предикат вида Р(х): например, х-город — в отличие от отношения, которое также является одноместным предикатом. Свойство может быть многоместным предикатом, а отношение — одноместным, например:
"Петр любит самого себя". Свойство ограничивает область объектов, которым оно приписывается. В результате операции приписывания свойства объектов становится меньше, чем было до этого. Отношение же всегда образует новые объекты, например, Р (х, у, z), где х — мужчины,у — женщины, z — дети; если Р — генетическое отношение, то связанные этим отношением х, у и z дают новый объект — человечество.
Отсюда ясно, что, вводя понятие "свойство", мы выделяем класс психических сущностей, которые этим свойством обладают.
Свойства классифицируются по наличию интенсивности и ее изменениям. При этом различают три основных типа свойств:
а) точечные;
б) линейные;
в) многомерные.
Рассмотрим первый тип: точечные свойства. Человек может быть:
либо мертвым, либо живым; или мужчиной, или женщиной; или холериком, или сангвиником. Ни одна женщина не может быть чуть-чуть беременной. Существуют свойства, которые не имеют интенсивности и могут рассматриваться как точечные или "свойства нулевого измерения". Такие свойства обладают определенностью, качественной, но не количественной.
Второй тип свойств образуют линейные свойства (одномерные свойства). Последний термин, с нашей точки зрения, более удачен. Другие линейные свойства, присущие предмету, всегда имеют определенную интенсивность, причем могут изменяться лишь в направлении уменьшения или увеличения этой интенсивности. Таковы масса, упругость, вязкость, мощность, температура, физическая сила человека, его рост и т.д. Отметим, что большинство психичес-ких'свойств относится традиционно к этому типу. В частности, факторная теория интеллекта вводит понятия: "общий интеллект", "креативность", "дивергентное мышление", основываясь на том, что эти свойства являются одномерными (линейными).
Одномерные (линейные) свойства помимо качественной определенности обладают также количественной. Обычно вводится понятие интервала интенсивности, под которым понимается вся сово-,
7 Экспериментальная психологи193
купность интенсивностей данного свойства (диапазон интенсивности). Физические свойства такого рода называются скалярами.
Примером двухмерных свойств являются векторные величины. Двухмерные свойства можно представить как комбинацию одномерных (разложение вектора на плоскости — комбинация скалярных величин: величины угла и длины отрезка). Их обобщением являются многомерные свойства, которые можно определить как свойства, способные изменяться вп-отношениях: пространственные векторы в математике, тензоры в физике и т.д.
Между точечными, линейными и многомерными свойствами существует простое отношение сводимости: многомерное свойство может быть представлено как совокупность линейных свойств, али-нейное — как множество точечных свойств. Соответственно набор точечных свойств можно представить в качестве псевлолинейного свойства, а набор линейных — как псевдомногомерное свойство.
Можно теоретически предусмотреть 4-й случай, когда свойство качественно не определено. Это парадоксально только на первый взгляд. Возможен вариант: есть некое число, но неясно, представляет ли оно какое-либо свойство.
Таким образом, можно ввести следующую типологию свойств:
1) свойство не определено;
2)точечное свойство;
3) линейное свойство;
4) многомерное свойство.
Рассмотрим на качественном уровне общую структуру психологического тестирования — применение теста, призванного измерить определенное свойство.
Психологический тест включает в себя некоторую совокупность заданий, инструкции: испытуемому— правило работы с тестом, экспериментатору — правило организации работы испытуемого с тестом и правило работы с данными, а также теоретическое описание с указанием свойств, измеряемых тестом, шкал (топологии свойства) и метода введения шкальной оценки. Указываются также психометрические параметры теста.
С теоретической точки зрения для измерения свойства и интерпретации тестового балла следует описать типичную структуру и процедуры тестирования с позиций взаимодействия испытуемого и экспериментатора.
Испытуемые, обладающий свойством (Р,), должен выполнить (f|) задания теста (Z), дать ряд ответов (J). Экспериментатор должен этот ряд ответов (J) отобразить (F^) на "модели совокупности испытуемых", т.е. совокупности измеряемых свойств (Р), чтобы получить некоторый результат тестирования.
Тем самым существуют два типа процедур: собственно тестирование — взаимодействие испытуемого с тестом и интерпретация — "взаимодействие" данных испытуемого с "моделью совокупности испытуемых". Получаем два отображения — F:P->JuF:J^P. Идеальная обобщенная модельтеста, возникающая из процедуры тестирования, тем самым должна включать в себя:
1) описание вида отображений F, и F^ (они должны быть тождественными);
2) описание топологии свойства;
/ ' л л
3) характеристику индикаторов (ответов испытуемого) J и задач Z. Индикаторы являются поведенческими признаками и также, как свойства, могут быть: 1) не определены; 2) дискретны; 3) линейны;
4) многомерны. В обычном случае мы имеем дискретные индикаторы: отдельные поведенческие акты. Искусственным методом (суммируя индикаторы) мы образуем при интерпретации псевдолинейное свойство, получая "сырой" балл. Возникает проблема: в каких случаях можно это делать? Кроме того, существуют некоторые отношения на множествах испытуемых и индикаторов.
Если свойство не определено, то единственное отношение, которое можно установить на множестве испытуемых, — это отношение сходства.
Если свойство является точечным, то на множестве испытуемых можно ввести отношения эквивалентности (обладает свойством), неэквивалентности (не обладает свойством) и применить дихотомическую классификацию.
Наконец, если свойство линейное или многомерное, то испытуемых можно шкалировать по их положению налинейном континууме или в пространстве.
Поступаем так и в отношении индикаторов. Они могут быть эквивалентны или неэквивалентны, определены или не определены, шкалированы или не шкалированы.
Следовательно, в зависимости от вида отношений, которые мы вводим на множестве испытуемых (определяется природой свойства) или индикаторов (определяется описанием поведения и заданий), получаем разные модели теста. Кроме того, необходимо учесть вид отображений — f| и Fy которые представляют собой решающие правила соотнесения индикаторов со свойством. Они зависят от интерпретации процедуры тестирования. Ниже мы рассмотрим некоторые возможные модели.
Итак, возможны следующие модели теста, основанные на различной топологии измеряемого свойства.
1. Если свойство не определено, то необходимо рассматривать отношение различия на множестве людей. Это отношение порожда-
7* 195
ет новый класс объектов. Отсюда — тест выявляет меру сходства каждого человека с "человеком-эталоном".
2. Если свойство качественно определено, то оно рассматривается как точечное, что позволяет ограничить класс объектов — выделить людей, обладающих свойством, и людей, им не обладающих.
Тест позволяет в этом случае произвести дихотомическую классификацию.
3. Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека.
Тест позволяет измерить свойство количественно.
Существует множество конкретных тестовых методик, которые можно классифицировать по самым разным основаниям. В настоящее время психологический тест рассматривается как набор заданий, т.е. измерительный инструмент, обнаруживающий свойство. Общее название для заданий — пункты теста. Испытуемому предлагаются варианты ответа по отношению к каждой задаче. Ответ регистрируется и считается индикатором (признаком), обнаруживающим свойство. Варианты ответа могут быть разными, но чаще используются такие: "да" — "нет", "решил" — "перешил" и др. Каждый индикатор, сочетание пунктов — ответ, соотносится с ключом, который приписывает индикатор определенному свойству.
В основе подобной процедуры лежит модель, предложенная еще К.Левиным, — поведение есть функция личности и ситуации: В = =f(P, S). Решается иная задача: восстановить свойство личности по поведению в ситуации: ситуацией является пункт теста, а поведением — ответ испытуемого: Р = f(B, S). Таким образом, каждый индикатор свойства есть соединение поведения и ситуации: J = В & S. Тем самым личность есть производное от совокупности индикаторов: P=f(J).
Многомерный тест измеряет не одно, а несколько свойств личности, поэтому в общем случае имеется матрица вида J х Р, каждый индикатор соотносится со свойством.
Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. Такое отношение между индикаторами и тестом называется кумулятивно-аддитивной моделью. "Сырой" балл считается оценкой, характеризующей испытуемого.
Наиболее часто эту оценку считают оценкой "интенсивности" свойства.Тем самым явно или неявно принимается гипотеза о том, что относительная частота обнаружения свойства прямо пропорциональна "интенсивности" свойства: у = k (m/n) + С, где m/n — отношение числа обнаруженных признаков к общему числу испыта-
ний, у — "интенсивность" свойства, а k и С — некоторые константы. Очевидно, что неявным образом для измерения психологических особенностей индивидов применяется интервальная шкала.
Гипотезу о наличии подобной связи называют также гипотезой эквивалентности интенсивности и экстенсивности проявления свойства.
Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. В частности, при измерении мотивации в качестве базовой методики используется предложенный Мюрреем Тест тематической апперцепции (ТАТ). Он состоит из нескольких картинок с изображением людей в определенных ситуациях. Испытуемому предлагается составить рассказ по поводу каждой ситуации. Его высказывания анализируются. Выявляется по известным ключевым признакам связь высказываний с определенной мотивацией. Число высказываний, относящихся к тому или иному мотиву, характеризует величину его интенсивности. Кумулятивная гипотеза является в этом случае переводом на математический язык известной поговорки: "У кого что болит, тот о том и говорит". Считается, что количество "речевых продуктов" пропорционально силе мотива. Число признаков психологического свойства при этом не фиксировано, а может быть только соотнесено со средним значением по выборке. Опросники, разработанные для диагностики мотивации, сопоставляются с методикой ТАТ. При наличии высокого положительного коэффициенталинейной корреляции результатов кумулятивно-аддитивная модель принимается и для обработки данных личностного опросника.
Критическую оценку применения кумулятивно-аддитивной модели дал Р.Мейли. Он полагал, что и методика типа ТАТ, и опрос-ники (особенно — на самооценку) измеряют только вероятность наличия у испытуемого того или иного психологического свойства.
Критика, с которой выступает Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.
Процедура суммирования баллов сама по себе не плоха и не хороша: важно выявить природу итоговой оценки. Суммарный балл мо^ет характеризовать близость испытуемого к некоторому эталону испытуемого, вероятность его принадлежности к конкретному типу, а с помощью оценки определяется его место на шкале порядка или интервалов. Вид интерпретации тестового балла зависит от принятой разработчиком модели.
Традиционные обобщенные измерительные модели теста являются математическими, описывающими взаимодействие измеритель-
197 с
ного инструмента (теста) и объекта измерения (человека). Основная особенность этих моделей: они применялись для обоснования метода обработки данных тестирования в целях выявления латентного свойства.
В отношении психологического свойства можно сделать следующие теоретические предположения. Первое, наиболее простое, заключается в том, что нам неизвестно, есть свойство или нет. Утверждение кажется парадоксальным, однако дело в том, что психическое свойство — некоторое теоретическое допущение, и, если у нас нет достаточных оснований пользоваться этим понятием для объяснения поведения, лучше к нему не прибегать. Второй вариант допущения состоит в том, что свойство есть, но нам неизвестна его топология: неясно, является ли это свойство точечным, линейным, многомерным и т.д. Третье возможное утверждение: нам известна топология свойства. Свойство — одномерный континуум (непрерывный) и может быть измерено некоторой порядковой или метрической шкалой (шкала наименований не является шкалой в строгом смысле этого слова).
По отношению к взаимодействию испытуемого и теста возможны два допущения:
1) появление признака строго детерминированно и соответственно детерминирован тип ответа;
2) взаимодействие испытуемого и задания определяет вероятность получения того или иного ответа. Чаще применяется вероятностная модель.
Валидность признаков 198
Множество свойств имеет определенную структуру. Традиционно полагается, что тестируемые свойства должны бытьлинейно независимы, хотя в общем случае это условие необязательно.
Каждое свойство имеет определенную топологию: она может быть не определена, а свойство — точечно, линейно, многомерно.
I. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству 0-совокупности потенциальных испытуемых. В руководстве к тесту оговариваются характеристики множества испытуемых, для которых он предназначен. Тем самым определено некоторое множество О с отношениями между его элементами. Эти отношения связаны с топологией свойства. Если топология свойства не определена, то на множестве испытуемых можно вводить только отношения сходства, не соответствующего правилу транзитивности отношений. Если свойство является точечным, то, согласно его определению, оно позволяет отделить испытуемых, обладающих свойством, от испытуемых, им не обладающих. То есть на множестве испытуемых можно ввести отношения эквивалентности— неэквивалентности, свидетельствующие о степени обладания свойством. Наконец, если свойстволинейное, то испытуемых можно расположить на линейном континууме и ввести метрику.
2. Тест включает в себя множество заданий (Z) и вариантов ответов испытуемого (R), которые оговорены в предлагаемой ему инструкции (решил—не решил, да—нет, хорошо—средне—плохо и т.д.). Декартово произведение Zx R = J дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т.е. на них могут быть введены отношения эквивалентности), шкалированы (область разной "силы").
Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т.е. от топологии свойства. Это правило соответствует принципу объективности метода измерения:
свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта.
ал
3. Между множествами испытуемых (О), индикаторов (J) и свойств (Р) существуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тестом, "порождение" ответов на задания (признаков).
Интерпретация заключается в том, что на основе этих признаков экспериментатор при работе с "ключом" теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых).
Отношения измерения:
1. Отображение множества свойств на множество испытуемых вида F,: Р-> 6 дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свойства и т.д.
Каждое свойство характеризуется вектором вида <0^,0у ..., 0^>, где О — величина, показывающая на принадлежность свойства Р испытуемому 0^.
Обычно Р. характеризует распределение испытуемых, на которых апробировался тест, по отношению к пространству свойств.
2. Отображение F^: P—>J определяет процесс измерения. Каждое свойство характеризуется вектором <i.,, .у ..., i^>, где i^—величина, определяющая, в какой мере свойство Р детерминирует индикатор J^. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отражает "нагрузку" фактора на пункт теста.
3. Отображение Fy 6 —> Р позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором <1ц, i^, ..., i^>, где i^ — величина, указывающая, в какой мере испытуемый О, проявил признак !у Обычно признаки проявляются дихотомически: решил — не решил, да — нет; иногда привлекаются непрерывные величины: время решения задания, шкальная оценка и т.д.
Этот вектор характеризует ответы испытуемого на тест и подвергается процедуре интерпретации.
Отношения интерпретации:
1. Отображение множества J на множество О вида Fy J —> О дает представление о первичной структуре данных.
Каждый индикатор характеризуется вектором <0,, Оу ..., 0^>. При тестировании способностей этот вектор позволяет определить, какие испытуемые решили те или иные задачи.^
2. Отображение множества J на множество Р вида F^.: J —> Р указывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется вектором <р.|,Р.,, Рз,..., Р.д>, где Р, — величина, определяющая "вес" индикатора по отношению к свойству. В инструкции к тесту "вес" индикатора используется для подсчета накопленного балла. Он соответствует "нагрузке" фактора на пункт теста. По отображению F^ можно говорить о процедуре подсчета "сырого"^балла.
3. Отображение множества О на множество Р вида F^,: О —> Р характеризует интерпретацию — приписывание свойства или определенного уровня его интенсивности конкретному испытуемому (груп-
пе испытуемых). Каждый испытуемый характеризуется вектором <Р^, Ру, ..., Ру>, где Р — величина, определяющая, в какой мере свойство Р выражено у испытуемого О.. Эта величина является итогом процесса интерпретации — "психологическим портретом" испытуемого. С позиции обобщенной модели основное требование к тесту заключается втом, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F, и f|., F^ и F^,, F^ и F^.. В противном случае результаты интерпретации будут расходиться с результатами измерения (тестирования).
Описания множеств О, J, Р, Z, Ки видов отображения F,,, F^., F.,. определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструкцию экспериментатора.
Поскольку тест направлен на измерение психического свойства (в частности, способности), вид конкретной модели, описывающей тест, определяется топологией свойства.
Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство:
(.Свойство не определено.
Если топология свойства не определена, то это означает, что множество испытуемых нельзя (в соответствии с определением понятия "свойство") разбить на подмножества, обладающие или не обладающие свойством. Иначе: на множестве испытуемых нельзя ввести отношения эквивалентности—неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикаторов J нельзя характеризовать по отнесенности к свойству, так как Р — множество свойств, качественно не определенных. Следовательно, каждый испытуемый характеризуется лишь структурой своих ответов.
Единственно возможный способ интерпретации таких результатов — выделение из множества испытуемых "эталонного испытуемого" (например, решившего все задачи теста). После этого производится подсчет коэффициентов сходства всех испытуемых с "эталоном".
"Назовем этот вариант модели "моделью сходств". В психологических исследованиях она применяется редко. Очевидно, свою роль ифает стремление исследователей максимально повысить мощность интерпретации данных.
2. Свойство качественно определено. Топология свойства определена: оно является точечным. На множестве испытуемых можно ввести отношение эквивалентности—не-
эквивалентности (рефлексивное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F.: О —> Р является отображением множества на точку. Вектор значений Р характеризует индивидуальную меру выраженности свойства (в вероятностной интерпретации — вероятность его наличия) у испытуемого. Соответственно определены все отображения F„, F-., F^. (и обратные им). Если испытуемые обладают/ не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются индикаторы, проявленные испытуемым, подсчитывается индивидуальный показатель наличия или отсутствия у него свойства и принимается решение о его принадлежности к одному из дихотомических классов — А и А (обладающих и не обладающих свойством).
Назовем эту модель моделью дихотомической классификации. Она использована в опросникахЛичко,опросникахУНП и ряде других.
3. Свойство качественно и количественно опре-д е л е н о.
Свойство является линейным континуумом, следовательно, на нем определена метрика. Отображение F,: О -> Р указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума).
В этом случае для подсчета величины, характеризующей принадлежность испытуемого к определенной интенсивности свойства, применяют кумулятивно-аддитивную модель: число признаков, проявленных при выполнении заданий теста (с учетом "весов"), прямо пропорционально интенсивности свойства, которым обладает испытуемый. 3i а модель есть отображение Fy: Р-> 6. Тем самым применяется следующая интерпретация: фиксируются ответы испытуемого; вычисляется "сырой" балл; испытуемый обладает определенной интенсивностью свойства на основе отображения "сырого" балла на шкалу, характеризующую свойство. Эта модель — модель латентного континуума — является наиболее распространенной при тестировании психических свойств.
Индикаторы свойства также могут быть однородными и разнородными. В последнем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — "сила" признака: чем сильнее признак, тем с большей вероятностью он выявляет свойство или определен-
ный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.
6.4. Классическая эмпирико-статистическая теория теста
Классическая теория теста лежит в основе современной дифференциальной психометрики.
Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебников, излагающих эмпирико-статисти-ческую теорию теста, особенно выросло за последние 5—Улет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.
Конструирование тестов для измерения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.
В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения ("качества" прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет "истинный" показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и "систематическая" погрешность, но она сводится к прибавлению (вычитанию) константы к "истинной" величине параметра, что для интервальной шкалы значения не имеет.
Если тест проводить много раз, то среднее будет характеристикой "истинной" величины параметра^ Отсюда вводится понятие ре-тестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения:
где
о^ — стандартное отклонение,
г„ — коэффициент корреляции тест—ретест.
Предполагается, что существует множество заданий, которые могут репрезентировать измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщепление его на эквивалентные равные части.
Задания теста должны измерять "истинное" значение свойства. Все задания одинаково скоррелированы друг с другом. Корреляция задания с истинным показателем:
а2 — дисперсия для гсего теста.
Для определения надежности методом расщепления используется формула Спирмена— Брауна.
В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется натом, чю результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов. Так получался "сырой'' балл.
У=Хд +с,
где
х_ — результат выполнения i-ro задания,
а — весовой коэффициент огвета,
с — произвольная константа.
По поводу того, откуда возникают "ответы", в классической теории не говорится ни слова.
Несмотря на то что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: ва-лидность теста не может быть больше его надежности.
Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше па результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше — другие переменные (в том числе внешние), тем тест валидной и, добавим, надежнее, поскольку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.
Но это противоречит классической теории теста, которая основана не на деятельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул — ответ. Если же рассматривать тестирование как активное порождение испытуемым о гвегов на задания, то надежное! ь теста будет функцией, производной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.
- Тест невалиден (\ ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видам и.
1. Очевидная валидность. Тест считается валидным, если у испытуемых складывается впечатление, что он измеряет то, что должен
где
r, — корреляция i-ro задания с истинным показателем t, r — средняя корреляция i-ro задания с другими. Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.
Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту дли ной в 10 заданий, а при 30 заданиях она равна 0,007. Оценка стандартной надежности:
где
or— стандартная погрешность оценивания r ,
о — стандартное отклонение корреляций заданий в тесте,
к — число заданий в тесте.
Для оценок надежности используется ряд показателей.
Наиболее известна формула Кронбаха:
где
к — число заданий в тесте,
£o2 — сумма дисперсий заданий,
измерять.
2. Конкретная валидность, или конвергентная—дивергентная. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи.
4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими переменными;
в) эмпирическое подтверждение (не опровержение) этих гипотез.
С теоретической точки зрения единственным способом установления "внутренней" валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные
– Конец работы –
Эта тема принадлежит разделу:
На сайте allrefs.net читайте: "ЭКСПЕРИМЕНТАЛЬНАЯ ПСИХОЛОГИЯ"
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Вопросы
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Новости и инфо для студентов