Материалы лекции.

Математическая статистика — это наука о случайных явлениях. Под явлением понимается любой подлежащий изучению объект независимо от его конкретного содержания. По степени количественной определенности явления рассматриваются как отдельные события, величины, функции и как системы событий, величин, функций. Если изучаемые объекты можно трактовать как следствия многочисленных разнообразных по действию при­чин, то интересующие исследователя свойства этих объектов определяются неоднозначно и могут быть предсказаны лишь в результате массовых наблюдений не полностью, а с большей или меньшей вероятностью. Такие объекты и характеризуются как случайные явления (случайные события, величины, функции или их системы).

Математическая статистика занимается математическим опи­санием случайных явлений, т. е. построением вероятностных мо­делей, а также проверкой их пригодности. Поэтому выделяют два раздела: описательную статистику и статистику «проверяющую» (статистическую проверку гипотез); соответственно разделяется методический аппарат. Понятия и методы описательной стати­стики создаются в теории вероятностей, а понятия и методы стати­стической проверки гипотез создаются в специальных теориях

Статистика появилась более ста лет назад. Бельгийский математик Адольф Кетле был первым, кто применил статистические методы и законы нормального распределения случайных величин к анализу биологических и социальных процессов. Ранее этот закон обычно использовался при определении ошибок измерений при наблюдениях и экспериментах в естественных науках. А. Кетле впервые показал, что величина роста, измеренного у 10 тысяч человек приблизительно подчиняется закону нормального распределения. Он использовал выражение l'homme moyen (средний человек) , чтобы отразить тот факт, что большинство результатов группируются вокруг их среднего значения или центра распределения, а количество остальных данных уменьшается по мере отклонения их от этой средней величины.

Результаты, полученные А. Кетле, произвели огромное впечатление на Френсиса Гальтона (1822-1911 г.), который во 2-й половине XIXека создал новую науку евгенику, имевшую дело с факторами, которые могли, по мнению Ф. Гальтона, улучшить наследуемые качества людей. В своей первой книге по психологии «Наследственный гений» (1869 г.) Ф. Гальтон, пытаясь проверить свою евгеническую теорию («у гениев рождаются гении»), обратился к статистике. И далее в продолжение всей своей научной карьеры Ф. Гальтон никогда не был удовлетворен исследованием проблемы, если не мог получить количественных данных и провести их статистическую обработку. Для этого он создавал свои оригинальные разработанные методы.

Ф. Гальтон первым использовал статистические методы в психологии, например, он показал, что разброс оценок на экзаменах подчиняется закону нормального распределения. Из-за простоты нормального распределения и удобства его применения к описанию разнообразных характеристик Ф. Гальтон предположил, что достаточно большое число человеческих характеристик может быть описано двумя основными величинами: средней арияметической оценкой (математическое ожидание) и диапазоном разброса вокруг средней оценки (стандартное отклонение).

Работы Ф. Гальтона в области статистики привели к открытию одной из самых важных величин — корреляции, первое упоминание о которой появилось в 1888 г. Современные методы обоснованности и надежности тестов, как и методы факторного анализа, напрямую связаны с гальтоновским открытием корреляции, которое стало результатом наблюдений за тем, как количественные характеристики наследуемых признаков регрессируют к своему среднему значению, например, сыновья очень высоких людей ниже отцов, а сыновья людей маленького роста выше отцов. Ф. Гальтон разработал графические методы для отражения основных свойств корреляции и нашел формулу для его расчета (эта формула в настоящее время не используется). Его студент Карл Пирсон вывел использующуюся и сейчас формулу коэффициента корреляции — коэффициента линейной корреляции Пирсона. Символически она обозначается как r — регрессия (первая буква слова regression). Что является фактом признания гальтоновского открытия: тенденции регрессирования наследственных признаков к среднему значению. Корреляция стала основным инструментом исследований в социальных, естественных и инженерных науках. Впоследствии на основании работ Ф. Гальтона были разработаны и другие методики статистических оценок.

В настоящее время, не смотря на столь давнюю историю использования статистики в психологии, распространенное отношение к статистике среди психологов — смесь благоговения с цинизмом, подозрением и презрением. Статистиков поместили в нелестную для них компанию лгунов и обвинили в «статистикуляции» — искусстве обмана с помощью статистики, сохраняю­щего видимость объективности и разумности. Однажды кто-то заметил, что, «если бы всех статистиков мира скрутили одной цепью, это принесло бы только пользу». Статистика насмеш­ливо сравнивают с человеком, который тонет, переходя вброд реку со средней глубиной 90 см, или сидит, держа голову в холодильнике, а ноги в печи, и говорит: «В среднем я чувст­вую себя прекрасно».

Лицам, начинающим изучение статистики, полезно отказаться от широко распространенного представления о статистике и статистиках. Они должны понимать, что абсурд может найти свое выражение как в словесной, так и в цифровой форме. Однако знание логики является надежной гарантией от некри­тичного принятия словесного абсурда, а знание статистики пред­ставляет собой лучшую защиту от абсурда цифрового. Первый шаг к замене привычных представлений о статистике на более реальные — это изучение структуры дисциплины «ста­тистические методы» и ее исторических предшественниц.

На первоначальное развитие статистических методов ока­зало влияние их происхождение. У статистики были «мать», которой нужно было предоставлять регулярные отчеты прави­тельственных подразделении (штат и статистика происходят одного латинского корня — status), и «отец» — честный карточный игрок, который полагался на математику, усили­вавшую его ловкость — умение брать решающие взятки в азарт­ных играх. От матери ведут свое происхождение счет, измерение, описание, табулирование, упорядочение и проведение пере­писей, то есть все то, что привело к современной описательной: статистике. От предприимчивого интеллектуала-отца возникла. в конечном счете. современная теория статистического вывода, непосредственно базирующаяся на теории вероятностей. Недав­нее дополнение, называемое планированием экспериментов, опи­рается в основном на сочетание теории вероятностей с несколь­ко элементарной, но удивительной логикой.

Описательная статистика включает в себя табулирование, представление и описание совокупностей данных. Эти данные могут быть либо количественными, как, например, измерения роста и веса, либо качественными, как, например, пол и тип личности. Огромные массивы данных, как правило, должны обобщаться или свертываться, прежде чем они будут интерпре­тироваться человеком. Обезьяна беспомощна в своей неуклюжей попытке развязать простой узел, так как сложность этой задачи: превосходит разрешающую способность бедного в творческом отношении интеллекта. Безуспешная попытка рыбака разобрать­ся в причинах люфта спиннинга аналогична попытке обезьяны. Для рыбака этот люфт — гордиев узел; он дает слишком слож­ную задачу для его ограниченного интеллекта. Точно так же, но на ином уровне человеческий разум не может извлечь полной информации из массы данных без помощи специальных методов (мечей, разрубающих гордиев узел): Как варьируют данные? И как велики эти вариации? Нельзя ли уменьшить неопределенность в этих вариациях? Таким образом, описательная ста­тистика служит инструментом, описывающим, обобщающим или сводящим к желаемому виду свойства массивов данных.

Теория статистического вывода — это формализованная си­стема методов решения задач другого рода, создающих значи­тельные трудности для невооруженного человеческого разума. Этот общий класс задач, как правило, характеризуется попыт­ками вывести свойства большого массива данных путем обсле­дования выборки. Например, школьная медсестра хочет опре­делить долю учеников пятых классов в большой школе, которые никогда не болели ветрянкой. Излишне было бы опрашивать каждого ребенка, если бы можно было надежно определить такую долю по выборке минимальным объемом, скажем в 100 детей. Но какова доля тех детей, которые никогда не болели ветрянкой, в этой выборке по отношению к доле во всей сово­купности пятиклассников? Ответ можно получить благодаря теории статистического вывода. Итак, задача статистического вывода состоит в том, чтобы предсказать свойства всей совокуп­ности, зная свойства только выборки из этой совокупности. Статистические выводы строятся на описательной статистике. Они делаются от частных свойств выборок к частным свойствам совокупности; описания свойств как выборок, так и генеральных совокупно­стей производятся с помощью методов описательной статистики.

Планирование и анализ экспериментов представляет собой третью важную ветвь статистических методов, разработанную для обнаружения и проверки причинных связей между перемен­ными. Исследователи в области общественных наук имеют дело с причинностью — очень сложным философским понятием. План эксперимента настолько важен при изучении причинных свя­зей, что в некоторых философских системах эксперимент пред­ставляет собой их операциональное определение. Люди делают заключения о причинах на протяжении всей своей жизни. Час­тота употребления слов «потому что» подтверждает это: «Школьная лотерея потерпела неудачу, потому что она не была достаточно разрекламирована» или «Он получил мало очков при выполнении интеллектуального теста, потому что очень беспокоился о своих результатах».

Предложение «Лекарство А снимает боль быстрее лекарства Б» не содержит слов «потому что», но подразумевает, что «Боль­шая часть пациентов одной группы по сравнению с пациентами другой группы гораздо скорее избавилась от боли, потому что первым было прописано лекарство А, а последним — лекарст­во В». Недостаточность объяснения посредством «потому что» — в его потенциальной неопределенности. Эта неопределенность служит любимой отговоркой маленьких детей, когда на доло­гических ступенях мышления им предъявляют свидетельства их дурного поведения. Если их спрашивают: «Почему ты сделал это?», они отвечают: «Потому что». Очевидно, эти слова имеют множество оттенков и сопутствующих значений.

Статистические методы помогают исследователям описывать данные, делать выводы в отношении больших массивов данных и изучать причинные зависимости. Они могут оказаться полезными при ответе на вопросы типа: Каков средний возраст учащегося колледжа к моменту получения степени бакалавра искусств? Какой процент этих новых выпускников имеет голубые глаза? Какой процент из них в этот момент женат? Сколько из них уже имеют 0, 1, 2, ... детей? Составляют ли те, кто добился значительных успехов, будучи студентами, большин­ство в аспирантуре по сравнению с теми, кто получал по­средственные оценки? Влияет ли международная обстановка на посещаемость студентов в высших школах? Будут ли студенты, принятые группой доброжелательно, больше приспосабливаться к суждениям этой группы, чем студенты, которых группа отвергает? Зависит ли такая различная реакция (если она будет установлена) от пола студента? Например, подвер­жены ли женщины влиянию группы в большей степени, чем мужчины?

Овладение статистическими методами требует некоторой математической подготовки. Статистика — это ветвь прикладной математики. Ее неправильно определяют в словаре как «науку сбора данных». Более строго статистику обычно называют математической статистикой. Для специалистов в об­ласти общественных наук и других нематематиков она опре­деляется как «прикладная статистика» и предполагает ис­пользование интуиции, элементарной арифметики и элементар­ной алгебры. Для более серьезного изучения математической статистики требуется известная подготовка, включающая, по крайней мере, вычислительные методы и теорию матриц; однако логическую сторону прикладной статистики и многие ее ме­тоды можно изучить и без такой математической подготовки, хотя и не столь глубоко. Возможно, в этом отчасти и кроется причина тенденции различных общественных наук к технизации, В крупных университетах отдельные курсы по «педагогической и психологической статистике», «социологической статистике», «экономической статистике» и т. п. обычно далеки от статистики как области знания. К счастью, однако, большинство основных принципов применимо почти ко всем дисциплинам — от сельско­хозяйственной науки до зоологии. Знание статистики становится необходимым для успешной деятельности в любой эмпирической области. Во многих высших школах признали ее важ­ность.

В основе отдельных статистических методик лежит единый главный принцип. Мы попытаемся продемонстрировать это един­ство и взаимосвязи как можно яснее, пользуясь только элемен­тарной математикой, которую читатель изучил в средней школе. По мере надобности будут введены некоторые специальные обо­значения; они будут сопровождаться подробным объяснением. Их нужно усвоить с самого начала, поскольку подобные обозна­чения облегчают изучение статистики.

Прежде чем излагать дальнейший материал, необходимо обратиться к теории измерений, так правильный выбор тех или иных методов математической статистики зависит от того, каким образом были получены фактические данные, каким образом были измерены те или иные явления.