Методы многомерного статистического анализа - раздел Математика, СТАТИСТИКА Встречаются Такие Ситуации, В Которых Случайная Изменчивость Была Представлен...
Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными переменными, признаками.
Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистической совокупности ни было, мы всегда можем построить диаграмму рассеяния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак — возраст человека, тогда диаграмма рассеяния должна быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.
В реальности на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают десятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.
Раздел статистики, посвященный исследованиям экспериментов с многомерными наблюдениями, называется многомерным статистическим анализом.
Измерение сразу нескольких признаков (свойств объекта) в одном эксперименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.
К многомерному статистическому анализу относят следующие разделы:
• факторный анализ;
• дискриминантный анализ;
• кластерный анализ;
• многомерное шкалирование;
• методы контроля качества.
Факторный анализ
При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от интересующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.
Для обнаружения факторов, влияющих на измеряемые переменные, используются методы факторного анализа.
Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведению человека или характеру ответов на те или иные вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.
В основе различных моделей факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.
Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.
Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначальных наблюдениях. Обычно это осуществляется с помощью метода главных компонент,хотя иногда используют и другие приемы (метод максимального правдоподобия).
Метод главных компонент сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компоненты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компонент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа — преобразование, вращение факторов для облегчения интерпретации.
Дискриминантный анализ
Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характеристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.
Дискриминантный анализ — это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.
Рассмотрим некоторые примеры.
• Дискриминантный анализ оказывается удобным при обработке результатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандидатов разделить на две группы: «подходит» и «не подходит».
• Использование дискриминантного анализа возможно банковской администрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.
• Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.
Методы дискриминантного анализа позволяют строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных признаков) было немного. В этом случае результаты анализа легче содержательно толковать.
Благодаря своей простоте особую роль играет линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков.
Кластерный анализ
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами.
Слово кластер английского происхождения — cluster переводится как кисть, пучок, группа, рой, скопление.
Кластерный анализ решает следующие задачи:
• проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;
• ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает возможность воспользоваться стандартной гипотетико-дедуктивной схемой научных исследований.
Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) — они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.
Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором достигнуто объединение).
Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы — дерева объединения кластеров.
Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:
х1 – среднегодовая стоимость основных производственных фондов, млрд руб.;
х2 – материальные затраты на 1 руб. произведенной продукции, коп.;
х3 – объем произведенной продукции, млрд руб.
В таблице приведены соответствующие значения для каждого из предприятий:
Исходные данные
предприятие
х1
х2
х3
№ 1
94,0
№ 2
75,2
№ 3
81,0
№ 4
76,9
№ 5
75,9
На рис. 5 приведена искомая дендрограмма, демонстрирующая объединение предприятий-кластеров на базе оценки евклидова расстояния между ними в пространстве переменных х1 , х2 и х3.
Изучение дендрограммы на рис. 5 приводит к следующим выводам. Среди пяти предприятий, если следовать слева направо, можно обнаружить следующие два кластера:
кластер № 1: предприятия: № 5, № 4, № 2;
кластер № 2: предприятия: № 3, № 1.
Рис. 5. Дендрограмма пяти предприятий
Обратными агломеративным методам кластеризации являются дивизивные методы. В этом подходе исходят из того, что вначале все объекты относят к одному кластеру, далее по определенным правилам появляются два и более кластера и т. д. вплоть до количества кластеров, равного количеству объектов.
Результаты кластеризации зависят от выбранного метода, и эта зависимость тем сильнее, чем менее явно изучаемая совокупность разделяется на группы объектов. Поэтому к результатам вычислительной кластеризации следует относиться с осторожностью.
Многомерное шкалирование
Во многих областях исследования (например, в психологии, биологии, социологии, лингвистике и т. д.) бывает затруднительно или невозможно проводить непосредственное измерение интересующих исследователя характеристик объектов из изучаемой совокупности, зато можно экспертным или каким-то другим путем оценить степень сходства или различия между парами объектов. В этом случае для интерпретации получаемых данных применяется метод многомерного шкалирования.
Этот метод позволяет представить совокупность интересующих исследователя объектов в виде некоторого набора точек многомерного пространства некоторой небольшой размерности, при этом каждому объекту соответствует одна точка. Координаты точек истолковываются как значения неких характеристик исходных объектов, которые и объясняют их свойства или взаимоотношения.
Например, нас интересуют такие объекты, как города, в которых проживают люди. Город в целом характеризуется огромным количеством признаков. К важнейшим из признаков относятся: географическое положение, климат и политическая принадлежность.
В случае удачного шкалирования исследователь получает возможность представить изучаемую совокупность объектов наглядно.
В методе многомерного шкалирования применяют нехарактерную для статистики в целом терминологию: стимул, шкала, эксперт и др.
Под стимуломпонимается некоторый признак, свойство, характерная особенность объекта, стимул непосредственно не измеряется.
Шкала — одна из осей теоретического пространства, она характеризует численно (метрически) тот или иной признак, свойство, характерную особенность объекта.
Эксперт — субъект, который считается признанным авторитетом в оценке признаков, свойств и характерных особенностей исследуемых объектов.
Методы контроля качества
Методы контроля качества предназначены для контроля качества выпускаемой продукции с целью выявления нарушений и «узких мест» в организации производства и в технологических процессах.
Повсеместное применение научно обоснованных методов контроля качества явилось немаловажным фактором успехов стран-лидеров мировой экономики, в особенности Японии.
В последнее время новые методы более эффективного управления с целью повышения качества получили название «шесть сигм». Они рассматриваются как формула успеха большинства транснациональных корпораций.
В отличие от большинства описанных выше методов многомерного анализа методы контроля качества не требуют трудоемких вычислений — они исключительно просты и наглядны. Простота, наглядность и эффективность статистических методов контроля качества сделали возможным и оправданным их повсеместное применение в передовых странах, вплоть до мастеров, а иногда и отдельных рабочих.
Вятский государственный гуманитарный университет... М А Кунилова О О Антоненко СТАТИСТИКА...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Методы многомерного статистического анализа
Что будем делать с полученным материалом:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Общая теория статистики
Учебное пособие
Киров
УДК 311(075.8)
ББК 60.60я73
К91
Печатается по решению редакционно-издательского совета Вятского государств
Статистика как наука. Предмет статистики
Термин «статистика» происходит от латинского слова «статус» (положение, состояние вещей, явлений). В настоящее время термин употребляется в различных значениях.
1) Статистика
Методология статистики. Ее основные категории
Под методом любой науки понимают способ подхода к изучению действительности. Общим методом для всех наук является диалектический – изучение причинно-следственных связей между явлениями. Пользуясь и
Тест к теме 1
1. Предметом статистики является:
а) множество единиц, обладающих массовостью, однородностью, определенной целостностью, взаимозависимостью состояний отдельных единиц;
Понятие о статистической сводке
После того как первичный статистический материал собран и проконтролирован, переходят ко второму этапу статистического исследования – сводке материалов наблюдения.
Сводка
Статистические ряды распределения
Статистический ряд распределения – это упорядоченное распределение единиц совокупности на группы по определенному варьирующему признаку.
Любой ряд распределения состои
Тест к теме 2
1. Статистическая сводка – это:
а) обобщающая характеристика единиц совокупности;
б) комплекс последовательных операций по обобщению конкретных единичных фактов;
Типологическая группировка служит
а) для перегруппировки первичных данных;
б) выделения классов процессов;
в) интерполяции динамических процессов;
г) изучения взаимосвязи между явлениями.
Задачи для решения
1. Используя метод группировок, провести анализ 30 предприятий одного из регионов России, выделив 3 группы предприятий с равными интервалами.
Таблица 2.10
Понятие статистической таблицы. Элементы статистической таблицы
Результаты сводки и группировки материалов статистического наблюдения, как правило, излагаются в виде статистических таблиц. Однако не всякая таблица является статистической (например, таблица умно
Макет статистической таблицы
Таблица 3.1
Название таблицы
(общий заголовок)
Содержание строк
Наименование граф (верхние заголовки)
А
Виды статистических таблиц
1. В зависимости от структуры подлежащего и группировки в нем единиц объекта различают:
а) простые статистические таблицы:
– монографические;
– перечневые.
б) Сл
Основные правила построения статистических таблиц
1. Таблица должна быть компактной. Заголовок таблицы и названия граф и строк должны быть четкими, краткими, лаконичными. Сокращения не допускаются.
2. Информация, располагаемая в столбцах
Тест к теме 3
1. Статистическая таблица представляет собой:
а) форму наиболее рационального изображения результатов статистического наблюдения;
б) сведения о чем-нибудь, распол
Понятие, формы выражения и виды статистических показателей
Статистическое исследование независимо от масштабов и целей всегда завершается расчетом и анализом различных по виду и форме выражения статистических показателей.
Статистический по
Абсолютные и относительные показатели
Исходной формой выражения статистических показателей являются абсолютные величины.
Статистические показатели в форме абсолютных величин характеризуют абсолютные раз
Задачи для решения
1. В 2004 г. объем грузооборота по Кировской области составил 34993 млн ткм. Планом 2005 г. было предусмотрено довести объем грузооборота до 40350 млн ткм.; фактический объем грузооборота в 2005 г.
Сущность и значение средних показателей, виды средней величины
Показатель в форме средней величины выражает типичные черты и дает обобщенную характеристику однотипных явлений по одному из варьирующих признаков. Он отражает уровень этого признака, отнесенный к
Средняя арифметическая
Есть частное от деления суммы всех значений признака на их число. Применяется в тех случаях, когда объем варьирующего признака для всей совокупности образуется как сумма значений признака у отдельн
Средняя гармоническая
Применяется, когда имеются данные об индивидуальных значениях признака (х) и общем объеме совокупности (W), но неизвестны частоты (f ), или когда известен числитель исхо
Средняя геометрическая
Используется для определения среднего темпа роста. Средний темп роста () определяется
Средняя квадратическая и средняя кубическая
В ряде случаев в экономической практике возникает потребность расчета среднего размера признака, выраженного в квадратных, кубических единицах измерения. Тогда применяются средняя квадратическая (н
Дисперсия альтернативного признака
Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативны
Дисперсионный анализ
Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением
Показатели формы распределения
Для получения приблизительного представления о форме распределения строят графики распределения (полигон и гистограмму). В практике статистических исследований приходится встречаться с самыми разли
Тест к теме 5
1. Различают следующие классы средних величин:
а) вариационные и степенные; в) структурные и степенные;
б) вариационные и структурные; г) простые и взвешенные.
Задачи для решения
1. Определить средний удельный вес (в %) бракованной продукции за I квартал по следующим данным:
Показатель
Январь
Февраль
Определение и виды рядов динамики
Ряд динамики – это ряд изменяющихся во времени значений статистического показателя, расположенных в хронологическом порядке.
Составными
Виды РД
1. По способу выражения уровней ряда различают ряды динамики:
– абсолютных величин;
– относительных величин;
– средних величин.
2. По времени, отражаемому в дина
Условия построения ряда динамики
Статистические данные для построения РД должны быть сопоставимы:
1) по содержанию и методике построения;
2) по кругу охватываемых объектов (сравнение совок
Аналитические показатели ряда динамики
1. Абсолютный прирост. Показывает, на сколько каждый из уровней ряда отличается от уровня, принятого за базу (разность между уровнями ряда).
Введем обозначения:
Экстраполяция и интерполяция в динамических рядах
Процесс нахождения неизвестного уровня ряда, находящегося в данном динамическом ряду, называется интерполяцией.
Процесс нахождения неизвестного уровня ряда,
Изучение сезонных колебаний
При сравнении квартальных и месячных данных многих социально-экономических явлений часто обнаруживаются периодические колебания, возникающие под влиянием смены времен года. Они являются результатом
Тест к теме 6
1. Числовые значения статистических показателей, представленные во временной последовательности, – это:
а) ряд динамики; б) уровень ряда; в) тренд.
2. Что
Цепной абсолютный прирост определяется
а) как сумма соседних уровней ряда;
б) разность данного уровня ряда и предыдущего к нему;
в) разность данного уровня ряда и следующего после него;
г) отношение данного ур
Задачи для решения
1. Динамика производства продукции в Кировской области в 1994–2005 гг.
Год
Вывозка древесины,
млн. м3
Абсолютный прирост,
Агрегатная форма индекса
Числитель и знаменатель агрегатного индекса представляют собой сумму произведений двух величин, одна из которых меняется (индексируемая величина), а другая остается неизменной в числителе и знамена
Средняя форма индекса
Средняя форма индексов применяется в тех случаях, когда невозможно определить индексы по агрегатной форме из-за отсутствия какой-либо информации.
Например, нужно рассчитать общий индекс це
Тест к теме 7
1. Относительная величина, характеризующая изменение социально-экономических показателей в пространстве или по сравнению с планом, – это:
а) ряд динамики; б) индекс; в) ди
Выбор формы индекса зависит
а) от цены за единицу товара;
б) целей исследования;
в) промежутка времени.
15. По степени охвата явлений выделяют:
а) общие индексы; б) частные
Индекс цен Ласпейреса – это
а) индекс с весами отчетного периода; б) индекс с весами базисного периода.
21. Индекс структурных сдвигов характеризует:
а) изменение среднего уровня признака за
Понятие о выборочном наблюдении
Статистическое наблюдение в зависимости от полноты охвата объекта может быть сплошным и несплошным. Сплошное наблюдение предусматривает обследование всех единиц изучаемой со
Условия отбора единиц в выборочную совокупность
1. Каждая единица генеральной совокупности должна иметь равные возможности попасть в выборку.
2. Количество единиц в выборке должно быть достаточно большим.
Основная задач
Основные способы формирования выборочной совокупности
1) Собственно-случайный. Отбор единиц из генеральной совокупности производится в случайном порядке. Случайность отбора заключается в соблюдении 1-го принципа. На практике пр
Определение необходимого объема выборки
Очень важное значение имеет определение оптимальной численности выборки, которая с определенной вероятностью обеспечит заданную точность результатов наблюдения. При увеличении численности выборки о
Тест к теме 8
1. Выборочное наблюдение – это:
а) вид несплошного наблюдения;
б) способ несплошного наблюдения;
в) форма несплошного наблюдения.
2. О в
Задачи для решения
1. По городской телефонной сети в порядке случайной бесповторной выборки произвели 100 наблюдений и установили среднюю продолжительность одного телефонного разговора – 5 мин. При среднем квадратиче
Понятие корреляционной связи
При характеристике количественной связи между явлениями и отдельными признаками различают два вида связи:
· функциональная;
· стохастическая (корреляционная).
Фун
Методы изучения связи социальных явлений
Применение корреляционного и регрессионного анализа требует, чтобы все признаки были количественно измеримы. Построение аналитических группировок предполагает, что количественным должен быть резуль
Тест к теме 9
1. Проверка значимости параметров уравнения регрессии осуществляется на основе:
а) критерия Стьюдента;
б) множественного коэффициента корреляции;
в) коэф
Задачи для решения
1. По следующим данным постройте линейное уравнение регрессии, вычислите линейный коэффициент корреляции:
Моделирование временных рядов
Следуя основной идее статистики, при анализе временного ряда его видимую изменчивость стараются разделить на закономернуюи случайнуюсоставляющие.
Адаптивные методы прогнозирования используются
а) при среднесрочном прогнозировании;
б) краткосрочном прогнозировании;
в) долгосрочном прогнозировании.
6. Случайная компонента возникает в результате влияния:
Новости и инфо для студентов