Выбор стратегии анализа данных

7) Выбор стратегии анализа данных

Подготовка данных должна начинаться сразу же после того, как станут доступными первые анкеты, в то время как полевые работы еще продолжаются. Поэтому, если возникнут проблемы, ход полевых работ можно скорректировать в нужном направлении.

1 этап.Первый этап проверки анкет заключается в их проверке на полноту заполнения и качество интервьюирования. Часто этот процесс ведется параллельно с полевыми работами. Анкеты, поступившие с мест сбора данных, могут быть не приняты по следующим причинам:

1. Не заполнены отдельные части анкеты.

2. Представленные ответы свидетельствуют о том, что респондент не понял вопросов либо не точно следовал инструкциям по заполнению анкеты ( например, не был соблюден шаблон пропусков ответов).

3. Ответы варьируются очень незначительно или не варьируются вовсе (например, респондент пометил одни четверки в серии семибалльных рейтинговых шкал).

4. Возвращенная анкета является не полной - отсутствует одна или несколько страниц.

5. Анкета получена по истечении заранее определенного срока сдачи.

6. Ответы в анкете даны респондентом, не входящим в группу, выделенную для участия в исследовании.

2 этап - процесс редактированиязаключается в обработке собранных анкет для повышения точности и аккуратности представленных в них данных. Он заключается в просмотре анкет, в ходе которого выявляются нечитабельные, неполные, логически непоследовательные или неоднозначные ответы. На этапе редактирования исследователь проводит предварительную проверку анкет на предмет логической непоследовательности представленных в них ответов. Существует ряд явных несоответствий, выявить которые не составляет большого труда.

При получении анкет, содержащих ответы неудовлетворительного качества, их обычно отправляют на место сбора данных для уточнения, либо назначаются пропущенные значения, либо такие анкеты отрабатываются и не включаются а анализ.

Возврат анкет на место сбора данных.Анкеты, содержащие неудовлетворительные результаты опроса, возвращаются на места сбора данных, и интервьюеров обязуют провести повторное интервью. Такой вариант обычно применяется при проведении промышленных маркетинговых исследований, для которых характерны выборки небольших размеров и идентифицировать респондентов, предоставивших ответы низкого качества, не составляет большого труда.

Назначение пропущенных значений. Если возвращение анкеты на место сбора данных признано экономически нецелесообразным, редактор может самостоятельно присвоить неудовлетворительным откликам пропущенные значения. Рекомендуется применять этот метод в следую-щих случаях: если количество респондентов, ответы которых признаны неудовлетворительными, невелико; доля ответов неудовлетворительного качества в ответах каждого респондента незначительна; переменные по неудовлетворительным ответам не основные.

Отсеивание анкет респондентов, содержащих ответы неудовлетворительного качества.При этом методе респонденты, предоставившие ответы неудовлетворительного качества, просто отбраковываются и их анкеты не включаются в анализ. Данный способ эффективен в следующих случаях:

- если доля «неудовлетворительных» анкет невелика (меньше 10%);

- если размер выборки велик;

- если «неудовлетворительные» респонденты явно не отличаются от «удовлетворительных» (например, по демографическому признаку или основным характеристикам использования товара);

- если доля неудовлетв-ных откликов на каждого респондента велика;

- если пропущены ответы по основным переменным. Однако бывают ситуации, когда «неудовлетворительные» респонденты отличаются от «удовлетворительных» либо решение признать респондента «неудовлетворительным» предельно субъективно.

В этих случаях использование данного метода повлечет за собой искажение данных. Если исследователь принимает решение отбраковать неудовлетворительные ответы того или иного респондента, он должен отличаться, на основе какой именно процедуры он идентифицировал данного респондента.

3 этап -процедура кодированиязаключается в присвоении кода, обычно цифрового, каждому возможному варианту ответа по каждому вопросу.

Кодирование – этопроцедура присвоения кода конкретному ответу на конкретный вопрос. Информация, полученная в результате исследования и образующая код, распределяется по столбцам.

Таблица 1 - Демонстрационный компьютерный файл

Поля
Номера столбцов
Записи	1-3	5-6	7-8	…	26…35
Запись № 1
Запись №11
Запись № 21
Запись №31
Запись №2701

Номер столбца	Номер переменной	Название переменной	Номер вопроса	Инструкции кодирования
1-3 5,6 7-8 9-14 15-20 21-22 23-24 и т.д.		Идентификационные данные о респонденте Номер записи Код проекта Код интервью Код даты Код времени Проверочный код Пробел Кто ходит за покупками Степень знакомство с магазином 1	I	Номера от 001 до 890. При необходимости добавить перед числом ноль 1 (Одинаково для всех респондентов) 31 (Одинаково для всех респондентов) Как указано в анкете Как указано в анкете Как указано в анкете Как указано в анкете Не заполняйте эти столбцы Мужчины -1 Женщины – 2 Прочее – 3 Введите обведенный номер Пропущенные значения -9 По вопросам а-j вопроса II введите

Кодировочная книга.Она содержит инструкции по кодированию, а также необходимую информацию о переменных, используемых а конкретном наборе данных. Кодировочная книга применяется как руководство для кодировщика и помогает исследователю правильно определять и располагать переменные. Даже если анкета закодирована заранее, следует подготовить формальную кодировочную книгу. Кодировочная книга обычно включает следующую информацию: номер столбца, номер записи, номер переменной, название переменной, номер ответа, инструкции по кодированию.

4этап - Преобразование данных заключается в переносе закодированных данных из анкеты или кодировочных таблиц на диски или магнитные ленты либо введении их непосредственно в компьютер через клавиатуру. Если данные собраны с использованием автоматизированных компьютерных систем, их преобразование необязательно, поскольку они вводятся в компьютер в процессе их сбора. Данные можно вводить не только с клавиатуры, но и в процессе считывания меток или маркеров с бланков, оптического сканирования или компьютеризированного сенсорного анализа.

Для того чтобы воспользоваться методов считывания меток с бланков, ответы должны записываться специальным карандашом в конкретные поля анкеты, закодированные для данного ответа. Зафиксированные таким образом данные могут считываться машиной. Оптическое сканирование заключается в прямом машинном сканировании кодов с одновременным преобразованием данных. Известным примером оптического сканирования может служить преобразование штрих-кода при считывании его в кассах супермаркетов. Технический прогресс привел к созданию систем компьютеризированного сенсорного анализа, благодаря которым можно автоматизировать процесс сбора данных. Вопросы выводятся на специальной компьютеризированной панели, а ответы с помощью сенсорных устройств вводятся непосредственно в компьютер.

5 этап -Процедура очищения данных заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.

Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но проверка, которая проводится на стадии очищения данных, намного точнее и тщательнее, поскольку выполняется с использованием компьютерной техники.

5.1 Проверка состоятельности данныхпозволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы либо определить экстремальные значения. Данные со значениями, не указанными в кодировочной схеме, не принимаются. Проверка состоятельности данных– эточасть процесса очищения собранных данных, когда исследователь выявляет данные:

а) значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их необходимо исправить (например, респондентов попросили выразить степень их согласия по ряду вопросов относительно стиля жизни по шкале от 1до 5. Код 9 используется для обозначения пропущенных ответов, а значение 0, 6, 7 и 8 выходят за пределы назначенного диапазона. Правильные ответы можно определить, возвратившись к отредактированному и закодированному варианту анкеты);

б) логически непоследовательные ответы. Различают несколько типов логической непоследовательности ответов:

- респондент может узнать, что обычно при междугородних переговорах пользуется специальной карточкой, но при этом отметить, что ни разу не звонил;

- респондент указывает, что часто пользуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал.

Чтобы выявить такие ответы и провести соответствующую корректировку, всю необходимую информацию (код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение) нужно распечатать.

в) анализ экстремальных значений. Следует помнить, что экстремальные значения – не всегда результат ошибок, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).

5.2 Работа с пропущенными ответами. Пропущенными ответаминазывают значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны. Работа с пропущенными ответами связана с рядом проблем, особенно если доля таких ответов превышает 10%.

Существует следующие методы работы с пропущенными ответами:

а) замена пропущенного значения нейтральным.По этому методу вместо пропущенных ответов подставляются нейтральные значения, обычно среднее значение по данной переменной. При этом среднее значение переменной остается неизменным, а другие статистические данные, например корреляция, искажаются незначительно. Хотя этот метод и имеет ряд преимуществ, подстановка среднего значения вместо всех пропущенных ответов респондентов весьма неоднозначна и сомнительна, если учесть, что если бы они все же ответили, то могли бы выбрать значительно более высокий или более низкий рейтинговый показатель.

б) замена пропущенного значения условным (вмененным значением). Для определения условного значения или вычисления подходящих ответов на пропущенные вопросы можно использовать структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно связать с размером семей респондентов, предоставивших информацию по этим показателям. Затем пропущенные данные по использованию товара можно вычислить, воспользовавшись показателем размера семьи респондента. Однако следует помнить, сто этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры.

в) исключение объекта целиком. При исключение объекта целиком все наблюдения или респонденты с пропущенными ответами исключаются из анализа. Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопросы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что исключение большого количества данных нежелательно, поскольку процесс сбора данных дорог и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях исключение по данному методу может значительно исказить результаты опроса.

г) попарное исключение переменных. При попарном исключении вместо отбраковывания всех случаев с любыми отсутствующими значениями исследователь во всех своих вычислениях рассматривает только наблюдения или респондентов, по которым есть полные ответы. В результате разные вычисления в ходе анализа могут основываться на разных размерах выборок. Такая процедура обычно применяется при следующих условиях: если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны. Следует помнить, что и в этом случае данная процедура может привести к недостоверным и даже нелогичным результатам исследования.

Применение разных методов работы с пропущенными значениями нередко приводит к разным итогам, особенно пропуск ответов носит систематический характер, а переменные тесно взаимосвязаны. Таким образом, исследователю необходимо свести к минимуму количество пропущенных ответов. Кроме того, прежде чем выбрать конкретный метод для работы с пропущенными значениями, он должен тщательно проанализировать все последствия применения той или иной процедуры.

6 этап -процедура статистической корректировки данных включают: взвешивание, переопределение переменной, преобразование шкалы. Все эти корректировки необязательны, но, применяя их, можно значительно повысить качество анализа.

6.1. Взвешивание. Это метод статистической корректировки данных, при котором каждому наблюдению или респонденту в базе данных присваивается весовой коэффициент, отображающий степень его значимости по сравнению с другими наблюдателями или респондентами. Цель взвешивания заключается в том, чтобы увеличить либо уменьшить в выборке количество наблюдений с определенными характеристиками.

Взвешивание чаще всего применяется для того, чтобы выборочные данные максимально точно представляли конкретные характеристики генеральной совокупности.

6.2. Переопределение переменной - это преобразование данных для создания новых переменных либо изменения существующих с тем, чтобы они точнее соответствовали основным задачам исследования. Цель переопределения состоит в создании переменных, максимально отвечающих основным задачам исследования. Предположим, что изначальной переменной был показатель использования продукции по 10 категориям ответов. Их можно сократить до четырех категорий. Другими способами переопределения переменной являются извлечение квадратного корня и логарифмические преобразования, которые часто применяются, чтобы точнее «подогнать» оцениваемую модель к основным задачам исследования.

6.3. Преобразование шкалы измерения - заключается в манипулировании значений шкалы с тем, чтобы сравнивать ее с другими шкалами либо как-то иначе преобразованные и делать их подходящими для анализа.