Сквозной пример. Выбор универмага. Подготовка данных к анализу

Подготовка данных к анализу

В ходе реализации проекта "Выбор универмага" информация собиралась в ходе личных интервью с респондентами на дому. Анкеты после их сдачи интервьюерами редактировались бригадирами, тщательно проверялись на наличие неполных и логически непоследовательных ответов или лишней информации. Анкеты с неудовлетворительными ответами возвращались на места сбора данных (в "поле"), и интервьюеры еще раз встречались с указанными респондентами, чтобы получить всю необходимую информацию. В результате девять анкет все же были отсеяны из анализа, поскольку доля ответов неудовлетворительного качества в них была очень велика. В итоге размер финальной выборки составил 271 анкету.

Для кодирования анкет была разработана кодовая книга. Кодирование довольно простое, поскольку в анкете не было открытых вопросов. Затем данные вводились в память компьютера, после чего около 25% введенного объема информации проверялось на наличие ошибок ввода с клавиатуры. Данные были "подчищены" путем выявления и отсеивания ответов, выпадающих из определенного диапазона, и логически непоследовательных ответов. Подавляющая часть рейтинговой информации собиралась с использованием шестибалльной шкалы, поэтому ответы 0, 7 и 8 считались выходящими за пределы диапазона, а код 9 присваивался пропущенным ответам.

Все пропущенные ответы отсеивались по методу исключения объекта целиком, в соответствии с которым анкеты, в которых было пропущено хотя бы одно значение, в анализ не включались. Такой способ исключения выбран потому, что количество наблюдений с пропущенными переменными было незначительным, а размер выборки достаточно велик. В процессе статистической корректировки данных вместо категориальных переменных были подставлены заменители. Кроме того, новые переменные выводились на основе исходных. Так, в результате суммирования рейтинговых оценок степени ознакомления респондентов с десятью универмагами был вычислен коэффициент степени ознакомления и разработана стратегия анализа данных.

Описанный выше пример отражает разные стадии процесса подготовки данных к анализу. Обратите внимание на то, что этот процесс начинается, когда работа по сбору данных на местах еще продолжается. Приведенный выше пример, описывающий опыт компании Custom Research, свидетельствует об огромной важности процедуры "очищения" данных, выявления ошибок и корректировочных мероприятий перед тем, как приступить к анализу собранных данных.

ПРОЦЕСС ПОДГОТОВКИ ДАННЫХ К АНАЛИЗУ

Наглядное отображение процесса подготовки данных к анализу представлено на рис. 14. Весь этот процесс определяется предварительно подготовленным планом анализа данных, который составляется еще в ходе разработки всего плана маркетингового исследования (см. главу 3). Первым его этапом выступает проверка пригодности анкет. Затем наступает черед редактирования, кодирования и переноса данных. Данные очищаются и при необходимости проводится работа с пропущенными данными. Часто необходимо также провести статистическую корректировку информации для того, что бы сделать ее репрезентативной для генеральной совокупности. Затем исследователю необходимо выбрать подходящую стратегию анализа данных.

Подготовка данных должна начинаться сразу же после того, как станут доступными первые анкеты, в то время как полевые работы еще продолжаются. Поэтому, если возникнут проблемы, ход полевых работ можно скорректировать в нужном направлении.

ПРОВЕРКА АНКЕТ

Первый этап проверки анкет заключается в их проверке на полноту заполнения и качество интервьюирования. Зачастую этот процесс ведется параллельно с полевыми работами. Следует отметить, что если эта процедура выполняется по контракту специализированным агентством, исследователь обязан провести независимую проверку после ее завершения. Анкеты, поступившие с мест сбора данных, могут быть не приняты по следующим причинам.

1. Не заполнены отдельные части анкеты.

2. Представленные ответы свидетельствует о том, что респондент не понял вопросов либо не точно следовал инструкциям по заполнению анкеты. Например, не был соблюден шаблон пропусков ответов.

3. Ответы варьируются очень незначительно или не варьируются вовсе, например, респондент пометил одни четверки в серии семибалльных рейтинговых шкал.

4. Возвращенная анкета является неполной — отсутствует одна или несколько страниц.

5. Анкета получена по истечении заранее определенного срока сдачи.

6. Ответы в анкете даны респондентом, не входящим в группу, выделенную для участия в исследовании.

Рис. 14.1. Процесс подготовки данных к анализу

Если были определены конкретные квоты респондентов либо назначены размеры ячеечных групп, все принятые анкеты необходимо соответствующим образом классифицировать и подсчитать. Любые проблемы, связанные с выполнением требований, предъявляемых к выборкам, должны выявляться своевременно, и необходимые корректировочные мероприятия, например, дополнительные интервью в ячейках, представленных по результатам опроса недостаточно полно, следует провести перед тем, как приступать к редактированию данных.

РЕДАКТИРОВАНИЕ ДАННЫХ

Процесс редактирования (editing) заключается в обработке собранных анкет для повышения точности и аккуратности представленных в них данных. Он заключается в просмотре анкет, в ходе которого выявляются нечитабельные, неполные, логически непоследовательные или неоднозначные ответы.

Редактирование (editing)

Обработка анкет, повышающая точность и аккуратность представленной в них информации.

Если ответы неаккуратно и небрежно записаны, они могут быть неразборчивыми. Такая ситуация более типична для анкет, содержащих много неструктурированных вопросов. Чтобы правильно закодировать данные, они должны быть читабельными. Кроме того, анкеты бывают в разной степени не до конца заполнены. Они могут содержать несколько или множество вопросов без ответов.

На этапе редактирования исследователь проводит предварительную проверку анкет на предмет логической непоследовательности представленных в них ответов. Существует ряд явных несоответствий, выявить которые не составляет большого труда. Так, возможна ситуация, когда респондент сообщает, что его годовой доход составляет не больше 20 тысяч долларов, но при этом указывает, что является постоянным покупателем таких престижных универмагов, как Saks Fifth Avenue или Neiman-Marcus.

Ответы на неструктурированные вопросы могут быть неоднозначными, в результате их сложно точно интерпретировать. Бывает, что ответ респондента записан сокращенно либо при его записи использованы слова, имеющие несколько смысловых значений. Даже если вопросы структурированы, нередки ситуации, когда респондент помечает больше одного варианта ответа на вопрос, по которому необходимо дать однозначный ответ. Предположим, респондент помечает пункты 2 и 3 по пятизначной рейтинговой шкале. Как следует расценивать такой ответ: что он имел в виду значение 2,5? В таком случае дело осложняется еще тем, что в процедуре кодирования используются только целые числа.