Предварительная подготовка обработки данных

Неопытные исследователи часто не задумываются до завершения опроса о том, как будут производиться обработка и анализ данных. В этом случае, если возникают проблемы, уже поздно что-либо менять. Опытные исследователи продумывают все детали до того, как вопросник отдают в печать. Предварительная подготовка позволяет сэкономить в дальнейшем время и деньги. Более того, можно заранее исключить или изменить формулировку тех вопросов, которые приводят к получению трудно обрабатываемой информации.

Предварительная подготовка вопросников к обработке данных включает две процедуры: кодирование закрытых вопросов и разметка строк для всего вопросника в целом.

Предварительное кодирование. Из двух названных процедур предварительное кодирование является наиболее простой. Она состоит в том, что каждому возможному ответу на закрытый вопрос присваивается код. Если общее число ответов на вопрос, включая «Не знаю» и «Нет ответа», более десяти, используется дву– или трехзначный код. Двузначный код должен обозначаться 01, 02... 09, а не 1, 2... 9.Аналогично запись трехзначного кода выглядит как 001, 002.... а не 1, 2...

В процессе предварительного кодирования должны быть предусмотрены коды вариантов «Нет ответа» и «Не знаю». Такие ответы не всегда имеются в вопросниках. Их не следует включать в анкеты, заполняемые.респондентами самостоятельно. Некоторые организации традиционно пользуются кодами 8 и 9 для ответов «Не знаю» или «Нет ответа» и соответственно 88 и 99 при двузначном кодировании. Поэтому ими, в порядке предосторожности, не следует пользоваться для кодирования других ответов. То есть при наличии десяти вариантов ответов, в которые «Не знаю» и «Нет ответа» не входят, необходимо перейти к двузначному кодированию.

Не следует использовать одинаковые коды одних и тех же ответов на разные вопросы. Разные коды позволяют легче обнаружить возможные ошибки при вводе данных. Но при этом следует тщательно все продумать, чтобы не запутать интервьюера или респондента. И если такая опасность все-таки существует, например, если вы задаете группу вопросов, лучше пользоваться аналогичными кодами. В общем случае во избежание ошибок ввода данных в серии вопросов «да – нет» можно заменить коды:

Тщательный выбор чисел, которые присваиваются кодам, позволяет устранить возникновение проблем на этапе анализа данных. В приведенном ниже примере исследователь рассматривает несколько вариантов формата ответа с размещением категории «осталось неизменным» в конце или в середине списка. За последние несколько лет Ваше финансовое положение улучшилось, ухудшилось или осталось неизменным?

Этот вопрос может быть прочитан иначе: «За последние несколько лет Ваше финансовое положение улучшилось, осталось неизменным или ухудшилось?». Не существует явного правила, где лучше размещать среднюю категорию ответа – в середине или конце вопроса. В каждом конкретном случае автор интуитивно выбирает предпочтительный вариант. В некоторых ситуациях более естественным кажется размещение средней категории посередине. В этом примере, на наш взгляд, органично звучит последовательное расположение крайних вариантов «улучшилось» и «ухудшилось».

Вероятно, не существует каких-либо различий между тем, где расположен средний вариант ответа: в середине или конце вопроса. Однако проблемы могут возникнуть, если цифровые коды расположены в порядке, соответствующем следованию вариантов ответа в вопроснике. При анализе данных варианты ответа можно рассматривать как континуум на интервале от «лучше» к «хуже» с категорией «осталось неизменным» в среднем положении. Если ответы на вопрос имеют числовые коды, которые будут использоваться для дальнейшего анализа, и если эти коды соответствуют порядку перечисления в вопросе вариантов ответа, то средняя категория будет иметь код 3, а не 2. Если вы имеете доступ к компьютерным программам, осуществляющим табуляцию выбранных категорий ответа, никаких сложностей не возникнет. Однако если код ответа распечатывается без метки ответа и, более того, если вы хотите объединить ответы на этот вопрос с другими ответами, упорядоченными в шкале «лучше – хуже» или «хорошо – плохо», потребуется перекодирование для перестановки чисел.

Для устранения возможных разночтений при анализе данных существует два простых способа: во-первых, категории ответа можно вводить в последовательности, соответствующей шкале, независимо от того, как они читаются в вопросе; во-вторых, кодирование категорий может осуществляться в логическом порядке, даже если нарушается числовая последовательность. (В приведенном выше примере варианты Б и В иллюстрируют сказанное.)

Обратите внимание на то, что категории ответа «Не знаю» присваивается код 8 или 9. Если есть такая возможность, желательно, чтобы численное значение кода «Не знаю» отличалось на две и более единиц от наибольшего из чисел, принятых в качестве кодовых обозначений.

У многих разработчиков вопросников проявляется отчетливая тенденция кодировать ответы, начиная с 1, и продолжать последовательно до того числа, которое потребуется. Однако по ряду соображений есть серьезные возражения против такого подхода. В вопросах, в которых категории ответа имеют неявное численное выражение, как, например: «высокий», «средний», «низкий» или «выше среднего», «средний», «ниже среднего», лучше присвоить более высокое численное значение кода категории, имеющей более высокий уровень. Аналитика могут запутать ответы, в которых для категорий «высокий», «средний», «низкий» приняты следующие коды: 1 – для «высокий» и 3 – для «низкий», поскольку он может забыть, что большее значение кода в действительности обозначает меньшую категорию.

С не меньшим вниманием следует также относиться к численным обозначениям ответов, если у вас есть намерение объединить несколько вопросов при обработке данных. Важно, чтобы шкалы совместно обрабатываемых ответов имели одинаковое направление. Так, если два вопроса имеют три категории ответа и первая из них в вопросе 1 имеет код 1, а в вопросе 2 (рассматриваемом совместно с вопросом 1) – код 3, необходимо произвести перекодирование. Качественное предварительное кодирование позволяет сэкономить время и избежать недоразумений на стадии обработки данных.

Разметка строк*. Предварительная разметка строк – это установление соответствия каждого вопроса или другой идентифицируемой информации определенной колонке в матрице данных для последующего ввода в компьютер.

* Так как первое издание книги было осуществлено в 1982 году, описывая процедуру разметки строк, авторы ориентировались на компьютеры, работающие с перфокартами. Отсюда же следует повышенное внимание к предварительному кодированию закрытых вопросов. Чтобы избежать потерявшей актуальность информации, данный раздел был сокращен в той части, которая касалась процедур работы с перфокартами. – Прим. ред.

Закрытые вопросы не вызывают никаких проблем, поскольку всегда заранее известно, сколько колонок понадобится для регистрации ответа. Значительно сложнее это сделать в случае открытого вопроса. Можно только предполагать, пользуясь, например, данными пилотажных исследований, сколько колонок нужно резервировать для открытого вопроса. Однако при этом нельзя забывать, что пилотажное исследование проводится на небольшой выборке и не позволяет оценить диапазон возможных ответов на открытые вопросы при полномасштабном исследовании. В связи с этим необходимо учитывать и возможные непредвиденные варианты ответов.

Некоторые открытые вопросы следует кодировать, учитывая их многомерность. Для этого используются несколько переменных. Например, степень одобрения и тема комментария. Для каждого из показателей должна быть отведена своя колонка в матрице данных.

Более сложная ситуация возникает, если респонденту задают вопрос, предполагающий несколько ответов, например, «Каким трем или четырем основным «вещам» школа должна постараться научить детей?» (вопрос 15 из Вопросника для жителей). На первый взгляд, кажется достаточным резервировать три или четыре колонки для кодирования. На самом деле, все намного сложнее. Если нужно определить, какая часть респондентов считает чтение наиболее важным из того, чему должна научить школа, нужно будет для всей выборки респондентов провести поиск на отведенных позициях именно по этому варианту.

В описанном случае более простая процедура состоит в том, что для каждого варианта ответа отводится отдельная колонка. Тогда по каждому ответу могут быть использованы следующие коды:

Упоминалось впервые 1

Упоминалось далее 2

Не упоминалось 3

При кодировании вводится различие между понятиями «упоминалось впервые» и «упоминалось далее». Используя этот формат, исследователь просматривает только одну позицию, чтобы оценить, какая часть респондентов считает чтение одним из самых важных из того, чему могут обучить в школе. Хотя такая процедура требует резервирования дополнительных колонок при кодировании и соответственно увеличивает стоимость ввода и хранения данных, она эффективна при их анализе.

Преимущества предварительного кодирования и разметки строк. Коды и строки печатаются в правой части страницы, причем в вопросниках для проведения личных интервью их печатают стандартным шрифтом, а в анкетах, которые заполняют сами респонденты, – уменьшенным шрифтом (чтобы не отвлекать их внимания). Нет никаких свидетельств о том, что коды и строки в анкете как-то мешают респонденту. Хотя дополнительные цифры создают впечатление большей загруженности страницы, они придают вид профессионального документа и усиливают представление о том, что результаты опроса рассматриваются суммарно, а не индивидуально.

Некоторые начинающие исследователи из-за недостатка времени считают ненужным предварительное кодирование и разметку строк и полагают, что лучше сразу же провести полевую обработку данных. Их аргументы связаны в основном с длительностью подготовительных процедур. Мы считаем эти посылки несостоятельными. Время, затраченное на стадии проектирования вопросника, окупается в дальнейшем, не говоря уже о качестве получаемых данных. Кроме этого, все исследователи должны хорошо понимать, как происходит процесс обработки данных.

Более обоснованной причиной отказа от предварительного ввода строк является использование системы автоматизированного телефонного интервьюирования (САТИ). В этом случае интервьюеры вводят информацию непосредственно в компьютерную базу данных или систему ввода данных. Рассмотренная выше подготовительная работа трансформируется в написание программы для системы. Но и при компьютерном вводе данных введение строк в вопросник может быть полезно на случай сбоя компьютера.

И наконец, следует отметить, что предварительное кодирование и разметку строк нельзя считать окончательным решением, не подлежащим изменениям. В любом деле возможны ошибки и пропуски, которые корректируются в режиме реальной обработки данных. Качественная подготовка к обработке данных –практически последняя ступень проектирования вопросника. Введение этой процедуры позволяет надеяться на достижение высокого качества результатов исследования.

Слова благодарности

Большинство респондентов охотно тратят свое время и энергию, отвечая на вопросы. Они заслуживают того, чтобы интервью было интересным, вызывало приятные эмоции и чтобы в конце интервью были сказаны слова благодарности. Хотя большинство интервьюеров произносят эти слова автоматически, лучше еще раз в конце вопросника напечатать прямым текстом: «Спасибо».

Резюме

Разные исследователи и организации пользуются отличающимися друг от друга форматами вопросников, но все руководствуются одним принципом – представить материал в форме, наиболее простой и удобной для респондентов, интервьюеров и кодировщиков. Только поэтому мы советуем вам использовать формат брошюры, оставлять больше свободного места на странице, не переносить вопрос с одной страницы на другую, прибегать к крупным и отчетливым шрифтам, включать в анкету подробные инструкции, располагать ответы на закрытые вопросы вертикально и размещать инструкции перехода непосредственно после ответа на фильтрующий вопрос.

Остальные наши рекомендации сводятся к тому, что необходимо: идентифицировать вопросник с напечатанным на его обложке названием, пронумеровать все вопросы и подвопросы, записать время начала и окончания интервью, а также провести предварительное кодирование и разметку строк. В отдельных случаях может быть полезно использование цветной бумаги для выделения разных форм или разделов.

Когда задают группы одинаковых вопросов о разных членах семьи, предметах или событиях, мы рекомендуем для сокращения ошибок интервьюеров пользоваться параллельными колонками и укороченными страницами. Однако такие, более сложные формы, не следует использовать в анкетах, чтобы не затруднить самостоятельную работу респондента.

Дополнительное чтение

По форматированию вопросников трудно порекомендовать что-либо, кроме книг Диллмана [24] и Ёдоса и Моргана [25]. Как и в предыдущих разделах, мы советуем изучить вопросники разных авторов и сопоставить их с основными положениями, изложенными в настоящей главе.