Лекция 5. Контроль и ремонт выборки.
Вопросы:
1. Контроль и способы ремонта выборки
2. «Паспортичка» выборки
Литература:
Добреньков В.И., КравченкоА.И. Методы социологического исследования. – М.: ИНФРА-М, 2004. С. 81-92.
Горшков М.К., Шереги Ф.Э. Прикладная социология: учеб. пособие для вузов/ М.К. Горшков и др. – М.: Центр социального прогнозирования, 2003. – С. 157-163.
Рабочая книга социолога/ Под ред. Г.В.Осипова и др. – 3-е изд. - М.: 2003. – С.200-218.
Социологическая энциклопедия: В 2 т. / Национальный нацинально-общественный фонд / Руководитель научного проекта Г.Ю Семигин; Главный редактор В. Н Иванов. – М.: Мысль, 2003. – Т.1 – 694 с.; Т.2 – 863 с.
Понятия: контроль выборки, коррекция выборки, «паспортичка» выборки, ремонт выборки, репрезентативность выборки
Контроль и способы ремонта выборки
Качество социологической информации может снизить множество факторов: неправильно сформулированные анкетные вопросы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др. Практика эмпирических исследований — зарубежных и отечественных, фундаментальных и прикладных — свидетельствует, что ошибки, в том числе при составлении выборки, встречаются почти в каждом исследовании. Такого рода смещения могут быть значимыми или незначимыми.
Контролем выборки будем называть процесс научного сравнения генеральной и выборочной совокупностей, выявление степени их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле — это уравнивание выборочных и генеральных распределений социально-демографических характеристик респондентов.
Под ремонтом выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.
Таким образом, второй прием выступает практической реализацией первого, аналитического, а оба они составляют два обязательных этапа проведения социологического исследования. Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистической обработки данных, включающей коррекцию:
а) выборочной совокупности;
б) распределений социально-демографических характеристик респондентов;
в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных.
Указанные виды коррекции призваны отремонтировать самое главное — выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой и содержательной, но запустили ее на плохом массиве, т.е. нерепрезентативной выборке. Усилия всего коллектива пошли насмарку, так как цена такой информации почти нулевая. Вот почему в рассматриваемых ниже видах коррекции, даже если они касаются заполнения анкеты и к выборке имеют вроде бы косвенное отношение, фокус внимания один-единственный — выборка.
Основная цель ремонта выборки — повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций.
Коррекция выборочной совокупности. Далеко не всегда отобранные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.
Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов-, выбор следующего по списку респондента (напри -мер, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем случае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, найденных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к примеру, в вашу выборку попал работающий пенсионер такой-то национальности и овдовевший, то желательно подыскать ему в качестве замены другого пенсионера сходного возраста, национальности, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если список генеральной совокупности невелик и найти замену не удается, следует отказаться от эквивалентного метода и перейти к другому.
Коррекция распределений демографических характеристик респондентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной совокупности, то можно применить три способа: 1) удалить те группы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить — представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все можно оставить и так.
Взвешивание исходных данных — математический способ повышения или понижения значения ответов конкретной группы респондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респонденту определенного веса (коэффициента, на который нужно умножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова, взвешивание — единственный способ восстановления репрезентативности в панельных исследованиях без потери точности. Поскольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний решить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невозможно контролировать со стороны, другим исследователям. Самый простой способ — численность конкретной социально-демографической группы, например подростков от 13до 17 лет, из генеральной совокупности (N) делят на количество респондентов, представляющих данную возрастную группу (n), полагая, что один респондент представляет мнение ^человек генеральной совокупности.
Сотрудники Института социологии АН СССР А.А. Давыдов и А.О. Крыштановский в свое время установили любопытные факты. Оказывается, демографические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жизнью, оценкой темпов перестройки, одобрением деятельности политических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических событиях. Для этих индикаторов перевзвешивание проводить не нужно. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.
Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из общего массива.
Коррекция пропущенных ответов. Пропуски чаще всего возникают в открытых и табличных вопросах. Самый простой способ коррекции — исключить их или всю анкету из научного анализа. При пропуске не содержательного вопроса, а того, что имеется в паспортичке, поступают так. Если социально-демографические характеристики не связаны с содержательными ответами, то анкете с пропущенными значениями следует присвоить наиболее часто встречающиеся в выборке социально-демографические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак.
Сокращение выборочной совокупности. Таким образом, ремонт выборки осуществляется в случаях, когда данных получено много. По мнению А.А. Давыдова и А.О. Крыштановского, это наиболее рациональный подход к ремонту выборки, поскольку данная стратегия не опирается ни на какие дополнительные допущения. Если же объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следуют из собранного материала и истинность которых трудно проверить.
Переформирование выборки осуществляется тогда, когда проверка показала, что выборка не представляет совокупность в целом. В этом случае выбираются новые респонденты, и они добавляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.
Далеко не все социологи, организующие эмпирическое исследование, включают данные о контроле и ремонте выборки в его паспортичку. Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществлялся ремонт выборки38. Для сравнения отметим: за рубежом ремонт выборки уже давно стал распространенным методом повышения качества социологической информации.
Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик исследования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммерческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не могут являться объектом коммерческой тайны. Более того, отсутствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях39.
Паспортичка выборки
При написании научного отчета и публикации статьи в академическом журнале от авторов исследования всегда требуют четких разъяснений относительно самого исследования и выборочной совокупности: кто и когда проводил исследование, какие методы исследования использовались, каковы тип, объем и характер выборки, ошибка репрезентативности, состав выборочной совокупности по главным параметрам (например, пол, возраст, национальность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серьезные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем редакторам и читателям.
· Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целесообразности ее использования в соответствии с целями исследования, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:
· Каков эмпирический объект исследования?
· Является ли исследование сплошным или выборочным?
· Если оно является выборочным, то претендует ли оно на репрезентативность?
· Если оно претендует на репрезентативность, то какова генеральная совокупность?
· Сколько ступеней отбора применяется в выборке?
· Какова единица отбора на каждой ступени?
· Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?
· Какая конкретно разновидность случайного отбора применяется?
· Какие параметры используются при квотной выборке?
· Что является основой выборки (список, картотека, карта)?
· Какова единица наблюдения на последней ступени отбора?
Принципы выборки описываются не только для метода опроса, но и для каждого метода, используемого в исследовании: анализ документов, наблюдение и т.д.
Условный пример описания выборки. В исследовании эффективности бригадных форм организации труда возможна такая стратегия.
1. В качестве эмпирического объекта принимаются рабочие, объединенные в бригадную форму организации труда.
2. Исследование выборочное.
3. Генеральной совокупностью выступают все рабочие, объединенные в бригадную форму.
4. Применяются три ступени отбора.
5. На первой ступени выделяются бригады, занятые в основном и вспомогательном производстве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых — выборочный.
6. Вторая ступень — отбор бригад, занятых в основном производстве. По показателям, характеризующим конечные результаты, бригады разделяются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью определенного «шага выборки».
7. Третья ступень — в отобранных бригадах проводится сплошной опрос. Единицей наблюдения выступает отдельный работник.
Второй раз с описанием выборки социолог встречается уже после проведения исследования — когда пишет научный отчет или научную статью в журнал. Неполное описание паспортных данных исследования, к сожалению, самая распространенная болезнь российских ученых. Некоторые не знают, как именно их составлять, другие считают такие сведения необязательными или неважными. А есть и такая категория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай — социолог как-то провел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на научном языке свои действия он не может.
Примеры из социологических исследований. В одних паспортичка описана полностью, в других — частично. Намеренно оставляем примеры без комментариев, поскольку комментарий — это всегда оценка. В исследованиях указаны реальные фамилии, поэтому как-то оценивать, судить или сравнивать примеры между собой мы считаем неэтичным. Главное — актуализировать саму проблему и убедить нынешних студентов, а завтрашних специалистов в необходимости объективно и полно сообщать сведения о проведенном исследовании, не забывать о таком понятии, как паспортичка выборки.
Примеры паспортички выборки
1.Основной целью социологического исследования, проведенного B.C. Журавлевым в 1999 г. в школах и училищах Екатеринбурга, было выявление преобладающих форм и субъектов насилия по отношению к подросткам, а также определение катализирующих его факторов. В качестве объекта анализа рассматривалась группа подростков от 14 до 16 лет. Сбор информации осуществлялся методами анкетирования и нарративного интервью. Среди опрошенных подростков юноши составляют 46,8, девушки — 53,2%. По возрастным характеристикам респонденты распределились следующим образом: 14 лет — 23%, 15 лет — 54,4%, 16 лет — 22,6%. Преобладание в выборке пятнадцатилетних объясняется тем, что в этой группе представлены наиболее типичные черты образа жизни подростков. 80% респондентов обучаются в общеобразовательных школах, 20% — в училищах. 74,2% опрошенных подростков живут в полных семьях, без отца воспитываются 21,0%, без матери — 4,8%. Большинство учатся на «4» и «3» — 48,3%, на «4» и «5» учатся 27,7%, на «4» — 14,5%, на «3» -7,3%, на «5» - 2,2%.
2.Заказчик — неправительственная организация: Международная ассоциация по борьбе с наркоманией и наркобизнесом. Общероссийское исследование проведено научным коллективом «ГАЛСИ» летом—осенью 1992 г. среди городского населения семи экономических зон. Выборка многоступенчатая, районированная по методу квот, ее объем — 1290 респондентов, из которых 125 — эксперты. Экспертный опрос осуществлен по квотной выборке. Опрос проведен в 12 городах, среди которых крупные (столичные), средние и малые, выполняющие функции как городов-транзитов, так и «потребителей» наркотиков42.
3.Аннотация социологического исследования «Предвыборная ситуация в России в 1995 г. », проведенного Центром социологических исследований МГУ. Дата опроса: 6 — 15 декабря 1995 г. Цель — изучение предвыборной ситуации в России на последнем этапе избирательной кампании, анализ электорального поведения населения страны, динамики ее изменения. Метод: интервью продолжительностью 50 минут — 1 час. Сбор полевой информации осуществлялся региональными социологическими службами по стандартизированному вопроснику. Полевому этапу предшествовал инструктаж руководителей опросной сети. Объект — взрослое (18 лет и старше) население России. Выборка: 1) объем выборки — 3710 респондентов; б) тип выборки — стратифицированная, многоступенчатая, случайная на этапе отбора респондентов, репрезентативная для избирателей РФ. Опрос проведен в 66 субъектах Российской Федерации, пропорционально представляющих все регионы страны. В опросе участвовали жители 182 населенных пунктов, в том числе 30 областных, краевых и республиканских центров. Опрошено 1378 респондентов в 36 малых и средних городах, в поселках городского типа — 1229, в 116 сельских населенных пунктах — 1103 респондента. Половозрастная структура респондентов в целом репрезентирует население РФ. Среди опрошенных 43% мужчин и 57% женщин. По возрастной структуре имеют место два отклонения, до 3 % каждое, в следующих группах населения: от 18 до 24 лет — в сторону уменьшения, от 45 до 49 лет — в сторону увеличения. Контроль — поэтапный: а) выездной за работой опросной сети; б) компьютерный контроль за полнотой заполнения анкет и логической непротиворечивостью данных, в) выборочный (10%) контроль правильности ввода данных на ЭВМ. Обработка данных: январь 1996 г. на ЭВМ IBM PC AT 486 с использованием пакетов SPSS и СУБД Paradox43.
4. В 1966 г. Комитетом по печати при Совете Министров РСФСР было проведено исследование спроса городского населения страны на книги с целью получения данных об объеме и структуре спроса, о покупательских интересах и предпочтениях. Исследование проводилось в шести регионах: Воронежской, Восточно-Казахстанской, Гомельской, Кемеровской, Запорожской областях и в Башкирской АССР. Оно было организовано по методу многоступенчатой районированной выборки в книжных магазинах и по месту жительства различных групп населения. Методом анкетного опроса было обследовано около 38 тыс. человек. В 1978 г. в тех же регионах было проведено повторное исследование (опрошено свыше 20 тыс. человек), которое позволило выявить тенденции развития спроса на книжную продукцию.
В качестве объекта его выбраны работники машиностроительных, главным образом станкостроительных, предприятий, где женщины составляют 42% всех занятых. Социологическое обследование проводилось в 1975—1977 гг. среди рабочих-станочников 1 ГПЗ (Москва). Московского станкостроительного завода им. Серго Орджоникидзе, Таллинского производственного объединения «Таллэкс», Ульяновского завода тяжелых и уникальных станков, Люберецкого завода сельскохозяйственногс машиностроения им. Ухтомского, Ленинградского машиностроительногс объединения им. Карла Маркса. Применялся метод случайной выборки. Пс нашим данным, выполнение норм выработки.
5. Одна из основных целей исследования, проведенного в Краснодаре отделом семьи И.СИ АН СССР (1981 г.), заключалась в уяснении характер; отношений, условно обозначенных «работа—дом», выявлении основных мо ментов, за счет которых эти две важнейшие сферы человеческой жизнедея тельности нередко входят в противоречие. Исследование осуществлялось п< международной программе, цель которой — выявить характерные измененю семьи в европейских странах. Проинтервьюировано 150 человек — 75 муж чин и 75 женщин. Среди опрошенных 53,3% рабочих, 14,7% служащих, 323 специалистов, имеющих высшее образование.
6. Исследование «Россияне о судьбах России в XX в. и своих надеждах на XXI в.» по репрезентативной всероссийской выборке. Опрошено 2050 человек из Москвы (6,3% от общего числа опрошенных), Санкт-Петербурга (4,6%), Северо-Западного района (5,7%), Волго-Вятского района (5,6%), Центрального района (12,1%), Центрально-Черноземного района (5,7%), Поволжского района (10,9%), Северо-Кавказского района (12,0%), Уральского района (12,7%), Западно-Сибирского района (8,9%), Восточно-Сибирского района (6,4%), Дальневосточного района (5,2%) в 58 населенных пунктах, из которых 10,9% от общего числа представляют мегаполисы, 43,6% — областные (краевые, республиканские) центры, 21,2% — районные центры, 24,3% — сельские населенные пункты. Респонденты относятся к различным социальным группам: 29,7% от общего числа опрошенных — рабочие; 5,6% — инженеры и инженерно-технические работники; 3,7% — гуманитарная интеллигенция; 4,4% — работники государственной торговли, сферы услуг, транспорта, связи и жилищно-коммунальных хозяйств; 4,2% — служащие, 3,3% — предприниматели; 24% —жители села; 3,5% — военнослужащие и сотрудники Министерства внутренних дел; 15,9% — городские пенсионеры; 2,6% — студенты; 3,4% — безработные. Средний возраст респондентов — 44 года (22% — 30 лет и моложе; 45,6% — от 31 до 50 лет; 32,4% — 51 год и старше). Среди опрошенных 49,3% мужчин и 50,7% женщин. По национальной принадлежности: 82,8% —русских; 5,8% —украинцев и белорусов; 5,0% — татар; 2,6% — представителей народов Кавказа и Закавказья; 3,8% —представителей других народов.
7. Исследование «2001: Интернет-аудитория г. Москвы: использование Интернет и образ жизни» проведено компанией «RI-VITA. Marketing Research & Consulting» (опубликовано в: «Практический маркетинг». 2001. № 52. С. 22—24). Цель исследования — сформировать представление об Интернет-аудитории г. Москвы. Задачи исследования — выявить:
1) характеристики Интернет-аудитории — долю Интернет-пользователей среди населения Москвы и их социально-демографический профиль;
2) основные направления использования Интернет: время и место работы, частоту выхода и продолжительность нахождения в Интернет, мотивы работы с Интернет, предпочтения к Интернет-провайдерам;
3) особенности покупательского поведения — использование Интернет-магазинов: частота посещений, заказываемые товары, стоимость разовой покупки, причины неудовлетворенности процедурой покупки в Интернет-магазинах;
4) отношение к Интернет — основные мотивы использования Интернет различными социально-демографическими группами;
5)особенности образа жизни;а) использование традиционных
СМИ: телевидения и радио;
6) предпочтения к провайдерам пейджинговой и мобильной связи;
7) выбор места для проведения отпуска и предпочитаемый досуг.
Метод сбора информации — опрос по телефону на основе структурированного вопросника с полузакрытыми вопросами. Проведено 1319интервью, из них 310 отобрано для анализа.
Выборка — двухступенчатая: на первой ступени случайным образом отбирались номера телефонов домохозяйств, на второй ступени респонденты выбирались по половозрастным характеристикам. В каждом домохозяйстве опрашивался один человек.
Размер выборки репрезентирует население Москвы в возрасте от 15 до 60 лет, использующее Интернет не реже одного раза в месяц. Единица опроса — мужчина/женщина от 15 до 60 лет, использующий/ая Интернет не реже одного раза в месяц.
Рекрутирование — по телефону на основе Инструкции по рекрутированию респондентов.
Метод анализа данных — для определения различий в распределениях была использована формула предельной ошибки выборки. Доверительный интервал для предельной ошибки выборки — 95%. При анализе данных также использовались методы дескриптивной и многомерной статистики (анализ средних, корреляция, кластерный анализ).
Генеральная совокупность — полученные результаты могут быть репрезентированы на всю генеральную совокупность со средней ошибкой выборки +5,6%. Сроки проведения: февраль — апрель 2001 год.
Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических журналах, а именно «Социологические исследования», «Вопросы психологии» и «Психологический журнал» за 1986—1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и проверкой гипотез. Большинство ученых (от 61% психологов до 92% социологов) обходится без такого познавательного инструмента, нарушая все каноны научного метода. Только в 8% социологических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объекта исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный статус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти совсем не обсуждается. Кроме того, единичны упоминания социологов о пилотаже инструментария, об использовании ранее апробированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто описывает, какой именно его вид применялся в зависимости от места, времени или способа заполнения анкеты.