Лекция 4. Расчет выборки.
Вопросы:
1.Особенности расчета выборки. Объем выборочной совокупности
2. Ошибки выборки.
Литература:
Добреньков В.И., КравченкоА.И. Методы социологического исследования. – М.: ИНФРА-М, 2004. С. 81- 92.
Горшков М.К., Шереги Ф.Э. Прикладная социология: учеб. пособие для вузов/ М.К. Горшков и др. – М.: Центр социльного прогнозирования, 2003. – С. 157-163.
Рабочая книга социолога/ Под ред. Г.В.Осипова и др. – 3-е изд. - М.: 2003. – С.200-218.
Основные понятия: объем выборочной совокупности, доверительный интервал, репрезентативность выборки, случайная ошибка выборки, систематическая ошибка выборки
Расчет объема выборки
Из всех вопросов, которые задают сотрудникам знаменитого Института опросов общественного мнения Гэллапа, самым популярным является такой: как вы можете, проинтервьюировав 1000 человек, судить о том, что думают 300 млн. американцев?
Для ответа на этот вопрос нужно упомянуть не только высокую квалификацию и огромный практический опыт сотрудников, но и использование ими статистики и математики. Если методы опроса не основаны на науке, результаты могут ввести вас в заблуждение.
В статистике приняты следующие разграничения объемов выборки. Объем выборки, достаточный для взаимопогашения случайностей и получения статистических характеристик закономерного характера, равен 30. Выборка такого объема называется малой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний. Минимальный объем выборки, позволяющий получить средние значения признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми. Распределение значений признака в таких выборках характеризуется распределением Стьюдента. Но чаще всего в социологии имеют дело с гораздо большим объемом выборки.
При планировании выборочного обследования наступает момент, когда нужно решить, сколько человек опрашивать, т.е. каким должен быть объем выборки. Это решение чрезвычайно важно, поскольку слишком большая выборка потребует излишних затрат, а слишком маленькая понизит качество результатов.
Поскольку выборочная совокупность — это часть генеральной совокупности, отобранная с помощью специальных методов, — важно, чтобы эта часть не искажала представления о целом, т.е. репрезентировала его. Социологов, часто проводящих эмпирические исследования, постоянно волнует вопрос о том, как много надо опрашивать человек, чтобы получить достоверную информацию? Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1,5 тыс. человек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%). Центр «Социо-Экспресс» Института социологии РАН проводит исследования на выборке объемом в 2 тыс. человек, при этом ошибка выборки не превышает 3%25.
Специалисты считают, что наилучшая выборка — не обязательно большая. Конечно, чем больше объем выборки, тем выше точность ее результатов. Однако даже огромная выборка не гарантирует успеха, если генеральная совокупность «плохо перемешана», т.е. является неоднородной. Однородной считается такая совокупность, в которой контролируемый признак распре делен равномерно, не образует пустот или сгущений. В этом случае, опросивнескольких человек, можно получить точную информацию о распределении этого признака в генеральной совокупности.
Таким образом, на репрезентативность данных влияют не количественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупности — степень ее однородности.
В социологии еще не придумано единой и четкой формулы, использу$ которую можно рассчитать оптимальный объем выборочной совокупности, -такой формулы просто не существует в природе. И объясняется это весьм; просто. Дело в том, что определение объема выборочной совокупности -проблема не столько статистическая, сколько содержательная. Иными словами, объем выборочной совокупности зависит от множества факторов, в ton числе от целей и задач, теоретической модели, гипотез и методов исследования, степени однородности генеральной совокупности, наконец, требующейся точности получаемой информации.
Практика показывает, что для многих социологов обоснование объема выборки является камнем преткновения, несмотря на значительное количество литературы, посвященной выборочным методам и, в частности, расчету объема выборки Причин несколько:
1) дефицит специальной литературы на периферии;2) нехватка времени для самообразования;3) неумение пользоваться математическим аппаратом.
Процедура расчета объема выборки — цепь бесконечных компромисса между стремлением к точности и ограниченностью ресурсов, дефицитен времени и неполнотой сведений об изучаемом явлении. Вместе с тем эте наука и искусство, познание которых доступно каждому человеку. Однакс для этого нужно знать стратегии расчета объема выборки (предварительного расчета, последовательной и комбинированной стратегии), а также факторы, влияющие на объем выборки (объем генеральной совокупности, варьирование ответов респондентов, точность оценивания, характер предполагаемого распределения ответов, метод исследования, процедура обработки)
Стратегия предварительного расчета состоит в том, что объем выборк* определяется до проведения основного исследования. Для расчета объем; случайной выборки надо знать желаемую точность оценивания, величию риска получаемого ответа и степень изменчивости ответа. Традиционно точность оценивания принимают за 5%, а величину риска — за 0,95. Иными словам, если по данным выборочного исследования 60% опрошенных удовлетворены работой, то можно утверждать, что в генеральной совокупности доля удовлетворенных составит от 55 до 65% в 95% случаев, а в 5% случаев такая доля может выйти за этот интервал. Если исходить из 5%-ной точности и величины риска в 0,95, объем выборки будет следующим.
Таблица
Зависимость объема выборки от объема генеральной совокупности
Объем генеральной совокупносии | Бесконечная | ||||||||
Объем выборки |
Результаты, приведенные в таблице, свидетельствуют против распространенного заблуждения, будто бы объем выборки — жестко фиксированный процент от генеральной совокупности, равный 10. На самом же деле эта величина — не постоянная, а переменная, изменяющаяся в конкретных условиях. Объем выборки зависит также от того, какие вопросы используются в анкете. Цифры в табл. 3 действительны только для одного случая — когда речь идет о дихотомическом вопросе, у которого максимальный разброс ответов — 50 на 50%. Не имея предварительной информации о разбросе оценок, социолог как бы заранее страхуется и считает, что этот разброс составит 50 на 50%. Если же такая информация имеется, то объем выборки будет следующим.
Расчет объема выборки для количественных вопросов, включающих вопросы типа «возраст» и «заработная плата», строится исходя из коэффициента вариации (табл. 5), который показывает, какой процент составляет среднее квадратическое отклонение от средней арифметической, и позволяет сравнивать между собой (по степени варьирования) любые признаки.
Если изучаются условия труда, взаимоотношения в коллективе, заработная плата и т.д. с помощью пятичленной шкалы, то коэффициент вариации изменяется здесь от 27 до 62%, а при использовании семичленной — от 78 до 113%. Стало быть, чем длиннее шкала, тем выше коэффициент вариации и больше должен быть объем выборки. Если социолог хочет обойтись небольшой выборкой, то и вопросы должен формулировать проще. Иногда думают, что чем длиннее шкала, тем точнее измерение. Но преимущества семибалльных шкал над пятибалльными не доказаны.
Среди социологов распространено мнение, согласно которому чем больше объем выборки, тем точнее результат, и это заставляет их непомерно увеличивать количество опрошенных. В реальности дело обстоит иначе: по данным Института Гэллапа, существует зависимость между объемом выборки и точностью оценивания в процентах. Из нее следует, что с увеличением объема выборки точность возрастает, но до определенного порога. Уже при 600 опрошенных достигается желанный для всех 5%-ный уровень точности. Стало быть, 600 человек — приемлемый объем выборки.
При расчете объема выборки социологи часто совершают такую ошибку: рассчитав по существующим формулам необходимый объем выборки в целом для совокупности, в дальнейшем пропорционально размещают его по отдельным подразделениям выборки, например по цехам, предприятиям, районам, городам, типам семей. После чего на этапе обработки данных — анализируют уже сами различия между подразделениями. Однако правильнее вычислить объем выборки отдельно для каждого подразделения, а затем суммировать отдельные объемы. Допустим, расчеты объема выборки по трем цехам (с учетом размерности шкалы, численности работающих, характера предполагаемого распределения оценок) позволили установить, что в первом цехе необходимо спросить 384 человека, во втором — 222, а в третьем -600. Тогда общий объем выборки составит 384+222+600=1206 человек.