Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности

В идеальном мире вы бы обладали важной информацией об исследуемой популяции еще до разработки выборки. Было бы полезно, например, знать, как интересующие вас характеристики распределяются в общей совокупности. Скажем, вы хотите измерить рост людей в возрасте от 21 года до 50 лет, проживающих на острове Умлаудвиль. Если бы вы знали, как варьируется рост между людьми, вы бы смогли подсчитать, сколько людей вам потребуется обследовать, чтобы получить результаты при 95%-ной доверительной вероятности с точностью до двух дюймов. Лучший пример такой ситуации — когда рост вообще не варьируется. Если все жители острова имеют рост 5 футов и десять дюймов, то сколько людей нужно включить в выборку для определения среднего роста населения? Правильно — одного. То же самое было бы, если бы все принадлежали к одной политической партии, имели бы одинаковое мнение о текущем состоянии экономики и т.д. Проблемы с объемом выборки начинаются только тогда, когда начинаются различия. В реальном мире мы делаем выборку потому, что не знаем, как выглядит вся популяция. Единственный имеющийся у нас ключ к этому знанию — это результаты, полученные на выборке. Специалист по статистике скажет, что мы оцениваем вариации в совокупности по вариациям в выборке. Но если мы не знаем, каковы параметры этих вариаций в совокупности, пока мы не сделаем выборки, то как нам определить объем самой выборки?

К счастью, есть методы, которые помогут нам выбрать объем выборок для конкретной популяции.

В статистике разработаны таблицы объемов выборки, требуемые при конкретной численности популяции при том или ином уровне доверительной вероятности. Эти таблицы также учитывают степень равномерности в распределении измеряемой характеристики.

Например, если вы подсчитываете, какой процент населения имеет голубые глаза, ваши результаты в процентах будут точнее, если они будут редкими, скажем — менее чем у 5% всего населения. Это будет означать, что у вас малая вероятность получить в выборке избыток голубоглазых или, наоборот, получить заниженную более чем на 5% выборку, поскольку процент голубоглазых в выборке не может быть меньше нуля. Однако для большинства опросов исходят из наихудшего варианта распределения, примерно равного 50%.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМа обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными».

Ошибка выборки обусловливается двумя факторами:

1) методом формирования выборки и

2) размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала.

В таком случае для того, чтобы при популяции в 100 000 получить 95%-ную доверительную вероятность того, что действительное распределение будет находиться в пределах 5% различия от результатов выборки, нам потребуется выборка в 384 человека. Для 98%-ной доверительной вероятности объем требуемой выборки возрастет уже до 2345 человек. Если взять популяции большего размера — свыше 500 000, то требуемый размер выборки при 95%-ной доверительной вероятности и ошибки репрезентативности плюс-минус 3% составит 1065 человек: выборка примерно такого объема и используется в большинстве национальных опросов.

Заметьте, что для повышения точности выборки требуется заметное увеличение ее объема. Например, в случае большой популяции для перехода от доверительного интервала плюс-минус 4% к плюс-минус 2% при 95%-ной доверительной вероятности потребуется увеличить объем выборки с 600 до 2390, то есть почти вчетверо.

Ясно, что точность стоит дорого, поскольку затраты на проведение опроса больше всего связаны с объемом выборки. Итак, мы усвоили следующее:

1) для получения выборки необходимо определить генеральную совокупность;

2) надо избрать нужную степень точности;

3) на основе этих двух характеристик мы можем определить необходимый объем выборки.

К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 7).

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования³⁰. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);

2) налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);

3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила проведения социологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более доступными;

♦ отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точнс предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Самый простой способ избежать или уменьшить вероятность ошибки — увеличить размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Можно воспользоваться расчетами Института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Пример.