Гипотетические отношения между получением образования в колледже и политическим мировоззрением для мужчин

Образование в колледже	Мировоззрение
Либералы (%)	Консерваторы (%)	Общее число респондентов
Получили Не получили Всего:	33 (5) 67 (10) 100 (15)	57 (20) 43 (15) 100 (35)	(25) (25) (50)

Таблица 16.3.

Гипотетические отношения между получением образования в колледже и политическим мировоззрением для женщин

Образование в колледже	Мировоззрение
Либералы (%)	Консерваторы (%)	Общее число респондентов
Получили Не получили Всего:	43 (15) 57 (20) 100 (15)	67 (10) 33 (5) 100 (15)	(25) (25) (50)

При условии правильной обработки, такой подход к многомерному анализу может очень хорошо помочь в оценке гипотез. Однако у него есть существенные ограничения. Во-первых, он очень громоздкий, и получаемые результаты трудно интерпретировать, если используемые переменные имеют много возможных уровней. Именно поэтому непрактично применять это метод для анализа интервальных переменных; его также трудно использовать для многих номинальных и одноуровневых переменных. Например, чтобы сравнить независимую и зависимую переменную, каждая из которых содержит 5 уровней, и при этом проконтролировать их с помощью третьей переменной с 10 уровнями, потребуется анализ 10 таблиц по [c.441] 25 ячеек в каждой. И хотя в нашем распоряжении может иметься исключительно большая и разнообразная выборка, множество ячеек в таблицах останется незаполненным, что может сделать невозможным вычисление некоторых мер связи и значимости. Мы могли бы попытаться избежать этого путем объединения определенных категорий переменных, чтобы уменьшить число уровней и сократить число необходимых таблиц и ячеек (как в том случае, когда мы сократили меру “годы учения” до дихотомии “менее 12 лет” и “12 лет и более”). Тем не менее, это означает, что имеющаяся в первоначальных данных часть информации, которая может оказаться важной, будет потеряна, что может привести к искажению результатов. Более того, с такой же проблемой мы можем столкнуться даже и после того, как мы объединили категории, – в том случае, если мы попытаемся сразу добавить для контроля несколько переменных, чтобы проверить комбинированный эффект различных переменных. Во-вторых, даже если мы можем выполнить такой анализ, его результаты трудно будет ввести в оборот, так как модель выглядит достаточно сложно, и кроме того, не существует обобщающей статистики, позволившей бы суммировать полученные в итоге данные.

К счастью, существует ряд статистических приемов, которые предназначены специально для многомерного анализа и которые можно использовать для решения широкого круга задач; их результаты сравнительно легко интерпретируются. Они особенно ценны, так как обладают возможностями проверки гипотез (позволяют анализировать взаимосвязи двух переменных с учетом воздействия других переменных на каждую константу), но главное их достоинство заключено в тех способах, которыми они помогают нам уяснить сложную и хрупкую сеть взаимосвязей, в которую вплетены социальные явления. В этой главе мы познакомим вас с тремя наиболее часто используемыми способами многомерного анализа, с тем чтобы вы знали, когда и как применять их в своих исследованиях, и, читая научные труды, могли судить о том, как их применяют другие. Мы выбрали эти методы из всего множества возможных потому, что (1) они широко применяются, (2) они иллюстрируют некоторые основные принципы многомерного анализа и (3) все они основаны на [c.442] одних и тех же базовых математических приемах и могут быть поэтому объяснены легче, чем те, которые требуют привлечения разных математических приемов. [c.443]

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Все, что говорилось о двумерной корреляции и регрессии в гл.15, может быть распространено на те случаи, когда вы хотите изучить взаимосвязи между одной независимой (НП) и несколькими зависимыми переменными (ЗП). Цель множественной регрессии – обеспечить (1) подсчет независимого воздействия изменений в значениях каждой ЗП на значения НП и (2) эмпирический базис, чтобы предсказать значения зависимой переменной на основе знания совместного влияния НП.

Анализ начинается с составления уравнения, которое, на ваш взгляд, точно описывает исследуемые вами причинные связи. Поскольку это уравнение можно рассматривать как модель исследуемого процесса, это шаг расценивается как построение модели. Оно заключается в переводе вашей вербальной теории явления на язык математических уравнений. Общая формула множественной регрессии такова:

Y’ = а ₀ + b ₁ X ₁ + b ₂ X ₂… +… b _n X _n + e.

В ней вы можете узнать несколько расширенное уравнение двумерной регрессии, описанной в гл.15. Понимание этого уравнения может облегчить конкретный пример.

Скажем, мы заинтересованы в проверке верности заявления, что выборы в сенат США могут быть “куплены” путем вклада средств в кампанию в прессе. Для этого попытаемся объяснить процент полученных кандидатом голосов следствием (1) количества средств, вложенных в рекламу в средствах массовой информации, и (2) долей среди всех имеющих право выбора людей той же партийной принадлежности, что и кандидат. Начнем со следующей простой модели процесса выборов:

Y’ = а ₀ + b ₁ X ₁ + b ₂ X ₂ + e,

где Y’ – предполагаемая доля голосов, полученных кандидатом;
а ₀ – среднее значение Y, если каждая независимая переменная равна 0; [c.443]
b ₁ – среднее изменение Y на единицу измерения Х (количество средств, вложенных в рекламу), когда воздействия остальных переменных постоянны;
X₁ – количество средств, вложенных кандидатом в рекламу (в 1000 долларов);
b ₂ – среднее изменение Y' на единицу изменения X ₂(доля выборщиков той же партийной принадлежности, что и кандидат), когда воздействия остальных переменных постоянны;
X₂ – доля выборщиков той же партийной принадлежности, что и кандидат;
е – погрешность, означающая любое колебание Y ₁, не вызванное изменением независимой переменной в модели.

Можно попытаться проверить точность этой модели, собрав достоверные данные о борьбе за 100 мест в сенате США. Однако для того, чтобы применение методики множественной регрессии к этой или любой другой задаче оказалось удачным, необходимо, чтобы наша модель, а также данные, с помощью которых мы хотим проверить все это, удовлетворяли пяти требованиям, которые лежат в основе применения регрессии.

1. Модель должна точно соответствовать (точно описывать реальные исследуемые взаимосвязи). Для этого необходимо, чтобы (а) связь между переменными была линейна, (б) ни одна важная независимая переменная не была исключена и (в) ни одна не имеющая отношения к делу переменная не была включена.

2. Не должно быть ошибок в измерении переменных.

3. Переменные должны быть измерены в интервальной шкале.

4. Для погрешности необходимы следующие условия:
а) ее среднее геометрическое (предположительное значение для каждого наблюдения) равно 0;
б) погрешности для каждого наблюдения не коррелируют,
в) НП не коррелируют с погрешностью;
г) отклонение погрешности всегда постоянно для всех значений НП; это условие называется гомоскедастичностью;
д) погрешность имеет нормальное распределение.

5. Ни одна из НП не коррелирует четко с любой другой НП или с любой линейной комбинацией других НП. Если [c.444] это так, то говорят, что нет четкой мультиколлинеарности ².

Если наше исследование достаточно полно удовлетворяет этим условиям ³, мы можем подставить вместо Y’, X ₁ и X ₂ наши конкретные значения и решить уравнение регрессии, описывающее предположения относительно неизвестных значений a ₁, b ₁и b ₂ используя метод подсчета наименьших квадратов. Вот один из гипотетических результатов такого решения:

Y = 10 + 0,1 X ₁ + 1 X ₂.

[c.445]