Общие положения
· Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)
· Смысл: коэффициент корреляции показывает меру связи случайных величин;
· Область значений коэффициента (допустимые значения): [-1;1];
o отрицательные значения – отрицательная связь (монотонно убывающая);
o если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что
o для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.
Коэффициент корреляции Пирсона
· Расчетная формула:
· Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.
o надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.
o (n – размер одной из выборок);
o смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;
· Проблема: чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.
· Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые
15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий χ2 К.Пирсона. Примеры применения в политологии. (прошлый год)
· Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).
Таблица сопряженности:
A\B | ||||
- Величины n в правом крайнем столбце – суммы значений n по строкам,
- Величины n нижней строки таблицы – суммы по столбцам
- В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.
· Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).
· Алгоритм действий
1. Выдвигаем гипотезу о независимости признаков:
2. Вычисляем ожидаемые частоты по формуле
(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)
3. Вычисляем наблюдаемую вероятность по формуле:
4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы
5. Считаем величину, по следующей формуле:
6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.
· Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)
Вопрос №16.
Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)
Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.
Психометрика, биология, коэффициент корреляции.
i | yi | xi |
y1 | x1 | |
y2 | x2 | |
y3 | x3 | |
… | … | … |
n | yn | xn |
Задача парной регрессии – описание изменчивости y с помощью изменчивости x.
Y – отклик, эндогенная переменная.
X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.
Линейная регрессия:
yi = β0 + β1 * xi + εi – уравнение парной линейной регрессии (простой линейной регрессии).
[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.
Точки – регионы РФ.
Описать взаимосвязь x и y в среднем.
Понять, чему в среднем будет равен y, если x равен конкретному числу.
Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.
yi = β0 + β1 * xi + εi
|________|
yi с крышкой= β0 + β1 * xi – все лежат на прямой, т.к. это уравнение прямой.
|
Это прогнозный отклик.
Мат. ожидание отклика при должном значении предиктора.
yi с крышкой = E (y|xi)
yi = yi с крышкой + ei
ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).
Наша цель – подобрать такие β0 и β1, чтобыпрямаялежала наиболее близко к точкам.
1821 – 1822гг. – МНК.
yi = β0 + β1 * (xi – x ср.) + εi
Для того чтобы перенести ось в точку среднего значения x из точки (0;0).
Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.
НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.
Тогда К. Гаусс предложил брать квадраты.
Ψ = ∑ ei2 → min
Ψ = ∑ (yi – β0 – β1 (xi – x ср.))2 → min
β0, β1
Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.
Решаем систему уравнений:
Ψβ0 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) = 0
Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0
Решаем уравнения по отдельности. Сначала первое.
Ψβ0 = ∑ (– 2 (yi – β0 – β1(xi – x ср.))) = 0
Сокращаем на минус два.
∑ yi – nβ0 – β1∑ (xi – x ср.) = 0
Учитываем, что β1∑ (xi – x ср.) = 0,
т.к. x ср. = ∑ xi /n,
∑ xi = nx ср.
∑ (xi – x ср.) = ∑ xi – x ср.n = x ср.n – x ср.n = 0
Тогда
∑ yi – nβ0 = 0
β0 мнк с крышкой = ∑ yi / n = уср. |
МНК-оценка β0 – наша оценка значения β0 с помощью МНК, МНК-оценка первого коэффициента модели.
МНК-оценка β1
Решаем второе уравнение из системы.
Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0
Сокращаем на минус два.
∑ ((yi – y ср.) *(xi – x ср.) – β1 (xi – x ср.)2) = 0
∑ ((yi – y ср.) *(xi – x ср.)) – β1 ∑ (xi – x ср.)2 = 0
β1 мнк с крышкой = ∑ ((yi – y ср.) *(xi – x ср.)) / ∑ (xi – x ср.)2 |
β1 мнк с крышкой = R * (∑ (yi – y ср.)2)0,5 / (∑ (xi – x ср.)2)0,5,
где R – коэффициент корреляции Пирсона.
Рассмотрим на примере.
Допустим,
β0 мнк с крышкой = 25
β1 мнк с крышкой = 0,7
yi = 25 + 0,7xi + exi
yi с крышкой = 25 + 0,7xi
Интерпретации МНК-оценок коэффициентов модели
Интерпретация β1 мнк с крышкой.
С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.
Интерпретация β0 мнк с крышкой.
Если x = 0, то в среднем при прочих равных условиях y = 25.
Позволяет нам прогнозировать. И показать, насколько у зависим от x.
В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.
За счет чего? За счет случайности ei.
Предположения Гаусса – Маркова на ei.
- ei – случайная величина, у которой E(ei) = 0.
yi = β0 + β1xi + ei,
где β0 + β1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!
- ei – случайная величина, у которой D(ei) = ς12 = ς22
Предположение о гомоскедастичности остатков.
Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).
– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.
Гомоскедастичность – нет зависимости.
- Corr (ei; ej) = 0 для любого i≠j. Предположение об отсутствии АК.
- Corr (ei; xi) = 0.
Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).
И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):
5*. Ei ~ N (0; ς2). Это значит, что все значимое в модели мы учли.
Теорема Гаусса – Маркова.
Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.
Если мы предполагаем случайность величин оценок β0 мнк с крышкой и β1 мнк с крышкой, то они распределены нормально.
β0 мнк с крышкой ~ N (β0; ς2/n)
β1 мнк с крышкой ~ N (β1; ς2/∑ (xi – x ср.)2)
А β0 мнк и β1 мнк сами по себе константы и никакого распределения не имеют.
Насколько хороша модель?
Показателем качества модели является коэффициент детерминации.
[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].
Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.
F – критерий.
H0: достаточно константы (модель плоха).
VS H1: модель лучше константы.
Определяем уровень значимости. Пусть альфа = 0,05.
Вводим статистику критерия. И определяем распределение статистики при нулевой гипотезе.
F = R2 / [(1 – R2) / (n – 2)] ~ F (1; n-2),
где n – число наблюдений.
Определяем доверительную зону (по таблице).
Рассчитываем наблюденное значение статистики.
Принимаем решение.
Критерий F: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.
Можно ли считать β1 мнк с крышкой отличным от нуля?
yi = β0 + β1 * xi + εi
Формулируем нулевую гипотезу.
H0: β1 мнк с крышкой = 0.
VS H1: β1 мнк с крышкой ≠ 0.
Определяем уровень значимости. Пусть альфа = 0,05.
Вводим статистику критерия, определяем ее распределение при нулевой гипотезе:
t = [β1 мнк с крышкой / с.о. (β1)] ~ t (n – 2) при нулевой гипотезе,
где с.о. – это станд. ошибка, 2 станд. откл.
Определяем доверительную зону (по таблице).
Рассчитываем наблюденное значение статистики.
Принимаем решение.
Критерий е: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.
Доп. лекция по регрессии:
Условным мат. ожидание y при условии x называется мат. ожидание y при конкретном значении x.
E (Y| X=x) = ∑ yi P (X=yi|X=x) |
E (Y| X) = β0 + β1xi
Регрессия, по сути, представляет собой модель условного мат. ожидания.
yi = E (Y| X) + ei
(yi – y ср.) = β0* + β1*(xi – x ср.) + ei
Регрессия не выявляет причинно-следственных связей, их задает сам исследователь при постановке задачи.
Разложение вариации.
Качество регрессии определяется тем, в какой мере отклонения y от своего у ср. определяются отклонениями x от своего x ср., т.е. тогда, когда доля вариации y, обусловленная вариацией x, высока.
Вариация y – оценка дисперсии y.
1/n ∑ (yi – y ср.)2 = 1/n ∑ (yi – yi с крышкой)2 + 1/n ∑ (yi с крышкой – y ср.)2
Общ. сумм. кв. Остаточная сумма кв. Объясн. сумм. кв.
TSS RSS ESS
TSS = RSS + ESS
Критерий качества модели (коэф. детерминации).
Коэф. дет. – доля объясн. вар. отклика.
R2 = ESS / TSS = (TSS – RSS) / TSS = 1 – RSS/TSS
RSS = ∑ (ei)2
F-критерий (критерий Фишера).
H0: R2 = 0
VS H1: R2 > 0
Альфа = 0,05.
Статистика критерия:
F = (ESS/1) / [RSS/(n – 2)], что есть частный случай от (ESS/k) / [RSS/(n – k – 1)].
F ~ F (1, n – 2) при нулевой гипотезе.