Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Коэффициент корреляции Пирсона. · Коэффициент корреляции:; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения

Общие положения

· Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)

· Смысл: коэффициент корреляции показывает меру связи случайных величин;

· Область значений коэффициента (допустимые значения): [-1;1];

o отрицательные значения – отрицательная связь (монотонно убывающая);

o если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что

o для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.

Коэффициент корреляции Пирсона

· Расчетная формула:

· Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.

o надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.

o (n – размер одной из выборок);

o смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;

· Проблема: чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.

· Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые

 

15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий χ2 К.Пирсона. Примеры применения в политологии. (прошлый год)

· Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).

Таблица сопряженности:

A\B  
 
  • Величины n в правом крайнем столбце – суммы значений n по строкам,
  • Величины n нижней строки таблицы – суммы по столбцам
  • В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.

· Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).

· Алгоритм действий

1. Выдвигаем гипотезу о независимости признаков:

2. Вычисляем ожидаемые частоты по формуле

(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)

3. Вычисляем наблюдаемую вероятность по формуле:

4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы

 

5. Считаем величину, по следующей формуле:

 

 

6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.

 

· Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)

Вопрос №16.

Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)

Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.

Психометрика, биология, коэффициент корреляции.

i yi xi
  y1 x1
  y2 x2
  y3 x3
n yn xn

Задача парной регрессии – описание изменчивости y с помощью изменчивости x.

Y – отклик, эндогенная переменная.

X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.

 

Линейная регрессия:

yi = β0 + β1 * xi + εi – уравнение парной линейной регрессии (простой линейной регрессии).

[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.

Точки – регионы РФ.

Описать взаимосвязь x и y в среднем.

Понять, чему в среднем будет равен y, если x равен конкретному числу.

Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.

yi = β0 + β1 * xi + εi

|________|

yi с крышкой= β0 + β1 * xi – все лежат на прямой, т.к. это уравнение прямой.

|

Это прогнозный отклик.

Мат. ожидание отклика при должном значении предиктора.

yi с крышкой = E (y|xi)

yi = yi с крышкой + ei

ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).

 

Наша цель – подобрать такие β0 и β1, чтобыпрямаялежала наиболее близко к точкам.

1821 – 1822гг. – МНК.

 

yi = β0 + β1 * (xi – x ср.) + εi

Для того чтобы перенести ось в точку среднего значения x из точки (0;0).

 

Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.

НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.

Тогда К. Гаусс предложил брать квадраты.

Ψ = ∑ ei2 → min

Ψ = ∑ (yi – β0 – β1 (xi – x ср.))2 → min

β0, β1

Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.

Решаем систему уравнений:

Ψβ0 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) = 0

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

 

Решаем уравнения по отдельности. Сначала первое.

Ψβ0 = ∑ (– 2 (yi – β0 – β1(xi – x ср.))) = 0

Сокращаем на минус два.

∑ yi – nβ0 – β1∑ (xi – x ср.) = 0

Учитываем, что β1∑ (xi – x ср.) = 0,

т.к. x ср. = ∑ xi /n,

∑ xi = nx ср.

∑ (xi – x ср.) = ∑ xi – x ср.n = x ср.n – x ср.n = 0

 

Тогда

∑ yi – nβ0 = 0

  β0 мнк с крышкой = ∑ yi / n = уср.  

 

 

МНК-оценка β0 – наша оценка значения β0 с помощью МНК, МНК-оценка первого коэффициента модели.

 

МНК-оценка β1

Решаем второе уравнение из системы.

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

Сокращаем на минус два.

∑ ((yi – y ср.) *(xi – x ср.) – β1 (xi – x ср.)2) = 0

∑ ((yi – y ср.) *(xi – x ср.)) – β1 ∑ (xi – x ср.)2 = 0

  β1 мнк с крышкой = ∑ ((yi – y ср.) *(xi – x ср.)) / ∑ (xi – x ср.)2  

 

β1 мнк с крышкой = R * (∑ (yi – y ср.)2)0,5 / (∑ (xi – x ср.)2)0,5,

где R – коэффициент корреляции Пирсона.

 

Рассмотрим на примере.

Допустим,

β0 мнк с крышкой = 25

β1 мнк с крышкой = 0,7

yi = 25 + 0,7xi + exi

yi с крышкой = 25 + 0,7xi

 

Интерпретации МНК-оценок коэффициентов модели

Интерпретация β1 мнк с крышкой.

С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.

Интерпретация β0 мнк с крышкой.

Если x = 0, то в среднем при прочих равных условиях y = 25.

Позволяет нам прогнозировать. И показать, насколько у зависим от x.

 

В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.

За счет чего? За счет случайности ei.

 

Предположения Гаусса – Маркова на ei.

  1. ei – случайная величина, у которой E(ei) = 0.

yi = β0 + β1xi + ei,

где β0 + β1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!

  1. ei – случайная величина, у которой D(ei) = ς12 = ς22

Предположение о гомоскедастичности остатков.

Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).

– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.

Гомоскедастичность – нет зависимости.

  1. Corr (ei; ej) = 0 для любого i≠j. Предположение об отсутствии АК.
  2. Corr (ei; xi) = 0.

Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).

И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):

5*. Ei ~ N (0; ς2). Это значит, что все значимое в модели мы учли.

 

Теорема Гаусса – Маркова.

Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.

 

Если мы предполагаем случайность величин оценок β0 мнк с крышкой и β1 мнк с крышкой, то они распределены нормально.

β0 мнк с крышкой ~ N (β0; ς2/n)

β1 мнк с крышкой ~ N (β1; ς2/∑ (xi – x ср.)2)

А β0 мнк и β1 мнк сами по себе константы и никакого распределения не имеют.

 

Насколько хороша модель?

Показателем качества модели является коэффициент детерминации.

[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].

Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.

 

F – критерий.

H0: достаточно константы (модель плоха).

VS H1: модель лучше константы.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия. И определяем распределение статистики при нулевой гипотезе.

F = R2 / [(1 – R2) / (n – 2)] ~ F (1; n-2),

где n – число наблюдений.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий F: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

 

Можно ли считать β1 мнк с крышкой отличным от нуля?

yi = β0 + β1 * xi + εi

Формулируем нулевую гипотезу.

H0: β1 мнк с крышкой = 0.

VS H1: β1 мнк с крышкой ≠ 0.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия, определяем ее распределение при нулевой гипотезе:

t = [β1 мнк с крышкой / с.о. (β1)] ~ t (n – 2) при нулевой гипотезе,

где с.о. – это станд. ошибка, 2 станд. откл.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий е: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

 

 

Доп. лекция по регрессии:

Условным мат. ожидание y при условии x называется мат. ожидание y при конкретном значении x.

  E (Y| X=x) = ∑ yi P (X=yi|X=x)

E (Y| X) = β0 + β1xi

Регрессия, по сути, представляет собой модель условного мат. ожидания.

yi = E (Y| X) + ei

(yi – y ср.) = β0* + β1*(xi – x ср.) + ei

 

Регрессия не выявляет причинно-следственных связей, их задает сам исследователь при постановке задачи.

 

Разложение вариации.

Качество регрессии определяется тем, в какой мере отклонения y от своего у ср. определяются отклонениями x от своего x ср., т.е. тогда, когда доля вариации y, обусловленная вариацией x, высока.

Вариация y – оценка дисперсии y.

 

1/n ∑ (yi – y ср.)2 = 1/n ∑ (yi – yi с крышкой)2 + 1/n ∑ (yi с крышкой – y ср.)2

Общ. сумм. кв. Остаточная сумма кв. Объясн. сумм. кв.

TSS RSS ESS

TSS = RSS + ESS

 

Критерий качества модели (коэф. детерминации).

Коэф. дет. – доля объясн. вар. отклика.

R2 = ESS / TSS = (TSS – RSS) / TSS = 1 – RSS/TSS

RSS = ∑ (ei)2

 

F-критерий (критерий Фишера).

H0: R2 = 0

VS H1: R2 > 0

Альфа = 0,05.

Статистика критерия:

F = (ESS/1) / [RSS/(n – 2)], что есть частный случай от (ESS/k) / [RSS/(n – k – 1)].

F ~ F (1, n – 2) при нулевой гипотезе.

 



<== предыдущая лекция | следующая лекция ==>
Інтегрування за допомогою заміни змінної та частинами | Прочитайте речь в телеэфире известного художника-дизайнера. Перечислите, какие виды логических ошибок вы видите?
Поделиться с друзьями:


Дата добавления: 2016-12-18; Мы поможем в написании ваших работ!; просмотров: 424 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Своим успехом я обязана тому, что никогда не оправдывалась и не принимала оправданий от других. © Флоренс Найтингейл
==> читать все изречения...

2351 - | 2153 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.01 с.