Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Понятие о регрессионном анализе.




Регрессия определяет математическую зависимость между зависимой переменной (отклик) и одной или более независимыми переменными (предикторами).

Регрессионный анализ с помощью коэффициента регрессии позволяет количественно прогно­зировать изменения одной переменной при изменении другой. Для описания связи могут использоваться различные математические функции:

■ линейная

■ экспоненциальная

■ логистическая

Простая линейная регрессия или множественная регрессия могут применяться для непрерывных признаков, например, давление, вес.

Логистическая регрессия применима в тех случаях, когда зависимые признаки являются бинарными (например, умер/жив, выздоровел/не выздоровел).

Линейная регрессия

Математическое уравнение, которое оценивает линию простой линейной регрессии:

Y=a+bx.

х - называется предиктором – независимой или объ­ясняющей переменной.

Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).

а — свободный член (пересечение) линии оценки; это значение Y, когда х =0.

b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5).

Например: при увеличе­нии температуры тела человека на 1oС, частота пульса увеличи­вается в среднем на 10 ударов в минуту.

b называют коэффициентом регрессии

Рисунок 5 Линия линейной регрессии, показывающая пересе­чение а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)

Математически решение уравнения линей­ной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии.

Статистическое использование слова «регрессия» исхо­дит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенден­цию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холе­стерина, крайне высоки (или низки). Если это изме­рение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенден­цию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холесте­рина при втором осмотре, даже если в этот период они не лечились.

Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выражен­ный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.

Пример

Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели ана­лиз парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соот­ношение между ростом и САД.

 

 

 

Рисунок 6 Двухмерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.

Уравнение линии оценён­ной регрессии имеет следующий вид:

САД=46,28+0,48 х рост.

В этом примере свободный член не представля­ет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр

Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28+(0,48х115)=101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28+(0,48х130)=108,68 мм рт. ст.

При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r2 =0,552=0,3. Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.

 

Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:

y = a + bx1+b2x2 +.... + bnхn

Можно интересоваться результатом влияния несколь­ких независимых переменных х1 х2,.., хn на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельно­сти на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величи­ны всех других х.

Пример

Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно­шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.

Уравнение множественной регрессии в этом случае может иметь такой вид:

САД=79,44 –(0,03 х рост)+ (1,18 х вес) + (4,23 х пол)*

* - (для признака пол используют значения 0 – мальчик, 1 - девочка)

Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:

САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.

 

Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определён­ный исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.

Начинают создания бинарной перемен­ной, чтобы представить эти два исхода (например, «имеет болезнь»=1, «не имеет болезни»=0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, посколь­ку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии.— натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни»(1-p).

Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии

logit (p) = a + bx1+b2x2 +.... + bnхn

•. logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором зна­чений для х1... хn имеет заболевание;

• а — оценка константы (свободный член, пересече­ние);

• b1, b2,..., bn — оценки коэффициентов логистической регрессии.


9. Тестовые задания по теме:


1. ТЕРМИН «КОРРЕЛЯЦИЯ» В СТАТИСТИКЕ ПОНИМАЮТ КАК:

а) связь, зависимость

б) отношение, соотношение

в) функцию, уравнение

г) коэффициент

Правильный ответ а

2. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СРЕДНЕЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r=0,13

б) r=0,45

в) r=0,71

г) r=1,0

Правильный ответ б

 

3.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ R = - 0,82 ГОВОРИТ О ТОМ, ЧТО КОРРЕЛЯЦИОННАЯ СВЯЗЬ:

а) прямая, средней силы

б) обратная, слабая

в) прямая, сильная

г) обратная, сильная

Правильный ответ г

4. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ В ДИАПАЗОНЕ ОТ 0 ДО 0,3 СИЛА СВЯЗИ ОЦЕНИВАЕТСЯ, КАК:

а) слабая

б) средняя

в) сильная

г) полная

Правильный ответ а

5. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СИЛЬНОЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r= - 0,25

б) r=0,62

в) r= - 0,95

г) r= 0,55

Правильный ответ в

6. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ИЛИ УМЕНЬШЕНИЕ ЗНАЧЕНИЯ ОДНОГО ПРИЗНАКА ВЕДЕТ К УВЕЛИЧЕНИЮ ИЛИ УМЕНЬШЕНИЮ – ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД СВЯЗИ:

а) прямая

б) обратная

в) полная

г) неполная

Правильный ответ а

7.ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ОДНОГО ПРИЗНАКА ДАЕТ УМЕНЬШЕНИЕ ВТОРОГО ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД КОРРЕЛЯЦИОННОЙ СВЯЗИ:

а) прямая

б) обратная

в) полная

г) неполная

Правильный ответ б

8.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА ОПРЕДЕЛЯЕТ:

а) статистическую значимость различий между переменными

б) степень разнообразия признака в совокупности

в) силу и направление связи между зависимой и независимой переменными

г) долю дисперсии результативного признака объясняемую влиянием независимых переменных

Правильный ответ в

9.УСЛОВИЕМ ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА ЯВЛЯЕТСЯ:

а) распределение переменных неизвестно

б) нормальное распределение по крайней мере, одной из двух переменных

в) по крайней мере, одна из двух переменных измеряется в ранговой шкале

г) отсутствует нормальное распределение переменных

Правильный ответ б

10.РАНГОВЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЭНА РАССЧИТЫВАЕТСЯ, КОГДА:

а) присутствует нормальное распределение переменных

б) необходимо оценить связь между качественными и количественными признаками

в) необходимо определить статистическую значимость различий между переменными

г) необходимо оценить степень разнообразия признака в совокупности

Правильный ответ б

11. ЗАВИСИМОСТЬ, КОГДА КАЖДОМУ ЗНАЧЕНИЮ ОДНОГО ПРИЗНАКА СООТВЕТСТВУЕТ ТОЧНОЕ ЗНАЧЕНИЕ ДРУГОГО, НАЗЫВАЕТСЯ:

а) прямой

б) обратной

в) корреляционной

г) функциональной

Правильный ответ г

12. ЗАВИСИМОСТЬ, КОГДА ПРИ ИЗМЕНЕНИИ ВЕЛИЧИНЫ ОДНОГО ПРИЗНАКА ИЗМЕНЯЕТСЯ ТЕНДЕНЦИЯ (ХАРАКТЕР) РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ДРУГОГО ПРИЗНАКА, НАЗЫВАЕТСЯ:

а) прямой

б) обратной

в) корреляционной

г) функциональной

Правильный ответ в

13. ДЛЯ ИЗОБРАЖЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ИСПОЛЬЗУЕТСЯ ГРАФИК:

а) линейный

б) график рассеяния точек

в) радиальный

г) динамический

Правильный ответ б

14.ЕСЛИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАВЕН 1, ТО СВЯЗЬ ЯВЛЯЕТСЯ:

а) сильной, прямой

б) сильной обратной

в) средней, прямой

г) полной (функциональной), прямой

Правильный ответ г

15. СВЯЗЬ МЕЖДУ Y И X МОЖНО ПРИЗНАТЬ БОЛЕЕ СУЩЕСТВЕННОЙ ПРИ СЛЕДУЮЩЕМ ЗНАЧЕНИИ ЛИНЕЙНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r= 0,35

б) r= 0,15

в) r= -0,57

г) r=0,46

Правильный ответ в

16. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИСПОЛЬЗУЕТСЯ ДЛЯ ИЗУЧЕНИЯ:

а) взаимосвязи явлений

б) развития явления во времени

в) структуры явлений

г) статистической значимости различий между явлениями

Правильный ответ а

17. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:

а) от 0 до 1

б) от -1 до 0

в) от -1 до 1

г) любые положительные

Правильный ответ в

 

18. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:

а) от 0 до 1

б) от -1 до 0

в) от -1 до 1

г) любые положительные

Правильный ответ а

19. В РЕЗУЛЬТАТЕ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА ПОЛУЧАЮТ УРАВНЕНИЕ, ОПИСЫВАЮЩЕЕ... ПОКАЗАТЕЛЕЙ:

а) взаимосвязь

б) соотношение

в) структуру

г) темпы роста

Правильный ответ а

 

20. ЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ ФАКТОРАМИ ИССЛЕДУЕТСЯ С ПОМОЩЬЮ УРАВНЕНИЯ РЕГРЕССИИ:

а)

б)

в)

г)

Правильный ответ а

21. ПАРАМЕТР b (b= 0,016) ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПОКАЗЫВАЕТ, ЧТО:

а) с увеличением признака "х" на 1 признак "у" увеличивается на 0,678

б) с увеличением признака "х" на 1 признак "у" увеличивается на 0,016

в) с увеличением признака "х" на 1 признак "у" уменьшается на 0,678

г) с увеличением признака "х" на 1 признак "у" уменьшается на 0,016

Правильный ответ б

22.НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:

а) вариантой

б) уровнем

в) предиктором

г) переменной отклика

Правильный ответ в

23.ЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:

а) вариантой

б) уровнем

в) предиктором

г) переменной отклика

Правильный ответ г

24.ДЛЯ ПРОГНОЗИРОВАНИЯ ИЗМЕНЕНИЯ БИНАРНЫХ ПРИЗНАКОВ ПРИМЕНЯЕТСЯ СЛЕДУЮЩИЙ ВИД РЕГРЕССИИ:

а) линейная

б) экспоненциальная

в) полиноминальная

г) логиситческая

Правильный ответ г

25.ДЛЯ ОЦЕНКИ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПРИЗНАКАМИ ПРИМЕНЯЕТСЯ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ:

а) Пирсона

б) Спирмена

в) Кендела

г) Чупрова

Правильный ответ б

26. ДОЛЮ ВАРИАЦИИ ПРИЗНАКА-РЕЗУЛЬТАТА, СЛОЖИВШУЮСЯ ПОД ВЛИЯНИЕМ НЕЗАВИСИМОГО ПРИЗНАКА ОБЪЯСНЯЕТ КОЭФФИЦИЕНТ:

а) корреляции Пирсона

б) корреляции Спирмэна

в) детерминации

г) вариации

Правильный ответ в

27. ДЛЯ ИЗУЧЕНИЯ СВЯЗИ, В КОТОРОЙ ПРИСУТСТВУЕТ БОЛЕЕ ОДНОЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ ИСПОЛЬЗУЕТСЯ:

а) линейная регрессия

б) множественная регрессия

в) ранговая корреляция Спирмэна

г) расчет темпа прироста

Правильный ответ б

28.ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ СПИРМЭНА НЕОБХОДИМО:

а) расположить переменные в порядке возрастания

б) расположить переменные в порядке убывания

в) возвести переменные в квадрат

г) присвоить переменным в порядке возрастания последовательные ранги (номера 1, 2, 3,.., n)

Правильный ответ г

29.ЗАВИСИМОСТЬ ВЕСА ОТ РОСТА ЧЕЛОВЕКА (РОСТО-ВЕСОВОЙ ИНДЕКС) ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ:

а) логистической регрессии

б) множественной регрессии

в) экспоненциальной регрессии

г) линейной регрессии

Правильный ответ г

30. ЗАВИСИМОСТЬ ПОЛОЖИТЕЛЬНОГО ИЛИ ОТРИЦАТЕЛЬНОГО РЕЗУЛЬТАТА ЛЕЧЕНИЯ ОТ РЯДА ФАКТОРОВ ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ::

а) логистической регрессии

б) множественной регрессии

в) экспоненциальной регрессии

г) линейной регрессии

Правильный ответ а

 

31. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ИЗМЕРЯЕТСЯ В:

а) процентах

б) тех же единицах, что и изучаемый признак

в) промилле

г) не имеет единиц измерения

Правильный ответ г

 

32. ИЗ НИЖЕПЕРЕЧИСЛЕННЫХ ВЕЛИЧИН ДЛЯ ОПРЕДЕЛЕНИЯ РАЗМЕРА ОДНОГО ПРИЗНАКА ПРИ ИЗМЕНЕНИИ ДРУГОГО НА ЕДИНИЦУ ИЗМЕРЕНИЯ ПРИМЕНЯЕТСЯ:

а) среднеквадратическое отклонение;

б) коэффициент корреляции;

в) коэффициент регрессии;

г) коэффициент вариации.

Правильный ответ в





Поделиться с друзьями:


Дата добавления: 2016-12-18; Мы поможем в написании ваших работ!; просмотров: 1064 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

80% успеха - это появиться в нужном месте в нужное время. © Вуди Аллен
==> читать все изречения...

2272 - | 2124 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.015 с.