Регрессия определяет математическую зависимость между зависимой переменной (отклик) и одной или более независимыми переменными (предикторами).
Регрессионный анализ с помощью коэффициента регрессии позволяет количественно прогнозировать изменения одной переменной при изменении другой. Для описания связи могут использоваться различные математические функции:
■ линейная
■ экспоненциальная
■ логистическая
Простая линейная регрессия или множественная регрессия могут применяться для непрерывных признаков, например, давление, вес.
Логистическая регрессия применима в тех случаях, когда зависимые признаки являются бинарными (например, умер/жив, выздоровел/не выздоровел).
Линейная регрессия
Математическое уравнение, которое оценивает линию простой линейной регрессии:
Y=a+bx.
х - называется предиктором – независимой или объясняющей переменной.
Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).
а — свободный член (пересечение) линии оценки; это значение Y, когда х =0.
b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5).
Например: при увеличении температуры тела человека на 1oС, частота пульса увеличивается в среднем на 10 ударов в минуту.
b называют коэффициентом регрессии
Рисунок 5 Линия линейной регрессии, показывающая пересечение а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)
Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии.
Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).
Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.
Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.
Пример
Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.
Рисунок 6 Двухмерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.
Уравнение линии оценённой регрессии имеет следующий вид:
САД=46,28+0,48 х рост.
В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр
Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28+(0,48х115)=101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28+(0,48х130)=108,68 мм рт. ст.
При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r2 =0,552=0,3. Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.
Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:
y = a + bx1+b2x2 +.... + bnхn
Можно интересоваться результатом влияния нескольких независимых переменных х1 х2,.., хn на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.
Пример
Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотношение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.
Уравнение множественной регрессии в этом случае может иметь такой вид:
САД=79,44 –(0,03 х рост)+ (1,18 х вес) + (4,23 х пол)*
* - (для признака пол используют значения 0 – мальчик, 1 - девочка)
Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:
САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.
Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.
Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь»=1, «не имеет болезни»=0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии.— натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни»(1-p).
Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии
logit (p) = a + bx1+b2x2 +.... + bnхn
•. logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х1... хn имеет заболевание;
• а — оценка константы (свободный член, пересечение);
• b1, b2,..., bn — оценки коэффициентов логистической регрессии.
9. Тестовые задания по теме:
1. ТЕРМИН «КОРРЕЛЯЦИЯ» В СТАТИСТИКЕ ПОНИМАЮТ КАК:
а) связь, зависимость
б) отношение, соотношение
в) функцию, уравнение
г) коэффициент
Правильный ответ а
2. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СРЕДНЕЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:
а) r=0,13
б) r=0,45
в) r=0,71
г) r=1,0
Правильный ответ б
3.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ R = - 0,82 ГОВОРИТ О ТОМ, ЧТО КОРРЕЛЯЦИОННАЯ СВЯЗЬ:
а) прямая, средней силы
б) обратная, слабая
в) прямая, сильная
г) обратная, сильная
Правильный ответ г
4. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ В ДИАПАЗОНЕ ОТ 0 ДО 0,3 СИЛА СВЯЗИ ОЦЕНИВАЕТСЯ, КАК:
а) слабая
б) средняя
в) сильная
г) полная
Правильный ответ а
5. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СИЛЬНОЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:
а) r= - 0,25
б) r=0,62
в) r= - 0,95
г) r= 0,55
Правильный ответ в
6. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ИЛИ УМЕНЬШЕНИЕ ЗНАЧЕНИЯ ОДНОГО ПРИЗНАКА ВЕДЕТ К УВЕЛИЧЕНИЮ ИЛИ УМЕНЬШЕНИЮ – ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД СВЯЗИ:
а) прямая
б) обратная
в) полная
г) неполная
Правильный ответ а
7.ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ОДНОГО ПРИЗНАКА ДАЕТ УМЕНЬШЕНИЕ ВТОРОГО ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД КОРРЕЛЯЦИОННОЙ СВЯЗИ:
а) прямая
б) обратная
в) полная
г) неполная
Правильный ответ б
8.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА ОПРЕДЕЛЯЕТ:
а) статистическую значимость различий между переменными
б) степень разнообразия признака в совокупности
в) силу и направление связи между зависимой и независимой переменными
г) долю дисперсии результативного признака объясняемую влиянием независимых переменных
Правильный ответ в
9.УСЛОВИЕМ ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА ЯВЛЯЕТСЯ:
а) распределение переменных неизвестно
б) нормальное распределение по крайней мере, одной из двух переменных
в) по крайней мере, одна из двух переменных измеряется в ранговой шкале
г) отсутствует нормальное распределение переменных
Правильный ответ б
10.РАНГОВЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЭНА РАССЧИТЫВАЕТСЯ, КОГДА:
а) присутствует нормальное распределение переменных
б) необходимо оценить связь между качественными и количественными признаками
в) необходимо определить статистическую значимость различий между переменными
г) необходимо оценить степень разнообразия признака в совокупности
Правильный ответ б
11. ЗАВИСИМОСТЬ, КОГДА КАЖДОМУ ЗНАЧЕНИЮ ОДНОГО ПРИЗНАКА СООТВЕТСТВУЕТ ТОЧНОЕ ЗНАЧЕНИЕ ДРУГОГО, НАЗЫВАЕТСЯ:
а) прямой
б) обратной
в) корреляционной
г) функциональной
Правильный ответ г
12. ЗАВИСИМОСТЬ, КОГДА ПРИ ИЗМЕНЕНИИ ВЕЛИЧИНЫ ОДНОГО ПРИЗНАКА ИЗМЕНЯЕТСЯ ТЕНДЕНЦИЯ (ХАРАКТЕР) РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ДРУГОГО ПРИЗНАКА, НАЗЫВАЕТСЯ:
а) прямой
б) обратной
в) корреляционной
г) функциональной
Правильный ответ в
13. ДЛЯ ИЗОБРАЖЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ИСПОЛЬЗУЕТСЯ ГРАФИК:
а) линейный
б) график рассеяния точек
в) радиальный
г) динамический
Правильный ответ б
14.ЕСЛИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАВЕН 1, ТО СВЯЗЬ ЯВЛЯЕТСЯ:
а) сильной, прямой
б) сильной обратной
в) средней, прямой
г) полной (функциональной), прямой
Правильный ответ г
15. СВЯЗЬ МЕЖДУ Y И X МОЖНО ПРИЗНАТЬ БОЛЕЕ СУЩЕСТВЕННОЙ ПРИ СЛЕДУЮЩЕМ ЗНАЧЕНИИ ЛИНЕЙНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:
а) r= 0,35
б) r= 0,15
в) r= -0,57
г) r=0,46
Правильный ответ в
16. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИСПОЛЬЗУЕТСЯ ДЛЯ ИЗУЧЕНИЯ:
а) взаимосвязи явлений
б) развития явления во времени
в) структуры явлений
г) статистической значимости различий между явлениями
Правильный ответ а
17. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:
а) от 0 до 1
б) от -1 до 0
в) от -1 до 1
г) любые положительные
Правильный ответ в
18. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:
а) от 0 до 1
б) от -1 до 0
в) от -1 до 1
г) любые положительные
Правильный ответ а
19. В РЕЗУЛЬТАТЕ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА ПОЛУЧАЮТ УРАВНЕНИЕ, ОПИСЫВАЮЩЕЕ... ПОКАЗАТЕЛЕЙ:
а) взаимосвязь
б) соотношение
в) структуру
г) темпы роста
Правильный ответ а
20. ЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ ФАКТОРАМИ ИССЛЕДУЕТСЯ С ПОМОЩЬЮ УРАВНЕНИЯ РЕГРЕССИИ:
а)
б)
в)
г)
Правильный ответ а
21. ПАРАМЕТР b (b= 0,016) ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПОКАЗЫВАЕТ, ЧТО:
а) с увеличением признака "х" на 1 признак "у" увеличивается на 0,678
б) с увеличением признака "х" на 1 признак "у" увеличивается на 0,016
в) с увеличением признака "х" на 1 признак "у" уменьшается на 0,678
г) с увеличением признака "х" на 1 признак "у" уменьшается на 0,016
Правильный ответ б
22.НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:
а) вариантой
б) уровнем
в) предиктором
г) переменной отклика
Правильный ответ в
23.ЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:
а) вариантой
б) уровнем
в) предиктором
г) переменной отклика
Правильный ответ г
24.ДЛЯ ПРОГНОЗИРОВАНИЯ ИЗМЕНЕНИЯ БИНАРНЫХ ПРИЗНАКОВ ПРИМЕНЯЕТСЯ СЛЕДУЮЩИЙ ВИД РЕГРЕССИИ:
а) линейная
б) экспоненциальная
в) полиноминальная
г) логиситческая
Правильный ответ г
25.ДЛЯ ОЦЕНКИ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПРИЗНАКАМИ ПРИМЕНЯЕТСЯ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ:
а) Пирсона
б) Спирмена
в) Кендела
г) Чупрова
Правильный ответ б
26. ДОЛЮ ВАРИАЦИИ ПРИЗНАКА-РЕЗУЛЬТАТА, СЛОЖИВШУЮСЯ ПОД ВЛИЯНИЕМ НЕЗАВИСИМОГО ПРИЗНАКА ОБЪЯСНЯЕТ КОЭФФИЦИЕНТ:
а) корреляции Пирсона
б) корреляции Спирмэна
в) детерминации
г) вариации
Правильный ответ в
27. ДЛЯ ИЗУЧЕНИЯ СВЯЗИ, В КОТОРОЙ ПРИСУТСТВУЕТ БОЛЕЕ ОДНОЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ ИСПОЛЬЗУЕТСЯ:
а) линейная регрессия
б) множественная регрессия
в) ранговая корреляция Спирмэна
г) расчет темпа прироста
Правильный ответ б
28.ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ СПИРМЭНА НЕОБХОДИМО:
а) расположить переменные в порядке возрастания
б) расположить переменные в порядке убывания
в) возвести переменные в квадрат
г) присвоить переменным в порядке возрастания последовательные ранги (номера 1, 2, 3,.., n)
Правильный ответ г
29.ЗАВИСИМОСТЬ ВЕСА ОТ РОСТА ЧЕЛОВЕКА (РОСТО-ВЕСОВОЙ ИНДЕКС) ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ:
а) логистической регрессии
б) множественной регрессии
в) экспоненциальной регрессии
г) линейной регрессии
Правильный ответ г
30. ЗАВИСИМОСТЬ ПОЛОЖИТЕЛЬНОГО ИЛИ ОТРИЦАТЕЛЬНОГО РЕЗУЛЬТАТА ЛЕЧЕНИЯ ОТ РЯДА ФАКТОРОВ ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ::
а) логистической регрессии
б) множественной регрессии
в) экспоненциальной регрессии
г) линейной регрессии
Правильный ответ а
31. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ИЗМЕРЯЕТСЯ В:
а) процентах
б) тех же единицах, что и изучаемый признак
в) промилле
г) не имеет единиц измерения
Правильный ответ г
32. ИЗ НИЖЕПЕРЕЧИСЛЕННЫХ ВЕЛИЧИН ДЛЯ ОПРЕДЕЛЕНИЯ РАЗМЕРА ОДНОГО ПРИЗНАКА ПРИ ИЗМЕНЕНИИ ДРУГОГО НА ЕДИНИЦУ ИЗМЕРЕНИЯ ПРИМЕНЯЕТСЯ:
а) среднеквадратическое отклонение;
б) коэффициент корреляции;
в) коэффициент регрессии;
г) коэффициент вариации.
Правильный ответ в