Соответствующий статистический вывод включает определение тесноты и значимости связи между YnX. Тесноту связи измеряют коэффициентом детерминации г2. В парной регрессии г2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент г2 изменяется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией переменной X. Разложение полной вариации переменной Y аналогично разложению полной вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SSy раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии .' и вариацию ошибки или остаточную вариацию, 33ошибки или $8жтаточная\
Рис. 17.5 Разложение полной вариации в парной регрессии
где
55П<
55.
tfr-tf
Тесноту связи вычислим следующим образом: 55„
55 у — 55остаточная
Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента парной корреляции видно, что
у=]Г(у;- у)' =120,9168
Теоретическое значение Yk можно определить на основании уравнения регрессии Отношение (Y,) = 1,0793 + 0,5897 (длительность проживания) Для первого наблюдения в табл. 17.1 это значение равно
(Г. ,) = 1,0793 + 0,5897 х 10 = 6,9763
Для каждого последующего наблюдения теоретические значения будут следующими (в п рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,386 11,1042; 2,2587. Следовательно,
(8,1557 - 6 + (8,1557 -+ (5,7969 -+ (11,6939 + (11,1042 = 0,1544 + + 3,8643 -f + 0,0387 +
-?)2 = (6,9763 - 6,5833)2 + (8,1557 - 6,5833)2
,5833)2 + (3,4381 - 6,5833)2 6,5833)2 + (4,6175 - 6,5833)2 6,5833)2 + (2,2587 - 6,5833)2
- 6,5833)2 + (6,6866 - 6,5833)2
- 6,5833)2 + (2,2587 - 6,5833)2 2,4724 + 2,4724 + 9,8922 + 2,4724 0,6184 + 18,7021 + 21,1182 20,4385 + 18,7021 = 105,9522
ОС_
= (6 - 6,9763)2 + (9 - 8,1557)2+ (8 - 8Д557)2
+ (3 - 3,4381)2 + (8 - 8,1557)2+ (4 - 4,6175)2
+ (5 - 5,7969)2 + (2 - 2,2587)2 4- (П - 11,6939)2
+ (9 - 6,3866)2 + (10 - 11Д042)2 + (2 - 2,2587)2 = 14,9644
Видно, что SSy = SSpupKCUU + 55жтаточная. Кроме того,
105,9524 120,9168
= 0,8762
Другой равноценной проверкой значимости линейной зависимости между X и (значимости Ь) является проверка значимости коэффициента детерминации. В этом случае г: потезы имеют следующий вид:
U. П2
"О" с Lf. D2
п 1 ' Л со
совокупности
= Q
v
Совокупности
Соответствующей статистикой, лежащей в основе критерия, является /"-статистика:
которая подчиняется F- распределению с 1 и п — 2 степенями свободы. F-критерий представл ет собой обобщенную форму ^-критерия (см. главу 15). Если случайная переменная подчиняе ся /-распределению с л-степенями свободы, то значения f- подчиняются /'-распределению с 1 л-степенями свободы. Следовательно,.Г-критерий для проверки значимости коэффициен детерминации эквивалентен проверке следующих гипотез:
Я0:Д=0 Я,:Д*0 или Я„:р=0
Из табл. 17.2 видно, что
105,9522
= (105.9522+14.9644)=7°'8027' это равно ранее рассчитанному значению. Вычисленное значение F-статистики равно:
F=-
105,9522
- = 70,8027
(105,9522 + 14,9644)
с 1 и 10 степенями свободы. Вычисленное значение /"-статистики превышает критическое зь чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зав
имость статистически значима при уровне значимости ос = 0,05, подтверждая результаты про-ерки с помощью /-критерия. Если зависимость между А'и Y статистически значима, то имеет мысл вычислить значения У, исходя из значений X, и оценить точность предсказания.
Гочность предсказания
Чтобы оценить точность предсказанных (теоретических) значений Y, полезно вычислить тандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой тандартное отклонение фактических значений У от предсказанных значений Y:
ли, в более общем виде, при наличии k независимых переменных
SEE = in-k-\
SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку редсказания У, исходя из уравнения регрессии [11].
Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-ение У для всех вариантов с заданным значением X, скажем Х0, или значение У для одного лучая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное
Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является >ункцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У >авна SEE/^fn, а ошибка предсказания отдельного значения У равна SEE. Следовательно, юстроение доверительных интервалов (см. главу 12) для предсказанных значений варьи->ует в зависимости от того, необходимо ли предсказать единственное значение наблюде-[ия или среднее значение.
Для данных табл. 17.2 SEE вычисляют по формуле
14,9644
SEE =
= 1,22329
(12-2)
Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-аточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к гредпосылкам, лежащим в основе регрессионной модели.