Теснота и значимость связи

Соответствующий статистический вывод включает определение тесноты и значимости связи между YnX. Тесноту связи измеряют коэффициентом детерминации г². В парной регрессии г² представляет собой квадрат линейного коэффициента корреляции. Коэффициент г² изменяется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией переменной X. Разложение полной вариации переменной Y аналогично разложению полной вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SS_y раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии .' и вариацию ошибки или остаточную вариацию, 33_ошибки или $8_{жтаточная}\

Рис. 17.5 Разложение полной вариации в парной регрессии

где

55_П<

55.

tfr-tf

Тесноту связи вычислим следующим образом: 55„

55 _у — 55остаточная

Чтобы проиллюстрировать определение г², рассмотрим снова влияние продолжительности проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента парной корреляции видно, что

_у=]Г(у;- у)' =120,9168

Теоретическое значение Y_k можно определить на основании уравнения регрессии Отношение (Y,) = 1,0793 + 0,5897 (длительность проживания) Для первого наблюдения в табл. 17.1 это значение равно

(Г. ,) = 1,0793 + 0,5897 х 10 = 6,9763

Для каждого последующего наблюдения теоретические значения будут следующими (в п рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,386 11,1042; 2,2587. Следовательно,

(8,1557 - 6 + (8,1557 -+ (5,7969 -+ (11,6939 + (11,1042 = 0,1544 + + 3,8643 -f + 0,0387 +

-?)² = (6,9763 - 6,5833)² + (8,1557 - 6,5833)²

,5833)² + (3,4381 - 6,5833)²6,5833)² + (4,6175 - 6,5833)²6,5833)² + (2,2587 - 6,5833)²

- 6,5833)² + (6,6866 - 6,5833)²

- 6,5833)² + (2,2587 - 6,5833)²2,4724 + 2,4724 + 9,8922 + 2,4724 0,6184 + 18,7021 + 21,1182 20,4385 + 18,7021 = 105,9522

_ОС_

= (6 - 6,9763)² + (9 - 8,1557)²+ (8 - 8Д557)²

+ (3 - 3,4381)² + (8 - 8,1557)²+ (4 - 4,6175)²

+ (5 - 5,7969)² + (2 - 2,2587)² 4- (П - 11,6939)²

+ (9 - 6,3866)² + (10 - 11Д042)² + (2 - 2,2587)² = 14,9644

Видно, что SS_y = SS_pupKCUU + 55_{жтаточная}. Кроме того,

105,9524 120,9168

= 0,8762

Другой равноценной проверкой значимости линейной зависимости между X и (значимости Ь) является проверка значимости коэффициента детерминации. В этом случае г: потезы имеют следующий вид:

U. П2

"О" с Lf. D2

^п 1 ' ^Л со

совокупности

₌ Q

Совокупности

Соответствующей статистикой, лежащей в основе критерия, является /"-статистика:

которая подчиняется F- распределению с 1 и п — 2 степенями свободы. F-критерий представл ет собой обобщенную форму ^-критерия (см. главу 15). Если случайная переменная подчиняе ся /-распределению с л-степенями свободы, то значения f- подчиняются /'-распределению с 1 л-степенями свободы. Следовательно,.Г-критерий для проверки значимости коэффициен детерминации эквивалентен проверке следующих гипотез:

Я₀:Д=0 Я,:Д*0 или Я„:р=0

Из табл. 17.2 видно, что

105,9522

⁼ (105.9522₊14.9644)⁼⁷°'⁸⁰²⁷' это равно ранее рассчитанному значению. Вычисленное значение F-статистики равно:

F=-

105,9522

- = 70,8027

(105,9522 + 14,9644)

с 1 и 10 степенями свободы. Вычисленное значение /"-статистики превышает критическое зь чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зав

имость статистически значима при уровне значимости ос = 0,05, подтверждая результаты про-ерки с помощью /-критерия. Если зависимость между А'и Y статистически значима, то имеет мысл вычислить значения У, исходя из значений X, и оценить точность предсказания.

Гочность предсказания

Чтобы оценить точность предсказанных (теоретических) значений Y, полезно вычислить тандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой тандартное отклонение фактических значений У от предсказанных значений Y:

ли, в более общем виде, при наличии k независимых переменных

^SEE ⁼ in-k-\

SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку редсказания У, исходя из уравнения регрессии [11].

Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-ение У для всех вариантов с заданным значением X, скажем Х₀, или значение У для одного лучая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное

Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является >ункцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У >авна SEE/^fn, а ошибка предсказания отдельного значения У равна SEE. Следовательно, юстроение доверительных интервалов (см. главу 12) для предсказанных значений варьи->ует в зависимости от того, необходимо ли предсказать единственное значение наблюде-[ия или среднее значение.

Для данных табл. 17.2 SEE вычисляют по формуле

14,9644

SEE =

= 1,22329

(12-2)

Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-аточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к гредпосылкам, лежащим в основе регрессионной модели.