По выполнению лабораторной работы

Цель работы

1. Изучить методику проведения однофакторного корреляционного и регрессионного анализа.

2. Сформировать практические навыки проведения однофакторного корреляционного и регрессионного анализа.

3. Построить уравнение регрессии, определить коэффициенты регрессии, коэффициент корреляции, коэффициент детерминации.

4. Оценить значимость коэффициентов регрессии и уравнения регрессии.

Краткая теория

Связь между явлениями классифицируется по ряду признаков, которые делятся на два класса: факторные, вызывающие измененияявлений, и результативные, изменяющиеся под влиянием факторных. Связи между явлениями и признаками классифицируются по степени тесноты, направлению, аналитическому выражению и количеству факторов, действующих на результативный признак.

Рассматривается выборка двух взаимосвязанных дискретных случайных величин X и Y. Пара , где соответствует i -й точке (i -му опыту). Здесь n – объем парной выборки.

Для удобства последующего использования табличные (опытные) данные моделируют некоторой функцией, которую называют уравнением регрессии:

Процедура построения регрессионной (статистической) модели предусматривает, во-первых, выбор функции .

В качестве функции чаще всего используют полином:

(5.1)

где − коэффициенты регрессии ; k − порядок полинома.

На втором этапе построения модели определяют коэффициенты регрессии . Это осуществляется путем аппроксимации опытных точек.

Уравнение регрессии позволяет вычислить ожидаемое значение функции Y для опытных значений :

(5.2)

Разность между опытным значением и ожидаемым значением составляет ошибку или погрешность функции:

(5.3)

Аппроксимация может быть произведена при разных требованиях к величине . Наиболее распространенным является требование мини-мизации суммы квадратов отклонений опытных точек от линии регрессии. Это требование называют принципом Лежандра, согласно которому коэффициенты регрессии должны быть подобраны так, чтобы сумма:

(5.4)

принимала минимальное значение.

Метод определения коэффициентов регрессии по принципу Лежандра называют методом наименьших квадратов.

Искомые коэффициенты регрессии находятся из решения системы уравнений:

или

Отсюда получается система нормальных уравнений:

(5.5)

В простейшем случае k = 1, то есть полинома первой степени, уравнение регрессии принимает вид:

(5.6)

Система (5.5) также упрощается:

(5.7)

Уравнение (5.6) с коэффициентами регрессии учитывает погрешность функции и не учитывает погрешность фактора. Его называют уравнением прямой регрессии.

0 X

Рис. 5.1. Аппроксимация опытных данных линейным уравнением прямой регрессии

Решим систему (5.7) двух уравнений с двумя неизвестными а ₀ и а ₁:

(5.8)

. (5.9)

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициента регрессии (коэффициента а ₁).

Если знак при коэффициенте регрессии − положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии − отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Для анализа общего качества уравнения регрессии используют обычно множественный коэффициент детерминации R ², называемый также квадратом коэффициента множественной корреляции R. R ² (мера определенности) всегда находится в пределах интервала [0; 1].

Если значение R ² близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата, близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R ² показывает, на сколько процентов найденная функция регрессии описывает связь между исходными значениями факторов X и Y:

где – объясненная вариация; – общая вариация.

Соответственно, величина показывает, сколько процен-тов вариации параметра Y обусловлены факторами, не включенными в регрес-сионную модель. При высоком значении коэффициента детерми-нации можно делать прогноз для конкретного значения .

Множественный R − коэффициент множественной корреляции R − выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона, который вычисляется по формуле:

(5.10)

Коэффициент корреляции может принимать значения в пределах . Функциональной связи отвечает значение . При r = 0 величины X и Y не зависят друг от друга. При связь является вероятностной.

Интерпретация значений r представлена в табл. 5.1, 5.2.

Таблица 5.1

Оценка линейного коэффициента корреляции r по характеру связи

Значение линейного коэффициента связи	Характер связи	Интерпретация связи
r = 0	Отсутствует	–
0 < r < 1	Вероятностная, прямая	С увеличением X увеличивается Y
	Вероятностная, обратная	С увеличением X уменьшается Y и наоборот
r = +1	Функциональная, прямая	Каждому значению факторного признака строго соответствует одно значение функции, с увеличением X увеличивается Y
r = -1	Функциональная, обратная	Каждому значению факторного признака строго соответствует одно значение функции, с увеличением X уменьшается Y и наоборот

Таблица 5. 2

Оценка коэффициента корреляции r по степени тесноты связи

Значение линейного коэффициента связи	Характер связи
До ê ± 0,3 ê	Практически отсутствует
ê ± 0,3 ê – ê ± ê0,5 ê	Слабая
ê ± 0,5 ê– ê ± 0,7 ê	Умеренная
ê ± 0,7 ê– ê ± 1,0 ê	Сильная

Для практического использования моделей регрессии очень важна их адекватность, т.е. соответствие фактическим статистическим данным. Значимость коэффициентов простой линейной регрессии осуществляется с помощью t -критерия Стьюдента. При этом вычисляют расчетные значения t -критерия:

– для параметра a ₀ ; (5.11)

– для параметра a ₁_,(5.12)

где n – объем выборки;

− среднее квадратическое отклонение результативного признака y от выравненных значений ;

− среднее квадратическое отклонение факторного признака x от общей средней .

Вычисленные по формулам (5.11) и (5.12) значения, сравнивают с критическими , которые определяются по таблице Стьюдента (табл. 5.3) с учетом принятого уровня значимости и числом степеней свободы вариации (m − число факторных признаков в уравнении). Обычно в социально-экономических расчетах уровень значимости принимается равным 0,05. При параметр является значимым (существенным). Если в уравнении все коэффициенты регрессии значимы, то данное уравнение признают окончательным и применяют в качестве модели изучаемого показателя для последующего анализа.

Таблица 5.3

Квантили распределения Стьюдента

	Уровни значимости a
0,20	0,10	0,05	0,01
	3,08	6,31	12,71	63,66
	1,89	2,92	4,30	9,93
	1,64	2,35	3,18	5,84
	1,53	2,13	2,78	4,60
	1,48	2,02	2,57	4,03
	1,44	1,94	2,45	3,71
	1,42	1,90	2,37	3,50
	1,40	1,86	2,31	3,36
	1,38	1,83	2,26	3,25
	1,37	1,81	2,23	3,17
	1,34	1,75	2,13	2,95
	1,33	1,73	2,09	2,85
	1,31	1,70	2,04	2,75
	1,30	1,68	2,02	2,70

Проверка значимости уравнения регрессии производится на основе вычисления F- критерия Фишера:

где – среднее квадратическое отклонение результа-тивного признака y от общей средней .

Полученное значение – критерий F _расч сравнивают с критическим (табличным) для принятого уровня значимости a и чисел степеней свободы и . Величины F _табл при различных значениях , и уровнях значимости a приведены в табл. 5.4. Уравнение регрессии значимо, если F _расч > F _табл.

Это означает, что доля вариации, обусловленная регрессией, намного превышает случайную ошибку. Принято считать, что уравнение регрессии пригодно для практического использования в том случае, если F _расч превышает табличное не менее чем в 4 раза.

Таблица 5.4

Значения по распределению Фишера

при уровне значимости = 0,05


161,4	199,5	215,7	224,6	230,2	234,0
18,51	19,00	19,16	19,25	19,30	19,33
10,13	9,55	9,28	9,12	9,01	8,94
7,71	6,94	6,59	6,39	6,26	6,16
6,61	5,79	5,41	5,19	5,05	4,95
5,99	5,14	4,76	4,53	4,39	4,28
5,59	4,74	4,35	4,12	3,97	3,87
5,32	4,46	4,07	3,84	3,69	3,58
5,12	4,26	3,86	3,63	3,48	3,37
4,96	4,10	3,71	3,48	3,33	3,22
4,84	3,98	3,59	3,36	3,20	3,09
4,75	3,88	3,49	3,26	3,11	3,00
4,67	3,80	3,41	3,18	3,02	2,92
4,60	3,74	3,34	3,11	2,96	2,85

Методические рекомендации

по выполнению лабораторной работы

Для проведения регрессионного анализа и прогнозирования необходимо:

1) построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости;

2) выбрать вид функции регрессии, которая может описывать связь исходных данных;

3) определить численные коэффициенты функции регрессии методом наименьших квадратов;

4) оценить силу найденной регрессионной зависимости на основе коэффициента детерминации R ²;

5) сделать прогноз (при или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.