Этап 3. Нахождение взаимосвязи между данными
Обычно при анализе связи между двумя случайными величинами желательно одну из них (скажем, Х) считать независимой, а другую (Y) – зависимой. Задача заключается в установлении такой связи между предиктором Х и предиктантом Y, которая позволила бы получить значения с наименьшей ошибкой.
Простейшим является случай, когда двумерное распределение или точечная диаграмма указывает на линейную связь между Х и Y. Тогда выражение = a + bX будет хорошо удовлетворять исходным данным и будет называться линией регрессии. Прямую регрессии можно провести на глаз так, чтобы она как можно ближе проходила около средних значений различных столбцов (при условии, что Х нанесено по горизонтали, а Y – по вертикали).
Наиболее часто для оценки коэффициентов линии регрессии используется метод наименьших квадратов. Этот метод был разработан в начале XIX в. в трудах Лежандра, Лапласа и Гаусса и применен ими для решения метрологических проблем астрономии и геодезии. Согласно определению, сумма квадратов отклонений отдельных величин Yi от значений, предсказываемых с помощью линии регрессии, является минимальной.
Пусть есть n пар значений случайных величин (Xi, Yi), n > 2. Известно, что между этими случайными величинами существует линейная зависимость = kX+b. Константы этой функции a и b надо определить аналитически. При этом требуется, чтобы разность между отдельными значениями случайной величины Yi и значениями , вычисленными из уравнения, была возможно меньше, т.е. отыскивается наиболее оптимальная функция. Следовательно, рассеяние точек относительно линии регрессии должно быть меньше, чем относительно любой другой прямой.
Коэффициенты регрессии вычисляются по формулам:
, (1)
. (2)
Иногда коэффициентом регрессии называют только угловой коэффициент k, т.к. зная его можно определить отрезок b, отсекаемый линией регрессии по оси ординат. При этом используется весьма важное свойство линии регрессии, что она проходит через среднюю точку (центр) двумерного распределения лежащую при значениях и .
, ,
или
(3)
|
Величины k и b являются статистическими параметрами, полученными из выборки, а не параметрами генеральной совокупности. На практике желательно знать, насколько репрезентативна для будущих данных, взятых из генеральной совокупности, полученная из выборки линия регрессии (т.е. насколько точным будет прогноз, составленный с помощью такого уравнения регрессии). С помощью статистической теории можно показать, в какой степени величины k и b отражают соответствующие параметры генеральной совокупности. В общем, чем больше наблюдений и чем меньше разброс точек относительно линии регрессии, тем надежнее величины k и b.
Степень несогласованности (разброса) наблюдаемых значений случайных величин и линией регрессии может быть оценена с помощью величины дисперсии, определяемой по формуле:
. (4)
Здесь число степеней свободы f = n – 2, т.к. две степени свободы были использованы для определения параметров прямой.
Обычно вычисление дисперсии производят, пользуясь формулой, большая часть членов в которой подсчитывается при определении параметров линии регрессии:
, (5)
или .
Мы рассмотрели примеры аппроксимации дискретных рядов случайных величин. Можно аппроксимировать и интервальные (сгруппированные) ряды случайных величин. Исходные данные в этом случай группируются с частотами mx,y. На их основе, используя центральные значения каждой градации, рассчитываются групповые параметры S Y, S X, S X2, S XY, которые затем используются в формулах (1)-(2) для определения коэффициентов регрессии методом наименьших квадратов. Линия регрессии в этом случае конечно будет хуже отражать закономерности связи по сравнению с дискретными измерениями.