Параметры a, b уравнения линейной регрессии y=a+bx можно найти, решая методом Гаусса систему уравнений . Решать систему матричным методом не рекомендуется, так как часто в задачах об аппроксимации эмпирических данных матрица ATA получается плохо обусловленной, и при вычислении обратной к ней матрицы возникают большие погрешности округления.
Для получения уравнения линейной регрессии применяют функции slope(vx,vy) и intercept(vx,vy), где a=intercept(vx,vy), b=slope(vx,vy), vx, vy - векторы значений независимого аргумента x и зависимой переменной y. Пример применения этих функций приведен ниже.
Красная линия отражает заданную зависимость, синяя – линия линейной регрессии. С помощью полученного уравнения можно находить значения y в промежуточных точках заданного интервала значений (u(1,5))и во внешних точках этого интервала (u(5)).
6. Получить уравнение множественной линейной регрессии. Построить графики.
Решение в программе Excel
Изучается влияние стоимости основных и оборотных средств на величину валового дохода торговых предприятий. Для этого по 12 торговым предприятиям были получены данные:
Номер предприятия | Валовой доход за год, млн. руб. | Среднегодовая стоимость, млн. руб | |
основных фондов | оборотных средств | ||
Чтобы составить систему линейных уравнений для нахождения коэффициентов уравнения y=a+b1x1+b2x2, заполним таблицу:
№ | y | x1 | x2 | x1^2 | x1*x2 | x2^2 | x1*y | x2*y |
Σ |
Решим систему линейных уравнений:
a=-24,023; b1=0.3829; b2=1.6774
Т.о. получили уравнение
y=0.3829x1+1.6774x2 – 24,023,
определяющее теоретическое значение y (теор).
x1 | x2 | y | y( теор) | │ y-y (теор)│ |
197,29 | 5,7138 | |||
80,633 | 17,6326 | |||
73,066 | 28,0659 | |||
100,8 | 12,2018 | |||
44,387 | 76,6134 | |||
98,903 | 10,9028 | |||
110,97 | 0,973 | |||
93,907 | 37,9074 | |||
x1 | x2 | y | y(теор) | Ιy-y(теор)Ι |
80,014 | 0,014 | |||
212,75 | 24,252 | |||
167,62 | 7,6217 | |||
90,662 | 15,6616 |
Очевидно, что полученное уравнение достаточно хорошо аппроксимирует исходные данные.
Уравнение линейной множественной регрессии можно также получить с помощью встроенной статистической функции ЛИНЕЙН, которая определяет параметры линейной регрессии y=a+b1x1+…+bmxm, причем в этом случае будет выводиться дополнительная регрессионная статистика. Порядок вычисления аналогичен случаю парной регрессии:
1. введите исходные данные;
2. выделите область пустых ячеек 5 (m-1) (5 строк, m-1 столбца) для вывода результатов регрессионной статистики или область 1 (m-1) – для получения только оценок коэффициентов регрессии;
3. активизируйте Мастер функций и в категории Статистические выберите функцию ЛИНЕЙН;
4. заполните аргументы функции
известные значения у – диапазон, содержащий данные результативного признака;
известные значения х – диапазон, содержащий данные независимого признака;
5. константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении; если константа=1, то свободный член рассчитывается обычным образом, если константа=0, то свободный член равен 0;
статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если статистика=1, то дополнительная информация выводится, если статистика=0, то выводятся только параметры уравнения;
6. в левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу <F2>, а затем на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.
Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:
Значение коэффициента bm | Значение коэффициента bm-1 | … | Значение коэффициента a |
Среднеквадратическое отклонение bm | Среднеквадратическое отклонение bm-1 | … | Среднеквадратическое отклонение a |
Коэффициент детерминации R2 | Среднеквадратическое отклонение y | ||
F -статистика | Число степеней свободы | ||
Регрессионная сумма квадратов | Остаточная сумма квадратов |
Применяя функцию ЛИНЕЙН(В2:В13, С2:D13, 1, 1), получим
# | y | x1 | x2 | ||||
1,677398105 | 0,382903574 | -24,02304365 | |||||
0,421525183 | 0,253317751 | 28,05754959 | |||||
0,75569291 | 32,65658398 | #Н/Д | |||||
13,91944086 | #Н/Д | ||||||
29688,84437 | 9598,072295 | #Н/Д | |||||
Таким образом y=-24.023+0.382904x1+1.677398x2, что совпадает с результатом, полученным ранее. Как показывает статистика, R2=0.755693, т.е. связь достаточно тесная. С помощью рассмотренной функции можно получить и уравнения нелинейной множественной регрессии, если эти уравнения линейны относительно своих параметров a, b1, …, bm. Например, чтобы получить уравнение y=a+b1x1+b2x2+b3x12+b4x1x2+b5x22, достаточно получить параметры линейной регрессии y=a+b1x1+b2x2+b3z3+b4z4+b5z5, где z3=x12, z4=x1x2, z5=x22.