Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Простая линейная регрессия.

ПОСТРОЕНИЕ УРАВНЕНИЙ РЕГРЕССИИ.

МОДУЛЬ MULTIPLE REGRESSION СИСТЕМЫ STATISTICA.

 

Цель занятия:

1. Изучить структуру и назначение статистического модуля Multiple Regression системы STATISTICA.

2. Освоить основные приемы работы в модуле Multiple Regression системы STATISTICA.

3. Освоить процедуру построения линейной регрессии в модуле Multiple Regression.

4. Самостоятельно решить задачу о нахождении коэффициентов линейной регрессионной модели.

 

Общие положения.

Статистический модуль Multiple Regression – Множественная регрессия включает в себя набор средств проведения регрессионного анализа данных.

 

Линейный регрессионный анализ.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением зависимостей между группами числовых переменных X º (x 1 ,..., xp) и Y = (y 1 ,..., ym).

Предполагается, что Х - независимые переменные (факторы) влияют на значения Y - зависимых переменных (откликов). По имеющимся эмпирическим данным (Xi, Yi), i = 1,..., n требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X. Искомая функция записывается в следующем виде: f (X) = f (X, q) + e, где q - неизвестный многомерный параметр, e - случайная составляющая с нулевым средним, f (X, q) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.

 

Простая линейная регрессия.

Функция f (x, q) имеет вид f (x, q) = A + bx, где q = (A, b) - неизвестные параметры. Относительно имеющихся наблюдений (xi, yi), где i = 1,..., n, полагаем, что yi = A + bxi + ei. e1 ,..., e n – ошибка вычисления Y по принятой модели. Для нахождения параметров широко используют метод наименьших квадратов.

Значения параметров модели находят из уравнения:

= min по (A, b)

Чтобы упростить формулы, положим xi = xi - ; получим:

yi = a + b (xi - ) + ei, i = 1,..., n,

где = , a = A + b . Сумму минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение () легко находится:

, где ,

.

Свойства оценок. Нетрудно показать, что если M e i = 0, D e i = s2, то

1) M = а, М = b, т.е. оценки несмещенные;

2) D = s2 / n, D = s2 / ;

3) cov () = 0;

если дополнительно предположить нормальность распределения e i, то

4) оценки и нормально распределены и независимы;

5) остаточная сумма квадратов

Q 2 =

независима от (, ), а Q 2 / s2 распределена по закону хи-квадрат с n -2 степенями свободы.

 

Вызов статистического модуля Multiple Regression – Множественная регрессия выполним используя пиктограмму в левом нижнем углу (рис.1). В стартовом диалоговом окне этого модуля (рис. 2) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные.

В поле MD deletion указывается способ исключения из обработки недостающих данных:

casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;

mean Substitution - взамен пропущенных данных подставляются средние значения переменных;

pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.

При необходимости выборочного включения данных для анализа следует воспользоваться кнопкой select cases.

Рисунок – 1 Вызов статмодуля Multiple Regression

 

Рисунок – 2 Диалоговое окно Multiple Regression

После выбора всех параметров анализа нажмите кнопку OK.


Стандартная линейная модель имеет вид:

Y = a1 + a2X1 + + a3X2 + + a3X3 + ……+ + anXn

Нажатие на кнопку ОК приведет к появлению окна Multiple Regressions Results (результаты регрессионного анализа) (рис. 3), с помощью которого можно просмотреть результаты анализа в деталях.

Рисунок – 3 Окно Multiple Regressions Results (результаты регрессионного анализа)

 

Окно результатов имеет следующую структуру. Верхняя часть окна – информационная. Нижняя часть окна – содержит функциональные кнопки, позволяющие получить дополнительную информацию об анализе данных.

В верхней части окна приводятся наиболее важные параметры полученной регрессионной модели:

Dependent – имя зависимой переменной (Y);

Multiple R - коэффициент множественной корреляции;

Характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.

R2 или RI - коэффициент детерминации;

Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше R2, тем большую долю вариации объясняют переменные, включенные в модель.

No. Of Cases – число случаев, по которым построена регрессия;

adjusted R - скорректированный коэффициент множественной корреляции;

Этот коэффициент лишен недостатков коэффициента множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает RI не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение RI и adjusted R2.

adjusted R2 или adjusted RI - скорректированный коэффициент детерминации;

Скорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении

F - F-критерий;

df - число степеней свободы для F-критерия;

p - вероятность нулевой гипотезы для F-критерия;

Standard error of estimate - стандартная ошибка оценки (уравнения);

Intercept - свободный член уравнения, параметр а1;

Std.Error - стандартная ошибка свободного члена уравнения;

t - t-критерий для свободного члена уравнения;

p - вероятность нулевой гипотезы для свободного члена уравнения.

Beta - b-коэффициенты уравнения.

Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно сравнить и оценить значимость зависимых переменных, так как b-коэффициент показывает на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

При помощи кнопок диалогового окна Multiple Regressions Results (рис. 3) результаты регрессионного анализа можно просмотреть более детально.

Кнопка Summary: Regression results - позволяет просмотреть основные результаты регрессионного анализа (рис. 4, 5): BETA - b-коэффициенты уравнения; St. Err. of BETA - стандартные ошибки b-коэффициентов; В - коэффициенты уравнения регрессии; St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии; t (95) - t-критерии для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Рисунок - 4

Таким образом в результате проведенного регрессионного анализа получено следующее уравнение взаимосвязи между откликом (Y) и независимой переменной (Х):

Y = 17,52232 – 0,06859Х

Свободный коэффициент уравнения значим на 5% уровне (p-level < 0,05). Коэффициентом при Х следует пренебречь. Это уравнение объясняет только 0,028% (R2 = 0,000283) вариации зависимой переменной.

 

Рисунок - 5

 

Рассмотрите пример оптовых цен за одну бутылку марочного вина (зависимая переменная) от года закладки вина (независимая переменная).

 

Множественная регрессия.



<== предыдущая лекция | следующая лекция ==>
Министерство образования и науки, молодежи и спорта Украины | Методы построение изолиний поверхности.
Поделиться с друзьями:


Дата добавления: 2016-12-06; Мы поможем в написании ваших работ!; просмотров: 722 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

В моем словаре нет слова «невозможно». © Наполеон Бонапарт
==> читать все изречения...

2187 - | 2151 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.01 с.