МНК с учетом стандартной ошибки в форме Уайта и Нью-веста

Первоначально, для определения влияния различных показателей на стоимость полиса автострахования каско, была определена выборка из 65 наблюдений. Далее были проведены процедуры включения и исключения переменных для установления наилучшей модели. Как оказалось, итоговая модель отвечает всем требованиям линейной регрессии, т.е остатки нормальны и гомоскедостичны. Однако не всегда можно получить такой результат. В таком случае используется ряд методов, позволяющих избежать проблем гетероскедостичности и автокорреляции, а так же позволяющих уменьшить стандартные ошибки.

Итак, проанализируем другую выборку из 50 наблюдений по первоначальным показателям. После проведения процедур включения/исключения переменных, была выбрана следующая модель: Таблица 17 Наилучшая регрессия

После проверки остатков на гетероскедастичность, было выявлено следующее:

Таблица 18 Тесты Спирмена и Уайта.

В модели присутствует гетероскедастичность остатков. Улучшить оценку можно двумя способами – представлением стандартных ошибок в форме Уайта и Ньюи-Веста, результаты проведения которых отражены ниже:

Таблица 19 Поправки Уайта и Нью-Веста

По сравнению с МНК, использование поправки Уайта позволило уменьшить стандартную ошибку коэффициента регрессии b₁ (с 0,0003 до 0,00279)[3]. Стандартная ошибка коэффициента b₀ так же уменьшилась (на 24,38). Все коэффициенты значимы.

Использование поправки Ньюи-Веста не дало ожидаемых результатов, и стандартная ошибка обоих коэффициентов возросла по сравнению с поправкой Уайта, но уменьшилась, по сравнению с МНК. Все коэффициенты по-прежнему значимы.

Метод взвешенных наименьших квадратов.

Были построены две модели с весом и .

Таблица 20 Тесты на гетероскедастичность

Гипотеза о гетероскедастичности отвергается и в первом и во втором случае тестом Уайта и тестом Бреуша-Пагана, т.к. наблюдаемое значение меньше критического. То есть проделанная процедура оказалось полезной и нам удалось уйти от гетероскедастичности остатков.

Процедура Кохрана-Оркатта

Если не известен параметр ρ, то применяют ДОМНК процедуры – оценивают ρ и используют его в МНК. Процедура Кохрана-Оркатта имеет итеративный характер, и ее сходимость теоретически доказана.

Процедура:

1. МНК-оценка исходной модели;

2. МНК-оценка авторегрессии остатков;

3. Получение оценки ρ;

4. Авторегрессионное преобразование исходной модели;

5. Переход к приближению ρ

Данная процедура повторяется пока процесс не стабилизируется и пока ρ не будет мало отличаться от предыдущего. Авторегрессионное преобразование выглядит следующим образом:

В нашем случае достаточно было осуществить одну итерации для стабилизации ρ:

Таблица 21 процедуры Кохрана-Оркатта

Построение регрессии по новой модели также позволило определить, что ее коэффициенты значимы. Сразу заострим внимание на том, что коэффициент детерминации значительно возрос, практически приблизившись к 1. Стандартные ошибки коэффициентов регрессии снизилась по сравнению с исходной моделью. Следовательно, получившаяся с помощью процедур Кохрана-Оркатанна лучше, чем исходная и поправленная модель предпочтительнее, так как увеличилась доля объясненной дисперсии (фактически учли еще один фактор, который вызывал автокорреляцию ошибок) и снизились стандартные ошибки коэффициентов регрессии.

Фиктивные переменные.

Среди водителей был проведен опрос, в котором спрашивалось, какой автомобиль они хотели бы себе купить/уже купили с учетом ух опыта вождения. При этом важно, что спрашивалась цена, которую водители объективно готовы заплатить, а не ту, которую хотели бы иметь.

По данным опроса 50 водителей, исследуем зависимость стоимости автомобиля (y, руб.) от возраста водителя (лет), с учетом его опыта вождения (лет). Построим регрессионную модель:

Таблица 22 Регрессия

Формальное применение метода наименьших квадратов с включением стажа показывает, что влияние опыта водителя и его возраста на стоимость имеющегося автомобиля не значимо. На уровне значимости 17% можно говорить о влиянии возраста автовладельца на его выбор, однако, не учитывается его стаж.

Чтобы учесть показатель стажа, нужно либо сгруппировать водителей по «опытности» и построить для каждой группы свою модель, либо ввести фиктивные переменные.

Сгруппируем водителей по следующему признаку:

1. От 0 до 2 лет вождения - «новичок»

2. От 2 до 5

3. От 5 до 10

4. Свыше 10 - «опытный»

Таблица 23 группировка 1

Первый подход к построению регрессионной модели следует отвергнуть из-за малого числа наблюдений в группах. Можно, правда, уменьшить число групп.

Например, проведем следующее деление:

Таблица 24 группировка 2

Регрессионный анализ для первой группы позволяет сделать качественные выводы, поскольку все коэффициенты, как и все уравнение – значимы на уровне значимости 0,005.

Таблица 25 Регрессионная модель 1й группы

То есть, с увеличением стажа водителя категории «новичок» на один год, цена выбираемого им автомобиля увеличивается на 24232 рубля, а с увеличением возраста на год – стоимость повышается на 11118,2 руб. Коэффициент b0 в данном случае не имеет экономической интерпретации.

Для второй группы таких выводов сделать нельзя, т.к. не все коэффициенты регрессии значимы.

Таблица 26 Регрессионная модель 2-й группы

Возможно, неадекватность модели вызвана малым объемом выборки.

Таким образом, группировка и отдельные модели не позволяют решить задачу учета влияния обоих факторов на объясняемую переменную.

Построим модель с использованием дамми-переменной d:

Эта переменная имеет смысл «опытности» водителя.

Уравнение будет иметь вид:

Значение равно разности между оценками условных математических ожиданий объясняемой переменной для указанных групп данных. Оно и определяет структурный сдвиг в этих данных.

В результате оценивания уравнения с дамми-переменной получаем, что модель значима на уровне значимости 0,05, причем, фактор «опытности» значим на уровне 6,6%.

Таблица 27 Регрессия с дамми-переменными

Средняя стоимость предпочитаемого автомобиля опытными водителями больше стоимости авто «новичков» на 75865руб.

Теперь введем перекрестную дамми-переменную dx.Тогда уравнение примет вид:

Значение равно разности между оценками коэффициентов регрессии для указанных групп данных и характеризует усиление или ослабление влияния регрессора на объясняемую переменную для данных группы с d=1 относительно данных группы с d=0.

В результате оценивания уравнения с перекрестной дамми-переменной получаем, что модель значима на уровне значимости 0,05, причем, фактор «опытности» незначим.

Таблица 28 Регрессия с перекрестными дамми-переменными

Оценивание модели показывает, что влияние стажа на стоимость приобретаемого автомобиля связано с положением водителя в той или иной группе. Однако коэффициент значим на уровне значимости 36,7%, таким результатам доверять не стоит. Это может объясняться неудачной группировкой выборки, например, группу «опытных водителей» можно определять от 8ми или от 5ти лет стажа вождения.

Исследуем влияние стажа на стоимость автомобиля с учетом конкретного количества лет опыта вождения. Чтобы избежать громоздкости вычисления, рассмотрим только первую группу (водители с опытом от 0 до 5 лет). Заметим, что базовой группой (значения всех di равно 0) является группа водителей, не имеющих стажа вождения вообще.

Введем 5 фиктивных переменных d_i, (i=1,2,3,4,5):

Значение равно разности между оценками условных математических ожиданий объясняемой переменной для данных группы с d₁=1 и данных базовой группы.

Таблица 29 Модель с 5 фиктивными переменными для 1 группы

Модель значима на уровне значимости 0,05, однако не все коэффициенты регрессии значимы.

Для выбора оптимальной модели можно использовать пошаговые алгоритмы включения-исключения факторов.

Например, построим модель только с d₁.

Таблица 30 Регрессионная модель с 1й фиктивной переменной

Для водителя, который сдал на права год назад, цена автомобиля превышает среднее значение для базовой группы (тех, у кого стаж вождения 0 лет). Имеет место значимое (на уровне значимости 0,05) влияние стажа на стоимость предпочитаемого авто.

Используем перекрестные дамми-переменные.

Таблица 31 Регрессионная модель с дамми-переменными и перекрестными дамми-переменнымими

Уравнение в целом значимо на уровне значимости 8%. Однако использовать ее нельзя, т.к коэффициенты регрессии незначимы.

Улучшим модель, использую процедуры отбора регрессоров.

Далее приводятся некоторые частные случаи вариантов регрессии с интерпретацией результатов оценок параметров.

Таблица 32 Частный вариант регрессии

Вся модель значима на уровне значимости 0,05. Однако коэффициенты при d1 и d1x1 незначимы. Это может быть связанно с мультиколлинеарностью – коэффициент корреляции r между ними равен 0,997.

Таблица 33 Частный вариант регрессии

Вся модель значима на уровне значимости 0,01. Все коэффициенты значимы. Наличие двухлетнего опыта оказывает отрицательное влияние возраста на стоимость предпочитаемого автомобиля. Стоимость автомобиля у человека со стажем два года почти на 29 тыс. ниже, чем у водителя с однолетним стажем. Такие выводы допустимы для исследуемой группы с логической точки зрения. Эта модель так же является наилучшим из всех уравнений с различной комбинацией фиктивных переменных (т.к. в большинстве остальных моделей коэффициенты регрессии не значимы).

Интерпретация модели.

Итак, сделаем обобщения проведенного анализа.

В первой части исследования была дана общая характеристика нашей модели - дескриптивная статистика, а также проведен корреляционный анализ, который позволил выявить, что стоимость полиса автострахования КАСКО наиболее тесно связан со стоимостью автомобиля, причем зависимость положительная, что было продемонстрировано на диаграмме 5.

Во второй части работы была отражена процедура выбора регрессоров и функциональной формы модели. Первоначально была построена регрессионная модель с учетом всех исследуемых факторов: пробег и возраст автомобиля, стаж и возраст водителя, стоимость машины и курс доллара. Однако мы получили не значимость большинства коэффициентов регрессии при значимости всего уравнения. Поэтому были проведены процедуры включения и исключения переменных, что позволило определить наилучшую модель. Было определено, что стоимость полиса автострахования значимо зависит только от цены автомобиля и стажа наименее опытного водителя (из всех исследуемых факторов).

Далее был использован метод главных компонент, который позволил разбить все факторы на три группы: технические характеристики автомобиля, характеристики водителя и стоимость автомобиля + курс доллара.

Кроме того, полученная модель была проверена на линейность с помощью RESET-теста, который ее подтвердил. А с помощью теста Чоу, была проверена однородность нашей выборки. Было установлено, что водителей с разным стажем лучше исследовать отдельно.

Далее была проведена проверка спецификации ошибок. Модель была протестирована на гетероскедастичность и автокорреляцию остатков с помощью разных тестов, которые не подтвердили их наличие.

Таким образом, было установлено, что построенная модель полностью соответствует требованиям линейной регрессионной модели. Тогда ее коэффициенты можно интерпретировать следующим образом. При увеличении стоимости автомобиля на 1 руб, то стоимость полиса КАСКО возрастет на 0,0015 долларов, а при росте стажа водителя, который будет вписан в страховку на 1 год, стоимость полиса снижается на 32,88 доллара.

При этом, при росте цены автомобиля на 1%, цена полиса увеличивается на на 6,106 %, а при росте стажа наименее опытного водителя на 1% ВВП цена полиса падает на 1,73%.

В данной модели дисперсия стоимости полиса автострахования каско объясняется на 47,8 % - не очень высоким, но достаточным значением.

Дальнейшее улучшение модели возможно за счет значительного увеличения выборки, а так же за счет расширения исследуемых факторов (например изучение влияния способа страхового возмещения при наступлении страхового случая).

Приложение.

Коррелограмма в Eviews
Date: 04/18/12 Time: 17:03
Sample: 1 50
Included observations: 50

Autocorrelation	Partial Correlation	AC	PAC	Q-Stat	Prob

.*\|. \|	.*\|. \|		-0.099	-0.099	0.5189	0.471
. \|** \|	. \|** \|		0.224	0.216	3,23	0.198
. \|*. \|	. \|*. \|		0.102	0.149	3,81	0.283

Поправка Уайта

Dependent Variable: Y
Method: Least Squares
Date: 03/19/12 Time: 22:51
Sample: 1 50
Included observations: 50
White heteroskedasticity-consistent
standard errors & covariance

Variable	Coefficient	Std. Error	t-Statistic	Prob.

X	0.001332	0.000279	4.770149	0.0000
C	858.6429	190,616	4.504567	0.0000

R-squared	0.283791	Mean dependent var	1758.603
Adjusted R-squared	0.268870	S.D. dependent var	498.9732
S.E. of regression	426.6528	Akaike info criterion	14.98900
Sum squared resid	8737566.	Schwarz criterion	15.06548
Log likelihood	-372.7249	Hannan-Quinn criter.	15.01812
F-statistic	19.01952	Durbin-Watson stat	2.123530
Prob(F-statistic)	0.000068

Поправка Нью-Веста

Dependent Variable: Y
Method: Least Squares
Date: 03/19/12 Time: 22:55
Sample: 1 50
Included observations: 50
HAC standard errors & covariance (Bartlett kernel,
Newey-West fixed bandwidth = 4.0000)

Variable	Coefficient	Std. Error	t-Statistic	Prob.

X	0.001332	0.000289	4.606784	0.0000
C	858.6429	206.8015	4.152015	0.0001

R-squared	0.283791	Mean dependent var	1758.603
Adjusted R-squared	0.268870	S.D. dependent var	498.9732
S.E. of regression	426.6528	Akaike info criterion	14.98900
Sum squared resid	8737566.	Schwarz criterion	15.06548
Log likelihood	-372.7249	Hannan-Quinn criter.	15.01812
F-statistic	19.01952	Durbin-Watson stat	2.123530
Prob(F-statistic)	0.000068

[1] Статистика Дарбина-Уотсона: d_L и d_U, уровень значимости 5% n = 50. http://crow.academy.ru/econometrics/materials_/Tables_/DW-distr.htm

[2] Значения, представленные в таблице Z-теста подтверждаются коррелогромой Eviews (см. приложение)

[3] Приложение