Использование фиктивных переменных при построении классической регрессии

Построение регрессионной модели с фиктивными переменными не чем не отличается от построения множественной регрессионной модели

Для иллюстрации использования фиктивных переменных в пространственных моделях обратимся к приложению Р (таблица Р.1), при этом представленный материал содержит две фиктивные переменные:

D1 – характеризует этаж квартире, при этом 0 присваивается квартире с первым или последним этажом, 1 в противном случае;

D2 – характеризует категорию дома, при этом если дом кирпичный то объекту присваивается 1, цифра 0 в противном случае.

Шаг 1. Запускаем модуль Multiple regression далее в окне Multiple Linear Regression установим галочку в опции Review descriptive statistics, correlation matrix. В окне Review Descriptive Statistic необходимо выбрать вкладку Advanced и нажать кнопку Correlations, в результате чего получаем:

Таблица 9.1 – Матрица парных коэффициентов корреляции

	X1	X2	X3	X4	X5	D1	D2	Y
X1	1,000	-0,212	-0,203	0,045	-0,344	0,108	-0,677	-0,440
X2	-0,212	1,000	0,080	0,010	0,012	-0,281	0,104	-0,012
X3	-0,203	0,080	1,000	0,620	0,712	-0,064	0,312	0,743
X4	0,045	0,010	0,620	1,000	0,265	0,049	0,005	0,518
X5	-0,344	0,012	0,712	0,265	1,000	0,107	0,282	0,562
D1	0,108	-0,281	-0,064	0,049	0,107	1,000	-0,075	0,141
D2	-0,677	0,104	0,312	0,005	0,282	-0,075	1,000	0,599
Y	-0,440	-0,012	0,743	0,518	0,562	0,141	0,599	1,000

Согласно приведенной таблице получаем, что наибольшее влияние на зависимую переменную Y (см. столбец Y) оказывают показатели X3 (r_X₂_Y=0,743), X4 (r_X₄_Y= 0,518), X5 (r_X₅_Y= 0,562)и D2 (r_D₂_Y= 0,599). При этом необходимо указать на присутствие мультиколлениарности в данных.

Шаг 2. Переходим в стартовое окно модуля и устанавливаем галочку в опции Advanced options. Выбираем кнопку Variables в качестве зависимой переменной указываем Y в качестве независимых указываем X3, X4, X5 и D2.

Шаг 3. В окне Model Definition в прокрутке Method выберем Backward stepwise (Метод пошагового исключения) и нажмем ОК. Получаем следующие результаты:

Таблица 9.2 – Показатели адекватности множественного уравнения регрессии с фиктивными переменными

	Value
Multiple R	0,837
Multiple R?	0,701
Adjusted R?	0,692
F(2,66)	77,444
p	0,000
Std.Err. of Estimate	5,573

Таблица 9.3 – Результаты оценки множественной линейной регрессии с фиктивными переменными

	Beta	Std.Err. of Betta	B	Std.Err. of B	t(66)	p-level
Intercept			-5,480	4,817	-1,138	0,259
X3	0,616	0,071	1,202	0,138	8,697	0,000
D2	0,407	0,071	8,944	1,556	5,748	0,000

Согласно данным, приведенным в таблицах 9.2 и 9.3, оцененная модель статистически значима по F- критерию Фишера, при этом R² = 0,701 и указывает на высокую адекватность модели.

Согласно параметрам уравнения получаем, что при увеличении общей площади квартиры на 1 м² цен увеличивается на 1,202 тыс. USD.

Проинтерпретировать параметр при фиктивной переменной можно следующим образом – цена за 1 м² в кирпичных домах по сравнению с остальными в среднем выше на 8,94 тыс. USD. Т.е. можно сделать вывод о том, что категория дома оказывает достаточно сильное влияние на стоимость квартиры.

Отобразим на графике линии регрессии квартир в кирпичных домах и остальных, для этого в исходной таблице образуем две новых переменных Y1 и Y2. При этом в поле Long name вносим следующие выражения:

- для Y1 внесем=-5,48+1,202* v3 (выровненные значения для квартир не в кирпичных домах)

- для Y2 внесем=-5,48+1,202* v3 +8,944 (выровненные значения для квартир в кирпичных домах)

Дале в главном меню Graphs ® 2D Graphs ® Scatterplots в появившемся окне 2D Scatterplots выберем кнопку Variables и укажем в поле X: - X3, а в поле Y: - Y1- Y2. Также в этом окне группе Graph Type укажем Multiple, получаем следующий результат:

Рисунок 9.1. – Линии регрессии для моделей зависимости цены квартиры от типа дома

Как видим, приведенные уравнения отличаются друг от друга только свободным членом, а линии регрессии параллельны.

9.4. Выявление сезонности с использованием сезонных фиктивных переменных в модуле Multiple regression

Для выявления описания сезонных колебаний на практике используют фиктивные переменные. При этом модель имеет следующий вид:

= а₀ + а₁t + c₂Z₂ + c₃Z₃ + c₄Z₄ + e_t (9.1)

где:

а₀, а₁, с₂, с₃, с₄ - коэффициенты модели;

В приведенной формуле 1-й квартал взят в качестве эталонной категории, а фиктивные переменные позволят оценить разницу в уровнях сезонности между эталонным кварталом и остальными.

Регрессионная модель, описывающая динамику уровней ряда, относящихся к эталонному 1-му кварталу, примет вид:

y_t=a₀+а₁t

соответственно для наблюдений

2-го квартала y_t=a₀+ а₁t +c₂;

3-го квартала y_t= a₀+ а₁t +c₃;

4-го квартала y_t= a₀+ а₁t +c₄;

Переход из одного квартала в другой будет отражаться лишь в изменении свободного члена регрессионного уравнения и не будет касаться значения параметра b, определяющего угол наклона линейного тренда и характеризующего средний абсолютный прирост уровней ряда под воздействием тенденции.

Найденные значения коэффициентов с₂, с₃, с₄ позволяют оценить «сдвиги» в уровнях за счет фактора сезонности относительно i -го, эталонного квартала. Можно усреднить четыре полученные линии регрессии:

(9.2)

Тогда расстояние между отдельной регрессионной прямой для любого квартала и усредненной моделью, даст оценку сезонных отклонений в этом квартале. Очевидно, что для аддитивной модели сумма сезонных отклонений будет равна нулю.

Рассмотрим реализацию применения фиктивных переменных для моделирования сезонных колебаний в пакете STATISTICA.

В качестве исходных данных используем квартальный ряд динамики ВВП (приложение Р, таблица Р.2) с 1 квартала 1999 г. до 4 квартала 2004 г.

Шаг 1. Для начала проведем визуализацию ряда, для этого в главном меню программы выберем Graphs ® 2D Graphs ® Line Plots (Variables). После выбора переменной (кнопка Variables) на основе которой необходимо построить график (в данном случае это переменная Y), получаем следующий результат:

Рисунок 9.2 - Динамика ВВП России 1 квартала 1999г-4 квартал 2004г

Согласно приведенному графику наблюдается значительный рост показателя за анализируемый период, а также сезонность с пиком в каждом 3 квартале года.

Шаг 2. Для описания сезонных колебаний создадим 4 фиктивных переменных. Для этого переходим в рабочую таблицу и образуем, переменную t – характеризующую моменты (периоды) времени переменные и переменные Z2, Z3 и Z4 – характеризующие сезонность в анализируемом ряду:

Рисунок 9.3 – Рабочая таблица с набором фиктивных переменных (приведена часть исходного окна)

Шаг 3. В главном меню выберем: Statistics ® Multiple Regression (Статистика ® Множественная регрессия). В появившемся окне Multiple Linear Regression необходимо нажать кнопку Variables (Переменные) и указать в качестве зависимой переменной (Dependent var.) Y, а в качестве не зависимых (Independent var.) переменных - t, Z2, Z3 и Z4.

Нажав кнопку ОК, перейдем в следующее окно, содержащее результаты построения модели.

Шаг 4. В появившемся окне Multiple Regression Results выберемкнопку Summary: Regression results (Итоги: Результаты построения регрессии) перейдем к двум таблицам содержащим оцененные параметры модели и основные показатели адекватности построения регрессии.

Таблица 9.4 – Показатели адекватности модели

Statistic Value

Multiple R 0,989

Multiple R? 0,977

Adjusted R? 0,973

F(11,144) 204,893

p 0,000

Std.Err. of Estimate 174,096

Согласно данным, приведенным в таблице 9.5 полученная модель статистически значима по F -критерию Фишера, но параметр при фиктивной переменной Z2 не проходит тест на статистическую значимость по t-критерию Стьюдента.

Таблица 9.5 – Результаты оценивания сезонной модели

Beta Std.Err. of Beta B Std.Err. of B t(19) p-level

Intercept 606,006 91,247 6,641 0,000

t 0,956 0,035 142,156 5,202 27,327 0,000

Z2 0,043 0,042 101,828 100,649 1,012 0,324

Z3 0,168 0,043 398,189 101,051 3,940 0,001

Z4 0,125 0,043 296,600 101,718 2,916 0,009

В общем, опираясь на построенную модель можно сказать, что в анализируемом ряду присутствует сезонность, с максимум в 3 квартале каждого года, т.к. b -коэффициент при Z3 имеет наибольшее значение.

Тест (критерий) Г. Чоу

Для выявления структурных изменений в ряду динамики на практике можно прибегнуть к проведению теста Чоу (тесты на устойчивость). Существует несколько модификаций теста Чоу, это тест на обоснованность объединения двух выборок при оценки регрессии и тест на неудачу предсказания. В первом случае тестируется предсказательная способность модели, во втором определяется, происходит ли сдвиг параметров в период предсказания.

В данном случае нас интересует первый подход, рассмотрим механизм его приведения подробнее.

Методика проведения данного теста сводится к следующему: на основе имеющихся данных оценивается уравнение регрессии сначала по всему ряду, а затем уравнения по кусочно-линейной модели.

Далее определяется фактическое значении F -статистики Фишера по формуле:

(9.3)

где RSS_Р – остаточная сумма квадратов модели построенной на основе всего ряда;

RSS_А - остаточная сумма квадратов первой модели построенной на основе ряда до момента t* (предполагаемый (или реальный) момент наступления события повлекший структурные изменения ряда);

RSS_В - остаточная сумма квадратов второй модели построенной на основе ряда после момента t*;

k_Р, k_А, k_В – число параметров в регрессии по всему ряду и в первой и второй регрессиях;

Т – число уровней ряда.

Далее с помощью F -статистики тестируется гипотеза H₀ о структурной стабильности тенденции изучаемого временного ряда. Для этого найденное значение F_факт сравнивается с табличным полученным при уровне значимости a и степенями свободы v₁ = m; v₂=T-k-1. Если F_факт>F_табл, то гипотеза отклоняется, а влияние структурных изменений на динамику изучаемого показателя признается значимым.

Для иллюстрации описанной процедуры воспользуемся динамическим рядом ВВП России за период с 1 квартала 1994г. по 4 квартал 2004 года (приложение Р, таблица Р.2).

Шаг 1. Вначале построим уравнение регрессии на основе всей сосвокупности данных. Перед этим необходимо образовать переменную t₁ (t₁ =0 в 4 квартале 1993 года). Далее запускаем процедуру Multiple Regression.

Шаг 2. В окне результатов оценки модели Multiple Regression Results необходимо выбрать вкладку Advanced и кнопку ANOVA (Overall goodness of fit), тем самым на экран будет выведена таблица с результатами дисперсионного анализа (необходимо заметить, что модель статистически значима по F -критерию Фишера и t -критерию Стьюдента).

Таблица 9.6 – Результаты дисперсионного анализа общей регрессионной модели

	Sums of Squares	df	Mean Squares	F	p-level
Regress.				433,83	0,000
Residual
Total

Для оценки F -критерия Фишера (тест Чоу) из данной таблицы понадобится остаточная сумма квадратов, которая находится на пересечении столбца Sums of Squares и строки Residual, т.е. значение 6682327.

Шаг 3. Последовательно оценим две кусочно-линейные модели, первая до 4 квартала 1999г., вторая после данного периода.

Выбор 4 квартала 1999г. как предполагаемый момент наступления события повлекший структурные изменения ряда неслучаен, так как в 1998г. в Россию потряс финансовый кризис который и стал причиной изменения механизма генерации макроэкономических рядов, т.е. начиная с 1999г. (в результате инерционности экономики) имеем совершенно иной динамический ряд который не сопоставим с предыдущей динамикой.

Перед тем как приступить к оценки моделей необходимо ввести две переменные t₂ (равна единице в 1 квартале 1994г.) и t₃ (равна единице в 1 квартале 1999г.). При построении кусочно-линейных моделей необходимо выбрать кнопку Select Cases и в первом случае указать v0 <21, во втором случае указать v0 >20 (тем самым будут заданы диапазоны для оценки регрессионных уравнений).

В результате оценки будут получены следующие результаты:

Таблица 9.7 – Результаты дисперсионного анализа первой кусочно-линейной регрессионной модели (до 1 кв. 1999г.)

	Sums of Squares	df	Mean Squares	F	p-level
Regress.	681651,4		681651,4	200,03	0,0000
Residual	61339,9		3407,8
Total	742991,2

Таблица 9.8 – Результаты дисперсионного анализа первой кусочно-линейной регрессионной модели (до 1 кв. 1999г.)

	Sums of Squares	df	Mean Squares	F	p-level
Regress.				462,40	0,000
Residual
Total

Шаг 4. Находим расчетное значение F -критерия Фишера:

=-2706000,12

По таблице находим табличное значение F -критерия Фишера при степенях значимости v₁ = m= 2; v₂=T-k-1 =44-2-1=41, т.е. получаем 3,23.

Сравнивая расчетное значение с табличным, получаем F_факт>F_табл, отсюда можно сделать вывод, что подтверждается предположение о значительных изменениях в механизме генерации ряда инвестиций в основной капитал под влиянием финансового кризиса 1998г.

Тесты для самоконтроля

1) Если качественный признак, который необходимо отразить в регрессионной модели имеет четыре градации, то в уравнение включается:

а) четыре фиктивные переменные

б) пять фиктивных переменных

в) одна фиктивная переменная

г) три фиктивная переменная

2) Если качественный признак, который необходимо отразить в регрессионной модели имеет две градации, то в уравнение включается:

а) одна фиктивная переменная

б) две фиктивных переменных

в) три фиктивная переменная

г) нельзя включать качественные переменные в уравнение

3) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t	t'
1998г.	y₁		-3
1999г.	y₂		-2
2000г.	y₃		-1
2001г.	y₄
2002г.	y₅
2003г.	y₆
2004г.	y₈

а) элиминирования линейного временного тренда

б) элиминирования тренда в виде параболы второго порядка

в) выделения сезонной составляющей

4) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t₁	t₂	t₃
1996г.	y₁
1997г.	y₂
1998г.	y₃
1999г.	y₄
2000г.	y₅
2001г.	y₆
2002г.	y₈
2003г.	y₉
2004г.	y₁₀

а) выделения двух прямых, точка пересечения которых известна

б) выделения двух прямых, точка пересечения которых не известна

в) выделения линейного временного тренда

5) Приведенный пример расстановки фиктивных переменных используется для:

Дата	y_t	t₁	t₂
1996г.	y₁	-4
1997г.	y₂	-3
1998г.	y₃	-2
1999г.	y₄	-1
2000г.	y₅
2001г.	y₆
2002г.	y₈
2003г.	y₉
2004г.	y₁₀

а) выделения двух прямых, точка пересечения которых известна

б) выделения двух прямых, точка пересечения которых не известна

в) выделения линейного временного тренда

6) Приведенное выражение = а₀ + а₁t + c₂Z₂ + c₃Z₃ + c₄Z₄ + e_t используют при:

а) построении парного линейного уравнения регрессии

б) описании сезонных колебаний

в) построении нелинейного уравнения

7) Приведенная формула используется при:

а) проверке гипотезы о статистической значимости регрессионного уравнения

б) проверке гипотезы о статистической значимости параметров регрессионного уравнения

в) проверке гипотезы о гетероскедостичности случайных отклонений

г) проверке гипотезы о адекватности линейного тренда построенного на основе всей совокупности

8) Приведенная таблица используется при:

Периоды	Число наблюдений в совокупности	Остаточная сумма квадратов	Число параметров в уравнении	Число степеней свободы остаточной дисперсии
Первое уравнение	n₁	S¹_ост	m₁	n₁-m₁
Второе уравнение	n₂	S²_ост	m₂	n₂-m₂
Объединенное уравнение	n	S³_ост	m₃	n - m₃= =(n₁+n₂)-m₃

а) дисперсионном анализе

б) построении теста Чоу

в) выводе результатов оценки параметров регрессионного уравнения