Тема 8
ЭКОНОМЕТРИКА КАЧЕСТВЕННЫХ ДАННЫХ
ФИКТИВНЫЕ ПЕРЕМЕННЫЕ
Сначала прочитайте 5 главу учебника!!!
КАЧЕСТВЕННАЯ ПЕРЕМЕННАЯ = {категория1, категория2}
Пример – пол = {мальчик, девочка}
Это независимая (объясняющая) переменная
Экзамен = {сдал, не сдал}
Зависимая переменная
Для выражения качественных переменных используют:
Для объясняющих переменных – фиктивные переменные (dummy)
Пример MALE = {1, 0} 1 = мальчик, 0 – девочка
Для зависимых переменных – бинарные переменные
Результат экзамена как функция числа часов подготовки
RESULT = 1, 0 = F(X – число часов, MALE)
Если число категорий более двух, то используется несколько фиктивных переменных
ПРАВИЛО: число фиктивных переменных = число категорий минус 1
Одна из категорий (для которых все фиктивные переменные равны нулю) называется эталонной (reference)
Включение фиктивных переменных в уравнение регрессии позволяет
учесть качественные факторы, выявить качественные различия,
найти структурные сдвиги.
С точки зрения формальной это обычные переменные,
компьютер оценивает их коэффициенты, они интерпретируются,
для них можно делать все обычные тесты.
Где смотреть: crow
Лекция 6, слайд 29 -30 и 27-28
Самое главное из теории
Регрессия без фиктивных переменных
X – независимая (обычная) переменная
Y – зависимая переменная (обычная – количественная)
Например, X – производственный стаж
Y - зарплата
Рассматривается регрессия
Y=С(1)+С(2)*X
Интерпретация: C(2) – предельный эффект X (стажа)
С(1) – значение Y при X=0
(если это возможно, в случае стажа это возможно)
С(1) – зарплата работника (любого пола) без стажа
Вводим фиктивную переменную D
Например D=0 для женщин, D=1 для мужчин
Тогда новая регрессия с этой переменной
Y=С(1)+С(2)*X+C(3)*D
C(3) показывает на сколько в среднем больше
значение Y для мужчин по сравнению с женщинами,
в предположении, что предельный эффект X одинаков
для мужчин и женщин
Иначе говоря – это добавка к константе для мужчин
То есть для женщин получается
В уравнении
Y=С(1)+С(2)*X+C(3)*D
положим D=0
Тогда для них (для женщин)
Y=С(1)+С(2)*X – старое уравнение, но с новым смыслом
C(2) – по прежнему общий (одинаковый)
предельный эффект X
а смысл константы изменился
C(1) в обоих последних уравнениях
теперь показывает зарплату ЖЕНЩИН БЕЗ СТАЖА X=0
Из того же уравнения
Y=С(1)+С(2)*X+C(3)*D
Можно найти зарплату МУЖЧИН БЕЗ СТАЖА
Для этого просто положим D=1.
Y=(С(1) +C(3))+С(2)*X
С(1) +C(3) - зарплата МУЖЧИН БЕЗ СТАЖА
Итак фиктивная переменная при таком подходе (если она одна)
влияет просто на СДВИГ
регрессии
Поэтому D – называется еще фиктивной переменной сдвига
Можно обычным образом (с помощью t-тестов, а потом и F-тестов)
проверять значимость коэффициентов при фиктивных переменных
Обратим внимание еще раз, что все это было справедливо
в условиях неявной (или явной) предпосылки, что
предельные эффекты стажа X равны для мужчин и женщин
Но это предположение может быть неверным
Тогда следует ввести фиктивную переменную наклона
(в случае нескольких количественных независимых переменных
вводится несколько фиктивных переменных наклона)
Фиктивная переменная наклона равна произведению
фиктивной переменной сдвига на количественную
независимую переменную
D1=D*X
Наличие такой переменной в уравнении
позволят дополнительно учесть различия
в коэффициенте наклона для разных категорий
Y=С(1) +С(2)*X+C(3)*D+C(4)*D1
или
Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X
Для женщин получаем (D=0)
Y=С(1)+С(2)*X
Теперь изменилась интерпретация обоих коэффициентов
Теперь и C(1) и C(2) относятся только к женщинам
С(1) – зарплата женщин без стажа
С(2) – предельный эффект стажа для женщин
Для мужчин
Y=С(1)+С(2)*X+C(3)*D+C(4)*D*X
D=1
Значит
Y=С(1)+С(2)*X+C(3)+C(4)*X
или
Y=С(1)+C(3)+(C(2)+C(4))*X
С(1)+C(3) – зарплата мужчин без стажа
C(2) +C(4) – предельный эффект стажа для мужчин
ТЕПЕРЬ ПРАКТИКА!!!
Упражнение 1.
(Структурные сдвиги в моделях временных рядов)
Используйте файл EXPEND.WF1.
Целью исследования является изучение зависимости
расходов на продукты питания (переменная FOOD)
в миллиардах долларов от индекса относительных цен
(PRELFOOD, 100% for 1972), определяемым как
отношения индекса цен на продукты питания (PFOOD)
к индексу цен совокупных потребительских расходов (PTPE)
в процентах.
1, 2 Регрессия и ее график
LS FOOD C PRELFOOD
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -125.9042 | 42.08473 | -2.991683 | 0.0065 |
PRELFOOD | 2.461662 | 0.407230 | 6.044892 | 0.0000 |
R-squared | 0.613710 | Mean dependent var | 128.0840 |
Приемлемый эр-квадрат, значимый,
но странно положительный коэффициент
График
DATA PRELFOOD FOOD
SCATTER
Дело не в плохой спецификации, а в том, что данные неоднородны
obs | PRELFOOD | FOOD |
97.73371 | 99.70000 | |
97.07928 | 100.9000 | |
97.24518 | 102.5000 | |
96.87924 | 103.5000 | |
96.79144 | 104.6000 | |
97.10145 | 108.8000 | |
97.79793 | 113.7000 | |
100.0000 | 116.6000 | |
98.28010 | 118.6000 | |
98.22695 | 123.4000 | |
98.98190 | 125.9000 | |
100.0000 | 129.4000 | |
98.34197 | 130.0000 | |
100.0000 | 132.4000 | |
108.1362 | 129.4000 | |
112.4678 | 128.1000 | |
111.9010 | 132.3000 | |
108.8838 | 139.7000 | |
107.3941 | 145.2000 | |
110.5969 | 146.1000 | |
112.2462 | 149.3000 | |
109.8324 | 153.2000 | |
109.6658 | 153.0000 | |
107.8155 | 154.6000 | |
106.0393 | 161.2000 |
Проблема в том, что до 73 года (кризис)
еда была относительно дешевой, потом
резко подорожала и начала немного дешеветь
только к концу периода
Наша регрессия ничего этого не видит, и показывает
средний рост потребления, механически соединяя центры
двух несвязанных множеств данных
Мир до кризиса и после кризиса – два разных мира!
А был ли мальчик? Был ли кризис
Введем фиктивную переменную CRISIS = 0 для 1959-1972 г, и 1 – для 1973-1983
Как это сделать
1) лапками:
DATA CRISIS
2) Генерацией
GENR CRISIS=0
SMPL 1973 1983
GENR CRISIS=1
SMPL 1959 1983
LS FOOD C CRISIS PRELFOOD
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 65.30997 | 145.1591 | 0.449920 | 0.6572 |
CRISIS | 23.98269 | 17.45406 | 1.374046 | 0.1833 |
PRELFOOD | 0.506134 | 1.478222 | 0.342394 | 0.7353 |
R-squared | 0.644240 | Mean dependent var | 128.0840 |
Переменная CRISIS незначима!!!
Проблема в том, что мы сейчас
пытаемся измерить только сдвиг
в уровне цены, считая наклон в кризисный
и докризисный период одинаковыми
(если чего-то не заметить, что неявно существует,
то оно не исчезнет)
PRELFOOD | 0.506134 |
На графике видно, что до кризиса он был
резко положительным,
и стал отрицательным после кризиса
DATA PRELFOOD FOOD
SMPL 1959 1972
SMPL 1973 1983
Надо дополнительно учесть различие в наклоне
и рассматривать полную группу переменных,
связанных с кризисом
SMPL 1959 1983
Вводим фиктивную переменную наклона
GENR CRPR=CRISIS*PRELFOOD
DATA CRISIS CRPR PRELFOOD
obs | CRISIS | CRPR | PRELFOOD |
0.000000 | 0.000000 | 97.73371 | |
0.000000 | 0.000000 | 97.07928 | |
0.000000 | 0.000000 | 97.24518 | |
0.000000 | 0.000000 | 96.87924 | |
0.000000 | 0.000000 | 96.79144 | |
0.000000 | 0.000000 | 97.10145 | |
0.000000 | 0.000000 | 97.79793 | |
0.000000 | 0.000000 | 100.0000 | |
0.000000 | 0.000000 | 98.28010 | |
0.000000 | 0.000000 | 98.22695 | |
0.000000 | 0.000000 | 98.98190 | |
0.000000 | 0.000000 | 100.0000 | |
0.000000 | 0.000000 | 98.34197 | |
0.000000 | 0.000000 | 100.0000 | |
1.000000 | 108.1362 | 108.1362 | |
1.000000 | 112.4678 | 112.4678 | |
1.000000 | 111.9010 | 111.9010 | |
1.000000 | 108.8838 | 108.8838 | |
1.000000 | 107.3941 | 107.3941 | |
1.000000 | 110.5969 | 110.5969 | |
1.000000 | 112.2462 | 112.2462 | |
1.000000 | 109.8324 | 109.8324 | |
1.000000 | 109.6658 | 109.6658 | |
1.000000 | 107.8155 | 107.8155 | |
1.000000 | 106.0393 | 106.0393 |
LS FOOD C CRISIS PRELFOOD CRPR
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -674.0985 | 203.1818 | -3.317711 | 0.0033 |
CRISIS | 1090.898 | 248.3744 | 4.392151 | 0.0003 |
PRELFOOD | 8.037619 | 2.069438 | 3.883963 | 0.0009 |
CRPR | -10.52122 | 2.445936 | -4.301512 | 0.0003 |
R-squared | 0.810876 | Mean dependent var | 128.0840 |
Все фиктивные переменные теперь значимые
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR
Уравнение до кризиса (кладем все кризисные
переменные равными нулю)
FOOD = -674.1 + 8.0*PRELFOOD
Это уравнение показывает связь переменных цен и расходов
до кризиса
Рост потребления как и было на графике
Уравнение после кризиса (добавляем все кризисные переменные)
FOOD = -674.1 + 1090.9*CRISIS + 8.0*PRELFOOD - 10.5*CRPR
И кладем их равными единице
FOOD = -674.1 + 1090.9 + 8.0*PRELFOOD - 10.5* PRELFOOD
Новая константа
=-674.1 + 1090.9
=416.8
Новый коэффициент
=8.0 - 10.5
-2.5
Итак уравнение после кризиса
FOOD = 416.8 -2.5* PRELFOOD
Это можно проверить
Построим обычные регрессии по подвыборкам
(ПРИ ЭТОМ НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ
НЕ ИСПОЛЬЗУЕМ)
SMPL 1959 1972
LS FOOD C PRELFOOD
FOOD = -674.0985057 + 8.03761905*PRELFOOD
FOOD = -674.1 + 8.0*PRELFOOD
После кризиса
SMPL 1973 1983
LS FOOD C PRELFOOD
FOOD = 416.7993509 - 2.483605731*PRELFOOD
FOOD = 416.8 -2.5* PRELFOOD
МОРАЛЬ: АНАЛИЗ С ПОМОЩЬЮ ФИКТИВНЫХ
ПЕРЕМЕННЫХ ПОЗВОЛЯЕТ ДЕЛАТЬ ТО ЖЕ САМОЕ,
ЧТО И АНАЛИЗ ОТДЕЛЬНЫХ РЕГРЕССИЙ
ПО РАЗНЫМ ЧАСТЯМ ВЫБОРКИ
(с фиктивными переменными лучше – дает дополнительную информацию о значимости фиктивных переменных)
ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ
ПРИ ВСЕХ ПЕРЕМЕННЫХ
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
Константа в докризисной зависимости
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
Коэффициент наклона в докризисной зависимости
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
Добавка к константе, превращающая ее в константу в послекризисной зависимости
FOOD = -674.0985057 + 1090.897857*CRISIS + 8.03761905*PRELFOOD - 10.52122478*CRPR
Добавка (здесь отрицательная) к коэф.наклона, превращающая его в коэффициент наклона в послекризисной зависимости
ЗНАЧИМОСТЬ (был ли кризис на самом деле?)
Значимость структурного сдвига – совместная значимость группы фиктивных переменных
Можно измерить с помощью различных F-тестов
ТРИ МЕТОДА
1. Тест на совместную значимость группы переменных
Измеряется по RSS или по эр-квадрат
(по RSS точнее!!!!)
Сравниваем RSS для уравнения без фиктивных переменных и уравнения с фиктивными переменными
Короткое уравнение по полной выборке
SMPL 1959 1983
LS FOOD C PRELFOOD
R-squared | 0.613710 |
Adjusted R-squared | 0.596915 |
S.E. of regression | 11.93403 |
Sum squared resid | 3275.685 |
Длинное уравнение тоже по полной выборке
LS FOOD C CRISIS PRELFOOD CRPR
R-squared | 0.810876 |
Adjusted R-squared | 0.783859 |
S.E. of regression | 8.738913 |
Sum squared resid | 1603.741 |
(RSS(short)-RSS(long)/2
F=--------------------------------------------
RSS(long)/ df(long)
F=(3275-1603)/2/1603*(25-4)
C(12)=(3275-1603)/2/1603*(25-4)
10.9519650655
Явно значимая f-статистика
F(crit, 1%, df1=2, df2=25-4=21)=5.78
То же самое по R2
(R2(long)-R2(short)/2
F=--------------------------------------------
(1 - R2(long))/ df(long)
(посчитайте сами)
ВТОРОЙ СПОСОБ – тест Вальда
Считаем длинную регрессию по всей выборке
LS FOOD C CRISIS PRELFOOD CRPR
И приравниваем к нулю коэффициенты кризисных переменных
C(2)=0, C(4)=0
Wald Test: | ||||
Equation: Untitled | ||||
Null Hypothesis: | C(2)=0 | |||
C(4)=0 | ||||
F-statistic | 10.94654 | Probability | 0.000554 |
Понятно, что F-статистика та же самая
Третий способ
ТЕСТ ЧОУ
НИКАКИХ ФИКТИВНЫХ ПЕРЕМЕННЫХ
ЭТО ПРЯМОЕ СРАВНЕНИЕ УРАВНЕНИЙ ПО
ОБЩЕЙ ВЫБОРКЕ И ПО ДВУМ ИЛИ БОЛЕЕ ПОДВЫБОРКАМ
СРАВНЕНИЕ RSS или R2 полной регрессии и двух регрессий по подвыборкам
SMPL 1959 1983
LS FOOD C PRELFOOD
Sum squared resid | 3275.685 |
Теперь по подвыборкам
SMPL 1959 1972
LS FOOD C PRELFOOD
Sum squared resid | 657.6665 |
SMPL 1973 1983
LS FOOD C PRELFOOD
Sum squared resid | 946.0742 |
Тест Чоу
(RSS(полный период)-RSS(до)-RSS(после))/2
F=-----------------------------------------------------------------------
(RSS(до)+RSS(после))/(25-2-2)
C(14)=(3275-657-946)/2/(657+946)*(25-4)
10.9519650655
То же число, что и в прежнем тесте
Мораль: тест Чоу равносилен F-тесту на совместную
значимость полной группы фиктивных переменных.
Удобство теста Чоу в том, что он может быть сделан
Автоматически
Кроме того, он позволяет делить выборку на много частей (докриз, криз. Посткриз)
Полная выборка
SMPL 1959 1983
LS FOOD C PRELFOOD
View/Stability tests/Chow breakpoint test
Нужно указать точку начала кризиса
Chow Breakpoint Test: 1973 | |||
F-statistic | 10.94654 | Probability | 0.000554 |
Можно проверить другие года
Может кризис начался позже, например в 1975 году?
Chow Breakpoint Test: 1975 | |
F-statistic | 7.613321 |
F стало меньше – это неверно.
Точка кризиса – та, при которой F максимально
УПРАЖНЕНИЕ 2
Гендерная дискриминация
Файл EAEF40
LS EARN C HGC
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -9.158012 | 2.182028 | -4.197019 | 0.0000 |
HGC | 1.674807 | 0.157613 | 10.62610 | 0.0000 |
R-squared | 0.165827 | Mean dependent var | 13.68988 |
1.674807 - эффект образования
Каждый дополнительный год образования дает 1.67 доп.часового заработка
Переменная MALE уже есть
Включим ее в уравнение
LS EARN C MALE HGC
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -11.34626 | 2.166063 | -5.238196 | 0.0000 |
MALE | 3.998431 | 0.732135 | 5.461330 | 0.0000 |
HGC | 1.668095 | 0.153764 | 10.84840 | 0.0000 |
R-squared | 0.207514 | Mean dependent var | 13.68988 |
Переменная MALE значима
В предположении, что каждый доп.год образования дает одинаковый прирост заработка дл мужчин и женщин один только факт, что данный человек мужчина дает ему 3.998431= 4 доллара в час заработка больше, чем женщине с тем же уровнем образования
Формально -11.34626 – заработок необразованной женщины (не имеет смысла – в выборке нет необразованных женщин)
Попробуем снять предположение, что прирост дохода на лишний год образования одинаков для мужчин и женщин
GENR MALEHGC=MALE*HGC
LS EARN C MALE HGC MALEHGC
EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC
- 0.08100225635 - у мужчин год образования дает на 8 центов в час меньше прирост заработка чем у женщин
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -12.03437 | 3.461386 | -3.476748 | 0.0005 |
MALE | 5.102874 | 4.392686 | 1.161675 | 0.2459 |
HGC | 1.718616 | 0.250865 | 6.850762 | 0.0000 |
MALEHGC | -0.081002 | 0.317655 | -0.255001 | 0.7988 |
R-squared | 0.207605 | Mean dependent var | 13.68988 |
Правда все переменные, связанные с полом, незначимы!!!!
Неужели дискриминации нет?
Нужно провести тест на совместную значимость гендерных переменных
Проще всего тест Вальда
EARN = -12.03436704 + 5.102874352*MALE + 1.718615507*HGC - 0.08100225635*MALEHGC
C(2)=0, C(4)=0
Wald Test: | ||||
Equation: Untitled | ||||
Null Hypothesis: | C(2)=0 | |||
C(4)=0 | ||||
F-statistic | 14.92099 | Probability | 0.000000 |
Обе гендерные переменные были незначимы, а их совместных вклад значим на любом уровне – дискриминация есть!!!!!
УПРАЖНЕНИЕ 3.
Этническая дискриминация
Поскольку этнических групп три, то согласно правилу нам потребуется две фиктивные переменные
Будем изучать зависимость продолжительности образования HGC от интеллектуальных способностей (результат теста ASVABC)
Сколько держат в учебном заведении человека определенных способностей
LS HGC C ASVABC
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 6.502261 | 0.482991 | 13.46249 | 0.0000 |
ASVABC | 0.141762 | 0.009445 | 15.00960 | 0.0000 |
R-squared | 0.283993 | Mean dependent var | 13.64211 |
Каждый дополнительный балл теста (в 100-балльной системе) стимулирует к продолжению образования в среднем на 0.14 года
Более умные склонны дольше учиться
Включим все переменные этнического состава
LS HGC C ETHWHITE ETHBLACK ETHHISP ASVABC
Near singular matrix – «ловушка фиктивных переменных»
Так ETHWHITE+ETHBLACK+ETHHISP=1 включение полной группы фиктивных переменных вызвало совершенную мультиколлинеарность и сделало расчет невозможным
Надо всегда одну категорию опускать, делая ее эталонной
Сделаем эталонной ETHWHITE
LS HGC C ETHBLACK ETHHISP ASVABC
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 5.766301 | 0.516809 | 11.15750 | 0.0000 |
ETHBLACK | 0.981012 | 0.306830 | 3.197244 | 0.0015 |
ETHHISP | 0.857593 | 0.366618 | 2.339201 | 0.0197 |
ASVABC | 0.153710 | 0.009878 | 15.56025 | 0.0000 |
R-squared | 0.301359 | Mean dependent var | 13.64211 |
Все переменные значимы по крайней мере на 5% уровне (HISP)
HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC
ИНТЕРПРЕТАЦИЯ
HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC
5.766 – столько учится глупый белый
Любого черного держат почти на год 0.9810118722 больше при равных умственных способностях. И латиноса тоже держат чуть меньше чем на год 0.8575930591 больше
Дискриминация наоборот
Изменение эталонной категории
Что произойдет, если сделать негров эталоном
LS HGC C ETHWHITE ETHHISP ASVABC
HGC = 6.747313001 - 0.9810118722*ETHWHITE - 0.1234188132*ETHHISP + 0.1537102823*ASVABC
Сравним с прежним уравнением
HGC = 5.766301129 + 0.9810118722*ETHBLACK + 0.8575930591*ETHHISP + 0.1537102823*ASVABC
Разница в том, что теперь глупого белого выгонят на те же - 0.9810118722 года раньше
Есть ли смысл менять эталонную категорию?
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 6.747313 | 0.504422 | 13.37631 | 0.0000 |
ETHWHITE | -0.981012 | 0.306830 | -3.197244 | 0.0015 |
ETHHISP | -0.123419 | 0.448246 | -0.275337 | 0.7832 |
ASVABC | 0.153710 | 0.009878 | 15.56025 | 0.0000 |
R-squared | 0.301359 | Mean dependent var | 13.64211 |
Есть смысл!
Теперь латины стали незначимы!!!
То есть есть разница между белым и латином, но нет значимой разницы между негром и латином – они оба цветные
Мы получили новую информацию
Понятно, что можно еще ввести переменные наклона (как раньше)
Мы не будем здесь этого делать
Попробуйте сами!!!!
ПОСЛЕДНЕЕ: КОМБИНИРОВАННЫЕ ФИКТИВНЫЕ ПЕРЕМЕННЫЕ
Одновременный анализ по полу и этносу
Снова белые – эталон
Дополнительно учтен пол
LS HGC C ETHBLACK ETHHISP MALE ASVABC
HGC = 5.728715429 + 0.9859502541*ETHBLACK + 0.8547307343*ETHHISP + 0.06154557337*MALE + 0.153754389*ASVABC
Теперь 5.728715429 – продолжительность образования глупой белой девочки
GENR MALEBLACK=MALE*ETHBLACK
GENR MALEHISP=MALE*ETHHISP
LS HGC C ETHBLACK ETHHISP MALE MALEBLACK MALEHISP ASVABC
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 5.733525 | 0.531322 | 10.79106 | 0.0000 |
ETHBLACK | 1.173206 | 0.429172 | 2.733647 | 0.0065 |
ETHHISP | 0.620706 | 0.594889 | 1.043397 | 0.2972 |
MALE | 0.075355 | 0.181385 | 0.415445 | 0.6780 |
MALEBLACK | -0.376935 | 0.588915 | -0.640049 | 0.5224 |
MALEHISP | 0.370703 | 0.746745 | 0.496424 | 0.6198 |
ASVABC | 0.153507 | 0.009912 | 15.48758 | 0.0000 |
HGC = 5.733525343 + 1.173205548*ETHBLACK + 0.6207058348*ETHHISP + 0.07535538246*MALE
- 0.3769345109*MALEBLACK + 0.3707025308*MALEHISP + 0.1535072629*ASVABC
Например черный мальчик учится на 0.3769345109 года меньше чем черная девочка
Или наоборот, если мальчик черный, то он учится на то же число лет меньше белого мальчика
Смысл – черные девочки – паиньки – их все любят и жалеют, даже если они глупые
А негритята такие шебутные, что есть тенденция их гнать несмотря на их цвет кожи
Иначе говоря все преимущества цвета кожи достигаются за счет черных девочек
Это новая информация, которой мы не видели в предыдущем уравнении
Отсюда польза перекрестных комбинированных фиктивных переменных.