2. Распределение статистики критерия Вилкоксона определяется функциями распределения F(x) и G(x) и объемами m и n двух выборок. При больших объемах выборок распределение статистики Вилкоксона является асимптотически нормальным с параметрами, выписанными выше (см. формулы (1), (3) и (5)).
3. При альтернативной гипотезе, когда функции распределения выборок F(x) и G(x) не совпадают, распределение статистики Вилкоксона зависит от величины a = P(X < Y). Если a отличается от 1/2, то мощность критерия Вилкоксона стремится к 1, и отличает нулевую гипотезу F = G от альтернативной. Если же a = 1/2, то это не всегда имеет место. В примере 2 приведены две различныефункции распределения выборок F(x) и G(x) такие, что гипотеза однородности F = G при проверке с помощью критерия Вилкоксона будет приниматься чаще, чем, если она на самом деле верна.
4. Следовательно, в случае общей альтернативы критерий Вилкоксона не является состоятельным, т.е. не всегда позволяет обнаружить различие функций распределения. Однако это не лишает его практической ценности, точно так же, как несостоятельность критериев типа хи-квадрат при проверке согласия, независимости или однородности не мешает отклонять нулевую гипотезу во многих практически важных случаях. Однако принятие нулевой гипотезы с помощью критерия Вилкоксона может означать не совпадение F и G, а лишь выполнение равенства a = 1/ 2.
5. Иногда утверждают, что с помощью критерия Вилкоксона можно проверять равенство медиан функций распределения F и G. Это не так. В примерах 3 и 4 указаны F и G с a = 1/2, но с различными медианами. Во многих случаях это различие нельзя обнаружить с помощью критерия Вилкоксона, как это показано при численном анализе асимптотической дисперсии в примере 4.
6. Указанные выше недостатки критерия Вилкоксона исчезают для специального вида альтернативы - т.н. "альтернативы сдвига" H1: F(x) = G(x + r). В этом частном случае при справедливости альтернативной гипотезы мощность стремится к 1, различие медиан также всегда обнаруживается. Однако альтернатива сдвига не всегда естественна. Ее целесообразно принять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой величины (физической, химической и т.п.). При этом функция распределения G(x) описывает результаты измерений с погрешностями одного значения, а F(x) = G(x+r) - другого. Другими словами, меняется лишь измеряемое значение, а собственно распределение погрешностей - одно и то же, присущее используемому средству измерения (и обычно описанное в его техническом паспорте). Однако в большинстве эконометрических исследований нет никаких оснований считать, что при альтернативе функция распределения второй выборки лишь сдвигается, но не меняется каким-либо иным образом.
7.При всех своих недостатках критерий Вилкоксона прост в применении и часто позволяет обнаруживать различие групп (поскольку оно часто сводится к отличию a = P(X < Y) от 1/2). Приведенные здесь критические замечания не следует понимать как призыв к полному отказу от использования критерия Вилкоксона. Однако для проверки гипотезы однородности в случае альтернативы общего вида можно порекомендовать состоятельные критерии, в частности, рассматриваемые в следующем пункте критерии Смирнова и типа омега-квадрат (Лемана-Розенблатта).
8. В литературе по прикладным статистическим методам соседствуют два стиля изложения. Один из них исходит из формулировок нулевой и альтернативных гипотез (или описания набора гипотез, из которого надо выбрать наиболее адекватную), для проверки которых строятся те или иные критерии. При другом стиле изложения упор делается на алгоритмическое описание критериев для проверки тех или иных гипотез, а об альтернативах даже не упоминается.
Например, в литературе по математической статистике часто говорится, что для проверки нормальности используются критерии асимметрии и эксцесса (они описаны, например, в лучшем справочнике 1960-1980-х годов. Однако эти критерии позволяют проверять некоторые соотношения между моментами распределения, но отнюдь не являются состоятельными критериями нормальности (не все отклонения от нормальности обнаруживают). Впрочем, для эконометрики эти критерии практического значения не имеют, поскольку заранее известно, что распределения конкретных экономических данных отличны от нормальных.
Так что недостатки критерия Вилкоксона не является исключением, мощность ряда иных популярных в математической статистике критериев заслуживает тщательного изучения, при этом заранее можно сказать, что зачастую они не позволяют проверять те гипотезы, с которыми традиционно связаны. При применении подобных критериев к анализу реальных данных необходимо тщательно взвешивать их достоинства и недостатки.
Линейная регрессия
Регрессионные методы позволяют выявить связи между переменными, причем особенно эффективно, если эти связи не совершенны или не имеют точного функционального описания между этими переменными. В эконометрическом анализе используются независимые переменные хi и одна зависимая переменная y. Регрессией в общем виде представляется функцией следующего вида
(237)
где - известные коэффициенты регрессии;
xi - переменная. В эконометрическом анализе переменные представляют собой статистические данные, например стоимость товара, объем продаж, курс валюты. Так как эти данные чаще всего «привязаны» ко времени, то в эконометрических моделях используют и другие обозначения переменных, такие как Xt, где индекс t обозначает, что мы используем временной ряд.
e - возмущение (ошибка, отклонение), обусловленная недостаточной пригодностью модели и ошибкой данных. Обычно эти причины являются смешанными.
Обозначения в модели 2.1 интерпретируются достаточно просто. Например, сумму (238) можно представить как сумму произведений коэффициента b и переменной х . (239) В последующем для упрощения выражений знак суммы мы будем обозначать без индексов, как . |
Рисунок 144.
В том случае, если исследуется влияние одной переменной или фактора, то выражение (2) упрощается к виду
(240)
Выражение () представляет собой линейную однофакторную регрессию. Геометрический смысл уравнения 2.2 поясним на рис. 145.
Пусть мы имеем четыре измерения переменной х, которые имеют конкретное значение р1,р2, р3, р4. Этим значениям соответствуют определенные значения зависимой переменной y. Тогда уравнение регрессии 2.2 представляет собой прямую линию, проведенную определенным образом через точки р1,р2, р3, р4. Так как истинное значение переменной нам неизвестно, то мы предполагаем, что оно располагается на этой прямой в точках Q1, Q2, Q3, Q4. Свободный член, а уравнения 2.2 имеет реальный экономический смысл. Это минимальное или максимальное значение зависимой переменной (результативного признака).
Коэффициент b представляет собой постоянную величину, равную отношению
(241)
Природа ошибки e
Существует, по крайней мере, две причины появления в модели 2.2 этой ошибки или как ее еще называют – возмущение.
1. Наша модель является упрощением действительности и на самом деле есть еще и другие параметры, от которых зависит переменная y. Например, расходы на питания в семье зависят от размера заработной платы членов семьи, национальных и религиозных традиций, уровня инфляции и т.д.
2. Скорее всего, наши измерения содержат ошибки наблюдения. Например, данные по расходам семьи на питание составляются на основе, а опроса и эти данные не всегда отражают истинное значение параметров. Необходимо отметить, что любые формы наблюдения, включая документальный содержат ошибки.
Таким образом, можно считать, что ошибка e есть случайная величина с некоторой функцией распределения.
Для нахождения коэффициентов уравнений и используется метод наименьших квадратов. Сущность метода заключается в том, чтобы минимизировать сумму квадратов отклонений
, (242)
где - значение результата, вычисленное по уравнению (2) в точке xi;
yi - экспериментальное значение результата в этой же точке.
Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений Yt,, t = 1,..., n, линейной функцией (2.2) минимизацией функционала
Рисунок 146.
Запишем необходимые условия экстремума
Рисунок 147.
Раскроем скобки и получим стандартную форму нормальных уравнений (для краткости опустим индексы суммирования у знака суммы):
(2.4) |
Рисунок 148.
а, b – решения системы (2.4) можно легко найти:
(2.5) |
Рисунок 149.
Порядок построения эконометрической модели рассмотрим на следующем примере.
В таблице 2 представлены статистические данные о расходах на питание душевом доходе для девяти групп семей. Требуется проанализировать зависимость величины расходов на питание от величины душевого дохода.
В соответствии с этим первый показатель будет результативным признаком, который обозначим у, а другой будет факторным признакам, или просто фактором, и мы обозначим его соответственно х1. Это обозначение не случайно, в последующем примере мы рассмотрим более сложную модель, в которой будет два фактора х1 и х2.
Таблица 47
Номер группы | Расход на питание (у) | Душевой доход (х1) |
Рассмотрим однофакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода семей (х1).
Расчеты проведем в таблице 48.
Таблица 48
Номер группы | Расход на питание (у) | Душевой доход (х1) | Y Х1 | Х12 |
S = 11826 | S = 54725 | S = 98056440 | S = 575906797 |
Используя данные табл.48, получим систему уравнений:
(2.5) |
Рисунок 149
Можно найти значения коэффициентов по формулам 2.5, но мы покажем, как можно использовать более общий подход к решению задачи по правилу Крамера, для этого найдем значения определителей системы (2.5):
Рисунок 150.
Тот же результат можно получить другим путем.
Таким образом, модель имеет вид:
y = 660,11 + 0,108 Х1 | (243) |
Уравнение (2.6) называется уравнением регрессии, коэффициент b — коэффициентом регрессии. Направление связи между у и x1 определяет знак коэффициента регрессии а1. В нашем случае данная связь является прямой и положительной.
Вычислим дисперсии оценок а и b. Известно, что дисперсии оценок а и b можно определить как
|
|
отклонения исходной выборки от среднего значения;
|
- значения расходов на питание, вычисленные по модели 246
Для проведения расчетов дисперсий полученных оценок используем таблицу 49
Таблица 49
№№ | Y | X | X2 | |||||
-294 | -5453 | |||||||
-214 | -4504 | |||||||
-47 | -3422 | |||||||
-2380 | ||||||||
-1285 | ||||||||
-155 | ||||||||
-280 | ||||||||
S=11826 | 6081 | S=575906797 | S=367255 | S=243148394 |
Рисунок 151.
2.11.3. Оценка значимости коэффициентов модели
На этом этапе проверяется статистическая гипотеза о равенстве нулю коэффициентов модели а и b. Проверяем гипотезу Н0: b=0 против гипотезы Н1:b#0 при заданном уровне значимости гипотезы a. Обычно a =0.05. При проверке используется распределение Стьюдента. Для этого рассчитывают значение t-критерия для исходной выборки наблюдений по формуле
(2.47)
Затем сравнивают его с табличным значением с (n-2) степенями свободы при заданной степени свободы. Это значение берут из таблицы значений t -критерия (приложение 4, таблица 2). Для a =0,05 при степени своды равном 7 табличное значение t –критерия (tp) равно 2,37. Если расчетное значение критерия больше табличного, то гипотеза Н0 отклоняется и принимается гипотеза Н1: значение коэффициента отличается от 0. В нашем случае . Так как 7,35>2,37, то делаем вывод о значимости коэффициента b в модели. Расчетное значение t-критерия для коэффициента, а равно 5,62, что тоже свидетельствует о его значимости в модели.
Для оценки тесноты связи модели с исходными данными рассчитывается коэффициент детерминации
(248)
Для определения коэффициента детерминации проведем расчеты с использованием таблицы 50.
Таблица 50
№№ | Y | ||
-53 | |||
-127 | |||
-188 | |||
-200 | |||
-244 | |||
S=11826 | S=367383 | ||
Значения ESS возьмем из таблицы 49.
(249)
Коэффициент детерминации показывает долю изменения (вариации) результативного признака под действием факторного признака. В нашем случае R 2 = 0,884, а это означает, что фактором душевого дохода можно объяснить почти 88% изменения расходов на питание.
Коэффициент корреляции можно определить как
(250)
Чем ближе значение коэффициента корреляции к единице, тем теснее корреляционная связь. Полученное значение коэффициента корреляции свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.
Коэффициенты регрессии (в рассматриваемом случае это коэффициент b) нельзя использовать для непосредственной оценки влияния факторов на результативный признак из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляютсякоэффициенты эластичности.
Коэффициент эластичности для рассматриваемой модели парной регрессии рассчитывается по формуле:
(2.13) |
Он показывает, насколько процентов изменяется результативный признак у при изменении факторного признака Xt на один процент.
В нашем примере коэффициент эластичности расходов на питание в зависимости от душевого дохода будет равен
(251)
Это означает, что при увеличении душевого дохода на 1 % расходы на питание увеличатся на 0,49 %.
Качество эконометрических моделей может быть установлено на основе анализа остаточной последовательности. Остаточная последовательность проверяется на выполнение свойств случайной компоненты экономического ряда: близость нулю выборочного среднего, случайный характер отклонений, отсутствие автокорреляции и нормальность закона распределения.
О качестве моделей регрессии можно судить также по значениям коэффициента корреляции и коэффициента детерминации для однофакторной модели. Чем ближе абсолютные величины указанных коэффициентов к 1, тем теснее связь между изучаемым признаком и выбранными факторами и, следовательно, с тем большей уверенностью можно судить об адекватности построенной модели, включающей в себя наиболее влияющие факторы.
Для оценки точности регрессионных моделей обычно используются, средняя относительная ошибка аппроксимации.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как
(252)
Расчетное значение F-критерия сравнивают c табличным при заданном уровне значимости гипотезы (обычно 0,05) и степенях свободы f1 = n – 1 и f2 = n - m - 1, где n – обьем выборки, m – число включенных факторов в модель.
Для нашего случая f1 = 8, f2 = 7. Табличное значение F – критерия находим по таблице 2 приложения 4 Ft = 3,50.
Если расчетное значение F – критерия больше табличного, то модель считается адекватной исходным данным.
В нашем случае 53,50 > 3,50, следовательно, модель значима и адекватно описывает исходные данные.
Эти же расчеты можно выполнить значительно быстрее при использовании ЭВМ. В электронных таблицах EXCEL в разделе меню СЕРВИС при полной инсталляции пакета присутствует функция АНАЛИЗ. При выборе этой функции открывается окно (рис.2). В предлагаемом перечне необходимо выбрать раздел регрессия и в появившейся форме необходимо заполнить соответствующие поля. Исходные данные необходимо представить на рабочем листе в виде, показанном на рис.152.
На рис. 153 представлена форма с заполненными исходными данными для проведения регрессионного анализа.
Рис. 154
После нажатия клавиши OK, проводится расчет и результаты заносятся на новый лист в следующем виде (рис. 154).
ВЫВОД ИТОГОВ | |||||
Регрессионная статистика | |||||
Множественный R | 0,94046717 | ||||
R-квадрат | 0,8844785 | ||||
Нормированный R-квадрат | 0,86797542 | ||||
Стандартная ошибка | 229,054087 | ||||
Наблюдения | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 53,594779 | 0,000159874 | |||
Остаток | 367260,4 | 52465,77 | |||
Итого | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | |
Y-пересечение | 660,106766 | 117,5052 | 5,61768 | 0,000801 | 382,2512536 |
Переменная X 1 | 0,1075384 | 0,014689 | 7,320845 | 0,0001599 | 0,072803654 |
Таблица 51. Результаты расчетов в электронных таблицах EXCEL
Использование электронных таблиц EXCEL позволяет обойтись без таблиц с критическими значениями t-критерия и F-критерия. В результатах расчетов появляются новые значения Значимость F и Значимость t, которое определяет расчетный уровень значимости F и t-критериев по заданным исходным данным. Если это значение меньше заданного (0,05), то модель считается адекватной исходным данным и значимой.