Линейная парная регрессия
Краткий теоретический материал
При изучении конкретных экономических ситуаций в большинстве случаев существует статистическая зависимость.
Определение: Зависимость между двумя переменными, когда каждому значению одной из них соответствует определенное (условное) распределение другой называется статистической.
Среди статистических зависимостей выделяют корреляционную зависимость.
Определение: Зависимость между двумя переменными, когда каждому значению одной из них соответствует математическое ожидание (среднее значение) другой называется корреляционной.
Частным случаем корреляционной зависимости является регрессионная зависимость, т.е. тогда когда рассматривается односторонняя зависимость случайной величины Y– зависимая (объясняемая, выходная, эндогенная) переменная от неслучайной величины Х – независимая (объясняющая, входная, экзогенная) переменная. Например, зависимость потребления от дохода, спроса от цены, объема чистого экспорта от курса валют, инвестиций от величины процентной ставки и т.д.
Такая зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменной соответствует некоторое вероятностное распределение зависимой переменной. Поэтому осуществляют анализ, как объясняющая переменная влияет на зависимую переменную «в среднем».
Термин «регрессия» (движение назад, возвращение в прежнее состояние) был введен английским ученым Фрэнсисом Галтоном в конце XIX в. при анализе зависимости между ростом родителей и ростом детей. Галтон заметил, что рост детей у очень высоких родителей в среднем меньше, чем средний рост родителей. У очень низких родителей, наоборот, средний рост детей выше. И в том, и в другом случае средний рост стремится (возвращается) к среднему росту людей в данном регионе. Отсюда и выбор термина, отражающего такую зависимость.
Регрессионный анализ включает следующие этапы:
1)определение вида функции, описывающей функциональную связь между результативным признаком и факторными признаками;
2)определение коэффициентов регрессии, то есть числовых параметров, входящих в уравнение регрессии;
3)расчет теоретических значений результативного признака для отдельных наборов значений факторов;
4)исследование отклонений расчетных значений от эмпирических данных;
5)оценка качества полученной модели и проверка соответствующих гипотез о регрессии.
При рассмотрении зависимости двух случайных величин говорят о парной регрессии. Зависимость нескольких переменных называется множественной регрессией.
Основной целью построения регрессии является предсказание (прогнозирование) среднего значения (зависимой переменной) при фиксированных значениях независимых переменных.
Среди различных видов регрессионных зависимостей наиболее важными являются линейные, так как они достаточно просты и встречаются во многих зависимостях между экономическими переменными. Ограничимся рассмотрением линейной парной регрессии.
Парная регрессия – уравнение связи двух переменных :
где | y – зависимая переменная (результативный признак); |
x – независимая, объясняющая переменная (признак-фактор). |
Для отражения того факта, что реальное значение зависимой переменной не всегда совпадают с ее условным математическим ожиданием и может быть различно при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым , которое, по существу, является и указывает на стохастическую суть зависимости. Из этого следует, что линейная регрессия имеет следующий вид:
Присутствие случайного фактора (отклонения) в регрессионных моделях имеет следующие основные причины:
– невключение в модель всех объясняющих переменных: так, например, спрос на товар определяется его ценой, ценой на товары-заменители, доходом потребителей и т.д. Также можно перечислить такие факторы как: национальные и религиозные особенности, географическое положение региона, погода и многие другие, влияние которых приведет к некоторым отклонениям реальных наблюдений от модельных. При этом никогда заранее неизвестно, какие факторы при создавшихся условиях действительно являются определяющими, а какими можно пренебречь. Здесь уместно отметить, что в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных. Например, величина сбережений домохозяйств может определяться не только доходами всех членов семьи, но и их здоровьем, информация о котором в цивилизованных странах составляет врачебную тайну и не раскрывается. Кроме того, ряд факторов, таких как погода, носит случайный характер, что добавляет неоднозначность при рассмотрении некоторых моделей.
– неправильный выбор функциональной формы модели: из-за слабой изученности исследуемого процесса либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это в свою очередь скажется на отклонении модели, что отразится на величине случайного члена;
– ошибка измерений: какой бы качественной не была модель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что отразится на величине случайного члена;
– непредсказуемость человеческого фактора: при правильном выборе модели, скрупулезном подборе объясняющих переменных все равно невозможно спрогнозировать поведение отдельно взятого индивидуума, что в свою очередь сказывается на величине случайного члена;
Таким образом, случайный член является отражением всех причин описанных выше, а также может быть дополнен и другими.
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). Он позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, то есть:
.Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b: Однако можно не решать данную систему, а воспользоваться готовыми формулами для нахождения b и a, вытекающие из этой системы:(1.1) | . | (1.2) |
(1.7) | (1.8) |
где | n – число единиц совокупности; | |
m – число параметров при переменных x. |
- это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости . Уровень значимости - это вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно .
Если < , то гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность.
Если > , то гипотеза не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции используется t -критерий Стьюдента. Выдвигается гипотеза H0 о случайной природе показателей. Далее сопоставляют их значения с величиной случайной ошибки:(1.11).
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяется по формулам:(1.12), |
где – выборочная остаточная дисперсия, определяющая воздействие неучтенных случайных факторов и ошибок наблюдений в модели.
(1.13) | |
(1.14) |
Сравнивая фактическое и критическое значения t-статистики – tтабл и tфакт – принимаем или отвергаем гипотезу Н0.
Если tтабл < tфакт, то Н0 отклоняется, т.е. a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x.
Если tтабл > tфакт, то гипотеза Н0 не отклоняется и признается случайная природа формирования a, b или rxy..
Для значимого уравнения регрессии рассчитывают интервальные оценки параметра b и свободного члена а по следующим формулам:
(1.15) (1.16),
где Ткр определяется по таблице распределения Стьюдента для уровня значимости α и число степеней свободы п-2; – стандартное отклонение свободного члена и коэффициента регрессии соответственно; п – число наблюдений.