Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и определении формы уравнения регрессии (обычно этот этап в разработке регрессии называют спецификацией). Эта задача решается путем анализа изучаемой взаимосвязи по существу. Формальные средства могут служить здесь лишь некоторыми ориентирами. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения. Задачей данной дипломной работы является изучение и сравнение основных методов регрессионного анализа и выбора “наилучшего” уравнения регрессии. Проблема выбора “наилучшего” уравнения регрессии связана с двойственным отношением к вопросу о включении в регрессионное уравнение независимых переменных. С одной стороны, естественно стремление учесть все возможные влияния на результативный признак и, следовательно, включить в модель полный набор выявленных переменных. С другой стороны, возрастает сложность расчетов и затраты, связанные с получением максимума информации, могут оказаться неоправданными. Нельзя забывать и о том, что для построения уравнения регрессии число объектов должно в несколько раз превышать число независимых переменных. Эти противоречивые требования приводят к необходимости компромисса, результатом которого и является «наилучшее» уравнение регрессии. Существует несколько методов, приводящих к цели: метод всех возможных регрессий, метод исключения, метод включения, шаговый регрессионный и ступенчатый регрессионный методы. Все они основаны на методе наименьших квадратов.
Если в ходе качественного анализа выявлена и обоснована зависимость одного явления от других, то в этом случае на долю регрессионного уравнения, или регрессии, падает задача измерения этой зависимости, в которой причинно-следственный механизм наступает, так сказать, в наглядной форме.
Попытаемся представить интересующую нас зависимость с помощью прямой линии. Разумеется, такая линия может дать только приближенное представление о форме реальной статистической связи. Постараемся сделать это приближение наилучшим. Оно будет тем лучше, чем меньше исходные данные будут отличаться от соответствующих точек, лежащих на линии. Степень близости может быть выражена величиной суммы квадратов отклонении, реальных значений от, расположенных на прямой. Использование именно квадратов отклонений (не просто отклонений) позволяет суммировать отклонения различных знаков без их взаимного погашения и дополнительно обеспечивает сравнительно большее внимание, уделяемое большим отклонениям. Именно этот критерий (минимизация суммы квадратов отклонений) положен в основу метода наименьших квадратов.
В вычислительном аспекте метод наименьших квадратов сводится к составлению и решению системы так называемых нормальных уравнений. Исходным этапом для этого является подбор вида функции, отображающей статистическую связь.
Рисунок 1.1 - Линейное уравнение регрессии
Рассмотрим график рис.1.1 на котором показаны результаты наблюдений значений переменных y и x. Через область, занимаемую точками на графике, проведена прямая . Отклонение (возмущение) какой либо точки с координатами xi, yi составит величину ei:
(1.1)
где yi – фактическое значение переменной
i – расчетное значение зависимой переменной y.
Как видно из (1.1), величина ei (ее часто называют остаточным членом) есть функция параметров а0 и а1. Точно так же функцией этих параметров является обобщенный показатель рассеяния точек вокруг прямой, а именно . Стремление найти прямую, которая наилучшим образом описывала бы расположение точек в пространстве переменных у и x,или, иначе говоря, прямую, к которой в целом наиболее тесно примыкали бы отдельные точки, трансформируется в методе наименьших квадратов в критерий, согласно которому параметры а0 и а1 должны быть подобраны так, чтобы сумма квадратов величин ei была минимальной, т. е. .
Как известно, необходимым условием существования минимума функции в точках а0 и а1 является равенство нулю частных производных по неизвестным параметрами а0 и а1. Итак, найдем для функции
частные производные и приравняем их нулю:
(1.2)
Преобразовав систему (1.2), получим стандартную форму нормальных уравнений.
(1.3)
Таким образом, определив по наблюдениям суммы S yi, S xiyi и S x2 i и решив систему (1.3) относительно неизвестных а0 и а1, получим оценки а0 и а1, отвечающие условию (1.2) и обладающие свойствами несмещенности, состоятельности и эффективности.
Разделим первое уравнение системы (1.3) на п, получим
(1.4)
Таким образом, метод наименьших квадратов дает такие оценки а0 и а1, при которых найденная прямая проходит через точку с координатами , , т.е. точку, соответствующую средним обеих переменных.
Значения переменных xi и yi могут быть измерены в отклонениях от средней, т. е. как xi - и yi - . Обозначим эти разности как x ' i и y ’ i соответственно. Начало координат при этом переместится в точку , , а система нормальных уравнений упростится, так как S y ’ i и S x ’ i естественно, равны нулю. В этом случае решение второго уравнения системы (1.3) относительно а1 дает
(1.5)
а из уравнения (1.4) получим
(1.6)
Необходимые для расчета а1 суммы отклонений могут быть получены по исходным данным следующим путем:
(1.7)
(1.8)
В парной регрессии значения y зависят от значений одной независимой переменной х, в общем случае зависимая переменная может быть функцией нескольких переменных х1, х2,…., х m. В каждом наблюдении (обозначим номер наблюдения через i) получают совокупность значений независимых переменных х1, х2,…., х m и соответствующее значение зависимой переменной yi. Итак, допустим:
(1.9)
Введем теперь матричные обозначения. Пусть вектор неизвестных параметров а= (а j), j =1, 2,…, m, вектор зависимой переменной Y =(yi), i =1, 2,…., n, матрица независимых переменных X =(xij), размер которой определяется числом наблюдений (n) и числом переменных (m), вектор ошибки e =(e i). Перепишем линейную модель (1.9) в матричном виде:
(1.10)
Относительно ошибки e примем следующие предположения:
1. Возмущение e является случайной переменной
2. Математическое ожидание e равно нулю
3. Дисперсия возмущений постоянна
4. Последовательные значения e не зависят друг от друга
5. Матрица Х состоит из линейно-независимых вектор-столбцов, т.е. между векторами х1, х2,…., х m нет линейных зависимостей. Последнее обстоятельство эквивалентно тому, что ранг матрицы Х равен m, а это в свою очередь означает, что , т.е. матрица обратима (матрица является транспонированной матрицей X). Матрица X не содержит ошибки.
Оценку выражения (1.9), полученную по выборочным данным, запишем в виде:
(1.11)
Сумму квадратов отклонений теперь можно определить как:
Так как , то
(1.12)
Продифференцируем Q по a, получим:
Приравняем данный результат нулю. После этого легко находим систему нормальных уравнений, которая в матричной форме записывается как:
отсюда
(1.13)
Для определения вектора а нам необходимо по данным наблюдения найти матрицу, обратную к матрице и вектор :
(1.14)
(1.15)
Обычно предполагается, что уравнение регрессии имеет свободный член, т.е. а0. Для того чтобы получить оценку этого параметра (а0), расширим матрицу (1.14), введя в нее переменную Xi 0 =1. Тогда матрицу Х в развернутом виде можно записать как
(1.16)
откуда
(1.17)
и
(1.18)
Средняя ошибка коэффициента регрессии. Поскольку уравнения регрессии рассчитываются, как правило, для выборочных данных, обязательно встают вопросы точности и надежности полученных результатов. Вычисленный коэффициент регрессии, будучи выборочным, с некоторой точностью оценивает соответствующий коэффициент регрессии генеральной совокупности. Представление об этой точности дает средняя ошибка коэффициента регрессии (m0), рассчитываемая по формуле
(1.19)
где
(1.20)
уi - i-e значение результативного признака;
ŷi - i-e расчетное значение, ŷi =а0+а1х1+…аmxm;
xi - i-e значение факторного признака;
σx - среднее квадратическое отклонение х;
n - число значений х или, что то же самое, значений у;
m - число факторных признаков (независимых переменных).
В формуле (1.19), в частности, формализовано очевидное положение: чем больше фактические значения отклоняются от выравненных, тем большую ошибку следует ожидать; чем меньше число наблюдений, на основе которых строится уравнение, тем больше будет ошибка.
Метод наименьших квадратов применяется для расчета неизвестных параметров заранее выбранного вида функции, и вопрос о выборе наиболее подходящего для конкретных данных вида функции в рамках этого метода не ставится и не решается. Таким образом, при пользовании методом наименьших квадратов открытыми остаются два важных вопроса, а именно: существует ли связь и верен ли выбор вида функции, с помощью которой делается попытка описать форму связи.
Чтобы оценить, насколько точно уравнение регрессии описывает реальные соотношения между переменными, нужно ввести меру рассеяния фактических значений относительно вычисленных с помощью уравнения. Такой мерой служит средняя квадратическая ошибка регрессионного уравнения, вычисляемая по приведенной выше формуле (1.20)
В каждом конкретном случае фактическая ошибка может оказаться либо больше, либо меньше средней. Средняя квадратическая ошибка уравнения показывает, насколько в среднем мы ошибемся, если будем пользоваться уравнением, и тем самым дает представление о точности уравнения. Чем меньше σy.x, тем точнее предсказание линии регрессии, тем лучше уравнение регрессии описывает существующую связь.
Варьируя виды функций для выравнивания и оценивая результаты с помощью средней квадратической ошибки, можно среди рассматриваемых выбрать лучшую функцию, функцию с наименьшей средней ошибкой. Но существует ли связь? Значимо ли уравнение регрессии, используемое для отображения предполагаемой связи? На эти вопросы отвечает определяемый ниже критерий значимости регрессии.
Мерой значимости линии регрессии может служить следующее соотношение:
(1.21)
где ŷi - i-e расчетное значение;
- средняя арифметическая значений yi;
σy.x - средняя квадратическая ошибка регрессионного уравнения, вычисляемая по формуле (1.20);
n - число сравниваемых пар значений признаков;
m - число факторных признаков.
Действительно, связь тем больше, чем значительнее мера рассеяния признака, обусловленная регрессией, превосходит меру рассеяния отклонений фактических значений от выравненных.
Соотношение (1.21) позволяет решить вопрос о значимости регрессии. Регрессия значима, т. е. между признаками существует линейная связь, если для данного уровня значимости вычисленное значение Fф[m,n-(m+1)] превышает критическое значение Fкр[m,n-(m+1)], стоящее на пересечении m-го столбца и [n—(m+1)]-й строки специальной таблицы (таблица критических точек распределения Фишера – Снедекора).
Частный F -критерий показывает степень влияния дополнительной независимой переменной на результативный признак и может использоваться при решении вопроса о добавлении в уравнение или исключении из него этой независимой переменной.
Вкратце перечислим и немного опишем несколько довольно часто используемых методов построения регрессии.
Метод всех возможных регрессий заключается в переборе и сравнении всех потенциально возможных уравнений. В качестве критерия сравнения используется коэффициент корреляции или детерминации R2. «Наилучшим» признается уравнение с наибольшей величиной R2. Метод весьма трудоемок и предполагает использование вычислительных машин.
Методы исключения и включения являются усовершенствованными вариантами предыдущего метода. В методе исключения в качестве исходного рассматривается регрессионное уравнение, включающее все возможные переменные. Рассчитывается частный F -критерий для каждой из переменных, как будто бы она была последней переменной, введенной в регрессионное уравнение. Минимальная величина частного F -критерия (Fmin) сравнивается с критической величиной (Fкр), основанной на заданном исследователем уровне значимости. Если Fmin >Fкр, то уравнение остается без изменения. Если Fmiр, то переменная, для которой рассчитывался этот частный F -критерий, исключается. Производится перерасчет уравнения регрессии для оставшихся переменных, и процедура повторяется для нового уравнения регрессии. Исключение из рассмотрения уравнений с незначимыми переменными уменьшает объем вычислений, что является достоинством этого метода по сравнению с предыдущим.
Метод включения состоит в том, что в уравнение включаются переменные по степени их важности до тех пор, пока уравнение не станет достаточно «хорошим». Степень важности определяется линейным коэффициентом корреляции, показывающим тесноту связи между анализируемой независимой переменной и результативным признаком: чем теснее связь, тем больше информации о результирующем признаке содержит данный факторный признак и тем важнее, следовательно, введение этого признака в уравнение.
Процедура начинается с отбора факторного признака, наиболее тесно связанного с результативным признаком, т. е. такого факторного признака, которому соответствует максимальный по величине парный линейный коэффициент корреляции. Далее строится линейное уравнение регрессии, содержащее отобранную независимую переменную. Выбор следующих переменных осуществляется с помощью частных коэффициентов корреляции, в которых исключается влияние вошедших в модель факторов. Для каждой введенной переменной рассчитывается частный F-критерий, по величине которого судят о том, значим ли вклад этой переменной. Как только величина частного F -критерия, относящаяся к очередной переменной, оказывается незначимой, т. е. эффект от введения этой переменной становится малозаметным, процесс включения переменных заканчивается. Метод включения связан с меньшим объемом вычислений, чем предыдущие методы. Но при введении новой переменной нередко значимость включенных ранее переменных изменяется. Метод включения этого не учитывает, что является его недостатком. Модификацией метода включения, исправляющей этот недостаток, является шаговый регрессионный метод.
Рассмотренные методы предполагают довольно большой объем вычислений и практически неосуществимы без ЭВМ. Для реализации ступенчатого регрессионного метода вполне достаточно малой вычислительной техники.
Ступенчатый регрессионный метод включает в себя такую последовательность действий. Сначала выбирается наиболее тесно связанная с результативным признаком переменная и составляется уравнение регрессии. Затем находят разности фактических и выровненных значений и эти разности (остатки) рассматриваются как значения результативной переменной. Для остатков подбирается одна из оставшихся независимых переменных и т. д. На каждой стадии проверяется значимость регрессии. Как только обнаружится незначимость, процесс прекращается и окончательное уравнение получается суммированием уравнений, полученных на каждой стадии за исключением последней.
Ступенчатый регрессионный метод менее точен, чем предыдущие, но не столь громоздок. Он оказывается полезным в случаях, когда необходимо внести содержательные правки в уравнение. Так, для изучения факторов, влияющих на цены угля в Санкт-Петербурге в конце XIX— начале XX в., было получено уравнение множественной регрессии. В него вошли следующие переменные: цены угля в Лондоне, добыча угля в России и экспорт из России. Здесь не обосновано появление в модели такого фактора, как добыча угля, поскольку Санкт-Петербург работал исключительно на импортном угле. Модели легко придать экономический смысл, если независимую переменную «добыча» заменить независимой переменной «импорт». Формально такая замена возможна, поскольку между импортом и добычей существует тесная связь. Пользуясь ступенчатым методом, исследователь может совершить эту замену, если предпочтет содержательно интерпретируемый фактор.