Парна лінійна регресія
Важливою характеристикою кореляційного зв’язку є лінія регресії — емпірична в моделі аналітичного групування і теоретична в моделі регресійного аналізу. Емпірична лінія регресії представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу значень групувального фактора хj. Теоретична лінія регресії описується певною функцією яку називають рівнянням регресії, а Y — теоретичним рівнем результативної ознаки.
На відміну від емпіричної, теоретична лінія регресії неперервна. Так, уважають, що маса дорослої людини в кілограмах має бути на 100 одиниць менша за її зріст у сантиметрах. Співвідношення між масою і зростом можна записати у вигляді рівняння: , де у — маса; х — зріст.
Безперечно, така форма зв’язку між масою та зростом людини надто спрощена. Насправді збільшення маси не жорстко пропорційне до збільшення зросту. Люди одного зросту мають різну масу, проте в середньому зі збільшенням зросту маса зростає. Для точнішого відображення зв’язку між цими ознаками в рівняння слід увести другий параметр, який був би коефіцієнтом пропорційності при х, тобто Y = – 100 + bx.
Рівняння регресії в такому вигляді описує числове співвідношення варіації ознак х і у в середньому. Коефіцієнт пропорційності при цьому відіграє визначальну роль. Він показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. У разі прямого зв’язку b — величина додатна, у разі оберненого — від’ємна.
Подаючи у як функцію х, тим самим абстрагуються від множинності причин, штучно спрощуючи механізм формування варіації у. Аналіз причинних комплексів здійснюється за допомогою множинної регресії.
Різні явища по-різному реагують на зміну факторів. Для того щоб відобразити характерні особливості зв’язку конкретних явищ, статистика використовує різні за функціональним видом регресійні рівняння. Якщо зі зміною фактора х результат у змінюється більш-менш рівномірно, такий зв’язок описується лінійною функцією:
Y = ax + b.
Параметр a (коефіцієнт регресії) — величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на y. Параметр b — вільний член рівняння регресії, це значення y при x = 0. Якщо межі варіації x не містять нуля, то цей параметр має лише розрахункове значення.
Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого — мінімізація суми квадратів відхилень емпіричних значень y від теоретичних Y.
Метод найменших квадратів
Розглянемо суть методу найменших квадратів.
Нехай емпірична формула має вигляд
, (1)
де , , …, ─ невідомі коефіцієнти. Треба знайти такі значення коефіцієнтів , за яких крива (1) якомога ближче проходитиме до всіх точок , , …, , знайдених експериментально. Зрозуміло, що жодна з експериментальних точок не задовольняє точно рівняння (1). Відхилення від підстановки координат у рівняння (1) дорівнюватимуть величинам .
За методом найменших квадратів найкращі значення коефіцієнтів ті, для яких сума квадратів відхилень
(2)
дослідних даних від обчислених за емпіричною формулою (1) найменша. Звідси випливає, що величина (2), яка є функцією від коефіцієнтів , повинна мати мінімум. Необхідна умов мінімуму функції багатьох змінних ─ її частинні похідні мають дорівнювати нулю, тобто
, , …, .
Диференціюючи вираз (2) по невідомих параметрах , матимемо відносно них систему рівнянь:
(3)
Система (3) називається нормальною. Якщо вона має розв’язок, та він єдиний, і буде шуканим.
Якщо емпірична функція (1) лінійна відносно параметрів , то нормальна система (3) буде системою з лінійних рівнянь відносно шуканих параметрів.
Будуючи емпіричні формули, припускатимемо, що експериментальні дані додатні.
Якщо серед значень і є від’ємні, то завжди можна знайти такі додатні числа і , що і .
Тому розв’язування поставленої задачі завжди можна звести до побудови емпіричної формули для додатних значень .
Вираження параметрів парної лінійної регресії через числові характеристики показника і фактора
Нехай між даними існує лінійна залежність. Шукатимемо емпіричну формулу у вигляді
, (4)
де коефіцієнти і невідомі.
Знайдемо значення і , за яких функція матиме мінімальне значення. Щоб знайти ці значення, прирівняємо до нуля частинні похідні функції
Звідси, врахувавши, що , маємо
(5)
Розв’язавши відносно і останню систему, знайдемо
, (6)
. (7)
Або в більш зручному вигляді:
, (8)
.
Рівняння регресії відбиває закон зв’язку між х і у не для окремих елементів сукупності, а для сукупності в цілому; закон, який абстрагує вплив інших факторів, виходить з принципу «за інших однакових умов».
Важливою характеристикою регресійної моделі є відносний ефект впливу фактора х на результат у — коефіцієнт еластичності:
. (9)
Він показує, на скільки процентів у середньому змінюється результат у зі зміною фактора х на 1%.
Коефіцієнт кореляції
Поряд із визначенням характеру зв’язку та ефектів впливу факторів х на результат у важливе значення має оцінка щільності зв’язку, тобто оцінка узгодженості варіації взаємозв’язаних ознак. Якщо вплив факторної ознаки х на результативну у значний, це виявиться в закономірній зміні значень у зі зміною значень х, тобто фактор х своїм впливом формує варіацію у. За відсутності зв’язку варіація у не залежить від варіації х.
Серед мір щільності зв’язку найпоширенішим є коефіцієнт кореляції Пірсона. Позначається цей коефіцієнт символом r. Оскільки сфера його використання обмежується лінійною залежністю, то і в назві фігурує слово «лінійний». Обчислення лінійного коефіцієнта кореляції r ґрунтується
на відхиленнях значень взаємозв’язаних ознак x і у від середніх.
За наявності прямого кореляційного зв’язку будь-якому значенню хі > відповідає значення , а відповідає . Узгодженість варіації х і у схематично показано на рис. 1 у вигляді кореляційного поля зі зміщеною системою координат.
Рис. 1. Узгодженість варіації взаємозв’язаних ознак
Точка, координатами якої є середні і , поділяє кореляційне поле на чотири квадранти, в яких по-різному поєднуються знаки відхилень від середніх:
Квадрант | (х – ) | (у – ) |
I | + | + |
II | – | + |
III | – | – |
IV | + | – |
Для точок, розміщених у І та ІІІ квадрантах, добуток додатний, а для точок з квадрантів ІІ і ІV — від’ємний. Чим щільніший зв’язок між ознаками х і у, тим більша алгебраїчна сума добутків відхилень . Гранична сума цих добутків дорівнює .
Коефіцієнт кореляції визначається відношенням зазначених сум:
. (10)
Очевидно, що в разі функціонального зв’язку фактична сума відхилень дорівнює граничній, а коефіцієнт кореляції r = ±1; при кореляційному зв’язку абсолютне його значення буде тим більшим, чим щільніший зв’язок.
Коефіцієнт кореляції, оцінюючи щільність зв’язку, указує також на його напрям: коли зв’язок прямий, r — величина додатна, а коли він зворотний — від’ємна.