Кореляційний і регресійний аналіз

Одним із важливих завдань аналізу є встановлення та оцінювання взаємозв'язків між окремими ознаками для певної сукупності об'єктів. Цю роботу починають з побудови кореляційних таблиць (таблиць спряженості двох ознак, двовимірних таблиць). Вони дають змогу впорядковувати інформацію про розподіл сукупності об'єктів за двома ознаками. Такі таблиці мають прямокутну форму. Кількість рядків у них дорівнює кількості можливих значень однієї ознаки, а кількість стовпчиків — кількості можливих значень другої ознаки. У таблиці 4.5 у клітинці на перетині другого рядка і третього стовпчика знаходиться число 42 (в центрі клітинки) — кількість робітниць (значення ознаки «Стать» — «жіноча»), що не задоволені умовами праці (значення ознаки «Задоволеність умовами праці» — «незадоволений»).

Таблиця 4.5. Двовимірна таблиця (ознаки «Стать» і «Задоволеність умовами праці»)

	Задоволений	Не зовсім задоволений	Незадоволений	Всього
Чоловіки	18,40% 86,67%	75,94% 64,66%	5,66% 22,22%	100% 60,92%
Жінки	4,41% 13,33%	64,71% 35,34%	30,88% 77,78%	100% 39,08%
Всього	12,93%	71,55%	15,52%	100%

Крім того, двовимірна таблиця, як правило, містить ще один додатковий стовпчик і ще один додатковий рядок — так звані маргінальні стовпчик і рядок. У таблиці маргінали позначені словом «Всього». Кожна клітинка маргінального стовпчика містить суму чисел відповідного рядка, тобто кількість об'єктів, що мають відповідне значення першої ознаки (незалежно від того, якого значення для цих об'єктів набуває друга ознака), а також відсоток, який становить це число щодо загальної кількості об'єктів. Так, з маргінального стовпчика таблиці бачимо, що на підприємстві працює 136 жінок (39,08% загальної кількості працівників). Маргінальний рядок містить відповідні суми стовпчиків таблиці.

У кожній клітинці таблиці, як правило, записують відсоток стосовно відповідного значення в маргінальному стовпчику (цей відсоток записують вище від самого числа) та відсоток стосовно відповідного значення в маргінальному рядку (записують нижче від числа). Якщо знову повернутися до клітинки в другому рядку третього стовпчика таблиці, побачимо, що кількість незадоволених умовами праці жінок (таких на підприємстві 42) становить 30,88% від загальної кількості жінок (всього на підприємстві — 136 жінок) та 77,78% від загальної кількості незадоволених умовами праці (всього умовами праці на підприємстві не задоволені 54 працівники).

Числа в таблиці свідчать, що серед жінок відсоток незадоволених умовами праці на підприємстві значно вищий, ніж серед чоловіків. Отже, є підстави для гіпотези, що стать працівника та його задоволеність умовами праці взаємопов'язані.

Вміння читати двовимірні таблиці приходить з досвідом. Нелегко знаходити закономірності в досить великих за розміром таблицях. Крім того, зв'язок між ознаками простежується далеко не завжди. Тому на практиці наявність зв'язку між двома ознаками встановлюють за допомогою так званого критерію %², який ґрунтується на аналізі частот, записаних у клітинках таблиці. Це дає змогу дійти висновків про те, чи можна висувати та аналізувати гіпотезу про наявність зв'язку між двома ознаками.

Застосовуючи зазначений критерій, необхідно обчислити коефіцієнт х-квадрат за формулою (формула залежить від частот у клітинках таблиці та маргінальних частот), а одержане значення порівняти з табличним (критичним). При цьому слід мати на увазі певний рівень значущості (ймовірність прийняття хибного рішення) — в соціології, як правило, 0,05 або 0,01. Крім того, табличне значення залежить від кількості ступенів свободи, що визначають-за кількістю рядків і стовпчиків таблиці. Отже, для заданого рівня значущості та кількості ступенів свободи необхідно знайти в таблиці критичне значення і порівняти його з обчисленим. Якщо обчислене значення більше від критичного, то факт існування зв'язку можна вважати встановленим.

Силу зв'язку можна оцінити обчисленням та аналізом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера). Значення цих коефіцієнтів перебувають в інтервалі від нуля до одиниці та мають такий зміст: чим ближче значення до одиниці, тим тісніший зв'язок. Якщо обидві ознаки, між якими вивчають зв'язок, мають лише по два значення (тобто фіксують наявність або відсутність певної ознаки в об'єкті), то для таких «чотириклітинкових» таблиць обчислюють коефіцієнти асоціації та контингенції.

Якщо певному значенню однієї величини відповідає сукупність значень другої, то між цими двома величинами існує кореляційний зв'язок. Він виявляється тоді, коли на досліджуване явище впливає не один, а багато чинників. Наприклад, стаж впливає на продуктивність праці, але не остаточно визначає її, бо залежить від рівня освіти, віку, кваліфікації працівника та інших факторів. Оскільки явища суспільного життя складні та багатофакторні, зв'язок між ознаками в соціології практично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідає сукупність значень другої ознаки, близько розміщених біля свого середнього значення (тобто всі значення сукупності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вважають сильнішим. Кількісно силу кореляційного зв'язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефіцієнт Пірсона (r), який оцінює силу зв'язку за лінійної кореляції (за припущення, що значення однієї ознаки пов'язані з відповідними значеннями другої ознаки лінійною залежністю). Всі значення коефіцієнта кореляції Пірсона належать інтервалу від -1 до 1. Знак коефіцієнта показує напрям зв'язку: додатне значення свідчить про «прямий» зв'язок (зростання однієї ознаки зумовлює зростання другої), від'ємне значення — про «зворотний» зв'язок, а значення «0» — про відсутність лінійного кореляційного зв'язку. Наприклад, зв'язок між заробітною платою робітника та кількістю виготовлених ним деталей — прямий, а між заробітною платою та кількістю бракованих деталей — зворотний. При r —1 або r = -1 маємо функціональний зв'язок між ознаками (тобто кожному значенню однієї ознаки відповідає одне значення другої ознаки, і ці значення пов'язані лінійною залежністю). Отже, чим далі значення коефіцієнта Пірсона від нуля (чим більша його абсолютна величина), тим тісніший лінійний кореляційний зв'язок існує між ознаками. Однак якщо r = 0, то це означає відсутність лише лінійного зв'язку, а не відсутність зв'язку між ознаками взагалі: зв'язок може існувати, але нелінійний. Для оцінювання сили нелінійного зв'язку використовують кореляційне відношення, що набуває значення між 0 та 1 (0 означає відсутність зв'язку, 1 — функціональний зв'язок).

Для ознак, заданих у порядкових шкалах, обчислюють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між —1 та 1 та інтерпретуються так само, як і коефіцієнт кореляції Пірсона.

Встановлення кореляції між двома ознаками ще не означає встановлення причинного зв'язку між ними. Це лише свідчення того, що одна з ознак частково спричинила іншу або обидві ознаки і є наслідком деяких спільних для них причин. Зауважимо, що кількісна оцінка кореляційних зв'язків не може замінити спеціальних знань, але може допомогти дослідникові відкинути несуттєві зв'язки, чіткіше окреслити напрям пошуків, порівняти вплив різних чинників тощо. Крім того, коефіцієнти часткової кореляції дають змогу оцінити зв'язок між двома ознаками, усуваючи вплив однієї або кількох інших ознак. Якщо після усунення впливу третьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака послаблює зв'язок, а якщо зменшується, то саме ця третя ознака певною мірою спричинює наявність цього зв'язку (тобто зв'язок, можливо, є лише наслідком впливу цієї третьої ознаки). Обчислити коефіцієнти часткової кореляції досить складно через коефіцієнти кореляції Пірсона. Обсяг обчислень зростає з кількістю тих ознак, вплив яких бажають усунути. Силу спільного зв'язку сукупності ознак дає змогу оцінити коефіцієнт множинної кореляції.

Методи регресійного аналізу забезпечують не тільки оцінювання сили зв'язку між двома ознаками, а й встановлення виду цього зв'язку у вигляді рівняння (рівняння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) та значеннями певної сукупності ознак (незалежних, вплив яких на залежну ознаку намагаються оцінити). У соціологічних дослідженнях, як правило, відбувається пошук такої залежності у лінійному вигляді (у вигляді лінійного рівняння), тому йдеться про рівняння багатовимірної (множинної) лінійної регресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснювати поведінку залежної ознаки, а й прогнозувати її значення за різних змін значень незалежних ознак. Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприємстві, було побудовано рівняння лінійної регресії: у = 4,27 х₁ 1,83 х₂-9,20. Воно описує зв'язок між заробітною платою у (залежна ознака, вимірюється в гривнях) і двома незалежними ознаками працівника: стаж х₁ (вимірюється в роках) та освітній рівень х₂ (вимірюється в роках). Аналіз цього рівняння наводить на думку, що зростання трудового стажу працівника на один рік зумовлює зростання його середньої заробітної плати на 4,27 грн., а зростання освітнього рівня на один рік — зростання середньої заробітної плати лише на 1,83 грн. Отже, на даному підприємстві трудовий стаж суттєвіше впливає на середню заробітну плату працівника, ніж його освітній рівень. Якість рівняння регресії (наскільки точно рівняння регресії описує зв'язок між ознаками) оцінюють коефіцієнтом множинної кореляції.

Суттєвим для одержання надійних, статистично обґрунтованих результатів є оцінювання значущості статистичних показників — комплекс математичних процедур, що дають змогу відповісти на низку питань щодо розрахованих статистичних показників і параметрів вибіркової сукупності. Так, після обчислення коефіцієнта кореляції між двома ознаками та отримання числа, що не дорівнює нулю, цілком логічно постають запитання: чи справді цей коефіцієнт суттєво відрізняється від нуля (а отже, фіксує наявність лінійного кореляційного зв'язку), чи ця різниця випадкова і спричинена лише похибкою нашої вибірки? Відповідь на них можна дати, оцінивши значущість відмінності коефіцієнта кореляції від нуля і звернувши особливу увагу на обсяг вибірки та рівень значущості (ймовірність прийняття хибного рішення). Ця процедура така ж, як і процедура застосування критерію х², і дає змогу за певною формулою обчислити критерій. Одержане ж значення порівнюють із табличним. На основі результатів порівняння роблять висновок. Крім оцінювання значущості відмінності від нуля коефіцієнта кореляції між двома ознаками, часто застосовують і процедури оцінювання значущості різниці між двома відсотками (наприклад, різниці між відсотками незадоволених умовами праці на певному підприємстві серед жінок і чоловіків), різниці між двома середніми (між середньою заробітною платою на одному та іншому підприємствах), двох коефіцієнтів кореляції. Для кожної такої задачі існують формула обчислення критерію та статистичні таблиці, якими користуються для порівняння.