Порівнювати кілька розподілів зручно, якщо розмістити полігони цих розподілів, побудованих в однаковому масштабі, на одному рисунку. При цьому кожен з полігонів зображується або іншим кольором, або іншою лінією (штрихованою, хвилястою тощо). Таке поєднання на одному рисунку кількох графіків дає змогу ефективно та швидко порівнювати між собою розподіли, що має на меті виокремлення ділянок, які збігаються, тенденцій зміни ознак.
Крім допомоги в аналізі даних, графіки надзвичайно ефективні з огляду на подання результатів досліджень. Є графіки робочі та ілюстративні. Перші, як правило, досить насичені числами, другі — більш яскраві та "зовнішньо привабливі". Майже всі комп'ютерні пакети програм аналізу даних продукують певні робочі графіки. Для підготовки ілюстративних графіків є спеціалізовані пакети програм — "пакети ілюстративної графіки". Ці програмні комплекси не призначені для обчислення та аналізу даних, але дають змогу обчислені засобами інших пакетів показники зобразити в різних графічних формах, включаючи тривимірні конфігурації із затіненням. При цьому написи можна робити різними шрифтами (горизонтально, вертикально, вздовж будь-якої лінії, використовуючи різні кольори). Графіки можна доповнювати рисунками або "прив'язувати" їх до географічної мапи. Результати такої побудови можуть бути виведені на високоякісні друкуючі пристрої, у файл для подальшого використання у видавничих системах, на прозору плівку у вигляді кольорових слайдів або просто демонструватися у певній послідовності на екрані комп'ютера під час доповіді.
Аналіз двовимірних таблиць
Одним з важливих завдань аналізу даних є пошук та оцінка взаємозв'язків окремих ознак для певної сукупності об'єктів. Першим кроком при розв'язуванні цієї задачі є побудова кореляційних таблиць (їх ще називають двовимірними таблицями). Двовимірні таблиці дають змогу впорядкувати інформацію про розподіл сукупності об'єктів за двома ознаками. Така таблиця має прямокутну форму. Кількість рядків у таблиці дорівнює кількості можливих значень однієї ознаки, а кількість стовпчиків — кількості можливих значень іншої ознаки.
У наведеній нижче таблиці в клітинці, що знаходиться, наприклад, на перетині другого рядка і четвертого цифрового стовпчика, стоїть число 61 (число в центрі клітинки). Це кількість робітниць (значення ознаки "Стать" — "жінка"), яких не задовольняють умови праці (значення ознаки "Задоволеність умовами праці" — "повністю не задоволений").
Ознака 12. Задоволеність умовами праці
Запитання: Чи задоволені Ви умовами праці на Вашому підприємстві?
Ознака 86. Стать
Запитання: Інтерв'юер, вкажіть стать респондента
Стать | Повністю задоволений | Скоріше так, ніж ні | Скоріше ні, ніж так | Повністю не задоволений | Разом |
Чоловік | 18,4 % 86,6 % | 25,5 % 61,4 % | 33,0 % 66,7 % | 23,1 % 44,5 % | 60,9 % |
Жінка | 4,4 % 13,3 % | 25,0 % 38,6 % | 25,7 % 33,3 % | 44,9 % 55,5 % | 39,1 % |
Разом опитаних | 12,9 % | 25,3 % | 30,2 % | 31,6 % |
Крім того, двовимірна таблиця, як правило, містить ще один додатковий стовпчик та ще один додатковий рядок — так звані маргінальні стовпчик та рядок. Кожна клітинка маргінального стовпчика містить суму чисел відповідного рядка, а також відсоток, який становить це число по відношенню до загальної кількості об'єктів. Так, з маргінального стовпчика таблиці видно, що на підприємстві працюють 136 жінок, а це становить 39,1 % загальної кількості робітників. Маргінальний рядок містить відповідні суми стовпчиків таблиці.
Крім того, в кожній клітинці таблиці, як правило, записують два відсотки — відсоток, який становить число, що міститься в клітинці, по відношенню до відповідного значення в маргінальному стовпчику (цей відсоток записують над числом), та відсоток по відношенню до відповідного значення в маргінальному рядку (записується під числом). Так, якщо ми знову повернемося до клітинки в другому рядку четвертого стовпчика таблиці, то побачимо, що кількість незадоволених умовами праці жінок (таких на підприємстві 61) становить 44,9 % загальної кількості жінок (а всього на підприємстві працює 136 жінок) та 55,5 % загальної кількості незадоволених умовами праці (всього умовами праці на підприємстві не задоволені 110 робітників).
З таблиці також видно, що відсоток жінок, не задоволених умовами праці на підприємстві, значно більший, ніж чоловіків. Отже, ми можемо висунути гіпотезу, що стать працівника та задоволеність умовами праці пов'язані між собою.
Уміння читати двовимірні таблиці дається досвідом, проте шукати закономірності в досить великих за розміром таблицях дуже важко. Крім того, далеко не завжди зв'язок між ознаками можна побачити так наочно. Тому на практиці факт наявності зв'язку між двома ознаками встановлюється за допомогою так званого критерію Х-квадрат. Цей критерій ґрунтується на аналізі частот, записаних у клітинках таблиці, і дає змогу відповісти на запитання, чи можна висувати й аналізувати гіпотезу про наявність зв'язку між двома ознаками. Пакет ОСА не тільки автоматично обчислює коефіцієнт Х.-квадрат для кожної двовимірної таблиці, а й оцінює його на рівні надійності 1 % та 5 % (рівень надійності — це ймовірність прийняти хибне рішення). Якщо обчислене значення Х-квадрат є надійним на рівні 1 %, то факт існування зв'язку можна вважати встановленим з імовірністю 0,99.
Для оцінки сили зв'язку обчислюють коефіцієнти Чупрова та Крамера. Вони побудовані на основі Х.-квадрат і набувають значення в інтервалі від нуля до одиниці. Обидва коефіцієнти набувають значення нуль у разі статистичної незалежності двох ознак. Значення більше нуля можна інтерпретувати так: чим значення ближче до одиниці, тим зв'язок тісніший.