1. За завданням викладача використати дані медико-біологічної статистики (додаток 1.1.1). Результати занести в таблицю 1.1.1, складаючи простий статистичний ряд.
2. Простий статистичний ряд перетворити у впорядкований ряд. Для цього в таблиці 1.1.1 знайти mах та mіn значення варіанти хі і весь діапазон від хmіn до хmах, розбити, наприклад, на 5 рівних інтервалів, шириною Dх:
. (1.1.3)
Верхні межі кожного з п’яти інтервалів вирахувати за формулою:
х*mах = хmіn + і×Dх, де і = 1,2,3,4,5. (1.1.4)
3. Знайти число попавших в інтервал варіант (mi) (частотність), ймовірність (перша формула) та середнє арифметичне значення варіант, які попали в даний інтервал (друга формула):
; .
Групову середню величину можна вирахувати як півсуму величин початку даного і наступного інтервалу. Результати занести в а таблицю 1.1.2.
Таблиця 1.1.1
n | xi | n | xi | n | xi | N | xi | n | xi |
Таблиця 1.1.2.
№ інтервалу | Нижня межа хmіn | Верхня межа хmах | mi | Рі | |
∑ | – | – | – |
4. На основі отриманих результатів побудувати графік розподілу.
5. Написати висновок про достовірність вибраного методу досліджень.
Контрольні запитання
1. Які основні поняття теорії ймовірностей
та математичної статистики використовуються при
медико-біологічних дослідженнях?
2. Неперервні випадкові величини та їх числові
характеристики.
3. Коли використовують розподіл Гаусса?
4. Проаналізувати особливості закону розподілу
випадкової величини.
5. Пояснити суть нормування кривої Гаусса.
6. Який зв’язок між щільністю ймовірності
та функцією розподілу?
Лабораторна робота № 2
Кореляційний аналіз зв’язків між випадковими змінними величинами в медицині
Мета роботи: вивчити основи кореляційного аналізу, встановити кореляційний зв’язок між вар’юючими медико-біологічними величинами, визначити кількісно міру цього зв’язку та його достовірність.
Обладнання: ПК, мікрокалькулятор.
Теоретичні відомості
Ще Гіппократ в VI ст. до н. е. звернув увагу на наявність зв’язку між статурою та темпераментом людей, між будовою тіла та схильністю до тих чи інших захворювань. Перші види подібного зв’язку виявлені також в тваринному і рослинному світі. Наявність зв’язків між варіюючими признаками виявляється на всіх рівнях організації живого. Тому потрібно вміти використовувати цю закономірність в інтересах людини і оцінювати її кількісно.
Теоретично розрізняють такі форми прояву кількісних зв’язків між явищами (процесами, признаками): функціональну залежність та кореляційну залежність.
Функціональна залежність — це такий тип співвідношення між двома признаками, коли кожному певному значенню одного з них відповідає певне, часто заздалегідь відоме значення іншого.
Наприклад, об’єм кулі залежить від її радіуса [ V = f(R) ], опір металу залежить від температури [ R = f(Т) ], об’єм куба однозначно визначається довжиною одного з його ребер [ V = f(l) ] і т. д. Як правило, функціональні зв’язки вивчаються в фізико-хімічних процесах і прийняті як абстракції в математичних дисциплінах.
Однак однозначні, або функціональні, зв’язки між змінними величинами зустрічаються далеко не завжди. В медичних спостереженнях, при антропометричних вимірах хоча і фіксують наявність залежності між явищами, ці залежності уже не функціональні. Наприклад, відомо, що у людини із збільшенням росту зростає вага. Але далеко не у всіх людей збільшення ваги пропорційне збільшенню росту: при однаковому рості, наприклад, дуже часто спостерігається різна вага тіла.
Між рівнем температури тіла у людини та числом скорочень міокарда в хвилину при ряді захворювань існує безперечна залежність: як правило, з підвищенням температури зростає частота скорочень міокарда. Але індивідуальні коливання пульсу у різних людей при однаковому підвищенні температури тіла спостерігаються постійно. Це ж спостерігається і в якісних признаках: блондини, як правило, мають блакитні очі, а брюнети — карі. Однак з цього правила існують винятки — зустрічаються кароокі блондини та брюнети з блакитними очима. Причиною таких „винятків” є те, що кожна біологічна ознака представляє собою функцію багатьох змінних: на неї впливають і генетичні фактори, і фактори середовища, і т. д. Тому залежність між біологічними ознаками має не функціональний, а статистичний характер.
Кореляційною залежністю (або кореляцією) називають такий тип співвідношень між двома явищами, коли значенню однієї ознаки буде відповідати уже не одне єдине значення іншої, а множина суміжних значень іншої ознаки, які варіюють біля середньої величини.
За допомогою кореляційного аналізу розв’язують задачі встановлення обґрунтованого діагнозу, терапії певного захворювання. Оскільки всі системи живого організму взаємозв’язані, встановлення кореляції між різними показниками стану хворого та впливу їх змін на життєдіяльність організму, впливу на них різних зовнішніх втручань — важлива задача лабораторних і клінічних досліджень, діагностики та терапії.
Рис.1.2.1. Кореляційне поле: а) додатня (пряма) кореляція; б) від’ємна зворотня кореляція; в) зв’язок відсутній.
Нехай в результаті експерименту отримані випадкові значення одночасно вимірюваних величин (х) і (y). Вибірка (х) складається із значень х1, х2,... хn, а вибірка (y) з y1, y2,... yn. Якщо попарно нанести на площину точки, що відповідають (х) і (y) в першій, другій, n-ій реалізації, то вони займуть певну область, яка називається кореляційним полем. Якщо між (х) і (y) є зв’язок, кореляційне поле має вигляд еліпса із згущенням точок навколо головної осі і з малим числом цих точок на периферії (рис 1.2.1 а, б). Якщо зв’язок виражений слабо або практично відсутній, точки розкидані (рис.1.2.1. в).
За формою кореляцію поділяють на пряму (додатню) та зворотню (від’ємну): обидві вони можуть бути лінійними і криволінійними. При лінійній додатній кореляції із зростанням значення одного признака середні значення іншого признака також зростають (наприклад, температура і частота скорочень міокарда у хворих). При зворотній кореляції із зростанням одного признака середні значення іншого неперервно спадають (наприклад, рівень сили в руці (динамометрія) з виявленим захворюванням серед обстежених груп).
Оцінюють величину зв’язку, задаючи рівняння лінії регресії. Регресією називають співвідношення числової зміни однієї величини до числової зміни іншої. Якщо лінія регресії пряма, між вимірюваними признаками існує лінійний кореляційний зв’язок.
Якщо б розсіювання точок навколо умовного центру дорівнювало нулю, то цей центр мав би координати, рівні середнім значенням:
; , (1.2.1)
де хі і yі — значення варіант; n — їх кількість. При реальних кореляціях між (х) і (y) мірою розсіювання є дисперсія або середні квадратичні відхилення:
; , (1.2.2)
де і —середні значення варіант.
Найпростішою характеристикою зв’язку між (х) і (y) є математичне сподівання добутку відхилень х і y від умовного центру:
. (1.2.3)
Ця характеристика називається коваріацією або моментом зв’язку і для вибірки з n — реалізацій вираховується як
. (1.2.4)
Коваріація (cov) — це усереднена величина добутків відхилень кожної пари спостережень від їх середніх значень.
Очевидно, що величина цього показника буде залежати від того, наскільки часто в загальному ряді добуток матиме один знак — плюс або мінус. У першому випадку пари варіант повинні відхилятись від своїх середніх в одному напрямку (тобто і або і ). В іншому випадку, якщо знак мінус , то або навпаки. При цьому перевага величин одного знаку сприяє більшому абсолютному значенню коефіцієнта кореляції R, бо величини з різними знаками в сумі дають меншу абсолютну величину. Середнє значення всіх добутків показує, в якій мірі більшим (або меншим) значенням хі відповідають більші (або менші) значення yі. Недолік коефіцієнта кореляції — не враховує випадки, коли корелюючі ознаки вимірюються різними одиницями. Наприклад, маса тіла може корелювати з його лінійними розмірами, довжина колосків — з масою наявних в них зерен і т. д. Цей недолік можна усунути, якщо замість відхилень використати їх відношення до середніх квадратичних відхилень sх і sy. У результаті отримується безрозмірний показник, який називають емпіричним коефіцієнтом кореляції R:
. (1.2.5)
Він кількісно характеризує зв’язок між випадковими величинами або процесами. При додатньому зв’язку R може приймати довільні значення від 0 до +1. При від’ємному R виражається від’ємним числом і знаходиться в межах від 0 до –1. Чим ближче R до +1 або –1, тим тісніший прямий або зворотній зв’язок. Якщо R=0 — кореляційний зв’язок відсутній. Оцінити величину кореляції можна згідно значень величини коефіцієнта лінійної кореляції (табл. 1.2.1).
Таблиця 1.2.1.
Оцінка кореляції | Значення R при наявності | |
Прямого зв’язку | Зворотнього зв’язку | |
Мала (слабка) | 0¸0,29 | 0¸ -0,29 |
Середня (помірна) | 0,30¸0,69 | -0,30¸ -0,69 |
Велика (сильна) | 0,70¸1,00 | -0,70¸ -1,00 |
Критерієм близькості точок кореляційного поля до лінії регресії є мінімум суми квадратів відхилень точок від цієї лінії, заданої рівнянням лінії регресії:
y = a × x + b. (1.2.6)
Коефіцієнти „a” і „b” визначаються в статистичній теорії випадкових величин і процесів через , та R:
. (1.2.7)
Обчисливши (1.2.7), по рівнянню (1.2.6) можна отримати конкретний вираз прямої регресії.
При статистичних оцінках зв’язку випадкових величин (х) і (y) по заданим вибіркам з n реалізацій математичні сподівання можна замінити середніми арифметичними та визначити коефіцієнт кореляції за формулою:
.
(1.2.8)
R надійно характеризує зв’язок випадкових величин (х) та (y) лише тоді, коли розподіли реалізацій (х) та (y) описуються нормальним законом розподілу Гаусса.
Оскільки в більшості випадків R визначається в сукупностях, число спостережень в яких буває обмеженим, для дотримання правил якісного представництва порівнюваних даних потрібно оцінити точність та надійність коефіцієнта кореляції. Для цього визначають середню похибку коефіцієнта кореляції mR. При великому числі спостережень (більше 50) mR визначається за формулою:
, (1.2.9)
а при малих вибірках (з числом спостережень до 30):
. (1.2.10)
Величина R вважається достовірною, якщо не менш, ніж в три рази перевищує свою середню похибку.
Критерієм значимості R є відношення R до його стандартної похибки mR
?
величина якого оцінюється по таблиці Стьюдента.