ВЕДЕНИЕ. ПОНЯТИЕ КОРРЕЛЯЦИИ
Корреляция, или коэффициент корреляции, — это статистический показатель вероятностной связи между двумя переменными, измеренными в количественной шкале. В отличие от функциональной связи, при которой каждому значению одной переменной соответствует строго определенное значение другой переменной, вероятностная связь характеризуется тем, что каждому значению одной переменной соответствует множество значений другой переменной. Примером вероятностной связи является связь между ростом и весом людей. Ясно, что один и тот же рост может быть у людей разного веса, как и наоборот. Величина коэффициента корреляции меняется от -1 до 1. Крайние значения соответствуют линейной функциональной связи между двумя переменными, 0 — отсутствию связи.
Строгая корреляция является математической абстракцией и практически не встречается в реальных исследованиях. Примером строгой корреляции является соответствие между временем пути и пройденным расстоянием при неизменной скорости.
Нулевой коэффициент корреляции говорит о том, что значения переменных никак не связаны друг с другом. Примером пары величин с нулевой корреляцией является рост человека и результат его IQ-теста. (цитируется по: Наследов А. Д. SPSS: Компьютерный анализ данных в психологии и социальных науках. — СПб.: Питер, 2005. —416 с.)
Как отмечалось выше, процесс постановки диагноза – это в значительной степени процесс выявление взаимосвязей (корреляций) между различными параметрами (симптомами). Возникновение или исчезновение таких взаимосвязей часто может свидетельствовать или о нарастании патологического процесса или, наоборот, о положительной динамике. Установление корреляций между различными показателями состояния больного и влияние их изменений на жизнедеятельность организма является важной задачей также лабораторных и клинических исследований.
ФУНКЦИОНАЛЬНАЯ, СТАТИСТИЧЕСКАЯ И КОРРЕЛЯЦИОННАЯ СВЯЗИ
Две случайные величины X и Y могут быть связаны функциональной зависимостью, статистической или быть независимыми. Как мы помним из курса математики, функциональной зависимостью называется такая зависимость, когда с помощью какого-либо закона (функции) заданному значению Х ставится в соответствие одно (или несколько) значений Y. Как отмечалось выше, точная функциональная зависимость в медицине практически не реализуется, так как обе величины X и Y или одна из них могут быть подвержены действию случайных факторов, в том числе и общих для них. В таком случае возникает статистическая связь.
Рассмотрим две случайные величины X и Y. Как мы уже знаем из предыдущего рассмотрения, для каждой из них существует свой закон распределения. Допустим далее, что Y зависит от X.
Статистической связью называется связь между величинами X и Y, при которой изменение одной из величин вызывает изменение закона РАСПРЕДЕЛЕНИЯ другой. Если мы имеем дело со случайными величинами, распределенными по нормальному закону, то это означает, что изменение Х может приводить к изменению или дисперсии или среднего (или того и другого) случайной величины Y. Рассмотрим ситуацию, когда изменяется среднее.
Хорошо известной является статистическая связь веса и роста. Выберем четырех людей одного роста, равного 165 см (то есть зададим х=165 см). Измерим их вес. Допустим, у нас получилось четыре значения: 62, 68, 59 и 65 килограмм. Найдем среднее арифметическое этих величин:
Число называется условным средним; черта над y есть обозначение среднего арифметического, а число 165 показывает, что рассматриваются те значения Y, которые соответствуют x = 165 см. Таким образом, условным средним называется среднее арифметическое значений , соответствующих значению Х=х.
Если каждому значению х соответствует одно значение условной средней, то условная средняя есть функция х. В этом случае говорят, что случайная величина Y связана с Х корреляционно.
Итак, корреляционной зависимостью Y от Х называется функциональная зависимость условной средней от х:
(1)
УРАВНЕНИЯ И ЛИНИИ РЕГРЕССИИ. КОРРЕЛЯЦИОННОЕ ПОЛЕ
Уравнение (1) называется уравнением регрессии Y на Х; функция называется регрессией Y на Х, а ее график - линией регрессии Y на Х. Функция может иметь разный вид: она может быть линейной, квадратичной, экспоненциальной и т.д. Поэтому п ервая задача теории корреляции - установить форму корреляционной связи, т.е. вид функции регрессии. Чаще всего принимается, что функция регрессии является линейной. Если функция регрессии линейна, то корреляцию называют линейной; в противном случае - нелинейной. Очевидно, при линейной корреляции линия регрессии являются прямой линией.
Вторая задача теории корреляции - оценить тесноту (силу) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений Y вокруг условного среднего . Большое рассеяние свидетельствует о слабой связи Y и X или даже об отсутствии зависимости. Малое рассеяние указывает на наличие достаточно сильной зависимости; возможно даже, что Y и X связаны функционально, но под действием второстепенных случайных факторов эта связь оказалась размытой, в результате чего при одном и том же значении х величина Y принимает разные значения.
Наглядно на графике тесноту связи можно оценить при помощи построения корреляционного поля. Действительно, для изучения корреляционной зависимости необходимо измерить два параметра у одного объекта (человека, животного и т.д.). Такие выборки называются связанными, поскольку числа в строках таблицы связаны или фамилией испытуемого или номером животного. Откладывая один из параметров на оси абсцисс, а другой на оси ординат, мы можем изобразить каждый объект в декартовой системе координат точкой на плоскости. Тогда все исследование изобразится некоторым распределением точек на плоскости. Оценивая тесноту расположения этих точек и их направленность, можно приблизительно оценить как вид корреляционной зависимости (линейная или нелинейная), так и оценить силу связи.
Например, в таблице 1 приведены результаты следующего эксперимента. Было сделано предположение, что чем выше уровень тревожности студента перед тестированием, тем больше он занимается и, следовательно, получает более высокие результаты тестирования. Исследование было проведено на 36 студентах. (Пример взят из Наследов А. Компьютерный анализ данных в психологии и социальных науках. Санкт-Петербург, «Питер», 2007, 416 с.)
Таблица 1
уровень тревожности (баллы) | 8 | 3 | 2 | 7 | 6 | 5 | 9 | 9 | 4 | 3 | 6 | 7 |
результат теста (баллы) | 13 | 12 | 10 | 14 | 15 | 12 | 13 | 12 | 10 | 8 | 16 | 15 |
2 | 8 | 8 | 2 | 6 | 3 | 9 | 6 | 6 | 4 | 8 | 7 | 10 | 7 | 3 | 4 |
10 | 14 | 12 | 7 | 16 | 9 | 12 | 16 | 14 | 10 | 14 | 16 | 12 | 18 | 12 | 12 |
6 | 7 | 6 | 7 | 5 | 8 | 5 | 7 |
15 | 17 | 16 | 17 | 14 | 15 | 14 | 17 |
На рисунке 1 результаты исследования приведены в графическом виде. Как видно из рисунка, корреляция между результатами тестирования и уровнем тревожности достаточно высокая, поскольку точки располагаются достаточно тесно друг к другу. Далее, очевидно, что это не линейная корреляция, а, скорее всего квадратичная, поскольку распределение точек имеет хорошо выделяемый максимум. Из рисунка также видна еще одна закономерность: при малых значениях уровня тревожности действительно с ростом уровня тревожности растут результаты тестирования, но когда уровень тревожности превышает 7 баллов, дальнейший рост уровня тревожности приводит к уменьшению результатов тестирования.
Рис 1. Корреляционное поле, демонстрирующее зависимость результатов тестирования от уровня тревожности
На рисунке 2 приведены примеры корреляционных полей в случае линейной корреляции и указаны оценки тесноты связи и вида связи (см. ниже), соответствующие тому или иному корреляционному полю.
Рис 2. Корреляционные поля и соответствующие им оценки тесноты связи и вида связи
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ И ЕГО СВОЙСТВА
При изучении зависимостей между двумя случайными величинами, необходимо всегда помнить одно важное положение: математика не в состоянии ответить на вопрос что от чего ЗАВИСИТ. С помощью корреляционного анализа устанавливается только факт наличия или отсутствия СВЯЗИ. С точки зрения математики постановка задачи зависит ли тяжесть заболевания от пола также правомочна, как и задача: зависит ли пол от тяжести заболевания. Очевидно, что вторая постановка задачи просто абсурдна. Поэтому, переходя от проверки наличия или отсутствия связи к гипотезам о зависимости, исследователь должен привлекать свои априорные профессиональные знания, лежащие вне компетенции математических методов.
Для ответа на вопрос о наличии или отсутствии связи между двумя случайными величинами рассчитываются по выборке различные коэффициенты связи и проверяется достоверность их отличия от нуля. Только в том случае, если показано, что тот или иной коэффициент связи достоверно отличается от нуля, можно говорить о наличии связи между изучаемыми величинами.
Существует довольно большое разнообразие коэффициентов связи, соответствующее разнообразию случайных величин. В данном рассмотрении мы будем принимать, что имеем дело с непрерывными случайными величинами, распределенными по нормальному закону. Именно эти условия часто реализуются для случайных величин, изучаемых в ходе медицинского или биологического исследования. Кроме того, будем принимать гипотезу, что между исследуемыми случайными величинами существует линейная связь. В этом случае коэффициент связи носит название коэффициента корреляции Пирсона.
СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Коэффициент корреляции Пирсона изменяется в пределах от -1 до +1. Значение коэффициента корреляции равное -1 или +1 означает, что между переменными существует строгая линейная связь, и эта связь может быть выражена математической формулой: . Если значение коэффициента корреляции по модулю находится ближе к 1, это означает наличие сильной связи, а если ближе к 0 — связь слабая или вообще отсутствует.
Следующий шаг состоит в том, чтобы ответить на вопрос: какая это связь прямая или обратная. Если значение коэффициента корреляции положительное, это означает, что связь прямая (то есть, при увеличении (уменьшении) одной случайной величины, увеличивается (уменьшается) другая). В противном случае, если значение коэффициента корреляции отрицательное, то связь обратная (увеличение (уменьшение) одной случайной величины приводит к уменьшению (увеличению) другой).
Относительно силы связи можно принять следующую градацию.
Таблица 2
Значения коэффициента корреляции | 0,1 – 0,3 | 0,3 – 0,5 | 0,5 – 0,7 | 0,7 – 0,9 | 0,9 – 0,99 |
Характеристика силы связи | Слабая | Умеренная | Значительная | Сильная | Очень сильная |