Рассмотренный метод сравнения мер вариации и его модификации являются основой чрезвычайно мощного и информативного метода математико-статистического анализа данных, получившего название дисперсионный анализ – он будет изучаться на следующих занятиях.
Критерии согласия позволяют определить степень соответствия эмпирических и теоретических распределений вероятностей, а также двух эмпирических распределений, полученных, например, в «контроле» и «опыте» или в различных вариантах «опыта» или «наблюдения». Математиками были разработаны несколько таких критериев, однако мы рассмотрим наиболее известный из них – критерий согласия Пирсона (критерий c2).
Этот критерий позволяет проверить гипотезу о схожести фактического, полученного на практике, распределения вероятностей случайной величины и теоретического (например, нормального распределения).
Критерий записывается следующим образом:
c2
где k – число классов гистограммы или ряда распределения, - фактические (наблюдаемые) частоты встречаемости случайной величины в каждом i-ом классе (в виде целых чисел), - теоретически ожидаемые (вычисленные) частоты для данного класса, – разница между ними.
Таким образом, c2 представляет собой вовсе не квадрат какого-то числа, а сумму по всем классам распределения данной случайной величины (от 1-го до k-го), величины квадратов разницы фактических и теоретических частот в каждом классе, отнесенных к теоретическим частотам для этих же классов.
Допустим, что по каждому классу распределения ,т.е. фактические (наблюдаемые) и ожидаемые (вычисленные) частоты идеально совпадают. Тогда и, соответственно, c2= 0. Понятно, что такого рода ситуация может иметь место только в том случае, когда форма эмпирического распределения абсолютно идентична форме теоретической модели, рассчитанной по эмпирическим данным, идеально согласуется с ней.
Допустим теперь, что хотя бы для одного из сравниваемых классов эмпирического и теоретического распределений, то есть для какого-то одного из них . Нетрудно догадаться, что поскольку мы имеем дело с «суммой квадратов», то c2 автоматически станет больше нуля. Понятно также, что чем больше будет таких различий для разных классов и чем значительнее сами различия, тем больше будет «набегать» сумма квадратов. Следовательно, в принципе, при различии наблюдаемых и ожидаемых частот сравниваемых распределений c2 может принимать любые положительные значения, вплоть до бесконечности. Очевидно, что за всем этим стоит различие фактически наблюдаемого и теоретически ожидаемого законов распределения данной случайной величины, которое внешне проявляется в различии формы распределения вероятностей появления отдельных значений этой величины в реальности и в теоретической модели. Нетрудно представить, что чем менее схожей будет форма сравниваемых распределений, тем большие числовые значения будет принимать c2 и, само собой, наоборот. Иными словами, c2 является мерой сходства/различия формы сравниваемых распределений вероятностей.
Технология использования критерия «Хи-квадрат» чрезвычайно проста. По приведенной выше формуле подсчитывается «экспериментальное» значение «Хи-квадрат» cэ2, которое сравнивают с табличным или «критическим» значением cкр2, взятым сообразно наличному числу степеней свободы и, как правило, для всех трех уровней значимости (или доверительной вероятности). Далее, как всегда, проверяется выполнение двух неравенств:
- если cэ2 < cкр2, то разница наблюдаемых (фактических) и ожидаемых (теоретических) частот сравниваемых распределений незначительна и не выходит за рамки ее собственных случайных колебаний, не превышает критического порога «возможного». Это не позволяет отвергнуть «нулевую гипотезу», согласно которой имеющие место различия частот носят случайный, несистематический характер. Следовательно, данное эмпирическое распределение можно рассматривать как одну из модификаций («здесь и сейчас») абстрактной теоретической модели распределения вероятностей, возникшую вследствие случайных искажений, неизбежно имеющих место на числовом массиве конечного и ограниченного объема - выборке. В этом случае говорят, что «распределения согласуются по формепри таком-то уровне значимости».
- если cэ2 cкр2, то разница наблюдаемых (фактических) и ожидаемых (теоретических) частот сравниваемых распределений столь велика, что выходит за рамки ее собственных случайных колебаний. Самопроизвольное появление такого значения «Хи-квадрат» относится к разряду невозможных событий. Следовательно, различие форм эмпирического и теоретического распределений обусловлено действием некого систематически действующего фактора, и эмпирическое распределение на принятом уровне значимости не может рассматриваться в качестве случайной модификации избранной нами теоретической модели. Возможна и иная интерпретация: избранная теоретическая модель не может рассматриваться в качестве эталона наблюдаемого распределения вероятностей данной случайной величины. Короче говоря, придется подыскивать какие-то иные теоретические модели.
Однако, при использовании критерия Пирсона существуют следующие ограничения:
· во-первых, объем выборочной совокупности должен быть не менее 50
· во-вторых, допускается сравнение только абсолютных, а не относительных частот, т.е. количества значений случайной величины, попадающей в каждый класс распределения «в штуках»
· в-третьих, если в теоретическом (вычисленном) распределении встречается класс, в котором число значений менее пяти, то его еще до начала вычисления критерия объединяют с соседним, складывая их частоты и двигаясь при этом к центру распределения. При этом такое же сокращение числа классов, независимо от фактического количества частот в них, производят и в эмпирическом распределении.
Параметрические критерии обладают высокой информативностью, поскольку позволяют не только обнаружить достоверность различий, но и точно, конкретно демонстрируют их характер и степень. Однако, при всех несомненных достоинствах параметрические критерии обладают и рядом существенных недостатков - ограничениями их применимости. Самый серьезный из них - допущение о нормальности распределения сравниваемых величин. Втрое ограничение - непригодность таких критериев к выборкам малого объема (<10-15 измерений). На таких выборках параметры распределения (средние, дисперсии) могут резко измениться от добавления или убавления даже одного единственного числа. Третье – высокая чувствительность к артефактам, которые оказывают сильное слияние на параметры распределения, вызывая сдвиг средних значений в ту или иную сторону. В результате может «всплыть» различие, которого на самом деле нет или наоборот - оказаться «зашумленной» действительная разница. Влияние артефактов особенно велико на малых выборках. Специфика же медицинской работы состоит в том, что из-за сложности исследуемых процессов и явлений они, как правило, имеют дело именно с выборками малого объема, имеющими неизвестный закон распределения, часто полученными в результате достаточно грубых измерений, «нашпигованными» артефактами.
Для извлечения содержательной информации из числовых массивов такого рода были разработаны непараметрические критерии. Это критерии, применение которых не требует пересчета массивов исходных данных в компактно заменяющие их параметры распределения - средние значения, дисперсии или стандартные отклонения и т.д. - и их последующее сравнение. Сопоставлению в данном случае прямо или косвенно подвергаются непосредственно сами исходные значения («варианты», «даты») сравниваемых числовых массивов.
Как следствие, не только теряет силу требование «нормальности» генеральной совокупности, но и, более того, закон распределения сравниваемых величин вообще не играет никакой роли. Особые, достаточно простые, способы преобразования исходных данных делают эту группу критериев еще и практически нечувствительными или слабо чувствительными к артефактам. В результате, непараметрические критерии успешно работают даже на чрезвычайно малых выборках при наличии грубых измерений и грубых ошибок. За преимущества непараметрических методов анализа данных часто приходится расплачиваться меньшей конкретностью получаемых на их основании выводов. Однако, во многих практических случаях это не так важно, а возможность извлекать полезное содержание из нечетких данных, которые принципиально не поддаются обработке параметрическими критериями, компенсирует этот недостаток.
Поскольку создатели непараметрических критериев сообразно конкретным задачам пытались разными способами сбалансировать их преимущества и недостатки, критериев такого рода возникло довольно много. Рассмотрим лишь два из них: Манна-Уитни и Вилкоксона.
Критерий Манна-Уитни и критерий Вилкоксона – критерии ранговые, т.е. основанные на сравнении сумм рангов, полученных тем или иным образом из сравниваемых выборочных распределений. В данном конкретном случае рангом называется порядковый номер числа в ранжированном (расставленном в порядке возрастания) массиве данных – чем больше число, тем выше его ранг.При этом, если числа не повторяются, то их ранги в точности соответствуют их порядковым номерам. Если же некое число повторяется несколько раз, то всем им приписывается средний ранг. Продемонстрируем, как все это происходит и выглядит. Допустим, мы получили следующий вариационный ряд данных x:
5.6 11.7 -3.5 6.3 8 7.4 0.5 8 3 3.1 15.2 3.1 8 6.7 111 4.4
Здесь числа представлены в том порядке, как они были получены.
Расставим их в порядке возрастания и припишем порядковые номера, а также ранги R:
№ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
x | -3.5 | 0.5 | 3 | 3.1 | 3.1 | 4.4 | 5.6 | 6.3 | 6.7 | 7.4 | 8 | 8 | 8 | 11.7 | 15.2 | 111 |
R | 1 | 2 | 3 | 4.5 | 4.5 | 6 | 7 | 8 | 9 | 10 | 12 | 12 | 12 | 14 | 15 | 16 |
Из приведенного примера хорошо видно, что при ранжировании происходит «линеаризация данных» - сглаживание их резких колебаний за счет того, что ранг числа не зависит от его абсолютной величины и разницы с соседними вариантами. Например, последнее число 111 чуть ли не на порядок превышает ближайшее к нему 15.2. Тем не менее, ранг его всего на 1 выше, чем у предпоследнего числа.
Ранговые критерии для сравнения выборочных совокупностей делятся на две группы – для независимых и зависимых выборок.
Критерий Манна-Уитни – ранговый критерий для сравнения независимых выборок.
Рассмотрим этот критерий на примере. Допустим, получены следующие данные о величине ЧСС в двух группах детей 2-3 и 4-5 лет:
x (2-3 года): 102, 87, 105, 110, 99, 90 (nx=6)
y (4-5 лет): 98, 100, 88, 92, 83, 95, 100, 92, 85, 94 (ny=10)
Сначала выборки смешивают и ранжируют как одну совокупность:
№ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
83 | 85 | 87 | 88 | 90 | 92 | 92 | 94 | 95 | 98 | 99 | 100 | 100 | 102 | 105 | 110 | |
R | 1 | 2 | 3 | 4 | 5 | 6.5 | 6.5 | 8 | 9 | 10 | 11 | 12.5 | 12.5 | 14 | 15 | 16 |
Полученные ранги приписывают числам исходных рядов и подсчитывают их суммы:
x(2-3 года) | 102 | 87 | 105 | 110 | 99 | 90 | |||||
Rx | 14 | 3 | 15 | 16 | 11 | 5 | |||||
y(4-5 лет) | 98 | 100 | 88 | 92 | 83 | 95 | 100 | 92 | 85 | 94 | |
Ry | 10 | 12.5 | 4 | 6.5 | 1 | 9 | 12.5 | 6.5 | 2 | 8 |
Далее полученные суммы включают в специальную формулу для подсчета критерия U:
В нашем примере получаем , .
В качестве берут меньшее из полученных значений (т.е. 17) и сравнивают его с критическими значениями, взятыми из специальной таблицы: для и для . Поскольку , нулевую гипотезу отвергнуть нельзя даже для и различие уровней ЧСС следует признать статистически незначимым.
Весьма популярным из-за простоты использования и хорошей чувствительности к изменениям данных критерием для сравнения зависимых выборок является ранговый критерий парных сравнений Вилкоксона.
Рассмотрим его на примере. У 10 здоровых взрослых людей измеряли кровяное давление после введения кофеина и плацебо. Получены следующие данные для «верхнего», систолического давления СД:
x(кофеин) | ||||||||||
y(плацебо) |
Возникает вопрос, можно ли на основании этих данных полагать, что кофеин оказывает физиологическое действие.
Вначале значения одного ряда строго попарно вычитают из значений другого с учетом знака разницы d. Вычтем нижний ряд из верхнего:
x(кофеин) | ||||||||||
y(плацебо) | ||||||||||
d | -4 | -10 |
Далее разницы ранжируют по известным правилам, но при этом не учитывают знак разницы (т.е. ранжируют по модулю). Нулевую пару отбрасывают.
d | -4 | -10 | |||||||
R | 1.5 | 1.5 | 7.5 | 7.5 |
Отдельно суммируют ранги для положительных и отрицательных разниц. В нашем случае получаем: , . В качестве значения критерия Tz берут меньшую сумму независимо от знака, т.е. Tz =11.5. Сравниваем это значение с «критическим» из специальной таблицы, входом в которую является число сравниваемых пар, но лишь тех, которые не дают нулевые разницы. В нашем случае таковых 9. Тогда Tкр = 6 для и Tкр =2 для . Поскольку даже для первого уровня значимости, различие уровней СД в обеих ситуациях считается статистически недостоверным. Иными словами, у нас нет пока оснований утверждать, что действие кофеина носит исключительно физиологический характер.
Смысл теста состоит в следующем. Если бы мы имели бесконечно большой ряд случайных разниц, то число и величина положительных разниц равнялись бы числу отрицательных и, соответственно, суммы их рангов были бы равны. На конечном и ограниченном числовом массиве опять же чисто случайно может иметь место «перекос» в сторону преимущественно положительных или отрицательных разниц. Это обстоятельство и учитывается в критических значениях критерия, представляющих ту минимальную сумму рангов любого знака, которая еще может в данной конкретной ситуации возникнуть с вероятностью, отличной от нуля. Другими словами, как и во всех прочих случаях, Tкр - это граница между практически возможными и практически невозможными значениями критерия. Соответственно, если , то полученная нами сумма рангов с достаточно высокой вероятностью могла возникнуть чисто случайно и о сдвиге одного числового ряда относительно другого ничего определенного сказать нельзя. Это недостоверное различие. Если же , то наблюдаемая асимметрия положительных и отрицательных разниц не могла быть получена случайным образом.Это означает, что смещение значений в сопряженных числовых рядах объясняется действием какой-то систематически действующей, неслучайной причины, т.е. носит статистически достоверный (устойчивый и прогнозируемый) характер.
Критерий Вилкоксона очень чутко и корректно реагирует на взаимные сдвиги сопряженных выборок, причем даже на фоне наличия грубых измерений, однако у него есть одно неприятное свойство. Как было показано выше, пары, имеющие одинаковые числовые значения и, соответственно, дающие нулевые разницы, исключаются из рассмотрения. И если таких случаев много, то «жесткость» критерия нарастает, поскольку Tкр тем меньше, чем меньше сравниваемых пар. Соответственно, увеличивается число ситуаций, когда нулевую гипотезу отвергнуть невозможно, и различие будет считаться незначимым. Более того, если число пар окажется меньше 6, то критерий Вилкоксона вообще перестанет «работать»: 6 - минимальное число пар, для которого еще существует Tкр. Для меньшего числа его просто невозможно рассчитать. А подобные ситуации в медико-биологической практике возникают довольно часто, поскольку многие измерения неизбежно приходится выполнять с достаточно высокой степенью грубости, и вероятность появления совпадающих значений здесь все еще весьма высока.
Отметим, что в современных программных пакетах математико-статистической обработки данных SPSS и Statistica все эти операции автоматизированы. Пользователю остается лишь выбрать в меню необходимые опции. Программа выдает полный отчет о результатах расчетов с указанием уровня значимости нулевой гипотезы. Подробное использование этих статистических программ изложено в электронных и печатных руководствах пользователя.
1. Тестовые задания по теме (10 тестов и более).
1. Выбор подходящего метода сравнения выборочных совокупностей определяется:
а) различиями в характеристиках сравниваемых рядов
б) длинами выборок и максимальным разбросом вариант
в) числом сопоставляемых групп, зависимостью или независимостью выборок, видом распределения признака
г) средними значениями и дисперсиями
Правильный ответ – в
2. Независимыми выборками являются:
а) выборки, полученные при рандомизации
б) совокупность мужей и совокупность жен
в) одни и те же объекты в разные моменты времени
г) пары близнецов
Правильный ответ – а
3. Зависимыми выборками являются:
а) совокупность мужчин и совокупность женщин
б) одни и те же объекты в разные моменты времени
в) больные сахарным диабетом и больные гриппом
г) выборки, полученные при рандомизации
Правильный ответ – б
4. Параметрические критерии основаны на:
а) оценке параметров распределения
б) типе распределения
в) выдвигаемых гипотезах
г) требуемой точности
Правильный ответ – а
5. Параметрические критерии применимы, если:
а) распределение отличается от нормального
б) требуются достаточно грубые оценки
в) варианты выборок различны
г) численные данные подчиняются нормальному распределению
Правильный ответ – г
6. При анализе данных выдвигаются следующие гипотезы:
а) нулевая и гипотеза однородности
б) нулевая и альтернативная гипотезы
в) нулевая гипотеза и гипотеза равенства средних
г) гипотеза однородности и гипотеза отсутствия ошибок репрезентативности
Правильный ответ – б
7. Если вероятность нулевой гипотезы окажется выше некоторого наперед заданного уровня значимости α, то:
а) нулевая гипотеза может быть отвергнута
б) альтернативная гипотеза может быть принята
в) нулевая гипотеза не можетбыть отвергнута
г) уровень значимости нулевой гипотезы возрастает
Правильный ответ – в
8. К параметрическим критериям относятся:
а) критерий Стьюдента и критерий Вилкоксона
б) критерий Вилкоксона и критерий Манна-Уитни
в) критерий Фишера и критерий Манна-Уитни
г) критерий Стьюдента и критерий Фишера
Правильный ответ – г
9. Критерий Стьюдента основан на сравнении:
а) частот изучаемого признака в вариационном ряду
б) средних значений выборок
в) числа наблюдений выборок
г) выборочных дисперсий
Правильный ответ – б
10. Критерий Фишера основан на сравнении:
а) частот изучаемого признака в вариационном ряду
б) средних значений выборок
в) числа наблюдений выборок
г) выборочных дисперсий
Правильный ответ – г
11. Критерий Стьюдента обозначается символом:
а) t
б) U
в) Z
г) F
Правильный ответ – а
12. Полученное значение критерия Стьюдента сравнивают с:
а) рассчитанным по формуле значением критерия Стьюдента
б) табличным значением критерия Стьюдента
в) стандартной ошибкой
г) выборочным средним
Правильный ответ – б
13. Если полученное значение t-критерия превышает табличное для выбранного уровня значимости , это означает что:
а) различие выборочных средних статистически значимо с вероятностью 95 %
б) различие выборочных средних статистически значимо с вероятностью 5%
в) различие выборочных средних статистически незначимо
г) различие выборочных средних статистически значимо с вероятностью 0.95
Правильный ответ – а
14. Является ли полученное распределение нормальным, можно определить с помощью:
а) критерия Манна-Уитни
б) t-критерия
в) критерия c2
г) критерия Вилкоксона
Правильный ответ – в
15. Для корректного использования критерия Пирсона объем выборочной совокупности должен быть:
а) не менее10
б) не менее 30
в) не менее 50
г) не менее 150
Правильный ответ – в
16. На малых выборках работают:
а) параметрические критерии
б) непараметрические критерии
в) критерии согласия
г) критерии несогласия
Правильный ответ – б
17. Непараметрические критерии могут быть применены:
а) для данных, имеющих произвольное распределение
б) только для данных, имеющих нормальное распределение
в) только для данных, имеющих распределение Пирсона
г) только для параметров распределения
Правильный ответ – а
18. К непараметрическим критериям относятся:
а) критерий Стьюдента и критерий Вилкоксона
б) критерий Вилкоксона и критерий Манна-Уитни
в) критерий Фишера и критерий Манна-Уитни
г) критерий Стьюдента и критерий Фишера
Правильный ответ – б
19. Критерий Манна-Уитни это:
а) ранговый критерий для сравнения независимых выборок
б) ранговый критерий для сравнения зависимых выборок
в) параметрический критерий для сравнения независимых выборок
г) параметрический критерий для сравнения зависимых выборок
Правильный ответ – а
20. Критерий Вилкоксона это:
а) ранговый критерий для сравнения независимых выборок
б) ранговый критерий для сравнения зависимых выборок
в) параметрический критерий для сравнения независимых выборок
г) параметрический критерий для сравнения зависимых выборок
Правильный ответ – б
2. Ситуационные задачи по теме ( 5 задач и более).