Рассмотренный метод сравнения мер вариации и его модификации являются основой чрезвычайно мощного и информативного метода математико-статистического анализа данных, получившего название дисперсионный анализ.
Непараметрические критерии
Параметрические критерии обладают высокой информативностью, поскольку позволяют не только обнаружить достоверность различий, но и точно, конкретно демонстрируют их характер и степень. Однако, при всех несомненных достоинствах параметрические критерии обладают и рядом существенных недостатков – ограничениями их применимости. Самый серьезный из них - допущение о нормальности распределения сравниваемых величин. Втрое ограничение - непригодность таких критериев к выборкам малого объема (<10-15 измерений). На таких выборках параметры распределения (средние, дисперсии) могут резко измениться от добавления или убавления даже одного единственного числа. Третье – высокая чувствительность к артефактам, которые оказывают сильное слияние на параметры распределения, вызывая сдвиг средних значений в ту или иную сторону. В результате может «всплыть» различие, которого на самом деле нет или наоборот – оказаться «зашумленной» действительная разница. Влияние артефактов особенно велико на малых выборках. Специфика же медицинской работы состоит в том, что из-за сложности исследуемых процессов и явлений они, как правило, имеют дело именно с выборками малого объема, имеющими неизвестный закон распределения, часто полученными в результате достаточно грубых измерений, «нашпигованными» артефактами.
Для извлечения содержательной информации из числовых массивов такого рода были разработаны непараметрические критерии. Это критерии, применение которых не требует пересчета массивов исходных данных в компактно заменяющие их параметры распределения - средние значения, дисперсии или стандартные отклонения и т.д. – и их последующее сравнение.
Как следствие, не только теряет силу требование «нормальности» генеральной совокупности, но и, более того, закон распределения сравниваемых величин вообще не играет никакой роли. Особые, достаточно простые, способы преобразования исходных данных делают эту группу критериев еще и практически нечувствительными к артефактам. В результате, непараметрические критерии успешно работают даже на чрезвычайно малых выборках при наличии грубых измерений и грубых ошибок.
Рассмотрим критерии Манна-Уитни и Вилкоксона.
Критерий Манна-Уитни и критерий Вилкоксона – критерии ранговые, т.е. основанные на сравнении сумм рангов, полученных тем или иным образом из сравниваемых выборочных распределений. В данном конкретном случае рангом называется порядковый номер числа в ранжированном (расставленном в порядке возрастания) массиве данных – чем больше число, тем выше его ранг.При этом, если числа не повторяются, то их ранги в точности соответствуют их порядковым номерам. Если же некое число повторяется несколько раз, то всем им приписываетсясредний ранг. Продемонстрируем, как все это происходит и выглядит. Допустим, мы получили следующий вариационный ряд данных x:
5.6 11.7 -3.5 6.3 8 7.4 0.5 8 3 3.1 15.2 3.1 8 6.7 111 4.4
Здесь числа представлены в том порядке, как они были получены.
Расставим их в порядке возрастания и припишем порядковые номера, а также ранги R:
№ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
x | -3.5 | 0.5 | 3 | 3.1 | 3.1 | 4.4 | 5.6 | 6.3 | 6.7 | 7.4 | 8 | 8 | 8 | 11.7 | 15.2 | 111 |
R | 1 | 2 | 3 | 4.5 | 4.5 | 6 | 7 | 8 | 9 | 10 | 12 | 12 | 12 | 14 | 15 | 16 |
Из приведенного примера хорошо видно, что при ранжировании происходит «линеаризация данных» - сглаживание их резких колебаний за счет того, что ранг числа не зависит от его абсолютной величины и разницы с соседними вариантами. Например, последнее число 111 чуть ли не на порядок превышает ближайшее к нему 15.2. Тем не менее, ранг его всего на 1 выше, чем у предпоследнего числа.
Ранговые критерии для сравнения выборочных совокупностей делятся на две группы – для независимых и зависимых выборок.