К практическому занятию №5

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ

Тема: «Методы сравнительной статистики»

Красноярск

Наиболее часто встречающейся и достаточно сложной математико-статистической задачей является сравнение выборочных распределений, полученных в процессе наблюдений или экспериментов. Будь то эксперимент или наблюдение, исследователь старается описать его результаты количественными методами и «на выходе» получает числовой массив тех или иных доступных ему измерений - вариационный ряд. Однако, как правило, содержащаяся в результатах измерений содержательная информация, представляя, несомненно, и самостоятельный интерес, имеет гораздо большую ценность при сравнении ее с аналогичной информацией, но полученной некоторым иным образом. Например, это может быть ситуация сравнения опытных данных (когда мы как-то повлияли на изучаемый объект или явление) с «контролем». Возможно и сравнение двух вариантов опытов. Возможно сравнение двух серий наблюдений, разделенных в пространстве и времени и т.п.

Допустим, что удается заметить какие-либо численные различия в характеристиках сравниваемых рядов. Первым делом возникает вопрос: какова вероятность, что эти различия неслучайны и имеют место не только «здесь и сейчас», но и будут систематически повторяться в дальнейшем при воспроизведении условий эксперимента или наблюдения.

Выбор подходящего метода сравнения выборочных совокупностей определяется несколькими факторами: числом сопоставляемых групп, зависимостью или независимостью выборок, а также видом распределения признака.

Выборки являются независимыми, если набор объектов исследования в каждую из групп осуществлялся независимо от того, какие объекты исследования включены в другую группу. Так, в частности, происходит при рандомизации, когда распределение объектов происходит случайным образом. Группы являются зависимыми (связанными), например, в следующих случаях: в исследованиях случай-контроль или в динамических исследованиях, когда изучаются одни и те же объекты в разные моменты времени.

От вида распределения и типа исследуемого признака зависит выбор подходящего математико-статистического критерия. Критерии делятся на два типа – параметрические и непараметрические.

Параметрические критерии – критерии, основанные на оценке параметров распределения. Они применимы только в том случае, если численные данные подчиняются нормальному распределению. Если распределение отличается от нормального, следует пользоваться так называемыми непараметрическими критериями.

Непараметрические критерии не основаны на оценке параметров распределения и вообще не требуют, чтобы данные подчинялись какому-то определенному типу распределения. Непараметрические критерии дают более грубые оценки, чем параметрические. А параметрические методы более точны, но лишь в случае, если правильно определено распределение совокупности.

Перед тем как перейти к рассмотрению статистических критериев, введем понятия нулевой и альтернативной гипотез, которые нам потребуются в дальнейшем.

На каждом шаге процесса анализа данных выдвигаются две гипотезы. Первая обозначается и называется нулевой гипотезой. Вторая гипотеза обозначается и носит название альтернативной,т.е. противоположной по смыслу. Под «нулевой гипотезой» подразумевается допущение об отсутствии того или иного интересующего исследователя события, явления или эффекта, а под «альтернативной» - о его наличии. Обе гипотезы, как бы они не были сформулированы, обязательно должны иметь взаимоисключающее содержание.

Нулевая гипотеза не можетбыть отвергнута, если ее вероятность окажется выше некого наперед заданного уровня α, достаточно близкого к 0, т.е. . Эта величина α носит название уровень значимости нулевой гипотезы.

Альтернативная гипотеза может быть принята лишь в том случае, если ее вероятность достигнет некого наперед заданного уровня β или превзойдет его, т.е. . Эта величина β – уровень доверительной вероятности. И соответствует «уровням безошибочных прогнозов», т.е. вероятностям 0.95, 0.99 и 0.999 – это область практически достоверных событий. Соответственно, α очерчивает область событий практически невозможных с порогами вероятностей 0.05, 0,01 и 0.001.

Поскольку и – альтернативные гипотезы, то их суммарная вероятность равна единице. Следовательно, рост вероятности одной из гипотез автоматически приводит к снижению вероятности другой. Например, если , это означает то, что будет выполняться условие . И в этом случае нулевая гипотеза может быть отвергнута как событие практически невозможное, а альтернативная должна быть принята как событие практически достоверное. Если же , то . И в этой ситуации нулевая гипотеза не может быть отвергнута, а альтернативная не может быть принята.

Рассмотрим параметрические критерии. Заключение о случайности или неслучайности наблюдаемых различий между выборочными распределениями в этом случае осуществляется на основании сравнения их параметров, т.е. сводных числовых характеристик. Параметров всего несколько, и каждый из них компактно в виде одного единственного числа отражает некие характерные свойства распределения данной случайной величины. Они являются количественными мерами этих свойств. На практике, как правило, рассматривают лишь два параметра - среднее значение, являющееся «мерой положения математического центра» полученного вариационного ряда, и дисперсию, но чаще всего корень из нее - стандартное отклонение, являющиеся мерой вариации. Именно для этих параметров еще в первой четверти XX века были разработаны два наиболее популярных критерия: критерий Стьюдента и критерий Фишера.

Критерий Стьюдента (t -критерий) – критерий, основанный на сравнении средних значений выборок. Критерий Стьюдента является наиболее известным. С одной стороны, анализ средних значений сравнительно прост для вычислений. С другой стороны, средние величины наиболее наглядны и понятны.

Наиболее часто t -критерий используется в двух случаях. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t -критерий). В этом случае есть контрольная группа и опытная группа, состоящая из разных пациентов, количество которых в группах может быть различно. Во втором же случае используется так называемый парный t-критерий, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних. Поэтому эти выборки называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения. В обоих случаях должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп.

Рассмотрим выборку объемом - пусть среднее вариант этой выборки равно , среднеквадратичное отклонение . И выборку объемом со средним , среднеквадратичным отклонением . При этом , а выборки подчиняются нормальному закону распределения. Обозначим разницу средних значений выборок .

Нулевая гипотеза в данном случае гласит: «Наблюдаемая разница между выборочными средними была получена случайным образом. не выходит за пределы своих собственных случайных колебаний». Как говорилось выше, нулевая гипотеза не может быть отвергнута, если ее вероятность превысит некоторый порог , называемый уровнем значимости.

Альтернативная гипотеза утверждает противоположное: «Наблюдаемая разница между выборочными средними не могла быть получена случайным образом. Наблюдаемая разница средних выходит за пределы возможных случайных колебаний». Альтернативная гипотеза может быть принята, если ее вероятность сравняется с некоторым порогом или превысит его.

Проверка гипотез производится при помощи критерия Стьюдента, обозначаемого символом :

где - стандартная ошибка или мера отклонения наблюдаемой разницы выборочных средних от теоретически возможной, «генеральной». Формально величина t показывает, во сколько раз разница выборочных средних превышает свою собственную случайную вариацию.

В случае независимых выборок критерий t рассчитывается следующим образом:

Полученное значение критерия t сравнивают со стандартным табличным значением t-критерия Стьюдента для выбранного уровня значимости и числа степеней свободы . Если , нулевая гипотеза не может быть отвергнута и различие выборочных средних считается «статистически незначимым» (при этом обязательно указывается, при каком уровне значимости это имеет место). Если , то это означает что величина d оказалась за пределами своих собственных случайных колебаний. Такое различие называют «статистически значимым». Достоверность в статистическом смысле обозначает, что полученное различие предсказуемо: при повторении эксперимента или наблюдения в тех же условиях оно будет воспроизводиться с вероятностью β или более.

Рассмотрим теперь случай зависимых выборок. Это такие массивы данных, в которых каждому числовому значению одной выборки обязательно соответствует парное, причинно и следственно связанное значение другой выборки. Это имеет место, когда какие-либо характеристики состояния организма регистрируются до некоторого воздействия на него и после или при разных вариантах воздействия, но обязательно у одних и тех же людей. Простейший пример, когда у некой группы людей измерили частоту пульса и величину артериального давления, потом попросили сделать, скажем, 20 приседаний, и провели те же измерения повторно. Понятно, что реакция сердечно-сосудистой системы каждого человека будет весьма индивидуальной, причем результаты измерений, полученные «после того», будут находиться в причинной и «исторической» связи с исходным состоянием «до того», т.е. в зависимости от них.

В этом случае при обнаружении ненулевой разницы выборочных средних результатов «до того» и «после того» также рассчитывается критерий

Однако, величина рассчитывается иным образом:

- это разница парных вариант: , квадрат которой, как видно из формулы, суммируется по всем парам.

Хорошо заметно, что величина в данном случае зависит от того, насколько однородно будет изменяться измеряемая характеристика у разных объектов исследуемой группы. Действительно, если различие в каждой паре значений, полученных «до» и «после», будет нестабильно ( примерно с одинаковой вероятностью будет иметь то положительный, то отрицательный знак) или малосущественно (достаточно часто будут появляться нулевые парные разницы), то разница выборочных средних , естественно, будет стремиться к нулю. При этом непременно окажется больше нуля, даже в том крайнем случае, когда среди всех сравниваемых пар будет только одна единственная ненулевая разница. Напротив, если все парные различия будут иметь один и тот же знак (будут однонаправленными), то выборочные средние «до» и «после» существенно разойдутся на числовой оси и, соответственно, величина d окажется достаточно велика. Это приведет к снижению и, следовательно, увеличению критерия Стьюдента.

Проверка справедливости гипотез при этом производится так же, как и для независимых выборок:

- если , то различие выборочных средних признается статистически значимым;

- если , разница признается незначимой.

Различие лишь в том, что число степеней свободы для определения табличного значения в данном случае составляет , где n – число сравниваемых пар.

Упомянем также о ситуации, когда для установления достоверности различия средних результатов никаких расчетов с применением критерия Стьюдента просто не требуется. Это возможно в ситуации, когда максимальное значение одного из сравниваемых выборочных вариационных рядов заведомо меньше минимального значения другого вариационного ряда. Иными словами, значения обоих выборок занимают совершенно разные, не накладывающиеся друг на друга даже частично области на числовой оси. Если такое имеет место, то критерий Стьюдента лишь подтвердит заведомую (притом крайне высокую) достоверность различий средних значений сравниваемых выборок. Однако, такая «экспресс-оценка» достоверности возможна лишь в том случае, если сравниваемые выборки достаточно представительны -имеют объем порядка полутора десятков значений или более. Понятно также, что если числовые области сравниваемых выборок в той или иной степени пересекаются, накладываются друг на друга, т.е. верхняя граница (максимум) одной из них перекрывает нижнюю границу(минимум) другой, то применение критерия Стьюдента для оценки достоверности различий средних значений таких выборок просто неизбежно.

Критерий Фишера – критерий сравнения выборочных дисперсий.

На практике часто встречается ситуация, когда факторы, влияющие на состояние изучаемых объектов и, соответственно, отражающие это состояние через те или иные количественные характеристики, вызывают не только и даже не столько сдвиг этих характеристик на числовой оси, сколько усиливают или ослабляют их межиндивидуальное разнообразие. Внешне это выражается в различиях сравниваемых выборок по уровню дисперсии, как раз и являющейся мерой вариации (случайного разнообразия). Схематически эти ситуации представлены на рисунке.

В левой его части изображена ситуация, когда распределения занимают разные области числовой оси и, следовательно, имеют разные средние значения, но, кроме того, обладают разной вариабельностью и, соответственно, разной по величине дисперсией. В правой части рисунка приведен пример того случая, когда распределения имеют одинаковые или очень близкие средние значения, но совершенно разный уровень вариации.

Особенно «коварной» является ситуация, изображенная в правой части рисунка. Если исследователь располагает только выборочными средними или ориентируется только на них, а эти параметры в данном случае совпадают, либо достоверно не различаются, то может быть сделано заключение о том, что исследуемый фактор не оказывает никакого влиянияна состояние изучаемого свойства объектов. Однако, на самом деле, влияние имеет место, но выражается оно в изменении межиндивидуального (внутригруппового) разнообразия, т. е. объекты по изучаемому в данном случае свойству становятся либо более однородными, либо более разнородными, непохожими друг на друга. Следовательно, существуют некие факторы, либо «загоняющие» объекты в узкие рамки очень близких состояний, либо, напротив, усиливающие разнообразие их индивидуальных состояний. Обнаружение подобных эффектов позволяет глубже понять механизм изучаемого явления.

Количественным индикатором этих изменений является различие выборочных дисперсий. Однако, как всякая выборочная числовая характеристика, выборочная дисперсия – величина случайная. Следовательно, наблюдаемое различие дисперсий тоже может оказаться случайным. Таким образом, к выборочным оценкам дисперсии полностью приложимы все те рассуждения, о которых шла речь при обсуждении источников различия выборочных средних. Насколько бы «большой» или «малой» не казалась нам наблюдаемая разница выборочных дисперсий, необходимо доказать, что она является либо статистически достоверной (устойчивой и прогнозируемой), либо незначимой – существующей лишь «здесь и сейчас», практически не воспроизводимой и не прогнозируемой.

Дисперсия имеет распределение c² (распределение Пирсона), поэтому для ее анализа критерий Стьюдента неприменим. Для того, чтобы приблизить распределение к нормальному рассматривают разность логарифмов сравниваемых дисперсий, которая обозначается символом Z:

Величина Z имеет нормальное распределение и, соответственно, к ней может быть применен критерий Стьюдента.

На практике часто рассматривают отношение F большей из сравниваемых дисперсий к меньшей (следуя свойствам логарифмов):

Полученная величина критерия сравнивается с критическим табличным значением. И также как в предыдущих рассуждениях, нулевая гипотеза либо отвергается и различие выборочных дисперсий считается статистически достоверным, либо делается вывод, что нулевую гипотезу отвергнуть нельзя и разница выборочных дисперсий находится в границах практически возможных случайных колебаний.