В однофакторном дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью.
Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой.
Полную вариацию Y, обозначаемую SS, можно разложить на два компонента:
SSy= SSмежду+ SSвнутри
где нижние индексы между (between) и внутри (within) относятся к группам переменной X. SSмежду — это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной X (межгрупповая изменчивость). Другими словами, SSмежду — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. Поэтому SSмеждутакже обозначают как SSX. SSвнутри — это вариация переменной Y, связанная с вариацией внутри каждой группы переменной X, ее вычисляют, не учитывая фактор X. Поэтому SSвнутри также называют дисперсией ошибки SSошибки.
SSy= SSX+ SSошибки
Где
ф
Y1 — отдельное наблюдение
Yj — среднее для группы j
Y — среднее для всей выборки или общая средняя
Yij — i-наблюдение в j-группе
Смысл разложения полной вариации в переменной Y, SSy на компоненты SSмеждуи SSвнутритом, чтобы наглядно представить и затем изучить различия в групповых средних. Вспомним из главы 15, если вариация переменной в совокупности известна, то можно определить, насколько сильно изменение выборочного среднего обусловлено только случайной вариацией. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности
В дисперсионном анализе мы определяем два показателя вариации: внутри групп ( SSвнутри)(внутригрупповая изменчивость) и между группами (SSмежду ) (межгрупповая изменчивость). Внутригрупповая вариация показывает, насколько сильно колеблятся значения переменной Y внутри группы. Поэтому ее используют для оценки дисперсии внутри группы. Предполагается, что все группы в рассматриваемой совокупности имеют одну и ту же вариацию. Однако из-за того, что неизвестно, имеют ли все группы одно и то же значение средней, мы не может вычислить дисперсию всех объединенных вместе наблюдений. Дисперсия для каждой группы рассчитывается отдельно, и затем эти дисперсии следует объединить в "среднюю" или "общую". Аналогично, можно получить другую оценку дисперсии значений Y, изучив вариации между средними. (Этот процесс обратный процессу определения вариации в средних.) если среднее совокупности одно и то же во всех группах, то для оценки дисперсии Yиспользуем вариацию в выборочных средних и размеры выборочных групп. Приемлемость этой оценки дисперсии Y зависит от истинности нулевой гипотезы. Если нулевая гипотеза верна и средние совокупности равны, то оценка дисперсии на основе межгрупповой изменчивости корректна. С другой стороны, если группы имеют различные средние в совокупности, то оценка дисперсии на основе межгрупповой изменчивости слишком большая. Таким образом, сравнив оценки дисперсии на основе межгрупповой и внутригрупповой изменчивости (вариации), мы можем проверить нулевую гипотезу [4]. Разложение полной вариации также позволяет измерить влияние переменной Х на Y.
Измерение эффекта
Сила влияния переменной Х на Y измеряется с помощью SSX. Поскольку SSX связана с вариацией средних значений групп X, то относительное значение SSX растет с увеличением различий между средними значениями Yв группах X. Относительное значение SSX также увеличивается при уменьшении вариаций Yвнутри групп X. Эффект влияния переменной X на Y вычисляют по формуле:
Значение корреляционного отношения η2 лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение η 2 равно 1, когда внутри каждой из групп переменной Х изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, η2 представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость.
Проверка значимости
В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны [5]. Другими словами,
Н0:µ1 = µ2 = µ3 = …= µс
В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y
v —
(с-1)
= средний квадрат, обусловленный действием X
= MSX
или
с 2
= средний квадрат, обусловленный действием всех факторов, кроме X
= MSошибки
Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий:
SSx/(c-l) = MSX SSoultl6KU/(N-c) MSoullt6Klt
Эта статистика подчиняется F -распределению с числом степеней свободы (df), равным (с - 1) и (N — с). Таблица распределения F -статистики приведена в табл. 5 Статистического приложения. Как упоминалось в главе 15, F- распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе [6].
Интерпретация результатов
Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимая переменная не оказывает статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффект независимой переменной на зависимую трактуется как статистически значимый. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной. Сравнение значений групповых средних показывает характер влияния независимой переменной. Другие важные вопросы интерпретации результатов, такие как изучение различий между конкретными средними, обсуждаются ниже. Проиллюстрируем применение однофакторного дисперсионного анализа и других связанных с ним методов.
Иллюстрация. Рассмотрим изложенный материал на основе данных табл. 16.2, полученных в ходе эксперимента в сети крупных универмагов. Цель эксперемента — изучить влияние уровня рекламы товаров непосредственно в самом магазине и купонной распродажи на объем продаж. Маркетологи использовали три уровня рекламы товаров в магазине: высокий, средний и низкий. У купонной распродажи было два уровня. Купон на 20-долларовую скидку либо давали потенциальным покупателям (уровень в этом случае обозначали номером 1), либо не давали (этот уровень обозначали номером 2 в табл. 16.2). Результаты экспериментов с рекламой и купоном объединили в таблицу размером 3 х 2 с шестью ячейками. Тридцать магазинов были выбраны случайным образом, и для каждой комбинации условий эксперимента случайным образом взяли по пять магазинов, как показано в табл. 16.2. Эксперимент продолжался два месяца. Определили объем продаж в каждом магазине, нормализовали его, приняв во внимание посторонние факторы (размер магазина, товарооборот и т.д.) и пересчитали по десятибалльной шкале. В дополнение была получена качественная оценка относительного числа постоянных покупателей для каждого магазина, также с использованием десятибалльной шкалы. Полученные данные приведены в табл. 16.2
Таблица 16.2. Уровень купонной распродажи, реклама товаров на месте купли-продажи; продажи и постоянные покупатели | ||||
Номер магазина | Уровень купонной распродажи | Внутримагазинная реклама | Продажи | Постоянные покупатели |
1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 | 1,00 1,00 1,00 1,00 1,00 2,00 2,00 2,00 2,00 2,00 3,00 3,00 3,00 3,00 3,00 1,00 1,00 1,00 1,00 1,00 2,00 2,00 2,00 2,00 2,00 3,00 3,00 3,00 3,00 3,00 | 10,00 9,00 10,00 8,00 9,00 8,00 8,00 7,00 9,00 6,00 5,00 7,00 6,00 4,00 5,00 8,00 9,00 7,00 7,00 6,00 4,00 5,00 5,00 6,00 4,00 2,00 3,00 2,00 1,00 2,00 | 9,00 10,00 8,00 4,00 6,00 8,00 4,00 10,00 6,00 9,00 8,00 9,00 6,00 10,00 4,00 10,00 6,00 8,00 4,00 9,00 6,00 8,00 10,00 4,00 9,00 4,00 6,00 10,00 9,00 8,00 |