В общем случае вариация результативного признака обусловлена различными факторами в их совокупности, а не только воздействием одного из них. Если статистическую совокупность разбить на группы по какому-либо признаку, то наряду с изучением вариации результативного признака по всей совокупности в целом под воздействием всех факторов получаем возможность изучить вариацию для каждой из составляющих всю совокупность групп по отдельности. Также можно изучить при этом вариацию между группами. В простейшем случае вся исходная совокупность разбивается на отдельные группы по одному фактору. Тогда указанный выше анализ вариации сводится к расчету и анализу трех видов дисперсии: общей, внутригрупповой и межгрупповой. Общая дисперсия измеряет вариацию результативного признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию.
Межгрупповая дисперсия δ2 характеризует систематическую вариацию под воздействием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней для всей совокупности:
, (5.24)
где f — численность единиц в группе (частота).
Внутригрупповая дисперсия есть уже известная нам дисперсия (для всей совокупности, называемая общей), но теперь эта формула применяется только к отдельной группе. Соответственно и обозначается она σ2, но уже с индексом i, который подчеркивает, что расчет выполняется для отдельной i-группы.
Внутригрупповая дисперсия отражает случайную вариацию, т.е. ту ее часть, которая обусловлена влиянием прочих (неучтенных) факторов, отличных от основания группировки. По отдельным внутригрупповым дисперсиям, рассматривая их как значения некоторого особого признака, рассчитывают среднюю по внутригрупповым дисперсиям, которая уже характеризует вариацию по всей совокупности в целом под воздействием всех прочих (неучтенных) факторов, отличных от основания группировки.
Существует простая и важная формула, связывающая общую дисперсию, межгрупповую дисперсию и среднюю по внутригрупповым дисперсиям:
. (5.25)
Это означает, что общая дисперсия равна сумме межгрупповой дисперсии и средней по внутригрупповым дисперсиям. Следовательно, зная две из трех дисперсий, можно всегда найти и третью.
Правило сложения дисперсий показывает, что чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый результативный признак. Такие соображения естественным образом приводят к количественной характеристике такого влияния, мере стохастической связи между признаками. Она называется эмпирическим коэффициентом детерминации и обозначается η2, характеризуя силу влияния группировочного признака на образование общей вариации:
. (5.26)
При отсутствии связи он просто равен нулю, при чисто функциональной связи — 1. В общем случае коэффициент детерминации принимает значения между 0 и 1. Это видно и из правила сложения дисперсий.
Помимо коэффициента детерминации используют также и эмпирическое корреляционное отношение, которое представляет собой корень квадратный из коэффициента детерминации. И опять оно весьма подходит для измерения линейной связи.
В общем случае нелинейной связи предпочтительнее использовать, что правильнее, коэффициент детерминации. Если связь отсутствует, то корреляционное отношение равно нулю и, следовательно, все групповые средние равны между собой, а межгрупповой вариации просто в этом случае нет.
Группировочный признак при этом никак не влияет на образование общей вариации. Если связь функциональная, то корреляционное отношение равно 1. Дисперсия групповых средних равна общей дисперсии и межгрупповой дисперсии, поэтому внутригрупповой вариации не будет. Таким образом, группировочный признак целиком определяет вариацию изучаемого результативного признака.