Очевидно, что .
Дополнительной характеристикой вариационных рядов есть кумулятивная частота (частость ), которая характеризует объем совокупности со значениями вариант, которые не превышают xi. Кумулятивные частотные характеристики образовываются последовательным суммированием абсолютных или относительных частот. Так, и т.д. Если интервалы вариационного ряда неравные, то используют плотность частоты (частости) на единицу интервала , где hi – ширина j-го интервала.
К характеристикам центра распределения относят среднюю, моду и медиану. Средняя величина характеризует типовой уровень признака в совокупности. По данным ряда распределения средняя рассчитывается как арифметическая взвешенная:
на основании частот на основании частостей
где m – число групп.
В интервальных рядах, допуская равномерное распределение в границах i-го интервала, как вариант xiиспользуют середину интервала. При этом ширину открытого интервала условно считают такой же, как и соседнего закрытого интервала. Так, у ряда распределения, который характеризует спрос на гособлигации на вторичном рынке (табл. 5.1), средний срок обращения облигаций составляет
Мода М0 – это наиболее распространенное значение признака, т.е. варианта, которая в ряду распределения имеет наибольшую частоту (частость).
В дискретному ряду М0определяется визуально по максимальной частоте, или частости. Например, в результате опроса населения относительно самоопределения материального состояния по четырем градациям (хорошее, удовлетворительное, неудовлетворительное, нестерпимое) большинство респондентов определили свое состояние как неудовлетворительное. Или в распределении современных семей по количеству детей наиболее распространенными являются малодетные семьи, имеющие 1 ребенка. Встречаются ряды, которые имеют две моды (бимодальный ряд) или несколько (полимодальный). Например, на фондовом рынке одинаково высоким спросом пользуются как наиболее дешевые акции, так и дорогие. В интервальном ряду понаибольшей частоте определяется модальный интервал. Конкретное значение моды в интервале вычисляется по формуле
,
где x0и h – соответственно нижняя граница и ширина модального интервала;
– частоты (частости) модального, предмодального и послемодального интервала.
По данным таблицы 5.1 наибольшим спросом пользуются облигаци со сроком обращения в интервале 4–6 месяцев. Это модальный интервал, ширина которого h=2, нижняя граница x0=4, частота , предмодальная частота , а послемодальная . Модальный срок обращения облигаций составляет
Таблица 5.1
Срок обращения, мес. х | Количество проданных гособлигаций, тыс. fi | Кумулятивная частота, тыс. | xi | Xi fi |
До 2 | ||||
2–4 | ||||
4–6 | ||||
6–8 | ||||
8–10 | ||||
10 и больше | ||||
Всего | -- | -- |
Медиана Ме – это варианта, которая приходится на середину упорядоченного ряда распределения и делит его на две равные по объему части. Медиана, как и мода, не зависит от крайних значений вариант, поэтому применяется для характеристики центра в ряду распределения с неопределенными границами. Для определения Meряда используют кумулятивные частоты или частости . В дискретном ряду медианой будет значение признака, для которого кумулятивная частота превышает половину объема совокупности , или кумулятивная частость . В интервальном ряду таким способом определяется медианный интервал. Конкретное значение медианы в интервале вычисляется по формуле
где x0 и h – соответственно нижняя граница и ширина медианного интервала; – частота медианного интервала; – кумулятивная частота предмедианного интервала.
По данным табл. 5.1 половина объема совокупности проданных облигаций .
Следовательно, кумулятивная частота означает, что пятидесятая с начала ряда облигация будет находиться в интервале 4–6 с частотой . Медианный срок обращения проданных облигаций составляет
.
Поэтому половина облигаций продавались со сроком обращение меньше, чем полгода – 5,5 мес., а половина – больше 5,5 мес.
В симметричных рядах распределения значения моды и медианы совпадают со средней величиной (),а в умерено асимметричных они соотносятся таким образом: .
В приведенном примере в табл. 5.1 соотношения характеристик центра распределения облигаций по сроку обращения свидетельствует об умеренной асимметрии: .
В анализе закономерностей распределения используются также другие порядковые характеристики: квартили и децили.
Квартили Q – это значение вариант, которые делят упорядоченный ряд по объему на четыре равных части, децили D– на десять равных частей. Следовательно, в ряду распределения определяются три квартили и девять децилей. Медиана является в то же время вторым квартилем и пятым децилем. Расчет квартилей и децилей основывается на кумулятивных частотах (частостях). Например, первый и третий квартили определяются по формулам:
первый квартиль:
третий квартиль:
Первый и девятый децили вычисляются по формулам:
Следовательно, в ряду распределения проданных облигаций первая квартиль составляет 3,5 мес., а третья – 7,6 мес., т.е. в 25% облигаций, проданных на вторичном рынке, срок обращения не превышает 3,5 мес., а в 75% проданных облигаций с длительным сроком обращения минимальный срок обращения равнялся 7,6 мес.
Значения децилей указывают на то, что среди 10%" проданных облигаций с наименьшим сроком обращения, наиболее длительный срок составляет 1,3 мес., а среди 10%) облигаций с длительным сроком обращения минимальный срок – 9,8 мес., т.е. в 7,5 раза больший.
Для измерения и оценки вариации используют абсолютные и относительные характеристики. К абсолютным относятся: вариационный размах, среднее линейное и среднее квадратичное отклонения, дисперсии; относительные характеристики представлены рядом коэффициентов вариации, неравномерности, локализации, концентрации.
Вариационный размах характеризует диапазон вариации, это разница между максимальным и минимальным значениями признака: . Если крайние значение признака нетиповые для совокупности, то используют квартильные или децильные размахи. Квартильный размах охватывает 50% объема совокупности, децильный – 60%, децильный – 80%.
Обобщающей мерой вариации является среднее отклонение индивидуальных значений признака от центра распределения. Поскольку алгебраическая сумма отклонений то в расчетах используют или модули или квадраты отклонений. Средний из модулей отклонений называют средним линейным отклонением ; средний квадрат отклонений – дисперсией , корень квадратный из дисперсии – средним квадратичным отклонением :
По первичным, несгруппированным данным приведенные характеристики вариации рассчитываются по принципу невзвешенной средней, т.е.:
.
Среднее линейное и среднее квадратичное отклонение:
– именуемые числа (в единицах измерения признака);
– по содержанию идентичные, однако через математические свойства . В симметричном, близком к нормальному, распределении .
Дисперсию используют не только для оценки вариации, но и при измерении взаимосвязей, для проверки статистических гипотез и тому подобное. Для признаков метрической шкалы расчет дисперсии ведется по формулам:
.
Как и любая средняя, дисперсия имеет определенные математические свойства:
а) если все значения признака xiуменьшить (увеличить) на определенную величину, дисперсия не изменится;
б) если все значения признака изменить в Краз, то дисперсия изменится в К2раз;
в) в случае замены частот частостями дисперсия не изменится.
Для альтернативного признака, вариация которой имеет два взаимоисключающих значения – "1" и "О", а распределение характеризуется соответственно двумя частостями – d1 и d0, дисперсия рассчитывается как произведение частостей .
В табл. 5.2 приведен расчет абсолютных характеристик вариации на примере срока обращения облигаций.
Таблица 5.2
Срок обращения облигаций, мес. | f | xi | |||
До 2 | - 4,6 | 69,0 | 317,40 | ||
2–4 | - 2,6 | 33,8 | 87,88 | ||
4–6 | - 0,6 | 17,4 | 10,44 | ||
6–8 | 1,4 | 30,8 | 43,12 | ||
8–10 | 3,4 | 40,8 | 138,72 | ||
10 и больше | 5,4 | 48,6 | 262,44 | ||
Всего | -- | -- | 240,4 | 860,00 |
Средний срок обращения облигаций 5,6 мес.; среднее линейное отклонение составляет = 240,4:100 = 2,4 мес.; дисперсия – = 860:100 = 8,6; среднее квадратичное отклонение – мес.
Частость облигаций со сроком обращения меньше 2 мес. составляет d1= 0,15. Дисперсия частости = 0,15(1-0,15) = 0,1275.
Сравнивая вариации различных признаков или одного признака в различных совокупностях, используют относительные характеристики вариации. Коэффициенты вариации рассчитываются как отношение абсолютных, именованных характеристик вариации () к центру распределения и часто выражаются процентами, следовательно:
1) линейный коэффициент вариации ;
2) квадратичный коэффициент вариации ;
3) коэффициент осцилляции .
Например, по данным выборочных обследований домохозяйств, средние расходы на питание на душу населения составляли 80 грн.; на приобретение промышленных товаров – 35; дисперсии соответственно – 256 и 196. Сравнить степень вариации расходов домохозяйств на питание и приобретение промышленных товаров можно при помощи квадратичного коэффициента вариации:
расходы на питание
;
расходы на приобретение промышленных товаров
.
Следовательно, степень вариации расходов на приобретение промышленных товаров значительно выше.
Квадратичный коэффициент вариации используют как критерий однородности совокупности. В симметричном, близком к нормальному, распределении V s =0,33.
Если центр распределения представлен медианой, то используют квартильный коэффициент вариации: . Мерой оценки расслоения совокупности служит также коэффициент децильной дифференциации: . В ряду распределения гособлигаций по сроку обращения
Простейшей мерой асимметричности распределения является отклонение между характеристиками центра распределения. Поскольку в симметричном распределении то чем более заметна асимметрия, тем больше отклонение (). Стандартное отклонение называют коэффициентом асимметрии . В случае правосторонней асимметрии , левосторонней – .
Оценка неравномерности распределения значений признака между отдельными составляющими совокупностей основывается на сравнении частостей двух распределений – по количеству элементов совокупности diи по объему значений признака Di. Если распределение значений признака равномерное, то . Отклонение частостей свидетельствует об определенной неравномерности распределения, которая измеряется коэффициентами:
Локализации концентрации
Коэффициент локализации рассчитывается для каждой i-й составной совокупности. При равномерном распределении все значения . В случае концентрации значений признака в i-й составной , и наоборот.
Коэффициент концентрации является обобщающей характеристикой отклонения распределения от равномерного. Значения его колеблются в границах от 0 до 1. В равномерном распределении К=0. Чем более заметна концентрация, тем больше значение К отклоняется от 0. Расчет коэффициентов Li и К представлен в табл. 5.3 на примере распределения фермерских хозяйств по стоимости реализованной продукции.
Таблица 5.3
Стоимость реализованной продукции, тыс. грн. | % к итогу | |||
количество ферм, di | стоимость реализованной продукции, Di | |||
До 2 | 0,17 | |||
2–5 | 0,28 | |||
5–10 | 0,52 | |||
10–20 | 1,12 | |||
20-40 | 2,87 | |||
40 и больше | 8,00 | |||
Всего | -- |
Коэффициент концентрации составляет
что свидетельствует об относительно высоком уровне концентрации товарного сельскохозяйственного производства в фермерских хозяйствах. Объемы товарной продукции концентрируются в больших хозяйствах – в последней группе .
Коэффициенты концентрации и локализации являются эффективным средством измерения дифференциации совокупности по данным интервальных рядов с неравными интервалами и по данным атрибутивных рядов. По аналогии с коэффициентом концентрации рассчитывают коэффициент подобия (сходства) структур двух объектов или одного объекта по двум признакам:
Если структуры одинаковые, Р=1. Чем большие отклонения структур, тем меньше значение коэффициента Р.
Для оценки интенсивности структурных сдвигов во времени используют абсолютные меры вариации – среднее линейное или среднее квадратичное отклонение частостей, которые называют коэффициентами структурных сдвигов:
линейный квадратичный
где: di 0 и di 1 – частости распределения за два периода;
m – число составляющих совокупности.
Расчет линейного коэффициента структурных сдвигов в промышленном потреблении алюминия приведен в табл. 5.4. По данным таблицы
т.е. структура промышленного потребления алюминия изменилась в среднем на 5,5 процентных пункта.
Таблица 5.4
Отрасль потребления алюминия | % к итогу | Структурные сдвиги, процентные пункты | |
1985г. | 1995г. | ||
Транспортное машиностроение | - 7 | ||
Производство тары и упаковки | |||
Производство товаров долгосрочного пользования | - 4 | ||
Иное | |||
Всего |
Дисперсия, в отличие от других характеристик вариации, является аддитивной величиной. Т.е. в структурируемой совокупности, которая разделена на группы по факторною признаку x, дисперсия результативного признака yможет быть разложена на: дисперсию в каждой группе (внутригрупповую) и дисперсию между группами (межгрупповую). Общая дисперсия характеризует вариацию признака y за счет воздействия всех причин (факторов), межгрупповая – за счет фактора х, положенного в основу группировки, а внутригрупповые – за счет других факторов, не учтенных в группировке.
Межгрупповая дисперсия вычисляется по формуле
,
где – соответственно средняя i-йгруппы и общая средняя варьирующего признака y; fi – частота i-й группы.
Внутригрупповая дисперсия рассчитывается отдельно для каждой i-й группы:
где y – значение признака отдельных элементов совокупности.
Для всех групп в целом вычисляется средняя из внутригрупповых дисперсий, взвешенных частотами соответствующей группы:
Взаимосвязь между тремя дисперсиями получила название правила сложения дисперсий, согласно которому
Общую дисперсию можно определить и непосредственно по формуле
Отношение межгрупповой дисперсии к общей называется корреляционным отношением .
Расчет указанных дисперсий показан по данным табл. 5.5 на примере урожайности винограда.
Вариация урожайности отдельно для каждого сорта винограда определяется тремя внутригрупповыми дисперсиями. Для сорта винограда "Алиготе" внутригрупповая дисперсия составляет,
где
Таблица 5.5
Сорт винограда | Количество кустов, fi | Урожайность с одного куста, кг y | ||
Алиготе | 2,3; 2,2; 2,7; 2,6; 2,2 | 2,4 | ||
Фетяска | 2,9; 3,3; 2,7; 2,8;3,2; 3,4; 2,8; 2,9 | 3,0 | ||
Рислинг | 3,6; 4,0; 4,1; 4,4; 3,8; 3,9; 4,2 | 4,0 | ||
В целом | X | 3,2 |
Аналогично вычислены внутригрупповые дисперсии для второй и третьей групп: .
Средняя из групповых дисперсий равняется
Межгрупповая дисперсия составляет
где
Общую дисперсию урожайности определим по правилу составления дисперсий как сумму межгрупповойї и средней из групповых дисперсий:
Непосредственное вычисление общей дисперсии по упрощенной формуле
дает такой же самый результат.