Лекции.Орг


Поиск:




Эмпирическая функция распределения




Методы обработки ЭД опираются на базовые понятия теории вероятностей и математической статистики. К их числу относятся понятия генеральной совокупности, выборки, эмпирической функции распределения [3, 5].

Под генеральной совокупностью понимают все возможные значения параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом. Такая совокупность состоит из бесконечного множества элементов. В результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра x 1, x 2, …, xn. С формальной точки зрения такие данные представляют собой выборку из генеральной совокупности. Наблюдаемые значения xi называют вариантами, а их количество – объемом выборки n. Для того чтобы по результатам наблюдения можно было делать какие-либо выводы, выборка должна быть репрезентативной (представительной), т. е. правильно представлять пропорции генеральной совокупности. Это требование выполняется, если объем выборки достаточно велик, а каждый элемент генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Пусть в полученной выборке значение x 1 параметра наблюдалось n 1 раз, значение x 2n 2раз, значение xknk раз, n 1 + n 2 + … + nk = n. Совокупность значений, записанных в порядке их возрастания, называют вариационным рядом, величины ni – частотами, а их отношения к объему выборки ω i = ni / nотносительными частотами (частостями). Очевидно, что сумма относительных частот равна единице.

Под распределением понимают соответствие между наблюдаемыми вариантами и их частотами или частостями. Пусть nx – количество наблюдений, при которых случайные значения параметра Х меньше x. Частость события X<x равна nx / n. Это отношение является функцией от x и от объема выборки: Fn (x) = nx / n. Величина Fn (x) обладает всеми свойствами функции распределения: Fn (x)неубывающая функция, ее значения принадлежат отрезку [0 – 1]; если x 1 – наименьшее значение параметра, а xk – наибольшее, то Fп (x) = 0, когда x < x 1, и Fп (xk) = 1,когда x > xk . Функция Fп (x) определяется по ЭД, поэтому ее называют эмпирической функцией распределения. В отличие от эмпирической функции Fn (x) функцию распределения F (x) генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события X < x. Из теоремы Бернулли вытекает, что частость Fn (x) стремится по вероятности к вероятности F (x)при неограниченном увеличении n. Следовательно, при большом объеме наблюдений теоретическую функцию распределения F (x) можно заменить эмпирической функцией Fn (x). График эмпирической функции Fn (x) представляет собой ломаную линию. В промежутках между соседними членами вариационного ряда Fn (x)сохраняет постоянное значение. При переходе через точки оси x, равные членам выборки, Fn (x)претерпевает разрыв, скачком возрастая на величину 1/ n, а при совпадении l наблюдений – на l / n.

Пример 2.1. Построить вариационный ряд и график эмпирической функции распределения по результатам наблюдений, табл. 2.1.

Таблица 2.1

i            
xi            

Решение. Построим вариационный ряд, упорядочив по возрастанию значения варианты, табл. 2.2.

Таблица 2.2

i            
Xi            

Искомая эмпирическая функция, рис. 2.1:

При большом объеме выборки (понятие “большой объем” зависит от целей и методов обработки, в данном случае будем считать п большим, если n >40) в целях удобства обработки и хранения сведений прибегают к группированию ЭД в интервалы. Количество интервалов следует выбрать так, чтобы в необходимой мере отразилось разнообразие значений параметра в совокупности и в то же время закономерность распределения не искажалась случайными колебаниями частот по отдельным разрядам. Существуют нестрогие рекомендации по выбору количества k и размера h таких интервалов, в частности:

Рис. 2.1. Эмпирическая функция распределения

в каждом интервале должно находиться не менее 5 – 7 элементов. В крайних разрядах допустимо всего два элемента; количество интервалов не должно быть очень большим или очень маленьким. Минимальное значение k должно быть не менее 6 – 7. При объеме выборки, не превышающем несколько сотен элементов, величину k задают в пределах от 10 до 20. Для очень большого объема выборки (n >1000) количество интервалов может превышать указанные значения. Некоторые исследователи рекомендуют пользоваться соотношением k =1,441ln(n)+1; длины интервалов удобно выбирать одинаковыми и равными величине h= (x max x min)/k, где x max – максимальное и x min– минимальное значение параметра. При значительной неравномерности закона распределения длины интервалов можно задавать меньшего размера в области быстрого изменения плотности распределения.

Группирование результатов наблюдений по интервалам предусматривает: определение размаха изменений параметра х; выбор количества интервалов и их величины; подсчет для каждого i-го интервала [xi – xi+1] частоты ni или относительной частоты (частости vi) попадания варианты в интервал. В результате формируется представление ЭД в виде интервального или статистического ряда.

Графически статистический ряд отображают в виде гистограммы, полигона и ступенчатой линии. Часто гистограмму представляют как фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиною h, а высоты равны соответствующей частости. Однако такой подход неточен. Высоту i- го прямоугольника n i следует выбрать равной ni /(nh). Такую гистограмму можно интерпретировать как графическое представление эмпирической функции плотности распределения fn (x), в ней суммарная площадь всех прямоугольников составит единицу. Гистограмма помогает подобрать вид теоретической функции распределения для аппроксимации ЭД.

Полигоном называют ломаную линию, отрезки которой соединяют точки с координатами по оси абсцисс, равными серединам интервалов, а по оси ординат – соответствующим частостям. Эмпирическая функция распределения отображается ступенчатой ломаной линией: над каждым интервалом проводится отрезок горизонтальной линии на высоте, пропорциональной накопленной частости в текущем интервале. Накопленная частость равна сумме всех частостей, начиная с первого и до данного интервала включительно.

Пример 2.2. Имеются результаты регистрации значений затухания сигнала xi на частоте 1000 Гц коммутируемого канала телефонной сети. Эти значения, измеренные в дБ, в виде вариационного ряда представлены в табл. 2.3. Необходимо построить статистический ряд.

i                      
xi 25,79 25,98 25,98 26,12 26,13 26,49 26,52 26,60 26,66 26,69 26,74
i                      
xi 26,85 26,90 26,91 26,96 27,02 27,11 27,19 27,21 27,28 27,30 27,38
i                      
xi 27,40 27,49 27,64 27,66 27,71 27,78 27,89 27,89 28,01 28,10 28,11
i                      
xi 28,37 28,38 28,50 28,63 28,67 28,90 28,99 28,99 29,03 29,12 29,28

Решение. Количество разрядов статистического ряда следует выбрать минимальным, чтобы обеспечить достаточное количество попаданий в каждый из них, возьмем k = 6. Определим размер разряда

h= (x max x min)/k = (29,28 – 25,79)/6 = 0,58.

Сгруппируем наблюдения по разрядам, табл. 2.4.

Таблица 2.4

i            
xi 25,79 26,37 26,95 27,53 28,12 28,70
n i            
n i =ni /n 0,114 0,205 0,227 0,205 0,114 0,136
z i=n i /h 0,196 0,353 0,392 0,353 0,196 0,235

На основе статистического ряда построим гистограмму, рис. 2.2, и график эмпирической функции распределения, рис. 2.3.

График эмпирической функции распределения, рис. 2.3, отличается от графика, представленного на рис. 2.1 равенством шага изменения варианты и величиной шага приращения функции (при построении по вариационному ряду шаг приращения кратен 1/ n, а по статистическому ряду – зависит от частости в конкретном разряде).

Рассмотренные представления ЭД являются исходными для последующей обработки и вычисления различных параметров

 





Поделиться с друзьями:


Дата добавления: 2016-11-18; Мы поможем в написании ваших работ!; просмотров: 643 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Надо любить жизнь больше, чем смысл жизни. © Федор Достоевский
==> читать все изречения...

1325 - | 1089 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.009 с.