Определим основные понятия математической статистики.
Генеральная совокупность – все множество имеющихся объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число объектов в рассматривае-мой совокупности.
Виды выборки:
Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;
Бесповторная – отобранный объект в генеральную совокупность не возвращается.
Замечание. Для того, чтобы по исследованию выборки можно было сделать выводы о поведе-нии интересующего нас признака генеральной совокупности, нужно, чтобы выборка правиль-но представляла пропорции генеральной совокупности, то есть была репрезентативной (представительной). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова.
Первичная обработка результатов.
Пусть интересующая нас случайная величина Х принимает в выборке значение х 1 п 1 раз, х 2 – п 2 раз, …, хк – пк раз, причем где п – объем выборки. Тогда наблюдаемые значения случайной величины х 1, х 2,…, хк называют вариантами, а п 1, п 2,…, пк – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – стати-стическим рядом:
xi | x 1 | x 2 | … | xk |
ni | n 1 | n 2 | … | nk |
wi | w 1 | w 2 | … | wk |
Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni – сумму частот вариант, попавших в i -й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом:
Номера интервалов | 1 | 2 | … | k |
Границы интервалов | (a, a + h) | (a + h, a + 2 h) | … | (b – h, b) |
Сумма частот вариант, попав- ших в интервал | n 1 | n 2 | … | nk |
Распределение функции.
Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Один из них – полигон частот: ломаная, отрезки которой соединяют точки с координатами (x 1, n 1), (x 2, n 2),…, (xk, nk), где xi откладываются на оси абсцисс, а ni – на оси ординат. Если на оси ординат откладывать не абсолютные (ni), а относительные (wi) частоты, то получим полигон
рис.1
относительных частот (рис.1).
По аналогии с функцией распределения случайной величины можно задать некоторую функцию, относительную частоту события X < x.
Выборочной (эмпирической) функцией распределения называют функцию F * (x), определяющую для каждого значения х относительную частоту события X < x. Таким образом,
, (15.1)
где пх – число вариант, меньших х, п – объем выборки.
Замечание. В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F (x) генеральной совокупности называют теоретической функцией распределения. F (x) определяет вероятность события X < x, а F * (x) – его относительную частоту. При достаточно больших п, как следует из теоремы Бернулли, F * (x) стремится по вероятности к F (x).
Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F (x), а именно:
1) 0 ≤ F * (x) ≤ 1.
2) F * (x) – неубывающая функция.
3) Если х 1 – наименьшая варианта, то F * (x) = 0 при х ≤ х 1; если хк – наибольшая варианта, то F * (x) = 1 при х > хк.
Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni / h (гистограмма частот) или wi / h (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице Рис.2.
24. Доверительный интервал для математического ожидания нормального распределения при известном и неизвестном распределении. Коэффициент Стьюдента.