Наглядные методы описательной статистики.

Лекция № 1

Введение в математическую статистику

В теории вероятностей изучались правила вычисления вероятностей одних случайных событий через другие, определялись законы распределения и числовые характеристики одних случайных величин через другие. В связи с этим, возникает вопрос: как найти эти исходные вероятности, законы распределения и числовые характеристики? Это является предметом исследования другой науки о массовых случайных явлениях, которая называется математической статистикой.

Математическая статистика – это раздел математики, в котором изучаются методы обработки, сбора и систематизации данных, полученных в результате наблюдений над случайными явлениями, для построения подходящих математических моделей.

Основными задачами математической статистики являются:

1. Задача определения закона распределения случайной величины (или системы случайных величин) по наблюдаемым данным. Например, если в результате проведения независимых испытаний получены значения , , …, некоторой случайной величины , то по ним приближенно определяют функцию распределения этой случайной величины.

2. Задача определения неизвестных параметров распределения. Предположим, что до опыта известен тип закона распределения, но неизвестен его конкретный вид. Тогда его функцию распределения находят при помощи приближенной оценки параметров распределения. Задача определения вероятности события – это частный случай этой задачи, когда случайная величина принимает значение "1", если событие произошло, и "0" – если не произошло.

3. Задача проверки статистических гипотез: на основании некоторых предположений (гипотез) делается проверка того, что функцией распределения наблюдаемой случайной величины есть данная гипотетическая функция .

4. Задача исследования зависимостей между данными: имея две последовательности наблюденных значений случайной величины с функцией распределения и случайной величины с функцией распределения выяснить, являются ли эти случайные величины зависимыми, т.е. выяснить вид их функциональной или корреляционной связи.

5. Задача регрессионного анализа: подбор математических моделей, наилучшим способом описывающих имеющиеся данные.

6. Анализ временных рядов.

Статистика в основном имеет дело с изучением больших объемов наблюдений (данных, объектов). Вся подлежащая изучению совокупность наблюдений (объектов) называется генеральной совокупностью. В математической статистике генеральная совокупность – это совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данном комплексе условий, и в этом смысле ее не следует смешивать с реальными совокупностями, подлежащими статистическому изучению. Понятие генеральной совокупности аналогично понятию случайной величины в теории вероятностей, так как полностью определяется некоторым комплексом условий.

Совокупность наблюдаемых объектов, полученных из генеральной совокупности при проведении независимых опытов для дальнейшего анализа, называется выборочной (статистической) совокупностью или выборкой. Выборку нужно стремиться получить такой, чтобы она наилучшим образом представляла всю генеральную совокупность, т.е. была бы репрезентативной.

Выборка по сути – это последовательность независимых одинаково распределенных случайных величин , , …, , выбранных из генеральной совокупности . Наблюдаемые значения (элементы, реализации, данные) выборки обычно обозначают строчными латинскими буквами: , , …, , где – это объем выборки (количество значений).

Генеральная совокупность может иметь как конечный, так и бесконечный объем. Обычно рассматриваются бесконечные совокупности, из которых можно сделать случайный выбор объектов (элементов, переменных и т.д.). Это соблюдается равной возможностью всех элементов генеральной совокупности быть отобранными в выборку.

По выборке , полученной в результате наблюдений над случайной величиной , можно судить приблизительно о законе распределения и характеристиках этой случайной величины. Это позволяет изучать свойства случайных величин, не зная их законов распределения.

Описательная статистика

В практических задачах обычно рассматривается совокупность наблюдений (выборка) , , …, , на основе которых требуется сделать те или иные выводы. Часто наблюдаемых данных бывает так много, что возникает задача их компактного описания.

Описательная статистика занимается описанием выборок с помощью различных показателей и графиков.

Показатели, описывающие выборку, можно разбить на несколько групп.

Показатели положения описывают положение данных на числовой оси. Примеры: минимальный и максимальный элементы выборки, квантили, выборочное среднее, выборочная медиана и др.
Показатели разброса описывают степень разброса данных относительно центра. К ним относятся: выборочная дисперсия, стандартное отклонение, размах выборки, коэффициент эксцесса и др.
Показатели асимметрии отвечают на вопрос о симметрии распределения своих данных относительно центра. К ним относятся: коэффициент асимметрии, положение медианы относительно среднего и выборочных квартилей, гистограмм и т.д.
Показатели, описывающие закон распределения, дают представление о теоретическом законе распределения данных. К ним относятся: графики гистограммы и эмпирической функции распределения, таблицы и полигоны частот.

Пусть имеется выборка , а – это порождающая ее генеральная совокупность. Требуется, зная величины , , …, , вычислить приближенно значения функции распределения и числовые характеристики . Функция распределения может быть известна заранее с точностью до некоторых неизвестных параметров.

Первое, что можно сделать с выборкой , , …, – это ее упорядочить, например, по возрастанию. Выборка, перенумерованная в порядке возрастания элементов, называется ее вариационным рядом:

Номер элемента выборки в вариационном ряде называется его рангом, а элементы , () вариационного ряда называются порядковыми статистиками выборки. Фактически, элемент – это минимальный элемент выборки, а элемент – максимальный элемент выборки. Разность называется размахом выборки и обозначается символом .

Статистическим рядом выборки называется последовательность ее различных элементов , , …, , расположенных в возрастающем порядке с указанием их частот , , …, , с которыми они содержатся в выборке. Статистический ряд выборки задается в виде следующей таблицы:

			…
			…

По вариационному ряду , , …, можно построить приближенную (эмпирическую, статистическую, выборочную) функцию распределения выборки. Она является графическим изображением вариационного ряда.

Эмпирической функцией распределения случайной величины , построенной по выборке , , …, , называется функция , равная доле таких значений , что , .

Если от выборки , , …, перейти к ее вариационному ряду , , …, . то

где – это число элементов вариационного ряда, меньших , т.е. ( – число элементов конечного множества ). Тогда

Эмпирическую функцию распределения можно построить по вариационному ряду по следующей формуле (если все элементы ряда различны):

Таким образом, эмпирическая функция распределения является ступенчатой с точками скачков , , …, , причем величина каждого скачка равна (рис.1).

Рис.1

По своему определению эмпирическая функция распределения – случайная функция: для значение является случайной величиной, реализациями которой являются числа , , , …, , , при этом:

Но из определения следует, что – это случайная величина, подчиненная закону Бернулли . Тогда

, , .

Таким образом, между эмпирической функцией распределения выборки и теоретической функцией распределения генеральной совокупности существует тесная связь, которая основана на теореме Бернулли (следствие закона больших чисел): при увеличении числа испытаний () над случайной величиной происходит сближение (по вероятности) с , т.е.

и : .

Здесь – относительная частота события в испытаниях Бернулли с вероятностью успеха в одном испытании .

Более сильный результат сближения дает теорема Гливенко.

Теорема Гливенко. Пусть – выборка объема из неизвестного распределения с функцией распределения . Пусть – эмпирическая функция распределения, построенная по выборке , , …, . Тогда

при ,

т.е. эмпирическая функция распределения с ростом равномерно по аппроксимирует теоретическую функцию распределения .

Выборочные характеристики. Выборочные характеристики можно получить на основе соответствующих числовых характеристик теории вероятностей заменой функции распределения ее выборочным аналогом . При этом будем считать, что случайная величина является дискретной с функцией распределения и может принимать значения , , …, с одинаковой вероятностью .

1. Средним значением выборки (выборочным средним), т.е выборочным аналогом математического ожидания называется величина

2. Дисперсией выборки (выборочной дисперсией), т.е. выборочным аналогом дисперсии, называется величина

Здесь справедлива также следующая формула:

3. Средним квадратическим отклонением выборки называется величина

характеризует меру рассеяния элементов выборки относительно среднего, выраженную в тех же единицах, что и элементы выборки.

4. Выборочный момент -го порядка:

В частном случае при получим выборочное среднее: .

5. Выборочный центральный момент -го порядка:

В частном случае при получим выборочную дисперсию: .

Справедливо следующее равенство:

6. Модой вариационного ряда называется значение выборки, которому соответствует наибольшая частота.

Число, показывающее сколько раз встречается одинаковое значение выборки, называется частотой выборки (). Относительной частотой выборки называется отношение частоты выборки к ее объему : .

7. Выборочной медианой (медианой вариационного ряда) называется середина вариационного ряда. Она определяется следующим образом:

если , то ;

если , то .

8. Выборочной квантилью () называется величина вариационного ряда, которая определяется как

Здесь – целая часть .

При и выборочные квантили называются нижней и верхней квартилями.

Наглядные методы описательной статистики.

При большом объеме выборки () данные целесообразно группировать, т.е. всю числовую ось разбивают на промежутки и для каждого промежутка указывают число элементов выборки , , …, , которые попали на него. Это обычно делается в том случае, если выборка получена из непрерывной генеральной совокупности . Ясно, что , где – количество интервалов группировки.

Для определения числа интервалов можно рекомендовать следующую формулу Стерджеса:

Пусть – число элементов выборки, попавших на -ый интервал , тогда частота события будет равна , причем .

Введем следующее определение.

Группированным статистическим рядом называется таблица, в которой приведены границы интервалов группировки и соответствующие им частоты:

			…
			…

Группированный статистический ряд определяется графически при помощи гистограммы или полигона частот.

Гистограммой частот называется зависимость частоты попадания элементов выборки от соответствующего интервала группировки. Гистограмма представляет собой ступенчатую фигуру, составленную из прямоугольников с основаниями, равными длине интервалов группировки , . В качестве ординаты гистограммы берется величина, равная . Если ордината гистограммы равна , такая гистограмма называется гистограммой относительных частот (площадь всей ступенчатой фигуры будет равна 1).

Если соединить середины верхних оснований прямоугольников гистограммы отрезками прямой, то получится полигон частот. Фактически, полигон частот – это ломаная с вершинами в точках или в точках – полигон относительных частот, где – середины интервалов группировки, т.е.

, .

С помощью гистограммы (или полигона) относительных частот статистически оценивается кривая плотности распределения генеральной совокупности . Действительно, площадь прямоугольника с основанием равна , т.е. при относительная частота попадания на интервал будет близка к вероятности попадания на данный интервал, что следует из закона больших чисел, согласно которому при относительная частота сближается с вероятностью , где – плотность распределения генеральной совокупности . Указанный интеграл по теореме о среднем равен , где – некоторая внутренняя точка .

Для группированных данных в качестве выборочного среднего и дисперсии выбирают следующие величины. Вместо выборочного среднего используют величину :

а в качестве выборочной дисперсии берут величину:

Пример. Пусть имеется вариационный ряд вида:

0, 1, 1, 2, 3, 4, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 9, 10, 11, 12. ().

Размах выборки . Возьмем (в соответствии с формулой Стердждеса) число интервалов группировки . Тогда длина интервала Если элемент выборки совпадает с верхней границей интервала группировки, то его относят к последующему интервалу. В результате группированный статистический ряд для исходной выборки будет иметь следующий вид: