Математическая статистика – наука, решающая в некотором смысле обратные задачи по сравнению с задачами теории вероятности. В теории вероятностей вероятностное пространство задано и требуется предсказать возможное поведение случайной величины; в математической статистике, наоборот, известны лишь реализовавшиеся значения случайной величины, по которым реконструируется вероятностное пространство. Говорят, что по экспериментальным данным строится вероятностная модель явления, соответствующая этим данным.
В решении своих задач математическая статистика использует результаты теории вероятностей.
Итак, основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений и экспериментов.
Эти выводы и заключения относятся не к отдельным испытаниям, а представляют собой утверждения об общих вероятностных характеристиках данного процесса.
Пусть мы располагаем сведениями (обычно довольно ограниченными), например, о числе дефектных изделий и т.п. Эти данные могут представлять непосредственный интерес в смысле информации о качестве партии продукции.
Статистические же проблемы возникают тогда, когда мы на основе той же информации начинаем делать выводы относительно более широкого круга явлений. Например, нас может интересовать качество технологического процесса, для этого мы оцениваем вероятность получения в нем дефектного изделия или среднюю долговечность изделия. В этом случае мы рассматриваем собранный материал не ради его самого, а лишь как некую пробную группу или выборку.
Выводы и оценки, основанные на материале наблюдений, отражают случайный состав пробной группы и поэтому считаются приблизительными оценками вероятностного характера. Во многих случаях теория указывает, как наилучшим способом использовать имеющуюся информацию для получения по возможности более точных и надежных характеристик, указывая при этом степень надежности выводов.
В математической статистике рассматриваются две основные категории задач: оценивание и статистическая проверка гипотез.
Первая задача разделяется на точечное оценивание и интервальное оценивание параметров распределения. Например, может возникнуть необходимость по наблюдениям получить точечные оценки параметров M x и D x. Если мы хотим получить некоторый интервал, с той или иной степенью достоверности содержащий истинное значение параметра, то это задача интервального оценивания.
Вторая задача – проверка гипотез – заключается в том, что мы делаем предположение о распределении вероятностей случайной величины (например, о значении одного или нескольких параметров функции распределения) и решаем, согласуются ли в некотором смысле эти значения параметров с полученными результатами наблюдений.
Выборочный метод
Пусть нам нужно обследовать количественный признак в партии экземпляров некоторого товара. Проверку партии можно проводить двумя способами:
1) провести сплошной контроль всей партии;
2) провести контроль только части партии.
При втором способе множество случайным образом отобранных объектов называется выборочной совокупностью или выборкой.
Всемножество объектов, из которого производится выборка, называется генеральной совокупностью.
Число объектов в выборке называется объемом выборки. Обычно будем считать, что объем генеральной совокупности бесконечен.
Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения).
Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, иначе говоря, выборка должна быть репрезентативной (представительной).
Выборки различаются по способу отбора.
1. Простой случайный отбор.
Все элементы генеральной совокупности нумеруются и из таблицы случайных чисел берут, например, последовательность любых 30 идущих подряд чисел. Элементы с выпавшими номерами и входят в выборку.
2. Типический отбор.
Такой отбор производится в том случае, если генеральную совокупность можно представить в виде объединения подмножеств, объекты которых однородны по какому-то признаку, хотя вся совокупность такой однородности не имеет Тогда по каждому подмножеству проводят простой случайный отбор, и в выборку объединяются все полученные объекты.
3. Механический отбор.
Отбирают каждый двадцатый (сотый) экземпляр.
4. Серийный отбор.
В выборку подбираются экземпляры, произведенные на каком–то производстве в определенный промежуток времени.
В дальнейшем под генеральной совокупностью мы будем подразумевать не само множество объектов, а множество значений случайной величины, принимающей числовое значение на каждом из объектов.
Итак, отвлекаясь от понятия генеральной совокупности как множества объектов, обладающих некоторым признаком, будем рассматривать генеральную совокупность как случайную величину x, закон распределения и параметры которой определяются с помощью выборочного метода.
Рассмотрим выборку объема n, представляющую данную генеральную совокупность. Первое выборочное значение x 1 будем рассматривать как реализацию, как одно из возможных значений случайной величины x1, имеющей тот же закон распределения с теми же параметрами, что и случайная величина x.
Второе выборочное значение x 2 – одно из возможных значений случайной величины x2 с тем же законом распределения, что и случайная величина x.
То же самое можно сказать о значениях x 3, x 4,..., xn.
Таким образом, на выборку будем смотреть как на совокупность независимых случайных величин x1, x2,..., xn, распределенных так же, как и случайная величина x, представляющая генеральную совокупность. Выборочные значения x 1, x 2,..., xn – это значения, которые приняли эти случайные величины в результате 1-го, 2-го,..., n -го эксперимента.
Вариационный ряд
Пусть для объектов генеральной совокупности определен некоторый признак или числовая характеристика, которую можно замерить (размер детали, удельное количество нитратов в дыне, шум работы двигателя). Эта характеристика – случайная величина x, принимающая на каждом объекте определенное числовое значение. Из выборки объема n получаем значения этой случайной величины в виде ряда из n чисел:
x 1, x 2,..., xn. (6)
Эти числа называются значениями признака.
Среди чисел ряда (6) могут быть одинаковые числа. Если значения признака упорядочить, то есть расположить в порядке возрастания или убывания, написав каждое значение лишь один раз, а затем под каждым значением xi признака написать число mi, показывающее, сколько раз данное значение встречается в ряду (6):
х 1 | х 2 | х 3 | .... | хk |
m 1 | m 2 | m 3 | .... | mk |
то получится таблица, называемая дискретным вариационным рядом.
Число mi называется частотой i -гозначения признака.
Очевидна справедливость равенства .
Если промежуток между наименьшим и наибольшим значениями признака в выборке разбить на несколько интервалов одинаковой длины, каждому интервалу поставить в соответствие число выборочных значений признака, попавших в этот интервал, то получим интервальный вариационный ряд.
Если признак может принимать любые значения из некоторого промежутка, то есть является непрерывной случайной величиной, приходится выборку представлять именно таким рядом.
Если в вариационном интервальном ряду каждый интервал [a i;a i+ 1) заменить лежащим в его середине числом (a i +a i+ 1)/2, то получим дискретный вариационный ряд. Такая замена вполне естественна, так как, например, при измерении размера детали с точностью до одного миллиметра всем размерам из промежутка [49,5; 50,5), будет соответствовать одно число, равное 50.