Основные теоретические вопросы и методические рекомендации для выполнения первого задания
Теоретические вопросы.
1. Генеральная и выборочная совокупности. Совокупность – это множество объектов (единиц совокупности), обладающих массовостью, однородностью, определенной целостностью, взаимозависимостью состояния отдельных единиц и наличием вариации. Единицы статистической совокупности характеризуются общим свойством, которое в статистике получило название признака. В статистике рассматриваются совокупности генеральные и выборочные. Генеральная совокупность – совокупность объектов, из которой выбираются единицы и исследуются на наличие определенного признака. Выборочная совокупность – случайно отобранные объекты из генеральной совокупности.
Достаточно часто полное исследование генеральной совокупности практически невозможно или неэкономично, требует больших материальных затрат. Поэтому всеобщее исследование применяют, как правило, редко.
Обычно из генеральной совокупности делают выборку и осуществляют исследование ее объектов. С помощью выборки оценивают генеральную совокупность по вероятностным свойствам. Чтобы оценки были достоверными, выборка должна быть представительной, т.е. ее вероятностные свойства должны совпадать или быть близкими к свойствам генеральной совокупности.
Представительную выборку можно получить, если выбирать объекты для исследования случайно, т.е. гарантировать всем объектам генеральной совокупности одинаковую вероятность подвергнуться исследованию.
При исследовании объектов можно фиксировать или измерять значение одного или нескольких признаков. Соответственно говорят об одномерной, двумерной, трехмерной и т.д. выборках. Рассмотрим обработку одномерных выборок.
2. Статистическое распределение выборки. Будем обозначать значения признака Х генеральной совокупности через хi и называть вариантами. Пусть из генеральной совокупности извлечена выборка, причем х1 наблюдалось n1 раз, x2 – n2 раза, xk – nk раз, где Σni = n – объем выборки. Наблюдаемые значения xi располагают в виде последовательности, записанной в возрастающем порядке, и называют ее вариационным рядом. Числа наблюдений ni называют частотами, а их отношения к объему выборки – ni/n = wi – относительными частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот (статистическое распределение частот или статистический ряд частот) или относительных частот (статистическое распределение частот или статистический ряд частот). Статистическое распределение выборки (статистический ряд) можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал вариант).
Статистический ряд оформляют в виде таблицы:
хi | Х1 | х2 | … | хk |
ni | n1 | n2 | … | nk |
3. Эмпирическая функция распределения. Каждая генеральная совокупность имеет функцию распределения F(x) (ее называют теоретической функцией распределения), которая обычно неизвестна. По выборке можно найти функцию распределения F*(x), которую называют эмпирической функцией распределения. Эмпирическая функция распределения для дискретного признака Х находится аналогично как в теории вероятностей, она находится для случайной величины, где вместо вероятностей pi берутся относительные частоты ni/n, т.е.
,
.
Значениями эмпирической функции распределения являются так называемые накопленные частоты. График эмпирической функции распределения строят так же, как и график функции распределения F(x) дискретной случайной величины.
4. Полигон и гистограмма. Для наглядности строят различные графики статистического распределения признака Х, в частности, полигон и гистограмму. Рассмотрим построение полигона и гистограммы для точечного и интервального задания статистического ряда.
A. Дискретное распределение выборки. Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им частоты ni. Полученные точки (xi; ni) соединяют отрезками и получают ломаную линию, которая и называется полигоном частот.
Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (x1; w1), (x2; w2),…, (xk; wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им относительные частоты wi.
Б. Непрерывное распределение признака. При непрерывном распределении признака целесообразно строить гистограмму частот и относительных частот.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат заданные интервалы, длины h, а высоты равны отношению ni/h (плотность частоты).
Для построения гистограммы частот на оси абсцисс откладывают интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni/h.
Площадь частичного прямоугольника равна hni/h = ni – частоте вариант интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины h, а их высоты равны отношению wi/h (плотность относительной частоты).
Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии wi/h. Площадь частичного прямоугольника равна hwi/h = wi – относительной частоте вариант, попавших в этот интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.
5. Генеральная и выборочная средние. Пусть исследуется генеральная совокупность на количественный признак Х, принимающий значения х1, х2 ,…, хк. Средним арифметическим генеральной совокупности называется г = ∑(Ni хi)/N, где хi – значения признака, а Ni – частоты (или весы), N = ∑Ni – объем генеральной совокупности. Если составлен статистический ряд, то средним выборочным называется в = ∑(ni хi)/n, где хi –варианты, а ni – соответствующие частоты (или весы), n = ∑ni – объем выборочной совокупности.
6. Генеральная и выборочная дисперсии. Пусть исследуется генеральная совокупность на количественный признак Х. Осуществлена выборка. Разности (хi - г) и (хi - в) называют отклонениями средних от значений признака. Генеральной дисперсией называется число, равное среднему арифметическому квадратов отклонений значений признака Х от генеральной средней, т.е. Dг = ∑Ni (хi - г)2 /N.
Выборочной дисперсией называется число, равное среднему арифметическому квадратов отклонений вариант от средней выборочной, т.е.
Dв = ∑ni (хi - в)2 /n.
При решении статистических задач часто вместо дисперсии используют среднеквадратическое отклонение, которое обозначается σг2 = Dг и σв2 = Dв.
7. Статистические оценки параметров распределения. Пусть исследуется генеральная совокупность на некоторый признак Х. И пусть по некоторому теоретическому соображению удалось установить закон его распределения. Так как генеральную совокупность часто исследователь нельзя, то осуществляют выборку, находят ее числовые характеристики и по ним оценивают параметры генеральной совокупности. Оценить означает, приближено заменить. При этом могут быть допущены ошибки. Поэтому для осуществления оценки к ней предъявляются требования: несмещенности, эффективности и состоятельности. В науке статистике установлено, что средняя выборочная удовлетворяет таким требованием и служит для оценки генеральной средней. Для выборочной дисперсии такие требования не выполняются. Поэтому оценивают генеральную дисперсию с помощью «исправленной выборочной» .
= ∑ni (хi - )2 /(n - 1). Стандартное или среднеквадратичное отклонение определяется как квадратный корень из дисперсии .
8. Метод произведений для вычисления выборочной средней и дисперсии. Метод произведений дает удобный способ вычисления условных моментов различных порядков статистического ряда. Введем понятие равноотстоящих вариант. Варианты называют равноотстоящими, если «расстояния» между соседними вариантами одинаковые. Пусть выборка задана в виде распределения равноотстоящих вариант и соответствующих им частот. В этом случае удобно находить выборочную среднюю и дисперсию методом произведений по формулам
в = М1*h + C, Dв = [М2* - (М1*)2]h2 , где h – шаг (разность между двумя соседними вариантами); С – ложный нуль (варианта, которая расположена примерно в середине вариационного ряда); М1* = ∑ni ui /n – условный эмпирический момент первого порядка, М2* = ∑ni ui2 /n – условный эмпирический момент второго порядка, ui = (xi - C)/h – условная варианта.
Если первоначальные варианты не являются равноотстоящими, то интервал, в котором заключены все варианты выборки, делят на несколько равных, длины h, частичных интервалов (каждый частичный интервал должен содержать не менее 8-10 вариант). Затем находят середины частичных интервалов, которые и образуют последовательность равноотстоящих вариант. В качестве частоты каждой середины интервала принимают сумму частот вариант, которые попали в соответствующий частичный интервал.
9. Метод сумм для вычисления выборочной средней, дисперсии, эксцесса и асимметрии. Пусть выборка задана в виде распределения равноотстоящих вариант и соответствующих им частот. Пусть требуется оценить параметры признака Х, нормального распределенного. Это можно сделать либо с помощью метода произведений, либо с помощью метода сумм. Изложим метод сумм. Метод сумм состоит в том, что условные моменты находят по формулам:
М1* = d1 /n, М2* = (s1 + 2s2)/n, М3* = (d1 + 6d2 + 6d3)/n, М4* = (s1 + 14s2 + 36s3 + 24s4)/n, где dk = ak – bk, sk = ak + bk. Тогда выборочные параметры можно найти так: в = М1*h + C, Dв = [М2* - (М1*)2]h2 , Аs = m3 /σв3, Ек = m4 /σв4 - 3, где центральные эмпирические моменты 3-го и 4-го порядков вычисляются:
m3 = [М3* - 3М1* М2* + 2(М1* )3]h3,
m4 = [М4* - 4М1* М3* + 6(М1*)2 М2* - 3(М1*)4]h4.
Методические рекомендации для выполнения первого задания
и решение нулевого варианта.
Задание 1. Задание 1. Обработать статистические данные признака выборочной совокупности, распределенной нормально, оформленные таблицей:
1.1.Составить статистические ряды частот и относительных частот.
1.2.Построить полигон частот и гистограмму относительных частот.
1.3.Составить функцию распределения признака совокупности (накопительную таблицу, аналитическую формулу, график)
1.4. Оценить генеральную среднюю, генеральную дисперсию и среднеквадратическое отклонение с помощью выборочной средней, исправленной дисперсии и стандарта: а) методом произведений; б) методом сумм генеральную среднюю, генеральную дисперсию, среднеквадратическое отклонение, асимметрию и эксцесс.
(использовать условные варианты)
Необходимые знания:
Генеральная и выборочная совокупности, статистическое распределение выборки, статистические ряды частот и относительных частот, эмпирическая функция распределения, способ ее нахождения, определение и способы построения полигона и гистограммы, определения числовых характеристик генеральной и выборочной совокупностей, формулы их нахождения, методы сумм и произведений для нахождения выборочных характеристик.
Решение нулевого варианта и методические рекомендации
1.1.Составить статистические ряды частот и относительных частот.
Таблица 1
Решение.
а) Составить статистический ряд частот и относительных частот.
Для выполнения этого задания рекомендуется изучить необходимый теоретический материал, рассмотреть таблицу с заданной выборкой, установить цель задания, разработать технологию достижения цели, построить модель поэтапного выполнения.
Так как задано начало первого интервала и шаг, то для составления статистического ряда определим интервалы и поместим их в таблицу 2 (первая строка таблицы). Посчитаем количество вариант, попавших в каждый интервал таким образом, что в первый интервал попадут варианты от 42 до 48, во второй от 49 до 55 и т.д., и также поместим в таблицу 2 (вторая строка таблицы 2). Получится интервальный статистический ряд.
Таблица 2
хi | 42-49 | 49-56 | 56-63 | 63-70 | 70-77 | 77-84 | 84-91 | 91-98 | 98-105 | 105-112 | 112-119 |
ni |
Сделаем проверку: Σ ni = 4 + 8 + 16 + 27 + 28 + 34 + 26 + 24 + 22 + 6 + 5 = 200.
2. Составим статистический ряд частот и относительных частот, выбрав середины интервалов, расположенных в первой строке таблицы 2. Для вычисления относительных частот воспользуемся их определением: относительная частота равна ni /n. Например, n1 /n = 4/200 = 0.02. Результаты поместим в таблицу 3.
Таблица 3
хi | 45.5 | 52.5 | 59.5 | 66.5 | 73.5 | 80.5 | 87.5 | 94.5 | 101.5 | 108.5 | 115.5 |
ni | |||||||||||
ni /n | 0.02 | 0.04 | 0.08 | 0.14 | 0.14 | 0.17 | 0.13 | 0.12 | 0.11 | 0.03 | 0.02 |
Сделаем проверку: Σ ni /n = 0.02 + 0.04 + 0.08 + 0.14 + 0.14 + 0.17 + 0.13 + 0.12 + 0.11 + 0.03 + 0.02 = 1.
1.2.Построить полигон частот и гистограмму относительных частот
3. Построим полигоны статистического ряда для частот и относительных частот. Для построения полигонов на оси ОХ отметим варианты, а на оси ОУ частоты (относительные частоты). В первом случае, соединяя точки отрезками, получим полигон частот, во втором – полигон относительных частот.
Рис 1. Полигон относительных частот.
4. Построим гистограммы статистических рядов. Для этого воспользуемся первой строкой таблицы 2 и на оси ОХ отложим интервалы. На оси ОУ отложим точки с координатами hni/n. Построим прямоугольники с основанием, равным h, и высотой, равной hni/n. Заметим, что площадь получившейся фигуры будет равна n. Фигура, полученная после построения, и является гистограммой частот. Для построения гистограммы относительных частот на оси ОУ отложить следует относительные частоты, умноженные на h. Заметим, что полученная фигура имеет площадь, равную 1.
1.3.Составить функцию распределения признака совокупности (накопительную таблицу, аналитическую формулу, график)
Для отыскания эмпирической функции распределения статистического ряда составим таблицу 4 накопительных частот. Накопительные частоты обозначим Р*(х). Они получаются последовательным прибавлением к относительной частоте последующей. Последняя накопительная частота должна быть равной 1.
Таблица 4
хi | 45.5 | 52.5 | 59.5 | 66.5 | 73.5 | 80.5 | 87.5 | 94.5 | 101.5 | 108.5 | 115.5 |
ni /n | 0.02 | 0.04 | 0.08 | 0.14 | 0.14 | 0.17 | 0.13 | 0.12 | 0.11 | 0.03 | 0.02 |
Р*(х) | 0.02 | 0.06 | 0.14 | 0.28 | 0.42 | 0.59 | 0.72 | 0.84 | 0.95 | 0.98 | 1.00 |
Эмпирическую функцию F*(х) распределения статистического ряда найдем, используя таблицу 4.
F* (х) = {Р* (х) = 0, если х < х1; Р* (х) = 1, если х > х11; Р* (х) = р, если х принимает значения в интервалах.} Теперь можно построить график эмпирической функции, для этого на оси ОХ откладываются интервалы, а на оси ОУ значения функции, которые она принимает на отрезке.
Рис 3. График эмпирической функции распределения.
1.4. Оценить генеральную среднюю, генеральную дисперсию и среднеквадратическое отклонение с помощью выборочной средней, исправленной дисперсии и стандарта: а) методом произведений; б) методом сумм генеральную среднюю, генеральную дисперсию, среднеквадратическое отклонение, асимметрию и эксцесс.
(использовать условные варианты)
Теоретические вопросы.
Понятие оценки. Генеральные совокупности характеризуются некоторыми постоянными числовыми характеристиками распределения. По выборкам можно найти оценки этих характеристик. Вследствие случайности выборок значения оценок одной числовой характеристики, вычисленные по разным выборкам из одной и той же генеральной совокупности, бывают, как правило, различными.
Обозначим неизвестный параметр распределения, т.е. числовую характеристику генеральной совокупности Х, через Θ, а оценку неизвестного параметра – через Θ*. Оценка Θ* – функция от вариант выборки. Оценки неизвестного параметра можно находить разными способами.
При оценивании возможны ошибки, поэтому к оценкам предъявляются определенные требования. Как было отмечено в пункте 2.1, оценки должны удовлетворять трем требованиям: быть несмещенными, эффективными и состоятельными.
Оценка Θ* называется несмещенной для Θ, если математическое ожидание от нее равно оцениваемому параметру, т.е. М(Θ*) = Θ. Если это условие не выполняется, то оценку называют смещенной, при этом смещение вычисляется как разность [М(Θ*) – Θ].
Несмещенной оценкой среднего значения μ (математического ожидания) является среднее арифметическое (выборочное среднее). Выборочная дисперсия по отношению к генеральной дисперсии является смещенной оценкой. Поэтому для оценки генеральной дисперсии используется «исправленная» дисперсия = Dвn/(n-1).
Если сравнивать эту формулу с формулами для вычисления выборочной дисперсии, то можно получить аналогичные формулы для вычисления несмещенной оценки дисперсии:
Решение нулевого вариант и методические рекомендации.
Для поиска числовых характеристик выборки методом произведения составим расчетную таблицу 5, используя условные варианты:
ui = (хi - С)/h, где С – ложный нуль (в качестве ложного нуля принимается варианта, которая расположена в середине вариационного ряда или имеет наибольшую частоту), h – шаг статистического ряда, хi – варианты.
Таблица 5
хi | ni | ui | ni ui | ni ui2 | ni (ui + 1)2 |
45.5 | - 5 | - 20 | |||
52.5 | - 4 | - 32 | |||
59.5 | - 3 | - 48 | |||
66.5 | - 2 | - 54 | |||
73.5 | - 1 | - 28 | |||
80.5 | А = - 182 | ||||
87.5 | |||||
94.5 | |||||
101.5 | |||||
108.5 | |||||
115.5 | |||||
Σ | N = 200 | Σ ni ui = 7 | Σ ni ui2 = 1049 | Σ ni (ui + 1)2 = 1263 |
Осуществим проверку правильности составления таблицы.
1263 = Σ ni (ui + 1)2 = Σ ni ui2 + 2Σ niui + n = 1049 + 2 · 7 + 200 = 1263. Так как 1263 = 1263, то таблица составлена верно.
Для вычисления средней выборочной и выборочной дисперсии найдем условные эмпирические моменты:
М1* = (Σ ni ui)/n = 7/200 = 0.035;
М2* = (Σ ni ui2)/n = 1049/200 = 5.245.
Найдем среднее выборочное:
хв = М1*h + С = 0.035 · 7 + 80.5 = 0.245 + 80.5 = 80.745.
Найдем выборочную дисперсию:
Dв = [М2* - (М1*)2 ] h2 = [1049/200 – (0.035)2 ]49 = [5.245 – 0.001] 49 = 256.96.
Найдем исправленную дисперсию и выборочное среднеквадратическое отклонение:
S2 = = 200/199 · 256.96 = 1.02 · 256.96 = 262.1.
σ = = 16.03.
6.2. Для поиска числовых характеристик выборки методом сумм составим расчетную таблицу 6:
Таблица составляется следующим образом:
1. Запишем варианты в первый столбец.
2. Запишем частоты во второй столбец; сумму частот (200) поместим в нижнюю клетку столбца.
3. В качестве ложного нуля выберем варианту 80.5, которая имеет наибольшую частоту; в клетках строки, содержащей ложный нуль, запишем нули; в четвертом столбце над и под уже помещенным нулем запишем еще по одному нулю.
4. В оставшихся незаполненных над нулем клетках третьего столбца (исключая самую верхнюю) запишем последовательно накопленные частоты; сложив все накопленные частоты, получим число в1=182, которое поместим в верхнюю клетку третьего столбца. В оставшихся незаполненных под нулем клетках третьего столбца (исключая самую нижнюю) запишем последовательно накопленные частоты; сложив все накопленные частоты, получим число а1=189, которое поместим в нижнюю клетку третьего столбца.
5. Аналогично заполняется четвертый (пятый, затем шестой) столбец, причем суммируют частоты третьего (четвертого, пятого) столбца; сложив все накопленные частоты, расположенные над нулем, получим число в2 (в3, в4), которое помещается в верхнюю клетку столбца; сумма накопленных частот, расположенных под нулем, равна числу а2 (а3,а4), которое поместим в нижнюю клетку столбца.
Таблица 6
хi | ni | в1 = 182 | в2 = 163 | в3 = 88 | в4 = 28 |
45.5 | |||||
52.5 | |||||
59.5 | |||||
66.5 | |||||
73.5 | |||||
80.5 | |||||
87.5 | |||||
94.5 | |||||
101.5 | |||||
108.5 | |||||
115.5 | |||||
Σ | n = 200 | а1 = 189 | а2 =176 | а3 = 96 | а4 = 31 |
Найдем среднее выборочное и выборочную дисперсию по формулам:
хв = М1*h + С; Dв = [М2* - (М1*)2 ] h2. Для этого найдем:
d1 = а1 - в1 = 189 –182 = 7; d2 = а2 - в2 = 176 –163 = 13;
s1 = а1 + в1 = 189 + 182 = 371; s2 = а2 + в2 = 176 + 163 = 339.
Используя формулы для нахождения условных эмпирических моментов, найдем их:
М1* = d1 / n = 7/200 = 0.035;
М2* = (s1 + 2 s2)/n = (371 + 2 ּ 339)/200 = 5.25.
хв = М1*h + С=0.035· 7 + 80.5 = 0.245 + 80.5 = 80.745;
Dв = [М2* - (М1*)2 ] h2 = [5.25 – (0.035)2 ]49 = [5.245 – 0.001] 49 = 256.96.
16.03;
S2 = = 200/199 · 256.96 = 1.02 · 256.96 = 262.1;
Найдем выборочную асимметрию по формуле: Аs = m3 /σв3.
Для этого по таблице найдем d3 = а3 - в3 = 96 – 88 = 8; s3 = а3 + в3 = 96 + 88 = 184; затем найдем М3* = (d1 + 6d2 + 6d3)/n = (7 + 78 + + 48)/200 = 0.67 и m3 = [М3* - 3М1* М2* + 2(М1*)3 ]h3 = [0.67 – 3 ּ 0.035 ּ 5.25 + 2(0.035)3] 343 = 41.16; σв3 = 3341.46. Тогда Аs = 41.16 / 3341.46 = 0.01. Это значит, что выборка хорошо согласуется с генеральной совокупностью.
Найдем эксцесс по формуле Ек = m4 /σв4 - 3, для чего найдем s4 = а4 + в4 = 31 + 28 = 59, М4* = (s1 + 14 s2 + 36s3 + 24 s4)/n = (371 + 4746 + 6624 + 1416)/200 = 65.78, m4 = [М4* - 4М1* М3* + 6(М1*)2 М2* - 3(М1*)4 ]h4 = 157832.13. Тогда Ек = m4 /σв4 - 3 = 157832.13/66028.44 – 3 = - 0.64. Это значит, что выборка плохо согласуется с генеральной совокупностью, т.е. нормальная кривая и кривая, построенная по выборке, отличаются.
Основные теоретические вопросы и методические рекомендации для выполнения второго задания
Теоретические вопросы