▪ Если между А и В имеется «полная прямая зависимость», то есть ранги совпадают при всех i, то ρВ = 1. Действительно, при этом di = 0, и из формулы (21.4) следует справедливость свойства 1.
▪ Если между А и В имеется «противоположная зависимость», то ρВ = - 1. В этом случае, преобразуя di = (2 i – 1) – n, найдем, что
В остальных случаях -1 < ρB < 1, причем зависимость между А и В тем меньше, чем ближе | ρB | к нулю.
▪ Формулировка основной гипотезы Ho и конкурирующей гипотезы H1. Гипотезы должны быть чётко формализованы в математических терминах.
▪ Задание уровня значимости , на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
▪ Расчёт статистики критерия такой, что:
её величина зависит от сходной выборки ;
по её значению можно делать выводы об истинности гипотезы Ho;
сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности X.
▪ Построение критической области. Из области значений выделяется подмножество C таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство . Это множество C и называется критической областью.
Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область C выносится решение об отвержении (или принятии) выдвинутой гипотезы Ho.
42.Вариационный ряд, варианта, частота. Эмпирическая функция распределения. Гистограмма и полигон.
Точечные и интервальные оценки параметров распределения.
Вариационным рядом называется последовательность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются.
Отдельные числовые значения аргумента называют его вариантами и обозначают через x1, x2,..., xk. (Скорость чтения - признак, его значения - x1 = 110, x2 = 92,..., x36 = 25.) Количество элементов совокупности, имеющих одинаковое числовое значение, мы назвали частотой данной варианты; частоты обозначили через n1, n2,..., nk; n1 + n2 +... + nk = n. Отношение частоты варианты к объему совокупности назвали относительной частотой варианты и обозначили через v1, v2,..., vk; v1 + v2 +... + vk = 1.
Эмпирической функцией распределения,построенной по выборке объема n, называется случайная функция , при каждом равная
Полигоном частот называют ломанную, отрезки которой соединяют точки (x1; n1), (x2; n2),..., (xk; nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им частоты ni. Точки (xi; ni) соединяют отрезками прямых и получают полигон частот Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению ni / h (плотность частоты). Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni / h.Площадь i - го частичного прямоугольника равна hni / h = ni - сумме частот вариант i - го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
Точечной оценкой неизвестного параметра называют число (точку на числовой оси), которое приблизительно равно оцениваемому параметру и может заменить его с достаточной степенью точности в статистических расчетах
Точечной оценкой генеральной средней и параметра a может служить выборочная средняя .
Точечными оценками генеральной дисперсии могут служить выборочная дисперсия , или, при малых объемах выборки n, исправленная выборочная дисперсия:
.
Точечными оценками для генерального среднеквадратического отклонения могут служить: – выборочное среднее квадратическое отклонение или – исправленное выборочное среднее квадратическое отклонение.
Для построения интервальной оценки рассмотрим событие, заключающееся в том, что отклонение точечной оценки параметра от истинного значения этого параметра q по абсолютной величине не превышает некоторую положительную величину D. Вероятность такого события . Заменив неравенство на равносильное, получим: . Вероятность того, что доверительный интервал заключает в себе (покрывает) неизвестный параметр q равна g и называется доверительной вероятностью или надежностью интервальной оценки. Величину D называют точностью оценки.
54. ПОНЯТИЕ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ. Нулевая и конкурирующая, простая и сложная гипотезы. Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.Например, статистическими являются гипотезы:1). генеральная совокупность распределена по закону Пуассона; 2). дисперсии двух нормальных совокупностей равны между собой. Простой называютгипотезу, содержащую только одно предположение.
Сложной называют гипотезу, которая состоит из конечного или бесконеч- ного числа простых гипотез.
Нулевой (основной) называют выдвинутую гипотезу H0
Конкурирующей (альтернативной) называютгипотезу H1, которая противоречит нулевой.
55. Ошибки первого и второго рода. Критическая область.Выдвинутая гипотеза может быть правильной или неправильной, поэтому воз- никает необходимость ее проверки. Поскольку проверку производят статистиче- скими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.
Вероятность совершить ошибку первого рода принято обозначать через α; ее называют уровнем значимости.
Вероятность не допустить ошибку второго рода (т.е. отвергнуть гипотезу H0, когда она неверна) принято обозначать (1 − β); ее называют мощностью (или функцией мощности) критерия.
После выбора определенного критерия множество всех его возможных значе- ний разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другая - при которых она принимается.
Определение 64. Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.
43.Выборочная средняя, выборочная дисперсия.
Выборочной средней называют среднее арифметическое значение признака выборочной совокупности. Если все значения признака выборки различны, то если же все значения имеют частоты n1, n2,…,nk, то
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.Если все значения признака выборки различны, то
если же все значения имеют частоты n1, n2,…,nk, то Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением
45Нахождение доверительного интервала для оценки математического ожидания нормального распределения генеральной совокупности при известном
Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения -s. Требуется оценить математическое ожидание а по выборочной средней. Найдем доверительный интервал, покрывающий а с надежностью g. Выборочную среднюю будем рассматривать как случайную величину (она изменяется от выборки к выборке), выборочные значения признака- как одинаково распределенные независимые СВ с математическим ожиданием каждой а и средним квадратическим отклонением s. Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами .Потребуем, чтобы выполнялось равенство Заменив Х и s, получим получим Задача решена. Число t находят по таблице функции Лапласа Ф(х).
46.Доверительный интервал для среднего квадратического отклонения.Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и s с заданной надежностью g.Потребуем выполнения соотношения Раскроем модуль и получим двойное неравенство: Преобразуем: .Обозначим d/s = q (величина q находится по "Таблице значений q"и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид: .
56.Отыскание левосторонней, правосторонней и двусторонней критических областей. Мощность критерия. Для определенности начнем с нахождения правосторонней критической об- ласти,которая определяется неравенством K > kcr, где kcr > 0. Видим, что для отыскания правосторонней критической области достаточно найти критическую точку. Следовательно, возникает новый вопрос: как ее найти? Для ее нахожде- ния задаются достаточной малой вероятностью - уровнем значимости α. Затем ищут критическую точку kcr, исходя из требования, чтобы при условии справед- ливости нулевой гипотезы вероятность того, что критерий K примет значение, большее kcr, была равна принятому уровню значимости: P(K > kcr) = α. Левосторонняя критическая область определяется неравенством K < kcr (kcr < 0). Критическую точку находят исходя из требования, чтобы при спра- ведливости нулевой гипотезы вероятность того, что критерий примет значение, меньшее kcr, была равна принятому уровню значимости: Двусторонняя критическая область определяется неравенствами K < k1, K > k2. Критические точки находят исходя из требования, чтобы при спра- ведливости нулевой гипотезы сумма вероятностей того, что критерий примет значение, меньшее k1 или большее k2, была равна принятому уровню значимо- сти: (K <k1)+P(K >k2)=α. Критические точки могут быть выбраны бесчисленным множеством способов. Если же распределение критерия симметрично относительно нуля и имеются основания (например, для увеличения мощности) выбрать симметричные отно- сительно нуля точки −kcr и kcr, тоP(K < −kcr) = P(K > kcr). получим P(K > kcr) = α.Это соотношение и служит для отыскания критических точек двусторонней кри- тической области.Критические точки находят по соответствующим таблицам.
57.Проверка гипотезы о нормальном распределении генеральной совокупности-критерииx2
Для того, чтобы свести задачу к указанному в предыдущем пункте алгоритму, вычислим выборочные среднюю x* и среднее квадратическое отклонение , а затем - теоретические частоты , где n - объем выборки, h - шаг (разность между двумя соседними вариантами), ,
44.Генеральная средняя. Несмещенная оценка. Исправленная выборочная дисперсия.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.Если все значения признака различны, то Если значения признака имеют частоты N1, N2, …, Nk, где N1 +N2+…+Nk= N, то Для исправления выборочной дисперсии достаточно умножить ее на дробь получим исправленную дисперсию S2. Исправленная дисперсия является несмещенной оценкой. Несмещённая оценка— это точечная оценка, математическое ожидание которой равно оцениваемому параметру. Пусть — выборка из распределения, зависящего от параметра . Тогда оценка называется несмещённой, если
.
В противном случае оценка называется смещённой, и случайная величина называется её смещеем.
48. Основные понятия и определения, связанные с проверкой гипотез. Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметров (s и a) нормально распределенной генеральной совокупности. если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия.Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.
49. Общая схема проверки статистических гипотез. состоит из пяти этапов: 1 этап – выдвигаются две статистические гипотезы: 1) основная нулевая Н0 и 2) альтернативная (конкурирующая) Н1. 2 этап – задаемся уровнем значимости. Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска и выступает уровень значимости, который обычно обозначается.3 этап – по исходным данным, т.е. по выборке вычисляется наблюдаемое значение статистики критерия. В общем случае будем ее обозначать gнабл. Для этого используются статистические таблицы. Выбор необходимой статистической таблицы осуществляется в зависимости от распределения статистики критерия. При проверке статистических гипотез статистика критерия выбирается (статистиками) таким образом, чтобы она имела одну из 11 распределений.5 этап – путем сравнения найденных наблюдаемых критических значений делаем вывод о правильности этой или иной гипотезы.