Оценки математического ожидания и дисперсии

Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание m_x=M[x ] и дисперсия σ²_x= D[x] = M[(X – m_x)²] = M[x²] – . Число m_x является средним значением случайной величины, около которого разбросаны значения величин Х, мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:

s_x = (1.11)

Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S) случайной величины Х. Требуется по имеющейся выборке оценить неизвестные значения m_x и .

Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S. Каждая такая оценка a* является некоторой функцией a*=a*(S) от значений выборки. Значения выборки случайны, поэтому и сама оценка a* является случайной величиной. Можно построить множество различных оценок (то есть функций) a*, но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.

1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M[a*] = a. Другими словами, оценка a* не должна иметь систематической ошибки.

2. Состоятельность. При бесконечном увеличении объёма выборки, оценка a* должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.

3. Эффективность. Оценка a* называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a* относительно точного значения и оценка в определённом смысле является «самой точной».

К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.

Для оценки математического ожидания чаще всего применяется оценка.

= , (1.12)

то есть среднее арифметическое по выборке. Если случайная величина X имеет конечные m_x и s_x, то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если X имеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет

(1.13)

В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.

Таким образом, для каждого типа распределения случайной величины Х следовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.

Для оценки математического ожидания по группированной выборке используется следующая формула:

= , (1.14)

которую можно получить из предыдущей, если считать все m_i значений выборки, попавших в i –й интервал, равными представителю z_i этого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.

Для оценки дисперсии чаще всего используется оценка:

= , (1.15)

Эта оценка не смещена и состоятельна для любой случайной величины Х, имеющей конечные моменты до четвёртого порядка включительно.

В случае группированной выборки используется оценка:

= (1.16)

Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от m_x и в силу замены всех значений выборки, попавших в i –й интервал, на представителя интервала z_i.

Отметим, что при больших n, коэффициент n /(n – 1) в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.

Интервальные оценки.

Пусть точное значение некоторого параметра равно a и найдена его оценка a*(S) по выборке S. Оценке a* соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной. Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности

a* ¹ a, и мы можем надеяться только на то, что точка a* находится где–то вблизи a. Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.

Рис.1.5. Точечная оценка параметра.

Более определённым в этом отношении являются интервальные оценки. Интервальные оценка представляет собой интервал I_b= (a, b), в котором точное значение оцениваемого параметра находится с заданной вероятностью b. Интервал I_b называется доверительным интервалом, а вероятность b называется доверительной вероятностью и может рассматриваться как надёжность оценки.

Доверительный интервал состоится по имеющейся выборке S, он случаен в том смысле, что случайны его границы a(S) и b(S), которые мы будем вычислять по (случайной) выборке. Поэтому b есть вероятность того, что случайный интервал I_b накроет неслучайную точку a. На рис. 1.6. интервал I_b накрыл точку a, а I_b* - нет. Поэтому не совсем правильно говорить, что a « попадает» в интервал.

Если доверительная вероятность b велика (например, b = 0,999), то практически всегда точное значение a находится в построенном интервале.

Рис.1.6. Доверительные интервалы параметра a для различных выборок.

Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х, основанный на центральной предельной теореме.

Пусть случайная величина Х имеет неизвестное математическое ожидание m_x и известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:

= , (1.17)

результатов n независимых испытаний величины Х является случайной величиной, распределение которой при больших n, близко к нормальному распределению со средним m_x и среднеквадратическим отклонением . Поэтому случайная величина

(1.18)

имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t), график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).

Рис.1.7. Плотность распределения вероятностей случайной величины t.

Пусть задана доверительная вероятность b и t_b -число, удовлетворяющее уравнению

b = Ф₀(t_b) – Ф₀(-t_b) = 2 Ф₀(t_b), (1.19)

где - функция Лапласа. Тогда вероятность попадания в интервал (-t_b, t_b) будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b. Следовательно

b = P(-t_b < < t_b) = P( – t_b < m_x < + t_b ) =

= P( – t_b < m_x< + t_b ). (1.20)

Таким образом, в качестве доверительного интервала можно взять интервал

I_b = ( – t_b ; + t_b ), (1.21)

так как выражение (1.20) означает, что неизвестное точное значение m_x находится в I_b с заданной доверительной вероятностью b. Для построения I_b нужно по заданному b найти t_b из уравнения (1.19). Приведём несколько значений t_b, необходимых в дальнейшем [3, 5]:

t_0,9= 1,645; t_0,95 = 1,96; t_0,99 = 2,58; t_0,999 = 3,3.

При выводе выражения (1.21) предполагалось, что известно точное значение среднеквадратического отклонения s_х. Однако оно известно далеко не всегда. Воспользуемся поэтому его оценкой (1.15) и получим:

I_b = ( – t_b ; + t_b ). (1.22)

Соответственно, оценки и , полученные по группированной выборке, дают следующую формулу для доверительного интервала:

I_b = ( – t_b ; + t_b ). (1.23)

Отметим, что формула (1.22) имеет две погрешности. Первая связана с тем, что распределение величины t лишь приближённо равно j(t), но с ростом объёма выборки n точность приближения улучшается. Вторая погрешность обусловлена использованием вместо неизвестного точного значения s_х. При большом объёме выборки и эта погрешность несущественна. Формула (1.23) использует группированную, то есть огрубленную выборку, поэтому и даёт результат, остающийся огрублённым и при бесконечном росте объёма выборки.

Следует отметить также, что можно построить сколько угодно доверительных интервалов для заданного b. Действительно, пусть t’_b и t”_b удовлетворяет условию b = Ф₀(t”_b) - Ф₀(t’_b), тогда интервал

I_b = ( + t’_b ; + t”_b),

также с вероятностью b содержит m_x (рис.1.7.). Например, можно взять t’_0,9 = - 4 и t”_0,9= 1,282. Но в этом случае длина полученного интервала увеличится примерно в 1,6 раза. Формула (1.21) используется потому, что она даёт кратчайший доверительный интервал.

Аналогичным образом могут быть найдены интервальные оценки других параметров, например, дисперсии [1, 5].