Элементы теории вероятностей и математической статистики.

Случайной называется величина, которая в результате опытов может принимать различные заранее неизвестные значения. Конкретное значение х_i, появляющееся в результате опыта, называется реализацией случайной величины.

Пусть i = 1,2,..., N номера опытов, N их число, а xi – реализации, полученные при повторении опытов. Пусть х ₀– истинное значение случайной величины, нам неизвестное.

Обозначим Δ x _i= x ₀- x _i абсолютную ошибку i -го измерения, тогда x _i= x ₀- Δ x _i. Просуммировав эти равенства по всем i, получим:

или

(3)

где среднее арифметическое всех реализаций. Можно показать, что второе слагаемое в этом выражении стремиться к 0, если N стремиться к бесконечности. Таким образом, среднее арифметическое всех реализаций стремиться к истинному значению случайной величины при стремлении к бесконечности числа измерений. Отсюда можно сделать вывод, что увеличение числа измерений приводит к увеличению точности*.

Возможность тех или иных реализаций характеризуют вероятностью их появления. При этом вероятность достоверного события принято считать равной 1, а невозможного – равной 0.

В том случае, когда величины xi могут принимать непрерывный ряд значений, следует говорить не о вероятности конкретного значения x_i, а о вероятности попадания результата измерений в некоторый интервал Δ xi. Разобьем всю область значений x на одинаковыеинтервалы шириной Δ x каждый.

Найдем число реализаций Δ N_i, попадающих в каждый i -ый интервал и относительную частоту их появления Δ N_i / N Представим результаты графически. По оси абсцисс отложим значение величины x, а относительную частоту Δ N_i / N представим высотой полоски, построенной на интервале Δ xi как на основании.

Рис.1

Полученный график носит название гистограммы и характеризует распределение данной серии наблюдений. При большом числе измерений на гистограмме проявятся основные статистические закономерности:

1. полученные значения измеряемой величины симметрично распределяются относительно некоторого среднего значения ;

2. большие отклонения от среднего будут встречаться реже, чем малые.

Если увеличивать число измерений и одновременно сужать ширину интервалов Δ x, то в пределе при Δ x → 0 и N → ∞ ломаная линия, ограничивающая гистограмму сверху, будет стремиться к плавной колоколообразной кривой (рис.2).

Рис.2

Такая кривая характеризует распределение результатов измерений при бесконечно большом числе наблюдений. Если при построении такой гистограммы по оси ординат откладывать относительную частоту появления реализации, отнесенную к единичному интервалу: Δ N_i /(N ·Δ x), то получающаяся в пределе кривая будет характеризовать распределение плотности вероятности получения результата х _изм= х. Ордината этой кривой – плотность вероятности

(4)

Величина d P (x)= f (x)d x – вероятность того, что результат наблюдения х _изм окажется в пределах от результата х до результата х +d x (рис. 2). Площадь под всей кривой f (x) имеет смысл появления хоть какого-нибудь результата наблюдений, то есть вероятности достоверного события, поэтому она равна единице. Это условие нормировки для непрерывной случайной величины.

(5)

Вероятность того, что измеренное значение будет лежать в интервале [ x ₁, x ₂] определится выражением:

(6)

то есть, равна площади, ограниченной кривой f(x) в этом интервале.

Кривая распределения результатов характеризует гипотетическую совокупность бесконечного числа наблюдений данной величины. Максимум кривой соответствует наиболее вероятному значению х= . Форма кривой зависит от точности измерений. Если точность высокая – большие отклонения встречаются редко, – то кривая имеет вид острого пика. Большая ширина колокола означает наличие больших случайных отклонений, то есть меньшей точности.

Законы теории вероятностей построены как асимптотические при D х ®0 и N ®¥. Математическая статистика приближенно использует эти законы при конечных D х и N.

Теория вероятностей утверждает, что случайные величины на практике наиболее часто подчиняются, так называемому, закону нормального распределения или закону распределения Гаусса. Плотность распределения определяется выражением:

f (x) =

exp[

]

(7)

Как видно из формулы (7) нормальная плотность распределения полностью определяется двумя параметрами - теоретическим средним , и величиной s 2, которую называют генеральной дисперсией распределения. Значение задает положение максимума*, s 2 - его ширину. Величина дисперсии характеризует разброс результатов измерений (точность), чем меньше разброс, тем меньше будет s 2, на графике это отразится как более узкий и высокий максимум.

Параметр s называется теоретическим средне квадратичным отклонением реализаций (или стандартным отклонением). Нетрудно убедиться, что в точках x = ± σ график функции f (x) имеет точки перегиба.

Такая же кривая описывает и распределение ошибок. Достаточно перенести начало координат в точку х= и тогда по оси абсцисс вместо х будут отложены значения ошибок D х (отклонений от среднего). График функции f (Δ x) изображен на рисунке 3.

Рис.3. Кривые нормального распределения Гаусса для трех значений параметра s.

Функция плотности распределения вероятности позволяет рассчитать теоретическое среднее значение реализаций измеряемой величины, его называют математическим ожиданием х ₀случайной величины:

(8)

Величина генеральной дисперсии также может быть вычислена с помощью этой функции:

(9)

Вероятность Р того, что значение случайной величины х, получаемой при одном измерении, окажется внутри заданного интервала (х ₁< x < x ₂) определится выражением:

(10)

Это выражение называют интегралом вероятности. Данное соотношение позволяет решить две задачи – можно задать необходимый интервал и найти соответствующую вероятность; а можно, наоборот, задав требуемую вероятность, найти интервал, в который попадает искомое значение х. На практике чаще пользуются второй возможностью.

Эту вероятность называют доверительной вероятностью, а границы интервала - доверительными границами.

Воспользовавшись интегралом (10) можно определить, что вероятности попасть при одном измерении в интервал:

x ₀ - σ< x < x ₀+σ	равна	0,683 (68,3%)
x ₀ - 2σ< x < x ₀+2σ	-	0,950 (95%)
x ₀ - 3σ< x < x ₀+3σ	-	0,997 (99,7%)

Видно, что вероятность того, что результат измерения отличается от среднего больше чем на 3σ, очень мала (0,3%), именно на основании этого факта такие результаты принято считать промахом – «правило трех сигм».

Иногда интеграл вероятности представляют в другом виде. Вводится новая переменная e, которая определяется соотношением:

e=(х - х ₀)/ σ, тогда d e= dх / σ и интеграл вероятности (10) принимает вид:

(11)

Доверительные границы тогда будут определяться как Δ х =± e × σ. Величина eзадается требуемой вероятностью.

Из сказанного ранее следует, что с вероятностью 68,3% отдельная реализация будет отличаться от х ₀ (от математического ожидания) не больше, чем на σ; с вероятностью 95% - не больше чем на 2σ, соответственно и т. д.

Распределение Стьюдента.

На практике мы никогда не имеем дело с бесконечным числом измерений и не можем, следовательно, определить точно ни значение σ, ни значение х ₀.

В качестве оценки значения математического ожидания для выборки из n реализаций принято рассматривать их среднее арифметическое значение:

В качестве оценки дисперсии вводится величина выборочной дисперсии и величина выборочного среднеквадратичного отклонения , определяемые:

(12)

Можно показать, что при стремлении n к бесконечности → σ².

Очевидно, что среднее арифметическое значение всех реализаций отличается от х ₀меньше чем отдельное значение. Другими словами дисперсия () и среднеквадратичное отклонение () среднего арифметического меньше чем дисперсия и среднеквадратичное отклонение отдельного измерения. В теории вероятности доказываются следующие соотношения:

и = σ² / n	(13)
и	(14)

Если мы имеем дело с конечным (и обычно не очень большим) числом измерений, то распределение уже не является Гауссовым. Качественно характер распределения подобен нормальному, но описывается другой функцией плотности распределения вероятности и носит название - распределение Стьюдента (псевдоним английского математика В. Госсета).

Распределение Стьюдента, в отличие от Гауссова, не определяется однозначно дисперсией и средним значением реализаций, а зависит еще от числа измерений n. В распределение Стьюдента входит параметр t, называемый коэффициентом Стьюдента, он зависит от двух величин – от числа измерений и от доверительной вероятности, поэтому указывается с двумя индексами: t_p_,_n. Таблица наиболее часто используемых коэффициентов Стьюдента приведена в приложении (§1). Коэффициент Стьюдента связывает среднеквадратичную ошибку среднего арифметического с величиной доверительного интервала.

(15)

Чем больше требуемая вероятность, тем больше коэффициент Стьюдента и, следовательно, больше доверительный интервал. С увеличением числа измерений значение коэффициента Стьюдента убывает.

Окончательный результат представляют в виде:

(16)

Как следует из сказанного, увеличение числа измерений необходимо для увеличения точности результатов. С ростом n среднее арифметическое ближе к истинному значению х ₀и доверительный интервал Δ х при заданной вероятности Р будет меньше.

Однако не следует забывать о существовании помимо случайных погрешностей еще и неисключенных систематических. Большое число измерений уменьшает только случайную ошибку, но, учитывая наличие систематической погрешности, проводить слишком большое число измерений нерационально.