Случайной называется величина, которая в результате опытов может принимать различные заранее неизвестные значения. Конкретное значение хi, появляющееся в результате опыта, называется реализацией случайной величины.
Пусть i = 1,2,..., N номера опытов, N их число, а xi – реализации, полученные при повторении опытов. Пусть х 0 – истинное значение случайной величины, нам неизвестное.
Обозначим Δ x i= x 0 - x i абсолютную ошибку i -го измерения, тогда x i= x 0 - Δ x i. Просуммировав эти равенства по всем i, получим:
или
, | (3) |
где среднее арифметическое всех реализаций. Можно показать, что второе слагаемое в этом выражении стремиться к 0, если N стремиться к бесконечности. Таким образом, среднее арифметическое всех реализаций стремиться к истинному значению случайной величины при стремлении к бесконечности числа измерений. Отсюда можно сделать вывод, что увеличение числа измерений приводит к увеличению точности*.
Возможность тех или иных реализаций характеризуют вероятностью их появления. При этом вероятность достоверного события принято считать равной 1, а невозможного – равной 0.
В том случае, когда величины xi могут принимать непрерывный ряд значений, следует говорить не о вероятности конкретного значения xi, а о вероятности попадания результата измерений в некоторый интервал Δ xi. Разобьем всю область значений x на одинаковыеинтервалы шириной Δ x каждый.
Найдем число реализаций Δ Ni, попадающих в каждый i -ый интервал и относительную частоту их появления Δ Ni / N Представим результаты графически. По оси абсцисс отложим значение величины x, а относительную частоту Δ Ni / N представим высотой полоски, построенной на интервале Δ xi как на основании. | Рис.1 |
Полученный график носит название гистограммы и характеризует распределение данной серии наблюдений. При большом числе измерений на гистограмме проявятся основные статистические закономерности:
1. полученные значения измеряемой величины симметрично распределяются относительно некоторого среднего значения ;
2. большие отклонения от среднего будут встречаться реже, чем малые.
| Если увеличивать число измерений и одновременно сужать ширину интервалов Δ x, то в пределе при Δ x → 0 и N → ∞ ломаная линия, ограничивающая гистограмму сверху, будет стремиться к плавной колоколообразной кривой (рис.2). | |||
Рис.2 |
Такая кривая характеризует распределение результатов измерений при бесконечно большом числе наблюдений. Если при построении такой гистограммы по оси ординат откладывать относительную частоту появления реализации, отнесенную к единичному интервалу: Δ Ni /(N ·Δ x), то получающаяся в пределе кривая будет характеризовать распределение плотности вероятности получения результата х изм= х. Ордината этой кривой – плотность вероятности
(4) |
Величина d P (x)= f (x)d x – вероятность того, что результат наблюдения х изм окажется в пределах от результата х до результата х +d x (рис. 2). Площадь под всей кривой f (x) имеет смысл появления хоть какого-нибудь результата наблюдений, то есть вероятности достоверного события, поэтому она равна единице. Это условие нормировки для непрерывной случайной величины.
(5) |
Вероятность того, что измеренное значение будет лежать в интервале [ x 1, x 2] определится выражением:
(6) |
то есть, равна площади, ограниченной кривой f(x) в этом интервале.
Кривая распределения результатов характеризует гипотетическую совокупность бесконечного числа наблюдений данной величины. Максимум кривой соответствует наиболее вероятному значению х= . Форма кривой зависит от точности измерений. Если точность высокая – большие отклонения встречаются редко, – то кривая имеет вид острого пика. Большая ширина колокола означает наличие больших случайных отклонений, то есть меньшей точности.
Законы теории вероятностей построены как асимптотические при D х ®0 и N ®¥. Математическая статистика приближенно использует эти законы при конечных D х и N.
Теория вероятностей утверждает, что случайные величины на практике наиболее часто подчиняются, так называемому, закону нормального распределения или закону распределения Гаусса. Плотность распределения определяется выражением:
f (x) = exp[ ] | (7) |
Как видно из формулы (7) нормальная плотность распределения полностью определяется двумя параметрами - теоретическим средним , и величиной s 2, которую называют генеральной дисперсией распределения. Значение задает положение максимума*, s 2 - его ширину. Величина дисперсии характеризует разброс результатов измерений (точность), чем меньше разброс, тем меньше будет s 2, на графике это отразится как более узкий и высокий максимум.
Параметр s называется теоретическим средне квадратичным отклонением реализаций (или стандартным отклонением). Нетрудно убедиться, что в точках x = ± σ график функции f (x) имеет точки перегиба.
Такая же кривая описывает и распределение ошибок. Достаточно перенести начало координат в точку х= и тогда по оси абсцисс вместо х будут отложены значения ошибок D х (отклонений от среднего). График функции f (Δ x) изображен на рисунке 3.
Рис.3. Кривые нормального распределения Гаусса для трех значений параметра s.
Функция плотности распределения вероятности позволяет рассчитать теоретическое среднее значение реализаций измеряемой величины, его называют математическим ожиданием х 0 случайной величины:
(8) |
Величина генеральной дисперсии также может быть вычислена с помощью этой функции:
(9) |
Вероятность Р того, что значение случайной величины х, получаемой при одном измерении, окажется внутри заданного интервала (х 1 < x < x 2) определится выражением:
, | (10) |
Это выражение называют интегралом вероятности. Данное соотношение позволяет решить две задачи – можно задать необходимый интервал и найти соответствующую вероятность; а можно, наоборот, задав требуемую вероятность, найти интервал, в который попадает искомое значение х. На практике чаще пользуются второй возможностью.
Эту вероятность называют доверительной вероятностью, а границы интервала - доверительными границами.
Воспользовавшись интегралом (10) можно определить, что вероятности попасть при одном измерении в интервал:
x 0 - σ< x < x 0+σ | равна | 0,683 (68,3%) |
x 0 - 2σ< x < x 0+2σ | - | 0,950 (95%) |
x 0 - 3σ< x < x 0+3σ | - | 0,997 (99,7%) |
Видно, что вероятность того, что результат измерения отличается от среднего больше чем на 3σ, очень мала (0,3%), именно на основании этого факта такие результаты принято считать промахом – «правило трех сигм».
Иногда интеграл вероятности представляют в другом виде. Вводится новая переменная e, которая определяется соотношением:
e=(х - х 0)/ σ, тогда d e= dх / σ и интеграл вероятности (10) принимает вид:
(11) |
Доверительные границы тогда будут определяться как Δ х =± e × σ. Величина eзадается требуемой вероятностью.
Из сказанного ранее следует, что с вероятностью 68,3% отдельная реализация будет отличаться от х 0 (от математического ожидания) не больше, чем на σ; с вероятностью 95% - не больше чем на 2σ, соответственно и т. д.
Распределение Стьюдента.
На практике мы никогда не имеем дело с бесконечным числом измерений и не можем, следовательно, определить точно ни значение σ, ни значение х 0.
В качестве оценки значения математического ожидания для выборки из n реализаций принято рассматривать их среднее арифметическое значение:
В качестве оценки дисперсии вводится величина выборочной дисперсии и величина выборочного среднеквадратичного отклонения , определяемые:
и | (12) |
Можно показать, что при стремлении n к бесконечности → σ2.
Очевидно, что среднее арифметическое значение всех реализаций отличается от х 0 меньше чем отдельное значение. Другими словами дисперсия () и среднеквадратичное отклонение () среднего арифметического меньше чем дисперсия и среднеквадратичное отклонение отдельного измерения. В теории вероятности доказываются следующие соотношения:
и = σ2 / n | (13) |
и | (14) |
Если мы имеем дело с конечным (и обычно не очень большим) числом измерений, то распределение уже не является Гауссовым. Качественно характер распределения подобен нормальному, но описывается другой функцией плотности распределения вероятности и носит название - распределение Стьюдента (псевдоним английского математика В. Госсета).
Распределение Стьюдента, в отличие от Гауссова, не определяется однозначно дисперсией и средним значением реализаций, а зависит еще от числа измерений n. В распределение Стьюдента входит параметр t, называемый коэффициентом Стьюдента, он зависит от двух величин – от числа измерений и от доверительной вероятности, поэтому указывается с двумя индексами: tp,n. Таблица наиболее часто используемых коэффициентов Стьюдента приведена в приложении (§1). Коэффициент Стьюдента связывает среднеквадратичную ошибку среднего арифметического с величиной доверительного интервала.
(15) |
Чем больше требуемая вероятность, тем больше коэффициент Стьюдента и, следовательно, больше доверительный интервал. С увеличением числа измерений значение коэффициента Стьюдента убывает.
Окончательный результат представляют в виде:
(16) |
Как следует из сказанного, увеличение числа измерений необходимо для увеличения точности результатов. С ростом n среднее арифметическое ближе к истинному значению х 0 и доверительный интервал Δ х при заданной вероятности Р будет меньше.
Однако не следует забывать о существовании помимо случайных погрешностей еще и неисключенных систематических. Большое число измерений уменьшает только случайную ошибку, но, учитывая наличие систематической погрешности, проводить слишком большое число измерений нерационально.