Характеристикой зависимости между случайными величинами x и h служит математическое ожидание произведения отклонений x и h от их центров распределений (математических ожиданий случайнйх величин), которое называется коэффициентом ковариации или просто ковариацией.
cov(x; h) = M ((x– M x)(h– M h)).
Пусть x = { x 1, x 2, x 3,¼, xn }, h = { y 1, y 2, y 3,¼, yn }. Тогда
cov(x;h)= (4)
Эту формулу можно интерпретировать так. Если при больших значениях x более вероятны большие значения h, а при малых значениях x более вероятны малые значения h, то в правой части формулы (4) положительные слагаемые доминируют, и ковариация принимает положительные значения.
Если же более вероятны произведения (xi – M x)(yj – M h), состоящие из сомножителей разного знака, то есть исходы случайного эксперимента, приводящие к большим значениям x в основном приводят к малым значениям h и наоборот, то ковариация принимает большие по модулю отрицательные значения.
В первом случае принято говорить о прямой связи: с ростом x случайная величина h имеет тенденцию к возрастанию.
Во втором случае говорят об обратной связи: с ростом x случайная величина h имеет тенденцию к уменьшению или падению.
Ковариацию удобно представлять в виде:
cov(x; h)= M (xh)– M x M h.
Ковариация двух случайных величин равна математическому ожиданию их произведения минус произведение математических ожиданий.
Для независимых случайных величин x и h cov(x;h)=0.
Этому свойству можно придать более практическую формулировку: еслиcov(x;h)¹0, то случайные величины x и h зависимы.
Итак, ненулевая ковариация свидетельствует о зависимости случайных величин.
Обратное утверждение не верно. Можно привести примеры как независимых, так и зависимых случайных величин, ковариация между которыми равна нулю.
Величина cov(x;h) зависит от единиц измерения, в которых выражаются x и h. Поэтому cov(x;h) неудобно принимать за показатель связи. Чтобы иметь дело с безразмерным показателем, ковариацию делят на произведение среднеквадратических отклонений (СКО) x и h:
Полученное число rxh называется коэффициентом корреляции случайных величин x и h.
Для независимых x и h rxh=0 (так как в этом случае cov(x;h)=0).
Обратного заключения сделать нельзя. Случайные величины могут быть связаны даже функциональной зависимостью, но коэффициент их корреляции будет равен нулю.
Свойства коэффициента корреляции:
1) –1£rxh£1;
2) Если rxh=1, то h= k x+ b, где k и b – константы, k >0.
3) Если rxh=–1, то h= k x+ b,где k <0.
4) Если h= k x+ b, (k¹ 0) или x= k 1h+ b 1, то rxh=1 при k >0 или rxh=–1 при k <0.
Коэффициент корреляции rxh достигает своих предельных значений –1 и 1 в том и только в том случае, если совместное распределение x и h все концентрируется на некоторой прямой в плоскости x; h. Если êrxhê<1, то линейной зависимости между x и h нет. Все же по мере приближения êrxhê к единице величину êrxhê можно считать мерой близости к полной линейной зависимости между x и h.
Как правило, говоря о корреляционной зависимости, имеют в виду линейную корреляционную зависимость. Если имеется в виду нелинейная корреляционная зависимость, то это особо оговаривают
Можно говорить о совместном распределении двух непрерывных случайных величин.
В большинстве случаев возможен переход от непрерывных случайных величин к совместному распределению двух дискретных случайных величин следующим образом.
Нужно разбить отрезок [ a; b ] изменения случайной величины x на равные отрезки [ c 0= a; c 1]; [ c 1; c 2]; [ c 2; c 3], ¼, [ cn –1; cn = b ]. За значение случайной величины x принять середину каждого отрезка.
Так же надо поступить со случайной величиной h, разбив ее область значений [ e; f ] на равные отрезки [ g 0= e; g 1]; [ g 1; g 2], …, [ gk –1; gk = f ], и приняв за возможные значения h середины отрезков [ gk –1; gk ].
Таким образом мы получили дискретные случайные величины x*={ x 1; x 2; … xn } и h*={ y 1; y 2; … yk }, причем каждой паре (xi; yj) ставится в соответствие вероятность
Pij = P ((xÎ[ ci– 1; ci ])∩(hÎ[ gj– 1; gj ])).