Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Показатель ранговой корреляции




В качестве критериев оценки назависимости могут применяться и другие коэффициенты корреляции, например показатель ранговой корреляции Спирмена, позволяющий оценить нелинейную, но монотонную зависимость: в этом случае вычисляется кореляция не самих значений, а их рангов (порядковых номеров при упорядочении). Другим ранговым критерием является -критерий Кендалла.

Проверка по нескольким критериям может быть использована для приблизительной оценки оценки вида зависимости: если ранговая корреляция большая (статистически значимая), а линейная – маленькая (статистически не значимая), то зависимость нелинейная; если обе корреляции большие, то зависимость линейная; если обе корреляции маленькие, что либо зависимости нет, либо она немонотонная.

Если основная гипотеза гласит, что коэфициент корреляции равен не нулю, а некоторому отличному от нуля числу, то в качестве критериальной статистики используется z -преобразование Фишера:

Эта величина распределена примерно нормально для всех значений коэффициента корреляции генеральных совокупностей, ее матожидание равно , а дисперсия , где - объем выборки. Поэтому границы доверительного интервала для находят с использованием квантилей нормального распределения; получить границы для можно обратным преобразованием.

Описание функции

cor.test(x, y,alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"), conf.level = 0.95,...)

Параметры

x, y Числовые вектора х и у одинаковой длины.
alternative Выбирает альтернативную гипотезу одну из "two.sided" (по умолчанию)-двустороняя критическая область, "greater" -правостороняя критическая область или "less"-левостороняя критическая область.
method Выбирает какой коэфициент корреляции используется в тесте. Один из"pearson", "kendall", или "spearman".
conf.level Доверительная вероятность

 

Примечание

Для проверки нулевой гипотезы H0 о равенстве показателя корреляции нулю необходимо в alternative выбрать "two.sided".

Критическое значение находят по таблице критических точек распределения Стьюдента с числом степей свободы (в R используется функция вычисления квантилей распределения Стьюдента qt(p,df)).

Пример

> x<-c(3.6,7.8,9.6,5.7,8.9)

> y<-c(2.7,8.9,6.5,8.8,6.4)

> cor.test(x,y,alternative = c("two.sided"), method = c("pearson"))

Pearson's product-moment correlation

 

t = 0.9142, df = 3, p-value = 0.428

95 percent confidence interval: -0.7063858 0.9555364

sample estimates: cor = 0.4667999

> cor.test(x,y,alternative= c("two.sided"), method=c("spearman"))

Spearman's rank correlation rho

 

S = 16, p-value = 0.7833

sample estimates: rho = 0.2

Значение

Для обычной линейной корреляции (Пирсона) мы получили выборочное значений 0.4668, значение t - статистики 0.9142 при 3 степенях свободы, и p -value равное 0.428. Это означает, что отвергнуть нулевую гипотезу можно только при допущении ошибки в 42.8%. 95% доверительный интервал равен (-0.7063858, 0.9555364) и поскольку он содержит ноль, то нулевая гипотеза принимается на 5% уровне значимости.

Для ранговой корреляции Спирмена выборочное значений коэффициента корреляции еще меньше (0.2), а p -value еще больше (0.7833). Поэтому и по ранговому критерию мы отвергаем наличие связи между X и Y.

Линейная регрессия

Описание

Линейная зависимость между переменными описывается уравнением общего вида где - зависимая переменная, - неизвестные константы, - известные (независимые) переменные, и - нормально распределенная случайная величина с нулевым матожиданием и дисперсией . Задачей построения линейной среднеквадратической модели регрессионной зависимости переменной от независимых переменных является получение оценки параметров и оценка адекватности построенной модели вида

где - оценки параметров .

Рассмотрим простейший случай одной независимой переменной:

В этом уравнении модели линейной регрессии - свободный член, а параметр определяет наклон линии регрессии по отношению к осями координат. Параметры и определяются методом наименьших квадратов, который приводит к формуле:

,

где

- выборочные средние арифметические;

- выборочные средние квадратичые отклонения;

- выборочный коэффициент корреляции.

Для построения линейной модели регрессии используется функция lm(formula=f), которая в простейшем случае содержит только формулу от переменных (векторов, содержащих элементы парной выборки); запись y~x означает, что строится модель зависимости y от x.

> x<-c(3.6,7.8,9.6,5.7,8.9)

> y<-c(2.7,8.9,6.5,8.8,6.4)

> p.lm<-lm(formula=x~y)

> summary(p.lm)

 

Residuals:

1 2 3 4 5

-1.7151 -0.3409 2.5529 -2.3954 1.8985

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.0845 3.5050 1.165 0.328

y 0.4558 0.4985 0.914 0.428

 

Residual standard error: 2.511 on 3 degrees of freedom

Multiple R-Squared: 0.2179, Adjusted R-squared: -0.0428

F-statistic: 0.8358 on 1 and 3 DF, p-value: 0.428

Команда summary() выдает полную информацию о построенной модели:

значения остатков (residuals - разность модельных и истинных значений переменной y). Если объем выборки большой, то печатается оценка распределения остатков (квартили).

коэфициенты модели и оценку их значимости по критерию Стьюдента (в нашем случае все коэфициенты не значимы, поскольку все вероятности (0.328 и 0.428) больше 0.05 - т.е. нельзя считать, что существует линейная зависимость между x и y).

Оценку значимости зависимости по критерию Фишера и квадрат коэфициента корреляции (R-squared), который показывает долю дисперсии y, объясненной с использованием модели (исправленное значение для R2 равно 0, статистика Фишера F =0.8358, уровень значимости критерия Фишера 42.8%, т.е. зависимость отсуствует).

Для визуализации построенной модели можно использовать вспомогательные функции:

Описание функций

abline(a, b, untf = FALSE,...)

abline(h=, untf = FALSE,...)

abline(v=, untf = FALSE,...)

Параметры

a,b Параметры в линейном уравнении
untf Если TRUE, то рисует линию в преобразованных координатах
h,v Y и Х значения для горизонтальной и вертикальной линии соответственно

plot(x, y, xlim=range(x),ylim=range(y),type="p", main, xlab, ylab,...)

Параметры

X,Y Координаты точек x и y.
xlim, ylim Значения для осей x и y.
Type Тип графика(“ p” для точек)
Main Название графика
Xlab,ylab Название осей.

Функция abline()строит прямую по найденным a и b.

Функция plot() строит экспериментальные точки.

Пример

plot(x,y)

abline(lm(x~y))

 

 

Список литературы.

1. Гмурман В.Е. Теория вероятностей и математическая статистика/ В.Е.Гмурман.М.:Высшая школа, 2000.-479с.

2. Лакин Г.Ф. Биометрия/ Г.Ф. Лакин. М: Высшая школа, 1990.-352с.

3. Теория вероятностей и математическая статистика/ Под редакцией В.А. Колемаева. М: Высшая школа, 1991.-400с.

4. Гайдышев И. Анализ и обработка данных: специальный справочник -СПб: Питер, 2001.-752с.

5. Бейли Н. Статистические методы в биологии/Н.Бейли.М.:Мир,1963.-272с.

6. Гланц С. Медико-биологическая статистика/ С. Гланц. М: Практика, 1999.-449с.

7. А.А.Савельев, С.С.Мухарамова, А.Г.Пилюгин, Е.А.Алексеева Основные понятия языка R / А.А.Савельев, С.С.Мухарамова, А.Г.Пилюгин, Е.А.Алексеева К ффф 2007.-28с





Поделиться с друзьями:


Дата добавления: 2017-02-28; Мы поможем в написании ваших работ!; просмотров: 805 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Начинать всегда стоит с того, что сеет сомнения. © Борис Стругацкий
==> читать все изречения...

2298 - | 2047 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.012 с.