Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Статистические исследования в R




КАЗАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Факультет географии и экологии

Использование языка R для статистической обработки данных

 

 

Учебно-методическое пособие

 

КАЗАНЬ - 2007

 

 

Составители:

доктор биологических наук, доцент А.А.Савельев,

старший преподаватель С.С.Мухарамова,

старший преподаватель А.Г.Пилюгин

 

Учебно-методическое пособие предназначено для студентов естественных факультетов, изучающих курс «Теория вераятности и математическая статистика». Даются основные понятия языка R, разбираются примеры использования операторов, методы анализа и обработки предназначенной для выполнения практических заданий по курсам «ГеостАТИСТИКА» и «Теория вераятности и математическая статистика». Печатается по решению учебно-методической комиссии факультета географии и экологии.

 


 

 

Введение 4

1. Статистические исследования в R 5

2. Статистические оценки 7

2.1. Выборочное среднее 7

2.2. Выборочная дисперсия и СКО 7

2.3. Медиана и мода 8

3. Проверка статистических гипотез 9

3.1. Критерий Х2 Пирсона (Проверка гипотезы о нормальном распределении генеральной совокупности). 10

3.2. Критерий Фишера (Сравнение дисперсий двух нормальных генеральных совокупностей). 13

3.3. Критерий Стьюдента (Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых неизвестны и одинаковы). 14

3.4. Критерии Бартлетта и Кохрана (Сравнение нескольких дисперсий нормальных генеральных совокупностей по выборкам). 17

4. Дисперсионный анализ 19

5. Корреляционный анализ 22

5.1. Коэффициент корреляции и проверка гипотезы о его значимости. 22

5.2. Показатель ранговой корреляции 23

6. Линейная регрессия 25

Список литературы. 28

 


Введение

Цель этого пособия состоит в том, чтобы описать способы построения основных статистических моделей и использование стандартных статистических тестов для проведения статистичесого анализа с помощью системыR.

R – статистическая система анализа, созданная Россом Ихакой и Робертом Гентлеманом (1996, J.Comput. Граф. Stat., 5: 299-314).R является и языком и программным обеспечением; его наиболее замечательный особенности:

• эффективная обработка данных и простые средства для сохранения результатов,

• набор операторов для обработки массивов, матриц, и других сложных конструкций,

• большая, последовательная, интегрированная коллекция инструментальных средств для проведения статистического анализа,

• многочисленные графические средства,

• простой и эффективный язык программирования, который включает много возможностей.

Язык R - рассматривают как диалект языка S созданный AT&T БэллЛаборатории. S доступен как программное обеспечение S-PLUS коммерческой системы MathSoft (см.http://www.splus.mathsoft.com для получения дополнительной информации). Есть существенные различия в концепции R и S (те, кто хочет знатьбольше об этом может читать статью, написанную Gentleman и Ihaka (1996) или R-FAQ (часто задаваемые вопросы) (http://cran.r-project.org/doc/FAQ/R-FAQ.html).

R доступен в нескольких формах: исходный текст программ, написанный на C (и некоторые подпрограммы в Fortran77) и в откомпилированном виде.

R – язык со многими функциями для выполнения статистического анализа и графического отображения результатов, которые визуализируется сразу же в собственном окне и могут быть сохранены в различных форматах (например, jpg, png, bmp, eps, или wmf под Windows, ps, bmp, pictex под Unix).

Результаты статистического анализа могут быть отображены на экране. Некоторые промежуточные результаты (P- values, коэффициент регрессии и т.п.) могут быть сохранены в файле и использоваться для последующего анализа.

R – язык, позволяющий пользователю использовать операторы циклов, чтобы последовательно анализировать несколько наборов данных. Также возможно объединить в отдельную программу различные статистические функции, для проведения более сложного анализа.

 


 

Статистические исследования в R

Широкий диапазон функций доступен в base пакете. Существует также большое количество других пакетов, которые увеличивают потенциальные возможности R. Они располагаются отдельнои должны быть загружены в память. Исчерпывающий список таких пакетов, вместе с их описаниями, можно найти в Интернете по адресу:

URL: http://cran.rproject.org/src/contrib/PACKAGES.html.

В пакете base пакете есть основные статистические модели:

lm линейные модели;

glm обобщенные линейные модели;

aov, anova дисперсионный анализ;

В пакете stats пакете есть дополнительные статистические модели, в первую очередь glm – обобщенная линейная модель, позволяющая, например, моделировать логистические или логарифмические зависимости. Пакеты nlme, mgcv позволяют строить нелинейные модели.

Например, пусть даны два вектора x и y с пятью наблюдениями каждый, и необходимо найти модель линейной регрессии y на x:

> x <-1:5

> y <-rnorm (5)

> lm (y~x)

Call:

lm (formula = y ~ x)

Coefficients(Коэффициенты:):

Intercept x

0.2252 0.1809

Результат подгонки линейной модели lm (y~x) может быть скопирован в объект:

> mymodel<-lm (y~x)

Некоторые функции R позволяют пользователю отобразить полученной модели, среди которых summary()– выводит определенный набор статистических параметров (статистические тесты...), residuals()– отображает остатки регрессии, predict()–- прогнозные значения, и coef()– отображает вектор с оценками параметра.

> summary(mymodel)

lm(formula = y ~ x)

Residuals:

1 2 3 4 5

1.0070 -1.0711 -0.2299 -0.3550 0.6490

Coefficients (Коэффициенты:):

Estimate Std. Error t value Pr(>|t|)(Оценка Станд. отклон t value P value (> |t |))

(Intercept) 0.2252 1.0062 0.224 0.837

x 0.1809 0.3034 0.596 0.593

Residual standard error(СКО): 0.9594 on 3 degrees of freedom

Multiple R-Squared (Коэффициент детерминации R2): 0.1059, Adjusted R-squared (Скорректированный R2): -0.1921

F-statistic: 0.3555 on 1 and 3 degrees of freedom(на 1 и 3 степени свободы), p-value: 0.593

> residuals (mymodel)

1 2 3 4 5

1.0070047 -1.0710587 -0.2299374 -0.3549681 0.6489594

> predict(mymodel)

1 2 3 4 5

0.4061329 0.5870257 0.7679186 0.9488115 1.1297044

 

> coef(mymodel)

(Intercept) x

0.2252400 0.1808929

Эти значения можно использовать в последующих вычислениях, например:

> a <-coef (mymodel) [1]

> b <-coef (mymodel) [2]

> newdata <-c (11, 13, 18)

> a+ b*newdata

[1] 2.215062 2.576847 3.481312

Чтобы отобразить элементы результата анализа, можно использовать функцию names (); фактически, эта функция может использоваться с любым объектом в R.

> names (mymodel)

[1] "coef" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model"

> names(summary (mymodel))

[1] "call" "terms" "residuals" "coef"

[5] "sigma" "df" "r.squared" "adj.r.squared"

[9] "fstatistic" "cov.unscaled"

Сами элементы могут быть извлечены следующим способом:

> summary(mymodel) ["r.squared"]

$r.squared

[1] 0.09504547

Формулы – ключевые элементы в статистических анализах в R. Использование их одинаково для всех функций. Формула имеет форму y ~ модель, где y ‑ проанализированный ответ и модель – набор условий, для которых некоторые параметры должны быть оценены.

Эти условия отделены арифметическими символами, но они имеют здесь особенное значение.

a+b ‑ совокупный эффект а и b

a:b ‑ интерактивный эффект между а и b

a*b ‑ идентично a+b+a:b

poly(a,n) ‑ полином от а степени n

^n ‑ включает все взаимодействия до уровня n, то есть (a+b+c) ^2 идентичен a+b+c+a:b+a:c+b:c

b%in%a‑ эффекты b вложены в а (идентичный a+a:b)

a-b ‑ удаляет эффект b, например: (a+b+c) ^n-a:b идентичен a+b+c+a:c+b:c, y~x-1 выполняет регресс через начало координат (идентификатор. Для y~x+0, или 0+y~x)

Отсюда видно, что арифметические операторы в R имеют в формуле различные значения. Например, формула y~x1+x2 определяет модельy = b1x1 +b2x2 + a. Длявключения арифметических операций в формулу, можно использовать функцию i(): формула y~I(x1+x2) определяет модельy = b (x1 + x2) + a.

 

Статистические оценки

Выборочное среднее

 

Описание

Выборочной средней xcp называют среднее арифметическое значение признака выборочной совокупности. Если все значения х1, х2, …,хn признака выборки объема n различны, то

Описание функции

mean(x,...)

Параметры

x Вектор, матрица или data.frame.

Пример

> x<-c(3.6,7.8,9.6,5.7,8.9)

> mean(x)

7.12 (значение среднего)





Поделиться с друзьями:


Дата добавления: 2017-02-28; Мы поможем в написании ваших работ!; просмотров: 756 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Победа - это еще не все, все - это постоянное желание побеждать. © Винс Ломбарди
==> читать все изречения...

2784 - | 2606 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.008 с.