Провести одномерный визуальный и описательный анализы данных

К курсу

«Прикладное программное обеспечение»

на тему:

«Анализ данных в пакете прикладных программ Statistica»

Выполнил:

Волков В.

- Москва – 2012 –

*данные методические указания являются неофициальными указаниями, написанные студентом Волоковым В. в помощь студентам Московского Государственно Института Электроники и Математики (технический университет) при подготовке к сдаче и написании курсовой работы.

Для написания своей собственной уникальной работы вам понадобятся:

1. Пакет Statistica 10 версии на английском языке. Ссылка для скачивания.

2. Готовая курсовая работа (для облегчения понимания сути).

3.Опционально. Программа Jing для более быстрой работы совершения/редактирования скриншотов (а не через paint). Их придётся делать много. Конечно, можно украсть оные из курсовой, добытой в пункте 2, но тогда ваша работа будет не уникальна, а это плохо для тех, кто претендует на 4-5.

Замечу, что скриншотить можно только таблицы. Все графики легко копируются в непосредственно.

4. Ответник к вопроснику (спасибо говорим ей). На него буду ссылаться в некоторых местах.

5. Данные для работы в статистике.

Предисловие

Я писал свою работу исходя из интеллектуальных трудов этого и этой граждан РФ. Все права на использование их работ защищены ©. Вы можете свободно использовать все данные, предоставленные в моей курсовой.

Ответник размещён без согласия его создателя. Тссс.

Итак, перейдём, непосредственно, к основной части работы.

Выполнение работы

План задания:

1. Провести одномерный визуальный и описательный анализы данных

· Вычислить основные описательные статистики для числовых переменных

· Вычислить описательные статистики для этих переменных по группам, построить таблицы частот для категориальных переменных

· Наглядно иллюстрировать полученные результаты (гистограммы, круговые диаграммы, диаграммы размаха, диаграммы рассеивания и т.п.)

2. Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике.

3. Провести всесторонний двумерный анализ данных.

4. Множественная регрессия

5. Многомерный анализ

a. Кластерный анализ

b. Дискриминантный анализ

Итак, начнём по порядку

Провести одномерный визуальный и описательный анализы данных

Установив статистику, дважды кликнем по файлу, скаченному из пункта 5.

Откроется окно вида:

Примечание. При установке статистики даётся выбор варианта меню – лента или привычный, контекстный. Я выбрал ленточный вид и в дальнейшем буду работать с ним. Если вы выбрали контекстный, то чтобы перейти к ленточному режиму меню выполните

Итак, чтобы подсчитать базовые статистики (ищите в википедии определение, вкратце – всякие средние, медианы, максимумы и т.д.) в ленте выбираем

и откроется лента

Выбираем

Откроется окно

Описательные статистики уже выделены (. Нажимаем кнопку , чтобы выбрать размер выборки. Откроется окно

Снимаем галочку в пункте . И отныне, перед каждым новым открытым модулем, например , не забываем об этой галочке, иначе данные будут подсчитываться не полностью. Запомните правило галочки!

Нажимаем , потом . Откроется окно

Переходим во вкладку . Акцентируем внимание на разделе

Выбираем то, что я выбрал в своей курсовой. Можете не выбирать что-нибудь. Главное – показать, что вы умеете считать всё это и, при необходимости, поставить нужную галочку. Что означает каждая галочка смотрите в моей курсовой.

Далее нажимаем , откроется окно

нажимаем кнопку , все переменные выделятся. Зажимаем на клавиатуре клавишу и последовательно нажимаем вначале на «Признак 2», затем на «Признак 6», тем самым с них снимется выделение. Только что мы выбрали переменные, для которых будем считать описательные статистики. Считать их для категориальных переменных смысла нет, поэтому мы их исключили. Что такое категориальные переменные смотрите в ответнике под вопросом 21.

Учтите, что при выборе переменной галочка убирает из списка переменные, значения которых – текст. У нас эта переменная – вид газа. Если вы её выберете, статистика спросит что делать с ней

Нажимайте и она уладит этот вопрос.

Я её не рассматриваю тут, но в своей работе я тоже подсчитывал для неё статистики. Снимите галочку, если боитесь/можете не выбрать эту переменную в дальнейшем!

Нажимаем , а затем . Имеем следующий результат

В правом окне результат подсчёта наших статистик, которые мы отмечали для переменных, которые мы также выбрали. Обратите внимание на левую часть. Workbook – это рабочая книга, в которой сохраняются все ваши результаты. Выглядит это всё дело как папка с подпапками, названия которых соответствуют тем модулям, которые вы выберите и тем опциям, которые вы выберите в модуле. К примеру, один из модулей - это , но в нём куча всяких кнопочек, которые дают разные подсчёты, и они-то и будут подпапками. От таки дела, малята.

Скриншотим, заносим в работу (в дальнейшем СЗР).

Теперь построим гистограммы для наших переменных в отдельности и заодно проверим на нормальность (у меня в курсовой это последний пункт первого раздела).

Что бы делать разные подсчёты в одном и том же модуле не нужно постоянно тыркать, к примеру, . Когда вы один раз подсчитали и вам выдали результат, внизу появится «свёрнутый модуль»

нажимаем его и модуль откроется вновь. Переходим во вкладку .

Здесь надо установить галочки

Это – тесты на нормальность. Как они работают – не важно, главное понять: как узнать, что они нам говорят (в моей курсовой в 8 пункте 1ого раздела это описано).

Тест Шапиро-Уилка сильнее, чем Колмогорова. Так что если Колмогоров скажет что распределение нормально, а Шапиро ему возразит – слушаем Шапиро. Статистика Колмогорова описывается следующим образом:

где – эмпирическая функция распределения, которая строится по данным, - теоретическое нормальное распределение. Это у меня спросили на экзамене в качестве необязательно вопроса.

Итак, выбрав галочки, выбираем теперь ВСЕ (!) переменные (ранее мы убрали 2 и 6) и нажимаем .

Получим гистограмму для каждой переменной.

В правой части – список остальных результатов.

Анализ и всё остальное – у меня смотрите. СЗР.

Теперь построим диаграммы по группам. Т.е. выбирается две (или более) переменных и смотрятся диаграммы.

К примеру, посмотреть гистограммы «Признака 2» по типам газов. Займёмся этим. В нашем модуле

выбираем 1 переменную, которую хотим посмотреть в группе с какой-нибудь другой, т.е. «Признак 2».

Выбираем в первую переменную , жмём . Теперь нажимаем кнопку , откроется окно

в первой колонке которого выбираем вторую переменную, по которой хотим посмотреть наши гистограммы, т.е. «Вид газа». Вторую колонку не трогаем. Жмём , выскочит окно

ничего не трогаем, нажимаем ещё раз и получим следующий результат:

То, что и хотели: как ведёт себя признак 2 (он категориальный, если вы не поленились и посмотрели в ответнике, то понимаете почему, если нет – вопрос 21 вас всё ещё ждёт).

СЗР. Теперь ваша задача, перебрать варианты пар, не обязательно все, главное, чтобы было какое-то исследование. Можете сделать как делал я в своей работе. А можете ввести «инновации» и рассмотреть другие зависимости одного от другого.

Теперь для завершения первого пункта осталось объяснить, как строить диаграммы размаха, круговые диаграммы и таблицы частот.

Начнём с диаграмм размаха.

Чтобы построить диаграмму размаха для одной или нескольких переменных, достаточно в модуле

перейти на вкладку и выбрать пункт

который построит на одном графике диаграммы размаха для всех переменных, выбранных в . Так что если шкала одной переменной огромна, а другой мала, то будет «Давид и Голиаф» и вы ничего толком не увидите на графике.

Если вам нужно построить диаграмму размаха одной переменной по другой, например, на какой в среднем высоте находятся разные виды газов? Тут нужен другой модуль.

На главной ленте выбираем пункт , появятся следующие модули

Выбираем , откроется окно

Снимаем галочку в пункте .

Нажимаем , выбираем пару переменных: одна зависимая, другая нет. К примеру, как я указал выше – по оси откладывать средние высоты, а по оси - виды газов.

Почитайте в википедии, как строятся эти диаграммы размаха. Можете выбрать в качестве центра

либо медиану, либо среднее. Чем они отличаются читайте в ответнике под вопросом 9.

Получим такой результат:

Анализ и остальные группировки признаков посмотрите у меня в курсовой и попробуйте сами сконструировать инновации.

Перейдём к круговым диаграмма и таблицам частот. Строятся они в том же модуле, где мы строили гистограммы:

Вкладка .

В выбираем переменные, для которых хотим построить таблицу частот. Затем нажимаем . Если выбрали несколько, статистика построит для каждой переменной свою таблицу, все результаты смотрите а правой колонке рабочей книги.

Построим для переменных «Признак 2» и«Признак 3».

Правая колонка

рабочей книги

Теперь построим круговые диаграммы. На ленте выбираем , затем

В появившемся окне выбираем

Откроется окно

В выбираем переменную(-ые) для которых хотим построить круговую диаграмму. Переходим в вкладку , в ней сконцентрируем внимание на полях

Выберете подходящую форму (круг или эллипс) и размерность графика.

Ничего не забыли?

ГАЛОЧКУ!

Снимаем галочку в пункте , нажимаем - круговая диаграмма построена.

Итак, у вас есть весь арсенал умений, который необходим для выполнения первой части курсовой. Исследуете то, как я проводил исследования в своей курсовой, придумывайте новые зависимости, экспериментируйте.

По поводу трёхмерной диаграммы, которую я использовал в своей курсовой. Она находится в разделе в ленте .