Провести всесторонний двумерный анализ данных

По-сути – это анализ всевозможных зависимостей (если таковые имеются) между переменными с графиками и таблицами. Всё, что сделано в моей курсовой на данном этапе вы можете сделать, как-то: построить гистограмму, вычислить матрицу корреляций, использовать критерий Стьюдента, построить диаграмму рассеяния, построить диаграммы размаха для переменной или для переменных. Заметьте, во множественном числе (вспомните из первой части пример на странице 13-14).

Единственное, что я сделал принципиально нового – в диаграммах размаха соединял центры, используя полиномиальное приближение. Это находится здесь:

, затем , в окне переходим во вкладку и в поле выбираем полиномиальное приближение

Ход выполнения смотрите в курсовой.

Множественная регрессия

Теоретическое введение, необходимое для понимания сути этого метода, читайте в моей курсовой. Нам нужно построить регрессию для переменной «Коэффициент плотности». Построив матрицу корреляций (см. в курсовой), мы видим, с какими переменными наш «Коэффициент плотности» лучше всего коррелирует. Но категориальные переменные (см. ответник вопрос 21) мы не можем использовать при построении нашей модели. Поэтому я строил по переменные, указанные на стр. 28 моей курсовой.

Строится очень просто

В графе нажимаем , откроется окно

устанавливаем диапазон переменных в , в , в качестве зависимой переменной выбираем «Коэффициент плотности», в качестве независимых – те, что я выбрал в своей курсовой

нажимаем , затем , получим такой результат

Подсвеченные красным цветом Признак 9 и Признак 10 говорят о том, что из выбранных нами четырёх переменных только эти две «хорошо» построят модель. Признак 5 и 9 коррелируют между собой (см. матрицу которую вы построили), а при построении регрессии, мы должны выбрасывать коррелирующие между собой переменные. Можно посчитать дальше и с этими переменными, как я делал в своей курсовой, но это не совсем верно. А в математике «не совсем верно» значит неверно. Поэтому нажимаем и убираем в ненужные переменные. Получим такой результат

вот это другое дело. Нажимаем . Получим

Нажимаем для построения нормального вероятностного графика остатков. Что такое остатки, смотрите в теории, которая предшествует вычислениям в моей курсовой. Что показывает этот график смотрите там же, чуть ниже (стр. 28 курсовой).

Может потребоваться построение уравнения регрессии конкретно для нашей задачи (могут спросить на экзамене).

Для этого требуется уравнение для описания множественное линии регресии из теории

У нас , поскольку мы брали только две независимые переменные.

Узнать конкретные коэффициенты можно так: в окне

переходим во вкладку , затем нажимаем , получим таблицу

в которой столбец , поэтому уравнение регрессии для нашей задачи:

«Коэф. плотности» «Признак 9» «Признак 10»

Собственно, на этом задача регрессионного анализа заканчивается. Выводы и более подробные объяснения результатов смотрите в моей курсовой.

Многомерный анализ

A. Кластерный анализ

Я делал по аналогии с тем алгоритмом, который предложен для рассмотрения данной задачи на сайте statsoft. Идём сюда и смотрим.

Выделим 3 этапа:

1) Стандартизация данных

2) Иерархическая классификация, с помощью которой определим «на глаз» число

3) Кластеризация методом -средних, графическое построение кластеров, построение таблицы дисперсионного анализа

Стандартизация

Что такое смотрим в ответнике под вопросом 4. Проводится следующими действиями:

на ленте переходи во вкладку , нажимаем , откроется окно

в выбираем все переменные, в весь диапазон, получим

жмём .

Теперь таблица с данными изменится. Стандартизация делает значения наших переменных как бы «в одном масштабе». Если раньше высота имела гораздо большие значения и, к примеру, на графике остальные данные терялись на её

фоне, то теперь такого не будет.

Иерархическая классификация.Эвристический поиск числа

Наша цель – построить вертикальную дендрограмму.

Для этого переходим во вкладку , затем выбираем , вывалится контекстное меню, в котором выбираем

Откроется следующее окно

Выбираем , выбираем диапазон в , затем жмём . Откроется следующее окно

Если в выбраны не все переменные, выберите их. В качестве объекта выбираем строчку нашей таблицы, т.е. в выбираем , в качестве правила объединения выберем метод полной связи (всё как на сайте, приведённом выше) т.е. в пункте выбираем .

В итоге, после выбора соответствующих настроек, должно получиться так:

Убедитесь в том, что в выбран весь диапазон переменных, от 1 до 2000. Нажимаем . Поскольку данных много, а методы требуют объёмных вычислений, программе потребуется время, прежде чем выдать результат. На сильных машинах это занимает около 15 секунд, а так дело может затянуться до нескольких минут.

Получим

Нажимаем , программа подумает секунды 4-5 и построит вертикальную дендрограмму.

Как определить число ?

Вот как я смотрел на дендрограмму:

Здесь можно увидеть разных кластера. Разных в смысле расстояния между ними. Можно выделить 5 или 6 кластеров, это не принципиально, просто метод - средних даст немного другие результаты.

Кластеризация методом -средних, графическое построение кластеров, построение таблицы дисперсионного анализа

Опять заходим во вкладку , затем выбираем , вывалится контекстное меню, в котором выбираем . В выпавшем окне выбираем метод - средних

не забываем в выбрать диапазон. Нажимаем , появится

В поле выбираем число кластеров которое «на глаз» определили в прошлом пункте. В нашем случае это .

Жмём , видим

Таблица дисперсионного анализа высчитывается при нажатии . В своей курсовой работе я убирал все переменные, у которых в таблице дисперсионного анализа вероятность была больше и проводил вычисления заново до тех пор, пока у каждой невыкинутой переменной это значение не стало меньше .

Графическое построение кластеров вызывается по нажатию .

B. Дискриминантный анализ

Что это такое и для чего используется смотрите в ответнике под номером 28. Суть – определить те переменные, через которые наиболее точно описывают другую переменную, затем строится модель всего этого хозяйства. Она также позволяет с некоторой вероятностью «прогнозировать» результаты, которые могут быть потенциально измерены.

Например, имеем измерения газа. Находим, что виды газа очень хорошо описываются некоторыми признаками. Строим модель. Теперь получаем новое, ранее неизвестное измерение газа и с некоторым уровнем доверия прогнозируем, какой это вид газа, исходя из модели, которую мы построили.

В нашем случае требуется произвести дискриминантный анализ применительно к переменной «Вид газа».

Найдём те переменные, которые наиболее точно её описывают.

Во вкладке нажимаем , вывалится контексное меню, в котором выбираем

Появится окно

Выбираем диапазон в , затем в выбираем ту переменную («Вид газа»), которую хотим исследовать на «приближение» другими, которые тоже выбираем, зажимая выбираем так, как показано ниже

Жмём , затем , появится окно

Нажимаем , получаем таблицу, в точности совпадающую с той, что в моей курсовой на стр. 34. Красным отмечены те переменные, которые наиболее точно «описывают» нашу переменную «Вид газа».

Поэтому остальные убираем из .

Про функции классификации читайте в ответнике в вопросе 28. Смотрим на стр. 35 моей курсовой. Чтобы построить матрицу с коэффициентами , нужно перейти во вкладку , в которой нажимаем . Получим эту матрицу.

Напомню, что если вы уже произвели вычисления, к примеру, модуль

после нажатия исчезнет. Чтобы его развернуть нужно в программе нажать

Что бы построить таблицу квадратов расстояний малахалаохалаболиса, нужно в модуле

перейти во вкладку и нажать . Получится таблица с нулями, но это лишь одна из трёх, что получается на выходе. Выберите ту, что отвечает квадратам расстояний малахалаохалаболиса, как показано ниже

В результате получите нужную таблицу

Заключение

Итак, на этом работа завершена. Всё, что было приведено здесь - и использовалось при написании моей работы. Теперь остаётся написать вывод и просмотреть, какие зависимости я изучал. Возможно, в некоторых вопросах я делал что-то лишнее, что-то в рассуждениях неправильно. Who knows? Можете задать мне вопрос, если оный возникнет. Постараюсь ответить. Если сейчас не 2012 год, и вы это читаете, то шансы на помощь крайне низки: я всё забуду.