Итак, покажем, как использовать критерий стьюдента (англ. Student). Грубо говоря, критерий работает так: мы задаём входные параметры – количество элементов выборки (2000) и уровень доверия или значимости (0,05). Дальше программа, следуя теоретическому алгоритму, который обрабатывает значения наших данных, показывает, есть ли зависимость. Это отображается как красный цвет строк зависимых параметров. Теоретические алгоритмы разные: зависит от того, как связаны исследуемые переменные, т.е. выборки. Если есть связь, используется один алгоритм, ежели нету – другой.
Нам предлагается исследовать на зависимость две переменные: «Коэффициенты вначале» и «Коэффициенты после». Они зависимы между собой, это вытекает из структуры предлагаемых данных, увидеть это можно так:
в окне данных, дважды нажимаем на последнюю переменную
появится окно
внизу которого написан закон, по которому каждое поле этой переменной вычислялась:
лично мне не совсем понятно, почему и слева и справа стоит , но я трактовал это так, что сперва была заполнена некоторыми данными, а затем к ней добавили значения , умноженные на два.
Заходим в , затем выбираем пункт, который соответствует природе наших переменных, т.е. зависимые между собой: .
При этом не забываем установить значения переменных (т.е. снять галочку в ). После этого нажимаем . Появится окно
нажимаем , выбираем соответственно «Коэффициенты вначале» и «Коэффициенты после»
затем нажимаем , потом . Получим результат
собственно, как в моей курсовой работе. Таким образом, показали, что зависимость есть. В своей курсовой я также показывал насколько сильно разнятся средние значения обоих переменных на диаграммах размаха, для этого в окне
нужно перейти в вкладку и именно в ней нажать кнопку , после которой появится диалоговое окно
в котором предлагается выбрать, как высчитывать «центр» и границы прямоугольника для диаграммы размаха. Вариант говорит о том, что центр, это медиана, а границы прямоугольника – верхняя и нижние квартили. Вариант же говорит о том, что центр, это среднее, а границы прямоугольника – стандартное отклонение. В чем между ними различие и что это такое читайте в ответнике в вопросах , , .
Стандартное отклонение (в статистике обозначается SD) -это квадратный корень из суммы квадратов разности элементов выборки от среднего, делённое на .
SE – стандартная ошибка (, где выборочная дисперсия (наилучшее оценивание совокупной дисперсии) и число наблюдений в выборке).
Выбирая последовательно два варианта, получим два результата, таких же как в моей курсовой.
Повторю, что скриншотить можно только таблицы. Все графики легко копируются в непосредственно.
Теперь посчитаем корреляционную матрицу.
Вообще, цель корреляционного анализа – установить, есть ли зависимость между переменными (в отличие от критерия Стьюдента не обязательно между двумя переменными). Результат такого анализа – матрица, по столбцам и по строкам которой стоят выбранные нами переменные, а значения матрицы – числа в промежутке от до . Природа зависимости (линейная, квадратичная, обратная и т.п.) зависит от выбираемого метода вычисления корреляционной матрицы. Мы будем рассматривать метод Пирсона и Спирмена. Оба эти метода устанавливают, есть ли между переменными линейная зависимость. Чем ближе значение матрицы на пересечении строки и столбца к , тем ближе зависимость к линейной. И наоборот, значение, к примеру , может сказать нам, что зависимость полиномиальная. Различие между методом Спирмена и методом Пирсона в том, что Спирмена выполняется быстрее, в силу того, что он робастен (устойчив) к значением самих переменных. Ему важна индексация, которая вводится особым образом. Метод Спирмена считается «в лоб», прогоняя значения, поэтому он работает медленнее чем, метод Спирмена, но зато более точно.
Ясно, что в корреляционной матрице на главной диагонали будут стоять 1 (переменная зависит линейно от самой себя: ). Также матрица симметрична (т.е. , – операция транспонирования), это следует из того, что переменная зависит от переменной точно так же, как и переменная от , потому в матрице элемент .
Перейдём к построению корреляционной матрицы. Нажимаем , затем в окне выбираем
в снимаем галочку, устанавливая тем самым диапазон от до , нажимаем , появится окно
в котором нажимаем и выбираем список переменных, зависимости которых хотим исследовать (зажимаем и последовательно кликаем мышкой по нужным переменным)
нажимаем , затем переходим в вкладку и уберём галочку , для того, чтобы не отображать в матрице корреляций средние и стандартные отклонения. Можете их оставить, но результат не будет является корреляционной матрицей, а будет матрица , где матрица средних и дисперсий, а – корреляционная матрица (символ означает приписывание матрицы сразу после ). Нажимаем и получаем следующий результат
Коэффициент близок к 1, значит зависимость близка к линейной. Заносим в работу.
Теперь научимся строить диаграмму рассеяния. Она показывает насколько «рассеяны» данные относительно некоторой прямой. Это частный случай линейной регрессии, о которой речь пойдёт позже.
На ленте заходим во вкладку , нажимаем , вывалится контекстное меню, в котором выбираем
вывалится окно
выбираем диапазон в , в выбираем переменные соответственно по и по , жмём . Получаем результат. Заносим в работу.