Визуальный анализ данных |
тема работы |
Студент, | КИ09-11 | А. А. Егоров | |||
номер группы | подпись, дата | инициалы, фамилия | |||
Руководитель | А. В. Кузнецов | ||||
подпись, дата | инициалы, фамилия |
Красноярск 2012
Постановка задачи
1. Из любых источников данных взять двухмерные (или более) данные объемом не менее 150 элементов. Создать два-три выброса, если их нет в выборке.
2. Построить диаграмму рассеяния, на ней определить положение выбросов. Скорректировать выборку, удалив выбросы, построить скорректированную диаграмму и сравнить с предыдущей.
3. На скорректированной диаграмме проверить наличие ярко выраженных кластеров. При их наличии произвести разбиение выборки по количеству классов. Для каждой группы построить диаграмму рассеяния.
4. Построить гистограмму данных без помех. Провести подгонку распределения, проверить данные на схожесть с нормальным законом. Если данные имеют примерно нормальный закон распределения, проверить гипотезу о равенстве мат. ожидания какой-либо константе.
5. Рассчитать описательные статистики (составить таблицу перевода терминов). Дополнительно построить график «Коробка-Усы».
6. Сделать выводы о характере изучаемых данных.
Реализация задачи
Выберем в качестве данных зависимость размера экрана телевизора (Size) от его стоимости (Cost).
Построим диаграмму рассеяния (красным обведены выбросы):
Рис 1. Диаграмма рассеяния с выбросами
Удалим выбросы и построим скорректированную диаграмму рассеяния:
Рис 2. Диаграмма рассеяния без выбросов
Построим гистограмму данных без помех:
Рис 3. Гистограмма для стоимости.
Рис 4. Гистограмма для объема данных
Проверка данных на нормальность:
Рис 5. Сравнение распределения стоимости с нормальным распределением
Можем отбросить гипотезу о том, что распределение стоимости похоже на нормальное, с вероятностью 0.99.
Рис 6. Сравнение распределения диагонали экрана с нормальным распределением
Можем отбросить гипотезу о том, что распределение объема данных похоже на нормальное, с вероятностью 0.99.
Статистики:
Cost | Size | |
Count | ||
Average | 19066,8 | 31,4375 |
Variance | 1,96337E8 | 91,0024 |
Standard deviation | 14012,0 | 9,53952 |
Minimum | 4850,0 | 19,0 |
Maximum | 84290,0 | 46,0 |
Range | 79440,0 | 27,0 |
Stnd. skewness | 7,3886 | 1,19663 |
Stnd. kurtosis | 6,12058 | -3,88523 |
Построим график «Коробка-Усы»:
Рис 7. График «Коробка-Усы» для выборки стоимости
Рис 8. График «Коробка-Усы» для выборки размера экрана
Таблица перевода терминов
Термин | Перевод |
Average | Среднее |
Coeff. of variation | Коэффициент изменения |
Count | Количество |
Geometric mean | Среднее арифметическое |
Interquartile range | Межквартильный диапазон |
Kurtosis | Эксцесс |
Lower quartile | Нижний квартиль |
Maximum | Максимум |
Median | Медиана |
Minimum | Минимум |
Mode | Мода |
Range | Диапазон |
Skewness | Асимметрия |
Standard deviation | Стандартное отклонение |
Standard error | Стандартная ошибка |
Stnd. kurtosis | Стандартный эксцесс |
Stnd. skewness | Стандартная асимметрия |
Sum | Сумма |
Upper quartile | Верхний квартиль |
Variance | Дисперсия |
Вывод:
Исходя из графиков гистограмм, можно сделать вывод, что распределение стоимости и размера экрана телевизоров не является нормальным. По диаграмме рассеяния можно предположить, что данные имеют неярко выраженные кластеры.