НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДЕРЖАВНОЇ ПОДАТКОВОЇ СЛУЖБИ УКРАЇНИ
Розглянуто і схвалено
на засіданні кафедри систем і методів прийняття рішень
протокол № __ від "__" 2013р.
Завідувач кафедри ____________________С.П. Ріппа
Освітньо –кваліфікаційний рівень бакалавр
Галузь знань: 0501 "Інформатика та обчислювальна техніка"
Напрям підготовки: 6.050101 "Комп'ютерні науки"
ДОКУМЕНТАЦІЯ
Для проведення модульної контрольної роботи №1
з навчальної дисципліни «Інтелектуальний аналіз даних»
ІРПІНЬ – 2013
Контрольні завдання з навчальної дисципліни “Інтелектуальний аналіз даних”, розроблені на основі навчальної програми курсу, затвердженої у 2011 році.
Кількість завдань – 6. Кількість білетів - 30.
Укладач Бондаренко Л.М., к.ф.-м. н.,доцент
ПОЯСНЮВАЛЬНА ЗАПИСКА
Пакет контрольних завдань для проведення модульної контрольної роботи №1 включає в себе:
6 питань для контролю основних знань та для перевірки практичних навичок.
Максимальна оцінка за контрольну роботу - 3 бали
Вимоги до виконання завдань
Відповіді на завдання мають повно та обґрунтовано розкривати поставлену проблему, супроводжуватися прикладами.
Критерії оцінки знань
Критерії оцінки контролю знань студентів базуються на навчальній програмі, робочому плані та найбільш важливих вимогах до знань студентів:
1. знання фактів, явищ і вірне, науководостовірне їх пояснення;
2. оволодіння науковими термінами, поняттями, законами, методами, правилами; вміння користуватися ними при вирішенні різних питань і виконанні практичних завдань;
3. максимальна ясність, точність думки;
4. знання повинні мати практичну значимість; студенти повинні вміти безпосередньо застосувати їх на комп’ютері.
Відповіді на теоретичні питання повинні бути повними, логічними, доведеними. Практичні завдання студентів повинні бути виконані з точним дотриманням вказівок викладача.
На оцінку «відмінно» відповідь студента повинна відповідати пунктам 1 - 4, на «добре» – 1, 2, 4, на «задовільно» 1, 4.
Перелік питань з курсу.
1. Модель, її властивості. Моделювання. Моделювання та аналіз даних.
2. Аналітичний підхід до моделювання.
3. Інформаційний підхід до моделювання.
4. Процес аналізу.
5. Видобування та візуалізація даних.
6. Моделювання. Етапи моделювання.
7. Форми подання даних.
8. Типи структурованих даних.
9. Види даних.
10. Подання наборів даних.
11. Особливості накопичених даних.
12. Підготовка даних до аналізу. Формалізація даних.
13. Методи збору даних.
14. Вимоги до даних.
15. Методика видобування знань.
16. Data Mining.
17. ПЗ в галузі аналізу даних.
18. Аналітичні платформи.
19. Мови візуального моделювання.
20. Навчаюча вибірка.
21. Навчання з учителем і без учителя.
22. Навчаюча та тестова множини.
23. Ефект перенавчання.
24. Обчислювальна складність алгоритмів.
25. Поняття scalable-алгоритмів.
26. Консолідація даних. Основні задачі.
27. Узагальнена схема процесу консолідації.
28. OLTP-системи.
29. Інформаційні СППР.
30. Сховища даних.
31. Основні положення концепції сховищ даних.
32. Концептуальна схема СД.
33. Деталізовані та агреговані дані.
34. Метадані.
35. Способи використання СД.
36. Архітектура СД.
37. Багатомірні СД.
38. Основи багатомірного подання даних.
39. Вимір та факти у багатомірній моделі даних.
40. Структура багатомірного куба.
41. Робота з вимірами.
42. Поняття реляційної БД.
43. Схеми побудови РСД.
44. Переваги та недоліки РСД.
45. Гібридні СД
46. Вітрини даних.
47. Віртуальні СД.
48. Нечіткі множини.
49. Нечіткі зрізи та принцип їх формування.
50. ETL. Його основні цілі та задачі.
51. Видобування даних в ETL.
52. Вибір джерел даних.
53. Особливості видобування даних з різних типів джерел.
54. Рівні очистки даних в ETL.
55. Критерії оцінки якості даних.
56. Проблеми даних, що спонукають до їх очистки.
57. Перетворення даних в ETL. Перетворення структури даних
58. Агрегування даних.
59. Перетворення значень. Створення нових даних.
60. Очистка даних.
61. Вибір місця для виконання перетворення даних
62. Організація процесу завантаження даних у сховище.
63. Неповне завантаження даних.
64. Багатопоточна організація процесу завантаження даних.
65. Постзавантажувальні операції.
66. Переваги та недоліки відмови від СД.
67. Проблеми прямого доступу до джерел даних.
68. Переваги прямого доступу до джерел даних.
69. Особливості безпосереднього завантаження даних з найбільш розповсюджених типів джерел.
70. Необхідність збагачення даних.
71. Поняття трансформації даних.
72. Основні методи трансформації даних.
73. Трансформація впорядкованих даних.
74. Ковзне (змінне) вікно.
75. Групування даних.
76. Розгрупування даних.
77. Злиття даних.
78. Об’єднання даних.
79. Внутрішнє з’єднання.
80. Зовнішнє з’єднання.
81. Квантування.
82. Цілі використання квантування.
83. Інтервали квантування.
84. Методи квантування.
85. Основні методи нормалізації даних.
86. Мінімаксна нормалізація.
87. Нормалізація за допомогою стандартного відхилення.
88. Нормалізація за допомогою по елементних перетворень.
89. Кодування категоріальних даних.
90. Цілі та задачі візуалізації на різних етапах аналітичного процесу.
91. Групи методів візуалізації.
92. Графіки.
93. Діаграми.
94. Гістограми.
95. Статистика.
96. OLAP-аналіз.
97. Маніпуляції з вимірами.
98. Деталізація.
99. Візуалізатори для оцінки якості моделей.
100. Матриця класифікації.
101. Діаграма розсіяння.
102. Ретропрогноз.
103. Візуалізація контролю процесу навчання моделей.
104. Візуалізатори інтерпретації результатів аналізу.
105. Древовидні візуалізатори
106. Візуалізація зв’язків.
107. Карти.
108. Оцінювання якості даних.
109. Рівні якості даних.
110. Оцінювання придатності даних до аналізу.
111. Оцінювання якості даних за їх походженням.
112. Профайлинг даних.
113. Візуальна оцінка якості даних.
114. Виявлення важко формалізуемих помилок.
115. Передобробка та очистка даних.
116. Боротьба за якість даних протягом аналітичного процесу.
117. Причини надходження до аналітичних систем засмічених даних.
118. Передобробка даних як найважливіша частина процесу іх аналізу.
119. Типовий набір інструментів перед обробки в аналітичному додатку.
120. Фільтрація даних.
121. Умови фільтрації для числових даних.
122. Умова дублікатів та протиріч.
123. Узагальнена модель дублікатів та протиріч даних.
124. Вплив дублікатів та протиріч на ефективність аналізу.
125. Обробка дублікатів та протиріч.
126. Виявлення аномальних значень.
127. Візуальний аналіз аномалій.
128. Використання міри відстані для виявлення аномальних значень.
129. Методи коригування аномальних значень.
130. Відновлення пропущених значень.
131. Походження пропусків в даних.
132. Методи відновлення пропущених значень.
133. Підстановка констант.
134. Завбачення пропущених значень.
135. Підстановка середнього значення.
136. Підстановка найбільш імовірних значень.
137. Проблеми зменшення розмірності.
138. Data reduction.
139. Вимоги до алгоритмів зменшення розмірності даних.
140. Зменшення числа ознак.
141. Алгоритми та методи зменшення числа ознак.
142. Відбір ознак на основі статистичних показників.
143. Зменшення числа ознак на основі оцінки їх інформаційного змісту.
144. Кореляційний аналіз.
145. Метод головних компонент.
146. Скорочення числа значень ознаки.
147. Сутність семплінгу.
148. Проблема репрезентативності.
149. Цілі та задачі семплінгу.
150. Методи семплінгу.
151. Рівномірний випадковий семплінг.
152. Стратифікаційний семплінг.
153. Інтелектуальний аналіз даних.
154. Методи первісної обробки даних.
155. Методи дослідження структури даних.
156. Візуалізація.
157. Автоматичне групування даних.
158. Методи використання навчальної інформації.
159. Кореляційний аналіз даних.
160. Регресійний аналіз даних.
161. Множинний регресійний аналіз.
162. Лінійна множинна регресійна модель.
163. Перевірка адекватності лінійної множинної регресійної моделі.
164. Нелінійне оцінювання параметрів.
165. Методи багатомірного розвідувального аналізу.
166. Кластерний аналіз.
167. Ієрархічна кластерізація.
168. Секційна кластерізація.
169. Методи кластерізації.
170. Процедура Мак-Кина.
171. Метод к-моментів.
172. Сітчасті методи.
173. Растрова кластерізація об’єктів.
174. Лінійний дискримінантний аналіз.
175. Побудова канонічних функцій.
176. Побудова класифікаційних функцій.
177. Розвиток та призначення Deductor.
178. Загальні відомості про Deductor.
179. Категорії користувачів Deductor.
180. Аналітичні технології, реалізовані в Deductor.
ДЕРЖАВНА ПОДАТКОВА СЛУЖБА УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДЕРЖАВНОЇ ПОДАТКОВОЇ СЛУЖБИ УКРАЇНИ
Освітньо-кваліфікаційний рівень бакалавр
Галузь знань 0501 "Інформатика та обчислювальна техніка"
Напрям підготовки 6.050101 «Комп’ютерні науки»
Навчальна дисципліна “Інтелектуальний аналіз даних”
БІЛЕТ №_______1______
(до модульної контрольної роботи №1)
1. Модель, її властивості. Моделювання. Моделювання та аналіз даних.
2. Очистка даних.
3. Цілі використання квантування.
4. Профайлинг даних.
5. Вимоги до алгоритмів зменшення розмірності даних.
6. Лінійний дискримінантний аналіз.
Розглянуто і схвалено на засіданні
кафедри систем і методів прийняття рішень,
Протокол № ____ від «___»___________20_ р.
Зав. кафедрою __________________ С.П.Ріппа
Розробник ___________________ Бондаренко Л.М.
ДЕРЖАВНА ПОДАТКОВА СЛУЖБА УКРАЇНИ