Персентили – это характеристики набора данных, которые определяют ранги элементов в виде процентов таким образом, что наименьшему значению элемента данных соответствует персентиль, равный 0%, наибольшему – 100%, медиане – 50% и т.д. Промежуточные значения имеют персентили, расположенные с шагом 100/(n –1). Персентиль выражается в тех же единицах, что и набор данных. Например, 60-й персентиль эффективности продаж равен $385000 и характеризует деятельность определенного агента по продажам. Это означает, что приблизительно 60% других агентов имеют результаты ниже, чем у данного агента, а 40% агентов имеют более высокие результаты.
Персентили играют важную роль в качестве опорных характеристик данных. Чтобы обобщить основные черты распределения, достаточно знать пять базовых значений персентилей.
Наименьшее значение данных (0-персентиль).
Нижний квартиль (25-й персентиль, расположенный на расстоянии одной четверти от наименьшего значения).
Медиана (50-персентиль).
Верхний квартиль (75-й персентиль, расположенный на расстоянии одной четверти от наибольшего значения).
Наибольшее значение данных (100-персентиль).
Нижний и верхний квартили определяют границы половины данных, расположенных в центре, а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии ассиметрии. В инструменте Описательная статистика, как правило, опции К-ый наименьший задается ранг нижнего квартиля, а опции К-ый нибольший – ранг верхнего квартиля. Ранги квартилей определяются по следующим формулам:
Ранг нижнего квартиля = (1+Целое((n +1)/2))/2;
Ранг верхнего квартиля = (n +1) – Ранг нижнего квартиля,
где Целое означает функцию выделения целой части.
Задание 7. | Определить пять базовых показателей для набора данных о размерах выплат руководителям финансовых фирм. |
В таблице 5 содержится список о размере выплат (заработная плата и премия) руководителям финансовых компаний (n =30).
Таблица 5. Выплаты руководителям финансовых компаний
Фирма | Зарплата и премия, дол. | Фирма | Зарплата и премия, дол. | Фирма | Зарплата и премия, дол. |
1. В файле Описательная статистика.xls добавьте Лист5.
2. На Листе5 в ячейке A1 задайте метку Выплаты, а в диапазон A2:A31 введите данные из Таблицы 5.
3. Выберите команду Сервис®Анализ данных®Ранг и персентиль и задайте параметры как указано ниже на рисунке. Щелкните на кнопке ОК.
В полученной таблице выделите столбец со значениями персентилей (диапазон F2:F31) и уменьшите разрядность до одного знака после запятой.
4. Объедините диапазон ячеек H1:N1 и введите метку Базовые показатели.
5. В ячейку H2 введите метку Наименьшее значение, а в ячейку H3 скопируйте значение из ячейки D31.
6. В ячейку K2 введите метку Наибольшее значение, а в ячейку K3 скопируйте значение из ячейки D2.
7. В ячейке N2 задайте метку Медиана. В ячейке N3, используя функцию СРЗНАЧ, вычислите медиану как среднее двух значений с рангами 15 и 16 (ячейки D16:D17).
8. В ячейках H6 и L6 задайте метки Нижний квартиль и Верхний квартиль соответственно.
9. В ячейку H7 скопируйте значение из ячейки D24, что соответствует нижнему 24,1-персентилю (это число самое близкое к 25%) с рангом 23.
10. В ячейку L7 скопируйте значение из ячейки D9, что соответствует верхнему 75,8-персентилю (это число самое близкое к 75%) с рангом 8.
11. Чтобы сделать выводы о симметричности распределения, надо сравнить три значения: медиану и квартили. Проведем визуальное сравнение. Для этого постройте для соответствующих значений (выделив ячейки N3, H7, L7) точечную диаграмму, проставьте значения точек и удалите все надписи. Вид диаграммы показан на рисунке.
Как видим из диаграммы, значение медианы находится приблизительно посередине между квартилями, что соответствует симметричному распределению данных.
Контрольные вопросы
1. Перечислите обобщающие показатели, характеризующие типические значения набора данных.
2. Перечислите показатели, характеризующие разброс данных.
3. Перечислите и кратко опишите показатели, характеризующие степень симметричности данных.
4. Что такое среднее? Объясните среднее с точки зрения суммы всех значений набора данных.
5. Что такое взвешенное среднее? В каких случаях этот показатель используется вместо обычного среднего?
6. Что такое медиана? Как найти медиану для набора данных:
а) С четным количеством значений?
б) С нечетным количеством значений?
7. Как вычислить медиану для порядковых категорийных данных?
8. Что такое мода? В каком случае вычисляется модальный интервал?
9. Какой типический показатель (или показатели) можно использовать для:
а) Количественных данных?
б) Порядковых категорийных данных?
в) Категорийных данных, которые нельзя содержательно упорядочить?
10. Какие показатели лучше использовать:
а) При нормальном распределении данных?
б) При планировании общей суммы?
в) При ассиметричном распределении, когда общая сумма не важна?
11. Что такое персентиль? В каких единицах он выражается?
12. Что такое квартили?
13. Назовите пять базовых характеристик распределения.
Контрольные задания
Добавьте Лист6 и выполните задание с использованием базы данных служащих (файл База данных служащих.xls находится в папке Мои документы).
Замечание. Для выполнения некоторых заданий потребуется фильтрация списка, т.е. отбор из базы данных отдельных записей по условиям фильтра. В этом случае необходимо установить курсор на любой ячейке списка и включить фильтрацию с помощью команды:
Данные®Фильтр®Автофильтр
В строке заголовков таблицы появятся кнопки со стрелкой. При щелчке на стрелке соответствующего заголовка откроется меню, содержащее условия отбора. Например, если необходимо отобрать записи, содержащие данные только для мужчин, то надо щелкнуть на стрелке заголовка Пол и выбрать в меню критерий М. В результате база данных будет отфильтрована, и в списке останутся только записи, соответствующие заданному критерию (записи мужчин). Теперь нужные данные можно скопировать в другой файл и провести анализ.
После окончания анализа необходимо в файле База данных служащих.xls отменить действие фильтра. Для этого сначала выполните команду: Данные®Фильтр®Отобразить все, чтобы вывести все записи базы, а затем выключите автофильтр, повторно выполнив команду:
Данные®Фильтр®Автофильтр.
Вариант | Задание |
Для заработной платы служащих, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении заработной платы? | |
Для возраста служащих, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении возраста? | |
Для стажа работы служащих, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении стажа работы? | |
Для заработной платы служащих, используя инструмент анализа Ранг и персентиль, найдите медиану, квартили и экстремумы. Определите 10-й и 90-й персентили. Чему равен персентиль служащего, имеющего в базе данных номер 6? | |
Для возраста служащих, используя инструмент анализа Ранг и персентиль, найдите медиану, квартили и экстремумы. Определите 10-й и 90-й персентили. Чему равен персентиль служащего, имеющего в базе данных номер 6? | |
Для стажа работы служащих, используя инструмент анализа Ранг и персентиль, найдите медиану, квартили и экстремумы. Определите 10-й и 90-й персентили. Чему равен персентиль служащего, имеющего в базе данных номер 6? | |
Рассматривая пол служащих, проведите сортировку и вычислите ранги (см. Задание 5, пункты 1, 2, 3). Найдите моду. О чем она свидетельствует? | |
Рассматривая уровень подготовки служащих, проведите сортировку и вычислите ранги (см. Задание 5, пункты 1, 2, 3). Найдите моду. О чем она свидетельствует? | |
Для заработной платы мужчин, используя инструмент анализа Описательная статистика, определите среднее и медиану. Постройте гистограмму и определите приблизительное значение моды. Сравните эти три показателя. Что вы можете сказать о типическом значении заработной платы среди мужчин? | |
Для заработной платы женщин, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении заработной платы женщин? | |
Для заработной платы служащих с уровнем подготовки А, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении заработной платы? | |
Для заработной платы служащих со стажем от 5 и более лет, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении заработной платы? | |
Для заработной платы служащих с возрастом от 40 и более лет, используя инструмент анализа Описательная статистика, определите среднее, медиану и моду. Постройте гистограмму и покажите эти показатели на гистограмме. Сравните показатели. Что вы можете сказать о типическом значении заработной платы? | |
Для заработной платы мужчин, используя инструмент анализа Ранг и персентиль, найдите медиану, квартили и экстремумы. Определите 10-й и 90-й персентили. Найдите в базе данных номер мужчины, получающего самую высокую зарплату, и прочтите его данные: возраст, стаж, уровень подготовки. |