Знакомство с элементами статистики начнем с конкретного примера.
В девятых классах «А» и «Б» измерили рост 50 учеников. Получились следующие результаты:
162, 168, 157, 176, 185, 160, 162, 158, 181, 179,
164, 176, 177, 180, 181, 179, 175, 180, 176, 165,
168, 164, 179, 163, 160, 176, 162, 178, 164, 190,
181, 178, 168, 165, 176, 178, 185, 179, 180, 168,
160, 176, 175, 177, 176, 165, 164, 177, 175, 181.
Данные, собранные в этом списке, являются наиболее полной информацией о проведенном измерении. К сожалению, эта информация трудно «читается». Она не наглядна и занимает много места. А представьте результаты, состоящие не из 50 данных, а из 500, 5000 или из миллионов различных чисел! Например, число и размеры вкладов в Сбербанке России за текущий год или данные о производительности труда на предприятиях какой-нибудь отрасли по всей стране, результаты голосования по всем избирательным пунктам и т. п.
Единственный разумный выход – каким-то образом преобразовать первоначальные данные, получить сравнительно небольшое количество характеристик начальной информации и в дальнейшем оперировать именно с этими, как правило, численными характеристиками. Одна из основных задач статистики как раз и состоит в надлежащей обработке информации. Конечно, у статистики есть много других задач: получение и хранение информации, выработка различных прогнозов, оценка их достоверности и т. д. Ни одна из этих целей не достижима без обработки данных. Поэтому, первое, чем стоит заняться – это статистическими методами обработки информации. Для этого нам будут нужны новые термины, принятые в статистике.
В таблице 2 приведены основные термины статистики. Мы будем использовать термины из первого столбца. Термины из третьего столбца могут встретиться вам в других учебных пособиях или справочниках по статистике.
Таблица 2
Новый термин | Простое описание | Более научный термин | Определение |
Общий ряд данных | То, откуда выбирают | Генеральная совокупность | Множество всех в принципе возможных результатов измерения. |
Выборка | То, что выбрали | Статистическая выборка, статистический ряд | Множество результатов, реально полученных в данном измерении |
Варианта | Значение одного из результатов измерения | Варианта | Одно из значений элементов выборки |
Ряд данных | Значения всех результатов измерения, перечисленные по порядку | Вариационный ряд | Упорядоченное множество всех вариант |
Вернемся к примеру с измерением роста. С некоторым запасом мы можем считать, что рост девятиклассника находится в пределах от 140 до 210 см. Значит, числа 140; 141; 142;...; 208; 209; 210 и образуют общий ряд данных этого измерения. Подчеркнем, что определения в статистике не носят такого же точного характера, как, скажем, определения в геометрии или алгебре. Например, от добавления числа 139 к указанному множеству оно не перестанет быть общим рядом данных. Или же, рост можно было, в принципе, измерять с точностью до миллиметров и тогда общий ряд данных этого измерения давали бы числа 140,0; 140,1; 140,2;...; 209,8; 209,9; 210,0.
Выборка в нашем случае – это данные реального измерения роста, выписанные выше, варианта – это любое из чисел выборки, а ряд данных – все реальные результаты измерения, выписанные в определенном порядке без повторений, например, по возрастанию:
157; 158; 160; 162; 163; 164; 165; 168; 175; 176; 177; 178; 179; 180; 181; 185; 190.
Рассмотрим другие примеры. Допустим, вы записываете номера месяцев рождения своих однокурсников. В таком случае общий ряд данных – это числа от 1 до 12, варианты – это номера месяцев рождения конкретных студентов именно вашей группы, а ряд данных – это все варианты, перечисленные по порядку. В одной группе ряд данных – это 3, 4, 5, 7, 8, 10, 11. В другой группе может получиться другой ряд данных. Например, 1, 2, 5, 6, 8, 9, 11, 12 и т. д.
Пример 2. 30 абитуриентов на четырех вступительных экзаменах набрали в сумме такие количества баллов (оценки на экзаменах выставлялись по пятибалльной системе): 20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20; 15; 13; 19; 14; 18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17. Составьте общий ряд данных, выборку из результатов, стоящих на четных местах и соответствующий ряд данных.
Решение. После получения двойки дальнейшие экзамены не сдаются, поэтому сумма баллов не может быть меньше 12 (12 – это 4 «тройки»). Значит, общий ряд данных состоит из чисел 12; 13; 14; 15; 16; 17; 18; 19; 20. Выборка состоит из 15 результатов 19; 13; 17; 14; 20; 19; 20;..., расположенных на четных местах. Ряд данных – это конечная возрастающая последовательность 13; 14; 17; 19; 20.
Перейдем к дальнейшей обработке информации. Составим таблицу из двух строк, в первой из которых будет ряд данных. Каждая варианта из этого ряда какое-то количество раз реально наблюдалась в выборке. Это количество называют кратностью варианты. Вот и поставим во вторую строку кратности соответствующих вариант. Получим таблицу распределения выборки. Вот как она выглядит в примере 1.
Варианта | Всего: 5 вариант | |||||
Кратность варианты | Сумма = 15 (объем выборки) |
Если сложить все кратности, то получится количество всех произведенных при выборке измерений – объем выборки. В данном случае объем выборки равен 15.
Далее, при общей оценке данных выборки не очень важно, что, например, варианта 14 имеет кратность 3 из общего объема в 15 данных. Удобнее сказать, что эта варианта составляет или 20% числа всех измерений. Так и поступают, т. е. делят кратности вариант на объем выборки и получают частоты вариант.
.
Частоты всех вариант удобно приписать третьей строкой к уже составленной таблице. Новую трехстрочную таблицу называют таблицей распределения частот выборки. Вот как это выглядит в примере 1. Обратите внимание, что сумма частот равна 1, и так бывает всегда.
Варианта | Всего: 5 вариант | |||||
Кратность варианты | Сумма = 15 (объем выборки) | |||||
Частота варианты | Сумма = 1 |
Иногда частоты удобно измерять в процентах от общего объема выборки. Тогда таблицу распределения дополняют еще строкой частот в процентах. Она получается из предыдущей строки умножением на 100%.