Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Общее представление о вторичной обработке




Вторичная обработка заключается главным образом в статис­тическом анализе итогов первичной обработки. Уже табулирование и построение графиков, строго говоря, тоже есть статистическая обра­ботка, которая в совокупности с вычислением мер центральной тен­денции и разброса включается в один из разделов статистики, а именно в описательную статистику. Другой раздел статистики — индуктивная статистика [19] — осуществляет проверку соответствия данных вы­борки всей популяции, т. е. решает проблему репрезентативности ре­зультатов и возможности перехода от частного знания к общему [10, 34, 41, 42]. Третий большой раздел — корреляционная статистика — выявляет связи между явлениями. В целом же надо понимать, что «ста­тистика — это не математика, а, прежде всего, способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики» [19, т. 2, с. 277].

Статистический анализ всей совокупности полученных в исследо­вании данных дает возможность охарактеризовать ее в предельно сжа­том виде, поскольку позволяет ответить на три главных вопроса: 1) ка­кое значение наиболее характерно для выборки?; 2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размы­тость» данных?; 3) существует ли взаимосвязь между отдельными дан­ными в имеющейся совокупности и каковы характер и сила этих связей? Ответами на эти вопросы служат некоторые статистические показатели исследуемой выборки. Для решения первого вопроса вычисляются меры центральной тенденции (или локализации), второго — меры изменчиво­сти (или рассеивания, разброса), третьего — меры связи (или корреля­ции). Эти статистические показатели приложимы к количественным дан­ным (порядковым, интервальным, пропорциональным).

Меры центральной тенденции (м. ц. т.) — это величины, вокруг которых группируются остальные данные. Эти величины являются как бы обобщающими всю выборку показателями, что, во-первых, позво­ляет по ним судить обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой. К мерам цент­ральной тенденции относятся: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое.

Среднее арифметическое (М) —это результат деления суммы всех значений (X) на их количество (N): М = ЕХ / N.

Медиана (Me) — это значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных.

Примеры: 3,5,7,9,11,13,15; Me = 9.

3,5,7,9, 11, 13, 15, 17; Me = 10. [20]

Из примеров ясно, что медиана не обязательно должна совпадать с имеющимся замером, это точка на шкале. Совпадение происходит в случае нечетного числа значений (ответов) на шкале, несовпадение — при четном их числе.

Мода (Мо) — это значение, наиболее часто встречающееся в вы­борке, т. е. значение с наибольшей частотой.

Пример: 2, 6, 6, 8, 9, 9, 9, 10; Мо = 9.

Если всё значения в группе встречаются одинаково часто, то счи­тается, что моды нет (например: 1, 1, 5, 5, 8, 8). Если два соседних значения имеют одинаковую частоту и они больше частоты любого дру­гого значения, мода есть среднее этих двух значений (например: 1, 2, 2, 2, 4, 4, 4, 5, 5, 7; Мо = 3). Если то же самое относится к двум несмеж­ным значениям, то существует две моды, а группа оценок является би­модальной (например: 0, 1, 1, 1, 2, 3, 4, 4, 4, 7; Мо = 1 и 4).

Обычно среднее арифметическое применяется при стремлении к наибольшей точности и когда впоследствии нужно будет вычислять стандартное отклонение. Медиана — когда в серии есть «нетипичные» данные, резко влияющие на среднее (например: 1, 3, 5, 7, 9, 26, 13). Мода — когда не нужна высокая точность, но важна быстрота опреде­ления м. ц. т.

Меры изменчивости (рассеивания, разброса) — это статисти­ческие показатели, характеризующие различия между отдельными зна­чениями выборки. Они позволяют судить о степени однородности по­лученного множества, о его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее ис­пользуемые в исследованиях показатели: размах, сред­нее отклонение, дисперсия, стандартное отклонение, полуквартилъное отклонение.

Размах (Р) —это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных.

Примеры: (0, 2, 3, 5, 8; Р = 8); (-0.2, 1.0, 1.4, 2.0; Р - 2,2).

Среднее отклонение (МД) — это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним: МД = Id / N, где: d = |Х-М|; М — среднее выборки; X — конкретное значение; N — число значений. [21]

Множество всех конкретных отклонений от среднего характери­зует изменчивость данных, но, если их не взять по абсолютной величи­не, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МД показывает степень скученности данных вокруг сред­него. Кстати, иногда при определении этой характеристики выборки вместо среднего (М) берут иные меры центральной тенденции — моду или медиану.

Дисперсия (Д) (от лат. dispersus — рассыпанный). Другой путь из­мерения степени скученности данных предполагает избегание нулевой суммы конкретных разниц (d = Х-М) не через их абсолютные величи­ны, а через их возведение в квадрат. При этом получают так называе­мую дисперсию:

Д = Σd2 / N — для больших выборок (N > 30);

Д = Σd2 / (N-1) — для малых выборок (N < 30).

Стандартное отклонение (δ). Из-за возведения в квадрат отдель­ных отклонений d при вычислении дисперсии полученная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представления. Чтобы этого избежать и получить ха­рактеристику, сопоставимую со средним отклонением, проделывают обратную математическую операцию — из дисперсии извлекают квад­ратный корень. Его положительное значение и принимается за меру изменчивости, именуемую среднеквадратическим или стандартным отклонением:

МД, Д и d применимы для интервальных и пропорционных дан­ных. Для порядковых данных обычно в качестве меры изменчивости берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом или полумеждуквартильным размахом. Вычис­ляется этот показатель следующим образом. Вся область распределе­ния данных делится на четыре равные части. Если отсчитывать на­блюдения, начиная от минимальной величины на измерительной шкале (на графиках, полигонах, гистограммах отсчет обычно ведется слева направо), то первая четверть шкалы называется первым квартилем, а точка, отделяющая его от остальной части шкалы, обозначается сим­волом Q,. Вторые 25% распределения — второй квартиль, а соответ­ствующая точка на шкале — Q2. Между третьей и четвертой четвертя- [22] ми распределения расположена точка Q,. Полу квартальный коэффи­циент определяется как половина интервала между первым и третьим квартилями: Q = (Q.-Q,) / 2.

Понятно, что при симметричном распределении точка Q0 совпа­дет с медианой (а следовательно, и со средним), и тогда можно вычис­лить коэффициент Q для характеристики разброса данных относитель­но середины распределения. При несимметричном распределении это­го недостаточно. И тогда дополнительно вычисляют коэффициенты для левого и правого участков: Qлев= (Q2-Q,) / 2; Q прав = (Q, — Q2) / 2.

 

Меры связи

Предыдущие показатели, именуемые статистиками, характери­зуют совокупность данных по одному какому-либо признаку. Этот из­меняющийся признак называют переменной величиной или просто «пе­ременной». Меры связи же выявляют соотношения между двумя пере­менными или между двумя выборками. Эти связи, или корреляции (от лат. correlatio — 'соотношение, взаимосвязь') определяют через вы­числение коэффициентов корреляции (R), если переменные находятся в линейной зависимости между собой. Но наличие корреляции не означает, что между переменными су­ществует причинная (или функциональная) связь. Функциональная за­висимость— это частный случай корреляции. Даже если связь при­чинна, корреляционные показатели не могут указать, какая из двух переменных причина, а какая — следствие. Кроме того, любая обнару­женная связь, как правило, существует благодаря и дру­гим переменным, а не только двум рассматриваемым. К тому же взаи­мосвязи признаков столь сложны, что их обусловлен­ность одной причиной вряд ли состоятельна, они детерминированы множеством причин.

Виды корреляции:

I. По тесноте связи:

1) Полная (совершенная): R = 1. Констатируется обязательная вза­имозависимость между переменными. Здесь уже можно говорить о функциональной зависимости.

2) связь не выявлена: R = 0. [23]

3) Частичная: 0<R<1. Меньше 0,2 —очень слабая связь; (0,2-0,4) — корреляция явно есть, но невысокая; (0,4-0,6) — явно выраженная кор­реляция; (0,6-0,8) — высокая корреляция; больше 0,8 — очень высокая.

Встречаются и другие градации оценок тесноты связи [61].

Кроме того, при оценке тесноты связи используют так называемую «частную» классификацию корреляционных связей. Эта классификация ориентирована не на абсолютную величину коэффици­ентов корреляции, а на уровень значимости этой величины при опреде­ленном объеме выборки. Эта классификация применяется при статис­тической оценке гипотез. Тогда чем больше выборка, тем меньшее зна­чение коэффициента корреляции может быть принято для признания достоверности связей. А для малых выборок даже абсолютно большое значение R может оказаться недостоверным [75].

 

II. По направленности:

1) Положительная (прямая);

Коэффициент R со знаком «плюс» означает прямую зависимость: при увеличении значения одной переменной наблюдается увеличение другой.

2) Отрицательная (обратная).

Коэффициент R со знаком «минус» означает обратную зависимость: увеличение значения одной переменной влечет уменьшение другой.

 

III. По форме:

1) Прямолинейная.

При такой связи равномерным изменениям одной переменной со­ответствуют равномерные изменения другой. Если говорить не только о корреляциях, но и о функциональных зависимостях, то такие формы зависимости называют пропорциональными.


2) Криволинейная.

Это связь, при которой равномерное изменение одного признака сочетается с неравномерным изменением другого.

Формулы коэффициента корреляции:

При сравнении порядковых данных применяется коэффициент ранговой корреляции по Ч. Спирмену (ρ): ρ = 6Σd2 / N (N2 — 1), где: d — разность рангов (порядковых мест) двух величин, N — число сравни­ваемых пар величин двух переменных (X и Y). [24]

При сравнении метрических данных используется коэффициент корреляции произведений по К. Пирсону (r): r = Σ ху / Nσxσy

где: х — отклонение отдельного значения X от среднего выборки (Мх), у — то же для Y, Ох — стандартное отклонение для X, а — то же для Y, N — число пар значений X и Y.

Внедрение в научные исследования вычислительной техники по­зволяет быстро и точно определять любые количественные характери­стики любых массивов данных. Разработаны различные программы для ЭВМ, по которым можно проводить соответствующий статистический анализ практически любых выборок. Из массы статистических приемов наибольшее распространение получили следующие: 1) комплексное вычисление статистик; 2) корреляционный анализ; 3) дисперсионный анализ; 4) регрессионный анализ; 5) факторный ана­лиз; 6) таксономический (кластерный) анализ; 7) шкалирование.






Поделиться с друзьями:


Дата добавления: 2015-10-21; Мы поможем в написании ваших работ!; просмотров: 1389 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Победа - это еще не все, все - это постоянное желание побеждать. © Винс Ломбарди
==> читать все изречения...

2239 - | 2072 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.01 с.