Первичный статистический анализ

Невозможно предложить один алгоритм анализа данных для разных работ, но некоторые замечания сделать необходимо. Начинать надо с анализа каждой переменной в отдельности, а затем, комбинируя, сопоставляя переменные различным образом, пытаться обнаружить какие-либо закономерности. Самая распространенная ошибка студентов на этапе обработки данных – это то, что они забывают все пройденное в курсе «Математические методы в психологии». Поэтому первое, что необходимо сделать – найти тетрадь с лекциями или взять учебник из предложенных в списке литературы.

Забегая вперед, заметим, что уже сейчас, проводя первичную обработку своих данных, вы готовитесь к их интерпретации при написании основного текста работы. Обсуждение полученных данных в тексте всегда (!) начинается с их описания. Описание должно быть предельно строгим, т.е. содержать в себе только факты с их качественными (есть – нет) или количественными характеристиками. Количественные (статистические) характеристики должны быть перед обсуждением наглядно представлены: таблицы, диаграммы, гистограммы, графики и т.д. Обсуждение результатов корреляционного анализа (см. далее) должно сопровождаться демонстрацией коэффициентов корреляции с их уровнем значимости и, по возможности, корреляционных плеяд. В обсуждении результатов раскрывается значение полученных фактов с точки зрения теории – той теоретической концепции, которая была положена в основу исследования. Самое, пожалуй, трудное здесь – это обратный перевод количественных (и качественных) параметров, характеристик и фактов на язык психологических понятий и конструктов. Корректный перевод можно осуществить только, если хорошо представляешь содержательный смысл того или иного статистического параметра. Таким образом, данные в тексте даются в последовательности: наглядное представление – описание – обсуждение – доказательство/опровержение гипотезы.

Для автоматизированного подсчета первичных статистик используйте также программу «STATISTIKA». Обращаемся к Basic Statistics and Tables и далее Descriptive statistics (описательная статистика) и Frequency tables (частотное распределение). Если у вас выведены ваши данные, тогда на панели выбираете Analysis, и откроется окно со списком основных статистических операций, которые необходимо будет использовать при обработке данных.

Теперь обратимся к очень важному способу описания и представления данных – частотному распределению.

Частотное распределение или распределение частот представляет собой таблицу или график, в которых указано сколько раз встречается то или иное значение признака. Такой способ анализа и представления данных часто применяется при обработке, например, анкет, чтобы увидеть, сколько испытуемых выбирает тот или иной вариант ответа. Кстати, частотный способ описания данных один из самых любимых студентами, просто они об этом не подозревают и, следовательно, применяют его некорректно. В чем же ваши ошибки?

Рассмотрим пример разбора данных, часто встречающийся в дипломных работах студентов-психологов. У вас есть результаты методики, в которой измеряемая переменная принимает значения в номинативной шкале: низкий, средний, высокий уровень, - и двадцать испытуемых. Предположим, что ваши испытуемые дали следующие результаты. У семи испытуемых низкий результат, у одиннадцати – средний и у двух – высокий. Тогда текст чаще всего выглядит так: «Низкий результат имеют 35% испытуемых, средний – 55%, а высокий – только 10%». Вообще проценты – самая любимая студентами форма записи результата. При этом забывается, что % - это сотая часть количества, и, если выборка существенно меньше ста, выражение части через проценты не имеет смысла.

Если выборка небольшая, то лучше просто указывать число испытуемых, получивших то или иное значение признака. А перед тем как анализировать переменную, ее распределение лучше дать таблицей, при этом вместо процентов указывать относительную частоту встречаемости всех значений признака. Например, так как сделано в таблице 5. Если какое-либо значение не встречается, то частота f=0 все равно должна быть указана. В таблице 5 объединены три методики, дающие номинативное распределение признака, и четыре группы испытуемых. (Данные взяты из дипломной работы Балышевой Н.А.). При описании таблицы мы можем сравнивать как признаки, так и группы между собой. Помимо этого, последняя строка дает общее по всем группам распределение признаков, и сразу можно видеть, что по первой методике преобладающие результаты высокие, а по двум другим средние.

Что касается графического представления частотного распределения, можно использовать как полигоны частот, гистограммы, диаграммы и др. формы представления. Так гистограмма, выполненная в «STATISTIKA», будет выглядеть следующим образом (см. рис.1, пример 3 из раздела «интерпретация корреляционного анализа»). Гистограмма используется только для количественных переменных, когда значение признака представимо числом. Если этого сделать нельзя, можно использовать обычную столбиковую диаграмму

Анализ данных. Доказательство исследовательских гипотез

Типовые задачи, которые решают психологи при обработке эмпирического материала, следующие:

1. Сопоставление групп испытуемых по какому-либо признаку для выявления различий между ними по этому признаку.

2. Сопоставление того, что было “до” с тем, что стало “после” экспериментальных или “формирующих” воздействий.

3. Сопоставление эмпирического распределения значений признака с каким-либо теоретическим законом или с другим эмпирическим распределением, чтобы доказать неслучайность различия в распределениях.

4. Сопоставление двух признаков на одной выборке для установления степени согласованности их изменений, их сопряженность, корреляцию между ними.

5. Сопоставление индивидуальных значений, полученных при разных комбинациях условий, чтобы выявить характер взаимодействия этих условий и их влияние на индивидуальное значение признака.

Каждая из приведенных задач на этапе планирования требовала определенных условий проведения исследования, и также на этапе обработки данных требует определенных критериев доказательности. Прежде всего, вы должны ответить на следующие вопросы:

1. Какого качества моя выборка?

2. Какое обобщение в отношении результатов мне потребуется?

В соответствие с ответами вы будете выбирать математическую модель. Вообще-то эти проблемы уже должны были быть решены на этапе планирования исследования и проведения пилотажа. Но для студенческих работ такая дальновидность не характерна: вопросы математической обработки данных оставляются на самый конец работы над дипломом. Что касается пилотажа, да еще с обработкой, он представляет собой исключение, большую редкость в дипломах психологов.

Итак, если объем выборки:

n ≤ 30, то выборка малая,

30 < n ≤ 200, то выборка средняя,

n > 200, то выборка большая.

В психологических студенческих работах чаще встречаются выборки первая или вторая с n < 100.

По способу отбора выборка может быть случайной или неслучайной. Если она неслучайна, то укажите, использовались ли критерии отбора или данные собирались на конкретной естественной группе. В случае выполнения заказной работы эмпирика описывает ситуацию только в той группе, где материал собирался, и вопрос переноса результатов в отношении генеральной совокупности не стоит. В остальных случаях надо анализировать: насколько исследовательская выборка репрезентативна.

Необходимо также учесть тип проведенного исследования. В эксплораторном (пробном) исследовании (эксперименте), где впервые описывается что-либо новое, особо значима ошибка II рода, когда отвергается верная исследовательская гипотеза о существующих различиях. Ошибка I рода особо значима в конформаторном (уточняющем) исследовании, где результаты имеют практическое значение. Поэтому уровень значимости принятия решения о нуль-гипотезе понижается для второго случая, такие исследования проводятся также на малых выборках, и повышается для первого, для которого также большее значение имеет объем и качество выборки. Помимо этого, субъективная значимость ошибки ll рода значительно ниже.

Далее вы должны определиться с выбором критерия, прежде всего, каким он будет параметрическим или не параметрическим.

Параметрический критерий может применяться, когда эмпирические данные удовлетворяют следующим требованиям:

признак измерялся в интервальной шкале,

распределение признака является нормальным.

Этим условиям удовлетворяют стандартные тесты, в которых есть шкалы перевода «сырых» баллов в нормированные показатели (тесты MMPI, 16PF, тест тревожности Спилбергера, тест интеллекта Векслера и др.).

Если будет использоваться дисперсионный анализ, то к данным возникает еще одно требование: в ячейках комплекса должно быть равенство дисперсий.

Если данные не удовлетворяют условиям применимости параметрического критерия, то надо приготовиться к «ручному» счету одного из многих непараметрических, список которых приводится (см. табл. 6).

Ценность предлагаемых непараметрических критериев в том, что, во-первых, обрабатываемые выборки могут быть очень небольшими (например, 5 испытуемых), во-вторых, показатели могут измеряться в любых шкалах, начиная со шкалы наименований (возможна обработка своих методик, для которых не выполняются многие требования, предъявляемые к стандартным тестам, например, требование валидизации или стандартизации), в-третьих, критерии просты в применении.

Когда вы принимаете решение по исследовательской гипотезе необходимо опираться на правило – соглашение, принятое в психологической научной среде.

Правило принятия-отклонения гипотезы Н_0. (эмпирическое правило для психологических исследований).

Если эмпирическое значение критерия равняется критическому при p ≤ 0,05 или превышает его, то Н₀отклоняется, но Н₁ еще не принимается. Если эмпирическое значение критерия равняется критическому при p ≤ 0,01 или превышает его, то Н₀отклоняется и Н₁ принимается.

Для критерия знаков G, критерия T Вилкоксона и критерия U Манна-Уитни устанавливаются обратные соотношения.

Таким образом, зона значений статистического критерия от 0,05 до 0,01 является зоной неопределенности в отношении выдвинутой гипотезы. В целом, большинство психологов-исследователей ориентируются на это правило, но практически исследователь может принимать достоверность различий и из зоны неопределенности или брать другой уровень значимости, например, p ≤ 0,02.

Чаще всего психологи используют ненаправленные гипотезы, при которых используется двусторонний критерий, но иногда возникает необходимость в изучении направления изменения признака (возрастании или убывании), тогда используется односторонний критерий – он менее строг, чем двусторонний. (!) Помните, что, если эмпирическое значение критерия как одностороннего соответствует значимости p ≤ 0,05, то для двустороннего - только p ≤ 0,10. Таким образом, после получения первичных статистик вы должны определить, какую задачу анализа данных вам надо решать, как будет формулироваться гипотеза Н_0,какой критерий использовать.

Вновь обратимся к программе «STATISTIKA». С ее помощью можно вычислить t-критерий, если ваши данные удовлетворяют необходимым условиям. В разделе Basic statistics and Tables есть функция t-test for independent samples. Проверяется значимость различий в уровнях признака у двух различных групп (независимые случаи). Аналогично t-test for dependent samples (зависимые случаи), когда замеры произведены на одной выборке. Пользоваться этим критерием удобно хотя бы потому, что уровень значимости можно задавать и менять по-своему усмотрению. Таблицы t-распределения встроены в программу.