Тема 2: Психометрические требования к построению и проверке методик
(Лекции 4-5).
Диагностические методики обычно называют измерительными инструментами, а психологическую диагностику — психометрией.
Психометрия — область психологической диагностики, связанная с теорией и практикой измерений в психологии.
Это понятие было введено немецким исследователем X. Вольфом, который ставил перед собой задачу измерить величину внимания посредством продолжительности аргументации, за которой человек в состоянии проследить [26].
Реализация идеи измерений психических явлений началась с работ по психофизике. Первоначально под психометрией понималось измерение временных характеристик психических процессов. Однако очень скоро область психометрии расширялась — к ней стали относить измерения не только ощущений, но и более сложных психических функций. Другими словами, все то, что связано с количественным определением психических явлений, стали включать в понятие «психометрия», которое затем переросло в понятие «общая психометрия».
С появлением такой области исследований, как дифференциальная психология, психометрия получила свое новое развитие, поскольку стали возникать особые правила и требования к принципам измерения, следование которым обеспечивало его точность и достоверность. В связи с этим обнаружилась необходимость использовать понятие, более точно определяющее данную область измерений. Оно должно было отражать не всю совокупность психологических и психофизических измерений, а только ту, которая имеет отношение к дифференциально-психологическим характеристикам. В качестве такого понятия предлагается использовать термин «дифференциальная психометрия».
В ряде работ по психологической диагностике обосновывается целесообразность отличать понятие «дифференциальная психометрия» от понятия «общая психометрии» [26; 27; 108]. Как первое, так и второе понятие связано с теорией и практикой измерений в психологии. В то же время важно отметить следующее.
1. К общей психометрии относятся измерения общепсихологического (свойственного всем людям) характера, т.е. функциональные зависимости между свойствами стимула и свойствами субъективных реакций. Так, в психофизике определяется зависимость между физическими характеристиками стимулов и субъективными характеристиками ощущений (например, объективная прибавка веса и порог субъективного ощущения увеличения тяжести). В социально-психологических областях выявляется соответствие между рядами социальных объектов и психологическими реакциями (например, социальные объекты — разные виды рекламируемых товаров, психологические реакции — от «очень нравится» до «очень не нравится»).
2. К дифференциальной психометрии относятся измерения, касающиеся индивидуальных различий между людьми по способностям, когнитивным функциям (внимание, память, мышление и т.д.), мотивам, эмоциональным особенностям и пр. Здесь числовые значения (баллы, ранги, шкальные значения) приписываются не стимулам, а индивидам.
Дифференциальная психометрика по отношению к психодиагностике и дифференциальной психологии выступает в качестве технолого-методической дисциплины. Она обосновывает требования, которым должны удовлетворять психодиагностические методики, процедуру их разработки и применения. К числу таких требований относятся стандартизация, надежность и валидность методик.
Выше говорилось о том, что психодиагностические методики называют измерительными инструментами. Однако возникает вопрос, правомерно ли их так называть, являются ли они таковыми, подобными, например, тем, которые используются в физических измерениях?
Ответ на этот вопрос можно найти в работах К.М. Гуревича [46; 49]. На примере анализа тестов он показывает, что такое определение диагностических методик носит условный характер. Сначала нужно вспомнить, что представляет собой измерение. Измерить — значит определить какой-либо мерой величину измеряемого. Для этого нужно, чтобы были соблюдены по крайней мере два условия.
Первое условие касается самого измерительного инструмента: он должен иметь на протяжении всего измерения одну и ту же, тождественную самой себе меру. Нельзя измерять инструментом, у которого нет такой тождественной самой себе меры (например, если бы на линейке расстояния от одного деления до другого были неодинаковы на разных участках). Второе условие — нужно, чтобы то, что измеряется, во всех случаях оставалось одним и тем же, т.е. также было тождественно самому себе. К.М. Гуревич считает, что соблюсти эти два условия в психодиагностических исследованиях крайне затруднительно.
Например, в тесте предложены задания на умение производить такую логическую операцию, как классификация понятий. Так, даны понятия пшеница, чечевица, кукуруза, бамбук, ячмень. Испытуемый должен зачеркнуть слово, которое не подходит к четырем основным. Обычно испытуемые зачеркивают бамбук. Это ошибка. Бамбук, как пшеница, ячмень и кукуруза, относится к злаковым, а чечевица— к бобовым. Это слово и следует зачеркнуть.
Чем можно объяснить, что не все испытуемые дают правильный ответ?
К.М. Гуревич называет несколько причин:
1) испытуемый слабо владеет такой логической операцией, как классификация;
2) испытуемый владеет логической операцией, но не знает того материала, на котором ее надо применить;
3) испытуемый знает материал, владеет логической операцией, но он не способен работать в том обычно довольно быстром темпе, который требуется при выполнении теста.
Возникает вопрос, что же измеряет в действительности данное задание?
Как было показано выше, у одних испытуемых оно измеряет что-то одно, у других — другое. У испытуемых, владеющих соответствующим материалом, оно измеряет то, на что направлено, — владение логической операцией. У тех же испытуемых, которым материал задания малознаком, измеряется их знание. Кроме того, у тех и других измеряется их индивидуальный темп.
Этот анализ К.М. Гуревич продолжает дальше. Тест состоит из целого набора заданий; иногда их число доходит до 40. Можно ли выполненное задание считать мерой, через которую определяется количественный показатель измеряемой стороны психики?
Нельзя, так как эта мера измеряет разные стороны психики. У одних выявляется владение логическими действиями, у других — знание тех понятий, которые представлены в тесте, у третьих фактически измеряется их темп; у одних эта мера имеет одно, а у других — другое содержание.
На основании проведенного анализа К.М. Гуревич делает вывод о том, что данные, которые получаются в тестировании, нельзя считать измерениями в подлинном смысле слова. Тест не является измерительным инструментом в том понимании, которое существует, например, в физических измерениях, хотя какую-то оценку той стороны психики, на диагностирование которой он направлен, тест показывает — правда, не в количественном выражении.
Тест можно считать инструментом сравнения. При сравнении не подчеркивается, что из двух сравниваемых объектов один больше другого на столько-то единиц. В этом случае достаточно установить, что такой-то объект больше другого (или других). По результатам сравнения можно расположить все изучаемые объекты в определенном порядке — от меньшего к большему или наоборот. Сравнение не предполагает обязательного измерения, а значит, не предполагает и единицы измерения. При сравнении устанавливается только последовательность, порядок сравниваемых объектов по их величине.
Сделанный К.М. Гуревичем вывод относительно тестов с полным правом может быть перенесен и на другие диагностические методики.
Стандартизация
Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована. Как отмечает А. Анастази, стандартизация — это единообразие процедуры проведения и оценки выполнения теста [12]. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.
Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.
К числу требований, которые необходимо соблюдать при проведении эксперимента, можно отнести такие:
- инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;
- ни одному испытуемому не следует давать никаких преимуществ перед другими;
- в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
- эксперимент с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
- временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и т.д.
Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, так как только строгое их соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.
Другим важным моментом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определенных стандартов успешности или неудачи в их выполнении.
Так, например, ребенок шести лет, выполняя тест умственного развития, получил балл, равный 117.
Хорошо это или плохо?
Часто ли такой показатель встречается у детей данного возраста?
Количественный результат как таковой ничего не означает. Полученный дошкольником балл нельзя интерпретировать как показатель относительно высокого, среднего или низкого развития, так как это развитие выражено в мерах, присущих данной методике, и, таким образом, абсолютного значения полученные результаты иметь не могут. Очевидно, нужно располагать точкой отсчета и какими-то дозированными мерами, чтобы с их помощью оценивать полученные при диагностировании индивидуальные и групповые данные.
Возникает вопрос, что за эту точку отсчета брать?
В традиционном тестировании такая точка добывается статистическим путем — это так называемая статистическая норма.
В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путем ее проведения на большой репрезентативной выборке того типа, для которой данная методика предназначена (подробно о том, что такое репрезентативная выборка, будет сказано ниже). Относительно этой группы испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно нормативной выборки или выборки стандартизации [12].
Для вычисления статистической нормы психологи-диагносты обратились к давно применяемым в биологии приемам математической статистики. Рассмотрим пример.
На призывной пункт явилось несколько тысяч молодых людей. Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного людей будет очень маленького и очень высокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распределение рассматриваемых величин — это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения достаточно знать два показателя — среднее арифметическое и так называемое стандартное отклонение, которое получается путем несложных вычислений.
Назовем среднее арифметическое хср, а стандартное отклонение — σ (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах хср ±5 σ. Нормальное распределение обладает многими преимуществами, в частности, оно позволяет заранее рассчитать, сколько случаев будет расположено в определенном удалении от среднего арифметического при использовании для определения удаленности стандартного отклонения. Для этого имеются специальные таблицы. Из них видно, что в пределах хср ± σ находится 68% изучаемых случаев. За этими пределами — 32 % случаев, а так как распределение симметрично, то по 16 % с каждой стороны. Итак, преобладающая и наиболее представительная часть распределения находится в пределах хср ± σ. Все расчеты и рассуждения нужны только для того, чтобы дать оценку индивидуальным данным, получаемым при выполнении тестов.
Рассмотрим стандартизацию диагностической методики на примере тестов Стэнфорд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов, эта работа была закончена, и были подготовлены тесты по каждому возрасту со средним арифметическим, равным 100, и со стандартным отклонением, равным 16, с распределением, близким к нормальному.
Выше говорилось о том, что при измерении роста новобранцев было получено нормальное распределение данных по их росту. Никто не вмешивался в процесс измерения, не заменял одних новобранцев другими. Все получилось естественно, само собой. Но при работе с психологическими методиками дело идет не так. Опытным психологам, неплохо представляющим психические возможности детей, приходилось заменять некоторые задания, чтобы приблизить полученные результаты к нормальному распределению. Результаты диагностических испытаний в психологии очень редко укладываются в рамки нормального закона; их приходится для этого специально подгонять. Причины этого явления нужно искать в самом существе теста, в обусловленности его выполнения подготовкой испытуемых.