Переменные.
С точки зрения исследователя, процедура повторного тестирования проста и занимает немного времени. Испытуемым она, вероятно, нравится меньше, поскольку им приходится проходить тест дважды. Как подчеркивают Смит и Джордж (Smith & George, 1994), важным аспектом тестирования является мотивация испытуемых хорошо справиться с тестом. Возможно, что при повторном тестировании испытуемые чувствуют нетерпение или скуку, за счет чего в результаты вносится дополнительная погрешность. Многие исследователи также сообщают, что сталкиваются с проблемой отсева испытуемых: некоторые из них после первого тестирования просто исчезают и не участвуют во втором.
При исследовании надежности теста методом повторного тестирования в промежутке между первым и вторым тестированием могут произойти также и другие события. Если это слишком короткое время, то на коэффициент устойчивости могут повлиять такие факторы, как запоминание вопросов теста или полученный при первом тестировании опыт, а также снижение интереса испытуемых к тесту. Если между первым и вторым тестированием проходит слишком много времени, то испытуемые могут измениться в каком-либо релевантном тесту отношении (они могут подготовиться, накопить опыт, изучить материал и так далее).
Если бы полученный при первом тестировании опыт влиял на всех испытуемых совершенно одинаково или с ними произошли бы одни и те же изменения, то при исследовании надежности теста не возникало бы серьезных проблем. Однако это чрезвычайно маловероятно. У одних испытуемых хорошая память, а у других — плохая. У некоторых испытуемых тест вызовет любопытство, и они изучат данную тему, чтобы найти ответы на все вопросы (даже если не знают, что им снова будет предложен этот тест); другие не будут тратить на это время.
Неодинаковые реакции испытуемых на первое тестирование вносят дополнительную ошибку в оценку надежности теста. По этой причине данный метод наиболее полезен для оценки надежности тестов, предназначенных для оценки умений, которые не имеют отношения к памяти и вряд ли улучшатся в результате непродолжительной практики во время первого тестирования. В качестве примеров таких тестов можно привести тесты на остроту слуха, на умение решать проблемы и на тонкую моторику (finger manipulation dexterity).
Оценка надежности теста методом проверки внутренней согласованности
Некоторые проблемы, связанные с мотивацией, памятью и полученным опытом, возникающие при оценке надежности методом повторного тестирования, можно обойти путем использования метода проверки внутренней согласованности теста. При этом проверяется согласованность ответов на отдельные вопросы теста, а не постоянство результатов, полученных при тестировании в разное время. Один из часто применяемых подходов заключается в том, что несколько испытуемых проходят тестирование один раз, после чего тест делят на две части, результаты которых подсчитываются отдельно. У каждого испытуемого теперь по два результата, и их используют для расчета коэффициента корреляции.
Испытуемые.
Обычно деление теста на две части производится следующим образом: в одну половину включают вопросы с нечетными, а в другую — с четными номерами. Полученный коэффициент корреляции г между двумя наборами «результатов» называется коэффициентом внутренней согласованности или иногда — разделительным (split-half) коэффициентом. (Фактически такая процедура дает оценку надежности теста, в котором наполовину меньше вопросов, поэтому для оценки надежности всего теста в результаты следует внести статистические поправки.)
При использовании процедуры проверки внутренней согласованности удается обойти проблемы, возникающие из-за двукратного проведения одного и того же теста, но у этого метода есть и свои собственные недостатки. За исключением тех случаев, когда в тесте очень много вопросов, разделительный коэффициент, как правило, бывает заниженным. Кроме того, необходимо, чтобы два «теста» имели одинаковую сложность. Вероятность того, что две «половинки» теста будут иметь различную сложность, уменьшится, если включать в каждую половину четные или нечетные вопросы, а не делить вопросы на «первую» и «вторую» части по порядку (как некогда было принято). Однако и этот способ деления не гарантирует эквивалентности частей теста по сложности.
Оценка надежности методом проверки внутренней согласованности основана на предположении о том, что независимо от способа разбиения теста на две части эти части имеют одинаковую сложность. Это предположение трудно проверить, поэтому осторожный исследователь при проверке надежности теста воспользуется одной из статистических формул, которые дают так называемую общую (generic) оценку внутренней согласованности теста — коэффициент надежности, не зависящий от конкретного способа разбиения теста, использованного при расчете. Наиболее широкой известностью пользуются K-R формулы 20 и 21 (Richardson & Kuder, 1939) и альфа-коэффициент Кронбаха (Cronbach, 1951). Подробное обсуждение сильных и слабых сторон подобных процедур можно найти в работе Кортина (Cortina, 1993).