Минимизация ошибок измерения

В процессе повышения точности измерений путем минимизации действия неслучайных факторов особенно важен первый шаг, связанный с отбором содержания заданий теста. Ведь всегда есть сомнения в том, что задания сделаны удачно. Всегда необходимо подтвердить тот факт, что содержание заданий «работает» на оценку значений концептуально выделенной переменной измерения. Причем для разрешения сомнений одной интуиции разработчика явно недостаточно. Как правило, обоснование качества содержания заданий требует систематических исследований, скрепленных общим замыслом и основанных на определенной методике. Если по результатам исследований становится ясно, что содержание большинства заданий позволяет локализовать положение испытуемых группы на выбранной шкале, то тест рассматривается как пригодный для оценки переменной измерения и есть все основания для вывода об успешной работе авторов теста.

Один из вариантов исследования основан на методах факторного анализа, с помощью которых можно структурировать содержание заданий теста, хотя и весьма эффективным, но все же довольно сложным путем. Другой метод, несомненно более удобный для повседневного употребления в процессе разработки тестов, рассмотрен в упомянутой ранее работе [59]. Он связан с визуальным анализом профилей ответов репрезентативной группы испытуемых на различные по трудности задания теста, и потому его можно трактовать как очередной этап визуализации результатов измерения.

Используемые во втором методе термины нуждаются в некоторых дополнительных пояснениях. В частности, необходимо конкретизировать представления о профиле ответов ученика на задания теста. Если за каждый правильный ответ на задание ученику давать один балл, а за неправильный ответ или пропуск задания — нуль баллов, то профиль ответов выглядит как последовательность единиц и нулей, полученных учеником при выполнении теста.

Когда задания в тесте ранжированы по нарастанию трудности, анализ характера упорядочения нулей и единиц в профиле ответов испытуемого дает ценную информацию о качестве его структуры знаний. Правильному профилю, где все нули следуют за всеми единицами, отвечает правильная структура знаний. Ученик без пропусков выполняет верно все, что знает, и получает только нули при выполнении более трудных, еще не освоенных им заданий теста. Если найдется ученик с высоким тестовым баллом, не сумевший выполнить правильно хотя бы одно легкое задание из начала теста, то возникает вопрос о несоответствии его структуры знаний требованиям педагога.

При оценке качества структуры знаний за основу естественно выбрать предположение: чем легче задание, тем вероятнее успех ученика при его выполнении. Возвращаясь к примеру на рис. 2.6 в рамках сделанного предположения, можно утверждать, что правильный профиль ответов испытуемого, справившегося успешно с тремя из четырех заданий теста, имеет вид: 1110.

Соответственно точка, локализующая значение истинного балла испытуемого на оси переменной, расположится правее первых трех легких заданий, но левее четвертого, самого трудного задания теста.

В случае появления нулей на местах, соответствующих более легким, чем четвертое, заданиям теста, возникают инвертированные профили, которые для рассматриваемого примера могут иметь вид: 1101, или 1011, или 0111.

Конечно, наиболее неправдоподобным является последний случай, когда испытуемый не справился с самым легким заданием теста. Для характеристики меры инвертированности профилей вводится специальный индекс структурированности знаний, который довольно удобно использовать при дифференциации по качеству подготовки учеников, выполнивших одинаковое количество заданий теста. Оценка значений индекса основывается на подсчете числа ошибок в профилях испытуемых и проводится по специальным формулам, применяемым в массовом тестировании за рубежом (в работе они не рассматриваются из-за риска отвлечься от основной темы обсуждения).

В некотором уточнении нуждается термин «репрезентативная группа», который в данном контексте обретает несколько непривычный смысл. В отличие от общепринятой трактовки здесь речь идет о группе учеников, охватывающих по уровню подготовки довольно широкий диапазон значений переменной измерения и обладающих по возможности правильной структурой знаний в рамках содержания теста. Последнее требование продиктовано желанием сузить круг различных причин, порождающих инверсии в профилях ответов учеников на задания теста. В результате появляется определенная уверенность в том, что большинство инверсий в профилях ответов учеников вызвано просчетами авторов при отборе содержания заданий, а не пробелами в знаниях тех, кто выполнял этот тест, и потому разработчику можно целиком сосредоточиться на оценке состоятельности содержания отдельных заданий теста.

Действительно, если репрезентативная группа испытуемых оценивается по одной, а не по нескольким переменным и задания теста ранжированы по нарастанию трудности, то появляется возможность проведения сравнительного анализа ошибок в инвертированных профилях ответов на задания теста. Внимательный осмотр элементов профилей, стоящих не на своих местах, позволяет выявить случаи явной несостоятельности содержания отдельных заданий теста.

В этой связи возникает вопрос дифференциации систематических и случайных ошибок. Поскольку различия между первым и вторым видами ошибок не носят явно выраженного критериального характера, то вводится простое нестрогое правило, которое легко соотнести с эмпирическими результатами выполнения теста. Например, если сильный ученик отвечает неправильно на легкое задание теста, то полученный нуль является, скорее всего, результатом случайной ошибки, описки либо простой невнимательности со стороны ученика, т.е. носит исключительно случайный характер. Совсем иначе обстоит дело в том случае, когда группа сильных учеников выполняет неправильно одно и то же легкое задание теста. Тогда ошибка имеет явный систематический характер, и потому возникает вопрос о несостоятельности задания. Как правило, ошибка бывает вызвана просчетами разработчика теста. Причины несостоятельности могут быть самыми разными. Чаще всего несостоятельность порождается тем, что содержание задания допускает двусмысленное толкование у хорошо подготовленных учеников либо вообще ориентировано на выявление других знаний и умений, не относящихся к оценке значений рассматриваемой переменной измерения.

Аналогичный вывод о несостоятельности можно сделать в том случае, когда группа слабо подготовленных испытуемых успешно справляется с каким-либо трудным заданием из конца теста. Правда, здесь единичные случаи правильных ответов слабых учеников могут быть следствием угадывания, списывания или других форм искажения данных. Однако, как и ранее, устойчивый характер алогичных результатов учеников указывает в основном на несостоятельность содержания отдельных заданий теста. Конечно, нет никаких сомнений в том, как поступить с несостоятельными заданиями. Вполне понятно, что они должны быть исключены из теста.

Термин «состоятельность» в педагогической литературе нередко заменяется другим достаточно близким по смыслу. В этом случае говорят не о состоятельности, а о валидности заданий, т. е. об их пригодности служить поставленной цели измерения. Таким образом, подводя итог сказанному, можно отметить, что включение в тест невалидных заданий порождает серьезные концептуальные трудности, связанные с необходимостью искать ответ на вопрос: в какой степени допустимо измерять данным набором заданий одну и ту же характеристику знаний учеников — концептуально выделенную переменную измерения?

В целом же при создании гомогенного теста следует стремиться к поиску заданий, валидных для измерения, главным образом, одного какого-либо свойства, и минимизировать соответственно число заданий, которые могут оказаться валидными для оценки других свойств.