Процесс научного обоснования качества теста предполагает оценку его надежности и валидности. Прогресс, достигнутый в зарубежных исследованиях критериев качества тестов, привел к многочисленным методам и подходам, которые не конкурируют между собой, а взаимно дополняют друг друга. Каждый из методов имеет свои достоинства и недостатки, свою область применения и свои особенности в интерпретации оценок качества тестов. Кроме того, необходимо также добавить информацию о принимаемом риске допустить в выводах ошибки, которые неизбежны при переходе от теоретических понятий о надежности и валидности к их статистическим оценкам, основанным на эмпирических результатах выполнения теста.
В связи с этим можно сделать два важных вывода. Первый — при оценке надежности и валидности не следует полагаться на единственную формулу, а надо пользоваться совокупностью методов, ориентированных на особенности разрабатываемого теста. Второй — любые оценки надежности и валидности выступают не как истина в последней инстанции, а лишь как правдоподобные утверждения, имеющие ту или иную степень достоверности.
Надежность гомогенных тестов
Надежностью (reliability) называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов. Следовательно, термин «надежность» имеет два значения. Во-первых, тест считается надежным, если он обеспечивает высокую точность измерений. И во-вторых, тест считается надежным, если он дает при повторном выполнении близкие результаты при условии, что подготовка ученика не изменилась за время до повторного выполнения теста.
В требовании проверки теста на надежность реализуется важная идея методологического характера, связанная с необходимостью обоснования качества тестовых измерений. Таким образом, качество тестовых измерений оказывается научно обоснованным в отличие от результатов традиционного контроля, обеспечивающего, как правило, довольно грубые, слабо дифференцированные оценки.
Постановка задачи, нацеленной на повышение точности измерений, предполагает существование истинного балла ученика и некоторой ошибки, неизбежно возникающей в процессе любых, в том числе и тестовых, измерений. Поэтому перед обсуждением методов подсчета надежности теста необходимо рассмотреть концептуальные подходы к определению истинного балла и стандартной ошибки измерения.
Концепция истинного балла
Оценка истинных баллов (true scores) испытуемых — главная цель любого создателя педагогического теста. Однако наивно и даже нелепо спрашивать, как достичь этой цели, поскольку любые результаты всегда содержат в себе ошибочные компоненты измерения. Так как преподаватель имеет дело только с фактически полученными результатами измерения, то в процессе создания и применения тестов всегда стоит задача не получить истинные баллы, а лишь как-то приблизиться к их наиболее достоверным оценкам.
Что касается определений самого понятия «истинный балл», то их несколько. Нередко истинным баллом называют параметр ученика, предполагая тем самым, что каждому ученику можно поставить в соответствие единственное на момент измерения значение параметра. Иногда истинный балл трактуют как предел среднего значения наблюдаемых баллов, достигаемый при бесконечном увеличении числа выполнения учеником одного и того же теста. В целом же можно считать, что истинный балл — это показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.
Понятно, что предлагаемые определения носят исключительно концептуальный характер, и поэтому возникают вполне естественные трудности, как всегда, при переходе от концептуальных понятий к их эмпирическим референтам. Сама идея перехода выглядит по-разному в классической и в современной теории тестов. Переход в IRT обеспечивается целой цепочкой алгоритмов и итерационных методов, в результате которых получаются оценки наибольшего правдоподобия, выполняющие функцию истинных баллов учеников. В классической теории тестов идея перехода много проще, она построена на уравнении линейной регрессии и приводится в конце данной главы.
Ошибка измерения
В теории педагогических измерений ошибка трактуется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла ученика. Ошибки измерения происходят по различным как контролируемым, так и неконтролируемым причинам и дифференцируются в зависимости от источника происхождения.
Среди различного рода ошибок можно выделить два наиболее важных типа: систематические и случайные. К систематическим относятся ошибки, порождаемые недостаточным качеством теста. Это те погрешности, которые неизбежно привносит любой разработчик теста в процесс создания и применения средства измерения.
Случайные ошибки происходят от особенностей поведения испытуемых, а не от заданий теста. Испытуемый может плохо себя почувствовать в процессе выполнения теста. Для некоторых в помещении слишком жарко или холодно. На результаты тестирования влияют скука, усталость либо волнение. Ученик может ошибаться при осмыслении формы задания или неверно понять инструкцию и по этим причинам указать неправильный ответ. В целом ошибки измерения влияют в ту или иную сторону на результаты тестирования, снижая надежность теста, которую рассматривают всегда исключительно в контексте случайных ошибок измерения.