стандартизация теста
В рамках первого, нормативно-ориентированного, подхода разрабатываются тесты для сравнения учеников по уровню учебных достижений. Сравнимость достигается путем сопоставления результата каждого учащегося с результатами других, выполнявших тот же самый тест. Сообразно двум подходам к интерпретации результатов тестирования выстраиваются два подхода к созданию педагогических тестов. Оба они перспективны и важны, имеют свою сферу применения, свои преимущества и недостатки.
В нормативно-ориентированном подходе при интерпретации результатов возникают определенные трудности, так как относительная позиция испытуемого может быть неточно или даже неправильно определена. Очевидно, что испытуемый будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания ученика, выполнившего правильно в тесте всего 30 заданий из 60 в том случае, если группа слабая и 70%, а то и 80% испытуемых группы сделали меньшее число заданий теста. Тот же самый результат ученика, но в другой, сильной группе будет отнесен к категории довольно низких, если только 10—20% испытуемых группы сделали правильно 30 заданий, а все остальные значительно превысили этот результат. В этой связи возникает вопрос об истинной оценке результата каждого учащегося, выполнившего тест.
Многолетние попытки получить ответ на этот вопрос привели к идее установления норм, т. е. системы показателей, отражающих результаты выполнения теста большой группой (выборкой) испытуемых [5]. Нормы нельзя придумать или задать априорно, они устанавливаются эмпирически. Например, для школьных итоговых тестов нормы выбирают сообразно тому, как выполняет тест представительная выборка учеников. К числу наиболее важных показателей обычно относят средний уровень выполнения и вариативность результатов выборки.
Процесс определения норм называется стандартизацией теста. Стандартизация осуществляется на представительной или, как говорят специалисты, репрезентативной выборке испытуемых, процесс формирования которой является обязательным моментом при определении норм теста. По окончании стандартизации у педагога появляется возможность сравнить тестовый балл каждого испытуемого с установленными нормами и таким образом оценить место результата каждого ученика в распределении баллов нормативной выборки по тесту. Подсчет показателей достаточно прост. При наличии определенных навыков и репрезентативной группы учеников определение норм либо их уточнение может быть осуществлено любым разработчиком или пользователем теста. (Примеры подсчета показателей будут рассмотрены дальше в гл. 5.)
В процессе сравнения индивидуальных баллов учеников с нормами выполнения теста первичный результат каждого испытуемого обычно переводится в некий относительный, производный показатель, позволяющий несколько расширить возможности интерпретации результатов выполнения теста.
Таким путем можно повысить сопоставимость баллов и сделать выводы о достижениях испытуемых по набору тестов, имеющих разные нормы их выполнения. Однако здесь легко допустить ошибку. Относительная позиция испытуемого в тестах по различным дисциплинам может быть неверно интерпретирована из-за несопоставимости тестовых норм, возникающей при стандартизации тестов на различных по подготовке выборках. Например, ошибочным будет результат сравнения оценок ученика по курсу химии и по математике, если один из этих тестов проходил стандартизацию на выборке московских школьников, а другой — на выборке школьников Краснодара либо на любой другой по подготовке выборке школьников той же Москвы.
Понятно, что разные выборки дают разные нормы, и потому при сравнении результатов ученика по разным тестам легко получить неправильный ответ. Таким образом, сопоставимость результатов испытуемого по различным тестам или групп испытуемых достигается далеко не всегда, а только в том случае, если для стандартизации тестов использовались сходные нормативные выборки, обеспечивающие сопоставимость норм различных тестов.
Стандартизация предполагает единообразие не только оценок, но и всей процедуры выполнения теста. Помимо норм разработчик должен дать точные указания относительно формы предъявления теста, оптимального времени его выполнения, устных инструкций и ряда других деталей, влияющих на результаты выполнения теста. Необходимо указать состав выборки стандартизации и ее особенности, смещающие представления о нормативных результатах в сторону завышения или занижения.
При этом следует иметь в виду, что тестовых норм, пригодных для интерпретации результатов всех учеников, не существует вообще. Область применимости любой нормы ограничивается конкретной совокупностью испытуемых, для которых она вырабатывалась. Поэтому нормы никоим образом не абсолютны и не постоянны. Они просто отражают результаты выполнения теста испытуемыми из выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.
При разработке и применении тестовых норм особое внимание обращается на выборку стандартизации. Для обеспечения стабильности значений норм выборка должна быть достаточно большой и представительной. Например, если хотят установить нормы выполнения теста по химии для школьников Москвы и Московской области, то нужно протестировать не менее 200-300 учащихся в каждой из нескольких школ, расположенных как в Москве, так и в области, а затем объединить в равных пропорциях все результаты. При этом другая выборка из учащихся этих же школ не должна приводить к нормам, заметно отличным от предыдущих. Некоторые различия норм, без сомнения, будут существовать, однако они не должны быть слишком велики. В противном случае объем выборки необходимо увеличивать и определять новые нормы до тех пор, пока не наступит их стабилизация.
С точки зрения интерпретации результатов каждого испытуемого нормы мало чего стоят, если они неустойчивы и определены с большой выборочной ошибкой. Поэтому процесс увеличения объема выборки и переопределения норм необходим, и только по его завершении есть основания считать, что разработчиком создан стандартизованный тест в рамках нормативно-ориентированного подхода. Процесс установления норм занимает довольно длительное время, иногда до нескольких лет. Особенно в тех случаях, когда содержание теста ориентировано на какие-либо специальные знания, степень владения которыми можно проверить одновременно у очень небольшой группы учеников.