Методы шкалирования и интерпретации результатов тестирования

Стандартизация и нормы

Эффективность тестовых оценок зависит не только от качества теста, но и от методов сравнения и интерпретации первичных (сырых) баллов испытуемых группы. Необходимость разработки методов интерпретации вызвана стремлением исследователей выявить истинные различия в уровне знаний испытуемых, сравнить результаты между собой даже в том случае, когда они получены по совершенно различным тестам. Само по себе это стремление продиктовано достаточно серьезной причиной, связанной с тем, что сырые баллы не дают информации о реальном уровне знаний. Один и тот же испытуемый может выглядеть по-разному на фоне более сильной или более слабой группы.

К примеру сказать, что кто-то выполнил правильно 15 заданий из 30 в тесте по физике — значит ничего или почти ничего не сообщить о результате выполнения теста. Поскольку это, может быть, хорошо, а может быть, и плохо. Если задания очень трудны и большинство учеников выполнило из них не более 10 в тесте, то результат 15 баллов, выставленный за 15 правильных ответов ученика, один из самых высоких. И поэтому, несомненно, ученик заслуживает отличной оценки. Совсем иначе интерпретируется этот же результат в том случае, когда большинство учеников выполнили не менее 25 заданий в тесте. Тогда 15 баллов — один из самых низких результатов, и поэтому испытуемому можно в лучшем случае выставить удовлетворительную оценку. Таким образом, интерпретация результата, его отнесение к категории плохих или хороших зависят от ряда факторов. Прежде всего от того, как распределились результаты остальных испытуемых, от трудности и от количества заданий в тесте.

Адекватность интерпретации достигается путем сопоставления первичного индивидуального результата с определенными нормами выполнения теста. Нормы — это множество показателей, которые устанавливаются эмпирически, сообразно тому, как выполняет задания теста некоторая четко определенная выборка испытуемых. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста. Наиболее распространенными нормами являются среднее арифметическое и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации (см. гл. 5). Соотнесение первичного результата испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста. При такого рода сопоставлении можно установить, соответствует ли данный результат среднему или насколько он выше, а может быть, ниже среднего результата выполнения теста.

К нормам предъявляют ряд требований [5]. Она должна быть:

• дифференцированной—ученики, работающие по разным программам, должны сравниваться исходя из разных норм. Например, нельзя установить одинаковые нормы выполнения теста по математике для учеников обычной школы и школы с углубленным изучением математики, поскольку норма должна отражать специфику программы подготовки учеников;

• соответственной, т.е. отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании;

• репрезентативной — предполагающей организацию репрезентативной случайной выборки, обеспечивающей несмещенные нормативные оценки.

Норма — весьма относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Поэтому при стандартизации теста особое внимание обращают на формирование выборки. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой погрешности измерений, чтобы ею можно было пренебречь в процессе стандартизации теста.

В практической работе по созданию теста часто бывает необходимо чем-то поступиться: уменьшить объем выборки либо снизить ее репрезентативность. При этом следует иметь в виду, что репрезентативность выборки более важна, чем ее размер. Для простого уменьшения стандартной ошибки вполне допустимо ограничиться выборкой из 200-300 испытуемых, сохраняя ее репрезентативность, поскольку маленькая, но репрезентативная нормативная выборка будет предпочтительнее, чем большая, но неравномерно представленная.

Равномерность достигается специальным процессом стратификации, который необходим, поскольку стратифицированная выборка более эффективна при том же объеме, чем случайная (рандомизированная). Обычно в качестве оснований для стратификации выделяют: социальное положение, географическую область, возраст, принадлежность к числу горожан или сельских жителей, обучение у определенного преподавателя и т.п. Стратифицированная выборка стандартизации должна отражать равные пропорции школьников, объединенных по сочетанию этих признаков.

Таким образом, можно сформулировать общие правила получения репрезентативной выборки стандартизации.

• Выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, отражающим обычно не более четырех уровней стратификации.

• В каждой подгруппе необходимо выровнять число испытуемых, установив какое-то число в качестве минимального для всех подгрупп. Для одной школы это число бывает небольшим — в пределах 50—100 учеников. В центрах тестирования обычно берут не менее 300 испытуемых в одной подгруппе. В последнем случае с учетом всех возможных сочетаний оснований для стратификации минимальный объем выборки стандартизации обычно бывает 12 000—15 000, хотя можно уменьшить число оснований для деления на подгруппы, снизив тем самым число возможных классификаций и затраты на стандартизацию теста.

Однако простое введение норм не решает в полной мере всех проблем, связанных с интерпретацией первичных результатов. Из-за того что в каждой выборке стандартизации рассчитываются свои средние арифметические и они часто могут заметно отличаться, возникает еще одна проблема интерпретации первичных результатов. Один и тот же балл в слабой выборке может оказаться выше среднего, а в сильной — значительно ниже.

Немалые затруднения вызывает проблема суммирования результатов, полученных испытуемым при тестировании по различным предметам. Обычно эта проблема возникает при подсчете проходного балла при зачислении абитуриентов, так как приходится суммировать практически несравнимые результаты, полученные в разной шкале оценок по отдельным тестам. При такого рода суммировании большой удельный вес приобретут оценки по более длинным тестам. Если, скажем, во вступительном тесте по физике 20 заданий, а в тесте по математике 40, то в сумме баллов, скорее всего, будут доминировать результаты абитуриента по математике, в то время как именно знания по физике, возможно, имеют решающее значение для последующего обучения в вузе. В этом случае суммирование и интерпретацию результатов испытуемых должна предварять процедура выравнивания путем перевода сырых баллов в одну из стандартных шкал, используемых в педагогических измерениях.