И критериально-ориентированного полхолов

С первого взгляда нормативно - и критериально-ориентированный подходы не имеют особых различий, по крайней мере, тех, которые наблюдаются явно, путем обычного осмотра заданий тестов. К другим, прямо противоположным, выводам приводит углубленный анализ существенных характеристик тестов, разработанных в рамках различных подходов. Результаты анализа указывают наряд особенностей, способствующих дифференциации подходов. В частности, нормативно - и критериально-ориентированные тесты отличаются по целям создания, методике отбора содержания, характеру распределения эмпирических результатов тестирования и методам их обработки, критериям качества тестов и тестовых заданий, а, главное, по интерпретации результатов испытуемых, выполнивших тест. В целом можно лишь сказать, что отличий много, и, по мнению специалистов, они существенны. Однако подробного анализа отличий в пособии проводиться не будет из-за риска отвлечься от основных целей обсуждения.

Правда, особого единства мнений здесь не существует. Некоторые исследователи считают, что четкого разграничения между критериально - и нормативно-ориентированными подходами практически нет. В принципе, результаты любого тестирования можно интерпретировать в рамках того или иного подхода, так как они нисколько не противоречат, а только взаимно дополняют друг друга.

Интерпретация результатов теста по отношению к определенному содержанию учебной дисциплины вовсе не снимает возможности дифференциации индивидуальных различий учеников. В свою очередь сам выбор объема содержания, подлежащего проверке, предполагает наличие сведений, связанных с нормативной интерпретацией учебных достижений школьников [33]. Поэтому некоторые тесты разрабатываются с расчетом на то, что результаты выполнения заданий можно соотносить как с нормами, так и с содержанием теста.

Из-за существующих различий разработка тестов, допускающих обе интерпретации результатов выполнения, очень трудна, хотя идея совмещения обоих подходов к интерпретации результатов тестирования чрезвычайно привлекательна. Действительно, дополняя друг друга, оба подхода позволяют создать наиболее информативный тест, в полной мере отвечающий обеим задачам итогового контроля знаний.

В заключение хотелось бы отметить, что критериально-ориентированные тесты имеют довольно ограниченную область применения. В основном они используются в тех случаях, когда можно четко определить знания, умения, навыки по конкретной области содержания и задать их верхний и нижний пределы. Например, критериально-ориентированные тесты просто необходимы для оценки уровня учебных достижений учащихся при сравнении его с требованиями, заложенными в государственных образовательных стандартах по отдельным дисциплинам или по группе учебныхдисциплин.

В более сложных и менее структурированных областях знаний, связанных с решением задач творческого уровня, определить верхний предел зачастую довольно сложно. В этом случае полное владение содержанием невозможно, да оно и не нужно. Иногда при выполнении заданий школьник руководствуется знаниями, а иногда все решают смекалка и догадка. Поэтому при создании тестов, предназначенных для контроля за выполнением задач творческого уровня, предпочтение следует отдавать нормативно-ориентированному подходу либо постараться совместить оба подхода в одном тесте [31].

классификация видов педагогических тестов

Сообразно рассмотренным задачам и функциям педагогических тестов выстраивается общий подход к классификации их видов (рис. 2.4).

Анализ классификационной таблицы позволяет выделить в качестве основополагающих четыре вида педагогических тестов. Среди них некоторые имеют подвиды и могут отличаться подходом к их разработке. Несомненно, все они достаточно важны для повышения качества подготовки школьников и требуют самого серьезного рассмотрения в специальной методической литературе для ознакомления с ними преподавателей и широкого внедрения в учебный процесс.

Конечно, предлагаемое пособие не может вместить все то, что хотелось бы написать по этому поводу. Для этого необходимо, по меньшей мере, несколько книг.

Поставленные цели при подготовке данной книги намного скромнее, и потому весь материал пособия сосредоточен вокруг рассмотрения методики разработки и применения, итоговых нормативно-ориентированных тестов. Именно для этого случая в следующем разделе предлагается сравнительно небольшой понятийный аппарат.

ОСНОВНЫЕ ОПРЕАЕЛЕНИЯ

Необходимость создания четкого научного фундамента для разработки тестов не всегда понятна преподавателям-практикам. Отчасти это объясняется кажущейся простотой вопросов разработки; нередко любой набор заданий, стандартизованных согласно требованиям тестовой формы, в обыденном представлении ассоциируется с тестом. Обыденное сознание исходит при этом из аналогии с привычными короткими контрольными заданиями, а вовсе не из определения научно обоснованного теста. Такие псевдотесты сплошь и рядом публикуются в специальных сборниках, а иногда применяются даже в отдельных аттестационных центрах. При этом зачастую без всяких оснований, априорно авторы подобных псевдотестов претендуют на соответствие их продукции научно обоснованным критериям качества, на точность и объективность обеспечиваемых их тестами оценок учеников. Однако эти априорные заявления обычно не подкрепляются практикой. На деле несоответствие псевдотестов научно обоснованным критериям качества сплошь и рядом приводит к искажению реальной картины подготовки выборки, к неправильным выводам относительно эффективности работы отдельных преподавателей или группы педагогов, к дискредитации возможностей тестов.

В целом псевдотесты наносят большой ущерб внедрению идей теории педагогических измерений в практику контроля, порождая пессимистическое отношение многих педагогов к возможностям тестовых методов. Особенно недоверчиво к «тестам» относятся опытные педагоги. Это далеко не случайно, так как именно они в первую очередь замечают нередкие случаи расхождения некорректных тестовых баллов и их собственных оценок, которые благодаря большому опыту носят вполне объективный характер. По сути, здесь виноваты не тесты, а отсутствие таковых, однако этого обстоятельства часто не замечают и отождествляют недостатки псевдотестов с недостатками настоящих тестов.

Изменению этой ситуации в немалой степени может способствовать разработка соответствующего понятийного аппарата теории педагогических измерений. Если удастся создать определение, содержащее существенные признаки теста, выполняющее не просто ориентирующую функцию, а служащее целям демаркации тестов от псевдотестов, то проблема будет решена. Появится действенный инструмент для дифференциации профессионально разработанных тестов от остальных средств контроля. Таким образом, необходимость корректного понятийного аппарата диктуется самой практикой. Только так можно найти в сфере практики действенное средство защиты от псевдотестов.

Проблемы трудности и подходы

Вопрос необходимости создания понятийного аппарата для прогресса науки об измерениях, в общем, понятен и в отличие от случая практики не нуждается в обосновании. Важнее другое — как создавать и каким путем? Например, можно попытаться ввести общее определение педагогического теста, а затем в процессе углубленного анализа развернуть это общее определение в ряд детализирующих, более мелких определений, нацеленных на отдельные существенные признаки теста. Многочисленные примеры подобного подхода легко найти в учебных пособиях, и не только по тестовой проблематике [2].

Но существует и другой, противоположный путь, не получивший должного отражения в работах исследователей в области педагогических измерений, несмотря на то что он в гораздо большей степени отвечает требованиям логики научного подхода. В этом случае адекватное построение понятийного аппарата достигается созданием системы вложенных определений, соответствующих переходу с более низкого уровня исследований на более высокий, обобщенный. Таким образом, процесс формирования определений идет путем обобщения, а не дробления, иначе говоря, не сверху вниз, а снизу вверх, от основных исходных определений и перво-понятий к производным, обобщенным.

К выбору второго подхода в качестве ведущего авторов данного пособия подтолкнуло еще одно соображение, связанное с попыткой уйти от чрезмерной детализации, характерной для многих определений в теории педагогических измерений. Сказанное, конечно, не следует понимать как призыв к полному отказу от множества признаков, необходимых для разъяснения сущности определений. Просто при создании понятийного аппарата хотелось бы не забывать о том, что громоздкость определений приводит к снижению их функциональности, а краткость, наоборот, способствует лучшему пониманию, особенно теми, кто действует в сфере практики создания тестов.

Стремление к краткости осложняется спецификой ряда определений теории педагогических измерений, которые громоздки изначально, по своей природе. Ситуация далеко не случайная, она предопределена сложностью рассматриваемых объектов. Общеизвестно, что чем сложнее объект, тем труднее описать его с помощью ограниченного числа признаков и характеристик (ситуация далеко не единичная, она нередко возникает в теоретической деятельности по созданию понятийного аппарата ряда других наук). В научном обиходе подобные сложные определения выделяют в отдельный класс и используют при их создании специальный прием, заключающийся во введении обобщающих слов для обозначения группы признаков или характеристик. Соответственно возникает необходимость в дополнительных разъяснениях по расшифровке обобщающих слов, которые обычно приводятся после формулировки самого определяемого понятия. Именно по этому распространенному пути пришлось пойти в данном пособии при введении совокупности взаимосвязанных определений — основных, исходных и производных. По мнению авторов, предлагаемые определения отличаются от других функциональностью, корректностью, краткостью без потери существенности выделяемых признаков понятий.

предтестовое задание

Каждое из определений приобретает особую важность на различных этапах разработки теста. Исходным является определение предтестового задания, содержащее ссылки на определенные специфические требования, которые выступают в качестве критериев демаркации предтестового задания от традиционных контрольных заданий.

Определение 1. Предтестовое задание — это единица контрольно го материала, содержание, логическая структура и форма представ ления которого удовлетворяют ряду специфических требований и обес печивают однозначность оценок результатов испытуемых в выбранной шкале.

Лучшему пониманию определения способствует краткое истолкование его основных положений. При формировании требований к содержанию всегда возникает вопрос о цели создания теста и выборе подхода к интерпретации результатов его выполнения. В рамках выбранного подхода специальными методами проводится анализ содержания учебного курса, позволяющий выделить содержание предтестовых задании. Они интегративно охватывают систему знаний по контролируемому курсу и включают опорные структурные элементы курса.

Именно отсюда проистекает первое преимущество предтестовых заданий, содержание которых отбирается преподавателем не интуитивно, как при традиционном контроле, а на основе специального анализа, выдвигающего ряд научно обоснованных требований в процессе отбора. (Эти требования и методика отбора единиц контролируемого материала рассматриваются в гл. 3.) В целом содержание предтестового задания не должно быть тривиальным. Правильный ответ на него должен предполагать знание существенных элементов содержания дисциплины. Последнее требование полностью исключает возможность правильных ответов, основанных на простых логических рассуждениях или здравом смысле [43].

Требования, предъявляемые к предтестовым заданиям, можно условно разделить на специальные, отражающие специфику формы заданий, и общие, инвариантные относительно выбранной формы [53]. К числу последних принадлежат следующие:

• наличие порядкового номера задания, установленного согласно априорной оценке трудности задания и выбранной разработчиком стратегии предъявления заданий теста;

• наличие стандартной инструкции, адекватной форме предтестового задания;

• расположение элементов задания и инструкции на определенных местах, фиксированных в рамках выбранной формы;

• наличие эталона правильного ответа к заданию и правила для оценки результатов его выполнения.

В отличие от общих специальные требования довольно многочисленны (они представлены в гл. 4, посвященной требованиям тестовой формы).

Преимущества предтестовых заданий обеспечиваются их четкой логической структурой. Предтестовое задание формулируется так, чтобы в его структуре была заложена возможность прямого ответа. Для этого в нем заранее определяется то, что однозначно считается правильным ответом с заранее заданной степенью его полноты. В отличие от предтестовых заданий традиционный контрольный материал порождает многословные ответы, разные по содержанию, по структуре и по степени правильности. Это обстоятельство значительно затрудняет оценку результатов испытуемых в процессе традиционного контроля, в то время как хорошо разработанные предтестовые задания обеспечивают простоту оценки ответа ученика благодаря наличию готового эталона для сравнения. Таким образом, для предтестовых заданий, как правило, исключаются правильные и неправильные в разных отношениях и в разной степени ответы.

Реализации семантических преимуществ предтестовых заданий, несомненно, в ряде случаев способствует формулировка условия в виде утверждения, а не вопроса [23]. Переход к форме высказывания позволяет минимумом средств добиться максимальной ясности смысла, поскольку удачно сформулированные в форме утверждения предтестовые задания с выборочными ответами по сравнению с вопросами гораздо более малословны и не порождают разных по содержанию и по структуре правильных ответов. Конечно, абсолютизировать возможности утвердительной формы нет никаких оснований. Встречаются, хотя и довольно редко, задания, содержание которых гораздо короче и понятнее можно выразить именно в виде вопроса. Тем более нет оснований для включения подобных рекомендаций в состав определений, как это сделано в некоторых пособиях по тестовой проблематике [2], поскольку логическая форма утверждения не является существенным признаком любого предтестового задания и не отражает необходимую идею инвариантности определений относительно тестовой формы.

тестовое задание

Качеству предтестовых заданий и степени их соответствия требованиям формы можно дать по-своему полезные априорные оценки, которые явно недостаточны с точки зрения общенаучного подхода, предполагающего эмпирическую проверку априорных суждений. Отсюда проистекает обязательность эмпирической проверки заданий, по результатам которой определенная часть предтестовых заданий превращается в тестовые, а оставшаяся часть удаляется из теста.

Определение 2. Предтестовое задание называется тестовым, если апостериорные количественные оценки его характеристик удовлетворяют определенным критериям, нацеленным на проверку качества содержания, формы и на выявление системообразующих свойств за даний теста.

Как видно из определения 2, далеко не каждое предтестовое задание может быть тестовым. Для этого требуются многочисленные проверки и улучшения иногда содержания, иногда формы, а иногда и того и другого. Таким образом, предтестовое задание превращается в тестовое после доведения его характеристик до уровня, соответствующего определенным научно обоснованным критериям качества.

Исследование системообразующих характеристик тестового задания проводится методами корреляционного, факторного и латентно-структурного анализа. В частности, методами факторного анализа можно оценить некоторые аспекты качества содержания заданий теста. Однако что касается интерпретации результатов анализа, то здесь нет и не может быть готовых правил и рекомендаций, пригодных на все случаи разработки тестов, поскольку интерпретация оценок — это всегда достаточно сложная аналитическая работа, результаты которой зависят от множества условий, в том числе и от вида создаваемого теста.

Одно из важнейших требований к характеристикам тестового задания связано с оценкой величины корреляции задания с критерием. Для итоговых тестов, разрабатываемых в рамках нормативно-ориентированного подхода, в качестве критерия обычно выбирается сумма индивидуальных баллов испытуемых по заданиям теста. Величина коэффициента корреляции является показателем валидности задания теста. (Значения коэффициента корреляции, позволяющие отнести тестовое задание к категории валидных, а также формулы для подсчета коэффициента приводятся в гл. 5.) В целом же можно считать, что, чем выше корреляция, тем более валидным является задание, тем больше оснований для отнесения его к категории тестовых и последующего включения в тест. Однако это утверждение относится не ко всем, а только к отражающим различное содержание заданиям теста [5,11,43].

Конечно, нет никакого смысла включать в итоговый тест задания, имеющие одинаковое или сходное содержание и подменяющие друг друга в процессе проверки. Учитывая это обстоятельство, можно сформулировать еще одно требование. Оно связано с выявлением степени отличия содержания данного задания от содержания остальных и нацелено на повышение специфичности каждого задания теста. При этом можно руководствоваться простым правилом: чем меньше задание коррелирует с другими, тем выше специфичность его содержания, тем больше оно отличается от других заданий теста.

Определенные ограничения на подбор тестовых заданий накладывает требование аксиомы локальной независимости, согласно которой вероятность правильного выполнения каждого задания испытуемыми одного уровня подготовки не должна зависеть от вероятности правильного выполнения остальных заданий теста [46]. Конечно, в чистом виде требование аксиомы не может быть выполнено, однако оно, несомненно, исключает цепочную логику, когда ответ на предыдущее задание входит в число данных к последующему заданию теста.

Есть определенные требования к оценкам параметров тестового задания. В первую очередь, это утверждение касается параметра трудности и параметра дифференцирующей способности, оценки которых должны обладать свойством инвариантности относительно уровня подготовленности тестируемой группы. Если судить по приведенному требованию, то для отнесения задания к категории тестовых необходима тщательная эмпирическая проверка, сопровождаемая специальной обработкой и развернутым анализом результатов обработки эмпирических данных выполнения теста.

Еще одно требование связано с анализом информационных и характеристических кривых тестовых заданий, построение которых также основано на эмпирических результатах выполнения теста и предполагает использование математического аппарата теории латентно-структурного анализа. Согласно требованию каждое тестовое задание должно обладать известной характеристической кривой с приемлемой формой и подходящим расположением, обеспечивающим в совокупности с другими кривыми планируемый при создании геометрический образ теста [31,46,47].

Помимо характеристической, каждому тестовому заданию можно поставить в соответствие информационную кривую, которая дает представление о точности оценок испытуемых различного уровня подготовки в том гипотетическом случае, когда измерение осуществлялось с помощью только одного данного задания теста. (Подробная методика и алгоритмы построения кривых приводятся в гл. 5.)

Из перечисленных выше тестологических требований вытекает обязательность многократных эмпирических проверок и переработок предтестовых заданий до тех пор, пока они не обретут статус тестовых. Каждая проверка должна сопровождаться обработкой эмпирических результатов и их интерпретацией путем соотнесения с научно обоснованными требованиями к характеристикам тестовых заданий. Выполнение всех требований и общая принадлежность тестовых заданий к одной и той же системе дают основание для их объединения в тест.

Педагогический тест

В отличие от первых двух определений, довольно инвариантных относительно целей создания тестов, определение педагогического теста ориентировано на конкретные цели и подходы. В частности, для случая оценки итоговых достижений по одной из учебных дисциплин в рамках нормативно-ориентированного подхода определение теста может иметь следующий вид.

Определение 3. Итоговый нормативно-ориентированный тест — это система тестовых заданий, упорядоченных в рамках определенной стратегии предъявления и обеспечивающих информативность оценок уровня и качества подготовки испытуемых.

Предложенное определение отличается от многих других, имеющихся в отечественной и зарубежной литературе. В основном оно предназначено для гомогенного теста, обладающего дисциплинарной общностью заданий, однако с определенными оговорками и дополнениями может быть использовано и для гетерогенного теста, охватывающего систему знаний по нескольким учебным дисциплинам. В последнем случае необходимо изменить требования к характеристикам тестовых заданий. Другой будет и стратегия их упорядочения в тесте. В отличие от гомогенного теста, где задания чаще всего располагаются по нарастанию трудности, в гетерогенных тестах сохранение принципа нарастания трудности выражается, как правило, в так называемой спиральной или ступенчатой форме.

Гетерогенные тесты бывают двух заметно отличающихся друг от друга видов: полидисциплинарные и междисциплинарные [33]. Полидисциплинарные тесты просты в концептуальном отношении и состоят из гомогенных субтестов по отдельным дисциплинам. Сложности, которые здесь возникают, обычно носят исключительно технический характер и связаны с объединением результатов учеников по субтестам для подсчета итоговых баллов по всему полидисциплинарному тесту.

Междисциплинарные тесты гораздо сложнее в концептуальном отношении, но зачастую кажутся проще полидисциплинарных в техническом отношении, особенно на начальном этапе работ по созданию теста. Однако эта кажущаяся легкость оборачивается значительными трудностями, которые нередко становятся непреодолимыми при интерпретации результатов выполнения теста, что приводит к профанации самой идеи междисциплинарной оценки. Сложность интерпретации здесь видится в том, что оцениваемые знания и умения относятся к разным учебным дисциплинам и задействуют их в разной степени.

При правильном подходе междисциплинарность должна найти свое отражение в содержании всех заданий, для выполнения которых потребуется применение некоторых обобщенных, интегративных знаний и умений. Включение в тест междисциплинарных заданий заставляет искать ответ на вопрос: в какой степени разработанные задания пригодны для оценки измеряемых интегративных свойств и насколько они надежны? Обычно ответ на этот вопрос требует довольно серьезных усилий со стороны разработчика теста.

В целом разработка гетерогенных тестов требует обращения к специальным достаточно сложным вопросам репрезентации структуры междисциплинарных знаний математико-статистическими методами многомерного шкалирования и в данном пособии не рассматривается. Обращение к многомерным статистическим методам вынудило бы авторов книги значительно расширить используемый математический аппарат и, несомненно, сузило бы круг заинтересованных читателей. Поэтому вопросы, связанные с гетерогенными тестами, осознанно исключены из рассмотрения.

Возвращаясь к определению гомогенного нормативно-ориентированного теста, необходимо подчеркнуть главную идею — тест образует не любая система заданий, а только та, которая обеспечивает информативные оценки уровня и качества подготовки испытуемых группы. Критерий информативности является ключевым в оценке качества теста, вернее, той грани качества, которая характеризует способность теста выполнять функцию средства измерения в рамках нормативно-ориентированного подхода для данной выборки учеников.

Оценка информативности носит апостериорный характер. Она построена на подсчете дифференцированной ошибки измерения уровня подготовки каждого испытуемого группы и выявлении дифференцирующего эффекта теста. Что касается ошибки измерения, то здесь намечается обратно пропорциональная зависимость, которая не только описывается специальной математической формулой, но и хорошо согласуется с обыденным смыслом. Чем меньше ошибка измерения уровня подготовки каждого испытуемого группы, тем больше информации о знаниях или умениях ученика можно получить с помощью данного теста. Если ошибка измерения, полученная при оценке подготовки испытуемого, велика, то тест не дает информации о реальном уровне его подготовки и, следовательно, цель измерений не достигнута.

Оценка дифференцирующего эффекта связана с анализом распределения тестовых баллов испытуемых группы. Оценка может быть проведена достаточно простым путем визуального анализа гистограммы. Более сложный путь основан на оценке близости эмпирического распределения к нормальному закону с помощью одного из известных критериев нормальности распределения [36]. Если гипотеза о нормальности не подтверждается и тестовые баллы учеников слабо дифференцированы, то тест не состоялся, поскольку не выполняются основные требования нормативно-ориентированного подхода.

Из этих утверждений следуют два важных вывода. Первый — нет и не может быть тестов информативных вообще, так как оценка информативности зависит не только от характеристик тестовых заданий, но и от уровня подготовки тестируемой группы. Второй — для оценки информативности заданий необходимы эмпирические исследования качества теста на репрезентативной выборке учеников. Таким образом, информативность следует рассматривать как меру пригодности теста для выполнения функций средства измерения и дифференциации оцениваемой выборки учеников.

В целом хотелось бы отметить, что в предлагаемом определении выделяется наиболее важное преимущество теста, выгодно отличающее его от традиционных средств оценки знаний учащихся. Это преимущество связано с тем, что только тест является качественным средством педагогического измерения, поскольку именно в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Работа над повышением качества теста консолидирует систему тестовых заданий — постепенно нарастает внутренняя связь и целостность, интегративность системы, совершается переход от совокупности предтестовых заданий к профессионально разработанному тесту.