Основные типы шкал в педагогических измерениях

Шкала—средство фиксации результатов измерения свойств объектов путем упорядочения их в определенную систему чисел, в которой отношение между отдельными результатами выражено в соответствующих числах. В процессе упорядочения каждому элементу совокупности наблюдаемых эмпирических данных — результату выполнения теста — ставится в соответствие определенный балл (шкальный индекс), устанавливающий положение результата на шкале.

Определение. Операция упорядочения исходных эмпирических дан ных путем перевода их в шкальные носит название шкалирования.

Процесс шкалирование состоит в конструировании шкалы по определенным правилам и включает два этапа. Первый — сбор эмпирических данных. Второй этап — обработка и анализ, по результатам которого строится числовая система, представляющая собой шкалу.

В педагогических измерениях шкалы различаются в зависимости от характера свойств, лежащих в основе их построения. В качестве таких свойств выделяют: идентичность, позволяющую однозначно относить объекты к одной из выделяемых категорий; транзитивность, способствующую ранжированию объектов в определенном порядке; метричность, обеспечивающую единую единицу измерения; наличие абсолютного нуля [9].

Наиболее общая классификация шкал предложена С. Стивенсом и приводится на рис. 7.1, где дана подробная характеристика уровней измерения.

Самая элементарная форма измерения — это номинальная шкала, или шкала наименований, обладающая только первым свойством.

Рис. 7.1. Классификация шкал по С. Стивенсу

В этой шкале каждому оцениваемому объекту в соответствии с каким-либо свойством приписывается наименование или число. Арифметические действия с числами в номинальной шкале не имеют смысла, между ними не устанавливается отношение порядка, числа применяются только для наименования объектов.

Существуют два типа номинальной шкалы. В шкале первого типа каждому объекту приписывается число. Каждое число представляет отдельного человека (объект), и между объектами есть различие, так как числа присваиваются некоторым образом. Второй тип номинальной шкалы особенно широко применяется в педагогической практике. Он связан с классификацией учащихся по группам в соответствии с каким-либо признаком, после чего число или наименование приписывается не отдельному учащемуся, а группе учеников. Например, в процессе проверки соответствия подготовки выпускников школы требованиям образовательных стандартов появляется группа аттестованных и группа не аттестованных учеников.

Вообще, при применении шкалы классификации можно обойтись и без чисел. Объектам приписывают буквы или какие-то другие обозначения, например оценки в зачетной книжке студентов «зачет» — «незачет». С помощью номинальной шкалы можно измерять только качественные признаки, поэтому обработку количественных данных следует проводить не с самими этими числами, а с удельными весами количества объектов данного класса. В этой шкале допустимы следующие статистические операции:

• расчет частот (удельных весов) объектов данного класса;

• определение моды изучаемого признака.

В порядковой шкале вводятся числа и отношение «больше—меньше», поэтому по числу, соответствующему оцениваемому объекту, можно узнать о месте объекта в совокупности. Например, по результатам экзаменов можно приписать ранги каждому ученику, но только в пределах той группы, где проводился экзамен. Пятибалльная шкала, по которой сейчас выставляются оценки в школе, является частным случаем порядковой. В ней все ученики делятся на отдельные группы. Например, группа троечников может включать довольно много учеников, объединенных вместе и никак не ранжированных внутри своего объединения. Таким образом, внутри каждой группы нет никакого порядка, он устанавливается между отдельными группами, которые обычно распределяются по степени нарастания определенного признака, правда, не всегда. Например, при ранжировании спортсменов лучший как раз получает место с минимальным номером один.

Вполне понятно, что не следует проводить сложение и вычитание номеров мест ввиду неопределенного смысла получаемого результата. Однако этой прописной истины придерживаются далеко не всегда. В сфере образования был период, когда директору любой школы немало хлопот доставлял так называемый средний балл, который рассматривался как важный показатель качества работы школы. При этом как-то забывалось о том, что арифметические действия с номерами мест групп школьников недопустимы, и потому средний балл нисколько не отражает объективных закономерностей результатов учебного процесса. Никому и никогда не приходило в голову искать средний результат команды спортсменов, занявших определенные места, зато на протяжении ряда лет безответственно по среднему баллу сравнивались результаты работы педагогических коллективов, что, конечно, нередко приводило к неоправданным выводам, наносящим зримый ущерб качеству учебного процесса. При измерении признака в порядковой шкале возможны только монотонные преобразования, допускающие умножение на постоянный множитель, возведение в степень и извлечение корня, и некоторые статистические операции. В частности, в порядковой шкале в качестве средней оценки используют медиану, меры рассеяния — квантили, в качестве меры связи двух признаков — ранговый коэффициент корреляции.

В порядковой шкале измеряются только качественные признаки. Объекты оцениваются с точки зрения отношения равенства между ними или отношения «больше меньше», а расстояния между объектами не имеют никакого смысла. По оценкам в порядковой шкале можно ранжировать учащихся, но делать вывод о том, насколько один лучше другого, нельзя в силу отсутствия единицы измерения. Сравнимость результатов учеников достигается в интервальной шкале.

Интервальная шкала, включающая первые три свойства, позволяет преодолеть недостатки номинальной и порядковой шкал, поскольку в ней определено расстояние между объектами и предусмотрена общая для всех объектов постоянная единица измерения. Интервальная шкала — количественная. В ней возможны все арифметические действия над числами, кроме деления. Таким образом, в интервальной шкале нельзя определить, во сколько раз один объект больше или меньше другого. Например, если ученик ответил правильно на 30 заданий, то это не означает, что он знает вдвое больше ученика, ответившего на 15 заданий теста.

Недостатком этой шкалы является неизвестность абсолютного нуля. Например, при оценке выполнения учащимся теста нуль верных ответов не означает полного отсутствия знаний. В интервальной шкале допустимы почти все статистические операции, кроме тех, которые предполагают знание «истинно» нулевой точки шкалы. Поэтому в интервальной шкале нельзя использовать такие характеристики, как средняя геометрическая и коэффициент вариации исследуемого признака.

Шкала отношений, удовлетворяющая всем четырем свойствам, позволяет получить самый высокий уровень измерения. Здесь можно определить отношение чисел, приписываемых объектам. В шкале отношений в качестве отсчета выбран абсолютный нуль. В ней можно выполнять все арифметические и статистические операции. Так же как и интервальная, она позволяет производить количественные измерения.

Уровни измерения и числовые характеристики, используемые на данных уровнях, приведены в табл. 7.1. Из этой таблицы видно, что переход от одного уровня к другому сопровождается расширением класса допустимых математико-статистических операций. Как следует из табл. 7.1, наилучшей является шкала отношений, которую на сегодняшний день удалось реализовать только в рамках физических измерений.

Исходя из приведенных выше рассуждений можно сделать вполне определенный вывод: не следует стремиться к традиционным средствам контроля, не обеспечивающим сопоставимых количественных оценок в интервальной шкале. Хотя и с тестами дело обстоит не столь благополучно, как казалось в те годы, когда за рубежом создавались первые педагогические тесты для массового внедрения в учебный процесс.

Говоря о преимуществах тестовых методов, связанных с возможностью получения количественных сопоставимых оценок, следует специально отметить, что они проявляются не всегда и не везде. Во-первых, не всякий тест лучше экзамена, а только тот, который обладает высокой надежностью и позволяет построить по эмпирическим результатам его выполнения устойчивую шкалу.

Во-вторых, наблюдаемые результаты выполнения теста (сырые баллы испытуемых) не обеспечивают сопоставимости. Для сопоставимости необходимо произвести шкалирование сырых баллов путем перевода их в одну из специальным образом подобранных стандартных производных шкал.

В-третьих, при переходе к шкалированным показателям испытуемых желательно пользоваться методами современной теории тестов — теории IRT (см. подробнее гл. 5), поскольку именно теория IRT обеспечивает перевод сырых баллов в интервальную шкалу.

Таблица 7.1. Уровни измерений и их характеристики

Уровень измерения (шкала)	Основная операция, определяющая уровень	Допустимое преобразование	Математические и статистические величины, вычисление которых допустимо на данном уровне
Номинальный (номинальная)	Приписывание одинаковых чисел (наименований) объектам, имеющим общий признак	X_i =f(x), где f(х) — замена одного числа другим	Мода, процентные частоты, доли, коэффициент связи, коэффициент различия — квадрат
Ординальный (ранговая, порядковая)	Ранжирование объектов по выраженности определенного признака	Х₁ =f(x), где f(х) — любая монотонно возрастающая функция	Мода, медиана, квантили, квартили (процентиль, дециль, квартиль и др.), ранговые коэффициенты корреляции, дисперсионный анализ
Интервальный (интервальная)	Определение величины различия между объектами	Любые, кроме деления величин	Мода, медиана, квантили, ранговые критерии, выборочная средняя, дисперсия, стандартное квадратичное отклонение, коэффициент корреляции
Измерение отношений (отношений)	Определение равенства отношений величин	Любые	Все арифметические операции, все понятия и методы математической статистики

Классическая теория тестов и рекомендованные в ее рамках линейные преобразования сырых баллов повышают сопоставимость результатов испытуемых, но не меняют природу порядковой шкалы наблюдаемых результатов выполнения теста. Именно это соображение нередко склоняет разработчиков к выбору IRT в качестве основополагающей при конструировании тестов, несмотря на отдельные трудности технического характера, связанные с необходимостью применения специальных математических методов и моделей.