Производные показатели можно подразделить по своему назначению. Одни из них служат для определения достигнутого уровня подготовки в определенной шкале, а другие — для установления относительного положения испытуемого в некоторой нормативной группе. В частности, решению второй задачи служат процентили, позволяющие установить ранг первичного показателя испытуемого в нормативной группе [5]. Ранг показателя в процентилях определяется процентной долей испытуемых из выборки стандартизации, результаты которых не выше данного первичного показателя. Процесс построения шкалы процентилей состоит в определении процентильных рангов первичных показателей нормативной группы.
Метод построения шкалы процентилей можно рассмотреть на небольшом примере результатов выполнения теста группой из 25 испытуемых, хотя, конечно, маловероятно встретить такую выборку в практике. Обычно построение этих шкал выполняется на больших массивах. Пусть, например, 25 тестируемых учащихся по одному из предметов получили первичные результаты, представленные в табл. 7.2:
Таблица 7.2. Результаты испытуемых
Сырые баллы испы туемых | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
Частоты | 1 | 1 | 2 | 2 | 3 | 4 | 3 | 4 | 3 | 2 | 2 | 1 | 1 |
Кумулированные частоты | 1 | 2 | 4 | 6 | 9 | 13 | 16 | 19 | 21 | 22 | 23 | 24 | 25 |
Процентильные ран ги | 1 | 6 | 12 | 20 | 30 | 44 | 58 | 70 | 80 | 86 | 90 | 94 | 98 |
Первая строка в таблице 7.2 содержит наблюдаемые баллы испытуемых выборки, упорядоченные от меньшего значения к большему (слева направо). Обычно для больших групп простое упорядочение является малоэффективным и удобнее использовать сгруппированные данные, предполагающие введение разрядов оценок для отдельных групп (см. подробнее разд. 5.2).
Во второй строке представлены результаты подсчета числа испытуемых, имеющих один и тот же тестовый балл. Каждый элемент второй строки показывает число повторений балла и потому называется частотой наблюдаемых сырых баллов испытуемых. Если частоты просуммировать слева направо, то получатся значения накопленных (кумулированных) частот. Кумулированные частоты представляют собой суммарное количество частот, наблюдаемых на этом балле или ниже его. Например, существует 9 испытуемых, получивших балл 7 или ниже, так как Кумулированные частоты для балла 7 — число 9.
Вычисление процентильных рангов для заполнения четвертой строки таблицы осложняется необходимостью определения фактических границ доверительного интервала (см. разд. 5.5), содержащего истинный балл каждого испытуемого выборки. Фактическая длина интервала зависит от значения стандартной ошибки измерения. Однако обычно для определения границ интервала используют 0,5 единицы измерения сырых баллов. В этом случае, если испытуемый получил балл 5, истинное значение его балла лежит в интервале от 4,5 до5,5,т.е. (4,5; 5),ачисла4,5 и5,5 называются соответственно нижней и верхней границей единичного интервала оценок.
Понятия «верхняя» и «нижняя» границы используются для построения шкалы процентильных рангов в предположении равномерности распределения результатов испытуемых внутри доверительного интервала. Например, при вычислении процентного
Таблица 7.3. Построение шкалы процентильных рангов
Шаг | Этап вычисления | Пример вычисления |
1 | Подсчет кумулированных частот | Для испытуемого с баллом 4 кумулированная частота 1 + 1 = 2, для испытуемого с баллом 5: 2 + 2 = 4, для испытуемого с баллом 6: 4 + 2 = 6 и т. д. |
2 | Определение точных верхних и нижних границ единичных интервалов оценок | Для испытуемого с баллом 4 истинный балл лежит на интервале (4,5; 3,5), для испытуемого с баллом 5 — на интервале (4,5; 5,5) и т. д. |
3 | Подсчет процентильных рангов | Для испытуемого с баллом 4: (1,5/25) • 100% = 6%, для испытуемого с баллом 5: (3/25) • 100% = 12% и т. д. |
ранга для тестового балла 5 принимают что результаты двух испытуемых располагаются на интервале (4,5; 5,5) равномерно (табл. 7.3).
Вероятнее всего, один результат будет ниже точки, соответствующей 5, а один — выше этой точки. Таким образом, к числу испытуемых, истинный балл которых меньше 5, можно отнести трех учащихся, из которых один имеет балл 3, второй — балл 4 и третий — один из двух, получивших балл 5, что в процентном отношении составит (3/25) • 100% =12%. Это и есть процентильный ранг, соответствующий 5, который обеспечивает удобную интерпретацию результатов ученика: 12% учащихся из нормативной выборки сделали 5 или меньше заданий теста. В соответствии с введенным ранее определением 12-й процентиль в группе из 25 испытуемых равен 5. Обращаясь к полученным данным в третьем столбце табл. 7.2, можно определенно сказать, что первичный результат 5 баллов является плохим, так как он превосходит результаты только 12% испытуемых выборки стандартизации. Это конкретный и легко воспринимаемый результат, удобный в первую очередь для учеников при сравнении достижений по ряду тестов. Первичный результат, который ниже любого показателя выборки стандартизации, имеет нулевой процентильный ранг. Результат, превышающий любой другой в выборке, получит процентильный ранг 100. Конечно, ни нулевой ранг, ни ранг 100% не говорят о нулевом либо абсолютном знании контролируемого предмета.
Возможно решение обратной задачи, когда необходимо определить р-й процентиль, вернее, точку, ниже которой лежат р % результатов [9]. Для определения р-го процентиля необходимо выполнить 5 шагов, которые получаются с помощью табл. 7.4 и приводятся в табл. 7.5.
Таблица 7.4. Связь между сырыми баллами и частотами
Сырые баллы испытуемых | 1 | 15 | 14 | 13 | 12 | И | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 |
Частота | 2 | 1 | 1 | 1 | 1 | 2 | 3 | 3 | 4 | 3 | 2 | 2 | 1 | 1 |
Кумулированные частоты | 3 | 25 | 24 | 23 | 22 | 21 | 19 | 16 | 13 | 9 | 6 | 4 | 2 | 1 |
Таблица 7.5. Определение процентилей
Шаг | Этап вычисления | Пример вычисления |
1 | Вычисление (рл)/100%, где п — накопленная частота в группе оценок | |
2 | Определение фактической нижней границы L разряда оценок, содержащего результат 1-го шага | |
3 | Вычитание накопленной к L частоты (cum. f) из результата 1-го шага (определение частот, лежащих ниже (рп) /100%) | |
4 | Определение доли интервала разрядов, лежащей под частотой (рп)/100% | |
5 | Прибавление результатов 4-го шага к результатам 2-го шага. Итоговая формула |
Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего — первичного—процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.
Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют два существенных недостатка. Первый заключается в том, что процентильные ранги являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не выявляют различие между результатами отдельных испытуемых группы. Второй недостаток в определенной степени усугубляет первый — процентили не только не отражают, а даже искажают реальные различия результата выполнения теста. Это связано с особенностями распределения процентилей, имеющего прямоугольный характер. Распределение первичных показателей существенно отличается от прямоугольного и для хороших нормативно-ориентированных тестов приближается к нормальной кривой. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых результатов значительно увеличиваются процентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.
Упомянутые недостатки — главная причина того, что использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в тестах для самооценки знаний учащихся.
Z -ШКАЛА
Наиболее простой метод выявления места результата i-го ученика (X) в сравнении с результатами других основан на подсчете отклонения балла Xi от среднего значения баллов X по группе тестируемых учащихся. Отклонение находят путем вычисления разности X — Xf Если разность X — Xt > О, то результат 1-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X.
Так как средние арифметические, полученные по различным тестам и в разных группах, существенно разнятся, возникает проблема сопоставимости отклонений. Один и тот же балл Xt в слабой группе может оказаться выше среднего, в сильной — значительно ниже. К тому же шкала отклонений оказывается по-разному растянутой в зависимости от длины теста.
Удобным средством преодоления отмеченных трудностей является перевод индивидуальных результатов в стандартную Z-шкалу с общим средним баллом и общей мерой вариации баллов. Вообще построение стандартных шкал производится путем линейных либо нелинейных преобразований сырых баллов. При линейном преобразовании стандартные показатели выражают отклонение индивидуальных результатов от среднего значения сырых баллов в единицах, пропорциональных стандартному отклонению распределения. В последнем случае шкалированный результат i-го ученика находят по формуле
где X.— сырой балл i-го испытуемого; X — среднее значение индивидуальных баллов УУ испытуемых группы (i= 1,2,..., N); Sx — стандартное отклонение по множеству сырых баллов, подсчитанное по формуле (см. разд. 5.2).
Благодаря тому, что из каждого исходного значения Х{ вычитается X, этот же ^вычитается из среднего значения исходных баллов. Поэтому среднее арифметическое значений разности X — Xi (/ = 1,2,..., N), полученных для группы тестируемых учеников, равно нулю. Это утверждение довольно убедительно иллюстрируется примером подсчета среднего значения разностей Х- Хi для матрицы тестовых результатов 10 испытуемых (разд. 5.2). Сумма разностей получается равной нулю:
Аналогично легко показать, что стандартное отклонение по множеству значений равно 1. Таким образом, Z-шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду путем нормирования индивидуальных результатов.
Для приведенного выше примера оценки 10 испытуемых в Z-шкале получаются путем деления вычисленных разностей на стандартное отклонение 2,6:
Полученные шкалированные результаты интересно сопоставить со значениями сырых баллов 10 испытуемых (табл. 7.6).
Таблица 7.6. Сравнительные результаты
Номер испытуемого i | Номер задания | Xi | Xi-X | Zi | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||||
1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 6 | 1 | 0,38 |
2 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | -0 | -1,14 |
3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | -4' | -1,52 |
4 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 9 | 4 | -1,52 |
5 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 4 | -1 | -0,38 |
6 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 4 | -1 | -0,38 |
7 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 5 | 0 | 0 |
8 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 4 | -1 | -0,38 |
9 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 9 | 4 | -1,52 |
10 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 6 | 1 | 0,38 |
Х=5 Sx =2,6 | Сумма = 0 | Z=0 Sz =\ |
При использовании тестов, прошедших многолетний этап стандартизации и обладающих устойчивыми оценками генеральных параметров, перевод сырых баллов в Z-шкалу осуществляется по формуле
где М и ах — генеральное среднее арифметическое и генеральная дисперсия соответственно.
Очевидно, что для сырого балла, в точности равного среднему значению, Z-показатель обращается в нуль. Отрицательные значения Z указывают на результаты ниже среднего, а положительные — на хорошие результаты, выше среднего значения сырых баллов по группе.
Особенно удобны Z-показатели в случае нормального распределения первичных баллов, когда все значения Z в основном варьируют в пределах от —3 до +3. Иногда интервал вариации стараются расширить и учитывать все баллы в пределах от —5 до +5, что, без сомнения, лишено смысла, так как значения на концах интервала определены с очень большой ошибкой измерения.
Несомненным достоинством Z-шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам. Однако, помимо явных достоинств, есть и недостатки. Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Прежде всего это связано с тем, что значения Z часто приходится вычислять с несколькими десятичными знаками, так как среднее значение индивидуальных баллов редко бывает целым числом. Поскольку выявление различий в подготовке испытуемых составляет основную цель создания тестов, легко понять, что округление Z-оценок не всегда допустимо, так как оно может свести на нет первоначальные различия индивидуальных баллов и снизить тем самым дифференцирующий эффект теста.
Эффект снижения дифференцирующей способности теста в результате округления Z-оценок можно проиллюстрировать примером данных табл. 7.6. Отличающиеся до округления результаты второго и третьего испытуемых Z2 = -1,14 и Z3 = -1,52 превращаются после него в одинаковые баллы Z2 = Z3 = — 1.
Определенные неудобства вызывают отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников. Понятно, что в практике контроля отрицательные значения Z-баллов вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым группы и вынуждает применять специальные методы преобразования для выставления оценок ученикам.