Дисперсия тестовых баллов испытуемых

Нормативно-ориентированный тест должен хорошо дифференцировать испытуемых. Это означает, что индивидуальные тестовые баллы должны в достаточной степени отличаться друг от друга.

Вариацию тестовых результатов задают отклонения от среднего значения

При полном совпадении всех индивидуальных баллов вариация равна нулю. Если индивидуальные баллы не совпадают, то отклонения могут быть положительными и отрицательными. Сумма всех отклонений будет равна нулю. Поэтому, чтобы охарактеризовать вариацию тестовых баллов используют квадрат отклонений. Сумма квадратов отклонений зависит от количества испытуемых N. Чтобы избавиться от этой зависимости, нам необходима обратно пропорциональная зависимость от N. В результате мы приходим к понятию дисперсии s _x².

Дисперсия пропорциональна не 1/ N, а 1/(N -1). Это сделано для того, чтобы для небольших N получить несмещенную оценку генеральной дисперсии¹¹.

Для удобства вычисления, преобразуем выражение для дисперсии.

Учтем, что

Используя полученное выражение, перепишем формулу для дисперсии

Подставим численные значения

Таким образом, дисперсия тестовых баллов в нашем примере равна 4.9. Подобные расчеты удобно проводить с использованием табличного процессора Microsoft Excel, входящего в стандартный офисный пакет. Для этого необходимо использовать статистическую функцию «ДИСП», для которой надо указать диапазон ячеек со значениями индивидуальных баллов испытуемых.

С дисперсией связан еще один важный параметр - стандартное отклонение

Величина дисперсии тестовых баллов позволяет судить о качестве теста, о его дифференцирующей способности. Малая величина дисперсии говорит о том, что тест плохо различает испытуемых по уровню знаний, не позволяет с приемлемой точностью ранжировать их. Слишком большая дисперсия указывает на сильную неоднородность группы испытуемых, на возможные нарушения процедуры тестирования, на недостаточно ясные формулировки заданий и т.п. В случае оптимальной величины дисперсии, распределение тестовых баллов близко к нормальному.

М.Б.Челышкова⁷ считает, что если среднее арифметическое примерно равно утроенному стандартному отклонению,

то можно считать дисперсию оптимальной, а распределение тестовых баллов близким к нормальному.

Отметим, что это утверждение справедливо не для всех случаев. Возможны ситуации, когда среднее арифметическое гораздо больше утроенного стандартного отклонения, но распределение тестовых баллов, тем не менее, достаточно близко к нормальному.

Рассмотрим следующий модельный пример. Пусть в результате тестирования мы получили следующую таблицу частот.

Таблица 3.6.1

Баллы
Частота

Из таблицы видно, что средний тестовый балл равен 80.

Нормированная эмпирическая кривая распределения и нормальное распределение с дисперсией равной 1, показаны на рис.3.6.1.

Рис.3.6.1. Эмпирическая кривая.

Легко видеть, что возможны такие эмпирические данные, когда кривая распределения будет почти гауссовой, но среднее арифметическое значение будет существенно превышать утроенное значение стандартного отклонения.

В качестве грубой оценки нормальности распределения можно рекомендовать проверку следующего соотношения:

- если почти все значения тестовых баллов X укладываются в этот интервал, то в первом приближении можно считать эмпирическое распределение нормальным.

Для корректного решения вопроса о степени близости эмпирических данных нормальному распределению необходимо использовать более строгие доказательства, например, проверить гипотезу о нормальном распределении генеральной совокупности по критерию Пирсона¹².

КОРРЕЛЯЦИОННАЯ МАТРИЦА

Тест, это не просто множество, а система тестовых заданий. Требование системности означает, что между заданиями существуют связи, которые можно обнаружить в результатах тестирования. Определение корреляции, как между заданиями, так и заданий с тестом в целом, позволит оценить системные качества теста. Благодаря такому анализу можно будет выполнить «чистку» - избавить тест от заданий, нарушающих его системные свойства.

Если две величины связаны между собой, то между ними есть корреляция. Виды корреляционной связи показаны в таблице 3.9.

Для выяснения вопроса о наличии связи между двумя величинами X и Y необходимо определить, существует ли соответствие между большими и малыми значениями X и соответствующими значениями Y или такой связи не обнаруживается. Значение каждого элемента X_i и Y_i определяется величиной и знаком отклонения от среднего арифметического¹¹:

Если большие значения X_i соответствуют большим значениям Y_i, то это произведение будет большим и положительным, так как

То же самое будет наблюдаться и, когда малые значения X_i будут соответствовать малым Y_i, поскольку произведение отрицательных чисел будет положительным.

Если же большие значения X_i соответствуют малым значениям Y_i, то это произведение будет большим и отрицательным, что будет свидетельствовать об обратной зависимости между этими величинами.

В тех случаях, когда нет систематического соответствия больших значений X_i большим или малым Y_i, то знак произведения будет положительным или отрицательным для разных пар X_i и Y_i. Тогда сумма

будет близка к нулю. Таким образом, эта сумма велика и положительна, когда X и Y сильно связаны прямой зависимостью, близка к нулю в случае отсутствия связи и велика и отрицательна, когда X и Y сильно связаны обратной зависимостью¹¹.

Для того, чтобы эта сумма не зависела от количества значений X и Y, ее следует поделить ее на N -1. Полученная величина s_XY называется ковариацией X и Y и является мерой их связи:

Для исключения влияния стандартных отклонений на величину связи, следует поделить ковариацию s_XY на стандартные отклонения s_X и s_Y:

Полученная мера связи между X и Y называется коэффициентом корреляции Пирсона. Обозначение r происходит от слова регрессия. Подставив соответствующие выражения, получим формулу для коэффициента корреляции Пирсона r_XY ¹¹

Для вычислений более удобна следующая формула

Коэффициент корреляции Пирсона r_XY изменяется в пределах от -1 до +1. В таблице 3.7.1 приведены различные виды линейной зависимости и соответствующие значения r_XY.

Следует отметить, что в случае нелинейной связи между X и Y коэффициент корреляции может оказаться близким к нулю, даже если связь очень сильная.

Таблица 3.7.1. Типы корреляционной связи

(Гласс Дж., Стэнли Дж., 1976).

Для решения вопроса о наличии связи между заданиями теста, надо, используя данные по столбцам из бинарной матрицы, рассчитать коэффициенты корреляции Пирсона для каждой пары заданий. Для расчетов используются различные статистические программы (SPSS, STATISTICA и др.). В простейшем случае можно использовать табличный процессор Excel с вызовом функции «ПИРСОН».

В случае дихотомического оценивания (1 - верно, 0 –неверно) выражение для коэффициента корреляции упрощается. Введем следующие обозначения:

p _m – доля верных ответов для задания с номером m;
q _m – доля неверных ответов для задания с номером m;
p _k – доля верных ответов для задания k;
q _k – доля неверных ответов для задания с номером k;
p _mk – доля верных ответов для задания с номером m и k.

Коэффициент корреляции Пирсона, для дихотомических данных называется коэффициентом «фи». Коэффициент φ_mk, описывающий связь между заданиями с номерами m и k записывается следующим образом¹¹

Отметим, что коэффициент «фи» и коэффициент корреляции Пирсона дают в результате одно и то же значение, поскольку обе формулы эквивалентны. Рассмотрим пример вычисления коэффициента корреляции между 2-м и 5-м заданиями. Из таблицы 3.2.5 имеем: p ₂=0.7, q ₂=0.3, p ₅=0.5, q ₅=0.5. Для определения p ₂₅надо подсчитать количество верных ответов на оба задания одновременно. Видно, что испытуемые с номерами 1-5 успешно справились с обоими заданиями (5 верных ответов). Испытуемые 6 и 7 правильно ответили на 2-е задание, но неправильно на 5-е (нет одновременно верных ответов). Испытуемые 8 и 9 не справились и со 2-м и с 5-м заданиями. Таким образом, p ₂₅ =5/10 = 0,5.

Результаты расчетов для всех заданий приведены в корреляционной матрице (таблица 3.7.2). Корреляционная матрица представляет собой квадратную матрицу размерности MxM, где M – количество заданий, симметричную относительно главной диагонали. В нашем примере матрица имеет 8 строк и столько же столбцов. Коэффициент корреляции Пирсона, скажем, между 2-м и 5-м заданиями находится на пересечении 2-й строки и 5-го столбца (0,655).

В самом последнем столбце располагается коэффициент корреляции каждого задания с тестовым баллом испытуемого (индивидуальным баллом) – r_pb – точечный бисериальный коэффициент корреляции.

ТАБЛИЦА 3.7.2. Корреляционная матрица тестовых заданий.

								r_pb
1,000	0,524	-0,089	0,218	0,655	0,089	0,327	0,218	0,634
0,524	1,000	0,356	0,218	0,655	0,089	0,327	0,218	0,738
-0,089	0,356	1,000	0,000	0,000	-0,167	-0,102	-0,408	0,175
0,218	0,218	0,000	1,000	0,600	0,408	0,500	0,333	0,714
0,655	0,655	0,000	0,600	1,000	0,408	0,500	0,333	0,905
0,089	0,089	-0,167	0,408	0,408	1,000	0,102	0,408	0,505
0,327	0,327	-0,102	0,500	0,500	0,102	1,000	-0,167	0,548
0,218	0,218	-0,408	0,333	0,333	0,408	-0,167	1,000	0,365
2,942	3,388	0,590	3,278	4,151	2,338	2,488	1,936	4,584
0.368	0.423	0.074	0.410	0.519	0.292	0.311	0.242	0.573

Поскольку результаты выполнения тестовых заданий размещаются на дихотомической шкале, а индивидуальный балл испытуемого на интервальной, то формула для коэффициента корреляции Пирсона упрощается и преобразуется в r_pb. Выражение для точечного бисериального коэффициента корреляции имеет вид¹¹

где - средний индивидуальный балл испытуемых, справившихся с данным заданием.
- средний индивидуальный балл испытуемых, не справившихся с данным заданием.

n ₁ – число испытуемых, выполнивших данное задание, n ₀ – число испытуемых, не выполнивших его. n = n ₁ + n ₀– общее количество испытуемых; s _x- стандартное отклонение для индивидуальных баллов всех испытуемых.

В нижних строках таблицы 3.7.2 приведены суммарные и среднее значения коэффициента корреляции для каждого задания.

Коэффициент корреляции r _pb очень важен, так как характеризует валидность отдельных заданий. Необходимо стремиться к тому, чтобы корреляция результатов по заданию и индивидуальными баллами была достаточно высокой. В.С.Аванесов⁶ дает следующую рекомендацию: r _pb ≥0,5.

Корреляция заданий друг с другом не должна быть слишком высокой (r _xy ≤0,3), иначе задания начинают дублировать друг друга⁶. Если корреляция между двумя заданиями близка к единице, то одно из них лишнее.

Отрицательная корреляция задания с другими заданиями нежелательна. Если задание отрицательно коррелирует с большим количеством других заданий, то это означает, что исход ответов на него противоположен результатам по другим заданиям. По всей вероятности у такого задания либо имеются грубые ошибки в содержании и (или) оформлении (например, нет правильного ответа), либо проверяются знания из другой предметной области.

В нашем примере отрицательной корреляцией отличаются задания 1, 3, 6, 7, 8. Обращает на себя внимание то, что отрицательная корреляция у заданий 1, 6, 7 и 8 наблюдается именно с заданием 3. Это наводит на мысль, что проблематичным является задание 3. В пользу этого свидетельствует и самый низкий средний коэффициент корреляции (0,074) и, самое главное, низкая корреляция с индивидуальными баллами испытуемых (r _pb =0.175). Задание 3 следует удалить из теста. В результате отрицательная корреляция останется между 7 и 8 заданиями. Задание 8 находится под подозрением, так как у него r _pb =0.365. Это задание также следует удалить из теста. Если какое-либо задание отрицательно коррелирует с индивидуальными баллами (r _pb < 0), то такое задание, безусловно, подлежит удалению.

6. Каковы основные постулаты классической теории тестов?
Классическая теория тестовосновывается на следующих пяти основных положениях.
1. Эмпирически полученный результат измеренияпредставляет собой сумму истинного результата измерения и ошибки измерения.Сумма истинного результата измерения и ошибки измерения обычнонеизвестны.
2. Истинный результат измерения можно выразить как математическое ожидание.
3. Корреляция истинных иошибочных компонентов по множеству испытуемых равна нулю.
4. Ошибочные компоненты двухлюбых тестов не коррелируют.
5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста.
Кроме этого, основу классическойтеории тестов составляют два определения – параллельных и эквивалентных тестов.
ПАРАЛЛЕЛЬНЫЕ тесты должнысоответствовать требованиям (1-5), истинные компоненты одного тестадолжны быть равны истинным компонентам другого теста в каждой выборкеиспытуемых, отвечающих на оба теста.
Эквивалентные тесты должны соответствовать всем требованием параллельных тестов за исключением одного:истинные компоненты одного теста не обязательно должны равняться истиннымкомпонентам другого параллельного теста, но отличаться они должны на одну и туже константу.