На основе регрессионной модели

Методы регрессионного анализа позволяют прогнозировать оценки истинных баллов испытуемых по распределению наблюдаемых баллов и коэффициенту надежности теста. Прогноз получается путем подставки в регрессионное уравнение, полученное Дж. Стенли [9],

где T_i — истинный балл; X_i — индивидуальный балл i-го испытуемого; X — среднее значение баллов испытуемых.

Например, в матрице данных из табл. 5.27 Х₃=1, X = 5,г_н=0,78. Тогда Т₃- 5 + 0,78(1 — 5)= 1,88 = 1,9, что несколько завышает исходный наблюдаемый балл Х₃= 1.

Если в качестве примера выбрать не минимальный наблюдаемый балл 1, а максимальный у 4-го испытуемого, то после коррекции результат Г₄ будет несколько занижен: Т₄ - 5 + 0,78(9 — 5) ~ = 8,12 вместо прежних 9.

Завышение или занижение наблюдаемых баллов при подсчете

7]. вызвано изменением знака разности Х _i -Х в выражении (5.80). Для всех наблюдаемых баллов выше среднего разность будет получаться положительной, а для значений X_i <Х разность X_i - X принимает отрицательные значения. Уравнение линейной регрессии (5.80) учитывает эти тенденции, в результате чего наблюдается отмеченный выше эффект.

ИСТОЧНИКИ НЕУДОВЛЕТВОРИТЕЛЬНОЙ

НАДЕЖНОСТИ ТЕСТА

Вопрос о причинах неудовлетворительной надежности имеет несомненное практическое значение, так как предварительное исследование источников ненадежности позволяет по возможности устранить их влияние при конструировании теста. К числу таких источников обычно относят:

1. Субъективизм при оценке результатов выполнения заданий тес та. Субъективизм оценок является непременным атрибутом оценок при включении в тест заданий со свободно конструируемыми ответами. При анализе результатов их выполнения всегда наблюдаются различия между подходами различных экспертов и между ответами одного и того же испытуемого при повторном выполнении им теста. Очевидным следствием этих различий является снижение надежности теста. Наиболее эффективный метод преодоления отмеченного недостатка — использование закрытых заданий, которые благодаря возможности объективной оценки результатов выполнения при прочих равных ведут к повышению надежности теста.

2. Угадывание. Проблема угадывания подробно обсуждалась в гл. 4 пособия, однако в несколько ином контексте использования формулы для коррекции результатов выполнения закрытых заданий теста. Однако, как показывают специальные исследования, угадывание существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста.

3. Отсутствие логической корректности формулировок заданий теста. Двусмысленность формулировок заданий обсуждалась ранее, в гл. 4. Как правило, некорректные задания пропускают сильные ученики, что в целом негативно отражается на надежности теста.

4. Неоправданный выбор весовых коэффициентов. Проблема выбора оптимальных весовых коэффициентов рассматривалась в разд. 5.4. При правильном положении вещей выбор весовых коэффициентов в процессе подсчета индивидуальных баллов обучаемых должен базироваться на соответствующей теории. Только в том случае, когда весовым коэффициентам приданы оптимальные значения, их введение не ведет к снижению надежности теста.

5. Длина теста. Ранее, в этом же разделе, было показано, что надежность растет по мере увеличения длины теста. Для удовлетворительной, но не хорошей надежности обычно достаточно 30 заданий теста.

6. Отсутствие стандартной инструкции к тесту. Инструкции к тесту должны быть предельно стандартизованы и точны. Любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста.

7. Другие источники снижения надежности. Иные источники ненадежности связаны с испытуемыми, а не с заданиями теста. Испытуемый может плохо себя почувствовать во время работы над тестом либо ошибиться в инструкции и указать и вместо правильного неверный ответ. На результаты выполнения теста могут повлиять усталость и скука, температура в помещении, шум за окном и т.п.

В целом все эти факторы приводят к снижению надежности теста, поэтому их влияние стараются нивелировать как в процессе создания, так и при применении теста.

вааианость гомогенных тестов

В трудах теоретиков-тестологов валидность трактуется как характеристика качества теста, ориентированная на оценку адекватности теста поставленной цели его создания. Другими словами, валидность — это характеристика способности теста служить поставленной цели измерения.

Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также осуществить спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.

содержательная валидность

При разработке педагогических тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям. Если тест позволяет проверить все то, что задумано авторами в спецификации, он считается валидным относительно контролируемого содержания курса. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания проверяемого курса. Полнота выходит на первый план при создании критериально-ориентированных тестов. В случае нормативно-ориентированного подхода дело обстоит несколько иначе.

Конечно, во всех случаях справедлив общий вывод — чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте.

Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому эти задания при проверке не могут замещаться. При прочих равных эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции.

К противоположному выводу легко прийти, если стараться повысить надежность теста. Именно отбор заданий с большими коэффициентами интеркорреляции можно обеспечить высокую однородность содержания и отличную надежность теста. Это противоречие, отмеченное впервые Ф. Лордом [50], дает основание для возникновения серьезных проблем при конструировании теста. Здесь легче привести примеры, иллюстрирующие проблемы разработчиков тестов, и дать советы общего характера, чем найти разумное компромиссное решение в практической работе по созданию теста. В частности, легко представить ситуацию конструирования итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений любому читателю, маловероятно, чтобы этот итоговый тест обладал приемлемой содержательной валидностью.

Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, так чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду [44] и Ньюнелли [II]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность является предпосылкой оптимальной валидности теста.

К точке зрения Ф. Лорда присоединяются Кэттелл и Клайн [ 11 ]. По их мнению, максимум валидностй может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, но каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисе-риальной корреляции с суммой баллов по тесту.

Помимо этого, повышению содержательной валидности обычно способствует независимая экспертиза, рекомендации по проведению которой представлены в гл. 3.

Оценка валидности теста

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек. Если мера согласованности достаточно высока [5], то для оценки валидности используется формула

где Х _i -Х — отклонение тестового балла i-го ученика от среднего балла по тесту; Х_т. -Х_э — отклонение балла i-го ученика у экспертов от Х_э — среднего арифметического экспертных оценок; S_x² — дисперсия баллов учеников по тесту; S_mx² — дисперсия баллов экспертов; т — число экспертов.

Бывают случаи, когда педагог заинтересован в оценке прогностической валидности, указывающей меру вероятности прогноза успешности дальнейшего обучения по результатам выполнения теста. Высокой прогностической валидностью должны обладать тесты для приема абитуриентов в вузы. В этом случае результаты по тесту коррелируют с результатами поступивших абитуриентов, после окончания первого года обучения в вузе. Высокая корреляция означает, что разработанные тесты прогностичны для отбора абитуриентов в вуз.