Стандартная погрешность измерения

Оценка надежности теста — это оценка ошибки, сделанной при определении положения индивидуума на измерительной шкале. Теоретически, если многократно подвергнуть одного и того же человека тестированию с использованием эквивалентных тестов, полученные результаты будут распределяться вокруг истинного значения тестируемой характеристики. Некоторые из этих результатов будут ближе к истинному значению, чем другие, поскольку в некоторых случаях при проведении тестирования возникала меньшая ошибка, чем в других случаях. Если подвергнуть все эти результаты определенным статистическим преобразованиям, то результаты многократного тестирования можно представить в виде кривой нормального распределения. Стандартная погрешность измерения - это стандартное отклонение этой кривой, как показано на рис. 3.1.

-1 +1

Рис. 3.1. Стандартная погрешность измерения для двух тестов

Стандартная погрешность измерения связана с распределением результатов, которые были бы получены при многократном тестировании одного человека с использованием одного и того же теста (хотя вычисляется она другим способом). Чем больше стандартная погрешность измерения, тем сильнее разброс результатов вокруг истинного значения (среднее значение распределения). На рис. 3.1 стандартная погрешность измерения с помощью Теста А примерно в два раза меньше, чем стандартная погрешность измерения с помощью Теста Б. Это означает, что результат, полученный с помощью Теста А, с большей вероятностью приближается к истинному значению измеряемой характеристики данного человека, чем результат, полученный с помощью Теста Б.

Связанная с тестированием стандартная погрешность измерения не является чисто теоретическим понятием; она может повлиять на жизнь любого человека, если ему приходится подчиняться решениям, принятым на основе результатов теста. Если для какого-либо конкретного вступительного экзамена в колледж стандартная погрешность измерения равна 30 баллам, то вполне вероятно, что полученный поступающим результат 530 баллов на самом деле означает всего 500 или целых 560 баллов. В этом случае абитуриента, набравшего 525 баллов на вступительном экзамене в колледж или университет, где проходной балл равен 550, могут не принять, и причиной того будет исключительно измерительная погрешность теста.

Существуют способы повышения надежности теста, а значит, и уменьшения стандартной погрешности измерения. Наиболее распространенным способом является увеличение продолжительности теста с целью получить более стабильную выборку изменяемых характеристик (таких как способности к учебе).

Валидность

Согласно словарным определениям, прилагательное «валидный» означает «обоснованный, подтвержденный фактами», в то время как понятие надежности основывается на устойчивости результатов. В литературе по индустриально-организационной психологии обсуждению вопросов, связанных с валидностью, отводится гораздо больше места, чем вопросам надежности, но это ни в коей мере не умаляет значения надежности. Надежность играет важнейшую роль по очень простой причине: ненадежное змерение вообще не может быть валидным. Надежный измерительный инструмент не обязательно обладает валидностью, но вопрос о валидности можно ставить только том случае, если инструмент надежен. Попробуем разобраться в этих тонкостях с помощью примера.

Предположим, что преподаватель хочет измерить интеллект студентов своей группы. Рассудив, что чем больше голова, тем больше головной мозг, а чем больше мозг, тем выше интеллект (такие аргументы и процедура измерения интеллекта действительно использовались в прошлом), преподаватель решает измерить окружность головы каждого студента с помощью портновского метра. Получит ли преподаватель надежные измерения, если поступит подобным образом? На этот вопрос можно ответить положительно: если у преподавателя хороший метр, он может измерить голову каждого тудента три раза и получить примерно одинаковые результаты. Будут ли такие изменения интеллекта валидными? Конечно нет. Никаких доказательств того, что у людей с более высоким уровнем интеллекта головы больше, чем у менее умных людей, не имеется. Измерение будет надежным, но необоснованным и не подтвержденным фактами.

Теперь мы можем отказаться от предварительного определения валидности. Оно сыграло свою роль, но не годится для обсуждения темы валидности измерений в индустриально-организационной психологии, поскольку в этом определении подразумевается, что измерение может быть или валидным, то есть правильным, или невалидным. На самом деле валидность очень сильно зависит от контекста. Это утверждение будет обсуждаться в связи с валидностью теста, но следует помнить, что валидность — это стандарт, который применяется ко всем измерениям, проводимым в любых ситуациях.

По отношению к тестированию валидность определяется как «правильность, содержательность (meaningfulness) и полезность конкретных выводов, сделанных из результатов тестирования» (American Educational Research Association et al, 1985,). Даже при использовании тестов одного и того же типа тестирование может провозиться с различными целями, поэтому конкретные выводы, валидность которых нас интересует, могут быть различными. Когда целью тестирования является отбор для приема на работу, релевантные выводы касаются некоторых аспектов поведения человека в будущем. Если тест используется как инструмент для оценки выполнения работы, главное внимание уделяется выводам о текущем уровне выполнения работы. В обоих случаях валидность теста — показатель того, насколько выводы, сделанные из результатов тестирования, подтверждаются фактами.

Получение выводов.

Традиционно принято делить доказательства валидности выводов, сделанных по результатам теста, на три категории, в зависимости от типа вывода, для которого наиболее релевантно данное доказательство. Если имеются факты, свидетельствующие о том, что тест отражает смысл измеряемой характеристики, это доказывает валидность по конструкту. Если можно продемонстрировать, что вопросы, включенные в тест, репрезентативны для всех вопросов, которые определены как релевантные тесту, это служит доказательством валидности по содержанию. Наконец, наличие систематичной связи между результатами теста и некоторым внешним критерием (таким как способность к исполнению работы в будущем) доказывает валидность по критерию.

Описанные категории удобны в употреблении, но это не означает, что существуют различные типы валидности. Скорее это различные категории доказательств, которые необходимо собрать, чтобы сделать вывод об общей валидности измерительного инструмента. В идеале психологи хотели бы получить как можно больше таких доказательств. Однако исследования занимают много времени, они дорого стоят, и валидность теста чаще определяется сбором фактов, наиболее необходимых с точки зрения тех выводов, которые будут сделаны из этого теста.

Немного о терминологии

Выражения «доказательство валидностило конструкту», «доказательство валидности по содержанию» и «доказательство валидности по критерию» точно отражают смысл, но они громоздки. Этими выражениями по-прежнему иногда пользуются, но в большинстве случаев принято употреблять более удобные термины «конструктная валидность», «содержательная валидность» и «критериальная валидность». Точно так же термин «доказательство валидности теста», многократно встречающийся в этой и следующей главах, является просто кратким обозначением процесса получения фактов, релевантных выводам, которые могут быть сделаны из результатов теста.