Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Стандартная погрешность измерения




 

Оценка надежности теста — это оценка ошибки, сделанной при определении положения индивидуума на измерительной шкале. Теоретически, если многократно подвергнуть одного и того же человека тестированию с использованием эквивалентных тестов, полученные результаты будут распределяться вокруг истинного значения тестируемой характеристики. Некоторые из этих результатов будут ближе к истинному значению, чем другие, поскольку в некоторых случаях при проведении тестирования возникала меньшая ошибка, чем в других случаях. Если подвергнуть все эти результаты определенным статистическим преобразованиям, то результаты многократного тестирования можно представить в виде кривой нормального распределения. Стандартная погрешность измерения - это стандартное отклонение этой кривой, как показано на рис. 3.1.

 

 

-1 +1

 

Рис. 3.1. Стандартная погрешность измерения для двух тестов

 

Стандартная погрешность измерения связана с распределением результатов, которые были бы получены при многократном тестировании одного человека с использованием одного и того же теста (хотя вычисляется она другим способом). Чем больше стандартная погрешность измерения, тем сильнее разброс результатов вокруг истинного значения (среднее значение распределения). На рис. 3.1 стандартная погрешность измерения с помощью Теста А примерно в два раза меньше, чем стандартная погрешность измерения с помощью Теста Б. Это означает, что результат, полученный с помощью Теста А, с большей вероятностью приближается к истинному значению измеряемой характеристики данного человека, чем результат, полученный с помощью Теста Б.

Связанная с тестированием стандартная погрешность измерения не является чисто теоретическим понятием; она может повлиять на жизнь любого человека, если ему приходится подчиняться решениям, принятым на основе результатов теста. Если для какого-либо конкретного вступительного экзамена в колледж стандартная погрешность измерения равна 30 баллам, то вполне вероятно, что полученный поступающим результат 530 баллов на самом деле означает всего 500 или целых 560 баллов. В этом случае абитуриента, набравшего 525 баллов на вступительном экзамене в колледж или университет, где проходной балл равен 550, могут не принять, и причиной того будет исключительно измерительная погрешность теста.

Существуют способы повышения надежности теста, а значит, и уменьшения стандартной погрешности измерения. Наиболее распространенным способом является увеличение продолжительности теста с целью получить более стабильную выборку изменяемых характеристик (таких как способности к учебе).

Валидность

 

Согласно словарным определениям, прилагательное «валидный» означает «обоснованный, подтвержденный фактами», в то время как понятие надежности основывается на устойчивости результатов. В литературе по индустриально-организационной психологии обсуждению вопросов, связанных с валидностью, отводится гораздо больше места, чем вопросам надежности, но это ни в коей мере не умаляет значения надежности. Надежность играет важнейшую роль по очень простой причине: ненадежное змерение вообще не может быть валидным. Надежный измерительный инструмент не обязательно обладает валидностью, но вопрос о валидности можно ставить только том случае, если инструмент надежен. Попробуем разобраться в этих тонкостях с помощью примера.

Предположим, что преподаватель хочет измерить интеллект студентов своей группы. Рассудив, что чем больше голова, тем больше головной мозг, а чем больше мозг, тем выше интеллект (такие аргументы и процедура измерения интеллекта действительно использовались в прошлом), преподаватель решает измерить окружность головы каждого студента с помощью портновского метра. Получит ли преподаватель надежные измерения, если поступит подобным образом? На этот вопрос можно ответить положительно: если у преподавателя хороший метр, он может измерить голову каждого тудента три раза и получить примерно одинаковые результаты. Будут ли такие изменения интеллекта валидными? Конечно нет. Никаких доказательств того, что у людей с более высоким уровнем интеллекта головы больше, чем у менее умных людей, не имеется. Измерение будет надежным, но необоснованным и не подтвержденным фактами.

Теперь мы можем отказаться от предварительного определения валидности. Оно сыграло свою роль, но не годится для обсуждения темы валидности измерений в индустриально-организационной психологии, поскольку в этом определении подразумевается, что измерение может быть или валидным, то есть правильным, или невалидным. На самом деле валидность очень сильно зависит от контекста. Это утверждение будет обсуждаться в связи с валидностью теста, но следует помнить, что валидность — это стандарт, который применяется ко всем измерениям, проводимым в любых ситуациях.

По отношению к тестированию валидность определяется как «правильность, содержательность (meaningfulness) и полезность конкретных выводов, сделанных из результатов тестирования» (American Educational Research Association et al, 1985,). Даже при использовании тестов одного и того же типа тестирование может провозиться с различными целями, поэтому конкретные выводы, валидность которых нас интересует, могут быть различными. Когда целью тестирования является отбор для приема на работу, релевантные выводы касаются некоторых аспектов поведения человека в будущем. Если тест используется как инструмент для оценки выполнения работы, главное внимание уделяется выводам о текущем уровне выполнения работы. В обоих случаях валидность теста — показатель того, насколько выводы, сделанные из результатов тестирования, подтверждаются фактами.

Получение выводов.

Традиционно принято делить доказательства валидности выводов, сделанных по результатам теста, на три категории, в зависимости от типа вывода, для которого наиболее релевантно данное доказательство. Если имеются факты, свидетельствующие о том, что тест отражает смысл измеряемой характеристики, это доказывает валидность по конструкту. Если можно продемонстрировать, что вопросы, включенные в тест, репрезентативны для всех вопросов, которые определены как релевантные тесту, это служит доказательством валидности по содержанию. Наконец, наличие систематичной связи между результатами теста и некоторым внешним критерием (таким как способность к исполнению работы в будущем) доказывает валидность по критерию.

Описанные категории удобны в употреблении, но это не означает, что существуют различные типы валидности. Скорее это различные категории доказательств, которые необходимо собрать, чтобы сделать вывод об общей валидности измерительного инструмента. В идеале психологи хотели бы получить как можно больше таких доказательств. Однако исследования занимают много времени, они дорого стоят, и валидность теста чаще определяется сбором фактов, наиболее необходимых с точки зрения тех выводов, которые будут сделаны из этого теста.

Немного о терминологии

 

Выражения «доказательство валидностило конструкту», «доказательство валидности по содержанию» и «доказательство валидности по критерию» точно отражают смысл, но они громоздки. Этими выражениями по-прежнему иногда пользуются, но в большинстве случаев принято употреблять более удобные термины «конструктная валидность», «содержательная валидность» и «критериальная валидность». Точно так же термин «доказательство валидности теста», многократно встречающийся в этой и следующей главах, является просто кратким обозначением процесса получения фактов, релевантных выводам, которые могут быть сделаны из результатов теста.





Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 1490 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Даже страх смягчается привычкой. © Неизвестно
==> читать все изречения...

2408 - | 2118 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.008 с.