Дифференциальная валидность

Доказательство критериальной валидности проводится с целью установления связи между предсказывающей переменной и одной или несколькими переменными-критериями. Интересная глава была вписана в историю тестирования, осуществляемого при приеме на работу, когда возникли подозрения, что на эту связь может влиять еще один член семейства переменных — опосредующая переменная.

Опосредующие переменные, которые могут оказывать предсказуемое влияние на характер связи между двумя другими переменными, привлекли к себе всеобщее внимание, когда тестирование при приеме на работу впервые попало под огонь критики по подозрению в том, что оно способствует сохранению в организациях расовой предвзятости. Этот вопрос возник тогда, когда выяснилось, что непропорционально большая доля представителей расовых меньшинств получает отказ в приеме на работу, даже если для отбора используются тесты, в которых продемонстрирована критериальная валидность. Создавалось впечатление, будто связь между основными результатами теста и критерием выполнения работы, которая была установлена с помощью исследования валидности, зависит от расы.

Опосредующая переменная.

На рис. 3.7 представлена простая иллюстрация того факта, что при отборочном тестировании раса может выступать в роли опосредующей переменной. На графике А представлены результаты гипотетического исследования критериальной валидности, в котором использовалась выборка, состоявшая как из белых, так и из испытуемых с другим цветом кожи. Паттерн этих данных, которые более или менее хорошо ложатся на прямую линию, идущую из левого нижнего угла графика в правый верхний, указывает на наличие умеренной, но приемлемой положительной корреляции. Фактические вычисления, вероятно, дали бы коэффициент критериальной валидности, Достаточный для того, чтобы отбор был полезным.

Рис. 3.7. Концепция дифференциальной валидности

График В — это точечный график, построенный по данным только для белых испытуемых, а график С — по данным для остальных испытуемых. Обратите внимание на то, что положительная корреляция, заметная на графике А, сохраняется и даже белый кружок — белые, черный кружок — остальные осиливается на графике В, но исчезает на графике С. Такая картина отражает смысл концепции дифференциальной валидности: степень критериальной валидности существенно различна для разных подгрупп испытуемых. Она приемлема для белых, но близка к нулю для испытуемых с другим цветом кожи; раса опосредует связь между результатами теста и выполнением работы.

Графики, изображенные на рис. 3.7, типичны для того, что обнаружили в своих данных индустриально-организационные психологи, когда начали анализировать их на дифференциальную валидность. Влияние этих открытий на равные возможности трудоустройства привело к бурной, но кратковременной революции в индустриально-организационных психологических исследованиях, посвященных тестированию. Исследования опосредующих переменных (которые часто называют анализом подгрупп - subgroup analysis) стали частью любой программы тестирования. Были тщательно изучены другие возможные опосредующие переменные, такие как пол, уровень образования, принадлежность к социальному классу и различные личностные черты. Как часто случается в прикладной психологии, первоначально повышенный интерес к опосредующим переменным сменился более трезвым анализом результатов этих исследований. Анализ показал, что причины появления дифференциальной валидности по большей тети случайны или связаны со статистическими проблемами. В настоящее время у представителей основного направления индустриально-организационной психологии сложилось общее мнение, что в области тестирования при приеме на работу дифференциальная валидность не является главным поводом для тревоги.

По-видимому, всегда будут возникать ситуации, когда прогнозы, сделанные с помощью какого-либо теста, для одной широкой группы испытуемых менее точны, чем для другой группы. Однако в большинстве случаев главным вопросом, как и всегда, остается простое старое доказательство критериальной валидности. Тем не менее многих продолжает волновать тема различий между результатами тестирования белых испытуемых и испытуемых с другим цветом кожи, и то, как эти результаты используется. Более подробное обсуждение этой темы можно найти в рубрике «Внимание — проблема».

Генерализация валидности

В самом широком смысле под генерализацией валидности подразумевают возможность распространения выводов, сделанных из эмпирического исследования валидности, на другие выборки и условия. Такая генерализация необходима в большинстве случаев использования тестов в прикладных целях; условия тестирования редко бывают идентичны тем, при которых были собраны исходные данные о валидности. Однако в литературе по индустриально-организационной психологии этот термин все чаще используется в более узком смысле. Говоря конкретнее, генерализацией валидности (Validity generalization, VG) называют распространение или перенос критериальных доказательств валидности теста, продемонстрированных для одного вида работы, на другие виды работ без проведения отдельных исследований валидности.

Комиссия по соблюдению равных прав на труд (Equal Employment Opportunity Commission) считает законной генерализацию критериальных доказательств валидности, полученных для конкретной должности, применительно к другим должностям при условии возможности продемонстрировать, что работа в других должностях требует «в основном одних и тех же видов производственного поведения» (ЕЕОС, 1978, Раздел 7В). Демонстрация начинается с анализа работы — то есть с процесса деления работы на поведенческие компоненты с целью выяснения фактического характера деятельности людей, выполняющих эту работу.

Часто в результате такого анализа выясняется, что работа на должностях с совершенно разными названиями, таких как должности банковского кассира и служащего бюро обслуживания, на самом деле требует от выполняющих ее людей примерно одинаковых видов поведения на производстве. Тест, валидность которого была доказана для отбора сотрудников на одну должность, можно законно использовать для отбора сотрудников на другую должность — но будет ли он эффективен в таком случае? Можно ли эффективно прогнозировать успешность работы человека в качестве продавца, выписывающего счета в отделе запасных частей большой авторемонтной мастерской, с помощью того же теста, который использовался для прогнозирования успешности работы продавца, выписывающего счета в спокойной обстановке дорогого универмага? Виды производственного поведения очень похожи, но условия работы сильно отличаются.

Предположение о том, что контекст, в котором выполняется работа (ситуация), настолько важен, что он влияет на возможность прогнозирования успешности работы, называют гипотезой о ситуационной специфичности. При таком подходе получается, что продавец в отделе запчастей и продавец в универмаге выполняют похожую, но все-таки разную работу. С практической точки зрения это означает, что для каждой Должности, для которой тест может быть использован в качестве основы для прогнозов, следует проводить отдельное исследование валидности, даже если анализ работы показывает, что в должностные обязанности входят очень похожие задачи.

Большинство индустриально-организационных психологов в течение многих лет разделяли гипотезу о ситуационной специфичности, и казалось, что имеется множество фактов, ее подтверждающих. Когда одни и те же тесты использовались для прогнозирования выполнения одной и той же или похожих видов работы в различных компаниях (или даже в различных подразделениях одной и той же компании), полученные коэффициенты валидности изменялись в широком диапазоне. Казался неизбежным вывод о том, что условия работы действуют как опосредующая переменная, оказывая влияние на связь между предсказывающей переменной и критерием. Например, по оценке Брауна (Brown, 1981), при прогнозировании выполнения работы тентами по страхованию жизни более трети различий объясняется влиянием различий в условиях их работы.

Для переноса валидности теста, предназначенного для отбора при приеме на работу, с одной

рабочей ситуации на другую необходимо продемонстрировать, что обе эти работы требуют «в

основном одних и тех же видов производственного поведения».

С начала семидесятых годов некоторые исследователи начали внимательнее изучать гипотезу о ситуационной специфичности. С помощью новой методики метаанализа они исследовали такой вопрос: не возникают ли кажущиеся значимыми различия в коэффициентах валидности, полученных для различных ситуаций, на самом деле просто за счет методов и процедур, использованных при сборе и анализе данных? Другими словами, эти различия могут быть «статистическим артефактом», а не истинным явлением. В одном из первых исследований Перлмэн, Шмидт и Хантер (Pearlman, Schmidt & Hunter, 1980) провели повторный анализ данных около 700 исследований валидности прогнозов для должностей канцелярских работников и пришли к выводу, что истинные коэффициенты валидности, полученные в различных исследованиях и в различных ситуациях, как правило, сохраняли постоянство.

Метаанализ.

Тесты, исследованные в первых работах, посвященных генерализации валидности, были тестами когнитивных (умственных) способностей. Менее чем через десять лет после публикации первого отчета о таких исследованиях вывод о том, что возможна генерализация валидности таких тестов в ситуациях приема на работу, получил всеобщее признание (например, Anastasi, 1988; Society for Industrial and Organizational Psychology, 1987). Это важный элемент общих знаний, накопленных об отборочном тестировании, и хорошая новость для организаций, которые используют или могли бы использовать тесты когнитивных способностей для отбора сотрудников.

Успех исследований генерализации валидности в настоящее время стимулировал много дополнительных исследований, дискуссий и разногласий, касающихся многих смежных измерений, теоретических и практических проблем. Здесь мы не будем их касаться, а только напомним, что научное исследование — это постоянно продолжающийся процесс. Возможность переноса критериальных доказательств валидности теста когнитивных способностей на другие ситуации означает, что коэффициенты валидности вообще могут быть более устойчивыми, чем предполагалось ранее. Тем не менее остается много нерешенных вопросов, и было бы преждевременным полностью отказаться от гипотезы о ситуационной специфичности (James, DeNaree, Mulaik & Ladd, 1992; Lance, Stennett & Mayfield, 1992).