Тестов социальных установок 3 страница

Положительным моментом исследований по оценке эффективности в США является широко распространенная защита и проведение от случая к случаю повторного анализа данных оценивания программ другими исследователями. «Фонд Рассела» финансирует целый ряд таких работ, в том числе оценку эффективности телевизионных образовательных программ для дошкольников (Cook et al.. [31]). Первоначальную правительственную оценку (Cicirelli [29]) программы компенсаторного дошкольного образования повторно проанализировали Смит и Биссел [85] и Барноу [3]. Ведется дальнейшая работа в этом направлении. Так же обстоит дело и в отношении некоторых других классических исследований по оценке эффективности, хотя они все еще не получили широкого распространения и многие данные недоступны.

Одно из изменений, в которых нуждаются традиции исследования, или его этика — это отношение к «показаниям меньшинства» из состава исследователей. Этическое правило, согласно которому данные оценивания должны быть доступны для критического анализа, следует распространить и на сотрудников, которые проводили сбор данных и их анализ и которые очень часто прекрасно знают, как можно организовать эти данные, чтобы они подтверждали совсем иные выводы, а не те,

______________________________________________________________________________

¹ Здесь и далее автор использует принятые в США условные обозначения специальных образовательных программ, призванных компенсировать отставание в развитии и образовании, в частности, детей из плохо обеспеченных семей. — Прим. ред.

333

которые представлены в официальном отчете. В настоящее время любые действия подобного рода рассматривались бы как достойная осуждения нелояльность по отношению к организации. Из-за этого оказывается утраченным один из особенно компетентных источников критики, а тем самым и объективности. Официальное предложение подготовить отчет, полученное каждым членом группы специалистов по оценке эффективности от учредителя или администратора, в значительной мере способствовало бы в этом отношении освобождению, как от вины, так и от цензурных ограничений.

В этой связи нам следует иметь в виду две ценные модели социального экспериментирования. С одной стороны, модель большой науки, образец которой мы находили в эксперименте «Негативный подоходный налог», он будет обсуждаться ниже. С другой стороны, модель недорогого «административного эксперимента» (Campbell [14], Thompson [89]), который состоит в том, что какая-нибудь административная единица, например город или штат (или предприятие, или школа), применяет новую стратегию таким образом, чтобы иметь возможность экспериментальной или квазиэкспериментальной проверки ее эффективности. «Практическое оценивание программ для местного управленческого персонала и персонала штатов» (Hatry et al. [51]) служит примером этого подхода. Чтобы административное экспериментирование давало объективное знание, нужна диффузная перекрестная валидизация, при которой города, штаты, и т. п., приняв обещанные нововведения, подтверждают их эффективность посредством своей собственной деятельности по оцениванию.

Децентрализация принятия решений обладает тем преимуществом, что она создает большее число социальных единиц, способных повторять и проверять социальные преобразования или одновременно изучать множество оценок различных альтернативных решений. Даже в отсутствие планирования само существование в США правления штатов создает возможность квази-экспериментальных сравнений, что было бы недоступно в более интегрированной системе. Эту точку зрения хорошо обосновал Цейзель [105, 106], а примером может служить исследование Болдуса [2], о котором ниже говорится более подробно. Если предприятия,

334

школы или другие подобные им по размерам единицы могут осуществлять независимый выбор программ и если заимствуемые программы оцениваются столь же тщательно, как новые, цепная реакция заимствований самых многообещающих программ обеспечивала бы что-то наподобие валидизации науки.

Исследования по оцениванию — скорее нормальная, нежели экстраординарная наука. До сих пор, рассматривая метанаучные вопросы, мы не обращались к острым метанаучным проблемам, обсуждающимся в настоящее время в США. Из них в центре внимания оказываются все еще те вопросы, которые были подняты в книге Т. Куна «Структура научных революций» [60]. Хотя я больше, чем Кун, подчеркиваю последовательность и относительную объективность науки, я нахожу в том, что он говорит, немало ценного и имеющего отношение к нашей проблеме. А именно: в научном развитии бывают нормальные периоды, когда существует общее согласие в отношении правил, с помощью которых решается, какая теория более валидна. В развитии науки имеют место и экстраординарные, или революционные, периоды, когда ученые должны делать свой выбор на основе правил, которые не являются элементами прежней парадигмы. После такой революции выбор новой преобладающей теории первоначально не обосновывается в терминах правил решения, принятых в предшествующий период нормальной науки.

В случае исследований по оценке эффективности куновская метафора «революция» может быть возвращена в политическую сферу. Ясно, что исследования по оценке эффективности осуществляются правительством или по крайней мере не вызывают у него возражений. Это предполагает наличие устойчивой социальной системы, характеризующейся социальными показателями, которые остаются сравнительно постоянными, так что ими можно пользоваться для измерения воздействия, оказанного программой. Осуществленные программы должны быть достаточно малы по объему, чтобы не вызвать серьезного нарушения в общей социальной системе. Обсуждаемая мной технология непригодна для измерения социальных воздействий какой-либо революции. Даже в рамках стабильной политической ситуации ее приложения следует, возможно, ограничить сравнительно

335

второстепенными нововведениями. Это показывает, например, Цейзель, рассматривая экспериментирование с правовой системой США. (Само собой разумеется, я не собираюсь строить на этом валидную аргументацию против осуществления изменений, масштабы которых делают невозможным их оценивание.)

Статистические проблемы

В этом разделе я займусь более земными проблемами, в которых мы, методологи количественного оценивания, чувствуем себя наиболее уверенно. Это проблемы, явно требующие профессионального умения, проблемы, которые нуждаются в решении и могут быть решены. Такие статистические проблемы предполагают при решении метанаучных вопросов предпочтение количественного экспериментального подхода. Я начну с полезного обыденного метода — с прерывных временных серий. Затем я остановлюсь на некоторых популярных, но неприемлемых регрессионных подходах к квазиэкспериментальным планам. Потом будут обсуждены проблемы, связанные с экспериментами, предполагающими рандомизацию, а в заключение — оригинальный компромиссный план ¹.

План прерывных временных серий. Этим термином я обозначаю широко распространенную практику построения на основе той или иной социальной статистики временных рядов и попыток их интерпретировать. Эта практика, как и проблемы, с которыми она столкнулась, и решения, к которым она привела, независимо возникли во многих странах. Я отмечу некоторые примеры использования этого метода вне США: Kutchinsky [61]; David, Wright [36]; Glass, Willson, Gottman [44] и др.

В работе Росса [75] приводятся статистические дан-

_____________________________________________________________________________

¹ Рассматриваемые в данном разделе модели и планы квазиэкспериментальных исследований, а также методологические и методические вопросы, связанные с разработкой и использованием этих моделей, более детально изложены в специальных работах Д. Т. Кэмпбелла (см., например: C a m p b e l l D. T. Quasi-Experimental Designs. — In: Social Experimentation: A method for planning and evaluating social intervention. N. Y., Academic Press, 1974; C a m p b e l l D. T. Reforms as experiments. — In: Readings in Evaluation Research. Ed. by F. G. Caro, N. Y., Russell Sage Foundation, 1977; C a m p b e l l D. T. Focal local indicators for social program evaluation. — Social indicators research, 1976, vol. 3. — Прим. ред.

336

ные об эффекте особых мер по обеспечению безопасности движения, принятых в Англии в 1967 г.¹ На приведенном графике (рис. 1) этот эффект получил более наглядное отражение, чем в какой бы то ни было английской публикации. Британское министерство транспорта на протяжении последующего года добросовестно обнародовало впечатляющие результаты. В отчете приводились проценты сокращения числа дорожных происшествий в данном месяце по сравнению с тем же месяцем предыдущего года. Это лучше, чем полное игнорирование зависимости результатов от времени года, но и этот метод неэффективен, поскольку необычные «эффекты» часто в той же мере обязаны своим происхождением превратностям предшествующего периода времени, что и текущего периода. Кроме того, этот метод не позволяет создать общую картину. Газеты с полным основанием отмечали успех мероприятия, однако интерес к нему вскоре угас, и в настоящее время английские социологи в большинстве своем не имеют представления об эффективности этой программы. На рис. 1 данные приводятся с поправкой на сезонные тенденции, на неодинаковое число дней и уикэндов в разных месяцах и с учетом того факта, что меры оценивались лишь после даты их введения. Всякая такая подгонка (adjustment) по-своему проблематична и может быть решена по-разному. В данном случае последствия принятых мер были настолько значительны, что их можно было бы выявить при любом подходе, но во многих случаях дело будет обстоять иначе. (Отмеченные на графике данные о часах поездок на работу и обратно служат контрольными по отношению к вечерним и ночным часам уик-эндов.)

Болдус [2] проанализировал серьезные последствия одного закона, который он считает вредным

_____________________________________________________________________________

¹ Изучение эффективности принятых мер предполагало оценку причин уменьшения числа дорожных происшествий, вызванных водителями в нетрезвом виде. Более детально исследование и методика описаны в работах: R o s s H. L., C a m p b e l l D. T., G l a s s G. V. Determining the social effects of legal reform: The British «breathalyser» crackdown of 1967. — Amer. Behavioral Scientist, 1970, vol. 13, no 4. C a m p b e l l D. T., R o s s H. L. The Connecticut crackdown on speeding, Time — Series Data in Quasi-Experimental Analysis. — Law and Society Review, 1968, vol. III, № 1; C o o k T. D., C a m p b e l l D. T. Op. cit. — Прим. ред.

337

Р и с. 1. Дорожные происшествия (со смертельным исходом или с тяжелыми телесными повреждениями) в Англии до и после введения программы по обеспечению безопасности дорожного движения в октябре 1967 г. (упорядоченные посезонно). (По: Ross [75].)

именно потому, что он эффективен. Если лицо, получавшее пособие по старости (вспомоществование для бедных, назначаемое правительством), умирая, оставляет деньги или какую-нибудь собственность, то, согласно этому закону, расходы правительства должны быть возмещены. При капиталистической идеологии, усвоенной даже бедными, многие старики будут умирать голодной смертью, лишь бы иметь возможность оставить свое жилище детям. Болдус изучал последствия таких законов на материале примерно 40 случаев, когда они вводились в штатах, и примерно 40 других случаев, когда их действие приостанавливалось. В каждом случае он отыскивал для сравнения какие-то похожие штаты, которые не меняли своих законов (см. рис. 2).

План прерывных временных серий имеет исключительно важное значение для оценивания программ. К нему можно обращаться, когда новая программа оказывает влияние на всех, вследствие чего нельзя составить настоящую контрольную группу. Если есть возможность привлечь для сравнения данные какой-ни-

338

будь другой группы, этот план лучше любого другого квазиэкспериментального плана (Campbell, Stanley [26] ¹). Нередко он может быть реконструирован на основе архивных материалов. Будучи представлен графически, он легко доступен пониманию администраторов и законодателей. Вот почему он вполне заслуживает методического совершенствования. Далее приводится краткий перечень методологических проблем, с которыми мы сталкиваемся при разработке этого метода.

Р и с. 2. Влияние введения в штате А закона, требующего возмещения получаемой помощи после смерти получателя, на поступление в учреждения социального обеспечения запросов о пособиях престарелым. (Модификация по: Boldus [2, с. 204].) Ежемесячные данные, где все значения выражены в процентах от количества запросов за 18 месяцев до изменения в законе.

1. Все еще остается проблемой проверка значимости. Обычный метод наименьших квадратов здесь, как правило, неприменим вследствие авторегрессионной ошибки, поэтому наиболее приемлемой представляется модель «подвижных средних». Гласc, Уиллсон и Готтмен [44] разработали самый лучший подход к проблеме, который основывается на трудах Бокса и Тьяо [11] и Бокса и Дженкинса [12]. Эти модели требуют, чтобы в данных отсутствовали систематические циклы, однако все методы их устранения, как правило, не полностью обеспечивают подгонку данных. Для них требуется, кроме того, большое число временных точек, и иной

_____________________________________________________________________________

^{1 См. перевод этой работы в данной книге.}

339

раз не удается выявить эффект, который воспринимается визуально, когда он представлен графически. Но иногда с их помощью выявляется значимое воздействие там, где визуально нельзя ничего обнаружить.

2. Проблемой остается и устранение сезонных тенденций. Последние сами по себе нестабильны и предполагают обращение к модели подвижных средних. Изменение из месяца в месяц, совпадающее с предусмотренной программой, не может считаться чисто сезонным; ряд, следовательно, должен быть разделен в данной точке на части для оценки характера сезонных изменений. Поэтому точки, непосредственно предшествующие осуществлению программы и непосредственно следующие за ним, становятся крайними точками ряда и поддаются коррекции хуже, чем точки в середине ряда (Кеpkа [55]; МсСаin [66]).

3. Новая администрация, которая предлагает новые программы, склонна вносить изменения и в систему регистрации процесса. Тем самым изменения в показателях часто становятся не поддающимися интерпретации (Campbell [16]). Этого следует по возможности избегать.

4. Когда введенные программы являются реакцией на какую-нибудь острую проблему (например, резкое изменение к худшему, фиксируемое каким-нибудь социальным показателем), благотворные воздействия программы смешиваются с «регрессионными артефактами», которые обязаны своим возникновением тому факту, что в нестабильном ряду точки, следующие за экстремальным отклонением, располагаются, как правило, ближе к линии общей тенденции (Campbell [16, 413—414]).

5. С помощью этого плана обычно невозможно уловить изменения, вводимые постепенно. Если администратор, пользуясь этим планом, хочет сделать программу оптимально доступной оцениванию, не следует вводить ее до тех пор, пока не будут сделаны все необходимые приготовления для резкого ввода. Британская программа мер по обеспечению безопасности движения, о которой мы говорили выше, может служить примером этой оптимальной практики (см. рис. 1).

6. Ввиду того, что необходимы длинные серии наблюдений, мы, как правило, вынуждены пользоваться

340

только теми индикаторами, которые регистрировались когда-то для иных целей. И хотя часто они релевантны (например, данные о рождении и смерти), тем не менее, даже самые что ни на есть намеренно выбираемые индикаторы никогда полностью не релевантны, это — серьезное ограничение. Отсутствуют, в частности, отчеты о переживаниях участников и их опыте. В то же время невозможно и нежелательно пытаться предвидеть все будущие потребности и заводить книги для их учета. Необходим известный компромисс между крайностями, пусть даже ценой умножения бланков, подлежащих заполнению, и записей, которые надо регулярно вести. На институциональном уровне было бы важно получить от каждого участника «Годовые отчеты для оценивания программы» (Gordon, Campbell [46]). В системе школьного образования такие отчеты могли бы представлять учителя, учащиеся и родители. Отметим, что в настоящее время школьная система фиксирует успехи учеников, но еще ни разу не интересовались отчетами учеников об успехах школы. Учителя из года в год оцениваются по эффективности их работы, но им ни разу еще не представился случай оценить стратегию, которую они должны проводить в жизнь. Изучаются некоторые шаги в этом направлении (Weber, Cook, Campbell [93]; Anderson [1]). В системе социального обеспечения в США такие отчеты могли бы представлять как социальные работники, так и те, кто получает помощь (Gordon, Campbell [46]). Все показатели должны оценивать лишь программы и стратегии, но не конкретных лиц — по причинам, которые будут рассмотрены ниже.

Корректирование регрессий как замена рандомизации. Наиболее распространенная в американской практике модель оценивания состоит во введении новой программы в каком-то одном институте или административной единице с обследованием до, и после ее введения. Хотя при этом оставляет желать лучшего способ контроля, этот метод часто оказывается достаточно информативным для того, чтобы его стоило практиковать. Почти столь же часто этот план усовершенствуется за счет привлечения сравниваемой группы, которая также подвергается измерениям до и после введения программы в основной группе. Это, как пра-

341

вило, какая-то иная, свободная от воздействий социальная единица, которая не получает новой программы и признается сопоставимой в других отношениях. Обычно оказывается, что эти две группы отличаются друг от друга уже до работы с ними, и одна из естественных тенденций состоит в том, чтобы устранить эти отличия. На мой взгляд, средства, используемые с этой целью в практике применения статистических методов в США, почти всегда неверны. Получается, что некий набор статистических инструментов, разработанных и пригодных для предсказания, применяется в целях каузального вывода, которым он не соответствует. Регрессионный анализ, мультивариативная статистика, ковариационный анализ — вот наименования некоторых статистических приемов, которые я имею в виду. Идет ли речь о статистике в области образования или экономики, подбор методов остается, по-видимому, тем же. У экономистов есть выражение, которым они обозначают данную проблему, — «ошибка в переменных», или, точнее, «ошибка в независимых переменных». Но, учитывая эту проблему в теории, они так привыкли считать свои индикаторы, по существу, свободными от ошибки, что на практике ее игнорируют. Они забывают, что нерелевантные систематические компоненты дисперсии создают ту же проблему, что и случайная ошибка, ведущая к такой же погрешности недостаточной коррекции. Отметим, что наличие ошибки и единичная дисперсия имеют систематический эффект, то есть служат скорее источником погрешности, чем источником нестабильности оценок. Этот факт также игнорируется экономистами и другими исследователями. Таким образом, усилия, направленные на то, чтобы внести поправку на отличия, имевшие место до воздействия, с помощью «регрессионных коррекций» средних, либо путем «отделения» отличий, установленных при предварительном тестировании, либо путем ковариационных коррекций, приводят к недостаточной коррекции, если только показатели предварительного тестирования (или другие сопутствующие переменные) не являются совершенными мерами того, что оказывается общим для показателей предварительного и итогового тестирований. Хорошо известно, что старая методика использования только тех случаев, для которых имеются соответствия показателей, выявленных в предвари-

342

тельном и итоговом тестировании, порождает «регрессионные артефакты» (Thorndike [90]; Campbell, Stanley [26]). Ковариация дает ту же погрешность, ту же степень недостаточной коррекции, но более прецезионную (Lord [64, 65]; Porter [71]; Campbell, Erlebacher [23]), и точно так же обстоит дело со множественной регрессией и частной корреляцией (см., например, Cook, Campbell [32]). В сущности, та же проблема возникает в исследованиях ex post iacto, где хотя и не бывает предварительного тестирования, но коррекции поддаются другие сопутствующие переменные. Широко распространенный вариант данной проблемы имеет место в случае, когда некоторые лица подвергаются какому-то воздействию, а наряду с ними имеется обширная популяция лиц, не подвергающихся этому воздействию, из которых составляется «контрольная» группа для сравнения.

В практике США стало крайне важно различать два вида ситуаций, в которых используется этот тип квазиэкспериментального плана и эти типы коррекции, так как недостаточная коррекция в этих ситуациях имеет противоположный социальный смысл. С одной стороны, имеются специальные программы, обеспечивающие благоприятные возможности — вроде университетского образования,— предназначенные для тех, кто менее нуждается, или, согласно более распространенной формулировке, кто больше всех их заслуживает, или для тех, кто скорее, чем другие, сумеет извлечь из них какую-то пользу. Будем называть их «дистрибутивными» программами в отличие от «компенсаторных» программ, то есть от тех, в которых благоприятные возможности предоставляются тем, кто более всего в них нуждается.

В случае регрессивных программ группа, выбранная для воздействия, будет, как правило, превосходить контрольную группу или ту популяцию, из которой выбираются квазиэкспериментальные контрольные группы. В этих условиях неизбежная недостаточная коррекция, вызванная единичной дисперсией и ошибкой в показателях предварительного тестирования и/или другой сопутствующей переменной («регрессионные артефакты»), способствует тому, чтобы воздействие казалось эффективным, тогда как на самом деле оно не имеет

343

смысла и ведет к преувеличению его эффективности во всех случаях. Многим из нас такая ошибка кажется вполне простительной, поскольку она укрепляет нашу веру в воздействия, в пользе которых мы убеждены всей душой. (Это может показаться удивительным, но американская телевизионная образовательная программа для дошкольников «Sesame Streeb» является «дистрибутивной» в том смысле, что ее больше смотрят дети более образованных родителей) (Cook et al. [31].)

В компенсаторных программах контрольные группы обычно, хотя и не всегда, вначале превосходят те группы, которые подвергаются воздействию, либо подбираются из какой-нибудь более обширной популяции, в среднем превосходящей обследуемую. В этих условиях погрешности недостаточной коррекции, регрессионные артефакты, ведут к недооценке эффективности программы и к тому, что наши программы кажутся вредными, в то время как они попросту бесполезны. Такие условия для квазиэкспериментальных исследований имеют место в наших важнейших работах по оцениванию компенсаторных образовательных программ, известных под названиями «Head Start», «Follow Through», «Performance Contracting», «Job Corps» и др. Можно считать это почти определенно установленным для значительных нежелательных эффектов, обнаруживаемых при оценивании короткой трехмесячной программы «Head Start», на которую отводится 10 часов в неделю (Cicirelli [29]; Campbell, Erlebacher [23]). Я убежден, что преобладание этих квазиэкспериментальных условий и процедур коррекции является одним из главных источников пессимистических отчетов о результатах подобных компенсаторных образовательных программ. Те весьма немногочисленные исследования в сфере компенсаторного образования, которые обходят эту проблему путем случайного распределения детей по экспериментальным и контрольным группам, дают более оптимистические результаты.

В области компенсаторного образования имеется еще ряд проблем, способствующих тому, чтобы в квазиэкспериментальных исследованиях программа выглядела как вредная. Они включают тесты, которые слишком сложны, дифференциальные показатели развития в сочетании с возрастными, эквивалентными школьной оцен-

344

ке, абсолютными, или необработанными, показателями, а также тот факт, что надежность теста выше для итоговых проверок, чем для предварительного тестирования, а надежность оценок контрольной группы превышает надежность оценок экспериментальной группы (Campbell [19]). Эти обстоятельства требуют коренного пересмотра нашей практики тестовых оценок. Когда к одной популяции в каком-то единичном частном случае применяются разные модели оценивания, все процедуры оценивания так сильно коррелируют между собой, что можно с тем же успехом воспользоваться наипростейшей из них. Но когда две группы, с самого начала отличающиеся друг от друга, в период ускоренного развития подвергаются тестированию в два разных срока, наша обычная практика оценивания дает видимое увеличение разрыва, если, как это обычно бывает, повышается надежность теста. Использование коррекции для предсказаний становится крайне важным. Следует отказаться от общепринятой модели, основывающейся на допущении, что «истинная оценка» и «ошибка» не зависят друг от друга, и заменить ее моделью, которая при сравнении индивидуальных результатов выявляет отрицательную корреляцию между ошибкой и истинной оценкой: чем более значим компонент ошибки, тем менее значим компонент истинной оценки.

Проблемы, связанные с рандомизированными экспериментами. Достойным внимания примером хорошего социального эксперимента в США является «Эксперимент с негативным подоходным налогом» в Нью-Джерси (или Программа «НПН»)¹.

В этом эксперименте исследуется вопрос о гарантированном годовом доходе как альтернативе к действующим в США в настоящее время системам социального обеспечения. Своим наименованием он обязан тому, что, если доходы падают ниже некоторого заданного уровня, налог должен становиться негативным, иными словами, государство должно выплачивать какую-то

_____________________________________________________________________________

¹ «Эксперимент с негативным подоходным налогом» («New Jersey Negative Income Tax Experiment») oпиcaн b pядe pa6oт: Watts, Rees [92]; Kershaw [56, 57, 58], cm. такжe: Social Exprimentation: A method for planning and evaluating social intervention. Ed. by H. W. Riecken and R. F. Boruch. N. Y., Academic Press, 1974. — Прим. ред.

345

сумму гражданам вместо того, чтобы взимать ее с них. Кроме того, предполагается изменить и процедуры налогообложения. В этом эксперименте 600 семей, где главой семьи является работающий мужчина, получали денежные пособия, благодаря которым их доход достигал некоторой суммы, от 3000 до 4000 долларов в год, на семью из четырех человек, эта сумма варьировалась в согласии с одним из восьми планов, причем каждый план предусматривал определенный уровень материальной помощи, а также стимулирование участников увеличивать свои собственные доходы. Другие 600 семейств не получали дополнительных доходов, но один раз в квартал у них брали интервью. Эксперимент продолжался три года, и сейчас уже имеются предварительные данные о его результатах. Я хотел бы использовать опыт этого социального эксперимента для того, чтобы осветить методологические проблемы, которые должны быть решены в более совершенных социальных экспериментах. В этом плане мои комментарии кажутся по преимуществу критическими. Однако мое общее отношение к этому эксперименту одобрительное. Я рассматриваю его как наиболее значительный пример практического использования прикладной социальной науки.

Основной результат этого эксперимента состоит в том, что гарантированный доход не ослабляет эффективных усилий неимущих людей в сфере труда. Этот итог, если его признать, опровергает главный аргумент, выдвигаемый против такой программы, поскольку, если исходить из одного только объема затрат, она должна обходиться дешевле, чем нынешняя система социального обеспечения, по крайней мере если она не побуждает многих ныне работающих людей оставить свою работу. В методологическом плане основная критика этого исследования связана с сомнением по поводу правдоподобия утверждений, что этот «лабораторный» результат имел бы место и после того, как данная программа вспомоществований стала в США обычной, постоянной политикой. Это вопросы «внешней валидности» (Campbell, Stanley [26]) или «конструктной валидности», если использовать термин, первоначально разработанный для теории измерения Куком (Cook, Campbell [32]). Особенно примечательны два критических замечания. Одно состоит в том, что предполагает-

346

ся, что имел место «эффект Хоуторна» или «эффект морской свинки»¹. Семьи, участвовавшие в эксперименте, знали, что они являются избранными участниками мероприятия, проводимого с особой целью, и находятся в центре всеобщего внимания. Поэтому они и вели себя как подобает «хорошим» людям, трудолюбивым и респектабельным, что и привело к полученным результатам. Такая мотивация отсутствовала бы, если бы программа была общей для всех. Можно предположить, что этот момент усугублялся двумя обстоятельствами, сопутствовавшими реализации данной программы. Эксперимент с самого начала получил широкую известность и рекламу, включая телевизионные интервью с выбранными испытуемыми, и случайная выборка производилась по семьям, а не по жилым кварталам, так что каждая семья, участвовавшая в эксперименте, была окружена столь же неимущими соседями, на которых программа помощи не распространялась. Второе общее критическое замечание, особенно со стороны экономистов, можно было бы обозначить как эффект ограничения времени. Участникам эксперимента предлагалась материальная помощь ровно на три года. Им объяснили, что эксперимент ограничен этим периодом. В этих условиях предусмотрительные участники должны были держаться за свою работу, разве что они могли получить другую, получше, так что они должны были быть готовы вернуться к своим обычным финансовым трудностям.