Ретроспективное предварительное тестирование

Во многих воинских формированиях в военное время лица одного и того же звания и специальности получают различные назначения случайно, без учета их особых привилегий, предпочтений или способностей. Поэтому сравнение социальных установок белых, попавших в подразделения со смешанным расовым составом, с установками тех, кто оказался в частях с однородным составом, может представлять интерес для установления соответствующих каузальных отношений. Мы, разумеется, должны не пренебрегать этими данными, а искать дополнительные, чтобы отклонить правдоподобные конкурентные гипотезы, отдавая себе отчет в остающихся источниках невалидности. В этом примере итоговые интервью содержали не только вопросы об отношении к неграм в данное время (в смешанных подразделениях оно оказалось более благоприятным), но предполагали припоминание установок, имевших место до получения данного назначения. Это «ретроспективное предварительное тестирование» обнаружило отсутствие различия между двумя группами, что увеличило вероятность отсутствия различий и до назначения.

Подобный анализ сыграл важную роль в исследовании Дойча и Коллинз [30], сравнивавших жителей интегрированных и сегрегированных кварталов, в которых квартиры распределялись в такой период, когда из-за недостатка жилья люди принимали соответствующие предложения более или менее независимо от их расовых установок. При наличии данных только итогового тестирования обнаруженные ими различия между двумя группами могли быть отнесены на счет первоначальных социальных установок. Утверждение, что опыт расовой интеграции приводит к более благожелательному отношению, стало более убедительным, когда ретроспективное исследование показало отсутствие

177

различий между двумя группами в их воспоминаниях о своих первоначальных установках. В силу аутистических факторов, искажающих, как известно, воспоминания и данные интервью, такие результаты не носят решающего характера.

По-настоящему следовало бы, конечно, провести предварительные интервью и в случайном порядке распределить испытуемых по обеим группам. Такие исследования, несомненно, будут выполнены. Но пока мы не располагаем лучшими данными, результаты Дойча иКоллинз, включая ретроспективное предварительное тестирование, являются ценным добавлением к экспериментальному знанию в этой трудной области.

Читателю следует обратить внимание на то, что вероятная систематическая ошибка памяти состоит в искажении прежних установок и согласовании их с сегодняшними установками или с установками, которые испытуемый считает социально желательными. Таким образом, здесь ошибка памяти скорее затушует значимый эффект X.

В исследованиях влияния обучения в колледже на студентов путем сравнения установок новичков и старшекурсников желательно использовать методику ретроспективного тестирования, которое будет служить частичным заслоном против конкурентных гипотез об эффектах фоновых воздействий, селективного выбывания и изменений в начальном составе группы. (Это не значит, что мы одобряем дальнейшее повторение таких поэтапных исследований, так как сейчас больше нужны лонгитюдинальные исследования, аналогичные исследованиям Ньюкомба [84], которые предполагали повторные измерения в течение четырех лет в сочетании с повторными обследованиями по методу поперечных срезов, то есть по плану 15. Если же нужно срочно сделать диссертацию, то для этого лучше выбрать другую тематику.)

Панельные исследования

В определенных однородных исследованиях респондентам нередко предлагается самим определить, были ли они подвержены X. В таких случаях корреляция между воздействием и результатом итогового тестиро-

178

вания оказывается смещенной не только в силу наличия общего источника погрешности (X получают те, кто и без X дал бы высокий результат О), но и из-за искажений памяти по отношению к X, еще больше усиливающих ложный эффект (Stouffer [120, с. 356]). Хотя эти исследования и обнаруживают каузальную связь, оправдывающую затраты на рекламу (то есть демонстрируют корреляцию между ответами на вопросы типа «Смотрели ли Вы эту программу?» и «Купили ли Вы это изделие?»), они являются тривиальным свидетельством о наличии эффекта. Они привносят новый фактор, угрожающий внутренней валидности результатов, то есть систематическую ошибку в определении того, кто получил X, который мы не намерены вносить в наши таблицы.

Большим достижением методологии исследования общественного мнения явилось применение панельного метода — повторных интервью с теми же лицами. В лучшем случае, когда X (например, показ кинофильма или проведение консультации) вклинивается между двумя волнами интервью или анкетирования, панельное исследование представляет собой слабый вариант плана 10 с единственным X. Следует, однако, иметь в виду, что в социологии это важное методическое нововведение сопровождается ошибочным традиционным анализом. Так, интерпретация «таблицы текучести» (Glock [41]), как отмечают Кэмпбелл и Клэйтон [14], затруднена из-за смешивания каузальных гипотез с регрессионными эффектами. Даже при анализе приращений зависимых переменных в группах, подвергшихся и не подвергшихся X, в понятиях предварительного и итогового тестирования остается менее явный источник систематической ошибки. В таких панельных исследованиях факт предъявления респонденту X (например, показ кинофильма, направленного против предрассудков) устанавливается во второй волне интервью двухэтапного панельного исследования. Схема такого плана выглядит следующим образом:

Панельное исследование с двумя волнами интервью (неприемлемо)_.

179

Здесь большими скобками отмечено наличие О или X на одном и том же этапе с одним интервью, а вопросительный знак указывает на неоднозначность отнесения респондентов к группам с X и без X. В отличие от плана 10 этот план не позволяет однозначно определить, кто принадлежит к экспериментальной, а кто к контрольной группе. Как в худших реализациях плана 10, X коррелирует с данными предварительного тестирования (лица с минимальными предрассудками более склонны посмотреть фильм). Более того, даже если X в действительности не влияет на результаты О, корреляция между X и данными последующих тестирований будет более высокой, чем между X и данными предварительных тестирований, просто потому, что они (X и О) осуществляются в одном и том же интервью. Как показывает общий опыт исследований, связанных с тестированием и измерениями, в отношении любых двух пунктов одного и того же вопросника наблюдается сильная тенденция к более высокой корреляции ответов между собой, чем в отношении ответов на те же вопросы, но включенные в разные вопросники. Стокфорд и Бисселл [119] обнаружили, что даже в рамках одной анкеты ответы на смежные (соседние по положению) вопросы имеют более высокую корреляцию, чем ответы на вопросы, отдаленные друг от друга. Корреляция между измерениями, выполненными в один день, как правило, выше, чем между измерениями, сделанными в разные дни. В упомянутом панельном исследовании (Glock [41]) два интервью были проведены с интервалом в восемь месяцев. Увеличению корреляции внутри одного интервью и уменьшению корреляции тех же пунктов между обоими интервью способствовали изменения в составе интервьюеров. Неизбежные ошибки последних и неточности высказываний опрашиваемых при повторной идентификации данных первоначальных респондентов приводят к тому, что некоторые пары интервью на самом деле оказываются принадлежащими разным людям. Получаемая в итоге более высокая корреляция между X и данными последующего интервью означает, что регрессия от X к результатам этого интервью меньше, чем к результатам предварительного опроса, и поэтому различия между группами в последующем интервью окажутся большими, чем при предва-

180

рительном обследовании. Это приведет (даже в отсутствие эффекта в популяции) к ложному эффекту прироста показателей для тех, кто отнес себя к числу получивших воздействие, и снижению для тех, кто считал; что не получал воздействие. Подобный результат обычно ошибочно принимается за подтверждение гипотезы об эффекте X (более подробно см. Campbell, Clayton [14]).

Чтобы обойти этот ложный источник повышенной корреляции, принадлежность респондентов к группе, которой предъявляется X, можно устанавливать независимо от интервью или посредством отдельной промежуточной волны опросов. В последнем случае, даже если и имеется ошибка памяти относительно прохождения X, это не должно искусственно увеличивать корреляцию X с данными последующей проверки по сравнению с корреляцией между X и данными предварительного обследования. Вот как выглядит такой план:

Анализ ex post facto

Выражением «эксперимент ex post facto» обозначаются попытки имитировать экспериментальное исследование по плану 3 путем попарного уравнивания исходного состава групп на основании сведений об испытуемых до введения X. Сам метод и его название впервые ввел Чэпин (Chapin, Qeen [20]). Он же [19], а также Гринвуд [46] в дальнейшем широко его использовали. Хотя эти работы относятся скорее к области социологии, чем к педагогике, и хотя мы считаем, что этот анализ подчас приводит к ошибкам, здесь уместно рассмотреть его. Этот метод представляет собой одну из наиболее серьезных попыток приблизиться к квазиэкспериментальному исследованию.

В одном типичном исследовании ex post facto (Chapin [19, с. 99—124]) в роли X выступало школьное обучение (в частности, окончание средней школы), а в роли О — индивидуальные интервью, дававшие информацию об успехе в жизни и социальной адаптированности обследуемых 10 лет спустя. Уравнивание

181

групп производилось на основании школьных архивов (в аналогичных, но еще более слабых исследованиях факты о состоянии до воздействия брались из итоговых опросов). Из первоначальных данных следовало, что окончившие школу не только лучше преуспевали, но также имели более высокие отметки в 5—8 классах, лучшее окружение, были моложе, их родители занимали более высокие должности и т. д. Очевидно, эти предпосылки могли способствовать не только окончанию средней школы, но и дальнейшим успехам.

Добавило ли что-либо обучение в школе к лучшей стартовой позиции детей по сравнению с этими факторами? «Решение», предложенное Чэпином, состояло в изучении групп учеников, уравненных по всем этим факторам, но отличавшихся по признаку окончания школы. Введение очередного признака уравнивания сокращало итоговое различие между группами, которые подвергались и не подвергались воздействию, но, когда попарное уравнивание было завершено, различие все еще оставалось значимым. Из этого Чэпин заключил, хотя и осторожно, что среднее образование дало свой эффект. Изначальное число 2127 человек сократилось до 1194 (с ними удалось провести интервью, и о них сохранились нужные архивные записи). Уравнивание сократило число пригодных для использования случаев до 46, по 23 на группу окончивших и не окончивших школу —менее 4% опрошенных. Чэпин правильно отмечает, что 46 сопоставимых случаев лучше, чем 1194 несопоставимых, и подкрепляет это аргументами, аналогичными тем, которые мы приводили в пользу большей важности внутренней валидности по сравнению с внешней. Трагедия в том, что его 46 случаев все еще оставались несопоставимыми и, кроме того, даже если встать на его точку зрения, в сокращении данных не было необходимости.

Его уравнивание было недостаточным по двум причинам. Во-первых, попарное уравнивание приводит в действие механизм дифференциальной регрессии, который создает различия в результатах, имеющие то же направление, что и наблюдавшиеся Чэпином (см. замечания Р. Л. Торндайка [125], а также обсуждение проблемы уравнивания в плане 10). Направление псевдоэффекта, обусловленного регрессией показателей к

182

групповым средним после попарного уравнивания, в этом случае вполне однозначно, поскольку различия по факторам уравнивания для преуспевших и непреуспевших направлены в ту же сторону, что и различия между окончившими и не окончившими школу. Каждый признак, детерминирующий подверженность X, даже в отсутствие X детерминирует и О. Все переменные уравнивания коррелируют с X и О в одном и том же направлении. Хотя это и не обязательно должно иметь место по каждой переменной во всех исследованияхex post facto, тем не менее такая картина наблюдается в большинстве, если не во всех опубликованных примерах использования этого метода. Ошибки регрессии и сокращения числа случаев можно избежать, применяя современные статистические методы, которые позволяют избавиться от ошибки уравнивания в плане 10. Переменные уравнивания могли бы быть использованы как сопутствующие переменные в многомерном ковариационном анализе. Насколько мы можем судить, такой анализ показал бы отсутствие эффектов, оказавшихся якобы значимыми в исследовании, представленном Чэпином. Однако применение ковариационного анализа к подобным задачам подвергается критике.

Но имеется и второй, в сущности неустранимый, источник неэквивалентности групп в исследовании Чэпина. Гринвуд [46] называет его самоотбором испытуемых в группы, подвергающиеся и не подвергающиеся воздействию. Наличие X является закономерным результатом многочисленных предпосылок. Для выбывания из школы до ее окончания, как мы знаем, имеются бесчисленные причины, помимо тех шести факторов, по которым производилось уравнивание. Мы можем с большой уверенностью предположить, что большинство из них повлияло на последующий успех независимо от их действия через X. Это приведет к еще большей неэквивалентности групп, помимо той, которая вызвала ошибку регрессии. Даже проводя ковариационный анализ исходных данных и результатов О, мы можем интерпретировать наличие значимого эффекта X только после учета всех совместно действующих переменных уравнивания.

183

ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ

Всякое справочное руководство представляет собой концентрированный текст, и дальнейшая его концентрация может ввести в заблуждение. Поэтому мы хотим предостеречь от соблазна использовать табл. 1, 2 и 3 в качестве сжатого эквивалента этого очерка. Их цель — упорядочить изложение и избавить его от излишних повторений.

Конкретные плюсы, минусы и вопросительные знаки постоянно ставились с оговорками и являлись лишь неточными обобщениями итогов соответствующего обсуждения. Для любой конкретной реализации каждого плана картина плюсов и минусов, скорее всего, будет отличаться от соответствующей строчки в таблице. Таблицы лучше всего использовать как канву для добросовестного анализа конкретных деталей эксперимента при его планировании. И конечно же, мы не собираемся подменять догмы одного-двух приемлемых планов эксперимента догмой тринадцати. Напротив, нам хотелось бы способствовать укреплению открытой, поисковой ориентации на разработку новых способов получения данных и выявление слабых сторон традиционных методик.

Подведем теперь основные итоги сказанному. В этой работе мы обсудили возможности, существующие в области построения или планирования эксперимента, и уделили особое внимание проблемам контроля посторонних переменных и угрозам валидности эксперимента. Мы проводили различие между внутренней и внешней валидностью, или возможностью обобщения результатов. Оценка качества 16 экспериментальных планов и их вариантов велась по восьми классам факторов внутренней и четырем — внешней валидности. Три плана были определены как доэкспериментальные и были использованы в первую очередь для иллюстрации факторов валидности, которые нужно контролировать. Три плана названы «истинными», десять планов — квазиэкспериментальными, то есть такими, в которых отсутствует оптимальный контроль, но которые стоит использовать в тех случаях, когда применение лучшего плана невозможно. При интерпретации результатов квазиэксперимента особенно важна проверка перечисленных

184

12 факторов валидности. На протяжении всей работы обращалось внимание на возможность творческого использования особенностей конкретной ситуации исследования при планировании конкретных испытаний каузальных гипотез.

ЛИТЕРАТУРА

1. A l l p o r t F. H. The influence of the group upon association and thought. J. exp. Psychol., 1920, 3, 159—182.

2. A n a s t a s i A n n e. Differential psychology. N. Y., Macmillan, 1958.

3. A n d e r s o n N. H. Test of a model for opinion change. J. abnorm. soc. Psychol., 1959, 59, 371—381.

4. B a r c h A. M., T r u m b o D., N a n g l e J. Social setting and conformity to a legal requirement. J. abnorm. soc. Psychol., 1957, 55, 396—398.

5. B o r i n g E. G. The nature and the history of experimental control. Amer. J. Psychol, 1954, 67, 573—589.

6. B r i m O. G. Family structure and sex role learning by children: A further analysis of Helen Koch's data. Sociometry, 1958, 21, 1—16.

7. B r o l y e r C. R., T h o r n d i k e E. L., W o o d y a r d Ella. A second study of mental discipline in high school studies. J. educ. Psychol., 1927, 18, 377—404.

8. B r o w n 1 e e K. A. Statistical theory and methodology in science and engineering. N. Y., Wiley, 1960.

9. B r u n s w i k E. Perception and the representative design of psychological experiments. Berkeley, Univ. of California Press, 1956.

10. C a m p b e l l D. T. Factors relevant to the validity of experiments in social settings. Psychol. Bull., 1957, 54, 297—312.

11. C a m p b e l l D. T. Methodological suggestions from a comparative psychology of knowledge processes. Inquiry, 1959, 2, 152—182.

12. C a m p b e l l D. T. Recommendations for APA test standards regarding construct, trait, or discriminant validity. Amer. Psychologist, 1960, 15, 546—553.

13. C a m p b e l l D. T., B o r u c h R. F. Making the Case for Randomised Assignment to treatments by Considering the Alternatives: Six Ways in which Quasi-Experimental evaluations in compensatory Education tend to underestimate effects. — In: Evaluation and experiment. Eds. by C. A. Bennett and A. A. Lumsdaine, Acad. press, 1975.

14. C a m p b e l l D. T., C l a y t o n K. N. Avoiding regression effects in panel studies of communication impact. Stud. pub. Commun., 1961, 3, 99—118.

15. C a m p b e l l D. T., F i s k e D. W. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol. Bull., 1959, 56, 81—105.

16. C a m p b e l l D. T., M c C o r m a c k T h e l m a H. Military experience and attitudes toward authority, Amer. J. Sociol., 1957, 62, 482—490.

185

17. C a n e V. R., H e i m A. W. The effects of repeated testing: III. Further experiments and general conclusions. Quart. J. exp. Psychol., 1950, 2, 182—195.

18. C a n t o r G. N. A note on a methodological error commonly committed in medical and psychological research. Amer. J. ment. Defic., 1956, 61, 17—18.

19. C h a p i n F. S. Experimental designs in sociological research. N. Y., Harper, 1947 (Rev. ed., 1955).

20. C h a p i n F. S., Q u e e n S. A. Research memorandum on social work in the depression. N. Y. Social Science Research Council. Bull. 39, 1937.

21. C h e r n o f f H., M o s e s L. E. Elementary decision theory. N. Y., Wiley, 1959.

22. C o c h r a n W. G., C o x Gertrude M. Experimental designs. N. Y, Wiley, 1957.

23. C o l l i e r R. M. The effect of propaganda upon attitude following a critical examination of the propaganda itself. J. soc. Psychol., 1944, 20, 3—17.

24. C o l l i e r R. O., Jr. Three types of randomization in a two-factor experiment. Minneapolis, Author, 1960.

25. C o r n f i e 1 d J., T u k e y J. W. Average values of mean squares in factorials. Ann. math. Statist., 1956, 27, 907—949.

26. C o x D. R. Some systematic experimental designs. Biometrika, 1951, 38, 312—323.

27. C o x D. R. The use of a concomitant variable in selecting an experimental design. Biometrika, 1957, 44, 150—158.

28. C o x D. R. Planning of experiments. N. Y., Wiley, 1958.

29. C r o o k M. N. The constancy of neuroticism scores and self-judgments of constancy. J. Psychol., 1937, 4, 27—34.

30. D e u t s c h M., Collins Mary E. Interracial housing: A psychological evaluation of a social experiment. Minneapolis, Univ of Minnesota Press, 1951.

31. D u n c a n C. P., O ' B r i e n R. B., M u r r a y D. C., D a v i s L., G i l l i l a n d A. R. Some information about a test of psychological misconceptions. J. gen. Psychol., 1957, 56, 257— 260.

32. E b b i n g h a u s H. Memory. N. Y., Teachers Coll., Columbia Univer., 1913 (Original: «Über das Gedächtnis», Leipzig, 1885).

33. E d w a r d s A. L. Experimental design in psychological research. N. Y, Rinehart, 1960.

34. F a r m e r E., B r o o k s R. C., C h a m b e r s E. G. A comparison of different shift systems in the glass trade. Rep. 24, Medical Research Council, Industrial Fatigue Research Board. London, His Majesty's Stationery Office, 1923.

35. F e l d t L. S. A comparison of the precision of three experimental designs employing a concomitant variable. Psychometrika, 1958, 23, 335—353.

36. F e r g u s o n G. A. Statistical analysis in psychology and education. N. Y., McGraw-Hill, 1959.

37. Ф и ш е р P. A. Статистические методы для исследователей. M., 1958.

38. F i s h e r R. A. The design of experiments. London, Oliver & Boyd, 1935.

186

39. F i s h e r R. A. The arrangement of field experiments. J. Min. Agriculture, 1926, 33, 503—513; also in: R. A. F i s h e r. Contributions to mathematical statistics. N. Y., Wiley, 1950.

40. G 1 i c k m a n S. E. Perseverative neural processes and consolidation of the memory trace. Psychol. Bull., 1961, 58, 218— 233.

41. G l o c k C. Y. Some applications of the panel method to the study of social change. — In: L a -

z a r s f e 1 d P. F., R o s e n b e r g M. (eds.). the language of social research. Glencoe, I11., Free Press, 1955, p. 242—249.

42. G 1 o c k C. Y. The effects of re-interviewing in panel research. Duplicated research report. Author, 1958.

43. G o o d C. V., S c a t e s D. E. Methods of research. N. Y., Appleton-Century-Crofts, 1954.

44. G r a n t D. A. Analysis-of-variance tests in the analysis and comparison of curves. Psychol. Bull, 1956, 53, 141—154.

45. G r e e n B. F., T u k e y J. W. Complex analyses of variance: General problems. Psychometrika, 1960, 25, 127—152.

46. G r e e n w o o d E. Experimental sociology: A study in method. N. Y., King's Crown Press, 1945.

47. G u e t z k o w H., K e l l y E. L., M c K e a c h i e W. J. An experimental comparison of recitation, discussion, and tutorial methods in college teaching. J. educ. Psychol., 1954, 45, 193—207.

48. H a m m o n d K. R. Representative vs. systematic design in clinical psychology. Psychol. Bull., 1954, 51, 150—159.

49. H a n s o n N. R. Patterns of discovery. Cambridge. Eng., Univ. Press, 1958.

50. H o v l a n d C. I., J a n i s I. L., K e l l e y H. H. Communication and persuasion. New Haven, Conn., Yale Univ. Press, 1953.

51. H o v l a r i d C. I., L u m s d a i n e A. A., S h e f f i e l d F. D. Experiments on mass communication. Princeton, Princeton Univ. Press, 1949.

52. Information and Education Division, U. S. War Department. Opinions about Negro infantry platoons in white companies of seven divisions. — In: N e w c o m b T. M., H a r t l e y E. L. (eds.). Readings in social psychology. N. Y., Holt, 1947, p. 542—546.

53. J o h n s o n P. O. Statistical methods in research. N. Y., Prentice-Hall, 1949.

54. J o h n s o n P. O., J a c k s o n R. W. Modern statistical methods: Descriptive and inductive. Chicago, Rand McNally, 1959.

55. J o s t A. Die Assoziationsfestigkeit in ihrer Abhängigkeit von der Verteilung der Widerholungen. Z. Psychol. Physiol. Sinnesorgane, 1897, 14, 436—472.

56. K a i s e r H. F. Directional statistical decisions. Psychol. Rev., 1960, 67, 160—167.

57. K a t z D., M a c c o b y N., M o r s e N a n c y C. Productivity, supervision, and morale in an office situation. Ann Arbor, Survey Research Center, Univ. of Michigan, 1951.

58. K e m p t h o r n e O. The design and analysis of experiments. N. Y., Wiley, 1952.

59. K e m p t h o r n e O. The randomization theory of statistical inference. J. Amer. Statist. Ass., 1955, 50, 946—967; 1956, 51, 651.

60. K e m p t h o r n e O. The design and analysis of experiments, with some reference to educational research, — In: C o l l i e r R. O.,

187

E 1 a m S. M. (eds.). Research design and analysis: The second annual Phi Delta Kappa symposium on educational research. Bloomington, Ind., Phi Delta Kappa, 1961, p. 97—133.

61. K e n d a l l M. G., B u c k l a n d W. R. A dictionary of statistical terms. London. Oliver & Boyd, 1957.

62. K e n n e d y J. L., U p h o f f H. F. Experiments on the nature of extra-sensory perception. III. The recording error criticisms of extra chance scores. J. ParapsychoL, 1939, 3, 226—245.

63. K e r r W. A. Experiments on the effect of music on factory production. Appl. Psychol. Monogr., 1945, 5.

64. L a n a R. E. Pretest-treatment interaction effects in attitudinal studies. Psychol. Bull., 1959, 56, 293—300 (a).

65. L a n a R. E. A further investigation of the pretest-treatment interaction effect. J. appl. Psychol, 1959, 43, 421—422. (b).

66. L a n a R. E., K i n g D. J. Learning factors as determiners of pretest sensitization. J. appl. Psychol., 1960, 44, 189—191.

67. L i n d q u i s t E. F. Statistical analysis in educational research. Boston, Houghton Mifflin, 1940.

68. L i n d q u i s t E. F. Design and analysis of experiments in psychology and education. Boston, Houghton Mifflin, 1953.

69. L i p s e t S. M., L a z a r s f e l d P. F., B a r t o n A. H., L i n z J. Tne psychology of voting: An analysis of political behavior— In: L i n d z e y G. (ed.). Handbook of social psychology. Cambridge, Mass., Addison-Wesley, 1954, p. 1124—1175.

70. L o r d F. M. The measurement of growth. Educ. psychol. Measmt, 1956, 16, 421—437.

71. L o r d F. M. Further problems in the measurement of growth. Educ. psychol. Measmt, 1958, 18, 437—451.

72. L u b i n A. The interpretation of significant interaction. Educ. psychol. Measmt, 1961, 21, 807—817.

73. M a x w e l l A. E. Experimental design in psychology and the medical sciences. London, Methuen, 1958.

74. M c C a l l W. A. How to experiment in education. N. Y., Macmillan, 1923.

75. M c N e m a r Q. A critical examination of the University of Iowa studies of environmental influences upon the I. Q. Psychol. Bull., 1940, 37, 63—92.

76. M c N e m a r Q. Psychological statistics. N. Y., Wiley, 1962.

77. M c N e m a r Q. On growth measurement. Educ. psychol. Measmt. 1958, 18, 47—55;

78. M e e h l P. E. Clinical versus statistical prediction. Minneapolis, Univ. of Minnesota Press, 1954.

79. M o n r o e W. S. General methods: Classroom experimentation. — In: G. M. W h i p p l e (ed.). Yearb. nat. Soc. Stud. Educ., 1938, 37, Part II, 319—327.

80. M o o d A. F. Introduction to the theory of statistics. N. Y., McGraw-Hill, 1950.

81. M o o r e H. T. The comparative influence of majority and expert opinion. Amer. J. Psychol., 1921, 32, 16—20.

82. M o r s e Nancy C., R e i m e r E. The experimental change of a major organizational variable. J. abnorm. soc. Psychol., 1956, 52, 120—129.

83. M y e r s J. L. On the interaction of two scaled variables. Psychol, Bull., 1959, 56, 384—391.

188

84. N e w c o m b T. M. Personality and social change. N. Y., Dryden, 1943.

85. N e y m a n J. Indeterminism in science and new demands on statisticians. J. Amer. Statist. Ass., 1960, 55, 625—639.

86. N u n n a l l y J. The place of statistics in psychology. Educ. psychol Measmt, 1960, 20, 641—650.

87. P a g e E. B. Teacher comments and student performance: A seventy-four classroom experiment in school motivation. J. educ. Psychol., 1958, 49, 173—181.

88. P e a r s o n H. C. Experimental studies in the teaching of spelling. Teachers Coll. Rec., 1912, 13, 37—66.

89. P i e r s Ellen V. Effects of instruction on teacher attitudes: Extended control-group design. Unpublished doctoral dissertation, George Peabody Coll., 1954. Abstract in: Bull. Maritime Psychol. Ass., 1955, 53—56.

90. P o p p e r K. R. The logic of scientific discovery. N. Y., Basic Books, 1959.

91. R a n k i n R. E., C a m p b e l l D. T. Galvanic skin response to Negro and white experimenters. J. abnorm. soc. Psychol, 1955, 51, 30—33.

92. R e e d J. C. Some effects of short term training in reading under conditions of controlled motivation. J. educ. Psychol., 1956, 47, 257—264.

93. R o g e r s C. R., D y m o n d Rosalind F. Psychotherapy and personality change. Chicago, Univ. of Chicago Press, 1954.

94. R o s e n t h a l R. Research on experimenter bias. Paper read at Amer. Psychol. Ass., Cincinnati, Sept., 1959.

95. R o y S. N., G n a n a d e s i k a n R. Some contributions to ANOVA in one or more dimensions: I and II. Ann. Math. Statist., 1959, 30, 304—317, 318—340.

96. R o z e b o o m W. W. The fallacy of the null-hypothesis significance test. Psychol. Bull., 1960, 57, 416—428.

97. S a n f o r d F. H., H e m p h i l l J. K. An evaluation of a brief course in psychology at the U. S. Naval Academy. Educ. psychol. Measmt, 1952, 12, 194—216.

98. S c h e f f é H. Alternative models for the analysis of variance. Ann. math. Statist., 1956, 27, 251—271.

99. S e l l t i z Claire, J a h o d a Marie, D e u t s c h M., C o o k S. W. Research methods in social relations, N. Y., Holt-Dryden, 1959.

100. S i e g e l Alberta E., S i e g e l S. Reference groups, membership groups, and attitude change. J. abnorm. soc. Psychol., 1957, 55, 360—364.

101. S i m o n H. A. Models of man. N. Y., Wiley, 1957.

102. S m i t h H. L., H y m a n H. The biasing effect of interviewer expectations on survey results. Publ. opin. Quart., 1950, 14, 491—506.

103. S o b o l M. G. Panel mortality and panel bias. J. Amer. Statist. Ass., 1959, 54, 52—68.

104. S o l o m o n R. L. An extension of control group design. Psychol. Bull., 1949, 46, 137—150.

105. S o r o k i n P. A. An experimental study of efficiency of work under various specified conditions. Amer, J. Sociol., 1930. 35, 765—782.

189

106. S t a n l e y J. C. Statistical analysis of scores from counterbalanced tests. J. exp. Educ., 1955, 23, 187—207.

107. S t a n l e y J. C. Fixed, random, and mixed models in the analysis of variance as special cases of finite model III. Psychol. Rep., 1956, 2, 369.

108. S t a n l e y J. C. Controlled experimentation in the classroom. J. exp. Educ., 1957, 25, 195—201. (a)

109. S t a n l e y J. C. Research methods: Experimental design. Rev. educ. Res., 1957, 27, 449—459. (b)

110. S t a n l e y J. C. Interactions of organisms with experimental variables as a key to the integration of organismic and variable-manipulating research. — In: H u d d l e s t o n Edith M. (ed.). Yearb. Nat. Counc. Measmt used in Educ., 1960, 7—13.

111. S t a n l e y J. C. Analysis of a doubly nested design. Educ. psychol. Measmt, 1961, 21, 831—837. (a)

112. S t a n l e y J. C. Studying status vs. manipulating variables — In: C o l l i e r R. O., E l a m S. M. (eds.). Research design and analysis: The second Phi Delta Kappa symposium on educational research. Bloomington, Ind.: Phi Delta Kappa, 1961, p. 173—208. (b)

113. S t a n l e y J. C. Analysis of unreplicated three-way classifications, with applications to rater bias and trait independence. Psychometrika, 1961, 26, 205—220. (c)

114. S t a n l e y J. C. Analysis-of-variance principles applied to the grading of essay tests. J. exp. Educ., 1962, 30, 279—283.

115. S t a n l e y J. C., B e e m a n Ellen Y. Interaction of major field of study with kind of test. Psychol Rep., 1956, 2, 333—336.

116. S t a n l e y J. C., W i l e y D. E. Development and analysis of experimental designs for ratings. Madison, Wisconsin, Authors, 1962.

117. S t a n t o n F., B a k e r K. H. Interviewer-bias and the recall of incompletely learned materials. Sociometry, 1942, 5, 123—134.

118. S t a r Shirley A., H u g h e s Helen M. Report on an educational campaign: The Cincinnati plan for the United Nations. Amer. J. Social., 1950, 55, 389—400.

119. S t o c k f o r d L., B i s s e l l H. W. Factors involved in establishing a merit-rating scale. Personnel, 1949, 26, 94—116.

120. S t o u f f e r S. A. (Ed.) The American soldier. Princeton, Princeton Univ. Press, 1949, Vols. I, II.

121. S t o u f f e r S. A. Some observations on study design. Amer. J. Social, 1950, 55, 355—361.

122. T h i s t l e t h w a i t e D. L, C a m p b e l l D. T. Regression-discontinuity analysis: An alternative to the ex post facto experiment. J. educ. Psychol, 1960, 51, 309—317.

123. T h o r n d i k e E. L., W o o d w o r t h R. S. The influence of improvement in one mental function upon the efficiency of other functions. Psychol Rev., 1901, 8, 247—261, 384—395, 553—564.

124. T h o r n d i k e E. L, M c C a l l W. A., C h a p m a n J. C. Ventilation in relation to mental work. Teach. Coll Contr. Educ., 1916, 78.

125. T h o r n d i k e R. L. Regression fallacies in the matched groups experiment. Psychometrika, 1942, 7, 85—102.

126. U n d e r w o o d B. J. Experimental psychology. N. Y., Appleton-Century-Crofts, 1949.

190

127. U n d e r w o o d B. J. An analysis of the methodology used to investigate thinking behavior. Paper read at New York Univ. Conf. on Human Problem Solving. April, 1954. (cm. также H o v l a n d C. I., K e n d l e r H. H. The New York University Conference on Human Problem Solving. Amer. Psychologist, 1955, 10, 64—68.)

128. U n d e r w o o d B. J. Interference and forgetting. Psychol Rev., 1957, 64, 49—60. (a)

129. U n d e r w o o d B. J. Psychological research. N. Y., Apple-ton-Century-Crofts, 1957. (b)

130. U n d e r w o o d B. J., R i c h a r d s o n J. Studies of distributed practice. XVIII. The influence of meaningfulness and intralist similarity of serial nonsense lists. J. exp. Psychol., 1958, 56, 213—219.

131. W a t s o n R. I. Psychology of the child. N. Y., Wiley, 1959.

132. W i l k M. B., K e m p t h o r n e O. Fixed, mixed, and random models. J. Amer. Statist. Ass., 1955, 50, 1144—1167; Corrigenda, J. Amer. Statist. Ass., 1956, 51, 652.

133. W i l k M. B., K e m p t h o r n e O. Some aspects of the analysis of factorial experiments in a completely randomized design. Ann. Math. Statist., 1956, 27, 950—985.

134. W i l k M. B., K e m p t h o r n e O. Non-additivities In a Latin square design. J. Amer. Statist. Ass., 1957, 52, 218—236.

135. W i n d l e C. Test-retest effect on personality questionnaires. Educ. psychol. Measmt, 1954, 14, 617—633.

136. Winer B. J. Statistical principles in experimental design. N. Y., McGraw-Hill, 1962.

137. W o l d H. Causal inference from observational data. A review of ends and means. J. Royal Statist. Soc., Sec. A., 1956, 119, 28—61.

138. W y a t t S., F r a s e r J. A., S t o c k F. G. L. Fan ventilation in a humid weaving shed. Rept. 37, Medical Research Council, Industrial Fatigue Research Board. London, His Majesty's Stationery Office, 1926.

139. Z e i s e l H. Say it with figures. N. Y., Harper, 1947.

191

Научный вывод,

артефакты и контроль¹

I. Логика вывода

Если бы мы не отказались от дефиниционного операционализма нашего недавнего прошлого, то не знали бы проблем, которым посвящены работы об артефактах в исследованиях поведения. Наши экспериментальные модели и измерительные процедуры трактовались бы как дефиниционное представление наших теоретических понятий. Рассуждая о них как о дефинициях, мы закрывали бы глаза на то, что они подвержены погрешностям, систематически несовершенны, а порой и ошибочны.

Дефиниционный операционализм действительно вызвал у некоторых состояние некритической самоуспокоенности и иллюзию материализации тестовых показателей, но, к счастью, практики научного исследования в большинстве своем либо не часто вступали в контакт с философией науки, либо не слишком верили в нее, чтобы позволить сбить себя с толку. Когда логические позитивисты определяли интеллект по работе Бине 1916 г., Термен уже приступил к пересмотру своего теста, стараясь сделать его менее подверженным погрешностям и более точным средством измерения интеллекта, — эта цель явно свидетельствует о том, что для него этот тест не был простой дефиницией. Точно так же физик, работающий с таким измерительным прибором, как, скажем, гальванометр, отдает себе отчет

_____________________________________________________________________________

^{1 C a m p b e 11 D. T. Prospective: Artifact and Control. — In: Artifact in Behavioral Research. Ed. by R. Rosenthal, R. L. Rosnow. N. Y., Academic Press, 1969, p. 351—382.}© Academic Press, Inc., 1969.

192

в том, что на практике прибор этот не способен дать совершенную картину разностей электрических потенциалов из-за влияний, оказываемых гравитацией, трением, инерцией, магнитным полем и т. п. (см., например, Wilson [95]). Хотя в скомпенсированном и корректном экспериментальном плане эти источники ошибок могут быть сведены к минимуму, в теоретическом плане гальванометр известен как прибор, подверженный систематическим ошибкам, и установление этого явилось в свою очередь историческим итогом накопления научных знаний, а не плодом логического наития.

Коль скоро теперь уже признано, что дефиниционный операционализм и прочие аксессуары логического позитивизма приводят к ошибочному пониманию, как же следует осмыслить наши затруднения на пути познания и при этом еще и извлечь философский смысл из работ, послуживших прообразом для данного подхода? Наиболее приемлемым для меня представляется направление, разрабатываемое Карлом Поппером [73,74], (Сampbell [24]), а также то общее, что присуще и его работам, и работам Поляни [72], Тулмина [92, 93], Куна [60] и Куайна [75], хотя они, возможно, менее всего склонны допускать что-либо подобное. Я попытаюсь представить один из аспектов этого направления, хотя и воспользуюсь метафорами, не относящимися к числу общепринятых.

Вслед за Поппером я отдаю должное Юму как логику и отвергаю его как психолога-индуктивиста. Юм привлек внимание к «недоразумению с индукцией» — к тому факту, что научные обобщения являются логически не доказанными или недоказуемыми. Хотя большинство современных философов принимают этот факт как простую техническую деталь, как простое утверждение о неприменимости аналитической логики к условной истине, Поппер с присущей ему проницательностью увидел в нем фундаментальное ограничение. Научные истины не только не доказаны логически, они лишены достоверности также и в любом другом отношении — индуктивном, эмпирическом, научном или импликативном. Тем не менее, они в каком-то смысле «установлены». Лучшие из теорий если и не «подтверждены», то, по крайней мере «подкреплены».

193

Логика релевантна утверждению о ситуации. «Недоразумение с индукцией» состоит, по существу, в том, что наука пользуется необоснованным (невалидным) логическим доказательством, допуская ошибку «нераспределенной середины» или «ошибку относительно следствия». Но, будучи невалидным, это доказательство не бесполезно.

Логическое доказательство в науке имеет следующую форму:

Если теория Ньютона А истинна, то должно наблюдаться следующее: морские

приливы и отливы происходят с периодом В, орбита Марса имеет форму C,

траектория полета пушечного ядра приобретает форму D.

Наблюдение подтверждает В, С и D. Следовательно, теория Ньютона А истинна.

Р и с. 1. Схема Эйлера.

Мы можем увидеть ошибочность этого доказательства, представив его в виде Эйлеровых кругов (см. рис. 1). Отмеченная невалидность вызвана существованием заштрихованной области, то есть других возможных объяснений наблюдавшихся фактов В, С и D. Но этот силлогизм не бесполезен. Если сделаны наблюдения, несовместимые с В, С и D, то тем самым обоснованно отрицается истинность ньютоновской теории A. Рассмотренное доказательство очень напоминает, таким образом, процесс просеивания, где предсказания и наблюдения служат для того, чтобы отбрасывать наиболее неадекватные теории. Кроме того, если предсказания подтверждаются, теория остается одним из возможных истинных объяснений. Выявление этой асимметрии между логически обоснованным отрицанием и логически неубедительным подтверждением и является

194

основным моментом в тезисе Поппера о возможности фальсификации.

Теперь этот трюизм приводится в элементарных изложениях индуктивной логики без ссылок на Поппера (см., например, Hempel [54], Salmon [84]). В упомянутом процессе есть и другой критический пункт, на котором сосредоточили свои усилия критики Поппера: в действительности наблюдения все же подтверждают предсказания. Выше предполагалось, что такой подход мог бы иметь и имел место. На данном уровне возможность фальсификации и возможность подтверждения логически более симметричны. И наблюдения, если они выполнены с достаточной точностью, на этом уровне всегда фальсифицируют квантифицированное предсказание. На данном уровне пределы точности наблюдений, которые ученые реально признают как допустимые, являются функцией социальной системы, детерминированной уровнем развития данной науки, достигнутым уровнем экспериментального контроля и остротой конкуренции со стороны других теорий. Так, для предсказанного Эйнштейном искривления световых лучей, идущих от звезд, вблизи поверхности Солнца во время затмения 1919 г. предсказанная величина в 1,745" была «подтверждена» полученными при наблюдениях величинами 1,61", 1,98", 1,72", 2,2" и 2,0".

Рассмотрим несколько более подробно круги Эйлера и ту связь, которая существует между подтвержденными предсказаниями и истинностью или правдоподобием теории. Нам никуда не уйти от того факта, что мы не можем доказать теорию. Мы должны работать, не выходя за рамки ограничений, указанных в схеме. Что мы, как ученые, можем сделать — так это попытаться каким-либо практическим способом «опустошить» заштрихованную область, уменьшить ее, насколько это возможно. Мы делаем это, максимально увеличивая по возможности число, масштаб и точность подтвержденных предсказаний. Чем больше их число и чем они точнее, тем меньше число возможных альтернативных отдельных объяснений, даже если это число по-прежнему остается в каком-то смысле бесконечным.

Более важно, что мы на деле не уделяем должного внимания самой логической возможности существования альтернативных теорий, простому логическому

195

факту существования некоей заштрихованной области. Тулмин хорошо отметил этот момент: «Философы иногда утверждают, что конечное число эмпирических наблюдений всегда можно объяснить в терминах бесчисленного множества гипотез. В основе этого замечания лежит простое наблюдение, согласно которому через всякое конечное множество точек можно провести бесчисленное множество математических кривых. Если бы «объяснение» заключалось в одном только проведении кривых, эта доктрина имела бы некоторое влияние на практику научного исследования. На самом деле перед ученым стоит совсем другая проблема: его задача состоит, как правило, в том, чтобы в интеллектуальной ситуации, предъявляющей ряд требований, приспособить некоторое новое открытие к унаследованным идеям, не создавая без нужды угроз интеллектуальным достижениям своих предшественников. Это проблема совсем иного порядка сложности, чем простое проведение кривых. Здесь речь идет отнюдь не о выборе из бесчисленного множества имеющихся возможностей: может потребоваться гениальное озарение, чтобы вообразить хотя бы только одну такую возможность» (Toulmin [92, с. 113—115]).

Только когда имеются по-настоящему разработанные альтернативные объяснения, то есть когда кое-что известно о содержании заштрихованной области, только тогда встают вопросы об обоснованности теорий, предсказания которых подтверждены. Именно потому, что с теорией Ньютона не соперничала ни одна должным образом разработанная альтернативная теория, она в течение 200 лет рассматривалась как бесспорно истинная даже такими критически настроенными эпистемологами, как Кант. Заштрихованная область была пуста в каком угодно практическом смысле. Однако факт последующего отказа от теории Ньютона в пользу теории Эйнштейна заставляет увидеть в Юмовом анализе научной истины уместно поставленную проблему научной индукции.

В действительности положение еще сложнее. Когда такая теория, как теория Ньютона, вообще не находит себе хоть сколько-нибудь достойных конкурентов и когда она с неподражаемым изяществом предсказывает великое множество явлений, мы, как правило, прощаем

196

ей кое-какие неверные предсказания. Так, как подчеркивает Кун [60], во времена Ньютона были известны систематические ошибки в предсказаниях, например, относительно прецессии перигелия Меркурия, которые могли бы быть расценены как доказательство несостоятельности теории Ньютона, если бы в те времена существовала теория Эйнштейна. Более правдоподобной выглядит картина конкуренции между разработанной ранее и более успешно подкрепленной теориями при объяснении сравнения образов (Сampbell [23]).

Таким образом, единственный процесс, посредством которого может утверждаться научная теория, — это процесс «ограничения правдоподобных конкурентных гипотез». Поскольку эти гипотезы никогда нельзя перечислить заранее и поскольку они обычно сугубо специфичны и требуют своеобразных способов ограничения, это последнее неизбежно представляет собой довольно-таки несовершенную и неубедительную процедуру. Однако логический анализ затруднений на нашем пути к научному знанию (от Юма до Поппера) убеждает нас в том, что это и есть самое большее, что мы можем сделать, что это и есть наш геркулесов, если не сизифов, труд.