Описательная статистика. Изучение связи между номинальными признаками

1. Описательная статистика 124

1.1. Одномерные частотные распределения 124

1.1.1. Представление одномерной случайной величины в выборочном социологическом исследовании. Стоящие за ним модели 124

1.1.2. Проблема разбиения диапазона изменения значений признака на

интервалы 133

1.1.3. Кумулята 134

1.1.4. Проблема пропущенных значений 138

1.2. Меры средней тенденции и отвечающие им модели 141

1.3. Меры разброса и отвечающие им модели 142

1.3.1. Необходимость введения мер разброса 153

1.3.2. Дисперсия. Квантильные размахи 154

1.3.3. Интуитивное представление о разбросе

значений номинального признака 155

1.3.4. Мера качественной вариации 155

1.3.5. Определение энтропии. Ее "социологический" смысл.

Энтропийный коэффициент разброса 159

2. Анализ связей между номинальными признаками 164

2.1. Анализ номинальных данных как одна из главных задач социолога 164

2.1.1. Роль номинальных данных в социологии 164

2.1.2. Соотношение между причинно-следственными

отношениями и формальными методами их изучения 164

2.1.3. О понятии таблицы сопряженности 167

2.2. Классификация задач анализа связей номинальных признаков 169

2.2.1. Диалектика в понимании признака и его значений.

Расширение понятия взаимодействия 169

2.2.2. Классификация рассматриваемых задач и отвечающих им методов 177

2.2.3. Выделение двух основных групп методов анализа номинальных

данных. Место рассматриваемых в книге подходов в этой группировке 181

2.3. Анализ связей типа "признак – признак" 187

2.3.1. Коэффициенты связи, основанные на критерии "Хи-квадрат" 188

2.3.1.1. Понимание отсутствия связи между признаками

как статистической независимости 188

2.3.1.2. Функция "Хи-квадрат" и проверка на ее основе

гипотезы об отсутствии связи 191

2.3.1.3. Нормировка значений функции "Хи-квадрат" 197

2.3.2. Коэффициенты связи, основанные на моделях прогноза 201

2.3.2.1. Выражение представлений о связи через прогноз 201

2.3.2.2. Коэффициенты, основанные на модальном прогнозе 206

2.3.2.3. Общее представление о пропорциональном прогнозе 212

2.3.3. Коэффициенты связи, основанные на понятии энтропии 213

2.3.3.1. Условная и многомерная энтропия 213

2.3.3.2. Смысл энтропийных коэффициентов связи.

Их формальное выражение 217

2.3.4. Коэффициенты связи для четырехклеточных таблиц

сопряженности. Отношения преобладаний 219

2.3.5. Проблема сравнения коэффициентов связи 226

2.3.6. Учет фактической многомерности реальных связей.

Многомерные отношения преобладаний 228

2.4. Анализ связей типа "альтернатива – альтернатива" 235

2.4.1. Смысл локальной связи. Возможные подходы к ее изучению 235

2.4.2. Детерминационный анализ (ДА). Выход за

пределы связей рассматриваемого типа 236

2.5. Анализ связей типа "группа альтернатив – группа альтернатив"

и примыкающие к нему задачи 242

2.5.1. Классификация задач рассматриваемого класса 242

2.5.2. Анализ фрагментов таблиц сопряженности 244

2.5.3. Методы поиска сочетаний значений независимых признаков

(предикторов), детерминирующих "поведение" респондентов 256

2.5.3.1. Понятия зависимой и независимых переменных

Общая постановка задачи 256

2.5.3.2. Алгоритм THAID 260

2.5.3.3. Алгоритм CHAID 265

2.5.4. Методы ДА, THAID, CHAID с точки зрения поиска

обобщенных взаимодействий 269

2.5.5. Поиск логических закономерностей: элементы исчисления

высказываний; понятие закономерности;

алгоритм поиска; его сравнение с ДА 273

2.5.6. Поиск логических закономерностей и теория измерений.

Элементы узкого исчисления предикатов 280

2.6. Анализ связей типа "признак – группа признаков":

номинальный регрессионный анализ (НРА) 290

2.6.1. Общая постановка задачи 290

2.6.2. Повторение основных идей классического регрессионного анализа,

рассчитанного на так называемые "количественные" признаки 293

2.6.3. Дихотомизация номинальных данных. Обоснование допустимости

применения к полученным дихотомическим данным

любых "количественных" методов 306

2.6.4. Общий вид линейных регрессионных уравнений с номинальными

переменными. Их интерпретация 310

2.6.5. Типы задач, решаемых с помощью Нра. Краткие сведения

о логит- и пробит-моделях регрессионного анализа 315

Приложения к части II 320

Приложение 1. Разные способы расчета медианы и предполагаемые ими модели 320

Приложение 2. Схемы, иллюстрирующие предложенные в п.п. 2.2.2 и 2.2.3

классификации методов анализа данных 324

Предметный указатель 326

Литература 336

Введение

Настоящая работа является учебным пособием, отвечающим курсу “Анализ социологических данных”, читаемому автором для студентов социологических факультетов Московского государственного университета им. М.В.Ломоносова и ряда других вузов Москвы (программа курса была опубликована [Толстова, 1994, 1996а]). Книга состоит из двух частей. В первой рассматриваются методологические аспекты процесса анализа данных в социологии. Вторая посвящена описанию отдельных методов. Поясним, почему возникла потребность использования такой структуры текста.

В наше время каждый социолог понимает, что собранные им данные так или иначе надо "анализировать" (конечно, с помощью математических методов). Практически в каждом учебном заведении, готовящем социологов, предусматривается преподавание предмета, название которого фигурирует в заголовке настоящей книги. Но, на наш взгляд, далеко не всегда совокупность действий, называемая анализом социологических данных, понимается правильно. В первую очередь, мы имеем в виду то, что эта совокупность действий не всегда трактуется как некоторый специфичный процесс, не сводящийся ни к какому набору математических приемов и органично вписывающийся в содержательную ткань социологического исследования. Непонимание же сути указанного процесса, по нашему мнению, приводит к неэффективному использованию математического аппарата, и, более того, к получению выводов, противоречащих реальности. Неадекватное отношение к процессу анализа данных не является случайным.

Несмотря на то, что в литературе имеется довольно много отдельных публикаций, посвященных изучению специфики процесса анализа данных в социологии, существование научной ветви с названием "анализ данных социологического исследования", или "анализ социологических данных" пока наукой не "узаконено". И, вероятно, разумно полагать, что такое положение дел сохранится до тех пор, пока не будет создан и признан научной общественностью какой-либо учебник по дисциплине с указанным наименованием. Подобный учебник должен раскрывать соответствующие приемы и методы как нечто специфичное именно для социологии. Такого учебника пока нет не только у нас в стране, но и за рубежом (на Западе имеется огромное число книг, в которых так или иначе фигурирует словосочетание "анализ данных"; но в этих книгах, по нашему мнению, не достаточно полно и глубоко рассматривается проблема "стыковки" рассматриваемых математических методов именно с социологией).

Важно также отметить, что некоторые обстоятельства иногда заставляют сомневаться и в существовании дисциплины, именующейся просто "анализ данных". Свидетельством этого можно считать, например, то, что упомянутый термин в литературе понимается по-разному (см., например, [Толстова, 1995а]). Этот факт тоже существен для практики: чтобы получать корректные выводы, мы должны четко понимать, когда, в каких именно условиях и с какой целью можно использовать анализ данных, а это немыслимо без ясного представления о том, что это такое. Ответу на соответствующий вопрос и посвящена первая часть работы. Она отвечает нескольким первым лекциям курса, читающегося автором. Многие из рассмотренных в ней положений конкретизируются при рассмотрении реальных методов анализа данных во второй части книги. Перейдем к более подробному описанию каждой из частей.

В первой части книги разъясняется, что означает словосочетание "анализ социологических данных", каков смысл каждой из его составляющих. Хотелось бы, чтобы в результате у читателя сформировалось четкое представление о том, с какой областью науки мы имеем дело, каково место этой области в общей структуре человеческого знания о мире и, главное, зачем все нижеизложенное нужно социологу в его практической работе. Можно сказать, что в первой части речь идет о той "среде", в которой должен действовать каждый социолог, пытающийся "выудить" какие-либо закономерности из "моря" полученной им эмпирической информации.

Основные наши рассмотрения сводятся к демонстрации сути статистических закономерностей, на выявление которых нацелен анализ данных; к проведению границы между анализом данных и математической статистикой, которая тоже предназначена для поиска статистических закономерностей; к рассмотрению некоторых аспектов анализа данных, специфичных именно для социологии.

Отметим, что поначалу мы будем использовать термин "анализ данных", понимая соответствующую область знания интуитивно, как нечто рядоположенное с такой ветвью науки, как "математическая статистика". Далее определим понятие "анализ данных" более строго, четко выявив границы его размежевания с математической статистикой (раздел 4). Но предварительно нам потребуется рассмотреть подробнее понятие статистической закономерности и проанализировать его значение для социолога (раздел 1); показать, что социолог не может в своей работе обойтись без математики (раздел 2); продемонстрировать, что при поиске статистических закономерностей естественно использовать именно ту ветвь математики, которая называется "математическая статистика" (раздел 3). Развивая далее соответствующие положения, мы сможем в рамках анализа данных вычленить тот его фрагмент, который можно связать с решением именно социологических задач (раздел 5) (хотя, конечно, мы не можем полностью “отречься” от социологии и в первых четырех разделах).

Несколько слов следует сказать о приведенных в конце первой части Примечаниях. Дело в том, что некоторые из них носят принципиальный характер, касаются вопросов, актуальных для современной социологии, но пока не решенных до конца (речь идет в основном о методологических проблемах получения социологического знания). Сочтя неуместным вставлять соответствующие рассуждения в основной текст, посвященный сравнительно узкой проблематике, мы позволили себе привести их в сносках, сделав последние иногда довольно пространными. Хотелось бы, чтобы читатель (особенно студент-социолог) задумался относительно затронутых в Примечаниях вопросов.

Вторая часть содержит описание конкретных методов анализа данных и делится на два относительно автономных раздела:

· изложение методов т.н. описательной (дескриптивной) статистики - выборочного представления одномерного вероятностного распределения и расчета его основных параметров (мер средней тенденции и показателей разброса);

· описание простейших методов изучения связей между номинальными признаками

Конечно, нельзя считать, что этими методами должен ограничиваться круг знаний социолога в области анализа данных. Так, на практике может возникнуть потребность изучения связей между признаками, значения которых получены по шкалам более высокого типа, чем номинальные. Однако мы сознательно ограничились лишь номинальным уровнем измерения: номинальные данные чаще используются в социологии и являются более надежными. Кроме того, методы, рассчитанные на работу со шкалами более высокого типа, обычно изучаются студентами-социологами в курсе математической статистики (имеются в виду, например, коэффициенты связи для ранговых признаков, элементы дисперсионного и факторного анализа).

Часто в практической работе социолога требуется использование более сложных методов - например, логлинейного или причинного анализа. Они здесь тоже не рассматриваются.

Представляется также, что, помимо методов расчета показателей дескриптивной статистики и изучения связи между переменными можно выделить по крайней мере еще два мощных класса методов, отвечающих задачам, встающим при анализе данных практически в каждом эмпирическом социологическом исследовании: методы классификации и методы поиска латентных переменных [Толстова, 1994]. В данной работе мы их рассматривать не будем и говорим о них только для того, чтобы более четко оттенить значимость для социологии именно тех подходов, которые рассматриваются в настоящей книге.

Почти все представленные во второй части методы известны, описаны в литературе. Поэтому, вероятно, требуется пояснить, почему мы решились включить их в книгу, почему их описание представляется нам актуальным. Рассмотрим интересующие нас аспекты состояния учебно-методического обеспечения социологического образования.

Сначала - об отечественной литературе. В течение 70-х - 80-х годов в стране было опубликовано довольно много работ, предназначенных для ознакомления широких кругов социологов с наиболее перспективными для решения социологических задач математическими методами (см., например, [Паниотто, Максименко, 1982], серию коллективных монографий, выпущенных Институтом социологии СССР [Интерпретация и анализ..., 1987; Математический анализ и..., 1989; Статистические методы..., 1979; Типология и классификация..., 1982], переведенную с английского языка книгу [Гласс, Стэнли, 1976]). Однако положение дела нельзя считать удовлетворительным. Причин тому несколько.

Во-первых, опубликованные на русском языке работы, содержащие описание рассматриваемых методов (и ориентированные на читателя-социолога, о других мы пока не говорим), в последние годы стали трудно доступными для студентов: книги были изданы давно, нужные страницы в имеющихся в библиотеках экземплярах зачастую утрачены; во многих вузовских библиотеках этих работ нет, поскольку соответствующие социологические подразделения организованы существенно позже выхода книг в свет (названия работ, о которых идет речь, включены в библиографию, приведенную в конце книги).

Во-вторых в нашей литературе нет работ, в которых наиболее актуальные методы интересующего нас плана были бы сведены воедино.

В-третьих, некоторые методы, представляющиеся весьма полезными для социологов, не описаны с достаточной подробностью и четкостью на русском языке с ориентацией на читателя-социолога (это касается, например, методов анализа фрагментов таблицы сопряженности, номинального регрессионного анализа, логлинейного анализа и т.д.). Ряд методов вообще не затрагивается в ориентированной на социолога отечественной литературе (например, линейные обобщенные модели - в частности, логистическая регрессия, пробит-модели, пуассонова регрессия; многие алгоритмы анализа отношений преобладания и т.д.).

В-четвертых, в имеющихся публикациях не учитываются полученные отечественными исследователями в последние годы результаты в области анализа таблиц сопряженности (например, [Ростовцев, 1996, 1997; Витяев, Логвиненко, 1998], а также методические наработки, касающиеся специфики использования математического аппарата именно в социологии (например, мало внимания уделяется анализу моделей, заложенных в математических алгоритмах, сопряжению этих моделей с содержательными социологическими постановками задач).

В-пятых, не все имеющиеся в отечественной литературе (даже такой, которая ориентирована на социолога) описания интересующих нас методов написаны языком, понятным студентам-гуманитариям (проблема преподнесения таким студентам дисциплин, так или иначе использующим математический аппарат, хорошо известна; соответствующими недостатками, к сожалению, обладают и многие из названных выше работ, что стало видно лишь по мере накопления отечественного педагогического опыта; первые социологические факультеты в российских вузах были организованы в 1989 году).

Несколько слов скажем об известных нам западных работах, лежащих в интересующем нас русле. Пальма первенства в разработке многих рассматриваемых в настоящей книге методов принадлежит западным ученым. Методы активно используются на практике, в том числе в эмпирической социологии. Учебно-методическое обеспечение социологического образования на Западе и по качеству, и по количеству несоизмеримо с нашим. Поэтому, конечно, здесь есть что заимствовать.

В западной литературе имеются прекрасные книги, являющиеся по существу адаптированными для читателя-гуманитария учебниками одновременно по теории вероятностей, математической статистике, многомерному статистическому анализу (см., например, [Bluman,1995; Diamantopoulos et al., 1997; Hinton, 1995; Kachigan, 1986; Neter et al., 1990; Sirkin, 1995; Tabachnick et al., 1996; Walsh, 1990]). Мы не раз убеждались в том, что студенты-социологи прекрасно усваивают изложенный в них материал. Эти учебники содержат описание основных свойств распределений одномерных случайных величин, элементы теории статистического оценивания параметров и проверки статистических гипотез, основы регрессионного, дисперсионного, факторного и других видов числового многомерного анализа.

Однако в названных книгах не затрагивается ряд интересующих социолога моментов. Выделим два. Во-первых, математико-статистические подходы не "привязаны" к "нехорошей" социологической ситуации. Так, при описании способов построения гистограмм не анализируются методы работы с пропущенными данными, не рассматривается проблема разбиения диапазона изменения признака на интервалы и т.д. Во-вторых, многие важные для решения социологических задач алгоритмы в названных учебниках просто не рассматриваются. Так, подход к изучению наиболее важного для социолога объекта - частотной таблицы - затрагивается, как правило, лишь в традиционном для математической статистики варианте - рассматривается способ измерения связи между двумя переменными с помощью критерия Хи-квадрат. В большинстве учебников остаются в стороне многие методы изучения номинальных данных, отражающие наиболее естественную логику рассуждений социолога (например, описанные ниже алгоритмы типа AID). Однако это не означает отсутствие соответствующей методической литературы. Напротив, работ интересующего нас характера много.

Прежде всего отметим книгу [Agresti, 1990], в которой сравнительно простым языком описаны многие подходы, вообще не описанные в отечественной ориентированной на социолога литературе, но давно известные и ставшие классикой на Западе (многие логлинейные, логит-, пробит- модели, ряд моделей логистической регрессии, алгоритмы анализа отношений преобладания и т.д.). Не отражены с достаточной полнотой эти методы и в переводной литературе. Хотя здесь имеет смысл назвать ставшую библиографической редкостью работу [Аптон, 1982], содержащую описание ряда методов, затрагиваемых в книге Агрести.

Упомянем также cерию "Quantitative Applications in the Social Science", в рамках которой к настоящему моменту опубликовано более 120 брошюр (некоторые из которых упоминаются ниже). Работы рассматриваемого характера появляются и в рамках ряда других серий (названия известных нам серий даны в конце книги после списка использованной литературы).

Казалось бы, стоит перевести какие-то западные работы на русский язык - и проблема нехватки учебно-методической литературы в нашей стране будет решена. Однако, на наш взгляд, все не так просто. Конечно, перевод многих западных работ был бы весьма полезным для отечественной социологии (в частности, весьма полезным был бы перевод упомянутой выше работы Агрести). Но, как нам представляется, этого будет недостаточно.

Во-первых, западные описания отдельных методов (так же, как и отечественные) разбросаны по разным книжкам. И описания эти очень разношерстны в смысле степени пригодности для студентов-гуманитариев. Нам неизвестны книги, в которых был бы представлен некий минимальный набор методов, знание которых является необходимым каждому социологу. О соответствующих недостатках указанных выше учебников по математико-статистическим методам мы уже говорили. А, скажем, в той же книге Агрести, отсутствуют, к примеру, сведения об описательной статистике и т.д. (другими словами, в описываемых учебниках практически не рассматривается содержание второго раздела обсуждаемой второй части книги, а в книге Агрести не затронуто содержание первого раздела).

Во-вторых, предлагаемые социологу методы не сведены в систему. Авторы соответствующих работ не ставят в качестве цели формирование у исследователя-социолога такого системного взгляда на характер решаемых задач и совокупность пригодных для этого методов, который мог бы послужить основой для формирования конструктивных алгоритмов выбора метода для решения той или иной конкретной задачи.

В-третьих, в западных работах, на наш взгляд, практически не уделяется внимания содержательному анализу моделей, заложенных в разных методах анализа данных, сравнительному изучению моделей, отвечающих алгоритмам, решающим сходные содержательные задачи.

В-четвертых, нам вряд ли стоит игнорировать отечественный опыт. Дело в том, что российскими учеными получено довольно много результатов, весьма полезных для социологии, лежащих в том же русле, что и некоторые западные алгоритмы, но имеющие определенные преимущества перед последними.

Во второй части книги мы в определенной мере пытаемся ликвидировать все указанные пробелы. В частности, в методическом плане излагаемое отличается следующими особенностями.

В первом разделе речь идет, в общем-то об известных вещах, много раз описанных в математико-статистической литературе. Но упор делается на те их аспекты, которые обычно остаются в стороне, несмотря на их важность для социолога: рассматриваются проблемы разбиения признаков на интервалы и работы с пропущенными данными, адекватность методов относительно типов шкал, специфика работы с дихотомическими данными, некоторые аспекты анализа моделей, предполагаемых используемыми методами.

Все методы, описанные во втором разделе, преподносятся как элементы единой системы, опирающейся на предлагаемую автором классификацию алгоритмов анализа связей. При описании каждого метода особое внимание уделяется анализу заложенной в нем модели. Модели, отвечающие разным методам, решающим одну и ту же задачу, сравниваются друг с другом. Обосновывается необходимость комплексного использования подобных методов.

Методические аспекты, затронутые во второй части книги, неотделимы от рассмотрений первой части.

Мы предполагаем, что читатель знаком с содержанием курсов по общей социологии, методике социологических исследований, теории измерений, математической статистике, предшествующих, в соответствии с принятыми в большинстве отечественных вузов (в том числе на социологическом факультете МГУ) учебными программами, курсу анализа данных. Рассмотрим коротко, что именно из указанных дисциплин должен знать читатель настоящей книги.

Что касается курса общей социологии, то на нем нам бы не хотелось останавливаться на нем подробно. Его освоение нужно просто для того, чтобы читатель понимал социальную значимость рассматриваемых в книге примеров. Другими словами, здесь речь идет об общей эрудиции читателя-социолога. Книг соответствующего профиля за последние годы вышло очень много. Мы их называть не будем, поскольку не это нас в первую очередь интересует.

Из курса методики социологических исследований прежде всегонеобходимо иметь представление об операционализации понятий, о видах исследований. О методике социологического исследования можно прочесть, например, в книге [Ядов, 1998].

Полагаем известными читателю подробно рассматриваемые в курсе по теории измерений определения основных типов используемых в социологии шкал: номинальной, порядковой, интервальной; сложности описания изучаемых объектов (в качестве которых чаще всего выступают респонденты) с помощью определенного набора признаков (отвечающим, например, вопросам в анкете), модельный характер такого описания; проблемы, связанные с получением от респондентов адекватной информации. С содержанием этого курса можно познакомиться по книге [Толстова, 1998а].

Считаем, что читатель имеет представление о роли математической статистики в социологическом исследовании: знает, что она изучает закономерности “в среднем”, дает возможность грамотно построить выборку и обобщить результаты с выборки на генеральную совокупность. Будем полагать также, что читателю известно хотя бы в самых общих чертах, что такое случайные величины, как они обычно бывают представлены в выборочной совокупности (когда вероятность какого-либо события отождествляется с относительной частотой его встречаемости, случайные величины отождествляются с признаками), знакомы основные принципы корреляционно-регрессионного анализа. Работ по теории вероятностей и математической статистике в отечественной литературе довольно много (как известно, отечественная наука в этом отношении имеет богатейшие традиции). Среди вышедших в последнее время и относительно "легких" в смысле преподнесения используемого математического аппарата можно назвать [Гмурман, 1998 а,б; Колемаев, Калинина, 1997]. Особенно хотелось бы отметить работу [Тюрин, Макаров, 1998], которая по своему достоинствам близка к названным выше западным учебникам и даже превосходит их более глубоким теоретическим обоснованием затрагиваемых методов.

Считаем также, что читатель знаком с основными методическими принципами использования математики именно в социологии: знает, что такое модель, заложенная в математическом алгоритме; понимает суть органической связи между этапами измерения и анализа, важность решения проблемы однородности изучаемого массива данных; знаком со специфическими моментами интерпретации результатов анализа социологических данных. Об этом можно прочесть, например, в [Толстова, 1990а,б;1991а,б].

Конечно, когда в нашем изложении встретится необходимость использования какого-либо из названных положений, мы будем коротко напоминать его читателю. О многих положениях речь пойдет довольно подробно (особенно это касается первой части). Но, тем не менее, априорное знание этих положений читателем очень желательно, поскольку мы не ставим своей целью излагать их так, как этого требует жанр учебного пособия. Скорее мы претендуем на сведение названных положений в некоторую "социолого-математическую" систему. Это касается обеих частей книги. Первой – поскольку она полностью посвящена методологии статистического анализа социологических данных. Второй – в силу того, что мы не просто описываем наиболее актуальные для социолога методы, а предлагаем их определенную систематизацию, опирающуюся не некоторое методологическое видение задач эмпирической социологии.

Часть 1.

ЧТО ТАКОЕ АНАЛИЗ ДАННЫХ?

(Методологический аспект)

1. Поиск статистических закономерностей как основная цель, стоящая перед эмпирической социологией. Роль анализа данных в ее достижении