Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Многомерный статистический анализ. Задачи классификации объектов: кластерный анализ. Дискриминантный анализ.




Тема 6. Многомерный статистический анализ

Вопросы

 

Многомерный статистический анализ. Задачи классификации объектов: кластерный анализ. Дискриминантный анализ.

2. Многомерный статистический анализ. Задачи снижения размерности: факторный анализ, к омпонентный анализ

Данная тема знакомит студентов с некоторыми методами многомерного статистического анализа (МСА), которые получили наибольшее распространение. При изучении данной темы необходимо уделить особое внимание типам задач, для решения которых используются методы МСА. Технология решения задач подробно рассмотрена в [1]. Практическое применение методов МСА требует обязательного использования вычислительной техники и специального программного обеспечения.

Факторный и компонентный анализ в большинстве случаев проводятся совместно.

Компонентный анализ является методом определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание малого объема, несущее почти всю информацию, содержащуюся в исходных данных. Главные компоненты получаются из исходных переменных путем целенаправленного вращения, т.е. как линейные комбинации исходных переменных. Вращение производится таким образом, чтобы главные компоненты были ортогональны и имели максимальную дисперсию среди возможных линейных комбинаций исходных переменных X. При этом переменные не коррелированы между собой и упорядочены по убыванию дисперсии (первая компонента имеет наибольшую дисперсию). Кроме того, общая дисперсия после преобразования остается без изменений.

Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом.

Кластерный анализ

Кластерный анализ — это совокупность методов, позволяю­щих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х1, Х2,..., Хk. Целью кластерного анализа является образование групп схо­жих между собой объектов, которые принято называть кластера­ми (класс, таксон, сгущение).

Кластерный анализ — одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, которые связаны с изучением массовых явлений и про­цессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они по­могают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут ис­пользоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения по­токов статистических данных.

Методы кластерного анализа позволяют решать следующие задачи [2]:

• проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о со­вокупности классифицируемых объектов;

• проверка выдвигаемых предположений о наличии некото­рой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

• построение новых классификаций для слабоизученных яв­лений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Дискриминантный анализ

Дискриминантный анализ являетсяразделом многомерного стати­стического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.

Напомним, что в кластерном анализе рассматриваются методы многомерной классификации без обучения. В дискриминантном анализе новые класте­ры не образуются, а формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существую­щих (обучающих) подмножеств (классов), на основе сравнения ве­личины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.

Предположим, что существуют две или более совокупности (группы) и что мы располагаем множеством выборочных наблюдений над ними. Основная задача дискриминантного анализа состоит в построении с помощью этих выборочных наблюдений правила, позволяющего отнести новое наблюдение к одной из совокупностей.

Рассмотрим более подробно факторный анализ

 

Факторный анализ - это совокупность методов, которые на основе реально существующих связей объектов (признаков) позволяют выявить латентные (неявные) обобщающие характеристики организационной структуры. При этом предполагается, что наблюдаемые переменные являются линейной комбинацией факторов. Под фактором понимается гипотетическая непосредственно не измеряемая, скрытая (латентная) переменная в той или иной мере связанная с исходными наблюдаемыми переменными. К факторному анализу относятся: метод главных компонент, методы многомерного шкалирования, применяемые для формирования факторного пространства по информации о близости объектов, методы кластерного анализа, применяемые для описания неколичественных факторов.

Основные цели факторного анализа:

1. сокращение числа переменных (редукция данных);

2. определение структуры взаимосвязей между переменными (классификация переменных);

3. косвенные оценки признаков, неподдающихся непосредственному измерению;

4. преобразование исходных переменных к более удобному для интерпретации виду.

Если кратко охарактеризовать факторный анализ, то наиболее важными являются следующие моменты:

1) факторный анализ, в противоположность контролируемому эксперименту, опирается в основном на наблюдения над естественным варьированием переменных;

2) При использовании факторного анализа совокупность переменных, изучаемых с точки зрения связей между ними, не выбирается произвольно: сам метод позволит выявить основные факторы, оказывающие существенное влияние в данной области;

3) факторный анализ не требует предварительных гипотез, наоборот, он сам может служить методом выдвижения гипотез, а также выступать критерием гипотез, опирающихся на данные, полученные другими методами;

4) факторный анализ не требует априорных предположений относительно того, какие переменные независимы, а какие зависимы, метод не преувеличивает причинно-следственные связи и решает вопрос об их мере в процессе дальнейших исследований.

Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Однако очень быстро этот метод завоевал и такие области применения, как социология, экономика, география и многие другие.

Переменные, значения которых можно измерить, имеют для исследуемого объекта нередко достаточно условный характер, лишь опосредованно отражая его внутреннюю структуру, движущие механизмы или факторы. Например, исследователь ставит цель: провести сравнительный анализ темпов экономического роста отдельных регионов (соответствующий пример будет в дальнейшем рассмотрен). Закономерен вопрос: чем измерить экономическое развитие, и какие показатели следует включить в исследование?

Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию между переменными. Тем самым, факторов может быть существенно меньше, чем измеряемых переменных, число которых выбирается исследователем достаточно субъективно.

Степень влияния фактора на некоторый показатель (переменную) статистически характеризуется величиной дисперсии этого показателя при изменении значений фактора. Если расположить оси исходных переменных ортогонально друг к другу, то можно обнаружить, что в этом многомерном пространстве объекты группируются в виде эллипса рассеяния, более вытянутого в одних направлениях и почти плоского в других. Если теперь провести новые оси соответственно осям эллипса рассеяния, то можно говорить о выделении скрытых факторов и оценивать сравнительную значимость этих факторов в терминах дисперсии. При этом оказывается, что толщина такого эллипса по некоторым осям настолько не велика, что можно исключить их из исследования.

Как правило, применение методов факторного анализа включает три этапа:

1) выделение первоначальных факторов;

2) вращение выделенных факторов с целью облегчения их интерпретации в терминах исходных переменных (в частности, для исключения отрицательных значений);

3) содержательная интерпретация новых факторов в предметных терминах, что является творческой задачей исследователя, выходящей за рамки предлагаемого формального метода.

Наиболее часто факторный анализ используется для выявления в наблюдаемых признаках некоторых латентных (скрытых) переменных fm, называемых факторами. Гипотеза о наличии этих факторов основана на предположении о существовании чего-то общего в наблюдаемых признаках. Выводимые гипотетические факторы обладают следующими свойствами:

1. Они образуют линейно независимый набор переменных, т.е. ни один из факторов (компонент) не выводится как линейная комбинация остальных.

2. Переменные, являющиеся гипотетическими факторами, можно разделить на два основных вида – общие и характерные факторы. Они отличаются структурой весов в линейном уравнении, которое выводит значение наблюдаемой переменной из гипотетических факторов. Общий фактор имеет несколько переменных с ненулевым весом или факторной нагрузкой, соответствующей этому фактору. При этом фактор называется общим, если хотя бы две его нагрузки значительно отличаются от нуля. Характерный фактор имеет только одну переменную с ненулевым весом (т.е. только одна переменная от него зависит).

3. Всегда предполагается, что общие факторы не коррелируют с характерным фактором, также характерные факторы не коррелированы между собой.

4. Обычно предполагается, что число общих факторов меньше, чем число наблюдаемых переменных, однако число характерных факторов принимают равным числу наблюдаемых переменных.

 





Поделиться с друзьями:


Дата добавления: 2017-04-15; Мы поможем в написании ваших работ!; просмотров: 1173 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Ваше время ограничено, не тратьте его, живя чужой жизнью © Стив Джобс
==> читать все изречения...

2219 - | 2164 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.01 с.