Средство интерпретации результатов дискриминантного анализа описанием каждой группы через групповые средние для предикторов.
Если важные предикторы установлены, то сравнение групповых средних по этим переменным может помочь понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов.
Оценка достоверности дискриминантного анализа
Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную — для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности (hit ratio) или процент верно классифицированных случаев [9].
Коэффициент результативности (hit ratio)
Процент случаев, верно классифицированных с помощью дискриминантного анализа.
Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом [10].
Большинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки [11].
В табл. 18.4 (пример семейного отдыха на курорте) также показаны результаты классификации, полученные на основе анализируемой выборки. Коэффициент результативности или процент верно классифицированных случаев равен (12 + 15)/30 = 0,90 или 90%. Могут возникнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение классификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833 или 83,3% (табл. 18.4). Задав случайным образом две группы равного размера, можно ожидать, что коэффициент результативности равен 1/2 = 0,50 или 50%. Однако превышение точности классификации над случайной классификацией составляет свыше 25%, и поэтому достоверность дискриминантного анализа оценивают как удовлетворительную.
Следующий пример иллюстрирует иное применение дискриминантного анализа двух групп.
ПРИМЕР. Домоседы
Маркетологи использовали дискриминантный анализ для двух групп, чтобы оценип силу каждого из пяти факторов, использованных при делении людей на тех, кто смотрит те левизор, и тех, кто не смотрит. Данный метод хорошо подходил для этой цели вследствр природы предопределенных категориальных групп (телезрители и нетелезрители) и интег вальных шкал, использованных для получения отдельных значений факторов.
Отобраны две группы по 185 взрослых зрителей (телезрителей и нетелезрителей) с общи размером выборки п = 370. Дискриминантное уравнение для анализа вычислено с помощь подвыборки, состоящей из 142 респондентов, взятых из выборки в 370 человек. Оставшиес 198 респондентов служили как проверочная подвыборка в перекрестной проверке уравнена 30 респондентов исключили из анализа из-за отсутствия дискриминантных значений.
Каноническая корреляция для дискриминантной функции, равная 0,4291, являлас значимой при р < 0,0001 уровне. Собственное значение равнялось 0,2257. В таблице прив< дены нормированные канонические дискриминантные коэффициенты. Значительная час] дисперсии объясняется дискриминантной функцией. Кроме того, как показано в таблиц фактор "ориентация на дом" внес наибольшой вклад в классификацию индивидуумов ъ телезрителей и нетелезрителей. Также свой вклад внесли мораль, безопасность и здоровь уважение. Как оказалось, социальный фактор играл небольшую роль.
Результаты дискриминантного анализа Стандартные коэффициенты канонической дискриминантной функции
Мораль 0,27798
Безопасность и здоровье 0,39850
Ориентация на дом 0,77496
Уважение 0,32069
Социальный фактор -0,01996