Основной показатель силы влияния равен доле одного слагаемого от всей суммы слагаемых. Кроме того, этот показатель равен квадрату корреляционного отношения. По этим двум причинам показатель силы влияния всегда больше нуля, он не может быть отрицательным. Наименьшая его величина , когда все частные средние по градациям комплекса оказались одинаковыми, равными общей средней. Наибольшая величина показателя , когда все данные внутри каждой градации одинаковы и равны своей частной средней.
Только в единственном случае основной показатель силы влияния может получаться меньше нуля и больше единицы: при определении доверительных границ генерального параметра на основе малочисленного выборочного комплекса, при большом разнообразии значений изучаемого признака.
Во всех остальных случаях (когда не определяются доверительные границы) получение показателя силы влияния отрицательного или больше единицы всегда указывает или на ошибку счета, или на порочный метод определения силы влияния.
Достоверность влияний
Основной показатель силы влияния, полученный в выборочном исследовании, характеризует, прежде всего, ту степень влияния, которая реально, в действительности, проявилась в группе исследованных объектов, и как первичный факт подлежит непосредственному изучению и включению в общую цепь наблюдений, сопоставлений и вскрытия причин.
В то же время материалы выборочного комплекса, в котором определен основной показатель силы влияния, могут быть использованы также и для оценки соответствующего генерального параметра, т. е. степени влияния, свойственной общему комплексу генеральных совокупностей, соответствующих градациям выборочного комплекса.
Оценка генерального параметра не может быть произведена путем простого приравнивания его к тому показателю силы влияния, который выявлен в выборочном комплексе. Прогноз генеральных параметров силы влияний по выборочным показателям всегда может быть сделан с большей или меньшей погрешностью, неизбежной при анализе любого выборочного комплекса.
Получившееся в комплексе разнообразие частных средних никогда точно не соответствует разнообразию генеральных средних вследствие обычных ошибок репрезентативности при случайном наборе объектов и данных в градации.
Эта неточность в крайних случаях может привести к большому разнообразию выборочных частных средних при очень незначительных различиях или даже полном равенстве соответствующих генеральных средних по градациям комплекса. В подобных случаях выборочный показатель силы влияния дает преувеличенную характеристику силы влияния в генеральном комплексе.
Возможна и другая крайняя погрешность, когда случайности набора объектов и данных в градации выборочного комплекса приведут к очень малому разнообразию выборочных частных средних при большом разнообразии соответствующих генеральных средних. В подобных случаях выборочный показатель силы влияний даст преуменьшенный прогноз генерального параметра силы влияния.
Погрешности в оценке генерального параметра по выборочному показателю свойственны всякому выборочному исследованию, в том числе и любому выборочному дисперсионному анализу. Поэтому, как и во всяком выборочном исследовании, при дисперсионном анализе силы влияний определяются показатели, помогающие выяснить возможную величину ошибок прогноза генеральных параметров по выборочным показателям.
Учет ошибок репрезентативности в дисперсионном анализе производится в форме критерия достоверности выборочного показателя и доверительных границ генерального параметра силы влияния. В основе учета этих ошибок репрезентативности лежат следующие закономерности.
Отличие разнообразия выборочных средних от разнообразия соответствующих генеральных средних не может быть безграничным. Например, при равенстве генеральных средних разнообразие соответствующих выборочных средних не может быть больше определенной величины, которую можно установить при проведении анализа выборочных дисперсионных комплексов.
При полном равенстве генеральных частных средних разнообразие выборочных частных средних не может быть больше особого показателя – критерия Фишера при заданной вероятности безошибочных прогнозов.
Если разнообразие частных средних в выборочном комплексе не достигает критерия Фишера, значит, это выборочное разнообразие могло получиться в порядке случайных отклонений от нулевого разнообразия соответствующих генеральных средних. В таких случаях выборочный показатель силы влияний недостоверен, а прогноз генерального параметра неопределенен, так как не отвергает и не подтверждает влияния фактора в генеральном комплексе, при массовом применении фактора. В этих случаях, при недостоверности показателя силы влияния, эмпирический показатель полностью применим при характеристике влияния только в пределах изученного комплекса и не может быть использован для установления наличия или отсутствия влияния в генеральном комплексе.
Если разнообразие частных средних в выборочном комплексе равно или превышает критерий Фишера, значит, это выборочное разнообразие уже не могло получиться только вследствие случайных отклонений от разнообразия соответствующих генеральных средних. По этой причине разнообразие частных средних перешло допустимый порог, определяемый критерием Фишера, что и указало на достоверность изучаемого влияния.
При достоверном влиянии эмпирический показатель силы влияния применим уже не только в пределах выборочного комплекса. В таких случаях по выборочному показателю можно заключить вполне определенно о наличии изучаемого влияния в генеральном комплексе (при массовом применении фактора) и определить возможную генеральную силу этого фактора в форме доверительных границ, причем нижняя граница не будет отрицательной.
Достоверность влияния может иметь разную степень. Чем больше разнообразие действия градаций фактора, тем больше факториальное разнообразие отличается от случайного. Поэтому за меру достоверности влияния принят результат сопоставления степени двух разнообразий – факториального и случайного.
Следует твердо усвоить, что за базу оценки величины факториальных разнообразий (по фактору, по первому и второму факторам, по сочетанию их градаций, по суммарному действию факторов) можно брать только внутригрупповое случайное разнообразие. Здесь под вариантами опыта следует понимать градации фактора.
Сопоставление эмпирического критерия с его стандартными значениями может дать два принципиально различных результата.
Эмпирический критерий не достигает своего стандартного значения, взятого в соответствии с установленным порогом вероятности безошибочных прогнозов.
В таких случаях при требуемой вероятности невозможно сделать заключения как о равенстве, так и о различии соответствующих генеральных средних, так как малое разнообразие выборочных частных средних может получиться при любом (большом или малом, или нулевом) разнообразии генеральных средних по градациям комплекса. А это значит, что в таких случаях нельзя дать определенного прогноза о генеральном влиянии фактора: остается невыясненным, можно или нельзя ожидать с установленной вероятностью, что при массовом применении фактора получаются результаты, сходные с теми, которые получены в выборочном комплексе, конечно, при изученных градациях фактора и при данных условиях.
Следует остерегаться двух ошибочных мнений о недостоверном показателе силы влияния. Нельзя считать, что получение недостоверного показателя силы влияния указывает на то, что «влияния вообще нет», что влияние отсутствует в генеральных совокупностях.
Получение недостоверного показателя ни подтверждает, ни отрицает генеральное влияние.
Нельзя, также считать, что при получении недостоверного показателя силы влияния в проведенном исследовании вообще ничего не получено и это исследование проведено без всякой пользы. Это – большая ошибка. Та мера влияния, которая при этом получена, целиком относится к группе изученных объектов и как экспериментальный факт должна быть учтена и в данном, и в других, и в дальнейших работах.
В некоторых случаях изучение силы влияния проводится только для определенной ограниченной группы объектов, из которых и составляется дисперсионный комплекс. В таких случаях не ставится задача определить силу генерального влияния, и эмпирический показатель силы влияния приобретает полное значение без определения его достоверности.
В некоторых исследованиях именно недостоверность показателя силы влияния, определенная по прямому отношению дисперсий, дает ответ на основной вопрос этого исследования. Так бывает в тех случаях, когда недостоверность по прямому отношению дисперсий не опровергает сходства исследуемых особей по их личным качествам или наследственным способностям как представителей одной линии.
Определенность прогнозов приобретает силу достоверности, если при недостоверности по прямому отношению дисперсий малое влияние (а значит, большое сходство градаций) оказывается достоверным по обратному отношению .
Эмпирический критерий равен или превышает свое стандартное значение с требуемой вероятностью.
В таких случаях возможен определенный прогноз: генеральные средние по градациям комплекса неодинаковы и их разнообразие подобно тому, которое наблюдалось в выборочном комплексе. Разнообразие частных средних в выборочном комплексе теперь уже не может быть объяснено только случайностями выборочного исследования.
Достоверное влияние означает, что изученный фактор при его массовом применении в определенных градациях и в данных условиях будет оказывать влияние на результативный признак с вероятностью, найденной при оценке достоверности его силы влияния.
Вопросы для самоконтроля
1 Дайте определение многофакторному дисперсионному комплексу.
2 На сколько компонентов расчленяется общая сумма квадратов в двухфакторном и трехфакторном дисперсионном комплексах? Назовите их.
3 Назовите этапы анализа данных многофакторного комплекса.
4 Напишите последовательность проведения расчетов в двухфакторном комплексе.
5 Какие статистические параметры определяются по суммам квадратов при универсальном использовании дисперсий.
6 Дайте определение и формализацию показателей силы влияния.
7 Что отражает показатель силы влияния?
8 Интерпретируйте показатели силы влияний в однофакторном и двухфакторном дисперсионном комплексе.
9 При каких условиях в двухфакторном дисперсионном комплексе показатель влияния сочетаний градаций принимает наибольшее и наименьшее значения? Каковы при этом значения показателей частных влияний первого и второго факторов?
10 Напишите формулы ошибки основного показателя силы влияния для однофакторного и двухфакторного дисперсионных комплексов.
11 Что характеризует отношение основного показателя силы влияния к его ошибке?
12 В чем преимущества предлагаемой ошибки?
ТЕМА 16 Классификация
16.1 Дискриминантный анализ
16.2 Кластерный анализ
Классификацией называют разделение рассматриваемой совокупности объектов или явлений на однородные в определенном смысле группы.
Различают классификацию при наличии обучающих выборок (дискриминантный анализ) и классификацию без обучения. К классификации без обучения относят методы автоматической классификации (кластерный анализ).
Дискриминантный анализ
Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т.д.
Типичные области применения дискриминантного анализа – биология, медицина, управление производством, экономика, геология, контроль качества.
В медицине объектом исследования является пациент, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет, например, необходимо ли хирургическое вмешательство при лечении.
В управлении производством принимается решение по отнесению поступающего сырья или продукции к одному из нескольких типов.
В экономике важно решение по отнесению клиента к определенному классу при выдаче кредита.
Чрезвычайно интересно применение дискриминантного анализа в борьбе с терроризмом. Последствия действий против террористов могут привести к одному из двух результатов: успешное освобождение заложников и случаи, когда заложники пострадали. Здесь имеются следующие дискриминантные переменные: число террористов, степень поддержки, количество оружия и т.д.
Очевидно, лицам, ведущим переговоры, важно классифицировать возникшую ситуацию, с тем, чтобы определить свои действия.
Широкий круг задач, возникающих на практике и связанных с классификацией, можно решить методами дискриминантного анализа.