Математически формализованный подход к классификации основывается на использовании мер сходства/различия. При таком подходе для всех пар рассматриваемых объектов рассчитывается степень их сходства между собой, и на основе этих данных выделяют классы. В геоботанике обычно используют различные коэффициенты сходства. Описаны и другие методы кластеризации.
Помимо классификации при обработке геоботанической информации используется другой подход – ординация. Принцип ординации заключается в анализе изучаемых показателей в качестве точек многомерного пространства, где свойства выступают как координаты, задающие местоположение этих точек. Использование данного принципа позволяет уменьшить размерность пространства (до 2- или 3-мерного) и имеет своей целью графически показать взаимное расположение исследуемых объектов. Одним из основных условий при уменьшении размерности является сохранение расстояний между объектами (или, если точнее, минимально возможное их изменение). Такое представление дает возможность визуального выделения существующих трендов в наборах данных и облегчает поиск факторов, наиболее сильно влияющих на исследуемые объекты. К методам ординации относятся: многомерное шкалирование, принцип главных компонент, анализ соответствий, канонический анализ соответствий и т.д.
В настоящее время существует большое количество специальных программных средств, разработанных для автоматизации обработки геоботанических данных. Детальный обзор этих компьютерных средств проведен А. Б. Новаковским (2005, 2006). При обработке геоботанической информации используются два основных подхода – ординация и классификация (кластеризация).
TURBOVEG (Hennekens, 1996; Hennekens, Schaminee, 2001) – специализированная программа, предназначенная для ввода и хранения больших объемов фитоценологической информации, а также ее преобразования в форматы, доступные другим программам для более глубокой математической обработки (TWINSPAN, SYNTAXON, JUICE, PC-ORD и т. д.). В программе можно проводить простые статистические расчеты, например: находить среднее или максимальное проективное покрытие всех видов, либо отдельных ярусов по выбранной группе описаний, строить графики зависимостей между любыми характеристиками геоботанических описаний и т. д.
Именно с помощью TURBOVEG за последние десятилетия в мире были созданы крупнейшие базы данных по растительности мира: Нидерланды (Wageningen, 480000 описаний), Франция (Marseille, 130000), Чешская Республика (Brno, 85000), Германия (Mecklenburg-Vorpommern, 52000), Новая Зеландия (45000) и т. д.
Нумерическая классификация может быть реализована в известном пакете TWINSPAN (Hill, 1994; Legendre, Legendre, 1998), который разрабатывался в начале 80-х годов прошлого века и предназначался для автоматизации метода классификации Браун-Бланке. Название TWINSPAN получено как сокращение английских слов Two-Way Indicator Species Analysis (двусторонний анализ на основе индикаторных видов).
TWINSPAN сводную таблицу геоботанических описаний преобразует в таблицу блочно-диагонального вида, в которой выявляются взаимосвязи между имеющимися описаниями и встреченными видами. Впрочем, результаты подобных автоматических преобразований должны быть обязательно субъективно проверены исследователем.
Как отмечает А. Б. Новаковский (2005, 2006), фактически TWINSPAN является стандартом среди программ классификации растительности. Реализованный алгоритм позволяет достаточно быстро обрабатывать большие массивы данных. К недостаткам можно отнести сложность работы с программой как в части подготовки информации (данные хранятся в текстовой форме), так и отсутствием графического представления результатов.
Одной из первых среди программ, предназначенных для обработки геоботанических данных методами ординации, является CАNOCO (CANOnical Community Ordinations – каноническая ординация растительных сообществ) (Jongman et al., 1987). Программа используется как для выявления особенностей распределения растительных сообществ в соответствии с ведущими экологическими факторами, так и для подтверждения или опровержения результатов, полученных другими путями.
В качестве результата работы этих алгоритмов строятся ординационные диаграммы и биплоты. Кроме графического результата программа выдает корреляционные матрицы внешних факторов с осями биплотов и внешних факторов друг с другом, что также немаловажно при интерпретации результатов.
Одной из очень часто упоминаемых программ, предназначенных для проведения математической обработки фитоценологического материала, является SYNTAX (SYNTAXON). Она предназначена для обработки геоботанических данных методами ординации и кластеризации.
Программа CAP – «Community Analysis Package» предназначена для анализа растительных данных методами ординации, кластеризации и классификации.
BIOTAS – программа, позволяющая визуально отображать информацию о местах встреч тех или иных видов и накладывать карты соответствующей местности с целью нахождения взаимосвязей между рельефом, климатическими и другими условиями с встречаемостью тех или иных видов.
Большую популярность в Европе в последнее время получила программа JUICE. Она предназначена для анализа и классификации больших массивов геоботанических данных, как стандартными средствами, так и с помощью оригинального метода классификации «COCTAIL» и оптимизирована для совместной работы с TWINSPAN и TURBOVEG (Tichý, 2002; Tichý, 2003).
К достоинствам можно отнести возможность импорта данных из других форматов: текстовых файлов, формата RTF, Excel таблиц и баз данных Access. Обработка в JUICE может осуществляться как вручную (перестановкой строк и столбцов валовой таблицы), так и при помощи встроенных алгоритмов.
Программа JUICE позволяет строить синоптические таблицы, проводить сортировку по описаниям и видам, а также классифицировать растительность различными методами (TWINSPAN, COCTAIL). Все алгоритмы могут работать с большими объемами информации (до 65 тысяч описаний). К недостаткам можно отнести отсутствие графического представления данных.
Рис. 1. Общий вид окна программы JUICE с валовой таблицей асс. Salicetum triandrae
и данными о выделенном геоботаническом описании (справа).
Рис. 2. Составленная в программе JUICE с использованием методов TWINSPAN парциальная геоботаническая таблица и окно выбора различных способов отображения значений постоянства видов (баллы, %, значения Ф-коэффициента)
Широко применяются для анализа геоботанических данных и неспециальные программы статобработки: Statistica, STADIA и др.
Достаточно удобно использование для анализа геоботанических данных средства табличного процессора MS Excel. К числу доступных программных средств для MS Excel относится INDICATOR (Булохов, Семенищенков, 2006). Программное средство позволяет производить:
1. экологическую оценку местообитаний растительных сообществ с использованием экологических шкал и проведение простейшей статистической обработки результатов расчетов;
2. анализ ценофлоры растительных сообществ;
3. создание сводных таблиц геоботанических описаний растительности из отдельных описаний и проведение простейших операций по преобразованию таблиц, необходимых для проведения классификации растительности;
4. объединение таблиц геоботанических описаний растительности.
Рис. 3. Рабочий вид листа Indicator для MS Excel с введенным в поле ввода геоботаническим описанием асс. Glycerietum maximae и показанными данными баллов по экологическим шкалам Х. Элленберга, жизненным формам, экобиоморфам, типам ареалов, геоэлементам, хорологическим группам по континентальности/океаничности для каждого вида.
В целом табличный процессор MS Ехсеl имеет ряд преимуществ:
· электронная таблица MS Excel удобна для создания прикладных программ, использующих как готовые, предлагаемые данным приложением функции и формулы, так и новые, разрабатываемые для решения конкретных задач;
· использование некоторых функций MS Excel значительно упрощает процесс анализа результатов расчетов, а включение функций в макросы обеспечивает выполнение более сложных операций с данными;
· структура рабочего листа MS Excel позволяет рационально организовать ввод и обработку исходных данных, а также представление результатов расчетов в виде таблиц с возможностью вывода на печать готовых выходных форм документов и бланков;
· MS Excel содержит инструменты для создания простейших диаграмм, необходимых для анализа результатов расчетов и их наглядного графического отображения;
· базы данных, сохраняемые в виде таблиц MS Excel, становятся доступными и другим приложениям, что облегчает их использование в текстовых, графических и других документах;
· электронная таблица MS Excel проста в использовании, благодаря чему возможно усовершенствование создаваемой программы пользователем для конкретных целей и подключение вновь создаваемых баз данных.
Рис. 4. Спектр жизненных форм по К. Раункиеру сообщества асс. Glycerietum maximae, составленный в Indicator с использованием базы данных программного средства.
Сегодня становится понятным, что синтаксономия не может развиваться в рамках единого подхода. Это связано не только с геоботаническими традициями в разных точках планеты, но и с биологическими особенностями изучаемой растительности. Как отмечает Р. Уиттекер (1980), классификация сообществ оправдывается не теоретическим предпочтением, а ее полезностью.
Важная задача современной синтаксономии – создание репрезантивных региональных пополняемых синтаксономических баз данных, объединяемых в единую глобальную базу и доступных любому исследователю. В этом отношении единые стандарты классификации и общая стандартная схема высших единиц были бы очень полезны.