Статус, категории и построение классификаторов; методы классификации и кодирования информации

Классификатор представляет собой систематизированный свод стандартных кодов и наименований классификационных группировок и (или) объектов информации, построенных в соответствии с установленными системами классификации и кодирования информации.

По своему статусу классификаторы являются нормативными документами по стандартизации, которые разрабатываются по определенным правилам, утверждаются (принимаются) в установленном порядке и являются обязательными для применения в соответствующих сферах управления.

В зависимости от уровня утверждения и области применения классификаторы подразделяются на следующие категории: общероссийские, отраслевые и классификаторы предприятий.

Общероссийские классификаторы утверждаются (принимаются) Госстандартом России и применяются, как правило, в общероссийских унифицированных формах документов, которые сгруппированы в следующие унифицированные системы:

§ организационно-распорядительной документации (02);

§ первичной учетной документации (03);

§ банковской документации (04);

§ финансовой, учетной и отчетной бухгалтерской документации бюджетных учреждений и организаций (05);

§ отчетно-статистической документации (06);

§ учетной и отчетной бухгалтерской документации предприятий (07);

§ документации по труду (08);

§ документации Пенсионного фонда РФ (09).

После названий унифицированных систем документации в скобках приведены их коды по Общероссийскому классификатору управленческой документации (ОКУД), в котором они в установленном порядке проходят государственную регистрацию.

Отраслевые классификаторы утверждаются соответствующими федеральными органами исполнительной власти и применяются, как правило, в отраслевых унифицированных формах документов.

Классификаторы предприятий утверждаются предприятиями и применяются, как правило, в унифицированных формах документов предприятий.

Для оценки максимального объема информации в классификаторе используется показатель емкости классификатора. Этот показатель характеризует наибольшее количество позиций, которое может содержать классификатор, и позволяет оценить объем информации, который может быть закодирован в классификаторе, исходя из всех возможных кодовых комбинаций с учетом принятой системы кодирования и структуры кода. Кроме того, используется показатель резервной емкости, т.е. количества свободных позиций в классификаторе, который отражает возможность расширения классификатора за счет включения в него новых позиций.

Каждая позиция классификатора состоит, как правило, из наименования и кода классификационной группировки или объекта классификации. В состав позиции классификатора могут включаться контрольное число (КЧ) для контроля правильности проставленных знаков кода и дополнительные признаки для характеристики классификационной группировки.

Использование общероссийских классификаторов в статистической практике позволяет осуществлять сбор и обработку статистической информации в строго заданных разрезах в соответствии с границами и объемами содержательного наполнения классификационных группировок.

Классифицирование (классификация) объектов информации (продукция, услуги, объекты административно-территориального деления и др.) производится по присущим объектам существенным характеристикам и свойствам, которые называются признаками классификации. Признаки классификации могут иметь количественное (объем, удельный вес, стаж, возраст) или качественное (вид деятельности, специальность, профессия) выражение.

Совокупность методов, правил и признаков классификации образует систему классификации.

В ОКП, например, система классификации продукции построена с использованием иерархического метода классификации.

Этот метод представляет собой последовательное разделение множества объектов на подчиненные классификационные группировки. Сначала множество объектов делится по некоторому выбранному признаку (основанию деления) на крупные группировки, затем каждая из этих группировок делится на ряд последующих группировок по другому признаку, в целях дальнейшей конкретизации объекта классификации. Таким образом, между классификационными группировками устанавливается подчиненность (иерархия).

Для классификации продукции используются, в частности, следующие признаки: отраслевая принадлежность, назначение, область применения, принцип действия, конструктивные особенности, используемый для изготовления способ и материал.

Каждый этап классификации, в результате которого по определенному признаку образуется совокупность классификационных группировок, называется ступенью классификации.

Число ступеней (уровней) классификации характеризует глубину классификации и зависит от степени конкретизации группировок и числа признаков, необходимых для решения конкретных задач.

При иерархическом методе классификации необходимо соблюдать определенные правила:

§ деление каждой классификационной группировки должно производиться только по одному основанию;

§ получаемые в результате деления группировки не должны пересекаться по своему содержанию, чтобы не дублировалась информация;

§ классифицирование должно обеспечивать суммирование нижестоящих группировок.

Наиболее сложными вопросами, возникающими при построении иерархической классификации технико-экономической и социальной информации, являются выбор системы признаков, применяемых в качестве основания деления, а также порядок их следования.

Основные преимущества иерархической классификации заключаются в ее значительной информационной емкости, традиционности и в возможности создания для объектов классификации мнемоничных кодов, несущих смысловую нагрузку.

Существенным недостатком иерархической системы классификации является слабая гибкость структуры, обусловленная фиксированностью постоянных признаков (оснований деления) и заранее установленным порядком их следования, не допускающим включения при отсутствии резервной емкости новых объектов и классификационных группировок. Вследствие этого изменение хотя бы одного признака ведет к перераспределению классификационных группировок. Поэтому в классификаторах, построенных по иерархическому методу, должны предусматриваться значительные резервные емкости. Кроме того, этот метод классификации не позволяет агрегировать объекты и осуществлять информационный поиск по любому произвольному сочетанию признаков, а также усложняет машинную обработку информации из-за нестандартного выделения и расположения конкретных признаков в различных ветвях классификации.

Другим методом, используемым для построения классификационной структуры классификаторов, является фасетный метод, заключающийся в параллельном разделении множества объектов на независимые классификационные группировки. В этом методе классификационное множество объектов информации описывается набором независимых признаков (фасетов), которые не имеют жесткой взаимосвязи друг с другом и могут использоваться отдельно для решения различных задач.

Например, в Общероссийском классификаторе информации о населении (ОКИН) используются следующие фасеты: пол, гражданство, национальность, язык, родство и др. При этом название фасета совпадает с названием признака, по значениям которого в фасете представлен перечень соответствующих объектов классификации — элементов классифицируемого множества.

Емкость такой классификации зависит от числа фасетов и от количества значений признаков в фасете.

При построении фасетной классификации необходимо соблюдать следующие основные правила:

§ значения различных фасетов не должны пересекаться (принцип исключения фасетов);

§ из всевозможных фасетов, характеризующих классифицируемое множество объектов, должны отбираться и фиксироваться только. существенные для решения конкретных задач.

Основное преимущество фасетной классификации обусловлено гибкостью структуры ее построения. Изменения в любом из фасетов не оказывают существенного влияния на остальные фасеты. Большая гибкость фасетной классификации обусловливает ее приспосабливаемость к меняющемуся характеру задач, для решения которых она создается. Фасетная классификация позволяет не только образовывать новые классификационные группировки в имеющихся фасетах, но и включать новые и исключать старые фасеты. Гибкость фасетной классификации дает возможность агрегировать объекты и осуществлять информационный поиск по любому сочетанию фасетов.

Применение фасетной системы позволяет осуществлять блочное построение классификаторов с выделением идентификационного блока.

Недостатки фасетной классификации — неполное использование емкости, обусловленное отсутствием на практике многих из возможных сочетаний фасетов, и нетрадиционность в применении.

Выбор методов классификации и кодирования технико-экономической и социальной информации в каждом конкретном случае осуществляется разработчиком классификатора.

В зависимости от специфики информации и области применения классификаторов в них возможно применение различных сочетаний методов классификации.

Рассмотрим систему кодирования технико-экономической и социальной информации, состоящую из методов и правил кодирования классификационных группировок и объектов классификационного множества.

В процессе кодирования объектам классификации и их группировкам по определенным правилам присваиваются цифровые, буквенные или буквенно-цифровые коды (кодовые обозначения), обеспечивающие их однозначную идентификацию с помощью знаков (символов).

Кодирование предназначено для формализованного описания заданного множества объектов, которое позволяет производить автоматизированную обработку информации. При описании процесса кодирования информации используют определенные термины и понятия.

Код классификационной группировки — это знак или совокупность знаков, принятых для обозначения классификационной группировки и(или) объекта классификации. В качестве синонимов кода используются слова и словосочетания: кодовое обозначение, кодовая комбинация, шифр, индекс, код объекта. Код образуется в соответствии с правилами кодирования, принятыми в данной системе кодирования, и характеризуется его длиной и структурой.

Длина кода — число знаков в коде без учета пробелов.

Разряд кода — позиция знака в коде.

Структура кода — условное обозначение состава и последовательности расположения знаков в коде.

Алфавит кода — система знаков, принятых для образования кода.

Алфавит кода буквенный — алфавит кода, знаками которого являются буквы алфавитов естественных языков.

Алфавит кода буквенио-цифровой — алфавит кода, знаками которого являются буквы алфавитов естественных языков и цифры.

Алфавит кода цифровой — алфавит кода, знаками которогоявляются цифры.

При разработке классификаторов используются следующие методы кодирования.

Последовательный метод кодирования — образованиекода классификационной группировки и(или) объекта классификации с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации.

Преимуществом этого метода кодирования является простота, а недостатком — негибкая структура, присущая иерархическому методу классификации.

Параллельный метод кодирования — образование кода классификационной группировки и(или) объекта классификации с использованием кодов независимых группировок, полученных при фасетном методе классификации,

Этот метод кодирования вследствие его блочной структуры хорошо приспособлен для часто изменяющихся задач. К недостаткам следует отнести избыточность метода и необходимость кодирования самих фасетов для однозначной идентификации входящих в фасеты объектов, поскольку все фасеты входят в состав одного классификатора.

Порядковый метод кодирования — образование кода из чисел натурального ряда путем сквозной регистрации объектов. Данный метод обладает наибольшей полнотой и простотой для идентификации объектов. Но применение его в чистом виде неэффективно, так как на его основе трудно получить итоги по объектам со сходными признаками.

Серийно-порядковый метод кодирования — образование кодаиз чисел натурального ряда, закрепление отдельных серий или диапазонов этих чисел за объектами классификации с одинаковыми признаками.

Например, с 1-го номера по 10-й закодирована одна группа объектов, с 11-го по 30-й — другая, с 31-го по 100-й — третья группа.

Этот метод целесообразно применять для объектов, имеющих два или несколько порядковых признаков.

На практике методы кодирования в чистом виде применяются редко, в основном используются их различные комбинации. Выбор методов кодирования зависит от назначения классификатора и решаемых задач.