Структурированные текстовые данные занимают промежуточную ступень между численными и естественно-языковыми данными. К этому виду могут быть приведены практически любые числовые данные, при этом речь идет не о преобразовании записи числа из системы цифровой записи в запись с помощью числительных натурального языка, а реальной трансляции числа в термин. Примером такого преобразования может выступать преобразование числовых данных «длина отражаемой или излучаемой объектом волны светового колебания» в текстовые данные типа «цвет объекта» и тому подобные. При этом используются не только значения величин, но и производные первого и второго порядков, результаты интегрирования, вычисления дискретной суммы и тому подобных вычислительных процедур.
Инструментом выполнения таких преобразований служат модели трансляции, задачей которых является установление взаимно однозначного соответствия между параметром (группой параметров) и термином на основе объективных критериев. В наглядной интерпретации процесс трансляции данных с частной семантикой (областью определения терминов знаковой системы) к виду данных универсальных знаковых систем может быть представлен так, как это сделано на рисунке, приведенном ниже.
Рисунок 4.1 — Графическое представление процесса трансляции.
Графическая интерпретация процесса трансляции иллюстрирует частный случай применения модели трансляции для преобразования данных, отображающих процесс, характеризующийся одним параметром, в совокупность терминов четырех классов: имена (имя процесса, имя параметра, имя состояния, предикат и характеристика предиката). С помощью подобной модели трансляции могут быть получена следующая совокупность высказываний: «Процесс (имя) пребывает в состоянии (Т1). Значение параметра (имя параметра) (характеристика крутизны Д1, наречие) (предикат П1, глагол)». Усложнение подобной модели трансляции может позволить формировать и более сложные высказывания, но это потребует усложнения тезауруса. Однако уже в таком виде при использовании системы координат параметр/время высказывания будут содержать существительные, наречия и глаголы.
Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус, состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в терминах, определенных на трех уровнях иерархии. Термин «нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В языках естественного общения такое требование в большинстве случаев не выполняется (до тех пор, пока для решения задач практической деятельности такой термин не будет введен и не заместит общеупотребительный термин).
Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков (модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели.
Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции.
Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных.