Лекция № 41. Уровни языка. Лингвистический процессор
Уровни языка
(15) Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.
(16) Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4) синтаксический, 5) семантический, 6) прагматический.
Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они характеризуются особой субстанцией, функциями, (15) в зависимости от уровня выделяют следующие:
Фонема — неделимая, единица, класс класс вариантов звука (аллофонов), фонему можно представить в виде набора дифференциальных признаков.
Функции -1. строительная 2. смыслоразличительная.
2. морфема - полноценная двусторонняя (имеет план выражения и план содержания) знаковая единица. Морфема обладает значением (лексическое, словообразовательное, грамматическое), но не является целостной единицей, не обладает грамматической оформленностью и смысловой самостоятельностью.
Функции - 1. семасиологическая (может выражать значение, например, суффикс л в глаголах указывает на прошедшее время - «проходила») 2. строительная.
3. слово (лексема) - целостная единица, обладающая морфологической оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis — слово, выражение, оборот речи) — слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разные словоформы одного слова (например, «словарь, словарём, словарю» и т. п.).
Функции - 1. минимальная номинативная единица (может называть вещи в отличие от морфемы) 2. строительная (входит в состав словосочетания и предложения).
Предложение - минимальная коммуникативная единица языка (с помощью нее осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной характеристикой, модальностью. Предложение отличается от слова по степени сложности выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое предложение строится на предикации (выделение какого-либо объекта и приписывание ему признака).
Функции - 1. номинативная 2, строительная.
текст - особая единица языка (не уровень, но единица), В тексте предложения связаны между собой по смыслу. Наличие связности - важное свойство.
Функции -1.коммуникативная 2. информативная.
(1)
Ядром любой ЕЯ-системы является лингвистический процессор, структура и задачи которого более подробно рассмотрены ниже. (2)
Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей. Первому виду языковой деятельности соответствует производство ЕЯ-текстов, а второму - понимание таких текстов. Если обозначить множество текстов через {Т}, а множество выражаемых ими смыслов через {С}, то модель естественного языка можно определить как транслятор, устанавливающий соответствие между этими двумя множествами: {Т}

{С}. (3)
Формальные модели языка рассматриваются как компоненты различных прикладных ЕЯ-систем.
Компонент системы, реализующий формальную лингвистическую модель и способный работать с ЕЯ во всем его объеме, называется лингвистическим процессором (ЛП). (4)
Две основные функции ЛП состоят в извлечении смысла из заданного текста и в выражении заданного смысла текстом на ЕЯ, иначе это функции: ‒
моделирования понимания (анализ); ‒
моделирования производства текстов (синтез).
(5) Структура и состав лингвистического процессора ЛП представляет собой многоуровневый преобразователь.
В нем различаются четыре уровня пофразного представления текста, которые соответствуют уровням языка -морфологический, синтаксический, семантический и прагматический.
Каждый из уровней обслуживается соответствующим компонентом модели - массивом правил и определенным словарем. (6)
На каждом из уровней предложение имеет формальный образ, именуемый в дальнейшем его структурой - морфологической (МорфС), синтаксической (СинтС) и семантической (СемС). (7)
Синтез представляет собой обратный переход от СемС предложения к его записи в обычном орфографическом виде. Структура лингвистического процессора представлена на рисунке 1. (8)
Под морфологической структурой понимается последовательность входящих в анализируемое предложение слов с указанием части речи и морфологических характеристик (падежа, числа, рода, одушевленности, вида и т.п.). (9)
Под синтаксической структурой понимается дерево зависимостей, в узлах которого стоят слова данного естественного языка с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка отношениям между словами. (9а)
Под семантической структурой понимается граф, в узлах которого стоят понятия, соответствующие словам предложения, а дуги соответствуют семантическим отношениям между понятиями (например, предикатная структура).

Рис. 2.1. Структура лингвистического процессора (10)
ЛП в целом должен обеспечивать выполнение следующих преобразований: предложение на ЕЯ ⇒ МорфС ⇒ СинтС ⇒ СемС (при анализе) СемС ⇒ СинтС ⇒ МорфС ⇒ предложение на ЕЯ (при синтезе) (11) Таким образом,
чтобы построить ЛП, необходимо разработать: ‒
формальные языки для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления; ‒
формальное понятие структуры предложения для каждого из этих уровней; ‒
массивы правил для преобразования структур смежных уровней друг в друга; ‒
морфологический, синтаксический и семантический словари, включив в них всю информацию о каждой лексеме, необходимую для осуществления соответствующего преобразования. (12)
Цель анализа предложения на естественном языке - перевод их на М-язык вычислительной системы. Функциями анализатора являются: ‒
распознавание правильно построенных предложений ЕЯ; ‒
фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте; ‒
декомпозиция предложения на составляющие (фрагменты) и построение соответствующей синтаксической структуры предложения; ‒
семантическая интерпретация фрагментов ЕЯ-предложения фрагментами М- языка; ‒
композиция фрагментов М-языка в структуру, описывающую прагматическую ситуацию предметной области. Реализация этих функций осуществляется на этапах морфологического и синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих моделях ЛП два последних этапа объединяются в один этап семантического анализа. (13)
В большинстве случаев вместо полного синтеза используется синтез по шаблонам. Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений, относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для каждого типа разработать шаблон, который заполняется при обращении к пользователю. (14)
Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из следующих этапов: ‒
разбиение текста М-языка на фрагменты, соответствующие будущим фразам; ‒
определение лексем для синтезируемой фразы; ‒
построение синтаксической структуры фразы; ‒
приписывание морфологической информации вершинам синтаксической структуры фразы; ‒
определение порядка слов; ‒
осуществление морфологического синтеза лексем.