Лекция № 41. Уровни языка. Лингвистический процессор
Уровни языка
(15) Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.
(16) Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4) синтаксический, 5) семантический, 6) прагматический.
Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они характеризуются особой субстанцией, функциями, (15) в зависимости от уровня выделяют следующие:
Фонема — неделимая, единица, класс класс вариантов звука (аллофонов), фонему можно представить в виде набора дифференциальных признаков.
Функции -1. строительная 2. смыслоразличительная.
2. морфема - полноценная двусторонняя (имеет план выражения и план содержания) знаковая единица. Морфема обладает значением (лексическое, словообразовательное, грамматическое), но не является целостной единицей, не обладает грамматической оформленностью и смысловой самостоятельностью.
Функции - 1. семасиологическая (может выражать значение, например, суффикс л в глаголах указывает на прошедшее время - «проходила») 2. строительная.
3. слово (лексема) - целостная единица, обладающая морфологической оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis — слово, выражение, оборот речи) — слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разные словоформы одного слова (например, «словарь, словарём, словарю» и т. п.).
Функции - 1. минимальная номинативная единица (может называть вещи в отличие от морфемы) 2. строительная (входит в состав словосочетания и предложения).
Предложение - минимальная коммуникативная единица языка (с помощью нее осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной характеристикой, модальностью. Предложение отличается от слова по степени сложности выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое предложение строится на предикации (выделение какого-либо объекта и приписывание ему признака).
Функции - 1. номинативная 2, строительная.
текст - особая единица языка (не уровень, но единица), В тексте предложения связаны между собой по смыслу. Наличие связности - важное свойство.
Функции -1.коммуникативная 2. информативная.
(1) Ядром любой ЕЯ-системы является лингвистический процессор, структура и задачи которого более подробно рассмотрены ниже. (2) Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей. Первому виду языковой деятельности соответствует производство ЕЯ-текстов, а второму - понимание таких текстов. Если обозначить множество текстов через {Т}, а множество выражаемых ими смыслов через {С}, то модель естественного языка можно определить как транслятор, устанавливающий соответствие между этими двумя множествами: {Т} {С}. (3) Формальные модели языка рассматриваются как компоненты различных прикладных ЕЯ-систем. Компонент системы, реализующий формальную лингвистическую модель и способный работать с ЕЯ во всем его объеме, называется лингвистическим процессором (ЛП). (4) Две основные функции ЛП состоят в извлечении смысла из заданного текста и в выражении заданного смысла текстом на ЕЯ, иначе это функции: ‒ моделирования понимания (анализ); ‒ моделирования производства текстов (синтез). (5) Структура и состав лингвистического процессора ЛП представляет собой многоуровневый преобразователь. В нем различаются четыре уровня пофразного представления текста, которые соответствуют уровням языка -морфологический, синтаксический, семантический и прагматический. Каждый из уровней обслуживается соответствующим компонентом модели - массивом правил и определенным словарем. (6) На каждом из уровней предложение имеет формальный образ, именуемый в дальнейшем его структурой - морфологической (МорфС), синтаксической (СинтС) и семантической (СемС). (7) Синтез представляет собой обратный переход от СемС предложения к его записи в обычном орфографическом виде. Структура лингвистического процессора представлена на рисунке 1. (8) Под морфологической структурой понимается последовательность входящих в анализируемое предложение слов с указанием части речи и морфологических характеристик (падежа, числа, рода, одушевленности, вида и т.п.). (9) Под синтаксической структурой понимается дерево зависимостей, в узлах которого стоят слова данного естественного языка с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка отношениям между словами. (9а) Под семантической структурой понимается граф, в узлах которого стоят понятия, соответствующие словам предложения, а дуги соответствуют семантическим отношениям между понятиями (например, предикатная структура). Рис. 2.1. Структура лингвистического процессора (10) ЛП в целом должен обеспечивать выполнение следующих преобразований: предложение на ЕЯ ⇒ МорфС ⇒ СинтС ⇒ СемС (при анализе) СемС ⇒ СинтС ⇒ МорфС ⇒ предложение на ЕЯ (при синтезе) (11) Таким образом, чтобы построить ЛП, необходимо разработать: ‒ формальные языки для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления; ‒ формальное понятие структуры предложения для каждого из этих уровней; ‒ массивы правил для преобразования структур смежных уровней друг в друга; ‒ морфологический, синтаксический и семантический словари, включив в них всю информацию о каждой лексеме, необходимую для осуществления соответствующего преобразования. (12) Цель анализа предложения на естественном языке - перевод их на М-язык вычислительной системы. Функциями анализатора являются: ‒ распознавание правильно построенных предложений ЕЯ; ‒ фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте; ‒ декомпозиция предложения на составляющие (фрагменты) и построение соответствующей синтаксической структуры предложения; ‒ семантическая интерпретация фрагментов ЕЯ-предложения фрагментами М- языка; ‒ композиция фрагментов М-языка в структуру, описывающую прагматическую ситуацию предметной области. Реализация этих функций осуществляется на этапах морфологического и синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих моделях ЛП два последних этапа объединяются в один этап семантического анализа. (13) В большинстве случаев вместо полного синтеза используется синтез по шаблонам. Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений, относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для каждого типа разработать шаблон, который заполняется при обращении к пользователю. (14) Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из следующих этапов: ‒ разбиение текста М-языка на фрагменты, соответствующие будущим фразам; ‒ определение лексем для синтезируемой фразы; ‒ построение синтаксической структуры фразы; ‒ приписывание морфологической информации вершинам синтаксической структуры фразы; ‒ определение порядка слов; ‒ осуществление морфологического синтеза лексем.