Пока ПК, обладающие возможностью обрабатывать письменные тексты и устную речь, имеют в памяти ограниченные конкретной предметной областью базы знаний.
База знаний – определённым образом организованные лингвистические и нелингвистические данные и правила их обработки.
Речемыслительная деятельность человека – очень сложный и неизученный до конца процесс, поэтому сегодня нельзя говорить о его полном моделировании на ПК.
Существующие экспериментальные промышленные системы обработки текста и речи созданы с учётом наложения определённых ограничений на их функционирование. Созданы для решения частных задач.
Компьютерные системы понимания связного текста:
Проблема понимания текста ПК находится на начальный стадии изучения. Разные точки зрения на эту проблему, разные уровни понимания, построены различные системы понимания текста. Наиболее сложным для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц, так как в ПК должны храниться большие базы данных об окружающем мире. Более простые – тексты с описанием объектов статического мира. Понимание в таких системах трактуется как извлечение из текста наиболее существенной информации. Полученная в результате информация может пополнить базу данных ПК или быть отправлена пользователю.
Под передачей пользователю понимают способность ПК отвечать на вопросы пользователя относительно событий в тексте не в виде слов иди предложений, а в виде связного текста. Согласно современным теориям автоматического понимания текста ПК понял текст, если он может:
1) Кратко изложить его содержание;
2) Отвечать на вопросы к этому тексту;
3) На основе текста создать картинку\схему и т.д.;
4) Приведённые в тексте сведения представить в иной форме (таблицы, графика);
5) На основе анализа текста на одном языке выдать адекватную информацию на другом языке;
6) Сравнить содержание двух разных текстов и выдать информацию об их сходствах и различиях;
7) Путём анализа одного или нескольких текстов извлечь некие знания, которые можно было бы поместить в базу данных.
Уровни понимания письменного текста (выделяются при соотнесении с основными уровнями языка):
а) Морфологический – сводится к автоматическому приписыванию каждому слову его морфологических характеристик (наиболее освоенный вид понимания текста), в последние годы стал легко реализовываться в рамках лексико-грамматического анализа корпусов текстов;
б) Синтаксический – суть в автоматическом выделении в каждом предложении текста членов и установлении между ними различных типов связей;
в) Семантический – в процессе автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложений. ПК определяет, выражаются ли подлежащее одуш.\неодущ. Существительным, сказуемое глаголом движения\чувств, обстоятельство времени/места. Подобные процедуры идут с опорой на окружение слова.
г) Гиперсинтаксический (прагматический) – выяснение семантических отношений между предложениями текста и выявлением соответствующей тексту ситуации реальной действительности.
Вопрос 23.
ПК, понимающий письменный текст, должен иметь в своей базе данных:
1) Знания о языке текста;
2) Правила использования этих знаний;
3) Знания о реальном мире (конкретной предметной области);
4) Правила использования знаний о фрагменте реального мира;
5) Знания о пользователе, желающем от ПК понимания текста.
Типы автоматического понимания:
1) Понимание-узнавание (в ПК есть лишь знания о языке) – суть в том, что ПК узнаёт морфологическую структуру каждого слова, проводит синтаксический анализ каждого предложения, узнаёт в исходном тексте ключевые слова, словосочетания и предложения);
2) Понимание уподобление (ПК имеет знания о языке и правила их использования, считается, что система поняла текст, если она может ответить на вопросы по нему) – суть в нахождении готового ответа своей базе данных, ранее данных человеком, так как она уподобляется человеку;
3) Понимание-прогнозирование (ПК ориентированы на понимание текстов узкой специальности, должны иметь знания о языке, правилах их использования и предметной области.) - считается, что система поняла текст, если может определить, какой объект или событие предметной области соответствует фрагментам текста. Однако одним и тем же фрагментам текста могут соответствовать разные объекты, поэтому их соотношение можно определить лишь с определённой долей вероятности. Отсюда и прогнозирование).
4) Понимание-объединение (в базе данных системы 4 вида вышеназванных знаний) – объединяя эти виды знаний, ПК должен уметь делать выводы, умозаключения по тексту, и объяснять, почему она сделала такой вывод (работа экспертных систем);
5) Понимание-объяснение (в ПК есть все 5 видов вышеназванных знаний) – ПК должен уметь объяснить пользователю, как она поняла текст. Так как система должна дать ответ любому пользователю с учётом уровня его образования, используется диалог «ПК->пользователь».
Сегодня проблема автоматического понимания текста реализована в:
1) Автоматических системах реферирования и аннотирования и перевода текста;
2) Информационных и информационно-поисковых системах;
3) Экспертных системах.
Вопрос 24.
Системы автоматического порождения письменного текста:
Занимаются с 70-х, однако нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:
1) Создатели диалоговых систем под текстом понимают любую реплику из нескольких слов;
2) Создатели систем генерации метеосводок или статистических отчётов понимают под текстом некоторую таблицу;
3) Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту.
Этапы порождения текста:
1) Стратегический (решение, что писать) – результат: семантическое представление будущего текста;
2) Тактический (решение, как писать) – результат: собственно текст в языковой форме.
Виды компьютерных систем порождения текста:
1) Системы, работающие на основе шаблонных технологий (строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками; просты и надёжны, находят широкое промышленное применение; содержание порождённого текста представляется в виде фрагментов текстов, созданных ранее людьми, поэтому выглядит естественно, однако работает только с жёсткими типами текстов);
2) Системы, работающие на основе лингвистически мотивированных технологий (для создания текста системе нужны сложные знания структуры содержания создаваемого текста и сложные лингвистические знания, которые позволяют выразить содержание языковыми средствами; промышленных систем такого рода нет).
Вопрос 25.
Общая структура системы порождения письменного текста:
а) Оболочка: определяет назначение порождающей системы (диалог, сказка, стих и т.д.), содержит базу данных из 2 частей:
- Нелингвистическая (понятия, связи, отношения между понятиями конкретной предметной области);
- Лингвистическая (формализованные сведения о конкретном языке):
a. Списки морфем;
b. Слова с лексикой;
c. Синтаксические структуры предложения;
d. Семантико-синтаксические структуры абзацев и всего текста;
б) Планировщик выполняет функции:
- Определяет ту информацию, которая должна быть в тексте;
- Определяет, как она будет представлена;
- Определяет порядок следования абзацев;
- Устанавливает порядок следования синтаксических составляющих в пределах текста;
- Осуществляет языковое оформление взаимосвязи предложений в тексте;
- Осуществляет построение синтаксических структур предложений текста;
- Осуществляет выбор соответствующей лексики.
в) Лингвистический реализатор обеспечивает грамматическую правильность текста и принимает все окончательные грамматические и морфологические решения.
Вопрос 26.