Поскольку процесс общения инженера по знаниям и эксперта – это языковое общение, рассмотрим лингвистический аспект инженерии знаний. Выделим три слоя важных для инженерии знаний лингвистических проблем (рис. 17.5).
Рис. 17.5. Структура лингвистического аспекта извлечения знаний
Проблема общего кода
Большинство психологов и лингвистов считают, что язык – это основное средство мышления наряду с другими знаковыми системами "внутреннего пользования". Языки, на которых говорят и размышляют аналитик и эксперт, могут существенно отличаться.
Итак, нас интересуют два языка – язык аналитика, состоящий из трех компонентов:
терминов предметной области, которые он почерпнул из специальной литературы в период подготовки;
общенаучной терминологии из его "теоретического багажа";
бытового разговорного языка, которым пользуется аналитик;
и язык эксперта, состоящий:
из специальной терминологии, принятой в предметной области;
общенаучной терминологии; бытового языка;
неологизмов, созданных экспертом за время работы (его профессиональный жаргон).
Если считать, что бытовой и общенаучный языки у двух участников общения примерно совпадают, то некоторый общий язык, или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из потоков, представленных на рис. 17.6. В дальнейшем этот общий код преобразуется в некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области.
Рис. 17.6. Схема получения общего кода
Выработка общего кода начинается с выписывания аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следуют группировка терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, т.е. по понятийной близости (это уже первый шаг структурирования знаний).
Рис. 17.7 дает представление о неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает "знак" и "означаемый предмет". Только в интерпретации знак получает смысл. Так, на рис. 17.7 слова "прибор X" для эксперта означают некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова "прибор X" вызывают пустой образ или некоторый "черный ящик" с ручками.
Рис. 17.7. Неоднозначность проблемы интерпретации
Понятийная структура
Большинство специалистов по искусственному интеллекту и когнитивной психологии считают, что основная особенность естественного интеллекта и памяти в частности – это связанность всех понятий в некоторую сеть. Поэтому для разработки базы знаний нужен не словарь, а энциклопедия, в которой все термины объяснены в словарных статьях со ссылками на другие термины.
Таким образом, лингвистическая работа инженера по знаниям на данном слое проблем заключается в построении таких связанных фрагментов с помощью "сшивания" терминов. При тщательной работе аналитика и эксперта в понятийных структурах начинает проглядывать иерархия понятий, что в общем согласуется с результатами когнитивной психологии.
Иерархия понятий – это глобальная схема, которая может быть в основе концептуального анализа структуры знаний любой предметной области.
Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует лингвистического "чутья", легкости манипулирования терминами и богатого словарного запаса инженера по знаниям, так как зачастую аналитик вынужден самостоятельно разрабатывать словарь признаков. Чем богаче и выразительнее общий код, тем полнее база знаний.
Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной форме. Часто инженеру по знаниям приходится подсказывать слова и выражения эксперту.
Словарь пользователя
Лингвистические результаты, соотнесенные со слоями общего кода и понятийной структуры, направлены на создание адекватной базы знаний. Однако не следует забывать, что профессиональный уровень конечного пользователя может не позволить ему применить специальный язык предметной области в полном объеме. Для разработки пользовательского интерфейса необходима дополнительная доработка словаря общего кода с поправкой на доступность и "прозрачность" системы.
В заключение перечислим характерные лингвистические неудачи, подстерегающие начинающего инженера по знаниям:
разговор на разных языках (из-за слабой подготовки инженера по знаниям);
несоотнесение с контекстом и неадекватная интерпретация терминов (из-за отсутствия обратной связи, т.е. слишком независимой работы инженера по знаниям);
отсутствие отличий между общим кодом и языком пользователя (не учтены различия в уровне знаний эксперта и пользователя).
ГНОСЕОЛОГИЧЕСКИЙ АСПЕКТ