Рассматривая методы приобретения знаний, будем использовать следующие термины: извлечение, получение, формирование, приобретение знаний и обучение БЗ. Определим сущность указанных терминов. Под извлечением знаний будем понимать процесс приобретения материализованных знаний из текстологических источников информации с помощью некоторой совокупности методов и процедур, позволяющих переходить от знаний в текстовой форме к их аналогам для ввода в базу знаний СИИ. Получение знаний - это процесс приобретения вербализуемых и невербализуемых знаний эксперта, основанный на использовании непосредственно им самим или инженером по знаниям приемов, процедур, методов и инструментальных средств.
Формирование знаний - это процесс автоматического приобретения (порождения) системой искусственного интеллекта или инструментальным средством нового и полезного знания из исходной и текущей информации, которое в явном виде не формируют эксперты, с целью освоения новых процедур решения прикладных задач на основе использования различных моделей машинного обучения.Под приобретением знаний будем понимать процесс, основанный на переносе знаний из различных источников в базу знаний путем использования различных методов, моделей, алгоритмов и инструментальных средств.
Понятие „получение знаний“ к понятиям извлечение, приобретение, формирование знаний находятся в соотношении „часть целое“.
Обучение базы знаний - это процесс ввода (переноса) приобретенных знаний в СИИ на основе применения совокупности методов, приемов и процедур с целью ее заполнения, расширения и модификации. Термин „обучение“ рассматривается как свойство БЗ, как совокупность методов, приемов и процедур ввода знаний в БЗ и как процесс переноса знаний в СИИ.
Большинство методов извлечения и получения знаний основаны на прямом диалоге с экспертом.
Методы извлечения знаний
Методы извлечения знаний состоят из текстологических методов и методов автоматической обработки текстов.
Текстологические методы предназначены для получения инженером по знаниям знаний из материализованных источников, в качестве которых выступают монографии, учебники, статьи, методики, инструкции и другие носители профессиональных знаний. Текстологические методы, несмотря на их простоту и тривиальность, являются наименее разработанными. Эти методы основываются на выявлении и понимании не только смысла текста, но и выделения базовых понятий и отношений, то есть формировании семантической (понятийной) структуры ПрО.
Процесс понимания является сложным и неформализуемым, на который существенно влияют когнитивный стиль инженера по знаниям и его интеллектуальные характеристики. В инженерии знаний разработана методика анализа текстов с целью извлечения и структурирования знаний. Методика предусматривает овладение инженером по знаниям микроструктурой текста, вычленение ключевых слов (компрессию или сжатие текста) и последующее формирование поля знаний.
Сжатие текста служит методологической основой для использования текстологических процедур извлечения знаний. Текстологические методы являются самыми трудоемкими и применяются, как правило, на начальном этапе создания СИИ.
Значительное развитие получили методы извлечения знаний при применении современных информационных технологий, в частности гипертекстовой технологии.
Гипертекст - это организация нелинейной последовательности записи и чтения информации, объединенной на основе ассоциативной связи. Представляет интерес синтез этой концепции и полиморфизма, приводящий к новой концепции гипермедиа, в рамках которой между информацией, представленной в различной форме (текстовой, графической и других), организуются ассоциативные связи.
Эти новые концепции работы со знаниями создают предпосылки для решения проблемы эффективности процесса приобретения знаний.
Усилия исследователей в области инженерии знаний направлены на создание формальных методов извлечения знаний. К их числу можно отнести метод автоматической обработки текстов на основе статистической обработки семантических единиц. Метод и программные средства автоматизированного извлечения знаний из текстов базируется на формальных процедурах обнаружения в текстах семантических единиц различной выраженности.
Семантические единицы получаются на основе статистической обработки текстов, в основе которых лежат универсальные механизмы определения частотных характеристик терминов. Задача извлечения знаний решается в два этапа: сначала формируется терминологическая сеть (поле знаний), а затем определяется ассоциативная близость терминов на основе статистически определенной меры ассоциации. Достоинство рассмотренного метода состоит в автоматическом выявлении значимых слов и связей с учетом статистической информации о гипертексте в целом.
Указанные новые подходы к автоматизации извлечения знаний пока находятся на стадии исследований и не нашли применения в практике создания СИИ. Однако, результаты исследований позволяют надеяться на создание эффективных методов и СИИ, позволяющих снизить трудозатраты при извлечении знаний на начальном этапе синтеза баз знаний СИИ.