Извлечение информации
Источниками информации могут являться данные, знания, документы. Источниками данных в любой предметной области являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая предметная область рассматривается в виде трех представлений (рис. 7.1).
Непосредственно в процессе извлечения информации можно выделить следующие фазы:
§ накопление системное или бессистемное (стихийное) накопление информации в рамках предметной области;
Рис. 7.1. Предметная область в виде трех представлений
§ структурирование выделение основных понятий, выработка структуры представления информации, обладающей максимальной наглядностью, простотой изменения и дополнения;
§ формализация представление структурированной информации в форматах машинной обработки, т.е. на языках описания данных и знаний;
§ обслуживание корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям.
По аналогии с добычей полезных ископаемых процесс извлечения информации направлен на получение наибольшей ее концентрации. В связи с этим процесс извлечения можно представить как ее прохождение через трехслойный фильтр, в котором осуществляется оценка синтаксической ценности (правильность представления), семантической (смысловой) ценности, прагматической (потребительской) ценности.
При извлечении информации важное место занимают различные формы и методы исследования данных:
§ нахождение ассоциаций, связанных с привязкой к какому-либо событию;
§ нахождение последовательностей событий во времени;
§ нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);
§ оценка влияния (важности) параметров на события и ситуации;
§ классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной классификационной категории;
§ кластеризация, основанная на группировании объектов по каким-либо признакам;
§ прогнозирование событий и ситуаций.
Следует упомянуть неоднородность (разнородность) информационных ресурсов, характерную для многих предметных областей. Одним из путей решения данной проблемы является объектно-ориентированный подход, наиболее распространенный в настоящее время. Кратко рассмотрим его основные положения.
Декомпозиция на основе объектно-ориентированного подхода основана на выделении таких основных понятий, как: объект, атрибут, экземпляр, класс.
Объект — абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами поведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой объекта является состав его атрибутов (свойств).
Атрибуты —- специальные объекты, посредством которых можно задать правила описания свойств других объектов.
Экземпляр — конкретный определенный элемент множества. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта — конкретный номер К 173 ПА.
Класс — это множество предметов реального мира, связанных общностью структуры и поведением. Элемент класса — это конкретный элемент данного множества. Например, класс регистрационных номеров автомобиля.
Обобщая эти определения, можно сказать, что объект — это типичный представитель класса, а термины «экземпляр объекта» и «элемент класса» равнозначны. На рис. 7.2 показаны отношения между классами, объектами и предметами реального мира.
Важная особенность объектно-ориентированного подхода связана с понятием инкапсуляции, обозначающим сокрытие данных и методов (действий с объектом) в качестве собственных ресурсов объекта.
Рис. 7.2. Отношения между классами, объектами и предметами реального мира
Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает определение новых классов объектов на основе базовых классов.
Полиморфизм интерпретируется как способность объекта принадлежать более чем одному типу. Наследование выражает возможность определения новых классов на основе существующих с возможностью добавления или переопределения данных и методов.
Для уменьшения избыточности используется процесс обогащения информации, например, при хранении в компьютере списка сотрудников организации иногда достаточно использовать первые 3—4 буквы их фамилий.
Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.
Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.
При статистическом обогащении осуществляют накопление статистических данных, обработку выборок из генеральных совокупностей накопленных данных.
Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость.
Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.
Развитие методов и средств извлечения информации направлено на стандартизацию и унификацию. Характерным примером является создание и внедрение технологий Data Mining и Text Mining.
Data Mining (в буквальном переводе с английского «добыча данных») — это направление в информационных технологиях, которое связано с автоматизированным извлечением знаний (неявным образом присутствующих в обрабатываемой информации) и базируется на интеллектуальном анализе данных.
В основе современной технологии Data Mining лежит концепция шаблонов, отражающих различные фрагменты взаимоотношений в данных. Важное свойство методов Data Mining — нетривиальность обнаруживаемых шаблонов, которые должны отражать неочевидные, ранее неизвестные регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge), и изменения клиентуры, выявления мошенничества с кредитными карточками.
Методы Data Mining позволяют выделить следующие типы закономерностей:
§ последовательность (например, после события А в течение определенного интервала времени с большой вероятностью следует событие Б);
§ связь между событиями (например, события А и Б с большой вероятностью осуществляются одновременно);
§ классификация (объекты относятся к одной из групп с относительно постоянными характеристиками);
§ кластеризация (отличается от классификации тем, что сами группы заранее не задаются и выделяются непосредственно в процессе анализа);
§ прогноз построение временных рядов, отражающих динамику поведения целевых показателей.
Text Mining является разновидностью Data Mining, ориентированной на обработку текстовой информации и широко применяемой для мониторинга ресурсов Internet. Задача Text Mining проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining, как:
§ реферирование текстов на естественном языке;
§ классификация (тематическое индексирование) текстовых документов;
§ кластеризация текстовых документов и их фрагментов;
§ построение онтологии текстового документа (основных терминов и связей между ними), например, семантической сети:
§ визуализация полученных знаний.
В настоящее время сеть Internet становится одним из основных поставщиков информации. Объем Сети неуклонно растет, пополняясь не только персональными страничками, но и переведенными в электронный вид различными базами знаний, например: фонды библиотек, музеев искусств, электронные версии бумажной прессы. Помимо оцифрованных изданий свою лепту в рост Сети вкладывают и Internet-порталы различных тематик, объем информации которых уже превышает сотни гигабайт.
Поиск информации в сети Internet сопряжен с целым рядом технических проблем. Среди них: различные форматы представления документов, работа со слабоструктурированной информацией, необходимость обработки документов на разных языках и учет языковых особенностей, большие и быстрорастущие массивы информации, необходимость высокой скорости поиска документов и навигационные методы.
Существует широкий спектр методов поиска информации в сети Internet на основе информационно-поисковых систем (ИПС), которые можно подразделить на два основных класса (рис. 7.3): поисковые машины и поисковые каталоги. Рассмотрим их основные достоинства и недостатки.
Серверная поисковая машина — программно-аппаратный комплекс высокой производительности, нацеленный на обслуживание множества клиентов одновременно, обеспечивает малое время отклика и обработки запроса. Программное обеспечение (ПО), установленное на сервере, обычно использует все современные возможности поиска информации в силу высоких аппаратных характеристик сервера.
Клиентская поисковая машина, или интеллектуальный агент, — ПО, предназначенное для поиска информации и установленное на компьютере клиента либо загруженное из сети и работающее на стороне клиента. По сравнению с серверным вариантом является более узкоспециализированным (ищет ссылки только в определенном секторе Сети), менее быстрым, но при этом более гибким в настройке. В ближайшем будущем появятся агенты, адаптирующиеся к кругу интересов пользователя (например, с помощью нейросетевых или других алгоритмов) и добивающиеся поэтому лучших результатов в поиске. Такие интеллектуальные агенты смогли бы отправлять наиболее популярные ссылки своего владельца на основной поисковой сервер, что повысило бы качество поиска и серверной машины.
Рис. 7.3. Классификация информационно-поисковых систем
Поисковые машины обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность степень адекватности результатов поиска запросу пользователя). Решение данной проблемы заключается в применении прогрессивных методов искусственного интеллекта для обработки и анализа текстовой информации.
Поисковые каталоги ресурсов представляют собой иерархически организованные наборы резюме содержания информационных ресурсов. Каталоги позволяют пользователю, перемещаясь от общих понятий к более узким, найти ссылку на сайт с интересующей их информацией. Преимущество таких систем перед поисковыми машинами заключается в том, что база данных каталогов наполняется людьми, что приводит к высокой релевантности расположенных в них ссылок. Существуют каталоги двух типов: универсальные и тематические. Как показывает практика, хорошие тематические каталоги содержат больше информации по своей тематике, чем универсальные каталоги. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.
Объем базы данных каталогов сравнительно невелик, скорость пополнения базы на порядок ниже, чем у автоматизированных поисковых машин. Также ниже и скорость поиска по каталогу.
Одним из способов устранения вышеизложенных недостатков каталогов, а также поисковых машин является их объединение в общую структуру. Это позволяет придать такой гибридной
структуре скорость поиска поисковых машин в сочетании с точностью (релевантностью) каталогов.
Рассмотрим процесс формирования информационных ресурсов и их представление в информационно-поисковой системе (ИПС). Общеизвестно, что документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак не согласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудиоинформация и вообще все, что есть в указанных выше хранилищах. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать.
Первая задача, которую должна решить информационно-поисковая система — это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием.
Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее техническим аспектом создания поискового аппарата информационно-поисковой системы.
Одним из наиболее важных факторов, влияющих на качество поиска, является метод внутреннего представления документов в поисковой машине. В традиционных системах есть понятие поискового образа документа (ПОД), что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву.
Обычно поиск информации в документах происходит путем сравнения терминов этих документов с терминами из запроса пользователя. В этих методах есть два существенных недостатка. Во-первых, обычно имеется много способов выражения данного понятия (с помощью синонимов), поэтому относящиеся к делу документы могут быть отвергнуты. Во-вторых, многие слова имеют множественное значение (полисемия), поэтому в результате работы программы могут быть получены ненужные документы. Эти два недостатка приводят к тому, что методы, основанные на сравнении терминов, оказываются неприемлемыми для поиска ответа на запрос пользователя. Более эффективный подход должен позволить пользователю получить информацию с учетом смысла конкретного документа.
Существует ряд подобных методов, рассмотрим наиболее распространенные из них.
В основе лексического индексирования лежит булева модель. Запросы пользователя представляют собой некоторое логическое выражение, в котором ключевые слова соединены операторами AND, NOT или ANDNOT (редко).
При использовании этой модели индекс организуется в виде инвертированного файла, в котором для каждого термина из словаря коллекции хранится список документов, в которых этот термин встречается.
Данный тип индексирования достаточно хорошо распространен, но при этом имеет существенные недостатки. Так как поиск ведется с помощью логических объединений/пересечений документов, в которых имеются ключевые слова, то результат поиска является полностью бесконтекстным, что сильно понижает его релевантность.
Векторная модель, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл, — является наиболее популярной моделью. В данной модели запрос пользователя, так же как и документы, представляются в виде вектора в базисе слов словаря. Наиболее релевантными считаются те документы, углы векторов которых с вектором запроса минимальны. Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или О, в зависимости от наличия термина в ПОД документа или его отсутствия. В более сложных моделях термины взвешиваются, т.е. элемент вектора равен не 1 или 0, а некоторому числу, которое отражает соответствие данного термина документу. Именно эта модель наиболее популярна в информационно-поисковых системах Internet.
Вероятностное индексирование обусловливает соответствие каждого слова его весу в документе. Это приводит к значительному повышению качества поиска в сравнении с лексическим и векторным индексированием.
Скрытое семантическое индексирование базируется на экономном сингулярном разложении матриц, которое позволяет выявить скрытые семантические связи при обработке большой коллекции документов.
Теоретическая эффективность метода намного выше лексического или векторного индексирования, но из-за его высоких требований к вычислительным возможностям сервера применение его затруднено.
Использование моделей семантического анализа (MSA) является попыткой преодолеть проблемы сравнения терминов с использованием статистически полученных смысловых параметров вместо отдельных слов. В методе MSA предполагается, что в каждом образце текста имеется некоторая внутренняя скрытая структура, которая не совсем ясна ввиду возможного использования синонимов. Эта структура фиксируется матрицей терминов и документов, которая представляет собой разреженную (т.е. имеется сравнительно немного ненулевых элементов) матрицу строения m x n, получаемую грамматическим анализом текста. Для анализа структуры использования слов в документах используется сингулярное разложение (SVD). Поиск документов может быть осуществлен путем использования А; наибольших сингулярных значений и соответствующих сингулярных векторов, где k<=min(m,n). Проведенный анализ показывает, что сингулярные векторы в действительности являются более надежными показателями смысла, чем отдельные слова. SVD является наиболее распространенным примером двустороннего (или полного) ортогонального разложения, в котором матрица представляется в виде произведения трех других матриц: ортогональной, средней и еще одной ортогональной. Средняя матрица — это нижне- (верхне-) трапециевидная или диагональная. Однако среди двусторонних ортогональных разложений, которые могут быть использованы для поиска информации, более эффективным является применение метода MSA. Важным преимуществом данного метода является меньшее количество вычислений по сравнению с SVD. Основные вычислительные преимущества MSA над другими методами заключаются в оригинальном подходе к добавлению информации в базу данных. Основная идея в заключается в том, чтобы явно смоделировать взаимосвязи между терминами (через двустороннее ортогональное разложение) и использовать их душ улучшения поисковой системы.
Новой парадигмой построения поисковых механизмов является применение систем нейронных сетей (Neural Network System) и онтологии для поиска документов по запросам пользователей в коллекциях и при объединении результатов поиска серверами запросов. При кластеризации локальной коллекции в фоновом режиме профайлы, представляющие локальную коллекцию, становятся входными данными для нейронной сети. Нейронная сеть затем строит кластерное дерево: несколько кластеров верхнего уровня, группу субкластеров для каждого из кластеров верхнего уровня и так далее до отдельных документов. Для осуществления поиска в коллекции посредством запросов каждый кластер представлен документом, наиболее близко находящимся к центроиду кластера (cluster centroid) в векторном пространстве профайлов. Таким образом, профайл заданного запроса необходимо сравнить только с профайлами кластерного центроида. Это в значительной степени увеличивает скорость обработки запросов. Кроме этого нейронные сети могут использоваться для кластеризации результатов поиска, поступивших в ответ на запрос от нескольких серверов. Главная задача кластеризации — выдать пользователю репрезентативный набор результатов, если общее результирующее число документов превышает «порог», заданный пользователем.
Известны два типа архитектуры нейронных сетей: RCL (Radius-based Competitive Learning — основанная на радиусе, обучающаяся, соревновательного типа), и ее иерархическое расширение, называемое HRCL (Hierarchical Radius-based Competitive Learning — иерархическая, основанная на радиусе, обучающаяся, соревновательного типа). В их основе лежит идея о том, что после каждого введения в систему входного вектора все нейроны упорядочиваются по их расстоянию до точки текущего ввода. Самый близкий к текущему вводу RCL нейрон становится победителем, кроме этого RCL адаптирует все остальные нейроны из нейронного набора.
Высокая производительность и универсальность подсистемы нейронных сетей дает все основания для предположения о том, что она будет играть значительно большую роль в поисковых системах.
В настоящий момент наметилась тенденция к стандартизации описания структурированных, неструктурированных и полуструктурированных текстов с помощью XML-технологии, что позволяет наметить пути к созданию единой технологии их обработки.
Представление данных как XML- документов является естественным, поскольку они получаются из реальных документов. Представлять данные как документы привычнее и понятнее, чем представлять их как реляционные таблицы. Реляционная таблица, в лучшем случае, отдельный фрагмент документа. Неестественность табличного представления легко прочувствовать вначале при проектировании реляционных баз данных, когда из набора имеющихся документов происходит вычленение сущностей, и затем при подготовке отчета, когда из этих же сущностей вновь создаются документы. Манипулировать данными с использованием такой естественной для человека (но логически избыточной!) сущности как «связь» также привычнее и понятнее, чем со ссылочными ключами, которые в реальных документах встречаются редко.
IBM разрабатывает базирующуюся на XML систему поиска данных — UIMA (архитектура управления неструктурированной информацией), которая, как предполагается, значительно расширит возможности средств поиска, применяемых в базах данных. По замыслу UIMA — это нечто, что становится частью базы данных или, скорее, тем, к чему базы данных обращаются, при этом появляется возможность «обдумывать» что-нибудь почти непрерывно. Это значительно изменит автоматизированные или человеко-машинные системы. Например, предполагается, что станет реальностью автоматический перевод с языка на язык и работа с естественными языками.
В основе UIMA лежит теория сочетания гипотез (Combination Hypothesis), которая утверждает, что в ближайшем будущем появится возможность объединить статистическое обучение машины — вроде того, которое использует поисковый сайт Google для интеллектуального ранжирования данных, — синтетический искусственный интеллект и другие методы. Между тем XML обеспечивает простой способ обмена данными и их классификации, что облегчает использование искусственного интеллекта в вычислительной среде. По мнению представителей IBM, благодаря появлению XML за ближайшие три года индустрия баз данных изменится сильнее, чем за предыдущие двадцать лет. По сути, искусственный интеллект будет функционировать как фильтр. Датчики собирают информацию о внешнем мире и передают ее в компьютер, который выполняет надлежащие действия, беспокоя владельца лишь в случае крайней необходимости. Если нужно найти что-то в Web, человек делает запрос, а компьютер помогает ему уточнить его таким образом, чтобы вышло не 14 страниц списка потенциальных Web-сайтов, а только требуемая информация. В такой ситуации ключевой проблемой является задача быстрого и максимально эффективного поиска, т.е. такого поиска информации, который позволит за минимальное время найти по запросу пользователя наиболее релевантные (подходящие) ресурсы. В настоящее время для решения этой проблемы пытаются применить механизм онтологии.
Онтологии используются для систематизации данных на корпоративном портале индексации и обеспечения удобного поиска: несмотря на то, что многие крупные организации имеют собственную таксономию для организации внутренней информации, этого обычно недостаточно. Простая классификация сильно ограничивает возможности поиска и индексации, поскольку многие документы могут подпадать под разные категории, поэтому поиск но различным критериям будет намного эффективней, чем обычный поиск по ключевым словам.
Семантическая сеть — развитие концепции существующей глобальной сети. Всей информации в ней придается четко определенное значение, что позволяет компьютерам и людям осуществлять совместную работу с гораздо большей эффективностью. Чтобы придать информации четко определенное значение, нужно, в частности, создать язык онтологии, т.е. общий набор терминов, которые используются для описания и представления объектов в Internet. Именно для этого и создается язык OWL (Ontology Wen Language), разработку которого одобрил консорциум W3C. Новый язык поможет запустить автоматизированные инструменты для глобальной сети нового поколения, предлагая такие усовершенствованные услуги, как более точный Web-поиск, интеллектуальные программные агенты и управление знаниями.
Сегодня на переднем крае разработок в сфере Internet-стандартов находится Семантическая сеть (Semantic Web, согласно терминологии консорциума W3C), архитектура которой предполагает наличие у любой информации, находящейся в сети, связанного с этой информацией точного смысла, который нельзя было бы перепутать даже в случае совпадения фраз или слов, встреченных в разных контекстах. Фактически это означает, что любая информация связана с некоторым неотделимым от нее контекстом. Семантическая сеть активно использует язык
XML для определения собственной структуры документов и язык RDF (Resource Definition Framework). предоставляющий удобную среду формализации метаданных и сведений о контексте. RDF создан консорциумом W3C и предназначен для описания метаданных, является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. Однако RDF это самый низкоуровневый из существующих языков описания метаданных, поскольку оперирует лишь понятиями связей примитивных сущностей, например. «объект А владеет субъектом В». Со временем разработчикам Семантической сети стало очевидно, что средств XML и RDF для представления информации и метаданных для построения полноценной семантически связанной сети недостаточно. RDF подобен ассемблеру, если сравнивать семантическую нагрузку отдельных конструкций языка, и слишком сложен для решения задачи подобного масштаба. Чистый XML, в свою очередь, являясь метаязыком, включает в себя RDF как подмножество. и не создан для какого-либо конкретного применения, а потому для построения семантической сети его также недостаточно. Поэтому консорциумом W3C и был создан язык онтологии OWL (Web Ontology Language).
Онтология определяет термины, с помощью которых можно описать предметную область. Использование онтологии особенно необходимо в приложениях-агентах, осуществляющих поиск и объединение информации из различных источников и из разных сред, в которых один и тот же термин может означать разные вещи. Несмотря на то, что DTD (Document Type Definition, формальное описание структуры XML-документов) в стандарте XML и схем XML (XML Scheme) вполне достаточно для обмена данными между сторонами, которые заранее договорились о значении определений и терминов, отсутствие семантики в указанных средствах описания структуры серьезно ограничивает надежность выполнения задачи поиска и объединения данных при использовании новых XML-словарей. Например, элемент <Rate>, встретившийся индексатору в разных документах, может означать либо курс рубля, либо оценку за экзамен, либо цену товара, или что-нибудь еще. И без точной информации о том, что именно в конкретном документе имеется в виду под этим элементом, поисковый агент не сможет со стопроцентной вероятностью вернуть именно то. что и требовалось пользователю.
Практически любой пользователь сети хотя бы раз сталкивался с ситуацией, когда при поиске интересующей его информации он помимо прочего получал от поисковой машины множество бесполезных ссылок. Поскольку поиск информации осуществляется вне контекста, никакие уточнения запросов не смогут надежно найти именно то, что нужно. Для качественного осуществления поиска пользователю необходимо понимать все тонкости предметной области, включая ее лексику, термины, определения, иерархии сущностей — одним словом, досконально знать онтологию. Хорошо, если пользователь является экспертом предметной области, хотя даже в этом случае будет найдена лишняя информация, а что делать обычным пользователям? Язык OWL призван упростить процесс поиска, возложив необходимость знания предметной области и описание контекста поиска полностью на авторов документа и систему поиска, причем передача этих функций авторам документа должна быть незаметна для пользователя.