Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Лекция 7. Базовые информационные процессы, их характеристика и модели




Извлечение информации

 

Источниками информации могут являться данные, знания, документы. Источниками данных в любой предметной об­ласти являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая пред­метная область рассматривается в виде трех представлений (рис. 7.1).

Непосредственно в процессе извлечения информации можно выделить следующие фазы:

§ накопление системное или бессистемное (стихийное) на­копление информации в рамках предметной области;

 

Рис. 7.1. Предметная область в виде трех представлений

 

§ структурирование выделение основных понятий, выра­ботка структуры представления информации, обладающей мак­симальной наглядностью, простотой изменения и дополнения;

§ формализация представление структурированной инфор­мации в форматах машинной обработки, т.е. на языках описа­ния данных и знаний;

§ обслуживание корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей ин­формации, фильтрация данных и знаний для поиска информа­ции, необходимой пользователям.

По аналогии с добычей полезных ископаемых процесс из­влечения информации направлен на получение наибольшей ее концентрации. В связи с этим процесс извлечения можно пред­ставить как ее прохождение через трехслойный фильтр, в ко­тором осуществляется оценка синтаксической ценности (пра­вильность представления), семантической (смысловой) ценности, прагматической (потребительской) ценности.

При извлечении информации важное место занимают раз­личные формы и методы исследования данных:

§ нахождение ассоциаций, связанных с привязкой к какому-либо событию;

§ нахождение последовательностей событий во времени;

§ нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между зна­чениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

§ оценка влияния (важности) параметров на события и си­туации;

§ классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной классификаци­онной категории;

§ кластеризация, основанная на группировании объектов по каким-либо признакам;

§ прогнозирование событий и ситуаций.

Следует упомянуть неоднородность (разнородность) инфор­мационных ресурсов, характерную для многих предметных областей. Одним из путей решения данной проблемы является объектно-ориентированный подход, наиболее распространенный в настоящее время. Кратко рассмотрим его основные положе­ния.

Декомпозиция на основе объектно-ориентированного под­хода основана на выделении таких основных понятий, как: объект, атрибут, экземпляр, класс.

Объект — абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами по­ведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой объекта является состав его атрибутов (свойств).

Атрибуты —- специальные объекты, посредством которых можно задать правила описания свойств других объектов.

Экземпляр — конкретный определенный элемент множе­ства. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта — конкретный номер К 173 ПА.

Класс это множество предметов реального мира, связан­ных общностью структуры и поведением. Элемент класса — это конкретный элемент данного множества. Например, класс ре­гистрационных номеров автомобиля.

Обобщая эти определения, можно сказать, что объект — это типичный представитель класса, а термины «экземпляр объекта» и «элемент класса» равнозначны. На рис. 7.2 показаны отношения между классами, объектами и предметами реального мира.

Важная особенность объектно-ориентированного подхода связана с понятием инкапсуляции, обозначающим сокрытие данных и методов (действий с объектом) в качестве собственных ресурсов объекта.

Рис. 7.2. Отношения между классами, объектами и предметами реального мира

 

Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает опреде­ление новых классов объектов на основе базовых классов.

Полиморфизм интерпретируется как способность объекта принадлежать более чем одному типу. Наследование выражает возможность определения новых классов на основе существую­щих с возможностью добавления или переопределения данных и методов.

Для уменьшения избыточности используется процесс обо­гащения информации, например, при хранении в компьютере списка сотрудников организации иногда достаточно использо­вать первые 3—4 буквы их фамилий.

Среди методов обогащения информации различают струк­турное, статистическое, семантическое и прагматическое обо­гащения.

Структурное обогащение предполагает изменение параме­тров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслу­живания источников информации и требуемой точности.

При статистическом обогащении осуществляют накопление статистических данных, обработку выборок из генеральных со­вокупностей накопленных данных.

Семантическое обогащение означает минимизацию логиче­ской формы, исчислений и высказываний, выделение и класси­фикацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо переда­ваемую информацию и устранить логическую противоречи­вость.

Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отве­чающая целям и задачам пользователя.

Развитие методов и средств извлечения информации направ­лено на стандартизацию и унификацию. Характерным примером является создание и внедрение технологий Data Mining и Text Mining.

Data Mining (в буквальном переводе с английского «до­быча данных») — это направление в информационных технологиях, которое связано с автоматизированным извлечением знаний (неявным образом присутствующих в обрабатываемой информации) и базируется на интеллектуальном анализе дан­ных.

В основе современной технологии Data Mining лежит кон­цепция шаблонов, отражающих различные фрагменты взаимо­отношений в данных. Важное свойство методов Data Mining — нетривиальность обнаруживаемых шаблонов, которые должны отражать неочевидные, ранее неизвестные регулярности в дан­ных, составляющие так называемые скрытые знания (hidden knowledge), и изменения клиентуры, выявления мошенничества с кредитными карточками.

Методы Data Mining позволяют выделить следующие типы закономерностей:

§ последовательность (например, после события А в течение определенного интервала времени с большой вероятностью сле­дует событие Б);

§ связь между событиями (например, события А и Б с боль­шой вероятностью осуществляются одновременно);

§ классификация (объекты относятся к одной из групп с от­носительно постоянными характеристиками);

§ кластеризация (отличается от классификации тем, что сами группы заранее не задаются и выделяются непосредственно в процессе анализа);

§ прогноз построение временных рядов, отражающих ди­намику поведения целевых показателей.

Text Mining является разновидностью Data Mining, ориенти­рованной на обработку текстовой информации и широко при­меняемой для мониторинга ресурсов Internet. Задача Text Mining проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining, как:

§ реферирование текстов на естественном языке;

§ классификация (тематическое индексирование) текстовых документов;

§ кластеризация текстовых документов и их фрагментов;

§ построение онтологии текстового документа (основных терминов и связей между ними), например, семантической сети:

§ визуализация полученных знаний.

В настоящее время сеть Internet становится одним из основ­ных поставщиков информации. Объем Сети неуклонно растет, пополняясь не только персональными страничками, но и пере­веденными в электронный вид различными базами знаний, на­пример: фонды библиотек, музеев искусств, электронные версии бумажной прессы. Помимо оцифрованных изданий свою лепту в рост Сети вкладывают и Internet-порталы различных тематик, объем информации которых уже превышает сотни гигабайт.

Поиск информации в сети Internet сопряжен с целым рядом технических проблем. Среди них: различные форматы пред­ставления документов, работа со слабоструктурированной ин­формацией, необходимость обработки документов на разных языках и учет языковых особенностей, большие и быстрорасту­щие массивы информации, необходимость высокой скорости поиска документов и навигационные методы.

Существует широкий спектр методов поиска информации в сети Internet на основе информационно-поисковых систем (ИПС), которые можно подразделить на два основных класса (рис. 7.3): поисковые машины и поисковые каталоги. Рассмотрим их основные достоинства и недостатки.

Серверная поисковая машина — программно-аппаратный комплекс высокой производительности, нацеленный на обслу­живание множества клиентов одновременно, обеспечивает малое время отклика и обработки запроса. Программное обеспечение (ПО), установленное на сервере, обычно использует все совре­менные возможности поиска информации в силу высоких аппа­ратных характеристик сервера.

Клиентская поисковая машина, или интеллектуальный агент, — ПО, предназначенное для поиска информации и уста­новленное на компьютере клиента либо загруженное из сети и работающее на стороне клиента. По сравнению с серверным вариантом является более узкоспециализированным (ищет ссылки только в определенном секторе Сети), менее быстрым, но при этом более гибким в настройке. В ближайшем будущем появятся агенты, адаптирующиеся к кругу интересов пользова­теля (например, с помощью нейросетевых или других алгорит­мов) и добивающиеся поэтому лучших результатов в поиске. Такие интеллектуальные агенты смогли бы отправлять наиболее популярные ссылки своего владельца на основной поисковой сервер, что повысило бы качество поиска и серверной ма­шины.

Рис. 7.3. Классификация информационно-поисковых систем

 

Поисковые машины обеспечивают автоматическую индекса­цию большого количества документов, но не обладают разви­тыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевант­ность степень адекватности результатов поиска запросу пользователя). Решение данной проблемы заключается в при­менении прогрессивных методов искусственного интеллекта для обработки и анализа текстовой информации.

Поисковые каталоги ресурсов представляют собой иерархи­чески организованные наборы резюме содержания информаци­онных ресурсов. Каталоги позволяют пользователю, перемеща­ясь от общих понятий к более узким, найти ссылку на сайт с интересующей их информацией. Преимущество таких систем перед поисковыми машинами заключается в том, что база дан­ных каталогов наполняется людьми, что приводит к высокой релевантности расположенных в них ссылок. Существуют ка­талоги двух типов: универсальные и тематические. Как пока­зывает практика, хорошие тематические каталоги содержат больше информации по своей тематике, чем универсальные каталоги. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндекси­рованных документов, большими затратами средств на поддер­жание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Объем базы данных каталогов сравнительно невелик, ско­рость пополнения базы на порядок ниже, чем у автоматизиро­ванных поисковых машин. Также ниже и скорость поиска по каталогу.

Одним из способов устранения вышеизложенных недостатков каталогов, а также поисковых машин является их объединение в общую структуру. Это позволяет придать такой гибридной

структуре скорость поиска поисковых машин в сочетании с точностью (релевантностью) каталогов.

Рассмотрим процесс формирования информационных ресур­сов и их представление в информационно-поисковой системе (ИПС). Общеизвестно, что документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, за­писи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак не согласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудиоинформация и вообще все, что есть в указанных выше хранилищах. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать.

Первая задача, которую должна решить информационно-поисковая система — это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта проце­дура и называется индексированием.

Часто, однако, индексированием называют составление фай­ла инвертированного списка, в котором каждому термину ин­дексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее техническим аспектом создания по­искового аппарата информационно-поисковой системы.

Одним из наиболее важных факторов, влияющих на качество поиска, является метод внутреннего представления документов в поисковой машине. В традиционных системах есть понятие поискового образа документа (ПОД), что заменяет собой до­кумент и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву.

Обычно поиск информации в документах происходит путем сравнения терминов этих документов с терминами из запроса пользователя. В этих методах есть два существенных недостат­ка. Во-первых, обычно имеется много способов выражения данного понятия (с помощью синонимов), поэтому относящиеся к делу документы могут быть отвергнуты. Во-вторых, многие слова имеют множественное значение (полисемия), поэтому в результате работы программы могут быть получены ненужные документы. Эти два недостатка приводят к тому, что методы, основанные на сравнении терминов, оказываются неприемлемы­ми для поиска ответа на запрос пользователя. Более эффектив­ный подход должен позволить пользователю получить инфор­мацию с учетом смысла конкретного документа.

Существует ряд подобных методов, рассмотрим наиболее распространенные из них.

В основе лексического индексирования лежит булева модель. Запросы пользователя представляют собой некоторое логическое выражение, в котором ключевые слова соединены операторами AND, NOT или ANDNOT (редко).

При использовании этой модели индекс организуется в виде инвертированного файла, в котором для каждого термина из словаря коллекции хранится список документов, в которых этот термин встречается.

Данный тип индексирования достаточно хорошо распростра­нен, но при этом имеет существенные недостатки. Так как поиск ведется с помощью логических объединений/пересечений до­кументов, в которых имеются ключевые слова, то результат поиска является полностью бесконтекстным, что сильно пони­жает его релевантность.

Векторная модель, в которой каждому документу приписы­вается список терминов, наиболее адекватно отражающих его смысл, — является наиболее популярной моделью. В данной модели запрос пользователя, так же как и документы, пред­ставляются в виде вектора в базисе слов словаря. Наиболее релевантными считаются те документы, углы векторов которых с вектором запроса минимальны. Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или О, в зависимости от наличия термина в ПОД документа или его отсутствия. В более сложных моделях термины взвешиваются, т.е. элемент вектора равен не 1 или 0, а некоторому числу, которое отражает соответствие данного термина документу. Именно эта модель наиболее популярна в информационно-поисковых системах Internet.

Вероятностное индексирование обусловливает соответ­ствие каждого слова его весу в документе. Это приводит к значительному повышению качества поиска в сравнении с лек­сическим и векторным индексированием.

Скрытое семантическое индексирование базируется на экономном сингулярном разложении матриц, которое позволя­ет выявить скрытые семантические связи при обработке большой коллекции документов.

Теоретическая эффективность метода намного выше лекси­ческого или векторного индексирования, но из-за его высоких требований к вычислительным возможностям сервера примене­ние его затруднено.

Использование моделей семантического анализа (MSA) яв­ляется попыткой преодолеть проблемы сравнения терминов с использованием статистически полученных смысловых параме­тров вместо отдельных слов. В методе MSA предполагается, что в каждом образце текста имеется некоторая внутренняя скрытая структура, которая не совсем ясна ввиду возможного использования синонимов. Эта структура фиксируется матрицей терминов и документов, которая представляет собой разрежен­ную (т.е. имеется сравнительно немного ненулевых элементов) матрицу строения m x n, получаемую грамматическим анализом текста. Для анализа структуры использования слов в докумен­тах используется сингулярное разложение (SVD). Поиск до­кументов может быть осуществлен путем использования А; наи­больших сингулярных значений и соответствующих сингулярных векторов, где k<=min(m,n). Проведенный анализ показывает, что сингулярные векторы в действительности являются более надежными показателями смысла, чем отдельные слова. SVD является наиболее распространенным примером двустороннего (или полного) ортогонального разложения, в котором матрица представляется в виде произведения трех других матриц: орто­гональной, средней и еще одной ортогональной. Средняя ма­трица — это нижне- (верхне-) трапециевидная или диагональная. Однако среди двусторонних ортогональных разложений, кото­рые могут быть использованы для поиска информации, более эффективным является применение метода MSA. Важным преимуществом данного метода является меньшее количество вычислений по сравнению с SVD. Основные вычислительные преимущества MSA над другими методами заключаются в ори­гинальном подходе к добавлению информации в базу данных. Основная идея в заключается в том, чтобы явно смоделировать взаимосвязи между терминами (через двустороннее ортогональ­ное разложение) и использовать их душ улучшения поисковой системы.

Новой парадигмой построения поисковых механизмов явля­ется применение систем нейронных сетей (Neural Network System) и онтологии для поиска документов по запросам поль­зователей в коллекциях и при объединении результатов поиска серверами запросов. При кластеризации локальной коллекции в фоновом режиме профайлы, представляющие локальную коллекцию, становятся входными данными для нейронной сети. Нейронная сеть затем строит кластерное дерево: несколько кластеров верхнего уровня, группу субкластеров для каждого из кластеров верхнего уровня и так далее до отдельных доку­ментов. Для осуществления поиска в коллекции посредством запросов каждый кластер представлен документом, наиболее близко находящимся к центроиду кластера (cluster centroid) в векторном пространстве профайлов. Таким образом, профайл заданного запроса необходимо сравнить только с профайлами кластерного центроида. Это в значительной степени увеличи­вает скорость обработки запросов. Кроме этого нейронные сети могут использоваться для кластеризации результатов поиска, поступивших в ответ на запрос от нескольких серверов. Главная задача кластеризации — выдать пользователю репрезентативный набор результатов, если общее результирующее число докумен­тов превышает «порог», заданный пользователем.

Известны два типа архитектуры нейронных сетей: RCL (Radius-based Competitive Learning — основанная на радиусе, обучающаяся, соревновательного типа), и ее иерархическое рас­ширение, называемое HRCL (Hierarchical Radius-based Competitive Learning — иерархическая, основанная на радиусе, обучающая­ся, соревновательного типа). В их основе лежит идея о том, что после каждого введения в систему входного вектора все нейро­ны упорядочиваются по их расстоянию до точки текущего ввода. Самый близкий к текущему вводу RCL нейрон становит­ся победителем, кроме этого RCL адаптирует все остальные нейроны из нейронного набора.

Высокая производительность и универсальность подсистемы нейронных сетей дает все основания для предположения о том, что она будет играть значительно большую роль в поисковых системах.

В настоящий момент наметилась тенденция к стандартизации описания структурированных, неструктурированных и полуструк­турированных текстов с помощью XML-технологии, что позволя­ет наметить пути к созданию единой технологии их обработки.

Представление данных как XML- документов является есте­ственным, поскольку они получаются из реальных документов. Представлять данные как документы привычнее и понятнее, чем представлять их как реляционные таблицы. Реляционная таблица, в лучшем случае, отдельный фрагмент документа. Неестественность табличного представления легко прочувство­вать вначале при проектировании реляционных баз данных, когда из набора имеющихся документов происходит вычленение сущностей, и затем при подготовке отчета, когда из этих же сущностей вновь создаются документы. Манипулировать дан­ными с использованием такой естественной для человека (но логически избыточной!) сущности как «связь» также привычнее и понятнее, чем со ссылочными ключами, которые в реальных документах встречаются редко.

IBM разрабатывает базирующуюся на XML систему поиска данных — UIMA (архитектура управления неструктурированной информацией), которая, как предполагается, значительно рас­ширит возможности средств поиска, применяемых в базах данных. По замыслу UIMA — это нечто, что становится частью базы данных или, скорее, тем, к чему базы данных обращают­ся, при этом появляется возможность «обдумывать» что-нибудь почти непрерывно. Это значительно изменит автоматизирован­ные или человеко-машинные системы. Например, предполага­ется, что станет реальностью автоматический перевод с языка на язык и работа с естественными языками.

В основе UIMA лежит теория сочетания гипотез (Combination Hypothesis), которая утверждает, что в ближайшем будущем появится возможность объединить статистическое обучение машины — вроде того, которое использует поисковый сайт Google для интеллектуального ранжирования данных, — син­тетический искусственный интеллект и другие методы. Между тем XML обеспечивает простой способ обмена данными и их классификации, что облегчает использование искусственного интеллекта в вычислительной среде. По мнению представителей IBM, благодаря появлению XML за ближайшие три года инду­стрия баз данных изменится сильнее, чем за предыдущие двад­цать лет. По сути, искусственный интеллект будет функциони­ровать как фильтр. Датчики собирают информацию о внешнем мире и передают ее в компьютер, который выполняет надлежа­щие действия, беспокоя владельца лишь в случае крайней не­обходимости. Если нужно найти что-то в Web, человек делает запрос, а компьютер помогает ему уточнить его таким образом, чтобы вышло не 14 страниц списка потенциальных Web-сайтов, а только требуемая информация. В такой ситуации ключевой проблемой является задача быстрого и максимально эффектив­ного поиска, т.е. такого поиска информации, который позволит за минимальное время найти по запросу пользователя наиболее релевантные (подходящие) ресурсы. В настоящее время для решения этой проблемы пытаются применить механизм онто­логии.

Онтологии используются для систематизации данных на корпоративном портале индексации и обеспечения удобного поиска: несмотря на то, что многие крупные организации име­ют собственную таксономию для организации внутренней ин­формации, этого обычно недостаточно. Простая классификация сильно ограничивает возможности поиска и индексации, по­скольку многие документы могут подпадать под разные кате­гории, поэтому поиск но различным критериям будет намного эффективней, чем обычный поиск по ключевым словам.

Семантическая сеть — развитие концепции существую­щей глобальной сети. Всей информации в ней придается четко определенное значение, что позволяет компьютерам и людям осуществлять совместную работу с гораздо большей эффектив­ностью. Чтобы придать информации четко определенное зна­чение, нужно, в частности, создать язык онтологии, т.е. общий набор терминов, которые используются для описания и пред­ставления объектов в Internet. Именно для этого и создается язык OWL (Ontology Wen Language), разработку которого одо­брил консорциум W3C. Новый язык поможет запустить авто­матизированные инструменты для глобальной сети нового по­коления, предлагая такие усовершенствованные услуги, как более точный Web-поиск, интеллектуальные программные аген­ты и управление знаниями.

Сегодня на переднем крае разработок в сфере Internet-стандартов находится Семантическая сеть (Semantic Web, со­гласно терминологии консорциума W3C), архитектура которой предполагает наличие у любой информации, находящейся в сети, связанного с этой информацией точного смысла, который нельзя было бы перепутать даже в случае совпадения фраз или слов, встреченных в разных контекстах. Фактически это озна­чает, что любая информация связана с некоторым неотделимым от нее контекстом. Семантическая сеть активно использует язык

XML для определения собственной структуры документов и язык RDF (Resource Definition Framework). предоставляющий удобную среду формализации метаданных и сведений о контек­сте. RDF создан консорциумом W3C и предназначен для опи­сания метаданных, является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. Однако RDF это самый низкоуровневый из су­ществующих языков описания метаданных, поскольку опериру­ет лишь понятиями связей примитивных сущностей, например. «объект А владеет субъектом В». Со временем разработчикам Семантической сети стало очевидно, что средств XML и RDF для представления информации и метаданных для построения полноценной семантически связанной сети недостаточно. RDF подобен ассемблеру, если сравнивать семантическую нагрузку отдельных конструкций языка, и слишком сложен для решения задачи подобного масштаба. Чистый XML, в свою очередь, являясь метаязыком, включает в себя RDF как подмножество. и не создан для какого-либо конкретного применения, а потому для построения семантической сети его также недостаточно. Поэтому консорциумом W3C и был создан язык онтологии OWL (Web Ontology Language).

Онтология определяет термины, с помощью которых можно описать предметную область. Использование онтологии особен­но необходимо в приложениях-агентах, осуществляющих поиск и объединение информации из различных источников и из раз­ных сред, в которых один и тот же термин может означать разные вещи. Несмотря на то, что DTD (Document Type Definition, формальное описание структуры XML-документов) в стандарте XML и схем XML (XML Scheme) вполне достаточ­но для обмена данными между сторонами, которые заранее договорились о значении определений и терминов, отсутствие семантики в указанных средствах описания структуры серьезно ограничивает надежность выполнения задачи поиска и объеди­нения данных при использовании новых XML-словарей. Напри­мер, элемент <Rate>, встретившийся индексатору в разных документах, может означать либо курс рубля, либо оценку за экзамен, либо цену товара, или что-нибудь еще. И без точной информации о том, что именно в конкретном документе имеет­ся в виду под этим элементом, поисковый агент не сможет со стопроцентной вероятностью вернуть именно то. что и требова­лось пользователю.

Практически любой пользователь сети хотя бы раз сталки­вался с ситуацией, когда при поиске интересующей его инфор­мации он помимо прочего получал от поисковой машины мно­жество бесполезных ссылок. Поскольку поиск информации осуществляется вне контекста, никакие уточнения запросов не смогут надежно найти именно то, что нужно. Для качествен­ного осуществления поиска пользователю необходимо понимать все тонкости предметной области, включая ее лексику, термины, определения, иерархии сущностей — одним словом, доскональ­но знать онтологию. Хорошо, если пользователь является экс­пертом предметной области, хотя даже в этом случае будет найдена лишняя информация, а что делать обычным пользова­телям? Язык OWL призван упростить процесс поиска, возложив необходимость знания предметной области и описание контекста поиска полностью на авторов документа и систему поиска, при­чем передача этих функций авторам документа должна быть незаметна для пользователя.





Поделиться с друзьями:


Дата добавления: 2016-03-27; Мы поможем в написании ваших работ!; просмотров: 1115 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Начинайте делать все, что вы можете сделать – и даже то, о чем можете хотя бы мечтать. В смелости гений, сила и магия. © Иоганн Вольфганг Гете
==> читать все изречения...

2282 - | 2063 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.013 с.