Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Теория и практика информационно-поисковых систем 205





 


обеспечивало переход от более частных понятий к более общим и на­оборот, что давало возможность преобразовать запрос в более част­ный или более общий по сфере охвата документов. Фактически хо­роший информационно-поисковый тезаурус является понятийной мо­делью проблемной области. Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типич­ная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфа­витного указателя дескрипторов, ИПТ может включать частотные указа­тели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:

• синонимы к данному дескриптору;

• «вышестоящие» дескрипторы (более общие термины по сравнению с данным; отношение «гипероним—гипоним»);

• «нижестоящие дескрипторы» (более частные термины по сравнению с данным; отношение «гипоним—гипероним»);

• ассоциативные дескрипторы.

Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синони­мы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.

Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различа­ющимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представля­ет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огром­ной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избы­точного индексирования: поисковый образ документа и поисковое пред­писание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.


Решение о релевантности документа данному запросу определяется специальными критериями выдачи (KB). Здесь различаются два основных типа критериев — вычисляемые и логические. Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:

где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Nj — общее количество дескрипторов в поисковом пред­писании.

В некоторых случаях для повышения точности поиска различным де­скрипторам приписываются веса, отражающие их значимость для описа­ния содержания документа или для выражения информационной потреб­ности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.

Логические критерии выдачи основываются на тех логических отно­шениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нор­мальной формы — конъюнкции дизъюнкций. Конъюнкцией связыва­ются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.

Увеличение объема документов в современных ИПС приводит к то­му, что ручное индексирование документов становится практически не­возможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание си­стем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в авто­матическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом эта­пе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на вто­ром — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может фигурировать не только исходная словарная форма, но и псевдооснова.

Вторая стратегия решения проблемы ручного индексирования свя­зана с разработкой ИПС бестезаурусного типа. Такие ИПС работают






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 663 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Студент может не знать в двух случаях: не знал, или забыл. © Неизвестно
==> читать все изречения...

2808 - | 2374 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.011 с.