Информационно-поисковые системы. Методы, способы и средств получения, хранения, переработки информации. Основы баз данных.
Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска массивов структурированной информации.
Каждая информационно-поисковая система предназначена для решения определенного класса задач, для которых характерен свой набор объектов и их признаков. Различают документографические и фактографические информационно-поисковые системы (ИПС).
1. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.
2.. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.
Информационно-поисковая система состоит из двух частей: базы данных (БД) и системы управления базами данных (СУБД).
База данных – это поименованная совокупность структурированных данных, относящихся к определенной предметной области.
Система управления базами данных – это комплекс программных и языковых средств, необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них необходимой информации.
Одно из наиболее известных применений поисковых систем – сервисы для поиска информации во Всемирной паутине.
Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами.
Поисковые системы Internet расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи.
В состав информационно-поисковой системы входят: поисковый робот, индексатор и поисковик. Как правило, в поисковые системы работают поэтапно.
Сначала поисковые роботы периодически исследуют содержимое ресурсов Интернета. Они перемещаются, или как говорят, ползают, по разным ресурсам, исследуют и «скачивают» информацию с разных URL-адресов. Программы указанного типа посещают каждый ресурс через определенное время. Ни одна поисковая система не в состоянии проиндексировать весь Интернет. Поэтому БД, в которых собраны адреса проиндексированных ресурсов, у разных поисковых систем разные. Тем не менее, многие из них стремятся, по возможности, охватывать в своей работе все пространство мировой Сети.
Затем индексатор генерирует доступный для поиска индекс. Ресурсы Интернет - это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудио информация и т.д. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать. В традиционных системах существует понятие поискового образа документа. Поисковый образ документа - это нечто, что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Информационно-поисковая система выполняет приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием.
В контексте обработки веб-страниц, индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц. Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.
И наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска
Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста.
Полезность поисковой системы зависит от релевантности найденных ею страниц, т.е. от степени соответствия результата поискового запроса ожиданиям пользователя. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты.