Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Информационно-поисковые системы

 

Информационно-поисковые системы. Методы, способы и средств получения, хранения, переработки информации. Основы баз данных.

Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска массивов структурированной информации.

Каждая информационно-поисковая система предназначена для решения определенного класса задач, для которых характерен свой набор объектов и их признаков. Различают документографические и фактографические информационно-поисковые системы (ИПС).

1. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.

2.. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.

Информационно-поисковая система состоит из двух частей: базы данных (БД) и системы управления базами данных (СУБД).

База данных – это поименованная совокупность структурированных данных, относящихся к определенной предметной области.

Система управления базами данных – это комплекс программных и языковых средств, необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них необходимой информации.

Одно из наиболее известных применений поисковых систем – сервисы для поиска информации во Всемирной паутине.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами.

Поисковые системы Internet расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи.

 

 

В состав информационно-поисковой системы входят: поисковый робот, индексатор и поисковик. Как правило, в поисковые системы работают поэтапно.

Сначала поисковые роботы периодически исследуют содержимое ресурсов Интернета. Они перемещаются, или как говорят, ползают, по разным ресурсам, исследуют и «скачивают» информацию с разных URL-адресов. Программы указанного типа посещают каждый ресурс через определенное время. Ни одна поисковая система не в состоянии проиндексировать весь Интернет. Поэтому БД, в которых собраны адреса проиндексированных ресурсов, у разных поисковых систем разные. Тем не менее, многие из них стремятся, по возможности, охватывать в своей работе все пространство мировой Сети.

Затем индексатор генерирует доступный для поиска индекс. Ресурсы Интернет - это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудио информация и т.д. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать. В традиционных системах существует понятие поискового образа документа. Поисковый образ документа - это нечто, что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Информационно-поисковая система выполняет приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием.

В контексте обработки веб-страниц, индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц. Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

И наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста.

Полезность поисковой системы зависит от релевантности найденных ею страниц, т.е. от степени соответствия результата поискового запроса ожиданиям пользователя. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты.

 

 



<== предыдущая лекция | следующая лекция ==>
Потенциал покоя и потенциал действия | Определение понятия «текст» и его общая характеристика.
Поделиться с друзьями:


Дата добавления: 2018-10-15; Мы поможем в написании ваших работ!; просмотров: 1263 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Даже страх смягчается привычкой. © Неизвестно
==> читать все изречения...

2418 - | 2130 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.01 с.