Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Поисковые системы Интернет




Поисковая система - это сервис, предназначенный для нахождения информации в Интернете с автоматическим занесением информации в собственную базу данных.

Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных ком­понентов:

· Spider (паук) — это браузероподобная программа- робот, которая планомерно путешествует по Сети 24 часа в сутки и «скачивает» все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код;

· Crawler (сборщик, или путешествующий паук) — это порождаемый Spider'ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов;

· Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т.д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде;

· Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информациии нуждается в эффективных алгоритмахдоступа;

· Gateway (шлюз) или Search engine/Resultsengine (собственно поисковая машина) принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.

Наиболее популярными поисковыми системами в настоящее являются поисковые системы GOOGLE.COM, YAHOO.COM, а также российские RAMBLER.RU, YANDEX.RU, MAIL.RU и др.

 

Рынок поисковых систем каждый год демонстрирует устойчивый рост. По данным, доходы всех систем поиска информации в Интернете в 2005 году составили $9 млрд. В среднем рынок растет на 100% в год. Самым успешным мировым поисковиком является Google. Эта система за пять лет смогла завоевать более половины рынка поиска и потеснить с него таких гигантов прошлого, как Yahoo!, AltaVista и Lycos. Сегодня Google переведен на 90 мировых языков. Каждый день поисковик обрабатывает более 200 млн запросов и 6 млрд. страниц.

для самостоятельного изучения:

ПРОТОКОЛЫ прикЛАДНОГО УРОВНЯ: WWW (HTTP), элетронноЙ почты POP3 – SMTP, FTP, NNTP, TELNET, IP- телефония


DNS - сервер

 
 



Web - сервер

           
   
 
 
   
 

 

 


 






Поделиться с друзьями:


Дата добавления: 2016-11-12; Мы поможем в написании ваших работ!; просмотров: 560 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Велико ли, мало ли дело, его надо делать. © Неизвестно
==> читать все изречения...

2443 - | 2127 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.008 с.