Internet в настоящее время является самым большим и популярным межсетевым объединением в мире. Он соединяет десятки тысяч компьютерных сетей и миллионы пользователей во всем мире. При этом объединены компьютеры тысяч различных типов, оснащенные самым разным программным обеспечением. Пользователи Internet могут не обращать внимания на все эти различия.
Internet и реализующие его технологии являются неотъемлемым атрибутом информационного общества и его базовым основанием. Эти технологии, о которых не слышали в конце прошлого века, работают практически во всех областях экономики, науки, культуры, социальных преобразований. Internet в настоящее время соединяет десятки тысяч компьютерных локальных, региональных, федеральных сетей и миллионы пользователей во всем мире. При этом сетью объединены компьютеры тысяч различных типов, оснащенных самым разным программным обеспечением.
Существует достаточно много толкований термина Internet, однако он имеет два основных качественных значения:
- глобальное сообщество произвольно объединяемых мировых сетей, которые используются для свободного обмена данными, информацией и знаниями;
- совокупность технологий, которые реализуют обмен данными на основе использования семейства протоколов TCP/IP (Transmission Control Protocol / Internet Protocol), называемых Internet-технологиями или технологиями Internet.
В основе создания Internet лежит история развития сети ARPAnet - первой экспериментальной компьютерной сети национального масштаба. Она была создана в конце 1960-х годов в целях поддержки научных исследований Министерства обороны США (Advanced Research Project Agency - ARPA) и объединила сотни компьютеров нескольких крупных научных и университетских центров. Узлы сети были связаны физическими выделенными линиями, а передача и прием данных обеспечивалась специальными программами, работающими на узловых компьютерах.
Сеть изначально предполагалась ненадежной - исследовалась возможность передачи данных в сети, отдельные фрагменты которой могут перестать функционировать в любой произвольный момент. Программные системы, в которые были заложены принципы искусственного интеллекта, должны были отыскивать работающие сегменты сети и "прокладывать" новые маршруты передачи данных. Выход из строя любого канала связи не должен был вывести такую сеть из строя. При этом общий алгоритм был основан на допущении, что любой компьютер мог связаться с любым "ответившим" компьютером как "равный с равным". Реально сеть стала использоваться для обмена сообщениями (E-mail) и файлового обмена (File- oriented Interchange).
Примерно в это же время появились локальные вычислительные сети (Local Area Network - LAN) и компьютеры с операционной системой UNIX, которые, помимо чисто вычислительных задач, стали обслуживать эти сети. Они получили название рабочие станции. OC UNIX была выбрана потому, что в нее была заложена возможность работать с IP-протоколами, которые содержали:
- правила инициализации и поддержания работы в сети;
- описание информационных сетевых пакетов (пакетов данных) семейства IP;
- правила обращения с IP-пакетами (идентификация, проверка целостности, обработка, пересылка, прием и т. д.).
Эти решения оказались успешными, стандартизация протоколов позволила подключать к сети компьютеры с различным базовым программным обеспечением. Появилось понятие "трафик", трактуемое в единицах обмена информацией, которым стали измерять реальную загрузку сети. Технология передачи данных IP-пакетами оказалась чрезвычайно перспективной в техническом отношении, однако в чисто пользовательском плане ее необходимо было дорабатывать, так как скорость передачи данных не могла компенсировать значительные затраты времени на поиск нужной информации в огромных массивах данных.
В марте 1989 года Тим Бернерс-Ли (Tim Berners-Lee, Conseil Europeen pour la Recherche Nucleaire - CERN, Женева) предложил концепцию распределенной информационной системы с целью "объединения знаний человечества", которую он назвал "Всемирной паутиной" (World Wide Web - WWW). Для её создания он объединил две существующие технологии - технологию применения IP-протоколов для передачи данных и технологию гипертекста (Hypertext Technology). Эта технология основана на реализации быстрого перехода от одного фрагмента текста к другому по выделенным ссылкам (Dedicated Links), при этом указанные фрагменты могут располагаться на физически разделенных компьютерных носителях. Информационная система, построенная на этих принципах, могла объединить множество информационных ресурсов, разбросанных по многочисленным открытым базам данных.
Основная метафора Web- гипертекста - это "электронная книга" с автоматически поддерживаемыми мгновенными переходами по ссылкам. Сам же термин гипертекст был впервые предложен Тедом Нельсоном в 1965 году, а первую работающую гипертекстовую систему создал в 1968 году Дуг Энгельбард.
В 1991 году был создан первый браузер (Browser) - компьютерная программа просмотра гипертекста, - работавший в режиме командной строки. Его применение позволило уже в 1992 году успешно реализовать предложенный проект, направленный в конечном итоге на создание "бесшовного информационного пространства" (Seamless Informational Area), охватывающего всю планету.
С точки зрения пользователя, информационное пространство "всемирной паутины" состоит из документов различного формата (мультемедиа-документов), предметных указателей и ссылок. Для перехода по ссылке или поиска по указателю пользователь применяет соответствующий браузер, "понимающий" язык разметки гипертекста. Поисковая система отыскивает по ссылке или ключевым словам в "паутине" нужный каталог, читает его структуру, считывает нужный документ и пересылает его пользователю. Web-сервер автоматически генерирует гипертекстовое представление требуемых файлов по запросам пользователя.
В сентябре 1994 года Оливер Мак-Брайан (Oliver McBryan) из Колорадского университета (США) разработал одно из первых автоматических средств составления предметного указателя для WWW, названное WWW- Worm. За несколько минут Worm формировал базу данных из 300000 мультимедийных объектов, которые можно было находить по ключевым словам. Можно считать, что с этого момента информационное пространство World Wide Web было в принципе сформировано (рис. 4.1). Дальнейшее развитие шло по линии совершенствования технологий поиска, передачи, обеспечения безопасности, разработки и стандартизации различных Web-интерфейсов, повышающих комфорт использования Web-технологий. С середины 90-х годов эти технологии стали находить все более широкое применение во многих сферах человеческой деятельности.
увеличить изображение
Рис. 4.1. Информационное пространство WWW
Основными элементами технологии WWW являются [Артемьев В.И. Разработка INTRANET -приложений. Учебное пособие. Ярославль: изд-во ЯрГПУ, 1998, 233 с.]:
- язык гипертекстовой разметки документов (Hyper Text Markup Language - HTML);
- протокол обмена гипертекстовой информацией (Hyper Text Transfer Protocol - HTTP);
- универсальный способ адресации ресурсов в сети (Universal Resource Identifier - URI, и Universal Resource Locator - URL);
- система доменных имен (Domain Name System - DNS);
- универсальный интерфейс шлюзов (Common Gateway Interface - CGI), добавленный позже сотрудниками Национального Центра Суперкомпьютерных Приложений (National Center for Supercomputing Applications - NCSA).
- расширяемый язык разметки (eXtensible Markup Language - XML), рекомендованный Консорциумом Всемирной паутины.
Язык гипертекстовой разметки HTML создан на опыте использования редактора TeX и системно- и аппаратно-независимых методов представления текста в электронной форме (Standard Generalized Markup Language - SGML, стандарт ISO 8879). Основная идея гипертекста заключается в присутствии внутри ASCII-текста форматирующих полей и ссылок как на части внутри документа, так и на другие документы. Благодаря этому можно просматривать документы в том порядке, в каком требуется, а не последовательно, как при чтении книг. База данных гипертекста является частью файловой системы, которая содержит текстовые файлы в формате HTML и связанные с ними графику, мультимедиа и другие ресурсы.
Текстовый формат XML добавился несколько позже и был предназначен для описания систем хранения структурированных данных. Целью создания формата XML было обеспечение совместимости при передаче структурированных данных между разными системами обработки информации, особенно при передаче таких данных через Internet, а также для создания на его основе более специализированных языков разметки, иногда называемых словарями. Словари, основанные на XML, сами по себе формально описаны, что позволяет программно изменять и проверять документы на основе этих словарей, не зная их семантики, то есть не зная смыслового значения элементов. Важной особенностью XML также является применение так называемых пространств имен (Name Space).
Для получения файла из Internet браузеру нужно знать, где находится файл и как общаться с компьютером, на котором этот файл находится. Программа-клиент WWW передает имя необходимого файла, его местоположение в Internet (адрес хоста) и метод доступа (обычно протокол HTTP или FTP). Комбинация этих элементов формирует универсальный идентификатор ресурса (Universal Resource Identifier - URI). URI определяет способ записи адресов различных информационных ресурсов. В основу URI были заложены идеи расширяемости, полноты и читаемости. Реализация URI для WWW является способом адресации в сети (Universal Resource Locator - URL). Общий формат ссылки URL - <протокол://узел/путь/файл /метка>.
Internet является совокупностью эффективных методов коммуникации (на базе современных стандартизированных протоколов связи) и работы с информацией, находящейся на удаленных носителях. Кроме непосредственных функций по транзиту данных любых типов технологии Internet обеспечивают широкий спектр разнообразных информационных услуг, реализуемых различными службами:
- служба пересылки и приема сообщений (E-mail);
- служба гипертекстовой среды (WWW);
- служба передачи файлов (File Transfer Protocol - FTP);
- служба удаленного управления компьютером (Teletype Network - Telnet);
- служба имен доменов (Domain Name System);
- служба телеконференций (Users Network - Usenet) и чат-конференций (Интернет Relay Chat - IRC).
Программная индустрия для Web испытывает сейчас настоящий бум: сотни компаний - разработчиков программного обеспечения для Web создают новые технологии и инструментальные средства для навигации, работы в Сети и разработки пользовательских приложений. К их числу можно отнести:
- программы просмотра и навигации (браузеры);
- средства поиска и доставки информации (поисковые машины);
- программное обеспечение Internet и Web-серверов, серверные приложения и расширения;
- средства администрирования в сетях;
- клиентские приложения и расширения (Web-сервисы);
- инструментальные средства разработки;
- средства обеспечения безопасности.
Инструментальные средства разработки Internet-приложений разнообразны и включают:
- редакторы гипертекста и графические редакторы;
- средства разметки карт изображений и конверторы изображений;
- средства мультимедиа (аудио, анимация, видео);
- средства генерации виртуальной реальности;
- средства и языки программирования серверных и клиентских приложений и расширений.
Редакторы гипертекста формируют HTML-файлы в режимах программирования или WYSIWYG (What You See Is What You Get). Можно использовать и обычные текстовые редакторы, а также средства, встроенные в браузеры. К этой же группе относятся конверторы, "перегоняющие" офисные документы в гипертекст. Графические редакторы служат для создания изображений, включаемых в гипертекст.
Средства разметки карт изображений позволяют разбить изображение на участки и связать гиперссылки с каждым из них. Такие средства могут быть встроены в графический редактор. Конверторы изображений обеспечивают преобразование форматов, размеров и цветов, создание специальных эффектов.
Средства мультимедиа предназначены для создания звукового и музыкального сопровождения, анимационных и видеороликов. Часто воспроизведение файлов мультимедиа осуществляется клиентскими расширениями или специальными Helper-программами.
Средства генерации виртуальной реальности позволяют запрограммировать трехмерные сцены и управление ими на языке VRML (Virtual Reality Modeling Language). Ввиду того, что процесс воспроизведения виртуальной реальности достаточно сложен, могут потребоваться дополнительные средства автоматизированного проектирования и анимации. Для просмотра Web-страниц с VRML - изображениями необходимо использовать соответствующие браузеры, например: WebSpace от Silicon Graphics или VRML -расширения для Internet Explorer или Netscape Navigator.
Системы программирования клиентских приложений предназначены для разработки и отладки сценариев (на языках VBScript или JavaScript) и мобильных приложений (на языке Java), выполняемых на стороне клиента. Наибольшие удобство и производительность разработки дают средства визуального программирования. В качестве средств программирования серверных приложений могут применяться как обычные системы программирования (Visual Basic, C/C++, Java), так и интерпретаторы команд (UNIX-shell, REXX и др.) и интерпретаторы и компиляторы сценариев на JavaScript, VBScript и Perl. Для создания клиентских и серверных расширений используются системы программирования, которые позволяют создавать компоненты с использованием механизмов ActiveX или Plug -in, представленных в виде встроенных или дополнительных библиотек интерфейсов.
Средства администрирования, как правило, поставляются в составе программного обеспечения Web-сервера и служат для конфигурирования, активации и мониторинга Web-сервисов, для контроля актуальности гиперссылок и связности гипертекстовой структуры, для учета и протоколирования использования серверов, для настройки и сопровождения системы безопасности.
Средства безопасности могут быть встроены в программное обеспечение Internet-серверов или представлены в виде дополнительных компонентов: комплексов Firewall и Proxy -серверов, выполняющих фильтрацию данных на различных уровнях.
На ранних стадиях развития сеть Internet была "улицей с односторонним движением", так как информация с Web-страниц поступала к пользователю от Web-сервера только при наличии запроса пользователя. С появлением в языке HTML диалоговых свойств пользователь получил обратную связь с Web-сервером. Обмен параметров при этом осуществляется через специальный графический интерфейс (Computer Graphical Interface - CGI).
В последнее время все большее распространение получает механизм согласования запускаемых программ через многоцелевые расширения почтовой службы Internet (Multipurpose Internet Mail Extensions - MIME). Современные браузеры, помимо взаимодействия с Web-серверами через протокол http, могут работать с различными типами серверов и служб с использованием протоколов FTP, File, Gopher, Mailto, NNTP, Telnet, WAIS (рис. 4.2).
В состав URL входит информация о методе доступа, требующаяся браузеру, чтобы использовать любой из этих протоколов.
Intranet - это внутреннее информационное пространство организации, реализуемое либо в локальной сети LAN (Local Area Network), либо в компьютерной сети WAN (Wide Area Network), охватывающей несколько территорий и включающей в себя десятки и/или сотни тысяч компьютеров) и обладающее всеми возможностями Internet.
Рис. 4.2. Варианты взаимодействий в Internet
Intranet ориентирован, как правило, на применение в рамках одного компактного или распределенного предприятия и отличается высокой безопасностью и скоростью работы. Используется для решения задач по автоматизации документооборота, информационному сопровождению бизнес-процессов, поиска и совместного доступа к данным и документам организации и имеет шлюзы для подключения в Internet. Для примера можно привести Intranet -сети, реализованные на основе технологий Microsoft. Пользователь работает с данными в привычном интерфейсе, пользуясь средствами Microsoft Office для доступа к сетевым данным.
Об удобстве технологий Intranet красноречиво говорит высказывание главы корпорации Microsoft Б. Гейтса (W. Gates): "Меня убедил опыт собственной компании. В Microsoft мы опубликовали в своей сети Intranet тысячи документов для использования внутри корпорации, но я с удивлением обнаружил, что с вводом у нас сети Intranet число обращений к данным возросло в несколько раз. Это весьма примечательный факт, если учесть, что и раньше ко многим из таких файлов добраться было нетрудно, а пользующиеся ими сотрудники неплохо владеют компьютером и весьма заинтересованы в изучении хранящейся в них информации".
Отметим, что сеть Intranet - отличная платформа для работы с информацией внутри предприятия. Современный Web-браузер доступен для любой клиентской системы. Рынок программного обеспечения для Web-серверов весьма разнообразен - пользователи не привязаны к одному поставщику. Большинство приложений разработано на базе принципа открытых систем и прекрасно взаимодействуют. Технология Web обладает свойством наращиваемости и может применяться в любых вычислительных сетях. Средства разработки приложений в комплексах прикладных программ для пользовательских персональных компьютеров облегчают создание HTML-страниц для Web-серверов.
Многообразие протоколов, служб, клиентских приложений, возможностей работы практически с любыми серверными платформами (Linux, Windows, Solaris, BSD и др.) и операционными системами превратили Internet в мощный инструмент, широко использующийся в бизнесе. Распределенные информационные системы, построенные на Internet-технологиях, стали обычным явлением. Многие сферы бизнеса получили приставку "е" - e-Business, что означает "электронный бизнес". В настоящее время сеть Internet является основой перехода к информационному обществу, а сам он становится глобальной индустрией в информационном, экономическом и социальном пространствах. По оценкам различных международных аналитических служб, общий оборот в Internet-индустрии к 2010 году может составить более 12 триллионов долларов.
Аналитический отдел Yandex опубликовал исследование, посвященное развитию Internet в регионах России. В основу исследования легли данные различных служб самого Yandex, а также информация Фонда "Общественное мнение" (ФОМ), TNS, компании RU-Center и проекта "Черный квадрат".
Выяснилось, что услугами Internet в России пользуется 25% населения, то есть 29 миллионов человек, из них более 6 миллионов - в Москве и Санкт-Петербурге.
Проведенное исследование подтвердило лидерство обеих столиц по всем показателям распространения Internet и активности пользователей. В частности, по проникновению Internet Москва обгоняет регионы больше чем в 2,5 раза, Санкт-Петербург - в 1,5 раза. Уровень покупательской онлайн -активности обоих мегаполисов также значительно выше. Московские покупатели в 16 раз активнее региональных, петербуржцы - в 6 раз.
Что касается регионов, то больше всего пользователей Internet после Москвы и Санкт-Петербурга насчитывается в Центральном федеральном округе (ЦФО) - 17% всех российских пользователей. Отстают по этому показателю Урал и Дальний Восток (6% и 5% соответственно). ЦФО также занял за счет Московской области третье место по числу доменов на тысячу пользователей, почти в 2 раза превысив средний показатель.
По уровню проникновения Internet первое место среди всех федеральных округов занимает Северо-западный федеральный округ (без учета Санкт-Петербурга). Проникновение Internet в этом регионе составляет 31%, что на 9% больше, чем в среднем по округам. Вторую строчку по этому показателю занимает Дальневосточный федеральный округ - 28%. Однако на Дальнем Востоке меньше всего электронных СМИ, при этом они являются самыми активными. Среднестатистическое СМИ из этого округа предлагает 14 новостей в день. Это в два раза больше среднего. Около 70% дальневосточного новостного трафика поступает из Владивостока.
По двум важным показателям Internet- активности пользователей (развитие блогосферы и покупательская онлайн -активность) среди федеральных округов лидирует Урал, опережая среднероссийские показатели в два раза. Очевидно, что на эти результаты сильно влияет Екатеринбург.
Именно этот город оказался самым интернетизированным после Москвы и Санкт-Петербурга. Далее следуют Краснодар и Новосибирск. Также в первую десятку рейтинга интернетизации входят пять поволжских городов - Самара, Пермь, Казань, Уфа и Нижний Новгород. Южный и Сибирский федеральные округа наиболее близки к средним российским показателям развития Интернета.
Кроме разницы между столицами и регионами очень заметна разница между городами и остальной частью России. По данным TNS, Internet используют около 40% жителей городов с населением более 100 тысяч человек. Фактически это означает, что проникновение Internet в маленьких городах и деревнях существенно ниже 20%.
По данным Yandex, число сайтов в Рунете выросло за 2007 год на 66%. Каждый день в зоне.RU регистрируется более 1000 новых доменов, что соответствует росту на 62% в год. Этот рост линейный, а не экспоненциальный. Количество доменов, зарегистрированных в регионах, увеличивается несколько медленнее (за последний год - на 57%).
Поисковые системы
Для быстрого поиска информации в Internet разработаны специальные программы, которые по заданным адресам и ссылкам мгновенно отыскивают нужную информацию. При этом число обработанных информационных ресурсов может достигать сотен тысяч.
Поисковая система - Web-сайт, предоставляющий возможность поиска информации в Internet. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на Ftp-серверах, товары в Internet-магазинах, а также информацию в группах новостей Usenet.
В последнее время появился новый тип поисковых движков, основанных на технологии RSS, - семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Можно назвать и аналогичные технологии: Rich Site Summary (стандарт RSS 0.9x) - обогащенная сводка сайта; RDF Site Summary (RSS 0.9 и 1.0) - сводка сайта с применением инфраструктуры описания ресурсов; Really Simple Syndication (RSS 2.x) - очень простое приобретение информации. Информация из различных источников, представленная в формате XML на базе RSS -стандартов, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами- агрегаторами.
Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковым движком или поисковой машиной. Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учет морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Улучшение работы поисковых систем - это одна из приоритетных задач сегодняшнего Internet.
Первой поисковой системой для Всемирной паутины был "Wandex" - робот, разработанный Мэтью Греем (Matthew Gray) из Массачусетского технологического института в 1993 году. В том же 1993 году появилась поисковая система Aliweb, работающая до сих пор. Первой полнотекстовой (т. н. " Crawler -based" - то есть индексирующей ресурсы при помощи робота) поисковой системой стала "WebCrawler", запущенная в 1994 году. В отличие от своих предшественников она позволяла пользователям искать по любым ключевым словам на любой Web-странице - с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором стало известно в широких кругах. В 1994 году был запущен поисковик Lycos, разработанный в университете Карнеги Мелона (США).
Вскоре появилось множество других конкурирующих поисковых машин, таких как Excite, Infoseek, Inktomi, Northern Light и AltaVista. В некотором смысле они конкурировали с популярными Интернет-каталогами, такими как Yahoo!. Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям Internet стало доступно морфологическое расширение к поисковой машине AltaVista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была реализована поисковая машина Yandex.
Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и Veronica для поиска в Gopher.
В настоящее время совокупности поисковых и сервисных программ образуют мощные общедоступные и коммерческие поисковые службы: в зарубежном секторе Internet это AltaVista, Excite, Google, HotBot, Infoseek (Go)Light, Lycos, Magellan, Norbern, Yahoo!, Open Text, Web Crawler, в русскоязычном секторе основными полнотекстовыми поисковыми системами считаются Апорт, "Иван Сусанин", "Кирилл и Мефодий", "Россия-Он-Лайн", Rambler, List.ru, Russia on the Net, FTP-Search, Yandex.
По данным компании Net Applications, в декабре 2007 года рыночная доля Google в мире составляла 77,04%, Yahoo - 12,46%, MSN - 3,33%, Microsoft Live Search - 2,57%, AOL - 2,12%, Ask - 1,38%, AltaVista - 0,13%, Excite - 0,07%, Lycos - 0,02%, All the Web - 0,02%.
Популярность поисковых систем в русскоязычном сегменте Internet (Рунете):
- многоязычные: Google (18% Рунета), Yahoo! (1% Рунета) и принадлежащие этой компании поисковые машины: Overture, Inktomi, AltaVista, Alltheweb FAST-Engine, а также MSN (2% Рунета, принадлежит компании "Microsoft");
- русскоязычные: Aport (1% Рунета), Rambler (18% Рунета), Yandex (47% Рунета), Mail.ru (7% Рунета), Webalta, Qwika, Gogo.ru, Turtle, Punto, Nigma, Darodar - поисковая система товаров, VisualWorld, Вершки Рунета - поиск по заглавным страницам.
Большинство русскоязычных поисковых систем индексируют и ищут тексты на многих языках - украинском, белорусском, английском и др. Отличаются же они от "всеязычных" систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.
Наряду с универсальными поисковыми системами большой популярностью пользуются специализированные, такие как метапоисковые MetaCrawler. com и Nigma.ru, или осуществляющие "вертикальный" поиск (по конкретным типам: новости, картинки, видео, фото, вакансии, группы товаров и т. п.).