За визначеннями відомої рейтингової компанії XML у 2001 році був віднесений до головних технологічних досягнень, здатних змінити, у перспективі, ввесь комп’ютерний світ.
Як мова це досить універсальна синтаксична основа, що забезпечує як представлення даних, так і задавання відношень між ними.
Вихідна версія розроблена у 1998 році і з тих пір розвинулася до рівня метамови на базі якої визначаються сотні нових предметно-орієнтованих мов.
XML дозволяє створювати власні теги, які є прихованими мітками веб-сторінки, або розділи тексту на сторінках для описання їх інформаційного наповнення. Наприклад, бібліотекарі могли б для описання книг використовувати теги: автор, ціна, назва, кількість сторінок тощо. Хоча для тих же самих цілей теги могли б називатись інакше. Тобто, програма, яка працює з XML-документом не розуміє їх змісту.
Оскільки XML не має фіксованого словника тегів, то вони можуть визначаться незалежно від будь-яких програм. Спочатку було передбачене описання тегів за допомогою визначника DTD, який включається в сам документ XML як тег, і який накладає обмеження на теги і задає допустиму граматику, яка вказує якими можуть бути комбінації і вкладення імен тегів, імен атрибутів тощо.
У XML використовуються два види вказівки на DTD:
1. У самому XML-документі.
2. Вказанням інтернет адреси файла з DTD.
Мова DTD відрізняється від мови XML і це є її недоліком.
DTD дозволяє задавати:
1. порядок слідування елементів
2. вкладеність елементів
3. кількість можливих елементів
4. типи атрибутів
5. сутності і нотації.
Останнім часом замість DTD використовується інший підхід, який наз. XML-схема. Зокрема XML-схеми використовуються в програмах MS Office.
XML-схема записується на мові XML і надає розробнику більше можливостей ніж DTD.
Доступність схеми надає різним розробникам можливість організовувати обмін даними між різними документами.
Засоби описання ресурсів RDF
Призначення RDF полягає в описанні відношень між мережевими ресурсами та інформацією. RDF є ланкою між XML-документами і програмами, які здійснються пошук і навігацію на основі логічних тверджень. RDF є технологією представлення смислу термінів і понять у вигляді доступному для автоматичного опрацювання. Принцип побудови відношень між менежевими ресурсами передбачає наявність 3 компонентів об’єкта, атрибута і значення, який є аналогом класичної схеми: підмет-присудок-доповнення.
Кожен елемент такого триплету має присвоєний йому ідентифікатор URI за допомогою якого при вказанні однієї із ланок триплету можна отримати весь ланцюжок. Із триплетів мови RDF можуть формуватися мережі на основі зв’язків між об’єктами. Використання URI ідентифікаторів забезпечує унікальність кожного означення для всієї мережі інтернет.
Базовий блок RDF записують по-різному: А(О,V), де О – об’єкт, А - атрибут із значенням V. RDF Дозволяє міняти місцями обєкти і значення. З самого початку в RDF використовувався синтаксис мови XML, але існують також інші мови описання, наприклад, у вигляді набору трійок:
hasName
(“http…”,”Dmitriy”)
autorOf
(“http…”,’ISBN584…0’)
hasPrise
(‘ISBN54…0’,”$8”)
Крім того допускається форма представлення у якій будь-який вираз RDF у триплеті може бути об’єктом або значенням, тобто, дозволяє вказати, що даний об’єкт має певний тип.
<rdf:Description about= www.about...>
<rdf: type rdf: resource=http://description/schema/#book>
</rdf:Description>
Специфікація RDF забезпечує підтримку тегів, які дозволяють визначати практично будь-які поняття. Наприклад, <price>, <invois>, яким приписувати відповідні значення ціни і рахунку відповідно. Інформаційні ресурси описуються за допомогою сукупності термінів. Семантика термінів і їх словників фіксується за допомогою глобальних універсальних імен URI. Також існує RDF-схема, яка може визначати, які терміни можуть використовуватись в RDF твердженнях про властивості ресурсів, представляє ієрархію понять предметної області, описує характеристики кожного з термінів.
Онтологія
Онтології є більш універсальними і ефективними засобами, по суті, БЗ.
Найчастіше онтологія представляється як ієрархія понять зв’язаних відношенням деяких спеціальних видів. Такі онтології є аналогами так званих семантичних мереж, які можна задавати у вигляді орієнтованих графів, у яких вершини означають поняття або їх властивості, а дуги – відношення певних типів. Таких як: «належить», «є наслідком» і деяких інших.
Більш складні онтології формалізуються засобами мов логіки і допускають можливість логічного виводу. У найпростішому випадку онтології використовуються для підвищення точності пошуку в Інтернеті. Також, якщо одні і ті ж поняття представляються різними термінами, механізм онтологій дозволяє формувати осмислені ієрархічні зв’язки між об’єктами, узагальнювати різні дані, реалізувати нечіткий пошук.
Передбачалося, що інтелектуальні програми будуть використовувати онтології для пошуку інформації і виявлення зв’язаної з нею структурою знань і правил виводу.
Програма, яка інтерпретує онтології може, наприклад, вивести, що якщо Корнельський університет знаходиться у місці Ітака, який знаходиться у штаті Нью-йорк, який є частиною США, то адресу цього університету потрібно писати у американському форматі.
Формальна семантика мови OWL, яка рекомендована W3C, описує як отримати логічні виводи на основі онтологій, тобто, отримати факти, які не представлені буквально, а випливають із семантики онтологій. При чому ці виводи можуть будуватися на аналізі як одного документа, так і множити документів, розподілених у мережі.
На практиці створення онтологій починається з ієрархії класів понять, які складають предметну область. Фундаментальним конструктором для класів є вираз - rdfs: subClassOf. Він зв’язує частинний клас із загальним класом.
Властивості можуть обмежуватися так званими доменами і діапазоном. Наприклад, властивість ВиготовленоЗВинограду має домен вино і діапазон виноград. Множинні домени означають, що доменом властивості є перетин вказаних класів.
Знання
Проект семантичного вебу передбачає створення системи з елементами штучного інтелекту, яка б допомагала спеціальним програмам (агентам) ефективно шукати інформацію в мережі і обмінюватися інформацією між собою. Мови семантичного веб дозволяють представляти будь-який вид даних, створювати синтаксичні аналізатори і інтерфейси прикладних програм необхідні для маніпулювання даними.
Основані принципи функціонування автономних агентів:
1. агент не має повної інформації, необхідної для рішення поставленої задачі
2. дані, які опрацьовуються розподілені в мережі
3. агенти працюють асинхронно
4. взаємодія агентів між собою і з людиною відбувається на високому семантичному рівні
5. відсутній глобальний контроль за діяльністю агентів