Чтобы ввести определенную терминологию, рассмотрим следующую гипотетическую проблему изучения того, является ли гриб съедобным или ядовитым. Например, предположим, что было собрано определенное количество грибов и для каждого из них получено мнение эксперта. Допустим, что каждый гриб можно достаточно полно описать по его высоте и ширине (необходимо сделать оговорку, что это лишь пример и такое предположение просто нереально!). В этом случае применяется формулировка, что каждый из рассматриваемых примеров объектов имеет два атрибута: высоту и ширину (в сантиметрах). На сей раз оба атрибута являются числовыми. Кроме того, для каждого примера гриба указан также его класс — "ядовитый" или "съедобный", С точки зрения изучения понятия "съедобный" эти два значения класса могут быть соответствующим образом обозначены с помощью знаков "+ " (съедобный) и "-" (несъедобный). Согласно этому, указанные съедобные грибы являются положительными примерами, а ядовитые — отрицательными примерами понятия "съедобный".
На рис. 18.1 показаны данные, применяемые для обучения. Таким образом, научиться распознавать грибы означает приобрести способность отнести новый гриб к одному из двух классов, "+ " или "-". Теперь предположим, что нам предъявлен новый гриб, который имеет атрибуты И = 3, Н = 1. Является ли он съедобным или ядовитым? Рассматривая примеры, приведенные на рис. 18.1, большинство людей без колебаний отвечают "съедобный". Безусловно, нет никакой гарантии, что именно этот гриб действительно является съедобным, и такое утверждение для многих становится неожиданным. Поэтому данная классификация все еще относится к области гипотез. Но эта гипотеза выглядит весьма вероятной, поскольку значения атрибутов этого гриба аналогичны атрибутам многих известных съедобных грибов, но отличаются от всех ядовитых грибов. Как правило, основное допущение в машинном обучении состоит в том, что объекты, которые в определенной степени выглядят аналогичными Друг другу, принадлежат к одному и тому же классу. В общем, наш мир к нам снисходителен, поскольку в реальной жизни это допущение о принадлежности похожих друг на друга объектов к одному и тому же классу обычно оправдывается. Именно поэтому появляется возможность организовать машинное обучение на примерах. Но остается нерешенным еще один вопрос — как определить, что два объекта аналогичны, а другие два - нет. Каковым является явный или неявный критерий аналогичности? Обучающиеся системы в значительной степени отличаются друг от друга именно в этом отношении.
По тем же признакам аналогичности еще один гриб с размерами w - 5 и Н = 4, вполне очевидно, может оказаться ядовитым. Но в отношении гриба с размерами VI = 2 и
410 Часть II. Применение языка Prolog в области искусственного интеллекта
Н = 2 решение принять сложнее, и любой вариант его классификации кажется необоснованным и рискованным.
Обычно результатом обучения становится описание понятия, или создание классификатора, позволяющего определять принадлежность новых объектов к конкретному классу. Такой классификатор может быть определен различными способами с использованием разных формальных представлении. Для таких формальных представлений есть еще одно название — языки описания понятий, или языки гипотез. Они именуются языками гипотез по той причине, что позволяют описать гипотезы ученика в отношении целевого понятия, сформулированные на основе обучающих данных. Обычно ученик не совсем уверен в том, что гипотеза, полученная на основе этих данных, действительно соответствует целевому понятию.
К
I
+
4 4 + 4 4 + 4
I
W
Ли?. 18.1. Примеры для обучения способности различать грибы. Атрибутами являются размеры гриба - w (ширина) и И (высота). Знаками плюс" обозначены примеры съедобных грибов, а знаками "минус" - ядовитых
Ниже приведены некоторые возможные гипотезы, которые могут быть выведены на основании данных о грибах.
Гипотеза 1:
если 2 < w и w < 4 и н < 2, то "съедобный", иначе "ядовитый" Гипотеза 2:
если Н > и, то "ядовитый", иначе если Н > 6 - К, то "ядовитый",
иначе "съедобный" Гипотеза 3:
если Н < 3 - w - Щг, то "съедобный", иначе "ядовитый"
Эти гипотезы показаны графически на рис. 18.2. Все они сформулированы в виде правил вывода. Еще одним языком гипотез, который широко применяется в области машинного обучения проблематики искусственного интеллекта, являются деревья решения. Гипотеза 1 представлена в виде дерева решения на рис. 18.3.
Все эти три гипотезы являются совместимыми с данными — они позволяют отнести все учебные объекты к тому же классу, который указан в этих примерах. Но при классификации новых объектов между этими гипотезами возникают различия. Например, согласно гипотезе 1 гриб с размерами И = 3 иН = 2.5 относится к ядовитым, а согласно гипотезам 2 и 3 этот гриб является съедобным. С точки зрения понятия "съедобный" гипотезу 1 можно назвать наиболее конкретной из этих трех гипотез, а гипотезы 2 и 3 с этой точки зрения считаются более общими, чем гипотеза 1. Множество грибов, являющихся ядовитыми согласно гипотезе 1, представляет собой подмножество тех грибов, которые соответствуют гипотезе 2 или 3. С другой стороны, гипотеза 2 не является ни более общей, ни более конкретной, чем гипотеза 3.
Глава 18, Машинное обучение
н
- | |||
ъ | - | ||
- J - /У | V, - " | ||
/' / * i г • 1 / | Ч- + + + + + + + + + | \\ |
W
Рис. 18Л Три гипотет о съедобных грибах; область действия гипотезы 1 обозначена сплошной, линией., гипотезы 2 - штриховой, гипотезы3 •••- пунктирной
W<2
Истина / \ Ложь
/ V
W>4 |
w
Н>2 Ложь / \ Истина |
Ложь у/ \^ Истин Н>2
/ V
Рис. 18.3. Гипотеза 1, представленная в виде дерева решения. Внутренние узлы дерева обозначены атри бутами, листья —названиями классов, а ветви со ответствуют значениям атрибутов. Например, самая левая ветвь соответствует w < 2, а самый левый лист указывает, что соответствующий ему гриб является ядовитым (имеет, класс "-"). Объект соответствует определенному листу, если он удовлетворяет всем условиям на пути от корня к данному листу