Ћекции.ќрг


ѕоиск:




 атегории:

јстрономи€
Ѕиологи€
√еографи€
ƒругие €зыки
»нтернет
»нформатика
»стори€
 ультура
Ћитература
Ћогика
ћатематика
ћедицина
ћеханика
ќхрана труда
ѕедагогика
ѕолитика
ѕраво
ѕсихологи€
–елиги€
–иторика
—оциологи€
—порт
—троительство
“ехнологи€
“ранспорт
‘изика
‘илософи€
‘инансы
’ими€
Ёкологи€
Ёкономика
Ёлектроника

 

 

 

 


ќценка точности гипотез, полученных путем обучени€




ѕосле завершени€ процесса обучени€ обычно возникает вопрос о том, насколько успешно гипотеза, полученна€ в результате обучени€, позвол€ет предсказать, к ка≠кому классу относ€тс€ вновь поступившие данные. Ѕезусловно, как только станов€т≠с€ доступными новые данные, эту точность можно просто измерить, провод€ класси≠фикацию новых объектов и сравнива€ их истинное значение класса с классом, пред≠сказанным с помощью гипотезы. Ќо проблема состоит в том, что хотелось бы оценить эту точность еще до того, как станут доступными новые данные.

ќбычный подход к оценке точности по новым данным состоит в разбиении слу≠чайным образом всех имеющихс€ данных на два множества: учебное и испытатель≠ное. «атем обучающа€с€ программа вызываетс€ на выполнение на учебном множест≠ве, а логически выведенные гипотезы провер€ютс€ на испытательном множестве так, как если бы данные этого множества представл€ли собой новые, будущие данные.

440 „асть II. ѕрименение €зыка Prolog в области искусственного интеллекта


 


“акой подход €вл€етс€ простым и не создает каких-либо проблем, если количество данных велико. Ќо наиболее распространенной ситуацией €вл€етс€ недостаток дан≠ных. ѕредположим, что программа обучаетс€ составлению диагноза в определенной области медицины. ¬ нашем распор€жении имеютс€ только данные о последних па≠циентах, а количество этих данных не может быть увеличено. ≈сли объем обучаю≠щих данных невелик, он может оказатьс€ недостаточным дл€ успешного обучени€. ¬ таком случае нехватка данных еще больше усугубл€етс€ тем, что часть данных не≠обходимо выделить дл€ использовани€ в качестве испытательного множества.

≈сли количество обучающих примеров невелико, то результаты обучени€ и испы≠тани€ подвержены значительным статистическим колебани€м. ќни могут зависеть от того, как именно было выполнено разбиение данных на обучающее и испытательное множество. ƒл€ устранени€ такой статистической неопределенности процесс обуче≠ни€ и испытани€ повтор€етс€ несколько раз (как правило, дес€ть) с использованием различных случайных разбиений. «атем результаты измерени€ точности усредн€ют≠с€, а их дисперси€ позвол€ет получить представление о стабильности оценки.

ƒальнейшим развитием метода проведени€ повторных испытаний такого типа €в≠л€етс€ к кратна€ перекрестна€ проверка (k-fold cross-validation). ѕри использова≠нии этого метода все обучающее множество случайным образом разбиваетс€ на к подмножеств. ѕосле этого обучение и испытание повтор€ютс€ дл€ каждого из этих подмножеств следующим образом: i-e подмножество удал€етс€ из данных, остальна€ часть данных используетс€ в качестве обучающего множества, после чего i-e под≠множество примен€етс€ дл€ испытани€ логически выведенной гипотезы. ѕолучен≠ные таким образом к результатов оценки точности усредн€ютс€, и вычисл€етс€ их дисперси€.  онкретного метода выбора значени€ к не существует, но в эксперимен≠тах по машинному обучению чаще всего примен€етс€ значение к - 10.

ќсобый случай перекрестной проверки возникает, если подмножества содержат только по одному элементу. ¬ каждой итерации обучение осуществл€етс€ по всем данным, кроме одного примера, а логически выведенные гипотезы провер€ютс€ на оставшемс€ примере. “ака€ форма перекрестной проверки называетс€ исключением одного примера (leave-one-out). ќна €вл€етс€ оправданной, если количество доступ≠ных данных особенно мало.





ѕоделитьс€ с друзь€ми:


ƒата добавлени€: 2015-10-01; ћы поможем в написании ваших работ!; просмотров: 450 | Ќарушение авторских прав


ѕоиск на сайте:

Ћучшие изречени€:

—ложнее всего начать действовать, все остальное зависит только от упорства. © јмели€ Ёрхарт
==> читать все изречени€...

1231 - | 1186 -


© 2015-2024 lektsii.org -  онтакты - ѕоследнее добавление

√ен: 0.011 с.