Искусственная нейронная сеть (ИНС) представляет собой совокупность определенным образом соединенных между собой и с внешней средой нейронов трех типов – входных, выходных и промежуточных. С точки зрения топологии ИНС различают:
1) полносвязные НС (рис. 3.1 а), где каждый нейрон передает свой выходной сигнал всем остальным, в том числе и самому себе, все входные сигналы подаются всем нейронам, а выходными сигналами могут быть отклики всех или некоторых нейронов после нескольких тактов функционирования сети;
2) слоистые или многослойные НС, в которых нейроны расположены в несколько слоев. Нейроны нулевого слоя служат для приема входных сигналов и передачи их через точки ветвления всем нейронам следующего (скрытого) слоя без обработки, 1-й слой осуществляет первичную обработку входных сигналов и формирует сигналы для 2-го слоя, который таким же образом формирует сигналы для 3-го и т.д. вплоть до последнего слоя, который образует выход НС. Число нейронов в каждом слое может быть любым и никак не связанным с количеством нейронов в других слоях. Если не оговорено особо, то каждый выходной сигнал i-го слоя подается на входы всех нейронов (i+1)-го.
Среди многослойных НС выделяют, в свою очередь, следующие типы:
а) НС прямого распространения, в которых отсутствуют обратные связи (ОС), т.е. подача выходных сигналов любого слоя на входы нейронов этого же или любого предыдущего слоя.
б) рекуррентные НС, где указанные ОС присутствуют в том или ином варианте.
Наиболее часто используются трехслойные НС прямого распространения с одним скрытым слоем (рис. 3.1 б), которые иногда называют двухслойными из-за отсутствия обработки информации нейронами входного слоя;
3) слабосвязные НС, где нейроны располагаются в узлах прямоугольной или гексагональной решетки. При этом каждый нейрон может быть связан с четырьмя (окрестность фон Неймана, рис. 3.1 в), шестью (окрестность Голея) или восемью (окрестность Мура, рис. 3.1 г) ближайшими соседями.
Выбор структуры НС обусловлен спецификой решаемой задачи и подчиняется следующим правилам:
- информационная мощность НС возрастает с увеличением числа слоев, нейронов, связей, усилению мощности НС способствует также использование в ее составе различных типов нейронов;
- возможности НС увеличивает введение ОС, однако при этом возникает проблема обеспечения динамической устойчивости сети.
Вопрос о необходимых и достаточных свойствах НС для решения тех или иных задач представляет собой целое направление нейрокомпьютерной науки. Подробные рекомендации здесь практически отсутствуют и в большинстве случаев оптимальный вариант получается на основе интуитивного подбора, хотя в принципе для любого алгоритма существует реализующая его НС.
Подавляющая часть прикладных задач может быть сведена к реализации некоторого многомерного функционального преобразования (вход) X®Y (выход), где правильность выходных сигналов необходимо обеспечить в соответствии:
- со всеми примерами обучающей выборки;
- со всеми возможными входными сигналами, не вошедшими в обучающую выборку, что в значительной степени осложняет задачу формирования последней.
Вообще говоря, построить многомерное отображение X®Y – это значит представить его с помощью математических операций над не более чем двумя переменными. В результате многолетней научной полемики между А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о представимости непрерывных функций нескольких переменных суперпозицией непрерывных функций одной переменной, которая в 1987 году была переложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких переменных может быть представлена двухслойной НС с прямыми полными связями с N нейронами входного слоя, (2 N +1) нейронами скрытого слоя с ограниченными функциями активации (например, сигмоидальными) и М нейронами выходного слоя с неизвестными функциями активации.
Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следует, что для любой функции многих переменных существует отображающая ее НС фиксированной размерности, при настройке (обучении) которой могут использоваться три степени свободы:
- область значений сигмоидальных функций активации нейронов скрытого слоя;
- наклон сигмоид нейронов этого слоя;
- вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной выборки с р элементами нет, однако можно использовать одно из наиболее простых приближенных соотношений:
(3.1)
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие (при решении тех же задач) меньшие размерности матриц [W] нейронов скрытых слоев, однако строгой методики построения таких НС пока нет.