Сравнительный анализ результатов алгоритмов
В среде LunarLander-v2 первая модель получает большинство наград в интервале (100 — 200), но довольно значительная часть наград оказывается в диапазоне (-50 — 20). Вторая модель же получает большинство своих наград в диапазоне (20 — 120) и небольшую часть в интервале (190 — 250), отрицательные награды (проигранные игры) у нее почти не встречаются. Функции активации В процессе работы было… Читать ещё >
Сравнительный анализ результатов алгоритмов (реферат, курсовая, диплом, контрольная)
В данной части работы будет проведен анализ зависимостей главных показателей у описанных вышей нейронных сетей (время обучения и получаемая награда) в зависимости от архитектуры сети и подхода к ее обучению.
Время обучения Так как у второй модели на 10 нейронов больше во внутреннем слое, предполагается, что она должна обучаться дольше, чем первая. Однако, это не так.
В среде LunarLander-v2 первая модель добилась награды равной 200 только на 70 поколении, в то время, как лучший из родителей второй модели добился награды больше 200 уже на 45 поколении.
В среде CartPole-v0 первая модель добилась награды равной 200 только на 20 поколении, в то время, как лучший из родителей второй модели добился награды больше 200 уже на 10 поколении.
Однако, в обоих средах средние награды поколений (не включая награды родителей) второй модели уступают наградам первой. Но это не существенно, так как в качестве обученной сети берется лучшая из родителей, что дает отличные результаты в тестах.
Получаемая награда Опять же, в силу того, что у второй модели на 10 нейронов больше во внутреннем слое, предполагается, что она должна показывать лучшие результаты, чем первая. И это так.
В среде LunarLander-v2 первая модель получает большинство наград в интервале (100 — 200), но довольно значительная часть наград оказывается в диапазоне (-50 — 20). Вторая модель же получает большинство своих наград в диапазоне (20 — 120) и небольшую часть в интервале (190 — 250), отрицательные награды (проигранные игры) у нее почти не встречаются.
В среде CartPole-v0 обе модели показывают одинаково отличные результаты: набирают максимум во всех играх.
Таким образом, в игре LunarLander-v2 вторая модель в подавляющем количестве случаев выигрывает, хоть и с небольшим счетом, в то время как первая модель показывает не сбалансированные результаты: то очень высокий счет, то отрицательный.
Функции активации В процессе работы было выявлено, что если во второй моделе на внутреннем слое использовать функцию активации из первой модели (Rectifier), то она не может обучиться до достаточно высокого уровня игры. Поэтому было принято решение использовать функцию Softmax.
Зависимости производительности модели от функции активации на выходном слое не было найдено.
Выводы Таким образом, исходя из результатов экспериментов можно сказать, что:
- 1. При увеличении количества нейронов во внутреннем слое нейронной сети достигаются более стабильные результаты в игре;
- 2. Генетический подход к обучению позволяет настроить параметры сети быстрее, чем Эволюционный;
- 3. Для разных подходов к обучению необходимы различные функции активации во внутреннем слое нейронной сети.
Исходя и всего вышеперечисленного можно сказать, что цель работы была достигнута. Представленные алгоритмы являются обобщенными и способны обучаться для успешной работы в разных средах при использовании общей архитектуры модели.