arXiv.org

Группа студентов из Стэнфордского университета научила нейросеть проходить одну из самых сложных игр для видеоприставки Atari 2600 при помощи голосовых команд на английском языке. Препринт исследования был опубликован на портале arXiv.org.

Как пишет N+1, большинство систем искусственного интеллекта, предназначенных для прохождения видеоигр, используют обучение с подкреплением. Это метод, при котором система получает оценку своих действий от игры, зарабатывая очки за прохождение. Алгоритм совершает случайные действия до получения награды, а затем пытается повторить их в будущем.

Стэнфордские студенты предложили иной подход к обучению. Чтобы ускорить процесс обучения, они решили сначала научить нейросеть понимать команды, написанные естественным языком, а для обучения использовали данные в виде пар команда - скриншот действия игрового персонажа. В качестве среды разработчики выбрали игру "Месть Монтесумы", которая часто используется для тренировки искусственного интеллекта. Особенность этой игры состоит в том, что в ней редко встречаются "награды", необходимые для успешного прохождения, и поэтому искусственному интеллекту трудно понять, какие действия ведут к победе.

После обучения командам разработчики дали нейросети набор команд, выполнение которых позволяло пройти каждую из игровых комнат. Чтобы проверить, что алгоритм научился понимать команды, авторы дали ему пройти комнату с набором команд вроде "поднимись по лестнице" без накопленных данных о предыдущих тренировках. В ходе этой проверки искусственный интеллект смог правильно интерпретировать команды человека и пройти уровень. При этом программа игнорировала команды, если находила более оптимальную стратегию для прохождения.

Оценка, проведенная при помощи платформы для разработки и сравнения алгоритмов обучения с подкреплением OpenAI Gym, показала высокую эффективность новой методики. Разработанный студентами алгоритм набрал 3500 очков против 2500 у самого успешного конкурента. На данный момент только алгоритм Google DeepMind набрал больше (6600 очков), однако его тренировка продолжалась вдвое дольше.

В перспективе разработчики рассчитывают усовершенствовать алгоритм, сделав его более независимым за счет уменьшения количества инструкций.