Google представила систему искусственного интеллекта DreamerV2, способную к самообучению в качестве программного агента на аркадных компьютерных играх. DreamerV2 использует механизм обучения с подкреплением (reinforcement learning), однако в отличие от большинства подобных агентов опирается на модель внешней среды, которая учитывает поведение и пространственные соотношения объектов игрового мира. Новая версия системы ИИ является продолжением предыдущих разработок компании и впервые показала лучшую производительность на тестовой линейке игр Atari по сравнению с ведущими системами ИИ, основанными на безмодельном обучении.
Digger — классическая аркадная игрушка.
Компании-разработчики самообучаемых нейросетей и систем искусственного интеллекта в качестве полигона часто используют старые аркадные игры (классический пример — Digger). Задача состоит в создании и обучении программного агента, взаимодействующего с объектами игры, и на ней можно обкатывать различные подходы к обучению нейросети. В реальном мире такие системы ИИ в будущем могли бы, например, использоваться в автономном транспорте. После обучения они должны определять, как транспортное средство будет реагировать на окружающую транспортную среду, в частности, на какой сигнал светофора следует проехать и т. д.
Традиционные подходы к обучению с подкреплением без использования моделей (model-free) обучают систему выбирать успешные действия путём многочисленных проб и ошибок при взаимодействии с окружением. В этом случае система получает поток информации с разнообразных датчиков (например, автомобиль получает изображения со своих камер) и выбирает действия в ответ на них — в случае автомобиля это может быть задание команд для двигателей. Обучение состоит в том, что действия могут в части случаев «поощряться» или «наказываться» в зависимости от того, приводят ли они к желаемой цели или нет (например, задаётся некоторая функция полезности, которая в дальнейшем помогает выбирать стратегию взаимодействия со средой, учитывая предыдущий опыт). Безмодельное обучение с подкреплением предполагает непосредственное предсказание оптимальных действий на основе входных сигналов — это подход «чёрного ящика». Если говорить о применении в аркадных игрушках, то система ничего «не знает» и не может знать о правилах игры, её коде, поведении персонажей, от которых нужно убегать (или которые нужно побеждать) — она просто наблюдает за картинкой на экране и учится по ней. Для каждой конфигурации объектов система учится предпочитать действия, приносящие максимум очков.
Обучение агента DreamerV2 в аркадных играх Atari.
Разработки последних лет в области обучения с подкреплением (Reincorced Learning, RL) позволили выйти на новый уровень с использованием подходов на основе моделей внешней среды («моделей мира», или world models). Система осваивает такие модели среды, исходя из подаваемых на вход изображений, и использует их для планирования действий. «Модели мира» позволяют обучиться на основе меньшего количества актов взаимодействия с окружением, а также, в теории, облегчают обобщение на основании оффлайн-данных (обучение по массивам архивных данных) и использование одних и тех же результатов обучения на множестве разных задач.
Если система ИИ рассматривает окружение не просто как чёрный ящик, а в рамках упрощённой модели внешней среды, она уже может предсказывать потенциальный результат тех или иных действий, то есть умеет проигрывать возможные сценарии развития событий и, соответственно, принимать информированные решения о поведении в новых ситуациях. Тем самым можно существенно сократить количество «проб и ошибок» для обучения. У этой идеи есть один недостаток: пока что качество моделей среды и итоговые результаты обучения в этом подходе ощутимо проигрывали ведущим системам, использующим «лобовой» безмодельный подход, включая и некоторые разработки Google, например, алгоритм DQN (Deep Q-Network) от Google DeepMind. В качестве одного из полигонов для проверки возможностей систем ИИ используется набор нескольких десятков старых аркадных игр платформы Atari (Atari benchmark).
В марте 2020 года Google представила предыдущую версию системы ИИ, Dreamer (v.1), которая реализовала алгоритм масштабируемого обучения с подкреплением (scalable reinforcement learning) с использованием моделей среды. Система для основных тестовых игр обучалась в среднем за 20—30 часов, в то время как безмодельные сетки требовали для сопоставимого результата обучения порядка 20 дней. Однако система ещё не могла превзойти ведущих «безмодельных» конкурентов в стандартном тесте (55 игр Atari). В феврале 2021 года вышла усовершенствованная модель ИИ DreamerV2, которая смогла обойти их по результативности и, наконец, преодолела условную планку сравнения с возможностями человека (human-level performance).
Обучение по пикселям при помощи «скрытой динамики».
Как и в предыдущей версии, DreamerV2 для построения модели внешней среды использует алгоритм PlaNet (Deep Planning Network) — игрового агента, который компания Google представила в 2019 году. Этот «движок» предназначен для изучения динамических моделей из картинок на входе и соответствующего планирования будущих действий. Это — шаг вперёд по сравнению с другими подходами, использующими «планирование по изображениям» (plan over images). Разработчики PlaNet использовали модель скрытой динамики (latent dynamics model), которая опирается на «скрытые», или латентные, состояния. Вместо прямого предсказания от одного изображения к следующему изображение и вознаграждение за действия агента на каждом следующем шаге просчитываются исходя из вычисленных скрытых состояний. Такая методика сжатия информации позволяет агенту обучаться на более абстрактных представлениях, учитывая, например, и положения, и скорости объектов.
Сравнение результативности различных систем ИИ на играх платформы Atari.
Улучшения моделей внешней среды по сравнению с предыдущими версиями удалось достичь благодаря нескольким нововведениям. Так, для представления изображений DreamerV2 вводит качественные (категорийные) переменные вместо обычных количественных, то есть гауссовых случайных переменных. Для таких переменных используются свои методики статистической обработки (непараметрическая статистика), отличные от работы с числовыми переменными. Изображения кодируются при помощи 32 таких категорийных переменных, каждая из которых может принимать значение в одном из 32 классов. Например, одна из переменных может быть «положение объекта», принимающая какое-либо из допустимых значений, другая — «выстрел противника(-ов)» со значениями «есть/нет» и т. д. Это позволило перейти к дискретному представлению игрового «мира». По разным причинам в специфическом окружении консольной игры такая параметризация оказалась предпочтительнее. Другое нововведение состоит в особом использовании «функции потерь», которая применяется для сравнения априорных и апостериорных распределений при просчитывании предсказаний модели. Авторы называют это усовершенствование «KL-балансированием» (KL balancing), и здесь речь идёт о некоем более оптимальном использовании стандартной в таких задачах меры сравнения распределений — относительной энтропии Кульбака-Лейблера (KL). Более подробно специалисты в области машинного обучения и интересующиеся могут прочитать в оригинальной исследовательской статье; также см. расширенную видеопрезентацию алгоритма непосредственно от авторов разработки.
В итоге DreamerV2 оказалась первой моделью среды, которая смогла достичь уровня человека на стандартном тестовом наборе платформы Atari. Для сравнения результативности с другими системами ИИ использовали набор из 55 популярных игр Atari, которые обычно применяются в таких задачах. В качестве эталона сравнения использовались и несколько ведущих безмодельных систем — DQN, IQN и Rainbow. В отличие от предыдущих разработок, включая Dreamer v.1, новая система с упрощённой моделью внешней среды наконец может конкурировать и с ними. Очевидно, это ещё один этап на пути к пониманию нейросетью реального мира.
Источник: