Недавняя ИИ-разработка компании DeepMind обыгрывает своих предшественников в го, шахматы, сёги и игры от Atari, усваивая правила игры без помощи человека. Сейчас её уже начинают пробовать использовать в прикладных задачах, например в поиске новых способов сжатия видео, которые смогли бы ускорить передачу данных при воспроизведении потокового видео на YouTube.
Дэвид Сильвер (David Silver), главный исследователь DeepMind’а, поговорил с BBC:
«Мир вокруг нас — беспорядочный и сложный, но никто нам не рассказывает, по каким правилам он функционирует. Тем не менее, люди способны строить планы и стратегии относительно того, что делать дальше».
Впервые у людей есть система, которая сама выстраивает свою картину мира, своё представление о том, как он работает, и даже использует его, чтобы строить планы на несколько шагов вперёд. Она учится методом проб и ошибок, усваивает правила игры и выводит лучшие стратегии для победы, не сравнимые с теми, которые может вывести человек.
DeepMind анонсировал MuZero в 2019, но не начинал дискуссию вокруг проекта, так как ждал, пока соответствующая публикация пройдёт процесс рецензирования в журнале Nature.
MuZero — это большой успех в области обучения с подкреплением, в которой используются модели нейросетей, обучающиеся методом проб и ошибок. Разработку можно поставить в один логический ряд с:
-
Программой, известной как DQN, которая превзошла человеческих игроков в видеоиграх от Atari, имея в качестве входных данных только пиксели картинки и текущий счёт,
AlphaGo, программой, которая в 2016 году, после обучения на корпусе завершённых игр, обыграла в го мастера игры Ли Седоля (Lee Sedol) со счётом 4:1,
AlphaGo Zero, которая тренировалась сама, будучи снабжённой только правилами игры, и в 2017 году обыграла AlphaGo,
AlphaZero, в которой обобщены принципы AlphaGo Zero таким образом, что программа может работать и с другими играми.
А совсем недавно DeepMind при помощи этой же технологии сделал прорыв в фолдинге белков.
В данный момент, по словам Сильвера, идёт работа по поиску новых алгоритмов сжатия видео при помощи MuZero. Учитывая, что Google владеет YouTube’ом, крупнейшей платформой потокового видео, новое более эффективное кодирование позволит компании уменьшить расходы на передачу данных.
DeepMind не первый попытался создать ИИ-агента, который сам моделирует среду и сам же учится ориентированию в ней, но предыдущие попытки терпели неудачи из-за высокой сложности «визуально богатых» (visually rich) старых компьютерных игр типа Pac-Man‘а.
Компания считает, что успех достигнут благодаря тому, что MuZero моделирует только те аспекты среды, которые являются важными для процесса принятия решений, а не всю среду со всей её сложностью.
Знание, что зонтик поможет не промокнуть, полезнее, чем моделирование поведения капель воды в воздухе.
так написано в блоге компании.
Статья в Nature гласит, что MuZero играет в го немного лучше, чем AlphaZero, но делает меньше шагов поиска в дереве поиска. Также она в 42 из 57 игр обыграла R2D2 — лучший алгоритм для игр Atari, и это на уровне, когда процесс обучения был пройден лишь наполовину. Это всё указывает на то, что MuZero может вычленять больше паттернов из меньшего количества данных, чем это было возможно ранее.
Потенциальные области применения агента — это разработка виртуальных ассистентов, алгоритмов персонализированной медицины и технологий для поиска и спасения людей.
Венди Холл (Wendy Hall), профессорка информатики из Университета Саутгемптона (University of Southampton), подчёркивает, что достигнутые результаты действительно поразительны. Её, однако, огорчает, что разработчики уделяют мало внимания этическим аспектам последствий применения на практике данной разработки.
Источник: