Grok 5 научат видеть интерфейсы как человек — и работать быстрее людей
Шэнь Чжоран, специалист по рассуждающим моделям в xAI, рассказал, что разработчики Grok 5 хотят натренировать модель играть в видеоигры как живой человек. Первым полигоном называют League of Legends и StarCraft 2, но настоящая цель эксперимента выходит далеко за рамки игр — в команде считают, что подобный опыт позволит улучшить то, как ИИ взаимодействует с любой программой.
Ранее крупные проекты в обучении игровых ИИ — вроде OpenAI Five и AlphaStar от Google DeepMind — работали с играми через специальную обвязку. Агент получал идеально структурированное состояние мира: координаты юнитов, точные значения здоровья, экономику, информацию о видимости. Действия тоже задавались высокоуровневыми командами, без риска "промахнуться" по кнопке или не успеть к нужному тику игрового цикла. В некоторых версиях у агента вообще была глобальная «карта» происходящего, недоступная человеку.
В новом подходе Grok 5 хотят лишить этих суперспособностей и заставить играть по тем же правилам, что и живых киберспортсменов: модель будет смотреть на экран через видеопоток, распознавать интерфейс, помнить события, которые уже ушли за кадр, и управлять игрой с помощью тех же инструментов, что и человек — мышь, клавиатура, горячие клавиши.
Из этого вырастает сразу несколько жестких требований. Во-первых, скорость: профессионалы в StarCraft 2 могут выдавать свыше 1000 действий в минуту, а реакция на критические события укладывается примерно в 150 миллисекунд. Модель должна успевать за то же время принять кадр с камеры, распознать интерфейс, оценить ситуацию и выдать действие — и делать это с частотой порядка десятков раз в секунду. Во-вторых, восприятие: ИИ обязан понимать пиксельный интерфейс на лету, различать панели, полоски здоровья, иконки способностей, мини-карту, таймеры, всплывающие окна, при этом удерживая в памяти то, что уже ушло с экрана. В-третьих, сложное мышление: нужно одновременно реагировать на внезапную засаду из кустов и играть по долгосрочному плану — учитывать состав команды, тайминги нейтральных объектов, будущие драки и экономику.
В xAI считают, что если такой агент сможет играть на уровне приличного игрока, то результат будет универсальным. Модель, которая умеет понимать сложный интерфейс и управлять им с человеческой или сверхчеловеческой скоростью, потенциально сможет работать в любом приложении: от написанной десять лет назад бухгалтерской программы до банковских терминалов и корпоративных CRM. Не нужно писать отдельные API и интеграции для каждого продукта — достаточно дать ИИ доступ к экрану, виртуальной клавиатуре и мыши.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.