Команда In2AI – победитель MindGames Arena на NeurIPS 2025
Соревнование MindGames Arena проводится как часть одной из ключевых конференций в области ИИ NeurIPS 2025 и проверяет, могут ли агенты демонстрировать социально‑стратегические способности — моделировать убеждения других, обнаруживать обман, координироваться и планировать в многоходовых взаимодействиях — все это, общаясь на естественном языке. Команда In2AI Института AIRI, стартапа Coframe и Университета Иннополис заняла первое место в треке Generalization в двух категориях:
-
Efficient: модели с открытым исходным кодом до 8 миллиардов параметров.
-
Open: любые модели без ограничений на размер и стоимость, в том числе модели с закрытым исходным кодом (OpenAI, Google, Anthropic и др.).
Рассказываем о том, как им это удалось.
В рамках MindGames Arena агенты на базе LLM играют друг против друга в многошаговых сценариях. Их задача — не просто решать отдельные задачи, а вести диалог, строить гипотезы о намерениях других участников, координироваться и выдерживать длинные серии раундов.
Агенты соревновались в трех играх:
-
Codenames (две команды по два агента): командная игра на слова, где у каждой команды есть «ведущий» и «исполнитель». Ведущий даёт однословную подсказку и число, а исполнитель пытается открыть слова своей команды на поле, избегая «слово‑ассасин». Побеждает команда, первой раскрывшая все свои слова или оказавшаяся впереди по истечении лимита ходов.
-
Colonel Blotto (два агента играют друг против друга): дуэль на распределение ресурсов. Каждый раунд игроки раскладывают фиксированное число «юнитов» по нескольким полям боя, пытаясь выиграть большинство полей. Суть — угадать приоритеты соперника и перехитрить его распределение.
-
Three‑Player IPD (дилемма заключённого на троих): три агента общаются и затем независимо выбирают, с кем сотрудничать, а кого обмануть. Очки начисляются попарно, поэтому важно уметь строить альянсы, вовремя замечать манипуляции и решать, когда доверие окупается. Побеждает тот, кто набрал больше суммарных очков за все раунды.
Результаты агрегируются по множеству матчей и оппонентов, а качество игры оценивается рейтинговой системой TrueSkill, что стимулирует устойчивые и обобщающие стратегии.
Сложности
В такой постановке агенты на базе LLM ведут многошаговые диалоги, а итоговая награда приходит поздно и редко, что усложняет распределение кредита между отдельными сообщениями и действиями. Дополнительно присутствует высокая неопределенность: частичная наблюдаемость, скрытые роли и меняющиеся стратегии оппонентов — всё это затрудняет оценку полезности действий в момент их совершения. Поэтому участники из In2AI использовали компактные прокси‑метрики и агрегированное оценивание, чтобы поощрять победы и одновременно стабилизировать обучение.
Так как в списке игр есть и командная игра, необходимо было обучить модель играть как в одной команде с «умными» агентами, так и с «глупыми».
Как решили проблему
Команда переосмыслила привычный подход к обучению с подкреплением, где награда назначается сразу после каждого действия. Вместо этого была предложена новая парадигма отложенного присвоения наград с фильтрацией шагов: награды вычисляются в конце эпизода, распределяются обратно к исходным действиям на основе семантики задачи, а шаги без достаточного сигнала исключаются из обучения.
Для устранения смещения в сторону поведения конкретных ролей в процессе обучения команда реализовала равномерное семплирование по всем ролям и позициям в каждой игре. А чтобы модель не переобучалась на слабых оппонентах, применили curriculum learning: на ранних этапах агент играл против более слабых противников, а по мере обучения добавлялись сильные модели, включая GPT-5, Gemini 2.5 Pro и Grok 4.
Со стороны инфраструктуры команда провела значительную инженерную работу: пайплайн обучения асинхронно запускает множество игр параллельно, используя continuous batching, где каждый параллельный процесс получает ответ сразу по готовности, не дожидаясь остальных.
В основу метода обучения с подкреплением лёг RLOO (Reinforce Leave‑One‑Out), но с ключевым изменением: поскольку в мультишаговых играх нет повторяющихся состояний, группировали шаги по типу игр и считали относительную ценность действия в рамках игровой группы. Это позволило корректно нормализовать награды между разными играми и избежать интерференции между задачами.
Результаты
В обеих категориях модель от In2AI заняла первое место, среди соперников были агенты на базе как открытых, так и проприетарных систем, в том числе значительно более крупных. Победа в обоих треках показывает, что продуманная архитектура, обучение с подкреплением и устойчивые стратегии позволяют относительно небольшой модели конкурировать с проприетарными решениями.
В открытой категории решение команды обошло такие модели, как GPT-5, Gemini 2.5 Pro и Grok 4, подтвердив эффективность предложенного подхода.
Efficient Track (модели до 8B параметров)
|
Команда |
TrueSkill |
Win rate |
|---|---|---|
|
In2AI |
34.2 ± 1.3 |
87.0% |
|
STARS |
26.8 ± 1.1 |
36.2% |
|
RLGaming |
25.8 ± 1.1 |
28.5% |
|
Corleone |
24.4 ± 1.4 |
44.1% |
|
Odyssean |
16.6 ± 1.4 |
10.9% |
Open Track (без ограничений)
|
Команда |
TrueSkill |
Win rate |
|---|---|---|
|
In2AI |
38.0 ± 1.8 |
81.0% |
|
RLGaming |
37.1 ± 1.1 |
73.5% |
|
Odyssean |
34.2 ± 1.4 |
72.3% |
|
PsychSkull |
31.3 ± 1.4 |
62.8% |
|
Corleone |
28.6 ± 1.3 |
49.6% |
Соревнование MindGames Arena продолжает серию, посвящённую проблемам кооперации, манипуляции и доверия ИИ‑агентов и поднятую в прошлогоднем соревновании Concordia NeurIPS 2024. Тогда организаторами выступили Google DeepMind и Cooperative AI Foundation, а команда In2AI вошла в топ-5 победителей.
В будущем команда планирует опубликовать подробный отчет, описывающий детали проведенного исследования.
Состав команды
-
Алексей Коршук (Coframe, Университет Иннополис),
-
Александр Буянтуев (Университет Иннополис)
-
Илья Макаров (Институт AIRI, ИСП РАН, Университет Иннополис)