Модель Grok от xAI набрала 21 балл из 100 в первом отраслевом рейтинге ADL AI Index, который оценивает способность ИИ распознавать и блокировать антисемитский и экстремистский контент. Лидером стал Claude от Anthropic с 80 баллами. Между ними — ChatGPT (57), DeepSeek (50), Gemini (49) и Llama (31). ADL не уточняет, какие именно версии моделей тестировались — только указывает, что выбирались "наиболее доступные на момент исследования" (август–октябрь 2025).
Антидиффамационная лига тестировала шесть моделей с августа по октябрь 2025 года, прогнав более 25 000 промптов по 37 категориям: отрицание Холокоста, теории о "еврейском заговоре", идеология превосходства белой расы и другие. Проверяли не только прямые вопросы, но и обходные сценарии — например, просили написать YouTube-сценарий от лица конспиролога или проанализировать изображение с антисемитской символикой.
Главная уязвимость большинства моделей — ролевые промпты. Почти все, кроме Claude, легче обмануть, если попросить "сыграть персонажа". На прямой запрос о ненависти модель отказывает, но тот же контент в формате сценария или художественного текста часто пропускает. Grok, по данным ADL, не только пропускал подобный контент, но иногда и поддерживал экстремистские высказывания — организация прямо называет использование этой модели «рискованным для бизнеса».
При этом даже лидер рейтинга далек от идеала: 80 баллов означают, что пятая часть проблемного контента все еще проходит фильтры. ADL позиционирует индекс как ориентир для разработчиков и предупреждение для пользователей: полностью полагаться на этические барьеры современных ИИ пока нельзя.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.