Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.

Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.

В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT (3.5) не справился с уровнями I и II. GPT-4 смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.

Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.

Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.

Gemini и GPT-5 лидируют в этом списке.

Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro - 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.

GPT-5 заняла лидирующую позицию на втором уровне, который проверяет применение и анализ на основе тематических исследований, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro - 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты». Проблема оказалась в этических аспектах. Исследователи сообщили об относительном уровне ошибок от 17 до 21 процента на втором уровне, даже для моделей с наилучшими результатами.

На третьем уровне - самом сложном этапе, сочетающем вопросы с множественным выбором и вопросы с открытым ответом - Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Однако Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%, что является значительным скачком по сравнению с 82,8% у его предшественника.

Уровень	Лучшая модель	Результат
Уровень I (тест с множественным выбором)	Gemini 3.0 Pro	97,6%
Уровень II (тест с множественным выбором)	ГПТ-5	94,3%
Уровень III (тест с множественным выбором)	Gemini 2.5 Pro	86,4%
Уровень III (ответы в развернутой форме)	Gemini 3.0 Pro	92,0%
Общий рейтинг	Gemini 3.0 Pro	1-е место

В исследовании использованы пробные экзамены CFA, составленные на основе официального практического пакета CFA Institute (уровни I и II) и пробных экзаменов AnalystPrep (уровень III). Для уровней I и II использовались официальные материалы, а для уровня III - пробные экзамены сторонних организаций, чтобы обеспечить сопоставимость с предыдущими исследованиями.

Модель o4-mini автоматизировала оценку открытых ответов. В исследовании отмечается, что это приводит к ошибкам измерения и возможному смещению в сторону многословности, когда подробные ответы получают более высокие баллы. Следовательно, результаты служат приближенными оценками, основанными на модели.

Проходные баллы были определены на основе предыдущих исследований: для уровня I требуется не менее 60 процентов по каждой теме и 70 процентов в целом. Для уровня II требуется не менее 50 процентов по каждой теме и 60 процентов в целом. Для уровня III требуется средний балл не менее 63 процентов по разделам с вопросами с множественным выбором и вопросами с развернутым ответом.

Сдать тест не означает выполнять работу.

Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена. В то время как выпускники магистратуры уже освоили кодифицированные знания уровней I и II, последнее поколение сейчас развивает навыки сложного синтеза, необходимые для уровня III.

Следует помнить об обычных оговорках. Бенчмарки - особенно тесты с несколькими вариантами ответа - лишь намекают на производительность и потенциальное экономическое влияние. Прохождение теста не означает, что модель способна справиться с повседневной работой финансового аналитика, которая включает в себя встречи с клиентами, оценку рыночных настроений и принятие решений при неполной информации.

В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами, которые часто требуют понимания контекста и принятия решений. Экзамены проверяют отдельные знания, а не способность применять их в сложных, меняющихся ситуациях реального мира.

Исследователи также не могут исключить загрязнение данных. Хотя они использовали актуальные платные материалы, вопросы могли проникнуть в обучающие данные через перефразированный контент в общедоступных наборах данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.

Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора, похоже, вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

---
2025-12-14

Что такое Grok

Регистрация Grok в России

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

Маск проиграл OpenAI в суде — но главное дело на $134,5 млрд еще впереди

«Украли у воров»: Маск высмеял Anthropic за обвинения в адрес DeepSeek, Moonshot AI и MiniMax

Как оживить фото нейросетью бесплатно и без регистрации? Нормально никак, но пойдем варианты

Топ-6 бесплатных AI-сервисов для генерации 3D-моделей

Иск на $134 миллиарда: как ChatGPT теряет пользователей, пока Google и Илон Маск захватывают трон

Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт

Кому принадлежит Grok?
Как работает Grok?
Является ли Grok точным?
Может ли Grok помочь с конкретными задачами или вопросами?
Является ли Grok бесплатным сервисом?
Можно ли использовать Grok на мобильных устройствах?
Доступен ли Grok на разных языках?
Как начать работу с Grok?

Обновления new

Что такое Grok ^2025-08-31
Grok — это нейросеть, созданная компанией xAI Илона Маска. Её можно назвать прямым конкурентом ChatGPT от OpenAI.

Войти в Grok ^2025-08-31
Появление революционного искусственного интеллекта, способного коренным образом изменить наше настоящее и сформировать контуры будущего. Grok от xAI

Регистрация Grok в России ^2025-08-31
Grok — это современная нейросеть от компании xAI (Илона Маска), которая отличается прямым, иногда провокационным и юмористическим стилем общения. В