Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA

Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.

Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.

В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT (3.5) не справился с уровнями I и II. GPT-4 смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.

Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.

Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.

Gemini и GPT-5 лидируют в этом списке.

Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro - 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.

GPT-5 заняла лидирующую позицию на втором уровне, который проверяет применение и анализ на основе тематических исследований, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro - 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты». Проблема оказалась в этических аспектах. Исследователи сообщили об относительном уровне ошибок от 17 до 21 процента на втором уровне, даже для моделей с наилучшими результатами.

На третьем уровне - самом сложном этапе, сочетающем вопросы с множественным выбором и вопросы с открытым ответом - Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Однако Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%, что является значительным скачком по сравнению с 82,8% у его предшественника.

Уровень

Лучшая модель

Результат

Уровень I (тест с множественным выбором)

Gemini 3.0 Pro

97,6%

Уровень II (тест с множественным выбором)

ГПТ-5

94,3%

Уровень III (тест с множественным выбором)

Gemini 2.5 Pro

86,4%

Уровень III (ответы в развернутой форме)

Gemini 3.0 Pro

92,0%

Общий рейтинг

Gemini 3.0 Pro

1-е место

В исследовании использованы пробные экзамены CFA, составленные на основе официального практического пакета CFA Institute (уровни I и II) и пробных экзаменов AnalystPrep (уровень III). Для уровней I и II использовались официальные материалы, а для уровня III - пробные экзамены сторонних организаций, чтобы обеспечить сопоставимость с предыдущими исследованиями.

Модель o4-mini автоматизировала оценку открытых ответов. В исследовании отмечается, что это приводит к ошибкам измерения и возможному смещению в сторону многословности, когда подробные ответы получают более высокие баллы. Следовательно, результаты служат приближенными оценками, основанными на модели.

Проходные баллы были определены на основе предыдущих исследований: для уровня I требуется не менее 60 процентов по каждой теме и 70 процентов в целом. Для уровня II требуется не менее 50 процентов по каждой теме и 60 процентов в целом. Для уровня III требуется средний балл не менее 63 процентов по разделам с вопросами с множественным выбором и вопросами с развернутым ответом.

Сдать тест не означает выполнять работу.

Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена. В то время как выпускники магистратуры уже освоили кодифицированные знания уровней I и II, последнее поколение сейчас развивает навыки сложного синтеза, необходимые для уровня III.

Следует помнить об обычных оговорках. Бенчмарки - особенно тесты с несколькими вариантами ответа - лишь намекают на производительность и потенциальное экономическое влияние. Прохождение теста не означает, что модель способна справиться с повседневной работой финансового аналитика, которая включает в себя встречи с клиентами, оценку рыночных настроений и принятие решений при неполной информации.

В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами, которые часто требуют понимания контекста и принятия решений. Экзамены проверяют отдельные знания, а не способность применять их в сложных, меняющихся ситуациях реального мира.

Исследователи также не могут исключить загрязнение данных. Хотя они использовали актуальные платные материалы, вопросы могли проникнуть в обучающие данные через перефразированный контент в общедоступных наборах данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.

Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора, похоже, вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт