ИИ заставили играть в игры

Специалисты из компании Hao AI Lab, основанной на базе Калифорнийского университета в Сан-Диего (США), представили новый бенчмарк для оценки качества ИИ. Они использовали игру Super Mario Bros. («Супербратья Марио») 1985 года как тестовую платформу для изучения моделей ИИ. Разработанный ими фреймворк GamingAgent позволил моделям воспроизводить и симулировать игровой опыт, получая информацию о игре и правилах из скриншотов. Лучшей в тестах оказалась модель Claude 3.7 от Anthropic, за ней следовали Gemini 1.5 Pro от Google и GPT-4o от OpenAI. Исследователи отметили, что даже самая успешная модель показала результаты хуже, чем у начинающего геймера, возможно, из-за нехватки времени на принятие решений в игре. Андрей Карпатый, сооснователь OpenAI, подчеркнул сложность оценки ИИ в 2025 году из-за отсутствия конкретных метрик эффективности моделей генеративного искусственного интеллекта. В конце февраля исследование инженеров OpenAI показало, что ИИ-модели пока не способны заменить даже программиста-новичка из-за частых ошибок из-за непонимания контекста.
Источник и фото - lenta.ru