ИИ заставили играть в игры

Специалисты из компании Hao AI Lab, основанной на базе Калифорнийского университета в Сан-Диего (США), представили новый бенчмарк для оценки качества ИИ. Они использовали игру Super Mario Bros. («Супербратья Марио») 1985 года как тестовую платформу для изучения моделей ИИ. Разработанный ими фреймворк GamingAgent позволил моделям воспроизводить и симулировать игровой опыт, получая информацию о игре и правилах из скриншотов. Лучшей в тестах оказалась модель Claude 3.7 от Anthropic, за ней следовали Gemini 1.5 Pro от Google и GPT-4o от OpenAI. Исследователи отметили, что даже самая успешная модель показала результаты хуже, чем у начинающего геймера, возможно, из-за нехватки времени на принятие решений в игре. Андрей Карпатый, сооснователь OpenAI, подчеркнул сложность оценки ИИ в 2025 году из-за отсутствия конкретных метрик эффективности моделей генеративного искусственного интеллекта. В конце февраля исследование инженеров OpenAI показало, что ИИ-модели пока не способны заменить даже программиста-новичка из-за частых ошибок из-за непонимания контекста.

Источник и фото - lenta.ru

Может быть интересно

В действиях Маска увидели угрозу государственной тайне США
Увольнение госслужащих с доступом к государственной тайне американским предпринимателем и руководителем Департамента государственной эффективности (DOGE) США Илоном ...
4 марта 2025
Telegram ужесточил лимиты для пользователей без платной подписки
Популярный мессенджер Telegram ужесточил ограничения на количество историй для пользователей без подписки Premium.
4 марта 2025
Минобороны показало кадры уничтожения французского танка ВСУ
Российский дрон с оптоволоконным соединением уничтожил французский танк AMX-10, поставленный Вооруженным силам Украины (ВСУ).
4 марта 2025
Уничтожение Росгвардией танка ВСУ в Курской области попало на видео
В Курской области Росгвардия уничтожила танк Вооруженных сил Украины (ВСУ) в результате операции спецназа.
4 марта 2025
Татуировки признали причиной развития рака кожи и лимфомы
Исследование, проведенное учеными Университета Южной Дании и Хельсинкского университета на выборке из 5900 близнецов, показало, что наличие татуировок может увеличить риск р...
4 марта 2025
Выгоду от покупки первичного и готового жилья сравнили
При выборе между новостройкой и готовым жильем, важно учитывать более гибкие условия при покупке, которые предлагают разработчики.
4 марта 2025
Экономист спрогнозировала темпы подорожания кофе в России
К к концу 2025 года цены на кофе для россиян увеличатся на 20-25 процентов, предупредила доцент кафедры финансов и цен РЭУ имени Г.
4 марта 2025
Поставки российской нефти по «Дружбе» в Чехию остановились
Нефтепровод «Дружба» в Чехию снова приостановил прокачку нефти, однако государственные резервы позволяют избежать дефицита сырья.
4 марта 2025