ИИ провалил «цифровую жизнь»: Huawei представила тест на реальность

Китайский технологический гигант Huawei представил новый амбициозный бенчмарк под названием Claw-Anything, призванный оценить способности искусственного интеллекта в условиях, максимально приближенных к реальной цифровой жизни человека.

Симуляция Claw-Anything воссоздает многомесячный период существования в цифровом пространстве, требуя от ИИ-агентов выполнения широкого круга задач. ИИ-помощникам предстояло управлять электронной почтой, планировать встречи, взаимодействовать в социальных сетях, решать повседневные проблемы и принимать решения, имитируя сложность и многогранность человеческой деятельности на протяжении длительного времени.

Цель бенчмарка — оценить, насколько эффективно ИИ может справляться с долгосрочным планированием, адаптацией к меняющимся условиям и интеграцией различных цифровых инструментов, что является ключевым для создания по-настоящему автономных агентов.

Однако результаты первых испытаний показали значительные ограничения современных моделей ИИ. Даже GPT-5.5, одна из самых передовых и мощных доступных на сегодняшний день моделей, смогла выполнить лишь 34,5% поставленных задач.

Этот низкий показатель подчёркивает, что, несмотря на впечатляющие успехи в отдельных областях, ИИ ещё далёк от способности автономно и надёжно управлять сложной, динамичной цифровой жизнью человека в течение длительного времени. Исследование Huawei демонстрирует, что для достижения по-настоящему интеллектуальных и самостоятельных ИИ-агентов предстоит преодолеть ещё немало технологических барьеров.

Источник: Decrypt