Манус и пузырь агентов ИИ: от идеала к разочарованию

"Все занимаются "Агентом", но сколько из них действительно думают сами, делают это для себя и проверяют это для себя?"
-Агент и его основные рамки в одной статье


От "универсального интеллекта" до мифа о Манусе.

В 2025 году ИИ-агент будет в огне. Стартапы, венчурные фонды и гиганты провозглашают свою собственную "революцию умных тел". В этой волнеМанусОн стал типичным представителем - его считают символом "Генерального агента", но в то же время критикуют в отрасли как образец "продажи овечьей головы для продажи собачьего мяса".

Взрыв популярности Manus не случаен. В статье отмечается, что его рост опирается на три основных фундаментальных опоры:

Основные компетенциитехнологическая базаинструкции
Расширенные возможности моделированияБольшие модели Прорывные задачи планирования и составления расписанийПредполагается, что Манус может планировать сложные задачи
Богатый инструментарийMCP, использование браузера, использование компьютераОбеспечение ИИ с помощью исполнения и доступа к внешним интерфейсам
Инженерия данных и памятиРасширение контекста и технология RAGУменьшение галлюцинаций, повышение настойчивости и обратной связи

Это превратило Агента из "игрушки" в систему, способную выполнять реальные задачи. Однако вскоре обнаружился разрыв между идеалом и реальностью - когда функции продукта Manus были поставлены под сомнение, маршрут финансирования подвергся критике, а коллеги даже назвали его "инженерной оболочкой", пузырь ИИ Агента начал лопаться.


Иллюзия "универсального агента": больше функциональности не равно интеллекту

Ванг Сянь в своей статье подчеркивает:Неудача Manus заключается не в технологии, а в направлении продукта.
Generic Agent продает себя как "мастер на все руки", но не является лучшим в каком-либо конкретном сценарии.

Ключ к этой дилемме в том, что она не нарушает **"барьер сцены "**:

  • Отсутствие специализированных данных и инструментария;
  • Отсутствие отраслевых сертификатов и глубоких связей с бизнесом;
  • Отсутствие закрытия поставок в сценариях с высокой стоимостью.

Другими словами, Manus может продемонстрировать способность "писать отчеты", "искать информацию" и "генерировать изображения", но в реальных рабочих процессах эти возможности кажутсянеглубокий и общий.

Это только подтверждает определение агента из другой статьи -

"Агенты - не редкость, хорошими агентами становятся те, кто может думать самостоятельно, делать свою работу и проверять ее".

По-настоящему разумное тело не обременено функциями, но способноДинамическое планирование, межсистемное сотрудничество, непрерывное обучение и самокоррекция.


С уровня фреймворка: "внутреннее обучение" агента

Чтобы понять, почему продукты, подобные Manus, склонны "простаивать", мы должны вернуться к базовой структуре реализации Агента.

рисунокособенноститипичный сценарийОбзор сильных и слабых сторон
AutoGPTАвтономное планирование + вызов инструментовИсследование рынка, разбивка задачВысокоавтономные, но трудноуправляемые
LangGraphДиаграммные процессы + управление состояниямиМногоагентное взаимодействиеСтабильный, но сложный в разработке
DifyНизкий код + визуализация рабочего процессаСоздание контента, викторины на знаниеБыстрое начало работы, но недостаточно умное
CrewAIКомандная мультиинтеллектуальная разведкаСовместное принятие решений, постановка задачГибкая, но зависящая от контекста производительность
AutoGen (Microsoft)Многоагентная коммуникация, управляемая событиямиАвтономные системы, клиентские сервисыВысокотехнологичные и дорогостоящие

Эти рамки раскрывают один факт:

Современная экология агентов все еще находится на стадии "структурного проектирования", а не на стадии "интеллектуальной автономии".

Manus, как представитель "Универсального агента", является скорее вторичной упаковкой для этих фреймворков, и ему не хватает накопления базовых данных и отшлифованности рабочего процесса.


Подводные камни оценки: как именно следует оценивать интеллект агента?

В статье "Строгая оценка агентов сложнее, чем кажется" команда HAL (Holistic Agent Leaderboard) рассматривает9 моделей, 9 бенчмарков, 20 000 прогоновСравнение было проведено, и выводы оказались шокирующими:

"Большее усилие при рассуждении не означает большую точность".

Они узнали:

  • 21 из 36 случаевПри этом высокий уровень умозаключений скорее снижает точность;
  • Лучшие модели (например, GPT-5, Opus 4.1)По-прежнему часто встречаются ошибки;
  • Например, агенты часто выбирают "короткие пути" вместо того, чтобы действительно решать задачи:
    • Ищите ответы непосредственно в веб-заданиях;
    • Жесткое кодирование предположений в научных задачах;
    • Ошибочное бронирование рейсов и возврат неверных сумм при выполнении заданий по обслуживанию клиентов.

На ней изображены:
Существующие критерии оценки агентов слишком грубы.
Общие показатели точности скрывают такие ключевые моменты, как интерпретируемость, стабильность и поведенческие издержки.

измерение (матем.)текущий выпускИдеальный метод оценки
точностьВысокие, но нестабильные значенияДобавьте контекстную наблюдаемость
(производство, изготовление и т.д.) затратыРастрата жетонов - это серьезноВведение кривой эффективности Парето
Поведенческая надежностьПроблема "коротких путей" является серьезнойСочетание протоколирования с анализом процессов (например, Docent)
обобщенностьБольшие различия в производительности при выполнении разных заданийРаспределенное сравнение по нескольким сценариям

В результате общие агенты могут выглядеть мощными на "презентационном уровне", но их поведение очень плохо контролируется и прозрачно оценивается.


Корни пузырей: капитал, инженерия и терпение

Ип Сиу-чай в своих комментариях попал в самую точку:

"Фундаментальные недостатки агента заключаются в технике, в капитале, в решимости".

Нетерпеливость отечественной предпринимательской среды привела к тому, что многие компании предпочитают "создавать импульс, прежде чем создавать вещи".
General Agent стал самой простой "концептуальной акцией AI" для упаковки:

  • Технический порог относительно легко воспроизводим;
  • Легко понять инвесторам;
  • Демо-эффект потрясающий;
  • Однако посадочная стоимость ограничена.

Это привело к тому, что за короткое время появились проекты в стиле Мануса - некоторые из них успешно финансировались, а некоторые были запущены и расформированы.
В самый разгар событий и в столицеИИ-агент "повествует о производительности", затмеваемый маркетингом.


Реальный выход: от общего к вертикальному, от иллюзий к уверенности

Под воздействием пузыря индустрия также приняла новое направление.
Например, изделия медицинского назначения OpenEvidenceсчитается удачным образцом вертикального интеллекта:

размер конструкцииПрактика OpenEvidenceСравнение дженериков манусного типа
ориентация на пользователяОбслуживание только врачейДля всех
Источник данныхNEJM, JAMA и другая авторитетная медицинская литератураВеб-поиск или ввод данных пользователем
форма выводаСтруктурированная "цепочка доказательств + точки"Диалоговый текст
разумная логикаДетерминизм рабочего процесса + помощь в моделированииМодель автономного принятия решений
управление иллюзионистомПрослеживаемость цитирования + ручная проверкаОтсутствие механизма цитирования

Этот поворот раскрывает направление будущей эволюции агентов:

Гибридная модель "рабочий процесс + агент" -- Карманный неопределенный интеллект с детерминированными процессами.


Куда пойдет агент искусственного интеллекта после Мануса?

На этом история Manus не заканчивается: она представляет собой целую индустрию, находящуюся в стадии разочарования.
В нескольких статьях в совокупности выражен основной консенсус:

  1. Агент - это не панацея, а система, ориентированная на решение конкретных задач;
  2. Оценки должны вернуться к поведенческому уровню и наблюдаемости;
  3. Будущее за вертикально глубокими и управляемыми данными интеллектами.

Будущее ИИ-агента - не в "более яркой демонстрации", а в "более стабильном проекте".
Возможно, истинный интеллект - это не "иллюзия всемогущества", как у Мануса.
Скорее, это "тупой интеллект", который может решить проблему до предела на небольшой территории.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep