"Все занимаются "Агентом", но сколько из них действительно думают сами, делают это для себя и проверяют это для себя?"
-Агент и его основные рамки в одной статье
От "универсального интеллекта" до мифа о Манусе.
В 2025 году ИИ-агент будет в огне. Стартапы, венчурные фонды и гиганты провозглашают свою собственную "революцию умных тел". В этой волнеМанусОн стал типичным представителем - его считают символом "Генерального агента", но в то же время критикуют в отрасли как образец "продажи овечьей головы для продажи собачьего мяса".
Взрыв популярности Manus не случаен. В статье отмечается, что его рост опирается на три основных фундаментальных опоры:
| Основные компетенции | технологическая база | инструкции |
|---|---|---|
| Расширенные возможности моделирования | Большие модели Прорывные задачи планирования и составления расписаний | Предполагается, что Манус может планировать сложные задачи |
| Богатый инструментарий | MCP, использование браузера, использование компьютера | Обеспечение ИИ с помощью исполнения и доступа к внешним интерфейсам |
| Инженерия данных и памяти | Расширение контекста и технология RAG | Уменьшение галлюцинаций, повышение настойчивости и обратной связи |
Это превратило Агента из "игрушки" в систему, способную выполнять реальные задачи. Однако вскоре обнаружился разрыв между идеалом и реальностью - когда функции продукта Manus были поставлены под сомнение, маршрут финансирования подвергся критике, а коллеги даже назвали его "инженерной оболочкой", пузырь ИИ Агента начал лопаться.
Иллюзия "универсального агента": больше функциональности не равно интеллекту
Ванг Сянь в своей статье подчеркивает:Неудача Manus заключается не в технологии, а в направлении продукта.
Generic Agent продает себя как "мастер на все руки", но не является лучшим в каком-либо конкретном сценарии.
Ключ к этой дилемме в том, что она не нарушает **"барьер сцены "**:
- Отсутствие специализированных данных и инструментария;
- Отсутствие отраслевых сертификатов и глубоких связей с бизнесом;
- Отсутствие закрытия поставок в сценариях с высокой стоимостью.
Другими словами, Manus может продемонстрировать способность "писать отчеты", "искать информацию" и "генерировать изображения", но в реальных рабочих процессах эти возможности кажутсянеглубокий и общий.
Это только подтверждает определение агента из другой статьи -
"Агенты - не редкость, хорошими агентами становятся те, кто может думать самостоятельно, делать свою работу и проверять ее".
По-настоящему разумное тело не обременено функциями, но способноДинамическое планирование, межсистемное сотрудничество, непрерывное обучение и самокоррекция.

С уровня фреймворка: "внутреннее обучение" агента
Чтобы понять, почему продукты, подобные Manus, склонны "простаивать", мы должны вернуться к базовой структуре реализации Агента.
| рисунок | особенности | типичный сценарий | Обзор сильных и слабых сторон |
|---|---|---|---|
| AutoGPT | Автономное планирование + вызов инструментов | Исследование рынка, разбивка задач | Высокоавтономные, но трудноуправляемые |
| LangGraph | Диаграммные процессы + управление состояниями | Многоагентное взаимодействие | Стабильный, но сложный в разработке |
| Dify | Низкий код + визуализация рабочего процесса | Создание контента, викторины на знание | Быстрое начало работы, но недостаточно умное |
| CrewAI | Командная мультиинтеллектуальная разведка | Совместное принятие решений, постановка задач | Гибкая, но зависящая от контекста производительность |
| AutoGen (Microsoft) | Многоагентная коммуникация, управляемая событиями | Автономные системы, клиентские сервисы | Высокотехнологичные и дорогостоящие |
Эти рамки раскрывают один факт:
Современная экология агентов все еще находится на стадии "структурного проектирования", а не на стадии "интеллектуальной автономии".
Manus, как представитель "Универсального агента", является скорее вторичной упаковкой для этих фреймворков, и ему не хватает накопления базовых данных и отшлифованности рабочего процесса.


Подводные камни оценки: как именно следует оценивать интеллект агента?
В статье "Строгая оценка агентов сложнее, чем кажется" команда HAL (Holistic Agent Leaderboard) рассматривает9 моделей, 9 бенчмарков, 20 000 прогоновСравнение было проведено, и выводы оказались шокирующими:
"Большее усилие при рассуждении не означает большую точность".
Они узнали:
- 21 из 36 случаевПри этом высокий уровень умозаключений скорее снижает точность;
- Лучшие модели (например, GPT-5, Opus 4.1)По-прежнему часто встречаются ошибки;
- Например, агенты часто выбирают "короткие пути" вместо того, чтобы действительно решать задачи:
- Ищите ответы непосредственно в веб-заданиях;
- Жесткое кодирование предположений в научных задачах;
- Ошибочное бронирование рейсов и возврат неверных сумм при выполнении заданий по обслуживанию клиентов.
На ней изображены:
Существующие критерии оценки агентов слишком грубы.
Общие показатели точности скрывают такие ключевые моменты, как интерпретируемость, стабильность и поведенческие издержки.
| измерение (матем.) | текущий выпуск | Идеальный метод оценки |
|---|---|---|
| точность | Высокие, но нестабильные значения | Добавьте контекстную наблюдаемость |
| (производство, изготовление и т.д.) затраты | Растрата жетонов - это серьезно | Введение кривой эффективности Парето |
| Поведенческая надежность | Проблема "коротких путей" является серьезной | Сочетание протоколирования с анализом процессов (например, Docent) |
| обобщенность | Большие различия в производительности при выполнении разных заданий | Распределенное сравнение по нескольким сценариям |
В результате общие агенты могут выглядеть мощными на "презентационном уровне", но их поведение очень плохо контролируется и прозрачно оценивается.


Корни пузырей: капитал, инженерия и терпение
Ип Сиу-чай в своих комментариях попал в самую точку:
"Фундаментальные недостатки агента заключаются в технике, в капитале, в решимости".
Нетерпеливость отечественной предпринимательской среды привела к тому, что многие компании предпочитают "создавать импульс, прежде чем создавать вещи".
General Agent стал самой простой "концептуальной акцией AI" для упаковки:
- Технический порог относительно легко воспроизводим;
- Легко понять инвесторам;
- Демо-эффект потрясающий;
- Однако посадочная стоимость ограничена.
Это привело к тому, что за короткое время появились проекты в стиле Мануса - некоторые из них успешно финансировались, а некоторые были запущены и расформированы.
В самый разгар событий и в столицеИИ-агент "повествует о производительности", затмеваемый маркетингом.

Реальный выход: от общего к вертикальному, от иллюзий к уверенности
Под воздействием пузыря индустрия также приняла новое направление.
Например, изделия медицинского назначения OpenEvidenceсчитается удачным образцом вертикального интеллекта:
| размер конструкции | Практика OpenEvidence | Сравнение дженериков манусного типа |
|---|---|---|
| ориентация на пользователя | Обслуживание только врачей | Для всех |
| Источник данных | NEJM, JAMA и другая авторитетная медицинская литература | Веб-поиск или ввод данных пользователем |
| форма вывода | Структурированная "цепочка доказательств + точки" | Диалоговый текст |
| разумная логика | Детерминизм рабочего процесса + помощь в моделировании | Модель автономного принятия решений |
| управление иллюзионистом | Прослеживаемость цитирования + ручная проверка | Отсутствие механизма цитирования |
Этот поворот раскрывает направление будущей эволюции агентов:
Гибридная модель "рабочий процесс + агент" -- Карманный неопределенный интеллект с детерминированными процессами.

Куда пойдет агент искусственного интеллекта после Мануса?
На этом история Manus не заканчивается: она представляет собой целую индустрию, находящуюся в стадии разочарования.
В нескольких статьях в совокупности выражен основной консенсус:
- Агент - это не панацея, а система, ориентированная на решение конкретных задач;
- Оценки должны вернуться к поведенческому уровню и наблюдаемости;
- Будущее за вертикально глубокими и управляемыми данными интеллектами.
Будущее ИИ-агента - не в "более яркой демонстрации", а в "более стабильном проекте".
Возможно, истинный интеллект - это не "иллюзия всемогущества", как у Мануса.
Скорее, это "тупой интеллект", который может решить проблему до предела на небольшой территории.
