マヌスとAIエージェント・バブル:理想から幻滅へ

"誰もがエージェントをやっているが、実際に自分で考え、自分で実行し、自分で見直す人がどれだけいるだろうか?"
-エージェントとその主流フレームワークの記事


普遍的知性」からマヌス神話まで。

2025年、AIエージェントは燃えている。新興企業、ベンチャーキャピタル、大手企業がこぞって「知的身体革命」を謳う。この波の中でマヌス代表的な存在となっている。「総代理店」の象徴とされる一方で、「犬肉を売るために羊の頭を売る」バブルの見本だと業界からは批判されている。

マヌス人気の爆発は偶然ではない。記事は、その台頭が3つの主要な基盤に依存していることを指摘している:

コア・コンピテンシー技術基盤指示
モデリング機能の強化大規模モデルによる計画・スケジューリング問題のブレークスルーマヌスが複雑な仕事を計画できるという前提
豊富なツールチェーンMCP、ブラウザ使用、コンピュータ使用実行と外部インターフェイスへのアクセスでAIを実現
データ・メモリ工学コンテキスト拡張とRAGテクノロジー幻覚の減少、持続性とフィードバックの増加

これにより、Agentは「おもちゃ」から実世界のタスクを実行できるシステムへと変貌を遂げた。しかし、理想と現実のギャップはすぐに現れた。マヌスの製品機能が疑問視され、資金調達ルートが批判され、さらには同業者から「エンジニアリング・シェル」とまで呼ばれるようになると、AIエージェントのバブルは崩壊し始めた。


ユニバーサル・エージェント "の幻想:多機能=インテリジェンスではない

王憲は論文の中でこう指摘している:マヌスの失敗は技術ではなく、製品の方向性にある.
ジェネリック・エージェントは "何でも屋 "であることを売りにしているが、特定のシナリオにおいてベストというわけではない。

このジレンマの鍵は、**「シーンの壁」**を破らないことだ:

  • 専門領域のデータとツールチェーンの欠如;
  • 業界資格やビジネスとの深いつながりがない;
  • 高価値のシナリオにおける納品閉鎖の欠如。

言い換えれば、マヌスは「レポートを書く」「情報を調べる」「写真を生成する」能力を示すことができるが、実際のワークフローでは、これらの能力は以下のようになるようだ。浅く一般的.

これは、別の記事にあったエージェントの定義を裏付けるものだ。

"エージェントは珍しい存在ではなく、自分で考え、自分で仕事をし、自分で自分の仕事を見直すことができる人が優秀なエージェントなのです"

真にインテリジェントな身体とは、機能を積み重ねたものではなく、次のことができるものである。ダイナミックなプランニング、システムを超えたコラボレーション、継続的な学習と自己修正.


フレームワークレベルから:エージェントの "内部トレーニング"

マヌスのような製品が "アイドル "になりがちな理由を理解するには、エージェントの基本的な実装フレームワークに立ち戻る必要がある。

図案特性典型的なシナリオ強みと弱みの概要
オートGPT自律的プランニング+ツール呼び出し市場調査、タスクの内訳自律性は高いが制御が難しい
ラングラフ図式化されたプロセス+状態管理マルチ・エージェント・コラボレーション安定はしているが、開発は複雑
ダイファイローコード+ワークフローの可視化コンテンツ作成、知識クイズすぐに始められるが、スマートさに欠ける
クルーAIチームベースのマルチインテリジェンス共同での意思決定、タスキング柔軟だが文脈に依存するパフォーマンス
オートジェン(マイクロソフト)イベント駆動型マルチエージェント・コミュニケーション自律システム、クライアント・サービス高度な技術とコスト

これらの枠組みは、ある事実を明らかにしている:

現在のエージェント・エコロジーは、真の「インテリジェントな自律性」の段階ではなく、まだ「構造工学」の段階にある。

Manusは "Universal Agent "の代表として、これらのフレームワークの二次的なパッケージであり、基盤となるデータの蓄積やワークフローの洗練に欠けている。


評価の落とし穴:エージェントのインテリジェンスは具体的にどのように数値化すべきか?

HAL(ホリスティック・エージェント・リーダーボード)チームは、「厳密なエージェント評価は、見た目よりも難しい」の中で、次のような考察を行っている。9モデル、9ベンチマーク、20,000回実行比較が行われ、その結論は衝撃的なものだった:

"推理の努力が高ければ精度が高いというわけではない"

彼らは発見した:

  • 36件中21件高い推論はむしろ精度を低下させる;
  • トップモデル(GPT-5、Opus 4.1など)まだ頻繁にエラーがある;
  • 例えば、エージェントはしばしば、実際にタスクを解決するよりも「近道」を選ぶ:
    • ウェブタスクで直接答えを検索
    • 科学的タスクにおけるハードコーディングの仮定;
    • 顧客サービス業務において、航空券を誤って予約し、誤った金額を払い戻した。

それを示している:
既存のエージェントの評価基準は粗雑すぎる。
一般的な精度測定基準は、解釈可能性、安定性、行動コストといった重要な問題を覆い隠してしまう。

次元最新号理想的な評価方法
精度高いが不安定な値コンテキストの観測可能性を追加する
(製造原価トークンの浪費は深刻パレート効率曲線の導入
行動の信頼性ショートカット」の問題は深刻だロギングとプロセス分析の組み合わせ(Docentなど)
一般性タスク間でパフォーマンスに大きなばらつきマルチシナリオ分散比較

その結果、ジェネリック・エージェントは「プレゼンテーション・レベル」では強力に見えるかもしれないが、その振る舞いは非常に貧弱に制御され、透明性をもって評価される。


バブルの根源:資本、技術、忍耐

イップ・シウチャイのコメントは正鵠を射ている:

"エージェントの根本的な欠陥は、技術、資本、決断力にある"

国内の起業家環境の焦りから、多くの企業が「モノを作る前に勢いを作る」ことを選択している。
ジェネラル・エージェントは、最もパッケージ化しやすい「AIコンセプト株」となった:

  • 技術的な敷居は比較的低い;
  • 投資家にとって理解しやすい;
  • デモの効果は見事だ;
  • しかし、着地点は限られている。

このため、マヌス式のプロジェクトが短期間で立ち上がり、資金調達に成功したものもあれば、資金が尽きて解散したものもある。
その場の熱気と都会的な雰囲気の中で。マーケティングの影に隠れたAIエージェントの「パフォーマンス物語.


真の出口:一般的なものから垂直的なものへ、幻想から確信へ

バブルの下で、業界もまた新たな方向性を打ち出した。
例えば、医療エージェント製品 オープンエビデンスこれはバーティカル・インテリジェンスの成功例と考えられている:

デザイン寸法オープンエビデンスの実践マヌス式ジェネリック薬の比較
ユーザー指向医師コミュニティのみへのサービスすべて
データソースNEJM、JAMA、その他の権威ある医学文献ウェブ検索またはユーザー入力
出力形式構造化された "証拠の連鎖+ポイント"ダイアログ生成テキスト
インテリジェントロジックワークフロー決定論+モデリング支援自律的意思決定のモデル
イリュージョニストコントロール引用トレーサビリティ+手動検証引用メカニズムの欠如

このターンによって、今後のエージェントの進化の方向性が見えてくる:

「ワークフロー+エージェント」のハイブリッドモデル -- 決定論的プロセスで不確実な知性をポケットに入れる。


マヌス戦後、AIエージェントはどこへ向かうのか?

マヌスの話はこれで終わりではなく、幻滅の局面にある業界全体を象徴している。
いくつかの記事がまとめて核心的なコンセンサスを伝えているように:

  1. エージェントは万能薬ではなく、タスク指向のシステムである;
  2. 評価は行動レベルと観察可能性に立ち返る必要がある;
  3. 未来は、垂直方向に深く、データ駆動型のインテリジェンスに属する。

AIエージェントの未来は、「より派手なデモ」ではなく、「より安定したプロジェクト」にある。
おそらく真の知性とは、マヌスのような「全能の幻想」ではない。
むしろ、狭い領域で極限まで問題を解決できる「ダム・インテリジェンス」なのだ。

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグモデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTでの質問の仕方を教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー