"誰もがエージェントをやっているが、実際に自分で考え、自分で実行し、自分で見直す人がどれだけいるだろうか?"
-エージェントとその主流フレームワークの記事
普遍的知性」からマヌス神話まで。
2025年、AIエージェントは燃えている。新興企業、ベンチャーキャピタル、大手企業がこぞって「知的身体革命」を謳う。この波の中でマヌス代表的な存在となっている。「総代理店」の象徴とされる一方で、「犬肉を売るために羊の頭を売る」バブルの見本だと業界からは批判されている。
マヌス人気の爆発は偶然ではない。記事は、その台頭が3つの主要な基盤に依存していることを指摘している:
| コア・コンピテンシー | 技術基盤 | 指示 |
|---|---|---|
| モデリング機能の強化 | 大規模モデルによる計画・スケジューリング問題のブレークスルー | マヌスが複雑な仕事を計画できるという前提 |
| 豊富なツールチェーン | MCP、ブラウザ使用、コンピュータ使用 | 実行と外部インターフェイスへのアクセスでAIを実現 |
| データ・メモリ工学 | コンテキスト拡張とRAGテクノロジー | 幻覚の減少、持続性とフィードバックの増加 |
これにより、Agentは「おもちゃ」から実世界のタスクを実行できるシステムへと変貌を遂げた。しかし、理想と現実のギャップはすぐに現れた。マヌスの製品機能が疑問視され、資金調達ルートが批判され、さらには同業者から「エンジニアリング・シェル」とまで呼ばれるようになると、AIエージェントのバブルは崩壊し始めた。
ユニバーサル・エージェント "の幻想:多機能=インテリジェンスではない
王憲は論文の中でこう指摘している:マヌスの失敗は技術ではなく、製品の方向性にある.
ジェネリック・エージェントは "何でも屋 "であることを売りにしているが、特定のシナリオにおいてベストというわけではない。
このジレンマの鍵は、**「シーンの壁」**を破らないことだ:
- 専門領域のデータとツールチェーンの欠如;
- 業界資格やビジネスとの深いつながりがない;
- 高価値のシナリオにおける納品閉鎖の欠如。
言い換えれば、マヌスは「レポートを書く」「情報を調べる」「写真を生成する」能力を示すことができるが、実際のワークフローでは、これらの能力は以下のようになるようだ。浅く一般的.
これは、別の記事にあったエージェントの定義を裏付けるものだ。
"エージェントは珍しい存在ではなく、自分で考え、自分で仕事をし、自分で自分の仕事を見直すことができる人が優秀なエージェントなのです"
真にインテリジェントな身体とは、機能を積み重ねたものではなく、次のことができるものである。ダイナミックなプランニング、システムを超えたコラボレーション、継続的な学習と自己修正.

フレームワークレベルから:エージェントの "内部トレーニング"
マヌスのような製品が "アイドル "になりがちな理由を理解するには、エージェントの基本的な実装フレームワークに立ち戻る必要がある。
| 図案 | 特性 | 典型的なシナリオ | 強みと弱みの概要 |
|---|---|---|---|
| オートGPT | 自律的プランニング+ツール呼び出し | 市場調査、タスクの内訳 | 自律性は高いが制御が難しい |
| ラングラフ | 図式化されたプロセス+状態管理 | マルチ・エージェント・コラボレーション | 安定はしているが、開発は複雑 |
| ダイファイ | ローコード+ワークフローの可視化 | コンテンツ作成、知識クイズ | すぐに始められるが、スマートさに欠ける |
| クルーAI | チームベースのマルチインテリジェンス | 共同での意思決定、タスキング | 柔軟だが文脈に依存するパフォーマンス |
| オートジェン(マイクロソフト) | イベント駆動型マルチエージェント・コミュニケーション | 自律システム、クライアント・サービス | 高度な技術とコスト |
これらの枠組みは、ある事実を明らかにしている:
現在のエージェント・エコロジーは、真の「インテリジェントな自律性」の段階ではなく、まだ「構造工学」の段階にある。
Manusは "Universal Agent "の代表として、これらのフレームワークの二次的なパッケージであり、基盤となるデータの蓄積やワークフローの洗練に欠けている。


評価の落とし穴:エージェントのインテリジェンスは具体的にどのように数値化すべきか?
HAL(ホリスティック・エージェント・リーダーボード)チームは、「厳密なエージェント評価は、見た目よりも難しい」の中で、次のような考察を行っている。9モデル、9ベンチマーク、20,000回実行比較が行われ、その結論は衝撃的なものだった:
"推理の努力が高ければ精度が高いというわけではない"
彼らは発見した:
- 36件中21件高い推論はむしろ精度を低下させる;
- トップモデル(GPT-5、Opus 4.1など)まだ頻繁にエラーがある;
- 例えば、エージェントはしばしば、実際にタスクを解決するよりも「近道」を選ぶ:
- ウェブタスクで直接答えを検索
- 科学的タスクにおけるハードコーディングの仮定;
- 顧客サービス業務において、航空券を誤って予約し、誤った金額を払い戻した。
それを示している:
既存のエージェントの評価基準は粗雑すぎる。
一般的な精度測定基準は、解釈可能性、安定性、行動コストといった重要な問題を覆い隠してしまう。
| 次元 | 最新号 | 理想的な評価方法 |
|---|---|---|
| 精度 | 高いが不安定な値 | コンテキストの観測可能性を追加する |
| (製造原価 | トークンの浪費は深刻 | パレート効率曲線の導入 |
| 行動の信頼性 | ショートカット」の問題は深刻だ | ロギングとプロセス分析の組み合わせ(Docentなど) |
| 一般性 | タスク間でパフォーマンスに大きなばらつき | マルチシナリオ分散比較 |
その結果、ジェネリック・エージェントは「プレゼンテーション・レベル」では強力に見えるかもしれないが、その振る舞いは非常に貧弱に制御され、透明性をもって評価される。


バブルの根源:資本、技術、忍耐
イップ・シウチャイのコメントは正鵠を射ている:
"エージェントの根本的な欠陥は、技術、資本、決断力にある"
国内の起業家環境の焦りから、多くの企業が「モノを作る前に勢いを作る」ことを選択している。
ジェネラル・エージェントは、最もパッケージ化しやすい「AIコンセプト株」となった:
- 技術的な敷居は比較的低い;
- 投資家にとって理解しやすい;
- デモの効果は見事だ;
- しかし、着地点は限られている。
このため、マヌス式のプロジェクトが短期間で立ち上がり、資金調達に成功したものもあれば、資金が尽きて解散したものもある。
その場の熱気と都会的な雰囲気の中で。マーケティングの影に隠れたAIエージェントの「パフォーマンス物語.

真の出口:一般的なものから垂直的なものへ、幻想から確信へ
バブルの下で、業界もまた新たな方向性を打ち出した。
例えば、医療エージェント製品 オープンエビデンスこれはバーティカル・インテリジェンスの成功例と考えられている:
| デザイン寸法 | オープンエビデンスの実践 | マヌス式ジェネリック薬の比較 |
|---|---|---|
| ユーザー指向 | 医師コミュニティのみへのサービス | すべて |
| データソース | NEJM、JAMA、その他の権威ある医学文献 | ウェブ検索またはユーザー入力 |
| 出力形式 | 構造化された "証拠の連鎖+ポイント" | ダイアログ生成テキスト |
| インテリジェントロジック | ワークフロー決定論+モデリング支援 | 自律的意思決定のモデル |
| イリュージョニストコントロール | 引用トレーサビリティ+手動検証 | 引用メカニズムの欠如 |
このターンによって、今後のエージェントの進化の方向性が見えてくる:
「ワークフロー+エージェント」のハイブリッドモデル -- 決定論的プロセスで不確実な知性をポケットに入れる。

マヌス戦後、AIエージェントはどこへ向かうのか?
マヌスの話はこれで終わりではなく、幻滅の局面にある業界全体を象徴している。
いくつかの記事がまとめて核心的なコンセンサスを伝えているように:
- エージェントは万能薬ではなく、タスク指向のシステムである;
- 評価は行動レベルと観察可能性に立ち返る必要がある;
- 未来は、垂直方向に深く、データ駆動型のインテリジェンスに属する。
AIエージェントの未来は、「より派手なデモ」ではなく、「より安定したプロジェクト」にある。
おそらく真の知性とは、マヌスのような「全能の幻想」ではない。
むしろ、狭い領域で極限まで問題を解決できる「ダム・インテリジェンス」なのだ。
