AIを実際に "オンライン作業 "させるブラウザ自動化オープンソースプロジェクト

「コピー&ペーストをやめて、AIにウェブページそのものから答えを見つけさせる。

もしあなたがまだこのようなことで悩んでいるのなら:

  • 何十ものウェブページを手作業で精査し、データを取得する;
  • タオバオ/小紅樹/テーゼステーションの切り替えを繰り返し、価格を比較;
  • AIにウェブでの仕事を手伝わせようとしても、できるのは「話す」ことだけ......。

それなら、最近GitHubで爆発的にヒットしたオープンソースプロジェクトを試してみるべきです。ナノブラウザ.

この記事は、公開から1週間も経たないうちに、多くの収益を上げている。 17,000 + スター開発者の間では"AIによるブラウザ自動化の神々".
その目的は単純だ:ビッグモデルをチャットボックスからページ上へ、そして作品へと導く!.

Nanobrowserとは?

ナノブラウザは、通常のブラウザではありません。 AIネイティブ・ウェブ自動化フレームワーク.

それを読み解くことができる:

「大きなモデルに手足を持たせ、実際のウェブの世界で自由に歩き、クリックし、読み、要約できるようにする。

オープンソースコミュニティによって構築され、以下を融合している。 マルチインテリジェンス・コラボレーション・システム+ブラウザ・オートメーション・エンジンローカル操作をサポートし、完全にオープンソースで、主流の大型モデル(DeepSeek、MiniMax、GPT、Claudeなど)と完全な互換性がある。

🛠️ どのように機能するのか?2つの知性は共に働く。

Nanobrowserの核心は、2人のAIキャラクターの暗黙の協力だ:

1️⃣ プランナー

何をすべきかを考える」責任者。
例えば、こう打つとしよう:

"ハギング・フェイスの論文ページに行き、最初の3つの論文を見て、アブストラクトを要約し、「いいね!」の数で並べ替える。"

プランナーはそれを自動的にステップに分解する:
✅ 開く https://huggingface.co/papers
✅ 最初のタイトル、「いいね!」の数、要約を読む
レコードURL
を3回繰り返す。
まとめと順位付け

2️⃣ ナビゲーター

ハンズオン・インプリメンテーション」を担当。
そうなるだろう:

  • ブラウザで現実的にページを開く;
  • 各ボタン、テキストボックス、画像にクリック可能なラベルを付ける;
  • 人間の動作をシミュレート:クリック、スクロール、タイピング、DOMの読み込み;
  • 実行結果をプランナーにリアルタイムでフィードバック。

全過程手動介入は不要つまり、インターンを雇い、用事を済ませ、メモを取り、自分ひとりですべてを報告させるようなものだ。

🧪 実際の例:AIに複雑な作業を自動化させる一文

ケース:自動クロール・ハギング・フェイス最初の3枚

あなたの指示だ。::

にアクセスしてください。 https://huggingface.co/papers最初の3つの論文を順番に閲覧する。タイトル、URL、「いいね!」の数を記録し、要旨をまとめ、最後に「いいね!」の数の多い順にまとめる。

ナノブラウザの操作::

  1. 自動的にウェブページにジャンプします;
  2. 各論文のDOM構造を正確に把握する;
  3. タイトル、「いいね!」、要約を読む;
  4. 構造化された結果を返す:
PHP
1.オムニヴィンチ (24 Likes)
   概要:OmniAlignNetを介してクロスモーダルアライメントを強化したオープンソースのオムニモーダルマクロモデル。
2.Skyfall-GS (15 Likes)
   概要:衛星画像に基づいて忠実度の高い3D都市シーンを生成する。
3.ライトアウト (13 Likes)
   概要:拡散モデリングによるレンズフレアの除去.............

かける2分半。
使うのみ 0.1元(DeepSeek API を使用)

これを手動で行うと、開始までに少なくとも10分はかかり、複数のタブを開く必要がある。

それで何ができる?

Nanobrowserの可能性は、紙媒体のクローリングにとどまりません。以下のようなシナリオに簡単に対応できる:

  • 価格比較アシスタント::
    "タオバオ、ジンドン、ピンドゥオで防水ブルートゥーススピーカーを探す、50ドル以内、最も安い3モデルをリストアップ"
  • 世論モニタリング::
    "「LTX-2」に関するリトル・レッド・ブックの過去24時間のメモをクロールし、ユーザー評価を集計する"
  • データアナリスト::
    "NSOのウェブページから2025年第3四半期州GDPデータを抽出してCSVを生成する"
  • コンテンツクリエーター::
    "YouTubeのHot Techチャンネルに行き、最新の5本のビデオタイトルとあらすじをつかみ、ピックのインスピレーションを見つけるのに役立てる。"
  • 学術研究::
    "arXivで「AIビデオ生成」を検索し、引用順に並べたアブストラクトをダウンロードする"

結論:Nanobrowserは、人間の目と手を必要とするウェブタスクのすべてを引き受けることができる。

技術的なハイライト:なぜそんなにスマートなのか?

  • ローカルオペレーションデータはローカルに保存され、プライバシーとセキュリティが保証されます;
  • マルチモデル対応APIキーは、どのビッグモデルにもアクセスできるように設定できる;
  • DOMパーセプションウェブ要素の自動ラベル付け、AIはボタン、入力ボックス、フォームを「見る」ことができます;
  • トレーサビリティの義務化操作の全ステップがログに記録され、失敗しても再試行やデバッグができる;
  • 完全なオープンソースコード、ドキュメント、サンプルはすべて一般に公開されており、コミュニティ主導で迅速な反復が可能です。

GitHubアドレス:
👉 https://github.com/nanobrowser/nanobrowser

どうやって始めるか?

  1. ナノブラウザのインストール(Windows / macOS / Linux対応);
  2. ビッグモデルAPIキーを設定する(例:DeepSeek、MiniMax、OpenAIなど);
  3. サイドバーに自然言語コマンドを入力実行をクリックする!

スクリプトを書く必要も、XPathを知る必要もない。話せば、AIにオンラインにするよう指示できる。.

一日の終わりに書く。

かつてAIは「質問と回答の機械」だった;
今、ナノブラウザはそれを「デジタル社員」にする。

複雑なポップアップが誤認識されることもあるし、コンテンツを動的に読み込むには待ち時間が必要だ。
しかし、その方向性は紛れもないものだ:自動化をインテリジェンスに戻し、インテリジェントな身体を真に "行動可能 "にする.

繰り返しのウェブ操作に疲れたら
もしあなたが「話す」だけでなく「する」AIを望んでいるなら、「話す」だけでなく「する」AIが必要だ。
だからNanobrowserは、あなたが待ち望んでいたツールかもしれない!.

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグモデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTでの質問の仕方を教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー