浏览器自动化开源项目，让 AI 真正“上网干活”

“别再复制粘贴了，让 AI 自己去网页里找答案。”

如果你还在为这些事头疼：

手动刷几十个网页抓数据；
反复在淘宝/小红书/论文站之间切换比价；
想让 AI 帮你操作网页，结果它只能“嘴上说说”……

那么，你一定要试试最近在 GitHub 爆火的开源项目——Nanobrowser。

上线不到一周，它就狂揽 17,000+ Star，被开发者称为“AI 驱动的浏览器自动化神器”。
它的目标很简单：让大模型不再困在聊天框里，而是真正走进网页、动手干活。

🤖 Nanobrowser 是什么？

Nanobrowser 不是普通浏览器，而是一个 AI 原生的网页自动化框架。

你可以把它理解为：

“给你的大模型装上手脚，让它能在真实网页世界里自由行走、点击、读取、总结。”

它由开源社区打造，融合 多智能体协作系统 + 浏览器自动化引擎，支持本地运行、完全开源，且对主流大模型（如 DeepSeek、MiniMax、GPT、Claude 等）全面兼容。

🛠️ 它怎么工作？两个智能体协同“打工”

Nanobrowser 的核心，是两个 AI 角色的默契配合：

1️⃣ Planner（规划者）

负责“想清楚要做什么”。
比如你输入：

“去 Hugging Face 论文页，看前三篇论文，总结摘要并按点赞数排序。”

Planner 会自动拆解成步骤：
✅ 打开 https://huggingface.co/papers
✅ 读取第一篇标题、点赞数、摘要
✅ 记录 URL
✅ 重复三次
✅ 汇总并排序

2️⃣ Navigator（导航者）

负责“动手执行”。
它会：

在浏览器中真实打开页面；
给每个按钮、文本框、图片打上可点击标签；
模拟人类操作：点击、滚动、输入、读取 DOM；
实时反馈执行结果给 Planner。

整个过程无需人工干预，就像雇了一个实习生，全程自己跑腿、记录、汇报。

🧪 真实案例：一句话，让 AI 自动搞定复杂任务

✅ 案例：自动抓取 Hugging Face 前三篇论文

你的指令：

请前往 https://huggingface.co/papers，依次浏览前三篇论文。记录标题、URL、点赞数，总结摘要，最后按点赞数排序汇总。

Nanobrowser 的操作：

自动跳转网页；
精准识别每篇论文的 DOM 结构；
读取标题、点赞、摘要；
返回结构化结果：

1. OmniVinci（24 赞）  
   摘要：开源全模态大模型，通过 OmniAlignNet 强化跨模态对齐……
2. Skyfall-GS（15 赞）  
   摘要：基于卫星影像生成高保真 3D 城市场景……
3. LightsOut（13 赞）  
   摘要：用扩散模型消除镜头眩光……

耗时：2分半
花费：仅 0.1 元（使用 DeepSeek API）

这要是你手动做，至少 10 分钟起步，还得开多个标签页。

💡 你能用它做什么？

Nanobrowser 的潜力远不止论文抓取。以下场景它都能轻松应对：

比价助手：
“在淘宝、京东、拼多多找防水蓝牙音箱，50 元以内，列出最便宜的 3 款。”
舆情监控：
“爬取小红书最近 24 小时关于‘LTX-2’的笔记，汇总用户评价。”
数据分析师：
“从国家统计局网页提取 2025 年 Q3 各省 GDP 数据，生成 CSV。”
内容创作者：
“去 YouTube 热门科技频道，抓取最新 5 个视频标题和简介，帮我找选题灵感。”
学术研究：
“在 arXiv 搜索‘AI 视频生成’，下载摘要，按引用量排序。”

一句话：凡是需要人眼浏览+人手操作的网页任务，Nanobrowser 都能代劳。

🧩 技术亮点：为什么它能这么智能？

本地运行：数据不出本地，隐私安全有保障；
多模型支持：只需配置 API Key，即可接入任意大模型；
DOM 感知：自动为网页元素打标签，AI 能“看清”按钮、输入框、表格；
任务可追溯：每一步操作都有日志，失败可重试、可调试；
完全开源：代码、文档、示例全部公开，社区驱动快速迭代。

GitHub 地址：
👉 https://github.com/nanobrowser/nanobrowser

🚀 如何上手？3 步搞定

安装 Nanobrowser（支持 Windows / macOS / Linux）；
配置你的大模型 API Key（如 DeepSeek、MiniMax、OpenAI 等）；
在侧边栏输入自然语言指令，点击运行！

无需写脚本，无需懂 XPath，会说话就能指挥 AI 上网干活。

🌟 写在最后

过去，AI 是“问答机器”；
现在，Nanobrowser 让它变成“数字员工”。

它可能还不够完美——复杂弹窗偶尔识别不准，动态加载内容需等待。
但它的方向无比清晰：让自动化回归智能，让智能体真正拥有“行动力”。

如果你厌倦了重复的网页操作，
如果你希望 AI 不只是“会说”，而是“会做”，
那么，Nanobrowser 或许就是你一直在等的那个工具。

更多产品请查看	更多内容请查看
ShirtAI – 渗透智能	AIGC大模型：开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生	比赛直播APP 全球高清体育观影播放器（推荐） – 蓝衫科技
基于官方API的中转服务 – GPTMeta API	求助，各位大神谁能提供一些GPT的提问技巧？– 知乎
全球化虚拟商品数字商店 – 环球智购（凤灵阁）	Claude airtfacts功能有多强大，GPT瞬间不香了？-哔哩哔哩