"Hören Sie auf mit dem Kopieren und Einfügen und lassen Sie die KI die Antworten auf der Webseite selbst finden."
Wenn Sie immer noch mit diesen Dingen zu kämpfen haben:
- Dutzende von Webseiten manuell durchforsten, um Daten zu erfassen;
- Wiederholtes Wechseln zwischen Taobao/Xiaohongshu/thesis station, um Preise zu vergleichen;
- KI soll Ihnen bei der Arbeit im Web helfen, aber sie kann nur "sprechen" ......
Dann müssen Sie das Open-Source-Projekt ausprobieren, das kürzlich auf GitHub explodiert ist - dasNanobrowser.
Weniger als eine Woche nach dem Start der Website wurden 17.000+ Stern, von den Entwicklern auch als "KI-gesteuerte Browser-Automatisierungsgötter".
Ihr Ziel ist einfach:Die großen Modelle aus der Chatbox auf die Seite und an die Arbeit bringen!.

🤖 Was ist Nanobrowser?
Nanobrowser ist kein normaler Browser, sondern ein KI-natives Web-Automatisierungs-Framework.
Sie können es sich durchlesen:
"Statten Sie Ihr großes Modell mit Armen und Beinen aus, damit es in der realen Webwelt frei laufen, klicken, lesen und zusammenfassen kann."
Es wird von der Open-Source-Gemeinschaft entwickelt und vereint Multi-Intelligenz-Kollaborationssystem + Browser-Automatisierungs-EngineEs unterstützt den lokalen Betrieb, ist vollständig quelloffen und vollständig kompatibel mit den großen Mainstream-Modellen (z. B. DeepSeek, MiniMax, GPT, Claude usw.).
🛠️ Wie funktioniert das? Die beiden Intelligenzen arbeiten zusammen.
Im Mittelpunkt von Nanobrowser steht die stillschweigende Zusammenarbeit zwischen zwei KI-Charakteren:
1️⃣ Planer
Verantwortlich dafür, "herauszufinden, was zu tun ist".
Sagen wir, Sie tippen:
"Gehen Sie auf die Seite der Hugging Face Papers und sehen Sie sich die ersten drei Papers an, fassen Sie die Abstracts zusammen und sortieren Sie sie nach der Anzahl der Likes."
Der Planer unterteilt sie automatisch in Schritte:
✅ Offen https://huggingface.co/papers
✅ Lesen Sie den ersten Titel, die Anzahl der Likes, die Zusammenfassung
✅ URL der Aufzeichnung
✅ Dreimal wiederholen
✅ Zusammenfassen und einordnen
2️⃣ Navigator
Verantwortlich für die "praktische Umsetzung".
Das wird sie:
- Öffnen Sie die Seite realistisch in Ihrem Browser;
- Kennzeichnen Sie jede Schaltfläche, jedes Textfeld und jedes Bild als anklickbar;
- Simuliert menschliche Aktionen: Klicken, Scrollen, Tippen, Lesen des DOM;
- Rückmeldung der Ausführungsergebnisse in Echtzeit an den Planer.
der gesamte ProzessKein menschliches Eingreifen erforderlichDas ist so, als würde man einen Praktikanten einstellen, der Besorgungen macht, sich Notizen macht und über die ganze Sache Bericht erstattet.

🧪 Beispiel aus der Praxis: ein Satz, der es der KI ermöglicht, komplexe Aufgaben zu automatisieren
✅ Fall: Automatisiertes Kriechen umarmt das Gesicht der ersten drei Papiere
Ihre Anweisungen.::
gehen Sie bitte zu https://huggingface.co/papersDurchsuchen Sie die ersten drei Beiträge der Reihe nach. Notieren Sie den Titel, die URL und die Anzahl der Likes, fassen Sie die Zusammenfassung zusammen und fassen Sie sie schließlich in der Reihenfolge der Anzahl der Likes zusammen.
Bedienung von Nanobrowser::
- Automatischer Sprung zur Webseite;
- Die DOM-Struktur eines jeden Papiers ist genau zu bestimmen;
- Lesen Sie Titel, Vorlieben und Zusammenfassungen;
- Gibt das strukturierte Ergebnis zurück:
1. omniVinci (24 Likes)
Zusammenfassung: Omnimodales Makromodell mit verbessertem cross-modalem Alignment über OmniAlignNet ......
2. skyfall-GS (15 Likes)
Zusammenfassung: Generierung von 3D-Stadtszenen auf der Grundlage von Satellitenbildern mit hoher Genauigkeit ......
3. lightsOut (13 Likes)
Zusammenfassung: Eliminierung von Lens Flare mit Diffusionsmodellierung ......einen Zeitraum von (x Zeit) benötigen2½ Minuten.
verbringen (Zeit oder Geld): Nur 0,1 Yuan(unter Verwendung der DeepSeek-API)
Wenn Sie dies manuell tun, wird es mindestens 10 Minuten dauern, bis Sie starten können, und Sie müssen mehrere Registerkarten öffnen.
💡 Was kann man damit machen?
Das Potenzial von Nanobrowser geht weit über das Crawling von Papier hinaus. Er kann die folgenden Szenarien problemlos bewältigen:
- Assistent für den Preisvergleich::
"Finde wasserdichte Bluetooth-Lautsprecher auf Taobao, Jingdong, Pinduoduo, innerhalb von $50, liste die günstigsten 3 Modelle auf." - Beobachtung der öffentlichen Meinung::
"Durchsuche die letzten 24 Stunden der Notizen von Little Red Book über 'LTX-2', um Nutzerbewertungen zu sammeln." - Datenanalyst::
"Extrahieren der BIP-Daten der Provinzen für 2025 Q3 von der NSO-Webseite, um CSV-Dateien zu erstellen". - Ersteller von Inhalten::
"Ich gehe auf den YouTube-Kanal Hot Tech und schaue mir die letzten 5 Videotitel und Zusammenfassungen an, um mich für meine Auswahl inspirieren zu lassen." - akademische Forschung::
"Suchen Sie auf arXiv nach 'AI video generation' und laden Sie die Zusammenfassung, sortiert nach Zitaten, herunter."
Fazit: Nanobrowser kann alle Aufgaben im Web übernehmen, die menschliche Augen und Hände erfordern.
🧩 Technische Highlights: Warum ist es so intelligent?
- lokaler BetriebDaten bleiben vor Ort, Datenschutz und Sicherheit sind gewährleistet;
- Unterstützung mehrerer ModelleDer API-Schlüssel kann für den Zugriff auf eines der großen Modelle konfiguriert werden;
- DOM-WahrnehmungAutomatische Kennzeichnung von Web-Elementen, KI kann Schaltflächen, Eingabefelder, Formulare "sehen";
- Rückverfolgbarkeit vorschreibenJeder Schritt des Vorgangs wird protokolliert, und Fehler können erneut versucht und behoben werden;
- Vollständig quelloffenDer Code, die Dokumentation und die Beispiele sind alle öffentlich zugänglich und werden von der Gemeinschaft getragen, um eine schnelle Iteration zu ermöglichen.
GitHub-Adresse:
👉 https://github.com/nanobrowser/nanobrowser
🚀 Wie fängt man an? 3 Schritte.
- Nanobrowser installieren(Windows / macOS / Linux unterstützt);
- Konfigurieren Ihres Big Model-API-Schlüssels(z. B. DeepSeek, MiniMax, OpenAI, usw.);
- Eingabe von Befehlen in natürlicher Sprache in der Seitenleiste, klicken Sie auf Ausführen!
Sie müssen keine Skripte schreiben und XPath nicht kennen.Sprechen Sie und Sie können der KI sagen, dass sie online gehen soll..
🌟 Schreiben Sie am Ende des Tages.
In der Vergangenheit war die KI eine "Frage- und Antwortmaschine";
Mit Nanobrowser wird er nun zum "digitalen Mitarbeiter".
Es mag nicht perfekt sein - komplexe Pop-ups werden gelegentlich falsch erkannt und das dynamische Laden von Inhalten erfordert Wartezeiten.
Aber die Richtung ist unmissverständlich:Die Automatisierung zurück zur Intelligenz: Intelligente Körper wirklich handlungsfähig machen.
Wenn Sie es leid sind, das Internet immer wieder zu manipulieren
Wenn Sie eine KI wollen, die nicht nur "redet", sondern "tut", dann brauchen Sie eine KI, die nicht nur "redet", sondern "tut", und Sie brauchen eine KI, die nicht nur "redet", sondern "tut".
Also.Nanobrowser könnte das Werkzeug sein, auf das Sie gewartet haben!.