Proyecto de código abierto de automatización de navegadores que permite a la IA "trabajar en línea" de verdad

"Deja de copiar y pegar y deja que la IA encuentre las respuestas en la propia página web".

Si todavía estás luchando con estas cosas:

  • Frote manualmente docenas de páginas web para obtener datos;
  • Cambiar repetidamente entre Taobao/Xiaohongshu/estación de síntesis para comparar precios;
  • Intentando que la IA te ayude a trabajar en la web, pero todo lo que puede hacer es "hablar" ......

Entonces tienes que probar el proyecto de código abierto que ha estallado recientemente en GitHub: elNanobrowser.

Menos de una semana después de su lanzamiento, recaudó 17.000+ Estrellasconocido por los desarrolladores como "Dioses de la automatización de navegadores basada en IA".
Su objetivo es sencillo:Sacar a los grandes modelos del chat para que pasen a la página y se pongan manos a la obra..

🤖 ¿Qué es Nanobrowser?

Nanobrowser no es un navegador normal, sino un Marco de automatización web nativo de IA.

Puedes leerlo:

"Dote a su gran modelo de brazos y piernas para que pueda caminar, hacer clic, leer y resumir libremente en el mundo real de la web".

Está construido por la comunidad de código abierto, fusionando Sistema de colaboración multiinteligencia + motor de automatización del navegadorAdmite el funcionamiento local, es completamente de código abierto y totalmente compatible con los principales modelos de gran tamaño (por ejemplo, DeepSeek, MiniMax, GPT, Claude, etc.).

🛠️ ¿Cómo funciona? Las dos inteligencias trabajan juntas.

En el corazón de Nanobrowser está la cooperación tácita de dos personajes de la IA:

1️⃣ Planificador

Responsable de "averiguar qué hacer".
Digamos que tecleas:

"Ve a la página de artículos de Cara de abrazo y mira los tres primeros artículos, resumiendo los resúmenes y ordenándolos por número de me gusta".

Planner lo divide automáticamente en pasos:
✅ Abierto https://huggingface.co/papers
✅ Lee el primer título, el número de me gusta, el resumen
✅ Registro URL
✅ Repetir tres veces
✅ Resumir y clasificar

2️⃣ Navegador

Responsable de la "aplicación práctica".
Lo hará:

  • Abra la página de forma realista en su navegador;
  • Etiquete cada botón, cuadro de texto e imagen como clicable;
  • Simula las acciones humanas: hacer clic, desplazarse, teclear, leer el DOM;
  • Información en tiempo real de los resultados de la ejecución al planificador.

todo el procesoNo requiere intervención manuales como contratar a un becario para que haga recados, tome notas e informe de todo por su cuenta.

🧪 Ejemplo del mundo real: una frase para automatizar tareas complejas con IA

✅ Caso: Crawl automatizado que abraza la cara los tres primeros papeles

Sus instrucciones.::

diríjase a https://huggingface.co/papersNavega por los tres primeros artículos en orden. Anota el título, la URL y el número de me gusta, resume el resumen y, por último, resúmelos por orden de número de me gusta.

Funcionamiento de Nanobrowser::

  1. Saltar automáticamente a la página web;
  2. Identifique con precisión la estructura DOM de cada documento;
  3. Leer títulos, gustos y resúmenes;
  4. Devuelve el resultado estructurado:
PHP
1. OmniVinci (24 Me gusta)
   Resumen: Macromodelo omnimodal de código abierto con alineación cross-modal mejorada a través de OmniAlignNet ......
2. Skyfall-GS (15 Me gusta)
   Resumen: Generación de escenas urbanas en 3D de alta fidelidad basadas en imágenes de satélite ......
3. LightsOut (13 Me gusta)
   Resumen: Eliminación de los destellos de las lentes mediante modelos de difusión ......

tomar un período de (x cantidad de tiempo)2 minutos y medio.
gastar (tiempo o dinero): Sólo 0,1 yuanes(utilizando la API DeepSeek)

Si lo haces manualmente, tardarás al menos 10 minutos en arrancar y tendrás que abrir varias pestañas.

💡 ¿Qué puedes hacer con él?

El potencial de Nanobrowser va mucho más allá del rastreo de papel. Puede manejar fácilmente los siguientes escenarios:

  • Asistente de comparación de precios::
    "Encuentre altavoces bluetooth resistentes al agua en Taobao, Jingdong, Pinduoduo, dentro de los 50 dólares, enumere los 3 modelos más baratos".
  • Seguimiento de la opinión pública::
    "Rastrea las últimas 24 horas de notas de Little Red Book sobre 'LTX-2' para agregar valoraciones de usuarios".
  • Analista de datos::
    "Extracción de datos del PIB provincial del tercer trimestre de 2025 de la página web de la ONE para generar CSV".
  • creador de contenidos::
    "Ir al canal YouTube Top Tech y coger los últimos 5 títulos de vídeos y sinopsis que me ayuden a encontrar inspiración para mis selecciones".
  • investigación académica::
    "Busca en arXiv 'AI video generation' y descarga el resumen, ordenado por citas".

En resumen: Nanobrowser puede ocuparse de todas las tareas web que requieren ojos y manos humanos.

🧩 Aspectos técnicos destacados: ¿por qué es tan inteligente?

  • funcionamiento localLa privacidad y la seguridad están garantizadas;
  • Soporte multimodeloLa clave API puede configurarse para acceder a cualquiera de los grandes modelos;
  • Percepción DOMEtiquetado automático de elementos web, la IA puede "ver" botones, cuadros de entrada, formularios;
  • Rastreabilidad obligatoriaCada paso de la operación se registra, y los fallos pueden reintentarse y depurarse;
  • Código totalmente abiertoEl código, la documentación y los ejemplos están a disposición del público y son impulsados por la comunidad para una rápida iteración.

Dirección de GitHub:
👉 https://github.com/nanobrowser/nanobrowser

🚀 ¿Cómo empezar? 3 pasos.

  1. Instalar Nanobrowser(Compatible con Windows / macOS / Linux);
  2. Configuración de la clave API de Big Model(por ejemplo, DeepSeek, MiniMax, OpenAI, etc.);
  3. Introducir comandos en lenguaje natural en la barra lateralHaz clic en Ejecutar.

No es necesario escribir scripts ni conocer XPath.Habla y podrás decirle a la IA que se conecte..

🌟 Escribe al final del día.

En el pasado, la IA era una "máquina de preguntas y respuestas";
Ahora Nanobrowser lo convierte en un "empleado digital".

Puede que no sea perfecto: las ventanas emergentes complejas a veces se reconocen mal y la carga dinámica de contenidos requiere una espera.
Pero es inconfundible en su dirección:Devolver la automatización a la inteligencia, hacer que los cuerpos inteligentes sean realmente "accionables".

Si estás cansado de la repetitiva manipulación web
Si quieres una IA que no sólo "hable" sino que "haga".
Así que...Nanobrowser puede ser la herramienta que estabas esperando..

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendada) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep