Projeto de código aberto de automatização do navegador que permite que a IA "trabalhe realmente em linha"

"Pare de copiar e colar e deixe a IA encontrar as respostas na própria página Web."

Se ainda se está a debater com estas coisas:

  • Esfrega manualmente dezenas de páginas Web para obter dados;
  • Mudar repetidamente entre Taobao/Xiaohongshu/estação de síntese para comparar preços;
  • Tentar que a IA o ajude a trabalhar na Web, mas a única coisa que consegue fazer é "falar" ......

Bem, deve definitivamente experimentar o projeto de código aberto que explodiu recentemente no GitHub - oNanobrowser.

Menos de uma semana depois de ter entrado em funcionamento, arrecadou Mais de 17.000 estrelas, conhecido pelos programadores como "Deuses da automatização do navegador orientados para a IA".
O seu objetivo é simples:Tirar os grandes modelos da caixa de conversação para a página e para o trabalho!.

O que é o Nanobrowser?

O Nanobrowser não é um browser normal, mas sim um Estrutura de automatização web nativa de IA.

Pode ler-se:

"Equipar o seu grande modelo com braços e pernas para que possa andar, clicar, ler e resumir livremente no mundo real da Web."

É construído pela comunidade de código aberto, fundindo Sistema de colaboração multi-inteligência + motor de automatização do navegadorSuporta o funcionamento local, é totalmente de código aberto e é totalmente compatível com os grandes modelos tradicionais (por exemplo, DeepSeek, MiniMax, GPT, Claude, etc.).

🛠️ Como é que funciona? As duas inteligências trabalham em conjunto.

No centro do Nanobrowser está a cooperação tácita de duas personagens de IA:

1️⃣ Planeador

Responsável por "descobrir o que fazer".
Digamos que escreve:

"Vá à página de artigos do Hugging Face e veja os três primeiros artigos, resumindo os resumos e ordenando-os por número de gostos."

O Planner divide-o automaticamente em etapas:
✅ Aberto https://huggingface.co/papers
Ler o primeiro título, o número de gostos, o resumo
URL de registo
Repetir três vezes
Resumir e classificar

2️⃣ Navegador

Responsável pela "implementação prática".
E assim será:

  • Abra a página de forma realista no seu browser;
  • Identifique cada botão, caixa de texto e imagem como clicável;
  • Simula acções humanas: clicar, deslocar, escrever, ler DOM;
  • Feedback em tempo real dos resultados da execução para o Planificador.

todo o processoNão é necessária qualquer intervenção humanaÉ como contratar um estagiário para fazer recados, tomar notas e apresentar um relatório sobre tudo isto sozinho.

Exemplo da vida real: uma frase que permite à IA automatizar tarefas complexas

✅ Caso: Rastreio automatizado que abraça a face dos três primeiros documentos

As suas instruções.::

ir para https://huggingface.co/papersA partir de agora, o utilizador deve procurar os três primeiros artigos por ordem. Registe o título, o URL e o número de gostos, resuma o resumo e, finalmente, resuma-os por ordem do número de gostos.

Funcionamento do Nanobrowser::

  1. Saltar automaticamente para a página Web;
  2. Identificar com exatidão a estrutura DOM de cada trabalho;
  3. Ler títulos, gostos e resumos;
  4. Devolve o resultado estruturado:
PHP
1. OmniVinci (24 Likes)
   Resumo: Macromodelo omnimodal de código aberto com alinhamento intermodal melhorado através da OmniAlignNet ......
2. Skyfall-GS (15 Gostos)
   Resumo: Gerar cenas de cidades 3D de alta fidelidade com base em imagens de satélite ......
3. LightsOut (13 Gostos)
   Resumo: Eliminação de reflexos de lente com modelação de difusão ......

demorar um período de (x tempo): 2½ minutos.
gastar (tempo ou dinheiro): Apenas 0,1 yuan(utilizando a API do DeepSeek)

Se o fizer manualmente, demorará pelo menos 10 minutos a iniciar e terá de abrir vários separadores.

O que é que se pode fazer com ele?

O potencial do Nanobrowser vai muito para além do rastreio de papel. Ele pode facilmente lidar com os seguintes cenários:

  • Assistente de comparação de preços::
    "Encontre altifalantes bluetooth à prova de água em Taobao, Jingdong, Pinduoduo, dentro de $50, liste os 3 modelos mais baratos."
  • Monitorização da opinião pública::
    "Percorre as últimas 24 horas das notas do Little Red Book sobre o 'LTX-2' para agregar as classificações dos utilizadores."
  • Analista de dados::
    "Extração de dados do PIB provincial do terceiro trimestre de 2025 da página Web do NSO para gerar CSVs."
  • criador de conteúdos::
    "Ir ao canal Hot Tech do YouTube e ver os últimos 5 títulos de vídeo e sinopses para me ajudar a encontrar inspiração para as minhas escolhas."
  • investigação académica::
    "Pesquisar no arXiv por 'AI video generation' e descarregar o resumo, ordenado por citações."

Resumindo: o Nanobrowser pode tratar de todas as tarefas da Web que requerem olhos e mãos humanas.

Destaques técnicos: porque é que é tão inteligente?

  • funcionamento localOs dados permanecem locais, a privacidade e a segurança são garantidas;
  • Suporte multi-modeloA chave API pode ser configurada para aceder a qualquer um dos grandes modelos;
  • Perceção DOMEtiquetagem automática de elementos Web, a IA pode "ver" botões, caixas de entrada, formulários;
  • Obrigar à rastreabilidadeCada passo da operação é registado, e as falhas podem ser repetidas e depuradas;
  • Totalmente de código abertoO código, a documentação e os exemplos estão todos disponíveis publicamente e são orientados pela comunidade para uma rápida iteração.

Endereço do GitHub:
👉 https://github.com/nanobrowser/nanobrowser

🚀 Como começar? 3 passos.

  1. Instalar o Nanobrowser(compatível com Windows / macOS / Linux);
  2. Configurando a chave da API do Big Model(por exemplo, DeepSeek, MiniMax, OpenAI, etc.);
  3. Introduzir comandos de linguagem natural na barra lateral, clique em Executar!

Não é necessário escrever scripts, não é necessário saber XPath.Fale e pode dizer à IA para ficar em linha..

Escrever ao fim do dia.

No passado, a IA era uma "máquina de perguntas e respostas";
Agora, o Nanobrowser transforma-o num "empregado digital".

Pode não ser perfeito - as janelas pop-up complexas são ocasionalmente mal reconhecidas e o carregamento dinâmico de conteúdos requer espera.
Mas é inconfundível na sua direção:Devolver a automatização à inteligência, tornando os organismos inteligentes verdadeiramente "acionáveis".

Se está cansado da manipulação repetitiva da Web
Se quisermos uma IA que não se limite a "falar" mas que "faça", então precisamos de uma IA que não se limite a "falar" mas que "faça", e precisamos de uma IA que não se limite a "falar" mas que "faça".
Então.O Nanobrowser pode ser a ferramenta de que estava à espera!.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep