Проект автоматизации браузера с открытым исходным кодом, позволяющий искусственному интеллекту реально "работать в сети"

"Прекратите копировать и вставлять, пусть ИИ сам найдет ответы на веб-странице".

Если вы все еще боретесь с этими проблемами:

  • Вручную просмотрите десятки веб-страниц, чтобы получить данные;
  • Неоднократно переключаясь между Taobao/Xiaohongshu/тезисной станцией, чтобы сравнить цены;
  • Пытаемся заставить ИИ помочь вам работать в Интернете, но все, что он может, - это "говорить" .......

Тогда вы должны попробовать проект с открытым исходным кодом, который недавно взорвался на GitHub -Нанобраузер.

Менее чем через неделю после запуска он собрал 17,000+ Звезда, известная разработчикам как "Боги автоматизации браузеров, управляемые искусственным интеллектом".
Его цель проста:Вытащить больших моделей из чата на страницу и в работу!.

🤖 Что такое Nanobrowser?

Nanobrowser - это не обычный браузер, а AI-нативный фреймворк для автоматизации веб-сайтов.

Вы можете прочитать об этом:

"Приделайте своей большой модели руки и ноги, чтобы она могла ходить, кликать, читать и обобщать в реальном веб-мире".

Он создан сообществом разработчиков с открытым исходным кодом и объединяет в себе Мультиинтеллектуальная система совместной работы + механизм автоматизации браузераОн поддерживает локальную работу, имеет полностью открытый исходный код и полностью совместим с основными крупными моделями (например, DeepSeek, MiniMax, GPT, Claude и др.).

🛠️ Как это работает? Два интеллекта работают вместе.

В основе Nanobrowser лежит негласное сотрудничество двух персонажей ИИ:

1️⃣ Планировщик

Отвечает за то, чтобы "понять, что делать".
Допустим, вы набираете текст:

"Зайдите на страницу "Hugging Face papers" и просмотрите первые три работы, обобщив аннотации и отсортировав их по количеству лайков".

Planner автоматически разбивает его на шаги:
✅ Открыть https://huggingface.co/papers
✅ Прочитайте первый заголовок, количество лайков, краткое содержание
✅ URL записи
✅ Повторите три раза.
✅ Подведите итоги и проранжируйте

2️⃣ Навигатор

Отвечает за "практическое внедрение".
Так и будет:

  • Откройте страницу в реальном времени в браузере;
  • Пометьте каждую кнопку, текстовое поле и изображение как кликабельные;
  • Имитирует действия человека: щелчки, прокрутку, ввод текста, чтение DOM;
  • Обратная связь в реальном времени с планировщиком о результатах выполнения.

весь процессНе требуется вмешательство человекаЭто все равно что нанять стажера, который будет выполнять поручения, делать заметки и самостоятельно составлять отчет о проделанной работе.

🧪 Пример из реальной жизни: одно предложение, позволяющее ИИ автоматизировать сложные задачи

✅ Случай: автоматический ползучий обнимающий лицо первые три бумаги

Ваши инструкции.::

пожалуйста, зайдите на https://huggingface.co/papersПросмотрите первые три работы по порядку. Запишите название, URL-адрес и количество лайков, кратко опишите аннотацию и, наконец, просуммируйте их в порядке убывания количества лайков.

Работа Nanobrowser::

  1. Автоматический переход на веб-страницу;
  2. Точно определите структуру DOM каждой работы;
  3. Читайте названия, лайки и аннотации;
  4. Возвращает структурированный результат:
PHP
1. OmniVinci (24 Нравится)
   Аннотация: Оmnimodal макромодель с открытым исходным кодом и улучшенным кросс-модальным выравниванием через OmniAlignNet .......
2. Skyfall-GS (15 Likes)
   Аннотация: Генерирование 3D-сцен городов с высокой точностью на основе спутниковых изображений ......
3. LightsOut (13 Likes)
   Аннотация: Устранение бликов объектива с помощью моделирования диффузии ......

занимать период (х количество времени): 2½ минуты.
тратить (время или деньги): Только 0,1 юаня(с помощью API DeepSeek)

Если вы будете делать это вручную, запуск займет не менее 10 минут, и вам придется открыть несколько вкладок.

💡 Что вы можете с ним сделать?

Возможности Nanobrowser выходят далеко за рамки бумажного ползания. Он может легко справиться со следующими сценариями:

  • Ассистент сравнения цен::
    "Найдите водонепроницаемые bluetooth-колонки на Taobao, Jingdong, Pinduoduo, в пределах $50, перечислите 3 самые дешевые модели".
  • Мониторинг общественного мнения::
    "Проанализируйте последние 24 часа записей в Little Red Book о 'LTX-2', чтобы собрать оценки пользователей".
  • Аналитик данных::
    "Извлечение данных о ВВП провинций за 3 квартал 2025 года с веб-страницы НСО для создания CSV-файлов".
  • создатель контента::
    "Зайдите на канал YouTube Hot Tech и возьмите 5 последних видео с названиями и синопсисами, которые помогут мне найти вдохновение для моих подборок".
  • научные исследования::
    "Найдите в arXiv "AI video generation" и скачайте реферат, отсортированный по цитируемости".

Итог: Nanobrowser может взять на себя решение всех веб-задач, требующих человеческих глаз и человеческих рук.

🧩 Технические особенности: почему он такой умный?

  • локальная операцияДанные остаются на местах, конфиденциальность и безопасность гарантированы;
  • Поддержка нескольких моделейКлюч API можно настроить для доступа к любой из крупных моделей;
  • Восприятие DOM: Автоматическая маркировка веб-элементов, AI может "видеть" кнопки, поля ввода, формы;
  • Обязательная прослеживаемостьКаждый шаг операции записывается в журнал, а неудачи можно повторить и отладить;
  • Полностью открытый исходный кодКод, документация и примеры находятся в открытом доступе и управляются сообществом для быстрой итерации.

Адрес GitHub:
👉 https://github.com/nanobrowser/nanobrowser

🚀 Как начать? 3 шага.

  1. Установите Nanobrowser(Поддерживаются Windows / macOS / Linux);
  2. Настройка ключа API Big Model(например, DeepSeek, MiniMax, OpenAI и т.д.);
  3. Вводите команды на естественном языке в боковой панелиНажмите кнопку "Выполнить!

Не нужно писать скрипты, не нужно знать XPath.Поговорите, и вы сможете сказать ИИ, чтобы он вышел в Интернет..

🌟 Пишите в конце дня.

В прошлом ИИ был "машиной вопросов и ответов";
Теперь Nanobrowser превращает его в "цифрового сотрудника".

Возможно, он не идеален - сложные всплывающие окна иногда распознаются неправильно, а динамическая загрузка контента требует ожидания.
Но его направление безошибочно:Автоматизация возвращается к интеллекту, делая интеллектуальные тела по-настоящему "действующими".

Если вы устали от повторяющихся веб-манипуляций
Если вам нужен ИИ, который не просто "говорит", а "делает", то вам нужен ИИ, который не просто "говорит", а "делает", и вам нужен ИИ, который не просто "говорит", а "делает".
Итак.Nanobrowser может оказаться тем инструментом, который вы так долго ждали!.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep