В эпоху взрыва данных анализ данных стал основой для принятия решений в бизнесе. Однако нехватка специалистов по анализу данных, высокая стоимость рабочей силы и порог обучения традиционным инструментам анализа данных сдерживают многие предприятия. Сегодня я хочу познакомить вас сРеволюционный проект с открытым исходным кодом-DeepAnalyze, который позволяет легкоAI Data Scientist онлайн 24/7!
Что такое DeepAnalyze?
DeepAnalyze - этоПервая агентная модель большого языка для автономной науки о данных(Agentic LLM), совместно разработанный командой из Ренминского университета Китая и Университета Цинхуа. Он не только выполняет традиционные задачи анализа данных, но и выступает в роли человека, изучающего данные.Автономное планирование и оптимизацияНастоящая "сквозная" автоматизация всего процесса работы с данными - от исходных данных до исследовательских отчетов на уровне аналитиков.
💡 Ключевые прорывы: DeepAnalyze-8B (только 8B параметров) превосходит коммерческие большие модели, такие как GPT-4o-mini, в нескольких бенчмарках, став первым, кто выполнилИсследование открытых данныхМодель с открытым исходным кодом.
Пять основных возможностей DeepAnalyze
1️⃣ Конечный конвейер обработки данных
DeepAnalyze автоматизирует весь процесс работы с данными:
- Подготовка данных: автоматическая обработка отсутствующих значений, дедупликация, преобразование форматов
- анализ данных: Расчет статистических показателей, выявление закономерностей в данных
- Моделирование данныхПостроение прогнозных моделей и оценка их эффективности
- Визуализация данных: Создание профессиональных графиков и отчетов с визуализацией
- Формирование отчетов: Подготовка профессиональных отчетов на уровне аналитика

2️⃣ Исследование открытых данных
В отличие от традиционных инструментов, DeepAnalyze не ограничивается предопределенными процессами, он может:
- самостоятельное исследованиеИсточники данных, которые "думают" как человек, изучающий данные
- гибкое реагированиеМножество форматов данных: CSV, Excel, JSON, базы данных, Markdown и т. д.
- глубоко укоренившийсяИстория, скрывающаяся за данными, обеспечивает по-настоящему глубокий анализ
🌟 После загрузки нескольких файлов данных DeepAnalyze автоматически анализирует схемы набора студентов, сети трансфертов и создает подробные исследовательские отчеты, содержащие профессиональные графики и диаграммы.

3️⃣ Автономность без вмешательства человека
Самые мощные функции DeepAnalyze - этоАвтономное планирование и оптимизацияСпособности:
- сначалапланировать (как сделать что-л.)Анализ путей
- затем (после)активная разведканомера
- в свою очередьпониманияструктура данных
- осуществлятьПодготовка и анализ данных
- в конечном итогеСоздание профессиональных отчетов
Весь процесс не требует заранее определенного рабочего процесса и мыслит как человек, но при этом он более эффективен и точен, чем человек!

4️⃣ Поддержка нескольких источников данных
DeepAnalyze может работать с широким спектром форматов данных:
- 📊 Структурированные данные: CSV, Excel, база данных
- 📦 полуструктурированные данные: JSON, XML, YAML
- 📝 Неструктурированные данные: TXT, Markdown
В каком бы формате ни были ваши данные, DeepAnalyze "поймет" их и проведет глубокий анализ.

5️⃣ Полный открытый исходный код
Самыми сильными сторонами DeepAnalyze являютсяПолностью открытый исходный код::
- Модельные веса с открытым исходным кодом
- Код полностью открыт
- Данные для обучения находятся в открытом доступе
- Подробные учебники по развертыванию
Вам не нужно полагаться на закрытые API, чтобы иметь своего собственного помощника по науке о данных!

Как работает DeepAnalyze? Технический анализ
Инновация DeepAnalyze заключается в том, что онаОбучение агентов на основе учебных программ(Агентурное обучение на основе учебных программ) иСинтез траектории, управляемый даннымиТехнология:
🧠 Пять основных действий по взаимодействию
DeepAnalyze работает автономно благодаря пяти специальным меткам действий:
⟨Analyze⟩: Анализ и планирование⟨Понимать⟩: Понимание структур данных⟨Code⟩: Создание кода для анализа данных⟨Execute⟩: Выполните код и получите результат⟨Ответ⟩: Создание окончательного отчета
Эти действия позволяют DeepAnalyze вести себя как человекДумай-действуй-отзывпостоянно оптимизируя процесс анализа.

📚 Методы обучения на основе курса
DeepAnalyze использует стратегию обучения "от простого к сложному":
- Тонкая настройка одной емкости: Сначала приобретите базовые навыки (например, понимание данных, генерация кода).
- Многопрофильная подготовка агентов: Научиться сочетать несколько компетенций для решения сложных проблем
- Оптимизация обучения: Непрерывное совершенствование процесса принятия решений в реальных условиях
Этот метод обучения решает проблему "скудности вознаграждения" традиционного LLM в сложных задачах, связанных с данными, и позволяет модели действительно научиться "думать как специалист по исследованию данных".

Как развернуть DeepAnalyze: практическое руководство
📦 Подготовка
- Клонирование кодовой базы::
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze- Создание виртуальной среды::
conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze- Установка зависимостей::
pip install -r requirements.txt
Зависимости для обучения #
(cd . /deepanalyze/ms-swift/ && pip install -e .)
(cd . /deepanalyze/SkyRL/ && pip install -e .)🚀 Модель развертывания
- Скачать модели::
- DeepAnalyze-8B доступен для прямой загрузки.
- или точно настроенный на основе DeepSeek-R1-0528-Qwen3-8B.
- Начальные услуги::
cd demo/chat
npm install
cd .
bash start.sh- интерфейс доступа::
- Откройте браузер, чтобы получить доступ к
http://localhost:4000 - Загрузка файлов данных и ввод инструкций по анализу
🌐 Методы вызова API
Вы также можете интегрировать его в свою собственную систему через API:
python demo/backend.pyЗатем используйте curl для тестирования API:
curl -X POST http://localhost:8200/chat/completions \.
-H "Content-Type: application/json"\
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}''Создайте профессиональный отчет за три шага
Давайте рассмотрим реальный сценарий использования:
- Подготовьте данные: Поместите файлы данных для анализа в рабочий каталог (например.
example/student_loan/) - Представление мандатов::
from deepanalyze import DeepAnalyzeVLLM
prompt = """# Инструкция
Создайте отчет по науке о данных.
Данные #
Файл 1: {"имя": "bool.xlsx", "размер": "4.8 КБ"}
Файл 2: {"имя": "person.csv", "размер": "10.6 КБ"}
... (больше описаний файлов)""""
workspace = "/path/to/your/workspace"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
ответ = deepanalyze.generate(prompt, workspace=workspace)- Получение результатов::
- Вы получите списокПрофессиональные графики, статистические анализы и бизнес-консультациии полный доклад Комитета по ликвидации дискриминации в отношении женщин
- Поддержка экспорта в формат PDF для непосредственного использования в отчетности

Почему стоит выбрать DeepAnalyze?
| характеристика | DeepAnalyze | Традиционные инструменты | API с закрытым исходным кодом |
|---|---|---|---|
| автономия | ✅ Автономная хореография всего процесса | ❌ Требуется руководство по эксплуатации | ⚠️ Ограниченная автономия |
| Поддержка форматов данных | ✅ Множество форматов | ⚠️ Ограниченная поддержка | ✅ Поддержка |
| расширить свои финансовые возможности | ✅ Полностью открытый исходный код | ✅ | ❌ |
| (производство, изготовление и т.д.) затраты | ✅ Одноразовое развертывание | ✅ | ❌ Высокая плата за пользование |
| настраиваемость | ✅ Полностью настраиваемый | ⚠️ Limited | ❌ |
Новая эра автономной науки о данных
DeepAnalyze представляет собой новое направление в науке о данных.От управления рабочим процессом к автономному ИИ. Это не просто инструмент, это вашКруглосуточная онлайн-команда по изучению данныхСпособны понять потребности вашего бизнеса и взять на себя ответственность за выполнение сложных задач по анализу данных.
🌟 незамедлительные действия: Доступ Репозиторий GitHub Получите полный код и учебные пособия и начните свой путь к автономному анализу данных уже сегодня!