在这个数据爆炸的时代,数据分析已成为企业决策的核心。但数据科学家的短缺、高昂的人工成本,以及传统数据分析工具的学习门槛,让许多企业望而却步。今天,我要给大家介绍一个革命性的开源项目——DeepAnalyze,它能让你轻松拥有一个24小时在线的AI数据科学家!
什么是DeepAnalyze?
DeepAnalyze是首个面向自主数据科学的代理大型语言模型(Agentic LLM),由中国人民大学与清华大学团队联合开发。它不仅能执行传统的数据分析任务,更能像人类数据科学家一样自主编排和优化整个数据科学流程,从原始数据到分析师级别的研究报告,实现真正的”端到端”自动化。
💡 关键突破:DeepAnalyze-8B(仅8B参数)在多个基准测试中表现超越了GPT-4o-mini等商业大模型,成为首个能完成开放式数据研究的开源模型。
DeepAnalyze的五大核心能力
1️⃣ 端到端数据科学管道
DeepAnalyze可以自动完成整个数据科学流程:
- 数据准备:自动处理缺失值、去重、格式转换
- 数据分析:计算统计指标、识别数据模式
- 数据建模:构建预测模型并评估性能
- 数据可视化:生成专业图表和可视化报告
- 报告生成:输出分析师级别的专业报告

2️⃣ 开放式数据研究
与传统工具不同,DeepAnalyze不局限于预设流程,它能:
- 自主探索数据源,像人类数据科学家一样”思考”
- 灵活应对多种数据格式:CSV、Excel、JSON、数据库、Markdown等
- 深度挖掘数据背后的故事,提供真正有洞见的分析
🌟 上传多个数据文件后,DeepAnalyze能自动分析学生入学模式、机构转移网络,生成包含专业图表的深度研究报告。

3️⃣ 无需人工干预的自主性
DeepAnalyze最强大的特点是自主编排和优化能力:
- 它会先规划分析路径
- 然后主动探索数据
- 接着理解数据结构
- 执行数据准备和分析
- 最终生成专业报告
整个过程无需预设工作流,像人类一样思考,却比人类更高效、更精准!

4️⃣ 多数据源支持
DeepAnalyze能处理多种数据格式:
- 📊 结构化数据:CSV、Excel、数据库
- 📦 半结构化数据:JSON、XML、YAML
- 📝 非结构化数据:TXT、Markdown
无论你的数据是什么格式,DeepAnalyze都能”看懂”并进行深入分析。

5️⃣ 完全开源
DeepAnalyze最大的优势是完全开源:
- 模型权重开源
- 代码完全开放
- 训练数据公开
- 部署教程详细
你无需依赖任何闭源API,就能拥有自己的数据科学助手!

DeepAnalyze如何工作?技术解析
DeepAnalyze的创新之处在于其基于课程的代理训练(Curriculum-based Agentic Training)和数据导向轨迹合成技术:
🧠 五种核心交互动作
DeepAnalyze通过五种特殊动作标签实现自主操作:
⟨Analyze⟩:分析与规划⟨Understand⟩:理解数据结构⟨Code⟩:生成数据分析代码⟨Execute⟩:执行代码并获取结果⟨Answer⟩:生成最终报告
这些动作让DeepAnalyze能像人类一样思考-行动-反馈,不断优化分析过程。

📚 课程式训练方法
DeepAnalyze采用了”由简入繁”的训练策略:
- 单能力微调:先掌握基础能力(如数据理解、代码生成)
- 多能力代理训练:学会组合多种能力解决复杂问题
- 强化学习优化:在真实环境中不断改进决策
这种训练方法解决了传统LLM在复杂数据任务中”奖励稀疏”的难题,让模型真正学会”数据科学家的思维”。

如何部署DeepAnalyze?手把手教程
📦 准备工作
- 克隆代码库:
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze- 创建虚拟环境:
conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze- 安装依赖:
pip install -r requirements.txt
# 训练相关依赖
(cd ./deepanalyze/ms-swift/ && pip install -e .)
(cd ./deepanalyze/SkyRL/ && pip install -e .)🚀 部署模型
- 下载模型:
- 可直接下载DeepAnalyze-8B
- 或基于DeepSeek-R1-0528-Qwen3-8B进行微调
- 启动服务:
cd demo/chat
npm install
cd ..
bash start.sh- 访问界面:
- 打开浏览器访问
http://localhost:4000 - 上传数据文件,输入分析指令
🌐 API调用方式
你也可以通过API方式集成到自己的系统中:
python demo/backend.py然后使用curl测试API:
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'三步生成专业报告
让我们看一个真实的使用场景:
- 准备数据:将需要分析的数据文件放入工作目录(如
example/student_loan/) - 提交任务:
from deepanalyze import DeepAnalyzeVLLM
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
...(更多文件描述)"""
workspace = "/path/to/your/workspace"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
answer = deepanalyze.generate(prompt, workspace=workspace)- 获取结果:
- 你会得到一份包含专业图表、统计分析和业务建议的完整报告
- 支持导出为PDF格式,直接用于汇报

为什么选择DeepAnalyze?
| 特性 | DeepAnalyze | 传统工具 | 闭源API |
|---|---|---|---|
| 自主性 | ✅ 自主编排全流程 | ❌ 需人工指导 | ⚠️ 有限自主 |
| 数据格式支持 | ✅ 多种格式 | ⚠️ 有限支持 | ✅ 支持 |
| 开源 | ✅ 完全开源 | ✅ | ❌ |
| 成本 | ✅ 一次性部署 | ✅ | ❌ 高昂使用费 |
| 定制性 | ✅ 可完全定制 | ⚠️ 有限 | ❌ |
拥抱自主数据科学新时代
DeepAnalyze代表了数据科学的新方向——从工作流驱动到AI自主驱动。它不仅仅是一个工具,更是你的24小时在线数据科学团队,能够理解你的业务需求,自主完成复杂的数据分析任务。
🌟 立即行动:访问 GitHub仓库 获取完整代码和教程,今天就开始你的自主数据分析之旅!