DeepAnalyze：让AI成为你的专属数据科学家！开源项目深度解析

在这个数据爆炸的时代，数据分析已成为企业决策的核心。但数据科学家的短缺、高昂的人工成本，以及传统数据分析工具的学习门槛，让许多企业望而却步。今天，我要给大家介绍一个革命性的开源项目——DeepAnalyze，它能让你轻松拥有一个24小时在线的AI数据科学家！

什么是DeepAnalyze？

DeepAnalyze是首个面向自主数据科学的代理大型语言模型（Agentic LLM），由中国人民大学与清华大学团队联合开发。它不仅能执行传统的数据分析任务，更能像人类数据科学家一样自主编排和优化整个数据科学流程，从原始数据到分析师级别的研究报告，实现真正的”端到端”自动化。

💡 关键突破：DeepAnalyze-8B（仅8B参数）在多个基准测试中表现超越了GPT-4o-mini等商业大模型，成为首个能完成开放式数据研究的开源模型。

DeepAnalyze的五大核心能力

1️⃣ 端到端数据科学管道

DeepAnalyze可以自动完成整个数据科学流程：

数据准备：自动处理缺失值、去重、格式转换
数据分析：计算统计指标、识别数据模式
数据建模：构建预测模型并评估性能
数据可视化：生成专业图表和可视化报告
报告生成：输出分析师级别的专业报告

2️⃣ 开放式数据研究

与传统工具不同，DeepAnalyze不局限于预设流程，它能：

自主探索数据源，像人类数据科学家一样”思考”
灵活应对多种数据格式：CSV、Excel、JSON、数据库、Markdown等
深度挖掘数据背后的故事，提供真正有洞见的分析

🌟 上传多个数据文件后，DeepAnalyze能自动分析学生入学模式、机构转移网络，生成包含专业图表的深度研究报告。

3️⃣ 无需人工干预的自主性

DeepAnalyze最强大的特点是自主编排和优化能力：

它会先规划分析路径
然后主动探索数据
接着理解数据结构
执行数据准备和分析
最终生成专业报告

整个过程无需预设工作流，像人类一样思考，却比人类更高效、更精准！

4️⃣ 多数据源支持

DeepAnalyze能处理多种数据格式：

📊 结构化数据：CSV、Excel、数据库
📦 半结构化数据：JSON、XML、YAML
📝 非结构化数据：TXT、Markdown

无论你的数据是什么格式，DeepAnalyze都能”看懂”并进行深入分析。

5️⃣ 完全开源

DeepAnalyze最大的优势是完全开源：

模型权重开源
代码完全开放
训练数据公开
部署教程详细

你无需依赖任何闭源API，就能拥有自己的数据科学助手！

DeepAnalyze如何工作？技术解析

DeepAnalyze的创新之处在于其基于课程的代理训练（Curriculum-based Agentic Training）和数据导向轨迹合成技术：

🧠 五种核心交互动作

DeepAnalyze通过五种特殊动作标签实现自主操作：

⟨Analyze⟩：分析与规划
⟨Understand⟩：理解数据结构
⟨Code⟩：生成数据分析代码
⟨Execute⟩：执行代码并获取结果
⟨Answer⟩：生成最终报告

这些动作让DeepAnalyze能像人类一样思考-行动-反馈，不断优化分析过程。

📚 课程式训练方法

DeepAnalyze采用了”由简入繁”的训练策略：

单能力微调：先掌握基础能力（如数据理解、代码生成）
多能力代理训练：学会组合多种能力解决复杂问题
强化学习优化：在真实环境中不断改进决策

这种训练方法解决了传统LLM在复杂数据任务中”奖励稀疏”的难题，让模型真正学会”数据科学家的思维”。

如何部署DeepAnalyze？手把手教程

📦 准备工作

克隆代码库：

git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze

创建虚拟环境：

conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze

安装依赖：

pip install -r requirements.txt
# 训练相关依赖
(cd ./deepanalyze/ms-swift/ && pip install -e .)
(cd ./deepanalyze/SkyRL/ && pip install -e .)

🚀 部署模型

下载模型：

可直接下载DeepAnalyze-8B
或基于DeepSeek-R1-0528-Qwen3-8B进行微调

启动服务：

cd demo/chat
npm install
cd ..
bash start.sh

访问界面：

打开浏览器访问 http://localhost:4000
上传数据文件，输入分析指令

🌐 API调用方式

你也可以通过API方式集成到自己的系统中：

python demo/backend.py

然后使用curl测试API：

curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'

三步生成专业报告

让我们看一个真实的使用场景：

准备数据：将需要分析的数据文件放入工作目录（如example/student_loan/）
提交任务：

from deepanalyze import DeepAnalyzeVLLM

prompt = """# Instruction
Generate a data science report.

# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
...（更多文件描述）"""

workspace = "/path/to/your/workspace"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
answer = deepanalyze.generate(prompt, workspace=workspace)

获取结果：

你会得到一份包含专业图表、统计分析和业务建议的完整报告
支持导出为PDF格式，直接用于汇报

为什么选择DeepAnalyze？

特性	DeepAnalyze	传统工具	闭源API
自主性	✅ 自主编排全流程	❌ 需人工指导	⚠️ 有限自主
数据格式支持	✅ 多种格式	⚠️ 有限支持	✅ 支持
开源	✅ 完全开源	✅	❌
成本	✅ 一次性部署	✅	❌ 高昂使用费
定制性	✅ 可完全定制	⚠️ 有限	❌

拥抱自主数据科学新时代

DeepAnalyze代表了数据科学的新方向——从工作流驱动到AI自主驱动。它不仅仅是一个工具，更是你的24小时在线数据科学团队，能够理解你的业务需求，自主完成复杂的数据分析任务。

🌟 立即行动：访问 GitHub仓库获取完整代码和教程，今天就开始你的自主数据分析之旅！

更多产品请查看	更多内容请查看
ShirtAI – 渗透智能	AIGC大模型：开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生	比赛直播APP 全球高清体育观影播放器（推荐） – 蓝衫科技
基于官方API的中转服务 – GPTMeta API	求助，各位大神谁能提供一些GPT的提问技巧？– 知乎
全球化虚拟商品数字商店 – 环球智购（凤灵阁）	Claude airtfacts功能有多强大，GPT瞬间不香了？-哔哩哔哩