DeepAnalyze:让AI成为你的专属数据科学家!开源项目深度解析

在这个数据爆炸的时代,数据分析已成为企业决策的核心。但数据科学家的短缺、高昂的人工成本,以及传统数据分析工具的学习门槛,让许多企业望而却步。今天,我要给大家介绍一个革命性的开源项目——DeepAnalyze,它能让你轻松拥有一个24小时在线的AI数据科学家

什么是DeepAnalyze?

DeepAnalyze是首个面向自主数据科学的代理大型语言模型(Agentic LLM),由中国人民大学与清华大学团队联合开发。它不仅能执行传统的数据分析任务,更能像人类数据科学家一样自主编排和优化整个数据科学流程,从原始数据到分析师级别的研究报告,实现真正的”端到端”自动化。

💡 关键突破:DeepAnalyze-8B(仅8B参数)在多个基准测试中表现超越了GPT-4o-mini等商业大模型,成为首个能完成开放式数据研究的开源模型。

DeepAnalyze的五大核心能力

1️⃣ 端到端数据科学管道

DeepAnalyze可以自动完成整个数据科学流程:

  • 数据准备:自动处理缺失值、去重、格式转换
  • 数据分析:计算统计指标、识别数据模式
  • 数据建模:构建预测模型并评估性能
  • 数据可视化:生成专业图表和可视化报告
  • 报告生成:输出分析师级别的专业报告

2️⃣ 开放式数据研究

与传统工具不同,DeepAnalyze不局限于预设流程,它能:

  • 自主探索数据源,像人类数据科学家一样”思考”
  • 灵活应对多种数据格式:CSV、Excel、JSON、数据库、Markdown等
  • 深度挖掘数据背后的故事,提供真正有洞见的分析

🌟 上传多个数据文件后,DeepAnalyze能自动分析学生入学模式、机构转移网络,生成包含专业图表的深度研究报告。

3️⃣ 无需人工干预的自主性

DeepAnalyze最强大的特点是自主编排和优化能力:

  • 它会先规划分析路径
  • 然后主动探索数据
  • 接着理解数据结构
  • 执行数据准备和分析
  • 最终生成专业报告

整个过程无需预设工作流,像人类一样思考,却比人类更高效、更精准!

4️⃣ 多数据源支持

DeepAnalyze能处理多种数据格式:

  • 📊 结构化数据:CSV、Excel、数据库
  • 📦 半结构化数据:JSON、XML、YAML
  • 📝 非结构化数据:TXT、Markdown

无论你的数据是什么格式,DeepAnalyze都能”看懂”并进行深入分析。

5️⃣ 完全开源

DeepAnalyze最大的优势是完全开源

  • 模型权重开源
  • 代码完全开放
  • 训练数据公开
  • 部署教程详细

你无需依赖任何闭源API,就能拥有自己的数据科学助手!

DeepAnalyze如何工作?技术解析

DeepAnalyze的创新之处在于其基于课程的代理训练(Curriculum-based Agentic Training)和数据导向轨迹合成技术:

🧠 五种核心交互动作

DeepAnalyze通过五种特殊动作标签实现自主操作:

  • ⟨Analyze⟩:分析与规划
  • ⟨Understand⟩:理解数据结构
  • ⟨Code⟩:生成数据分析代码
  • ⟨Execute⟩:执行代码并获取结果
  • ⟨Answer⟩:生成最终报告

这些动作让DeepAnalyze能像人类一样思考-行动-反馈,不断优化分析过程。

📚 课程式训练方法

DeepAnalyze采用了”由简入繁”的训练策略:

  1. 单能力微调:先掌握基础能力(如数据理解、代码生成)
  2. 多能力代理训练:学会组合多种能力解决复杂问题
  3. 强化学习优化:在真实环境中不断改进决策

这种训练方法解决了传统LLM在复杂数据任务中”奖励稀疏”的难题,让模型真正学会”数据科学家的思维”。

如何部署DeepAnalyze?手把手教程

📦 准备工作

  1. 克隆代码库
PHP
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze
  1. 创建虚拟环境
PHP
conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze
  1. 安装依赖
PHP
pip install -r requirements.txt
# 训练相关依赖
(cd ./deepanalyze/ms-swift/ && pip install -e .)
(cd ./deepanalyze/SkyRL/ && pip install -e .)

🚀 部署模型

  1. 下载模型
  • 可直接下载DeepAnalyze-8B
  • 或基于DeepSeek-R1-0528-Qwen3-8B进行微调
  1. 启动服务
PHP
cd demo/chat
npm install
cd ..
bash start.sh
  1. 访问界面

🌐 API调用方式

你也可以通过API方式集成到自己的系统中:

PHP
python demo/backend.py

然后使用curl测试API:

PHP
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'

三步生成专业报告

让我们看一个真实的使用场景:

  1. 准备数据:将需要分析的数据文件放入工作目录(如example/student_loan/
  2. 提交任务
PHP
from deepanalyze import DeepAnalyzeVLLM

prompt = """# Instruction
Generate a data science report.

# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
...(更多文件描述)"""

workspace = "/path/to/your/workspace"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
answer = deepanalyze.generate(prompt, workspace=workspace)
  1. 获取结果
  • 你会得到一份包含专业图表、统计分析和业务建议的完整报告
  • 支持导出为PDF格式,直接用于汇报

为什么选择DeepAnalyze?

特性DeepAnalyze传统工具闭源API
自主性✅ 自主编排全流程❌ 需人工指导⚠️ 有限自主
数据格式支持✅ 多种格式⚠️ 有限支持✅ 支持
开源✅ 完全开源
成本✅ 一次性部署❌ 高昂使用费
定制性✅ 可完全定制⚠️ 有限

拥抱自主数据科学新时代

DeepAnalyze代表了数据科学的新方向——从工作流驱动到AI自主驱动。它不仅仅是一个工具,更是你的24小时在线数据科学团队,能够理解你的业务需求,自主完成复杂的数据分析任务。

🌟 立即行动:访问 GitHub仓库 获取完整代码和教程,今天就开始你的自主数据分析之旅!

更多产品请查看

更多内容请查看

ShirtAI – 渗透智能 AIGC大模型:开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生 比赛直播APP 全球高清体育观影播放器(推荐) – 蓝衫科技
基于官方API的中转服务 – GPTMeta API 求助,各位大神谁能提供一些GPT的提问技巧?– 知乎
全球化虚拟商品数字商店 – 环球智购(凤灵阁) Claude airtfacts功能有多强大,GPT瞬间不香了?-哔哩哔哩