En esta era de explosión de datos, el análisis de datos se ha convertido en el núcleo de la toma de decisiones empresariales. Sin embargo, la escasez de científicos de datos, los elevados costes laborales y el umbral de aprendizaje de las herramientas tradicionales de análisis de datos han disuadido a muchas empresas. Hoy quiero presentarles unaRevolucionario proyecto de código abierto--DeepAnalyze, que facilita tener unCientífico de datos de IA en línea 24/7¡!
¿Qué es DeepAnalyze?
DeepAnalyze esEl primer gran modelo lingüístico basado en agentes para la ciencia de datos autónoma(Agentic LLM), desarrollado conjuntamente por un equipo de la Universidad Renmin de China y la Universidad Tsinghua. No solo realiza tareas tradicionales de análisis de datos, sino que también actúa como un científico de datos humano.Programación y optimización autónomasAutomatización "de principio a fin" de todo el proceso de ciencia de datos, desde los datos brutos hasta los informes de investigación a nivel de analista.
💡 Principales avances: DeepAnalyze-8B (sólo parámetros 8B) supera a los grandes modelos comerciales como GPT-4o-mini en varias pruebas de referencia, convirtiéndose en el primero en completar elInvestigación sobre datos abiertosEl modelo de código abierto.
Las cinco funciones básicas de DeepAnalyze
1️⃣ Canal de ciencia de datos de extremo a extremo
DeepAnalyze automatiza todo el proceso de la ciencia de datos:
- Preparación de datosTratamiento automático de valores omitidos, eliminación de duplicados y conversión de formatos.
- análisis de datosCálculo de indicadores estadísticos, identificación de patrones de datos
- Modelización de datosConstruir modelos predictivos y evaluar su rendimiento
- Visualización de datosGenerar gráficos e informes de visualización profesionales
- Generación de informes: Realización de informes profesionales a nivel de analista

2️⃣ Investigación sobre datos abiertos
A diferencia de las herramientas tradicionales, DeepAnalyze no se limita a procesos predefinidos, sino que puede:
- exploración autodirigidaFuentes de datos que "piensan" como un científico de datos humano
- respuesta flexibleMúltiples formatos de datos: CSV, Excel, JSON, base de datos, Markdown, etc.
- arraigadaLa historia que se esconde tras los datos, con análisis realmente reveladores
🌟 Tras cargar varios archivos de datos, DeepAnalyze analiza automáticamente los patrones de matriculación de los estudiantes, las redes de transferencia institucionales y genera informes de investigación en profundidad que contienen gráficos y cuadros profesionales.

3️⃣ Autonomía sin intervención humana
Las funciones más potentes de DeepAnalyze sonProgramación y optimización autónomasHabilidad:
- primeroplanear (cómo hacer algo)Análisis de trayectorias
- entonces (después)exploración proactivanúmeros
- pasar a hacer algocomprensiónestructura de datos
- llevar a caboPreparación y análisis de datos
- eventualGenere informes profesionales
Todo el proceso no requiere un flujo de trabajo predefinido y piensa como un ser humano, pero es más eficaz y preciso que él.

4️⃣ Soporte de múltiples fuentes de datos
DeepAnalyze puede manejar una amplia gama de formatos de datos:
- 📊 Datos estructuradosCSV, Excel, base de datos
- 📦 datos semiestructurados: JSON, XML, YAML
- 📝 Datos no estructurados: TXT, Markdown
Sea cual sea el formato de sus datos, DeepAnalyze "los capta" y los analiza en profundidad.

5️⃣ Código abierto completo
Los puntos fuertes de DeepAnalyze sonCódigo totalmente abierto::
- Modelos de ponderación de código abierto
- El código es totalmente abierto
- Los datos de formación están a disposición del público
- Tutoriales de implantación en detalle
No necesitas depender de ninguna API de código cerrado para tener tu propio asistente de ciencia de datos.

¿Cómo funciona DeepAnalyze? Análisis técnico
La innovación de DeepAnalyze es suFormación de agentes basada en planes de estudios(Formación agéntica basada en el currículo) ySíntesis de trayectorias guiada por datosTecnología:
🧠 Cinco acciones de interacción básicas
DeepAnalyze funciona de forma autónoma mediante cinco etiquetas de acción especiales:
⟨Analizar⟩: Análisis y planificación⟨Entender⟩: Comprender las estructuras de datos⟨Código⟩Generar código de análisis de datos⟨Ejecutar⟩Ejecutar el código y obtener el resultado⟨Respuesta⟩Generar informe final
Estas acciones permiten a DeepAnalyze actuar como un ser humanoPensar-Actuar-ReaccionarEl proceso de análisis se optimiza constantemente.

📚 Métodos de formación basados en cursos
DeepAnalyze emplea una estrategia de entrenamiento "de lo simple a lo complejo":
- Ajuste fino de una sola capacidadAdquirir primero las competencias básicas (por ejemplo, comprensión de datos, generación de código).
- Formación de agentes multicompetencia: Aprender a combinar múltiples competencias para resolver problemas complejos
- Optimización del aprendizaje: Mejora continua de la toma de decisiones en entornos reales
Este método de entrenamiento resuelve el problema de la "escasez de recompensas" del LLM tradicional en tareas de datos complejas, y permite que el modelo aprenda realmente a "pensar como un científico de datos".

Cómo desplegar DeepAnalyze: un tutorial práctico
📦 Preparativos
- Clonación del código base::
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze- Creación de un entorno virtual::
conda create -n deepanalyze python=3.12 -y
conda activar deepanalyze- Instalación de dependencias::
pip install -r requisitos.txt
Dependencias de formación de #
(cd . /deepanalyze/ms-swift/ && pip install -e .)
(cd . /depanalyze/SkyRL/ && pip install -e .)🚀 Modelo de implantación
- Descargar modelos::
- DeepAnalyze-8B está disponible para descarga directa.
- o afinado basado en DeepSeek-R1-0528-Qwen3-8B
- Inicio de los servicios::
cd demo/chat
npm instalar
cd .
bash start.sh- interfaz de acceso::
- Abra su navegador para acceder a
http://localhost:4000 - Cargar archivos de datos e introducir instrucciones de análisis
🌐 Métodos de llamada a la API
También puede integrarlo en su propio sistema a través de la API:
python demo/backend.pyA continuación, utilice curl para probar la API:
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'Genere un informe profesional en tres pasos
Veamos un escenario de uso real:
- Preparar los datos: Coloque los archivos de datos que se van a analizar en el directorio de trabajo (p. ej.
ejemplo/préstamo_estudiante/) - Presentación de mandatos::
from deepanalyze import DeepAnalyzeVLLM
prompt = """Instrucción #
Generar un informe de ciencia de datos.
# Datos
Fichero 1: {"name": "bool.xlsx", "size": "4.8KB"}
Fichero 2: {"name": "person.csv", "size": "10.6KB"}
... (más descripciones de ficheros)""""
espacio de trabajo = "/ruta/a/tu/espacio de trabajo"
deepanalyze = DeepAnalyzeVLLM("ruta/a/DeepAnalyze-8B/")
answer = deepanalyze.generate(prompt, workspace=espacio de trabajo)- Obtener resultados::
- Obtendrá una lista deGráficos profesionales, análisis estadísticos y asesoramiento empresarialy el informe completo del Comité para la Eliminación de la Discriminación contra la Mujer
- Admite la exportación a formato PDF para su uso directo en informes

¿Por qué elegir DeepAnalyze?
| caracterización | DeepAnalyze | Herramientas tradicionales | API de código cerrado |
|---|---|---|---|
| autonomía | ✅ Coreografía autónoma de todo el proceso. | ❌ Se requiere orientación manual | ⚠️ Autonomía limitada |
| Soporte de formatos de datos | ✅ Múltiples formatos | ⚠️ Asistencia limitada | ✅ Soporte |
| ampliar los propios recursos financieros | Código totalmente abierto | ✅ | ❌ |
| costes (fabricación, producción, etc.) | ✅ Despliegue único | ✅ | ❌ Tarifas elevadas |
| personalización | ✅ Totalmente personalizable | ⚠️ Limitada | ❌ |
La nueva era de la ciencia de datos autónoma
DeepAnalyze representa una nueva dirección en la ciencia de datos.Del flujo de trabajo a la autonomía de la IA. No es sólo una herramienta, es tuEquipo de ciencia de datos en línea 24 horascapaz de comprender las necesidades de su empresa y de asumir tareas complejas de análisis de datos.
🌟 acción inmediata: Acceso Repositorio GitHub Consigue el código completo y los tutoriales y comienza hoy mismo tu viaje hacia el análisis autónomo de datos.