Nesta era de explosão de dados, a análise de dados tornou-se o núcleo da tomada de decisões empresariais. No entanto, a escassez de cientistas de dados, os elevados custos laborais e o limiar de aprendizagem das ferramentas tradicionais de análise de dados têm dissuadido muitas empresas. Hoje, gostaria de vos apresentar umaProjeto revolucionário de fonte aberta--DeepAnalyze, que facilita a obtenção de umCientista de dados de IA em linha 24/7!
O que é o DeepAnalyze?
O DeepAnalyze éO primeiro modelo linguístico de grande dimensão baseado em agentes para a ciência de dados autónoma(Agentic LLM), desenvolvido conjuntamente por uma equipa da Universidade Renmin da China e da Universidade de Tsinghua. Não só executa tarefas tradicionais de análise de dados, como também actua como um cientista de dados humanoProgramação e otimização autónomasVerdadeira automatização "end-to-end" de todo o processo de ciência de dados, desde os dados em bruto até aos relatórios de investigação ao nível dos analistas.
💡 Principais avançosDeepAnalyze-8B (apenas 8B parâmetros) supera os grandes modelos comerciais, como o GPT-4o-mini, em vários parâmetros de referência, tornando-se o primeiro a completar oInvestigação sobre dados abertosO modelo de fonte aberta.
Os cinco principais recursos do DeepAnalyze
1️⃣ Pipeline de ciência de dados de ponta a ponta
O DeepAnalyze automatiza todo o processo de ciência de dados:
- Preparação dos dados: tratamento automático de valores em falta, eliminação de duplicações, conversão de formatos
- análise de dadosCálculo de indicadores estatísticos, identificação de padrões de dados
- Modelação de dadosDesenvolver modelos de previsão e avaliar o desempenho
- Visualização de dadosGerar gráficos e relatórios de visualização profissionais
- Geração de relatóriosProdução de relatórios profissionais de nível analítico

2️⃣ Investigação de dados abertos
Ao contrário das ferramentas tradicionais, o DeepAnalyze não se limita a processos predefinidos, ele pode:
- exploração autónomaFontes de dados que "pensam" como um cientista de dados humano
- resposta flexívelVários formatos de dados: CSV, Excel, JSON, base de dados, Markdown, etc.
- profundamente enraizadoA história por detrás dos dados, fornecendo análises verdadeiramente perspicazes
Depois de carregar vários ficheiros de dados, o DeepAnalyze analisa automaticamente os padrões de inscrição dos estudantes, as redes de transferências institucionais e gera relatórios de investigação aprofundados com gráficos e quadros profissionais.

3️⃣ Autonomia sem intervenção humana
As caraterísticas mais poderosas do DeepAnalyze sãoProgramação e otimização autónomasCapacidade:
- primeiroplanear (como fazer algo)Análise de trajectórias
- então (depois)exploração proactivanúmeros
- continuar a fazer algoentendimentosestrutura de dados
- efetuarPreparação e análise de dados
- eventualGerar relatórios profissionais
Todo o processo não requer um fluxo de trabalho pré-definido e pensa como um ser humano, mas é mais eficiente e preciso do que um ser humano!

4️⃣ Suporte a múltiplas fontes de dados
O DeepAnalyze pode lidar com uma ampla gama de formatos de dados:
- 📊 Dados estruturados: CSV, Excel, base de dados
- 📦 dados semi-estruturados: JSON, XML, YAML
- 📝 Dados não estruturados: TXT, Markdown
Independentemente do formato dos seus dados, o DeepAnalyze "apanha-os" e analisa-os em profundidade.

5️⃣ Código aberto completo
Os maiores pontos fortes do DeepAnalyze sãoTotalmente de código aberto::
- Pesos do modelo Código aberto
- O código é completamente aberto
- Os dados de formação estão disponíveis ao público
- Tutoriais de implantação em pormenor
Não precisa de depender de nenhuma API de fonte fechada para ter o seu próprio assistente de ciência de dados!

Como é que o DeepAnalyze funciona? Análise técnica
A inovação do DeepAnalyze é a suaFormação de agentes baseada em currículos(Formação Agêntica baseada no Currículo) eSíntese de trajectórias guiada por dadosTecnologia:
Cinco acções de interação fundamentais
O DeepAnalyze funciona de forma autónoma através de cinco etiquetas de ação especiais:
⟨Analisar⟩: Análise e planeamento⟨Compreender⟩Compreensão das estruturas de dados⟨Código⟩Gerar código de análise de dados⟨Executar⟩Executar o código e obter o resultado⟨Resposta⟩Gerar o relatório final
Estas acções permitem ao DeepAnalyze agir como um ser humanoPensar-Atuar-ReflexãoO processo de análise é continuamente optimizado.

Métodos de formação baseados em cursos
O DeepAnalyze emprega uma estratégia de treinamento "simples para complexo":
- Afinação de capacidade únicaAquisição de competências básicas em primeiro lugar (por exemplo, compreensão de dados, geração de código)
- Formação de agentes multicompetentesAprender a combinar múltiplas competências para resolver problemas complexos
- Otimização da aprendizagem melhoradaMelhoria contínua da tomada de decisões em ambientes reais
Este método de formação resolve o problema da "escassez de recompensas" do LLM tradicional em tarefas de dados complexas e permite que o modelo aprenda verdadeiramente a "pensar como um cientista de dados".

Como implantar o DeepAnalyze: um tutorial prático
📦 Preparativos
- Clonagem da base de código::
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze- Criar um ambiente virtual::
conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze- Instalação de dependências::
pip install -r requirements.txt
Dependências de formação do #
(cd . /deepanalyze/ms-swift/ && pip install -e .)
(cd . /deepanalyze/SkyRL/ && pip install -e .)Modelo de implantação
- Modelos para descarregar::
- O DeepAnalyze-8B está disponível para download direto.
- ou afinado com base no DeepSeek-R1-0528-Qwen3-8B
- Início dos serviços::
cd demo/chat
npm install
cd .
bash start.sh- interface de acesso::
- Abra o seu browser para aceder
http://localhost:4000 - Carregar ficheiros de dados e introduzir instruções de análise
Métodos de chamada da API
Também é possível integrá-lo no seu próprio sistema através da API:
python demo/backend.pyEm seguida, utilize o curl para testar a API:
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'Crie um relatório profissional em três passos
Vejamos um cenário de utilização na vida real:
- Preparar dadosColocar os ficheiros de dados a analisar no diretório de trabalho (por exemplo
exemplo/empréstimo_estudante/) - Apresentação de mandatos::
from deepanalyze import DeepAnalyzeVLLM
prompt = """Instrução #
Gerar um relatório de ciência de dados.
Dados do #
Ficheiro 1: {"name": "bool.xlsx", "size": "4.8KB"}
Ficheiro 2: {"name": "person.csv", "size": "10.6KB"}
... (mais descrições de ficheiros)""""
espaço de trabalho = "/caminho/para/seu/espaço de trabalho"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
resposta = deepanalyze.generate(prompt, workspace=workspace)- Obter resultados::
- Obterá uma lista deGráficos profissionais, análises estatísticas e conselhos comerciaise o relatório completo do Comité para a Eliminação da Discriminação contra as Mulheres
- Suporta a exportação para o formato PDF para utilização direta em relatórios

Por que escolher o DeepAnalyze?
| caraterização | DeepAnalyze | Ferramentas tradicionais | API de fonte fechada |
|---|---|---|---|
| autonomia | Coreografia autónoma de todo o processo | Necessidade de orientação manual | ⚠️ Autonomia limitada |
| Suporte de formato de dados | Vários formatos | ⚠️ Apoio limitado | ✅ Apoio |
| aumentar os recursos financeiros | Totalmente de código aberto | ✅ | ❌ |
| custos (de fabrico, de produção, etc.) | Implementação única | ✅ | Taxas de utilização elevadas |
| personalização | Totalmente personalizável | ⚠️ Limitada | ❌ |
Abraçar a nova era da ciência de dados autónoma
O DeepAnalyze representa uma nova direção na ciência dos dados - aDo fluxo de trabalho à autonomia da IA. Não é apenas uma ferramenta, é a suaEquipa de ciência de dados em linha 24 horas por diaO utilizador deve ser capaz de compreender as necessidades da sua empresa e assumir a responsabilidade por tarefas complexas de análise de dados.
🌟 ação imediata: Acesso Repositório GitHub Obtenha o código completo e os tutoriais e comece hoje mesmo a sua jornada para a análise de dados autónoma!