DeepAnalyze: deixe a IA tornar-se o seu cientista de dados exclusivo! Análise aprofundada de projectos de código aberto

Nesta era de explosão de dados, a análise de dados tornou-se o núcleo da tomada de decisões empresariais. No entanto, a escassez de cientistas de dados, os elevados custos laborais e o limiar de aprendizagem das ferramentas tradicionais de análise de dados têm dissuadido muitas empresas. Hoje, gostaria de vos apresentar umaProjeto revolucionário de fonte aberta--DeepAnalyze, que facilita a obtenção de umCientista de dados de IA em linha 24/7!

O que é o DeepAnalyze?

O DeepAnalyze éO primeiro modelo linguístico de grande dimensão baseado em agentes para a ciência de dados autónoma(Agentic LLM), desenvolvido conjuntamente por uma equipa da Universidade Renmin da China e da Universidade de Tsinghua. Não só executa tarefas tradicionais de análise de dados, como também actua como um cientista de dados humanoProgramação e otimização autónomasVerdadeira automatização "end-to-end" de todo o processo de ciência de dados, desde os dados em bruto até aos relatórios de investigação ao nível dos analistas.

💡 Principais avançosDeepAnalyze-8B (apenas 8B parâmetros) supera os grandes modelos comerciais, como o GPT-4o-mini, em vários parâmetros de referência, tornando-se o primeiro a completar oInvestigação sobre dados abertosO modelo de fonte aberta.

Os cinco principais recursos do DeepAnalyze

1️⃣ Pipeline de ciência de dados de ponta a ponta

O DeepAnalyze automatiza todo o processo de ciência de dados:

  • Preparação dos dados: tratamento automático de valores em falta, eliminação de duplicações, conversão de formatos
  • análise de dadosCálculo de indicadores estatísticos, identificação de padrões de dados
  • Modelação de dadosDesenvolver modelos de previsão e avaliar o desempenho
  • Visualização de dadosGerar gráficos e relatórios de visualização profissionais
  • Geração de relatóriosProdução de relatórios profissionais de nível analítico

2️⃣ Investigação de dados abertos

Ao contrário das ferramentas tradicionais, o DeepAnalyze não se limita a processos predefinidos, ele pode:

  • exploração autónomaFontes de dados que "pensam" como um cientista de dados humano
  • resposta flexívelVários formatos de dados: CSV, Excel, JSON, base de dados, Markdown, etc.
  • profundamente enraizadoA história por detrás dos dados, fornecendo análises verdadeiramente perspicazes

Depois de carregar vários ficheiros de dados, o DeepAnalyze analisa automaticamente os padrões de inscrição dos estudantes, as redes de transferências institucionais e gera relatórios de investigação aprofundados com gráficos e quadros profissionais.

3️⃣ Autonomia sem intervenção humana

As caraterísticas mais poderosas do DeepAnalyze sãoProgramação e otimização autónomasCapacidade:

  • primeiroplanear (como fazer algo)Análise de trajectórias
  • então (depois)exploração proactivanúmeros
  • continuar a fazer algoentendimentosestrutura de dados
  • efetuarPreparação e análise de dados
  • eventualGerar relatórios profissionais

Todo o processo não requer um fluxo de trabalho pré-definido e pensa como um ser humano, mas é mais eficiente e preciso do que um ser humano!

4️⃣ Suporte a múltiplas fontes de dados

O DeepAnalyze pode lidar com uma ampla gama de formatos de dados:

  • 📊 Dados estruturados: CSV, Excel, base de dados
  • 📦 dados semi-estruturados: JSON, XML, YAML
  • 📝 Dados não estruturados: TXT, Markdown

Independentemente do formato dos seus dados, o DeepAnalyze "apanha-os" e analisa-os em profundidade.

5️⃣ Código aberto completo

Os maiores pontos fortes do DeepAnalyze sãoTotalmente de código aberto::

  • Pesos do modelo Código aberto
  • O código é completamente aberto
  • Os dados de formação estão disponíveis ao público
  • Tutoriais de implantação em pormenor

Não precisa de depender de nenhuma API de fonte fechada para ter o seu próprio assistente de ciência de dados!

Como é que o DeepAnalyze funciona? Análise técnica

A inovação do DeepAnalyze é a suaFormação de agentes baseada em currículos(Formação Agêntica baseada no Currículo) eSíntese de trajectórias guiada por dadosTecnologia:

Cinco acções de interação fundamentais

O DeepAnalyze funciona de forma autónoma através de cinco etiquetas de ação especiais:

  • ⟨Analisar⟩: Análise e planeamento
  • ⟨Compreender⟩Compreensão das estruturas de dados
  • ⟨Código⟩Gerar código de análise de dados
  • ⟨Executar⟩Executar o código e obter o resultado
  • ⟨Resposta⟩Gerar o relatório final

Estas acções permitem ao DeepAnalyze agir como um ser humanoPensar-Atuar-ReflexãoO processo de análise é continuamente optimizado.

Métodos de formação baseados em cursos

O DeepAnalyze emprega uma estratégia de treinamento "simples para complexo":

  1. Afinação de capacidade únicaAquisição de competências básicas em primeiro lugar (por exemplo, compreensão de dados, geração de código)
  2. Formação de agentes multicompetentesAprender a combinar múltiplas competências para resolver problemas complexos
  3. Otimização da aprendizagem melhoradaMelhoria contínua da tomada de decisões em ambientes reais

Este método de formação resolve o problema da "escassez de recompensas" do LLM tradicional em tarefas de dados complexas e permite que o modelo aprenda verdadeiramente a "pensar como um cientista de dados".

Como implantar o DeepAnalyze: um tutorial prático

📦 Preparativos

  1. Clonagem da base de código::
PHP
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze
  1. Criar um ambiente virtual::
PHP
conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze
  1. Instalação de dependências::
PHP
pip install -r requirements.txt
Dependências de formação do #
(cd . /deepanalyze/ms-swift/ && pip install -e .)
(cd . /deepanalyze/SkyRL/ && pip install -e .)

Modelo de implantação

  1. Modelos para descarregar::
  • O DeepAnalyze-8B está disponível para download direto.
  • ou afinado com base no DeepSeek-R1-0528-Qwen3-8B
  1. Início dos serviços::
PHP
cd demo/chat
npm install
cd .
bash start.sh
  1. interface de acesso::
  • Abra o seu browser para aceder http://localhost:4000
  • Carregar ficheiros de dados e introduzir instruções de análise

Métodos de chamada da API

Também é possível integrá-lo no seu próprio sistema através da API:

PHP
python demo/backend.py

Em seguida, utilize o curl para testar a API:

PHP
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'

Crie um relatório profissional em três passos

Vejamos um cenário de utilização na vida real:

  1. Preparar dadosColocar os ficheiros de dados a analisar no diretório de trabalho (por exemploexemplo/empréstimo_estudante/)
  2. Apresentação de mandatos::
PHP
from deepanalyze import DeepAnalyzeVLLM

prompt = """Instrução #
Gerar um relatório de ciência de dados.

Dados do #
Ficheiro 1: {"name": "bool.xlsx", "size": "4.8KB"}
Ficheiro 2: {"name": "person.csv", "size": "10.6KB"}
... (mais descrições de ficheiros)""""

espaço de trabalho = "/caminho/para/seu/espaço de trabalho"
deepanalyze = DeepAnalyzeVLLM("path/to/DeepAnalyze-8B/")
resposta = deepanalyze.generate(prompt, workspace=workspace)
  1. Obter resultados::
  • Obterá uma lista deGráficos profissionais, análises estatísticas e conselhos comerciaise o relatório completo do Comité para a Eliminação da Discriminação contra as Mulheres
  • Suporta a exportação para o formato PDF para utilização direta em relatórios

Por que escolher o DeepAnalyze?

caraterizaçãoDeepAnalyzeFerramentas tradicionaisAPI de fonte fechada
autonomiaCoreografia autónoma de todo o processoNecessidade de orientação manual⚠️ Autonomia limitada
Suporte de formato de dadosVários formatos⚠️ Apoio limitado✅ Apoio
aumentar os recursos financeirosTotalmente de código aberto
custos (de fabrico, de produção, etc.)Implementação únicaTaxas de utilização elevadas
personalizaçãoTotalmente personalizável⚠️ Limitada

Abraçar a nova era da ciência de dados autónoma

O DeepAnalyze representa uma nova direção na ciência dos dados - aDo fluxo de trabalho à autonomia da IA. Não é apenas uma ferramenta, é a suaEquipa de ciência de dados em linha 24 horas por diaO utilizador deve ser capaz de compreender as necessidades da sua empresa e assumir a responsabilidade por tarefas complexas de análise de dados.

🌟 ação imediata: Acesso Repositório GitHub Obtenha o código completo e os tutoriais e comece hoje mesmo a sua jornada para a análise de dados autónoma!

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep