In dieser Ära der Datenexplosion ist die Datenanalyse zum Kernstück der unternehmerischen Entscheidungsfindung geworden. Der Mangel an Datenwissenschaftlern, hohe Arbeitskosten und die Lernschwelle herkömmlicher Datenanalysetools haben jedoch viele Unternehmen abgeschreckt. Heute möchte ich Ihnen eine Lösung vorstellenRevolutionäres Open-Source-Projekt--DeepAnalyze, das es einfach macht, eineAI Data Scientist online 24/7!
Was ist DeepAnalyze?
DeepAnalyze istDas erste agentenbasierte große Sprachmodell für autonome Datenwissenschaft(Agentic LLM), das gemeinsam von einem Team der Renmin University of China und der Tsinghua University entwickelt wurde. Er führt nicht nur traditionelle Datenanalyseaufgaben durch, sondern fungiert auch als menschlicher DatenwissenschaftlerAutonome Planung und OptimierungEchte "End-to-End"-Automatisierung des gesamten Data-Science-Prozesses, von den Rohdaten bis zu den Forschungsberichten auf Analystenebene.
💡 Wichtige DurchbrücheDeepAnalyze-8B (nur 8B-Parameter) übertrifft kommerzielle große Modelle wie GPT-4o-mini in mehreren Benchmarks und ist das erste Modell, das dieOffene DatenforschungDas Open-Source-Modell.
Die fünf Kernfähigkeiten von DeepAnalyze
1️⃣ End-to-End-Pipeline für Datenwissenschaft
DeepAnalyze automatisiert den gesamten Data-Science-Prozess:
- Vorbereitung der DatenAutomatischer Umgang mit fehlenden Werten, Deduplizierung, Formatkonvertierung
- DatenanalyseBerechnung von statistischen Indikatoren, Identifizierung von Datenmustern
- DatenmodellierungErstellung von Prognosemodellen und Bewertung der Leistung
- Visualisierung der DatenErstellen Sie professionelle Diagramme und Visualisierungsberichte.
- Erstellung von BerichtenAusgabe professioneller Berichte auf Analystenebene

2️⃣ Offene Datenforschung
Im Gegensatz zu herkömmlichen Tools ist DeepAnalyze nicht auf vordefinierte Prozesse beschränkt, sondern kann:
- selbstgesteuertes ErkundenDatenquellen, die wie ein menschlicher Datenwissenschaftler "denken"
- flexible AntwortMehrere Datenformate: CSV, Excel, JSON, Datenbank, Markdown, usw.
- tief verwurzeltDie Geschichte hinter den Daten, die wirklich aufschlussreiche Analysen liefert
Nach dem Hochladen mehrerer Datendateien analysiert DeepAnalyze automatisch die Einschreibungsmuster von Studenten und die institutionellen Transfernetzwerke und erstellt ausführliche Forschungsberichte mit professionellen Grafiken und Diagrammen.

3️⃣ Autonomie ohne menschliches Eingreifen
Die wichtigsten Funktionen von DeepAnalyze sindAutonome Planung und OptimierungFähigkeit:
- wird sie zunächstplanen (wie man etw. tut)Analyse der Pfade
- daraufhinproaktive ErkundungZahlen
- der Reihe nachVerständnisseDatenstruktur
- vollziehenDatenaufbereitung und -analyse
- eventuellErstellen Sie professionelle Berichte
Der gesamte Prozess erfordert keinen vordefinierten Arbeitsablauf und denkt wie ein Mensch, ist aber effizienter und genauer als ein Mensch!

4️⃣ Unterstützung mehrerer Datenquellen
DeepAnalyze kann eine breite Palette von Datenformaten verarbeiten:
- 📊 Strukturierte DatenCSV, Excel, Datenbank
- 📦 semistrukturierte DatenJSON, XML, YAML
- 📝 Unstrukturierte DatenTXT, Markdown
Ganz gleich, in welchem Format Ihre Daten vorliegen, DeepAnalyze "versteht" sie und analysiert sie eingehend.

5️⃣ Vollständig quelloffen
Die größten Stärken von DeepAnalyze sindVollständig quelloffen::
- Modellgewichte Open Source
- Der Code ist völlig offen
- Trainingsdaten sind öffentlich zugänglich
- Einsatztutorials im Detail
Sie müssen sich nicht auf Closed-Source-APIs verlassen, um Ihren eigenen Data-Science-Assistenten zu haben!

Wie funktioniert DeepAnalyze? Technische Analyse
Die Innovation von DeepAnalyze ist seineLehrplanbasierte Agentenschulung(Curriculum-basiertes Agententraining) undDatengesteuerte FlugbahnsyntheseTechnologie:
🧠 Fünf zentrale Interaktionsmaßnahmen
DeepAnalyze arbeitet selbstständig mit fünf speziellen Aktions-Tags:
Analysieren⟩Analyse und PlanungVerstehen⟩Verstehen von Datenstrukturen⟨Code⟩Generierung von DatenanalysecodeAusführen⟩Ausführen des Codes und Abrufen des Ergebnisses⟨Antwort⟩Abschlussbericht generieren
Diese Aktionen ermöglichen es DeepAnalyze, sich wie ein Mensch zu verhaltenDenken-Handeln-Feedback, die kontinuierliche Optimierung des Analyseprozesses.

📚 Kursbasierte Ausbildungsmethoden
DeepAnalyze verwendet eine "einfache bis komplexe" Trainingsstrategie:
- Feinabstimmung der EinzelkapazitätenGrundlegende Kompetenzen zuerst erwerben (z. B. Datenverständnis, Codegenerierung)
- Ausbildung von Multi-Kompetenz-AgentenLernen, mehrere Kompetenzen zu kombinieren, um komplexe Probleme zu lösen
- Verbesserte Lernoptimierung: Kontinuierliche Verbesserung der Entscheidungsfindung in realen Umgebungen
Diese Trainingsmethode löst das Problem der "spärlichen Belohnung" des traditionellen LLM bei komplexen Datenaufgaben und ermöglicht es dem Modell, wirklich zu lernen, "wie ein Datenwissenschaftler zu denken".

Einsatz von DeepAnalyze: Ein praktisches Tutorial
📦 Vorbereitungen
- Klonen der Codebasis::
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze- Erstellen einer virtuellen Umgebung::
conda erstellen -n deepanalyze python=3.12 -y
conda deepanalyze aktivieren- Installation von Abhängigkeiten::
pip install -r anforderungen.txt
#-Schulungs-Abhängigkeiten
(cd . /deepanalyze/ms-swift/ && pip install -e .)
(cd . /deepanalyze/SkyRL/ && pip install -e .)🚀 Bereitstellungsmodell
- Modelle herunterladen::
- DeepAnalyze-8B ist zum direkten Download verfügbar.
- oder auf der Grundlage von DeepSeek-R1-0528-Qwen3-8B feinabgestimmt
- Neue Dienste::
cd demo/chat
npm installieren
cd .
bash start.sh- Zugangsschnittstelle::
- Öffnen Sie Ihren Browser, um auf
http://localhost:4000 - Hochladen von Datendateien und Eingabe von Analyseanweisungen
🌐 API-Aufruf-Methoden
Sie können es auch über API in Ihr eigenes System integrieren:
python demo/backend.pyVerwenden Sie dann curl, um die API zu testen:
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Generate a data science report."}], "workspace": "example/student_loan/"}'Erstellen Sie einen professionellen Bericht in drei Schritten
Schauen wir uns ein reales Nutzungsszenario an:
- Daten vorbereiten: Legen Sie die zu analysierenden Datendateien in das Arbeitsverzeichnis (z.B.
beispiel/student_loan/) - Einreichung von Mandaten::
von deepanalyze importieren DeepAnalyzeVLLM
prompt = """# Anweisung
Erzeugen Sie einen Data-Science-Bericht.
# Daten
Datei 1: {"Name": "bool.xlsx", "Größe": "4.8KB"}
Datei 2: {"Name": "Person.csv", "Größe": "10.6KB"}
... (weitere Dateibeschreibungen)""""
Arbeitsbereich = "/pfad/zu/ihrem/arbeitsbereich"
deepanalyze = DeepAnalyzeVLLM("Pfad/zu/DeepAnalyze-8B/")
Antwort = deepanalyze.generate(Eingabeaufforderung, Arbeitsbereich=Arbeitsbereich)- Ergebnisse erzielen::
- Sie erhalten eine Liste mitProfessionelle Diagramme, statistische Analysen und Unternehmensberatungund der vollständige Bericht des Ausschusses für die Beseitigung der Diskriminierung der Frau
- Unterstützt den Export in das PDF-Format zur direkten Verwendung in Berichten

Warum DeepAnalyze wählen?
| Charakterisierung | DeepAnalyze | Traditionelle Werkzeuge | Geschlossener Quellcode API |
|---|---|---|---|
| Autonomie | ✅ Autonome Choreographie des gesamten Prozesses | ❌ Manuelle Anleitung erforderlich | ⚠️ Begrenzte Autonomie |
| Unterstützung von Datenformaten | ✅ Mehrere Formate | ⚠️ Eingeschränkte Unterstützung | ✅ Unterstützung |
| die eigenen finanziellen Ressourcen zu erweitern | ✅ Vollständig quelloffen | ✅ | ❌ |
| (Herstellungs-, Produktions- usw.) Kosten | ✅ Einmalige Bereitstellung | ✅ | ❌ Hohe Nutzungsgebühren |
| Individualisierbarkeit | ✅ Vollständig anpassbar | ⚠️ Begrenzt | ❌ |
Aufbruch in die neue Ära der autonomen Datenwissenschaft
DeepAnalyze repräsentiert eine neue Richtung in der Datenwissenschaft - dieVon Workflow-gesteuert zu KI-gesteuert autonom. Es ist nicht nur ein Werkzeug, es ist Ihr24-Stunden-Online-DatenwissenschaftsteamSie sind in der Lage, Ihre geschäftlichen Anforderungen zu verstehen und die Verantwortung für komplexe Datenanalyseaufgaben zu übernehmen.
🌟 Sofortmaßnahmen: Zugang GitHub-Repository Holen Sie sich den vollständigen Code und die Tutorials und starten Sie noch heute Ihre Reise zur autonomen Datenanalyse!