OpenAI stellt die neuesten Inferenzmodelle o3 und o4-mini vor: Leistungssprünge und Paradigmenwechsel

Am 17. April 2025 veröffentlichte OpenAI offiziell die neuen Inferenzmodelle o3 (Vollversion) und o4-mini in einer Live-Übertragung am späten Abend und ersetzte damit die bisherigen alten Modelle wie o1 und o3-mini. Mit diesem Update werden signifikante Verbesserungen in den Bereichen Wissensinferenz, multimodale Verarbeitung und Code-Fähigkeiten erzielt. Gleichzeitig wird die Preisstrategie optimiert, um Entwicklern und Nutzern ein effizienteres KI-Erlebnis zu bieten.
ShirtAI ermöglicht die kostenlose und unbegrenzte Nutzung von GPT-4, GPT-4o strongest, GPT-4.1-mini und anderen Modellen mit einem Klick von der offiziellen Website:www.lsshirtai.com

 

I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung

OpenAIs o3 und o4-mini basieren auf einer neuen Architektur und sind auf unterschiedliche Szenarien ausgerichtet:
  • o3: Als "Vollblutversion" des Vorzeigemodells konzentriert es sich auf fortgeschrittene Argumentation und Werkzeugsynergie, unterstützt den Zugriff auf Werkzeuge mit vollem Funktionsumfang (z. B. Python, Durchsuchen von Netzwerken, Funktionsaufrufe) und realisiert erstmals "in die Gedankenkette integrierte visuelle Argumentation", die für komplexe Problemlösungen geeignet ist.
  • o4-mini: ein leichtgewichtiges, hochleistungsfähiges Modell, das sich auf schnelle High-Level-Reasoning- und Code/Vision-Aufgaben konzentriert und ein hervorragendes Preis-Leistungs-Verhältnis aufweist, ohne dabei an Effizienz einzubüßen.

Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten

1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit

Bei Mathematikwettbewerben, naturwissenschaftlichen Aufgaben und fächerübergreifenden Tests zeigen o3 und o4-mini eine erdrückende Leistung, insbesondere wenn die Verwendung von Hilfsmitteln erlaubt ist:
Datensätze/Aufgaben o1 o3-mini o3 (werkzeuglos) o3 (mit Python) o4-mini (ohne Werkzeug) o4-mini (mit Python)
AIME 2024 Mathematik-Wettbewerb (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Codeforces Code-Wettbewerb (ELO) 1891 2073 2719 2073
GPQA Fragen zur Diamantforschung (AC%) 78 77 83.3 81.4
Die letzte Prüfung der Menschheit (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
Die wichtigsten Ergebnisse:
  • Die AIME-Genauigkeit verbesserte sich von 91,6% auf 95,2%, nachdem o3 Python aufgerufen hatte, und Humanity's Last Exam verbesserte seine Genauigkeit um 24,9% mit der Toolchain.
  • Obwohl o4-mini ein leichtgewichtiges Modell ist, hat es 93,41 TP3T (AIME) ohne Tools erreicht, was nahe an der o3-Tool-Version liegt, und das Preis-Leistungs-Verhältnis ist hervorragend. o4-mini-high löste eines der neuesten Projekt-Euler-Probleme in 2 Minuten und 55 Sekunden, aber es ist kein einfaches Problem, nur 15 Leute können es in 30 Minuten lösen, und es ist ein neues Problem, das erst vor ein paar Tagen herauskam. Es handelt sich um ein neues Problem, das erst vor ein paar Tagen veröffentlicht wurde und nicht in der Trainingsmenge von o4 enthalten sein kann, was darauf schließen lässt, dass o4-mini-high sich bei der Lösung auf das "Denken" verlassen hat.

 

2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"

o3 und o4-mini unterstützen erstmals die Integration von visuellem Denken in die Denkkette und übertreffen ältere Modelle bei komplexen Bildverstehensaufgaben bei weitem:
Datensatz Leitbild o1 o3 o4-mini
MMMU (Universität Visuelle Mathematik) Formel + Graphisches Integriertes Problemlösen (AC%) 77.6 82.9 81.6
MathVista (visuelles Rechnen) Reasoning mit geometrischen / funktionalen Bildern (AC%) 71.8 87.5 84.3
CharXiv-Begründung Verstehen von wissenschaftlichen Diagrammen (AC%) 55.1 75.4 72
Bedeutung des Durchbruchs: o3 kann "das Bild betrachten und denken" wie ein Mensch und vollzieht damit den Paradigmenwechsel von der "Pixelverarbeitung" zur "Szenenerkennung". Ein Nutzer nahm auf dem Weg zur Arbeit ein Foto auf und bat o3, den Standort zu analysieren. Ein Benutzer nahm auf dem Weg zur Arbeit ein Foto auf und bat o3, den Standort zu analysieren. o3 zoomte zunächst das Bild heran, analysierte die Schlüsselinformationen im Bild, suchte dann nach verwandten Webseiten, um den Suchbereich Schritt für Schritt einzugrenzen, und gab schließlich die spezifischen Standortinformationen an.

 

3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl

Bei Software-Engineering-Aufgaben ist o3 führend beim Tool-Zugriff und Code-Verständnis, während o4-mini in leichtgewichtigen Szenarien ausgeglichen ist:
Code-Aufgabe Norm o1-hoch o3-mini o3-hoch o4-mini-high
SWE-Bench-Validierung (AC%) Algorithmen / Systementwurf 48.9 69.1 69.1 68.1
Aider Code Editor (vollständig) Umfassende mehrsprachige Neufassung (%) 66.7 81.3 81.3 64.4
SWE-Lancer Auftragsannahme Einnahmen Freiberufliche Aufträge ($) 118,000 177,000 236,000
Praktischer Nutzen: o3 hat durchschnittlich 236.000 US-Dollar pro Monat an echten Codierungsaufgaben erbracht und damit das alte Modell weit hinter sich gelassen und sich zu einem Kernwerkzeug für die Codeentwicklung auf Unternehmensebene entwickelt; o4-mini eignet sich für Rapid Prototyping und leichtes Code-Debugging.

 

 

 

 

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz

o3 zeigt eine größere Aufgabenkohärenz in Szenarien der Zusammenarbeit mit Werkzeugen, z. B. bei der Befolgung von Befehlen in mehreren Runden, bei der Manipulation von Browsern und bei Funktionsaufrufen:
Instrumentelle Aufgaben Norm o1-hoch o3-mini o3 (Werkzeugversion) o4-mini (Werkzeugversion)
MultiChallenge skalieren Multirunden-Befehlsverfolgung (AC%) 28.3 44.93 56.51 42.99
BrowseComp Browser-Bedienung Informationserfassung (AC%) 32.4 50.0 70.8 52.0
Tau-bench Funktionsaufrufe Strukturierter Ausgang (AC%) 49.7 51.5 57,6 (Einzelhandel) 65,6 (Einzelhandel)
Hauptvorteile: Die Fähigkeit von o3, virtuelle Browser autonom zu betreiben und APIs aufzurufen, um strukturierte Ausgaben wie JSON für Flugbuchungen zu generieren, bietet kommerzielle Fähigkeiten zur Automatisierung komplexer Prozesse.

 

III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis

Modellierung logisches Denkvermögen Tempo Preis (Input/Output / Tausend Token) Unterstützte Eingänge Kontextfenster
o1 infrastrukturelle langsamste $15-$60 Text/Bild 200,000
o3-mini hohes Niveau mäßig $1.1-$4.4 Kopien 200,000
o4-mini hohes Niveau mäßig $1.1-$4.4 Text/Bild 200,000
o3 Oberste langsamste $10-$40 Text/Bild 200,000
o1-pro Berufe langsamste $150-$600 Text/Bild 200,000
Kernanpassungen: o3 ist um 1/3 günstiger als o1 und bietet ein viel besseres Preis-Leistungs-Verhältnis; o4-mini hat den gleichen Preis wie o3-mini, unterstützt aber die Bildeingabe und bietet bessere Inferenzen.

Wenn Sie GPT Plus, Claude Pro, Grok Super offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep