OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

Am 17. April 2025 veröffentlichte OpenAI offiziell die neuen Inferenzmodelle o3 (Vollversion) und o4-mini in einer Live-Übertragung am späten Abend und ersetzte damit die bisherigen alten Modelle wie o1 und o3-mini. Mit diesem Update werden signifikante Verbesserungen in den Bereichen Wissensinferenz, multimodale Verarbeitung und Code-Fähigkeiten erzielt. Gleichzeitig wird die Preisstrategie optimiert, um Entwicklern und Nutzern ein effizienteres KI-Erlebnis zu bieten.

ShirtAI ermöglicht die kostenlose und unbegrenzte Nutzung von GPT-4, GPT-4o strongest, GPT-4.1-mini und anderen Modellen mit einem Klick von der offiziellen Website:www.lsshirtai.com

I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung

OpenAIs o3 und o4-mini basieren auf einer neuen Architektur und sind auf unterschiedliche Szenarien ausgerichtet:

o3: Als "Vollblutversion" des Vorzeigemodells konzentriert es sich auf fortgeschrittene Argumentation und Werkzeugsynergie, unterstützt den Zugriff auf Werkzeuge mit vollem Funktionsumfang (z. B. Python, Durchsuchen von Netzwerken, Funktionsaufrufe) und realisiert erstmals "in die Gedankenkette integrierte visuelle Argumentation", die für komplexe Problemlösungen geeignet ist.
o4-mini: ein leichtgewichtiges, hochleistungsfähiges Modell, das sich auf schnelle High-Level-Reasoning- und Code/Vision-Aufgaben konzentriert und ein hervorragendes Preis-Leistungs-Verhältnis aufweist, ohne dabei an Effizienz einzubüßen.

Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten

1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit

Bei Mathematikwettbewerben, naturwissenschaftlichen Aufgaben und fächerübergreifenden Tests zeigen o3 und o4-mini eine erdrückende Leistung, insbesondere wenn die Verwendung von Hilfsmitteln erlaubt ist:

Datensätze/Aufgaben	o1	o3-mini	o3 (werkzeuglos)	o3 (mit Python)	o4-mini (ohne Werkzeug)	o4-mini (mit Python)
AIME 2024 Mathematik-Wettbewerb (AC%)	74.3	87.3	91.6	95.2	93.4	98.7
Codeforces Code-Wettbewerb (ELO)	1891	2073	–	2719	–	2073
GPQA Fragen zur Diamantforschung (AC%)	78	77	83.3	–	81.4	–
Die letzte Prüfung der Menschheit (AC%)	13.4	20.3	20.3	24.9	14.28	17.7

Die wichtigsten Ergebnisse:

Die AIME-Genauigkeit verbesserte sich von 91,6% auf 95,2%, nachdem o3 Python aufgerufen hatte, und Humanity's Last Exam verbesserte seine Genauigkeit um 24,9% mit der Toolchain.
Obwohl o4-mini ein leichtgewichtiges Modell ist, hat es 93,41 TP3T (AIME) ohne Tools erreicht, was nahe an der o3-Tool-Version liegt, und das Preis-Leistungs-Verhältnis ist hervorragend. o4-mini-high löste eines der neuesten Projekt-Euler-Probleme in 2 Minuten und 55 Sekunden, aber es ist kein einfaches Problem, nur 15 Leute können es in 30 Minuten lösen, und es ist ein neues Problem, das erst vor ein paar Tagen herauskam. Es handelt sich um ein neues Problem, das erst vor ein paar Tagen veröffentlicht wurde und nicht in der Trainingsmenge von o4 enthalten sein kann, was darauf schließen lässt, dass o4-mini-high sich bei der Lösung auf das "Denken" verlassen hat.

2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"

o3 und o4-mini unterstützen erstmals die Integration von visuellem Denken in die Denkkette und übertreffen ältere Modelle bei komplexen Bildverstehensaufgaben bei weitem:

Datensatz	Leitbild	o1	o3	o4-mini
MMMU (Universität Visuelle Mathematik)	Formel + Graphisches Integriertes Problemlösen (AC%)	77.6	82.9	81.6
MathVista (visuelles Rechnen)	Reasoning mit geometrischen / funktionalen Bildern (AC%)	71.8	87.5	84.3
CharXiv-Begründung	Verstehen von wissenschaftlichen Diagrammen (AC%)	55.1	75.4	72

Bedeutung des Durchbruchs: o3 kann "das Bild betrachten und denken" wie ein Mensch und vollzieht damit den Paradigmenwechsel von der "Pixelverarbeitung" zur "Szenenerkennung". Ein Nutzer nahm auf dem Weg zur Arbeit ein Foto auf und bat o3, den Standort zu analysieren. Ein Benutzer nahm auf dem Weg zur Arbeit ein Foto auf und bat o3, den Standort zu analysieren. o3 zoomte zunächst das Bild heran, analysierte die Schlüsselinformationen im Bild, suchte dann nach verwandten Webseiten, um den Suchbereich Schritt für Schritt einzugrenzen, und gab schließlich die spezifischen Standortinformationen an.

3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl

Bei Software-Engineering-Aufgaben ist o3 führend beim Tool-Zugriff und Code-Verständnis, während o4-mini in leichtgewichtigen Szenarien ausgeglichen ist:

Code-Aufgabe	Norm	o1-hoch	o3-mini	o3-hoch	o4-mini-high
SWE-Bench-Validierung (AC%)	Algorithmen / Systementwurf	48.9	69.1	69.1	68.1
Aider Code Editor (vollständig)	Umfassende mehrsprachige Neufassung (%)	66.7	81.3	81.3	64.4
SWE-Lancer Auftragsannahme Einnahmen	Freiberufliche Aufträge ($)	118,000	177,000	236,000	–

Praktischer Nutzen: o3 hat durchschnittlich 236.000 US-Dollar pro Monat an echten Codierungsaufgaben erbracht und damit das alte Modell weit hinter sich gelassen und sich zu einem Kernwerkzeug für die Codeentwicklung auf Unternehmensebene entwickelt; o4-mini eignet sich für Rapid Prototyping und leichtes Code-Debugging.

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz

o3 zeigt eine größere Aufgabenkohärenz in Szenarien der Zusammenarbeit mit Werkzeugen, z. B. bei der Befolgung von Befehlen in mehreren Runden, bei der Manipulation von Browsern und bei Funktionsaufrufen:

Instrumentelle Aufgaben	Norm	o1-hoch	o3-mini	o3 (Werkzeugversion)	o4-mini (Werkzeugversion)
MultiChallenge skalieren	Multirunden-Befehlsverfolgung (AC%)	28.3	44.93	56.51	42.99
BrowseComp Browser-Bedienung	Informationserfassung (AC%)	32.4	50.0	70.8	52.0
Tau-bench Funktionsaufrufe	Strukturierter Ausgang (AC%)	49.7	51.5	57,6 (Einzelhandel)	65,6 (Einzelhandel)

Hauptvorteile: Die Fähigkeit von o3, virtuelle Browser autonom zu betreiben und APIs aufzurufen, um strukturierte Ausgaben wie JSON für Flugbuchungen zu generieren, bietet kommerzielle Fähigkeiten zur Automatisierung komplexer Prozesse.

III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis

Modellierung	logisches Denkvermögen	Tempo	Preis (Input/Output / Tausend Token)	Unterstützte Eingänge	Kontextfenster
o1	infrastrukturelle	langsamste	$15-$60	Text/Bild	200,000
o3-mini	hohes Niveau	mäßig	$1.1-$4.4	Kopien	200,000
o4-mini	hohes Niveau	mäßig	$1.1-$4.4	Text/Bild	200,000
o3	Oberste	langsamste	$10-$40	Text/Bild	200,000
o1-pro	Berufe	langsamste	$150-$600	Text/Bild	200,000

Kernanpassungen: o3 ist um 1/3 günstiger als o1 und bietet ein viel besseres Preis-Leistungs-Verhältnis; o4-mini hat den gleichen Preis wie o3-mini, unterstützt aber die Bildeingabe und bietet bessere Inferenzen.

Wenn Sie GPT Plus, Claude Pro, Grok Super offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter	Siehe mehr unter
ShirtAI - Durchdringende Intelligenz	Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native	Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API	Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge)	Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

besuchen Sie