Blog (Lehnwort)

AI Blog: Einblicke in die Grenzen der künstlichen Intelligenz, Austausch von Technologien und Trends!

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型,未举行发布会。该模型在LMArena以1501分Elo登顶,人类最后考试(HLE)获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%,性能超越GPT-5.1。其100万token上下文窗口支持长内容处理,深度思考能力在ARC-AGI-2测试中创45.1%新高,并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了 Mehr lesen "

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一

马斯克旗下xAI公司低调发布Grok 4.1,在LMArena排行榜以1483分登顶,并在EQ-Bench3情感智能测试包揽前两名。新模型在创造力、情感互动和协作交互方面实现质的飞跃,用户偏好选择率达64.78%,幻觉率显著降低,已通过、X平台及移动应用全面开放。

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一 Mehr lesen "

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命

谷歌Gemini 3虽未正式发布,已通过APP超前点映及第三方平台提前亮相,展示SVG绘制和游戏开发等强大能力。巴菲特体验后重仓Alphabet 43亿美元(约305亿人民币),使其成为伯克希尔·哈撒韦第十大持股。Alphabet股价年内飙升46%,谷歌从AI追赶者加速转向领跑者,AI技术革命获资本强力认可。

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命 Mehr lesen "

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声

OpenAI于11月12日悄然发布GPT-5.1,此次更新摒弃传统性能数据宣传,聚焦用户情感需求。核心升级包括GPT-5.1 Instant(更温暖健谈,支持自适应推理)和GPT-5.1 Thinking(优化思考时间分配),提供八种聊天风格预设(新增Professional、Candid、Quirky),允许微调热情度、简洁度等特征。安全评估新增心理健康与情感依赖维度,部分指标略有回退。付费用户可逐步使用,3个月内支持回退至旧模型,强调AI从工具向懂用户伙伴的转变。

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声 Mehr lesen "

Kimi K2 Thinking Suddenly Released! 1 Billion Parameter Open Source Beast Beyond GPT-5

月之暗面发布开源思考型Agent模型Kimi K2 Thinking,具备1万亿参数。其核心突破在于无需人工干预即可连续执行200-300次工具调用,完成复杂多步骤任务。该模型采用INT4量化技术提升生成速度,通过精简架构降低计算冗余,训练成本为460万美元。在多项基准测试中表现超越GPT-5,包括智能体能力(τ²-Bench Telecom达93%)、综合推理(HLE达44.9%)及编程实战(SWE-Bench Verified达71.3%)。模型完全开源且商用免费,采用修改版MIT许可证。

Kimi K2 Thinking Suddenly Released! 1 Billion Parameter Open Source Beast Beyond GPT-5 Mehr lesen "

LTX-2 ist explodiert! Das weltweit erste audio-video-synchronisierte Modell der 4K-Video-Generation, unterstützt von ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 ist explodiert! Das weltweit erste audio-video-synchronisierte Modell der 4K-Video-Generation, unterstützt von ComfyUI! Mehr lesen "

LTX-2 ist explodiert! Das weltweit erste audio-video-synchronisierte Modell der 4K-Video-Generation, unterstützt von ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 ist explodiert! Das weltweit erste audio-video-synchronisierte Modell der 4K-Video-Generation, unterstützt von ComfyUI! Mehr lesen "

KAT-Coder: Ein neuer Durchbruch in der KI-Programmierung von Rennfahrern

快手推出AI编程产品矩阵KAT-Coder,涵盖自研模型、工具与平台,支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力,兼容主流开发工具,并在网页生成、电商网站、3D特效等领域展现强大应用潜力,标志着快手正式进军AI编程赛道。

KAT-Coder: Ein neuer Durchbruch in der KI-Programmierung von Rennfahrern Mehr lesen "

Manus und die KI-Agentenblase: Vom Ideal zur Desillusionierung

Manus作为2025年AI Agent热潮的代表,虽依托大模型、工具链与记忆技术实现任务执行,但因缺乏专业场景深耕与闭环交付,暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视,导致功能堆砌却智能有限。行业正转向垂直领域,如医学Agent OpenEvidence,强调确定性流程与数据驱动,揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

Manus und die KI-Agentenblase: Vom Ideal zur Desillusionierung Mehr lesen "

ChatGPT Atlas: eine Revolution bei KI-Browsern

OpenAI发布首款AI原生浏览器ChatGPT Atlas,深度融合ChatGPT智能能力。其核心功能包括:实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率,实现任务自动化,重塑人机交互体验。

ChatGPT Atlas: eine Revolution bei KI-Browsern Mehr lesen "

Veo 3.1 gegen Sora2: Wer ist der wahre König der Videoerstellung?

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长,适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性,更适合创意短视频。两者各有优势,选择取决于具体应用场景。

Veo 3.1 gegen Sora2: Wer ist der wahre König der Videoerstellung? Mehr lesen "

Eingehende Prüfung von sechs gängigen KI-Agenten: Untersuchung von Produktwert und Entwicklungsrichtung

Der Artikel untersucht sechs gängige KI-Agentenprodukte - Manus, Buckle Space, Lovart, Flowith Neo, Skywork und Super Magee - und analysiert ihre Wettbewerbsfähigkeit in Bezug auf drei Dimensionen: Ausführungsfähigkeit, Vertrauenswürdigkeit und Nutzungshäufigkeit. Lovart, Skywork und Super Magee zeichnen sich in ihren jeweiligen Vertikalen durch eine Gesamtpunktzahl von 18 aus, während die Generalisers mit Herausforderungen beim Markteintritt und der Integration konfrontiert sind. Der Artikel weist darauf hin, dass die Koexistenz von Spezialisierung und Generalisierung, Lieferfähigkeit, Vertrauensmechanismus und Portalintegration wichtige Richtungen für die Entwicklung von Agenturen sein werden.

Eingehende Prüfung von sechs gängigen KI-Agenten: Untersuchung von Produktwert und Entwicklungsrichtung Mehr lesen "

Cursor MCP Server Konfigurationshandbuch und Cursor Practical MCP Recommendations

MCP (Model Context Protocol) ist ein Protokoll, das es großen Modellen ermöglicht, mit externen Werkzeugen und Diensten zu interagieren. Cursor IDE unterstützt KI-Assistenten beim Aufrufen von Werkzeugen zur Durchführung von Suchvorgängen, beim Durchsuchen des Internets und bei Code-Operationen über die MCP-Server-Funktion. MCP-Server können über die Einstellungsschnittstelle hinzugefügt und sowohl auf globaler als auch auf Projektebene konfiguriert werden. MCP ist in mehreren Sprachen geschrieben und ermöglicht es der KI, Werkzeuge automatisch oder manuell auszuführen und Ergebnisse, einschließlich Bilder, zurückzugeben. Zu den empfohlenen Ressourcen gehören Awesome-MCP-ZH, AIbase und verschiedene MCP-Client-Tools. Häufig verwendete MCP-Dienste wie Sequential Thinking, Brave Search, Magic MCP usw. verbessern die Fähigkeit der KI zu denken, zu suchen, die Effizienz der Front-End-Entwicklung und andere Funktionen.

Cursor MCP Server Konfigurationshandbuch und Cursor Practical MCP Recommendations Mehr lesen "

Ausführliche Analyse von Veo 3: ein bahnbrechender Durchbruch in Googles KI-Videoerzeugung

Im Mai 2025 brachte Google Veo 3 auf den Markt, mit dem erstmals eine synchrone Erzeugung von KI-Audio und -Video erreicht wurde, so dass KI-Videofiguren "sprechen" können. Zu den Durchbrüchen des Modells gehören 4K-Bilder, physische Konsistenz und Tonsynchronisation usw., die Verwendung der V2A-Technologie zur Codierung von Videobildern als semantische Signale, die Erzeugung passender Audiospuren und die Anwendung auf Talkshows, Live-Spiele, Konzerte und andere Szenen. Auch wenn es bei der Generierung komplexer Handlungen noch Defizite gibt, sind die Aussichten für die Kommerzialisierung mit gestaffelten Preisen beträchtlich und haben Auswirkungen auf die traditionelle Werbe- und Filmproduktionsbranche.

Ausführliche Analyse von Veo 3: ein bahnbrechender Durchbruch in Googles KI-Videoerzeugung Mehr lesen "

Eingehende Analyse von Gemma-Modellvarianten: Technologische Durchbrüche und praktische Anwendungen von KI in vertikalen Bereichen

Die drei neu veröffentlichten Gemma-Spezialmodelle von Google - MedGemma, SignGemma und DolphinGemma - stellen eine wichtige Verlagerung der KI-Modelle von der Allgemeinheit hin zu einer tiefen vertikalen Domänenanpassung dar.MedGemma konzentriert sich auf medizinische Szenarien und bietet multimodale Bild- und SignGemma unterstützt die mehrsprachige Übersetzung von Gebärdensprache, um Hörgeschädigten bei der Kommunikation zu helfen, und DolphinGemma erforscht die Synthese von Delphinsprache, um die artübergreifende Kommunikationsforschung zu fördern. Diese Modelle verbessern die Leistung von Fachleuten und berücksichtigen gleichzeitig die Effizienz der Berechnungen und die Bequemlichkeit des Einsatzes, wodurch ein neuer Weg für die Industrialisierung der KI eröffnet wird.

Eingehende Analyse von Gemma-Modellvarianten: Technologische Durchbrüche und praktische Anwendungen von KI in vertikalen Bereichen Mehr lesen "

Claude 4: Neudefinition der KI Programmierassistenten werden erwachsen

Anthropic bringt die Claude 4 Serie auf den Markt, die sich aus den Versionen Opus 4 und Sonnet 4 zusammensetzt und sich auf Programmier- und fortgeschrittene Denkaufgaben konzentriert. Auf der Entwicklerkonferenz kündigte CEO Dario Amodei an, dass die Serie die Konkurrenz in allen Bereichen übertrifft und bei mehreren Benchmarks führend ist, sowie die Einführung von Claude Code und neuen API-Funktionen, die einen Paradigmenwechsel in der Art und Weise, wie KI und Entwicklung durchgeführt werden, bewirken werden. Paradigmenwechsel.

Claude 4: Neudefinition der KI Programmierassistenten werden erwachsen Mehr lesen "

Die neuen Funktionen von Manus sind vollständig enthüllt: KI-Graphenerstellungsfunktion offiziell in Betrieb

Manus geht mit der Bilderzeugung live, neue Nutzer erhalten 1.000 Bonuspunkte und 300 tägliche Auffüllungen. Die Plattform nutzt einen tiefgreifenden Denkprozess, der die Zusammenarbeit mit mehreren Werkzeugen und die Abstimmung der Aufgabeninteraktion unterstützt. Testfälle zeigen, dass sie komplexe Bilderzeugung, Markendesign, Webbereitstellung und andere Aufgaben bewältigen kann. Die Vorteile von Manus liegen im Verständnis der Absichten und in der Ausführung des gesamten Prozesses, aber es gibt Probleme mit der langsamen Geschwindigkeit, der schwankenden Qualität und den hohen Kosten, so dass es in Zukunft noch Raum für Verbesserungen gibt.

Die neuen Funktionen von Manus sind vollständig enthüllt: KI-Graphenerstellungsfunktion offiziell in Betrieb Mehr lesen "

OpenAI Neue Generation der Programmierrevolution: Codex Intelligence Body Analysis

OpenAI bringt im Mai 2025 die Programmierintelligenz Codex auf den Markt, die in ChatGPT integriert ist und auf dem Codex-1-Modell basiert. Codex führt Aufgaben wie das Schreiben von Code, das Beheben von Fehlern, das Ausführen von Tests und vieles mehr in der Cloud aus. Codex unterstützt GitHub-Integrationen, liefert überprüfbare Nachweise für die Ausführung und erzielte im SWE-Bench-Test 72,1%. Es ist derzeit für Pro-, Enterprise- und Team-Nutzer verfügbar. Codex ist derzeit für Pro-, Enterprise- und Team-Nutzer verfügbar und wird in Zukunft die Interaktivität und die Integration von Entwicklungstools weiter verbessern, um die Effizienz der Softwareentwicklung zu steigern.

OpenAI Neue Generation der Programmierrevolution: Codex Intelligence Body Analysis Mehr lesen "

Google DeepMind AlphaEvolve: Der Aufstieg einer revolutionären kodierten KI-Intelligenz

Google DeepMind hat AlphaEvolve auf den Markt gebracht, eine KI-Kodierintelligenz, die in der Lage ist, selbständig Code zu schreiben und zu optimieren und wissenschaftliche Entdeckungen zu machen. Das System, das große Sprachmodelle, evolutionäre Algorithmen und automatische Bewerter umfasst, hat bereits mehrere Durchbrüche im Bereich der Mathematik erzielt, etwa bei der Verbesserung von Algorithmen zur Matrixmultiplikation und der Lösung geometrischer Rätsel. In der Zwischenzeit hat es erhebliche Effizienzgewinne bei der Optimierung von Google-Rechenzentren, beim Chipdesign und beim KI-Training erzielt und damit einen neuen Meilenstein bei der Umwandlung der KI von einem Werkzeug zu einem algorithmischen Innovationspartner gesetzt.

Google DeepMind AlphaEvolve: Der Aufstieg einer revolutionären kodierten KI-Intelligenz Mehr lesen "

10-Sekunden-Figma-Magie: Erstellen einer Apple Streaming Card-Seite zur schnellen Verbesserung der Designtextur

Bento Grids (Apple Style) ist ein minimaler, klarer und hoch organisierter visueller Designstil, der häufig in modernen Web- und mobilen App-Oberflächen verwendet wird. Der Stil schafft ein klares Leseerlebnis, indem Inhalte durch Rastermodule dargestellt werden, die Weißraum, Ausrichtung und Konsistenz betonen. Der Artikel enthält auch spezifische Schritte zur Implementierung dieses Layouts mit Figma und empfiehlt entsprechende Plug-ins und Tools.

10-Sekunden-Figma-Magie: Erstellen einer Apple Streaming Card-Seite zur schnellen Verbesserung der Designtextur Mehr lesen "

NVIDIA Llama-Nemotron: Der neue König der Open Source über DeepSeek-R1 hinaus

NVIDIA veröffentlicht die Open-Source-Modelle von Llama-NemotronAI in den Versionen 8B, 49B und 253B. Das Flaggschiff LN-Ultra übertrifft den 671 Milliarden DeepSeek-R1 in mehreren Benchmarks mit nur 253 Milliarden Parametern und ermöglicht gleichzeitig einen effizienteren Betrieb auf einem einzigen xH100-Knoten. Der fünfstufige Trainingsprozess der Serie mit innovativen Techniken umfasst Inferenzumschaltung, hardwarenahe Optimierung und Training mit synthetischen Daten. Die positive Beziehung zwischen Skalierung und Leistung von Modellleistungsparametern kennzeichnet die Ära der KI-Effizienz, und die Open-Source-Lizenzierung wird die Einführung der Technologie beschleunigen.

NVIDIA Llama-Nemotron: Der neue König der Open Source über DeepSeek-R1 hinaus Mehr lesen "

Google Gemini 2.5 Pro: eine multimodale Entwicklung von Video zu interaktiven Anwendungen

Google veröffentlicht die Version 2.5 Pro von Gemini, eine bedeutende Errungenschaft auf dem Gebiet des multimodalen Verständnisses und der Codegenerierung. Das Modell übertrifft die Programmierfähigkeiten des Konkurrenten Cl 3.7 Sonnet und ist besonders geschickt bei der Umwandlung von Videoinhalten und handgezeichneten Skizzen in voll funktionsfähige Netzwerke, was die Entwicklungseffizienz erheblich verbessert. Es stellt eine Revolution in Bereichen wie Webentwicklung, Bewertungsoptimierung und Bildungstechnologie dar und schafft ein neues Paradigma für die KI-gestützte Entwicklung.

Google Gemini 2.5 Pro: eine multimodale Entwicklung von Video zu interaktiven Anwendungen Mehr lesen "

Bolt.new: ein Leitfaden für die Erstellung einer professionellen Website durch einfache Beschreibungen

Bolt.new ist eine KI-gesteuerte Entwicklungsplattform, auf der Benutzer Code schreiben, indem sie vollständige Websites direkt aus natürlichen Beschreibungen generieren. Sie unterstützt die Generierung von Anwendungen mit mehreren Frameworks, die Installation von Softwarepaketen und ermöglicht dynamische Code-Optimierung und handgezeichnete Transformationen. Die Benutzer melden sich an und geben die Anforderungen an die Website ein, um den Code zu automatisieren, unterstützen mehrere Runden der Dialogoptimierung und eine Echtzeitvorschau und können den Code bereitstellen oder herunterladen. Der Schlüssel liegt darin, detaillierte Prompts zu schreiben, die die Art der Website, den Stil und die Zielgruppe spezifizieren und gleichzeitig Editoren zur Verbesserung der Genauigkeit einbeziehen. bolt.new eignet sich besonders gut für das Prototyping und kann in Verbindung mit spezialisierten Tools wie Cursor für komplexere Projekte verwendet werden. Die Plattform ist zunächst kostenlos, wird aber in Zukunft kostenpflichtig sein, so dass sie sich für Unternehmer, Inhaltsersteller und Entwickler eignet.

Bolt.new: ein Leitfaden für die Erstellung einer professionellen Website durch einfache Beschreibungen Mehr lesen "

DeepSeek veröffentlicht Prover-V2-Modell: 671B-Parameter verbessern mathematisches Theorem-Provening

DeepSeek hat am 1. Mai das Modell DeepSeek-Prover2 für mathematische Beweise veröffentlicht, das 671 Milliarden Parameter und eine Version mit 7 Milliarden Parametern enthält. Das Modell nutzt eine Kombination aus Rekursion und Reinforcement Learning, um in verschiedenen Mathe-Tests zu glänzen, wie z. B. dem MiniFF-Test mit einer Erfolgsquote von 88,9%. Der gleichzeitig veröffentlichte ProBench-Datensatz enthält 325 Fragen zur Bewertung der Fähigkeiten des Modells. Experimente haben ergeben, dass das Chain-of-Thought-Modell die Genauigkeit deutlich verbessert, wobei das Mini-Modell bei bestimmten Problemen sogar besser abschneidet als das Modell. Das Modell ist bereits bei Hugging Face im Einsatz und unterstützt ein neues Paradigma in der mathematischen Forschung.

DeepSeek veröffentlicht Prover-V2-Modell: 671B-Parameter verbessern mathematisches Theorem-Provening Mehr lesen "

Qwen 3 veröffentlicht: 235B Modell übertrifft R1, Grok und o1 mit Apache 2.0 Lizenz

Ali Tongyi Qianqian Team veröffentlicht eine neue Generation von Open-Source-großen Modell Qwen3, toppte die globale Open-Source-Modell-Liste, die Serie enthält Modelle, das Flaggschiff-Modell Leistung übertrifft viele Top-Modelle, die Bereitstellung deutlich niedriger. Die Serie enthält Modelle, das Flaggschiff Modell Leistung übertrifft eine Reihe von Top-Modellen, ist der Einsatz deutlich reduziert. Qwen 3 in einer Reihe von Benchmarks, um einen neuen Rekord, und die innovative Einführung von "Hybrid-Reasoning"-Modus unterstützt das Modell 119 Sprachen, Pre-Training Daten bis zu 36 Token, die Community-Reaktion ist begeistert, innerhalb von drei Stunden, um die k GitHub Stern zu erhalten. Das Modell unterstützt 119 Sprachen mit 36 Token von Pre-Training Daten, und erhielt einen GitHub Stern innerhalb von drei Stunden.

Qwen 3 veröffentlicht: 235B Modell übertrifft R1, Grok und o1 mit Apache 2.0 Lizenz Mehr lesen "

Lovable 2.0: Wie eine kollaborative "Ambient Coding"-Plattform die Softwareentwicklung verändert

Das europäische KI-Unternehmen Lovable bringt die Plattform 2.0 für codefreie Softwareentwicklung durch natürliche Sprachinteraktion auf den Markt. Die neue Unterstützung für Multiplayer-Zusammenarbeit, intelligente Chat-Agenten und Sicherheitsscans senkt die Entwicklungsschwelle erheblich. Die Plattform bietet kostenlose und kostenpflichtige Programme für Startup-Teams zur schnellen Erstellung von Produktprototypen und hat 500 000 monatlich aktive Nutzer. Die Plattform vermarktet das Konzept des KI-generierten "Ambient Coding", um den digitalen Wandel zu erleichtern.

Lovable 2.0: Wie eine kollaborative "Ambient Coding"-Plattform die Softwareentwicklung verändert Mehr lesen "