Grok 4.1低调发布！通用能力全面碾压，情感智能登顶第一

11 月 19, 2025

毫无预兆，马斯克旗下xAI公司悄然发布了最新大模型Grok 4.1。没有盛大的发布会，没有铺天盖地的宣传，就像一个深藏功与名的高手，只用实力说话。

Grok 4.1已在Grok官网、X平台以及iOS和Android应用中全面开放。这个看似低调的发布，却在AI领域掀起了一场静默的革命。

真实世界能力：不止于参数，更重于体验

Grok 4.1最令人惊喜的不是基础性能，而是它在真实场景中的表现。xAI团队在公告中强调，新模型在创造力、情感互动和协作交互方面实现了质的飞跃。

模型对细微意图的感知能力显著增强，对话更加自然流畅，整体人格表现更加连贯。最难得的是，这些情感层面的提升并未牺牲前代模型强大的智能与可靠性。

这背后是xAI在支撑Grok 4的同一套大规模强化学习基础设施上，进一步优化了模型的风格、个性、助人性和对齐性。为优化这些难以量化评估的维度，xAI甚至开发了新方法，利用前沿的智能体式推理模型作为奖励模型，实现大规模自主评估与迭代。

实测数据显示，与此前线上生产模型相比，Grok 4.1在对比评估中有64.78%的概率被用户偏好选择。这不是实验室里的数据游戏，而是真实用户投票的结果。

通用能力登顶：SOTA成绩全面碾压

在LMArena的Text Arena排行榜上，Grok 4.1的推理模式以1483的Elo分数高居总榜首位，领先最高的非xAI模型整整31分。这个差距在AI性能评估中，相当于跨代优势。

而Grok 4.1的非推理模式也不遑多让，以1465的Elo分数排名第二。这意味着即使不启用深度思考，Grok 4.1也能超越其他模型全力发挥时的表现。

对比Grok 4此前仅排第33名的成绩，Grok 4.1实现了惊人的跃升。这不是渐进式改进，而是颠覆性突破。

情感智能革命：读懂人心，而非仅理解文字

xAI在EQ-Bench3基准测试了Grok 4.1的情感智能。这个由大语言模型评判的测试，专门评估主动情绪智能，包括情绪理解、洞察力、同理心以及人际交往技能。

测试包含45个具有挑战性的角色扮演场景，大多数由预先编写的三轮对话提示组成。结果显示，Grok 4.1的推理模式和非推理模式包揽了榜单前两名。

这意味着Grok 4.1不仅能理解你说了什么，更能感知你为什么这么说，甚至捕捉到你字里行间未明说的情绪。当你需要一个倾听者而非仅是回答者时，这个能力显得尤为珍贵。

创意写作：从冰冷工具到有温度的合作者

在Creative Writing v3基准测试中，Grok 4.1同样展现出惊人的创作能力。在32个不同写作提示的测试中，Grok 4.1的推理模式和非推理模式分别位居第二和第三名，仅略逊于早期GPT 5.1。

这种创意能力不是简单的模板填充，而是真正理解语境、风格与情感的深度融合。无论是创作小说片段，还是撰写营销文案，Grok 4.1都能在保持专业水准的同时注入独特的人文气息。

减少幻觉：更可靠的AI助手

作为日常使用的AI助手，准确性至关重要。xAI在Grok 4.1的后训练过程中，特别着重降低了信息查询类提示的事实性错误。

测试结果显示，在抽样的生产环境信息查询提示中，Grok 4.1的幻觉率显著下降。在FActScore基准测试（包含500个关于不同人物的传记类问题）中，Grok 4.1表现优异。

为什么这次发布如此低调？

有趣的是，与xAI以往高调的风格不同，Grok 4.1的发布异常低调。这或许反映了马斯克对AI发展的新思考：技术突破不应仅靠营销，更应靠实际表现赢得用户认可。

在AI竞赛愈发白热化的今天，xAI选择用产品说话，让用户体验来评判。这种务实态度，反而彰显了对Grok 4.1性能的强大信心。

如何体验Grok 4.1

Grok 4.1已经全面开放：

访问Grok官网
使用X平台集成的Grok功能
下载iOS和Android应用
在模型选择器中手动选择Grok 4.1

Grok 4.1将在Auto模式中自动推送，为用户提供最佳体验。无论你是创意工作者、研究人员，还是普通用户，都能从中找到适合自己的使用场景。

技术资源：

模型卡：https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
官方博客：https://x.ai/news/grok-4-1