Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一

毫无预兆,马斯克旗下xAI公司悄然发布了最新大模型Grok 4.1。没有盛大的发布会,没有铺天盖地的宣传,就像一个深藏功与名的高手,只用实力说话。

Grok 4.1已在Grok官网、X平台以及iOS和Android应用中全面开放。这个看似低调的发布,却在AI领域掀起了一场静默的革命。

真实世界能力:不止于参数,更重于体验

Grok 4.1最令人惊喜的不是基础性能,而是它在真实场景中的表现。xAI团队在公告中强调,新模型在创造力、情感互动和协作交互方面实现了质的飞跃。

模型对细微意图的感知能力显著增强,对话更加自然流畅,整体人格表现更加连贯。最难得的是,这些情感层面的提升并未牺牲前代模型强大的智能与可靠性。

这背后是xAI在支撑Grok 4的同一套大规模强化学习基础设施上,进一步优化了模型的风格、个性、助人性和对齐性。为优化这些难以量化评估的维度,xAI甚至开发了新方法,利用前沿的智能体式推理模型作为奖励模型,实现大规模自主评估与迭代。

实测数据显示,与此前线上生产模型相比,Grok 4.1在对比评估中有64.78%的概率被用户偏好选择。这不是实验室里的数据游戏,而是真实用户投票的结果。

通用能力登顶:SOTA成绩全面碾压

在LMArena的Text Arena排行榜上,Grok 4.1的推理模式以1483的Elo分数高居总榜首位,领先最高的非xAI模型整整31分。这个差距在AI性能评估中,相当于跨代优势。

而Grok 4.1的非推理模式也不遑多让,以1465的Elo分数排名第二。这意味着即使不启用深度思考,Grok 4.1也能超越其他模型全力发挥时的表现。

对比Grok 4此前仅排第33名的成绩,Grok 4.1实现了惊人的跃升。这不是渐进式改进,而是颠覆性突破。

情感智能革命:读懂人心,而非仅理解文字

xAI在EQ-Bench3基准测试了Grok 4.1的情感智能。这个由大语言模型评判的测试,专门评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。

测试包含45个具有挑战性的角色扮演场景,大多数由预先编写的三轮对话提示组成。结果显示,Grok 4.1的推理模式和非推理模式包揽了榜单前两名。

这意味着Grok 4.1不仅能理解你说了什么,更能感知你为什么这么说,甚至捕捉到你字里行间未明说的情绪。当你需要一个倾听者而非仅是回答者时,这个能力显得尤为珍贵。

创意写作:从冰冷工具到有温度的合作者

在Creative Writing v3基准测试中,Grok 4.1同样展现出惊人的创作能力。在32个不同写作提示的测试中,Grok 4.1的推理模式和非推理模式分别位居第二和第三名,仅略逊于早期GPT 5.1。

这种创意能力不是简单的模板填充,而是真正理解语境、风格与情感的深度融合。无论是创作小说片段,还是撰写营销文案,Grok 4.1都能在保持专业水准的同时注入独特的人文气息。

减少幻觉:更可靠的AI助手

作为日常使用的AI助手,准确性至关重要。xAI在Grok 4.1的后训练过程中,特别着重降低了信息查询类提示的事实性错误。

测试结果显示,在抽样的生产环境信息查询提示中,Grok 4.1的幻觉率显著下降。在FActScore基准测试(包含500个关于不同人物的传记类问题)中,Grok 4.1表现优异。

为什么这次发布如此低调?

有趣的是,与xAI以往高调的风格不同,Grok 4.1的发布异常低调。这或许反映了马斯克对AI发展的新思考:技术突破不应仅靠营销,更应靠实际表现赢得用户认可。

在AI竞赛愈发白热化的今天,xAI选择用产品说话,让用户体验来评判。这种务实态度,反而彰显了对Grok 4.1性能的强大信心。

如何体验Grok 4.1

Grok 4.1已经全面开放:

  • 访问Grok官网
  • 使用X平台集成的Grok功能
  • 下载iOS和Android应用
  • 在模型选择器中手动选择Grok 4.1

Grok 4.1将在Auto模式中自动推送,为用户提供最佳体验。无论你是创意工作者、研究人员,还是普通用户,都能从中找到适合自己的使用场景。

技术资源