AI榜单“变天”了！马斯克发布Grok 41盲测排名登顶第一

　　就正在OpenAI公布GPT-5.1，大道“情商”之际，埃隆·马斯克（Elon Musk）也带着他的xAI，紧迫参加了这场“AI体验”之战。

　　就正在刚才，xAI公布推出Grok4.1，这是对现有Grok 4模子的宏大升级，并已正在X平台以及iOS和Android操纵向全面效户周全绽放。。官方声称，新版本正在创意外达、情绪互动和协同调换方面浮现尤为特出，而且涌现幻觉的概率仅为此前模子的三分之一。

　　更引人瞩目的是，正在一个公然的“盲测”竞技场（LMArena）上，Grok 4.1的“忖量形式”版本已悄悄登顶总榜第一，乃至其“非推理”的急速形式，都击败了全面敌手的“完好推理”形式。

　　xAI本次公布了两个Grok 4.1模子：Grok 4.1（非推理形式）和Grok 4.1 Thinking（忖量形式）。这两个模子均可免费行使，但付用度户面对的控制更少。

　　为了优化模子的品格、品行和有效性，xAI运用前沿的代庖型推理模子（agentic reasoning models）动作“赏赐模子”，正在大界限境遇中自助评估并迭代模子的答复。

　　正在11月1日至14日的“缄默上线”岁月，xAI正在确实流量长进行了盲测式的成比较较评估，结果显示，正在64.78%的状况下，用户更偏好Grok 4.1。

　　LMArena是一个开源器材，用户能够通过并排、盲测的体例，斗劲分歧大道话模子的浮现。正在这个竞赛最激烈的“斗兽场”里，Grok 4.1博得了惊人的功效：

　　·Grok 4.1的“忖量形式”（代号：quasarflux）以1483 Elo的功效位列总榜第一，领先全面非xAI模子31分。

　　·Grok 4.1的“非推理形式”（代号：tensor）无需行使“忖量词元”（thinking tokens），可顷刻天生答复，并以1465 Elo的功效排名第二。

　　·更浮夸的是，Grok 4.1的“非推理”形式浮现，超出了全面其他模子正在“完好推理形式”下的公然排行榜功效。

　　·心境智能（Emotional Intelligence）为评估模子正在性情与人际互动方面的转机，xAI对Grok 4.1举行了EQ-Bench3测试。这是一项由LLM动作裁判的测试，用于评估模子正在主动心境智能、意会力、洞察力、共情才气和人际技巧方面的浮现。

　　·创意写作才气（Creative Writing）xAI同样丈量了Grok 4.1正在Creative Writing v3基准测试中的浮现。正在该测试中，模子须要依据32个分歧的写作提示，正在3次迭代中天生答复。

　　依据xAI的说法，Grok 4.1涌现幻觉的概率是此前模子的三分之一，这使其成为xAI迄今为止的最佳版本之一。

　　为了验证这一点，xAI不只正在确实的临蓐流量中举行了评估，还行使了FActScore——一个包罗500道合于人物列传题目的公然基准测试。

　　更紧要的是，谷歌（Google）正正在打定公布Gemini 3.0，这不妨会成为迄今为止最重大的模子。

　　Grok 4.1的公布，无疑是马斯克正在AI竞赛中投下的一枚紧要棋子。但正在这场“仙人打斗”的牌局中，谁能乐到结果，还远未可知。（易句）