就正在OpenAI公布GPT-5.1,大道“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,紧迫参加了这场“AI体验”之战。
![]()
就正在刚才,xAI公布推出Grok4.1,这是对现有Grok 4模子的宏大升级,并已正在X平台以及iOS和Android操纵向全面效户周全绽放。。官方声称,新版本正在创意外达、情绪互动和协同调换方面浮现尤为特出,而且涌现幻觉的概率仅为此前模子的三分之一。
更引人瞩目的是,正在一个公然的“盲测”竞技场(LMArena)上,Grok 4.1的“忖量形式”版本已悄悄登顶总榜第一,乃至其“非推理”的急速形式,都击败了全面敌手的“完好推理”形式。
xAI本次公布了两个Grok 4.1模子:Grok 4.1(非推理形式)和Grok 4.1 Thinking(忖量形式)。这两个模子均可免费行使,但付用度户面对的控制更少。
为了优化模子的品格、品行和有效性,xAI运用前沿的代庖型推理模子(agentic reasoning models)动作“赏赐模子”,正在大界限境遇中自助评估并迭代模子的答复。
正在11月1日至14日的“缄默上线”岁月,xAI正在确实流量长进行了盲测式的成比较较评估,结果显示,正在64.78%的状况下,用户更偏好Grok 4.1。
![]()
LMArena是一个开源器材,用户能够通过并排、盲测的体例,斗劲分歧大道话模子的浮现。正在这个竞赛最激烈的“斗兽场”里,Grok 4.1博得了惊人的功效:
·Grok 4.1的“忖量形式”(代号:quasarflux)以1483 Elo的功效位列总榜第一,领先全面非xAI模子31分。
·Grok 4.1的“非推理形式”(代号:tensor)无需行使“忖量词元”(thinking tokens),可顷刻天生答复,并以1465 Elo的功效排名第二。
·更浮夸的是,Grok 4.1的“非推理”形式浮现,超出了全面其他模子正在“完好推理形式”下的公然排行榜功效。
![]()
·心境智能(Emotional Intelligence)为评估模子正在性情与人际互动方面的转机,xAI对Grok 4.1举行了EQ-Bench3测试。这是一项由LLM动作裁判的测试,用于评估模子正在主动心境智能、意会力、洞察力、共情才气和人际技巧方面的浮现。
![]()
·创意写作才气(Creative Writing)xAI同样丈量了Grok 4.1正在Creative Writing v3基准测试中的浮现。正在该测试中,模子须要依据32个分歧的写作提示,正在3次迭代中天生答复。
![]()
依据xAI的说法,Grok 4.1涌现幻觉的概率是此前模子的三分之一,这使其成为xAI迄今为止的最佳版本之一。
![]()
为了验证这一点,xAI不只正在确实的临蓐流量中举行了评估,还行使了FActScore——一个包罗500道合于人物列传题目的公然基准测试。
更紧要的是,谷歌(Google)正正在打定公布Gemini 3.0,这不妨会成为迄今为止最重大的模子。
Grok 4.1的公布,无疑是马斯克正在AI竞赛中投下的一枚紧要棋子。但正在这场“仙人打斗”的牌局中,谁能乐到结果,还远未可知。(易句)