AI名单变了!马斯克推出 Grok 4.1 盲测第一

正当OpenAI发布GPT-5.1并大谈“情商”时,埃隆·马斯克很快也加入了与xAI的“AI体验”之战。 xAI 刚刚宣布发布 Grok 4.1。这是对现有 Grok 4 模型的重大更新,并向 grok.com、X 平台以及 iOS 和 Android 应用程序上的所有用户完全开放。 。官方表示,新版本特别擅长创意表达、情感互动和协作沟通,出现幻觉的可能性仅为前任的三分之一。更令人惊讶的是,在公开的“盲测”(LMArena)舞台上,Grok 4.1的“思考模式”版本已经悄然位居总榜榜首。甚至他的快速“不推理”模式也击败了所有对手的“完全推理”模式。毫无疑问,第一名的突然变化,给人工智能日益激烈的竞争注入了浓浓的火药味。 Grok 4.1 更新了哪些内容? xAI 目前已经发布了两个 Grok 4.1 模型: Grok 4.1(非 inference 模式)和 Grok 4.1 Thinking(思考模式)。两种模型都可以免费使用,但对付费用户的限制较少。官方表示,新版本可以更详细地了解隐藏的意图,使对话更具吸引力,并更好地保持角色连贯性。为了优化模型风格、个性和实用性,xAI 使用最先进的代理推理模型作为“奖励模型”来大规模自主评估和迭代模型响应。 11月1日至14日的“静默上线”期间,xAI与真实流量进行了盲测式配对对比评估。结果显示,在 64.78% 的情况下,用户更喜欢 Grok 4.1。 “盲测”已经到了顶峰,Grok 4.1到底有多强大? Grok 4.1 在盲目评估人类偏好方面树立了新的行业标准。 LMArena 是一个开源工具,允许用户通过并行盲测来比较多个大规模语言模型的性能。在这个竞争更加激烈的“C· Grok 4.1“思维模式”(代号:quasarflux)以 1483 Elo 的分数位列总榜第一,领先所有非 xAI 模型 31 分。 · Grok 4.1 的“非推理模式”(代号:张量)无需使用“思维代币”即可立即生成答案,以 100 分排名第二1465 Elo. 更夸张的是,Grok 4.1 的“无推理”模式表现超过了所有其他模型在“全推理模式”下的公开排名结果,相反,Grok 4 此前在该榜单上的总体排名仅为第 33 位。
为了评估模型在性格和人际互动方面的进展,xAI 在 Grok 4.1 中运行了 EQ-Bench3 测试。这是一项以法学硕士为评委的测试,旨在评估模型在积极的情商、理解力、洞察力、同理心和人际交往能力。 · 创意写作能力。
xAI 还测量了 Grok 4.1 在 Creativewriting v3 基准测试中的性能。对于此测试,模型必须在 3 次迭代中根据 32 种不同的书写提示生成响应。少一些“一厢情愿”的快速响应模型,借助搜索工具可以快速提供答案,但更容易出现事实错误。在 Grok 4.1 的训练后阶段,xAI 重点关注减少模型在信息查询请求中的事实“错觉”。根据 xAI 的说法,Grok 4.1 引起幻觉的可能性比以前的模型高三分之一,使其成为 xAI 迄今为止最好的版本之一。我在这儿。为了验证这一点,xAI不仅根据实际生产流量进行评估,还使用了包含500个背景问题的公共基准FactScore。挑战与未来:真正的敌人还在路上。 Grok 4.1“盲测”结果非常出色,但AI王座之争还远未结束。目前,我们还不知道与 GPT-5.1 相比实际性能会如何。此外,谷歌正准备推出 Gemini 3.0,这可能是迄今为止最强大的型号。 Grok 4.1的发布无疑是马斯克在AI事业上的一项重要成就。但在这场“诸神之战”卡牌游戏中,你永远不知道谁会笑到最后。 (纯文本)(本文由AI翻译,网易审阅编辑)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注