AI名单变了！马斯克推出 Grok 4.1 盲测第一

正当OpenAI发布GPT-5.1并大谈“情商”时，埃隆·马斯克很快也加入了与xAI的“AI体验”之战。 xAI 刚刚宣布发布 Grok 4.1。这是对现有 Grok 4 模型的重大更新，并向 grok.com、X 平台以及 iOS 和 Android 应用程序上的所有用户完全开放。。官方表示，新版本特别擅长创意表达、情感互动和协作沟通，出现幻觉的可能性仅为前任的三分之一。更令人惊讶的是，在公开的“盲测”（LMArena）舞台上，Grok 4.1的“思考模式”版本已经悄然位居总榜榜首。甚至他的快速“不推理”模式也击败了所有对手的“完全推理”模式。毫无疑问，第一名的突然变化，给人工智能日益激烈的竞争注入了浓浓的火药味。 Grok 4.1 更新了哪些内容？ xAI 目前已经发布了两个 Grok 4.1 模型： Grok 4.1（非 inference 模式）和 Grok 4.1 Thinking（思考模式）。两种模型都可以免费使用，但对付费用户的限制较少。官方表示，新版本可以更详细地了解隐藏的意图，使对话更具吸引力，并更好地保持角色连贯性。为了优化模型风格、个性和实用性，xAI 使用最先进的代理推理模型作为“奖励模型”来大规模自主评估和迭代模型响应。 11月1日至14日的“静默上线”期间，xAI与真实流量进行了盲测式配对对比评估。结果显示，在 64.78% 的情况下，用户更喜欢 Grok 4.1。 “盲测”已经到了顶峰，Grok 4.1到底有多强大？ Grok 4.1 在盲目评估人类偏好方面树立了新的行业标准。 LMArena 是一个开源工具，允许用户通过并行盲测来比较多个大规模语言模型的性能。在这个竞争更加激烈的“C· Grok 4.1“思维模式”（代号：quasarflux）以 1483 Elo 的分数位列总榜第一，领先所有非 xAI 模型 31 分。 · Grok 4.1 的“非推理模式”（代号：张量）无需使用“思维代币”即可立即生成答案，以 100 分排名第二1465 Elo. 更夸张的是，Grok 4.1 的“无推理”模式表现超过了所有其他模型在“全推理模式”下的公开排名结果，相反，Grok 4 此前在该榜单上的总体排名仅为第 33 位。
为了评估模型在性格和人际互动方面的进展，xAI 在 Grok 4.1 中运行了 EQ-Bench3 测试。这是一项以法学硕士为评委的测试，旨在评估模型在积极的情商、理解力、洞察力、同理心和人际交往能力。 · 创意写作能力。
xAI 还测量了 Grok 4.1 在 Creativewriting v3 基准测试中的性能。对于此测试，模型必须在 3 次迭代中根据 32 种不同的书写提示生成响应。少一些“一厢情愿”的快速响应模型，借助搜索工具可以快速提供答案，但更容易出现事实错误。在 Grok 4.1 的训练后阶段，xAI 重点关注减少模型在信息查询请求中的事实“错觉”。根据 xAI 的说法，Grok 4.1 引起幻觉的可能性比以前的模型高三分之一，使其成为 xAI 迄今为止最好的版本之一。我在这儿。为了验证这一点，xAI不仅根据实际生产流量进行评估，还使用了包含500个背景问题的公共基准FactScore。挑战与未来：真正的敌人还在路上。 Grok 4.1“盲测”结果非常出色，但AI王座之争还远未结束。目前，我们还不知道与 GPT-5.1 相比实际性能会如何。此外，谷歌正准备推出 Gemini 3.0，这可能是迄今为止最强大的型号。 Grok 4.1的发布无疑是马斯克在AI事业上的一项重要成就。但在这场“诸神之战”卡牌游戏中，你永远不知道谁会笑到最后。（纯文本）（本文由AI翻译，网易审阅编辑）

归档

分类

由 BET356官网在线登录

发表回复取消回复

您错过了

再次，对于量化基金来说，第二次深潜的时刻已经到来了吗？

微视频|中国加速迈向创新

Jan Hansen：我们非常清楚我们之间的差异，并正在尽一切努力迎头赶上。我们希望共同进步。

我不会回欧洲的！ 33岁内马尔与桑托斯续约一年：为世界杯而努力，等待安帅的声音

AI名单变了！马斯克推出 Grok 4.1 盲测第一

由 BET356官网在线登录

相关文章

微视频|中国加速迈向创新

我不会回欧洲的！ 33岁内马尔与桑托斯续约一年：为世界杯而努力，等待安帅的声音

中国“黑科技”保障世界杯安全，多模态侦察终端入选国家标准案例集

发表回复 取消回复

您错过了

再次，对于量化基金来说，第二次深潜的时刻已经到来了吗？

微视频|中国加速迈向创新

Jan Hansen：我们非常清楚我们之间的差异，并正在尽一切努力迎头赶上。我们希望共同进步。

我不会回欧洲的！ 33岁内马尔与桑托斯续约一年：为世界杯而努力，等待安帅的声音

发表回复取消回复