九鲲投资旗下智知创新研究院发布了开源编程代理模型IQuest-Coder-V1。虽然智智研究院在AI领域知名度并不高,但该模型的基准数据直接是业界领先的基准。母公司是Quantitative Private Equity,成立日期是一月份。这两个功能的结合很容易让我想起去年同期的 DeepSeek R1。事实上,去年DeepSeek R1发布时也存在同样的情况。一家名不见经传的公司推出了行业领先的模式。那么 IQuest-Coder-V1 会成为下一个“DeepSeek 时刻”吗?目前还不容易下结论。根据 JetBrains 的 2025 年开发者生态系统状况报告,全球 85% 的开发者已经在使用人工智能工具。 人工智能,全球 41% 的代码是由人工智能生成的,但这些工具大多数仍处于辅助作用埃韦尔。从 OpenAI 到 Anthropic,到 2025 年底积极推出的每一款代理产品都将使用代码作为进步点。所以至少代理调度肯定是下一个趋势。 01IQuest-Coder-V1不是一个简单的代码补全工具,而是一个可以独立完成整个软件工程过程的大规模代码语言模型。到目前为止,人工智能编程助手的作用是自动完成代码。我写了一半的代码,这帮助我完成了它。 IQuest-Coder-V1 允许您了解需求、设计架构、编写代码、从头开始测试和调试,甚至执行多次迭代优化。 IQuest-Coder-V1有三个重要的技术点。第一个是参数40B的大小。 GPT-5 和 Gemin 模型(例如 i 3)通常具有数千亿个参数,因此 40B 只是该数字的十分之几。换句话说,IQuest-Coder-V1 可以在消费类硬件上以稍微更好的性能运行需要数据中心级别的专业计算能力。第二个特点是循环架构。名称非常简单,模型迭代其自己的输出。正如程序员编写代码然后返回验证、修改和重建代码一样,循环架构允许您在代码生成后反映和改进模型。然而,循环架构不仅仅是多次调用的问题;将迭代优化过程内化到模型架构中。简而言之,IQuest-Coder-V1 超越了确保最终结果满足用户需求的任务。 TheLoop 版本允许模型“遍历”同一个神经网络两次,类似于阅读文章时返回并重新阅读重要段落。第二次时,您经常会发现第一次时没有注意到的问题。第三个特点是代码流训练范式。传统的代码模型学习代码片段、静态语法和 API 调用模式ns。用技术术语来说,人工智能可以完美地重现它所学的代码,但它无法理解为什么要这样编写。然而,在IQuest-Coder-V1中你学到的是软件如何一步步演化,你学到的是动态的逻辑演化。这使得模型不仅能够理解“这段代码是什么”,还能理解“为什么这段代码是这样写的”以及“接下来如何更改它”。 iQuest-Coder-V1使用32000条高质量轨迹数据进行强化学习训练,这些轨迹是通过多智能体角色扮演自动生成的。该系统模拟三向交互:用户、代理和服务器。用户提交需求,代理编写代码,服务器返回执行结果。更多。整个过程无需人工注释。训练的目标不是生成单个代码,而是完整的软件演化过程。这些技术设计经过基准验证。在 SWE-Bench Verified 中,一项测试表明考量现实世界的软件工程能力,IQuest-Coder-V1 的准确率达到 81.4%,超过了 Claude Sonnet 4.5 的 77.2%。 LiveCodeBench v6 上的性能为 81.1%,BigCodeBench 上的性能为 49.9%。 IQuest-Coder-V1由知知创新研究院提供,由久坤投资创始团队发起成立。该研究所独立于久坤量化投资研究体系,其作用是研究人工智能应用的多个方向。九琨投资本身就是中国最早的量化私募股权公司之一。成立于2012年,目前管理规模超过600亿元。与明屯、浣芳、灵滚并称为措施“四大天王”。创始人王晨拥有清华大学数学和物理学士学位以及计算机科学博士学位。师从唯一一位获得图灵奖的华人学者姚启智。联合创始人姚启聪拥有北京大学数学学士学位和金融数学硕士学位。两者都属于华尔街领先的对冲基金千禧基金。他们看到了中国股指期货交易的机会,并于2010年回到中国创业。九琨计划于2020年开始建设名为“北冥”的超级计算集群,包括AI实验室、数据实验室和水滴实验室。这些基础设施最初用于量化投资业务,现在也为大规模模型研发提供算力支持。量化机构拥有大型计算集群和数据处理能力;它容纳训练大型模型所需的资源。同时,从人才构成来看,量化投资和人工智能研究都需要具有数学和计算机背景的研究人员,这将为量化机构提供证书为进入大型模型领域奠定了基础。从量化投资到大规模开源模型,这条路并不突然。量化机构本身具备大群体计算能力和大数据处理能力,高度适应大规模模型训练的需求。更重要的是,量化投资和人工智能研究在人才结构上有很大的重叠,都需要具有数学、计算机科学和物理专业知识的研究人才。所以从发展的角度来看,IQuest-Coder-V1更多的是九琨在AI领域的自然延伸,而不是简单的跟风。 02 但这不能否认。是的,IQuest 和 DeepSeek 惊人地相似。这些都来自中国的量化基金,都展现了在资源约束下通过工程创新实现技术进步的能力。不过,如果你仔细观察的话,就会发现两人都选择了复合。方向相反。 DeepSeek追求“广度”。从DeepSeek-V3到R1,梁文峰团队的目标是开发通用对话能力,成为中国的GPT。您将需要回答各个领域的问题,并且需要能够写诗、讲故事、分析时事和解决数学问题。这是一条横向扩展路径,覆盖尽可能多的应用场景。 iQuest-Coder-V1追求“准确”。专注于代码垂直领域并提供最先进的专业测试,例如 SWE-Bench。我们不关心你是否会写诗,我们只关心你是否能像真正的程序员一样理解需求、设计系统、解决bug。有趣的是,在 IQuest-Coder-V1 发布的同一天,DeepSeek 团队也做出了新动作。创始人梁文峰等19位研究人员发表了mHC(流形约束超连接,manifold-constrained hyperconnection)架构的论文。本文解决了超连接网络大规模形成时不稳定的问题。尽管DeepSeek团队在研究工作中保持着恒定的更新频率,但在产品方面他们似乎落后了,尚未创建R2和V4。 2025年,人工智能领域竞争的焦点将是对话和推理能力。公司竞争看谁能最好地回答问题以及谁的推理过程最清晰。到2026年,重点将放在代理能力上,并比较人工智能是否可以自主完成复杂的多步骤任务。座席能力的核心不仅是“理解”和“响应”,更重要的是“执行”。我们以代码为例。对话式 AI 告诉您如何修复代码中的错误,而代理可以直接帮助您修复代码、运行测试和推送更改。这是一个完全不同的技能水平。事实上,DeepSeek 团队在研究层面非常活跃,并不断发表论文h 论文来推进底层技术。然而,一旦在产品中实现,DeepSeek 仍然主要是一个对话式人工智能。用户提出问题并获得答案。这是主要的使用场景。 DeepSeek尚未发布真正的代理产品,不具备像IQuest-Coder那样独立完成整个软件开发流程的能力。事实上,DeepSeek 在 Alpha Arena 等 AI 股票和外汇倒卖竞赛中表现出色,证明了量化基金训练的模型可以“真正理解市场”、阅读 K 线、分析新闻并做出交易决策。量化投资的本质是利用算法来理解市场规则并发现市场中的价格走势。进一步解释DeepSeek“理解复杂系统”的能力。但需要注意的是,即使在金融市场表现出色,其能力仍停留在“理解”和“分析”的层面。有必要的是DeepSeek可以分析市场并提供建议,但完全自主的交易功能尚未开发为产品。从股票交易到编码,欢放和久坤的AI表现出相同的趋势,更具执行力。这或许可以解释为什么量化基金能够在人工智能领域表现出色。这是因为量化基金的遗传学不是“让算法回答问题”,而是“让算法独立做决策”。目前人工智能领域的竞争不仅仅是谁拥有最多的文档,更重要的是谁能将技术转化为用户可以直接使用的工具。市场等待已久,梁文峰也到了推出新品的时候了。 03IQuest-Coder-V1 针对 Claude Opus 4.5。这个定位非常明确,81.4%的参考数字对比80.9%当然是引人注目的。再加上Anthropic对中国的强硬立场,人们对未来的期待更加强烈。ROM Quest-Coder-V1。不过,“取代克劳德作品4.5”的问题还需要更清醒的分析。 Claude Opus 4.5的优势不仅在于模型的特性,还在于产品的整个生态系统。它具有本机 VS Code 扩展、面向端点的交互式开发工具(如 Claude Code)、支持 MCP 协议的工具生态系统、企业级安全合规标准以及由无数现实世界项目完善的用户体验。这些都无法在短时间内在新发布的型号上重现。更重要的是用户的习惯。 Claude 被提前释放,编程社区已经习惯了他的“工作方式”,知道何时信任他、何时干预以及如何有效协作。形成这样的使用习惯需要时间,并且必须经过无数次的尝试和错误才能建立。即使一个新模型有很好的参考数据,建立用户信任也需要很长时间。因法ct,基准测试和实际应用之间存在差距。 SWE-Bench Verified 测试你解决真实代码仓库问题的能力,但它比简单的代码补全要复杂得多。然而,即使它在这样的测试中表现良好,也不意味着它可以在日常开发中顺利取代人类程序员。在实际工作中,要求常常是含糊的。在产品经理和开发人员的沟通过程中,需求经常会发生很大的变化,但并没有反映在基准测试中。然而,IQuest-Coder-V1 的机会是另一个层面的。由于它是开源的,公司可以自己实施它,根据自己的需要进行调整和优化,而不必担心他们的数据被第三方服务提供商捕获。这对于金融、医疗保健和国防等具有严格数据安全要求的行业具有真正的价值。这种大规模开源模式的体验与克劳德用户的体验。越来越多的开发者已经习惯了云服务,愿意为云服务的便利性付费,并且对云服务的数据隐私没有极端的要求。 IQuest-Coder-V1 的潜在用户应该是需要独立控制数据的公司、需要深度定制的技术团队或者想要使用开源工具的开发人员。比如你做九坤、欢放这样的量化,你的算法就是你公司的命脉,不能上传到公有云。当然,开源也会带来问题。没有专门的产品团队来改善用户体验或客户服务来解决可用性问题。如果您遇到错误,您将必须自己寻找解决方案或等待社区为您修复。这些都是开源模式相对于商业产品的缺点。有一种观点认为,具有特定代理的大规模代码模型IQuest-Coder-V1 等功能性可能是迈向通用代理和 AGI 的第一步。这种观点的逻辑是,代码是一种逻辑性、结构化的任务,比其他开放式任务更容易纠正。无论测试通过还是失败,这种二元反馈都会向代理提供清晰的学习信号。更重要的是,编程工作本身所需要的技能是总代理所需要的基本技能。从 SWE-Bench 等基准来看,它不仅测试您的代码生成,还测试您理解需求、规划步骤、调试和迭代改进的能力。此过程类似于解决其他复杂任务的模式。代码环境提供了一个相对可控的训练场。一旦智能体在这里展示了自己的能力,向其他领域扩张的技术路径也将变得更加清晰。因此,智君也可能会大打出手。
特别提示:以上内容(含图片及视频)os(如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。