Agent Universe转载文章 2026年AI领域将发生哪些变化?哪些技术将成为产业竞争的焦点?在应用层面,哪些变量可以彻底重塑市场格局?模式、应用、市场情绪等每一个细微的变化都可能成为影响下一轮创业、投资和产品设计的关键因素。每年年底,很多人都会起床盘点过去一年的趋势,分析未来的可能性。但我们相信,一线知识必须来自一线的领先制造商、投资者和企业家。总体而言,字节跳动是目前各大玩家中最突出的玩家。最活跃的投资机构有红杉、真格、奇绩、蓝池、婺源等。创业精神好的公司基本上都是你投资热门创投的公司。最近的火山引擎 AI Navigator Program 活动将这三个群体聚集在一起。我没想到的是,我的许多出色的年轻企业家朋友会加入火山加速器。例如RockFlow、One2X、Chat2Excel、Lessie、英木科技、ListenHub、Pokee、Lunlun、聂塔、Macaron等(列表在文末)。我从与该国顶级投资者和企业家的对话中学到了很多宝贵的知识。经过反复研究,伟人之间的丰富对话被浓缩为18条观点,整理分享如下。十一、模型的层次 1、强化学习成为兵家必争之地。未来强化学习的计算能耗比例预计将快速增加。基本原因往往是双重的。一是单项任务的价值正在快速增长。此前,客户仅使用机器人来维持对话和聊天,单个机器人的价值任务量很低。但如今,很多代理可以完成价值几元甚至几十元的端到端任务。磁盘本身的成本正在增加。反过来,这也降低了客户对故障率的容忍度。在这种情况下,您必须依靠强化学习,而不仅仅是传统的监督学习,才能可靠地执行高价值任务。然而,强化学习本身比深度学习复杂得多。深度学习就像一个坚固、紧凑的球,即使有 100,000 张卡,它仍然是一个非常紧凑的系统。做好强化学习是非常困难的,因为强化学习就像一个太阳系,一个高度互联、多环合作的系统。因此,到2026年,我们将看到一个明显的矛盾。强化学习的需求将猛增,但其系统的复杂性和参数调整的难度将显着增加,“让强化学习正确”将成为大型模型公司之间的战场公司和云提供商。 2. 全行业代币使用总量每年以 5 至 15 倍的速度增长。这种速度可能会持续四五年。 3. 言语模式的重要性长期以来被低估。它们在 Twitter、Reddit 和各种研究文章中的出现并不多,但在实践中却很典型。 “无声的改变者。”原因很简单。首先,语音是所有“取代人与人之间的交流”任务的核心媒介。我们常说很多职业、很多人与人之间的交流都会被大型模型所取代。当机器公司负责通信时,语音所占的比例将是巨大的。其次,如果大模型确实是比移动互联网或互联网本身更大的机会,那么普通人必须通过手机和PC以外的门户来访问这种能力。通过这个新的门户系统,语音成为一个自然的交互层。因此,即使在2026-2028年,语音模型在学术界和技术界可能受到的关注较少,但其战略价值不会降低。它对产品体验、交互习惯、摄入形式有着巨大的影响。无声但强大的改变者——确实如此。 4. 端到端语音模型即将到来。然而,关键不仅仅是寻求低延迟,而是能够开拓新的应用场景。实际上,连接ASR、语言模型和TTS就足够了。但真正决定端到端语音模型流行的是能够在语音中实现更丰富的情感表达,包括能够根据指令调整语调、呼吸和情绪,以及调用端到端工具来完成操作。传统的三级系统很难实现这种类型的功能。需要强调的是,端到端语音模型不会完全吸收现有的三层语音架构,而是会与现有的三层语音架构共存。至少在接下来的两到三年内。原因与成像领域的大规模自回归和DiT模型类似。虽然端到端模型更智能、更自然,但三阶段架构仍然稳定、低成本,适合很多常见场景。未来,行业将形成“双轨制”。端到端模型用于非常复杂、需要强交互和情感表达的任务,而低成本标准化场景则继续使用三级系统。总体而言,端到端语音模型的快速采用将取决于它可以解锁多少新的交互场景,以及延迟、稳定性和成本是否达到商业上可行的水平。 5、个性化和长期情境记忆将是关键竞争点。这不仅影响模型的功能,还决定了用户的依从性。 ChatGPT 等内存功能已经证明了它们的价值,系统可以理解和存储大量的个人背景,增加了用户的迁移成本。要在这条道路上取得突破,我们不仅要迁移新功能或改善用户体验,还要不断改进、改变模型和功能,并通过长期的用户体验增加刚性,让用户感受到更大的价值。最终,市场可以分为几家公司,这些公司将专注于打造更深入了解用户的智能助手,使其不再只是工具,而是了解他们的需求,主动为他们服务,甚至成为他们的朋友。这是豆宝这样的产品未来希望实现的目标。 6. 来年最重要的变量可能是多模态一致性和多模态记忆方面的进展。只要现代技术允许,用户应该能够表达和创建更好的代码、图像、3D、视频等。如果你提高你的表达质量,你就会获得pted。当前的多模态生成仍然存在一致性缺陷,例如l模型语言的OC问题、图像模型主体的不稳定、视频模型的漂移和“遐想”。随着这些一致性和组合问题的解决,下一个主要挑战是如何使多模式具有真正的上下文理解和内存管理能力。当前的记忆解决方案主要基于文本交互范式,缺乏能够适应图像、动作和场景等多模态上下文的记忆。如果明年这方面有突破,将会带来以“创造”、“人物表达”和“多模态代理”为主的产品形态的重大变化。 12. 应用层 7。视频生成正式占据中心舞台。过去三年,大多数公众和媒体的注意力都集中在大规模语言模型上,但从 2026 年开始,公众将体验到功能上更直观的变化。模型的有效性,特别是在视频生成方面。视频模型全面走上大规模自回归模型的技术道路,质量和一致性将发生代际飞跃。无论是RAW照片还是RAW视频,2026年都会发生质的变化,你可以清楚地看到为什么2025年之前影响如此之大。而2026年的产品将彻底改变公众对生成视觉内容的期望,使生成视频成为真正AI竞赛的主战场之一。 8. 上下文和应用逐渐分离。未来,个人上下文将仅限于帐户或用户统一的 ID,有可能在确保隐私的同时更深入地了解用户的潜在需求。不同的应用程序和功能可以在相同的上下文中提供个性化的体验,但应用程序容器不需要完全集成。短期内,短视频、UGC内容观看、游戏等场景将l 仍然需要单独的容器,但底层共享上下文和内存将逐渐在所有容器之间统一。未来,应用程序容器、上下文和内存可能会变得越来越分离。与 Google 和 Facebook 帐户登录系统(使用 Google/Facebook 登录)类似,第三方应用程序可以检索此帐户信息和社交信号,并受益于 Super ChatBot 的内置上下文记忆。这种趋势是毫无疑问的。上下文本质上是一组可以共享的嵌入,无论来源是语义信息还是行为特征。与过去主要基于行为特征的聊天机器人相比,聊天机器人的语义理解使其能够更准确地捕捉和表达用户的意图和偏好,不仅反映用户的电影、电视、阅读等消费行为,还能在语言层面暗示偏好。换句话说,上下文共享将成为未来驱动个性化、智能化体验的中心方向。 9、今年最受关注的方向是代理商。原因很简单:这是一个消磨时光的好时光。没有人会在舞台上节省大​​量字节,但更重要的是您可以节省时间,让人工智能代表您完成工作。为了实现这一目标,人工智能必须具备规划、调用工具、评估结果和迭代操作的能力。因此,Agent绝对是业界公认的演进方向。这不仅取决于模型功能的完善,而且不仅仅局限于模型本身,还涉及到上下文、工具和环境的协作。这些是,这就是初创公司有潜力增加价值的地方。当然,Agent的成熟需要10年的时间。今天的代理商就像新聘的实习生:他们容易犯错、容易忘记,并且需要一个新的开始。但如果人工智能在三到五年内仍然无法接管我们的大部分工作,那么该行业目前投资的资源将是不可持续的。毕竟,当今人类生产力的上限是 80 亿个大脑 x 15 瓦功率。如果人工智能能够克服这种物理限制,它就能真正提高人类整体的生产力。正如萨蒂亚所说,人工智能应该使全球GDP增加10个百分点。 10.人工智能漫画配音可能成为可扩展音频模型的途径。模型的开发语音模型与文本模型不同。最初,业界认为2024年就会有突破,但等了一年,全球真正可用的端到端语音模型可能不到五个,整体质量仍明显不足。音频未来的方向非常明确:更人性化、更情感化、表达更自然,但在现有的成熟场景(影视配音、视频解说、短片作品、配音工作流程)中,当前的模型表现仍然很差,只有播客场景才是真正“可落地”的。乙但一些新趋势也正在出现。如果语音模型想要取得真正的进步,他们需要像大规模语言模型一样找到显式的 PMF。文本模型今年在口语方向取得了长足的进步。现代语音技术最有希望的进步在于“人工智能漫画配音”等新场景。在这些新的内容格式中,创作者愿意容忍某些缺陷,并为低成本、高频生成的音频付费,这可能是音频模型的下一个可扩展角落。 11.明年将更新定制产品和反馈机制。最大的产品趋势是定制软件。侘马的可爱之处在于,应用程序正在从“为开发者提供服务”转向“用户自己编写软件”。这建立在更强大的基本功能之上,例如推理、工具使用和记忆。聊天本身的价值密度太低。未来我们会看到更多动态界面的交互形式,小应用程序和小程序。然而,要做到这一点,创建一个可以不断收到用户有效反馈的环境非常重要。虽然在编写代码或观看视频时会有自然反馈,但很少会系统地、历史性地收集日常应用程序的好坏来影响模型训练和产品决策。投资回报。随着定制软件与更好的反馈系统相结合,聊天机器人明年将得到重大升级。 13.行业层面 12.整个行业将变得更加现实。从OpenAI开始,领先的模范公司甚至企业家,2026年的关键主题是个性化、记忆化和商业化。越来越多的应用程序将围绕“基于用户上下文和行为的个性化体验”构建,从而使模型能够真正了解“每个用户是谁、他们做什么以及他们喜欢什么”。与此同时,应用程序更加关注效率提升和商业利益ts,将个性化特征与清晰的商业联系相结合,不仅会让模式更贴近用户,也让产品的商业价值更具可持续性。换句话说,到 2026 年,大型应用程序的世界将从共同功能的竞争转向个性化体验的竞争。 13. 初创公司可能的护城河:背景、环境、分布。总体而言,如果智能模型仍然是为人工智能应用程序提供价值的核心,那么初创公司将需要开发模型之外的差异化功能,包括三个治理层。第一层是背景、行业知识和用户交互。第二层是环境,是为模型提供的工具和运行环境。第三层是分销,也就是自己的销售或者分销渠道。这三个层次构成了短期的差异化优势,也是企业保持竞争优势的重要策略。初创公司在面对大型模特公司的竞争时可以采用。当谈到人工智能和业务整合时,投资者倾向于寻找能够利用自己的数据和业务洞察来形成壁垒的应用程序。例如美国的代表案例有Harvey(AI+法律)、Mercor(AI+招聘)、Abridge(AI+医疗)等。这些场景基于个人或专有数据,模型公司本身很难覆盖。 14. 人工智能企业家的主要特征包括对技术变革的深刻理解以及快速学习和灵活适应的能力。成功的团队可以将技术进步转化为引人注目的产品体验。例如,Manus团队将代理和编码技术应用到产品中,HeyGen团队从一开始就不断迭代和预测生成式AI的发展方向。创业者所处的环境瞬息万变,机遇不断涌现频繁地自我调整,要求创始人不断尝试,灵活调整策略,保持开放的心态。此外,了解国际市场和用户行为也很重要。尤其是外资企业不能简单复制国内模式,必须针对不同市场优化产品和经营策略。 15. 多模式和环境将无处不在。在游戏、内容生成和智能体验三个方向上,该行业正在同时经历几个明显的拐点,所有这些都指向相同的趋势。换句话说,内容 mRicher 伴随着多模式功能的飞跃。外部恢复。首先是视觉和图像生成的质变。尽管业界一直在谈论人工智能游戏的到来,但内容生成传统上是一个误称,因为它无法满足实时性、交互性和多样性要求。这是一个很棒的提议。然而,多模式模型的进步首次确定了可以提供真正“实时交互”的生成能力。未来1-3年,这种视觉生成模式将成为内容和游戏行业的重大转折点。它不仅降低了成本,还直接实现了内容交付端的自动化。第二个加速器是更丰富、更普遍的环境。手机手机只是第一个切入点。如果你能在手机上运行豆宝,自然可以扩展到冰箱、门锁、微波炉、床头灯、汽车,甚至线下空间,完成小米家的空间和环境层面的交互。只要容器之间的协作壁垒足够低,账户系统打通,全球范围内的人们就会被理解。各种传感器(包括手表、家用设备、环境传感硬件等)协同工作,生成连续的数据我们,动态且详细的上下文地图。 16. 广告和节省时间是人工智能时代的商业模式。随着超级应用的形态逐渐成型,商业模式演进的方向也会随之改变。首先,广告仍然会很重要,但会更加“有机”。因为一旦系统能够准确理解用户的需求,广告就不再以死板的方式展示,而是以真实有用的内容的形式融入决策场景。尽管您为每个广告支付的费用较少,但由于更高的转化率和更好的覆盖面,您的业务整体效率将会提高。另一方面,随着人工智能显着提高运营效率,人们将开始重新评估节省时间的价值。当原本需要8小时的任务压缩到8分钟时,用户现在将为“节省的时间”付费,而不是像以前那样简单地计算几分钟的微小差异。对事物的理解急剧增加时间的价值将提高支付意愿,并使“节省时间”成为商业力量的新来源。从商业模式的角度来看,创新的计费方式可能不会立即出现,但未来将包括“更自然的交易信息”。 “呈现”和“更明确地支付时间价值”将是重要的逻辑。 17. 未来,用户理想的购物体验最终将取决于用户个人背景的完整性。理论上,“随心所欲”是可能的,只要用户的喜好、预算和生活状况足够精细,足以让AI掌握。问题不是产品信息不全,而是人们的理解太薄弱。为了缩小这一差距,AI需要通过“任务频率+使用深度”不断积累用户上下文。像微信一样,动作多样,它自然比任何其他电子商务公司更了解客户。当主动建议成为现实时“诚实交付”,你可能会体验到,你给他们的任务越多,他们就越快成为一个更善解人意的人。 18、人工智能开源时代尤其危险,其核心是三个价值观:沟通、共建、标准化。在传播层面,开源自然具有“公共建设”的病毒式传播效应。开发者、KOL 和社区将自愿参与讨论和推广。这比单方面推动闭源要好得多。至于产品本身,由于它是一个严重依赖多种输入且覆盖范围非常广泛的系统,开源让世界各地的开发者能够独立贡献 PR,快速输入多个来源的上下文,并加速功能的改进,而这些是闭源团队单独合作指导很难实现的。同时,从更具战略性的角度来看,开源有助于引领标准。当一项能力成为生态系统提供并集体采用的基础设施时,它更有可能演变成事实上的标准,而不仅仅是企业的私有解决方案。 2026年,大模特行业正在悄然改变叙事。过去两年,我们一直在谈论功能有多强大、参数有多大、模型有多快。但今天,我们看到的不再是突破,而是真正决定未来方向的系统演进。从强化学习的普遍兴起到音频和视频的集体统治。从重新定义个性化和记忆到新的上下文基础设施、工具和环境。来自代理生态开源系统的逐步实施、反馈系统和商业模式的重新校准……这些变化正在成为影响每一个产品、每一个样板公司甚至每一个企业家的现实问题。点击“爱”,仅此而已。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注