精读完DeepSeek OCR文章后,我远远就看到了“世界模型”的轮廓。

文字| X Research Yuan DeepSeek OCR 是一个很棒的小型 OCR 模型,但它被高估了。网友知乎指出,即使横向比较最好的OCR模型,也不是最好的。在以下两个案例中,大小为3B(30亿个参数)的DeepSeek OCR无法识别公式展开中的“极坐标”,并且也错误地识别了表结构。相比之下,模型规模仅为9亿(9亿参数)的PaddleOCR-VL(百度飞片开源)更胜一筹。 DeepSeek OCR 也不够原创。据推测,Google Gemini 在早期阶段使用了视觉压缩令牌来支持数百万个令牌上下文。同一天,清华大学和智浦团队发布了Glyph,其理念也类似:将长文本压缩成视觉标记作为模型输入。后者似乎并没有产生“扩展的解释”。 DeepSeek每次一动,都会引起很多关注。但如果你想一想它,这是常识。在中国,很少有互联网巨头能够发展到如此大的规模,即使在主宰了一定的赚钱轨迹之后,他们仍然继续探索尖端技术,并着眼于人类未来的福祉。 DeepSeek被美国同行形容为“实力雄厚”,其独特的价值观和组织架构在中国企业中并不多见。在梁文峰的带领下,DeepSeek并不缺资金,散发着最新浪漫科技的理想主义气息。最具创新性和价值的模型训练细节都是开源的。 V3和R1轰动全球后,几乎是自愿放弃巨大的流量,也没有试图模仿OpenAI,打造一个触手可及的AI商业帝国……那种不走“做大做强”的惯常道路,活在未来而不是现在,一字不差地追求AGI的不确定性。追随潮流、参与、抄袭、金钱是最重要的。在中国,这样一家企业的诞生,才是真正的“国运”。外行可以观察热情,内行可以观察文献。言归正传,DeepSeek OCR 的深层价值并不在于它拥有“真正无限的上下文”,也不在于它打破了不同评估集或不同大规模建模领域中 OCR 模型的具体记录,而在于对“视觉表示的持续压缩”的追求大致表明了最终的追求:“世界模型”。卡帕蒂的意思是,但在他的评估中没有明确说明:将大规模模型的前线焦点从离散的语言标记“重定向”到连续视觉表示中的视觉标记。压缩就是智能 如果我们将大脑视为一台生物计算机,伊利亚说,我们最终会实现这一目标。人类思想中最黑暗和最深刻的方面可能出奇地简单。 Ilya 认为“如果你能有效地压缩信息,你必须已获得知识。否则,您无法压缩信息。要有效地压缩信息,你需要一些知识。”压缩通过识别模式和规律来有效地表示信息。这与智能行为密切相关。相当多的研究人员认为,理解力可能是一般智能的基础,甚至可能等同于智能。Ilya坚信“理解就是智能”。Illya的观点可能只说对了一半。革命性的ChatGPT的诞生,与它离散的印刷语言相比,是成功的。 一维信息。由于视觉是连续的高维信息,因此压缩和提取统一的端到端表示非常困难。当今极其强大且多样化的预训练大规模语言模型在其基本原理上高度统一。非常大的神经网络是使用互联网上的巨大语料库进行训练的。它可以是c被视为大量参数。用户输入后,网络节点的固定参数被激活并参与计算,“从而以最高概率预测输出令牌”。在具体过程中,用户输入的文本使用通过标记化固定分割的单词和符号转换为向量(分词处理)。这些输入向量用于模式匹配和非常高维的向量空间。即激活的神经网络参数参与以最高概率计算下一个单词的计算。 LLM 根据模型参数和上下文猜测下一个单词,并用本地语言进行解释。如果我们看看大规模语言模型的发展、通用算法的发现以及 Transformer 架构,就会发现扩展已经真正成为可能。简单的算法、极大的数据规模和GPGPU计算能力的激增相结合,成功压缩了互联网上几乎所有的文本数据,创建了一个极其智能的“令牌预测器”。 LLM 的结果是“逐个令牌”。自回归方法意味着每个标记必须与前一个文本“交互”一次。如果输入 100,000 个 token,模型会执行 100,000 100,000 数百亿个“i”计算“交互”。输入上下文越长,预测下一个单词需要的计算就越多。无论内存带宽或内存容量有多大,在计算处理时都不可能一次消耗大量中间数组,推理延迟变得越来越大。LLM 的最新创新,如的 注意层计算的稀疏性和优化,MTP、NSA和DSA的诞生,密集FFN层的稀疏激活和超大型MoE专家网络的路由激活,本质上解决了计算层面的问题。以DeepSeek为例,几乎都l 除了R1率先在开源模型上发布训练前和训练后强化学习方法并重现轰动一时的O1推理链思路效果外,创新点主要集中在注意力机制、激活参数计算、提高推理解码效率、降低硬件开销、提高训练过程中数据通信的可靠性等方面。深度搜索虽然表面上OCR是OCR的一个模型,但它实际上指的是计算效率,并寻求实现对过长上下文的模型输入的高效压缩。 DeepSeek OCR 的核心是 DeepEncoder,它是一种使用视觉标记对输入上下文信息进行编码的编码器。它在 9 至 10 倍文本压缩下实现了超过 96% 的 OCR 解码精度,在 10 至 12 倍压缩下实现了约 90% 的 OCR 解码精度。即使压缩 20 倍,仍能保持大约 60% 的精度。 10 倍的压缩比实际上是无损的。这意味着在原初的背景下l 输入100,000个token的模型,视觉编码只需要10,000个token。此外,DeepSeek文章指出,压缩比可以连续调整,以平滑地平衡压缩比和识别精度。这就是关键发挥作用的地方。 DeepSeek 还将这种动态视觉压缩与人类记忆遗忘进行了比较。 DeepSeek提出了一种类似于生物遗忘机制的压缩策略。 – 短期背景:保持高分辨率、高代币消耗和清晰的信息。 – 长期上下文:逐渐降低分辨率、减少标记、模糊信息。 – 这种机制模拟了人类记忆的自然退化。时间越久,记忆就越模糊。距离越大,视觉识别能力越弱。两者都表现出渐进性信息丢失的模式(如图所示)。 DeepSeek 在其文章中描述了 OCR。这项工作代表了第一次探索为了克服视觉文本压缩的限制,研究了解码 N 个文本标记需要多少视觉标记的核心问题。初步结果是有希望的。光学上下文压缩不仅在技术上可行,而且在生物学上也是合理的。这为长上下文建模提供了新的视角。 DeepSeek相信这个方向将是未来LLM和VLM研究的重要突破。 DeepSeek-OCR 的压缩率约为 10 倍,提供近乎无损的 OCR 压缩,即使在 20 倍压缩的情况下也能保持 60% 的准确度。这些发现意味着,在多轮对话中,可以对超过 k 轮的历史记录进行光学处理,以实现高 10 倍的压缩效率。为了进一步减少令牌消耗,旧的上下文逐渐减少以重新渲染图像。模拟人类记忆的遗忘机制,内容越老,压缩率越高,图像越模糊,记忆逐渐丢失。信息。 DeepSeek在论文中强调,光学上下文压缩仍然是早期研究方向之一,充满潜力。 DeepSeek-OCR不仅是一款优秀的常用OCR工具,也是一个极具实用价值的模型。它具有广泛的预训练数据生成功能,可以作为LLM培训过程中的重要助手。在实际应用中,该模型每天可以生成数千万页的训练数据,极大地提高了多模态数据构建的效率。世界模型的“轮廓” 通过从“生物计算机”的角度来看待人脑,可以大致概括如下:如下方式。它使用多模态和统一表示为现实世界建模和预测提供高效的信息压缩。法学硕士是“以单一语言模式进行现实世界建模和预测”。如果大规模语言模型可以带来 AGI,那是不是?这相当于人类通过语言理解一切并通过语言塑造世界吗?但也有明显的错误。人类没有 LLM Tokenizati。对于这种“后天而非先验”的标记化器,Karpathy 表示,标记化过程丑陋且笨拙。人工智能通过使用称为“标记器”的东西将文本切割成“标记”,将用户的文本输入转换为“可读”内容。例如,“世界你好!”可以分为四个标记:[Hello]、[,]、[world] 和 [!]。分词的标准不规范。不同的词汇表和分词器意味着每个模型有不同的标记化方法。方法也不同,对模型的最终性能有一定的影响。将LLM文本输入转换为标记是否需要分词过程? DeepSeek-OCR论文无意中提供了证据。事实证明,人工智能只需使用 100 个“视觉代币”即可“解压缩”原始 c包含 1,000 个高精度“文本标记”的内容。它还消除了分割文本的过程。语言深深依赖于视觉体验和多模态基础,而文本本身是感知世界的次要抽象。为什么我们的人工智能系统会绕过更原始、更丰富的表示层?当模型直接在像素级别理解文本时,它会获得比简单识别语言更丰富、更深入的学习机制。如上所述,与语言等一维离散信息相比,连续的、高维的视觉信息很难端到端压缩、提取统一表达并进行预测,也没有取得任何进展。与世界模特离不开的三个词LeCun曾在一次公开采访中谈到处理连续的视觉信息有多么困难。 “一个典型的大型语言模型是用大约 200 亿到 2 万亿个 token 来训练的,这些 token 大致相当于单词s。通常,一个令牌由 3 个字节表示,即 200 亿到 2 万亿个令牌,加起来大约是 10 的 14 字节次方,一个 1 后面跟着 14 个零,大致就是一个单词。”互联网上所有公共文本的总和。人类阅读这些材料需要数十万年。现在让我们来比较一下 4 岁孩子清醒的数据量。16,000 小时。大约典型值 每秒有 2 MB 的信息通过视神经进入视觉皮层。四年内,这大约相当于 14 字节数据中的 10 字节。一个 4 岁的孩子“看到”的数据相当于需要 40 万年才能阅读的数据。这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的人工智能。我们必须学会如何让人工智能理解现实世界,这是极其困难的。使用视频帧而不 的话。尝试通过将这些帧转换为类似单词的标记来训练系统来预测视频中将发生的情况是行不通的。不工作。尽管我们可能无法预测特定单词将出现在文本中的位置,但我们可以预测所有可能单词的概率分布。你不能用视频来做到这一点。不可能表示所有可能的视频帧的概率分布。因此,适用于文本、DNA 序列或蛋白质的技术不适用于视频或其他自然信号。 “回想起来,DeepSeek-OCR论文的真正价值不在于它提供了多么好的OCR工具,而在于它作为一个‘概念证明’。我们用实验数据证明了语音可以跟随AI的主要输入。转向视觉似乎不仅更有效,而且更符合生物特性。Karpathy也贡献了重要的见解。视觉任务空间→文本实际上完全包含了视觉→文本任务空间。你可以 可逆地将文本“渲染”为文本以及将任何文本渲染为图像,但您也可以将一张图像“渲染”为另一张图像相反。很多信息都在文本中丢失了。这种不对称性表明了一个激进的方向,即将所有输入整合到视觉模式中,并将输出保留为文本。这是比简单的“文本到文本”任务变成“视觉到文本”任务更根本的变化。一旦输入端完成,我们真正构建的就不再是传统意义上的“大语言模型”,而是视觉条件下的文本生成系统。该模型看到的不是固定分段的字符,而是原始信号,该信号更令人困惑、更混乱,但信息更丰富。沿着这条新的发展道路,全球模式的轮廓在远处清晰可见。再看一下 DeepSeek 的 OCR 论文摘要,其中写道:“这种范式提供了新的想法和广泛的研究空间:效率瓶颈、记忆机制设计、长上下文。”它解决了建模中的多模态融合等核心问题。其文笔细致、谦虚,DeepSeek值得尊重。
特别提示:以上内容(含图片、视频、ifany)均由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注