百度OCR重构记忆机制，DeepSeek揭秘85%推理加速黑科技

2026-06-28

✍️ 主编按语

今天的技术圈堪称“效率至上”的一天。从百度模仿人类遗忘机制重构OCR长文档处理，到DeepSeek用系统工程将推理速度狂拉85%，再到个人开发者凭本地化模型杀入大厂重围，我们看到AI正在从单纯的参数竞赛转向对“记忆”、“计算”与“落地”的深度思考。这不仅是技术的迭代，更是AI基础设施全面进化的信号。

基础设施进化

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员 - 百度Unlimited OCR的发布，不仅仅是在SOTA榜单上刷了个新高分，更重要的是它提出了一种颠覆性的“遗忘”哲学。传统的OCR处理长文档时，KV Cache会随着长度膨胀导致显存爆炸，通常只能采用“分页处理+拼接”的权宜之计。而Unlimited OCR引入的参考滑动窗口注意力（R-SWA）机制，让模型像人类抄录员一样，只保留当前的视觉参考和最近的历史Token，其余的自然淡出。这意味着无论文档是2页还是40页，计算开销几乎恒定。这一创新的意义远超OCR本身，它为解决大模型长上下文记忆管理提供了一条反直觉但极具效能的新路径：与其无限扩容记忆，不如学会高效遗忘。

这种对计算效率和记忆管理的极致追求，在DeepSeek的最新动作中体现得更为淋漓尽致，而这正是接下来要讨论的焦点。

极致性能优化

梁文锋署名的DSpark，看懂这10个点就够了！ - 如果说百度的创新是在模型架构层面做减法，那么DeepSeek的DSpark则是在系统工程层面做加法。这篇由梁文锋署名的论文，并不试图发明某个单一的神奇算法，而是将推测解码、草稿模型、硬件感知调度等现有技术融合成了一套自适应系统。其核心亮点在于“DFlash”并行生成与“马尔可夫头”串行修正的精妙结合，既解决了纯并行方案的后缀衰减问题，又避免了串行方案的速度瓶颈。配合在线草稿器校准，DSpark能根据当前GPU负载动态调整策略，实现了单用户85%的速度提升和高并发下4倍的吞吐增长。这告诉我们，在模型架构趋于同质化的今天，极致的工程化协同设计才是挖掘算力红利的关键。

大厂在系统级优化上高歌猛进，但开源社区的活力同样不容小觑，甚至在一个细分赛道上实现了“超车”。

开源与落地的变奏

抱抱脸模型TOP榜，我现在只服yuxinlu1 - 在Hugging Face被智谱、百度、英伟达等巨头霸榜的今天，一位名为yuxinlu1的个人开发者凭借两款12B的GGUF模型异军突起，下载量竟超越一众大厂。这背后的逻辑耐人寻味：他没有追求参数的无限大，而是将Fable 5的编程推理能力精准蒸馏进Gemma 4-12B，实现了4.5GB显存即可运行的高效本地模型。对于开发者和极客用户而言，“隐私”和“零API成本”的诱惑力远超云端大模型的参数规模。逯雨鑫（yuxinlu1）的故事证明了，在AI应用落地的下半场，并非只有巨头的通用模型才有出路。针对特定场景（如本地编程）、极致优化体验的小而美模型，同样拥有撼动市场的力量，这也为AI的普惠化提供了一个极具价值的范本。

🔥 热门文章 (3 篇)

AI/ML量子位8.0

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

百度开源长文档OCR模型Unlimited OCR，凭借参考滑动窗口注意力（R-SWA）机制实现O(1)显存占用，刷新OmniDocBench榜单SOTA，并引发关于前DeepSeek研究员作者的猜测。

2026-06-28 06:04

AI/ML量子位8.0

梁文锋署名的DSpark，看懂这10个点就够了！

文章深入解读了梁文锋署名的DSpark论文，解析了其通过融合并行与串行草稿策略及硬件感知调度，实现大模型推理速度大幅提升的系统工程精髓。

2026-06-28 08:06

AI/ML量子位8.0

抱抱脸模型TOP榜，我现在只服yuxinlu1

文章讲述了个人开发者yuxinlu1通过高质量的微调数据将Gemma4-12B模型打造成能在本地运行的高性能编程助手，成功在抱抱脸热榜超越一众大厂模型。

2026-06-28 13:55