技术日报

2026-04-25

✍️ 主编按语

{
  "title": "DeepSeek V4 撼动开源界，AI 探索多维边界",
  "content": "今天的技术圈注定载入史册。DeepSeek V4 带着“百万上下文”与极致性价比横空出世，不仅开源了 1.6T 参数的巨兽，更用技术报告重新定义了长文本与后训练范式。与此同时，ICLR 2026 揭晓获奖名单，学界在理论与实证上持续突破；Claude 承认“变笨”引发对模型优化的反思；从科学发现到足球战术，从自动驾驶到企业内斗，AI 正在向更深的现实世界渗透，技术信仰与商业逻辑的博弈从未如此激烈。\n\n### 深度解析：DeepSeek V4 的范式革新\n\n[深度解读DeepSeek V4，看清Benchmark之外的三个范式级创新](https://mp.weixin.qq.com/s?__biz=Mjc1NjM3MjY2MA==&mid=2691567428&idx=1&sn=4736ee9a8d2a4a38dd51deda53076628) - 这篇万字长文是今日的绝对核心。DeepSeek V4 的意义远超一个新模型的发布，它是对当前 AI 瓶颈的一次系统性“外科手术”。文章详尽剖析了 V4 的三大创新：CSA/HCA 混合注意力机制通过“时间维度压缩”而非简单的“空间压缩”，将百万 Token 的推理算力和显存占用削减了惊人的 90% 以上，让长上下文不再是昂贵的装饰，而是 Agent 的基础设施。mHC（流形约束超连接）解决了深层网络的梯度传输难题，为模型深度扫清了路障。而在后训练阶段，DeepSeek 甚至推翻了自己引以为傲的 GRPO，用 OPD 和 GRM 实现了多专家能力的无损融合。这不仅是工程学的胜利，更是“在有限条件下追求极致能力”这一技术哲学的极致体现。\n\n[DeepSeek V4报告太详尽了！484天换代之路全公开](https://www.qbitai.com/2026/04/406809.html) - 如果说上文是“道”，这篇就是“术”。量子位从工程落地的视角，复盘了 DeepSeek 团队长达 484 天的攻坚历程。文章揭示了 V4 在细节处的残酷取舍：Muon 优化器虽好但分布式训练难，DeepSeek 用“背包算法”硬生生解决了矩阵切片问题；MegaMoE 的 Fusion Kernel 将五个步骤熔合，实现了 1.92 倍的加速。更令人动容的是文章结尾的那份贡献者名单，许多已离职的前员工依然在列。这证明了 V4 不是某一个人的功劳，而是整个中国开源社区长期主义和集体智慧的一次结晶。\n\n[“我把所有模型都换成了DeepSeek V4”：月账单降 90%，效果还更好](https://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&mid=2651282643&idx=1&sn=05b180ee4aaddb166e7504e281a1f162f) - 技术报告的终章是市场的投票。在 OpenAI GPT-5.5 涨价和 Anthropic“变笨”的背景下，DeepSeek V4 的定价无异于掀桌子。文章引用了真实开发者的迁移案例：月账单降低 90%，且在复杂编程任务（如生成卡丁车游戏）和审美生成（如 Apple 风格界面）上，V4 的表现不输甚至优于 GPT-5.5。这标志着开源模型在性价比上首次对闭源 SOTA 形成了“降维打击”，开发者用脚投票的时代已经来临。\n\n### 行业震荡：信任危机与组织重构\n\n[Claude变笨，Anthropic发报告认了：为优化3个Harness层bug，不小心改崩了](https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247661567&idx=1&sn=a01bb93a0704d1253154ed3754fc1948) - Anthropic 的这封“认错信”或许是今天最耐人寻味的注脚。Claude Code 因降低推理强度、缓存清理漏洞和限制长度的系统提示词而“变笨”，暴露了大模型在工程化落地时的脆弱性。更重要的是，它揭示了厂商在“速度”与“智能”之间的摇摆。开发者之所以愤怒，是因为他们发现所谓的“优化”往往是以牺牲核心能力为代价的。这对整个行业敲响了警钟：在模型能力触及天花板时，如何平衡性能优化与智能保持，将成为下一阶段的竞争关键。\n\n[腾讯 AI · 五问丨混元的三年战争](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247733772&idx=1&sn=febe22f1d1253d1be2249a9236ad7129) - 腾讯混元的故事，是一场关于传统大厂如何适应 AI 速度的痛苦转型。文章复盘了从张正友时代到蒋杰时代，再到如今 95 后姚顺雨接手的组织变迁。AI Lab 的撤销、核心科学家的流失、部门墙的阻隔，反映了旧有的“研究-工程”二元架构在统一 Transformer 范式下的失效。混元的困境不仅在于算力和数据的落后，更在于决策链条的臃肿。这预示着，大厂如果不彻底打破科层制，将很难在 AI 的“周级迭代”中生存。\n\n### 学术前沿：理论与方法的深度拓展\n\n[ICLR 2026获奖论文揭晓：两篇杰出论文，大神Alec Radford经典工作获时间检验奖](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651030044&idx=2&sn=da0c58395de86d4f6ab5cfda9a3b320e8f) - 顶级会议的获奖名单是学术风向的晴雨表。ICLR 2026 的杰出论文关注了 Transformer 的简洁性理论证明和 LLM 在多轮对话中的迷失问题。这两项研究不约而同地指向了模型的“可靠性”与“可解释性”。尤其是关于多轮对话性能下降的发现，直接佐证了 Anthropic Claude 遭遇的问题并非孤例，而是整个行业在处理长程交互时的共性挑战。时间检验奖颁给 DCGAN 和 DDPG，则是对生成式 AI 与深度强化学习这两个基石的致敬，提醒我们今天的繁荣源于十年前的深耕。\n\n[清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247733772&idx=2&sn=374022e33a9def798d9bf8ace5dd0e90) - 清华团队提出的 CFG-Ctrl 为文生图领域带来了一场方法论升级。他们不再将 Classifier-Free Guidance 视为简单的参数调节，而是将其建模为一个动态控制系统，引入滑模控制理论来解决高 scale 下的不稳定性。这意味着，生成模型正在从“炼丹术”向“控制工程”演进。对于开发者而言，这意味着未来我们或许能更稳定地获得高质量的复杂图像，而不必在“崩图”和“跑题”之间反复试错。\n\n### 应用落地：AI 进军真实世界的复杂场景\n\n[开源模型横扫21个科学发现任务！宽德Will联手斯坦福清北，把试错变成武器](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651030044&idx=1&sn=c6d60e1998550fe608c565b0882bedb) - 宽德 Will 的研究展示了 AI 在科学发现中的新范式：不是依赖单一模型的“灵光一现”，而是构建一个可扩展的“试错流水线”。SimpleTES 框架通过三维缩放（并行、深度、候选数），让开源模型在 21 项科学任务上击败了闭源 SOTA。这表明，在算力受限的领域，通过优化搜索策略和评估反馈，完全可以实现“弯道超车”。AI for Science 正在从“更聪明的模型”转向“更高效的实验系统”。\n\n[TacticGen：当AI开始「生成」足球战术轨迹](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247733772&idx=3&sn=3b23285c00b3e2581d44912sa8315707) - 香港中文大学（深圳）团队的 TacticGen 将 AI

🔥 热门文章 (27 篇)

AI/ML腾讯科技9.0

深度解读DeepSeek V4，看清Benchmark之外的三个范式级创新

文章深度解析了 DeepSeek V4 在长上下文处理、后训练对齐及底层架构连接三个方面的范式级创新，重点剖析了 CSA/HCA 压缩注意力机制、OPD 与 GRM 训练方法及 mHC 稳压器技术。

2026-04-25 02:16

AI/MLAI前线9.0

Claude变笨，Anthropic发报告认了：为优化3个Harness层bug，不小心改崩了

Anthropic 发布技术复盘报告，承认因降低推理强度、缓存清理逻辑漏洞及限制性系统提示语三处优化，导致 Claude 模型近期“变笨”，并公布了修复方案及未来改进措施。

2026-04-25 02:16

AI/MLInfoQ 中文9.0

“我把所有模型都换成了DeepSeek V4”：月账单降 90%，效果还更好

文章深入分析了DeepSeek V4开源发布引发的行业震动，对比了其与GPT-5.5和Claude Opus 4.7在定价及性能上的巨大差异，并展示了多项实际编程与UI生成测试结果。

2026-04-25 07:30

AI/MLAI科技评论9.0

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨CVPR 2026

清华大学段岳圻团队提出CFG-Ctrl方法，引入控制理论中的滑模控制重构文生图引导机制，有效解决了高guidance scale下语义对齐与图像质量冲突的难题。

2026-04-25 06:32

AI/MLAI科技评论9.0

腾讯 AI · 五问丨混元的三年战争

文章深度复盘了腾讯混元大模型三年发展历程，详述了张正友、蒋杰、姚顺雨三个时代的组织变迁、技术路线博弈及核心人才流失，折射出传统AI Lab模式在大模型时代的衰落与必然转型。

2026-04-25 06:32

AI/ML量子位9.0

华为发布ADS 5！强化世界模型路线，今年投入180亿

华为发布ADS 5.0，大力强化世界模型技术路线，并宣布今年将投入180亿元资金以推动自动驾驶技术发展。

2026-04-25 15:38

AI/MLAI科技评论9.0

TacticGen：当AI开始「生成」足球战术轨迹

TacticGen 是一个由香港中文大学（深圳）等机构提出的目标驱动型足球战术轨迹生成系统，它利用多智能体扩散模型和测试时引导技术，根据战术目标生成可比较的跑位方案，并经过职业足球俱乐部专家的验证。

2026-04-25 06:32

AI/ML机器之心9.0

开源模型横扫21个科学发现任务！宽德Will联手斯坦福清北，把试错变成武器

宽德Will联合斯坦福等高校发布SimpleTES框架，通过优化试错与评估机制，使开源模型在21项科学任务中超越顶级闭源模型及人类专家。

2026-04-25 06:09

AI/ML机器之心9.0

ICLR 2026获奖论文揭晓：两篇杰出论文，大神Alec Radford经典工作获时间检验奖

文章报道了ICLR 2026会议的获奖名单，包括两篇杰出论文奖（关于Transformer的简洁性及LLM多轮对话缺陷）和两篇时间检验奖（DCGAN与DDPG）。

2026-04-25 06:09

AI/MLZ Potentials9.0

Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考

文章深度访谈了前DeepSeek研究员王子涵，回顾了他从信息检索到强化学习的研究历程，并剖析了DeepSeek高密度研究员文化及MoE技术选型背后的严谨实验逻辑，最后提出了关于Agent系统核心在于环境开放程度而非算力的深刻洞见。

2026-04-25 05:20

AI/ML量子位9.0

DeepSeek V4报告太详尽了！484天换代之路全公开

文章详细解读了DeepSeek V4的技术报告，剖析了其通过mHC架构、混合注意力机制及Muon优化器实现百万Token低成本上下文的核心突破，并展示了其在代码与推理任务上匹敌顶尖闭源模型的实验结果。

2026-04-25 03:27

AI/MLDatawhale8.0

通往AGI的路径，上海交大教授在Datawhale开源了！

上海交通大学金耀辉教授在Datawhale开源了Path2AGI项目，通过梳理25个基础学科的历史脉络与核心知识，构建了5条通往AGI的能力路径，强调在AI快速发展时回归基础学科的重要性。

2026-04-25 15:45

AI/MLAINLP8.0

DeepSeek V4 技术报告英中对照版.pdf

文章详细解读了DeepSeek V4的技术报告，指出其核心通过CSA/HCA混合注意力架构、mHC残差连接及Muon优化器，实现了百万token长上下文下的高效推理与低KV Cache占用。

2026-04-25 00:52

AI/MLAI前线8.0

Meta 开始记录员工每一次点击：AI 要接管工作，先监控会工作的人

Meta 推出 MCI 工具监控员工电脑操作以训练 AI 模型，引发关于隐私与效率的激烈讨论，同时也揭示了 2026 年职场数据化管理与 AI 代理发展的趋势。

2026-04-25 02:16

AI/ML量子位8.0

0博士组合拿下ICLR时间检验奖！两个GPT天才本科生+二本逆袭LeCun弟子，十年论文终封神

文章报道了ICLR 2026时间检验奖颁发给DCGAN论文，介绍了三位非博士作者（包括GPT核心贡献者Alec Radford和PyTorch之父Soumith Chintala）的传奇经历及现状。

2026-04-25 03:35

AI/ML网易科技8.0

DeepSeek V4发布戳中海外！黄仁勋预言的“灾难”降临

文章详细报道了DeepSeek V4的发布，分析其极致性价比、混合注意力机制等技术突破，以及适配华为昇腾芯片对打破美国算力封锁的战略意义。

2026-04-25 04:45

AI/ML机器之心8.0

前馈式3D的终极路线图来了！五大核心战线，一文看清未来三维重建该往哪走

文章介绍了一篇关于前馈式3D场景建模的综述论文，提出了基于问题驱动的统一分析框架，将该领域分为特征增强、几何感知、模型效率等五大核心方向。

2026-04-25 06:09

AI/ML量子位8.0

硬刚GPT-Image-2！国产AI生图“天花板”又被捅破了？

国产视觉大模型UniWorld-V2.5发布，其在高密度文字渲染、GUI布局及复杂信息图生成等“天花板”场景上表现卓越，实力对标GPT-Image-2。

2026-04-25 06:58

AI/ML量子位8.0

自动驾驶赛道DeepSeek，轻舟智航率先进军物理AI

轻舟智航提出“物理AI”概念，发布基于500+TOPS算力的量产方案，利用世界模型和强化学习技术，在全场景下实现类似老司机的驾驶体验。

2026-04-25 07:22

AI/MLInfoQ 中文8.0

AI 编程的失控临界点：理解债、上下文衰减与独立开发者的新天花板

文章通过引用2025年的研究数据和案例，深入分析了在项目复杂度达到临界点时，AI编程带来的收益递减甚至负效应的现象，并提出了理解债、Context衰减等核心概念及SDD方法论。

2026-04-25 07:30

后端架构InfoQ 中文8.0

AWS 新发布的 S3 Files 适合作为 Kafka 的存储吗？

文章深入分析了将 Kafka 直接部署在 AWS S3 Files 上的可行性与挑战，指出其在持久性、可用性、延迟和成本方面的结构性缺陷，并介绍了 AutoMQ 基于 WAL 的共享存储架构作为更优解决方案。

2026-04-25 07:30

AI/MLAI寒武纪8.0

做出改变世界的Claude Code，Cat Wu揭秘AI时代PM的唯一护城河

文章基于Anthropic产品负责人Cat Wu的访谈，解析了Claude Code团队的极速发布机制、PM职能的转变及AI时代的产品策略。

2026-04-25 08:16

移动开发极客公园8.0

华为 Pura X Max 深度体验：比起「阔折」，「主动式 AI」更吸引我

文章深度体验了华为 Pura X Max，指出其通过 √2:1 比例的大屏和 HarmonyOS 适配，真正实现了“手机与小平板”的双形态独立价值，同时创新的“伴随式 AI”交互重新定义了人工智能在移动端的整合方式。

2026-04-25 10:44

AI/ML创业邦8.0

中国机器人，开始给模型上强度

文章分析了中国人形机器人企业“它石智航”通过创新的数据采集范式和务实的技术路径，在模型层面实现突破并获得高额融资，挑战了“硬件靠中国，模型靠美国”的传统刻板印象。

2026-04-25 10:50

AI/ML腾讯研究院8.0

从 Hy3 preview 看 AI 下半场：单位智能时代的一次工程答卷

文章通过分析腾讯开源的 Hy3 preview 模型，探讨了 AI 下半场中“单位智能成本”与工程化落地的重要性，指出评估驱动、多模型分工协作及务实平衡是未来的核心趋势。

2026-04-25 11:21

其他笔记侠8.0

小马宋：创业10年，我从客户身上学到的6大经营真相

小马宋基于创业十年的咨询经历，通过得到、古茗、元气森林等6个客户案例，揭示了经营中关于风险控制、战略定力、产品价值与营销本质的真相。

2026-04-25 13:21

后端架构dbaplus社群8.0

从0到1：亿级流量短视频系统架构设计全解

文章以抖音、快手为原型，详细拆解了亿级流量短视频系统的整体架构设计，涵盖接入层、核心服务、算法引擎及基础组件，并深入探讨了存储成本控制、高并发推流与实时推荐等核心痛点的解决方案。

2026-04-25 00:03

⚡ 快速浏览

量子位6.0

技术日报

✍️ 主编按语

🔥 热门文章 (27 篇)

深度解读DeepSeek V4，看清Benchmark之外的三个范式级创新

Claude变笨，Anthropic发报告认了：为优化3个Harness层bug，不小心改崩了

“我把所有模型都换成了DeepSeek V4”：月账单降 90%，效果还更好

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨CVPR 2026

腾讯 AI · 五问丨混元的三年战争

华为发布ADS 5！强化世界模型路线，今年投入180亿

TacticGen：当AI开始「生成」足球战术轨迹

开源模型横扫21个科学发现任务！宽德Will联手斯坦福清北，把试错变成武器

ICLR 2026获奖论文揭晓：两篇杰出论文，大神Alec Radford经典工作获时间检验奖

Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考

DeepSeek V4报告太详尽了！484天换代之路全公开

通往AGI的路径，上海交大教授在Datawhale开源了！

DeepSeek V4 技术报告英中对照版.pdf

Meta 开始记录员工每一次点击：AI 要接管工作，先监控会工作的人

0博士组合拿下ICLR时间检验奖！两个GPT天才本科生+二本逆袭LeCun弟子，十年论文终封神

DeepSeek V4发布戳中海外！黄仁勋预言的“灾难”降临

前馈式3D的终极路线图来了！五大核心战线，一文看清未来三维重建该往哪走

硬刚GPT-Image-2！国产AI生图“天花板”又被捅破了？

自动驾驶赛道DeepSeek，轻舟智航率先进军物理AI

AI 编程的失控临界点：理解债、上下文衰减与独立开发者的新天花板

AWS 新发布的 S3 Files 适合作为 Kafka 的存储吗？

做出改变世界的Claude Code，Cat Wu揭秘AI时代PM的唯一护城河

华为 Pura X Max 深度体验：比起「阔折」，「主动式 AI」更吸引我

中国机器人，开始给模型上强度

从 Hy3 preview 看 AI 下半场：单位智能时代的一次工程答卷

小马宋：创业10年，我从客户身上学到的6大经营真相

从0到1：亿级流量短视频系统架构设计全解

⚡ 快速浏览

AI自主监测宠物健康，陪狗都不用自己来了！涂鸦Hey Tuya打造全屋智能“超级入口”

陈天桥、代季峰矛盾激化；微软向7%美国员工提出自愿退休方案；黄仁勋要求英伟达全体员工使用OpenAI Codex；英特尔发布新AI工作站丨邦早报

SpaceX，不想干航天了?

DeepSeek-V4预览版本正式上线并开源；投资与运用AI，微软和“元”公司大幅裁员丨AIGC日报

豆包上线「帮你选」功能； 5999 元，泡泡玛特首推冰箱；高铁试点「坐火车带自行车」 | 极客早知道

命运之神重新眷顾了诺基亚

中国成功发射卫星互联网技术试验卫星；世界首张，中国科学家绘制出星形胶质细胞转录因子功能图谱丨智能制造日报

燃油SUV车主熬出头了！华为乾崑智驾加持，全新奥迪Q5L率先实现智能化

少数派们最近投稿的 2 个好用的「新玩意」