开源模型杀疯了，Agent编程能力首次平权闭源

2026-02-14

✍️ 主编按语

今天的科技圈，注定会被载入史册。不仅仅是春节档的营销大战，更是开源大模型彻底撕下“弱于闭源”标签的一天。从 MiniMax M2.5 的极速迭代，到 GLM-5 连续 24 小时手搓 GBA 模拟器的惊人表现，开源界在长程 Agent 任务上实现了与 Claude Opus、GPT-5.2 的平权，甚至在成本上降维打击。与此同时，AI for Science 领域也迎来了浪漫而硬核的突破，国产 AI 解决了困扰人类 300 年的“亲吻数”难题。这一天，技术的爆发力让人肾上腺素飙升。

大模型 Agent 化：开源逆袭战

MiniMax M2.5 开源，低成本Agent时代来了！社区Day0部署、工具调用、推理&提示词参数实战来啦！

MiniMax 展示了令人窒息的“摩尔定律”般的迭代速度，108 天内三连更，M2.5 在编程、搜索场景全面登顶。其 SWE-Bench Verified 达到 80.2%，不仅超越了 GPT-5.2，更逼近了闭源天花板 Claude Opus 4.5。这不仅是分数的胜利，更是架构的胜利——原生 Agent RL 框架 Forge 让 M2.5 在工具调用和复杂规划上展现出惊人的稳定性。对于开发者而言，M2.5 开源且成本仅为竞品的 1/10，这意味着构建高复杂度 Agent 的门槛被彻底拉平，低成本 Agent 时代真的来了。

GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！

如果说 M2.5 是“快”，那智谱的 GLM-5 就是“稳”到令人发指。它上演了一场不可思议的马拉松：在无并行、无网络搜索的极严苛条件下，连续运行 24 小时，进行了 700 次工具调用和 800 次上下文切换，从零用 JavaScript 手搓出了一个 Game Boy Advance 模拟器。这种超长链路的逻辑闭环能力，直接粉碎了“开源模型只能做简单助手”的刻板印象。GLM-5 证明了开源模型已经具备了全栈架构师的素质，这种能力对 SaaS 行业的冲击将是毁灭性的——当 AI 能现场手搓一个 CRM 系统，谁还去买年费软件？

万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

蚂蚁集团发布的 Ring-2.5-1T 则是“思考”与“效率”的双重巅峰。它采用混合线性注意力架构，打破了深度思考必然伴随高延迟和高显存的“不可能三角”。在保持 IMO 金牌水平数学推理能力的同时，其推理访存规模降至 1/10，吞吐暴涨 3 倍。这种底层架构的创新，解决了长文本推理成本过高的痛点，让“无限思考”在工程上变得真正可行。

AI for Science：数学与 AI 的深度拥吻

GPT-5.2改写粒子物理教科书！人类手算32项算不出，AI一行公式搞定

OpenAI 与哈佛、剑桥等机构合作，让 GPT-5.2 在基础物理领域取得了里程碑式的突破。面对困扰学界几十年的胶子散射振幅问题，GPT-5.2 Pro 并非单纯计算，而是像天才科学家一样“猜”出了关键公式，随后通过另一模型思考 12 小时完成证明。这一发现推翻了教科书中的既有结论，展示了 AI 在科研中从“计算工具”向“发现伙伴”角色的质变。AI 不再只是验证人类猜想，而是直接开辟了人类未知的路径。

情人节最硬核“Kiss”！中国AI突破300年亲吻数难题，连刷多维度纪录

情人节这天，上海科学智能研究院联合北大、复旦给数学界送上了一份硬核大礼。他们提出的 PackingStar 强化学习系统，一举攻克了牛顿与格雷戈里争论了 300 年的“亲吻数”难题，在 25-31 维等连续 7 个维度刷新世界纪录。这一突破的关键在于将高维几何问题转化为余弦矩阵上的多智能体博弈，AI 在高维空间中构造出了人类直觉无法想象的“非对称”构型。这是 AI for Science 2.0 阶段的典范——在没有标准答案的真空地带，AI 与人类协作探索未知。

产业与生态：巨头角力与未来布局

Seed2.0 正式发布

字节跳动的 Seed2.0 系列发布，标志着大模型竞争正式进入“生产级”阶段。通过分析真实生产环境中的调用数据，Seed 团队发现企业需求正转向复杂的多模态文档理解和长链路任务执行。Seed2.0 Pro 在多项基准达到 SOTA，且 Token 定价降低了一个数量级。这种“高性能+低成本”的组合拳，显然是为了在 ToB 市场中快速通过“经济性”这一关卡，将 AI 深度植入企业的业务流中。

字节豆包2.0重磅发布！成本暴降一个数量级，Seed团队揭秘视频Agent竞争关键

在豆包 2.0 的发布中，一个值得关注的细节是前端开发已成为 Agent 编程的主战场。数据显示，Vue.js 使用率约为 React 的三倍，这直接影响了模型的优化方向。Seed 团队意识到，未来的竞争不单是模型智商的比拼，更是工具体系和调度能力的较量。特别是在视频 Agent 领域，谁能更好地解构长视频、处理实时流，谁就能掌握下一代交互的入口。

晚点独家丨湛逸飞将出任理想人形机器人业务负责人

理想汽车的最新人事变动，揭示了具身智能领域的军备竞赛升级。原自动驾驶算法专家湛逸飞接棒人形机器人业务，意味着理想正全力将自动驾驶中积累的 BEV 感知、世界模型等技术迁移到机器人上。从“车”到“人”，这不仅是形态的跨越，更是通向 AGI 的关键一步。自动驾驶的技术复用，或许是人形机器人最快落地的路径。

纵观今日，技术的演进呈现出清晰的脉络：模型能力正在从“单点对话”向“长程系统”进化，开源生态正在挑战闭源的统治地位，而 AI 与科学的结合正迸发出颠覆传统的能量。对于开发者和行业观察者来说，这不仅是几篇新论文，更是未来三到五年技术格局的缩影。

🔥 热门文章 (29 篇)

AI/ML量子位9.0

万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T，在保持IMO金牌水平推理能力的同时，通过架构创新大幅提升了推理速度并降低显存消耗。

2026-02-14 03:20

AI/ML量子位9.0

情人节最硬核“Kiss”！中国AI突破300年亲吻数难题，连刷多维度纪录

中国联合团队利用强化学习系统PackingStar，成功突破了困扰数学界300年的高维亲吻数难题，刷新了25-31维等多个维度的世界纪录。

2026-02-14 08:37

AI/MLAI前线9.0

字节豆包2.0重磅发布！成本暴降一个数量级，Seed团队揭秘视频Agent竞争关键

字节跳动正式发布豆包大模型 2.0 系列，通过优化推理、多模态及复杂指令执行能力，在大幅降低成本的同时实现性能对标 GPT 5.2 等国际顶尖模型，并重点布局视频 Agent 与编程场景。

2026-02-14 08:17

AI/ML字节跳动Seed9.0

Seed2.0 正式发布

字节跳动正式发布 Seed2.0 系列模型，大幅强化了多模态理解、长上下文处理及复杂指令执行能力，并在多项基准测试中达到 SOTA。

2026-02-14 05:57

AI/ML量子位9.0

GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！

文章详细介绍了智谱GLM-5模型发布的突破性能力，展示了其连续24小时独立运行代码、从零手搓GBA模拟器等长任务处理能力，并强调其在基准测试中对标闭源顶尖模型、推动开源AI进入工程师时代的重大行业意义。

2026-02-14 08:14

AI/ML机器之心9.0

这个情人节，AI深吻Math！国产RL系统多维突破300年亲吻数难题

上智院联合北大、复旦推出强化学习系统PackingStar，通过多智能体协作架构在高维空间刷新了多项亲吻数与广义亲吻数纪录，实现了AI在数学构造领域的系统性突破。

2026-02-14 07:30

AI/ML量子位9.0

GPT-5.2改写粒子物理教科书！人类手算32项算不出，AI一行公式搞定

GPT-5.2 Pro成功猜出并经内部模型耗时12小时证明了一项关键粒子物理公式，解决了人类手算无法企及的难题，标志着AI在基础科学研究中的重大突破。

2026-02-14 04:23

AI/ML魔搭ModelScope社区9.0

MiniMax M2.5 开源，低成本Agent时代来了！社区Day0部署、工具调用、推理&提示词参数实战来啦！

文章详细介绍了MiniMax M2.5模型在编程、搜索等场景的性能突破及低成本优势，并提供了从API调用到本地部署（SGLang/vLLM）和工具调用的完整实战教程。

2026-02-14 03:44

AI/ML晚点LatePost9.0

晚点独家丨湛逸飞将出任理想人形机器人业务负责人

理想汽车进行组织架构调整，湛逸飞将接替郎咸朋出任人形机器人业务负责人，推动自动驾驶技术向具身智能领域迁移。

2026-02-14 03:13

产品设计人人都是产品经理8.0

备受吹捧的「一人公司」到底哪里不对劲？

文章探讨了AI时代“一人公司”和极致效率主义对创新的潜在负面影响，指出创新往往诞生于团队协作的冗余与碰撞中，而非AI追求的最佳效率。

2026-02-13 23:45

AI/ML腾讯混元8.0

腾讯混元新研究：瞄准强化学习“工程深水区”

腾讯混元团队发布异常梯度定位器GradLoc，旨在解决RLVR训练中的不稳定性问题，通过将全局梯度突刺定位到具体Token，让模型调优从依赖直觉的“玄学”转向基于数据的科学分析。

2026-02-14 05:23

AI/ML阿里云开发者8.0

准确率提升至 90%，阿里商旅基于 AgentScope 构建多智能体差旅助手最佳实践

文章详细介绍了阿里商旅利用 AgentScope 构建多智能体差旅助手的最佳实践，通过架构重构、上下文及 Prompt 工程优化，将事项收集准确率从 50% 提升至 90% 以上。

2026-02-14 00:31

AI/ML通义大模型8.0

CoPaw发布：即刻加载你的专属智能搭档

文章介绍了基于 AgentScope 生态构建的个人智能体工作台 CoPaw，支持本地与云端一键部署，通过多频道交互及可扩展的 Skills 实现自动化任务执行与长期记忆管理。

2026-02-14 01:31

AI/ML卡尔的AI沃茨8.0

大模型又出新架构，面壁这次把Transformer上下文能力拉满了

面壁智能提出SALA（Sparse Attention-Linear Attention）混合架构，通过融合线性注意力和稀疏注意力，在保证模型精度的同时，将长上下文推理速度提升3.5倍并大幅降低显存占用，首次在端侧实现百万级文本推理。

2026-02-14 01:35

后端架构人人都是产品经理8.0

这一行配置 JSON，帮我省掉了未来 80% 的维护工作量

文章讲述如何通过参数化改造和元数据驱动设计，将重复的CRUD代码重构为灵活的数据引擎，从而大幅减少维护工作量。

2026-02-13 23:45

AI/ML歸藏的AI工具箱8.0

手撕Sora，脚踢Veo！13个行业实战案例，Seedance 2.0玩法大全

文章详细评测了Seedance 2.0视频生成模型，通过13个行业实战案例展示了其在营销、设计、电商、影视等领域的应用与自动化Agent潜力。

2026-02-14 02:04

AI/ML硅谷1018.0

SaaS业数千亿市值蒸发：AI如何变革组织架构？

文章探讨了AI Agent（如Anthropic）对传统SaaS行业造成的冲击，提出了从SaaS向RaaS（结果即服务）的范式转移，并分析了百融云创“1000人管理20万AI员工”的“硅碳共治”组织实践。

2026-02-14 02:12

AI/ML腾讯科技8.0

马斯克、奥特曼“爱到尽头”

文章详细梳理了马斯克与奥特曼从合作到决裂的十年历程，以及双方围绕OpenAI控制权、开源理念展开的诉讼与商战。

2026-02-14 02:15

AI/ML新智元8.0

AI智能体也有「蜘蛛感应」，防御延时骤降至8.3%

介绍了Spider-Sense智能体防御框架，通过内源性风险感知和分层自适应筛选机制，将防御延时降至8.3%并实现SOTA级安全表现。

2026-02-14 04:53

云计算字节跳动技术团队8.0

Agent Bucket：万亿级 Agent 原生存储桶

文章介绍了火山引擎推出的 Agent Bucket，通过在对象存储中引入 ObjectSet 这一原生资源层级，旨在解决万亿级 AI Agent 应用场景下的海量多租户数据隔离、权限管控及成本计量难题。

2026-02-14 03:04

AI/ML晚点LatePost8.0

AI 硬件的上半场：失败、共识与进行中的探索

文章复盘了中国AI硬件市场的上半场，分析了大模型厂商与传统硬件结盟引发的AI玩具热潮及随后的市场冷却，以及资本推动下AI Native硬件创业力量的崛起与分歧。

2026-02-14 03:13

移动开发InfoQ 中文8.0

小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

小红书联合高校发布首个工业级移动端开发基准 SWE-Bench Mobile，测试显示当前主流 AI Agent 在真实亿级用户 App 开发任务中最高通过率仅 12%。

2026-02-14 04:36

其他创业邦8.0

如何穿越资本寒冬？和6位创始人聊了聊「融资」这件事

文章通过访谈6位不同赛道的创始人，深度复盘了资本寒冬下的融资经历与生存策略，涵盖了从盲目扩张到务实聚焦的转型过程。

2026-02-14 03:54

其他少数派8.0

搞定 100 平米二猫家庭的「新年大扫除」，我总结了这套清洁 SOP

文章针对100平米养宠家庭的痛点，详细分享了从清洁标准设定、工具选型、规划制定到具体执行的大扫除SOP（标准作业程序）。

2026-02-14 04:11

其他少数派8.0

返乡途中不无聊，我们找到了 6 款让你「忘记时间」的单机游戏

针对春节返乡途中的消遣需求，推荐了 6 款无需联网、高可重复性的单机游戏，涵盖卡牌、策略、生存及沙盒建造等类型。

2026-02-14 04:11

AI/ML机器之心8.0

多模态Deep Research，终于有了「可核验」的评测标准

俄亥俄州立大学与亚马逊联合发布MMDR-Bench，为多模态Deep Research Agent提供了一套可核验、证据可追溯的评测标准。

2026-02-14 07:30

AI/ML赛博禅心8.0

豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

豆包 2.0（Seed2.0）全系列模型正式发布，包含 Pro、Lite、Mini 和 Code 四款，重点优化了多模态理解、复杂指令执行及长上下文能力，多项评测基准达到 SOTA。

2026-02-14 07:08

AI/MLAI寒武纪8.0

Dario Amodei真的很焦虑...

文章基于Dario Amodei的深度访谈，详细剖析了强化学习规模化、AGI时间表、算力投入策略及AI行业盈利模式等核心议题，指出开源模型带来的竞争焦虑。

2026-02-13 20:56

后端架构dbaplus社群8.0

BI→Hadoop→中台……那些昙花一现的“大数据热词”都去哪了？

文章回顾了大数据过去十余年的发展周期，分析了Hadoop、数据中台等概念从风靡到沉寂的原因，并探讨了在AI时代如何避免重蹈覆辙的理性判断标准。

2026-02-13 23:16

⚡ 快速浏览

智东西6.0