奔跑的高达

开源模型杀疯了,Agent编程能力首次平权闭源

2026-02-14

✍️ 主编按语

今天的科技圈,注定会被载入史册。不仅仅是春节档的营销大战,更是开源大模型彻底撕下“弱于闭源”标签的一天。从 MiniMax M2.5 的极速迭代,到 GLM-5 连续 24 小时手搓 GBA 模拟器的惊人表现,开源界在长程 Agent 任务上实现了与 Claude Opus、GPT-5.2 的平权,甚至在成本上降维打击。与此同时,AI for Science 领域也迎来了浪漫而硬核的突破,国产 AI 解决了困扰人类 300 年的“亲吻数”难题。这一天,技术的爆发力让人肾上腺素飙升。

大模型 Agent 化:开源逆袭战

MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!

MiniMax 展示了令人窒息的“摩尔定律”般的迭代速度,108 天内三连更,M2.5 在编程、搜索场景全面登顶。其 SWE-Bench Verified 达到 80.2%,不仅超越了 GPT-5.2,更逼近了闭源天花板 Claude Opus 4.5。这不仅是分数的胜利,更是架构的胜利——原生 Agent RL 框架 Forge 让 M2.5 在工具调用和复杂规划上展现出惊人的稳定性。对于开发者而言,M2.5 开源且成本仅为竞品的 1/10,这意味着构建高复杂度 Agent 的门槛被彻底拉平,低成本 Agent 时代真的来了。

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文!

如果说 M2.5 是“快”,那智谱的 GLM-5 就是“稳”到令人发指。它上演了一场不可思议的马拉松:在无并行、无网络搜索的极严苛条件下,连续运行 24 小时,进行了 700 次工具调用和 800 次上下文切换,从零用 JavaScript 手搓出了一个 Game Boy Advance 模拟器。这种超长链路的逻辑闭环能力,直接粉碎了“开源模型只能做简单助手”的刻板印象。GLM-5 证明了开源模型已经具备了全栈架构师的素质,这种能力对 SaaS 行业的冲击将是毁灭性的——当 AI 能现场手搓一个 CRM 系统,谁还去买年费软件?

万亿思考模型新速度!蚂蚁开源Ring-2.5-1T:IMO金牌水平,强;混合线性架构,快!

蚂蚁集团发布的 Ring-2.5-1T 则是“思考”与“效率”的双重巅峰。它采用混合线性注意力架构,打破了深度思考必然伴随高延迟和高显存的“不可能三角”。在保持 IMO 金牌水平数学推理能力的同时,其推理访存规模降至 1/10,吞吐暴涨 3 倍。这种底层架构的创新,解决了长文本推理成本过高的痛点,让“无限思考”在工程上变得真正可行。

AI for Science:数学与 AI 的深度拥吻

GPT-5.2改写粒子物理教科书!人类手算32项算不出,AI一行公式搞定

OpenAI 与哈佛、剑桥等机构合作,让 GPT-5.2 在基础物理领域取得了里程碑式的突破。面对困扰学界几十年的胶子散射振幅问题,GPT-5.2 Pro 并非单纯计算,而是像天才科学家一样“猜”出了关键公式,随后通过另一模型思考 12 小时完成证明。这一发现推翻了教科书中的既有结论,展示了 AI 在科研中从“计算工具”向“发现伙伴”角色的质变。AI 不再只是验证人类猜想,而是直接开辟了人类未知的路径。

情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

情人节这天,上海科学智能研究院联合北大、复旦给数学界送上了一份硬核大礼。他们提出的 PackingStar 强化学习系统,一举攻克了牛顿与格雷戈里争论了 300 年的“亲吻数”难题,在 25-31 维等连续 7 个维度刷新世界纪录。这一突破的关键在于将高维几何问题转化为余弦矩阵上的多智能体博弈,AI 在高维空间中构造出了人类直觉无法想象的“非对称”构型。这是 AI for Science 2.0 阶段的典范——在没有标准答案的真空地带,AI 与人类协作探索未知。

产业与生态:巨头角力与未来布局

Seed2.0 正式发布

字节跳动的 Seed2.0 系列发布,标志着大模型竞争正式进入“生产级”阶段。通过分析真实生产环境中的调用数据,Seed 团队发现企业需求正转向复杂的多模态文档理解和长链路任务执行。Seed2.0 Pro 在多项基准达到 SOTA,且 Token 定价降低了一个数量级。这种“高性能+低成本”的组合拳,显然是为了在 ToB 市场中快速通过“经济性”这一关卡,将 AI 深度植入企业的业务流中。

字节豆包2.0重磅发布!成本暴降一个数量级,Seed团队揭秘视频Agent竞争关键

在豆包 2.0 的发布中,一个值得关注的细节是前端开发已成为 Agent 编程的主战场。数据显示,Vue.js 使用率约为 React 的三倍,这直接影响了模型的优化方向。Seed 团队意识到,未来的竞争不单是模型智商的比拼,更是工具体系和调度能力的较量。特别是在视频 Agent 领域,谁能更好地解构长视频、处理实时流,谁就能掌握下一代交互的入口。

晚点独家丨湛逸飞将出任理想人形机器人业务负责人

理想汽车的最新人事变动,揭示了具身智能领域的军备竞赛升级。原自动驾驶算法专家湛逸飞接棒人形机器人业务,意味着理想正全力将自动驾驶中积累的 BEV 感知、世界模型等技术迁移到机器人上。从“车”到“人”,这不仅是形态的跨越,更是通向 AGI 的关键一步。自动驾驶的技术复用,或许是人形机器人最快落地的路径。

纵观今日,技术的演进呈现出清晰的脉络:模型能力正在从“单点对话”向“长程系统”进化,开源生态正在挑战闭源的统治地位,而 AI 与科学的结合正迸发出颠覆传统的能量。对于开发者和行业观察者来说,这不仅是几篇新论文,更是未来三到五年技术格局的缩影。

🔥 热门文章 (29 篇)

AI/ML字节跳动Seed9.0

Seed2.0 正式发布

字节跳动正式发布 Seed2.0 系列模型,大幅强化了多模态理解、长上下文处理及复杂指令执行能力,并在多项基准测试中达到 SOTA。

产品设计人人都是产品经理8.0

备受吹捧的「一人公司」到底哪里不对劲?

文章探讨了AI时代“一人公司”和极致效率主义对创新的潜在负面影响,指出创新往往诞生于团队协作的冗余与碰撞中,而非AI追求的最佳效率。

AI/ML腾讯混元8.0

腾讯混元新研究:瞄准强化学习“工程深水区”

腾讯混元团队发布异常梯度定位器GradLoc,旨在解决RLVR训练中的不稳定性问题,通过将全局梯度突刺定位到具体Token,让模型调优从依赖直觉的“玄学”转向基于数据的科学分析。

AI/ML通义大模型8.0

CoPaw发布:即刻加载你的专属智能搭档

文章介绍了基于 AgentScope 生态构建的个人智能体工作台 CoPaw,支持本地与云端一键部署,通过多频道交互及可扩展的 Skills 实现自动化任务执行与长期记忆管理。

AI/ML硅谷1018.0

SaaS业数千亿市值蒸发:AI如何变革组织架构?

文章探讨了AI Agent(如Anthropic)对传统SaaS行业造成的冲击,提出了从SaaS向RaaS(结果即服务)的范式转移,并分析了百融云创“1000人管理20万AI员工”的“硅碳共治”组织实践。

AI/ML腾讯科技8.0

马斯克、奥特曼“爱到尽头”

文章详细梳理了马斯克与奥特曼从合作到决裂的十年历程,以及双方围绕OpenAI控制权、开源理念展开的诉讼与商战。

云计算字节跳动技术团队8.0

Agent Bucket:万亿级 Agent 原生存储桶

文章介绍了火山引擎推出的 Agent Bucket,通过在对象存储中引入 ObjectSet 这一原生资源层级,旨在解决万亿级 AI Agent 应用场景下的海量多租户数据隔离、权限管控及成本计量难题。

AI/ML晚点LatePost8.0

AI 硬件的上半场:失败、共识与进行中的探索

文章复盘了中国AI硬件市场的上半场,分析了大模型厂商与传统硬件结盟引发的AI玩具热潮及随后的市场冷却,以及资本推动下AI Native硬件创业力量的崛起与分歧。

AI/MLAI寒武纪8.0

Dario Amodei真的很焦虑...

文章基于Dario Amodei的深度访谈,详细剖析了强化学习规模化、AGI时间表、算力投入策略及AI行业盈利模式等核心议题,指出开源模型带来的竞争焦虑。

快速浏览

腾讯研究院6.0

腾讯研究院AI每周关键词Top50

本文汇总了2026年2月9日至13日期间的AI行业Top 50关键词,涵盖Claude Opus 4.6、GPT-5.3-Codex等模型更新及AI生态应用动态。