奔跑的高达

技术日报

2026-02-13

✍️ 主编按语

{
  "title": "国产开源狂飙:GLM-5 封神,多模态推理破局",
  "content": "# AI 编程与推理的“成人礼”\n\n今日的技术动态充满了火药味,AI 领域仿佛在一夜之间完成了从“炫技”到“实干”的蜕变。智谱 GLM-5 的开源震撼了社区,证明了国产模型已具备系统级工程能力;而 Kimi 与蚂蚁集团的最新模型,则在多模态与深度推理上分别拿出了世界级答卷。与此同时,谷歌 Gemini 的突然发力与 Anthropic 的巨额融资,预示着 2026 年将是 AI 代理与底层算力全面战争的一年。\n\n## 开源模型的“系统级”突围\n\n### [GLM-5封神,智谱市值五天翻倍,中国AI火力全开了](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651016856&idx=1&sn=aad3dbd1415d58cb70d9c9ac0535a1aa)\n\n智谱 GLM-5 的发布标志着开源模型正式告别“玩具”时代,迈向了“Agentic Engineering”的新阶段。它不再满足于生成简单的 Demo 或 SVG 图标,而是通过异步强化学习基础设施和稀疏注意力机制,具备了从零构建高并发分布式系统的能力。实测中,它能像资深架构师一样进行系统设计、处理 Rust 的所有权机制,甚至主动编写防 DDoS 脚本。这对开发者的意义在于,我们终于拥有了一个成本可控、逻辑严密的开源选择,去接管那些过去只能依赖昂贵闭源模型(如 GPT-5.2 或 Claude Opus 4.6)的复杂系统工程任务。这不仅是技术的胜利,更是 AI 真正进入生产环境的开始。\n\n### [MiniMax M2.5 发布:1美金/小时,真实世界工作王者](https://mp.weixin.qq.com/s?__biz=MzE5MTA3NzcxMQ==&mid=2247487796&idx=1&sn=414621ef4b131b49b0991cdc2857d198)\n\n如果说 GLM-5 证明了“能干”,MiniMax M2.5 则展示了“便宜且高效”。该模型在编程、搜索和工具调用上达到了 SOTA 水平,特别是在 SWE-Bench Verified 上表现优异。更重要的是,M2.5 将连续运行 AI Agent 的成本打到了极限:每秒输出 50 token 时,一小时仅需 0.3 美金。这种极致的性价比,使得让 AI Agent 7x24 小时自主完成研发、销售、财务等复杂工作流成为经济上完全可行的选项。对于追求降本增效的企业来说,M2.5 可能是推动 AI Agent 大规模落地的最后一根稻草。\n\n## 多模态与深度推理的“内卷”\n\n### [Kimi K2.5 如何实现文本和视觉能力互相增强?](https://mp.weixin.qq.com/s?__biz=Mzk0NDU1MDkyNg==&mid=2247488177&idx=1&sn=e08912a810a42294e2aba0d0b4c6d0be)\n\n月之暗面发布的 Kimi K2.5 技术报告,揭示了一条通往通用多模态智能的独特路径。其核心创新在于“联合优化”:通过 Zero-Vision SFT 仅用文本数据激活视觉能力,再通过联合强化学习实现文本与视觉能力的双向增强,避免了传统方法中模态相互割裂的问题。更令人瞩目的是其提出的“Agent Swarm”框架,通过并行编排将复杂任务拆解并发执行,不仅大幅降低了推理延迟,还提升了项目级 F1 分数。这意味着未来的 AI 不再是线性的“聊天机器人”,而是能够像现代操作系统内核一样,多线程、多任务并行处理真实世界复杂问题的“超级大脑”。\n\n### [业界首个!蚂蚁开源万亿参数混合线性思考模型,IMO金牌水平](https://mp.weixin.qq.com/s?__biz=MzA4MTQ4NjQzMw==&mid=2652797118&idx=2&sn=83cd1430e53e337d759836fc1755d600)\n\n蚂蚁集团开源的 Ring-2.5-1T 模型,在长文本推理效率上实现了质的飞跃。其采用的混合线性注意力架构,在 32K 以上生成长度场景中,访存规模降低 10 倍,吞吐提升 3 倍以上。这种效率的提升并非以牺牲性能为代价,反而在 IMO 和 CMO 等顶级数学竞赛中达到了金牌水平。对于需要处理超长文档、复杂代码库或进行深度推理的开发者而言,Ring-2.5-1T 提供了一条兼顾深度思考与计算成本的可行路径,也再次印证了架构创新在当前阶段比单纯堆砌参数更为关键。\n\n### [清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊](https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247731623&idx=2&sn=131902f467bcc0e8b5ce825a2800bcc9)\n\n清华大学刘洋团队的研究揭示了当前大模型评估的一个严重误区:视觉高分不等于功能强。在医疗问诊场景中,70B 参数的模型表现往往不如 8B 的模型,原因在于后者通过强化学习(RL)训练,掌握了动态提问和风险识别的“策略”,而前者只是死记硬背了海量知识。这项研究不仅提出了 DOCTOR-R1 这一将临床问诊建模为 POMDP 的创新框架,更重要的是提醒了整个行业:在垂直领域落地 AI 时,不能迷信大参数,必须针对真实任务流程进行针对性的训练和评估。\n\n## 行业格局与资本博弈\n\n### [Anthropic完成300亿美元融资,估值达3800亿美元](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247514118&idx=3&sn=a10c16231c8b4fa2b396b2225700ae96)\n\nAnthropic 刚刚完成的 300 亿美元融资,估值高达 3800 亿美元,这不仅是资本对 AI 头部效应的再次确认,更是一场针对 OpenAI 的“围剿”。年化收入从 90 亿飙升至 140 亿美元,企业客户的狂热需求表明市场对“更安全、更可靠”的企业级 AI 有着巨大的付费意愿。然而,这笔巨额融资也折射出行业的隐忧:巨额的资金被用于购买算力芯片和支付云计算费用,形成了一种与云厂商深度绑定的“循环交易”。未来,这种由资本和算力堆砌的竞争格局是否可持续,将是所有 AI 公司必须面对的课题。\n\n### [清华传奇姚顺宇立功!全新Gemini一夜血洗编程](https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ==&mid=2650450980&idx=1&sn=3f976452b8ceb704d4be41d9b9eca9af)\n\n谷歌的反击来得迅猛而猛烈。Gemini 3 Deep Think 在 Codeforces 上拿下 Elo 3455 分,全球仅 7 人能赢;在 ARC-AGI-2 这一被视作“AI 图灵测试”的基准上,更是直接刷到了 84.6% 的惊人成绩,远超 Claude 和 GPT。这背后离不开从 Anthropic 挖来的清华传奇姚顺宇等顶尖科学家的努力。更重要的是,Deep Think 展示了 AI 进入科研深水区的潜力:它能审阅数学论文找出逻辑漏洞,能设计半导体晶体生长工艺。这标志着 AI 正从“聊天伴侣”加速进化为“科学家”和“工程师”,人类在代码和推理领域的防线正在被快速突破。\n\n## 硬件与评测的底层重构\n\n### [一家水下AI芯片公司完成10亿元融资,瞄准大模型推理](https://mp.weixin.qq.com/s?__biz=Mzk0MDMyNDUxOQ==&mid=2247497335&idx=1&sn=8f3685838ec1f7f28a1f351ebb9483b1)\n\n算苗科技的融资故事,揭示了 AI 算力赛道的新风向。不再盲目模仿英伟达的 GPU 通用路线,而是通过 3D 堆叠架构直击“内存墙”痛点,专注大模型推理。其仿真数据显示,用 12nm 工艺的 A4 芯片在推理性能上竟然能超越英伟达 4nm 的 H200。这种“以巧破力”的思路,正是中国芯片产业突破

🔥 热门文章 (53 篇)

AI/ML月之暗面 Kimi9.0

Kimi K2.5 如何实现文本和视觉能力互相增强?

本文详细介绍了 Kimi K2.5 的技术实现,重点阐述了通过原生多模态预训练、Zero-Vision SFT 及联合强化学习实现的文本与视觉能力双向增强,以及 Agent Swarm 并行编排框架对降低推理延迟和提升复杂任务处理能力的突破。

AI/ML腾讯科技9.0

谁给Anthropic送去了300亿美元?

Anthropic宣布完成300亿美元G轮融资,投后估值达3800亿美元,资金将用于研发及算力扩张;文章详细披露了其营收增长、企业客户拓展及与OpenAI的市场竞争格局。

AI/MLHugging Face9.0

社区供稿丨Ring-2.5-1T,思更深,行更远

蚂蚁集团发布并开源首个混合线性架构的万亿参数思考模型 Ring-2.5-1T,通过架构创新显著提升了模型的生成效率、思考深度及长程执行能力。

AI/ML白鲸出海8.0

Higgsfield的反噬,与2000个失控的KOL

文章深度复盘了AI独角兽Higgsfield因算力成本失控和信任崩塌导致系统性崩溃的案例,揭示了创作者经济与AI高边际成本之间的结构性矛盾。

AI/ML数字生命卡兹克8.0

明天,是GPT-4o的葬礼。

文章在GPT-4o下线之际,深情回顾了其代表的注重情感与陪伴的AI“黄金时代”,并批判了当前行业过度追求编码能力与商业效率而忽视人文关怀的趋势。

其他硅谷科技评论8.0

Oura,如何把睡眠做成百亿生意?

深度解析智能戒指公司 Oura 的商业逻辑与成长路径,探讨其如何利用生理数据构建护城河及面临的风险挑战。

AI/ML阿里云开发者8.0

用Spring AI Alibaba把MultiAgent实现从5天压到5小时

文章介绍了如何利用Spring AI Alibaba框架将Multi-agent系统的开发周期从5天缩短至5小时,详细对比了手写框架与成熟框架的差异,并讲解了ReAct模式及Plan-Execute模式的实现。

产品设计白鲸出海8.0

分拣解谜游戏:一个新细分品类的诞生

文章深入分析了“分拣解谜”这一细分游戏品类的演变历程,从早期单纯依赖广告变现的水排序游戏,到《Block Jam 3D》和《Hexa Sort》引入内购机制与自动化设计,并预测了2026年以传送带为核心的玩法趋势。

AI/MLLangChain Blog8.0

On Agent Frameworks and Agent Observability

文章阐述了尽管LLM能力提升,Agent框架仍具价值,并介绍了LangChain框架的演进过程及独立可观测性平台LangSmith的重要性。

AI/MLDatawhale8.0

节前最后一波实测,最新模型MiniMax M2.5!

文章实测了最新发布的MiniMax M2.5模型,通过成绩汇总和跨年对比两个实际Agent案例,验证了其在长链路任务中的稳定性、文件处理能力及可交付成果的质量。

AI/MLMartin Fowler8.0

Fragments: February 13

文章探讨了随着LLMs的普及,资深和初级开发者的角色演变、认知债务的概念、开发体验与AI体验的重合,以及未来IDE和团队协作模式的变化。

快速浏览

吴晓波频道6.0

对话冯琏:64岁,我的第六次创业

文章是对64岁创业者冯琏的访谈,回顾了她31年来在“床垫之上”睡眠生态领域的创业历程、技术壁垒(宝石纤维)及商业理念。