奔跑的高达

GLM-5 暴力开源!智谱与小米今日引爆硬核科技圈

2026-02-12

✍️ 主编按语

今日科技圈迎来了一场久违的“硬核狂欢”。智谱 GLM-5 以开源之姿暴力登顶,其“Agentic Engineering”的新范式不仅让代码写作进化为系统工程,更在多项核心指标上正面硬刚 Claude Opus 4.5。与此同时,具身智能领域同样硝烟弥漫,小米与高德接连发布 SOTA 级机器人基座模型,展示了极高的工程落地能力;而字节与小红的在多模态生成与图像编辑上的突破,则为内容生产带来了新的想象力。这不仅仅是技术的迭代,更是 AI 从“玩具”走向“工具”的转折点。

AI 基座与智能体进化

GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!

智谱今日发布的 GLM-5 绝对是今日的重磅炸弹,它标志着大模型正式从“Vibe Coding”(写个 Demo 玩玩)迈向“Agentic Engineering”(完成系统工程)。这不仅是参数规模从 355B 扩展至 744B 的量变,更是长程任务规划与复杂工程交付能力的质变。其集成的 DeepSeek Sparse Attention 机制有效解决了长文本成本痛点,而异步强化学习框架“Slime”则让模型具备了从长程交互中持续进化的能力。对于开发者而言,这意味着我们终于拥有了一个能真正重构后端、处理“屎山代码”且逼近 Claude Opus 4.5 体感的开源基座,这将极大推动企业级 AI Agent 的落地进程。

速递|硅谷禁忌打破!Founders Fund等领投Anthropic200亿美元融资,同时押注OpenAI

在智谱与国内厂商激战正酣时,大洋彼岸的资本狂欢也在上演。Anthropic 即将完成的 200 亿美元融资,估值飙升至 3500 亿美元,这不仅是硅谷历史上最大规模的初创企业融资之一,更打破了一条“硅谷禁忌”——领投方 Founders Fund 同时也是 OpenAI 的投资方。这一信号极具深意:在 AI 变现的终局面前,纯粹的阵营站队已不再重要,资本更倾向于在通往 AGI 的可能路径上通过“双押”来对冲风险。这也侧面印证了当前 AI 行业的火热程度已远超传统投资逻辑的范畴。

具身智能的工程化跃迁

小米开源首代机器人 VLA 大模型,刷新多项 SOTA!

如果说 GLM-5 解决了“脑子”的问题,那么小米的 Xiaomi-Robotics-0 则解决了“手脚”的协调难题。具身智能长期以来面临“思维卡顿”的痛点,即在真实物理世界中推理延迟导致动作不连贯。小米通过 MoT(Mixture-of-Transformers)架构,将 VLM“大脑”与 DiT“小脑”分离,配合异步推理与 Lambda 形注意力掩码,在 4.7B 参数规模下实现了 80ms 的超低延迟和 30Hz 的实时控制。这意味着机器人可以在消费级显卡上实现“丝滑赛德芙”般的操作,其务实进厂的路线图已非常清晰,这为具身智能从炫技走向工业场景提供了极具价值的参考样本。

高德发布两款ABot系列基座模型,达成全球首个具身操作和具身导航”双SOTA”

高德今日的发布则补齐了机器人规模化落地的另一块拼图——导航与操作的统一。不同于以往单一任务的模型,ABot-N0 首次在单一模型中集成了点位、目标、指令跟随等五大导航任务,构建了真正的“全栈导航基座”。结合 ABot-M0 在操作上的 SOTA 表现,高德实际上构建了一套从“理解指令”到“精准操作”的完整闭环。对于行业来说,这种跨平台的数据融合与统一动作表示,是打破机器人数据孤岛、实现规模化复用的关键基础设施,其生态意义不容小觑。

多模态与创作工具的革新

Seedance 2.0 正式发布

字节跳动的 Seedance 2.0 展示了“导演级”视频生成的可能性。它不再局限于简单的文生视频,而是通过统一的多模态音视频联合架构,支持文字、图片、音频、视频的混合输入与编辑。更值得关注的是其对物理规律遵循能力的提升,无论是双人花滑的复杂交互,还是 ASMR 视频中的细腻音效,都达到了工业级制作的水准。这表明 AI 视频生成正在从“抽卡娱乐”向“专业生产力”过渡,未来影视、广告的制作门槛将被大幅降低。

小红书发布FireRed-Image-Edit:图像编辑新SOTA

小红书带来的 FireRed-Image-Edit 则直指图像编辑的痛点——尤其是文字编辑的精准度。通过引入 Layout-Aware OCR-based Reward,该模型不仅能修正错别字,还能保持字体的风格与布局的合理性,这对于海报设计、电商物料修改等高频场景至关重要。其开源不仅提供了 SOTA 级的工具,更通过 RedEdit Bench 建立了新的评测标准,推动了社区对图像编辑“可用性”而非单纯“艺术性”的关注。

开发者生态与行业动态

速递|GitHub前CEO创办Entire,创开发工具领域种子轮融资纪录,获6000万美元融资

随着 GLM-5 等 Agent 能力的爆发,代码生成速度已远超人类审阅速度,GitHub 前 CEO 创办的 Entire 正是为了解决这一“消化不良”的问题。Entire 试图建立一套适应 AI 智能体的原生软件生产体系,通过“通用语义推理层”让 AI 生成的代码与其生成背景(如提示词、对话记录)绑定,从而让人类能够真正理解 AI 的决策逻辑。这预示着开发工具正在从单纯的“编辑器”向“AI 协同管理系统”演变,未来代码审查的逻辑将发生根本性改变。

今日开源(2026-2-12):智谱GLM-5技术突破,参数扩至7440亿,DSA稀疏注意力+slime架构赋能复杂系统工程

除了巨头,开源社区今日同样热闹。MiniCPM-SALA 通过稀疏与线性注意力的混合机制,实现了百万级 Token 上下文的高效推理,为长文档处理提供了新思路;而 MeepleLM 则另辟蹊径,专注于桌游领域的虚拟测试,展示了 AI 在模拟主观体验与游戏规则理解上的潜力。这些细分领域的创新,共同构成了 AI 技术落地的丰富生态。

🔥 热门文章 (56 篇)

AI/ML小红书技术REDtech9.0

小红书发布FireRed-Image-Edit:图像编辑新SOTA

小红书Super Intelligence Team发布图像编辑新SOTA模型FireRed-Image-Edit,在复杂指令处理、文字编辑等方面表现优异,并开源了代码、技术报告及Demo。

AI/ML字节跳动Seed9.0

Seedance 2.0 正式发布

字节跳动正式发布新一代视频创作模型 Seedance 2.0,采用统一多模态架构,显著提升了复杂运动表现、物理准确度及工业级可控性。

云计算阿里技术8.0

阿里ALake数据湖:多模态数据存储处理方案

文章介绍了阿里ALake基于Paimon Blob的多模态数据存储方案,通过分离结构化与非结构化数据并创新blob文件机制,解决了海量多模态数据统一存储与高效处理的问题。

AI/MLThe JetBrains Blog8.0

Are We Having the Wrong AI Dreams?

文章基于NeurIPS 2025的洞察,论证了LLM拥有不同于人类的独特智能,指出强基准测试无法转化为实际生产力,并主张重塑开发流程以适应AI驱动的生态系统。

AI/ML赛博禅心8.0

GLM-5 必涨价|AI 时代的 9 个反共识

文章基于GLM-5开源事件,提出了AI时代的9个反共识观点,核心观点包括免费模式终结、Token将因Agent需求爆发而涨价、企业竞争焦点转向Token ROI及AI取代中层管理。

AI/ML大模型智能8.0

下半场思考:基础智能体记忆机制

这是一篇关于基础智能体记忆机制的技术综述,提出从记忆基质、认知机制和记忆主体三个维度构建统一视角,并分析了其在长程交互和现实环境中的应用与挑战。

AI/ML量子位8.0

2026拜年别写对联了,让AI替你写首歌吧

文章介绍了AI公司自由量级发布的音乐大模型“音潮V3.0”,其具备一句话生成歌曲、照片写歌等功能,且在演唱质量和编曲丰富度上有显著提升。

AI/ML机器之心8.0

小红书,再造一个更有「声」命力的社区

文章深入分析了小红书在2026年春节期间上线的AI语音功能(如语音评论、语音问一问),并详细解读了其背后的FireRed系列大模型与全双工语音交互技术栈。

快速浏览

人人都是产品经理6.0

不要对 AI 说谢谢 ?

文章反驳了“不要对AI说谢谢以省电”的观点,认为应通过算法优化、芯片升级及太空数据中心等供给侧手段解决AI能耗焦虑。