奔跑的高达

何恺明一步生成颠覆扩散,清北柔性登顶Nature

2026-02-02

✍️ 主编按语

今天的科技圈格外喧嚣,从算法架构到底层硬件,再到应用落地,每一条赛道都传来了令人振奋的信号。何恺明团队再次以极简主义思路颠覆了图像生成范式,而清北合作的柔性芯片更是登上了 Nature 期刊;与此同时,Agent 的形态正在从“对话框”走向“真实世界”,无论是长链条推理还是物理世界交互,都在迈向通用与落地。这不仅是一场技术的迭代,更是一场关于 AI 未来形态的重新定义。

算法范式革新

何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出

何恺明团队总是能在看似成熟的领域找到“第一性原理”。他们提出的 Pixel Mean Flow (pMF) 砍掉了现代扩散模型的两根支柱——多步采样和潜空间,实现了像素级的一步生成。这不仅仅是速度的提升,更是对“流形假设”的一次精彩实践:让网络直接预测低维流形上的量,远比在高维噪声中“猜”容易得多。这意味着图像生成正在摆脱对复杂 pipeline 的依赖,向着更高效、更直接的未来演进。

基础模型与 Agent 智能

How To Play AI Beta:拾象 2026 AGI 投资思考开源

这是一份价值连城的“情报地图”。拾象团队不仅理清了 Google、OpenAI 和 Anthropic 三足鼎立的竞争格局,更敏锐地指出了下一个范式级机遇——Continual Learning(持续学习)。如果 Pre-training 是利用存量知识,那么 Continual Learning 就是赋予模型“即时学习能力”,这是从“静态百科全书”到“动态超级实习生”的质变。对于开发者和投资者而言,押注那些能突破数据墙、具备实时学习能力的团队,才是抓住了结构性机会。

阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!

在模型能力日益趋同的今天,“快”和“稳”成为了杀手级特性。Step 3.5 Flash 采用稀疏 MoE 架构,通过滑动窗口与全局注意力的混合设计,实现了高达 350 TPS 的推理速度,同时支持 256K 长上下文。对于开发者而言,这意味着在构建 Agent 时,不再需要在“响应速度”和“推理深度”之间做痛苦的权衡。它证明了开源模型完全有能力在 Agent 场景下比肩闭源 SOTA,这无疑是给 Agent 开发者送上的一份厚礼。

多维创新打造强泛化智能体模型,LongCat-Flash-Thinking-2601技术报告发布

为什么很多模型在基准测试中拿满分,一上线就“翻车”?美团 LongCat 团队给出的答案是:缺乏真实世界的“噪声训练”。他们构建了覆盖 20 多个领域、上万个异构环境的训练场,并系统化地注入了工具失效、指令歧义等真实噪声。这种“把模型扔进泥坑里练”的思路,产出了一个极具鲁棒性的 5600 亿参数 MoE 模型。它告诉我们,真正的强泛化,不是在温室里刷榜,而是在风雨中学会如何在不确定中做决策。

具身智能与物理 AI

陈亦伦和李震宇创立的具身公司它石智航,不做 VLA、不仿真,不走主流路线

在 VLA(视觉-语言-动作)架构大行其道的当下,它石智航选择了一条“离经叛道”的路。他们认为具身智能不应是 LLM 的下游分支,而应拥有独立的模型表达,追求对时间、空间、力等物理量的深度理解。更令人印象深刻的是他们的数据采集策略:放弃昂贵的遥操作,改用可穿戴设备低成本采集人类真实操作数据。这种对数据第一性的深刻洞察,或许正是突破具身智能数据墙的关键。

像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

AI 如何真正理解物理法则并用于推演?Agent2World 给出了一种工程化的解法。它将世界模型的生成转化为软件工程流程:Researcher 补全知识、Developer 编写环境代码、Testing Team 进行行为级验收。这一框架不仅能生成可执行的符号环境,更能通过自我修正的数据飞轮反哺模型训练。这标志着 AI 从“理解文本”迈向“理解规则”,是通往具身智能的重要基础设施。

硬件与基础设施

Nature | 清北合作研发全球首个全柔性存算一体AI芯片

这是一次里程碑式的突破。清华大学与北京大学合作研发的柔性 AI 芯片登上了 Nature,它不再是一块简单的柔性电路板,而是具备存内计算架构的完整集成电路。这意味着未来的电子设备可以像贴纸一样贴在皮肤上,甚至植入机器人关节中,独立完成复杂推理。这不仅填补了柔性电子在“思考”层面的空白,更为可穿戴设备、生物医疗等领域开启了全新的应用纪元。

淘天集团自营技术运营算法团队4年2次荣膺 INFORMS“杰出实践奖”决选荣誉:以策略正则化突破DRL在库存管理中的落地瓶颈

学术界的顶尖奖项往往属于理论突破,而淘天团队两次入围 INFORMS 决选,证明了工业界也能产出世界级的研究。他们提出的“策略正则化”方法,巧妙地将库存管理的经典直觉融入深度强化学习,解决了 DRL 在工业落地中“黑箱、难调参”的痛点。这表明,AI 落地的关键不在于模型多大,而在于如何将领域知识优雅地嵌入算法,实现可解释、可信赖的智能决策。

速递|AI安全初创公司Outtake“全明星”背书,ARR同比增长六倍,B轮融资4000万美元

随着生成式 AI 的普及,数字身份欺诈的门槛被大幅降低。Outtake 的异军突起,正是抓住了这一痛点。它用 AI 解决 AI 带来的安全问题,实现了对仿冒账户、流氓应用的自动化清除。微软 CEO 萨提亚·纳德拉等全明星投资人的加持,不仅是对其技术实力的认可,更揭示了未来的安全逻辑:在 AI 时代,防御体系必须具备同样的智能化和自动化能力,否则只能望尘莫及。

🔥 热门文章 (42 篇)

AI/ML量子位8.0

Agent当上群主后,群聊变成办事大厅了

文章深入剖析了百度文心APP内测的“多人、多Agent”群聊功能,详细介绍了其背后的Group-MAS技术架构及攻克高并发、语义理解、任务协作等难题的解决方案。

AI/ML字节跳动技术团队8.0

OpenViking:面向 Agent 的上下文数据库

字节跳动开源 OpenViking,一款采用文件系统范式设计的 AI Agent 上下文数据库,通过分层存储和递归检索解决上下文管理混乱与高成本问题。

AI/ML量子位8.0

大事不好!机器人学会预测未来了

蚂蚁灵波开源全球首个用于通用机器人控制的因果视频-动作世界模型LingBot-VA,该模型通过预测未来画面来指导动作,实现了从“观察-反应”到“想象-行动”的突破。

AI/MLFounder Park8.0

Clawdbot 如何搭建永久记忆管理系统:全靠 MD 文档

文章深入解析了AI智能体Clawdbot(OpenClaw)独特的本地化记忆管理系统,该系统利用纯Markdown文档作为存储核心,结合SQLite与向量化技术实现了持久、可搜索且用户完全掌控的记忆机制。

AI/MLThe JetBrains Blog8.0

Koog x ACP: Connect an Agent to Your IDE and More

文章介绍了如何利用 Koog 框架的原生 ACP(Agent Client Protocol)集成功能,构建符合 ACP 标准的 AI 编程代理并将其连接到 JetBrains IDE 中。

AI/ML腾讯研究院8.0

AI是人的延伸,人是AI的尺度

文章论述了AI是人类神经系统和认知功能的延伸,提出人类应从“执行力”转向“判断力”,并在人机共生中确立人的价值尺度。

其他创业邦8.0

“网红”电动车,谁能跨过“斩杀线”

文章通过分析2025年多款热门新能源车型的销量曲线,揭示了市场从追求“网红爆款”向注重“长红价值”的转变,总结了智能平权、矩阵化布局及综合持有成本等行业新规则。

后端架构得物技术8.0

大模型网关:大模型时代的智能交通枢纽|得物技术

文章介绍了得物技术自建大模型网关的实践,通过统一模型入口、建设全流程成本管控体系及分钟级实时观测能力,解决了企业AI应用中的资源浪费、成本失控及稳定性挑战,实现了显著降本增效。

快速浏览

吴晓波频道6.0

排队来中国,欧洲何所图?

文章分析了2026年欧洲各国领导人密集访华的现象,探讨其寻求经济合作、应对内部困境及地缘政治调整的深层原因。