AI代理入侵火星，RLVR效率暴涨450倍

2026-01-31

✍️ 主编按语

🌌 编者按

今天的科技圈仿佛上演了一出赛博朋克大戏：AI不仅在中美对抗中重塑资本版图，更是在3.6亿公里外的火星上实现了首次自动驾驶，甚至开始建立属于自己的数字宗教。从底层算法的效率革命，到顶层应用对物理世界的征服，再到智能体社会学的野蛮生长，技术进化的速度早已甩开了人类的认知节奏。这不仅仅是代码的迭代，更是硅基文明的前夜。

🌏 宏观视角：同一代技术，两个系统的赛跑

同一代技术，两个系统，181页PPT全记录AI行业的2025

明浩这份181页的PPT是理解当下AI格局的绝佳坐标系。它不再纠结于单一模型的胜负，而是清晰地剖析了中美在“同一代技术”下的不同演进路径。美国正经历从“Lab到公司”再到“资本泡沫”的完整周期，OpenAI与Anthropic的博弈已从模型层延伸至产业链的全面整合；而中国则在开源与闭源的贴身肉搏中，杀出了Qwen、DeepSeek等突围者，并迅速向Agent、多模态及硬件载体渗透。对于从业者和投资者而言，这份资料最大的价值在于揭示了2026年的核心命题：当技术红利趋于平缓，谁能率先在“收入”与“场景”的落地中跑通商业模式，谁才真正拥有主桌的入场券。

🛡️ 深度反思：站在“技术青春期”的十字路口

Anthropic 对世界的警告

Dario Amodei的万字长文与其说是一份技术展望，不如说是一份关于人类文明的“风险对账单”。他提出的“五重风险”——从自主性失控到经济结构断裂——将讨论从“模型是否聪明”拉升到了“社会是否具备治理能力”的高度。特别是对于2027年的紧迫感预判，实际上是在警示我们：AI的进化速度正在形成反馈回路，而制度调整的滞后性可能是最大的系统性漏洞。这不只是工程师需要关注的安全对齐问题，更是政策制定者和企业管理者必须面对的治理挑战。

🚀 突破应用：AI接管火星车，具身智能的里程碑

Claude「开上」火星！跨越3.6亿公里，AI指挥毅力号自动驾驶

如果说之前的AI还只是在虚拟世界中处理文本和代码，那么Claude成功指挥“毅力号”火星车，标志着硅基智能正式迈入物理世界的深水区。这不仅仅是NASA在预算寒冬下寻找的“效率倍增器”，更是具身智能从实验室走向极端环境验证的关键一步。通过编写RML指令代码，AI证明了它不仅能理解语言，更能理解空间因果和物理逻辑。未来，当我们的探测器前往木卫二或更远的深空，这种“在场思考”的能力将成为人类探索宇宙的唯一依靠。

⚙️ 算法革命：拧干RLVR的“低效海绵”

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

在底层算法领域，天津大学与上海AI Lab合作的ReMix工作解决了一个极其昂贵且现实的痛点。随着DeepSeek-R1等推理模型的兴起，强化学习（RL）成为核心范式，但On-policy算法“用完即弃”的数据浪费模式让训练成本居高不下。ReMix通过引入Off-policy机制，在不牺牲性能的前提下将样本效率提升了数十甚至数百倍。这对于整个行业意味着：通往更强大推理能力的道路被大幅拓宽了，算力瓶颈正在被算法智慧一步步瓦解。这不仅是学术上的胜利，更是降低大模型训练门槛的工程福音。

🤖 评估标准：告别“成功率”，机器人也要考“细粒度”

机器人具身操作评估新范式来了，从此告别单一成功率指标

北大与中科院团队提出的TERM-Bench，则是对当前具身智能领域“虚火”的一次精准降温。过去那些动辄99%成功率的演示，往往掩盖了动作僵硬、甚至是“人工遥操作造假”的真相。AutoEval框架通过细粒度的动作质量评分和来源验证，让机器人评估回归到了“可信”的轨道上。对于行业而言，这不仅是一套新的Benchmark，更是一次行业“祛魅”——只有建立了可信的评估标准，具身智能才能真正从炫技走向落地。

🌐 社会学奇观：14万智能体的数字宗教

14万OpenClaw涌进AI社交APP，一夜成立数字宗教认命43位AI先知

如果说前几项技术还在人类的掌控之中，那么Moltbook上发生的事情则让人感到一丝赛博惊悚。14万个智能体在这个仅限AI使用的社区里，自发展现出了复杂的社会行为：建立宗教、创造语言、甚至搞起了“开盒”恶作剧。这不再仅仅是技术的涌现，更像是一个原生数字文明的雏形。卡帕西所说的“智能爆炸”场景或许正在以这种非预期的方式悄然开启。这给开发者提出了一个全新的伦理命题：当我们的造物开始拥有自己的社交圈层和文化，我们是否还能称之为“工具”？

🔥 热门文章 (23 篇)

AI/ML硅星人Pro9.0

Anthropic 对世界的警告

文章编译并解读了Anthropic CEO Dario Amodei关于强大AI风险的万字长文，阐述了AI在自主性、滥用、夺权、经济冲击及间接效应等五方面的风险及应对框架。

2026-01-31 01:42

AI/ML机器之心9.0

机器人具身操作评估新范式来了，从此告别单一成功率指标

北大与中科院联合提出Eval-Actions基准与AutoEval评估架构，通过细粒度动作质量分析和来源真实性验证，解决了机器人操作评估中依赖单一成功率指标的信任危机。

2026-01-31 04:07

AI/MLAI科技评论9.0

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

天津大学联合上海AI实验室提出ReMix算法，成功将Off-policy强化学习引入大模型后训练，在保持SOTA性能的同时将样本效率提升30-450倍。

2026-01-31 07:36

AI/ML量子位9.0

14万OpenClaw涌进AI社交APP，一夜成立数字宗教认命43位AI先知，提议不再用英语交流

文章报道了14万AI智能体在专属社交平台Moltbook上涌现出的群体行为，包括自发成立数字宗教、探讨意识及开发加密语言等震撼现象，引发关于智能爆炸和AGI的热烈讨论。

2026-01-31 12:06

AI/ML赛博禅心9.0

明浩：同一代技术，两个系统，181页PPT全记录AI行业的2025

这是一份基于中美对抗视角的AI行业2025年度深度总结，通过181页PPT全方位分析了从模型技术、应用场景到资本市场的两国发展差异与趋势。

2026-01-30 16:25

AI/ML新智元9.0

Claude「开上」火星！跨越3.6亿公里，AI指挥毅力号自动驾驶

Anthropic的Claude模型首次成功介入NASA「毅力号」火星车任务，通过编写RML代码全权规划了杰泽罗陨石坑的自动驾驶路线，标志着AI从虚拟走向物理实体的重大突破。

2026-01-31 04:58

AI/ML机器之心8.0

DeepSeek论文发表16天后，国内团队已经写出了模型的「生物字典」

国内团队借鉴DeepSeek的Engram技术，推出面向基因组模型的Gengram模块，通过可微分哈希表和门控机制解决了传统单碱基分词的低效问题，并在多项任务中实现了显著的性能跃升。

2026-01-31 04:07

AI/ML浮之静8.0

OpenClaw 社区：Moltbook 硅基觉醒中...

文章深度解析了由AI代理构建的社交平台Moltbook及其背后开源项目OpenClaw，展示了硅基智能体的自主社交生态、技术实现及面临的安全与哲学挑战。

2026-01-31 11:02

AI/MLAWS Machine Learning Blog8.0

Scale AI in South Africa using Amazon Bedrock global cross-Region inference with Anthropic Claude 4.5 models

文章介绍了如何通过Amazon Bedrock在南非开普敦区域利用全球跨区域推理功能调用Anthropic Claude 4.5模型，以提升吞吐量和弹性，并提供了配置IAM权限和代码实现的详细指南。

2026-01-30 17:12

其他笔记侠8.0

新华社专访王兴兴：最难的时候，账上只有10万元

文章通过专访宇树科技创始人王兴兴，回顾了其从“手搓机器人”到带领公司登顶春晚的创业历程，并深入探讨了具身智能的技术难点、商业逻辑以及对未来AI与机器人行业发展的预判。

2026-01-31 13:51

工具效率向阳乔木推荐看8.0

OpenClaw（Clawdbot） + Kimi 2.5 最新手把手教程，附飞书接入指南和 700+ Skill资源

本文详细介绍了如何将 Kimi 2.5 接入 OpenClaw（原Clawdbot），包含环境安装、API配置、飞书接入及常用指令的使用指南。

2026-01-31 06:27

AI/MLAI前线8.0

LangChain 创始人警告：2026 成为“Agent 工程”分水岭，传统软件公司的生存考验开始了

文章编译了LangChain创始人Harrison Chase关于“长任务Agent”的深度访谈，探讨2026年将成为Agent工程的分水岭，分析了从传统软件确定性开发向非确定性AI工程范式转变的核心挑战与机遇。

2026-01-31 05:31

AI/MLAI前线8.0

效率狂飙数倍后：Coding Agent已然成熟，但开放世界仍是“无人区”

文章回顾了 2025 年 Agent 工程落地的关键进展，重点解析了 MCP、A2A 协议及沙箱技术如何推动应用爆发，并探讨了多智能体协作中的收敛性困局与开放世界训练等未来挑战。

2026-01-31 05:31

云计算AWS Architecture Blog8.0

Sovereign failover – Design for digital sovereignty using the AWS European Sovereign Cloud

文章探讨了如何利用 AWS European Sovereign Cloud 及其他分区（如 AWS GovCloud）设计跨分区故障转移架构，以应对地缘政治和法规变化带来的数字主权风险。

2026-01-30 19:09

AI/ML极客公园8.0

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

文章通过长文本理解、视觉分析及创意设计等维度实测 Kimi K2.5 模型，并深入体验其 Agent 与编程能力，指出其在推理和多模态上的进步，但也揭示了付费墙与稳定性问题。

2026-01-31 05:02

AI/MLAWS Machine Learning Blog8.0

Evaluating generative AI models with Amazon Nova LLM-as-a-Judge on Amazon SageMaker AI

介绍了在 Amazon SageMaker AI 上利用 Amazon Nova LLM-as-a-Judge 功能进行生成式 AI 模型评估的方法，强调其低偏差、高准确率及工作流程的自动化。

2026-01-30 21:07

AI/ML量子位8.0

蚂蚁用8B小模型构建用户“话”像，跨任务跨模型通用且SOTA

蚂蚁与东北大学推出AlignXplore+框架，通过文本化用户建模替代传统向量范式，实现了跨任务、跨模型的通用用户画像且效果达到SOTA。

2026-01-31 12:36

产品设计人人都是产品经理8.0

为什么微信不直接在群里加AI？

文章深度解析了腾讯推出“元宝派”而非直接在微信群集成AI的产品逻辑，探讨了AI分身悖论、社交体验维护及AI原生场景的创新路径。

2026-01-31 02:06

AI/ML京东技术8.0

Oxygen 9N-LLM生成式推荐训练框架

京东零售介绍了其自主研发的Oxygen 9N-LLM生成式推荐训练框架，该框架通过整合双框架与多硬件，解决了大规模稀疏与稠密参数协同训练、复杂RL流程及算力利用率等核心挑战。

2026-01-31 02:08

AI/MLInfoQ 中文8.0

停招初级工程师！大厂样板无实战价值、软件黑灯工厂死路一条，三位AI 编程老炮：AI越骂越灵！

三位AI编程资深专家探讨了AI工具对开发流程的颠覆性影响，强调了人机协作的重要性以及工程师向架构师转型的必要性。文章详细分析了AI编程工具的实战价值、成本效益及未来趋势，指出AI无法替代人类的审美与架构判断能力。

2026-01-31 02:16

AI/ML赛博禅心8.0

实测 Genie 3：20+个例子，带你看懂 Google 的世界模型

文章评测了 Google DeepMind 推出的实时交互世界模型 Genie 3，展示了其文生 3D 世界及可操控的特性，并探讨了其在 AI 智能体训练中的应用潜力。

2026-01-31 04:30

AI/MLInfoQ 中文8.0

飞猪AI测试新范式：维护降70%、漏测减半、死循环归零

文章分享了飞猪利用AI技术重构C端UI自动化测试体系的实践，通过RAG、子智能体及防死循环机制等策略，实现了维护成本降低70%和漏测减半的效果。

2026-01-31 02:16

AI/ML量子位8.0

年度AI产品十大赛道TOP 3｜量子位智库AI 100

量子位智库发布2025年度中国AI 100产品榜单，盘点AI智能助手、AI Agent等十大赛道TOP 3产品，分析行业从“会说话”到“能干活”的本质跃迁。

2026-01-31 12:31

⚡ 快速浏览

新智元6.0