奔跑的高达

技术日报

2026-05-07

✍️ 主编按语

{
  "title": "AI 代码率飙至90%,马斯克解散xAI租算力给Anthropic",
  "content": "今天的科技圈仿佛被按下了加速键,从AI工程的范式跃迁到算力版图的剧烈重构,每一个信号都在暗示我们:从\"模型竞赛\"到\"生产力落地\"的转折已成定局。无论是Harness Engineering将AI代码率提升至90%的实战,还是马斯克将xAI算力租给对手Anthropic的惊人反转,亦或是AWS让AI学会花钱的AgentCore支付体系,都指向了一个核心趋势——AI正在从被动的\"对话者\"进化为具备自主执行能力的\"智能体\",而支撑这一进化的,是工程化体系的完善与底层算力资源的疯狂博弈。\n\n### AI 工程化:从 Prompt 到 Harness 的范式跃迁\n\n[Harness Engineering:耗时一周,我是如何将应用的AI Coding率提升至90%的](https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247559842&idx=1&sn=71ee08bf0421ad2f1aa4dd7a58901c5f) - 这篇文章可能是近期最具实战价值的AI工程指南。它提出的 Harness Engineering 概念,标志着AI开发从 \"Prompt Engineering\" 和 \"Context Engineering\" 迈入了第三阶段:系统化的约束工程。作者通过构建包含规则、技能、知识和变更管理的完整 Harness 体系,成功将AI代码率从不到25%提升至90%。这不仅是数字的胜利,更是开发模式的革命——它证明了在复杂的企业级代码库中,依靠裸用模型是行不通的,必须建立像 Spec-Driven Development 这样严格的外部约束和反馈回路。对于开发者而言,这意味着核心竞争力正在从\"写代码\"向\"设计Agent的工作环境\"转移。\n\n[十年老技术开发的 AI Agent 探索之路](https://mp.weixin.qq.com/s?__biz=MjM5ODYwMjI2MA==&mid=2649801477&idx=1&sn=b4b4e51cf60abaa7bc00cc667ccca247) - 作为一名资深开发者,这篇文章用极其诚恳的笔触记录了从 \"Vibe Coding\" 的翻车到构建 \"24h 打工人\" 系统的完整心路历程。作者提出了一个反直觉但至关重要的观点:\"脚手架 > 模型\"。相比于追逐最新的模型,构建基于 SDD(Spec-Driven Development)的流程、Observability 可观测性以及共享状态机制,才是实现稳定、可复现 Agent 系统的关键。特别是关于 \"Task-Driven\" 到 \"Goal-Driven\" 的认知跃迁,指出了未来 Agent 进化的方向:不仅是执行任务,更是能在有限约束下自主推进目标。这是对所有沉迷于调优 Prompt 的开发者的一记警钟。\n\n### 算力与产业格局:马斯克的 \"以退为进\"\n\n[刚刚,马斯克官宣xAI解散,22万张GPU算力租给Anthropic](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651031726&idx=1&sn=e6eca005d102e4a279d9b460dfa0d35d) - 这可能是硅谷今年最魔幻的商业剧情。马斯克解散 xAI 并将其并入 SpaceX,同时将 xAI 曾经引以为傲的 Colossus 1 超算集群(22万张GPU)全部租给死对头 Anthropic。这表面上是马斯克的一出 \"大义灭亲\",实则是极其精明的算力资本运作:Colossus 1 对正在建设 Colossus 2 的 xAI 来说已是 \"旧产能\",租出去不仅能补贴新集群建设,还能绑定 Anthropic 探索太空算力。这也侧面印证了 Anthropic 目前在 AI 编码领域的统治力——其用户需求已把算力 \"挤爆\",不得不斥巨资甚至涉足太空计算来扩容。这场交易重塑了 AI 基础设施的竞争逻辑:谁能掌握最低成本的能源和算力,谁才是最终的赢家。\n\n[嘘,Claude正在「做梦」!睡一觉疯狂进化,一夜暴涨6倍战力](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652698250&idx=2&sn=55071d7c98d04b893a5907ebbfcaafb1) - Anthropic 的这次更新非常 \"科幻\",他们为 Agent 加入了类似人类 REM 睡眠的 \"Dreaming\" 功能。Agent 在工作间隙会自动回顾历史会话,合并重复记忆,挖掘宏观规律,从而实现自我进化。配合 Outcomes 评分官和多 Agent 编排,Anthropic 成功将任务完成率提升了 6 倍。这不仅是工程技巧的胜利,更揭示了 AI 进化的新路径:通过模拟生物的睡眠机制来处理长期记忆和熵增。对于行业来说,这意味着 Agent 的 \"智商\" 将不再仅取决于预训练,更取决于运行时的 \"反刍\" 能力。\n\n### 模型与架构:开源与闭源的激烈交锋\n\n[The Batch: 954 | Kimi K2.6 挑战开源权重模型领先者](https://mp.weixin.qq.com/s?__biz=MzIxNzI0ODE4Nw==&mid=2247498555&idx=1&sn=a74928f1fc52a12e2d6338638f928d2ea) - Moonshot AI 发布的 Kimi K2.6 拥有 1 万亿参数,在多项基准测试中领先于其他开源权重模型,直逼顶级闭源模型。其最大的亮点在于超长的 \"规划-编写-测试-调试\" 循环能力,能够实例化数百个子智能体协同工作,并且幻觉率显著降低。这标志着开源模型在 \"Agent 能力\" 上正在迅速补齐短板,不再仅仅是 \"对话\" 工具,而是具备了处理复杂、长周期任务的潜力。对于开发者而言,Kimi K2.6 提供了一个不依赖闭源生态的高性能 Agent 基座选择。\n\n[SenseNova U1开源:原生统一多模态理解与生成,8B参数达到同量级SOTA](https://mp.weixin.qq.com/s?__biz=Mzk3NTc1NTU0Mw==&mid=2247508021&idx=1&sn=693c940676560eb20a362e085f9f9291) - 商汤开源的 SenseNova U1 展示了 \"以小博大\" 的极致。基于 NEO-unify 架构,它摒弃了传统的视觉编码器和 VAE,在统一表征空间中实现了多模态的理解与生成。8B 参数的模型在多项指标上达到了同量级 SOTA,甚至支持业内首个连续性图文交错输出。这种 \"原生统一\" 的设计思路,解决了多模态模型中信息传递损耗的痛点,为 Agent 在视觉推理和连续创作任务中的应用提供了更高效的底座。\n\n### 智能体经济与基础设施:AI 开始 \"花钱\" 了\n\n[Agents that transact: Introducing Amazon Bedrock AgentCore payments, built with Coinbase and Stripe](https://aws.amazon.com/blogs/machine-learning/agents-that-transact-introducing-amazon-bedrock-agentcore-payments-built-with-coinbase-and-stripe/) - AWS 这一步棋下得极具前瞻性。通过与 Coinbase 和 Stripe 合作,Bedrock AgentCore 新增了支付功能,让 AI Agent 能够自主调用钱包,为付费的 API、数据或内容进行微支付。这是 \"Agent Economy\"(智能体经济)的基础设施雏形。当 Agent 能够自主决策并完成交易时,它就从单纯的 \"助手\" 升级为了 \"经济参与者\"。这对开发者意味着未来的商业模式将发生剧变:服务将以 \" fractions of a cent per call \" 的粒度被 AI 消费,你需要构建的是 Agent 能 \"买得起\" 且 \"找得到\" 的服务接口。\n\n[DeepSeek-V4的并行策略和计算通信遮掩](https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ==&mid=2650451776&idx=1&sn=1f26acd28191e26ecf77c4415634a4dd) - 在硬件受限于 H800 和 IB 网络的背景下,DeepSeek-V4 展示了极致的工程美学。通过创新的 DualPipe 和 Waved-EP 技术,他们在 MoE 模型训练中实现了计算与通信的完美遮掩,解决了 EP 跨节点通信的瓶颈。这篇文章揭示了 AI 训练的一个残酷真相:当算力硬件无法无限堆砌时,算法层面的并行策略和 Kernel 级别的优化就成了决定性因素。这对于基础设施工程师来说是必读的\"避坑

🔥 热门文章 (49 篇)

AI/ML量子位9.0

一年磨一剑,今年最炸机器人Demo来了!

Genesis AI发布首个机器人基础模型GENE-26.5,通过全栈技术自研(硬件、控制、模型、仿真),实现单手打蛋、解魔方等复杂操作的自主运行,展示了具身智能领域的重大突破。

AI/MLDeeplearningAI9.0

The Batch: 954 | Kimi K2.6 挑战开源权重模型领先者

文章详细介绍了 Moonshot AI 发布的万亿参数模型 Kimi K2.6,该模型在开源权重中性能领先,具备长时间自主编程和多智能体协同能力,但在推理能力上仍略逊于顶级闭源模型。

AI/MLAINLP9.0

DeepSeek-V4的并行策略和计算通信遮掩

文章深入解析了DeepSeek-V4在分布式训练中的并行策略,特别是针对MoE模型的EP策略优化,以及通过DualPipe和Waved-EP实现计算与通信遮掩的工程细节。

AI/ML腾讯技术工程9.0

十年老技术开发的 AI Agent 探索之路

一位十年老开发者从实践出发,深度剖析 AI Agent 开发中从手动管理到自动化系统的演进,提出 SDD(规格驱动开发)和治理优于模型的核心观点。

AI/MLDatawhale9.0

AGI 全景图:一篇通用人工智能的综述!

文章从哲学、技术和经济维度深度剖析了AGI的现状与悖论,指出按人类标准AGI可能已存在,但因架构约束和商业利益,真正自主的AGI永远不会被允许出现。

AI/ML十字路口Crossing8.0

龙虾退烧后,荣耀给它造了一个宇宙

文章深入评测了荣耀发布的基于 OpenClaw 的 YOYO Claw 小龙虾宇宙生态,分析了其在 PC、平板、手机三端的落地表现及端侧协同能力,探讨了硬件厂商如何解决 AI Agent 落地门槛、成本与隐私问题。

工具效率刘小排r8.0

聊聊MacBook的几个秘密,看完省钱

文章分析了在AI Agent时代MacBook的选购策略,指出单核性能对云端AI工具至关重要,并推荐高内存的MacBook Air或无屏Mac Mini以节省成本。

AI/MLAI炼金术8.0

管 Vibe Coding 项目,就像管公共厕所

文章通过徐文浩的访谈指出,Vibe Coding 虽然加速了开发,但也导致技术债务在短时间内极速累积,核心问题已从单纯的编码转变为如何对 AI 生成的代码进行有效治理和 Harness 管理。

产品设计有机大橘子8.0

俞浩箴言录

本文汇集了追觅科技创始人俞浩关于产品创新、品牌定位、创业管理和商业思维的深刻见解,强调了“N+1”增量创新、高端定价策略以及人才培养的重要性。

AI/ML花叔8.0

AI视频工具悄悄走到了第三阶段

文章提出了AI视频工具已进入第三阶段「画布原生Agent」的观点,分析了AI从黑盒工具向透明协作伙伴的范式转变,并以RHTV为例介绍了通过生态整合与节点可视化实现创作可控性的新路径。

工具效率向阳乔木推荐看8.0

Al Agent装进口袋:TRAE SOLO移动端上手全攻略

文章详细介绍了字节跳动 TRAE SOLO 移动端的全平台互通能力,演示了通过手机调用技能、集成飞书及配置第三方模型等多种实际应用场景。

后端架构腾讯云开发者8.0

程序员越早想通这些越好

本文分享了作者多年的编程经验总结,通过38条认知转变阐述了删减代码、控制复杂度、深入理解需求及重构等核心软件开发原则。

AI/ML机器之心8.0

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO 是一个无需训练、即插即用的终端智能体自进化观测压缩框架,通过动态学习和沉淀压缩规则,有效过滤低价值终端输出并保留关键线索,从而提升长程任务的成功率和 Token 效率。

AI/ML浮之静8.0

AI 时代下的“认知投降”

文章深度探讨了 AI 编程工具对工程师认知模式的影响,区分了“认知卸载”与“认知投降”,警示开发者不要因过早接受 AI 答案而丧失独立判断力。

AI/ML腾讯研究院8.0

注定改变历史的一代人

文章深入探讨了AI原生代在认知、情感、社会结构及意义追寻层面面临的深刻挑战与机遇,呼吁在算法时代重塑人类价值。

工具效率The JetBrains Blog8.0

How to Make Code Highlighting-Friendly

文章提出了“高亮复杂度”的概念,解释了代码风格如何影响IDE的物理资源消耗,并提供了具体的代码编写建议以提升编辑器的响应速度和能效。

AI/ML腾讯科技8.0

大模型价格战背后,真正稀缺的不是Token

文章指出大模型市场正分化为“前沿层准入经济”和“工作层通缩经济”,认为未来真正的稀缺资源不是Token价格,而是顶级模型的访问与控制权。

快速浏览