AI安全手术刀与0代码百万行：大模型重塑软件物理边界

2026-03-01

✍️ 主编按语

今天的资讯向我们展示了 AI 正在进行一场从微观神经元到宏观资本开支的深刻变革。一方面，OpenAI 内部实践证明了 Codex 驱动的 Agent 已具备构建百万级工程系统的能力，彻底颠覆了传统开发模式；另一方面，Alec Radford 关于预训练阶段 Token 级过滤的研究，为 AI 安全提供了具有物理算力屏障的“脑部手术”方案。与此同时，资本疯狂涌入具身智能与能源底座，宣告了旧软件时代的终结与物理主权争夺战的开始。

AI安全新范式：给大模型做“脑部手术”

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

这项研究不仅是技术层面的突破，更是安全思维的范式转移。长期以来，业界习惯于通过 RLHF 或“机器遗忘”这种事后“贴膏药”的方式来压制模型毒性，但这在与攻击者的猫鼠游戏中往往显得脆弱不堪。Radford 与 Rathi 提出的 Token 级过滤，本质上是在预训练阶段就通过数据层面的“基因编辑”，让模型根本没有机会习得危险知识。最令人震撼的是其发现的 Scaling Law：模型越大，这种通过过滤机制构建的“知识真空”越难被填补。对于 18 亿参数模型，攻击者恢复被删能力所需的算力成本暴增 7000 倍。这为未来万亿参数模型的安全构建了一道基于物理成本的天然屏障，让 AI 安全从“对抗攻防”升级为“基础架构”。

软件工程的奇点：人类掌舵，Agent 编码

1500 个 PR、0 人写代码：Codex 驱动的百万行级内部产品实践

如果说安全篇是在探讨“如何造出安全的 AI”，那么这篇 OpenAI 的内部复盘则展示了“如何用 AI 造出复杂的系统”。文中提到的 0 人工代码、百万行级交付，标志着软件工程进入了“ Agent 优先”的新纪元。这不仅仅是效率提升 10 倍的问题，而是工程师角色的彻底重构——从“砌砖工人”变成了“建筑师”。为了驯服 Codex Agent，团队不得不建立极度严格的架构约束和“Agent 可读”的文档体系。这种反直觉的发现极具启发性：在 AI 时代，严格的纪律和抽象层比自由发挥更重要，因为只有清晰的结构才能让 Agent 在高速迭代中不产生“熵增”。这预示着未来团队的核心竞争力，将不再是写代码的能力，而是设计环境、定义意图和构建反馈循环的能力。

资本与物理世界的狂热重组

核反应堆与智能体的引擎正在熔毁旧世界的边界 | SVTR Signal #006

如果说前两篇文章是技术层面的“术”，那么这篇深度评论则是关于资本流向与战略布局的“道”。SVTR 的分析极其敏锐地捕捉到了 2026 年初的三大趋势：Service-as-Software 正在通过交付“业务结果”而非“工具”对传统 SaaS 进行降维打击；具身智能与自动驾驶领域的融资狂欢，标志着物理主权的争夺已进入白热化阶段，数据与模型的泛化能力成为唯一护城河；而 OpenAI 锁定 2GW 核电级算力、初创公司疯狂研发 ASIC 芯片，则揭示了算力与能源底座已成为 AGI 竞赛的终极物理瓶颈。这不仅是一场技术革命，更是一场关于能源、算力与物理控制权的国家级战略博弈。

小结

从给大模型做“脑部手术”确保安全，到完全由 Agent 编写百万行代码重塑工程效率，再到资本在核聚变与具身智能上的豪赌，我们看到的不是单一技术的进步，而是整个数字文明底层的物理重组。开发者必须意识到，未来的壁垒不再是某段代码的优劣，而是谁能掌握安全的预训练范式，谁能驾驭 Agent 构建复杂系统，以及谁能在能源与算力的物理极限战中占据高地。