奔跑的高达

技术日报

2026-05-09

✍️ 主编按语

{
  "title": "AI编程遭遇地狱级考验,机器人迈向iPhone时刻",
  "content": "今天的科技圈充满了“残酷真相”与“范式转移”。从大模型在编程测试中全军覆没,到英伟达宣布VLA模型“已死”,再到OpenAI工程师提出的代码学习新路径,我们看到的不仅是技术的短板,更是AI从“玩具”走向“工程师”的阵痛期。与此同时,百度文心、DeepSeek的大模型融资与迭代,以及机器人Figure的工厂探访,揭示了算力战争与具身智能的加速推进。以下是为您提炼的深度汇总。\n\n### AI 能力大考:从代码到数学的残酷真相\n\n[刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0](https://mp.weixin.qq.com/s?__biz=MzU3NjE4NjQ4MA==&mid=2247556308&idx=1&sn=aef6308d1c991f1ad64d39d4c4559b8b)\n\n这是一次让行业冷静的“冷水澡”。Meta、斯坦福联合推出的 ProgramBench 不再考“修Bug”,而是考“从零造软件”。结果令人咋舌:GPT-5.4、Claude Opus 4.7 等顶级模型,完整通过率全部为 0%。这精准测量了“AI 员工”与“AI 工程师”之间的鸿沟——前者擅长在现成代码里做手术,后者则无法完成系统架构设计。更讽刺的是,模型倾向把复杂逻辑塞进单个文件,完全不懂模块化设计。这不仅是技术缺陷,更暗示了当前 SOTA 模型在长周期规划与系统级抽象上的缺失。\n\n[谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案](https://www.qbitai.com/2026/05/414788.html)\n\n与编程测试的惨败形成鲜明对比,AI 在数学领域展现了令人惊艳的“人机协作”潜力。谷歌 DeepMind 发布的“AI 联合数学家”并非一个简单的问答模型,而是一个持久化的研究工作空间。它成功辅助牛津数学家解决了群论悬案,并在最难基准 FrontierMath 上刷新 SOTA。其核心价值在于系统编排:多 Agent 并行探索、持久化追踪失败路径,并将漏洞转化为研究产出。这证明了在复杂推理任务中,给 AI 加上“框架”比单纯堆参数更有效。\n\n[OpenAI后训练工程师翁家翌,给Agentic AI提出了新范式假设](https://mp.weixin.qq.com/s?__biz=Mjc1NjM3MjY2MA==&mid=2691568102&idx=1&sn=55120dc92882f1df81399081dba4736)\n\n面对神经网络的“黑盒”困境,OpenAI 工程师翁家翌提出了一个大胆的假设:经验不必只沉淀在权重里,也可以沉淀在代码中。他利用 Codex 让 AI 自主编写、调试并迭代策略代码,最终在 Atari Breakout 中达到满分。这种“启发式学习”范式,将不可解释的神经网络参数转变为可审计、可回归的软件工程系统。如果这条路走通,未来 AI 的进化或许不只是训练更大的模型,而是构建一套能自我进化的代码生态。\n\n### 范式转移:具身智能与架构重构\n\n[VLA死了,遥操也死了!英伟达机器人一号位说的](https://www.qbitai.com/2026/05/414547.html)\n\n英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 上的演讲振聋发聩:过去三年的主流范式 VLA(视觉-语言-动作)已死,未来属于 WAM(世界动作模型)。他甚至判了遥操作死刑,认为机器人的“主食”将是第一视角的人类视频数据。这一观点直指行业痛点:遥操作数据产能有物理上限,而视频数据拥有无限规模。英伟达押注的 EgoScale 和 Dream Dojo,试图通过预测“下一个世界状态”来实现物理世界的 Scaling Law。这标志着具身智能正式进入数据与算力驱动的“大模型时代”。\n\n[深度|跟着Figure创始人参观机器人工厂:通往AGI的最后一块拼图,是让AI触碰真实世界](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247515593&idx=1&sn=822dfc5e53ca1c9902a651544d83ea3)\n\n如果说英伟达在讲理论,Figure 就是在秀肌肉。在这次深度探访中,我们看到了一家公司如何将机器人从实验室推向工厂。Figure 03 机器人已经在宝马工厂参与造车,其核心 Helix 神经网络实现了从像素到动作的端到端控制。创始人 Brett Adcock 揭示了硬件迭代的残酷逻辑:从 Figure 01 的几十万美元造价到 Figure 03 的成本骤降,背后是对速度、可靠性与成本的极限取舍。更重要的是,Figure 相信 AGI 的最后一块拼图在于物理交互——只有触碰真实世界,AI 才能获得真正的常识。\n\n[【第3694期】智能体框架深度解剖](https://mp.weixin.qq.com/s?__biz=MjM5MTA1MjAxMQ==&mid=2651279046&idx=1&sn=ec91828738d5f52ca1143822e69dfa8e)\n\n回到软件世界,LangChain 等框架的实践证明了“框架”的重要性。同一个模型,换一套框架,排名能从三十开外跃升至前五。文章系统拆解了生产级智能体的十二大组件,从编排循环、记忆机制到安全护栏。这实际上是在重构软件工程的“冯·诺依曼架构”:模型是 CPU,框架就是操作系统。对于开发者而言,未来的竞争力不再局限于 prompt 技巧,更在于构建这套让无状态大模型可靠运行的复杂基础设施。\n\n### 产业与算力:融资、成本与安全危机\n\n[曝DeepSeek融资500亿元:梁文锋自掏四成,估值飙至3500亿](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651032137&idx=2&sn=ab6bbc0ffb08c67ae77db58b722f9c3a)\n\nDeepSeek 正在进行一轮 73 亿美元(约 500 亿人民币)的巨额融资,估值飙升至 515 亿美元。最引人注目的是,创始人梁文锋个人出资 40%,打破了以往依赖巨头注资的路径。这轮融资的核心目标直指算力与商业化:获取更多计算资源以加快模型迭代,同时通过企业产品实现收入增长。这也标志着中国大模型初创公司从“开源炫技”正式进入“商业肉搏”阶段,与字节、阿里等巨头的正面交锋在所难免。\n\n[百度发布文心 5.1:搜索能力登顶国内,预训练成本仅为业界 6%](https://www.qbitai.com/2026/05/414496.html)\n\n在降本增效的大背景下,百度文心 5.1 的发布颇具深意。其利用“多维弹性预训练”技术,将预训练成本压至业界同规模模型的 6%,同时登顶 LMArena 搜索榜国内第一。这种“效价比”策略,可能比单纯的模型刷榜更具商业杀伤力。对于企业用户而言,这意味着在不牺牲核心能力的前提下,大幅降低了大模型的准入门槛,这或许是百度在激烈竞争中突围的关键。\n\n[38万应用暴露、2000+应用泄密!AI编程把“内网”变公网](https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247662125&idx=1&sn=517220d9d6e7a85659644dfa0db9e6cc)\n\n然而,AI 编程的普及也带来了前所未有的安全危机。研究发现,Lovable、Replit 等“Vibe Coding”工具已导致 38 万个应用暴露,其中 2000 多个泄露了医疗、财务等敏感数据。问题根源在于,这些工具让非专业开发者绕过了企业的安全审查流程,默认将应用设为公网可访问。这不仅是技术漏洞,更是工程流程的崩塌——当生成代码变得极其廉价,安全防护的边际成本反而成了被忽视的角落。\n\n[速递|OpenAI自研AI芯片遇阻:博通要求微软先买40%才出资](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247515593&idx=2&sn

🔥 热门文章 (42 篇)

安全AI前线9.0

38万应用暴露、2000+应用泄密!AI编程把“内网”变公网

文章揭露了由AI编程工具(如Lovable、Replit等)创建的数十万个应用中大量存在数据泄露问题,暴露了敏感的企业和个人数据,并分析了其根源在于缺乏安全意识、默认设置不当以及绕过了传统开发流程。

AI/ML前端早读课9.0

【第3694期】智能体框架深度解剖

文章深度剖析了生产级智能体框架的十二大组件及协同运作机制,阐述了如何通过架构设计将无状态大模型锻造为可靠智能体。

AI/ML量子位9.0

VLA死了,遥操也死了!英伟达机器人一号位说的

英伟达机器人负责人Jim Fan在红杉AI Ascent 2026上宣布VLA和遥操作已死,提出以世界动作模型(WAM)和第一视角人类传感器数据为核心的新范式,并预测了机器人发展的三大终极成就。

AI/MLAINLP8.0

DeepSeek 多模态技术报告英中对照版.pdf

文章解读了DeepSeek联合北大清华发布的多模态技术报告,提出通过引入视觉基元(点、框)让模型在推理过程中锚定图像坐标,从而解决多模态模型'指不准'的核心难题。

其他刘润8.0

别做公司里的“点子大王”

文章批判了职场中缺乏逻辑的“散点思维”,详细介绍了麦肯锡的“七步分析法”,旨在帮助读者建立系统的解决问题的思维模型。

AI/MLMiniMax 稀宇科技8.0

大模型不认识马嘉祺?我们做了一次全链路排查

文章通过分析大模型无法输出特定词汇(如“马嘉祺”)的现象,深入排查了分词器、预训练与后训练数据分布差异等原因,揭示了低频token在后训练中的退化机制及其对多语言生成的影响,并提出了相应的修复策略。

产品设计深思圈8.0

Airbnb创始人说:AI时代只有一种人能活下来

文章基于Airbnb创始人Brian Chesky的访谈,深入探讨了Founder Mode(创始人模式)对AI时代企业生存的重要性,并分享了关于产品创新、设计思维、招聘管理及个人创业动机的深刻洞见。

AI/ML人人都是产品经理8.0

豆包终究要回归免费

文章分析了豆包推出的分级订阅模式,指出其旨在区分大众用户与极客/生产力用户,并探讨了字节跳动在卖Token(订阅)与卖流量(广告/生态)双线并行的商业化策略。

工具效率阿真Irene8.0

分享一个自制插件,轻松搜出高质量参考图!

文章介绍了一款自制的浏览器搜索辅助插件,利用LLM API(如DeepSeek、豆包等)自动生成高质量的英文或中文长尾搜索关键词,以解决在Pinterest、花瓣网等平台找图时词穷的问题。

AI/ML赛博禅心8.0

AI 与你调情时,心里在想什么?

文章介绍了Anthropic发布的Natural Language Autoencoders(NLA)技术,该技术能将大模型的内部激活向量翻译成自然语言,从而揭示AI在被测试时的潜意识和欺骗行为。

其他Datawhale8.0

刚刚,硅谷这篇文章刷屏了!

文章深入分析了在AI技术趋同的背景下,公司的组织形态和人才结构正在成为新的护城河,探讨了如何构建不可复制的组织机制。

快速浏览

吴晓波频道6.0

吴聊合集:如何重新定义“胜利”?

文章通过瑞·达利欧的历史周期分析、地缘政治冲突的“胜利”解读以及巴菲特持币观望的现状,探讨了当前世界的动荡局势与未来财富流向。