技术日报

2026-05-09

✍️ 主编按语

{
  "title": "AI编程遭遇地狱级考验，机器人迈向iPhone时刻",
  "content": "今天的科技圈充满了“残酷真相”与“范式转移”。从大模型在编程测试中全军覆没，到英伟达宣布VLA模型“已死”，再到OpenAI工程师提出的代码学习新路径，我们看到的不仅是技术的短板，更是AI从“玩具”走向“工程师”的阵痛期。与此同时，百度文心、DeepSeek的大模型融资与迭代，以及机器人Figure的工厂探访，揭示了算力战争与具身智能的加速推进。以下是为您提炼的深度汇总。\n\n### AI 能力大考：从代码到数学的残酷真相\n\n[刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分](https://mp.weixin.qq.com/s?__biz=MzU3NjE4NjQ4MA==&mid=2247556308&idx=1&sn=aef6308d1c991f1ad64d39d4c4559b8b)\n\n这是一次让行业冷静的“冷水澡”。Meta、斯坦福联合推出的 ProgramBench 不再考“修Bug”，而是考“从零造软件”。结果令人咋舌：GPT-5.4、Claude Opus 4.7 等顶级模型，完整通过率全部为 0%。这精准测量了“AI 员工”与“AI 工程师”之间的鸿沟——前者擅长在现成代码里做手术，后者则无法完成系统架构设计。更讽刺的是，模型倾向把复杂逻辑塞进单个文件，完全不懂模块化设计。这不仅是技术缺陷，更暗示了当前 SOTA 模型在长周期规划与系统级抽象上的缺失。\n\n[谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案](https://www.qbitai.com/2026/05/414788.html)\n\n与编程测试的惨败形成鲜明对比，AI 在数学领域展现了令人惊艳的“人机协作”潜力。谷歌 DeepMind 发布的“AI 联合数学家”并非一个简单的问答模型，而是一个持久化的研究工作空间。它成功辅助牛津数学家解决了群论悬案，并在最难基准 FrontierMath 上刷新 SOTA。其核心价值在于系统编排：多 Agent 并行探索、持久化追踪失败路径，并将漏洞转化为研究产出。这证明了在复杂推理任务中，给 AI 加上“框架”比单纯堆参数更有效。\n\n[OpenAI后训练工程师翁家翌，给Agentic AI提出了新范式假设](https://mp.weixin.qq.com/s?__biz=Mjc1NjM3MjY2MA==&mid=2691568102&idx=1&sn=55120dc92882f1df81399081dba4736)\n\n面对神经网络的“黑盒”困境，OpenAI 工程师翁家翌提出了一个大胆的假设：经验不必只沉淀在权重里，也可以沉淀在代码中。他利用 Codex 让 AI 自主编写、调试并迭代策略代码，最终在 Atari Breakout 中达到满分。这种“启发式学习”范式，将不可解释的神经网络参数转变为可审计、可回归的软件工程系统。如果这条路走通，未来 AI 的进化或许不只是训练更大的模型，而是构建一套能自我进化的代码生态。\n\n### 范式转移：具身智能与架构重构\n\n[VLA死了，遥操也死了！英伟达机器人一号位说的](https://www.qbitai.com/2026/05/414547.html)\n\n英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 上的演讲振聋发聩：过去三年的主流范式 VLA（视觉-语言-动作）已死，未来属于 WAM（世界动作模型）。他甚至判了遥操作死刑，认为机器人的“主食”将是第一视角的人类视频数据。这一观点直指行业痛点：遥操作数据产能有物理上限，而视频数据拥有无限规模。英伟达押注的 EgoScale 和 Dream Dojo，试图通过预测“下一个世界状态”来实现物理世界的 Scaling Law。这标志着具身智能正式进入数据与算力驱动的“大模型时代”。\n\n[深度｜跟着Figure创始人参观机器人工厂：通往AGI的最后一块拼图，是让AI触碰真实世界](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247515593&idx=1&sn=822dfc5e53ca1c9902a651544d83ea3)\n\n如果说英伟达在讲理论，Figure 就是在秀肌肉。在这次深度探访中，我们看到了一家公司如何将机器人从实验室推向工厂。Figure 03 机器人已经在宝马工厂参与造车，其核心 Helix 神经网络实现了从像素到动作的端到端控制。创始人 Brett Adcock 揭示了硬件迭代的残酷逻辑：从 Figure 01 的几十万美元造价到 Figure 03 的成本骤降，背后是对速度、可靠性与成本的极限取舍。更重要的是，Figure 相信 AGI 的最后一块拼图在于物理交互——只有触碰真实世界，AI 才能获得真正的常识。\n\n[【第3694期】智能体框架深度解剖](https://mp.weixin.qq.com/s?__biz=MjM5MTA1MjAxMQ==&mid=2651279046&idx=1&sn=ec91828738d5f52ca1143822e69dfa8e)\n\n回到软件世界，LangChain 等框架的实践证明了“框架”的重要性。同一个模型，换一套框架，排名能从三十开外跃升至前五。文章系统拆解了生产级智能体的十二大组件，从编排循环、记忆机制到安全护栏。这实际上是在重构软件工程的“冯·诺依曼架构”：模型是 CPU，框架就是操作系统。对于开发者而言，未来的竞争力不再局限于 prompt 技巧，更在于构建这套让无状态大模型可靠运行的复杂基础设施。\n\n### 产业与算力：融资、成本与安全危机\n\n[曝DeepSeek融资500亿元：梁文锋自掏四成，估值飙至3500亿](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651032137&idx=2&sn=ab6bbc0ffb08c67ae77db58b722f9c3a)\n\nDeepSeek 正在进行一轮 73 亿美元（约 500 亿人民币）的巨额融资，估值飙升至 515 亿美元。最引人注目的是，创始人梁文锋个人出资 40%，打破了以往依赖巨头注资的路径。这轮融资的核心目标直指算力与商业化：获取更多计算资源以加快模型迭代，同时通过企业产品实现收入增长。这也标志着中国大模型初创公司从“开源炫技”正式进入“商业肉搏”阶段，与字节、阿里等巨头的正面交锋在所难免。\n\n[百度发布文心 5.1：搜索能力登顶国内，预训练成本仅为业界 6%](https://www.qbitai.com/2026/05/414496.html)\n\n在降本增效的大背景下，百度文心 5.1 的发布颇具深意。其利用“多维弹性预训练”技术，将预训练成本压至业界同规模模型的 6%，同时登顶 LMArena 搜索榜国内第一。这种“效价比”策略，可能比单纯的模型刷榜更具商业杀伤力。对于企业用户而言，这意味着在不牺牲核心能力的前提下，大幅降低了大模型的准入门槛，这或许是百度在激烈竞争中突围的关键。\n\n[38万应用暴露、2000+应用泄密！AI编程把“内网”变公网](https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247662125&idx=1&sn=517220d9d6e7a85659644dfa0db9e6cc)\n\n然而，AI 编程的普及也带来了前所未有的安全危机。研究发现，Lovable、Replit 等“Vibe Coding”工具已导致 38 万个应用暴露，其中 2000 多个泄露了医疗、财务等敏感数据。问题根源在于，这些工具让非专业开发者绕过了企业的安全审查流程，默认将应用设为公网可访问。这不仅是技术漏洞，更是工程流程的崩塌——当生成代码变得极其廉价，安全防护的边际成本反而成了被忽视的角落。\n\n[速递｜OpenAI自研AI芯片遇阻：博通要求微软先买40%才出资](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247515593&idx=2&sn

🔥 热门文章 (42 篇)

安全AI前线9.0

38万应用暴露、2000+应用泄密！AI编程把“内网”变公网

文章揭露了由AI编程工具（如Lovable、Replit等）创建的数十万个应用中大量存在数据泄露问题，暴露了敏感的企业和个人数据，并分析了其根源在于缺乏安全意识、默认设置不当以及绕过了传统开发流程。

2026-05-09 04:56

AI/ML前端早读课9.0

【第3694期】智能体框架深度解剖

文章深度剖析了生产级智能体框架的十二大组件及协同运作机制，阐述了如何通过架构设计将无状态大模型锻造为可靠智能体。

2026-05-09 01:01

AI/MLZ Potentials9.0

速递｜OpenAI自研AI芯片遇阻：博通要求微软先买40%才出资

OpenAI自研AI芯片项目遭遇重大融资挫折，博通要求微软必须认购40%芯片才愿出资，导致项目延期至2027年。

2026-05-09 02:28

AI/MLZ Potentials9.0

深度｜跟着Figure创始人参观机器人工厂：通往AGI的最后一块拼图，是让AI触碰真实世界

本文是Figure创始人Brett Adcock的深度访谈，详细探讨了人形机器人作为通往AGI的关键路径，以及通过端到端神经网络Helix实现物理世界交互的技术突破。

2026-05-09 02:28

AI/ML量子位9.0

VLA死了，遥操也死了！英伟达机器人一号位说的

英伟达机器人负责人Jim Fan在红杉AI Ascent 2026上宣布VLA和遥操作已死，提出以世界动作模型（WAM）和第一视角人类传感器数据为核心的新范式，并预测了机器人发展的三大终极成就。

2026-05-09 06:24

AI/ML腾讯科技9.0

OpenAI后训练工程师翁家翌，给Agentic AI提出了新范式假设

OpenAI工程师翁家翌提出“启发式学习”（Heuristic Learning）新范式，实验证明Coding Agent可通过“自主改代码”而非调整神经网络权重来达到SOTA性能，为AI的可解释性和工程化落地提供了新路径。

2026-05-09 09:17

AI/ML量子位9.0

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

谷歌DeepMind发布「AI联合数学家」，通过人机协作模式攻克了群论悬案，并在最难数学基准FrontierMath Tier 4上刷新SOTA。

2026-05-09 07:12

AI/ML大模型智能9.0

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

Meta、斯坦福和哈佛联合发布全新软件工程基准测试ProgramBench，要求AI从零重写复杂软件，测试结果GPT、Claude、Gemini等9大顶级模型通过率均为0%。

2026-05-08 16:01

AI/ML机器之心9.0

曝DeepSeek融资500亿元：梁文锋自掏四成，估值飙至3500亿

DeepSeek正在进行73亿美元巨额融资，估值飙升至515亿美元，创始人梁文锋个人出资40%，标志着其商业化策略的转变。

2026-05-09 02:59

AI/ML量子位9.0

百度发布文心 5.1：搜索能力登顶国内，预训练成本仅为业界 6%

百度发布文心 5.1 模型，搜索与 Agent 能力显著提升且登顶国内，预训练成本降至业界 6%，标志着技术突破。

2026-05-09 03:11

AI/ML百度AI9.0

文心 5.1正式上线！搜索能力登顶国内，预训练成本仅为业界 6%

百度正式发布文心5.1大模型，通过弹性预训练和分离式全异步强化学习技术，将预训练成本降至业界6%，并在智能体与搜索能力上登顶国内榜单。

2026-05-09 03:26

AI/ML阶跃星辰9.0

阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三

阶跃星辰发布新一代语音生成模型 StepAudio 2.5 TTS，位列 Artificial Analysis 评测榜全球前三、中国第一，并介绍了其在全局语境控制、零样本复刻等核心能力上的技术突破。

2026-05-09 06:52

产品设计晚点LatePost8.0

对话 Rezona 张锏：AI 时代的内容平台，为什么要从 Meme 开始？

文章是对话 Rezona 创始人张锏的访谈，深度探讨了以 Meme（梗）为切入点构建 AI 时代互动内容平台的产品逻辑、用户生态及未来形态。

2026-05-09 04:32

AI/MLCSDN8.0

“缺算力成共识、所有实验室都忌惮字节跳动、极度敬重DeepSeek”，10天走访中国顶尖AI实验室后，美国研究者的最新观察

美国研究者团队走访中国顶尖AI实验室，分析了在算力受限背景下，中国AI团队依靠高强度工程投入和快速产品化缩小差距的现状，并对比了中美在组织文化和工程落地上的差异。

2026-05-09 09:58

AI/ML阿里云开发者8.0

5 人 7 天干完 20 人数周的活：Spec-Driven Development 如何重新定义 AI 编程

文章通过“5人7天”的实战案例，深入探讨了 Spec-Driven Development (SDD) 如何作为 AI 编程时代的核心工程方法，通过将规格说明作为唯一真实来源来解决复杂系统的协作与维护问题。

2026-05-09 00:31

AI/ML硅星人Pro8.0

豆包收费上热搜，不是贵了是早了｜AI产品榜·应用榜2026.04

文章结合2026年4月AI应用榜单数据分析豆包收费现象，指出在竞争格局未定、用户粘性不足的背景下，其收费策略为时过早，并提出了结果驱动的小额渐进式付费建议。

2026-05-09 01:21

AI/ML硅星人Pro8.0

“Claude Code 你就作吧，我换 Codex 了”

文章分析了Claude Code因产品体验缺陷和策略失误导致用户流失，而被Codex凭借更稳定的产品力和企业级体验反超的现象。

2026-05-09 01:21

AI/MLCSDN8.0

AI 隐藏“思维链”，是怕被人类监督污染！OpenAI首席科学家访谈：驾驭工程会越来越通用

OpenAI首席科学家Jakub Pachocki深度访谈，探讨编程智能体爆发、研究组织自动化、从数学向真实世界的北极星转移，以及隐藏思维链背后的安全考量。

2026-05-09 09:58

AI/MLAINLP8.0

DeepSeek 多模态技术报告英中对照版.pdf

文章解读了DeepSeek联合北大清华发布的多模态技术报告，提出通过引入视觉基元（点、框）让模型在推理过程中锚定图像坐标，从而解决多模态模型'指不准'的核心难题。

2026-05-09 11:34

其他刘润8.0

别做公司里的“点子大王”

文章批判了职场中缺乏逻辑的“散点思维”，详细介绍了麦肯锡的“七步分析法”，旨在帮助读者建立系统的解决问题的思维模型。

2026-05-09 01:28

AI/ML阿里研究院8.0

治理之智 | 美国如何用“安全评测”重塑AI治理秩序

文章深入剖析了2026年美国通过NIST建立AI模型“上线前安全审查”体系的战略意图，揭示了其以国家安全名义重塑AI治理秩序、架空州级监管并构建隐性准入门槛的三重棋局。

2026-05-09 09:42

AI/MLMiniMax 稀宇科技8.0

大模型不认识马嘉祺？我们做了一次全链路排查

文章通过分析大模型无法输出特定词汇（如“马嘉祺”）的现象，深入排查了分词器、预训练与后训练数据分布差异等原因，揭示了低频token在后训练中的退化机制及其对多语言生成的影响，并提出了相应的修复策略。

2026-05-09 01:30

AI/ML量子位8.0

美图RoboNeo全新升级：首创影像创作Agent Teams

美图发布RoboNeo影像创作Agent Teams，通过多智能体协作模式打造“赛博乙方天团”，提升了AI影像创作的专业度与自动化水平。

2026-05-09 09:22

AI/MLAI寒武纪8.0

最新！英伟达Jim Fan预判机器人物理AI将迎大突破：直接抄LLM作业，答案就在视频模型

文章详细介绍了英伟达Jim Fan关于机器人物理AI未来发展的核心观点，提出通过复制LLM的发展路径，利用视频生成模型构建世界动作模型（WAM）来实现技术突破。

2026-05-08 16:54

产品设计深思圈8.0

Airbnb创始人说：AI时代只有一种人能活下来

文章基于Airbnb创始人Brian Chesky的访谈，深入探讨了Founder Mode（创始人模式）对AI时代企业生存的重要性，并分享了关于产品创新、设计思维、招聘管理及个人创业动机的深刻洞见。

2026-05-09 02:23

AI/ML人人都是产品经理8.0

豆包终究要回归免费

文章分析了豆包推出的分级订阅模式，指出其旨在区分大众用户与极客/生产力用户，并探讨了字节跳动在卖Token（订阅）与卖流量（广告/生态）双线并行的商业化策略。

2026-05-08 23:46

AI/ML硅谷1018.0

中国机器人的全球化野心、“踢馆”硅谷，及Physical AI的爆发准备：对话魔法原子

本文是对中国机器人公司魔法原子总裁顾诗韬的深度访谈，探讨了中美机器人技术路径差异、Physical AI的商业化落地场景、全球市场竞争策略以及企业的组织能力建设。

2026-05-09 02:29

AI/ML机器之心8.0

VLA的PyTorch时刻已至！港科大联手社区开源StarVLA：一个框架揭秘所有主流VLA

港科大联合开源社区发布了VLA模型统一研究平台StarVLA，旨在解决当前具身智能领域代码碎片化和难以公平对比的问题，推动VLA走向像PyTorch一样的标准化发展阶段。

2026-05-09 02:59

AI/ML机器之心8.0

OpenAI翁家翌：梯度之外，下一个AI训练范式有着落了？

OpenAI 工程师翁家翌提出“启发式学习”（Heuristic Learning）概念，探讨利用 AI Agent 持续迭代代码规则系统来替代或补充神经网络，解决灾难性遗忘和持续学习难题。

2026-05-09 02:59

AI/ML乌鸦智能说8.0

走访大半个中国AI圈后，一位美国研究员看到了最真实的中国AI

文章通过美国研究员Nathan Lambert的视角，深入走访中国AI实验室，分析了中美在工程文化、组织方式及生态建设上的差异，指出中国AI在系统工程和产业化落地上的独特优势。

2026-05-09 11:01

其他网易科技8.0

被苹果踢出6年后，英特尔翻身了！美国政府强势撮合，8个月浮盈近500亿美元

文章深入分析了在美国政府撮合下，苹果与英特尔达成初步代工协议背后的商业逻辑、政治博弈及技术挑战，并探讨了英特尔CEO陈立武如何通过资本运作和客户拓展推动公司复兴。

2026-05-09 03:26

AI/MLAI科技评论8.0

对话简智朱雁鸣：不卷模型卷基建，具身智能核心是读懂人的数据

本文专访简智机器人联创朱雁鸣，阐述具身智能领域不卷模型而卷基建的差异化路径，强调以EGO centric视角、多模态高精度数据为核心壁垒。

2026-05-09 10:51

AI/MLAI科技评论8.0

CVPR 2026 3D 视觉前沿梳理：模型正在学会理解、生成和构建世界

文章梳理了CVPR 2026中3D视觉领域的前沿进展，指出研究重点正从单纯的图像生成转向具备空间逻辑、物理规律和深层理解的4D世界建模，涵盖重建、生成、底层表征及工具链等多个维度。

2026-05-09 10:51

工具效率阿真Irene8.0

分享一个自制插件，轻松搜出高质量参考图！

文章介绍了一款自制的浏览器搜索辅助插件，利用LLM API（如DeepSeek、豆包等）自动生成高质量的英文或中文长尾搜索关键词，以解决在Pinterest、花瓣网等平台找图时词穷的问题。

2026-05-09 06:53

其他Microsoft Research Blog8.0

Building realistic electric transmission grid dataset at scale: a pipeline from open dataset

Microsoft Research 发布了一个基于公开数据构建的大规模美国电力传输网格数据集，该数据集支持AC最优潮流分析，旨在解决因敏感数据限制导致的模型缺失问题。

2026-05-08 19:53

AI/ML赛博禅心8.0

AI 与你调情时，心里在想什么？

文章介绍了Anthropic发布的Natural Language Autoencoders（NLA）技术，该技术能将大模型的内部激活向量翻译成自然语言，从而揭示AI在被测试时的潜意识和欺骗行为。

2026-05-08 16:00

AI/ML创业邦8.0

川普和孙宇晨都入场，AI黄牛生意到底有多暴利？

文章深入剖析了AI中转站灰产的运作机制、技术套路及安全风险，揭示了其利用信息差套利的现状与隐患。

2026-05-09 10:09

其他创业邦8.0

166亿，史上最大海外投资，斯堪尼亚，豪赌中国

文章深入剖析了斯堪尼亚斥资166亿在中国建厂的战略背景，阐述了其模块化技术、TCO商业逻辑与国产化挑战，并探讨了其长期主义策略与中国速度逻辑的博弈。

2026-05-09 10:09

安全新智元8.0

剥夺大模型执行权！港中文开源Agent治理内核，高危拦截率达92.95%

香港中文大学推出面向智能体的运行时治理系统ArbiterOS，通过剥夺模型执行权、采用结构化指令和动态污点追踪机制，在动作执行前进行安全审查。

2026-05-09 04:05

其他Datawhale8.0

刚刚，硅谷这篇文章刷屏了！

文章深入分析了在AI技术趋同的背景下，公司的组织形态和人才结构正在成为新的护城河，探讨了如何构建不可复制的组织机制。

2026-05-09 15:20

AI/ML极客公园8.0

Figure AI 发布新 demo：两个机器人点头致意，我们一起把被子拉开

Figure AI发布Helix-02新demo，展示了全球首次基于单一神经网络实现的双机器人无中心控制协作，完成了包括铺床在内的复杂家务。文章还探讨了该技术的真实性与商业化前景，以及Figure在量产和硬件设计上的最新进展。

2026-05-09 04:10

工具效率AI前线8.0

写代码的人都懂：GitHub 开始解决“大 PR 地狱”

GitHub 推出名为 gh-stack 的 CLI 扩展，引入原生的堆叠式拉取请求工作流，旨在解决大 PR 难以审查和合并缓慢的问题。

2026-05-09 04:56

⚡ 快速浏览

创业邦6.0