Karpathy深夜炸场:开源630行代码“AI研究员”,5分钟完成一次训练,单卡就能跑,自我进化
Andrej Karpathy开源了名为autoresearch的自主AI研究员项目,仅需单块GPU即可通过5分钟快速实验循环自动优化LLM训练代码。
今日的技术圈弥漫着一股“硅基智慧接管世界”的既视感。从Karpathy开源的“AI研究员”到Gauss碾压人类证明菲尔兹奖成果,再到通义实验室的开源GUI Agent,我们正在见证AI从“工具”向“自主研究员”的惊险一跃。与此同时,业界开始冷静思考:当Agent拥有真正的执行权时,我们是否准备好了?今日的汇总不仅关乎算法的突破,更关乎支撑这一切的基建逻辑与数学真理的验证权。
Karpathy深夜炸场:开源630行代码“AI研究员”,5分钟完成一次训练,单卡就能跑,自我进化
Karpathy这次放出的autoresearch项目,与其说是一个代码库,不如说是对未来的一个挑衅性预言。他用仅仅630行代码构建了一个自主AI研究员,通过“5分钟训练-评分-提交”的闭环,让Agent在单卡GPU上通宵达旦地自我迭代。这不仅是极客的炫技,更是对科研范式的解构:人类的工作退化为编写Prompt,而繁琐的试错、代码修改、模型调优全权由代理接管。对于开发者而言,这意味着算力将成为比算法更核心的资产,而“写代码”本身,可能即将成为AI的自我修养。
AI证明首个菲尔兹奖成果,两周狂飙20万行代码!数学圈集体沸腾
如果说Karpathy是在训练AI,那么Gauss系统则是在用AI重塑真理的验证标准。它将人类数学家耗时15个月未能完成的菲尔兹奖成果(8维与24维球填充证明)在5天内转化为20万行Lean代码,甚至指出了原论文中的逻辑瑕疵。这标志着数学正从“自然语言的艺术”转向“可运行的软件工程”。对于AI行业,这不仅证明了长链路推理的可行性,更预示着未来任何强逻辑领域(如密码学、芯片设计)都将面临AI智能体的降维打击。人类,正在从真理的挖掘者转变为真理工程的架构师。
在Agent应用高歌猛进之时,Runta创始人戴冠兰泼了一盆冷水,但这盆冷水极其必要。文章直击痛点:我们正试图用SaaS时代的“无状态、短连接”基建,去运行Agent时代的“长程、有状态、高风险”应用。现有的Kubernetes或Temporal无法解决LLM的不确定性和副作用问题。作者提出的Effect Log、Capability Gateway和分叉恢复三大原语,实际上是在为AI构建一套“带刹车和黑匣子”的操作系统。对于架构师来说,如果不解决这些底层的“熵减”问题,上层的Agent能力越强,生产环境的灾难就越惨烈。
VLA引入本体状态,机器人随时掉链子?人大北航攻克难题ICLR26
机器人的落地同样面临着“传感器打架”的烦恼。人大与北航的研究发现,在运动转变的关键时刻,机器人的视觉信号往往会被强势的本体感觉(关节位置等)压制,导致“眼瞎”瞎操作。他们提出的GAP算法,通过动态削弱本体信号的训练权重,让视觉在关键时刻重获发言权。这项研究不仅是算法层面的优化,更揭示了多模态融合中的深层博弈:在具身智能中,如何让不同模态在正确的时序“各司其职”,比单纯堆砌传感器更重要。这为解决机器人操作不稳定的顽疾提供了新的理论抓手。
阿里巴巴通义实验室开源 Mobile-Agent-v3.5:一套真正“多平台可用”的原生 GUI Agent 基座模型
在应用层面,通义实验室开源的Mobile-Agent-v3.5及GUI-Owl-1.5模型家族,展示了“工程化”的胜利。不同于仅能做Demo的玩具,这套系统通过Hybird Data Flywheel和MRPO技术,解决了GUI Agent在跨平台(桌面/移动/浏览器)泛化和长程任务训练不稳的难题。特别是其端云协同的设计——小模型在端侧高频执行,大模型在云端负责复杂规划——极具商业落地价值。这标志着GUI Agent正从“能看能点”的炫技阶段,真正迈向“可用、可部署”的实用阶段,为手机和PC端的自动化操作提供了强有力的基座。
Andrej Karpathy开源了名为autoresearch的自主AI研究员项目,仅需单块GPU即可通过5分钟快速实验循环自动优化LLM训练代码。
阿里巴巴通义实验室开源了Mobile-Agent-v3.5及GUI-Owl-1.5模型家族,这是一套支持桌面、移动和浏览器等多平台统一的原生GUI Agent基座模型,通过混合数据飞轮、统一能力增强和多平台RL训练解决了数据稀缺和跨端泛化难题。
名为Gauss的AI智能体仅用5天将菲尔兹奖成果(8维和24维球填充证明)转化为20万行Lean代码,并发现人类论文中的逻辑瑕疵,标志着数学研究从自然语言向软件工程的范式转移。
人大与北航团队揭示视觉-本体感觉策略在运动转变阶段因本体信号压制导致视觉失效,提出GAP算法动态调整梯度以解决该问题,并被ICLR 2026接收。
文章指出现有 Agent 基础设施在面临长程运行、高权限及真实副作用等生产级需求时的结构性缺陷,提出通过 Effect Log、能力隔离和分叉恢复三条原语来解决不确定性与安全问题。
文章揭示了AgenticRL中推理与工具使用在共享参数空间存在显著负向交互效应,并基于梯度正交现象提出解耦方法DART,通过LoRA分离训练有效解决了能力跷跷板问题。
文章深入剖析了AI对就业、资本市场及知识生态的复杂影响,指出裁员多为资本行为而非单纯技术替代,并警示AI可能导致的原创知识被稀释和个体创作者边缘化的风险。
文章通过访谈 Anthropic 的 Boris Cherny,详细揭示了 Claude Code 的开发历程、 Anthropic 独特的工程师文化以及 AI 对未来工作模式的深远影响。
腾讯混元团队发布HY-WU技术报告,提出通过实时生成专属LoRA参数的动态机制,解决单一固定参数无法处理矛盾任务的结构性瓶颈。
北京通用人工智能研究院发布新一代人形机器人通用运动框架OmniXtreme,利用生成式模型与强化学习结合,让机器人通过一套策略掌握后空翻、霹雳舞等多种高动态动作,真机成功率达90%以上。
中科院计算所程学旗团队提出 RaPA 攻击方法,通过随机参数剪枝策略解决对抗样本对特定参数的过度依赖问题,显著提升了跨模型架构(如从 CNN 到 Transformer)的迁移攻击成功率。
文章通过“从1数到10”这一测试揭示了当前主流AI视频模型在精细动作、物理规律和时序逻辑上的能力盲区,探讨了世界模型作为下一代AI范式的可能性。
李飞飞团队提出针对具身大模型的“空间智商”测试基准 Theory of Space,揭示了当前主流大模型在主动探索、空间信念构建及处理不确定性方面的四大深层缺陷。
文章介绍了一名大学生利用VibeCoding在10天内开发出基于多智能体交互的社会预测引擎MiroFish,并因此获得盛大3000万投资。文章详细展示了该项目的技术架构、预测逻辑及作者的高效开发方法论。
文章详细介绍了OpenClaw使用中的六大安全规范,包括修改确认、自动备份、审计回滚等,旨在规避AI自动操作带来的风险。
OpenAI 硬件负责人 Kalinowski 因担忧公司与美国国防部合作导致自主武器及监控应用而辞职,文章分析了该事件背后的 AI 伦理困境与商业化冲突。
文章是一份科技与商业领域的早报,涵盖了雷军谈AI时代工作模式、周鸿祎谈文科生优势、OpenClaw爆火及黄仁勋预测软件智能体化等热点新闻。
文章基于清华大学官方数据,分析了2025届毕业生的就业流向,指出出国深造比例下降,国内重点领域就业率上升,并重点介绍了华为、字节等大厂及AI领域对顶尖人才的吸纳情况。
这是一篇涵盖出海领域的行业周报,汇总了SHEIN、比亚迪、腾讯云等企业的最新商业动态及市场数据,同时涉及Meta智能眼镜隐私风险和苹果与谷歌AI合作等科技新闻。
文章汇总了2026年2月底至3月初全球投融资市场数据,重点分析了人工智能与机器人领域的重大融资事件及市场活跃度。
谷歌发布名为“gws”的CLI工具,将Google Workspace API统一封装,旨在通过结构化JSON输出方便AI Agent接管工作流。
文章汇总了2026年3月初全球AI领域的热门新闻与投融资事件,涵盖DeepSeek V4发布、OpenAI融资及银河通用获大基金投资等行业动态。
该文章为AI行业每日资讯简报,涵盖了OpenClaw在腾讯的爆火、千问核心负责人离职、Claude发现Firefox漏洞以及黄仁勋关于软件将全面智能体化的预测等热点事件。
这是一篇涵盖AI行业人事变动、OpenClaw现象级爆火、大模型发布及企业应用落地的综合周报,重点梳理了近期科技圈的热门事件与技术趋势。
文章汇总了近期智能制造及AI基础设施领域的行业资讯,涵盖甲骨文与OpenAI数据中心计划变动、蜂巢能源装机量排名上升、沪东中华LNG船订单增长及日本对美投资计划。