奔跑的高达

AI数学证明震撼,机器人造车新势力崛起

2026-01-20

✍️ 主编按语

今天的技术圈仿佛被注入了一剂强心针,从底层算法到物理世界的交互,我们正见证着 AI 技术的“重力时刻”。数学皇冠上的明珠被 AI 摘得,证明了其推理能力的质变;与此同时,无论是 LeCun 这种图灵奖得主的创业,还是禾赛创始人的二次出发,都预示着通用机器人领域将迎来百亿级资本的洗牌。而在开源模型端,小参数大智能的趋势愈发明显,工具调用与端侧部署的战火已全面升级。但繁荣之下,AI 伦理的达摩克利斯之剑也随之落下,技术狂飙突进的同时,底线不容试探。

智能体的新范式:思考与行动的进化

Claude Skills完全指南:从概念到实战 - Anthropic 推出的 Skills 不仅仅是一个新功能,它代表了 AI Agent 从“对话”走向“行动”的标准化路径。花叔这篇万字长文深度拆解了 Skills 的核心——模块化能力包与渐进式披露机制。对于开发者而言,Skills 的价值在于它将复杂的 Prompt 工程封装成了可复用的“插件”,极大降低了 AI 工作流的搭建门槛。更重要的是,它正在成为跨平台的事实标准,未来我们可能不再纠结于哪个模型更强,而是比拼谁的 Skill 生态更丰富。这标志着 AI 开发正从“模型中心”转向“工作流中心”。

美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA! - 美团此次发布的模型不只是参数量的堆叠,而是针对 Agent 场景的深度优化。其首创的“重思考模式”让模型在面对复杂任务时能并行推理并自我纠错,这种“深思熟虑”的机制正是当前 Agent 容易“幻觉”或迷失的解药。特别是在 τ²-Bench 等工具调用评测中登顶,以及在噪声环境下的稳健训练,说明该模型具备了落地商业场景的实战素质。对于行业来说,这释放了一个信号:未来的模型竞争将不再局限于通用对话,而是深入到具体的工具调用、检索与执行效率,Agent 的“手”和“脑”正在变得同样灵巧。

算力与模型的极致博弈

GLM-4.7-Flash开源、免费 - 智谱的这次更新展示了“小而美”的生存哲学。30B 总参数量却仅激活 3B,这种混合专家架构(MoE)的思路正在成为主流,它解决了高性能与低成本之间的矛盾。GLM-4.7-Flash 在编程和写作场景下的 SOTA 表现,意味着我们不再需要千亿的模型也能在大部分垂直任务上获得极佳体验。这对于中小企业和开发者是巨大利好,降低了 AI 原生应用的试错成本。免费开源的策略将进一步挤压闭源小模型的市场空间,推动 AI 真正成为像水电一样的基础设施。

10B击败200B!阶跃星辰10B视觉语言SOTA模型开源 - 如果说 GLM 是文本端的瘦身,阶跃星辰则在多模态领域上演了“大卫战胜歌利亚”的好戏。Step3-VL-10B 证明了视觉理解能力并不完全依赖于参数规模,通过 PaCoRe(并行协调推理)机制和大规模强化学习,小模型也能在数学、OCR 和空间推理上超越大 20 倍的竞品。这不仅是技术上的胜利,更是端侧 AI 的福音。这意味着未来我们的手机、甚至工业设备都能运行具备顶级视觉感知的智能体,AI 将真正从云端下沉到物理世界的每一个角落。

通用机器人的资本盛宴

晚点独家丨禾赛科技三位创始人再创新公司 Sharpa,目标是造通用机器人 - 禾赛三位创始人的二次创业,折射出硬件巨头对“感知”天花板的焦虑与对“执行”的渴望。他们清晰地认识到,激光雷达作为“眼睛”虽然重要,但无法直接定义用户体验。Sharpa 的成立不仅是为了造机器人,更是为了反哺禾赛,拓展机器人的零部件市场。这给行业的一个启示是:未来的科技竞争将是“软硬结合”的系统级竞争。李一帆提出的“机会大 10 倍,难 100 倍”精准概括了通用机器人的现状,这里不再是单一的硬件或软件赛道,而是需要算法、制造、供应链协同的超级工程。

速递|Yann LeCun携“世界模型”创业,融资约3.5亿欧元,估值冲30亿欧元 - 图灵奖得主 Yann LeCun 的创业无疑是今日的重磅炸弹。他对 LLM 路线的长期批评和对“世界模型”的坚持,终于转化为了真金白银的商业实践。AMI Labs 的出现,为 AI 领域提供了一条区别于 Transformer 预测 Token 的技术路径,致力于让 AI 理解物理世界的因果规律。虽然产品尚未发布,但这种对“下一代 AI 基础架构”的押注,吸引了包括欧洲主权基金在内的顶级资本。这不仅是对 LeCun 个人的豪赌,更是对现有 LLM 范式潜在天花板的对冲,预示着 AI 基础研究可能迎来新的技术分叉口。

伦理与边界的红线

The Batch: 900 | “去衣化”图像引发监管警觉 - 当 xAI 的 Grok 被曝出生成大量未经同意的性化图像时,我们不得不正视技术狂欢背后的阴暗面。全球多国的监管雷霆手段表明,AI 不仅仅是代码问题,更是法律与伦理问题。这一事件可能会成为 AI 监管的转折点,迫使所有生成式 AI 公司重新审视其安全护栏。对于开发者而言,这意味着在追求模型能力的同时,必须将“安全对齐”提升到最高优先级。技术的边界就是法律的边界,任何试图在灰地带试探的巨兽,最终都会招致反噬。

数学史上的里程碑

45年数论猜想被GPT-5.2Pro独立完成证明,陶哲轩:没犯任何错误 - GPT-5.2 Pro 证明埃尔德什猜想,不仅是一个技术新闻,更是一个历史时刻。陶哲轩确认其“没犯任何错误”,标志着 AI 已经从辅助工具进化为具备独立科研能力的伙伴。更有趣的是,人类在这个过程中反而发现了一个被遗忘 60 年的更简单解法。这种人机交互的科研范式,或许就是未来的常态:AI 提供复杂的推理路径,人类提供直觉与洞察,共同拓展认知的边界。这证明了在纯逻辑与数学领域,AI 的推理深度已经突破了一个关键阈值,下一个“费马大定理”或许真的会由 AI 辅助解开。

🔥 热门文章 (48 篇)

AI/ML智谱9.0

GLM-4.7-Flash开源、免费

智谱AI发布并开源了混合思考模型GLM-4.7-Flash,该模型采用30B总参数及3B激活参数设计,在多项基准测试中超越同级开源SOTA,并已上线供免费调用。

AI/ML数字生命卡兹克8.0

火爆全网的Skills,终于有了最简单的打开方式。

文章介绍了扣子2.0版本上线的Skills和长期计划功能,重点讲解了如何通过自然语言和上传文件包两种方式低门槛创建和使用Skills,以及该更新对普通用户使用AI助手的推动作用。

AI/ML十字路口Crossing8.0

我让 MiniMax 接管了我的电脑,结果……

文章详细评测了 MiniMax 新推出的桌面端 Agent 应用和专家 Agent 功能,展示了 AI 接管本地文件整理、网页抓取及长流程任务执行的能力,探讨了 2026 年 Agent 向桌面级任务执行发展的趋势。

AI/ML奇舞精选8.0

Google Agent进化论:从 L0 到 L4

文章深入解读了Google关于Agent进化的权威指南,详细阐述了Agent的核心架构、工作机制以及从L0至L4的能力分级体系,并探讨了AgentOps与自我进化系统AlphaEvolve等前沿案例。

AI/MLAINLP8.0

如何把posttrain做好,后训练方法论

文章深入探讨了如何做好大模型后训练工作,强调建立稳固的基准线、坚持数学原理而非直觉经验、审慎迁移大小模型结论,并推崇“简单有效”的技术方案。

AI/MLMiniMax 稀宇科技8.0

“95后”正在尝试一种很新的工作方式

文章以MiniMax内部实践为例,介绍了AI Agent如何深入运维、销售和研发等真实业务流程,实现从“工具”到“数字同事”的角色转变。

AI/ML魔搭ModelScope社区8.0

小而强,GLM-4.7-Flash开源

智谱AI发布并开源混合思考模型GLM-4.7-Flash,其总参数30B、激活参数3B,在同类模型中取得SOTA成绩,并将替代GLM-4.5-Flash供免费调用。

其他李继刚8.0

for 学生:物理

文章构建了一个基于“第一性原理”的物理教学AI Agent,通过区分‘状态量’与‘过程量’来帮助学生建立物理直觉并优化解题路径。

其他刘润8.0

考公考研之外,国家铺出了“第三条路”

文章深入解读了国家推出的“卓越工程师”培养计划,将其定位为考公考研之外的“第三条路”,并分析了该计划在选拔、培养、评价及收益方面的创新机制。

工具效率刘小排r8.0

普通人,终于可以把工作交给AI了

文章介绍了新版扣子(Coze)的“技能”功能,展示了普通用户无需编写代码,通过自然语言即可将工作流程封装成自动化AI工具的多个实战案例。

AI/ML随机小分队8.0

“Palantir化”的幻觉:当AI公司开始用人力冒充平台

文章深入剖析了当前AI初创公司盲目模仿Palantir“前置部署工程师(FDE)”模式的风险,指出在缺乏核心产品和特定高价值场景下,这种模式会导致公司陷入高成本服务化的陷阱而非平台化。

AI/ML谷歌开发者8.0

赋能应用智能: 开启 Gemini 3 Flash 开发新篇章

文章介绍了 Google 发布的 Gemini 3 Flash 模型,该模型专为低延迟和高性价比的生产级应用设计,并展示了如何通过 Firebase AI Logic SDK 在 Android 端进行集成与开发。

快速浏览

The JetBrains Blog6.0

TeamCity 2025.11.2 Is Now Available

文章宣布了 TeamCity On-Premises 2025.11.2 版本的发布,主要修复了 Linux 镜像用户 UID、深色主题显示及构建依赖卡死等问题,并建议用户更新以获得性能和安全改进。

赛博禅心6.0

Twitter 推荐算法公开

文章整理了X(Twitter)公开的推荐算法代码要点,涵盖了负向反馈处理、内容多样性控制、停留时间预测及去重机制等核心逻辑。

Spring Blog6.0

Spring AMQP 4.1.0 Milestone 1 Available

文章宣布了 Spring AMQP 4.1.0-M1 版本的发布,重点介绍了新增的用于支持 AMQP 1.0 协议交互的 spring-amqp-client 模块及其核心组件。