谷歌模型屠榜封神，AI医疗终现物理实体

2026-02-20

✍️ 主编按语

今日科技圈高潮迭起，谷歌以一款推理能力翻倍的模型重回王座，而斯坦福发布的医疗世界模型则让AI首次拥有了“躯体”与直觉，与此同时，AppLovin的崛起故事揭示了算法在商业战场的降维打击。从纯软件的智力竞赛到具身智能的物理跨越，再到千亿市值的商业博弈，技术正在以前所未有的速度重塑现实边界。

AI 突破：谷歌夺回王座

Gemini 3.1 Pro 发布 - 谷歌今日凌晨正式亮剑，Gemini 3.1 Pro 的发布不仅是版本号的迭代，更是推理能力的质变。在极为严苛的 ARC-AGI-2（抽象推理基准）测试中，其得分从上一代的 31.1% 飙升至 77.1%，实现了翻倍以上的增长。这一成绩直接超越了 Claude Opus 4.6 等强劲对手，且成本仅为后者的一半。除了跑分屠榜，谷歌展示的四个 Demo——从交互式 SVG 动画到实时航天仪表盘，再到 3D 鸟群模拟——证明了该模型在“意图到产品”端到端生成上的惊人实力。对于开发者和创作者而言，这意味着从复杂代码构建到创意设计的工作流将被彻底重构。

谷歌Gemini3.1Pro屠榜封神，清华姚顺宇出手！Claude和GPT被逼入死角 - 这篇报道进一步深挖了 Gemini 3.1 Pro 背后的技术与人才力量，特别是清华校友姚顺宇的参与为这一突破增添了中国视角的注脚。文章强调，3.1 Pro 的恐怖之处在于其“全能性”：在编程领域，LiveCodeBench Pro Elo 分高达 2887；在智能体能力上，APEX-Agents 得分 33.5%，大幅领先竞品。更令人瞩目的是其对 1M Token 超长上下文的独占支持以及幻觉率的显著降低。这标志着谷歌在通往 AGI 的深水区，已经建立起了极高的技术壁垒，OpenAI 和 Anthropic 正面临前所未有的压力。

谷歌夺回王座：Gemini 3.1 Pro来了！姚顺宇：后面还有更好的 - 作为第三方视角的验证，本文引用了 Artificial Analysis 的评估数据，确认了谷歌模型在性价比上的绝对优势。文章特别指出，Databricks 和 Cartwheel 等企业合作伙伴的实测反馈表明，3.1 Pro 在事实推理和 3D 变换理解上解决了长期存在的痛点。定价策略上，超长上下文的分级收费也显示出谷歌对商业化落地的精细考量。对于行业来说，这不仅是模型的胜利，更是 Vertex AI 和 Google Cloud 生态的一次重大反击，企业级 AI 市场的竞争格局恐将生变。

具身智能与医疗

医疗AI大洗牌！斯坦福、普林斯顿发布首个医学世界模型MedOS - 如果说谷歌的突破是在数字世界的智力狂欢，那么 MedOS 的发布则是 AI 向物理世界进军的一声号角。斯坦福、普林斯顿与 NVIDIA 联手推出的 MedOS，不再局限于屏幕后的诊断建议，而是构建了一个集成了感知、模拟与干预的通用医疗具身世界模型。其核心创新在于“双系统”架构：System 1 模拟医生的直觉反应，System 2 负责复杂的逻辑推演。更重要的是，它不仅能辅助决策，还能通过 XR 设备和协作机器人（Cobot）直接执行物理操作。这标志着医疗 AI 从“虚拟助手”向“实体医生”的范式转移，未来有望在医疗资源匮乏地区实现顶尖专家能力的普惠。

商业与算法哲学

AppLovin撕开巨头裂缝的1000天：AI审判、被做空与Underdog的“弱者之心” - 这篇万字长文是对过去三年移动互联网广告战场的深度复盘。AppLovin 在谷歌与 Meta 的双头垄断下，凭借 AXON 推荐算法和“弱者之心”的文化，实现了股价 25 倍的增长。核心高管葛小川的访谈揭示了其技术内核：通过收购 Max、Adjust 等公司获取关键数据，并迅速转型至现代深度学习推荐算法，将优化窗口从 7 天拓展至 28 天，从而在游戏和电商广告领域撕开裂缝。文章不仅展示了一家技术公司如何通过算法实现商业逆袭，更深刻探讨了在 AI 时代，企业如何在不自研大模型的前提下，利用现有 SOTA 模型构建不可替代的护城河。对于创业者而言，这是一份关于如何利用第一性原理打破巨头垄断的实战教科书。

技术演进的钟摆正在加速。今日我们看到了谷歌在纯智力领域的绝对统治，也见证了 MedOS 在物理世界的勇敢试探，更在 AppLovin 的故事里看到了算法变现的极致路径。从云端推理到边缘干预，从实验室代码到千亿市值，AI 的价值正在通过不同的维度被释放。

🔥 热门文章 (25 篇)

AI/MLAINLP9.0

谷歌Gemini3.1Pro屠榜封神，清华姚顺宇出手！Claude和GPT被逼入死角

谷歌发布下一代旗舰模型Gemini 3.1 Pro，在ARC-AGI-2等严苛测试中实现推理能力翻倍，全面超越Claude和GPT系列成为新王。

2026-02-20 10:33

AI/ML新智元9.0

医疗AI大洗牌！斯坦福、普林斯顿发布首个医学世界模型MedOS

斯坦福、普林斯顿联合NVIDIA发布全球首个通用医疗具身世界模型MedOS，标志着医疗AI从辅助诊断迈向介入物理世界的诊疗执行阶段。

2026-02-19 21:31

AI/ML机器之心9.0

谷歌夺回王座：Gemini 3.1 Pro来了！姚顺宇：后面还有更好的

谷歌正式发布推理性能大幅跃升的 Gemini 3.1 Pro 模型，在多项基准测试中超越竞争对手，旨在解决复杂科学、工程及编程挑战。

2026-02-19 23:40

AI/ML硅谷1019.0

AppLovin撕开巨头裂缝的1000天：AI审判、被做空与Underdog的“弱者之心”

文章深度复盘了AppLovin通过引入现代推荐算法（AXON）、关键收购及技术转型，在谷歌与Meta双寡头垄断下崛起的三年历程，并探讨了AI在广告技术中的实战应用与核心人物的技术决策。

2026-02-20 07:37

AI/ML赛博禅心9.0

Gemini 3.1 Pro 发布

Google 发布 Gemini 3.1 Pro，核心推理能力大幅提升，ARC-AGI-2 等多项基准测试翻倍，并展示了代码生成与创意设计的端到端能力。

2026-02-19 17:00

AI/ML硅谷科技评论8.0

2025 全球AI创投生态：2000亿美元资金迁徙图谱

文章复盘了2025年全球AI创投生态，指出市场经历资本固化，资金向去英伟达化算力、能源基础设施及Agent应用集中，并分析了具身智能领域中美技术路线的差异。

2026-02-20 03:30

AI/ML硅星人Pro8.0

Gemini 3.1：小小小小更新压过对手大迭代，Google卷飞了

文章详细介绍了Google发布的Gemini 3.1 Pro模型，分析了其在核心推理能力、基准测试成绩及定价策略上的提升，并探讨了Google通过加快迭代节奏和版本号策略调整加入AI行业竞争的现象。

2026-02-20 03:21

AI/MLInfoQ 中文8.0

编码新王登基！Gemini 3.1 Pro 血洗 Claude 与 GPT，12 项基准测试第一！

谷歌发布 Gemini 3.1 Pro 模型，采用混合专家架构并在 12 项基准测试中排名第一，核心推理能力显著提升且全面面向多端用户开放。

2026-02-20 01:10

AI/ML量子位8.0

ClawHub迷之封杀操作，逼出首个Agent全球进化网络

文章讲述因ClawHub封杀事件催生的AI进化网络EvoMap，该平台通过基因胶囊机制实现Agent间的经验遗传与协同进化，并构建了积分激励的价值闭环。

2026-02-20 07:44

AI/ML机器之心8.0

从AlphaGo到DeepSeek R1，推理的未来将走向何方？

文章基于Eric Jang的观点，分析了从AlphaGo到DeepSeek R1的技术演进，阐述了推理模型如何通过强化学习涌现出逻辑能力，并探讨了自动化思考对未来算力需求与社会生产力的深远影响。

2026-02-19 23:40

AI/ML机器之心8.0

ICLR 2026｜新版「图灵测试」：当VLA走进生物实验室

AutoBio 是首个面向数字化生物实验室的机器人仿真与评测基准，旨在评估 VLA 模型在专业科研场景中的操作与推理能力。

2026-02-19 23:40

AI/ML机器之心8.0

训练奖励太稀疏？港中文联合美团给Agent加上「过程分」

港中文与美团联合提出Reagent框架，通过引入推理奖励模型（Agent-RRM）为Agent的思考过程打分，解决了长链任务中奖励稀疏和只看结果的问题。

2026-02-19 23:40

AI/ML量子位8.0

谷歌突发Gemini 3.1 Pro！首次采用「.1」版本号，推理性能×2的那种

谷歌突发更新Gemini 3.1 Pro模型，首次采用“.1”版本号，推理性能提升2倍，并具备增强的多模态处理能力。

2026-02-20 01:25

AI/MLDeeplearningAI8.0

The Batch: 911 | 更稳健的医学诊断

研究人员推出了基于OpenAI o3的AI智能体Dr. CaBot，利用医学文献进行检索增强生成，在医学诊断的准确性和推理质量上超越了人类医生。

2026-02-20 04:45

AI/MLDatawhale8.0

Gemini 3.1 发布24小时，我给你整理了8种官方使用姿势！

文章详细介绍了谷歌 Gemini 3.1 Pro 发布后的8种官方及主流使用方式，涵盖从网页版体验、NotebookLM信息处理到开发者API与企业级部署的完整生态。

2026-02-20 14:48

AI/MLFounder Park8.0

OpenClaw 榜一插件被下架后，他用两周做了一套协议，想让 Agent 自己进化

文章介绍了 EvoMap 团队提出的 GEP 协议（Genome Evolution Protocol），旨在解决 AI Agent 之间的经验传承与自我进化问题，推动 Agent 从孤立的工具使用向协同进化的新阶段发展。

2026-02-20 07:36

AI/MLCSDN8.0

全网90+万人围观！一个“没学历”的人戳破「AI神话」：“没有10x工程师，大多数人只想朝九晚五、用AI摸鱼”

文章通过引用学术研究和行业数据，深度剖析了AI在软件开发中的实际副作用，指出AI往往掩盖了企业管理的根本问题，而非提升效率。

2026-02-20 07:11

安全Microsoft Research Blog8.0

Media Authenticity Methods in Practice: Capabilities, Limitations, and Directions

Microsoft发布了关于媒体完整性与认证方法（MIA）的研究报告，分析了数字水印、指纹识别等技术的能力与局限，并提出了高置信度来源认证及对抗社会技术攻击的四个关键方向。

2026-02-19 16:00

AI/ML极客公园8.0

Vibe Coding，是怎么「玩废」程序员的？

文章基于Anthropic的论文，分析了过度依赖AI进行编程（Vibe Coding）导致程序员核心技能退化和学习效果下降的现象，并提出了有效使用AI的策略。

2026-02-20 06:02

AI/MLZ Potentials8.0

喝点VC｜a16z：广告是AI产品走向十亿用户的最佳方式，细数大模型的七种潜在变现路径

文章基于a16z观点，论述了广告是AI产品实现十亿用户规模化的必经之路，并详细拆解了大模型时代的七种潜在变现路径。

2026-02-20 05:41

AI/ML阿里研究院8.0

产业之声 | 从OpenClaw爆火，看代码数据的价值与软件行业的重构

文章回顾了过去五年代码数据如何提升大模型逻辑推理能力，并分析了智能体工具如何通过能力溢出重塑企业办公与专业软件领域，引发软件行业向“隐形化”变革。

2026-02-20 02:03

AI/ML魔搭ModelScope社区8.0

0.9B 小模型，OCR 大能力——GLM-OCR 模型实战教程

文章介绍了智谱开源的0.9B轻量级多模态OCR模型GLM-OCR，涵盖了其核心特性、SDK使用方法及多种部署场景（如vLLM、Ollama、MLX）和微调流程。

2026-02-20 02:05

AI/ML少数派8.0

Vibe Coding 时代：为什么说「产品感」比「写代码」更稀缺？

文章探讨了在 Vibe Coding 时代，非程序员如何利用 Claude Code 等 AI 工具将想法转化为产品，并强调了「产品感」和架构思维在 AI 辅助开发中的核心价值。

2026-02-20 04:15

其他深思圈8.0

1年半融了1亿美金，这位创始人却给出了这些反共识的建议！

文章介绍了Reducto创始人关于融资和创业的反共识观点，强调融资成功关键在于建立优秀的公司而非取悦VC，并分享了早期阶段专注于核心业务和高质量客户的策略。

2026-02-20 02:27

AI/ML51CTO技术栈8.0

谷歌突发Gemini 3.1 Pro：刷爆全领域SOTA，堪称SVG王者，价格不变，清华姚顺宇参与：后续还会有更好模型！JeffDean：性能不止翻倍

谷歌发布Gemini 3.1 Pro，在多项基准测试中刷新SOTA，推理能力翻倍，SVG生成能力大幅提升，且价格保持不变。

2026-02-20 03:31

⚡ 快速浏览

创业邦6.0