奔跑的高达

技术日报

2026-02-05

✍️ 主编按语

{
  "title": "万亿模型与端侧革命,生成式AI重塑交互范式",
  "content": "今日技术圈的主旋律是“范式转移”与“回归本源”。从何恺明团队提出的单步生成模型 Drifting Models,到上海AI实验室开源的万亿参数科学大模型,基础研究正在试图打破算力与推理效率的物理极限。与此同时,面壁智能、通义实验室等则在探索如何将AI从云端的神坛拉回端侧与物理世界,无论是全双工的语音交互,还是基于“快慢思考”的电商推荐,都在昭示一个趋势:AI正在从炫技式的对话,进化为具备感知、行动与深度推理的智能体。\n\n### 生成范式与底层突破\n\n[Gemini月活突破7.5亿,坐AI聊天机器人第二把交椅](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=2&sn=7316e620430ece355e91c0a2c4d9e2c5)\n\n这不仅是谷歌财报上的一个数字,更是AI市场格局重塑的信号。7.5亿月活让Gemini稳居第二,且增长势头迅猛,直逼ChatGPT。更重要的是,谷歌本季营收首破4000亿美元,AI已成为其核心增长引擎。从Ironwood芯片到Google AI Plus订阅,谷歌展示了“软硬兼施”的生态闭环能力。对于行业而言,这意味着AI竞争已进入“生态化”阶段,单纯比拼模型参数的时代正在过去,谁能通过应用落地留住用户,谁才是赢家。\n\n[邓明扬一作论文改写生成范式!何恺明也署名了](https://www.qbitai.com/2026/02/376752.html)\n\n这篇论文可能是近期计算机视觉领域最具颠覆性的工作之一。传统的扩散模型需要在推理阶段进行成百上千次迭代,导致延迟高、成本大。何恺明团队提出的“漂移模型”巧妙地将这种分布演化的压力转移到了训练阶段,实现了真正的单步生成(1-step)。在ImageNet上,其单步生成的FID成绩甚至超越了许多多步迭代模型。这一范式的转变,不仅极大地提升了生成速度,更为实时视频生成、具身智能控制等对延迟敏感的领域打开了新的大门,堪称生成式AI领域的“光速进化”。\n\n[社区供稿丨迈向AI4S 2.0,上海AI实验室开源书生万亿科学大模型Intern-S1-Pro](https://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247496375&idx=1&sn=89e0b8d1518178225d64044f93f85d8b)\n\n当大多数人还在卷通用大模型时,上海AI实验室已在科学计算领域筑起了高墙。Intern-S1-Pro拥有1万亿参数,采用了MoE架构,每次仅激活22B参数,实现了算力效率与模型规模的平衡。其引入的傅里叶位置编码(FoPE)赋予了模型“波”与“粒子”的双重物理直觉,使其在解决数理化奥赛题时表现卓越。这是AI for Science迈向2.0时代的重要标志——从单纯的“工具革命”进化为驱动科学发现的“革命工具”,为全球科研界提供了强大的开源基座。\n\n[“2.4万亿+原生全模态”是怎样炼成的?文心5.0技术报告首公开](https://mp.weixin.qq.com/s?__biz=MzI5NzUyMzM1Mg==&mid=2247666229&idx=1&sn=5abc314a7316497ca47b124f35278e5c)\n\n百度文心5.0的发布,标志着国产大模型在多模态融合上进入了深水区。2.4万亿参数只是表象,核心在于其“原生全模态统一建模”技术,不再将文本、图像、音频视为割裂的模态,而是在底层进行统一理解与生成。这种架构不仅提升了模型在复杂场景下的表现力,更重要的是,它通过弹性训练范式解决了大规模部署的资源约束问题。对于开发者而言,这意味着更自然的跨模态交互体验和更高效的模型调用能力。\n\n### 端侧智能与具身演进\n\n[告别“对讲机”时代:面壁智能给 AI 装上了“神经末梢”](https://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247588743&idx=1&sn=cfdc72a28df9289b79a5f0aa53923b9b)\n\n在巨头们卷云端算力时,面壁智能选择了一条更难的路——把AI塞进端侧。MiniCPM-o 4.5仅用9B参数就实现了全双工语音交互,打破了传统“回合制”对话的枷锁,让AI能像人一样“边听边说”。配合硬件开发板“松果派”,他们正在构建“Model-Native”的端侧生态。这对于行业影响深远:它不仅解决了隐私和延迟痛点,更定义了未来具身智能的“1Hz大脑”标准。智能机器人将不再需要依赖不稳定的云端连接,而是拥有本地化的实时决策能力。\n\n[如何让 AI 用“温柔但坚定”的语气说话?](https://mp.weixin.qq.com/s?__biz=MzkxMTYyMTAzNA==&mid=2247499528&idx=1&sn=6d24bdfdcc6947bae38c006418ef6b9d)\n\n通义实验室的13篇ICASSP 2026收录论文,展示了语音技术从“识别”向“感知”的跨越。特别是基于PAD心理学模型的情感语音合成,让AI不仅能听懂内容,还能细腻地控制“愉悦度、唤醒度、支配度”,甚至能应对“心理操纵式攻击”。这意味着未来的语音交互将不再是冷冰冰的指令应答,而是具备情商、能感知情绪甚至能进行情感抚慰的沉浸式体验,为人机交互赋予了更强的“人性”色彩。\n\n[速递|红杉资本领投,语音AI独角兽ElevenLabs融资5亿美元,估值冲至110亿](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=3&sn=0913efbcf875d12840ec8eda0b4c03cf)\n\nElevenLabs的高估值融资,是对“声音即界面”这一趋势的强力背书。ARR达到3.3亿美元且增长迅猛,说明市场对高质量语音生成的需求正在爆发。更重要的是,他们计划将能力扩展至视频和智能体领域,试图打造多模态的交互入口。对于创业者来说,这表明在通用大模型之外,深耕特定模态(如语音)并做到极致,依然具有巨大的商业价值和护城河。\n\n### 推理增强与工业落地\n\n[自动化评测的九九归一——评测agent](https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247558178&idx=1&sn=eaa639c6255e7dd20e13f07bc9bf4670)\n\n阿里云的这篇文章揭示了AI大规模落地背后的隐形工程。面对数十个业务场景,靠人力评测已不可能。他们构建的“评测Agent”通过自主学习业务标准,实现了97%的机审率。其核心技术亮点在于“识图-推理解耦”,用小模型做忠实描述,大模型做推理,有效抑制了多模态幻觉。这为行业提供了一个重要范式:AI的工业化不仅是模型大小的比拼,更是评测、监控、迭代这一整套自动化工程能力的较量。\n\n[ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651015544&idx=3&sn=9dc01133077f122da429f00f3dc0ccb0)\n\n复旦与阿里的这项研究解决了一个核心矛盾:何时用文本思考,何时用图像思考?他们提出的Mixture-of-Visual-Thoughts(MoVT)框架,让模型能根据问题自适应切换推理模式。这不仅提升了模型在数学、视觉定位等不同任务上的表现,更赋予了一种“元认知”能力——模型开始思考“该如何思考”。这对于提升多模态模型的鲁棒性和通用性具有里程碑意义。\n\n[突破传统限制:OxygenREC——一个基于指令跟随的“快慢思考”电商生成式推荐框架](https://mp.weixin.qq.com/s?__biz=MzU1Mz

🔥 热门文章 (41 篇)

AI/ML阿里云开发者9.0

自动化评测的九九归一——评测agent

文章详细阐述了统一评测Agent架构的设计与落地,通过识图-推理解耦、多阶段训练及强化学习等技术手段,解决了业务标注自动化中的幻觉与长程推理难题,实现了全链路评测的自动化。

AI/ML通义大模型9.0

如何让 AI 用“温柔但坚定”的语气说话?

通义实验室语音团队详述了被 ICASSP 2026 收录的13篇论文,重点介绍了基于PAD模型的情感语音合成、持续学习防遗忘、端到端回声消除等前沿技术突破。

AI/ML甲子光年8.0

海淀AI人群图鉴|甲子光年

文章通过描绘海淀区不同背景的AI从业者,展示了AI技术已从实验室走向社会结构,成为该区域“默认的存在”和底层基础设施。

AI/MLCSDN8.0

AI 正在扼杀 SaaS?

文章探讨了AI(尤其是Vibe Coding)正在颠覆传统B2B SaaS行业,指出客户倾向于自建工具而非付费购买,并分析了SaaS厂商通过死守记录系统、强化安全合规及转向平台化策略来应对生存危机。

其他刘润8.0

不懂人性,别做销售

文章基于李觉伟的销售经验,阐述了销售的本质是洞察人性,通过满足客户个人的六种需求、发展内部线人以及实现顾问式销售来提升业绩。

AI/MLDavid Heinemeier Hansson8.0

Clankers with claws

文章探讨了通过 OpenClaw 赋予 AI 长期记忆和执行能力,展示了 AI Agent 无需专用 API 即可像人类一样操作浏览器的实验,预示了通用 AI 代理的未来。

其他人人都是产品经理8.0

厂二代拍短视频,火得过三年吗?

文章深入剖析了“厂二代”利用短视频进行营销的现象,探讨了其背后的商业逻辑、转化差异及可持续性挑战。

AI/ML数字生命卡兹克8.0

实测可灵3.0 - 属于每个人的导演时代。

文章详细评测了可灵大模型3.0版本的更新,重点介绍了其强大的分镜控制能力和多语言语音生成能力,以及3.0 Omni模型在视频编辑上的突破。

后端架构The JetBrains Blog8.0

Java Annotated Monthly – February 2026

这是一篇2026年2月的Java技术月刊,汇总了Java 26新特性、Kotlin更新、AI辅助开发模式以及各类框架实战技巧,并由Trisha Gee分享行业见解。

DevOpsThe JetBrains Blog8.0

Extending Qodana: Adding Custom Code Inspections

文章详细介绍了如何通过开发IntelliJ Platform插件来扩展Qodana的静态代码分析功能,以执行自定义的代码规范检查,并演示了从构建插件到集成到CI流程的完整步骤。

AI/ML量子位8.0

首个大规模记忆湖发布,AI Infra跑步进入“记忆”时代

文章介绍了质变科技发布的业内首个大规模记忆湖产品MemoryLake,阐述了AI从“第一大脑”(LLM)向“第二大脑”(记忆平台)演进的趋势,并分析了记忆平台在企业级隐性知识萃取与决策中的关键作用。

AI/MLMartin Fowler8.0

Context Engineering for Coding Agents

本文深入探讨了面向编程代理的“上下文工程”,介绍了如何通过配置和筛选上下文来优化 AI 辅助编程的效果,并以 Claude Code 为例详细解析了规则、技能、MCP 服务器等具体配置手段。

快速浏览

晚点LatePost6.0

港股的非典型 IPO 大年丨晚点小数据

文章分析了2025年港股IPO市场的火热现状,指出募资额、认购倍数及收益率均呈现非典型特征,同时探讨了监管对上市公司质量的担忧及市场周期性变化。

极客公园6.0

时薪 3500,4 万人抢着给 AI 打工

文章介绍了新兴平台 RentAHuman.ai,该平台允许 AI 智能体作为甲方雇佣人类完成线下核验、跑腿等任务,探讨了“Human as a Service”模式下人机关系的新变化。

极客公园6.0

凯德,用 AI 推动商业焕新

文章介绍了凯德集团通过阿里云市场引入AI设计工具‘堆友’,解决商业营销视觉需求,实现创意产能体系化与敏捷焕新的案例。

有机大橘子6.0

前阵子 Claude Cowork 发布,开始进入严肃办公场景,让白领都能把 Claude 的各种能力用起来。 不过这个产品限定 Claude 订阅用户使用,且对国内非常不友好,至少我身边几乎没有人能真正用进日常工作流。 这个价值很高的赛道,国产软件自然不会落后。 今天天工就推出了一个对标 Claude Cowork 的 Skywork 桌面版,看到这个我的第一反应是:这个桌面级AI Agent赛道,国产团队终于认真入场了。 Skywork 桌面版不是个 chatbot,而是可以进驻你工作场景的私人秘书,功能极其强大: - 文件批量处理,秒速自动整理电脑上的各种文件,总结、分类、排序、批量重命名等,非常方便 - 多模态输出,基于系统内各种不同格式的文件,一键生成直接可用的文档、PPT、Excel、图片、音乐、播客、视频等内容 - Skills 支持,内置 100+ 精选 Skills,从 Office 三件套到图片生成、视频生成都包括 - 多模型支持,同时支持 Claude Opus 4.5 和 Gemini 3 Pro 等顶级模型 - 优先支持 Windows 系统,不用羡慕 Mac 用户,Win 用户可以用起来了 还有很重要的一点是,相比 OpenClaw 这样的安全杀手,Skywork 这个把所有操作都放到了虚拟机隔离环境中完成,避免误删,损坏这样的问题。 价格方面,$16.99 的会员就能使用Skywork桌面版,Windows 用户可以冲。 Claude Cowork 负责打开想象空间,Skywork 负责落地办公。 桌面级 Agent 超越了聊天,它将在你的电脑里真的帮你做事。

文章介绍了天工推出的 Skywork 桌面版,这是一款对标 Claude Cowork 的国产桌面级 AI Agent,具备文件批量处理、多模态输出及虚拟机隔离安全等功能。

体验进阶6.0

用AI做设计,遇到一个无解的难题

文章探讨了AI在设计领域面临的沟通难题,认为由于客户需求难以精准表达及存在诸多隐形信息,AI目前的沟通能力尚无法取代优秀的人类设计师。