技术日报

2026-02-05

✍️ 主编按语

{
  "title": "万亿模型与端侧革命，生成式AI重塑交互范式",
  "content": "今日技术圈的主旋律是“范式转移”与“回归本源”。从何恺明团队提出的单步生成模型 Drifting Models，到上海AI实验室开源的万亿参数科学大模型，基础研究正在试图打破算力与推理效率的物理极限。与此同时，面壁智能、通义实验室等则在探索如何将AI从云端的神坛拉回端侧与物理世界，无论是全双工的语音交互，还是基于“快慢思考”的电商推荐，都在昭示一个趋势：AI正在从炫技式的对话，进化为具备感知、行动与深度推理的智能体。\n\n### 生成范式与底层突破\n\n[Gemini月活突破7.5亿，坐AI聊天机器人第二把交椅](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=2&sn=7316e620430ece355e91c0a2c4d9e2c5)\n\n这不仅是谷歌财报上的一个数字，更是AI市场格局重塑的信号。7.5亿月活让Gemini稳居第二，且增长势头迅猛，直逼ChatGPT。更重要的是，谷歌本季营收首破4000亿美元，AI已成为其核心增长引擎。从Ironwood芯片到Google AI Plus订阅，谷歌展示了“软硬兼施”的生态闭环能力。对于行业而言，这意味着AI竞争已进入“生态化”阶段，单纯比拼模型参数的时代正在过去，谁能通过应用落地留住用户，谁才是赢家。\n\n[邓明扬一作论文改写生成范式！何恺明也署名了](https://www.qbitai.com/2026/02/376752.html)\n\n这篇论文可能是近期计算机视觉领域最具颠覆性的工作之一。传统的扩散模型需要在推理阶段进行成百上千次迭代，导致延迟高、成本大。何恺明团队提出的“漂移模型”巧妙地将这种分布演化的压力转移到了训练阶段，实现了真正的单步生成（1-step）。在ImageNet上，其单步生成的FID成绩甚至超越了许多多步迭代模型。这一范式的转变，不仅极大地提升了生成速度，更为实时视频生成、具身智能控制等对延迟敏感的领域打开了新的大门，堪称生成式AI领域的“光速进化”。\n\n[社区供稿丨迈向AI4S 2.0，上海AI实验室开源书生万亿科学大模型Intern-S1-Pro](https://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247496375&idx=1&sn=89e0b8d1518178225d64044f93f85d8b)\n\n当大多数人还在卷通用大模型时，上海AI实验室已在科学计算领域筑起了高墙。Intern-S1-Pro拥有1万亿参数，采用了MoE架构，每次仅激活22B参数，实现了算力效率与模型规模的平衡。其引入的傅里叶位置编码（FoPE）赋予了模型“波”与“粒子”的双重物理直觉，使其在解决数理化奥赛题时表现卓越。这是AI for Science迈向2.0时代的重要标志——从单纯的“工具革命”进化为驱动科学发现的“革命工具”，为全球科研界提供了强大的开源基座。\n\n[“2.4万亿+原生全模态”是怎样炼成的？文心5.0技术报告首公开](https://mp.weixin.qq.com/s?__biz=MzI5NzUyMzM1Mg==&mid=2247666229&idx=1&sn=5abc314a7316497ca47b124f35278e5c)\n\n百度文心5.0的发布，标志着国产大模型在多模态融合上进入了深水区。2.4万亿参数只是表象，核心在于其“原生全模态统一建模”技术，不再将文本、图像、音频视为割裂的模态，而是在底层进行统一理解与生成。这种架构不仅提升了模型在复杂场景下的表现力，更重要的是，它通过弹性训练范式解决了大规模部署的资源约束问题。对于开发者而言，这意味着更自然的跨模态交互体验和更高效的模型调用能力。\n\n### 端侧智能与具身演进\n\n[告别“对讲机”时代：面壁智能给 AI 装上了“神经末梢”](https://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247588743&idx=1&sn=cfdc72a28df9289b79a5f0aa53923b9b)\n\n在巨头们卷云端算力时，面壁智能选择了一条更难的路——把AI塞进端侧。MiniCPM-o 4.5仅用9B参数就实现了全双工语音交互，打破了传统“回合制”对话的枷锁，让AI能像人一样“边听边说”。配合硬件开发板“松果派”，他们正在构建“Model-Native”的端侧生态。这对于行业影响深远：它不仅解决了隐私和延迟痛点，更定义了未来具身智能的“1Hz大脑”标准。智能机器人将不再需要依赖不稳定的云端连接，而是拥有本地化的实时决策能力。\n\n[如何让 AI 用“温柔但坚定”的语气说话？](https://mp.weixin.qq.com/s?__biz=MzkxMTYyMTAzNA==&mid=2247499528&idx=1&sn=6d24bdfdcc6947bae38c006418ef6b9d)\n\n通义实验室的13篇ICASSP 2026收录论文，展示了语音技术从“识别”向“感知”的跨越。特别是基于PAD心理学模型的情感语音合成，让AI不仅能听懂内容，还能细腻地控制“愉悦度、唤醒度、支配度”，甚至能应对“心理操纵式攻击”。这意味着未来的语音交互将不再是冷冰冰的指令应答，而是具备情商、能感知情绪甚至能进行情感抚慰的沉浸式体验，为人机交互赋予了更强的“人性”色彩。\n\n[速递｜红杉资本领投，语音AI独角兽ElevenLabs融资5亿美元，估值冲至110亿](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=3&sn=0913efbcf875d12840ec8eda0b4c03cf)\n\nElevenLabs的高估值融资，是对“声音即界面”这一趋势的强力背书。ARR达到3.3亿美元且增长迅猛，说明市场对高质量语音生成的需求正在爆发。更重要的是，他们计划将能力扩展至视频和智能体领域，试图打造多模态的交互入口。对于创业者来说，这表明在通用大模型之外，深耕特定模态（如语音）并做到极致，依然具有巨大的商业价值和护城河。\n\n### 推理增强与工业落地\n\n[自动化评测的九九归一——评测agent](https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247558178&idx=1&sn=eaa639c6255e7dd20e13f07bc9bf4670)\n\n阿里云的这篇文章揭示了AI大规模落地背后的隐形工程。面对数十个业务场景，靠人力评测已不可能。他们构建的“评测Agent”通过自主学习业务标准，实现了97%的机审率。其核心技术亮点在于“识图-推理解耦”，用小模型做忠实描述，大模型做推理，有效抑制了多模态幻觉。这为行业提供了一个重要范式：AI的工业化不仅是模型大小的比拼，更是评测、监控、迭代这一整套自动化工程能力的较量。\n\n[ICLR 2026 | 这道题是否需要用图思考？模型来告诉你！自适应思考模式切换助力通用视觉推理提升](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651015544&idx=3&sn=9dc01133077f122da429f00f3dc0ccb0)\n\n复旦与阿里的这项研究解决了一个核心矛盾：何时用文本思考，何时用图像思考？他们提出的Mixture-of-Visual-Thoughts（MoVT）框架，让模型能根据问题自适应切换推理模式。这不仅提升了模型在数学、视觉定位等不同任务上的表现，更赋予了一种“元认知”能力——模型开始思考“该如何思考”。这对于提升多模态模型的鲁棒性和通用性具有里程碑意义。\n\n[突破传统限制：OxygenREC——一个基于指令跟随的“快慢思考”电商生成式推荐框架](https://mp.weixin.qq.com/s?__biz=MzU1Mz

🔥 热门文章 (41 篇)

AI/MLAI科技大本营9.0

告别“对讲机”时代：面壁智能给 AI 装上了“神经末梢”

文章详细报道了面壁智能发布的开源端侧多模态模型 MiniCPM-o 4.5 及配套硬件松果派，重点分析了其突破性的全双工实时交互能力和基于“密度法则”的高效小模型架构。

2026-02-05 04:05

AI/ML量子位9.0

邓明扬一作论文改写生成范式！何恺明也署名了

何恺明团队提出全新生成模型范式“漂移模型”，将分布演化从推理阶段转移至训练阶段，实现了真正的单步高质量生成。

2026-02-05 15:26

AI/MLZ Potentials9.0

速递｜Gemini月活突破7.5亿，坐AI聊天机器人第二把交椅

文章报道谷歌2025年Q4财报，宣布旗下AI聊天机器人Gemini月活突破7.5亿，跃居行业第二，且公司年收入首次突破4000亿美元。

2026-02-05 03:32

AI/ML机器之心9.0

ICLR 2026 | 这道题是否需要用图思考？模型来告诉你！自适应思考模式切换助力通用视觉推理提升

复旦大学与阿里巴巴提出Mixture-of-Visual-Thoughts (MoVT) 范式及AdaVaR框架，通过整合文本与Grounded两种视觉推理模式并利用强化学习进行自适应切换，显著提升了通用视觉推理性能。

2026-02-05 04:32

AI/ML阿里云开发者9.0

自动化评测的九九归一——评测agent

文章详细阐述了统一评测Agent架构的设计与落地，通过识图-推理解耦、多阶段训练及强化学习等技术手段，解决了业务标注自动化中的幻觉与长程推理难题，实现了全链路评测的自动化。

2026-02-05 00:30

AI/ML京东技术9.0

突破传统限制：OxygenREC——一个基于指令跟随的“快慢思考”电商生成式推荐框架

京东零售OxygenREC团队提出了一种基于“快慢思考”和指令跟随的生成式推荐框架OxygenREC，有效解决了传统推荐系统的推理局限与多场景资源效率难题，实现了工业级落地。

2026-02-05 10:18

AI/MLZ Potentials9.0

速递｜红杉资本领投，语音AI独角兽ElevenLabs融资5亿美元，估值冲至110亿

语音AI独角兽ElevenLabs获红杉资本领投5亿美元，估值达110亿美元，将拓展视频及智能体业务。

2026-02-05 03:32

AI/ML百度AI9.0

“2.4万亿+原生全模态”是怎样炼成的？文心5.0技术报告首公开

文章介绍了百度文心大模型5.0正式版的核心技术细节，包括2.4万亿参数规模和原生全模态统一建模技术，并公开了其技术报告链接及综合评测结果。

2026-02-05 11:13

AI/ML通义大模型9.0

如何让 AI 用“温柔但坚定”的语气说话？

通义实验室语音团队详述了被 ICASSP 2026 收录的13篇论文，重点介绍了基于PAD模型的情感语音合成、持续学习防遗忘、端到端回声消除等前沿技术突破。

2026-02-05 11:02

AI/MLHugging Face9.0

社区供稿丨迈向AI4S 2.0，上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

上海AI实验室开源了基于SAGE架构的万亿参数科学多模态大模型Intern-S1-Pro，致力于推动AI4S 2.0时代的科学发现，并展示了其在数理推理及多学科领域的国际领先能力。

2026-02-05 04:03

AI/ML量子位8.0

让城市成为一个生命体：交大系酷哇发布WAM 2.0世界模型，剑指RoboCity终局

酷哇科技发布COOWA WAM 2.0世界模型，通过引入反事实推演重构机器人决策范式，旨在解决物理AI的数据瓶颈与泛化难题，并构建RoboCity商业闭环。

2026-02-05 04:21

AI/ML机器之心8.0

谷歌做了个论文专用版nano banana！顶会级Figure直出

介绍了由北大与Google Cloud AI Research联合推出的PaperBanana工具，旨在通过多智能体协作自动生成符合顶会审美和逻辑规范的学术插图。

2026-02-05 04:32

AI/MLMicrosoft Research Blog8.0

Paza: Introducing automatic speech recognition benchmarks and models for low resource languages

Microsoft Research 推出了 PazaBench 排行榜和 Paza ASR 模型，旨在通过以人为本的流程和真实环境测试，解决低资源语言（特别是非洲语言）的语音识别难题。

2026-02-05 05:07

AI/ML甲子光年8.0

海淀AI人群图鉴｜甲子光年

文章通过描绘海淀区不同背景的AI从业者，展示了AI技术已从实验室走向社会结构，成为该区域“默认的存在”和底层基础设施。

2026-02-05 10:37

AI/MLCSDN8.0

AI 正在扼杀 SaaS？

文章探讨了AI（尤其是Vibe Coding）正在颠覆传统B2B SaaS行业，指出客户倾向于自建工具而非付费购买，并分析了SaaS厂商通过死守记录系统、强化安全合规及转向平台化策略来应对生存危机。

2026-02-05 10:30

前端开发稀土掘金技术社区8.0

解决前端 “复现难”：rrweb 录制回放从入门到精通（上）

文章深入解析了前端录制回放技术 rrweb 的核心原理、架构优势及痛点解决方案，并通过 Vue3 实例详细演示了从安装到实现基础录制回放的全流程代码。

2026-02-05 00:30

其他刘润8.0

不懂人性，别做销售

文章基于李觉伟的销售经验，阐述了销售的本质是洞察人性，通过满足客户个人的六种需求、发展内部线人以及实现顾问式销售来提升业绩。

2026-02-05 00:30

AI/MLDavid Heinemeier Hansson8.0

Clankers with claws

文章探讨了通过 OpenClaw 赋予 AI 长期记忆和执行能力，展示了 AI Agent 无需专用 API 即可像人类一样操作浏览器的实验，预示了通用 AI 代理的未来。

2026-02-05 15:30

产品设计人人都是产品经理8.0

告别“抽奖”：B端产品经理与AI协同画原型的理性实践

文章提出在B端产品设计中应将AI定位为“思维加速器”而非单纯的“画师”，并总结了一套从需求解构、布局构思到提示词应用的人机协同四步工作流。

2026-02-04 23:45

前端开发奇舞精选8.0

解决前端 “复现难”：rrweb 录制回放从入门到精通（上）

本文深入解析了前端录制回放工具 rrweb 的核心原理、架构优势及配置细节，提供了从安装到实现基础与高级录制功能的完整代码示例。

2026-02-05 10:08

AI/ML量子位8.0

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

面壁智能开源全模态模型MiniCPM-o4.5，通过全双工多模态实时流机制实现边看边听边说，主打端侧部署与软硬一体。

2026-02-05 15:19

产品设计人人都是产品经理8.0

从“自以为是”到“自以为非”：一个B端产品经理的觉醒之路

文章通过一个薪酬绩效联动设计的失败案例，剖析了B端产品经理容易陷入的“系统逻辑洁癖”等思维陷阱，并提出从“自以为是”转向“自以为非”的反思方法论。

2026-02-04 23:45

其他人人都是产品经理8.0

厂二代拍短视频，火得过三年吗？

文章深入剖析了“厂二代”利用短视频进行营销的现象，探讨了其背后的商业逻辑、转化差异及可持续性挑战。

2026-02-04 23:45

AI/ML数字生命卡兹克8.0

实测可灵3.0 - 属于每个人的导演时代。

文章详细评测了可灵大模型3.0版本的更新，重点介绍了其强大的分镜控制能力和多语言语音生成能力，以及3.0 Omni模型在视频编辑上的突破。

2026-02-05 01:59

其他笔记侠8.0

蔡崇信首次长谈：马云当年为什么“开除”我？

阿里巴巴董事会主席蔡崇信回顾创业历程，解析与马云的互补关系、阿里早期融资与淘宝突围的战略决策，并阐述公司在AI时代的云计算布局与开源哲学。

2026-02-05 13:31

数据库小红书技术REDtech8.0

支撑亿级流量：小红书 2025 MySQL 内核做了哪些关键改造？

文章详细介绍了小红书自研数据库内核 RedSQL 在 2025 年的关键改造，重点阐述了合并秒杀、数据一致性保障（RPO=0）及秒级加列三大解决方案的技术原理与性能收益。

2026-02-05 10:02

AI/ML硅星人Pro8.0

姚顺雨在腾讯首个研究：在“上下文”这事上，在座的各位都不及格

文章介绍了腾讯混元团队与复旦大学发布的CL-bench基准测试，通过虚构内容评估大模型的上下文学习能力，揭示了当前模型在面对全新知识时的局限性。

2026-02-05 02:08

后端架构The JetBrains Blog8.0

Java Annotated Monthly – February 2026

这是一篇2026年2月的Java技术月刊，汇总了Java 26新特性、Kotlin更新、AI辅助开发模式以及各类框架实战技巧，并由Trisha Gee分享行业见解。

2026-02-05 09:53

AI/ML夕小瑶科技说8.0

测了一个9B开源模型，AI视频对话终于不像对讲机了

文章评测了面壁开源的9B全模态模型MiniCPM-o 4.5，该模型通过“全双工”技术实现了边看、边听、边说的实时交互体验，且在低参数下保持了高性能，支持端侧部署。

2026-02-05 08:44

DevOpsThe JetBrains Blog8.0

Extending Qodana: Adding Custom Code Inspections

文章详细介绍了如何通过开发IntelliJ Platform插件来扩展Qodana的静态代码分析功能，以执行自定义的代码规范检查，并演示了从构建插件到集成到CI流程的完整步骤。

2026-02-05 12:39

AI/ML量子位8.0

首个大规模记忆湖发布，AI Infra跑步进入“记忆”时代

文章介绍了质变科技发布的业内首个大规模记忆湖产品MemoryLake，阐述了AI从“第一大脑”（LLM）向“第二大脑”（记忆平台）演进的趋势，并分析了记忆平台在企业级隐性知识萃取与决策中的关键作用。

2026-02-05 07:28

AI/MLAI科技评论8.0

Time-o1：时序架构难突破，损失函数辟蹊径

文章介绍了NeurIPS 2025论文Time-o1，提出通过PCA标签正交变换技术解决时序预测中标签自相关和任务过载两大损失函数难题，显著提升了模型性能。

2026-02-05 12:10

AI/MLAI科技评论8.0

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

文章解析了阶跃星辰开源模型 Step 3.5 Flash 登顶全球榜单的技术原因，重点介绍了其通过稀疏 MoE 架构、滑动窗口注意力及多 Token 预测技术实现“又快又强”的推理能力。

2026-02-05 12:10

AI/ML量子位8.0

谷歌北大联手学术版Banana爆火，论文图表100%精确生成

谷歌与北大联手推出PaperBanana，利用5个智能体协作实现学术论文插图的自动化生成与优化，兼顾美观性与精准度。

2026-02-05 06:15

AI/MLInfoQ 中文8.0

Cursor 浏览器翻车后，这个团队做出AI规模化高可靠软件工厂

文章介绍了 MoonBit 团队利用 AI 原生语言及工具链，在 10 天内成功构建了一个商业级 C 编译器，探讨了从 AI 写代码迈向“AI 软件工厂”的技术路径与工程实践。

2026-02-05 05:30

AI/ML海外独角兽8.0

深度讨论 OpenClaw：高价值 Agent 解锁 10x Token 消耗，Anthropic 超越微软之路开启

文章深入分析了 OpenClaw 等高价值 Agent 的崛起，探讨了 2026 年 Token 消耗将增长 10 倍的预测，以及 Agent 如何通过切分企业工资预算重塑软件商业模式。

2026-02-05 12:05

AI/ML随机小分队8.0

从OpenAI的神秘试验场起步，OpenRouter如何成为AI时代的Stripe+Cloudflare？

本文是OpenRouter创始人Alex Atallah的访谈，阐述了OpenRouter作为AI时代模型聚合器如何通过统一接口和数据智能路由构建护城河，并深入分析了模型评测标准、开源闭源博弈及中国AI的突围路径。

2026-02-05 12:00

DevOpsInfoQ 中文8.0

AI 驱动的大数据自治：TCInsight 智能应对复杂运维挑战

文章介绍了腾讯大数据智能管家 TCInsight 如何利用 AI 和大模型技术应对复杂运维挑战，通过分层架构和多智能决策引擎实现大数据系统的渐进式自治与故障自愈。

2026-02-05 05:30

数据库Z Potentials8.0

深度｜MongoDB CEO：平台化才是企业软件唯一的护城河，单点工具必将被AI颠覆

MongoDB CEO Dev Ittycheria（文中为CJ Desai，实为虚构或误用，按文章内容分析）探讨了AI时代企业软件的护城河，提出平台化才是核心壁垒，单点工具必将被颠覆。

2026-02-05 03:32

AI/MLMartin Fowler8.0

Context Engineering for Coding Agents

本文深入探讨了面向编程代理的“上下文工程”，介绍了如何通过配置和筛选上下文来优化 AI 辅助编程的效果，并以 Claude Code 为例详细解析了规则、技能、MCP 服务器等具体配置手段。

2026-02-05 15:36

AI/MLFounder Park8.0

闭门探讨：130位AI创业者，对Clawdbot和下一代AI产品的39条思考

文章汇集了130位AI创业者对Clawdbot及下一代AI产品的深度探讨，核心观点认为Agent正从被动响应转向主动服务，Skill将取代App成为新时代交互形态，AI与AI的互动（A2A）是终极形态。

2026-02-05 11:36

⚡ 快速浏览

创业邦6.0

前阵子 Claude Cowork 发布，开始进入严肃办公场景，让白领都能把 Claude 的各种能力用起来。不过这个产品限定 Claude 订阅用户使用，且对国内非常不友好，至少我身边几乎没有人能真正用进日常工作流。这个价值很高的赛道，国产软件自然不会落后。今天天工就推出了一个对标 Claude Cowork 的 Skywork 桌面版，看到这个我的第一反应是：这个桌面级AI Agent赛道，国产团队终于认真入场了。 Skywork 桌面版不是个 chatbot，而是可以进驻你工作场景的私人秘书，功能极其强大： - 文件批量处理，秒速自动整理电脑上的各种文件，总结、分类、排序、批量重命名等，非常方便 - 多模态输出，基于系统内各种不同格式的文件，一键生成直接可用的文档、PPT、Excel、图片、音乐、播客、视频等内容 - Skills 支持，内置 100+ 精选 Skills，从 Office 三件套到图片生成、视频生成都包括 - 多模型支持，同时支持 Claude Opus 4.5 和 Gemini 3 Pro 等顶级模型 - 优先支持 Windows 系统，不用羡慕 Mac 用户，Win 用户可以用起来了还有很重要的一点是，相比 OpenClaw 这样的安全杀手，Skywork 这个把所有操作都放到了虚拟机隔离环境中完成，避免误删，损坏这样的问题。价格方面，$16.99 的会员就能使用Skywork桌面版，Windows 用户可以冲。 Claude Cowork 负责打开想象空间，Skywork 负责落地办公。桌面级 Agent 超越了聊天，它将在你的电脑里真的帮你做事。

文章介绍了天工推出的 Skywork 桌面版，这是一款对标 Claude Cowork 的国产桌面级 AI Agent，具备文件批量处理、多模态输出及虚拟机隔离安全等功能。

深网腾讯新闻6.0

内存成本飙升至35%，高端手机鏖战春节档

文章报道了春节档手机市场的促销与新机发布情况，并重点分析了存储芯片价格上涨导致内存成本占比攀升至35%及其对行业的影响。

体验进阶6.0

用AI做设计，遇到一个无解的难题

文章探讨了AI在设计领域面临的沟通难题，认为由于客户需求难以精准表达及存在诸多隐形信息，AI目前的沟通能力尚无法取代优秀的人类设计师。