技术日报

2026-02-11

✍️ 主编按语

{
  "title": "英伟达颠覆具身智能，国产TTS与扩散模型狂飙",
  "content": "今天的科技圈异常热闹，从具身智能的底层范式变革，到AI视频生成与语音合成的全维度爆发，再到底层架构的极致优化，每一项进展都在重塑技术边界。特别是英伟达关于“世界模型”的突破性研究，似乎宣告了VLA时代的终结，而国产模型在TTS、视频生成及大模型推理上的集体爆发，则展示了硬核技术的深厚底蕴。\n\n### 具身智能新范式\n\n[英伟达两篇论文，带来了VLA之后具身智能的新范式｜Hao好聊趋势](https://mp.weixin.qq.com/s?__biz=Mjc1NjM3MjY2MA==&mid=2691564747&idx=1&sn=323c91eb1d9984890df2e56239646810)\n\n英伟达这两篇论文不仅是技术迭代，更像是一场针对具身智能的“思想革命”。过去的VLA模型像是在死记硬背几何题答案，一旦环境微变就束手无策。而DreamZero提出的WAM（World Action Model），利用视频生成模型构建“世界模型”，让机器人学会了在脑海中“做梦”和模拟物理后果。这种从“背诵”到“理解物理规律”的跨越，使得机器人在Zero-shot（零样本）下完成解鞋带等复杂任务成为可能。更重要的是，它打破了数据内卷，证明了对物理学习而言，数据的多样性远比重复量重要。这可能会终结当前依靠昂贵遥操作数据堆叠的路线，转向挖掘海量互联网视频的金矿。\n\n[速递｜冲刺“世界模型”：Runway获E轮3.15亿美金弹药，英伟达、Adobe共同押注](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247514065&idx=3&sn=d57a1dde0afbb3e850375b1da0553a06)\n\n如果英伟达在理论上证明了视频世界模型的可行性，Runway则在商业和产品端拿到了巨额入场券。3.15亿美元的E轮融资不仅是对Runway视频生成能力的认可，更是资本市场对“世界模型”赛道的集体下注。Runway正从单纯的影视工具向通用的物理世界模拟器转型，试图在医药、气候、机器人等更广泛的领域应用其技术。这表明，“世界模型”已不再是学术界的畅想，而是科技巨头押注的未来核心基础设施。\n\n[近亿融资落地！飞捷科思发布首个全模态物理AI基础模型-OmniFysics，让机器真正理解世界](https://mp.weixin.qq.com/s?__biz=MjM5OTAzMjc4MA==&mid=2650861260&idx=2&sn=fb7483dc9b7c4b519466b065969c38d9)\n\n在构建物理认知的另一条道路上，飞捷科思选择了“显式注入”的硬核路线。不同于单纯依靠大模型隐式学习物理规律，OmniFysics通过构建双轮驱动的物理数据生态，将密度、摩擦系数等显式物理知识强行注入模型参数。这种做法虽然工程浩大，但却让3B参数的小模型在物理推理任务上超越了更大规模的通用模型。它证明了在某些垂直领域，高质量的结构化知识比盲目扩大参数规模更有效，为解决AI的“物理幻觉”提供了极具价值的解法。\n\n### AIGC 能力大爆炸\n\n[中国也有了世界第一的模型，他的名字，叫Seedance 2.0。](https://mp.weixin.qq.com/s?__biz=MzIyMzA5NjEyMA==&mid=2647679903&idx=1&sn=09fd4d34355192fc940fd57809be902a)\n\n如果说去年的Sora让人惊叹，那今天的Seedance 2.0则让人感到一丝“恐惧”。文章中那个“精锐部队被核弹瞬间气化”的比喻极其精准地描述了这种冲击。它不仅仅是在生成视频，更是在生成“导演思维”和“分镜逻辑”。当你只需要一句话，AI就能自动处理好蒙太奇、节奏和情绪，传统影视工业的许多环节瞬间失去了壁垒。这种直出声音、BGM和复杂剪辑的能力，意味着我们正式迈入了AI视频生成的“青年时代”，普通人的创作门槛被彻底击穿。\n\n[复刻、长语音、对话、指令、音效全覆盖！模思智能推出MOSS-TTS Family！](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651016519&idx=3&sn=eba328792bf1d0ae5dc5f240bee98282)\n\n在视觉之外，AI的“听觉”也在经历一场全维度的进化。MOSS-TTS Family 不是简单的模型升级，而是一整套覆盖“克隆、对话、实时交互、音效生成”的工业化工具链。特别是其43分钟超长语音一次性生成和基于“物理规律”的音效生成能力，直接打通了从有声书到游戏音效制作的完整流程。这标志着TTS技术已经从“读出文字”进化为“构建听觉体验”，对于音频内容的创作者来说，这无疑是一次生产力的大解放。\n\n### 模型架构的叛逆与创新\n\n[小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！](https://www.qbitai.com/2026/02/378442.html)\n\n在自回归模型（AR）一统天下的当下，蚂蚁技术研究院的LLaDA2.1像是一个叛逆的孤勇者。它死磕扩散架构，通过“草稿+修正”的双模式机制，硬是将扩散语言模型的速度提升到了惊人的892 tokens/秒，同时兼顾了质量。这不仅是速度的胜利，更是思维范式的胜利：它证明了AI生成不一定非要像人一样“逐字推敲”，也可以像人类写作一样“先写后改”。这种非共识技术的突破，为未来大模型的高效部署提供了一条全新的高速通路。\n\n[The Batch: 905 | Kimi K2.5 打造了属于自己的“劳动力体系”](https://mp.weixin.qq.com/s?__biz=MzIxNzI0ODE4Nw==&mid=2247497869&idx=1&sn=87d3272d4b5a807817f48285b3541bcb)\n\nKimi K2.5 的亮点在于它把智能体（Agent）的使用“平民化”了。通过“子智能体”机制，模型能够像管理者一样自动调度并行的劳动力去处理任务，这在BrowseComp等基准上带来了显著的性能提升。更关键的是，它在多项开源评测中超越了GPT-5.2等闭源巨头。这标志着开源模型正在从“追赶者”转变为“领跑者”，未来的AI应用或许不再依赖单一的超级大脑，而是这些懂得“分工协作”的智能体集群。\n\n[神仙打架+1！讯飞星火X2硬核亮相，行业深度全面升级](https://www.qbitai.com/2026/02/378796.html)\n\n讯飞星火X2 的发布意义深远，它是在国产算力受限的背景下取得的一次硬核突围。完全基于全国产算力训练，推理性能却飙升50%，这背后是算法和工程架构的极致优化。讯飞没有盲目卷参数，而是死磕医疗、教育等垂直场景，用“通用底座+行业专才”的策略落地应用。这证明了在算力不对等的情况下，通过深耕场景和优化算法，国产大模型依然可以具备世界一流的竞争力。\n\n[清华哈工大打破AI频谱偏见，助力国家月球基地建设｜AAAI'26](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652674158&idx=3&sn=d47a1e4260942fed8df93f4dc867e2e4)\n\n在微观层面，清华与哈工大的这项研究虽然聚焦于月壤分割，但其方法论具有普适价值。AI天生喜欢平滑的线条，往往忽略尖锐的高频细节，这在地质分析等精密领域是致命的。团队通过HiFi-LoRA算法，将物理先验知识转化为数学算子注入模型，强行纠正了这种“频谱偏见”。这不仅服务于月球基地建设，更为所有需要高精度边界识别的工业与医学场景提供了新的解决范式。\n\n### 极致架构与工程落地\n\n[微信WFS传统TCP网络Fio跑满200Gb网卡实践](https://mp.weixin.qq.com/s?__biz=MjM5ODYwMjI2MA==&mid=2649800087&

🔥 热门文章 (44 篇)

AI/ML数字生命卡兹克9.0

中国也有了世界第一的模型，他的名字，叫Seedance 2.0。

文章深入解读了字节跳动旗下的Seedance 2.0模型，称其为全球No.1，并通过导演思维、分镜复刻、主体迁移等七大场景展示了其颠覆性的视频生成能力，同时探讨了技术对影视工业化的冲击。

2026-02-11 02:51

AI/ML量子位9.0

小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！

蚂蚁技术研究院开源了非主流架构的扩散语言模型LLaDA2.1，通过可纠错编辑和定制RL算法，在100B参数规模下实现了892 tokens/秒的推理速度，同时解决了生成质量与效率难以兼得的难题。

2026-02-11 02:06

后端架构阿里技术9.0

Fluss在阿里双11万亿规模场景下的落地实践

阿里在双11万亿规模场景中落地Fluss流存储系统，通过多级分区、过滤下推和列式存储实现降本增效，并基于湖流一体架构统一了实时与离线数据处理。

2026-02-11 00:30

AI/ML量子位9.0

神仙打架+1！讯飞星火X2硬核亮相，行业深度全面升级

科大讯飞发布完全基于国产算力训练的大模型星火X2，推理性能提升50%，在多项基准测试中比肩GPT-5.2等国际顶尖模型，并在医疗、教育等行业实现深度落地。

2026-02-11 15:46

后端架构腾讯技术工程9.0

微信WFS传统TCP网络Fio跑满200Gb网卡实践

微信WFS团队通过采用Run-To-Completion线程模型、全链路零拷贝及负载自适应预读等技术，在传统TCP网络下实现了Fio跑满200Gb网卡，性能超越RDMA架构的3FS。

2026-02-11 09:36

AI/ML机器之心9.0

复刻、长语音、对话、指令、音效全覆盖！模思智能推出MOSS-TTS Family！

模思智能发布并开源了全场景语音生成模型家族MOSS-TTS Family，包含高保真语音合成、对话生成、音效生成及实时流式模型，在音色复刻与长语音生成方面取得突破。

2026-02-11 08:32

AI/MLDeeplearningAI9.0

The Batch: 905 | Kimi K2.5 打造了属于自己的“劳动力体系”

Moonshot AI 发布开源多模态模型 Kimi K2.5，引入了可并行执行的子智能体机制，显著提升了任务执行效率，并在多项基准测试中超越现有顶尖模型。

2026-02-11 04:45

AI/ML腾讯科技9.0

英伟达两篇论文，带来了VLA之后具身智能的新范式｜Hao好聊趋势

文章深度解析了英伟达2026年提出的两篇论文，探讨了DreamZero和DreamDojo如何通过视频生成构建世界模型，解决传统VLA在物理交互和泛化能力上的缺陷，标志着具身智能范式的重大转变。

2026-02-11 04:42

AI/MLZ Potentials9.0

速递｜冲刺“世界模型”：Runway获E轮3.15亿美金弹药，英伟达、Adobe共同押注

AI视频生成公司Runway完成3.15亿美元E轮融资，估值达53亿美元，资金将用于研发下一代“世界模型”并拓展至机器人、游戏等领域。

2026-02-11 04:07

AI/ML新智元9.0

清华哈工大打破AI频谱偏见，助力国家月球基地建设｜AAAI'26

清华与哈工大团队提出'Deeply Seeking Boundary'框架，通过几何物理知识注入与特定初始化算法，解决了AI在月壤分割中的频谱偏见问题，实现了微米级高精度边缘还原。

2026-02-11 03:56

AI/ML创业邦9.0

近亿融资落地！飞捷科思发布首个全模态物理AI基础模型-OmniFysics，让机器真正理解世界

飞捷科思发布首个全模态物理AI基础模型OmniFysics，通过引入显式物理知识构建双轮数据生态，解决了机器人训练数据匮乏及模型物理认知缺失的痛点，实现了小参数量下的物理智能涌现。

2026-02-11 00:04

AI/MLAI前线8.0

千问发布最新图像模型 Qwen-Image-2.0，支持 1K token 超长文字输入和 2K 高分辨率

阿里巴巴发布新一代图像生成及编辑模型 Qwen-Image-2.0，支持 1K token 长文本和 2K 高分辨率，并在权威评测中表现优异。

2026-02-11 03:39

AI/MLLangChain Blog8.0

The two patterns by which agents connect sandboxes

文章探讨了AI智能体与沙箱环境集成的两种架构模式：'Agent IN Sandbox'（紧耦合）和'Sandbox as Tool'（松耦合），并深入分析了两者的优缺点及适用场景。

2026-02-10 16:32

后端架构dbaplus社群8.0

又出P0事故！被分页查询坑惨了……

文章深入剖析了分页查询中因锚点不稳定导致的数据重复与丢失问题，对比了游标分页、时间戳过滤及ES专属方案的优劣，并提供了可落地的工程规范。

2026-02-10 23:15

AI/ML阿里云开发者8.0

当我们谈论 AI 推理的 KV Cache，我们在说什么？

本文深入解析了Transformer架构的核心思想，重点阐述了Attention机制的原理及KV Cache在AI推理阶段降低算力成本、提升性能的关键作用。

2026-02-11 00:30

其他刘润8.0

“库存无法过夜”的生意，都是在和时间赛跑

文章深入剖析了酒店、航空、网吧等拥有“易腐库存”行业的底层逻辑，指出这类生意的核心在于通过时间管理提升效率。

2026-02-11 00:31

工具效率沃垠AI8.0

AI产品推荐榜（2026.2）

这是一份2026年2月的AI产品推荐榜单，涵盖了23个场景的144款国内外AI产品，重点分析了从Chatbot到桌面Agent的产品进化及新功能。

2026-02-11 01:45

AI/ML硅星人Pro8.0

旷视众神归位之原力觉醒？

文章详细报道了原力灵机成立330天以来的首次公开亮相，CEO唐文斌提出了“具身原生”理念，并发布了DM0基座模型、Dexbotic2.0开源框架及DFOL工作流，旨在通过真实世界交互与开源基建推动具身智能发展。

2026-02-11 02:28

AI/ML硅星人Pro8.0

Anthropic最新2026趋势报告：人类最大一次编程革命势不可挡

文章解读了Anthropic关于2026年智能体编码趋势的8大预测，指出软件开发正从手写代码转向指挥AI智能体军团，实现编程的全民化。

2026-02-11 02:28

AI/ML深思圈8.0

海外顶级风投a16z关于AI市场的最新深度分析

文章基于a16z投资人David George的分享，深度解析了AI公司在增长率、运营效率及商业模式上的颠覆性变化，指出AI不仅是技术升级更是彻底的范式转移。

2026-02-11 02:32

前端开发印记中文8.0

JavaScript 中文周刊 #223 - npmx 全新 npm Registry 包浏览工具

本期 JavaScript 中文周刊重点介绍了全新的 npm 包浏览工具 npmx、State of JS 2025 调查结果以及 ESLint v10.0.0 的发布，涵盖了前沿工具和行业趋势。

2026-02-11 03:49

前端开发新智元8.0

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

谷歌Chrome推出WebMCP协议，允许AI Agent绕过图形界面直接与网页内核交互，通过结构化API替代传统的视觉模拟和屏幕抓取，重塑Web交互底层逻辑。

2026-02-11 03:56

AI/ML51CTO技术栈8.0

菲尔兹奖得主陶哲轩有了新身份！下场AI for Science！最新专访：AI融入科研有很多错误路径，学术界不能只是等待！AI还谈不上真正的合著者

菲尔兹奖得主陶哲轩联合创立SAIR基金会，探讨AI在科研中的应用。他指出AI并非单一技术，学术界需主动介入以避免错误路径，并分析了当前AI在数学验证、目标定义及人机协作方面的局限与潜力。

2026-02-11 04:45

工具效率少数派8.0

一人公司如何给众多 AI 工具分配工作任务？

文章详细阐述了作者作为“一人公司”如何像管理员工一样分配 AI 工具职责，构建分层协作体系，并分享了具体的工具选择、工作流优化及知识资产管理经验。

2026-02-11 04:51

AI/ML极客公园8.0

马斯克都忍不住转发的 AI 应用，是怎么做出来的？

文章介绍了涌跃智能开发的互动内容平台 Loopit，探讨其如何利用 AI Coding 和多模态生成技术打造「可玩的世界」，并分析了该产品对传统内容分发与 UGC 创作模式的革新。

2026-02-11 05:02

AI/ML甲子光年8.0

当业界热议Seedance的“导演感”时，Vidu已登顶全球第一｜甲子光年

文章深入解析了生数科技发布的Vidu Q3模型，重点介绍了其在声画同出、16秒长视频生成及镜头控制等方面的突破，探讨了AI视频生成从“素材生成”迈向“可交付内容”的行业趋势。

2026-02-11 06:33

AI/MLWeb3天空之城8.0

零分镜零剪辑！即梦2.0直出AI故事长片指南 |《疯狂动物城版: Lovart封号不退款》深度拆解

本文深度拆解了如何利用即梦Seedance 2.0的自动分镜能力，实现“零分镜、零剪辑”的AI长片制作，并提供了从脚本生成到一致性保持的完整实操指南。

2026-02-11 06:39

AI/MLAI科技大本营8.0

陶哲轩的“下山”：当数学界的莫扎特决定给 AI 立规矩

文章记录了陶哲轩关于 AI 在科学研究中应用的深度访谈，探讨了 AI 的局限性、数学领域的形式化验证优势以及未来的人机协作模式。

2026-02-11 08:16

AI/ML浮之静8.0

Agent 趋势浅思：原生化 & CLI 化

文章分析了 AI Agent 的发展趋势，探讨了 OpenClaw 的架构设计（记忆与实体概念）、WebMCP 的原生工具化以及应用的 CLI 化趋势，同时提出了“Soul Document”作为 AI 自我延续机制的深度思考。

2026-02-11 08:17

AI/ML语言即世界language is world8.0

具身智能漫长的进化史、下一个Scaling与硝烟

文章回顾了具身智能从规则驱动到数据驱动再到认知驱动（VLA）的进化历程，深入分析了VLA架构的认知、推理与决策本质，并对2026年强化学习、在线学习等技术方向进行了展望。

2026-02-11 09:21

AI/ML大淘宝技术8.0

从应用架构的视角看退小宝AI助手落地现状

文章以“退小宝AI助手”为例，对比传统Web应用与AI应用的差异，系统阐述了从简单API调用到ReAct Agent再到Workflow架构的演进路径，强调了AI原生应用的设计原则。

2026-02-11 09:29

云计算谷歌开发者8.0

借助 BigQuery 全托管式远程 MCP 服务器，加速构建数据分析智能体

文章介绍了如何利用全托管式 BigQuery MCP 服务器，通过标准协议快速将企业数据安全地接入 AI 智能体，并提供了详细的集成步骤与代码示例。

2026-02-11 09:32

产品设计十字路口Crossing8.0

大家都在说它是 AI 时代的抖音，真的吗？

本文通过实测分析了被称为“AI 时代抖音”的互动内容平台 Loopit，展示了其基于 AI 提示词和手机硬件交互（麦克风、陀螺仪等）创作内容的能力。

2026-02-11 10:04

AI/ML得物技术8.0

社区推荐重排技术：双阶段框架的实践与演进｜得物技术

文章介绍了得物技术在社区推荐重排架构中的演进，重点解析了从非自回归到自回归生成式模型的实践，以及通过GPU推理、KV Cache等技术保障端到端性能的方案，并展望了融合强化学习的下一代架构。

2026-02-11 10:35

工具效率The JetBrains Blog8.0

The State of Rust 2025: Popularity, Trends, and Future

基于2025年JetBrains开发者生态系统调查报告，本文详细分析了Rust语言的流行度、用户增长趋势、工具成熟度及多元化应用场景。

2026-02-11 10:49

AI/ML歸藏的AI工具箱8.0

Agent 原生通讯协议：从传递代码，到传递认知

文章探讨了 Agent 时代开发者角色的转变，通过分析 Entire 公司的 Checkpoint 产品，阐述了将 Agent 推理过程与 Git Commit 绑定以实现“传递认知”的重要性，及其对解决多 Agent 协作和上下文缺失问题的价值。

2026-02-11 10:51

其他极客公园8.0

半年狂揽 5 亿美金，硅谷大佬疯抢的「睡眠黑科技」，正被中国智驾老兵拆解

文章分析了AI与硬件结合的睡眠科技赛道，重点介绍了智梦可如何利用自动驾驶技术背景，通过动态调温和无感监测实现睡眠的主动干预。

2026-02-11 11:04

其他晚点LatePost8.0

晚点独家丨阿里要继续大投入淘宝闪购，三年不担心亏损

文章独家报道了阿里在2026年加大对淘宝闪购的投入力度，旨在通过三年亏损豁免和精细化运营争夺即时零售市场份额，并借力AI助手应用寻找新的流量入口。

2026-02-11 11:48

移动开发vivo互联网技术8.0

游戏中心弱网优化实践

文章介绍了vivo游戏中心在弱网环境下的优化实践，详细阐述了如何通过接入Cronet网络库支持QUIC协议，配合精细化的弱网判定标准，有效提升了页面加载速度和稳定性。

2026-02-11 12:01

DevOps海外独角兽8.0

当人读不懂 AI 代码，Traversal 如何做企业运维的 AI 医生？

文章深入分析了 AI 初创公司 Traversal 如何利用因果推断和数字孪生技术解决“Claude Hole”带来的 AI 代码运维难题，实现了从故障定位到自动修复的 Agentic SRE 转型。

2026-02-11 12:05

AI/ML量子位8.0

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力架构SALA立功了！

面壁智能发布全新SALA稀疏-线性混合注意力架构，使9B端侧模型在无损性能下实现百万级上下文处理，并开源了MiniCPM-SALA模型。

2026-02-11 13:06

产品设计白鲸出海8.0

前传音高管避开国内红海，转身用AI音频硬件Airmars开拓新市场

文章讲述了传音前高管创立的Airmars如何避开国内红海，结合声学积累与AI技术，通过端侧AI硬件和极致的本地化定制策略，开拓中东、非洲等新兴市场的创业实践。

2026-02-11 13:31

AI/ML白鲸出海8.0

韩国AI社交升温？3款产品月流水达百万美元

文章分析了韩国AI社交市场的现状，重点介绍了Zeta和Crack两款月流水达百万美元的产品，探讨了其技术差异、商业模式及文化背景。

2026-02-11 13:31

AI/ML量子位8.0

2025具身智能创投全景：554亿热钱，4大估值梯队，10亿元现金流门槛｜量子位智库报告

文章基于量子位智库报告，深度解析了2025年具身智能领域的创投现状，涵盖554亿资金流向、估值梯队划分及10亿现金流门槛的行业现状。

2026-02-11 13:34

⚡ 快速浏览

创业邦6.0