告别“对讲机”时代:面壁智能给 AI 装上了“神经末梢”
文章详细报道了面壁智能发布的开源端侧多模态模型 MiniCPM-o 4.5 及配套硬件松果派,重点分析了其突破性的全双工实时交互能力和基于“密度法则”的高效小模型架构。
{
"title": "万亿模型与端侧革命,生成式AI重塑交互范式",
"content": "今日技术圈的主旋律是“范式转移”与“回归本源”。从何恺明团队提出的单步生成模型 Drifting Models,到上海AI实验室开源的万亿参数科学大模型,基础研究正在试图打破算力与推理效率的物理极限。与此同时,面壁智能、通义实验室等则在探索如何将AI从云端的神坛拉回端侧与物理世界,无论是全双工的语音交互,还是基于“快慢思考”的电商推荐,都在昭示一个趋势:AI正在从炫技式的对话,进化为具备感知、行动与深度推理的智能体。\n\n### 生成范式与底层突破\n\n[Gemini月活突破7.5亿,坐AI聊天机器人第二把交椅](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=2&sn=7316e620430ece355e91c0a2c4d9e2c5)\n\n这不仅是谷歌财报上的一个数字,更是AI市场格局重塑的信号。7.5亿月活让Gemini稳居第二,且增长势头迅猛,直逼ChatGPT。更重要的是,谷歌本季营收首破4000亿美元,AI已成为其核心增长引擎。从Ironwood芯片到Google AI Plus订阅,谷歌展示了“软硬兼施”的生态闭环能力。对于行业而言,这意味着AI竞争已进入“生态化”阶段,单纯比拼模型参数的时代正在过去,谁能通过应用落地留住用户,谁才是赢家。\n\n[邓明扬一作论文改写生成范式!何恺明也署名了](https://www.qbitai.com/2026/02/376752.html)\n\n这篇论文可能是近期计算机视觉领域最具颠覆性的工作之一。传统的扩散模型需要在推理阶段进行成百上千次迭代,导致延迟高、成本大。何恺明团队提出的“漂移模型”巧妙地将这种分布演化的压力转移到了训练阶段,实现了真正的单步生成(1-step)。在ImageNet上,其单步生成的FID成绩甚至超越了许多多步迭代模型。这一范式的转变,不仅极大地提升了生成速度,更为实时视频生成、具身智能控制等对延迟敏感的领域打开了新的大门,堪称生成式AI领域的“光速进化”。\n\n[社区供稿丨迈向AI4S 2.0,上海AI实验室开源书生万亿科学大模型Intern-S1-Pro](https://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247496375&idx=1&sn=89e0b8d1518178225d64044f93f85d8b)\n\n当大多数人还在卷通用大模型时,上海AI实验室已在科学计算领域筑起了高墙。Intern-S1-Pro拥有1万亿参数,采用了MoE架构,每次仅激活22B参数,实现了算力效率与模型规模的平衡。其引入的傅里叶位置编码(FoPE)赋予了模型“波”与“粒子”的双重物理直觉,使其在解决数理化奥赛题时表现卓越。这是AI for Science迈向2.0时代的重要标志——从单纯的“工具革命”进化为驱动科学发现的“革命工具”,为全球科研界提供了强大的开源基座。\n\n[“2.4万亿+原生全模态”是怎样炼成的?文心5.0技术报告首公开](https://mp.weixin.qq.com/s?__biz=MzI5NzUyMzM1Mg==&mid=2247666229&idx=1&sn=5abc314a7316497ca47b124f35278e5c)\n\n百度文心5.0的发布,标志着国产大模型在多模态融合上进入了深水区。2.4万亿参数只是表象,核心在于其“原生全模态统一建模”技术,不再将文本、图像、音频视为割裂的模态,而是在底层进行统一理解与生成。这种架构不仅提升了模型在复杂场景下的表现力,更重要的是,它通过弹性训练范式解决了大规模部署的资源约束问题。对于开发者而言,这意味着更自然的跨模态交互体验和更高效的模型调用能力。\n\n### 端侧智能与具身演进\n\n[告别“对讲机”时代:面壁智能给 AI 装上了“神经末梢”](https://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247588743&idx=1&sn=cfdc72a28df9289b79a5f0aa53923b9b)\n\n在巨头们卷云端算力时,面壁智能选择了一条更难的路——把AI塞进端侧。MiniCPM-o 4.5仅用9B参数就实现了全双工语音交互,打破了传统“回合制”对话的枷锁,让AI能像人一样“边听边说”。配合硬件开发板“松果派”,他们正在构建“Model-Native”的端侧生态。这对于行业影响深远:它不仅解决了隐私和延迟痛点,更定义了未来具身智能的“1Hz大脑”标准。智能机器人将不再需要依赖不稳定的云端连接,而是拥有本地化的实时决策能力。\n\n[如何让 AI 用“温柔但坚定”的语气说话?](https://mp.weixin.qq.com/s?__biz=MzkxMTYyMTAzNA==&mid=2247499528&idx=1&sn=6d24bdfdcc6947bae38c006418ef6b9d)\n\n通义实验室的13篇ICASSP 2026收录论文,展示了语音技术从“识别”向“感知”的跨越。特别是基于PAD心理学模型的情感语音合成,让AI不仅能听懂内容,还能细腻地控制“愉悦度、唤醒度、支配度”,甚至能应对“心理操纵式攻击”。这意味着未来的语音交互将不再是冷冰冰的指令应答,而是具备情商、能感知情绪甚至能进行情感抚慰的沉浸式体验,为人机交互赋予了更强的“人性”色彩。\n\n[速递|红杉资本领投,语音AI独角兽ElevenLabs融资5亿美元,估值冲至110亿](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247513924&idx=3&sn=0913efbcf875d12840ec8eda0b4c03cf)\n\nElevenLabs的高估值融资,是对“声音即界面”这一趋势的强力背书。ARR达到3.3亿美元且增长迅猛,说明市场对高质量语音生成的需求正在爆发。更重要的是,他们计划将能力扩展至视频和智能体领域,试图打造多模态的交互入口。对于创业者来说,这表明在通用大模型之外,深耕特定模态(如语音)并做到极致,依然具有巨大的商业价值和护城河。\n\n### 推理增强与工业落地\n\n[自动化评测的九九归一——评测agent](https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247558178&idx=1&sn=eaa639c6255e7dd20e13f07bc9bf4670)\n\n阿里云的这篇文章揭示了AI大规模落地背后的隐形工程。面对数十个业务场景,靠人力评测已不可能。他们构建的“评测Agent”通过自主学习业务标准,实现了97%的机审率。其核心技术亮点在于“识图-推理解耦”,用小模型做忠实描述,大模型做推理,有效抑制了多模态幻觉。这为行业提供了一个重要范式:AI的工业化不仅是模型大小的比拼,更是评测、监控、迭代这一整套自动化工程能力的较量。\n\n[ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651015544&idx=3&sn=9dc01133077f122da429f00f3dc0ccb0)\n\n复旦与阿里的这项研究解决了一个核心矛盾:何时用文本思考,何时用图像思考?他们提出的Mixture-of-Visual-Thoughts(MoVT)框架,让模型能根据问题自适应切换推理模式。这不仅提升了模型在数学、视觉定位等不同任务上的表现,更赋予了一种“元认知”能力——模型开始思考“该如何思考”。这对于提升多模态模型的鲁棒性和通用性具有里程碑意义。\n\n[突破传统限制:OxygenREC——一个基于指令跟随的“快慢思考”电商生成式推荐框架](https://mp.weixin.qq.com/s?__biz=MzU1Mz
文章详细报道了面壁智能发布的开源端侧多模态模型 MiniCPM-o 4.5 及配套硬件松果派,重点分析了其突破性的全双工实时交互能力和基于“密度法则”的高效小模型架构。
文章报道谷歌2025年Q4财报,宣布旗下AI聊天机器人Gemini月活突破7.5亿,跃居行业第二,且公司年收入首次突破4000亿美元。
复旦大学与阿里巴巴提出Mixture-of-Visual-Thoughts (MoVT) 范式及AdaVaR框架,通过整合文本与Grounded两种视觉推理模式并利用强化学习进行自适应切换,显著提升了通用视觉推理性能。
文章详细阐述了统一评测Agent架构的设计与落地,通过识图-推理解耦、多阶段训练及强化学习等技术手段,解决了业务标注自动化中的幻觉与长程推理难题,实现了全链路评测的自动化。
京东零售OxygenREC团队提出了一种基于“快慢思考”和指令跟随的生成式推荐框架OxygenREC,有效解决了传统推荐系统的推理局限与多场景资源效率难题,实现了工业级落地。
语音AI独角兽ElevenLabs获红杉资本领投5亿美元,估值达110亿美元,将拓展视频及智能体业务。
文章介绍了百度文心大模型5.0正式版的核心技术细节,包括2.4万亿参数规模和原生全模态统一建模技术,并公开了其技术报告链接及综合评测结果。
通义实验室语音团队详述了被 ICASSP 2026 收录的13篇论文,重点介绍了基于PAD模型的情感语音合成、持续学习防遗忘、端到端回声消除等前沿技术突破。
上海AI实验室开源了基于SAGE架构的万亿参数科学多模态大模型Intern-S1-Pro,致力于推动AI4S 2.0时代的科学发现,并展示了其在数理推理及多学科领域的国际领先能力。
酷哇科技发布COOWA WAM 2.0世界模型,通过引入反事实推演重构机器人决策范式,旨在解决物理AI的数据瓶颈与泛化难题,并构建RoboCity商业闭环。
介绍了由北大与Google Cloud AI Research联合推出的PaperBanana工具,旨在通过多智能体协作自动生成符合顶会审美和逻辑规范的学术插图。
Microsoft Research 推出了 PazaBench 排行榜和 Paza ASR 模型,旨在通过以人为本的流程和真实环境测试,解决低资源语言(特别是非洲语言)的语音识别难题。
文章探讨了AI(尤其是Vibe Coding)正在颠覆传统B2B SaaS行业,指出客户倾向于自建工具而非付费购买,并分析了SaaS厂商通过死守记录系统、强化安全合规及转向平台化策略来应对生存危机。
文章深入解析了前端录制回放技术 rrweb 的核心原理、架构优势及痛点解决方案,并通过 Vue3 实例详细演示了从安装到实现基础录制回放的全流程代码。
文章探讨了通过 OpenClaw 赋予 AI 长期记忆和执行能力,展示了 AI Agent 无需专用 API 即可像人类一样操作浏览器的实验,预示了通用 AI 代理的未来。
文章提出在B端产品设计中应将AI定位为“思维加速器”而非单纯的“画师”,并总结了一套从需求解构、布局构思到提示词应用的人机协同四步工作流。
本文深入解析了前端录制回放工具 rrweb 的核心原理、架构优势及配置细节,提供了从安装到实现基础与高级录制功能的完整代码示例。
面壁智能开源全模态模型MiniCPM-o4.5,通过全双工多模态实时流机制实现边看边听边说,主打端侧部署与软硬一体。
文章通过一个薪酬绩效联动设计的失败案例,剖析了B端产品经理容易陷入的“系统逻辑洁癖”等思维陷阱,并提出从“自以为是”转向“自以为非”的反思方法论。
文章详细评测了可灵大模型3.0版本的更新,重点介绍了其强大的分镜控制能力和多语言语音生成能力,以及3.0 Omni模型在视频编辑上的突破。
阿里巴巴董事会主席蔡崇信回顾创业历程,解析与马云的互补关系、阿里早期融资与淘宝突围的战略决策,并阐述公司在AI时代的云计算布局与开源哲学。
文章详细介绍了小红书自研数据库内核 RedSQL 在 2025 年的关键改造,重点阐述了合并秒杀、数据一致性保障(RPO=0)及秒级加列三大解决方案的技术原理与性能收益。
文章介绍了腾讯混元团队与复旦大学发布的CL-bench基准测试,通过虚构内容评估大模型的上下文学习能力,揭示了当前模型在面对全新知识时的局限性。
这是一篇2026年2月的Java技术月刊,汇总了Java 26新特性、Kotlin更新、AI辅助开发模式以及各类框架实战技巧,并由Trisha Gee分享行业见解。
文章评测了面壁开源的9B全模态模型MiniCPM-o 4.5,该模型通过“全双工”技术实现了边看、边听、边说的实时交互体验,且在低参数下保持了高性能,支持端侧部署。
文章详细介绍了如何通过开发IntelliJ Platform插件来扩展Qodana的静态代码分析功能,以执行自定义的代码规范检查,并演示了从构建插件到集成到CI流程的完整步骤。
文章介绍了质变科技发布的业内首个大规模记忆湖产品MemoryLake,阐述了AI从“第一大脑”(LLM)向“第二大脑”(记忆平台)演进的趋势,并分析了记忆平台在企业级隐性知识萃取与决策中的关键作用。
文章介绍了NeurIPS 2025论文Time-o1,提出通过PCA标签正交变换技术解决时序预测中标签自相关和任务过载两大损失函数难题,显著提升了模型性能。
文章解析了阶跃星辰开源模型 Step 3.5 Flash 登顶全球榜单的技术原因,重点介绍了其通过稀疏 MoE 架构、滑动窗口注意力及多 Token 预测技术实现“又快又强”的推理能力。
谷歌与北大联手推出PaperBanana,利用5个智能体协作实现学术论文插图的自动化生成与优化,兼顾美观性与精准度。
文章介绍了 MoonBit 团队利用 AI 原生语言及工具链,在 10 天内成功构建了一个商业级 C 编译器,探讨了从 AI 写代码迈向“AI 软件工厂”的技术路径与工程实践。
文章深入分析了 OpenClaw 等高价值 Agent 的崛起,探讨了 2026 年 Token 消耗将增长 10 倍的预测,以及 Agent 如何通过切分企业工资预算重塑软件商业模式。
本文是OpenRouter创始人Alex Atallah的访谈,阐述了OpenRouter作为AI时代模型聚合器如何通过统一接口和数据智能路由构建护城河,并深入分析了模型评测标准、开源闭源博弈及中国AI的突围路径。
文章介绍了腾讯大数据智能管家 TCInsight 如何利用 AI 和大模型技术应对复杂运维挑战,通过分层架构和多智能决策引擎实现大数据系统的渐进式自治与故障自愈。
MongoDB CEO Dev Ittycheria(文中为CJ Desai,实为虚构或误用,按文章内容分析)探讨了AI时代企业软件的护城河,提出平台化才是核心壁垒,单点工具必将被颠覆。
本文深入探讨了面向编程代理的“上下文工程”,介绍了如何通过配置和筛选上下文来优化 AI 辅助编程的效果,并以 Claude Code 为例详细解析了规则、技能、MCP 服务器等具体配置手段。
文章汇集了130位AI创业者对Clawdbot及下一代AI产品的深度探讨,核心观点认为Agent正从被动响应转向主动服务,Skill将取代App成为新时代交互形态,AI与AI的互动(A2A)是终极形态。
这是一篇汇总了近期智能制造与科技产业动态的日报,涵盖了AI芯片、工业人形机器人、储能电池、OLED面板及商业航天等领域的最新商业进展。
文章汇总了谷歌All in AI的财报决心、马斯克身家创新高、Anthropic与OpenAI的广告争执,以及苹果新MacBook、微信屏蔽元宝链接等多条科技新闻。
文章分析了2025年港股IPO市场的火热现状,指出募资额、认购倍数及收益率均呈现非典型特征,同时探讨了监管对上市公司质量的担忧及市场周期性变化。
文章介绍Coze Skills AI技能共创大赛的官方系列直播带教计划,旨在通过三期直播指导创作者从入门到变现,掌握AI技能的全流程开发。
Anthropic推出的Claude插件功能引发了华尔街恐慌,导致软件股单日暴跌,市场开始担忧AI将取代SaaS公司。
文章介绍了新兴平台 RentAHuman.ai,该平台允许 AI 智能体作为甲方雇佣人类完成线下核验、跑腿等任务,探讨了“Human as a Service”模式下人机关系的新变化。
这是一篇涵盖多领域的科技早报,重点报道了腾讯元宝被屏蔽、马斯克考察光伏产业链、英伟达投资OpenAI以及多家大模型厂商的最新动态。
文章汇总了AI行业的最新资讯,涵盖Anthropic与OpenAI的巨额融资、微软AI业务布局调整以及智谱GLM-4.7-Flash开源模型下载量突破百万的消息。
文章介绍了新平台 RentAHuman.ai,该平台将人类作为物理接口出租给 AI Agent,以解决 AI 无法在物理世界执行任务的痛点,引发了对 AI 管理人类的伦理探讨。
文章公布了2026年1月全球AI应用榜,显示ChatGPT以9.3亿月活居首,国内豆包领先,KLING AI增速显著。
文章汇总了最新的开源AI项目,重点介绍了万亿参数MoE多模态模型Intern-S1-Pro及其他四个涵盖强化学习、图像生成和Agent开发的技术项目。
文章汇总了近期AI领域的热点动态,包括OpenAI人事任命、面壁智能发布新模型、可灵AI升级以及Gemini用户增长和半导体公司融资新闻。
文章介绍了新兴平台RentAHuman.ai,该平台旨在将人类作为“肉身API”出租给AI代理以执行现实任务,并探讨了其运作模式与潜在的法律道德风险。
这是一篇关于OpenClaw(大模型Agent框架)的保姆级部署教程汇总文章,收集了官方文档及多个针对不同云平台(阿里云、腾讯云、飞书等)和操作系统的安装指南。
文章介绍了6个GitHub上小众但实用的开源项目,涵盖地图生成、算法分析、笔记工具、PDF处理、桌面统计及去水印工具。
文章介绍了多个开源项目,重点推荐了智能代理协作平台 Lobehub 及其跨模型协同生态,同时涵盖 CLI 工具、3D 打印切片软件及网络安全调查工具等。
文章介绍了天工推出的 Skywork 桌面版,这是一款对标 Claude Cowork 的国产桌面级 AI Agent,具备文件批量处理、多模态输出及虚拟机隔离安全等功能。