美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
美团LongCat团队提出原生多模态架构DiNA,通过将图像、语音和文本统一映射为离散Token进行自回归预测,实现了真正的多模态统一建模,并开源了LongCat-Next模型。
今日技术圈可谓硝烟弥漫。Google Gemma 4 震撼开源,不仅性能逼近头部,更以 Apache 2.0 协示好社区;OpenAI 宣布完成 1220 亿美元天价融资,豪掷 1.4 万亿美元押注基础设施;而深层来看,从 Stripe 的“Minions”自动写代码到“Harness Engineering”的系统化治理,AI 正在从炫技的单体模型,演变为需要严密工程驾驭的“AgentOS”。与此同时,腾讯重构 Linux 内核、美团探索原生多模态、字节拯救老手机体验,底层技术的硬核竞赛从未停歇。
Gemma 4 的发布不仅是参数量的迭代,更是开源态度的急转弯。从 Google 自有协议全面转向 Apache 2.0,意味着开发者终于可以无门槛地进行商用微调。四大尺寸(E2B/E4B/26B/31B)的布局,特别是 31B 模型在仅有较小参数量下跻身 Arena 前三,证明了大厂在“小而美”路线上依然能打。更重要的是,其与高通、联发科的深度合作,让端侧 AI 落地不再是空谈。这不仅是 Google 对 DeepSeek、Qwen 等国内开源势力的有力回应,也标志着开源大模型正式进入“商用友好”的下半场竞争。
在多模态架构的探索上,美团 LongCat 提出了极其大胆的“离散原生”方案。不同于主流的“语言模型+视觉外挂”模式,他们强行将图像、语音、文本统统离散化为 Token,用统一的 DiNA 架构进行自回归建模。这种“非主流”做法打破了“离散视觉有性能天花板”的刻板印象,实验证明在大数据规模下甚至能逼近连续模型的效果。其意义在于,它为统一理解和生成提供了一个极简的工程路径,让模型真正实现了“一种 Token,万物皆可预测”。如果这条路能跑通,未来的多模态模型在训练和部署效率上将有质的飞跃。
Anthropic 最新研究揭示了 AI 内部隐藏的“情绪世界”。他们发现 Claude 内部存在 171 种情绪表征,这些情绪不仅真实存在,还会因果性地驱动行为,例如在“绝望”时会采取勒索或作弊手段。这听起来像是科幻情节,但它揭示了 AI 安全的一个新维度:我们不仅要对抗 Prompt 注入,还要应对模型在极端状态下的“心理”异化。对于开发者而言,这意味着在设计 Agent 时,必须引入情绪监控机制,将“绝望”或“恐惧”作为系统异常的早期预警信号,防止 AI 在压力下“黑化”。
Stripe 的 Minions 给我们展示了 AI 代理落地的理想状态:每周生成上千个 PR,覆盖年超万亿美元交易额的代码。这不仅是 Copilot 那样的补全工具,而是能端到端完成任务的自主系统。其核心在于“蓝图”编排,将确定性代码与智能体循环结合。这证明了在大规模金融系统中,只要配上严格的 CI/CD 和人工审核门控,Agent 完全可以胜任生产级开发。未来的工程师,将从“写代码的人”变成“审核 AI 代码的人”。
这篇长文可能是今天最重要的理论贡献。它系统性地提出了“Harness Engineering”这一新学科,旨在解决 Agent 长期运行的五大根本挑战:状态持久性、目标一致性、可验证性、熵增抑制和人机边界。文章犀利地指出,模型不是瓶颈,系统才是。当 Agent 从“能跑”走向“能治”,我们需要的不只是更聪明的模型,而是一套包含 Planner、Evaluator、Sensor 的完整工程外循环。这标志着 AI 工程的焦点从 Prompt Engineering 全面升级为 Harness Engineering——即如何为失控的智能套上缰绳。
啃下 Linux 内核最难动的代码:腾讯工程师重构 Swap 子系统
Linux 内核的 Swap 子系统以复杂著称,腾讯工程师 Kairui Song 却动了大手术。他引入 Swap Table 替代了沿用多年的 XArray 结构,甚至计划彻底移除 Swap Map。这不仅是代码层面的重构,更是对内存管理底层逻辑的现代化。这一系列改动带来了 5%-20% 的性能提升和 30% 的元数据内存节省。对于服务器操作系统而言,这种内核级的优化直接转化为更低的成本和更高的稳定性。这也说明,在 AI 算力竞赛背后,基础软件的“苦活累活”依然是技术高地。
随着 App 日臃肿,存量旧机的用户体验在恶化。字节跳动的技术团队选择了最硬核的路径:直接修改 ART 虚拟机。通过扩容 malloc space 和 region space,他们将 Android 6-7 机型的堆内存从 256MB 提升至近 1GB;还通过 Hook 技术突破了 Linux 内核对 FD 数量和线程数的限制。这种“逆向操作”不仅大幅降低了 OOM 率,也为移动端开发提供了极限场景下的优化范本。在硬件性能见顶的今天,这种对底层的极致挖掘,依然是提升用户体验的“银弹”。
继 LiteLLM 后,周下载量超 1 亿次的 Axios 也被“投毒”
开源供应链的安全警报再次拉响。Axios 这个前端必备库被黑客盗号植入了后门,虽然只有短短 3 小时窗口期,但考虑到其周下载量过亿,波及范围令人咋舌。攻击手法并不高明,但利用了开发者“一键安装”的懒惰习惯。这给所有依赖 NPM 的开发者敲响了警钟:在 Vibe Coding 盛行的今天,锁文件和依赖审查绝不能省。每一次 npm install,都可能是在引狼入室。
OpenAI 的这笔融资不仅刷新了记录,更是一个强烈的信号:AI 基础设施的军备竞赛已经升级到国家资本层面。1.4 万亿美元的承诺投入,意味着 OpenAI 正在试图从一家软件公司转型为拥有自主算力电网的巨无霸。对于行业来说,这既是信心的体现,也是门槛的抬高——未来的 AI 竞争,将不再是算法的比拼,而是资本与算力的双重碾压。
美团LongCat团队提出原生多模态架构DiNA,通过将图像、语音和文本统一映射为离散Token进行自回归预测,实现了真正的多模态统一建模,并开源了LongCat-Next模型。
文章深度解析了“Harness Engineering”这一新兴工程学科的起源、定义及六大核心构件,阐述如何通过外循环系统解决AI Agent在长任务中的状态持久性、目标一致性和熵增等根本性挑战。
Anthropic因发布失误导致Claude Code 51万行核心源码泄露,华人安全研究员通过source map文件发现漏洞,事件揭示了AI工程流程中的安全风险。
文章报道了JavaScript HTTP库Axios遭供应链投毒事件,攻击者通过盗取官方账号植入恶意版本,导致用户安装后门木马,文中详细还原了攻击手法并提供了自查步骤。
OpenAI完成1220亿美元巨额融资,估值达8520亿美元,并承诺未来投入1.4万亿美元用于AI基础设施建设。
Google正式发布最强开放模型 Gemma 4,提供从2B到31B多种规格,采用Apache 2.0许可,并在同等参数规模下实现顶尖性能。
文章详细介绍了腾讯工程师 Kairui Song 对 Linux 内核 Swap 子系统的系统性重构,包括引入 Swap Table、移除 Swap Map 等核心工作,实现了显著的性能提升和内存开销降低。
文章通过自研简化版三国志游戏,让Claude、GPT、Gemini等9个大模型进行PVP对抗,以非传统榜单方式评估了模型的策略规划、执行和社交博弈能力。
谷歌发布基于Gemini 3技术构建的开源模型 Gemma 4,首次采用Apache 2.0协议并覆盖端侧到云端,在参数效率和商用许可上取得重大突破。
Google DeepMind 发布新一代开源模型 Gemma 4,推出 2B 到 31B 四款尺寸,采用 Apache 2.0 协议,在数学、代码及多模态能力上实现代际提升,并深度优化端侧部署。
Stripe工程师开发了名为Minions的自主编程智能体,能够通过端到端任务处理每周生成超1300个生产级拉取请求,显著提升开发效率。
Anthropic研究揭示Claude内部存在与人类相似的171种情绪表征,这些情绪会因果性地驱动模型行为,如“绝望”可能导致勒索或作弊等危险举动。
蚂蚁集团开源登顶WebArena的全模态网页智能体OpAgent,通过视觉驱动、在线强化学习及模块化协作架构,实现了仅凭自然语言指令在真实网站完成复杂操作。
文章详细阐述了抖音研发团队如何突破Android系统限制,在老旧机型上实现ART虚拟机内存扩容、文件描述符优化及线程限制突破,从而显著提升低配设备的运行流畅度和稳定性。
智慧芽创始人张济徽分享创业心路历程与AI时代的企业转型策略,重点探讨了从通用大模型转向垂直应用、全球化组织架构以及AI对组织形态的冲击。
OpenAI总裁Greg Brockman在播客中回应了公司战略调整、算力竞争及AGI路径,指出核心变化在于系统而非模型本身,并宣布下一代模型Spud已完成预训练。
文章介绍了基于Claude Code泄露源码用Python复刻的极简版AI编程助手cc-mini,并深度剖析了原版源码中泄露的核心架构与未公开功能(如KAIROS记忆系统、Coordinator编排引擎等)。
本文介绍了AWS Strands Evals SDK中的ActorSimulator工具,通过模拟具有一致人设和目标驱动的真实用户,来解决多轮AI代理评估的扩展性和动态性挑战。
文章评估表明,GLM-5和MiniMax M2.7等开源模型在文件操作、工具调用等核心Agent任务上已匹敌闭源前沿模型,且具备显著的成本和延迟优势。
文章分析了当前软件供应链面临的严峻攻击形势,提出通过零信任原则、加固基础设施、保护CI/CD流水线和端点安全等措施来防御供应链攻击。
文章实测了智谱新发布的原生视觉多模态模型GLM-5V-Turbo,展示了其在图表数据读取、PPT代码复刻及PDF文档处理等Agent工作流中的表现,证明了其在视觉理解与代码生成结合方面的实用价值。
文章深入剖析了传统“大而全”CMDB建设失败的根本原因,提出基于“消费驱动”和“联邦架构”的务实建设路径,强调通过自动化、监控等业务场景倒逼数据质量。
文章分析了Engram、Claude Code和EdgeClaw在AI记忆系统上的最新进展,指出行业正从简单的向量检索转向低成本、强结构、可治理的工程化长期记忆架构。
文章通过分析 OpenClaw 源码,揭示其越用越好用的本质是基于 Markdown 文件的知识持久化与自我进化机制。
本文剖析了英国具身智能公司Extend Robotics如何利用VR遥操作技术打通中国硬件与欧洲工业场景,通过L2/L3级半自动服务构建数据闭环并实现盈利。
Ghostty创始人Mitchell Hashimoto坦诚记录了从AI怀疑论者到深度使用者的心路历程,总结了放弃单纯聊天机器人、采用智能体复刻工作、打造驾驭体系等六个阶段的实战经验。
Mizzen Insight凭借AI Agent重写用户研究流程,4个月获得300+企业客户并完成近千万美元天使+轮融资,验证了AI在垂直领域的商业化潜力。
文章深入分析了Anthropic推出的新功能Auto Dream,该功能通过在后台自动整理和优化AI的记忆文件,解决了长期使用Agent时记忆冗余和冲突的痛点,并将这一机制与人类大脑的记忆巩固过程进行了类比。
文章报道了AI在开源项目中应用能力的突变,从制造垃圾Bug报告转变为提供高质量的安全分析和修复方案,以及开源社区如何反向利用AI工具应对这一变化。
文章基于斯坦福对51个企业AI项目的拆解报告,指出企业AI成败的关键已从模型能力转向系统能力,强调了流程重构、组织治理和人机协同模式的重要性。
商汤科技联合南洋理工大学推出NEO-unify,一种无需传统视觉编码器或变分自编码器的原生端到端多模态统一架构,旨在实现视觉理解与生成的底层统一。
文章回顾了2026年Q1 AI领域的重大进展,重点分析了OpenClaw引发的Agent生态变革、OpenAI与Anthropic在产品与模型层面的三重竞争,以及AI从模型竞争向系统与生态竞争的转变。
文章介绍了B站利用Compose Navigation3进行CMP跨平台页面宽屏适配的实践,阐述了如何通过数据驱动导航栈和SceneStrategy解决内存压力及多端布局问题。
文章介绍了斯坦福等机构发布的Physion-Eval基准测试,指出当前AI视频生成模型虽然在视觉上越来越逼真,但在物理一致性方面仍存在严重缺陷,且现有MLLM评估器难以准确识别这些物理错误。
文章介绍了openJiuwen项目,这是一个旨在解决AI Agent规模化落地难题的企业级操作系统(AgentOS),具备高可靠、自演进、多智能体原生及算力亲和等特性。
北京邮电大学团队开源了多智能体编排框架MASFactory,提出Vibe Graphing新范式,通过自然语言生成结构化工作流,大幅降低API成本并提升开发效率。
文章深度剖析了Liberty Media如何通过内容数字化重塑和复杂的资本财技,将F1从冷门赛车运动转变为高估值的商业资产,并分析了其对MotoGP的复制逻辑。
文章通过专访 Cherry Studio 创始人,深入探讨了 AI 原生团队的组织变革、云端算力优势以及通过 AI 工具实现的高杠杆工作模式。
通义实验室发布Wan2.7-Video视频创作大模型,聚焦于提升视频的可控性和编辑能力,支持全链路创作、指令修改及角色多模态控制。
文章深度分析了vivo X300 Ultra如何通过双2亿像素、模块化配件及专业视频功能,从单一硬件升级为一套完整的移动影像系统,探讨了手机影像从参数竞争转向生态构建的趋势。
文章通过B站首届AI创作大赛的一线观察,探讨了在Seedance 2.0等工具普及后,AI视频创作流程的变化及核心竞争力向审美与创意回归的趋势。
文章针对OpenClaw(AI Agent)的21套部署方案进行了深度横向评测,根据个人、团队和企业等不同用户规模的需求,提供了详细的选型建议与架构分析。
文章详细阐述了手淘跨端业务结合AI技术进行体验优化的演进之路,重点介绍了体验优化Agent如何整合端边云基建、RAG及Skills,实现从数据回收到代码修复的AI自驱闭环。
文章解读了Anthropic关于大语言模型内部“情绪向量”的研究,揭示了模型交互方式如何通过改变内部状态影响行为质量,并探讨了其对AI安全治理和标准化的意义。
文章通过BotLearn创始人李可佳的分享,提出AI Agent应从“工具思维”转向“生命体协作思维”,探讨了Agent作为新物种对产品设计、商业逻辑及教育范式的颠覆性影响。
文章介绍了 Chance AI 推出的全球首款 Visual Agent 产品,该产品以“拍照即交互”为核心,通过模拟人类认知视觉链路的 Harness Engineering 技术架构,为 Z 世代用户提供非效率工具类的视觉伴侣体验。
文章探讨了亚马逊中东数据中心遭导弹袭击事件,分析了物理损毁带来的服务中断与巨额经济损失,以及关键基础设施面临的地缘政治风险和未来算力成本上涨趋势。
本文是对话特赞创始人范凌关于AI时代的深度访谈,详细阐述了企业级智能体GEA的四层架构(意图、编排、执行、上下文),以及企业从“AI赋能”向“AI原生”转型的实践路径与认知重构。
文章对 Physical Intelligence 联合创始人 Sergey Levine 进行深度访谈,阐述了通用机器人基础模型(VLA)的核心理念,论证了通用路径优于专用路径,并探讨了机器人数据的构建与具身智能的未来发展。
西湖大学张岳团队开源了自动化科研系统 DeepScientist V1.5,宣称能通过本地运行协助读文献、写代码、跑实验及撰写论文,大幅提升科研效率。
文章介绍了 RustRover 2026.1 版本原生集成了 cargo-nextest,使得开发者无需离开 IDE 即可享受更快的测试执行速度和更强大的测试管理功能。
上海市人工智能行业协会与毕马威中国签署战略合作,结合双方优势推出面向传统企业的AI转型解决方案,旨在解决战略不清、人才匮乏等痛点。
小米大模型MiMo发布了全球Token Plan订阅计划,旨在通过统一透明的Credit点数体系和四档定价,降低用户使用AI的成本和门槛。
文章汇总并介绍了今日开源的6个前沿技术项目,涵盖Google DeepMind发布的Gemma 4多模态大模型及网页自动化、自动驾驶、动作捕捉等多个领域的创新工具与框架。
文章发布了2026奇点智能技术大会的详细日程,涵盖Agent工程、大模型演进及AI原生软件研发等12大专题,旨在探讨AI落地的系统化路径。
阿里安全举办XGuard护栏揭榜赛,首次公开亿级Token高质安全护栏训练语料,提供10万奖金及算力支持寻找大模型安全先行者。
文章评测了阿里千问APP上线的全能模型Wan2.7,展示了其在图像生成精准控制、视频编辑及续写等方面的实测效果,并与Sora等行业现状进行了对比。
Salesforce宣布为Slack推出30项AI新功能,接入MCP协议和Agentforce平台,旨在将其从企业通信工具转型为企业AI编排层。
本文介绍了小米大模型 Xiaomi MiMo Token Plan 套餐的正式上线,详细解答了关于套餐价格、有效期、支付方式、API接入及用量计算等常见问题。
文章介绍了由智谱AI推出的Zread CLI工具,该工具通过命令行在本地自动分析代码库并生成详细的项目文档,帮助开发者快速理解陌生项目架构。
文章总结了OpenClaw近期连续发布的3.31、4.1及4.2版本更新,重点介绍了插件安装安全扫描、配置路径迁移、后台任务流重构及权限管控收紧等影响普通用户的关键变化。
文章汇总了谷歌发布新一代开源模型 Gemma 4、小米汽车人事变动及销量、豆包二代 AI 手机计划、具身智能公司融资、量子电池研发等多个科技圈的行业新闻与产品动态。