奔跑的高达

🤖 AI日报:清华开源TurboDiffusion提速200倍,通义万相2.6支持角色扮演

· 高高 · 阅读

今天AI产业呈现出多点开花的繁荣景象:从视频生成效率的200倍提升,到角色扮演视频的革命性突破,从机器人空间感知的根本性解决,到AI编程工具的轻量化升级,每一个环节都在实现质的飞跃。

📰 今日速览

清华开源TurboDiffusion视频提速200倍,通义万相2.6支持角色扮演,原力灵机GeoVLA破机器人空间感知,智谱发布Z Code工具,腾讯混元推ETC智能体,具身智能订单激增3倍

🚀 第一部分:今天AI圈发生了啥大事

💡 清华开源TurboDiffusion,视频生成提速200倍实现"秒级出片"

今天,清华大学TSAIL实验室与生数科技联手开源了TurboDiffusion框架,在单张RTX 5090显卡上实现了最高205倍的视频生成加速,将5秒视频的生成时间从3分钟缩短至1.9秒。这一突破极大地降低了视频生成的硬件门槛和时间成本,让消费级显卡也能高效创作AI视频。

该框架支持保持视频质量的前提下,将端到端扩散生成的推理速度提升100到200倍。在RTX 5090上,1.3B-480P模型从184秒降至1.9秒,实现97倍加速。这一革命性突破标志着AI视频生成技术已经从实验室阶段走向实用化,为广告、影视、游戏等行业的内容创作者提供了强大的生产力工具。

🌍 通义万相2.6上线,支持角色扮演国产视频模型

阿里云在今天正式发布了通义万相2.6版本,这是全球首个支持角色扮演的视频生成模型。用户可以通过自然语言描述生成复杂的剧情视频,让AI成为"演员"、“导演"或"摄影师”,并让不同的角色在同一画面中互动。

通义万相2.6的核心亮点在于革命性的"Starring"(参演)角色扮演功能。把你自己做成角色,放进片场,让对手也"拉进来"。同框、配音、对手词、进片场——从围观,到参与;从打卡,到出演。“Starring"角色扮演让用户直接成为片里的人。

该模型在时空一致性和细节保真度上取得了显著进步,有效解决了早期视频生成模型常见的画面闪烁、物体形变等问题。其生成的视频在艺术表现力和叙事连贯性上均达到行业领先水平。

🏆 智谱AI发布Z Code,轻量级AI编程工具实现"界面友好”

智谱AI在今天正式发布了名为Z Code的AI协同开发工具,目前处于Alpha版阶段。该工具的核心优势在于将AI Agent与现有开发工具链进行了深度整合,不仅具备跨仓库的全代码库理解能力,还能够支持多仓库的上下文推理以及自动化的代码审查工作,旨在无缝接入开发者现有的工作流。

Z Code被定位为"轻量级"AI编程工具,强调界面友好性,降低了AI编程工具的使用门槛。在智谱IPO前夕推出这一工具,展现了中国AI企业在AI辅助编程领域的持续创新能力。

🏠️ 原力灵机发布GeoVLA框架,破解机器人"空间失明"难题

原力灵机团队推出了全新GeoVLA(视觉-语言-行动)框架,精准攻克了现有主流模型的"空间失明"痛点,为智能机器人适配真实复杂环境扫清关键障碍。

GeoVLA是一款专为具身智能Agent设计的统一架构模型。该模型的核心目标是解决序列化推理与高速运动控制之间的逻辑冲突。GeoVLA采用了创新的混合架构,通过因果注意力机制进行Chain-of-Thought(CoT)推理,并能动态切换至双向注意力机制,以实现高维度的并行动解码。

这一突破标志着机器人在复杂环境中的导航和作业能力将得到质的提升,为人形机器人和四足机器人的实际应用铺平了道路。

🚗 腾讯混元推出ETC领域首款AI智能体,多模态交互重塑智能出行

腾讯云联合安徽驿路微行科技联合推出ETC领域的首款AI智能体——“助手Agent”,基于腾讯混元大模型,为用户提供便捷高效的智能服务。该智能体的问答准确率高达95%,问题解决率达90%,支持多模态交互,用户可通过语音直接控制设备,实现"所说即所得"。

自今年4月内测以来已服务超百万用户。这一突破标志着AI大模型技术正式落地交通出行刚需场景,从"人适应机器"转向"机器适应人"的时代正式到来。

🎙️ 小红书开源InstanceAssemble,AI绘画实现精准构图突破

小红书携手复旦大学,联合推出布局控制生成领域的突破性方案InstanceAssemble,通过创新的"实例组装注意力"机制,实现了从简单到复杂、稀疏到密集布局的精准图像生成。这项技术已开源,代码与预训练模型可在GitHub获取,适用于设计、广告与内容创作等领域。

InstanceAssemble能够精准理解图像中的多实例布局关系,在保持每个实例独立性的同时,正确处理它们之间的空间关系。这项技术成果已被NeurIPS 2025收录,标志着AI图像生成技术在复杂场景理解方面取得了重大突破。

🎵 Liquid AI发布LFM2-2.6B-Exp,纯强化学习训练的3B级别最强模型

Liquid AI正式发布了实验性模型LFM2-2.6B-Exp。该模型基于原有的LFM2-2.6B模型,完全利用纯强化学习技术训练而成。尽管参数量仅为2.6B左右,但官方宣称其为目前市场上性能最强的3B级别模型。

在指令遵循、知识获取以及数学基准测试中,该模型表现异常优异,展现了强化学习在AI模型训练中的巨大潜力。这一突破为AI训练方法提供了新的思路,证明了不依赖海量数据的纯强化学习也能训练出高性能模型。

🏛️ 上海交大推出全光生成式AI芯片LightGen,实现算力革命

上海交通大学陈一彤课题组推出了全球首款全光生成式AI芯片LightGen,实现了"王炸"级别的突破。该芯片在架构上采用光计算和电子计算的融合架构,利用光子计算的并行性和高带宽优势,解决了AI算力面临的内存墙和功耗墙瓶颈。

LightGen芯片能够支持大规模语义媒体生成模型的实时推理,在图像、视频、语音等多模态内容生成方面展现出巨大潜力。这一突破标志着光计算与AI计算的融合进入实用化阶段,为AI算力的未来提供了全新的硬件基础。

📊 AI核心产业规模首破万亿,大模型国标正式实施

根据最新数据,2030年全球生成式AI消费支出预计逼近7000亿美元,AI核心产业规模已首破万亿人民币。AI产业的软硬件协同成为竞争关键,拥有完整"芯片-框架-模型-应用"全栈技术能力的企业将占据主导地位。

在国家标准方面,**GB 45438-2025《人工智能生成合成内容标识方法》**已正式实施,这项强制性国标为AI内容戴上了"身份标签"。阿里云"通义千问"、科大讯飞"星火大模型"等头部企业率先通过了GB/T 45654国家标准试点验证,获得了首批《人工智能安全国家标准符合性自评估证书》。

🔤 深势科技完成超8亿元C轮融资,北京AI基金密集布局

深势科技完成了总额超8亿人民币的C轮融资,在2025年科技行业创投市场相对谨慎的背景下,这一融资成为了引人注目的行业新闻。深势科技作为全球头部AI4S(AI for Science)公司,其融资成功反映了资本市场对AI在科学研究领域应用前景的认可。

北京市人工智能产业投资基金再次出手,正式入股九章云极科技。这一资本动向不仅标志着国内AI基础设施领域迎来"国资+龙头"的深度绑定,更折射出北京在人工智能底层技术布局上的战略决心。

🚀 具身智能订单激增3倍,具身智能进入规模化商业落地阶段

根据QuestMobile发布的最新AI应用周活排行榜,字节跳动旗下三款产品上榜,蚂蚁集团两款应用入榜,显示出两家企业在AI应用落地方面的领先态势。

更重要的是,位于四川的某具身智能机器人训练场在试运营仅两个月后已接到大量订单,生产排期已延至2026年。其中,焊接机器人的出货量实现翻倍增长,出口订单更是激增3倍。这些机器人不仅能完成家庭清洁、物品递送等基础家务,还能在工业装配、精密焊接等复杂场景中稳定作业。

奇瑞的Argos机器狗搭载了与奇瑞高端智驾系统同源的感知架构,在车身上该架构用于识别红绿灯和复杂路况,在机器人身上则被转化为对工厂物料柜位、社区违规停放车辆以及家庭成员表情姿态的深度理解。更重要的是,Argos采用了智驾中的"Occupancy占用网络"技术,实现了端到端规划逻辑,摆脱了传统机器狗依靠预设代码避障的限制。

💰 AI行业并购频发,百纳千成蛇吞象收购光库科技

百纳千成蛇吞象收购光库科技,以16.4亿元收购光库科技30%的股权,引发行业震动。光库科技作为光学器件领域的知名企业,此次并购标志着光库科技将正式切入AI光计算赛道,百纳千成作为光模块封装领军企业,其在AI光学领域的客户资源与技术积累,与光库科技在光学领域的深厚积累形成完美协同。

在汽车智能化领域,奔驰正式入股千里科技,1.36亿股股票完成过户,奔驰成为千里科技第五大股东。据报道,奔驰已与千里科技达成长期战略合作协议,将围绕人工智能技术、智能驾驶、智能座舱等智能化领域展开深度合作。


🎁 第二部分:Product Hunt今日热门产品

🔍 Thordata:通过代理为AI训练提供高质量、规模化的数据

今日冠军产品,获得189票。Thordata为AI团队和数据驱动型企业提供住宅、移动和数据中心代理基础设施,实现可靠的全球网络数据收集、负责任的区域访问以及平稳可扩展的长期数据管道。从一开始,Thordata就专注于性能、稳定性和合规性。

了解更多:Thordata

Thordata功能展示

对于AI团队来说,这工具能大幅提升数据收集的效率和质量。

👥 NBot:个性化策展人,呈现您所关心的内容

188票的第二名产品。NBot为您阅读整个互联网——新闻、小众博客、社交媒体、论坛——然后消除99%的噪音,呈现真正重要的1%。它将混乱重构为清晰、可操作的信息流和简报,让您节省时间,掌握新兴信号,并做出更快、更明智的决策。

了解更多:NBot

NBot界面展示

对于需要从海量信息中筛选重要内容的用户来说,这是必备的信息过滤工具。

📸 Clarity:咖啡因追踪以优化您的摄入量

140票的第三名产品。Clarity最初是一个简单的咖啡因追踪应用,现在已发展成为一个性能应用,帮助用户根据其特定的优化目标更策略性地使用咖啡因。Clarity Intelligence利用设备上的AI提供量身定制的洞察。

了解更多:Clarity

Clarity界面展示

对于需要精准控制咖啡因摄入的健康用户来说,这工具能帮助优化摄入策略。

📹 Tubeletter:将YouTube视频转化为新闻通讯

124票的第四名产品。Tubeletter让您订阅您最喜爱的YouTube博主的新闻通讯——或为您的频道创建新闻通讯。AI将视频转化为易于理解的摘要,直接发送到您或您的订阅者的收件箱。

了解更多:Tubeletter

Tubeletter功能展示

对于需要为YouTube频道建立邮件订阅的开发者来说,这工具能大幅提升内容分发的效率。

🤖 Erla:改进您掌握和理解语言的方式

98票的第五名产品。Erla是一款语言学习应用,其使命只有一个:帮助您最终理解语言。使用最佳AI模型,为您提供超短的听力和阅读课程。聆听您实际可以使用的真实场景,阅读短篇故事,点击任何句子即可查看解释、词义和语法分解。Erla旨在帮助您快速理解一门新语言,这样当有人与您交谈时,您就不会不知所措。

了解更多:Erla

Erla界面展示

对于需要快速学习新语言的用户来说,这工具能大幅提升学习效率。

🏘️ CrowdSynthetic:在人群拥堵发生前进行预测

79票的第六名产品。CrowdSynthetic是一款开源AI人群安全模拟器,可在拥堵变得危险之前进行预测。它可视化移动,生成实时热图,对区域级别风险进行评分,并触发自动化疏散逻辑。专为音乐会、节日、寺庙和体育场馆设计。

了解更多:CrowdSynthetic

CrowdSynthetic界面

对于活动组织者来说,这工具能显著提升大型活动的安全保障水平。


💭 今日感悟

今天的AI资讯展现了一个产业在加速演进中的全景图:从视频生成效率的200倍提升,到角色扮演视频的革命性突破,从机器人空间感知的根本性解决,到AI编程工具的轻量化升级,每一个环节都在实现质的飞跃。

清华开源TurboDiffusion的意义深远,它不仅将视频生成速度提升了200倍,更重要的是,这一突破极大地降低了AI视频生成的硬件门槛,让消费级显卡也能高效创作AI视频。这一革命性突破标志着AI视频生成技术已经从实验室阶段走向实用化,为广告、影视、游戏等行业的内容创作者提供了强大的生产力工具。

通义万相2.6的角色扮演功能标志着AI视频生成进入了"人人都是导演"的新时代。用户可以通过自然语言描述生成复杂的剧情视频,让AI成为演员、导演或摄影师,实现从脚本到成片的一站式创作。这一突破将彻底改变视频内容创作的生产流程,让每个人都能成为内容创作者。

原力灵机GeoVLA框架的发布,标志着机器人在复杂环境中的导航和作业能力将得到质的提升。该框架通过因果注意力机制和双向注意力机制的动态切换,解决了序列化推理与高速运动控制之间的逻辑冲突,为人形机器人和四足机器人的实际应用扫清了关键障碍。

智谱AI发布Z Code工具,展现了AI编程工具轻量化的发展趋势。相比于重量级的编程辅助工具,Z Code强调界面友好性和无缝接入开发者现有工作流,降低了AI编程工具的使用门槛。这一举措标志着AI编程工具正在从"专家级工具"向"普惠级工具"转变。

腾讯混元推出ETC助手Agent,标志着AI大模型技术正式落地交通出行刚需场景。智能体的问答准确率高达95%,问题解决率达90%,支持多模态交互,用户可通过语音直接控制设备。这一突破标志着AI正在从"技术展示"阶段迈向"实际应用"阶段,真正实现"所说即所得"。

小红书开源InstanceAssemble,展现了AI在图像理解方面的巨大进步。InstanceAssemble能够精准理解图像中的多实例布局关系,在保持每个实例独立性的同时,正确处理它们之间的空间关系。这一突破为AI在复杂场景下的应用提供了新的技术思路。

上海交大推出全光生成式AI芯片LightGen,展现了光计算与AI计算融合的巨大潜力。光子计算的并行性和高带宽优势,解决了AI算力面临的内存墙和功耗瓶颈,为AI算力的未来提供了全新的硬件基础。

AI核心产业规模首破万亿,标志着AI已经从"前沿技术探索"阶段迈入"产业规模化应用"阶段。软硬件协同成为竞争关键,拥有完整技术链的企业将占据主导地位。

具身智能订单激增3倍,标志着具身智能技术已经跨越"实验室演示"阶段,正式进入规模化商业落地的新纪元。这些机器人不仅能完成基础家务,还能在工业装配、精密焊接等复杂场景中稳定作业,市场需求爆发标志着AI正在从虚拟世界走向物理世界。

在这个AI加速演进的历史时刻,我们既要为技术的突破感到兴奋,也要保持清醒的思考和审慎的态度。只有这样,AI技术才能真正造福人类,推动社会向更美好的方向发展。

感谢收听今天的AI日报,我们下期再见!