小米开源首代机器人 VLA 大模型,刷新多项 SOTA!
小米发布并开源了首代机器人 VLA 大模型 Xiaomi-Robotics-0,采用 MoT 架构在三大主流仿真测试中刷新 SOTA,实现高性能实时执行与物理智能泛化。
今日科技圈迎来了一场久违的“硬核狂欢”。智谱 GLM-5 以开源之姿暴力登顶,其“Agentic Engineering”的新范式不仅让代码写作进化为系统工程,更在多项核心指标上正面硬刚 Claude Opus 4.5。与此同时,具身智能领域同样硝烟弥漫,小米与高德接连发布 SOTA 级机器人基座模型,展示了极高的工程落地能力;而字节与小红的在多模态生成与图像编辑上的突破,则为内容生产带来了新的想象力。这不仅仅是技术的迭代,更是 AI 从“玩具”走向“工具”的转折点。
GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!
智谱今日发布的 GLM-5 绝对是今日的重磅炸弹,它标志着大模型正式从“Vibe Coding”(写个 Demo 玩玩)迈向“Agentic Engineering”(完成系统工程)。这不仅是参数规模从 355B 扩展至 744B 的量变,更是长程任务规划与复杂工程交付能力的质变。其集成的 DeepSeek Sparse Attention 机制有效解决了长文本成本痛点,而异步强化学习框架“Slime”则让模型具备了从长程交互中持续进化的能力。对于开发者而言,这意味着我们终于拥有了一个能真正重构后端、处理“屎山代码”且逼近 Claude Opus 4.5 体感的开源基座,这将极大推动企业级 AI Agent 的落地进程。
速递|硅谷禁忌打破!Founders Fund等领投Anthropic200亿美元融资,同时押注OpenAI
在智谱与国内厂商激战正酣时,大洋彼岸的资本狂欢也在上演。Anthropic 即将完成的 200 亿美元融资,估值飙升至 3500 亿美元,这不仅是硅谷历史上最大规模的初创企业融资之一,更打破了一条“硅谷禁忌”——领投方 Founders Fund 同时也是 OpenAI 的投资方。这一信号极具深意:在 AI 变现的终局面前,纯粹的阵营站队已不再重要,资本更倾向于在通往 AGI 的可能路径上通过“双押”来对冲风险。这也侧面印证了当前 AI 行业的火热程度已远超传统投资逻辑的范畴。
如果说 GLM-5 解决了“脑子”的问题,那么小米的 Xiaomi-Robotics-0 则解决了“手脚”的协调难题。具身智能长期以来面临“思维卡顿”的痛点,即在真实物理世界中推理延迟导致动作不连贯。小米通过 MoT(Mixture-of-Transformers)架构,将 VLM“大脑”与 DiT“小脑”分离,配合异步推理与 Lambda 形注意力掩码,在 4.7B 参数规模下实现了 80ms 的超低延迟和 30Hz 的实时控制。这意味着机器人可以在消费级显卡上实现“丝滑赛德芙”般的操作,其务实进厂的路线图已非常清晰,这为具身智能从炫技走向工业场景提供了极具价值的参考样本。
高德发布两款ABot系列基座模型,达成全球首个具身操作和具身导航”双SOTA”
高德今日的发布则补齐了机器人规模化落地的另一块拼图——导航与操作的统一。不同于以往单一任务的模型,ABot-N0 首次在单一模型中集成了点位、目标、指令跟随等五大导航任务,构建了真正的“全栈导航基座”。结合 ABot-M0 在操作上的 SOTA 表现,高德实际上构建了一套从“理解指令”到“精准操作”的完整闭环。对于行业来说,这种跨平台的数据融合与统一动作表示,是打破机器人数据孤岛、实现规模化复用的关键基础设施,其生态意义不容小觑。
字节跳动的 Seedance 2.0 展示了“导演级”视频生成的可能性。它不再局限于简单的文生视频,而是通过统一的多模态音视频联合架构,支持文字、图片、音频、视频的混合输入与编辑。更值得关注的是其对物理规律遵循能力的提升,无论是双人花滑的复杂交互,还是 ASMR 视频中的细腻音效,都达到了工业级制作的水准。这表明 AI 视频生成正在从“抽卡娱乐”向“专业生产力”过渡,未来影视、广告的制作门槛将被大幅降低。
小红书发布FireRed-Image-Edit:图像编辑新SOTA
小红书带来的 FireRed-Image-Edit 则直指图像编辑的痛点——尤其是文字编辑的精准度。通过引入 Layout-Aware OCR-based Reward,该模型不仅能修正错别字,还能保持字体的风格与布局的合理性,这对于海报设计、电商物料修改等高频场景至关重要。其开源不仅提供了 SOTA 级的工具,更通过 RedEdit Bench 建立了新的评测标准,推动了社区对图像编辑“可用性”而非单纯“艺术性”的关注。
速递|GitHub前CEO创办Entire,创开发工具领域种子轮融资纪录,获6000万美元融资
随着 GLM-5 等 Agent 能力的爆发,代码生成速度已远超人类审阅速度,GitHub 前 CEO 创办的 Entire 正是为了解决这一“消化不良”的问题。Entire 试图建立一套适应 AI 智能体的原生软件生产体系,通过“通用语义推理层”让 AI 生成的代码与其生成背景(如提示词、对话记录)绑定,从而让人类能够真正理解 AI 的决策逻辑。这预示着开发工具正在从单纯的“编辑器”向“AI 协同管理系统”演变,未来代码审查的逻辑将发生根本性改变。
今日开源(2026-2-12):智谱GLM-5技术突破,参数扩至7440亿,DSA稀疏注意力+slime架构赋能复杂系统工程
除了巨头,开源社区今日同样热闹。MiniCPM-SALA 通过稀疏与线性注意力的混合机制,实现了百万级 Token 上下文的高效推理,为长文档处理提供了新思路;而 MeepleLM 则另辟蹊径,专注于桌游领域的虚拟测试,展示了 AI 在模拟主观体验与游戏规则理解上的潜力。这些细分领域的创新,共同构成了 AI 技术落地的丰富生态。
小米发布并开源了首代机器人 VLA 大模型 Xiaomi-Robotics-0,采用 MoT 架构在三大主流仿真测试中刷新 SOTA,实现高性能实时执行与物理智能泛化。
智谱发布开源SOTA模型GLM-5,在编程与Agent能力上对标Claude Opus 4.5,推动行业迈向Agentic Engineering新范式,并提供了本地部署与推理实战指南。
小红书Super Intelligence Team发布图像编辑新SOTA模型FireRed-Image-Edit,在复杂指令处理、文字编辑等方面表现优异,并开源了代码、技术报告及Demo。
智谱发布全新开源模型GLM-5,以卓越的系统级工程能力和编程实力登顶全球开源第一,标志着从Vibe Coding向Agentic Engineering的范式转变。
高德发布两款ABot系列基座模型,在全球范围内首次达成具身操作和具身导航领域的‘双SOTA’(当前最佳)成就,标志着具身智能技术的重大突破。
GitHub前CEO创办Entire,获6000万美元种子轮融资,创开发工具领域融资纪录。该公司致力于构建适应AI时代的软件生产体系,推出开源工具Checkpoints帮助开发者管理AI智能体生成的代码。
Anthropic即将完成由Founders Fund等领投的200亿美元融资,估值飙升至3500亿美元,标志着硅谷投资者打破禁忌同时押注OpenAI与Anthropic。
文章正式宣布了GLM-5模型的开源,强调了其在从'Vibe Coding'向'Agentic Engineering'演进中的技术突破,特别是在复杂系统工程和长程Agent任务上达到了开源SOTA水平。
文章介绍了小米开源的首代具身VLA大模型Xiaomi-Robotics-0,该模型通过双脑协同架构等创新实现80ms推理延迟,并在多项基准测试中刷新SOTA,展现出强大的工业落地潜力。
文章报道了智谱GLM-5、MiniMax M2.5及DeepSeek在同夜进行的关键技术更新,重点分析了GLM-5在Agentic Engineering与工程能力上的突破。
字节跳动正式发布新一代视频创作模型 Seedance 2.0,采用统一多模态架构,显著提升了复杂运动表现、物理准确度及工业级可控性。
文章报道了智谱GLM-5的重大技术突破,参数规模扩展至7440亿并引入DSA稀疏注意力及slime架构,同时汇总了MiniCPM-SALA、小米VLA机器人模型等多个前沿AI项目与框架。
文章介绍了阿里ALake基于Paimon Blob的多模态数据存储方案,通过分离结构化与非结构化数据并创新blob文件机制,解决了海量多模态数据统一存储与高效处理的问题。
本文详细介绍了将通义晓蜜外呼能力封装为OpenClaw标准Skill,从而构建出具备端到端执行能力的“数字招聘专员”的完整技术实践。
Adobe首席科学家David Sankel与吴咏炜深度对话,探讨在Rust崛起与AI编程时代的背景下,C++在内存安全、工具链生态及未来发展中的挑战与不可替代的优势。
文章分析了智谱GLM-5发布的意义,阐述了从“氛围编码”向“代理工程”转变的行业趋势,并探讨了模型能力提升带来的显性成本问题。
文章基于NeurIPS 2025的洞察,论证了LLM拥有不同于人类的独特智能,指出强基准测试无法转化为实际生产力,并主张重塑开发流程以适应AI驱动的生态系统。
文章介绍了Claude Skills的机制原理,并详细展示了如何利用OpenSkills方案将其适配到阿里云灵码中,实现了基于Skill的代码审核功能。
智谱AI发布新一代开源旗舰模型GLM-5,通过Slime强化学习框架和稀疏注意力机制,在复杂系统工程与长程Agent任务上对标顶尖闭源模型,标志着AI编程从写代码转向写工程。
本文评测了智谱最新发布的GLM-5模型,通过红白机项目重构和写作工作流实测,指出其已从单纯的代码执行者进化为具备系统规划能力的架构师,标志着开源模型正式进入Agentic Engineering时代。
文章深度评测了名为Pony的神秘开源模型(实为国产GLM-5),通过金门大桥3D渲染、塔罗牌全栈应用及开源项目修复实战,验证了其达到Claude Opus级别的工程化编码能力。
文章介绍了中国独角兽松鼠Ai凭借L5级多模态智适应教育大模型入选《时代》周刊2025年“最佳发明”,并详细阐述了其从辅助教学到自主教学的技术突破及在全球教育公平化方面的实践。
文章通过一个真实案例,拆解了如何将“务虚”的项目汇报会转化为“务实”的价值展示,通过精准匹配客户需求(展示成绩、推动落地、宣传亮点)来推动项目进展。
文章评测了智谱AI发布的开源大模型GLM-5,认为其在Coding和Agent能力上已逼平Claude Opus 4.5,是国内极具性价比的顶级模型。
文章基于GLM-5开源事件,提出了AI时代的9个反共识观点,核心观点包括免费模式终结、Token将因Agent需求爆发而涨价、企业竞争焦点转向Token ROI及AI取代中层管理。
智谱AI发布开源模型GLM-5,凭借744B参数和稀疏注意力机制登顶开源智力排名第一,在抗幻觉和经济价值任务上表现卓越。
AI教母李飞飞在访谈中指出,空间智能是AI的下一个前沿,超越了语言模型的范畴,将推动机器人、游戏及实体世界模拟的发展。她强调AI是文明级技术,必须让多元人群参与以实现本土化和普惠化。
这是一篇关于基础智能体记忆机制的技术综述,提出从记忆基质、认知机制和记忆主体三个维度构建统一视角,并分析了其在长程交互和现实环境中的应用与挑战。
文章分析了AI编程带来的代码激增与维护成本指数级上升之间的矛盾,深入介绍了Resolve AI利用多agent系统接管生产运维的技术路径及其对软件工程范式的潜在改变。
本文通过浙江大学彭思达博士与算法专家郝孝帅博士的圆桌对话,深度探讨了具身导航从几何规划向空间智能演进的范式变革,以及感知推理与执行控制在技术落地中的博弈。
文章评测对比了国产AI视频模型Seedance 2.0与Vidu Q3,指出两者在表演张力、视听一体及商业化节奏上均达到顶尖水平,标志着中国AI视频模型技术已跻身全球第一梯队。
文章基于 a16z 的视角,分析了 AI 公司的极高增长效率及人均 ARR 的提升,指出非 AI 原生公司必须进行深度重构才能生存,同时论证了 AI 基础设施投入与需求的匹配度。
文章首发评测了 MiniMax M2.5 模型,通过全栈开发、数学可视化及企业级 CMS 构建三个实测案例,验证了其 10B 参数下接近旗舰模型的编程与智能体能力。
文章介绍了AI公司自由量级发布的音乐大模型“音潮V3.0”,其具备一句话生成歌曲、照片写歌等功能,且在演唱质量和编曲丰富度上有显著提升。
文章深入解读了X平台(原Twitter)开源的核心推荐算法代码,详细分析了其召回与精排的Decoder--Only Transformer架构、候选隔离机制及系统流程。
文章深度评测了字节跳动旗下Seedance 2.0模型的技术突破与应用场景,指出其凭借“导演思维”解决了AI视频分镜难题,标志着AIGC进入青年时代。
UIUC开源了智能模型路由框架LLMRouter,提供16+路由策略及统一的训练、评测、推理流水线,旨在通过动态选择最优模型来权衡性能、成本与延迟。
文章深度测评了字节跳动推出的Seedance 2.0视频模型及其在“小云雀”Agent中的应用,展示了其在多主体一致性、叙事理解及跨模态参考方面的显著突破。
文章介绍了如何利用 MemOS 插件实现两个 OpenClaw 智能体的记忆共享与无缝协作,以完成创意策划与执行落地的分工任务。
维基媒体基金会与Amazon、Meta等AI巨头建立合作,通过Wikimedia Enterprise提供API数据访问,分担服务器成本并规范数据使用。
文章探讨了未来两年软件工程的五大关键问题,分析了AI如何重塑初级开发者招聘、技能要求、角色职责、专通才平衡及教育体系,并对不同情景提出了应对策略。
智谱 AI 发布最新旗舰大模型 GLM-5,参数规模与代码能力大幅提升,在多项基准测试中对齐 Claude Opus 4.5 并实现开源 SOTA,同时支持国产芯片部署。
文章深入分析了小红书在2026年春节期间上线的AI语音功能(如语音评论、语音问一问),并详细解读了其背后的FireRed系列大模型与全双工语音交互技术栈。
文章介绍了 ICLR 2026 接收的 SwingArena,这是一个基于真实 CI 环境的对抗式代码评测框架,旨在评估模型从写代码到通过审查的全栈工程能力。
OpenAI 发布了 Open Responses 开放规范,旨在统一智能式 LLM 工作流标准,解决 API 碎片化问题,实现专有与开源模型间的无缝切换。
文章记录了作者从零构建类 Claude Code 智能体的实战过程,详细阐述了从 V0 版本的字符串 ReAct 到工具体系重构及 Function Calling 协议升级的工程实践与踩坑经验。
文章深入剖析了马斯克在 xAI 全员会上关于裁员潮的解释、公司四大团队的新架构,以及关于 AI 将直接生成二进制、无需编写代码的激进技术预测。
文章回顾了 Google Play 在 2025 年的成就,重点介绍了跨平台游戏体验、AI 辅助工具、变现功能升级及开发者扶持计划等多方面的更新。
文章对比测评了中国AI模型DeepSeek与智谱GLM-5在推理、前端开发、3D构建及Agentic能力方面的表现,认为GLM-5在综合能力和执行复杂任务上表现优异,甚至比肩国际顶尖模型。
OpenCSG发布Fineweb-Edu-Chinese V2.2数据集,利用DeepSeek V3.2从高质量语料中蒸馏出143.7万条问答对,补全了从预训练到监督微调的全流程数据解决方案。
文章深入评测了开源模型 GLM-5 在复杂工程任务中的表现,指出其具备从规划到执行的完整“架构师级”能力,标志着开源界已能接住 Agentic Coding 的接力棒。
这是一篇2025年末AI领域的深度行业复盘文章,从模型技术、应用落地、巨头竞争、具身智能及硬件等7个维度梳理了全年的关键进展与趋势。
文章独家报道荣耀前 CEO 赵明将加入千里科技任联席董事长,重点推进 AI 商业闭环,与印奇形成技术与商业互补。
文章汇总了近期汽车交通行业的资讯,涵盖宝马全球召回、1月乘用车销量数据以及文远知行与Waymo在自动驾驶领域的商业进展。
这是一篇汇总了胖东来创始人退休、小米汽车停产、AI大模型进展及多家企业融资动态的综合科技早报。
文章报道了文远知行携手Uber将Robotaxi服务首次拓展至阿布扎比市中心的消息,展现了其自动驾驶技术的商业化运营进展。
文章宣布NVIDIA Nemotron 3 Nano 30B模型现已在Amazon SageMaker JumpStart上正式可用,并介绍了该模型的架构特点及部署方法。
文章汇总了近期AI行业的最新动态,包括DeepSeek和MiniMax的大模型更新、智谱GLM-5发布以及Modal Labs等初创公司的投融资新闻。
文章评测了国产大模型MiniMax-M2.5的上线表现,重点展示了其在网页设计、游戏制作和专业报告生成方面的强项,同时也指出了其在新闻实时性和视频生成上的不足。
文章汇总了近期科技圈的重要动态,重点包括马斯克计划在月球生产AI卫星、DeepSeek开启百万级上下文灰度测试、以及国产大模型GLM-5和Minimax 2.5的发布。
文章分析了0经验转行AI产品经理的常见误区,将其分为三个层次并推荐了成为应用型AI产品经理的路径,最终目的是推广起点课堂会员课程。
文章介绍了 Windows 自带的轻量级虚拟化功能 Windows Sandbox,讲解了其功能特点、安装步骤及应用场景,旨在提供一种安全的临时测试环境。