量子位专访陶哲轩:我为什么现在创办一个AI x Science组织
数学家陶哲轩在专访中阐述了他联合创办SAIR Foundation的动机,旨在通过“AI x Science”推动学术界与产业界合作,解决AI在科研中的可信度与可解释性问题,并实现科研的普惠化。
今天的技术圈简直是“火力全开”。Anthropic 彻底拆除了 AI 的记忆墙,百万上下文不再是奢侈品而是标配,这意味着我们可以直接把整个代码库扔给 AI 处理。与此同时,具身智能在工业场景拿下了吉尼斯纪录,陶哲轩也亲自下场推动 AI 与科学的深度融合。软件开发的边界正在被重塑,而机器人正在学会在复杂的物理世界中“干活”。
Claude两款4.6模型取消长文本溢价,支持直塞600张图
Anthropic 这次是真的“掀桌子”了。Opus 4.6 和 Sonnet 4.6 全面开放 100 万 token 上下文,且完全取消溢价费用,统一计费。更狠的是,多模态处理能力提升 6 倍,单次请求支持 600 张图或 PDF 页面。这不仅仅是参数的堆砌,它彻底改变了开发者的交互模式:不再需要为了适配上下文窗口而做有损摘要或分块处理,整个项目、长周期的 Agent 轨迹都可以原封不动地喂给模型。在 MRCR v2 评测中,Opus 4.6 以 78.3% 的分数证明了其“大海捞针”的能力。这是对生产力的一次直接释放,长上下文终于从“玩具”变成了“工具”。
Claude一夜拆掉AI编程天花板!百万token上下文登场,吞下整个代码库
这一更新对 AI 编程赛道的冲击是核弹级的。文章通过一线开发者的真实反馈揭示了变化:以前因为上下文限制,AI 只能分块处理代码,导致依赖关系丢失;现在,Diff 文件可以一次性读完,Debug 不再原地打转。更有趣的是反直觉的发现:更大的上下文反而减少了 Token 的总消耗量,因为 AI 不再需要反复重建上下文。OpenAI 被迫在这条赛道上全力追赶,而 Anthropic 已经凭借这招“无差别记忆覆盖”重新定义了规则。对于开发者而言,这不仅是效率的提升,更是工作流的质变——你不再是泥瓦匠,而是指挥官。
Cloudflare:我们如何用 OpenCode 和 Claude,在一周内重构 Next.js
这可能是本周最疯狂的工程案例:Cloudflare 的一名工程师,仅用约 1100 美元的 Token 费用,在一周内基于 Vite 重新实现了 Next.js 的核心 API,推出了 vinext。这背后反映的是软件构建成本的坍塌。AI 不再是写函数的工具,而是能够理解复杂架构规范(如 Next.js 文档和测试集)并进行系统级重构的“超级工程师”。文章提出了一个深刻观点:过去软件中的层层抽象是为了辅助人类认知,而 AI 可以容纳整个系统,不再需要这些“拐杖”。随着 vinext 在生产环境的实测表现(构建速度提升 4 倍,体积减少 57%),我们正在见证“AI 优先架构”的诞生。
具身智能终于走出了实验室的“温室”。它石智航发布的 AWE3.0 拿下了中国具身智能在工业精密操作领域的首个吉尼斯世界纪录,这标志着机器人从“仿真”走向了“实战”。AWE3.0 的核心在于摆脱了对遥操和仿真数据的依赖,首创了“Human Centric”数据采集范式,并配备了高密度触觉感知(HTS)和全视角通感决策(OSD)。这意味着机器人不仅能“看”,还能通过触觉感知完成毫米级的精密装配。当机器人能在真实产线上稳定干活,且具备跨场景的泛化能力时,制造业的劳动力结构或许将迎来真正的历史性转折。
量子位专访陶哲轩:我为什么现在创办一个AI x Science组织
数学界的“莫扎特”陶哲轩有了新身份——SAIR Foundation 联合创始人。他在专访中透露,虽然 AI 在文献检索和辅助写作上已不可或缺,但在真正的科研突破上,目前的通用模型仍显得“套路化”。SAIR 的目标是推动“用科学的方法打造 AI”,特别是在置信度表达和可验证性上下功夫。陶哲轩提出了一个极具前瞻性的观点:数学是 AI 的理想安全试验场,因为算错题几乎没有损失,一旦在此建立可靠框架,可迁移至医疗金融等高风险领域。更重要的是,他希望通过 AI 让科研“普惠化”,未来也许会有 10000 个陶哲轩。这种跨学科、跨地域的深度协作,或许是通向 AGI 的一条更优路径。
AI嘴上说公平,实则偏见?首个基准给大模型做心理体检 | ICLR'26
随着多模态模型统一了理解与生成任务,偏见开始在不同模态间“交叉感染”。南京航空航天大学等团队提出的 IRIS Benchmark,像是给大模型做了一次全链路“心理体检”。它不仅评估模型是否“心存公平”,更通过生成任务检测其是否“行亦公正”。研究发现,统一模型常出现“人格分裂”,即在理解任务中表现客观,却在图像生成中暴露严重刻板印象。更有趣的是“反刻板印象奖励”现象:打破偏见反而能提升生成质量。这项研究不仅是对齐技术的重要补充,也为我们敲响警钟:在统一架构下,价值观的一致性比单一任务的准确度更难把控。
数学家陶哲轩在专访中阐述了他联合创办SAIR Foundation的动机,旨在通过“AI x Science”推动学术界与产业界合作,解决AI在科研中的可信度与可解释性问题,并实现科研的普惠化。
文章介绍了针对统一多模态大语言模型(UMLLMs)的首个同步评估基准 IRIS,通过构建高维公平性空间和MBTI人格诊断,解决了现有评估中认知与生成任务割裂的问题,并深入揭示了偏见在模型内部的演化机理。
Cloudflare展示了一名工程师利用 AI 仅用一周时间、花费1100美元基于 Vite 重新实现了 Next.js(vinext),在构建速度和体积上表现优异,并探讨了 AI 对软件架构抽象层的影响。
它石智航发布全球首个能干活的通用具身大模型AWE3.0,通过全视角通感决策、高密度触觉感知等技术突破,实现了机器人毫米级精度操作与复杂环境稳定作业,并斩获工业精密操作吉尼斯世界纪录。
Claude Opus 4.6和Sonnet 4.6全面上线100万上下文窗口,取消长文本溢价并支持单次处理600张图,大幅提升长文本处理能力和多模态效率。
Anthropic宣布Claude Opus 4.6和Sonnet 4.6正式上线百万token上下文窗口,且定价统一无溢价,彻底改变了AI编程竞赛格局。
文章介绍了一项利用神经细胞自动机(NCA)生成的非语言合成数据对Transformer进行预预训练的研究,该方法在提升语言建模性能和推理能力方面优于自然语言数据,并探讨了其背后的结构重于语义的原理。
文章总结了快手智能代码审查系统从纯LLM启发式到知识引擎驱动,再到Agentic自主决策的三代架构演进,展示了如何通过上下文工程、规则体系和多层过滤机制将评审采纳率提升至54%。
文章报道了马斯克因Grok编程能力落后于OpenAI和Anthropic而对xAI进行大规模裁员和重组,并计划从Tesla和SpaceX抽调人员,目标在3个月内追赶竞争对手。
上海AI Lab提出DRIFT框架,通过将知识获取与逻辑推理解耦,利用小模型读取长文本并生成高密度隐空间表示供大模型推理,显著提升了效率与安全性。
尤雨溪宣布推出 Vite 原生部署平台 Void,旨在通过与 Cloudflare 深度绑定,为 Vite 项目提供包含数据库、存储和一键部署在内的全栈基础设施,以此对标 Next.js 与 Vercel 的组合。
文章通过历史学家塞巴斯蒂安·马拉比的视角,深度剖析了DeepMind创始人哈萨比斯的性格特质、权力哲学以及他与OpenAI创始人奥尔特曼的根本差异。
AI编程工具Cursor发布了新的评测基准CursorBench,旨在解决现有基准无法衡量智能体高效执行复杂任务的问题,结果显示Claude模型在新基准下分数大幅下降。
硅谷资深工程师 Steve Yegge 指出 AI 将带来软件行业的深刻变革,预言企业将裁员约一半工程师以供养剩下的人全力使用 AI,并提出未来编程将转向与 Agent 交互的全新范式。
ICLR 2026论文HALLUGUARD首次从理论上将LLM幻觉拆解为数据驱动型和推理驱动型两大根源,并提出了首个统一的幻觉检测框架,能有效提升多步推理任务的准确率。
智谱z.ai发起名为'A Room for Claw'的具身智能创新社会实验,邀请全球开发者利用Pony-Alpha-2大模型和小龙虾开源工具栈操控机器人,在真实场景中完成服务任务。
文章详细分析了OpenAI通过Codex在六周内的疯狂迭代来狙击Anthropic Claude Code的市场攻势,探讨了两者在开发者社区中的差异化定位及混合使用模式。
文章介绍了 LLM-PeerReview,一种模仿学术同行评审的无监督 LLM 集成方法,通过 '翻转三元评分技术' 缓解评分偏差,实现了显著的性能提升。
文章深入对比了OpenAI与Anthropic在AI编程及Agentic AI领域的竞争,剖析了OpenAI因早期战略选择错失先机,随后利用GPT-5.2及企业优势奋力追赶的过程。
这是一篇涵盖美团、魅族、比亚迪等企业动态及AI、卫星、汽车等领域投融资新闻的科技早报汇总。
文章汇总了苹果降低App Store佣金、xAI裁员、美团内部管理调整及多家厂商AI产品上线等近期科技行业新闻。
文章记录了海尔集团CEO周云杰在2026年AI科技发布会上的演讲,阐述了他对企业IP打造及AI智慧生活的思考,强调技术创新应服务于人,回归用户逻辑。
文章介绍了睿舒科技在AWE 2026上推出的“环境智能体(EIA)”概念,主张通过AI算法和多模态感知实现环境家电的主动协同,从而将行业竞争从参数内卷转向用户体验升级。
Meta 原计划发布的自研大模型 Avocado 因性能落后于竞品而推迟发布,甚至内部讨论过授权 Google Gemini,反映了大模型竞赛中迭代速度的关键性。
文章介绍了B站联合6位UP主使用OpenClaw工具进行的直播社会实验,测试AI在编程、带货和游戏等场景下的实际替代能力。
SAIR Foundation 正式启动'数学蒸馏挑战赛',旨在推动 AI 在数学推理领域的模型蒸馏技术发展。
文章记录了马斯克在Abundance Summit上的访谈,预测未来十年全球经济将因AI和机器人增长10倍,并探讨了货币体系变革及超级智能的愿景。
文章汇总了近期AI领域的行业动态,主要涉及周鸿祎回应OpenClaw安全争议、马斯克回应xAI高层重组、阿里上线手机版OpenClaw、百度内测医生版AI助手,以及王兴对AI影响的观点。