上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代
上海交大、创智学院与瑞金医院联合发布CX-Mind多模态大模型,首次将胸片诊断推进为“可验证推理链”,通过交错式推理和课程强化学习显著提升了诊断的可解释性与准确性。
今天的技术圈呈现出一种有趣的张力:一方面,AI正以前所未有的深度切入科研与医疗的“硬核”业务流,从写代码进化到能做生物实验、能看胸片;另一方面,面对AI带来的内容泛滥,学术界正在筑起高墙,arXiv祭出最严新规,陶哲轩也点赞支持。这种能力爆发与制度约束的同步进行,或许标志着我们正在进入AI应用的“深水区”。
8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026
过去大模型在科研上的应用多停留在“文献阅读”或“文本生成”层面,而Thoth的出现标志着AI开始具备真正的“动手能力”。上海AI实验室与复旦、交大团队提出的Thoth,通过构建SciRecipe数据集和引入“Sketch-and-Fill”推理范式,解决了生物实验Protocol生成中最棘手的幻觉问题。它不再是生成一段“看起来专业”的废话,而是产出可解析、可执行的步骤清单。
为什么重要:这是AI从“知识检索”迈向“科学执行”的关键一步。对于开发者而言,这种“结构化推理+过程奖励”的设计思路,比单纯扩大参数量更具启发性。它证明了在特定垂直领域,通过精巧的机制设计,8B模型也能在执行准确性上超越GPT-4o,这将极大加速自动化实验室的落地进程。
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代
医学影像AI一直面临“黑盒”困境:医生不敢用一个无法解释判断依据的系统。CX-Mind提出的“交错式推理”打破了这一僵局。它不只是给一个诊断结果,而是模拟医生的阅片思维链,先观察、再鉴别、最后结论,每一步都有影像证据支撑。更重要的是,它引入了CuRL-VPR强化学习策略,同时奖励结果正确和推理过程可靠。
为什么重要:这代表了医疗AI的未来方向——从“分类器”进化为“可协作的临床助手”。对于行业来说,这意味着AI模型的能力评估标准变了:不仅要“看得准”,还要“理得清”。这种可验证的推理能力,是AI真正进入医院核心业务流、承担实际诊疗责任的前提。
AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议
当AI生成一篇综述的时间少于阅读它的时间时,学术生态的崩溃便不再是杞人忧天。arXiv此次重拳出击,不仅封禁“AI水论文”作者一年,更实行“署名连坐”,其核心逻辑是“签名即担责”。陶哲轩也对此表示支持,认为在“生成比消化容易”的时代,提高门槛是保护学术价值的必要手段。
为什么重要:这不仅是学术圈的治理新闻,更是对AI内容生产力的深刻反思。对于技术社区而言,这是一个明确的信号:平台方开始从“鼓励生产”转向“鼓励消化”。未来,未经人类深度验证的AI生成内容将被主流体系边缘化,这也倒逼开发者在使用AI工具时,必须从“提效思维”转向“负责任的人机协作思维”。
上海交大、创智学院与瑞金医院联合发布CX-Mind多模态大模型,首次将胸片诊断推进为“可验证推理链”,通过交错式推理和课程强化学习显著提升了诊断的可解释性与准确性。
arXiv出台最严新规打击AI水论文,查实低级错误将封禁一年且实行署名连坐,陶哲轩发文附议称此举有助于平衡论文生成与消化的成本。
上海人工智能实验室等联合提出Thoth模型,通过结构化组件奖励机制和Sketch-and-Fill推理范式,解决了生物实验Protocol生成中步骤混乱、剂量幻觉等问题,实现了可执行的实验方案生成。
华为支持的开源社区openJiuwen发布了多智能体协同框架JiuwenSwarm,提出了Coordination Engineering(协同工程)新范式,并实现了Agent团队技能沉淀与自演进。
本文详细介绍了如何将 Atlassian Confluence Cloud 与 Amazon Quick 集成,通过创建知识库和配置 Actions,实现对文档的语义搜索和自然语言查询管理,从而减少上下文切换并提升团队效率。
图灵奖得主Yann LeCun在专访中猛烈抨击LLM不是通往AGI的路径,力推JEPA世界模型架构,并阐述了他与Hinton等人在AI发展方向上的根本分歧。
信通院与清华在CVPR 2026提出FedRE方法,利用纠缠模型设计解决联邦学习中隐私、性能与通信效率的三难困境。
文章介绍了如何在 Amazon Bedrock AgentCore 中构建基于自定义代码的评估器,利用 AWS Lambda 实现确定性的领域逻辑检查,弥补了 LLM-as-a-Judge 在精确度和合规性方面的不足。
文章宣布第十一届信也科技杯全球AI算法大赛开启,聚焦汉语方言对话技术,设有30万奖金池及NLPCC2026直通名额。