汪旭鸿 ☕️
汪旭鸿

青年研究员

关于我

汪旭鸿,2017年本科毕业于四川大学,2022年博士毕业于上海交通大学,获美国UC伯克利访学(国家留学基金委资助),曾荣获国家奖学金(两次)。受聘为上海交通大学兼职博士研究生导师,并担任科技部"新一代人工智能"重大专项课题负责人(总经费1000万元)。在包括Nature Machine Intelligence、ICLR、ACL等共发表 40 余篇论文,单篇最高引用260,H指数15。曾参与蚂蚁图计算系统研发以及开源图深度学习框架DGL(1.5万星)建设。目前主要从事面向智能体scaling law的下一代可信训练Infra研究,开源了首个支持多基模共同博弈对抗训练的RL框架SAfactory,并将持续开源各类数据集和模型。详细的pub list请见谷歌学术主页。研究中心长期开放实习生、联培博士、算法工程师、研究员名额,欢迎邮件(wangxuhong@pjlab.org.cn)咨询。

兴趣爱好
  • 多模态大语言模型
  • 下一代训练Infra
  • 环境反馈强化学习
教育经历
  • 人工智能 博士

    上海交通大学

  • 电子信息工程 本科

    四川大学

📚 Selected News

[2026.6] 受聘为 上海交通大学 兼职博士研究生导师,在人工智能安全与可信方向指导博士研究生,持续推进浦江国家实验室与高校的联合人才培养与前沿安全研究合作。

[2026.6] 担任 科技部"新一代人工智能"重大专项 《科学智能安全服务中台》项目课题负责人,课题总经费 1000万元,聚焦科学智能(AI4S)方向的安全基础设施与底座服务能力。

[2026.5] 发布技术报告 Safactory,提出首个面向可信自主智能训练的可扩展 Agentic Infra,打通并行仿真、可信数据与自主进化三大平台,支持下一代7x24自主智能体大规模闭环训练。

[2026.4] NaviMaster 收录于 ACL 2026 Main,统一 GUI 与具身导航任务,在混合轨迹强化学习框架下同时提升跨界面与跨场景泛化能力。

[2026.4] 发布『墨铠』全栈安全工具箱,首批整合14类、150余个安全工具,覆盖风险推演、可信数据与进化防御三大中台,支持灵活部署与产业落地。

[2026.4] Deliberative Searcher 收录于 ACL 2026 Oral,将置信校准与检索式搜索结合进约束强化学习,显著提升开放域问答中的可靠性与可校准性。

[2026.4] From Coarse to Fine 收录于 ACL 2026 Findings,提出面向写作生成任务的细粒度评测管线 WEval 与奖励建模框架 WRL,更准确地刻画并优化模型对复杂写作要求的遵循能力。

[2026.3] 发布新知识推理解耦方法DRIFT,并收录于 ACL 2026;相关 paper 提出知识读取与推理解耦的双模型框架,用隐式事实 token 替代冗余长文本,在长上下文任务上兼顾效率与性能,并天然增强抗越狱能力。

[2026.2] 发布 AOT 感知鲁棒性项目,相关 paper 提出 AOT-SFT 对抗数据集与攻击者-防御者协同进化的自博弈框架,在复杂视觉场景下持续提升多模态模型的感知鲁棒性,并显著减少幻觉。

[2026.2] TPRU 收录于 ICLR 2026 Oral,构建面向机器人操作与 GUI 导航的时序与过程理解数据集,并结合强化学习显著提升轻量多模态模型的程序性理解能力。

[2026.2] 发布 SafeVerse:构建安全可信的具身智能“孪生演练场”,将普通视频在分钟级转化为可交互、符合物理规律的 3D 孪生场景,并进一步支持攻防编辑与智能体在线进化,形成“重建-攻防-进化”闭环。

[2025.12] 发布 BioBridge:在不牺牲通用能力的前提下,让 LLM 真正理解蛋白质;相关 paper 收录于 BIBM 2025(CCF-B),通过蛋白质模型负责“读懂蛋白”、LLM 专注任务推理的协同框架,在多个真实生物任务上逼近专用模型表现。

[2025.11] 作为唯一通讯,在 EMNLP 2025 Main(Oral) 发表基于不确定度建模的大模型RL奖励模型(C2RM),可以大幅度提高大模型推理训练的内容思考质量。

[2025.9] 发布首个安全可信具身智能框架与路线图综述,与谭鑫、陆超超、上海AILab主任周伯文等合作,系统定义 Safe and Trustworthy EAI,给出十大核心原则与 L1-L5 成熟度模型。

[2025.8] 作为唯一通讯,发布了针对MoE模型优化的分布式KV Cache架构(PiKV: KV Cache Management System for Mixture of Experts)。

[2025.8] 作为唯一通讯,发布了SOTA的CoT-PRM模型(VRPRM),Best-of-N的Test-time Scaling效果逼近理论极限值Pass@K,仅用1/8的数据超越SOTA模型118%。

[2025.7] 作为 Core Lead,负责 SafeWork-R1 的知识增强和“慎思模式”相关模块,相关成果发布于世界人工智能大会 2025;相关 paper 基于 SafeLadder 安全加固框架,实现了多模态推理模型在安全性与通用能力上的协同提升。

[2025.6] 作为通讯作者,指导实习生投稿论文,收录于ICCV2025。相关成果刷新多模态检索SOTA,可为具身AI提供50万帧的精确记忆检索功能,查阅demo请点击

[2025.5] 作为第一作者,发表关于AI溯源的综述文章,收录于Artificial Intelligence Review期刊,60页两万词

[2024.10] 加入上海人工智能实验室,安全可信AI中心,负责大模型可信知识增强相关模块

[2023.10] 以第一作者发表论文,使用动态图网络演化引擎作为底层代理,进行复杂交通系统的加速仿真

[2022.10] 入职上海人工智能实验室,青年研究员,主要负责AI安全评测系统优化以及多智能体仿真平台, 连续两年绩效评估为优秀

[2022.11] 一作论文收录于第一届Learning on Graphs Conference,主要研究动态图的演化问题

[2022.3] 合作论文收录于Nature Machine Intelligence

[2021.9] 一作图计算论文收录于数据顶会SIGMOD 2021 Oral,是在蚂蚁集团的实习成果

[2020.2] 人生第一篇论文发表于Knowledge-Based Systems期刊