减论 Reduct - AI 人才成长链接

今日减论热点Global Trending Research

PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

Zelun Zhang,Hongen Liu,Suyin Liang,Yubo Zhang,Yiqing Xiang,Jiaxuan Liu,Ting Sun,Manhui Lin,Yue Zhang,Changda Zhou,Tingquan Gao,Cheng Cui,Yi Liu,Dianhai Yu,Yanjun Ma(Baidu Inc.)

百度公司推出了 PaddleOCR-VL-1.6，一种基于区域感知数据优化框架和渐进式后训练策略，针对模型弱区进行定向增强以提升文档解析性能的紧凑型升级模型。

cs.CV发布于 2026-06-03🔥 143

PP-OCRv6: From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks

Yubo Zhang,Xueqing Wang,Manhui Lin,Yue Zhang,Penglongyi Deng,Ting Sun,Tingquan Gao,Zelun Zhang,Jiaxuan Liu,Changda Zhou,Hongen Liu,Suyin Liang,Cheng Cui,Yi Liu,Dianhai Yu,Yanjun Ma(Baidu Inc., PaddlePaddle Team)

百度公司推出了PP-OCRv6，一种基于统一MetaFormer结构块并结合结构重参数化的轻量级OCR系统，通过任务特定步幅配置实现空间token混合与通道混合解耦，涵盖多种部署场景，在保持显著提升识别与检测性能的同时大幅减少参数量和计算成本。

cs.CV发布于 2026-06-12🔥 138

Cosmos 3: Omnimodal World Models for Physical AI

Aditi,Niket Agarwal,Arslan Ali,Jon Allen,Martin Antolini,Adeline Aubame,Alisson Azzolini,Junjie Bai,Maciej Bala,Yogesh Balaji,Josh Bapst,Aarti Basant,Mukesh Beladiya,Mohammad Qazim Bhat,Zaid Pervaiz Bhat,Dan Blick,Vanni Brighella,Han Cai,Tiffany Cai,Eric Cameracci(NVIDIA)

英伟达推出了Cosmos 3，一种基于混合transformers架构的全模态世界模型，能够统一处理和生成语言、图像、视频、音频及动作序列，支持灵活的输入输出配置，涵盖物理人工智能中的多种关键模态，并在多项理解与生成任务中实现了最新的性能水平。

cs.AI发布于 2026-06-03🔥 116

ELF: Embedded Language Flows

Keya Hu,Linlu Qiu,Yiyang Lu,Hanhong Zhao,Tianhong Li,Yoon Kim,Jacob Andreas,Kaiming He(Massachusetts Institute of Technology)

麻省理工学院提出了Embedded Language Flows（ELF），一种基于连续时间Flow Matching的扩散模型，主要在连续嵌入空间中运行并通过共享权重网络映射至离散token，从而实现了较少采样步骤下优于现有离散和连续扩散语言模型的生成效果。

cs.AI发布于 2026-05-12🔥 93

Kwai Keye-VL-2.0 Technical Report

Kwai Keye Team,Bin Wen,Changyi Liu,Chengru Song,Chongling Rao,Guowang Zhang,Han Li,Haonan Fan,Hengrui Ju,Jiankang Chen,Jiapeng Chen,Jiawei Yuan,Kaixuan Yang,Kaiyu Jiang,Kun Gai,Lingzhi Zhou,Na Nie,Sen Na,Tianke Zhang,Tingting Gao(Kuaishou Group)

快手集团推出了 Kwai Keye-VL-2.0-30B-A3B，一种基于 Mixture-of-Experts 架构并首次将 DeepSeek Sparse Attention 应用于 GQA 多模态模型，实现无损 256K 长上下文处理，结合多教师跨模态在线蒸馏与强化学习策略，显著提升超长视频理解与多任务协同能力。

cs.CV发布于 2026-06-10🔥 92

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

Glenn Jocher,Jing Qiu,Mengyu Liu,Shuai Lyu,Fatih Cagatay Akyon,Muhammet Esat Kalfaoglu(Unknown)

该论文提出了Ultralytics YOLO26系列统一实时视觉模型，通过双头设计实现原生无NMS端到端推理，结合MuSGD优化器、Progressive Loss和STAL标签分配策略，显著提升检测及多任务性能并优化推理效率。

cs.AI发布于 2026-06-03🔥 90

EvTexture++: Event-Driven Texture Enhancement for Video Super-Resolution

Dachun Kai,Jiayao Lu,Yueyi Zhang,Xiaoyan Sun(University of Science and Technology of China, Midea Group)

中国科学技术大学与美的集团推出了EvTexture++，该框架首次将事件驱动技术专注于视频超分辨率中的纹理增强，通过高频时空事件信息和迭代纹理增强模块实现细节恢复及基于事件引导的纹理感知流提升时序一致性。

cs.AI发布于 2026-06-12🔥 76

MiniMax Sparse Attention

Xunhao Lai,Weiqi Xu,Yufeng Yang,Qiaorui Chen,Yang Xu,Lunbin Zeng,Xiaolong Li,Haohai Sun,Haichao Zhu,Vito Zhang,Pengyu Zhao(Minimax, Peking University, NVIDIA, Zhejiang University, Huazhong University of Science and Technology)

美纳克斯提出了 MiniMax Sparse Attention（MSA），该方法基于 Grouped Query Attention 设计，通过轻量级索引分支实现块级稀疏检索，并结合高效 GPU 执行路径显著降低百万级上下文长度下的注意力计算成本，提升大规模多模态模型的推理速度。

cs.AI发布于 2026-06-12🔥 71

RescueBench: Can Embodied Agents Save Lives in the Wild ?

Kui Wu,Beiyu Guo,Hao Chen,ShuHang Xu,Yuling Li,Yongdan Zeng,Zhoujun Li,Yizhou Wang,Fangwei Zhong(Beihang University, ATEC2025 Challenge Committee, Unknown, Beijing Normal University, Peking University)

北京航空航天大学、北京师范大学、北京大学推出了 RescueBench，一种将搜救任务分解为多阶段流水线并结合阶段性评估的光真实诊断基准，用以系统分析多模态探索与空间记忆在复杂环境中对具身智能体搜救能力的影响。

cs.CV发布于 2026-06-02🔥 66

Latent Spatial Memory for Video World Models

Weijie Wang,Haoyu Zhao,Yifan Yang,Feng Chen,Zeyu Zhang,Yefei He,Zicheng Duan,Donny Y. Chen,Yuqing Yang,Bohan Zhuang(Zhejiang University, Microsoft Research, Adelaide University, Monash University)

浙江大学、微软研究院和莫纳什大学介绍了基于latent spatial memory的Video world models方法，通过在扩散潜空间中构建持久的三维缓存，实现了高效且无信息损失的视频生成与空间一致性维护。

cs.CV发布于 2026-06-09🔥 66

查看完整热点 →