本期将为您呈现 5 篇最新论文
涵盖领域:遥感,深度学习,高光谱成像,图像处理,口腔癌检测,建筑密度预测,星系形成,天文学,机器学习,元学习
本期文章列表:
1. ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks
2. CLAReSNet: When Convolution Meets Latent Attention for Hyperspectral Image Classification
3. Multimodal RGB-HSI Feature Fusion with Patient-Aware Incremental Heuristic Meta-Learning for Oral Lesion Classification
4. TEMPO: Global Temporal Building Density and Height Estimation from Satellite Imagery
5. First Light And Reionisation Epoch Simulations (FLARES) XX: Comparing semi-analytic models at high-redshift
第1篇
ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks
速览:超高分辨率遥感图像提供了丰富的细节信息,但在处理上面临挑战。现有的方法往往受限于被动感知,导致冗余增加。本文提出了一种新的主动感知范式,允许模型重新访问信息丰富的区域。我们推出了LRS-GRO,一个针对超高分辨率遥感处理的基准数据集,并基于此开发了ZoomEarth,一个自适应裁剪缩放框架,采用新颖的区域引导奖励机制。ZoomEarth在多个基准测试中表现出色,并可与下游模型无缝集成,展现出强大的多功能性和扩展性。
作者:Ruixun Liu, Bowen Fu, Jiayi Song 等 10 人
单位:Xi’an Jiaotong University, China Telecom Shaanxi Branch
发布时间:2025-11-15
链接:https://arxiv.org/pdf/2511.12267v1
摘要:超高分辨率(UHR)遥感(RS)图像提供了丰富的细粒度信息,但在有效处理上也面临挑战。现有的动态分辨率和标记修剪方法受限于被动感知范式,在获取更精细的视觉输入时会导致冗余增加。在本研究中,我们探索了一种新的主动感知范式,使模型能够重新访问信息丰富的区域。首先,我们提出了LRS-GRO,这是一个针对UHR RS处理中的主动感知定制的大规模基准数据集,涵盖了全球、区域和对象层面的17种问题类型,通过半自动化流程进行标注。在LRS-GRO的基础上,我们提出了ZoomEarth,这是一种自适应裁剪缩放框架,具有新颖的区域引导奖励机制,提供细粒度指导。通过监督微调(SFT)和组相对策略优化(GRPO)进行训练,ZoomEarth在LRS-GRO上实现了最先进的性能,并且在零-shot设置下,在三个公共UHR遥感基准上也表现出色。此外,ZoomEarth可以通过简单的工具接口与下游模型无缝集成,用于云去除、去噪、分割和图像编辑等任务,展现出强大的通用性和可扩展性。
• • • • •
第2篇
CLAReSNet: When Convolution Meets Latent Attention for Hyperspectral Image Classification
速览:高光谱图像分类面临高光谱维度、复杂的光谱空间关联以及训练样本不足等挑战。本文提出的CLAReSNet(卷积潜在注意残差光谱网络)通过结合多尺度卷积提取与变换器风格的注意机制,提出了一种混合架构。该模型有效降低了计算复杂度,并通过动态聚合多级表示实现了强大的分类性能。实验证明,在Indian Pines和Salinas数据集上,CLAReSNet的准确率分别达到了99.71%和99.96%,远超现有方法,展现了其在样本有限和类别不平衡情况下的优越性。
作者:Asmit Bandyopadhyay, Anindita Das Bhattacharjee, Rakesh Das
单位:Institute of Engineering and Management, University of Engineering and Management Kolkata, InnovAI
发布时间:2025-11-15
链接:https://arxiv.org/pdf/2511.12346v1
摘要:高光谱图像(HSI)分类面临着重大挑战,包括高光谱维数、复杂的光谱-空间相关性以及严重类别不平衡的有限训练样本。虽然卷积神经网络(CNNs)在局部特征提取方面表现出色,而变换器(transformers)能够捕捉长距离依赖关系,但它们的单独应用由于二次复杂性和不足的归纳偏差,导致次优结果。我们提出了CLAReSNet(卷积潜在注意残差光谱网络),这是一种混合架构,它通过自适应潜在瓶颈将多尺度卷积提取与变换器风格的注意力相结合。该模型采用具有深度残差块的多尺度卷积主干,并增强了卷积块注意力模块,以提取层次化空间特征,随后是结合双向递归神经网络(LSTM/GRU)与多尺度光谱潜在注意力(MSLA)的光谱编码层。MSLA通过自适应潜在令牌分配(8-64个令牌)将复杂性从 $\mathcal{O}(T^2D)$ 降低到 $\mathcal{O}(T\log(T)D)$,其随序列长度以对数方式缩放。层次化交叉注意力融合动态聚合多层次表示,以实现稳健的分类。在印度松树林和萨利纳斯数据集上进行的实验显示了最先进的性能,整体准确率达到了99.71%和99.96%,显著超越了HybridSN、SSRN和SpectralFormer。所学习的嵌入展现出优越的类间可分性和紧凑的类内聚类,验证了CLAReSNet在样本有限和严重类别不平衡情况下的有效性。
• • • • •
第3篇
Multimodal RGB-HSI Feature Fusion with Patient-Aware Incremental Heuristic Meta-Learning for Oral Lesion Classification
速览:在低资源环境中,早期检测口腔癌及潜在恶性病变面临挑战。本文提出了一种统一的四类口腔病变分类器,结合深度RGB嵌入、超光谱重建、手工特征和人口统计数据。通过精细调优的ConvNeXt-v2编码器处理经病理学家验证的口腔图像,进行RGB到超光谱的转换,并提取多种特征。引入的增量启发式元学习器通过概率堆叠和患者级后验平滑提升了分类性能,最终在未见患者数据上取得了66.23%的宏F1分数和64.56%的准确率,显示出该方法在口腔病变筛查中的潜力。
作者:Rupam Mukherjee, Rajkumar Daniel, Soujanya Hazra 等 5 人
单位:Department of Electrical Engineering, School of Medical Science & Technology, IIT Kharagpur
发布时间:2025-11-15
链接:https://arxiv.org/pdf/2511.12268v1
摘要:在资源有限的环境中,早期检测口腔癌和潜在恶性疾病面临挑战,因为缺乏有限的标注数据。我们提出了一种统一的四类口腔病变分类器,该分类器集成了深度RGB嵌入、超光谱重建、手工制作的光谱-纹理描述符和人口统计元数据。我们整理并处理了一组经过病理学家验证的口腔图像,使用经过微调的ConvNeXt-v2编码器进行处理,然后将RGB转换为31波段的超光谱立方体。提取了对血红蛋白敏感的指数、纹理特征和光谱形状度量,并与深度特征和临床特征融合。通过以患者为单位的验证评估了多个机器学习模型。我们进一步引入了一种增量启发式元学习者(IHML),该学习者通过概率堆叠和患者级后验平滑结合了经过校准的基础分类器。在未见患者拆分上,所提出的框架达到了66.23%的宏观F1值和64.56%的准确率。结果表明,超光谱重建和不确定性感知的元学习显著提高了实际口腔病变筛查的稳健性。
• • • • •
第4篇
TEMPO: Global Temporal Building Density and Height Estimation from Satellite Imagery
速览:我们提出了TEMPO,一个全球性、具有时间分辨率的建筑密度和高度数据集,利用高分辨率卫星影像和深度学习模型生成。通过结合已有建筑轮廓和高度数据与季度的PlanetScope基准卫星影像,我们训练了一种多任务深度学习模型,能够以37.6米每像素的分辨率预测建筑密度和高度。该模型适用于2018年第一季度至2025年第二季度的全球卫星影像,生成全球建筑密度和高度的时间变化图。验证结果显示,我们的估计在多个手动标注子集上F1得分达到85%至88%,并且具有良好的时间稳定性,支持大规模监测开发模式和气候影响,为全球适应和韧性建设提供了重要数据支持。
作者:Tammy Glazer, Gilles Q. Hacheme, Akram Zaytar 等 12 人
发布时间:2025-11-15
链接:https://arxiv.org/pdf/2511.12104v1
摘要:我们提出了TEMPO,这是一个全球范围内、时间上分辨率高的建筑密度和高度数据集,采用深度学习模型从高分辨率卫星影像中提取而来。我们将现有数据集中的建筑轮廓和高度数据与季度的PlanetScope底图卫星影像相结合,训练了一个多任务深度学习模型,该模型能够以每个像素37.6米的分辨率预测建筑密度和建筑高度。我们将此模型应用于2018年第一季度至2025年第二季度的全球PlanetScope底图,创建了全球建筑密度和高度的时间地图。我们通过与现有的建筑轮廓数据集进行比较来验证这些地图。我们的估计在不同的人工标注子集上实现了85%到88%之间的F1分数,并且在时间上保持稳定,五年的趋势一致性得分为0.96。TEMPO以较低的计算成本捕捉了建成环境的季度变化,开启了对发展模式和气候影响的大规模监测,这对于全球韧性和适应性努力至关重要。
• • • • •
第5篇
First Light And Reionisation Epoch Simulations (FLARES) XX: Comparing semi-analytic models at high-redshift
速览:本文探讨了不同星系形成模型对高红移星系属性的影响,比较了EAGLE水动力模型与多种半解析模型在5至12的红移范围内的预测结果。研究发现,尽管不同模型在恒星质量函数的预测上与观测结果大致一致,但在超大质量黑洞(SMBH)的性质上却存在显著差异,GALFORM和SHARK模型预测的SMBH质量比L-Galaxies和SC-SAM高出1.5至3个数量级。此外,关于被动星系的分析显示L-Galaxies和SC-SAM模型中,环境影响是主要的抑制机制,而在GALFORM和SHARK模型中,约40%的被动星系是由活动星系核反馈导致的。这些发现揭示了不同模型在解释星系演化过程中的重要差异。
作者:Louise T. C. Seeyave, Carlton M. Baugh, Angel Chandro-Gomez 等 16 人
单位:Astronomy Centre, University of Sussex, International Centre for Radio Astronomy Research, The University of Western Australia, Centre for Astrophysics Research, University of Hertfordshire, Institute of Space Sciences and Astronomy, University of Malta, Institute for Computational Cosmology, University of Durham
发布时间:2025-11-15
链接:https://arxiv.org/pdf/2511.11982v1
摘要:我们探讨了星系形成模型的选择如何影响高红移星系的预测特性。利用FLARES缩放重模拟策略,我们比较了EAGLE流体动力学模型与GALFORM、L-Galaxies、SC-SAM和SHARK半解析模型(SAMs)在红移范围$5\leq z \leq 12$内的表现。分析的第一部分考察了不同模型所预测的恒星质量函数、恒星与晕质量关系、恒星形成率以及超大质量黑洞(SMBH)特性,并在相关情况下与观测结果进行比较。我们发现预测的恒星质量函数与观测结果之间总体上存在一致性。然而,在SMBH特性方面,各模型的预测差异显著,GALFORM和SHARK预测的超大质量黑洞($M_{\rm BH}>10^6\ {\rm M_\odot}$)质量比L-Galaxies和SC-SAM高出1.5到3个数量级,具体取决于红移。分析的第二部分聚焦于被动星系。我们表明,在L-Galaxies和SC-SAM中,环境抑制是卫星星系的主要抑制机制,而活动星系核(AGN)反馈在探测的红移范围内影响较小。另一方面,GALFORM和SHARK预测约40%的被动星系是在$z=5$时受到AGN反馈抑制的。与EAGLE模型相比,SAMs呈现出有趣的对比,在EAGLE模型中,AGN反馈对被动星系的形成至关重要,无论是在卫星还是中心星系中,即使在高红移情况下也是如此。
友情链接:「减论」