9月18日,机器学习领域顶级国际会议第39届神经信息处理系统大会( NeurIPS 2025)录用结果出炉,会议将于12月2日至12月7日在美国圣地亚哥举行。 本文将介绍一篇关于大语言模型流式输出有害内容检测的NeurIPS 2025录用论文。
★题目:From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring
作者:Yang Li, Qiang Sheng, Yehan Yang, Xueyao Zhang, Juan Cao
ArXiv: https://arxiv.org/abs/2506.09996
(点击“阅读原文”可直接跳转)
近年来,大语言模型(Large Language Model, LLM)在生成文本方面取得了突出成果,但也带来了内容安全与错误信息的挑战。AI使得创作门槛降低,传播更加去中心化、即时化,导致传统内容审核机制失效。尽管大多数大语言模型已应用安全对齐技术,但在实际的应用中,服务提供商(如OpenAI、Anthropic和Google等)通常会部署后续的内容审核机制作为外部安全防护措施,即外部安全围栏。
现有的审核机制主要采用传统的完整检测方式,根据大语言模型的完整输出来判断其有害性,这会导致较高的服务延迟(如图1(a))。近期的研究开始将目光转向部分检测,使得审核机制在内容生成过程中对其进行监督,一旦检测到有害内容便提前终止,但这些研究直接将基于完整检测范式训练的审核模型应用于不完整的输出,引入了训练和推理时差异,降低了检测性能。
本文探索了如何构建生成时阻断机制,应对“生成即传播”趋势,研究在流式输出中高效发现有害输出的方法,尝试实现早期准确识别潜在有害内容并中止传播(如图1(b))。
在数据上,构建了FineHarm数据集,包含约29000个“提示词-回复'”对,并进行了细粒度的词元级标注,为词元级训练提供合理的监督信号。
在技术上,提出了流式内容监测器(Streaming Content Monitor,SCM),通过回复级和词元级标注数据的双重监督进行训练,能够跟踪大语言模型的输出流,及时判断内容的有害性。
当前,细粒度标注的大模型有害内容数据严重缺乏,一定程度上制约了检测器的性能提升。现有的细粒度标注数据主要为人类文本,不仅篇幅较短(不足 200 字),难以用来拟合大模型的生成偏好与语言模式,导致检测器在面对模型实际输出时出现 “数据鸿沟”;同时,依赖人工标注的传统方式效率低下、成本高昂,极大限制了数据集的规模扩展与细粒度深化。
在此背景下,制作词元级大模型有害输出数据的必要性愈发凸显——它既是填补数据与模型生成特性适配缺口的关键,也是突破标注瓶颈、支撑检测器精准训练的重要基础,对推动大模型安全可控发展具有不可替代的意义。
本文在实践中发现:有害意图与实词(如名词、动词、形容词)的关联比与虚词(如介词、连词和感叹词)更为紧密,即有害意图更可能通过实词来体现,而虚词的有害性则较弱。
基于这一假设,本文设计了一种启发式标注方法,利用词性(Part of Speech, POS)标记来过滤虚词,仅将实词标注为有害词,标注的具体步骤如下:
将大模型回复拆分为句子,并使用外部大语言模型对句子级标签进行标注;
保留回复级别与句子级别标签一致的数据,即:保留至少包含一个有害句子的有害回复,以及所有句子均为良性的良性回复;
对于每个被判断为有害的句子,我们获取每个词的词性,并将实词标记为有害词。对于每个被判断为良性的句子,我们将句子中的所有词都标记为良性词。
表1 FineHarm数据集统计信息
表1展示了细粒度数据集FineHarm的统计信息,可以看出,即使在有害回复中,有害句子和词也并不占主导地位,这再次证实了细粒度标注的重要性。
图2 有害词在回复中的位置分布
图2可视化了回复中有害词的位置分布,有害词大致均匀地分布在回复中,这表明有害词并不与特定位置相关,基本杜绝模型通过简单记忆位置偏差来检测有害词的可能性。
直接部分检测(Naive partial detection)
SCM的基本用法是直接使用词元级预测
“延迟-
与仅依据单个词元来判断回复有害性的朴素部分检测相比,大语言模型服务提供商更需要一种可控的方式来平衡内容审核的敏感性和容忍度。为实现这种灵活的调整机制,可以设置一个阈值
实验结果
检测表现:媲美完整检测
图4 检测表现
如图4,对于ModernBERT和Qwen2.5,完整检测在良性和有害回复上均取得了良好的检测性能,这是符合预期的,因为它在完整回复上进行训练,可以利用回复的完整上下文信息。但其直接应用于部分检测的性能由于训练和推理之间的偏差而明显下降。
相比之下,“延迟-
检测及时性:平均只看18%词元即“秒停”LLM风险输出
图5 终止回复时所在词元的位置分布
图5展示了终止输出的位置分布。可以看到,大约50%的有害回复在前10%词元内就可以被检测到,80%的有害回复在前30%的词元内被检测到,终止位置的平均值为18%。这表明SCM能够及时检测出有害内容,这对于防止用户接触到完整有害内容的实时应用至关重要。
总结
本文提出了一种数据与模型协同的方法,旨在构建适用于大语言模型流式输出的内容审核器,遵循“部分检测'”范式,以实现更为精准且及时的输出中止机制。
数据上,构建了FineHarm数据集,包含约29,000条“提示词-回复'”对,并通过一种启发式、低成本策略生成了的细粒度标注,从而为生成时的内容监控奠定了数据基础。
技术上,设计了流式内容监测器(Streaming Content Monitor, SCM)。能够在大模型流式输出的同时进行并行预测,借助层次一致性感知学习策略,SCM在仅获取部分回复内容的前提下,可判断其是否包含潜在的有害信息,并且,SCM支持灵活的流式监测设定,使得大模型服务提供商可以在发现风险时及时中止输出,达成生成时阻断的目标。
欢迎点击相关文章,了解最新动态: