作者 | 张泽宇 编辑 | 戴迟迟 校对 | 李仲深
今天给大家介绍澳大利亚蒙纳士大学ShuTao Mei等人在Briefings in Bioinformatics 2021上发表的文章“Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules”。为了提高在预测肽与HLA-I类分子预测任务中的精度,同时兼顾模型的效率,本文使用了多种评分函数进行特征提取,并使用AODE (Aggregating One-Dependence Estimators) 的机器学习方法,对所得的评分特征进行聚合,从而充分利用评分特征对数据进行预测。作者设计并搭建了快速准确预测肽与HLA-I类分子结合的可用户定制型工具Anthem,支持直接预测、用户模型训练和用户模型预测功能,实现了用户定制功能。作者开发的用户友好型的工具框架,支持用户模型的定制化需求,以更好地应对相关数据快速增加而带来的挑战。在实验数据集和独立数据集的评估下,相对于其它工具,Anthem获得了更高的总体相似度和AUC值。

一、研究背景
1.1 背景
基于新肽的免疫治疗被认为是未来克服癌症的重要方法。为了使新肽能够被CD8+ T细胞识别并产生免疫响应,它需要首先与人类白细胞抗原I类(HLA-I)结合。多数表位预测工具依赖于这种结合的预测。随着质谱技术的应用,可用于开发此类预测器的天然HLA配体的规模已经扩大,但基于数据和计算的高效预测模型仍较少。
1.2 相关工作
目前在肽与HLA-I分子结合的预测工具中,使用的方法大致可分为两类,即基于评分函数和基于机器学习。基于评分函数的预测工具有MixMHCpred、pickbock和PSSMHCpan等,在这种方法中,肽根据特定的评分函数进行编码,提取特征得到评分矩阵,从而进行预测,但它们只使用了一个或两个评分函数,因此不够全面。基于机器学习的预测工具有NetMHCpan、NetMHC和mhcflury等,它们利用机器学习、深度学习等方法,基于肽的序列信息来训练模型,相比于基于评分的方法具有更好的预测性能,但训练开销较大,且高维特征往往会造成过拟合。
二、模型与方法
2.1 Anthem概述
2.2 序列评分函数


其中,W(i)表示氨基酸在位置i的保守性评分。
2.3 聚合独依赖估计器 (Aggregating One-dependence Estimators, AODE)



2.4 Anthem Web服务器
三、实验结果
在独立测试集中,实验选用了112个HLA-I的同类异型体的87035可结合肽作为正样本,同时随机选取了一系列负样本。

图1. 实验主要指标

图2. 各工具测试的AUC值对比结果

图3. 各工具测试的其他指标对比结果
四、总结
本文在肽与HLA-I分子的结合预测任务中,基于五种评分函数和AODE聚合方法构建预测模型,使预测的性能有所提高,同时开发了用户定制型的框架Anthem,便于用户训练自己的模型进行数据预测。
参考文献
Shutao Mei, Fuyi Li, Dongxu Xiang, Rochelle Ayala, Pouya Faridi, Geoffrey I Webb, Patricia T Illing, Jamie Rossjohn, Tatsuya Akutsu, Nathan P Croft, Anthony W Purcell, Jiangning Song, Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules, Briefings in Bioinformatics, 2021.