BIB |一种快速准确预测肽与HLA-I类分子结合的用户定制型工具

智能生信

发布于 2021-02-04 15:26:12

1.3K0

作者 | 张泽宇编辑 | 戴迟迟校对 | 李仲深

今天给大家介绍澳大利亚蒙纳士大学ShuTao Mei等人在Briefings in Bioinformatics 2021上发表的文章“Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules”。为了提高在预测肽与HLA-I类分子预测任务中的精度，同时兼顾模型的效率，本文使用了多种评分函数进行特征提取，并使用AODE (Aggregating One-Dependence Estimators) 的机器学习方法，对所得的评分特征进行聚合，从而充分利用评分特征对数据进行预测。作者设计并搭建了快速准确预测肽与HLA-I类分子结合的可用户定制型工具Anthem，支持直接预测、用户模型训练和用户模型预测功能，实现了用户定制功能。作者开发的用户友好型的工具框架，支持用户模型的定制化需求，以更好地应对相关数据快速增加而带来的挑战。在实验数据集和独立数据集的评估下，相对于其它工具，Anthem获得了更高的总体相似度和AUC值。

一、研究背景

1.1 背景

基于新肽的免疫治疗被认为是未来克服癌症的重要方法。为了使新肽能够被CD8+ T细胞识别并产生免疫响应，它需要首先与人类白细胞抗原I类(HLA-I)结合。多数表位预测工具依赖于这种结合的预测。随着质谱技术的应用，可用于开发此类预测器的天然HLA配体的规模已经扩大，但基于数据和计算的高效预测模型仍较少。

1.2 相关工作

目前在肽与HLA-I分子结合的预测工具中，使用的方法大致可分为两类，即基于评分函数和基于机器学习。基于评分函数的预测工具有MixMHCpred、pickbock和PSSMHCpan等，在这种方法中，肽根据特定的评分函数进行编码，提取特征得到评分矩阵，从而进行预测，但它们只使用了一个或两个评分函数，因此不够全面。基于机器学习的预测工具有NetMHCpan、NetMHC和mhcflury等，它们利用机器学习、深度学习等方法，基于肽的序列信息来训练模型，相比于基于评分的方法具有更好的预测性能，但训练开销较大，且高维特征往往会造成过拟合。

二、模型与方法

2.1 Anthem概述

Anthem使用肽与HLA-I结合预测中常用的五种评分函数，对每种肽的氨基酸序列进行综合编码。对于HLA-I每一同种异型，每一结合长度(长度8-14氨基酸)都使用了特征集选择方法，从而选择出最适合的评分函数集合，使该组集合可以获得最佳的AUC性能。接下来，使用集成的独依赖估计模型(AODE)，并将评分函数集合作为输入接入模型，使用数据进行训练，并得到对应模型用于预测。

在独立数据集评估中， Anthem相比于其他七种现有的HLA-I肽结合预测工具，表现出整体相似并获得了更高的AUC值。同时，本文使用内部生成的免疫肽组学数据集，将Anthem与其他七种预测工具进行了比较，取得了较好的表现。

此外，Anthem实现了用户定制功能，使用户能够基于自己的输入数据集训练新模型，并将其应用于数据预测。

Anthem的web服务器已部署到http://anthem.erc.monash.edu/，可进行访问使用。

2.2 序列评分函数

①氨基酸频率 (Amino acid frequency, AFF)

其中，f(i)表示位置i的氨基酸频率，f(i,max)表示相同位置上氨基酸的最高频率。

②基于WebLogo的序列保守性

其中，W(i)表示氨基酸在位置i的保守性评分。

③序列位置特异性矩阵 (PSSM)

本文使用了两种PSSM矩阵作为两个评分函数，分别基于PSSMHCpan tool和PWM。

④Substitution Matrix Index (SMI) 评分

本文使用了BLOSUM62来提取对应特征进行评分。

2.3 聚合独依赖估计器 (Aggregating One-dependence Estimators, AODE)

AODE是基于朴素贝叶斯估计的变种方法。朴素贝叶斯中假设各属性相互独立，但现实中往往并非如此，为了g使估计更为准确，独依赖估计假设各属性最多只有同一个属性被其它属性依赖，这个属性一般被称为超父，而其它属性的概率需要以超父为先验计算条件概率。因此，基于AODE的计算往往更为准确。

在本文中，肽的特征为评分函数集合x=<x1,…,xn>，y为HLA-I类中的各同种异型。

根据贝叶斯公式展开，有如下公式。

AODE在超父的选择中，使用遍历选择的方法，将各个可能的超父所产生的结果进行集成聚合，展开公式如下。

这样就得出了肽与各HLA-I分子结合概率表示。相应地，最大概率标签的预测公式如下。

由此，可以根据肽与HLA-I分子结合概率进行预测。

2.4 Anthem Web服务器

作者搭建了Anthem的web服务器 (http://anthem.erc.monash.edu/)。Anthem包括三个功能模式，即预测模式、训练模型模式和使用模型模式。在预测模式中，用户可以直接使用服务器的现有模型；在训练模型模式下，用户可以上传自己的训练数据来训练模型；在使用模型模式下，用户可以使用之前自己已经训练好的模型来进行预测。

待预测的数据格式支持FASTA和肽序列格式，其它具体细节可登录网站查看。

三、实验结果

在独立测试集中，实验选用了112个HLA-I的同类异型体的87035可结合肽作为正样本，同时随机选取了一系列负样本。

模型使用多个指标，将Anthem与其它预测工具进行对比，主要使用的指标如图1所示。

图1. 实验主要指标

除此之外，实验还绘制了ROC曲线，并计算了AUC值进行性能比对。各工具测试的AUC值对比结果如图2，四个其他指标的对比如图3。

图2. 各工具测试的AUC值对比结果

图3. 各工具测试的其他指标对比结果

另外，实验还使用了实验数据集进行测试。各项实验表明，Anthem在各项指标中都有较好的表现，尤其是在独立数据集的AUC表现优异。

四、总结

本文在肽与HLA-I分子的结合预测任务中，基于五种评分函数和AODE聚合方法构建预测模型，使预测的性能有所提高，同时开发了用户定制型的框架Anthem，便于用户训练自己的模型进行数据预测。

参考文献

Shutao Mei, Fuyi Li, Dongxu Xiang, Rochelle Ayala, Pouya Faridi, Geoffrey I Webb, Patricia T Illing, Jamie Rossjohn, Tatsuya Akutsu, Nathan P Croft, Anthony W Purcell, Jiangning Song, Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules, Briefings in Bioinformatics, 2021.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-02-01，如有侵权请联系 cloudcommunity@tencent.com 删除

apache