首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >BIB |一种快速准确预测肽与HLA-I类分子结合的用户定制型工具

BIB |一种快速准确预测肽与HLA-I类分子结合的用户定制型工具

作者头像
智能生信
发布2021-02-04 15:26:12
发布2021-02-04 15:26:12
1.3K0
举报
文章被收录于专栏:智能生信智能生信

作者 | 张泽宇 编辑 | 戴迟迟 校对 | 李仲深

今天给大家介绍澳大利亚蒙纳士大学ShuTao Mei等人在Briefings in Bioinformatics 2021上发表的文章“Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules”。为了提高在预测肽与HLA-I类分子预测任务中的精度,同时兼顾模型的效率,本文使用了多种评分函数进行特征提取,并使用AODE (Aggregating One-Dependence Estimators) 的机器学习方法,对所得的评分特征进行聚合,从而充分利用评分特征对数据进行预测。作者设计并搭建了快速准确预测肽与HLA-I类分子结合的可用户定制型工具Anthem,支持直接预测、用户模型训练和用户模型预测功能,实现了用户定制功能。作者开发的用户友好型的工具框架,支持用户模型的定制化需求,以更好地应对相关数据快速增加而带来的挑战。在实验数据集和独立数据集的评估下,相对于其它工具,Anthem获得了更高的总体相似度和AUC值。

一、研究背景

1.1 背景

基于新肽的免疫治疗被认为是未来克服癌症的重要方法。为了使新肽能够被CD8+ T细胞识别并产生免疫响应,它需要首先与人类白细胞抗原I类(HLA-I)结合。多数表位预测工具依赖于这种结合的预测。随着质谱技术的应用,可用于开发此类预测器的天然HLA配体的规模已经扩大,但基于数据和计算的高效预测模型仍较少。

1.2 相关工作

目前在肽与HLA-I分子结合的预测工具中,使用的方法大致可分为两类,即基于评分函数和基于机器学习。基于评分函数的预测工具有MixMHCpred、pickbock和PSSMHCpan等,在这种方法中,肽根据特定的评分函数进行编码,提取特征得到评分矩阵,从而进行预测,但它们只使用了一个或两个评分函数,因此不够全面。基于机器学习的预测工具有NetMHCpan、NetMHC和mhcflury等,它们利用机器学习、深度学习等方法,基于肽的序列信息来训练模型,相比于基于评分的方法具有更好的预测性能,但训练开销较大,且高维特征往往会造成过拟合。

二、模型与方法

2.1 Anthem概述

Anthem使用肽与HLA-I结合预测中常用的五种评分函数,对每种肽的氨基酸序列进行综合编码。对于HLA-I每一同种异型,每一结合长度(长度8-14氨基酸)都使用了特征集选择方法,从而选择出最适合的评分函数集合,使该组集合可以获得最佳的AUC性能。接下来,使用集成的独依赖估计模型(AODE),并将评分函数集合作为输入接入模型,使用数据进行训练,并得到对应模型用于预测。

在独立数据集评估中, Anthem相比于其他七种现有的HLA-I肽结合预测工具,表现出整体相似并获得了更高的AUC值。同时,本文使用内部生成的免疫肽组学数据集,将Anthem与其他七种预测工具进行了比较,取得了较好的表现。

此外,Anthem实现了用户定制功能,使用户能够基于自己的输入数据集训练新模型,并将其应用于数据预测。

Anthem的web服务器已部署到http://anthem.erc.monash.edu/,可进行访问使用。

2.2 序列评分函数

①氨基酸频率 (Amino acid frequency, AFF)

其中,f(i)表示位置i的氨基酸频率,f(i,max)表示相同位置上氨基酸的最高频率。

②基于WebLogo的序列保守性

其中,W(i)表示氨基酸在位置i的保守性评分。

③序列位置特异性矩阵 (PSSM)

本文使用了两种PSSM矩阵作为两个评分函数,分别基于PSSMHCpan tool和PWM。

④Substitution Matrix Index (SMI) 评分

本文使用了BLOSUM62来提取对应特征进行评分。

2.3 聚合独依赖估计器 (Aggregating One-dependence Estimators, AODE)

AODE是基于朴素贝叶斯估计的变种方法。朴素贝叶斯中假设各属性相互独立,但现实中往往并非如此,为了g使估计更为准确,独依赖估计假设各属性最多只有同一个属性被其它属性依赖,这个属性一般被称为超父,而其它属性的概率需要以超父为先验计算条件概率。因此,基于AODE的计算往往更为准确。

在本文中,肽的特征为评分函数集合x=<x1,…,xn>,y为HLA-I类中的各同种异型。

根据贝叶斯公式展开,有如下公式。

AODE在超父的选择中,使用遍历选择的方法,将各个可能的超父所产生的结果进行集成聚合,展开公式如下。

这样就得出了肽与各HLA-I分子结合概率表示。相应地,最大概率标签的预测公式如下。

由此,可以根据肽与HLA-I分子结合概率进行预测。

2.4 Anthem Web服务器

作者搭建了Anthem的web服务器 (http://anthem.erc.monash.edu/)。Anthem包括三个功能模式,即预测模式、训练模型模式和使用模型模式。在预测模式中,用户可以直接使用服务器的现有模型;在训练模型模式下,用户可以上传自己的训练数据来训练模型;在使用模型模式下,用户可以使用之前自己已经训练好的模型来进行预测。

待预测的数据格式支持FASTA和肽序列格式,其它具体细节可登录网站查看。

三、实验结果

在独立测试集中,实验选用了112个HLA-I的同类异型体的87035可结合肽作为正样本,同时随机选取了一系列负样本。

模型使用多个指标,将Anthem与其它预测工具进行对比,主要使用的指标如图1所示。

图1. 实验主要指标

除此之外,实验还绘制了ROC曲线,并计算了AUC值进行性能比对。各工具测试的AUC值对比结果如图2,四个其他指标的对比如图3。

图2. 各工具测试的AUC值对比结果

图3. 各工具测试的其他指标对比结果

另外,实验还使用了实验数据集进行测试。各项实验表明,Anthem在各项指标中都有较好的表现,尤其是在独立数据集的AUC表现优异。

四、总结

本文在肽与HLA-I分子的结合预测任务中,基于五种评分函数和AODE聚合方法构建预测模型,使预测的性能有所提高,同时开发了用户定制型的框架Anthem,便于用户训练自己的模型进行数据预测。


参考文献

Shutao Mei, Fuyi Li, Dongxu Xiang, Rochelle Ayala, Pouya Faridi, Geoffrey I Webb, Patricia T Illing, Jamie Rossjohn, Tatsuya Akutsu, Nathan P Croft, Anthony W Purcell, Jiangning Song, Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules, Briefings in Bioinformatics, 2021.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Anthem使用肽与HLA-I结合预测中常用的五种评分函数,对每种肽的氨基酸序列进行综合编码。对于HLA-I每一同种异型,每一结合长度(长度8-14氨基酸)都使用了特征集选择方法,从而选择出最适合的评分函数集合,使该组集合可以获得最佳的AUC性能。接下来,使用集成的独依赖估计模型(AODE),并将评分函数集合作为输入接入模型,使用数据进行训练,并得到对应模型用于预测。
  • 在独立数据集评估中, Anthem相比于其他七种现有的HLA-I肽结合预测工具,表现出整体相似并获得了更高的AUC值。同时,本文使用内部生成的免疫肽组学数据集,将Anthem与其他七种预测工具进行了比较,取得了较好的表现。
  • 此外,Anthem实现了用户定制功能,使用户能够基于自己的输入数据集训练新模型,并将其应用于数据预测。
  • Anthem的web服务器已部署到http://anthem.erc.monash.edu/,可进行访问使用。
  • ①氨基酸频率 (Amino acid frequency, AFF)
  • 其中,f(i)表示位置i的氨基酸频率,f(i,max)表示相同位置上氨基酸的最高频率。
  • ②基于WebLogo的序列保守性
  • ③序列位置特异性矩阵 (PSSM)
  • 本文使用了两种PSSM矩阵作为两个评分函数,分别基于PSSMHCpan tool和PWM。
  • ④Substitution Matrix Index (SMI) 评分
  • 本文使用了BLOSUM62来提取对应特征进行评分。
  • AODE是基于朴素贝叶斯估计的变种方法。朴素贝叶斯中假设各属性相互独立,但现实中往往并非如此,为了g使估计更为准确,独依赖估计假设各属性最多只有同一个属性被其它属性依赖,这个属性一般被称为超父,而其它属性的概率需要以超父为先验计算条件概率。因此,基于AODE的计算往往更为准确。
  • 在本文中,肽的特征为评分函数集合x=<x1,…,xn>,y为HLA-I类中的各同种异型。
  • 根据贝叶斯公式展开,有如下公式。
  • AODE在超父的选择中,使用遍历选择的方法,将各个可能的超父所产生的结果进行集成聚合,展开公式如下。
  • 这样就得出了肽与各HLA-I分子结合概率表示。相应地,最大概率标签的预测公式如下。
  • 由此,可以根据肽与HLA-I分子结合概率进行预测。
  • 作者搭建了Anthem的web服务器 (http://anthem.erc.monash.edu/)。Anthem包括三个功能模式,即预测模式、训练模型模式和使用模型模式。在预测模式中,用户可以直接使用服务器的现有模型;在训练模型模式下,用户可以上传自己的训练数据来训练模型;在使用模型模式下,用户可以使用之前自己已经训练好的模型来进行预测。
  • 待预测的数据格式支持FASTA和肽序列格式,其它具体细节可登录网站查看。
  • 模型使用多个指标,将Anthem与其它预测工具进行对比,主要使用的指标如图1所示。
  • 除此之外,实验还绘制了ROC曲线,并计算了AUC值进行性能比对。各工具测试的AUC值对比结果如图2,四个其他指标的对比如图3。
  • 另外,实验还使用了实验数据集进行测试。各项实验表明,Anthem在各项指标中都有较好的表现,尤其是在独立数据集的AUC表现优异。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档