主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
氨基酸约化对蛋白质亚线粒体定位及拟南芥蛋白质亚细胞定位的预测
小类:
生命科学
简介:
本作品属于生物信息学范畴,利用理论预测的方法预测了蛋白质在细胞中的位置。采用信号肽组分、多种氨基酸约化组分和伪氨基酸组分的特征参数,结合支持向量机(SVM)分类算法,对蛋白质的亚线粒体定位和拟南芥蛋白质的亚细胞定位进行预测,对三个数据集的预测效果均较好。
详细介绍:
蛋白质的亚细胞定位是蛋白质功能与结构研究的重要组成部分。本课题利用理论预测的方法预测了蛋白质在细胞中的位置。采用信号肽组分、多种氨基酸约化组分和伪氨基酸组分的特征参数,结合支持向量机(SVM)分类算法,对蛋白质的亚线粒体定位和拟南芥蛋白质的亚细胞定位进行预测。找到了蛋白质亚线粒体定位的最佳组合参数(该参数是前三十信号肽组分、剩余C端氨基酸组分、ω=0.10,λ=22时的亲水、疏水残基指数值的平行相关形式的为氨基酸组分的结合),相应的预测结果达到了90.22%,比原方法提高了5.05%;利用该数据库信息,找到的线粒体蛋白质分割位点符合真实的生物学现象。组建了包含167条序列的蛋白质亚线粒体定位注释集,利用所研究的数据库和最佳组合参数建立预测模型,总体注释正确率为84.43%。根据SWISS-PROT数据库release-2010_10版中收录的蛋白质序列注释信息,建立了首个经实验验证具有唯一定位的拟南芥蛋白质亚细胞定位数据库(包含1464条蛋白质序列),并利用上述方法对该数据集做了定位预测,找到了对应的最佳组合参数(对应参数是前十五信号肽组分、BLOSUM50氨基酸10类约化关联组分、ω=0.1,λ=21时亲疏水残基指数值及平行相关形式的伪氨基酸组分的结合),总体预测精度为84.15%。均可为相关实验和蛋白质注释提供参考。

作品专业信息

撰写目的和基本思路

为了探究蛋白质序列中氨基酸残基分布特性对蛋白质亚线粒体及亚细胞定位的影响,采用信号肽组分、多种氨基酸约化组分、约化关联组分、伪氨基酸组分,对蛋白质的亚线粒体定位数据集和拟南芥蛋白质的亚细胞定位数据集分别进行了定位预测,得到了较好的预测结果。进而找到了各数据集的最佳组合参数,并对它们的生物学意义进行了的讨论,为相关实验研究提供参考。

科学性、先进性及独特之处

根据各种蛋白质的生物学特性,提取多种参数对蛋白质的亚位置定位进行预测。得到的蛋白质亚线粒体定位预测结果总精度是90.22%,比原来提高了5.05%,并对预测结果进行了数学统计、生物学意义方面的讨论。建立了一个比较全面的拟南芥蛋白质亚细胞定位数据库,并利用亚线粒体定位预测的方法进行了预测分类,得到了较好的预测效果。

应用价值和现实意义

蛋白质的亚细胞定位乃至更精细的亚线粒体定位与蛋白质的功能密切相关。高精度预测结果下的参数和数据库对未知蛋白质的注释有重要作用。本文提出的最佳组合参数和较全面的拟南芥蛋白质亚细胞定位数据库,可为相关的实验研究和未知亚细胞定位的拟南芥蛋白质注释提供参考。

学术论文摘要

利用理论预测的方法预测了蛋白质在细胞中的位置。采用信号肽组分、多种氨基酸约化组分和伪氨基酸组分的特征参数,结合支持向量机(SVM)分类算法,对蛋白质的亚线粒体定位和拟南芥蛋白质的亚细胞定位进行预测。找到了蛋白质亚线粒体定位的最佳组合参数,相应的预测结果达到了90.22%,比原方法提高了5.05%。组建了包含167条序列的蛋白质亚线粒体定位注释集,利用所研究的数据库和最佳组合参数建立预测模型,总体注释正确率为84.43%。根据SWISS-PROT数据库release-2010_10版中收录的蛋白质序列注释信息,建立了包含1464条序列的拟南芥蛋白质亚细胞定位数据库,并利用上述方法对该数据集做了定位预测,找到了对应的最佳组合参数,也达到了不错的预测效果。

获奖情况

无。

鉴定结果

无。

参考文献

1. 拟南芥蛋白质序列来源,SWISS-PROT数据库release-2010_10版 2. Chou’s伪氨基酸组分,来自 [1] Hong-Bin Shen and Kuo-Chen Chou. PseAAC: a flexible web-server for generating various kinds of protein pseudo amino acid composition. Analytical Biochemistry, 2008, 373: 386-388 [2] Kuo-Chen Chou. Prediction of protein cellular attributes using pseudo-amino-acid-composition. PROTEINS: Structure, Function, and Genetics, 2001, 43: 246-255 [3] Kuo-Chen Chou. Using amphiphilic pseudo amino acid composition to predict enzyme subfamily classes, Bioinformatics, 2005, 21: 10-19 [4] Kuo-Chen Chou. Prediction of Protein Subcellular Locations by Incorporating Quasi-Sequence-Order Effect, Biochem Biophys Res Commun., 2000, 278: 477-483 3. 蛋白质亚线粒体定位重要参考文献: Du P F, Li Y D. Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various physicochemical. BMC Bioinformatics, 2006, 7: 518

同类课题研究水平概述

本作品是基于氨基酸约化对蛋白质的亚线粒体定位和拟南芥蛋白质的亚细胞定位做预测。根据文献检索,在蛋白质的亚线粒体定位预测方面,目前的方法有以下五种:SUBMITO(2006年)、GP-LOC(2008年)、AC variables(2009年)、Mito-Loc(2011年)和Discrete Wavelet Transform(2011年)。他们的总体预测成功率分别为85.17%、89.00%、89.70%、94.70%和93.38%,本方法的总体预测成功率达到了90.22%,且所选取特征参数的维数较少,预测运算速度快。并且建立了拟南芥蛋白质亚线粒体定位数据库,做了相应的定位预测,总体预测成功率达83.87%。在拟南芥蛋白质亚细胞定位预测方面,目前较完善的预测方法是Rakesh Kaundal, Reena Saini和Patrick X. Zhao(2010年)建立的拟南芥蛋白质亚细胞定位数据库,该数据库中包含了经过理论方法预测而得的定位注释信息。我们根据SWISS-PROT数据库release-2010_10版,建立了只包含实验上唯一确定定位信息的拟南芥蛋白质亚细胞定位数据库,并且建立了预测模型,达到了84.15%的总体预测成功率。
建议反馈 返回顶部
Baidu
map