基本信息
- 项目名称:
- 基于蛋白质序列、结构的特征选取和约简的耐热蛋白预测系统构建
- 来源:
- 第十二届“挑战杯”作品
- 小类:
- 生命科学
- 大类:
- 自然科学类学术论文
- 简介:
- 本文根据蛋白质序列,提取了序列特征、二级结构特征和全局描述性特征。进一步利用Relief算法和Filter算法,遗传算法对特征向量进行约简,并对约简后的特征向量进行对比实验,从而得出影响蛋白质耐热性的关键特征。本研究有助于从理论角度解释蛋白质耐热性的生物化学原理,所建立的耐热性蛋白判别机制可以有效降低传统生物实验的时间成本和实验成本。
- 详细介绍:
- 研究蛋白质的序列、结构和功能对嗜热菌稳定的作用,不仅可以从理论角度解释蛋白质稳定背后的物理化学原理,而且有助于耐热性蛋白质在基因工程、发酵工业、耐热酶设计中的应用。 本文以从NCBI 数据库下载得到的蛋白质序列数据为研究对象,提取蛋白质序列信息、物化性质和全局描述性特征。然后,使用不同特征的杂交策略,对单组特征、组合特征分别进行了训练预测对比试验。但是,由于特征的冗余性和特征之间的互相干扰,必须对特征进行约简以提高预测准确率。本文分别利用遗传算法,Relief算法和Filter算法,对提取的特征进行适当的约简,以得到对蛋白质耐热性影响最大的特征,继而分别设计了基于三种算法约简后的特征向量的耐热判别机制。在三种算法中,以遗传算法进行约简后的特征向量构造的分类器取得了最好的判别效果,其判别准确率和Matthew相关系数分别为96%和0.92,较约简之前均有提高。 本研究的结论有助于解释蛋白质耐热性的生物化学原理,所建立的耐热性蛋白判别机制可以有效降低传统生物实验的时间成本和实验成本。
作品专业信息
撰写目的和基本思路
- 【目的】建立有效的耐热蛋白判别机制,编写相应应用程序,以降低传统实验方法的成本。 【基本思路】1.从NCBI数据库下载耐热性蛋白质和非耐热性蛋白质样本。然后提取蛋白质序列信息,物化性质和全局描述性特征作为分类器的候选特征向量。 2.利用Relief算法、Filter算法和遗传算法对特征向量进行约简,得到影响蛋白质耐热性的关键特征,并利用约简后的特征判别蛋白质耐热性。
科学性、先进性及独特之处
- 1.根据蛋白质序列,同时提取了序列特征和二级结构特征和全局描述性特征;使用不同特征的杂交策略,对单组特征、组合特征分别进行了训练预测对比试验; 2.分别利用Relief算法、Filter算法和遗传算法对特征向量进行约简,并对约简后特征向量进行对比实验。尤其是遗传算法的引入,对提高预测准确率有较为明显的作用。
应用价值和现实意义
- 1.本作品通过特征约简方法得出了影响蛋白质耐热性的关键特征,有助于从理论角度解释蛋白质耐热性的生物化学原理; 2.本作品所建立的耐热性蛋白判别机制可以有效降低传统生物实验的时间成本和实验成本; 3.本作品所使用的研究方法有望应用于其他同类课题的研究。
学术论文摘要
- 研究蛋白质的序列、结构和功能对嗜热菌稳定的作用,不仅可以从理论角度解释蛋白质稳定背后的物理化学原理,而且有助于耐热性蛋白质在基因工程、发酵工业、耐热酶设计中的应用。本文以从NCBI 数据库下载得到的蛋白质序列数据为研究对象,提取蛋白质序列信息、物化性质和全局描述性特征。基于这些特征的组合,本文用支持向量机构造了可靠的分类器。 但是,由于特征的冗余性和特征之间的互相干扰,必须对特征进行约简以提高预测准确率。本文分别利用遗传算法,Relief算法和Filter算法,对提取的特征进行适当的约简,以减少特征空间维数,得到对蛋白质耐热性影响最大的特征,继而分别设计了基于三种算法约简后的特征向量的耐热判别机制。实验结果表明,经过约简后的算法取得了更好的判别效果和更高的预测准确率。在三种算法中,以遗传算法进行约简后的特征向量构造的分类器取得了最好的判别效果,其判别准确率和Matthew相关系数分别为96%和0.92,较约简之前均有提高。
获奖情况
- 1.De Wang, Liang Yang, Zhengqi Fu and Jingbo Xia*. Prediction of Thermophilic Protein with Pseudo Amino Acid Composition: An Approach from Combined Feature Selection and Reduction. Protein & Peptide Letters, 2011, Vol. 18, No. 7, 684-689. (SCI期刊,影响因子:1.755) 2. Yang Liang, Fu Zhengqi, Wang De, Xia Jingbo*. An Improved Ant Colony Algorithm for Continuous Space Optimization. The International Conference on Machine Learning and Cybernetics (ICMLC2010),1829-1934. (EI检索,Accession number: 20104613374682 )
鉴定结果
- 无
参考文献
- [1] Inna, D.; Ilya, M.; Stephen, R.H.; Kim, S.H. Prediction of protein folding class using global description of amino acid sequence. Biophysics, 1995, 92, 8700-8704. [2] Lin, H.; Li, Q.Z. Using Pseudo Amino Acid Composition to Predict Protein Structural Class: Approached by Incorporating 400 Dipeptide Components. J. Comput. Chem., 2007, 28, 1463-1466. [3] Gromiha, M.M.; Suresh, M.X. Discrimination of mesophilic and thermophilic proteins using machine learning algorithms. Proteins, 2008, 70, 1274–1279. [4] Lin, H.; Chen, W. Prediction of thermophilic proteins using feature selection technique. J. Microbiol. Methods, 2011, 84, 67-70. [5] 博士学位论文:丁彦蕊. 嗜热菌耐热性与蛋白质序列、结构和功能关系的生物信息学研究。
同类课题研究水平概述
- 对于耐热性蛋白质的判别,传统的生物实验手段需要进行大量的实验,观测周期也相对较长,因而财力成本和时间成本都很高。因此,运用生物信息技术来研究蛋白质的耐热性十分必要。 运用生物信息技术主要涉及到以下两个问题:分类器的选择和特征的提取与约简。对于分类器的选择,有很多方法和算法运用到这一领域中来。例如支持向量机,神经网络,决策树, K最近邻域, KRAB算法等。现阶段,支持向量机已成一种比较流行和可靠稳定的分类预测算法。通过研究,国内外学者运用各种方法得出了很多关于蛋白质耐热性的结论。 关于特征的提取,国内外学者也做了很多研究。例如,Das和Gerstein认为耐热性蛋白质的序列长度一般要比它所对应的非耐热性蛋白质短,Suzuki等认为蛋白质氨基酸组成中的高脯氨酸含量和耐热性有关,Argos等认为丙氨酸是一种容易形成螺旋的残基,因此高温蛋白质中的丙氨酸含量较高。还有一些学者认为氨基酸组成和二肽组成都与蛋白质耐热性有密切关系。此外,一些学者通过研究认为除氨基酸组成和二肽组成外,还有一些二级结构和物化特征对蛋白质的耐热性有显著影响,例如盐桥,氢键,疏水性,溶剂接触表面积等。还有学者结合其他方法提取特征,如胡学海等结合混沌图(CGR)来提取特征。而对于特征的约简方面,也有学者用了各种不同的方法。如Hao Lin等使用ANOVA(analysis of variance)来研究蛋白质的耐热性。其他常用方法有主成分分析法(PCA),mRMR (minimal-redundancy-maximal-relevance),Relief算法等。 但是,这些研究往往只注意到某一类特征对于蛋白质耐热性的影响而忽视了其他特征的影响。因此,本研究提取了氨基酸组成特征、物化性质特征和全局描述性特征,并基于这几类特征作了单组特征实验和组合特征实验。而关于特征约简,基于课题组在人工智能领域的研究基础,引入遗传算法来选取特征,并以Filter算法和Relief算法做了对比实验。