基本信息
- 项目名称:
- 基于分级BP神经网络的蛋白质二级结构预测
- 来源:
- 第十二届“挑战杯”省赛作品
- 小类:
- 生命科学
- 大类:
- 自然科学类学术论文
- 简介:
- 生物信息学是一门新兴的交叉边缘学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一。作为后基因组时代重要课题——蛋白质结构预测是生物信息学中的重要问题。蛋白质结构预测问题就是如何从蛋白质的氨基酸序列出发预测他的功能构象问题。预测蛋白质二级结构的算法大多以已知二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预测方法,本文采用分级BP神经网络预测蛋白质二级结构。
- 详细介绍:
- 蛋白质二级结构的预测是生物信息学中一个重要的研究课题,进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都发挥重要的现实意义。随着人类基因组计划的顺利实施,已知氨基酸序列的蛋白质数量成级数增长。目前试验手段主要依靠X射线晶体衍射与核磁共振方法测定蛋白质二级结构,但测定周期较长,导致已测定二级结构的蛋白质数量与已知氨基酸序列的蛋白质数量差距越来越大,要求有一种快速简洁而适用性强的预测蛋白质二级结构的方法。而生物学界达成一致共识:蛋白质的氨基酸排列顺序决定了它的空间结构,空间结构体现了蛋白质的生理功能。那么我们就可以从已知序列和结构的蛋白质出发,挖掘出其中的关系,就可以预测出其他已知序列的蛋白质二级结构。如果能够成将蛋白质二级结构预测精度提高到80%,就可以为生物学家了解蛋白质三级结构,设计新药物提供数据,免去实验测定的麻烦,节省研究成本。 近年来,人们利用序列同源信息能够预测精度提高到80%,但这种方法不仅工作量大,而且对于那些低同源和无同源蛋白质的预测非常困难,因此,神经网络方法被认为是目前最有前景的方法。该方法最先是在1988年由Qian和Sejnowski提出,随即引起了一波又一波的神经网络预测高潮,各种神经网络模型不断提出和改进,精度一次次被提高:zhu采用多模神经网络取得68%的精度,王艳春采用级联神经网络取得69.61%的精度。 本课题在前人的基础上,改进了BP神经网络算法,将预测精度提高到69.92%。其创新点在于:采用分级神经网络的思想,分为一二两级各级有不同的目标和意义,所以每一级的网络结构也有区别。一级网络采用了profile编码,携带有较大的进化信息,二级网络采用改进的正交编码,所谓改进的正交编码,就是在常用的20位正交编码后加一位表示成分信息,这样使得编码中含有了蛋白质序列的全局信息,这种创新改进对预测精度提高有一定帮助。同时使用两种编码是本文的大胆尝试,取得了很好的效果。其二,考虑到本课题网络训练的数据比较大,利用多模神经网络将训练集分开到每个子网络,使得每个子网络训练数据都相对较小,分摊了整个网络的负荷,最终收敛性更好收敛时间也更短。 蛋白质二级结构的预测目前是一个大有可为的研究领域,是数据挖掘技术在生物信息学中成功典型应用。为了能够提高精度,为生物学家提供研究提供依据,各种机器学习方法得以应用,以及传统的统计方法也做了改进和创新。这些方法也可以结合起来,都是值得本文继续研究的地方。
作品专业信息
撰写目的和基本思路
- 为了提高蛋白质预测精度,本文改进了BP神经网络的方法,将预测精度提高到70%以上。如果能够成将蛋白质二级结构预测精度提高到80%,就可以为生物学家了解蛋白质三维结构,设计新药物提供理论数据,给生物学家研究带来方便。将氨基酸残基片段作为BP神经网络的输入,二级结构即为对应的输出,神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模型,提取需要的信息,并利用所掌握的信息进行预测。
科学性、先进性及独特之处
- 本作品用机器学习方法去解决生物学中模式分类问题,是数据挖掘技术在生物信息学中的成功应用案例。蛋白质二级结构预测目前依旧是一个难题,主要是预测精度不够高,本作品将神经网络结构与编码方式做了改进,将预测精度从同类研究的68%,提高到73.1%,具有一定的科学性及先进性。且本作品提出的操作方法简单,具有较强的可操作性及可重复性,能够提供蛋白质数据方便验证结论。
应用价值和现实意义
- 进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都发挥重要的现实意义。如果能够对蛋白质结构做出较为精确的预测,就可以根据预测出来的结构设计出我们所需要功能蛋白质药物分子。美国加州理工学院设计和合成了具有锌指蛋白结构模式的23肽,就是一个按实际需要设计的非天然蛋白质。这些工作前提是要蛋白质二级结构预测精度提高。
学术论文摘要
- 为提高蛋白质二级结构预测的精度,本文对BP神经网络结构与编码方式做了改进。构建了一个由5个子网络集成的多模神经网络,蛋白质二级结构的预测结果由5个子网络综合得到。方法是对于每个子网络采用神经网络分级思想分为二级网络。一级网络将蛋白质一级序列用含有进化信息的profile编码作为输入,二级结构作为输出;二级网络以一级网络输出作为输入,以对一级网络结果进行精炼,同时开创性地将一级序列用改进正交编码作为另一输入以提高精度。本文首创了改进的21位正交编码,即在传统20位编码最后加一位表示氨基酸成分比例。网络训练利用子网络差异训练方式进行,实验采用交叉验证,最终的预测精度达到73.1%,比DSC,PREDATOR,PHD方法精度分别提高4.7%,4.41%,0.90%,可为生物工作者蛋白质结构研究提供便捷方法。
获奖情况
- 无
鉴定结果
- 无
参考文献
- [1] 阎隆飞 孙之荣.蛋白质分子结构 [M].清华大学学术专著,1999 [2] Qian Ning, Sejnowski T J. Predicting the Secondary Structure of Globular Proteins Using Network Modals [J]. Journal of Molecular Biology,1988. 865-884 [3]Hanxi Zhu,Ikuo YOSHIHHARA. Kunihito YAMAMORI Prediction of Protein Secondary Structure by Multi-Modal Neural Networks [J]. International Joint Conference on Neural Networks, 2002.280-285. [4] Xin Huang, De-Shuang Huang, Guang-Zheng Zhang, Prediction of Protein Secondary Structure Using Improved Two-Level Neural Network Architecture [J].Protein & Peptide Letter ,2005. (12) 805-811. [5] 王艳春,何东健,王守志,基于级联神经网络的蛋白质二级结构预测 [J].计算机工程,2010.36(4). [6] 冯永娥,蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨 [D].内蒙古:内蒙古大学. 2008. [7] cuff J.A, Barton G.J, Evaluation and improvement of multiple sequence methods for protein secondary structure prediction [J] ,Proteins.1999. 508-519. [8] Pierre Baldi,张东晖译,生物信息学——机器学习方法 [M],2003. [9] 林丽玉,基于神经网络的蛋白质二级结构预测的研究 [D],大连:大连理工大学.2005.
同类课题研究水平概述
- 目前,采用DSC方法的蛋白质二级结构预测精度为68.4%,PREDATOR方法为68.69%,PHD方法为72.1%,PHD方法虽然精度较高但比起神经网络方法更复杂,适用性范围较小。 Hanxi Zhu等人采用多模神经网络网络预测精度为68%, 王艳春等人采用级联神经网络预测精度为69.61, Huang Xin和Li Yixue等采用改进的二级神经网络预测精度,71.19%.本文提出的神经网络预测精度为 73.1%.