开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
一、课题解决的问题:
蛋白质结构预测是生物信息学中一个重要的研究热点。预测二级结构对生物学的发展具有重大意义和应用价值,二级结构是联系一级结构和三级结构的桥梁;二级结构预测结果还频繁地应用于蛋白质序列和结构分析中的其他信息学问题。随着机器学习的发展,研究人员受到神经网络在文字语言处理方面应用的启发,已经开始使用机器学习来预测蛋白质二级结构,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串字符,二级结构即为对应的输出,预测效果比 SSpro8 和 SC-GSN等传统方法较优,但仍有提升空间。
目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列中各种残基形成特定二级结构的倾向,其中基于统计的神经网络方法PHDsec预测的准确率首先达到70%。目前通过结合机器学习的模型,预测的准确率基本能达到80%以上。因此本课题将分别使用目前预测效率较高的几种基于深度学习的预测算法,对蛋白质二级结构或蛋白质复合物结构进行预测,并对算法进行优化改进,达到一个较好的预测效果。最后,分析上述方法存在的不足和进一步的研究方向。
二、研究方法和技术路线:
1.对目前使用较多的预测蛋白质结构的方法进行分析,如基于CNN、LSTM的模型,从而总结出目前使用方法的优点与不足之处,进而提出使用哪种预测模型可以提高准确率。
2.搭建开发环境。包括Anaconda、spyder的安装、所需python库的下载。
3.下载多批公开用来训练和测试模型的非同源蛋白质序列的数据集,并进行数据预处理。
4.对数据序列进行特征提取。
5.构建系统模型,不断训练模型进行优化模型参数 。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。