一、选题背景及意义
(一)选题背景
代谢组学是国际上近年来继基因组学、转录组学和蛋白质组学之后迅速发展起来的新兴研究领域。与转录组学和蛋白质组学比较,代谢组学专门研究生物体系受外部刺激后所产生的所有代谢产物的变化,能够更准确地反映生物体系的状态,且位于系统生物学的最下游,是生物体系整体功能或状态最终结果的表现。近10年来, 在疾病标记物研究、药物开发、毒性评价、营养、植物和微生物代谢网络和代谢工程研究、环保等应用方面已经取得了一定的成绩[1]。
随着分析技术的发展,代谢组学研究的深入,如其它组学研究一样, 代谢组学也正在产生海量且复杂的数据。处理、分析和管理这些多维的大数据集需要专门的数学、统计和信息学工具,但目前市场上尚无满足代谢组学数据处理分析需求的软件,因此数据处理已经成为代谢组学研究中的关键技术和瓶颈之一。
(二)选题意义
代谢组学数据分析处理的困境已经引起了国际上代谢组学研究专家们的一致重视。虽然,国内外在算法研究软件开发和应用方面均获得了不少进展,但是目前的研究成果尚无法满足代谢组学研究的需要。在这种环境下,如何能保证分析数据的完整性和稳定性,有效融合和交叉验证各种分析技术产生的数据,以及继续研发高效可靠的数据处理软件,是值得深入研究的问题[2]。
本课题为代谢组学中的数据处理分析方法及其编程实现,旨在研究代谢组学数据处理的方法,寻找合适有效的数据处理手段,使其应用于代谢组学的研究中。
二、国内外研究概况
目前,代谢组学研究中采用的数据处理方法通常称为模式识别技术,它分为无监督的学习算法和有监督的学习算法。无监督学习算法是将得到的分类信息和样品的原始信息进行比较,从中找出差别。它主要的分析方法有主成分分析(PCA)、层次聚类分析(HCA)、非线性影射(NLM)等。有监督学习算法主要用于建立类别间的数学模型,使各类样品间的分离达到最大,并利用建立的多参数模型对未知的样本进行预测。它主要包括ANOVA、判别函数分析(DFA)、神经网络(NN)、偏最小二乘(PLS)等'。其中以PCA方法和PLS法最为常用[3]。
(一)国内代谢组学数据处理研究现状
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。