气象大数据的最优因果网络重构研究文献综述

 2023-08-17 04:08

关键问题:应用因果熵理论挖掘具体气象问题中各变量因果关系,用python编程。

难点:

文章的主要贡献包括因果熵的理论发展,它是为因果推理设计的信息理论统计。因果熵可以看作是条件交互信息的一种,它概括了传输熵的传统的,无条件的形式。当应用于高斯变量时,因果熵也可以概括格兰杰因果关系和条件格兰杰因果关系。文章证明了对于一般的网络随机过程,给定节点的因果父母恰好是使因果熵最大化的最小节点集,这一关键结果被称为最优因果熵原理.基于此原理,文章介绍了一种因果网络推理算法,称为 oCSE,该算法利用两个步骤来共同推断每个节点的因果父母集合。通过大规模随机网络上高斯过程的数值模拟,说明了所提 oCSE 方法的有效性和数据效率。特别是,数值结果表明,提出的 oCSE 方法始终优于以前的条件 Granger(完全条件)和传递熵方法。此外,使用 oCSE 方法的推理准确性由于其聚合性而通常需要较少的样本和较少的计算:对于稀疏网络,熵估计中遇到的条件集仍保持较低维度。达到所需精度所需的样本数量似乎并不取决于网络大小,而是取决于链路的密度(或等效地,节点的平均程度)和频谱半径(用于衡量信息传输的平均速率)跨链接)。这使 oCSE 成为网络推论的有前途的工具。因此,文章希望强调的是,介绍的所有细节中,基于 oCSE 的算法开发(汇总搜索与渐进式删除结合)是最主要的贡献,可作为一种计算工具,可从复杂的,相互关联的过程。原则上,当统计数据不一定是因果熵时,算法给出的两步过程 2.1 和 2.2 也可以有效地进行网络推断。在结束时指出了一些尚待解决的问题。首先,对于一般的随机过程,很少能获得熵的精确表达。因此,oCSE 的实际应用要求开发非参数统计量,以估计一般多维随机变量的因果熵。理想的估算方法应尽可能少地考虑基础变量的形式,即使样本量相对较小,也能达到所需的精度。其次,在实际应用中经常会违反时间平稳性假设。因此,至关重要的是将观察到的时间序列数据划分为固定段,从而可以推断出与时间相关的因果网络。

  1. 选题背景和意义:随着检测和记录设备的改进,越来越多的气象数据被人们获取。我们可以用这些数据来探索气象变量之间的因果关系,这些变量可以是气温,气压,降雨等常见变量,也可以是nino指数,sol指数等气象指数。这些气象变量之间互相影响互为因果,所以就需要有数据统计的方法是挖掘其中的因果网络,以下罗列2例具体的问题。
    1.随着经济的快速发展,以霾为代表的大气污染已成为主要的环境问题之一。然而,雾霾的成因非常复杂。以空气质量指数PM2.5为例,其浓度不仅受NO2、CO、O3、SO2等大气污染物的影响,还受温度、压力、湿度、风速等气象因素的影响。分析PM2.5的成因和主要污染源,对控制大气污染和制定管理政策具有重要意义。因果分析法可以通过识别PM2.5与不可观测时间序列的相关变量之间的因果关系来解决上述问题,因此,我们提出了一种方法来研究南北气象系统之间的相互作用。
  2. ENSO现象是赤道太平洋海温和海压的异常变化(SST),对全球天气和气候有直接影响。厄尔尼诺是指赤道太平洋地区的异常暖,而拉尼娜是指赤道太平洋地区的异常冷。为了确定厄尔尼诺和拉尼娜,通常会使用特定的区域索引,即Nino1.2、Nino 3、Nino3.4和Nino 4。南方涛动指数(SOI)是指大气中的标准压差。当气候变化对气候变化有积极的响应时,有许多研究都在研究全球气候的影响。在中国,气候变化可能导致极端天气,我们的目标是分析其他变量对广州气温和降水的因果关系。
  3. 课题关键问题及难点:
    1. 一般因果推断方法难以解决高位多变量网络问题,如格兰杰因果,转移熵理论等,会造成直接因果和间接因果混淆,难以判断出变量的因果父母,而且随维数增高,计算效率降低,误报和漏报率增高,所以需要一个针对多维变量,解决因果网络问题的方法
    2. 因果熵实际上是信息熵,要根据时间序列对熵进行非参数估计,选择恰当的估计方法尤为重要。
    3. 因果熵理论需要马尔可夫性为前提,选择变量时要判断其是否具有马尔可夫性,并判断其阶数。
    4. 变量因果关系一般是滞后的,要搞清滞后时间和嵌入维数,选择合适的时间窗。
    5. 显著性检验:由于因果熵是用时间序列估测的,所以一般会不为0,所以需要一个阀值,小于这个阀值极视为0(无因果关系),现需要一个找出阀值的方法。
  4. 文献综述(或调研报告):

    3月:解决剩余所有理论问题,写报告。

    4月:完成报告,尝试新的方法解决气象大数据问题

    5月:修改论文,准备答辩。

    1. 方案(设计方案、或研究方案、研制方案)论证:
    2. 应用因果熵理论来挖掘多变量网络潜在的因果关系,可以减少间接因果的影响并且提高计算效率,减少误报和漏报率。因果熵算法包含两个步骤:1.搜索因果父母集2.删掉伪因果父母。具体的计算可有python解决。
    3. 采用KNN算法估算因果熵来解决非参数统计问题。KNN就是最近邻算法,由于靠数据直接估测概率密度是很困难的事,KNN通过计算最近k个点的数量来估测信息熵,极大地减少了计算量。
    4. 应用C-C理论来判断马尔可夫的阶数。
    5. 采用置换检验的方法解决显著性检验的问题。
    6. 进度安排:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。