应用部分已更新:应用部分
最近开始跟着导师做项目,其中涉及关于梁氏因果分析一块我并不熟悉,特写此博客,学习记录,理顺逻辑。
这是笔者第一次尝试撰写类似文章,水平不足,且笔者的专业气象科学领域对于因果关系的理论要求并不深,文章内容大多是一些简单理论的总结与整合加少许自身的浅薄理解,本人才疏学浅,难免多有疏漏不当之处,望多包涵指教,不甚荣幸。

Shallow men believe in luck or in circumstance. Strong men believe in cause and effect. ― Ralph Waldo Emerson

因果关系

因果关系(causality)大概是所有学科中都难以界定的一种概念。在现实中,我们通常使用直觉来进行判断,这必然会引起争论——什么是因果?因果真的存在吗?如何检验与分析?
世界是复杂的、矛盾的、混沌的——科学无非就是在这样的世界里,找出一些规律,加以严格清晰的证明、应用。在统计、经济等领域,已经有大量成熟且投入使用的因果模型,它们准确反映了我们对因果的直觉认识,而且能被精确的数学语言描述。通过这些模型,我们可以从相对复杂的系统中,找出因果关系并进行检测。在笔者的专业——气象领域中,因果关系的检测同样具有极大的应用价值。

因果与相关——假作真时真亦假

在很多时候,科学验证得出的结论往往是反直觉的。
在不少人的直觉看来,因果与相关性并没有区别,而直到现在,关于因果与相关的关系依然争论不休。而实际上,因果关系的得出远比相关关系要苛刻,但这并不妨碍在现实生活中,我们将其混淆,落入“相关”的陷阱中——所谓”假作真时真亦假,无为有处有还无“,如:
1、吸烟的人比不吸烟的人寿命短。
2、自尊心更强的学生,学习成绩更加优异。
3、社会地位较高的人群,其寿命也较长。
在科学研究中,落入“相关”的陷阱往往会导致错误的决策,造成不必要的损失,因此,辨别“相关”与“因果“具有较大的实际意义。
在统计上,因果与相关的可以概括为:

  • 相关性是指在观测到的数据分布中,X与Y相关,如果我们观测到X的分布,就可以推断出Y的分布
  • 因果性是指在操作(manipulate)/改变X后,Y随着这种操作/改变也变化,则说明X是Y的因cause ,Y是X的effect

因果推断——是果是因谁料得

因果推断(Causal Inference)理论主要分为两支:Donald Rubin的RCM(Rubin Causal Model)和Judea Pearl 的因果图(Causal Diagram),前者更为精确,后者更为直观。
对于理论的综述内容感兴趣者可自行浏览相关文献综述(涉及大量的统计理论内容,笔者羞愧地承认自己看不大懂),对本文而言,此部分主要是说明几个问题:

  • RCM模型为因果关系提供了一个明确的数学统计模型,但同样有局限性:其介入、观测的变量有限、结构黑箱难以解释、解决问题有限。
  • 贝叶斯网络模型简化了模型复杂度,但本身无法区分因果的方向,无法准确描述因果关系。
  • 因果图可以直观地描述出系统中的因果关系,但在气象、生态、海洋领域中,由于系统过于复杂,无法绘制出相应的因果图。
    简而言之,在现阶段以上常见的因果推断方法均不适用于笔者关注的气象、生态、环境等领域,这也是为什么我们需要引入梁氏-克里曼信息流的原因——如何在复杂、动态的系统或时间序列中,进行因子间因果关系的研究?

格兰杰因果检验——欲知前世因,今生受者是

格兰杰因果(Granger Causality)针对时间序列的因果分析最常用的一种统计方法,从最初在计量经济学中使用,后来进入了生态学、复杂网络等自然科学领域。
我们现在所使用的格兰杰因果——也就是格兰杰因果检验已与最初的定义相差甚远。现在使用的格兰杰因果检验的本质,是一种统计假设检验。在Wiki上,其被定义为:

A time series X is said to Granger-cause Y if it can be shown, usually through a series of t-tests and F-tests on lagged values of X (and with lagged values of Y also included), that those X values provide statistically significant information about future values of Y.

简单来说,就是使用最小二乘法对X与Y进行联合回归预测,在对结果进行F检测,通过后根据结果可以判断是否有因果关系。
其方法参见:Granger_causality_wikipedia
漫谈格兰杰因果关系

格兰杰因果的局限——因果有真假,众生细辨清

上面提到,格兰杰因果检验本质是一种统计假设检验,并非真正意义的因果关系,而从定义我们也不难看出,格兰杰因果定义是建立在完整信息集以及发生时间先后顺序基础上的。
这种假设——“因早于果”。往往存在着问题,其格兰杰检测只是判断两个事件的发生的先后顺序是否在统计上显著,并不能够判定因果关系。在气象、生态、海洋等复杂的、非线性系统中,往往由于各种非线性的影响,造成混沌现象,使得一些变量的改变产生了延迟——格兰杰因果无法对这种情况做出较好的检测。
此外,因果检测总是会导致虚假的因果关系,在检测出因果关系后,我们需要对这种因果关系进行验证,验证基于以下原则:

If the evolution of a variable, say, X1, is independent of another one, X2, then the causality from X2 to X1 vanishes.

在许多情况下,格兰杰因果无法满足这条准则,其检验出的因果关系无法验证,即为——"虚假的格兰杰因果关系”。

大数据下的因果分析——因果历然随谁聚

在大数据的时代背景下,相关分析似乎已经代替了因果,这并不难理解——在如此庞大、复杂、混沌的数据中,挖掘出数据的信息并证明其因果关系,可以说是自找麻烦。在《大数据时代》这本书中,作者提出的三大原则:“要全体不要抽样,要效率不要绝对精确,要相关不要因果。”,其体现出的实用、高效、简单快速的原则与我们这个时代的精神可谓相得益彰。
因果难以被完全证实,尽管因果联系是如此浅显易懂,在有些时候,因为引入因果关系甚至会隐藏掉一些新的视角,这些时候,我们不免产生困惑:究竟是虚假的相关?还是虚假的因果?在这个时代下,我们真的需要因果分析吗?
毫无疑问,相关分析是因果分析的基础,因果分析是相关分析的深化。*大数据的相关关系不仅没有替代因果关系,反而给因果关系的研究提供了更广泛的发展空间。*我们用相关搬起石头,用因果堆砌城楼。
在笔者所学习的气象领域中,初始条件的扰动总是会引起一个系统长期巨大的变化,这一端蝴蝶扇了扇翅膀,那一端的城市迎来一场暴风雨——再也没有比这更浪漫、更诗意的理论了,大概也只有因果分析,可以在这混沌中找出一条荒谬但可以解释的因果链了吧。

熵与信息熵——已将虚实论因果

如果要选择20世纪伟大的数学成就,我想香农的信息熵一定会占有一席之位。他将生活中常见的信息不确定性进行了量化,在数学上量化了通讯过程中“信息漏失”的统计本质,具有划时代的意义。
熵的概念首先应用于热力学中,用来衡量无序分子运动的紊乱程度,而信息熵的概念与它的本质并无差别,其形式完全一致。
信息熵的定义:
在这里插入图片描述
我们可以简单理解为:当一个系统的信息熵愈大,其对应信息量越大,其承载信息的能力愈大。需要指出的是,这里的信息量是基于客观概率的,而不是个人主观的概率。此外,信息熵具有非负性,这意味着我们获取信息永远不会让信息的不确定性增加。
信息流,即信息的传递在因果分析的度量中具有颇高的应用价值,许多信息理论来度量信息流,其中最重要的便是传递熵。
信息熵可用于对因果关系,尤其是时间序列的因果关系的度量。假设两个变量XY,计算这两个变量间的信息的传递,将会减少多少系统的信息不确定度,称为传递熵(Tansfer Entropy)。当 XY 的传递熵 > YX 的传递熵时,我们就把 X 称为因,把 Y 称为果,并以此来建立两个变量之间的因果关系。
关于传递熵的解释与推论,可以查看相关文献,或者这篇博文:
建立因果联系(传递熵)
传递熵公式为;
在这里插入图片描述
需要说明的是,传递熵比Granger因果有着更好的适应性,但它并没有解决Granger因果的局限性。甚至,在一定的情况它们被证明具有等价性(L.Barnett,2009)。

梁氏-克里曼信息流——因该果海果彻因

在铺垫了三千多字以后,我们终于迎来了主角——梁氏-克里曼信息流(Liang-Kleeman information flow)的登场。
信息流,即信息传递,它是在一个动态系统中,信息在两个实体间的通过某种过程进行的传递。它往往暗示着因果关系、不确定传播、可预测性转移等问题,在各行业都有着重要应用而备受关注。
如何量化信息流,这是最让人苦恼的问题——作为一个真正的物理概念,却缺少清晰的物理定律对它进一步阐明。研究者们基于多个不同学科的观测,经验或半经验地建立一些形式理论(原文: formalisms,字面可翻为形式主义,不清楚应该怎样翻译比较好),其中就包括上述的转移熵。
真正的物理概念应该是被严格定义和证明的,而不是经验的,这样,它才会有普遍的适用性,而通过这样严格定义,因果关系也能够被严格定量。为了解决这一问题,梁湘三教授早在2005年,就研究了动态系统中的信息传递问题,他们证明,在一个二维系统:
在这里插入图片描述
为了一般性,考虑x2→x1间的单向的信息传递。在2005年,梁教授证明当系统引导一个状态向前时,x1的边际熵从两个不同的来源得到补充:一个来自x1本身,另一个来自x2。可写为:
在这里插入图片描述
后者即为我们需要的x2→x1间的单向的信息传递。
在公式中 dH1/dt 为:
在这里插入图片描述
其中,ρ=ρ(x)为联合概率密度函数,E为数学期望运算符,F为一个矢量场,定义:
在这里插入图片描述
显然,为了计算T2→1,我们需要找出dH1*/dt,通过Liouville方程,将dH/dt简化为:
在这里插入图片描述
为散度算子,E表示数学期望运算符,上式化为:
在这里插入图片描述
也就是说,H的时间变化率正好等于向量场散度的数学期望,这个结果非常的简洁,它告诉我们随着系统的移动,其联合熵的变化完全由系统相空间的收缩或膨胀控制。而这也被证明是任意维度系统的一种确定性属性。
于是:
在这里插入图片描述
在这里插入图片描述
上式被称作LK2005形式。
然而,上述形式只适用于二维系统,并不能满足高维系统的要求。因此,梁教授定义:
在这里插入图片描述
它的离散对应为:
在这里插入图片描述
梁教授给出了不同系统中,两变量间的信息传递的公式与特点,对于离散系统:
在这里插入图片描述
对于连续系统:
在这里插入图片描述
对于二维随机系统:
在这里插入图片描述
梁氏-克里曼信息流的独到之处,在于它给信息流的一个严格的定义,并将其推广至任意维数的系统中,并推导出了不同的确定/随机系统信息流传递速率公式,正如我们前文所说,在使用传递熵、Granger因果时,我们的“零因果”法则往往不能满足,因为系统的混沌性,结果也会带有许多噪声,导致“虚假的Granger因果”或无法检测出其因果性,梁氏信息流很好的解决了这一点。而最终的结果却是不可思议的简洁明了,充满了数学之美。
现根据梁湘三教授在2016的论文Information flow and causality as rigorous notions ab initio,将其结果在此简要概括。
考虑一个n维状态变量 x=(x1,x2,……xn),其对应概率密度函数ρ(x1,x2,……xn),有确定性映射在这里插入图片描述
在这里插入图片描述
从x2→x1的信息流传递速率已被证明为:
在这里插入图片描述
特别地,对于线性自治系统,
在这里插入图片描述
其信息流的传递也非常之简洁:
在这里插入图片描述
这个公式很好的证明了,当xi的演化不依赖于xj时,则tji = 0。这在上面的线性例子中特别明显;xi对xj的依赖来自于A的aij项,所以当它为0时,xj和xi不是因果关系。这个结果也从数量上明确地告诉我们,因果关系意味着相关性,但反之则不然,解决了长期以来关于相关性与因果关系的争论。在推断i因果关系时,我们只需关注信息流传递速率的大小的绝对值。
在之前的二维系统的形式主义中,已经证明了信息流率实际上可以通过最大似然估计从时间序列估计。具体而言,建立了对于两个时间序列x1和x2,在线性模型假设下,x2到x1的信息流率的最大似然估计为:
在这里插入图片描述
Cij为样本协方差,Ci,dj是xi和由xj导出的级数之间的样本协方差,这个简洁的公式已被应用于许多领域中。即使它是在线性假设下,它也证明了[在的高度混沌预期系统问题中是非常成功的。
现在,梁湘三教授正在进行对任意维数系统的时间序列信息流进行估计的研究,具体研究进展可关注其实验室:
南京大气海洋动力学实验室

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐