copy + paste ,简单搬运,偶也会,耶!
岳东晓又给出了详解,方舟子还怎么辩解?
实按:岳东晓在《
方舟子妄批柴静捏造数据的错误》一文中指出方舟子虽然阅读了原论文,却根本没看懂。但方舟子还反驳说岳东晓把图看错了。现在岳东晓又给出了详解,方舟子还怎么辩解?
岳东晓
详解方舟子没看懂的雾霾曲线 精选
已有 233 次阅读 2015-3-13 14:05 |个人分类:
反民科|系统分类:
科普集锦
下面这张图最近在科学网引发了巨大的争论,起因是柴静引用了这张图,而方舟子说柴静对原图数据进行了【捏造数据】的改动。该图是 Pei Li等人发表的《Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing》中的图六。方舟子可能是最早给出图出处的。在《
方舟子妄批柴静捏造数据的错误》一文中,我指出方舟子虽然阅读了原论文,却根本没看懂。我在文中同时做出了正确的解读。但由于我之前并没有阅读论文,而只是读了这张图,对图中数据点的具体来历并不清楚。
现在我终于读到了这篇论文。下面进行一个简单的介绍。特别是讲讲图中的几个数据点到底是怎么来的,希望通过这个详解,能让大家对原论文以及下图有更清楚的了解。
该论文顾名思义是分析北京雾霾对死亡率的影响,这个分析是一个时序统计分析。作者根据的原始数据包括(1)2005-2009年每天的PM2.5等污染指数;(2)每天的温度、湿度等气候数据;(3)每天的心血管病、呼吸系统病死亡人数。论文使用的模型公式是:
其中 E(Y )代表死亡人数期待值,X代表PM指数 (如PM 2.5、PM10),PM指数X 前β
是需要通过分析确定的系数(其意义我在后面会重点讲)。上述公式看起来复杂,各种因素堆在一起。因此,我做一个简单的调整,把左边的对数换成为右边指数,使之变得更加一目了然:
其中 f(T, RH, ...) 是一个未知的温度 T, 湿度RH 及其他变量的函数,在论文中使用多个分段三次曲线 s() 的乘积代表,我们就不必去追究细节了。PM指数的影响在最后的指数项里。论文作者们使用 R软件包中MGCV模块的 gam 程式对数据进行分析,确定了 X前面的系数 β。这个计算仅仅是一个调用软件的过程,我们就不必去深究了。问题是 β 的意义是什么。
由上述公式,在其他变量不变,而改变X时,我们有
可见 β 的意义是:当PM指数X增加一个单位时,死亡率增加的比例。(因为人口固定,死亡率增加比例与死亡人数增加的比例是相同的)。
明白这一点之后,上面那副图的数据点就很清楚了:它们是用2005-2009四年的数据分别进行统计分析算出的各年的β值 (upto a multiplying constant)。
原论文图的正确描述应该是【The inter-annual variability of the estimated percent increases in daily mortality ASSOCIATED WITH 10 ug/m^3 INCREASE of PM2.5 in recent years. 】 原论文图下的描述少了大写的部分。也就是说,原图是 PM2.5 值每增加10,死亡率增加的百分比。
至于为什么
我之前说的根据该图 2006-2009 死亡率几乎直线递增是正确的(当然也符合统计数据),就留给大家思考了。
另外,该论文的模型是否可以改进,那是另外一个问题,我就不在这多讲了。