神经科学大危机，一文扫荡15年研究？

最近《美国国家学院院刊 (PNAS)》发表了一篇关于功能磁共振成像(fMRI)的数据分析的批评文章。结果这篇文章一石激起千层浪，引来学界内外对于功能磁共振成像的争吵，在局部地区甚至升级成了闹剧。我个人认为，对于一篇引起争议的文章，如果只读了标题、摘要、作者总结和媒体报告，相当于这个人根本没读这篇文章，而他/她在讨论的时候应该闭嘴——或者至少清楚自己参与讨论的时候，不是在讨论这篇文章，而是在根据自己已有的知识，经验，和对于文章的臆想来表达自己的观点。

为了防止自己陷入这种错误，我于是也就去好好拜读了一下这篇所谓『质疑15年神经科学』研究的大作：Eklund， Nichols & Knutsson (2016) 认真研究了fMRI数据分析中多重检验校正不到位或者不正确所导致的统计显著虚报率很高的问题。

他们使用了常用的fMRI数据分析工具，处理了一组大样本(近400个被试）大脑静息态数据。由于人在静息态数据扫描时不进行任何认知任务，所以把这组数据放到一个带有认知任务的实验设计中，数据分析不应该给出统计显著的结果。然而作者发现用传统的数据分析工具，使用默认值进行数据处理，会导致非常高的虚报概率(false alarm rate)——也就是说，人类大脑本身并没进行认知加工，但是数据分析告诉我们人脑是在进行认知加工的。

这种基于数据的『无中生有』的推论，如果概率很高，就暗示我们之前得到的实验研究结果也可能是在『无中生有』罢了，并不是真正了解了大脑的工作方式。作者进一步探究了为什么不假思索地使用这些常见的分析工具会导致如此高的虚报概率：他们发现原来是统计分析的步骤中，有一些统计假设不能得到满足。

截止到这里，这篇文章都是好文章，非常值得任何一个进行fMRI研究的人阅读、学习和自省。但是这篇文章做完这项研究之后，就开启了地图炮：『从PubMed上搜索发现fMRI的文章有40000篇左右，我们这个分析发现的错误意味着这40000篇文章都有问题。』紧随其后，媒体加入，扩大了地图炮，从『fMRI研究』一步跳到了『神经科学研究』：最新研究表明过去15年神经科学研究如空中楼阁，或将全部失效。

当然，扩大地图炮的范围还不够，还要浓缩炮弹，从一个重要的统计问题的讨论，变成了『一个程序bug』质疑过去15年神经科学研究。大概大家都喜欢这种四两拨千斤的感觉，特别想用最小的差错，来动摇最大的问题，如果有机会，恨不得一个字符错误毁掉了100年科学研究。

不说媒体如何夸大其词，这篇文章的重要性（Significance）部分本身就写得非常自负，的确无法让人产生好感：从PubMed上搜索发现40000篇fMRI文献，然后攻击说『该研究结果质疑了40000fMRI研究的有效性』。话说你把这40000篇文章的方法部分都读过一遍了吗，你就该说他们都做错了？这种感觉就像：一个人发现了天鹅可以是黑色的，他回去上网搜索『天鹅是什么颜色』，结果发现40000个人说天鹅是白色的，于是他都不去问这40000个人，就直接说『这40000个人对于天鹅的认识都是错误的，而我才是对天鹅有正确认识的人。

』这段文字可以说是一段自作聪明的总结，典型的『想搞个大新闻』。作者仿佛就是在说：『我比你们都聪明，你们这帮人全都是傻逼，都做错了，都不知道我们发现的这个错误。』然而，文章中讨论的fMRI数据多重检验可能会造成虚报了偏高的问题，学界早就知道了。Bennett， Baird， Miller， and George (2009) 还因为这个问题得到了当年的搞笑诺贝尔奖。读完这个重要性的部分，人们对这篇文章就有一点『跳梁小丑』和『班门弄斧』的感觉。

不过我既不想赞美这篇文章，也不想鄙视这篇文章。因为从文章的角度而言，这是一篇扎实的好文章，我觉得读一读很有帮助。这里主要就想讨论两个问题

这篇文章无法冲击现在神经科学研究的结果。

这篇文章需要引起我们对于fMRI研究的谨慎。

神经科学研究没那么脆

鲜有一项研究奠定一个领域；鲜有一项研究动摇一个领域。

科学发展不是一天到位的。在这个过程中，虽然充满了『以己昏昏，使人昭昭』和『以讹传讹』的道路，但是大量独立重复实验最终会过滤掉那些经不起检验的假设或者理论，而留下一些比较坚实的结果。

首先，神经科学研究不仅仅是fMRI研究。大量重要的神经科学研究是插电击的电生理层面的研究，他们完全不受这篇文章的影响。

第二，人类大脑研究也不仅仅是fMRI研究。经颅磁刺激（TMS）就可以用磁场来干预大脑电信号。就算是人类大脑成像研究，也不仅仅是fMRI研究：在fMRI之外还有正电子放射扫描（PET），脑电（EEG），脑磁（MEG）等研究工具可以使用。这些研究工具完全不受到这篇文章的影响。

在茫茫神经科学研究之中，fMRI只是很小的一部分。这个部分还在成长，但是神经科学研究整个领域不会因为这个部分受到影响，而导致15年内的研究毁于一旦。

那么，这篇文章会不会至少颠覆整个fMRI研究领域，让15年内的fMRI研究毁于一旦呢？

答案是不会。但是要回答这个『不会』，我们需要从两个方面来解释为什么不会。很多人会直接一步到位，把两个问题合并成一个问题来攻击：因为数据分析的方法虚报很高，所以数据推论出的结果和理论就不值得信任；因为从数据推论结果这个步骤不值得信任，所以fMRI的实验都是无效的。因为对数据分析工具性的不信任，直接一步走到对于神经科学研究结果的不信任，这是一种典型的数据驱动(Data Driven)的研究思路，非常符合现在大数据时代的召唤。但是，fMRI研究不完全是数据驱动的。

fMRI研究领域，作为一个领域，它的问题和结果的有效性不会因为这一篇文章所动摇。

fMRI是一种研究工具，我们使用这项工具来探索一个关于『大脑运行方式』的问题。我们最终关心的是『大脑如何工作』。所以第一个方面的讨论就是：以往的fMRI研究告诉我们的『大脑如何工作』的结果，会不会因为fMRI本身工具的部分缺陷，变成胡说八道，空穴来风？

关于『大脑如何工作』的一项好的fMRI研究，不会是拍大腿想点子，就把被试送进机器里面去扫描的。整个神经科学的研究，尤其是认知神经科学的研究，都是基于已有的研究结果，进行合理的扩展之后，来探索新的知识。fMRI结果所发现的大脑区域的激活，也不是随便就下定论的。要从fMRI的结果来推理大脑X区域进行A认知功能（比如，大脑枕叶区域进行视觉加工），本身推理的合理性不仅仅来自于当前实验所得到的数据，还需要综合之前其他实验室通过其他实验手段独立得到的结果。

如果当前的fMRI实验结果跟其他研究方法，比如行为测试，计算模型预测，电生理的电极记录等，结果互相呼应，可以合理的整合起来，这样的fMRI实验结果才是有效的。于此同时，当前fMRI实验的虚报结果的可能性，也会因为之前的类似实验得到相同的结果而相对减小。比如我们可以计算：fMRI结果说明『大脑枕叶进行视觉加工』这个结果可能50%是错的，但是同时我们有电生理实验也说明『大脑枕叶进行视觉加工』，其结果可能是错的的概率是20%，那么这两个实验都是错误的概率就是10%。

换句话说，fMRI研究本身的虚报率，在当前这个多种研究手段独立重复实验的情况下，不会对于他们所揭示的『大脑如何工作』这一科学问题的有效性产生很大的负面影响。fMRI这个研究领域所研究的问题和结果，不仅仅得到本领域内独立重复实验的支持，还得到了其他领域独立重复实验的支持。所以，fMRI领域研究的问题和结果的有效性不会被这篇文章所动摇。

2. fMRI整个领域的研究结果的有效性，也不见得有文章中所指出的那么大的问题。

我们终于要集中精力来讨论这篇文章的内容了。在介绍文章内容以前，我们先用Bennett， Baird， Miller， and George (2009) 这篇著名的死三文鱼实验来做铺垫。

fMRI扫描人类大脑的活动，所得到的大脑成像大约有100，000个三维体素(Voxels)。实验分析一般通过对比不同的实验条件下每个Voxel的血氧浓度（BOLD）信号的差别来判断这个Voxel是不是参与了当前的认知任务。这里基本的统计思路就是：如果一个Voxel在条件A和条件B下存在统计显著的BOLD信号差别，那么这个Voxel就被认为是参与了实验设计的认知任务。

但是推论统计(Inference statistics)存在一定的虚报概率：一个Voxel可能本身并没有参与实验设计的认知任务，但是因为一些测量噪音，在分析数据的时候，这个Voxel仍然在条件A和条件B下出现了统计显著的BOLD信号差别，这个Voxel就『无中生有』地被认为参与到了认知加工中。我们称这种错误叫做一类错误（TYPE I Error）。

作为实验研究者，我们当然不想犯这样的错误，所以人们使用了神奇的p<0.05或者p<0.01这样的阈限来控制我们犯一类错误的概率小于5%或者小于1%——虽然我们知道我们无法避免错误，但是至少我们能控制犯错误的机会尽量小。

但是，统计上仍然存在更多的原因：如果我们同时进行多个统计检验，我们需要进行多重检验校正。为什么呢？回想到我们的大脑有100，000个Voxel，每一个单独的Voxel存在5%的可能性虚报，那么这100，000个Voxel如果不进行校正，就会有5000个Voxel，因为随机误差的原因，被『无中生有』地认为参与到了某项认知任务中。5000个！要知道我们一般看到的fMRI实验，一个激活区域有1000个Voxel已经了不起了。

为了说明多重检验校正非常重要，Baird， Miller， and George (2009) 拉了一条死三文鱼放进fMRI扫描仪里面，给这条死三文鱼呈现一系列的图片，这些图片描述了人类个体在不同社会情境下的情绪。作者就问这条死三文鱼：请判断你所看到的图片里面的这个人的情绪是什么？扫描以后，然后对这条死三文鱼的每一个Voxel进行统计检验，并且不进行多重检验校正，于是我们得到：

是的，你看到了那个亮亮的部分吗？这就是说明这条死三文鱼的某些身体部位在判断图片中的人的情绪哦！你是不是觉得很荒诞？这里的原因就是没有做多重检验校正。图中激活的部分并不是因为死三文鱼在进行情绪判断的认知活动，而是因为随机误差造成的虚报。如果我们进行多重检验校正以后，这条三文鱼就全都黑下去了。

在了解了多重检验校正在fMRI实验数据分析中的重要性之后，我们回过头来看现在这篇文章。这篇文章在这条死三文鱼之上，更进一步。因为业界大家都知道需要多重检验校正了，但是对于如何正确地多重检验校正并不同意。最暴力的方法是诸如bonferroni这样的控制family-wise error(FWE)的方法：为了控制FWE程度上的虚报率p < 0.05，直接上来给定

这样每一个Voxel的虚报率就要控制在

以下——如果你没有概念，我只能告诉你这是一个非常非常苛刻的要求。所以，大多数研究人员都不会选择这样的校正方法。于是一帮人选择了clusterwise inference：

通过设置某个p-value的阈值(比如常用的0.01， 0.001)来筛选voxels，然后将相邻的超过这个阈值的voxels构成clusters，这时候得到的clusters并不一定是显著的。事实上clusterwise inference是通过寻找这些clusters来构建新的统计量(比如cluster size， cluster mass等等)，然后用新的统计量来进行全局的假设检验，从而达到修正多重检验的目的。之后需要估计的就是在零假设下，满足这样的阈值条件所找到的clusters的分布。这篇文章说的就是在使用参数方法(gaussian random field)估计这一分布时候存在的问题。——@Yuanning

而本文就是发现，后面一种clusterwise inference，虽然理论上能够控制整体的虚报率，但是在实际数据分析中会产生非常高的虚报率。他们说，这个虚报率甚至高达70%。也就是说，我们用这样的校正方法，还是可能发现死三文鱼在做认知任务这个问题上。

这项研究的作者是非常勤奋的，他们当然不会只用三文鱼来说事。他们使用了当前学界最常用的3大分析软件，对同一个包含将近400个人类被试的数据集进行了1000次随机筛选，对于每一次随机筛选使用了以前的实验设计。这个数据集有意思的地方在于这是一个静息态的数据集，所以作者假设这个数据集不应该产生任何任务相关的激活。你可以这么想，你躺在扫描仪里面，闭上眼睛什么都不干。然后我告诉你，你此刻的大脑在分析一个你看都没看到的图片上的人脸的情绪，你会觉得这一定有问题。

根据这样的逻辑，文章作者就把这个把这个数据集丢进了若干实验设计，一分析，一校正，发现：我勒个去，竟然看到了大脑部分区域激活了！这不科学！于是他们觉得，当前使用的校正方法一定是有问题。为什么有问题呢？他们发现clusterwise inference的统计理论假设中对于空间信息和噪声的假设并不能在实际数据中得到满足，实际数据信息并不是空间高斯分布的。这个原因直接导致了使用clusterwise这一校正方法无法很好地控制虚报率。截止到这里，作者的研究结果都是非常有说服力的。

但是，作者不能只对当前的研究进行评论，他们还要从当前的研究出发，来『推论』整个研究领域其他的研究可能的情况。这个步骤本身，也是一个从数据出发推论结果的过程。既然是推论，就存在虚报。那么，我们现在就来看作者是怎么虚报『整个研究领域存在高概率的虚报』这个结果的。

做统计推论，就一定会有假设。这篇文章从一个数据集的虚报率有70%出发，推论出整个研究领域的任何一个研究都存在『70%虚报率』的可能，需要建立在好几个假设之上。

1. 假设所有研究都是全脑分析。

这篇文章的数据分析过程中，是把整个大脑丢进去，不带任何先验假设，只求寻找到一个激活区域。由于全脑分析且没有先验假设，整个分析就有一种『两眼一抹黑，丢进去就算，算出来什么再说』的状态。但是实际上，现在很多fMRI研究不是这样做的。比如很多实验会提前定义感兴趣的区域（ROI），然后专门看这个区域是否对进行认知任务。

2. 假设所有研究都是探索性研究，没有任何理论支持，也没有任何实验设计

就算是全脑分析，现在fMRI研究也不会毫无章法地看大脑哪里激活了。前面已经说过，fMRI的研究是基于以前的研究的，人们知道哪个脑区大概会负责什么样的认知功能。如果的确是第一次发现某个脑区进行一项新的认知功能——比如前额叶加工自我意识，这一结果必定是需要反复进行不同的实验设计来验证的。

人们需要设计各种实验，有的实验设计成会激活这个脑区，有的实验会特意设计成不应该激活这个脑区。如果正面反面的实验最终发现，某个脑区只要在实验设计存在自我意识的的时候才激活，设计中不存在自我意识的时候就不激活，才能逐渐报告：这个脑区负责自我意识。

3. 假设所有研究是个激活就报告结果

本文实验估计虚报率的方法实在是非常有意思。我截个图大家自己读一下：

我重复一下画出来的部分：『估计FWE的方法就是简单地数在1000次分析中，有多少次分析出现了任何显著区域。』

任何显著的区域？所以你是觉得所有的fMRI研究结果，任何看到了显著的区域就报告么？这种『Simply』的分析方法，本身就会极大地高估虚报率。如果1000次的某一个分析中，只有10个voxel激活了，本文作者就会认为出现了一次虚报。但是在真实的fMRI研究中，研究人员很有可能会觉得不报告这个激活，因为他们自身看都可以看出这有可能是虚报。本文作者对fMRI领域的攻击直接无视了研究人员对于所看到的结果的审查环节。

我这么说吧，如果我在做一个视觉实验，然后进行全脑分析。结果我发现被试的小脑激活了10个voxel。你说我会认为小脑的这10个voxel是在进行视觉加工么？我多半不会，我会主动地认为这可能是虚报。这种类型的实验人员控制虚报就这么被无视了，你还敢说40000个fMRI实验都值得质疑？

4. 假设所有研究都用的是软件默认设置

需要提出的是，要产生70%的虚报概率不是那么容易的。你必须使用软件的默认设置，必须设定p=0.01，如果你不小心设置成了p=0.001，你就只能得到10%不到的虚报率了（见Supplementary Figure 2)。你还得一定要做空间平滑，而且还得是软件默认的空间平滑。由于实验数据原因，你还不能做slice-timing correction，所以fMRI功能像没对齐而产生的虚报你还得保留着。以上步骤，你稍微改了一个，你都得不到70%虚报率。然而，作者假设整个研究领域的所有研究人员都是无脑只会使用软件默认设置的，所以他们的实验结果都值得质疑。

这是在侮辱研究领域的整体智商。首先，应不应该做spatial smoothing就不是一定的。有很多研究人员早就知道空间平滑存在问题，所以他们可能并不进行空间平滑，或者是他们会先分析数据，看到确实有效应之后再做空间平滑。

另外，多重检验校正这个问题很多人都知道了，所以很多研究人员一开始就会把p设置成p=0.001设置更低来当做更保守的。作者们，请你在攻击40000个实验之前，先看一眼有多少实验是真的把p值设得这么低，然后再有针对性地进行地图炮不好吗？

5. 假设所有研究统计效力超级大，二类错误不是问题！

我们不想犯一类错误，但是我们同样也不想犯二类错误啊。什么是二类错误呢？就是『有成了无』。比如说，你的脑区A明明是在进行认知任务的，但是由于统计效力比较低，信噪比太高，所以数据反而告诉你：你的脑区A没有进行这项认知任务。举一个极端的例子，现在已经公认大脑枕叶进行视觉加工了，于是你躺进扫描仪，看到图片。结果我分析你的大脑数据，告诉你：你在看图片的时候，你的枕叶没有激活，一片黑。如果这不是二类错误——我的数据问题没有检测到你的枕叶活动，那你就需要去医院诊断一下了。

统计检验中选择参数检验的原因之一是因为参数检验要比非参数检验的统计效力高。这样的检验会防止研究人员错过发现大脑真正的运行方式。本文的作者说明了参数检验一类错误高，全身心都在担心一类错误，这只是统计分析的一个方面。我们也需要担心担心二类错误，所以，也想请作者好好分析一下不同的方法对于二类错误的控制如何。万一，我也做一个数据集分析，我也做1000次筛选，结果我发现参数检验的二类错误只有10%，而非参数检验的一类错误高达50%，我是不是也要写一篇文章抨击一下所有使用非参数检验的fMRI研究——你们都错过了效应了？

当然，我发现在整个研究领域，大家对于一类错误的担忧远远大于对于二类错误的担忧。

6. 话说你group analysis你是用的random effect还是fixed effect？

最后一点是我没有从文章中看到答案的。文章使用的是group analysis，也就是说把不同的10几个人的大脑数据综合起来看一个『平均人脑』中是否有脑区激活。但是，在这个『综合10几个人的大脑』的过程中，存在很多的假设，也有很多的方法。比如，有经典的fixed effect和random effect的方法。简单地说（欢迎打脸），fixed effect就是把这10几个人当做一个人，直接叠加效应；而random effect会把这10几个人当做不同的人来控制最后综合结果是否显著。

简单的说：random effect会比fixed effect产生更少的虚报。实际上现在大多数的fMRI实验都会使用random effect。而是用fixed effect大多数是很早的时候的研究。这篇PNAS文章没有说明白他们到底使用了fixed effect还是random effect。如果他们不幸使用了fixed effect，那么他们自己的实验数据中的虚报率就会被放大。然而他们还得假设所有实验都是使用的fixed effect。真是欲加之罪何患无辞啊。

这一部分的总结就是：虽然这篇PNAS文章本是研究做的还是很不错的，但是他们从自己的数据分析出发，来推论整个研究领域的数据分析毛病的时候，他们自己也陷入了好几个不成立的假设中，而这些不成立的假设，可能会直接导致他们虚报了整个研究领域『高估虚报率』。

如果作者不能明确解决以上的所有假设，圈出真正满足所有假设的文章，我就只能说：fMRI领域的研究没你们说的那么糟糕。

fMRI研究要谨慎

老实说我是比较喜欢这篇文章的，但是我非常担心这篇文章因为夸大其词的地图炮的原因，失去了它本该有的警示作用。

fMRI这项技术从发明到使用到现在，每一步都存在假设。整个这个领域的每一步推理都是建立在一系列的假设上的。从最根本的地方出发，神经元活动和BOLD信号之间是什么关系？这个问题到现在也没有很明白地说清楚。但是现在已经有的模型提供了一个基本的假设，就是BOLD信号的确是反应了神经活动的。如果有一天实验证明这个假设是错的，那整个领域可能要颤抖一下——不过现在还没有人能够证明这个。

不仅仅是基本假设，在数据分析的步骤中还存在更多的假设和简化。比如血液动力反应函数(Hemodynamic Response Function， HRF)，理论上来说在不同的脑区是有不同的形状的。所以最正确的方法需要用通过实验设计来测量出相应脑区的HRF的形状。但是在实践过程中，很多研究都会使用经典HRF，也就是canonical HRF，并且假设所有脑区的HRF都是一个形状的。这样做当然是可以简化整个数据分析，但是会有多大的影响呢？我相信一定是有人研究过使用和不使用经典HRF对于同一个实验的实验结果会有多大的影响的。

就算是你拿到了大脑数据，你要分析数据，让数据说出个意义出来，整个统计过程中都有很多的陷阱，也有很多的方法。有些人使用GLM，有些人使用MVPA，有些人觉得机器学习、深度网络才是高级货，所以一定要用这种高级货分析大脑数据才是正道。

我觉得这篇文章最好的地方在于，他们提醒每一个进行fMRI研究的人：不要轻易地以为你这么做就是对的。现在我展现给你看，你可以错得多离谱。这并不是说现在已有的每一个研究者都错得这么离谱，但是给大家上个警钟是很重要的。

fMRI现在作为人类大脑研究中的烫手的山芋，什么人都想进来参一脚。这其实是一件非常糟糕的事情。最早一批进行fMRI实验的人，因为是开创者，他们反而会对整个工具的正确性更加谨慎。而后来加入的人，尤其是一些心理学背景，以及其他社会科学背景的人，会把这个工具完全工具化，而不去学习如何正确地使用这个工具。作为一个心理学背景出身的人，我是知道学这种工具的过程中，遇到的那些数学、物理什么的是多么的难懂。

老实说，从功利和实际操作的角度，我当然是愿意找到一本手册，然后手册上说我应该要怎么做，我就怎么做。实际上，这也是不少心理学实验室现在教授fMRI的方法。当然，我就不展开说：更有甚者，整个实验是的fMRI分析都建立在某个曾经大师兄或者大师姐一般的人物写的一套程序，然后做完实验就把数据丢进去，把整个分析作为一个黑箱，然后看输出。

但是，真正要做实验，要使用一项复杂的实验工具，作为研究者自身的修养，我们是需要花时间和经历学习关于这项工具的理论和假设的。至少，你需要你知道在分析数据的时候，不同的参数要怎么样设置，为什么要这样设置，如果设置成不同的样子可能会带来什么样的错误或者影响。如果对于这种潜在的问题完全不懂，这样的fMRI实验结果就是非常危险的，也是值得被类似PNAS这次的文章打脸的。

最后，关于这篇文章所引起的争论，我试着这么总结：

研究靠谱不靠谱，关键看研究人员靠谱不靠谱；我们需要了解手中的工具，才能更好地使用它，让它帮助我们回答我们想回答的问题；在学术界，永远不要高估自己的智商和知识，也永远不要低估别人的智商和知识；踏踏实实做研究，不要总想搞个大新闻。

参考文献

Eklund， A.， Nichols， T. E.， & Knutsson， H. (2016). Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. Proceedings of the National Academy of Sciences， 201602413.

Bennett， C. M.， Wolford， G. L.， & Miller， M. B. (2009). The principled control of false positives in neuroimaging. Social cognitive and affective neuroscience，4(4)， 417-422.

tags: 大脑, 磁场, 诺贝尔奖, led, 眼睛, 实验室, 神经元, 搞笑诺贝尔奖, 自我意识,

神经科学大危机，一文扫荡15年研究？

发表你的评论吧返回顶部