Chapter Content

Calculating...

唉,大家好!今天咱们来聊聊一个挺有意思的话题,就是,在一个复杂而且一直在变化的世界里,概率到底能有多大用处?

其实啊,包括咱们人类在内的所有有感知能力的生物,都是“预测机器”。生存嘛,就得靠这个。不管是决定去找吃的、打架还是逃跑,说白了,都是在试图计算未知的东西。就算没有数字、没有啥复杂的逻辑,更没有那些搞数据分析的大拿,动物们也会根据经验,对未来做出靠谱的猜测。咱们人类也是一样的。生活中的每一次经历,都会变成脑子里那个粉红色、灰色的“电脑”里的一个数据点。一旦发生了啥意想不到的事儿,神经元网络就会稍微调整一下。咱们就是这样在世界上摸爬滚打的。所以,我们大脑里这些“预测机器”要怎么应对一个不稳定的世界呢?要知道,在这个世界里,一颗小小的沙粒都可能引发一场灾难性的雪崩。

人类早就接受了有些不确定性是我们无法控制的。很多文明,不管是古代的还是现代的,都把希望寄托在无所不知、还会插手人间事务的神灵身上。祭司或者先知能够沟通神灵的智慧,或者试图去影响神灵,让神灵帮助好人、惩罚坏人。但是呢,理解或者预测未来,那可不是人类该干的事儿。在这种世界观里,不确定性不是世界本身的一个特征,而是因为人类太无知了。神嘛,总是知道一切的。上帝才不会操心什么概率呢。

凡人能做的最好的事情,就是去引导神灵的智慧,抓住那神秘莫测的未来中,有用的一点点光芒。比如说,在古代中国,《易经》就像一个占卜机器,用蓍草来探索更深层次、更坚固的真理。但是在人类历史的大部分时间里,试图用测量或者数据来战胜不确定性,都被看作是一种狂妄自大的愚蠢行为,一种亵渎神灵,试图用数学来定义上帝的冒犯。几千年来,人们很少有系统地尝试去精确地测量或者量化不确定性和风险。

也许,这在一定程度上解释了为什么古希腊人,他们崇拜着众神,对自然界的几乎所有事物,都提出了极其精妙的想法,但却没能发展出最基本的概率数学。这个知识的空白,让人觉得很费解,因为古希腊人可是很喜欢机会游戏的。带蹄动物的踝骨和指关节骨(被称为 astragali),在希腊的考古发现中,可以追溯到公元前5000年,在那里,它们被用作骰子的前身。人们一直在思考赔率的问题,即便他们没有为此创造出一套系统的逻辑。在历史上,其他文化中也存在类似的机会游戏。例如,阿拉伯语中骰子的词 al-zahr,就是我们现在所说的 hazard(风险)这个词的来源,hazard 是 risk(风险)的现代同义词,还有西班牙语的 azar,意思是“机会”或“随机性”。数学的发展,落后于游戏的发展。

后来,拉丁语单词 resicum 第一次被使用,这个词也衍生出了我们的单词 risk(风险),它出现在1156年意大利的热那亚海上共和国的一份公证合同中。它被用来按比例分配在地中海地区高风险航运之旅中的战利品,这些航运之旅通常会带来财富,但也可能导致毁灭。然而,要量化风险——用一种合乎逻辑、精确的方式来测量它——就需要数学家了。从一开始,他们对风险的理解就存在部分缺陷,因为它采纳了亚里士多德在遥远的过去提出的观点:推导未来的概率,只需要计算生活中常见的规律中“最常发生的事情”。(正如我们将要看到的,这种假设——过去是引导未来的可靠指南——在驾驭一个变化的世界时,可能会是一个灾难性的错误。)

不过,概率论的发展,要晚得多。造成延迟的原因之一,恰如其分地说是历史上的一个偶然事件。罗马和希腊的数字系统,在数学运算中,使用起来很笨拙。(试着快速地用 MMXXIII 减去 MDCCCXLIII。)阿拉伯数字系统——就是我们现在使用的这个——没有更早地在全球传播开来,是因为欧洲人担心阿拉伯数字很容易在官方文件上被伪造。例如,数字 1 很容易被改成 4 或 7。(作家彼得·伯恩斯坦解释说,这种担忧解释了为什么许多欧洲人仍然在数字 7 的向上笔画上加一条横线。)随着印刷机的出现,阿拉伯数字在欧洲占据了主导地位,因为用羽毛笔伪造数字已经不可能了。概率论在欧洲的阐述,可能因为对伪造文件的过度敏感,而被推迟了几个世纪。

早期概率论的突破,是由机会游戏推动的。最值得注意的是,在1654年,布莱斯·帕斯卡和皮埃尔·德·费马提出了一个解决所谓的“中断游戏”的方案,在这种游戏中,两个玩家开始玩一个游戏,但是由于某种原因,在任何一个玩家获胜之前,就被迫停止了。在帕斯卡和费马之前,如何根据谁在数学上最有可能获胜来分配奖金,并不是很明确的。在解决这个难题的过程中,他们释放了概率这门新兴学科的快速发展,并得到了像杰罗拉莫·卡尔达诺、梅雷骑士、雅各布·伯努利、皮埃尔-西蒙·拉普拉斯(拉普拉斯妖)和托马斯·贝叶斯(他发展了我们现在所说的贝叶斯推断或贝叶斯统计)这样的巨头的支持。

随着数学工具的增长,世界上有更大一部分可以被理解和计算。很快,一股狂热席卷了欧洲上流社会的知识分子:去计算一切。当艾萨克·牛顿发展了他的数学物理学时,在这个物理学中,世界被展示为遵循可量化的模式,思想家们被使用数字和方程式来解决人类社会奥秘的前景所诱惑。在1662年,约翰·格朗特对伦敦的死亡率,做出了一个开创性的定量评估,从而诞生了人口统计学领域。在19世纪初到中期,法国哲学家奥古斯特·孔德创立了社会学领域,这个领域大量地来源于他创立的一个有影响力的思想分支,叫做实证主义,以及一种新的、定量的理性决策方法。比利时天文学家、数学家、社会学家和统计学家阿道夫·凯特勒发展了早期的社会科学,这个科学痴迷于计数和量化。这是一个关于我们的社会世界有多少可以从不确定性转变为确定性的激进新思想时期。

然而,在十八世纪,苏格兰哲学家大卫·休谟通过阐述他著名的“归纳问题”警告说,概率远非确定。休谟的警告很敏锐:我们对因果关系的大部分理解,仅仅是基于经验,基于过去发生的事情。休谟指出,不能保证未来会像过去一样。或者,正如他更迷人地表达的那样,“概率是建立在我们已经体验过的对象和我们没有体验过的对象之间存在相似之处的假设之上的。”概率可能是有用的。但是未来可能与过去的模式不同——如果真是这样,它会让我们措手不及。(我们马上就会看到,休谟是对的。)

今天,概率论已经成为数学的一个复杂而有利可图的分支。数百万人受雇于概率预测。数十亿人使用这些预测,来对一个不可知的未来,做出更好的判断和知情的评估。越来越多的东西被量化,被输入到还原论的回归、越来越聪明的算法,以及复杂的机器学习模型的黑盒中。

我们已经走了很长的路,从扔动物的指关节骨,到现在,我们依赖于更可靠的预言:科学和统计学,蓍草被实证证据和庞大的数据集所取代。这种重大的转变,释放了巨大的人类潜力。但是,正如我们将要看到的,我们对人类有能力成为不确定性的主人的信念,有点过头了。我们太经常假装我们可以回答我们无法回答的问题。这种过度自信,意味着我们会忽略机会、混乱和偶然的侥幸,因为它们不符合我们喜欢想象的那个更整洁的世界。

为什么会这样呢?部分解释是,我们是我们惊人成功的认知受害者。科学家已经成为现代的巫师。他们可以编辑基因,发现看似隐形的粒子,甚至可以转移小行星。这些突破给我们带来了一种可以理解的,但却是错误的,感觉,我们已经弄清楚了世界上的大部分奥秘。太多人认为人类的知识正在执行扫尾工作,清理那些讨厌的、挥之不去的未知数,这些未知数很快就会得到令人满意的答案。虽然没有治疗癌症的方法,但它指日可待;虽然还没有人登上火星,但很快就会有人去。现代科学表面上的无所不知,似乎保护了我们其他人,免受偶然性和混乱的风险。

但是,仍然有很多不确定或未知的事情。宇宙中一些最无法解决的奥秘,也是它最基本和最重要的奥秘。它们仍然笼罩在绝对不确定性的迷雾中——我们就是不知道。尽管如此,我们还是被各种预测所轰炸,从民意调查到经济预测,无穷无尽的模型。这些都有一种自以为是的感觉,好像我们已经驯服了这个世界。如果你相信这个世界是可以预测、控制和操纵的,以满足我们的喜好,那么就更容易想象,任意的、神秘的力量在我们的生活中,只扮演着很小的角色。如果你这样想,我们这个世界的童话故事版本,似乎是合理的。相比之下,如果你感觉到,许多最大、最重要的奥秘仍然没有解决,那么就有更多的空间来认识到,侥幸很重要。然而,我们大多数人忽略了我们生活在其中的迷雾,把目光集中在我们能看到和测量的东西上。

所有谜团中最大的谜团是意识,我们不了解它。自1994年以来,最棘手的挑战被称为意识的难题,这个术语是由现代哲学巨擘大卫·查尔莫斯创造的。长期以来,人类一直被所谓的“身心问题”所困扰,这个问题是,我们所认为的我们的思想,和大脑的物理、化学结构之间,是否存在根本的不同。如果我们愉快地接受肺和肝脏,只是包含化学物质的有组织的组织和细胞块,为什么大脑应该有什么不同呢?但是查尔莫斯强调了一些更深刻的东西。正如作家奥利弗·伯克曼总结的难题,“你头骨里那块1.4公斤重的潮湿、粉红色-米色的组织,怎么会产生像存在于那个粉红色-米色的肿块和它所连接的身体中一样神秘的体验呢?”这是关于作为一个人的问题——我们一无所知。

然后,还有宇宙的基本定律。在1874年,一位刚满十六岁,刚开始上大学的德国天才,向他的学术导师寻求关于学习什么的指导。不要费心研究理论物理学,导师建议说。“在这个领域,几乎所有的东西都已经发现了,剩下的只是填补一些漏洞。”谢天谢地,这个学生,年轻的马克斯·普朗克,无视了这个建议,决定试着填补其中的一些漏洞。在1918年,他因发展了新的量子物理学理论而获得了诺贝尔奖,这个理论颠覆了我们之前所认为的关于宇宙运行方式的一切。

在最小的层面上,物质的行为方式,似乎是不可能的。对量子实验的传统解释,暗示着微小的粒子可以同时存在于两个地方,这种现象叫做叠加。然而,当我们观察这些粒子时,它们会坍缩成一个单一的位置,这表明现实会随着是否有人在看而改变。更令人费解的是,对量子纠缠的一些解释表明,即使被巨大的距离分隔开,成对的粒子仍然会立即相互影响——不是很快,而是立即——当一个粒子被测量时,爱因斯坦轻蔑地称之为“幽灵般的超距作用”。我们没有词汇来解释这些现象,因为这些粒子的行为完全不像我们在可以直接观察到的世界中所遇到的任何事物。即使是我们最好的科学家,也不知道发生了什么,但似乎这些粒子不知何故完全地相互交织在一起,通过又一个看似神奇的生命的线索。

也许最奇怪的是,一些顶级的量子物理学家已经开始相信“多世界诠释”,作为理解该领域核心方程式——即薛定谔方程——的一种方式。这个诠释是普林斯顿大学研究生休·埃弗里特的智慧结晶,它出现在一个晚上,“各方都同意,当时喝了大量的雪利酒。”根据“多世界诠释”,一切可能发生的事情都会发生,所以世界不断地分支成无限数量的宇宙。这个理论意味着,存在着无限个你的副本,以及无限个你从未存在过的宇宙。这听起来可能像一个1960年代科幻小说作家的白日梦,他在吸食了过多的迷幻药之后,拿起了笔,但它也是对量子力学中被牢固验证的方程式,最直接的数学解释之一——而且一些非常聪明、非常有成就的物理学家相信“多世界诠释”是真的。在其他宇宙中,是否存在着无法计数的大量你自己的其他版本,似乎是一个相当重要的、未解答的问题。

没有人真正了解我们的世界。正如进化生物学家扎克·布朗特对我所说的那样,也许这是不可避免的:“我不确定是否有可能完全理解宇宙,至少对于使用大脑的人类来说是不可能的,因为大脑的进化是为了让双足行走的社会性猿类能够活得足够长,以便进行繁殖。”我们生活在一个对我们来说,总是显得不确定的世界里。那么,问题是,我们至少能了解我们自己吗?

在2016年,《经济学人》分析了国际货币基金组织(IMF)对189个国家,长达15年的经济预测。在那段时间里,一个国家总共进入了220次衰退,这是一个关键的经济下滑,会对数百万人产生严重的后果。国际货币基金组织每年做两次预测,一次在四月,一次在十月,在他们已经看到了当年一半的实际数据之后。这些预测有多经常正确地预测到经济衰退的开始?我们最聪明的人,有多经常做对?

在220个案例中,四月份的预测的答案是:零。这些预测从来没有预见到。十月份的预测,已经有了六个月的真实世界的数据,这些数据中夹杂着警告信号可供参考,也只做对了大约一半的时间。与一个静态模型相比,国际货币基金组织的预测,仅仅略好一点,这个静态模型只是预测世界上每个国家,从阿富汗到津巴布韦,每年都将以4%的平稳速度增长。在物理学中,如果理论的预测有哪怕一小部分的偏差,就会被抛弃。但是当我们研究我们自己时,我们有时会研究那些从来没有做对过的理论,即使是在像“明年那个经济体会萎缩吗?”这样基本的问题上。

相比之下,在2004年,人类发射了一个航天器,它飞行了十年,然后在一个以每小时八万四千英里的速度飞行的、宽两英里半的彗星上,轻轻地着陆。每一个计算都必须是完美的——而它确实是。相反,试图确定地弄清楚,在接下来的六个月里,泰国的经济会增长还是会萎缩,或者三年后英国的通货膨胀率会高于5%吗,嗯,那不是我们能做的事情。

这并不是要挑社会科学的毛病。毕竟,我是一个(幻灭的)社会科学家。然而,所有的社会科学家都知道一个秘密,我们很少公开讨论:即使是我们最聪明的人,也不真正了解我们的社会世界是如何运作的。对于罕见的、不可重复的和偶然的事件来说,尤其如此,而这些事件往往是最需要理解的事件。我们相互交织的社会世界,对我们来说太复杂,无法掌握,它受到反馈回路和临界点的影响,这些力量不断变化,受到机会和混乱、意外和侥幸的影响。

在二十世纪早期,一位名叫弗兰克·奈特的叛逆经济学家,挑战了传统的经济智慧,这种智慧依赖于一系列简单的假设。奈特有说服力地阐述了,用他的术语来说,不确定性和风险之间的区别。(这里的风险指的是波动性,而不是坏事发生的风险。)奈特认为,风险,是两者中更容易管理的那个,它发生在当未来的结果是未知的时候,但是某些事情发生的精确概率是已知的,并且是稳定的。我们不知道会发生什么,但是我们知道它是如何或为什么发生的。例如,掷一个六面骰子,是一个风险问题,而不是不确定性问题。我们不知道它会落在哪一个确切的数字上,但是我们知道每个数字都有六分之一的机会,最终出现在上面。风险是可以被驯服的。

相比之下,不确定性指的是这样一种情况,即未来的结果是未知的,而且产生该结果的潜在机制也是未知的——甚至可能是不断变化的。我们不知道会发生什么,而且我们没有任何方法来评估它会发生的可能性。我们完全摸不着头脑。在这个表述中,国际货币基金组织不断地未能预测到经济衰退的开始,因为它把无法控制的不确定性,当作是可以解决的风险来对待。它不是,所以预测失败了。

奈特关于不确定性和风险的二分法,是有用的。为了避免灾难性的判断错误,至关重要的是,要区分什么是可以知道的,什么是不可以知道的,因为有些领域就是不可知的。为了应对这种情况,许多人没有转向古老的占卜迷信,而是转向有时会产生误导的概率的安慰。在很多时候,概率被适当地应用,并且通过做出更明智的决定,帮助我们驾驭风险。但是如果你冒险进入一个不可知的、不确定的领域,带着你值得信赖的概率来做决定,你可能会遭受一个令人讨厌的——而且可能是灾难性的——打击。不要把无法驯服的混乱,误认为是可以驯服的机会。

经济学家兼前英格兰银行行长默文·金,在最近的一次采访中,很好地表达了这一点:“我们都是在这样一种观念中长大的:如果你很聪明,你就会用概率来思考不确定性,而且有很多人会试图用一些概率来解释任何类型的未来不确定性。我认为这是一个严重的错误,而且它会削弱良好的决策。”概率是解决风险的一个极好的工具,应该被用于解决这些问题。然而,在无法解决的不确定性的情况下,承认“我不知道”通常比使用基于有缺陷的假设的虚假概率来驾驭一个不可知的领域更好。

然而,有时我们必须做出选择,即使我们在绝望地不确定的时候。问题世界可以分为两类:必须回答的问题和不需要回答的问题。我们可以把这些叫做“尽你所能”的问题,和“不要费力”的问题。如果你患有一种罕见的疾病,医生必须决定如何治疗它,即使他们不知道是什么原因导致了它,或者什么可能有效。对于一种神秘的癌症,说“我不知道”不是一个可行的选择。尽你所能。

然而,没有任何法律,没有任何道德上的必要,规定我们必须预测布隆迪的经济增长率,在五年后正好是3.3%,这是不可能精确的,肯定会是错误的,而且可能会导致我们犯严重的错误,因为虚假的确定性会蒙蔽我们的判断。说“我不知道”,并不意味着你必须举手投降,什么都不做。它只是意味着,在没有必要的时候,避免做出愚蠢的预测。当有必要的时候,重要的是至少要承认那无法分割的不确定性的迷雾,并将对混乱动态的接受,纳入到决策中。不幸的是,完全相反的观点,往往主导着我们的社会。我们不是奖励智力上的谦逊,而是太经常错误地把(虚假的)确定性与自信和权力混为一谈。太多的人遵循着“总是确定,但经常错误”的策略,而升到了顶层。

但是如果在真正的不确定性的情况下,概率没有帮助,为什么我们如此经常地滥用概率推理呢?问题的开始,是因为我们使用“概率”这一个词,来表示无数不同的事物。这种混乱,因为一旦有人提供了一个具体的数字,比如一个“63.8%的机会”,来描述未来事件的可能性,就加剧了,就好像这种量化,已经把这个人变成了一个现代的预言家,指挥着神奇地变得更加合法或真实的知识,因为它是由数学产生的(即使这个数学是基于严重有缺陷的假设)。与仅仅说“我相信”某事会发生的人相比,反驳一个陈述的概率,要困难得多。但是这是看待它的正确方式吗?

我们不断地听到概率性的陈述。但是,说“今天有80%的降雨概率”实际上是什么意思呢?答案似乎很明显,直到你试图向别人解释它。这是否意味着,在完全相同的初始物理条件下,降雨会发生80%的时间(就好像天气模式就像滚动骰子,具有静态的赔率)?这是否意味着,在一万个可能被想象的世界中,有着与今天相似的条件,应该预计在其中的八千个世界中会发生降雨,但在另外的两千个世界中不会?这是否意味着,在天气模型中,证据是不确定的,但是预测者想让你知道,他们对降雨的预测,有80%的信心?

而且,一个预测是正确的,是什么意思呢?如果预测没有下雨,那么预测是错误的吗,因为降雨的概率高于50%?当然,这不可能是对的,因为80%和100%不是一回事。或者,如果每当预测说有80%的降雨机会时,下雨的次数,在一万次中,有八千次,那么预测是正确的吗?在这种情况下,你只能在大量重复的预测中,验证预测的准确校准。但是谁能说今天的物理条件,与未来的物理条件,是可比的呢?毕竟,正如混沌理论所证明的那样,产生天气的物理系统中的微小变化,可能会产生巨大的变化。如果我们把苹果和橘子进行比较呢?

当概率从天气模式转移到独特的、不可重复的事件时,比如选举,这些问题就变得更加困难。当内特·西尔弗预测说,希拉里·克林顿有71.4%(不是71.3%或71.5%)的几率赢得2016年的总统选举时,这到底意味着什么呢?这是否意味着,如果你在计算机模型中一遍又一遍地重新运行选举,克林顿在71.4%的时间里,会占据上风?好吧,但是只有一个选举,只有一个结果,而且你不能一遍又一遍地运行现实,无论我们多么希望在事后这样做。或者,这是否意味着,选举就像掷骰子,但是希拉里·克林顿的骰子,不是有六分之一的机会,而是被加重了,以至于有71.4%的时间会显示获胜?当她失败时,71.4%的预测是错误的,还是仅仅是发生了不太可能发生的结果?

很明显,我们遇到了一个问题。当我们说“Y会发生的概率是X%”时,许多未写明的、未说明的假设,都被烘焙进了那个陈述中,这可能意味着完全不同的事情。说“孔子是一个真实的历史人物的可能性是60%”,这是概率性的,但是说“一枚硬币在下一次投掷中,有50%的可能性会正面朝上”,也是概率性的。这些是截然不同的主张,但是都被归为“概率”这个标签之下。为了进一步混淆事情,还有无穷无尽的词语来描述概率:贝叶斯概率、客观概率、主观概率、认知概率、偶然概率、频率概率、倾向概率、逻辑概率、归纳概率或预测推断。更糟糕的是,这些标签对不同的人,意味着不同的事情。

让我们试着澄清这个混乱。

对于概率陈述,主要有两个阵营。正如杰出的科学哲学家伊恩·哈金解释的那样,许多概率,要么是频率型概率的一部分,要么是信念型概率的一部分。

频率型概率,主要基于结果发生的频率,特别是在长期重复试验中。例如,如果你抛一枚硬币一百次,你可能会得到四十三次正面朝上,五十七次反面朝上。对这个结果有两种可能的解释。也许这是一枚有偏见的硬币,它更经常反面朝上。或者,这枚硬币可能是一枚公平的、五五开的硬币,而且在那一百次投掷中,只是存在轻微的差异。一旦一百次抛硬币变成了1亿次,就很明显,这枚硬币是否有偏见。如果这是一枚公平的硬币,正面和反面的总体比例,将会收敛到五五开的比例。

信念型概率,是完全不同的。它们是基于现有证据,你对一个特定主张或未来结果所拥有的信心程度的表达。孔子要么是一个真实的人,要么不是,所以任何关于他存在的概率性陈述,都是一个信念型概率。它完全不像掷骰子。你不能只是不断地运行一个历史的计算模型,看看孔子存在于多少个世界,又有多少个世界他不存在。相反,这只是基于你所拥有的证据,做出的最佳猜测,并以数字的形式呈现出来。但是那些做出概率陈述的人,很少解释他们的主张是信念型,还是频率型,这使得人们可以理解地感到困惑。这种混乱创造了一种智力上的障眼法,而且它经常让人们太愿意听从现代社会中经常伴随着数字和统计数据的、看似自动的智慧的外表。

在某些情况下,概率只能作为一个有用的指南。当我们面对一个简单、封闭系统中的问题时——比如掷骰子,有六个明确定义的可能结果——那么概率推理就能完美地发挥作用。但是当我们把概率转移到混乱的现实领域,转移到我们生活在其中的复杂适应系统时,嗯,事情很快就会变得一团糟。正如约翰·凯和默文·金在他们优秀的著作《根本的不确定性》中所说的那样,概率可以最好地应用于“可能的结果被很好地定义,产生这些结果的潜在过程随着时间的推移,变化不大,并且有大量的[相关]历史信息”的情况。不幸的是,对于我们面临的许多最重要的问题,这些假设并不适用。概率在混乱中不起作用。

为了理解原因,让我们回到一个关于风险而不是不确定性的问题:抛硬币。因果关系的潜在动态,在时间和空间上是稳定的。用一个专业术语来说,它们是平稳的。无论抛硬币的人是古代中国秦朝的士兵,还是现代西弗吉尼亚州的调酒师,都没有关系。正面和反面的总体比例,都应该大致以50%告终。此外,当我们谈论抛硬币的概率时,我们谈论的是结果的平均分布,而不是试图预测一个特定的投掷是正面还是反面。我们也可以随意进行多次抛硬币,所以这种现象是可重复的。硬币本身也是可以比较的或可交换的——我使用我的硬币,还是你的硬币,都没有关系,只要它们都是四分之一美元,或者更普遍地说是公平硬币类别的一部分。由于所有这些因素,抛硬币的概率是收敛的。你做得越久,你就会越接近每个结果的50%。这些因素(平稳、平均、可重复、可比较和收敛)的结合,使得抛硬币成为概率分析的理想选择,在这种分析中,过去的事件几乎是未来结果的完美预测。

现在,让我们考虑另一个例子,在这个例子中,我们试图弄清楚布洛芬是否有助于缓解头痛症状。它比抛硬币更复杂,但是同样的原则也适用。除非头痛是由一种新的、未知的疾病引起的,否则可以肯定地说,布洛芬可能有助于缓解头痛症状的机制,不会每天都在变化,所以这是一个平稳的问题。我们也对平均值感兴趣,因为我们正在寻找一种倾向于对所有可能的患者都有效,而不是在每个特定情况下都有效的治疗方法。不幸的是,头痛在个体内部和更普遍地在人类内部,都是极其可重复的。它们也大多是可以比较的,因为可以合理地假设,减少我的头痛的化学过程,也可能减少你的头痛。

然而,只有当我们使用正确的类别时,这才有意义。这听起来可能很迂腐,但是我们使用的语言,对于概率来说,至关重要。统计数据,只和我们的语言学一样好。如果我用“头痛”这个词来指代偏头痛,或者由脑肿瘤引起的头部疼痛感呢?基于概率的估计,依赖于准确的类别,依赖于这样一种概念,即当我在不同的语境中提到头痛时,我是在比较苹果和苹果,而不是苹果和橘子。如果是正确的类别,那么,与抛硬币一样,头痛和布洛芬的问题是收敛的:即使我们之间在年龄、性别、种族、身高、收入等等方面,存在差异,布洛芬可能仍然有效。同样的动态适用于各种领域,例如试图确定保险费用的精算表,或者从一个赛季到下一个赛季,规则和球队都相同的体育联盟。过去的模式是未来可靠的预测,所以概率是一个安全的选择。这是平稳概率的土地,内特·西尔弗在这里感觉最自在。

现在,让我们转移到更棘手的不确定性问题,这些问题来自于我们复杂、动态、偶然、相互交织的世界,这个世界容易出现临界点、反馈回路,以及由最微小的变化引起的雪崩。经济学家凯和金指出了一个有启发性的例子,即在2011年5月2日,巴拉克·奥巴马决定下令进行特种部队的突袭,杀死奥萨马·本·拉登。有很多未知的事情:本·拉登是否在巴基斯坦的院落里?如果他在那里,突袭是否能成功地杀死他,并最大限度地减少生命损失?巴基斯坦政府会因为美国侵犯其领空而攻击或谴责美国吗?

奥巴马的顾问们试图给总统提供概率估计,以便他做出正确的决定。“总统先生,他有70%的可能性在那里。”这些是基于现有证据,主观的、基于信念的信心表达,而不是大多数人在听到“概率”这个词时所想到的。本·拉登要么在那里,要么不在那里。这不是一个抛硬币的场景,在这种场景中,他在一半的世界里会在那里,而在另一半的世界里不会在那里。没有人知道本·拉登是否在那里。没有人知道巴基斯坦会如何反应。没有人知道会发生什么。这个决定需要在不可避免的不确定性中做出。

让我们考虑一下,本·拉登的突袭与抛硬币有什么不同。与平稳因果关系的情况不同,在这种情况下,将决定巴基斯坦潜在特种部队突袭结果的潜在动态,是非平稳的。也许巴基斯坦可能会在2008年对类似的突袭做出糟糕的反应,但在2011年不会那么糟糕。也许反应会取决于巴基斯坦情报部门的首脑在前一天晚上睡了多少觉。也许这会取决于执政的政府,取决于总理,取决于事实是如何呈现给他的,甚至取决于值班将军们的情绪。在这里,无法可靠地梳理出静态的因果关系。如果在5月1日而不是在5月2日尝试进行完全相同的突袭,结果可能会发生根本性的变化。这些动态是可变的,因此是不可知的。

此外,虽然一次抛硬币可以与另一次抛硬币进行比较,但巴拉克·奥巴马对所有过去特种部队突袭的平均结果不感兴趣。他关心的是,这个提议的突袭是否会成功,这使得他关注的是一个具体的结果,而不是一个平均的结果。这是因为,突袭是不可重复的。这是一次性的,非常不像抛硬币。它也是独特的,而不是可比较的或可交换的。你可以试着把本·拉登的突袭与之前的突袭进行比较,把它归入其他特种部队突袭的类别,当然可以,但是它们太不同了,无法进行有用的比较。关于先前行动的信息,只能告诉你,海豹突击队有一个良好的记录,而且很能干(这在没有进行任何概率计算的情况下,就已经很明显了)。三个月前,海豹突击队第六分队在索马里的突袭的成功,并不能告诉你太多关于这次针对本·拉登的确切突袭是否会成功。最后,突袭是偶然的,而不是收敛的。小的错误或看似微不足道的波动,可能会彻底改变结果。总的来说,这些因素导致了不可还原的、或根本的,不确定性。没有人知道突袭会如何进行。过去没有为未来提供可靠的指南。没有预言可以咨询,无论他们有多么擅长数学。奥巴马必须面对不确定性,而不是风险,来做出他的决定。

这就是我所说的赫拉克利特式不确定性的土地。你可能还记得,赫拉克利特是前苏格拉底时期的哲学家,他谈到了永恒变化的河流和永恒变化的人。赫拉克利特显然是对的,变化是永恒的。世界——事实上是整个宇宙——每毫秒都在变形。但是有时,正如我们在上一章中看到的,这些变化会达到临界点,产生明显不同的因果机制。我们永远无法完全理解或预测这些突然的转变何时会发生。当不确定性是由世界本身的变化产生时,那就是赫拉克利特式的不确定性,概率很快就会变得毫无用处,因为过去的模式可能会立即变得毫无意义。

想象一下,现在是1995年,你被要求预测到2020年,英国人平均每天会花多少小时使用他的或她的电话。你可以研究过去的模式直到天荒地老,并且使用你想要的任何形式的贝叶斯逻辑,但这可能不会有帮助。在1995年,每130人中,有1个人使用互联网。iPhone还要再过12年才会发明出来。你是否使用一台拥有人类已知最复杂公式的超级计算机,没有关系,而且你的统计模型是否使用基于频率的或基于信念的逻辑来生成一个概率,也没有关系。在1995年,关于2020年电话使用情况的任何概率预测,都会错得离谱。为什么?因为人类和电话之间的关系,从根本上发生了变化。另外,一场百年一遇的疫情,让人们待在家里,并且感到无聊。世界变得不同了。1995年,少数有先见之明的未来学家,可能会预测到智能手机的兴起,但他们的洞察力将来自于对新兴技术的理解,而不是来自基于历史模式的概率推理。当世界发生变化时,过去不能总是指导我们。当我们在赫拉克利特式不确定性的土地上使用概率时,我们会迷失方向。

还有其他形式的不确定性。让我们简单地回到天气预报。暂时把气候变化放在一边,假设驱动天气模式的因果动态在很大程度上是平稳的,也就是说,过去的模式可以用来预测未来的事件,这在很大程度上是合理的。天气预报的设计目的是具体的,预测某一天是否会下雨,而不是预测平均的3月1日是否会下雨。它们也是可重复的,而不是一次性的。而且天气模式也是可以比较的,而不是独特的。比较跨越时间和空间的雷暴云,是有意义的,这与比较本·拉登的突袭和索马里的另一次突袭,是不同的。但是现在来说说问题:天气模式是偶然的。正如我们从混沌理论的在气象学上的开山鼻祖爱德华·洛伦兹那里了解到的那样,初始条件至关重要,因此天气模式会随着时间的推移,根据最小的可想象的变化,而越来越发散。现在一个小时后的天气,是可管理的风险,但是因为这个系统对微小的、无法预测的波动很敏感,所以你凝视未来的时间越长,它很快就会变得更加不确定。因为我们需要具体的天气预报才能有用,而且因为初始条件中的微小变化会产生截然不同的结果,所以在大约十天后,所有的预测都作废了。混沌理论接管了一切。我们可以称之为混沌不确定性。对于天气,我们已经认识到我们理解的局限性;没有人试图预测三个月后,某人的婚礼那天是否会下雨。但是对于我们经常遇到的赫拉克利特式不确定性的土地,很多人仍然愚蠢地试图假装我们可以忽略我们知识的局限性。他们使用概率来驾驭根本的不确定性,这种工具的不匹配,就像爬山时穿着脚蹼和呼吸管一样。

在这些形式的不确定性之上,还有其他一些形式的不确定性,因为美国前国防部长唐纳德·拉姆斯菲尔德所说的“未知的未知”而让我们感到惊讶。我们经常不知道我们不知道什么。我们无法搜索正确的信息,因为它经常甚至没有想到它可能存在。想象一下,你回到过去,找到一个穴居人,然后问他:“到874年,书存在的几率是多少?”这是一个毫无意义的问题。写作还没有出现,更不用说

Go Back Print Chapter