首页 小组 文章 相册 留言本 用户 搜索 我的社区 在线学堂 商城 购物车 支付钱包
全部

[坡仔跟你一起阅读好书·第九十七期]《X的奇幻之旅》Part 5 数据——第二十二章 长尾分布:从减税额到恐怖袭击事件

苏东坡忠实粉丝
发表于 2021-10-09 14:39:35

       世界级数学家、《纽约时报》专栏作者史蒂夫·斯托加茨,引领我们踏上一段领略最伟大的数学思想的赏心悦目之旅。沿途中你会看到数学如何与文学、哲学、法律、医学、艺术、商业彼此交融,甚至流行文化也能以我们意想不到的方式和数学共舞。

       辛普森到底有没有谋杀他的前妻?多长时间、以何种方式翻转你的床垫才会让它的磨损率最小?谷歌搜索引擎是如何找到你想要的网页的?在步入婚姻殿堂之前,你应该和多少位异性约会?不管你相不相信,数学在回答这些问题以及更多其他问题时,都扮演着至关重要的角色。

       数学是宇宙万物存在的基础,当然也包括人类,但是我们中却很少有人能很好地掌握这门通用语言,体验它的智慧、美丽和乐趣。这本启迪智慧而又妙趣横生的书旨在对专业、枯燥的数学语言进行翻译,帮助广大对数学感到恐惧、陌生或是不理解的读者,重新认识和欣赏数学之美。

       在这段从企鹅吃鱼到无穷大的数学之旅中,每一章都是一道美丽的“风景”:斑马身上的黑白条纹中的正弦波;美国《独立宣言)中欧几里得几何定理的身影;流星雨划过夜空时留下的美丽抛物线;罗密欧和朱丽叶爱情悲剧背后的微积分方程式;拆穿小布什减税计划谎言的长尾分布......

       虽然真正喜欢数学、了解数学的人为数不多,但每个人都离不开数学,相信读完这本书后,不少人会从此爱上数学,成为“数学发烧友”。


[美]​史蒂夫·斯托加茨◎著

[中]​鲁冬旭◎译


第二十二章 长尾分布:从减税额到恐怖袭击事件

       最近,统计学突然变成了一门特别时尚和热门的科学。这也许得益于互联网的兴起、电子商务的盛行、社交网络和人类基因组计划,总而言之,数字文化的流行使我们的社会突然之间充满了数据。市场营销部门通过数据研究顾客的习惯和喜好;网络信息系统在悄悄地收集我们所在的位置、我们的电子邮件和电话信息;体育统计学家通过分析大数据决定招收哪些队员,派谁上场参与比赛,以及最后一轮进攻机会中距离底线还有两码的时候要不要进攻。每个人都想画点和连线,每个人都想从数据的“大草垛”里翻出“金鸡蛋”来。

       随之而来的是,教育专家们对于“人人都要学习统计学”的呼吁。2010年,哈佛大学的著名经济学家格里高利·曼昆在《纽约时报》的专栏中写道:“美国高中的数学课程应该进行改革了,孩子们在欧几里得几何学和三角学上花了太多的时间。对于一个普通人来说,几何学和三角学当然是锻炼智力的好方法,但是在现实生活中却几乎没有什么实际用处。我认为多学一些概率学和统计学方面的知识对孩子们的发展更有帮助。”《纽约时报》的评论员戴维·布鲁克斯说话更不客气,在谈到学过哪些课程才算是受过良好的教育时,布鲁克斯在专栏里写道:“学统计学吧。这样说或许有点儿不礼貌,不过步人社会以后,你的发展际遇或好或坏、到时候你就会发现,知道什么是标准差对你的人生大有裨益。

       是的,知道什么是标准差能帮你更好地面对人生的高峰和低谷,但我认为你更需要了解的是另一个概念:概率分布。下面,就让我们从概率分布入手、展开我们的统计学之旅。之所以选择这个切人点,是因为概率分布这个概念展示了统计学的核心观点:那些看来杂乱无章、完全无法预测的独立个体,从整体上来看却可能是极为有序和完全可预测的。

       你可能在科学博物馆里见过下面这个装置(如果没有见过的话,可以上网搜索相关视频)。这个装置叫作高尔顿板,它看起来有点儿像我们平时玩的弹球机,只不过这个装置没有弹球杆,而且它的缓冲板分布得很均匀,形成一个金字塔形。


       高尔顿板是用来演示这样一个实验的:在实验开始的时候,几百个小球从上方被倒人高尔顿板中。在下落的过程中,小球随机碰撞缓冲板,有的向左边弹,有的向右边弹。最后,小球全部落入下方的窄槽中。有的窄槽里的球堆得高一些,有的穿槽里的球堆得低一些,窄槽中所堆的球的高低反映出球落入这个槽中的概率有多。大多数的小球都掉进了中间或者靠近中间位置的窄槽里左右两侧的窄槽里的球较少,最两侧的窄槽里几乎没有球。每一个小球的落点都是随机的,对于一个单独的小球来说,我们无法预测出它最终到底会落入哪个窄槽里,但是,从整体上来看。所有小球落点的分布却是非常容易预测的——落点的分布呈现出一口铜钟的形状。

       为什么个体的随机性累积起来,却变成了整体的规律性呢?很简单,这就是概率的魔力。中间窄槽里球的数量最多,是因为大部分的球一路向左弹的次数和向右弹的次数是差不多的。向左弹和向右弹的次数接近,球就会掉入靠中间位置的窄槽里。要想落人最外侧的槽里,一个球必须一路几乎只朝一个方向弹。显然,这种情况发生的概率非常小,正是因为如此,最外侧的窄槽里的球数量很少。在概率的作用下,球的分布是越往中间越多,越往两侧越少。

       每个球最终的落点是由很多微小的概率事件造成的。世界上的很多其他现象也是如此,许多微小的随机事件导致事物最终朝着不同的方向发展。因此,世界上的很多现象,都可以抽象为一个铜钟形状的曲线。保险公司熟知这个曲线,虽然保险公司无法预测每年有哪些投保人会不幸去世,但它们却可以相当精确地预测出一年大约会有多少投保人死亡,需要多少理赔金额。

       另一个例子是人的身高。你的身高取决于很多微小的随机因素:基因、生化、养、环境,诸如此类。虽然无法预测某个特定的人的身高,但是如果统计部门收集所有成年男女的身高数据,就会发现这些身高数据的分布也呈现出铜钟的形状。在一篇题为“网上相亲的谎言”的博客文章中,热衷于统计和数据分析的某婚恋网站公布了该网站会员自行填写的身高数据。男会员和女会员的身高分布分别呈铜钟状,这与我们的预期相符。但有趣的是,这两个“铜钟”的位置都有些可疑,它们都右移了两英尺左右。


       这个现象只有两种解释:要么是该婚恋网站的会员身高非常高,高于美国男女身高的平均水平;要么是这些会员在填写自我介绍资料的时候,虚报了自己的身高。

       有一种理想化的铜钟形曲线,数学家们给它起名叫“正态分布”,它是统计学中最重要的概念之一。正态分布的美来自它理论上的性质。数学可以证明,只要大量相互独立、大小类似的轻度随机(即方差不能为无穷大)事件相叠加,其结果必然呈正态分布。在自然界和人类的生活中,大量独立随机事件相叠加的情况比比皆是,所以正态分布很常见。

       需要强调的是,并不是所有事情都符合上面这几个条件,因此,并不是所有的事情都服从正态分布。这是我本章想要强调的第二个要点。人们曾经认为大部分事物都应该服从正态分布,但事实并非如此。近100年来,尤其是最近几十年以来,科学家和统计学家们发现,很多现象并不服从正态分布,而是另一种分布。奇怪的是,几乎所有的初级统计学教材都对这种分布避而不谈,而是把几乎所有的篇幅都放到了正态分布上。即使偶尔有几本统计学书籍谈到了这种分布,也会把它列为一种“病理标本”,而不肯承认它是自然界和人类社会中常见的现象。我认为这太不可理喻了。下面,我要为这种分布正名,了解了这种分布后你就会发现,现代生活中的很多事情都可以被这种分布解释得很清楚。正态分布又被称为常态分布,但我认为我下面讲到的这种分布才应该称为新的常态分布。

       我们来考虑一下美国各个城市的城市规模的分布。城市规模并不是围绕一个比较中庸的值向两侧均匀展开的,城市规模的分布也不呈铜钟形。在美国,绝大部分的城市都非常小,所以它们都挤在下图的左侧区域。


       居民人数多的城市非常少,人数越多的城市占美国城市总数量的比例就越小。所以,从整体上来看,美国城市规模的分布不呈铜钟形,而是呈L形。

        这并不奇怪。每个人都知道,美国的大型城市只有区区几个,小型城市则分布广泛,数都数不清。神奇的是,在这种情况下,美国的城市规模仍然服从一个简单而美丽的分布,并且这种美需要更透彻的视野才能看到。

       也就是说,看两个城市的人口(规模)差距的时候,我们应该考虑两个城市人口的相对比例,而不是人口差的绝对数量。如果城市A的人口数量是城市B的两倍,城市B的人口数量是城市C的两倍,我们就可以认为,城市A和B的规模差距与城市B和C的规模差距是一样的(虽然A市和B市人口差的绝对数量要大于B市和C市人口差的绝对数量)。这类似于音乐领域对音阶的定义:音阶上相距8度的两个音,其频率相差一倍。这里我们考虑的是相对比例而非绝对差异。如果我们用这样的方法修正一下上图的竖轴,城市人口的分布就变成了这样:


       可以看出,上图中的数据点几乎在一条直线上。根据对数的性质,我可以推导出之前图中L形曲线的函数,这个L形曲线服从幂律分布:


       ​上述方程式中x是指城市的人口(规模)y表示这个规模的城市有多少个,C是一个常数,而x的指数a是上图中直线的斜率前面加个负号。

       从传统统计学的角度来说,幂律分布的性质非常奇怪完全不符合人们的直觉。正态分布的平均数、众数和中位数都相等而幂律分布的L形是歪斜的、不对称的,以幕律分布的平均数、众数和中位数并不相等。小布什总统就曾在他的竞选演说里利用过幂律分布的这个性质。小布什总统声称,2003年的减税计划让每个美国家麻平均少缴纳税款1586美元。从技术上来说,这句话并没有撒谎,1586美元是减税额度的平均值,但这个说法却带有很强的误导性。因为幂律分布是高度不对称的,最左侧0.1%的富裕家庭中,每个家庭可能获得数万美元的减税数额,减税额度的平均数被这些家庭严重地拉高了。而右侧这个长长的“尾巴”才能反映出普通家庭获得的减税数额,这个“长尾”服从幂律分布。在幂律分布的情况下,平均数并不能反映出大部分家庭获得的减税数额。事实上,减税数额分布的中位数是650美元,也就是说,一半以上的家庭获得的减税数额不足650美元。从这个例子可以看出,幂律分布的平均值和中位数的差异很大。

       上面的例子展示出幂律分布的最大特点:长尾分布,长尾分布又称肥尾分布或重尾分布。相比正态分布,长尾分布中极端情况发生的概率会更大。当然,和正常情况比,极端情况仍然是极少发生的,但是如果把一个长尾分布误认作正态分布,我们就可能会严重低估极端情况的发生概率。

       1987年10月19日被称为金融市场的“黑色星期一”。那一天、美国道·琼斯工业平均股票指数一日之内暴跌了22%。相比正常交易日中股市的波动幅度,那一天的跌幅远在22个标准差之外。如果我们用传统的正态分布钟形曲线来模拟股市,这一天的情况几乎是不可能发生的,22个标准差之外的极端情况的发生概率,应该在10的50次方分之一以下,而这种极端情况居然真的发生了。为什么呢?因为股市的波动并不服从正态分布,长尾分布比正态分布更适合用来模拟股市的变化。除了股市的波动,地震、山火、洪水的发生也都不服从正态分布。这给保险公司的风险管理部门带来了更大的挑战。同样,战争和恐怖袭击等造成的死亡事件也不服从正态分布。当然,长尾分布并不是灾难的专利,小说里词汇的出现频率和人们的性行为习惯也都服从长尾分布。

       虽然长尾、肥尾、重尾这几个名字并不好听,但随着长尾理论日益受到人们的重视,这几个词的出现频率也渐渐高了起来。我仿佛能听到这个极不对称的分布骄傲地指着自己的尾巴说:“说我长,说我重,说我肥?请搞清楚,我才是当下的常态。”

584 0

评论
意见反馈