2016年7月

美国的数据之路

本文是我阅读涂子沛先生的《数据之巅》读书笔记。

本书看起来是在讲大数据,但实际上作者通过生动详实的例子,深入浅出地讲解了人口普查数据在美国各个历史阶段的使用和发展。这些经验非常值得发展中国家学习和借鉴。

数据,自古就有,人口普查、农业统计、军事战争、政治计算……数据虽小,却有助于治国安邦。美国之所以繁荣鼎盛,数据文化是主因之一。人类使用数据的巅峰形式,是通过数据赋予机器“智能”。

一、 初数时代

这一时期为美国建国初期 50 年左右。

只有 200 多年历史的美国,最初使用数据是因为立宪与人口普查。他们认为国家权力应该在人口之间平均分配,因此分权之前需要通过普查把国民数量点清楚。

一开始仅仅统计各州人数,以确定众议院席位数。后来人口普查统计的范围越来越广,越来越细,如性别、种族、年龄、职务、个人经济情况等。

美国从建国开始,就形成了记录的习惯。其宪法规定,国会的辩论和投票应该有记录,并予以公布。到今天,这 200 多年的辩论记录已经成为非常宝贵的政治大数据。现在通过一个关键词就可以找出历史上的资料。

数据文化的形成,需要政治精英和平民大众共同努力。美国的建国者一再强调,共和国的目标不是愚民,而是培养有知识的公民。培养的方法主要有两个:一是提高识字率,减少文盲;二是推广数学教育,减少数盲。通过教育提高公司的思辨能力,使其学会独立思考。美国的数据文化是从共和政治和经济发展两条主线共同发展而来的,尤其是共和政治中对人口数据的运用,促进了整个社会数据意识的萌芽。

二、内战时代

这一时期,美国南方的奴隶制度还在进行。由于北方工业的发展,缺乏劳动力,有人提出解放黑奴,让黑人自由流动,以吸引黑人到北方参加劳动。但南方南方统治者并不希望这样,因此南北双方关于是否废奴的矛盾越来越深。

林肯当选总统的那一年,南方有几个州宣布独立,美国的联邦正式解体。并且南方的军队打响了南北战争的第一枪,攻占了南北之交的要塞。联邦瓦解、共和破裂,林肯的第一反应是极力避免战争。他对着刚拿到的第八次人口普查数据,想用数据证明,即使分歧再深,战争也不是最佳选择。他提出由政府出钱为奴隶赎身,但一算账,发现所需费用是联邦政府当时一年预算的15倍。

北方军队的统帅谢尔曼,率 6 万大军挺进南方的中心城市亚特兰大,然后他采取了后世历史学家认为整个南北战争中“最为大胆、最为关键的一次行动”:挥师东进、横穿佐治亚州,一路打到美国东部海岸线。后勤补给是军队突进的关键,谢尔曼通过统计部门拿到的各种数据,为他的东进提供的信息支撑。根据农场、牲畜、集市、车站等重要资源的分布,精心计算最佳行军路线,以确保行进中的补给。

林肯宣颁布的《解放黑奴宣言》顺应人心,成千上万的黑奴逃往北方,最后共有 20 万黑人加入北方军队,促进了北方阵营的胜利。为了赢得战争,南方也征召黑奴入伍。因为黑作为独立人参与战争,黑人的地位有所提高。战后,南北双方都希望争取更多的国家权力,不得不通过宪法确定了黑人男性投票权。

三、镀金时代

美图内战结束到 1900 年这一时期被称为“镀金时代”。内战时期,数据激起了动人的浪花。到了镀金时代,数据开始在美国社会形成波澜。

1900 年前后,美国的中央政府形成了农业统计局、人口普查局、劳工统计局和经济分析局四足鼎立的统计机构格局。统计部门不仅发布原始的调查数据,还尝试发布各种经过复杂计算产生的指标,例如失业率、生活成本指数、工资指数等。这些指标不仅监测经济发展的波动,还预测未来的走向,在世界范围内都是重要的创新。此时,美国的政治精英已经认识到,数据不仅仅代表“真正的事实”,还蕴藏着事物发展的规律,一旦掌握,就可以把握社会的脉搏甚至预测未来。

人口普查这项最原始的大数据行动,更加火热地进行着。1880 年的普查统计的数据扩大为人口、出生死亡率、农业、社会、工业等五大部分,问卷的问题数也上升到 1 万多个。当年的美国人口也首次突破 5000 万,最终收回问卷多达 1000 多万。

空前的数据量给统计工作带来了巨大压力,为了快速地统计出结果,无非有以下几个对策:1. 缩小普查问卷的范围;2. 增加数据处理分析的人手;3. 技术创新。缩小普查范围不可行,增加人手速度提升有限,最终只有技术创新。镀金时代,美国正在涌现一大批发明家,肖尔斯的便携打字机、贝尔的电话、爱迪生的电灯,都集中在这个阶段发明。每年都有很多新的专利被注册。当然,普查统计既使用已有的新发明提高统计效率,也推动了统计科学家的出现,发明新的工具。

市场的需求才是真正的创新动力,当需求成为越来越迫切的现实,重大的技术突破一定会产生。

四、量化时代

从 1900 年到现在都可称为量化时代,也称为进步时代,形成了数据大潮。

1907 年,70 多名新闻记者和社会科学家对当时工业城市匹兹堡,开展了一次城市环境和工人处境的大型调查,史称“匹兹堡调查”。调查收集了大量数据,形成 6 本调查报告,其中的《工伤事故及法律卷》列举了各种工伤事故数据,整理了 1000 多宗案例,血淋淋的事实直接促成了美国工伤赔偿制度的出台。1908 年,数据开始进入法庭。许多重大案例,大量引用数据和事实,最终获得胜利。在法律界开创了一种用数据辩护的新形式。

进步时代影响力最深远、最广泛的,当属“成本收益分析”。成本收益分析始于治水,因为水利项目的投资都非常巨大,而且影响千秋万代。理论上讲,只要收益大于成本,就值得去做。成本计算与收益计算是该方法的核心,在实践的过程中,相互竞标的单位,会夸大其方案的收益,把一些无形收益、次级收益、相关收效均计算在同,导致方法失去客观性。因此,政府精英们为所有情况制定了量化标准,和必须遵循的原则。

成本收益方法是理性的分析工具,因此得出的结论可能让人惊讶。当成本计算涉及到人的死亡损失时,就需要对人的生命价值进行量化,而且需要转变为一个货币单位。可能大部分人的第一反应都是反对,因为“生命无价”!但是要对每一条无价的生命进行有效保护,就必须对生命的价值进行量化。因此出现了几种生命定价方法:未来收入折现法(计算一个人因为死亡而损失的收入)、价值意愿法(为降低生命风险而愿意支付的金额大小)、劳动力市场评估法(将工人期待的工资分为正常报酬加上死亡风险补贴)。

20 世纪 60 年代福特公司生产的平托轿车,因其价格便宜,受大工薪阶层的欢迎。但不久便因为此款车型发生的追尾起火事故,成为人们的焦点。有记者调查发现,平托车的油箱放在后轮轴承后方,这是个致命的设计,任何后部碰撞都有可能导致汽油泄漏、引发爆炸。并且发现福特公司内部是知道这个缺陷的,而且有补救方案。那么为何还要生产呢?其实福特公司经过成本收益分析,使用补救方案产生的成本,比死亡车祸带来的损失大很多。当时给每例死亡的定价是 20 万美元。

五、抽样时代

20 世纪 30 年代,对选举的预测和研究,催生了统计科学的一次重大革命。结论是社会调查可以通过选取部分有代表性的样本来完成,即抽样。

《文学文摘》一直使用全量统计方法,它会综合其杂志几百万订户的意见,得出预测结果。而统计界的风云人物盖洛普,使用抽样调查,仅对 5000 人做了问卷调查,就成功预测了罗斯福会当选。他的“科学抽样”,没有盲目地大面积调查,而是根据选民的人口特点,确定家庭主妇、工人、农民、老人、中年人、年轻人等各色人群在 5000 人的样本中应该占有的份额,再确定电话访问、邮件访问、街头访问等各种调查方式所占的比例。由于样本找得准,所以能以“小”见“大”。

《乱世佳人》这部以南北战争为背景的爱情小说,受到人们的广泛欢迎。其成功,引起了好莱坞的关注。有的导演大声叫好,有的导演却嗤之以鼻,是因为当时以南北战争为题材的电影部部亏本。新书上市后不久,好莱坞著名制片人塞尔兹尼克就高价收购了该书的电影版权。他又委托盖洛普的公司调查该书有多少人读过。经过几轮调查,普洛普非常肯定地告诉他,《乱世佳人》已经成为美国有史以来最流行的小说,共有 1400 万美国人读过,其流行程度仅次于《圣经》。

随后电影在筹备到开机的各种不确定的问题,都找盖洛普进行调查。如电影时长、是否分为上下两集、黑白还是彩色,再到演员选取、广告设计等。1939 年 1 月,等到盖洛普的调查全部完成,电影才开机拍摄。拍摄方在重大问题的决策上,几乎全部听取了盖洛普的意见:影片为分上下两集,时长 238 分钟,彩色,由费雯丽担任女主角。最后盖洛普给片方的结论是,这部电影将有 5650 万观众,其人数之多,将创有史以来的电影之最。

在新片上市之前,盖洛普又向塞尔兹尼克建议说,这个巨大的潜在观众群体,主要是小说的粉丝,所以影片的广告要重点突出“书”。于是首轮的电影广告设计,从图形到字体,完成模仿了小说的封面。1939 年 12 月电影上映,全国各地影院爆满。故事的发生地亚特兰大市甚至将首映日定为节日,举城欢庆,成为轰动性的文化盛事。最后,通过 4 轮上线,《乱世佳人》一共售出了 5997 万张电影票,而 1940 年美国人口普查的结果为 1.3 亿人口,也就是说,全国近一半的人都观看了这种电影。票房数与盖洛普预测的相差不到 6%,好莱坞大佬们个个都啧啧称奇。

六、数据开放时代

随着 1951 年电子计算机走出军方的实验室,数据不再是保存在纸上,而是以 0 和 1 的电子化形式保存在磁带和硬盘中。随后的几十年,硬盘在全世界的普及,并且价格越来越便宜,这为海量数据的永久保存提供了可能。这种电子化的数据累积是人类迈进大数据时代的起点。80 年代,互联网开始在美国普及,使得数据的复制、传播、整合更加方便。

美国的信息自由运动起源于民间对政治知情权的争取。1953 年,在新闻界的强烈要求下,国会开始草拟《信息自由法》,要求在不危害国家安全、不侵犯个人隐私的情况下,政府应该公开一切信息和文件。这使得政府和企业开始透明地公开在大众面前,有利于人民监督。例如要求自来水公司为客户提供年度污染报告,报告中必须列明水源的各项指标、污染物多少,以及是否超出了国家规定的限度。这些数据无异于向自来水公司施压,使其提高警觉、改善技术、最大限度地减少污染。同时也让消费者可以在不同的公司之间自主选择,强化了市场竞争。

虽然普查局已经有足够丰富的数据,但在 911 事件发生时,仍然无法知道当时 2 栋大楼里有多少人员以及分布情况,严重影响了救援策略。惨痛的教训,让政府管理者认识到,“白日人口”这一数据的重要性。白日人口指一个地区在 8 小时的上班时间内,其人口数量。普查局的困难在于,要完成这项统计需要多方面的数据,而这些数据在美国是分散的。因此必须对联邦政府和州政府多个部门的数据进行整合。911 事件直接推动了,数据整合项目的进程,这个项目被命名为 LEHD。这些数据包括,公司信息、居民就业信息、社保及纳税信息等,整个系统一开始就有 60 多亿条数据。如此大的数据量,也促进了计算机技术的发展。因为必须要有相应的存储、计算系统,才有能力处理这么大的数据。

从 2006 年开始,普查局为 LEHD 开发了一个基于地图的互动式服务——OnTheMap,无偿提供给大众使用。只要连上网,无论在世界的哪一个角落,都可以随时查询相关的数据。这些数据包括一个地区的人口数量、公司数量、就业人员年龄分布、薪水范围等各种商业和政治数据。

为了整合数据,政府和企业也在建立各行各业统一的元数据定义,也就是数据标准。

七、大数据时代

数据最早来源于测量,所谓“有根据的数字”是指对客观世界测量结果的记录。数据赋予背景,它就变成了信息,信息经过提炼总结成为知识。数据有三大来源:测量、记录、计算。

20 世纪 80 年代,美国就有人提出了“大数据”的概念。到了 21 世纪的前 10 年,尤其是 2004 年社交媒体产生后,数据开始爆炸。大数据一般来讲,是指容量大。这利益于计算机存储技术的飞速发展,可以存储相当大的数据记录。一个普通图书馆的藏书,只要 1T 的存储空间,大约一包烟大小的硬盘即可装下。

现在越来越多的数据都电子化、信息化,也兴起了物联网的概念。各种传感器安装在各种机器上,它们收集着大量的数据。每个人都拥有至少一部智能手机,每天都在产生数据:社交网络的状态信息、拍摄的照片、视频等。每个人都犹如一个信息系统、一个传感器,不断地制造数据。还有可穿戴设备,时刻都在记录主人的物理位置、热量消耗、体温、心跳、睡眠模式、步数等行为与健康数据。

通过大数据,亚马逊在 2014 年宣布了一项新专利“预判发货”,即在网购时,顾客还没有下单,就将包裹寄出。这利益于数据挖掘技术,听起来不可思议。

摩尔定律使人类保存数据的能力增强,社交媒体使人类生产数据的能力增强,数据挖掘使人类使用数据的能力增强。这是大数据的三大成因。

未来将是一个由数据驱动、由算法定义的世界,自动化将接管越来越多的工作。随着智能时代的到来,那些重复性的、日常性的工作将逐渐被机器人接手。