量化一切,数据化的核心
记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。公元前3000年,信息记录在印度河流域、埃及和美索不达米亚平原地区就有了很大的发展,而日常的计量方法也大有改善。美索不达米亚平原上书写的发展促使了一种记录生产和交易的精确方法的产生,这让早期文明能够计量并记载事实情况,并且为日后所用。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料,我们就能再建同样的建筑,或进行实验性的操作,比如通过改变一些方式保存其他部分而建造出新的建筑物,然后再记录这些新建筑物。交易情况一旦得到记录,我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少政府税收。计量和记录为预测和计划奠定了基础,虽然这建立在假定明年的收成和今年一样的基础上。有了记录,交易双方才会知道他们赊账的情况,而如果没有这些凭证的支持,欠债的一方则完全可以不用还钱。
几百年来,计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年,西方的计量方法已经基本准备就绪,但是还是有着比较严重的缺陷。早期文明的计量方法不太适合计算,哪怕是比较简单的计算。比如罗马数字的计算系统就不适合数字计算,因为它没有一个以10为底的记数制或者说是十进制,所以大数目的乘除就算是专家都不知道该怎么算,而简单的乘除对一般人来说也不容易。
大约公元1世纪的时候,印度发明了一种自己的数字系统。它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难,但同时也把西欧文明带到了地中海东部,而其中最重要的引入就是阿拉伯数字。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。
早在阿拉伯数字传播到欧洲之前,计数板的使用就已经改善了算术。计数板就是在光滑的托盘上放上代币来表示数量,人们通过移动代币到某个区域进行加减。但是,这种计数板有着严重的缺陷,即过大和过小的计算无法同时进行。最主要的缺陷还在于,这些计数板上的数字变化很快,不小心的碰撞或者是摆错一位都会导致完全错误的结果。而且,即便计数板勉强可以进行计算,它也不适合用来记录。因为一旦需要将数字记录在计数板以外的地方,就必须把计数板上的数字转化成罗马数字,这可就费时费力了。
算术赋予了数据新的意义,因为它现在不但可以被记录还可以被分析和再利用。阿拉伯数字从12世纪开始在欧洲出现,而直到16世纪晚期才被广泛采用。到16世纪的时候,数学家们大肆鼓吹他们使用阿拉伯数字计算能比使用计数板快6倍。但最终让阿拉伯数字广为采用的还是复式记账法的出现,它也是数据化的一种工具。
公元前3000年,会计手稿就出现了。但是,记账法在接下来的几百年里发展缓慢,基本上一直保持在记录某地的某个特定交易的阶段。记账人和他的雇主最关心的就是判断某个账户或者自己所从事的行业是否赚钱,而这正是当时的记账手法无法轻易做到的事情。到了14世纪,随着意大利的会计们开始使用两个账本记录交易明细,这种尴尬的境地开始发生改变。这种记账法的优势在于,人们只需要将借贷相加,就可进行制表并得知每个账户的盈亏情况。如此,数据骤然发生了,虽然仅限于读出盈亏情况。
如今,复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的技术人才们应该学习的。如果一个账本看着不对劲,我们可以查询另一个相对应的账本。
但是,和阿拉伯数字一样,复式记账法也没有立即取得成功。直到200年之后,一个数学家和一个商业家族才让它大受欢迎,他们也改变了数据化的历史。
这个数学家就是方济各会的修士路萨·帕西奥利(luca pacioli)。1494年,他出版了一本为普通读者和商人所写的数学教材。这本书大获成功,成为盛行一时的数学教科书。这是第一本全书都使用阿拉伯数字的书籍,因此也促进了阿拉伯数字在欧洲的传播。当然,这本书最大的贡献在于它对复式记账法的详尽论述。接下来的几十年间,这个论述复式记账法的部分被分别译成了6种语言,并且成为几个世纪的通用范本。
而所谓的一个商业家族,就是指美第奇家族——威尼斯商人和艺术资助人。16世纪,这个家族能成为欧洲最有影响力的银行家族,很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第奇家族的成功奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。
伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。到了19世纪,随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象,科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代,人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在,对颅相学这类伪科学的热情最终淡去了,但是人类对于量化一切的热情却始终没有减退。
新工具和开放的思维促进了测量事物和记录数据的繁荣,而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好,只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的热情和耐心,或者说,起码也要有奉献一生的准备,比如16世纪的第谷·布拉赫(tycho brahe)就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多,因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运,他因伤坐进了办公室,但是却在那里发现了珍贵的航海日志,可不是每个人都能这么幸运的。然而,数据化的实现有一点必不可少,那就是要从潜在的数据中挖掘出巨大的价值,然后揭示出新的深刻洞见。
计算机的出现带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质的不同。
世间万物的数据化
只要一点想象,万千事物就能转化为数据形式,并一直带给我们惊喜。ibm获得的“触感技术先导”专利与东京的越水重臣教授对臀部的研究工作具有相同理念。知识产权律师称那是一块触感灵敏的地板,就像一个巨大的智能手机屏幕。其潜在的用途十分广泛。它能分辨出放置其上的物品。它的基本用途就是适时地开灯和开门。然而更重要的是,它能通过一个人的体重、站姿和走路方式确认他的身份。它还能知道某人在摔倒之后是否一直没有站起来。有了它,零售商可以知道商店的人流量。当地板数据化了的时候,它能滋生无穷无尽的用途。
其实没有听上去那么荒谬。“自我量化”是一项由一群健身迷、医学疯子以及技术狂人发起的运动,通过测量身体的每一个部位和生活中的每一件事来让生活更美好——或者至少用量化的方式来获得新知。目前,自我量化运动规模还很小,但正在日益壮大。
随着智能手机和计算机技术的普及,对个人最重要的生活行为进行数据处理从未如现在这般容易。许多创业公司通过测量人们夜间的脑电波来试图找出他们的睡眠模式。zeo公司则早已制作出了世界上最大的睡眠活动数据库,揭示了男性与女性睡眠时快速眼动量的差异。asthmapolis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上,通过gps定位,再汇总收集起来的位置数据,可以判断环境因素(如接近特定的农作物)对哮喘的影响。fitbit和jawbone公司让人们测量他们的体力活动和睡眠。basis公司用腕带来监测佩戴者的生命体征,包括其心率和皮肤电传导率,以此测试他们所承受的压力。2009年,苹果公司就申请了一项专利,通过音频耳塞收集关于血『液』氧合、心率和体温的数据。获取数据正变得比以往任何时候都简单而不受限制。
数据化能帮助我们获取到更多关于人体运作方式的信息。挪威耶维克大学的研究人员和derawi biometrics公司联合为智能手机开发了一款应用程序,可以分析人走路时的步伐并将其作为手机解锁的安全系统。同时,佐治亚理工学院的罗伯特·德拉诺(robert delano)和布莱恩·派尔思(brian parise)开发了一款叫做itrem的应用程序,用手机内置的测震仪监测人身体的颤动,以应对帕金森和其他神经系统疾病。这个程序给医生和病人都带来了好处;它让患者避免了在医院做昂贵的体检,也让医学专家们能远程监控人们的疾病以及治疗效果。据东京的调查人员说,用智能手机测量震动虽然没有三轴测震仪这种专门的医疗器械那么精确,但也只差了一点,所以完全可以放心使用。这再一次证明,一点点的不精确比完全精确更有效。
在大多数情况下,我们会采集信息并将之存储为数据形式再加以利用。几乎所有领域,任何事情都能这样处理。greengoose是一家创业公司,他们销售能放置在物品上的微型运动感应器,用它监测物品的使用次数。比如把它放置在一捆牙线、一个酒水壶或者一盒猫食上,就能数据化牙齿清洁、植物护理以及宠物喂养的信息。很多人对“物联网”有着宗教般的狂热,试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹,其实不过是一种典型的数据化手段罢了。
我们正在进行一个重大的基础设施项目,它在某种程度上与我们过去所做的都不一样,无论是罗马的水渠还是启蒙运动时期的百科全书。它如此的新颖,而我们又深处其中;同时,又因为它是无形的,不像水渠中能触摸到的水,所以我们并未意识到它的存在,这个它,就是无处不在的数据化。像其他的基础设施那样,它会给社会带来根本性的变革。
水渠让城市的发展成为可能,印刷机推进了启蒙运动,报纸为民族国家的兴起奠定了基础。但这些基础设施都侧重于流动——关于水、关于知识。电话和互联网也是如此。相比较而言,数据化代表着人类认识的一个根本『性』转变。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。
整整一个多世纪以来,物理学家们一直宣称情况应该是这样的——并非原子而是信息才是一切的本源。不可否认,这也许听上去无法理解。然而通过数据化,在很多情况下我们就能全面采集和计算有形物质和无形物质的存在,并对其进行处理。
将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
迟早有一天,数据化的影响会使水渠和报纸的影响微乎其微,同时,通过赋予人类数据化世间万物的工具,它也对印刷机和互联网的地位提出了挑战。可是目前,它最主要的用途还是在商业领域。大数据正被用来创造新型价值,这也是下一章的主题。