作者:吴军
未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。
信息是关于世界、人和事的描述,它比数据来得抽象。信息既可以是我们人类创造的,比如两个人的语音通话记录,也可以是天然存在的客观事实,比如地球的面积和质量。
数据可以把信息描述清楚,它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至可以被伪造。
人类文明的过程其实伴随着获取数据->分析数据->建立模型->预测未知的过程。数据在人类文明中起到了基石的作用。像地心说、日心说等都是一种模型。
数据之间大多存在相关性。很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。
统计学的前提是可靠的样本,而样本的选取并非易事。而且在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事。
从概率论一诞生人们就有这种担忧,人们希望能够从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计。
切比雪夫不等式证明了当样本数足够多时,一个随机变量和它的数学期望值之间的误差可以任意小。
要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。简单的模型未必和真实情况相匹配,从一开始如果选择错误,则以后修修补补就很难了。而寻找模型的参数,以便让模型至少和以前观察到的数据相吻合,这个过程就是机器学习。
完美的模型未必存在,即使存在,找到它也非常不容易。但是经常可以用多个简单的模型拼凑出一个复杂的模型,而且常常成本更低。
回到数学模型上,其实只要数据量足够多,就可以用若干个简单的模型取代一个复杂的模型。这种方法被成为数据驱动法。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。
在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮技术革命——智能革命。
大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。
阿兰图灵真正科学地定义了什么是机器智能:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人等同的智能。这种方法被后人称为图灵测试。
人工智能分为两类:
人工智能1.0(传统的人工智能):首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。强调实现智能的方法。
泛指的机器智能,也就是任何可以让计算机通过图灵测试的方法,包括数据驱动法、知识发现或者机器学习等。强调解决人脑所能解决的问题。
Google的多项成功,机器翻译等的重大突破都得益于利用了数据驱动方法。在机器翻译、语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右,代价高,难度大。Google利用大数据训练出了六元模型,可以构造整个从句和复杂的句子成分之间的搭配,相当于将这些片段从一种语言到另一种语言直接对译过去了。
大数据,之所以用big data而不是large data、vast data,是因为big是一种相对于小的大,而不是绝对体量的大。因此,大数据是一种思维方式的改变。
我们对于大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
机械思维:
欧几里得:创立了基于公理化体系的几何学。
托勒密:通过观察获得数学模型的雏形,然后利用数据来细化模型。首先,需要有一个简单的元模型(在天文学中托勒密使用了圆),这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。
缺陷1:整体模型很复杂,原因是元模型用了再简单不过的圆,这么复杂的模型依靠手工计算就难以准确。
缺陷2:(致命)确定性假设。它假设模型一旦产生,就是确定的和不会改变的。它对过去的数据吻合的很好,却不能预测未来的数据。
笛卡尔:大胆假设、小心求证。
牛顿:用简单而优美的公式破解了自然之谜。
机械思维核心思想:
第一、世界变化的规律是确定的
第二、因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。
第三、这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。
在牛顿和瓦特之前,一项技术的进步需要非常长的时间来积累经验,或者用今天的话讲就是获得数据、信息和知识,这个过程常常要持续经过很多代人。
瓦特改进蒸汽机不是靠长期经验的积累,而是通过科学原理直接改进蒸汽机。
机械思维的局限性更多来源于它否认不确定性和不可知性。
机械思维的特性:善于把握确定性而难以解决不确定性问题。
到了信息时代,机械思维的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。
信息论:
与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。
信息论中的互信息(Mutual Information),可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须“有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。
香农第一定律:对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。
香农第二定律:信息的传播速率不可能超过信道的容量。
最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。
交叉熵原理:两个数据源一致,它们的交叉熵为零,当它们相差很大,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和模型的数据之间需要有一致性,也就是盖洛普所讲的代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。
大数据的出现能够解决那些智能的问题,是因为很多智能问题从根本上来讲无非是消除不确定性的问题。
大数据特性:
数据量大:香农指出,信息量与不确定性有关,要想消除系统内的不确定性就要引入信息。因此,大量的数据,是消除不确定性的必要条件。
多维度:“互信息”的概念,要求为了获得相关性通常需要多个维度的信息。
完备性:在过去,任何使用基于概率统计的模型都会有很多小概率事件覆盖不到,而这些情况反映到交叉熵时,它的值会达到无穷大,也就导致数据驱动方法失败。所以就要求大数据具有完备性。
从因果关系到强相关性思维的转变,过去我们强调因果关系,并将这样的关系运用到其他领域,但是很多时候我们要找到因果关系很困难,大数据的思路则是通过找到强相关性,先确定结果,然后再允许基于这个结果去推导出因果关系。如果找不出因果关系,而我们又愿意接受这个结果,那么说明我们已经具备大数据思维了。
搜索引擎公司使用用户点击数据和搜索结果相关性模型,来提高搜索的准确度,也称为“点击模型“。大的搜索引擎公司因为数据多,用户量大,就获得了大量的数据用于训练模型,从而更高地提升了预测能力,而小公司因为缺乏条件,就会在竞争中落后。因此它们争相开发浏览器、工具条、输入法等,将用户在类似Google这种大搜索引擎公司的用户点击行为记录下来以提高自己的数据量,而这些行为其实都是大数据思维在互联网领域的应用。
在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
从大数据中找规律,可以解决很多不确定性的问题。作者使用以下例子:
警察局利用智能电表数据发现大麻种植
税务局利用纳税大数据防止偷漏税
塔吉特百货使用大数据进行客户分类实现精准营销
沃尔玛和亚马逊利用大数据进行消费推荐
Netflix利用大数据提升收视率
Google Now利用大数据实现无搜索条件搜索(利用其它场景数据,预测你接下来可能要做的事情)
说明了大数据与传统商业之间存在着密不可分的关系,把握数据就可能赢得商业上的成功。
大数据在商业活动中从细节到整体再从整体到细节双向的流动,不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。作者利用以下的例子:
酒吧业使用RFID记录经营细节防止酒保偷酒的行为
PRADA利用RFID提升用户体验满意度实现销售额提升
金风公司(一家风力发电设备提供商)改变传统卖设备的方式(卖一单就结束),加强了对设备采集数据,汇总数据的能力,成功转型为高质量服务商
Google使用穷举法提升搜索质量
Google自动驾驶汽车将“发明一台自动驾驶机器人”的思路转换为“大数据问题”之后,成功发明了自动驾驶汽车
说明了采用大数据思维的重要性。
新技术 + 原有产业 = 新产业
的规律几乎在每一次历史变更中,都会让这个时代的企业家站到浪潮之巅。
从历史经验看:
现有产业 + 蒸汽机 = 新产业
现有产业 + 电 = 新产业
现有产业 + 摩尔定律 = 新产业
大数据:
现有产业 + 大数据 = 新产业
现有产业 + 机器智能 = 新产业
技术的革命导致了商业模式的改变,“IBM转型为软件和服务业”的例子,就是由于传统的计算机制造行业生产力过剩,利润率不断降低,但是人们对服务的需求总是有的,因此IBM才得以完成这次转型。
这样商业模式的改变,具备继承性也有创新性。
GE公司通过在传统家电中增加WiFi传感器,建立与用户之间的信息通道
小米科技也凭借大数据思维变成了估值高达450亿美金的公司
虽然不是每个行业都一定要成立自己的大数据IT部门,但是传统企业想要在这一轮竞争中获得成功,就必须要借助新技术的力量。
大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。
数据的产生,利用类似RFID等传感器产生数据等就是新技术应用的体现
信息的存储,随着数据量不断增大,信息的存储技术的提升是必要的
传输的技术,带宽的提升给数据收集带来了便利
信息的处理,分布式计算的发展给大量的信息处理带来了可能
数据收集,在收集数据时,我们还需要再一次强调它是在无意之间完成的。在数据收集的过程中,非常忌讳那种“大胆假设,小心求证”的思维方式,因为在很多时候,如果事先有了定论,再找数据来证实它,总能找到有利的证据,而这些看似被数据证实的结论,很可能与真实情况相差十万八千里。数据的收集是一个开放性的话题,不存在唯一的、最佳的方法。但是好的方法一定能够保证数据的全面性(完备性)和不变性。
数据存储的压力和数据表示的难题,protocol buffer的出现都是为了解决数据表示
并行计算和实时处理,并非增加机器那么简单,针对大数据的实时处理需要开发很多新的工具,而不是简单地把过去的工具并行化就可以。
数据挖掘,是机器智能的关键
数据安全的技术,数据安全可能远没有人们设想的那么高,但是可以利用大数据的方法,来进行用户行为的学习,并且增强对黑客入侵的防御
保护隐私,是靠大数据长期挣钱的必要条件。在人们对大数据威力和工作方式的认识还不够全面的情况下,人们通常会在隐私性和便利性之间更倾向于便利性。而未来,如果一家企业能够保护隐私而另一家却不行,前者有可能就此获胜。
大数据将导致我们整个社会的升级和变迁:
未来的农业:用以色列采用滴灌技术在水资源极其匮乏的情况下实现高产量的做法来说明对农业的改进
未来的体育:用勇士队利用大数据进行球队建设的做法来说明对体育的改进
未来的制造业:用特斯拉弃用劳工改用机器人,以及特斯拉重新定义汽车产业链的例子来说明对制造业的改进
未来的医疗:
降低医疗的成本:在美国使用医师的成本比仪器要高得太多,而这些仪器在掌握大量数据之后的智能、稳定性、准确率等方面都优于人
解决医疗资源短缺的问题:这些医疗计算机系统达到了中等医师的水平,对于那些医师资源匮乏的地区,帮助是很大的
制药业的革命:利用大数据可以找到不同的特效药对不同人群的适应性,从而解决一些难以攻克的难题
人类是否可以长生不老:利用建立人类数据库,用于从基因方面找到人类衰老的原因从而延长人类寿命
未来的律师业:除了之前提到的在司法领域使用强相关性寻找证据的例子,还能够取代律师做一些案例分析工作,使得诉讼成本降低。在海洋法系中(判例型法律体系)中,打一场大官司,需要将历史上相关的官司法律文件都拿出来分析,而大数据有可能在自然语言处理和信息检索方面取代初级律师或律师助理的职位。
未来的记者和编辑:计算机写作的能力已经很强大了,它们能够通过一些模版和语言模型的概率模型来写作,从而取代一些初级新闻工作者的工作。
作者通过以上例子说明了大数据将导致我们社会的产业升级和变迁。
智能革命会带来社会的进步:
采用大数据规划城市交通
采用大数据进行反恐
区块链跟踪每一笔交易导致未来世界的精细化
采用大数据,使得现有的标准化很强的医疗体系变成个性化的医疗体系
也会带来负面的影响:
无隐私的社会
机器抢掉人的饭碗
任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那2%的受益者;而作为国家,则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。