volnet

智能时代——大数据与智能革命重新定义未来

作者:吴军

前言 人类的胜利

未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。

第一章 数据——人类建造文明的基石

信息是关于世界、人和事的描述,它比数据来得抽象。信息既可以是我们人类创造的,比如两个人的语音通话记录,也可以是天然存在的客观事实,比如地球的面积和质量。

数据可以把信息描述清楚,它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至可以被伪造。

人类文明的过程其实伴随着获取数据->分析数据->建立模型->预测未知的过程。数据在人类文明中起到了基石的作用。像地心说、日心说等都是一种模型。

数据之间大多存在相关性。很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。

统计学的前提是可靠的样本,而样本的选取并非易事。而且在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事。

从概率论一诞生人们就有这种担忧,人们希望能够从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计。

切比雪夫不等式证明了当样本数足够多时,一个随机变量和它的数学期望值之间的误差可以任意小。

要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。简单的模型未必和真实情况相匹配,从一开始如果选择错误,则以后修修补补就很难了。而寻找模型的参数,以便让模型至少和以前观察到的数据相吻合,这个过程就是机器学习。

完美的模型未必存在,即使存在,找到它也非常不容易。但是经常可以用多个简单的模型拼凑出一个复杂的模型,而且常常成本更低。

回到数学模型上,其实只要数据量足够多,就可以用若干个简单的模型取代一个复杂的模型。这种方法被成为数据驱动法。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。

第二章 大数据和机器智能

在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮技术革命——智能革命。

大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。

阿兰图灵真正科学地定义了什么是机器智能:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人等同的智能。这种方法被后人称为图灵测试。

人工智能分为两类:

Google的多项成功,机器翻译等的重大突破都得益于利用了数据驱动方法。在机器翻译、语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右,代价高,难度大。Google利用大数据训练出了六元模型,可以构造整个从句和复杂的句子成分之间的搭配,相当于将这些片段从一种语言到另一种语言直接对译过去了。

大数据,之所以用big data而不是large data、vast data,是因为big是一种相对于小的大,而不是绝对体量的大。因此,大数据是一种思维方式的改变。

我们对于大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。

第三章 思维的革命

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

机械思维:

机械思维核心思想:

在牛顿和瓦特之前,一项技术的进步需要非常长的时间来积累经验,或者用今天的话讲就是获得数据、信息和知识,这个过程常常要持续经过很多代人。

瓦特改进蒸汽机不是靠长期经验的积累,而是通过科学原理直接改进蒸汽机。

机械思维的局限性更多来源于它否认不确定性和不可知性。

机械思维的特性:善于把握确定性而难以解决不确定性问题。

到了信息时代,机械思维的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。

信息论:

与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。

信息论中的互信息(Mutual Information),可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须“有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。

香农第一定律:对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。

香农第二定律:信息的传播速率不可能超过信道的容量。

最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。

交叉熵原理:两个数据源一致,它们的交叉熵为零,当它们相差很大,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和模型的数据之间需要有一致性,也就是盖洛普所讲的代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。

大数据的出现能够解决那些智能的问题,是因为很多智能问题从根本上来讲无非是消除不确定性的问题。

大数据特性:

从因果关系到强相关性思维的转变,过去我们强调因果关系,并将这样的关系运用到其他领域,但是很多时候我们要找到因果关系很困难,大数据的思路则是通过找到强相关性,先确定结果,然后再允许基于这个结果去推导出因果关系。如果找不出因果关系,而我们又愿意接受这个结果,那么说明我们已经具备大数据思维了。

搜索引擎公司使用用户点击数据和搜索结果相关性模型,来提高搜索的准确度,也称为“点击模型“。大的搜索引擎公司因为数据多,用户量大,就获得了大量的数据用于训练模型,从而更高地提升了预测能力,而小公司因为缺乏条件,就会在竞争中落后。因此它们争相开发浏览器、工具条、输入法等,将用户在类似Google这种大搜索引擎公司的用户点击行为记录下来以提高自己的数据量,而这些行为其实都是大数据思维在互联网领域的应用。

第四章 大数据与商业

在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

从大数据中找规律,可以解决很多不确定性的问题。作者使用以下例子:

说明了大数据与传统商业之间存在着密不可分的关系,把握数据就可能赢得商业上的成功。

大数据在商业活动中从细节到整体再从整体到细节双向的流动,不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。作者利用以下的例子:

说明了采用大数据思维的重要性。

新技术 + 原有产业 = 新产业的规律几乎在每一次历史变更中,都会让这个时代的企业家站到浪潮之巅。

从历史经验看:

大数据:

技术的革命导致了商业模式的改变,“IBM转型为软件和服务业”的例子,就是由于传统的计算机制造行业生产力过剩,利润率不断降低,但是人们对服务的需求总是有的,因此IBM才得以完成这次转型。

这样商业模式的改变,具备继承性也有创新性。

虽然不是每个行业都一定要成立自己的大数据IT部门,但是传统企业想要在这一轮竞争中获得成功,就必须要借助新技术的力量。

第五章 大数据和智能革命的技术挑战

大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。

第六章 未来智能化产业

大数据将导致我们整个社会的升级和变迁:

作者通过以上例子说明了大数据将导致我们社会的产业升级和变迁。

第七章 智能革命和社会未来

智能革命会带来社会的进步:

也会带来负面的影响:

任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那2%的受益者;而作为国家,则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。