的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系。 比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。 除了商品销售,数据挖掘还可以用于人际关系挖掘。六度分隔理论认为世界上两个互不认识的人,只需要很少的中间人就能把他们联系起来。这个理论在米国的实验结果是,通过六步就能联系上两个不认识的米国人。 未来像我们的【领赢】甚至【myspace】,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。 现代生活几乎离不开互联网,各种各样的应用无时不刻不在收集数据,这些数据在后台的大数据集群中一刻不停地在被进行各种分析与挖掘。 当然我们也可以举个高大上的例子,来说说理查德·宾这位传奇相关的行业-医疗。 例如人类目前难以攻克的白血病和红斑狼疮,我们可以通过对病人的生活习惯、生长环境、dna、病情发展等信息的收集,将数据采集聚集在一起,把小特殊病理变成可供参考的大数据。 而后透过不断的数据挖掘,去分析这些病例的因由。那么科研人员对于这些不治之症,将拥有更多可参考性的依据,把原本很小的可能变成大概率可以突破的可能。 或许是让患有这些病情的人有了被治愈的可能,或许是让基因里包含潜在基因缺陷的胚胎在孕育的过程中避免来到人世后的痛苦。 这些分析和挖掘带给我们的是美好还是恐惧,完全要依赖大数据从业人员的努力。但是可以肯定不管最后结果如何,这个进程只会加速不会停止,而你我只能投入其中。 但无论如何这件事值得去做,甚至为了提高效率,我们可以将一些繁琐规律的工作交给人工智能去做,这又会让大数据时代发展到大数据应用的机器学习时代。 像刚刚的例子里,数据中蕴藏着规律,这个规律是所有数据都遵循的。过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。 在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而未来有了大数据,就可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。 这就是机器学习。 例如,我再举个例子,把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋。 每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,说不定哪一天这个机器人就会以几年的时间学习上千年的棋局后,通过共性和局部战略的学习,通过分析人类落子的意图分析以压倒性优势下赢了人类的顶尖棋手。” 也不管身边目瞪狗呆的四人,宁子默喝了口咖啡润了润喉咙,借着继续说到: “在我讲完刚刚这些事例的时候,相信你们对于我脑中的搜索引擎已经有了一个更远期的看法。没错,它很庞大,它不止是一个可以向人们提供搜索结果的窗口,而是一个大数据时代的窗口。 bing要做的事情就是要把人类文明从诞生到发展至今说保留的所有信息都进行存储,让它成为一个庞大的数据库,让它为各行各业的人们提供可供查证的大量数据,让人类在行进的过程中少犯错误、少点痛苦。 但亦或许,那也只是我的痴心妄想。因为人性的贪婪,会让我们及时拥有这么先进的科技,仍旧避免不了那么多问题的存在。 但科技并没有错,完全要看我们应用的方法,以及我们这些从业者是否能拥有一把衡量公正的尺子。 我做不了那么多去衡量公正的事情,但我的有生之年,只想让科技更进一步,让我身边的团队为了人类文明去出一份力。 至于未来那个大时代到来后会成为什么样,我相信就算我老了,也依旧有无数有识之士能作出比我还杰出的事情。 让人类在前行的路上,依旧走着一条正确的路。”M.PartSORder63.Com