大数据发展遭遇瓶颈 如何突破壁垒迎新生? 2016年09月19日11:06 来源:中国智能制造网|
已经上升成为国家战略,社会各界对大数据的期待上升到了前所未有的高度。如何务实推动大数据战略落地,成为接下来的政策重点。
1、引言
2015年,我国《促进大数据发展行动纲要》出台,十八届五中全会进一步提出要在“十三五”期间实施国家大数据战略,大数据一路上升成为国家战略,社会各界对大数据的期待上升到了前所未有的高度。如何推动大数据战略落地成为未来几年的政策重点。本文重温了大数据的内涵,分析了大数据的局限性,结合国内大数据发展面临的瓶颈,提出了相关的策略建议。
2、把握概念本质,深刻认识大数据的战略价值
大数据是新资源、新技术和新理念的综合体。从资源视角来看,大数据是新资源,体现了一种全新的资源观。摩尔定律仍然有效,计算存储和传输数据的能力在以指数速度增长,分布式计算、存储和数据技术的革新不断涌现,互联网企业对“数据废气”(DataExhaust)的挖掘利用大获成功,引发全社会开始重新审视“数据废气”的价值,开始把数据当作一种独特的战略资源对待。
从技术视角看,大数据代表了新一代数据管理技术。传统的数据管理与分析技术以数据为对象、在小数据集上进行分析、以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的,面向多源异构数据、在超大规模数据集上进行分析、以分布式架构为主的新一代数据管理技术与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从T1到T0甚至实时),成百倍地降低了数据存储和管理成本。底层技术的变革释放了上层应用的创新活力。
从理念的视角看,大数据提供了一种全新的思维角度。大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级,螺旋上升。
大数据本身既能形成新兴产业,也能推动其他产业发展和社会进步,战略重要性毋庸置疑。从狭义看,围绕大数据采集、存储、管理和挖掘,正在逐渐形成一个小的产业生态(狭义大数据产业)。2015年,全球的大数据产业规模约为200~300亿美元。据中国信息通信研究院调查[1],2015年我国大数据市场规模达到115.9亿元,增速达38%,预计2016-2018年还将维持40%左右的高速增长。
从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的大生态。据华沙经济研究所测算,欧盟27国因大数据的引进,至2020年将获得1.9%的额外GDP增长[2]。美国麦肯锡预计到2020年美国大数据应用带来的增加值将占2020年GDP的2%~4%。中国信息通信研究院采用华沙经济研究所相同的模型测算,2014年大数据对我国GDP的增量贡献约为0.53%~1.25%,2020年的增量贡献最高将达到1.9%。大数据的应用对社会治理水平的提升也能起到明显的推动作用。
3、避免盲目跟风,大数据热潮还需冷思考
身处大数据热潮中,既要充分认识大数据的潜力,积极把握技术进步带来的机遇,也要认清大数据的局限性,警惕大数据万能论。一些被广泛传播的经典案例现在被证明是子虚乌有的,比如,啤酒与尿布的故事实际上是Teradata公司的工程师ThomasBlischok在1992年杜撰的,从来没发生过;而Netflix号称用大数据分析帮助自制剧《纸牌屋》取得成功,而实际上是把大数据作为公关活动的噱头。笔者认为,至少有以下几点值得思考:
第一,大数据尚难对人的行为做出精确预测。在大数据是否能准确预测人类行为的问题上,还存在重大分歧。《黑天鹅》指出人类的行为不可预测,而《爆发》一书则根据对以往历史经验的总结,指出人类行为93%可预测。麻省理工学院教授罗伯特·莱格伯恩(RobertoRigobon)称,虽然华尔街一直重视数据分析,但基于海量数据分析的对冲基金在全球都是失败的。“对于人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的。如果放到越小的空间和时间范围,则是越不可以精确预测的。例如,我们几乎可以在100%的程度上预测一个人在24小时的时间范围内会吃饭;但若精确到某一分钟,则几乎不可能预测准确。”大数据无法预测人类行为,归根结底还是因为人具有“自由意志”,人会根据预测结果(如下个月的股票价格、明天的交通拥堵情况)改变自身行为,从而使得预测失效。
第二,大数据相关关系不能替代因果关系。舍恩伯格在《大数据时代》[9]中说:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”,“相关关系能够帮助我们更好地了解这个世界”。追寻相关关系和因果关系,是人类思维的两种重要方式,而用大数据进行预测往往依靠相关性,也就是说,很多情况下知道“是什么”即可,不必知道“为什么”。相关关系的运用在互联网推荐、精准广告等方面得到了实际应用。然而,在很多时候,如疾病诊断、工厂故障分析等场景下,需要根据确定的(或置信度非常高的)结论来决策,仅凭相关关系是远远不够的。换言之,大数据中的相关关系应用,需要区分场景,有时候数据无法自己说话,需要追本溯源。
第三,大数据来源不均衡会让数据“说谎”。有人说数据不会撒谎。实际上,如果忽视数据来源的不均衡性,数据分析结果就会“骗人”。中国互联中心2015年的统计数据显示,我国网民城乡分布严重不均,农村网民虽然迅猛增长,但仍不及城市新增网民数量的1/10。社交网络用户的性别分布也同样有很严重的倾斜,腾讯公司2015年年初的报告显示,微信用户的男女比例为1.8:1,男性用户约占了64.3%,而女性用户则只有35.7%。如果利用网络大数据进行民意调查,却不把样本分布的不均衡性考虑进去,就可能使得某些群体未得到充分代表,而某些群体因使用率高,其意见或特征被过分放大。这种不均匀的数据来源会导致分析结果存在偏见和盲区。
第四,大数据无法消灭信息不对称现象。有人说,大数据有助于消灭信息不对称。虽然从全社会看,大数据的全面采集和融合应用有望在局部缓和信息不对称程度,但是在互联网世界中,马太效应很显著,拥有大数据资源和掌握大数据分析能力的企业,往往会在大数据时代占据更加有利的地位、占有更多数据,从而更容易形成一批数据寡头,产生新的不平等,造成新的信息不对称。因此,大数据无法消灭信息不对称,反而更有可能助推数据寡头的出现。如果这种数据垄断地位被企业滥用,将会威胁个人、企业甚至国家利益。因此,在大数据时代,如何进一步弥合数据鸿沟、防止数据“霸权”的滥用,将会成为一个重要的新课题。热潮之下,对大数据的反思,还需要不断深入,才能让我们保持清醒的头脑。
责任编辑:姚泓泽
上一页1