首页 > 技术整理 > 大数据的定义和特征
2015
01-07

大数据的定义和特征

千淘万漉博客阿里云大使推广链接

转载自 《大数据时代的历史机遇》,赵国栋

 

麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The nextfrontier for innovation, competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。

       

       国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

       

       亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。

       

       维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”

       

       大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。笔者在调研多个行业后,给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。

       

       发现规律,预测未来

       

       任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的力所在。

       

       1993 年,《纽约客》刊登了一副漫画,标题是“互联网上,没有人知道你是一条狗”,如图1-10 所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。彼时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如,同性恋和恋童癖可能会借助互联网而大行其道。

       

       查看原图20 年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明性存在的。

       

       事实上,对于未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测预测自然、天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让我们的生活更为从容,让决策不再盲目,让社会更加高效的运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。我的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。

       

       听起来似乎很玄妙,大数据不就是算命先生么?

       

       其实,或多或少,人们都具备预测的能力。譬如,儿子跟小伙伴们疯玩,我知道他肯定在7 点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系,但是几千年的观察和积累,却发现了它。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。

       

       任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势,就不会去买卖这支股票;如果我们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前种种异象,更是被许多书籍、文章大肆渲染。

       

       假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。

       “过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前。”这是IBM 公司的一则广告,宣传利用大数据构建智慧的地球。

       

       “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据,可以形成询盘指数和成交指数,这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以,当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。

       

       中国建设银行 的电子商务金融平台——“善融商务于2012 年6 月28 日正式开业。官方的宣传是“善融商务”是建设银行顺应电子商务发展潮流,结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大,分行考核严厉,甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台,听起来像不务正业,其实是醉翁之意不在酒。银行需要那些小商家的经营数据,来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险。建行此举,不论成功与否,都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力,对建行而言,就意味着低风险,高收益,是每家金融机构都梦寐以求的境界。常常说富贵险中求,传统经营一般是高风险,高收益;不料有了大数据在手,就能低风险,高收益,难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值,行将成为21 世纪的恐龙,不复往日的荣光。

       

       数据大爆炸

       

       截止到2011 年,互联网用户数已达到20 亿; RFID 标签在2005 年的保有量仅有13亿个,但是到2010 年这个数字超过了300 亿;2006 年资本市场的数据比2003 年增长了17.5倍;日前新浪微博上每天上传的微博数超过1 亿条;Facebook 每天处理10TB 的数据;世界气象中心积累了220TB 的Web 数据,9PB 其他类型数据……

       

       根据国际数据公司(IDC)的《数据宇宙》报告显示:2008 年全球数据量为0.5ZB,2010 年为1.2ZB,人类正式进入ZB 时代。更为惊人的是,2020 年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍,这与IT 界人尽皆知的摩尔定律极为相似,姑且可以称之为“大数据爆炸定律”。预计2015 年全球数据量将达到7.9ZB,2020 年将突破35ZB,是2008 年的70 倍、2011 年的29 倍,如图1-11 所示。

       

       查看原图同时,根据互联网数据中心的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告显示:截至2011 年年底,中国互联网行业持有的数据总量已达到1.9EB,预计2015 年该规模将增长到8.2EB 以上。

       

       人类社会的数据量在不断刷新一个个新的量级单位,已经从TB、PB 级别跃升至EB、ZB 级别。然而,35ZB、8.2EB 究竟是一个什么样的概念呢?为此,首先了解下面几组关于数据衡量单位的公式:

       

       1B = 8 bit

       

       1KB = 1024 Bytes ≈ byte = 1000 byte

       

       1MB = 1024 KB ≈ byte = 1 000 000 byte

       

       1GB = 1024 MB ≈ byte = 1 000 000 000 byte

       

       1TB = 1024 GB ≈ byte = 1 000 000 000 000 byte

       

       1PB = 1024 TB ≈ byte = 1 000 000 000 000 000 byte

       

       1EB = 1024 PB ≈ byte = 1 000 000 000 000 000 000 byte

       

       1ZB = 1024 EB ≈ byte = 1 000 000 000 000 000 000 000 byte

       

       1YB = 1024 ZB ≈ byte = 1 000 000 000 000 000 000 000 000 byte

       

       一本《红楼梦》共有87 万字(含标点),每个汉字占两个字节,即1 个汉字=2B,由此计算1EB 约等于6626 亿部红楼梦。美国国会图书馆是美国四个官方图书馆之一,也是全球最重要的图书馆之一,截至2011 年4 月,藏书约为1.5 亿册,收录数据235TB,1EB约等于4462 个美国国会图书馆的数据存储量。

       数据的多样化

       

       电影《黑客帝国》中,主人公尼奥吞下那颗蓝色的小药丸后,发现原来他生活中一切的一切,包括他的工作、伙伴,高楼大厦、天空、大地,甚至喜、怒、哀、乐;都是数字化的幻像。真实的物理世界当然不像电影那样天马行空,但在许多领域的确朝高度数字化的方向演进。

       

       譬如,那些高楼大厦,利用三维建模技术,形成了包含设计、施工、维护等综合信息的建筑信息模型。在消费者眼中,建筑信息模型呈现出来漂亮、壮观,让人们不得不掏出钱来埋单的效果图;在房地产商老板眼中,建筑信息模型则清楚地告诉他们整个过程应该花多少钱;在设计师眼中,建筑信息模型就是各种各样的设计图的综合,利用它可以方便地调整管线走向、通风的设计等;而在工人眼中,建筑信息模型这就是施工图。对于消防部门不用等到完工,通过建筑信息模型就能评估建筑的消防效果和做出人群疏散的动态模拟;也就是说,建设一栋大楼的方方面面都可以是数字化的。

       

       人们日常工作中接触的文件、照片、视频,都包含大量的数据,蕴含大量的信息。这一类数据有一个共同的特点,大小、内容、格式、用途可能都完全不一样。以最常见的Word 文档为例,最简单的Word 文档可能只有寥寥几行文字,但也可以混合编辑图片、音乐等内容,成为一份多媒体的文件,来增强文章的感染力。这类数据通常称为非结构化数据。

       

       与之相对应的另一类数据,就是结构化数据。这类数据大家可以简单地理解成表格里的数据,每一条都和另外一条的结构相同。大家每月都能领到工资条,每个工资条结构都是一样的,当然里面的工资和缴纳的个税、保险不同。每个人的工资条依次排列到一起,就形成了工资表。利用计算机处理结构化数据的技术比较成熟,从事会计、审计等工作的人,利用Excel 工具很容易进行加减乘除、汇总、统计之类的运算。如果进行大量的运算,一些商业数据库软件就派上用场,它们专门用于存储和处理这些结构化的数据。

       

       但不幸的是,企业中和人们日常接触到的数据绝大部分都是非结构化的。有的咨询机构认为非结构化数据占企业总数据量的80%,也有机构认为占95%,总之,没有权威、准确的统计。如何像处理结构化数据那样,方便、快捷地处理非结构化数据,是信息产业一直以来的努力方向之一。在这个领域,信息业是走了不少弯路的。起初人们借助结构化数据处理的成果,把非结构化数据也用传统的数据库(基于关系型的数据库)来处理。非结构化数据的一大特点就是龙生九子,各各不同,硬要套到一个模子里面来,结果是费力不讨好。由是人们一度认为大量的非结构化数据是难以达成的。

       

       幸运的是,谷歌公司在为公众提供页面搜索服务的同时,顺便解决了大量网页、文档这类数据的快速访问的难题,成为大数据技术的先驱。雅虎公司的一个开发小组,利用谷歌的成果成功地开发出大数据处理的一套程序框架,这就是众所周知的Hadoop。目前,这个领域非常活跃,发展可谓日新月异。

       

       这些公司的实践,让大家面对其他各类的非结构化数据这一处理难题重建信心,如高清图像、视频、音频等的处理技术都已驶入了快车道。

       

       另外,社交网络上的表现人们情绪的数据日益丰富。例如,[笑脸]、、、[愤怒]、[纪念]等代表人们心情的标准化图释的大量使用,无疑表达了人们对某一事件的总体情绪,可能昭示线下会发生某些行为。

       

       大数据的价值特征

       

       7·21 北京暴雨之夜,微博成了救灾的明星。一些好心人在微博上公开自己公司地址,方便大家去躲雨和休息。大家依据微博实时了解哪个地方出现了拥堵,哪个地方需要救援。当然救灾不力,应对失当是另外一回事儿。短信、电话都难以描述精确的地址,尤其是当人们焦虑和着急的时候,但是一条微博中可以同时包括人物、时间、地点三个要素,打开微博附加的坐标数据,就可以在地图上迅速定位,为及时救灾提供了方便。在这个例子中,人们看到融合数据的价值。

       

       再如视频监控的例子。银行、地铁等一些敏感的部门或者地点,摄像头都是24 小时运转,会产生大量视频数据。一般情况下,这些视频数据非常枯燥、乏味,并不会引人注目。但是如果恰巧拍到有图谋不轨的人,那么这一帧图像对公安人员来讲,就是非常有价值的了。问题是我们无法在事前知道哪一帧会有用,只好把所有的视频数据都保存下来,甚至保存了一年的数据,只有那一秒对破案有用。但是在研究人类行为的社会学家眼中,这些视频可能就是难得的第一手资料,也许可以借此窥探人类的某些行为模式。

       

       笔者曾经读过一篇日本的短篇小说,情节惊悚。一位年轻貌美却家境贫寒的姑娘,有幸得到一份高薪的工作,照顾一个垂死的病人。奇怪的是,院长要求姑娘必须每时每刻都穿着一件电子背心。医院大楼空空荡荡,令人害怕。姑娘为了养家,不得不忍受大楼里每晚都发生的恐怖事件。终于在一件极端骇人听闻的事件中,姑娘被活生生吓死。这时候,大楼变得灯火通明,病人脱掉伪装,取走姑娘身上的电子背心,高价卖给神秘的买家。原来电子背心中记录了一颗健康的心脏,在高兴、害怕、惊恐,以至于骤然停止跳动的全部数据。这可能是笔者读过的第一篇恐怖小说,至今仍记忆犹新。

       

       现在人们获取医疗数据,却变得相当简单。只要在手腕上佩戴一块类似电子表的仪器,就能随时随地把脉搏、体温、血压等数据,源源不断地传输到医疗中心。这些数据除了可以检测人们的健康以外,更是医疗保险公司的最爱。保险公司的精算师,根据这些数据可以开发新的保险产品,或者优化他们的现有产品组合。

       

       从上面各种事例中,可以得出以下结论:第一,数据是无价之宝;第二,价值虽有,但确如沙滩中的黄金;第三,数据融合的价值,要远远大于种类单一的数据价值。在研究各行各业数据应用时,笔者发现很多公司坐拥金山,却是苦苦挣扎。他们没有认识到自身的数据中正蕴涵着业务的重生之道。最早重视数据价值的是互联网公司,在大数据研究和应用方面领风气之先。但是,大数据并非仅仅是大公司的专利,它更多的是看待世界、产业的观念和视角。大公司自然可以合纵连横,跨界扩张;小公司也可以静水流深,别具高格。关键是你怎么看。

       

       多快才算快?

       

       答案是小于1 秒,客户的体验就分秒之间。

       

       这一条是区别传统的数据应用和大数据应用最重要的区别。过去的十几年间,金融、电信等行业都经历了核心应用系统从散落在各地市到逐步统一到总部的过程。大量数据集中后,带来的第一个问题,就是大大延长了各类报表生成时间。业界一度质疑,快速地在海量数据中提取信息,是否可行?

       

       谷歌公司在这方面的贡献,无疑是开创性的。它的搜索服务,等于向信息业界宣布,1 秒钟之内就能检索全世界的网页,而且可以找到你想要的结果。在写作本段的时候,当用谷歌搜索关键词“大数据”,提示“找到约46 300 000 条结果(用时0.37 秒)”。谷歌等于为大数据应用确立了一个标杆。如果超过1 秒钟的数据应用,就会给用户带来不良的使用体验。甚至在某些情况下,如果应用速度达不到“秒”级,其商业价值就会大打折扣。我们来看一个营销的例子。

       

       价格越贵的东西,人们购买时就会越犹豫,反复掂量自己的钱包。相反,价格越便宜的东西,人们购买时更多根据一时的喜好,呈现冲动型购买的特征。京东商城根据消费者购买商品的特征,分为四种类型,其中冲动型购买者占37%。冲动嘛,自然一闪即逝。所以能否在用户冲动的瞬间及时送达精准的商品信息,就成为了提高商品销售的关键所在。幸运的是,社交型互联网的应用,如美国的Facebook、中国的微博、微信,提供了侦测人们偏好和兴趣的接口,使得这种精准的营销在大数据时代成为可能。

       

       在以高频交易为主的股票市场,比别人快0.02 秒,就可能获得惊人的超额收益。所以,有人为了抢这宝贵的20 毫秒,单独建了一条从西海岸到东海岸横跨美国的光纤,也有人干脆就呆在纽交所相同的街区。这种毫秒级时差造成的商业机会,也许会随着大数据的普及应用而在其他行业不断上演。

       

       以应急为代表的一些新兴产业,对时效性要求非常高。假如市区某工厂发生事故,要求需在第一时间做出正确判断,第一时间评估影响范围,第一时间到达现场,第一时间开展正确的处置方法。

       

       O2O应用是互联网投资创业的一个热点领域。当消费者在商家门口经过时,就能收到商家的促销信息,这种服务听起来非常美妙。如果促销信息恰好是大家需要的商品或者服务,那么所有人都能从中受益。消费者节省了时间,商家卖出了商品,服务商获得了佣金。但是,如果推荐的不是消费者需要的商品,或者等消费者离开了很久才收到提示,就变成了令人烦恼的垃圾信息,没有人喜欢随时随地地接收垃圾信息,垃圾信息和有价值的及时提示只有短短的几秒钟的差别。

       

       再举一个信用卡消费提醒的例子。当笔者刷卡消费的同时,收到银行的提示短信,会感到很安全,也不会认为被打扰,因为当时正在处理跟消费支付相关的事情。如果过了几个小时,才收到相同内容的短信,情况就不同了,也许笔者正在跟朋友聊天,也许正在写一篇文章,这条短信就成了打扰笔者的垃圾信息。客户的体验就在这短短的分秒之间。

       

       孤立的数据是没有价值的

       

       Facebook、微博为代表的社交网络应用,构建了普遍关联用户行为数据。本来大家在网络上浏览网页、购买商品,游戏休闲等等,都是互不关联的。尤其是智能手机的普及,大家的网络行为更趋向于碎片化。这些碎片化数据如果没有关联,是难以进行分析并加以利用的。但是社交网络提供了统一的接口,让大家无论是玩游戏还是买商品,都能够方便轻松地分享到微博上。微博扮演了用户行为数据连接器的角色。用户在网络上的碎片化行为,经由社交网络,就能完整地勾勒出一幅生动的网络生活图景,真实地反映了用户的偏好、性格、态度等等特征,这其中蕴育了大量的商业机会。

       

       反之,孤立的数据,其价值要远远小于广泛连接的数据。然而,数据孤岛现象普遍存在。个人计算机中的文件,虽然按照目录分门别类的存放,但是之间的内容关系往往杂乱无章。企业中各部门壁垒林立,大家更倾向于尽可能地保护自己的数据。我国政府部门的数据孤岛现象更为严重,甚至可以称为“数据割据”现象。在数据孤岛的影响下,难以发挥大数据中蕴藏的价值。

       

       所以,笔者曾经和一些专家、学者交流,提到培育大数据能力的三个发展阶段。第一阶段,融合结构化和非结构化数据,消除数据孤岛现象;第二阶段,融合企业内部和外部的数据,消除数据割据现象;第三阶段,建立数据驱动的新型企业。对这三个阶段的探讨超出了本章的范围,后续还将有详细的描述。

       

       活性越高价值越大

       

       有一家公司给笔者寄来数据样本,希望笔者能帮他们评估这些数据的潜在商业价值。虽然数据量很大,但是数据更新的频率大概是每月一次。这样的数据类型很常见,一些支付公司收集的没有交费记录就属于这种情况。

       

       所谓活性,也就是数据更新的频率。更新的频率越高,数据的活性越大;更新的频率越低,数据的活性越小。一般而言,数据活性更高的数据集,蕴含更丰富的信息。所以,这家公司如果想在大数据领域有所作为的话需要想办法提高数据的活性。

       

       在判断公司的投资价值时,我们挂在嘴边的一句话就是,要看公司拥有数据的规模和数据的活性。之所以没有提多样化、快速等特征,是因为这样一句简练的话,更容易被大家理解和记忆。


本文》有 1 条评论

  1. 贝加尔的熊 贝加尔的熊 说:

    大数据当下很火,将来将走向何方还未可知,不过确实计算机领域与人类社会的一大贡献。

留下一个回复