201707-09 大数据时代究竟带来了什么? 大数据的本质是什么? NEW 作者:诺蓝数据,让一切有迹可循,让一切有源可溯。我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知。百度知道和知乎问答里一直有小伙伴在问这个问题,比如“大数据时代,生活和思维发生了哪些变”、“大数据时代给我们的生活带来了哪些好处呢?”以及“大数据时代生活将会有怎样的变化”等等。看着大家热火朝天的在了解大数据、认识大数据和讨论大数据,我很开心,这说明大数据已经渐渐被大众所接受,也标志着大数据产业正在走向成熟化和大众化。问题总归是要解决的。今天不聊产... Read More >
201707-09 36个大数据文档PDF开放下载 NEW 1.大数据背后的价值:饿了么数据仓库治理及数据应用——徐梦云下载:大数据背后的价值:饿了么数据仓库治理及数据应用——徐梦云.pdf2.大数据背后的价值:腾讯游戏大数据应用——邓大付下载:大数据背后的价值:腾讯游戏大数据应用——邓大付.pdf3.Seagate-WP-DataAge2025-March-2017 下载:Seagate-WP-DataAge2025-March-2017 .pdf4.Bring Consensus to Data Replic... Read More >
201707-09 如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析 NEW 文|刘金玲 36大数据合伙人有人说大数据是「石油」是「黄金」,涂子沛说大数据是「土壤」,而马云说大数据是「生产资料」,我觉得他们说得都对,但是也都不对。因为大数据就是「大数据」。当大数据应用在不同的领域和不同的场景下,所产生的意义及其所代表的意义也都不一样,你没有办法用一句话完全概况。大数据是互联网时代不可或缺的产物,不管你愿不愿意,大数据就在那里,你我都是大数据的制造者同时也是受惠者,这个生态圈的闭环已经形成,而且还在不断的延伸到各行各业,为不同的行业创造着更新... Read More >
201707-09 数据工作的科普总结 作者:671coder首先说,这是一篇关于数据工作的科普文字,是我从事数据工作三年的一个小总结,因为不时会有人咨询我一些小问题,于是我大致整理了一下,主要是说了数据工作到底都包含了什么,其中关于数据仓库的我没有涉及,这里不会多讲,还得用教主的csdn名声帮转。一、数据获取1.爬虫:这个不用多解释了,就是从网页上爬取数据,比如爬取一个京东的三级品类的数据、爬拉勾网的职位信息数据。。。这个主要是网络编程,细节点主要是header、cookie、get/post请求、失... Read More >
201707-03 房东成行业“肥肉”,中国短租房东市场还有待挖掘 原标题:房东成行业“肥肉”,中国短租房东市场还有待挖掘近日,Rented.com创始人兼CEO Andrew McConnell根据Airbnb的一系列布局,对短租未来发展方向进行了大胆推测:房东正在成为民宿短租行业的核心资源,未来将成为平台变身市场独角兽的决定因素。包括从B端到C端,从针对房东提供住宿到机票预订、目的地打车、美食、目的地旅游活动、找工作等活动,距离实现“Live There”会越来越近。(据公开数据整理)回顾三年前,中国短租平台身在宝山不识宝,对... Read More >
201703-06 Spark体系架构 作者:刘帝伟最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并在这里与大家分享。如在翻译过程中有文字上的表达纰漏,还请大家指出。36大数据(http://www.36... Read More >
201703-06 【干货】从Google的PaaS平台说起,解析中美Docker生态圈 作者:王璞本文选自清华大数据产业联合会会员、数人云CEO王璞博士在5月18日第八届中国云计算大会上主题为“中美容器之融合与变革”的分享,以下是演讲实录:容器VS虚拟化 首先我科普一点什么是容器技术。容器技术其实本身并不是什么崭新的技术,大家经常拿容器技术跟虚拟化技术比较。有一个通俗的说法,容器是极度轻量的虚拟机。怎么理解大家看这个图,左边图展示的是虚拟机,物理服务器里装操作系统,再装上虚拟机管理软件,生成很多虚拟机,然后虚拟机再装操作系统再装各种各样的应... Read More >
201703-06 大数据平台Docker应用之路 文 | 联想大数据(本文由联想大数据团队独家投稿36大数据,新年新开始,拒绝转载!)随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟,业界有不少的大数据研发团队开始拥抱Docker。简单来说,Docker会让Hadoop平台部署更加简单快捷、让研发和测试团队集成交付更加敏捷高效、让产线环境的运维更加有质量保障,而这背后的业务场景和具体的实践方法有哪些?在Docker容器服务逐步走向完善的过程中,大数据平台产品Docker模式的应用又是如何解决... Read More >
201703-06 阿里超大规模Docker化之路 文 | 林昊,花名毕玄,阿里巴巴研究员。12月6-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛上,阿里巴巴研究员林昊分享了阿里超大规模Docker化之路。阿里在Docker化这条路上,碰到了规模、多元化场景所带来的各种挑战,这次分享中将给大家介绍阿里为什么要引入Docker,以及如何完成这次超大规模的Docker化。Docker化之前Docker化之前,阿里主要交易业务已经容器化。采用T4做... Read More >
201703-06 用Spark分析Amazon的8000万商品评价(内含数据集、代码、论文) 文 | Max Woolf尽管数据科学家经常通过分布式云计算来处理数据,但是即使在一般的笔记本电脑上,只要给出足够的内存,Spark也可以工作正常(在这篇文章中,我使用2016年MacBook Pro / 16GB内存,分配给Spark 8GB内存)。此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步。亚马逊的商品评论和评分是一个非常重要的业务。 亚马逊上的客户经常基于这些评论做出购买决定,并且单个不良评论可以导致潜在购买者重新考虑。... Read More >