201703-06 大数据集群部署与管理 NEW 文 | 何金池, 李 峰, 李 婷一、大数据集群技术的概述让我们从有趣的 “啤酒与尿布” 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这并非一个笑话,而是一个真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海... Read More >
201702-22 2017大数据十大趋势丨海量数据汹涌而来,Hadoop不再一家独大 NEW 2017年大数据将不再是Hadoop一家独大,也不再是编程者们的自娱自乐,企业和终端用户的不断涌入,海量数据“堆积如山”,随之而来的储存、分析、处理成为从业者的下一挑战。数据如何变现,价值怎么挖掘?2017大数据十大趋势,兴许给你惊艳的解答~随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多,2016年注定是大数据里程碑式的一年。2017年,支持大量结构化和非结构化数据的系统将继续增长。市场需要数据平台来帮助数据管理人员管理和保护大数据,同时... Read More >
201702-17 spark入门教程(3)--Spark 核心API开发 NEW 3.5.2 键值对型Transformation算子RDD的操作算子除了单值型还有键值对(Key-Value)型。这里开始介绍键值对型的算子,主要包括groupByKey、combineByKey、reduceByKey、sortByKey、cogroup和join,如表3-5所示。表3-5 键值对型Transformation算子方法名方法定义groupByKeydef groupByKey(partitioner: Partitioner): RDD... Read More >
201702-17 spark入门教程(3)--Spark 核心API开发 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark综合了前人分布式数据处理架构和语言的优缺点,使用简洁、一致的函数式语言Scala作为主要开发语言,同时为了方便更多语言背景的人使用,还支持Java、Python和R语言。Spark因为其弹... Read More >
201702-17 Spark入门教程(2)---开发、编译配置 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark为使用者提供了大量的工具和脚本文件,使得其部署与开发变得十分方便快捷,本章将会分别从运行(含集群部署)、开发以及源码编译三个角度,来介绍Spark相关环境的具体配置流程。对于初次接触Spark的读者,建议仅需阅读运行环境部署和开发环境部署两节内容,如果后期有源码编译或者源码学习需... Read More >
201702-17 Spark入门教程(1)——spark是什么及发展趋势概述 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的是通过系统学习让读者了解和应用大数据,进而提炼大数据中蕴藏的价值。... Read More >
201702-17 2 分钟读懂大数据框架 Hadoop 和 Spark 的异同 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,... Read More >
201701-24 普通程序员,如何转为当前紧缺的大数据相关人才? 前段时间跟候选人聊天,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识。他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代。我其实已经听过很多人跟我说过类似的话。只不过不同人嘴里提到的词汇各有不同——大数据、数据挖掘、机器学习、人工智能…… 这些当前火热的概念各有不同,又有交叉,总之都是推动我们掌控好海量数据,并从中提取到有价值信息的技术。程序员对这些技术跃跃欲试,知... Read More >
201701-23 一图读懂数据挖掘、大数据、OLAP、数据统计的区别 数据分析是信息化发展到一定阶段的必然结果,对于信息化的决策者更是刚需,那么关于“数据分析、数据挖掘、大数据”等业内炙手可热的概念如何区分,以及数据应用的现状如何?据此,特推出高校数据应用专题,从概念、高校需求场景、高校数据应用产品建设模式等角度一层层解读。 ... Read More >
201612-07 在中国我们如何收集数据?全球数据收集大教程 先说说我们可以通过几个渠道获得中国的数据。查找《中国统计年鉴》等是一个选择,特别是在几年前,几乎是唯一的选择。好多图书馆里都收藏《中国统计年鉴》等,翻出有你所需数据的那一页,复印是一个不错的选择,当然你也可以选择拿出纸和笔,把所需要的数据都抄写下来。为了便于对这些数据做进一步的处理,接下来的工作可能有点枯燥:把你找的数据一个一个地输入到电脑。当然,现在情况改善好多了,比如要查找2004年的《中国统计年鉴》,中华人民共和国国家统计局网站提供免费下载,点击前往如果你需... Read More >