201702-17 spark入门教程(3)--Spark 核心API开发 NEW 3.5.2 键值对型Transformation算子RDD的操作算子除了单值型还有键值对(Key-Value)型。这里开始介绍键值对型的算子,主要包括groupByKey、combineByKey、reduceByKey、sortByKey、cogroup和join,如表3-5所示。表3-5 键值对型Transformation算子方法名方法定义groupByKeydef groupByKey(partitioner: Partitioner): RDD... Read More >
201702-17 spark入门教程(3)--Spark 核心API开发 NEW 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark综合了前人分布式数据处理架构和语言的优缺点,使用简洁、一致的函数式语言Scala作为主要开发语言,同时为了方便更多语言背景的人使用,还支持Java、Python和R语言。Spark因为其弹... Read More >
201702-17 Spark入门教程(2)---开发、编译配置 NEW 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark为使用者提供了大量的工具和脚本文件,使得其部署与开发变得十分方便快捷,本章将会分别从运行(含集群部署)、开发以及源码编译三个角度,来介绍Spark相关环境的具体配置流程。对于初次接触Spark的读者,建议仅需阅读运行环境部署和开发环境部署两节内容,如果后期有源码编译或者源码学习需... Read More >
201702-17 Spark入门教程(1)——spark是什么及发展趋势概述 本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的是通过系统学习让读者了解和应用大数据,进而提炼大数据中蕴藏的价值。... Read More >
201702-17 2 分钟读懂大数据框架 Hadoop 和 Spark 的异同 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,... Read More >
201701-24 普通程序员,如何转为当前紧缺的大数据相关人才? 前段时间跟候选人聊天,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识。他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代。我其实已经听过很多人跟我说过类似的话。只不过不同人嘴里提到的词汇各有不同——大数据、数据挖掘、机器学习、人工智能…… 这些当前火热的概念各有不同,又有交叉,总之都是推动我们掌控好海量数据,并从中提取到有价值信息的技术。程序员对这些技术跃跃欲试,知... Read More >
201701-23 一图读懂数据挖掘、大数据、OLAP、数据统计的区别 数据分析是信息化发展到一定阶段的必然结果,对于信息化的决策者更是刚需,那么关于“数据分析、数据挖掘、大数据”等业内炙手可热的概念如何区分,以及数据应用的现状如何?据此,特推出高校数据应用专题,从概念、高校需求场景、高校数据应用产品建设模式等角度一层层解读。 ... Read More >
201612-07 数据可视化的魅力 别让一张数据图成为你成功路上的绊脚石。现在大家都在讲创业,瞬间朋友圈铺天盖地的这个CEO、那个投融资的,先不说创业能不能成功的事,要知道现在创业你必须要有一项技能,就是讲故事的能力。你想象一个场景:在路演现场,满座的投资人、重要的客户和你未来的用户,你的小心肝怦怦的跳。小心翼翼打开你的方案,能不能做第二个马云就看这一票了!然后说着说着屏幕里弹出这么个饼图……死气沉沉的配色,生硬死板的数据。说实在的这一点都不吸引我!此时台下的各位一脸懵逼地看着这个,好像放了三个月,... Read More >
201612-07 大家都在用哪些在线的项目管理工具 我自己一直用敏捷方法带团队,我之前也是Mingle敏捷项目管理工具的开发之一。我现在想找一个SAAS的在线项目管理工具。我试用了tower、teambitiom、worktile,不是很满意:一、Tower体验确实很精致,wiki很漂亮,但是个人不喜欢的地方:1、用TODOLIST来管理需求列表,实在是不敢苟2、体验确实流畅,但是项目的首页:讨论、任务、文档。内容不直观。3、实在不理解在国外,为什么BaseCamp会这么火?二、Teambition看板很强大,支持... Read More >
201612-07 回顾2016年大数据发展,盘点十大热门数据岗位 译者 | 灯塔大数据随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大。 数据学作为一门学科,已经受到时代的追捧。数据学,或者更准确来说,大数据,在2000年早期还是个冷门,而现在早已成为人们关注的焦点。早在2014年,高德纳咨询公司就预测,到2016年将有73%的公司企业将在大数据项目中投入重金。 2016年的尾声即将到来,我们是时候回顾一下大数据的发展,盘点十大最热门的数据岗位。TOP1 首席数据官(CDO)三军不可无帅也,所有想在大数据项目... Read More >