MapReduce: 分布式的计算框架 -> Hive 问题 shuffle大文件的排序读写磁盘网络传输 > 比较慢 只有两种执行算子/API: MapTask(数据转换过滤)和ReduceTask(数据聚合) > 定制化稍微有点差 不适合迭代式的计算 对于需要快速执行的产生结果的应用场景不适合 Spark为了解决MapReduce执行慢、不适合迭代执行的问题 Flink类似于spark的基于内存的计算框架
Hadoop的存活因为使用的机器比较便宜更适合批量计算。
2.学习方式
spark案例examples文件夹中 spark源码一定要回看spark源码至少常用的必须知道比如RDD、SparkContext、DStream.... 官网http://spark.apache.org/ 1.6.0帮助文档http://spark.apache.org/docs/1.6.0/ 官方博客https://databricks.com/blog
3.官网
http://spark.apache.org/
4.spark特点在官网的首页
快 简单/入手快 公用性/普遍性 可以运行在任何地方local、yarn、standalone(类似于yarn的一个资源管理框架是spark的一个模块)、mesos(apache顶级项目类似yarn的一个资源管理框架)
5.spark结构生态圈
BDAS: 伯克利数据分析栈 起源加州大学伯克利分校的AMP实验室开源的一个计算框架 结构 SparkCore: 核心部分 SparkSQL: Spark中交互式处理模块 SparkStreaming: Spark中流式数据处理的模块 SparkMLibSpark机器学习相关模块 > Mahout SparkGraphX: Spark中图形计算的模块
5.Hadoop与Spark的比较
【文章原创作者:高防cdn http://www.558idc.com/gfcdn.html提供,感恩】