当前位置 : 主页 > 网络编程 > 其它编程 >

001Spark的简介以及入门

来源:互联网 收集:自由互联 发布时间:2023-07-02
1.hadoopsparkFlink的比较MapReduce:分布式的计算框架-Hive问题shufflesparkFlink的比较 MapReduce: 分布式的计算框架 -> Hive 问题 shuffle大文件的排序读写磁盘网络传输 > 比较慢 只有两种执行算子/API:
1.hadoopsparkFlink的比较MapReduce:分布式的计算框架-Hive问题shufflesparkFlink的比较  

  MapReduce: 分布式的计算框架 -> Hive    问题     shuffle大文件的排序读写磁盘网络传输 > 比较慢     只有两种执行算子/API: MapTask(数据转换过滤)和ReduceTask(数据聚合) > 定制化稍微有点差     不适合迭代式的计算     对于需要快速执行的产生结果的应用场景不适合  Spark为了解决MapReduce执行慢、不适合迭代执行的问题  Flink类似于spark的基于内存的计算框架

    Hadoop的存活因为使用的机器比较便宜更适合批量计算。

 

2.学习方式

  spark案例examples文件夹中   spark源码一定要回看spark源码至少常用的必须知道比如RDD、SparkContext、DStream....   官网http://spark.apache.org/   1.6.0帮助文档http://spark.apache.org/docs/1.6.0/   官方博客https://databricks.com/blog

  

 

 

3.官网

  http://spark.apache.org/

  

 

4.spark特点在官网的首页

  快   简单/入手快   公用性/普遍性   可以运行在任何地方local、yarn、standalone(类似于yarn的一个资源管理框架是spark的一个模块)、mesos(apache顶级项目类似yarn的一个资源管理框架)

 

5.spark结构生态圈

    

  BDAS: 伯克利数据分析栈   起源加州大学伯克利分校的AMP实验室开源的一个计算框架   结构     SparkCore: 核心部分     SparkSQL: Spark中交互式处理模块     SparkStreaming: Spark中流式数据处理的模块     SparkMLibSpark机器学习相关模块 > Mahout     SparkGraphX: Spark中图形计算的模块

 

5.Hadoop与Spark的比较

  

 

【文章原创作者:高防cdn http://www.558idc.com/gfcdn.html提供,感恩】
上一篇:主线|都会_Git认识与使用Git
下一篇:没有了
网友评论