当前位置 : 主页 > 网络编程 > 其它编程 >

我的Hadoop学习(1)

来源:互联网 收集:自由互联 发布时间:2023-07-02
大数据(BigData):大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力
大数据(BigData):大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率

大数据(BigData):大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

Hadoop是根据谷歌的论文开发出来的分布式系统基础架构。(图片取自课工场视频的截图)

BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。(数据库)

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。(存储系统)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"(计算)

大数据带来的革命性变革1)成本降低,能用PC机,就不会大型机或者高端存储设备。2)软件容错、硬件故障视为常态,通过软件来保证高可靠。3)简化分布式并行计算,无需控制节点同步和数据的交换。

Hadoop是什么:

Hadoop框架的三大部分:

Hadoop的生态圈:

Hive:提供了sql查询功能

R语言:一种统计性语言

Mahout:机器学习库(已停止更新) 现在大家都使用Spark。

pig:用于写脚本统计数据。

Oozie:工作流(通常在多个场景中相互配合使用)

zookeeper:分布式的协调性服务。

Flume:用于日志文件的收集。

Sqoop:描述数据的交换,关系型数据库和大数据系统进行交换。

Hbase:建立在HFDS上的面向列的数据库,用于快速读写大量数据,由zookeeper进行管理。

Hadoop的版本选择:

对于Apache的顶级项目,网站有一定的规则hadoop: hadoop.apache.orghive: hive.apache.orgspark: spark.apache.orghbasezookeeper

CDH下载地址:http://archive.cloudera.com/cdh5/cdh/5/ cdh5.7.0

CM: 通过web就能够快速的搭建集群

================================================================================================================================

写在后面的话:

  这篇博客是我第一篇关于学习技术的博客,记录的是我看课工场视频学习的记录,截图取自视频,一些定义取自百度,可能写的不好,并且也没什么自己的理解。我个人写博客的原因是朋友的建议,因为

在培训班培训了6个多月只会写SSM框架,现在找工作很难,面试官的要求以我现在的水平根本达不到,现在都要求会spingboot和springcloud,会处理抢购网站的高并发请求,

我觉得我的培训经历很失败,朋友建议我自己照着API文档撸一遍代码,并且写技术博客来记录自己的学习,我自己希望能通过自己的学习达到用人单位的要求,找到一份合适的工作,

在博客里面如果有大佬觉得写的有问题的话请指出来,我来修改;如果有像我一样想要转行的小白,希望我们能共勉,一起努力学习,早日找到满意的工作。最后希望看到这篇博客的读者如果

发现有错误的地方能指出来,我在此表示感谢。(培训班不要报某鸟,我觉得我进天坑了~。~)

网友评论