欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > IT培训问题库 > 想学大数据,明白大数据生态圈是什么吗?

想学大数据,明白大数据生态圈是什么吗?

时间:2017-09-13 18:30:01作者:魔据大数据学院

想学大数据的朋友们,可能经常听到大数据生态圈,但可能还不明白大数据生态圈大数据具体是什么。魔据小编今天就来讲一讲,这个概念本身就太大而且太宽,Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的。一般而言,这种数据依赖单机很难完成。

 

想学大数据,明白大数据生态圈是什么吗?

 

1.大数据,首先你要能存的下大数据。

对传统的单机文件系统来说,横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem),你可以通过横跨上千甚至上万台机器来完成大量数据得存储,同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者,你完全不用去计较文件具体存储的位置,这个文件系统会为你搞定一切。

我们当然不是为了搜集数据而进行存储,我们还要用数据做一些事情。虽然我们通过HDFS存下了横跨上千台机器的数据,我们依然面临一个问题——这些数据过于庞大,如果只交给一台机器处理,我们可能得等上几周甚至更长。这些可能以T甚至于P来计量单位的数据,只靠一台机器真的能跑到地老天荒。

2.所以使用大量机器进行处理是必然的选择。

在大量机器处理过程中,必须处理一些事务:任务分配、紧急情况处理、信息互通等等,这时候必须引入MapReduce / Tez / Spark。这其中,前者可以成为计算引擎的第一代产品,后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计,可以说只用了两个计算的处理过程,但是这个工具已经足够应付大部分的大数据工作了。

3.什么是Map?什么是Reduce?

考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这样的Pair;这几百台机器各自都产生了如上的集合,然后又有几百台机器启动Reduce处理。

4.有了MapReduce,Tez和Spark之后,程序员发现,MapReduce的程序写起来真麻烦。他们希望简化这个过程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,而你就从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了。

有了Hive之后,人们发现SQL对比Java有巨大的优势。一个是它太容易写了。刚才词频的东西,用SQL描述就只有一两行,MapReduce写起来大约要几十上百行。而更重要的是,非计算机背景的用户终于感受到了爱:我也会写SQL!于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来,工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述,因为易写易改,一看就懂,容易维护。

上面的介绍,基本就是一个数据仓库的构架了。底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。

5.如何更高速的处理?

考虑一下,如果我需要更高的处理速度,我要展示的数据不再是24小时甚至更长尺度的数据报告,而是一个随时更新、随时变化的榜单,这个榜单的更新最好在1分钟甚至更短,那么上述手段就无发满足我的需要。

这时候,另一个工具即将登场——Streaming计算模型。这种模型通常被称为流计算模型,使用最多的平台式Storm。这种模型会在数据开始搜集的时候进行计算,而不是在搜集完成后——你每获得一个数据都会加入到实时计算中成为最终成果的一份子。这种方式处理的数据基本不会存在延迟问题。

现在是不是对大数据生态圈清晰很多了,这里面有很多细枝末节的知识,想要系统全面的掌握大数据知识,就来魔据大数据系统地学习吧。


更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234