欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > 新闻动态 > 行业资讯 > Hadoop那些事儿(一)

Hadoop那些事儿(一)

时间:2018-10-12 09:30:52作者:魔据大数据学院

      Hadoop是什么?

  用百科上的话说:“Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。”

  可能有些抽象,这个问题可以在一步步学习Hadoop的各种知识以后再回过头来重新看待。


  Hadoop大家族

  Hadoop不是一个单一的项目,经过10年的发展,Hadoop已经成为了一个拥有近20个产品的庞大家族。

  其中最核心的包括以下9个产品,并且我们将按照下面的顺序一步步学习。

  Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构

  Hive:基于Hadoop的一个数据仓库工具

  Pig:基于Hadoop的大规模数据分析工具

  Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务

  HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群

  Mahout:基于Hadoop的机器学习和数据挖掘的一个分布式框架

  Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

  Cassandra : 是一套开源分布式NoSQL数据库系统

  Flume:是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。

  好,接下来开始正式学习Hadoop。


  环境搭建

  Hadoop安装有如下三种方式:

  单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途;

  伪分布模式:在单节点上同时启动NameNode、DataNode、JobTracker、TaskTracker、 Secondary Namenode等5个进程,模拟分布式运行的各个节点;

  完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成


  为什么用Hadoop?

  任何事物的产生都有其必然性。

  从2012年开始,大数据这个词被越来越多的提及,现在我们已经进入了大数据时代。在这个信息爆炸的时代,每天产生的数据量十分庞大。而大数据也不仅仅只是说数据多,大数据有四个特点:

  数据量大,类型繁多,价值密度低,速度快时效高。

  根据这几个特点,我们需要一个东西,具备以下功能:

  1.可以存储大量数据

  2.可以快速处理大量数据

  3.可以从大量数据中进行分析

  于是就产生了Hadoop这个模型


更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

在线咨询:张老师QQ 320169340

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234