欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > 学习资料 > 讲师博文 > 大数据之Hive简介

大数据之Hive简介

时间:2017-10-23 09:29:08作者:魔据大数据学院

Hive之前骚话:

还记得mapreduce的单词计数吗。
例如,文档
大数据之Hive简介 
我现在想单词计数结果应该是:
大数据之Hive简介 
那么如果公司人都没有学过hadoop那么学习mapreduce是不是需要学习成本,而且成本还很高,还需要很多时间,那么有人想了,如果能够有一个软件它能够把文档的mapreduce的复杂算法变成sql语句多好呢,于是,hive就诞生了
 
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
 
Hive就是一个数据仓库,那么数据仓库和数据库有什么区别的,你可以这么理解,数据仓库里面装了好多的数据库,所以数据仓库的数据量是非常巨大的,这里可以给大家画图理解
大数据之Hive简介 
 
好了,这里继续说单词计数,我拿mysql来举例比较方便,
现在在mysql中有一个aaa表,表里面只有一个字段叫做id是varchar类型
大数据之Hive简介 
 
里面的值是这样的:
 
大数据之Hive简介 
 
这些数据就像是源文件,那么好了,看一下sql的强大:
 
select id,count(id) from aaa group by id
 
将这句话执行后你会发现,和我们mapreduce的单词计数效果一致
 
大数据之Hive简介 
而且sql的强大还可以排序,几乎无所不能:
例如正序,倒序
大数据之Hive简介 
 
大数据之Hive简介 
 
好了, 到这是不是感受到了sql的强大,但是mysql不能作为数据仓库,因为mysql对数据的操作有限,不能操作太过巨大的数据,尤其是海量数据
 
那么hive就诞生了,那么hive中秉承了简单易操作的宗旨,并且操作的语言和mysql非常相似,那么在一些不是特别复杂的算法的时候,完全可以交给hive来进行运算,无论从造价成本,还是员工的学习成本都是非常轻松地,所以hive就火起来了
 
那么了解了hive的诞生和意义后,我们来学习hive的原理,它是怎么干活的:
 
Hive的基本组成:
 
1.用户接口:包括 CLI、JDBC/ODBC、WebGUI。
其中,CLI为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。
 
2.元数据存储:通常是存储在关系数据库如 mysql , derby中。
Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
 
3.解释器、编译器、优化器、执行器。
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
 
HiveHadoop关系 
Hive利用HDFS存储数据,利用MapReduce查询数据
大数据之Hive简介 
 
 
大数据之Hive简介 

更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

在线咨询:张老师QQ 320169340

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234