欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > 学习资料 > 入门指导 > 入门Spark SQL,你需要知道这些

入门Spark SQL,你需要知道这些

时间:2018-08-30 18:14:07作者:[!--zuozhe--]

 

对大数据有所了解的人都知道Spark具有的优势,Spark也越来越被各个企业、大数据工程师所推崇。然而,Spark团队并没有因此而满足,因为Spark采用了Hive的语法解析器、查询优化器等,制约了One Stack Rule Them All的既定方针和各组件的相互集成。因此,Spark SQL变诞生了。Spark SQL摒弃了Spark的代码,但保留了Spark诸如内存列存储、Hive兼容性等优势。值得一提的是,Spark SQL成功摆脱了对Hive的依赖。
魔据教育-Spark SQL 
一、Spark SQL的特点分析:
·支持多种语言:Java、R、Scala、Python等。
·性能更加优化:如内存列存储、动态字节码生成等。
·数据兼容性强:能够从外部数据库、Hive表等多种途径中获取数据。
·组件得到拓展:SQL语法解析器、优化器、分析器都可以进行重新定义。
 
二、Spark SQL的组成原理
·Spark SQL内核
处理数据的输入输出可以从不同数据源获取数据。如:已有RDD、Hive表以及外部数据库,执行查询,之后将查询结果输出成DataFrame。
·支持对Hive数据的处理。
·Catalyst优化
可以优化处理查询语句的整个过程(解析、榜等、优化等),由关系代数、表达式、查询优化组成
 
三、Spark SQL的执行流程原理
 
魔据教育-Spark SQL 
 
四、Spark SQL的性能原理
 
·内存列式缓存:内存列式缓存再次执行时不需要重复读取,只需要扫描需要的列,然后自动调整压缩比,将内存使用率和GC压力得到了最小化。
·采用了动态代码和字节码生成技术,有效地提升重复表达式求值查询的速率。
·Tungsten优化:摒弃了JVM,采用Spark自己管理内存,避免了JVM GC带来的性能损失。
Java对象被存储成了Spark自己的二进制格式,这样便可以直接在二进制格式上进行计算,省去序列化和反序列化时间,使得格式更紧凑,节省更多的内存空间。
 
Spark SQL的优势还有很多,需要学员们在学习中自己慢慢去体会,报名魔据教育大数据培训班,学习更多大数据专业课程,解决你在Spark SQL中的所有疑问。

更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

在线咨询:张老师QQ 320169340

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234