招聘频道
当前位置:首页 > 名企招聘 > 面试题 > 大数据面试题

大数据面试题

时间:2018-08-17 13:19:44作者:

sort by 和 group by 的区别:当时她问完我Hadoop就问我,我就有点蒙,总觉得是在说Hadoop里面有这两个东西,但是我又想不起来哪里有,就说了不知道,他就说不应该啊~后来才反应过来是数据库的知识。。。额!!
order by 排序查询、asc升序、desc降序
order by 年龄,成绩 desc  按年龄升序排列后、再按成绩降序排列,缺省升序
group by  分组查询
having 只能用于group by子句、作用于组内,having条件子句可以直接跟函数表达式。使用group by 子句的查询语句需要使用聚合函数
select 学号,AVG(成绩) from 选课表 
          group by 学号
          having AVG(成绩)>(select AVG(成绩) from 选课表 where 课程号='001')
          order by AVG(成绩) desc
          查询平均成绩大于001课程平均成绩的学号、并按平均成绩的降序排列

问了列举几个RDD的action算子
   该算子通过SparkContext执行提交作业操作,出发RDD DAG的执行
    1)foreach, 对RDD中每个元素进行操作,但是不返回RDD或者Array,只返回Unit
    2)存入HDFS,saveAsTextFile,saveAsObjectFile
    3)scala数据格式,collect,collectAsMap,reduceByKeyLocally, lookup, count, top, reduce, fold, aggregate


java的机制,原理,用mapreduce写wordcount的原理 ,解释map  解释reduce key value

 JAVA机制:首先采用通用的java编译器将java源程序编译成为与平台无关的字节码文件(class文件)然后由java虚拟机(JVM)对字节码文件解释执行。

mr-wordcount:同一key会被收集到同一reduce中
map:双列集合  包含key和value
key 键  唯一
value 值,为键对应的值


Hive中都有哪些函数,hive中关于时间间隔的函数,时间格式化的函数,查询hive中的某条语句,存放到指定hdfs目录下
取整函数: round
向下取整函数: floor
取随机数函数: rand
自然指数函数: exp
幂运算函数: pow
获取当前UNIX时间戳函数:unix_timestamp
日期时间转日期函数:to_date
日期增加函数: date_add
 


学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234