招聘频道
当前位置:首页 > 名企招聘 > 面试题 > 关于hbase

关于hbase

时间:2018-08-17 13:21:08作者:

hbase里边有10亿条记录,请问用实时技术检索该记录用了多长时间?
 因为HBASE基于内存做检索,在ROWKEY设计非常理想状态下检测速度大概在10秒钟左右

实时分析架构用到了哪些技术 这些技术在大数据分析流程里边的作用是什么?
 spark sterimg 实时速度应该在秒级左右,hadoop加storm实时速度应该在毫秒级
快速处理数据,快速响应,应用在电商金融领域
spark是否能解决高并发问题?spark常用到的算子有哪些?可以—怎么解决?不知道
1. value型算子
    从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激
    1)一对一,
        map,简单的一对一映射,集合不变;
        flatMap,一对一映射,并将最后映射结果整合;
        mappartitions,对分区内元素进行迭代操作,例如过滤等,然后分区不变
        glom,将分区内容转换成数据
    2)多对一,
        union,相同数据类型RDD进行合并,并不去重
        cartesian,对RDD内的所有元素进行笛卡尔积操作
    3)多对多,
        groupBy,将元素通过函数生成相应的Key,然后转化为Key-value格式
    4)输出分区为出入分区子集,
        filter,对RDD进行过滤操作,结果分区不调整
        distinct,对RDD进行去重操作,
        subtract,RDD间进行减操作,去除相同数据元素
        sample/takeSample 对RDD进行采样操作
    5)cache,
        cache,将RDD数据原样存入内存
        persist,对RDD数据进行缓存操作
2. Key-Value算子
    Key-Value算子大致可分为一对一,聚集,连接三类操作
    1)一对一,
        mapValues,针对数值对中的Value进行上面提到的map操作
    2)聚集操作
        combineByKey、reduceByKey、partitionBy、cogroup
    3)连接
        join、leftOutJoin、rightOutJoin
3. Actions算子
    该算子通过SparkContext执行提交作业操作,出发RDD DAG的执行
    1)foreach, 对RDD中每个元素进行操作,但是不返回RDD或者Array,只返回Unit
    2)存入HDFS,saveAsTextFile,saveAsObjectFile
    3)scala数据格式,collect,collectAsMap,reduceByKeyLocally, lookup, count, top, reduce, fold, aggregate
spark实时架构用到了多少节点?每个节点多少核cpu?多少内存?
 8节点  32G内存   ROM 2T 处理速度在10秒钟左右 (下面的数据处理情况)
hive调用spark


 


学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234