招聘频道
当前位置:首页 > 名企招聘 > 面试题 > 关于项目数据,你需要知道的

关于项目数据,你需要知道的

时间:2018-08-17 13:16:01作者:

项目数据的来源
  1.越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。
      2.计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识。
      3.使用者自身产生的数据/信息。人们通过电邮、短信、微博等产生的文本信息。
      4.至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。
      大型以Internet 为核心的公司,如Amazon, Google, eBay, Twitter 和Facebook 正使用后三类海量信息认识消费行为,预测特定需求和整体趋势。第一类数据可能产生较少的业务,但可以推动某些经营模式实质变革。例如,汽车传感数据用于评价司机行为会推动汽车保险业的深刻变革。
针对项目数据怎么处理的
首先对数据的来源进行分类并标记,经过MR清洗脏数据,对有残缺项的数据如果可以补全,则进行补全,如果无法补全则弃用,之后进行数据的算法分析整合并输出结果
处理的信息放到哪里 怎么返回数据库的
处理的信息放在了HDFS集群上,通过sqoop数据迁移工具进行hdfs集群到数据库的迁移工作
项目中编写的MR对数据做了怎样具体的处理
对数据来源进行标记,通过不同的文本增加数据来源的标记处理,对数据进行数据清洗,过滤掉缺项的数据,并进行指定算法的MR处理
提交MR时考虑yarn内存的问题
一,错误:
Diagnostic Messages for this Task:
Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical memory limits. Current usage: 1.4 GB of 1 GB physical memory used; 2.7 GB of 4.2 GB virtual memory used. Killing container.
默认不设置的情况下,ResourceManager会给每个map、reduce任务分配1G大小的物理内存
解决:
mapred-site.xml:
  mapreduce.map.memory.mb: 4096
  mapreduce.reduce.memory.mb: 8192
Map容器和Reduce容器的内存大小。上面的数字是根据你机器的内存大小来设置的。reduce一般要比map大
  mapreduce.map.java.opts: -Xmx3072m
  mapreduce.reduce.java.opts: -Xmx6144m
Map和Reduce任务所允许的最大内存。分别比上面两个数字要小。因为还得分配给yarn内存

二, 错误:
running beyond virtual memory limits. Current usage: 32.1mb of 1.0gb physical memory used; 6.2gb of 2.1gb virtual memory used. Killing container。
原因:
该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的 值,当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误。
解决:
调节比例值可以解决该问题。具体参数为:yarn-site.xml 中的yarn.nodemanager.vmem-pmem-ratio


 


学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234