招聘频道
当前位置:首页 > 名企招聘 > 面试题 > 爬取好的数据为什么不适用python一次性的处理完成

爬取好的数据为什么不适用python一次性的处理完成

时间:2018-08-17 13:10:06作者:

爬取好的数据为什么不适用python一次性的处理完成,进行展示

爬取的数据有两点,一数据量大,这就导致了使用python处理数据的难度非常大,异常缓慢,二数据内容杂,很多缺项的数据混进来,对我们的分析处理产生干扰,而python是难以筛选这些数据的,所以往往我们要通过集群进行大量数据的清洗,然后通过算法分析产生的结果进行展示

        

 

你们公司有多少个节点

10

如果节点宕机,怎么做

下面的是一个集群宕机的案例

 

1027日下午,机房中心交换机坏掉,导致HDFS集群和MRYARN)集群宕掉。
当时的日志现在已查不到,只能推断整个集群宕掉的原因。


HDFS
YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNodeResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。
同时,我们的HDFS集群和YARN集群都配置了HA,所以master角色可以认为还包括standby NNstandby RMs
HDFS HA集群中,JournalNodes也是很重要的角色,因为JN group一旦挂掉或仅仅无法与NNs通信,NNs都不能正常工作。HDFS HAYARN HA也都依赖Zookeeper集群。


10
27日下午,交换机坏掉后,active NN与其他所有机器都不能通信,包括JNs,这导致active NN shutdown。因为之前standby NNstop的状态,所以无法进行HA切换。实际上,即使能切换,standby NN所在的机器与其他集群不能通信。所以,这导致HDFS集群整个挂掉。
一个相关的issuehttps://issues.apache.org/jira/browse/HDFS-8298


因为YARN集群配置了HA(实际之前ops没有配置完整,仅仅是相当于打开了RM HA的开关,其他必要的与RM Restart相关的配置都没有),当天下午交换机坏掉后,active RMZK失联,自动切换到standby RM,但由于配置不完善(这个很致命),同时standby RMZK也是失联的,导致没有RM可以正常工作,YARN集群整个挂掉。
这是当时ops收到的一条报警:Info:Critical! Yarn ResourceManager host 192.168.146.64 status have problem, status is ACTIVE! Time: Tue+Oct+27+19:06:41+CST+201


当天下午交换机临时回复后,我们对Hadoop集群依次进行了以下操作:
1
、启动active NN
2
、启动DataNodes
3
、启动active RM
4
、启动standby NN


第一步active NN正常启动,但由于standby NN已经停了两个多月,active NN在启动时,对fsimageedits进行checkpoint耗时过多,导致active NN启动时间过长。
第二步没有问题。
第三步基本没有问题,但由于没有配置RM Restart,导致所有未完成的jobs需要重新提交和执行。
第四步也是正常启动,但也由于standby NN已经停了两个多月,JNs上需要checkpointedits过多,导致启动时间超长,而且checkpoint占用大量时间。

什么是lambda函数?它有什么好处?

lambda 函数是一个可以接收任意多个参数(包括可选参数)并且返回单个表达式值的函数。 (注意:lambda 函数不能包含命令,它们所包含的表达式不能超过一个)

好处

1lambda函数比较轻便,即用即仍,很适合需要完成一项功能,但是此功能只在此一处使用,连名字都很随意的情况下;

2匿名函数,一般用来给filtermap这样的函数式编程服务;

3、作为回调函数,传递给某些应用,比如消息处理

 

 

 


学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234