欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > 学习资料 > 讲师博文
发布日期:2018-04-19

首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。

发布日期:2017-11-28

Hbase理论

发布日期:2017-11-28

Yarn的运行原理

发布日期:2017-11-28

Hive的三种复杂数据类

发布日期:2017-10-23

Kyligence Analytics Platform(KAP)大数据智能分析平台是基于Apache Kylin的,在超大数据集上提供亚秒级分析能力的企业级数据仓库产品,为业务用户、分析师及工程师提供简便、快捷的大数据分析服务。

发布日期:2017-10-23

今天小哥想和广大IT发烧友交流一下大数据的数据流转,现在大数据正如火如荼的发展,其实对于现今来说大数据处理技术早已不再是秘密,甚至很多关键的技术都已经做到源码公开,今天就和大家分享一个大数据中非常重要的组件

发布日期:2017-10-23

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

发布日期:2017-10-23

在开启hive的时候有很多错误信息,其中有一个关键信息, Name nodeis in safe mode

发布日期:2017-10-23

hadoop的最基本的5个进程中datanode无法正常启动,进程在开启一段时间后莫名其妙挂掉,这篇文章主要分析挂掉的原因以及解决方案

发布日期:2017-08-17

逻辑回归,区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。啥是0-1型数据?就是这个数据有,且仅有两个可能的取值。数学上为了方便,把其中一个记作是0,另外一个记作是1,所以逻辑回归通常也被称为0-1回归。逻辑回归的因变量是离散变量,自变量可以是混合变量。

 27    1 2 3 下一页 尾页

全国咨询热线:400-690-5006,值班手机:18501996998(7*24小时)

在线咨询:李老师QQ(226594285),陈老师QQ(428683440)

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2017 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234