欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > IT培训问题库 > 学习大数据挖掘需要哪些资料呢?

学习大数据挖掘需要哪些资料呢?

时间:2017-09-14 18:43:17作者:[!--zuozhe--]

学习大数据挖掘需要哪些资料呢?今天魔据小编把数据挖掘入门资料整理了一下,希望能够对新人有帮助。

一、python

推荐粗读《Head First Python》一书,该书浅显易懂,有C语言基础的人只需一天就能读完,并能够使用python进行简单编程。“Head First”系列的数都很适合初学者,学任何一种编程语言,一定要动手练习。python的集成开发环境有很。

二、统计学

学了统计学,你至少应该知道基本的抽样方法、偏差与方差的区别、怎样进行数据预处理、怎样整理和显示数据、数据分布的描述统计量有哪些、假设检验是用来做什么的、置信区间的概念、R-squared的含义等等。你需要了解各种图的作用和适用场景,常用图包括条形图、饼图、直方图、折线图、箱线图、散点图、雷达图等。你需要了解各种统计量的含义,常见统计量包括均值、方差、中位数、四分位数、加权平均数、偏态、峰态等。你需要了解一些重要的分布,比如正态分布、chi-square分布、t分布、F分布等。

 

学习大数据挖掘需要哪些资料呢?

 

三、机器学习和数据挖掘

机器学习资料首推吴恩达的《斯坦福大学公开课:机器学习课程》视频。这20集视频确实是好视频,但对初学者来说难度偏大。数据挖掘方面,推荐Jiawei Han的《数据挖掘概念与技术》。该书比较容易读懂,内容广泛且实用性强,特别适合初学者。

四、其他资料和建议

除了系统化的学习专业知识,我们也可以每天吸收一些碎片化的知识。例如,Quora上有不少关于机器学习和数据挖掘的问答,其答案质量普遍高于知乎,有兴趣的同学可以常去Quora的机器学习相关版块逛逛。从Quora和《机器学习日报》中获取的一些知识点:

随机森林模型不适合用稀疏特征。

测试集必须使用与训练集相同的方法进行预处理。

L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;

L2正则(旋转不变)最小样本数目m与特征n呈线性关系,m = O(n) 。

标准的PCA是一种线性转换技术。

在nested k-foldcross validation中,“外层循环”的目的是模型评估,“内层循环”的目的是模型选择。

想干数据挖掘这一行,光有理论知识是不够的,我们还需要积累实战经验。来魔据大数据,可以跟着老师做项目,可以参加各种大数据竞赛,也可以去公司实习。


更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

在线咨询:张老师QQ 320169340

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234