欢迎来到魔据教育大数据学院,专注大数据工程师培养!
当前位置:首页 > 学习资料 > 讲师博文 > 逻辑回归

逻辑回归

时间:2017-08-17 18:23:22作者:刘慧慧

 

1.前言
逻辑回归,区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。啥是0-1型数据?就是这个数据有,且仅有两个可能的取值。数学上为了方便,把其中一个记作是0,另外一个记作是1,所以逻辑回归通常也被称为0-1回归。逻辑回归的因变量是离散变量,自变量可以是混合变量。
比如预测人的性别,因变量可以定义因变量为0=男性,1=女性,自变量可以包含身高、体重、兴趣爱好等。当然,0=女性,1=男性也没关系,开心就好。
再比如双十一来了,很多人都喜欢买买买,可是很多东西买完才发现并没什么用。所以买还是不买,这是一个问题,更准确的说,这可以是一个逻辑回归问题。我们可以定义因变量0=不买,1=买,自变量可以包含折扣、优惠信息、降价幅度、用途大小等等,这样买买买是不是就理性很多了?
2.逻辑回归
既然逻辑回归的自变量和线性回归的自变量没什么区别,说明线性回归模型还是有可取之处的,唯一需要考虑的就是把线性回归模型的因变量Y转换为可以描述0-1变量的数据。
可是将连续变量转为离散变量有点难,可是退一步想,虽然我们不能直接转换0-1离散变量,但是我们可以描述因变量Y为1的概率,对不对?这个变量就连续了嘛,转换起来也容易很多,而且线性回归的那些东西还可以拿过来用。这个方案简直完美。
“可能性”同“0-1数据”有啥区别?如前所述,“0-1数据”是没有中间状态的!1就是购买,0就是不购买,0.5等于啥啊?没这么一说法!但是,“可能性”就不一样了。有人购买的可能性就高,有人就低,高和低之间就有“不高不低”。“不高不低”和“高”之间有“比较高”,“不高不低”和“低”之间有“比较低”。
这说明什么?这说明“可能性”这个概念应该是连续的。而且如果是连续的,它就有可能被普通线性模型来回归。这,就是“0-1回归”的核心思想。要把一个“0-1型”的因变量数据变成一个连续型的“可能性”的问题,依赖于人们对“可能性”度量手段的不同,可能有不同的“0-1回归”的模型,而逻辑回归就是其中最常见的一种。所以现在我们要做的就是把负无穷到正无穷上的连续变量Y,转换为在0到1上连续的因变量Y。
3.Sigmoid函数
前文我们将逻辑回归函数总结为
15-1.png 
看起来公式很简洁,但是有个问题,等式左边是Y=1的概率,这是一个介于0~1的数据,而等式右边取值可以为负无穷到正无穷,显然等式不能直接画等号,这时我们就要把等式左边进行变换,使之在负无穷到正无穷上连续:
15-2.png 
结果很接近了,现在我们等式左边在0到正无穷上连续了,再进一步转换一下,使得等式左侧在负无穷到正无穷上连续就可以了,很简单,再加个log就OK了,现在公式如下:
15-3.png 
从数学上讲,似乎木有任何重大缺陷。这是啥子模型?这就是数据江湖中大名鼎鼎的:逻辑回归啊!为啥叫逻辑回归?因为log(P/(1-P))是一个关于概率p的奇葩的变换,这个变换被人们称作logit-变换。因此,这个模型被称作:logistic regression,也就是大名鼎鼎的“逻辑回归”。
所以您看,虽然公式看起来很复杂,但是数学变换就是这么简单粗暴直接而且不难理解。

更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
学习大数据敬请关注魔据教育微信二维码。
魔据教育微信二维码

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至kefu@mojuedu.com,我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

在线咨询:张老师QQ 320169340

企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

免费在线咨询立即咨询

免费索取技术资料立即索取

大数据技术交流QQ:226594285

电话咨询010-82340234