逻辑回归
在统计中,逻辑模型(或logit模型)用于对特定类别或事件(例如通过/失败,胜利/失败,生死/健康或生病)的概率进行建模。这可以扩展为对几类事件建模,例如确定图像是否包含猫,狗,狮子等。图像中被检测到的每个对象都将被分配一个介于0和1之间的概率,并且其总和加一。
Logistic回归是一种统计模型,其基本形式是使用Logistic函数对二进制 因变量进行建模,尽管存在许多更复杂的扩展。在回归分析中,逻辑回归[1](或logit回归)正在估计逻辑模型的参数(二进制回归的一种形式)。在数学上,二进制逻辑模型具有一个因变量,具有两个可能的值,例如通过/失败,这由指示符变量表示,其中两个值分别标记为“ 0”和“ 1”。在逻辑模型中,数优势比(在对数的的可能性),用于标记为“1”的值是一个线性组合的一个或多个自变量(“预测”); 自变量可以分别是二进制变量(两个类,由指示符变量编码)或连续变量(任何实数值)。标记为“ 1”的值的相应概率可以在0(确定为“ 0”的值)和1(确定为“ 1”的值)之间变化,因此进行标记。将对数奇数转换为概率的函数是逻辑函数,因此得名。所述测量单元为对数刻度赔率被称为分对数,信息研究所取消它,因此替代名称。也可以使用具有不同的S形函数而不是逻辑函数的类似模型,例如概率模型;逻辑模型的定义特征是增加一个独立变量以恒定的速率乘以给定结果的几率,每个独立变量都有自己的参数;对于二进制因变量,这可以概括比值比。
在二元逻辑回归模型中,因变量具有两个级别(类别)。具有两个以上值的输出通过多项式逻辑回归建模,如果对多个类别进行了排序,则通过序数逻辑回归建模(例如,比例赔率序数逻辑模型[2])。逻辑回归模型本身仅根据输入来模拟输出的概率,而不执行统计分类(它不是分类器),尽管它可以用作分类器,例如,通过选择一个临界值,然后将概率大于临界值的输入分类为一个类别,而将另一个分类为低于临界值的输入分类;这是制作二进制分类器的常用方法。与线性最小二乘不同,这些系数通常不是通过封闭形式的表达式来计算的;参见§模型拟合。作为一般统计模型的逻辑回归最初是由约瑟夫·伯克森(Joseph Berkson)[3]最初开发和推广的,从伯克森(1944)开始,他创造了“ logit”。参见历史。
应用领域
Logistic回归用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重程度评分(TRISS)被广泛用于预测受伤患者的死亡率。使用逻辑回归。[4] 用于评估患者严重程度的许多其他医学量表已经使用逻辑回归开发。[5] [6] [7] [8]基于观察到的患者特征(年龄,性别,体重指数),可使用逻辑回归来预测发生特定疾病(例如糖尿病,冠心病)的风险,各种血液检查的结果等)。[9] [10] 另一个例子可能是根据年龄,收入,性别,种族,居住状况,前次选举的投票等来预测尼泊尔选民是否将投票给尼泊尔国会或尼泊尔共产党或任何其他政党。 。[11]所述的技术也可以在使用的工程,尤其是用于预测给定的过程中,系统或产品的故障的可能性。[12] [13]还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。[14]在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。
例子
物流模型
让我们尝试通过考虑具有给定参数的逻辑模型来理解逻辑回归,然后看看如何从数据中估计系数。考虑一个具有两个预测变量的模型, 和 和一个二进制(Bernoulli)响应变量 ,我们表示 。我们假设预测变量与事件的对数奇数之间存在线性关系,。此线性关系可以用以下数学形式表示(其中ℓ是对数奇数, 是对数的底数,并且 是模型的参数):
我们可以通过对数对数取幂来恢复赔率:
- 。
通过简单的代数运算, 是
- 。
上面的公式表明 是固定的,我们可以轻松地计算出 对于给定的观察结果,或 对于给定的观察。逻辑模型的主要用例将得到观察,并估计概率 那 。在大多数应用中,通常将对数的取为e。但是,在某些情况下,以2为底数或以10为底数可以更容易地传达结果。
我们考虑一个例子 和系数 , 和 。具体来说,模型是
哪里 是该事件的概率 。
可以解释如下:
- 是y- intercept。是事件的对数奇数,当预测变量 。通过求幂,我们可以看到 该事件的几率 是1到1000,或者 。同样,该事件的概率 什么时候 可以计算为 。
- 意味着增加 加1将对数奇数增加 。因此,如果 增加1,则 增加到 。需要注意的是概率的 也增加了,但没有增加几率。
- 意味着增加 加1将对数奇数增加 。因此,如果 增加1,则 增加到 注意效果如何 对数奇数的影响是 ,但赔率的影响要大10倍。但是对概率的影响 不会比原来大10倍,而对赔率的影响才大10倍。
为了估计参数 从数据来看,必须进行逻辑回归。
通过考试的概率与学习时间的比例
要回答以下问题:
一组20名学生花费0到6个小时学习考试。学习所花费的小时数如何影响学生通过考试的可能性?
使用Logistic回归解决此问题的原因是,因变量Pass和Fail的值虽然由“ 1”和“ 0”表示,但不是基数。如果问题已更改,所以通过/失败被0-100级(基数)代替,则可以使用简单的回归分析。
该表显示每个学生学习的小时数,以及他们是否通过(1)或失败(0)。
| 小时 | 0.50 | 0.75 | 1.00 | 1.25 | 1.50 | 1.75 | 1.75 | 2.00 | 2.25 | 2.50 | 2.75 | 3.00 | 3.25 | 3.50 | 4.00 | 4.25 | 4.50 | 4.75 | 5.00 | 5.50 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 通过 | 0 | 0 | 0 | 0 | 0 | 0 | 1个 | 0 | 1个 | 0 | 1个 | 0 | 1个 | 0 | 1个 | 1个 | 1个 | 1个 | 1个 | 1个 |
该图显示了通过考试的概率与学习时数的关系,逻辑回归曲线与数据拟合。
逻辑回归分析给出以下输出。
| 系数 | 标准错误 | z值 | P值(瓦尔德) | |
|---|---|---|---|---|
| 截距 | −4.0777 | 1.7610 | −2.316 | 0.0206 |
| 小时 | 1.5046 | 0.6287 | 2.393 | 0.0167 |
输出表明学习时间与通过考试的可能性显着相关(,Wald测试)。输出还提供以下系数: 和 。将这些系数输入到逻辑回归方程中,以评估通过考试的几率(概率):
据估计,多学习一小时可将通过率的对数奇数提高1.5046,因此将通过率乘以 与形式X截距(2.71)表明,这种估计连赔率(数优势比0,赔率1,概率1/2)的学生谁学习2.71小时。
例如,对于一个学习2小时的学生,输入值 在等式中给出了通过考试的估计概率为0.26:
同样,对于学习4小时的学生,通过考试的估计概率为0.87:
下表显示了几个小时的学习时间通过考试的概率。
学习 时间 |
通过考试 | ||
|---|---|---|---|
| 对数奇数 | 赔率 | 可能性 | |
| 1个 | −2.57 | 0.076≈1:13.1 | 0.07 |
| 2 | −1.07 | 0.34≈1:2.91 | 0.26 |
| 3 | 0.44 | 1.55 | 0.61 |
| 4 | 1.94 | 6.96 | 0.87 |
| 5 | 3.45 | 31.4 | 0.97 |
逻辑回归分析的输出给出p值 ,它基于Wald z得分。代替Wald方法,推荐的用于计算逻辑回归的p值的方法是似然比检验(LRT),对于此数据,[]。
讨论区
逻辑回归可以是二项式,有序或多项式的。二项式或二元逻辑回归处理以下情况:因变量的观察结果只能具有两种可能的类型,即“ 0”和“ 1”(例如,代表“死”对“活”或“赢” ”与“损失”)。多项式逻辑回归处理结果可能具有三种或三种以上不排序的可能类型(例如,“疾病A”与“疾病B”与“疾病C”)的情况。顺序逻辑回归处理有序的因变量。
在二进制逻辑回归中,结果通常被编码为“ 0”或“ 1”,因为这将导致最直接的解释。[15] 如果因变量的特定观察到的结果是值得注意的可能结果(称为“成功”或“案例”),则通常将其编码为“ 1”,而相反的结果(称为“失败”) ”或“非大小写”)设为“ 0”。二进制逻辑回归用于根据自变量(预测变量)的值预测为例的可能性。赔率定义为特定结果是案例的概率除以非案例的概率。
像其他形式的回归分析一样,逻辑回归使用一个或多个预测变量,这些变量可以是连续的也可以是分类的。但是,与普通的线性回归不同,逻辑回归用于预测因变量而采用的隶属关系是有限类别中的一种(将二项式案例中的因变量作为伯努利试验的结果进行处理)),而不是持续的结果。鉴于这种差异,违反了线性回归的假设。特别地,残差不能正态分布。另外,线性回归可能对二元因变量做出荒谬的预测。需要一种将二进制变量转换为可以采用任何实际值(负值或正值)的连续变量的方法。为此,二项式逻辑回归首先计算每个独立变量的不同级别发生的事件的几率,然后取其对数以创建连续准则作为因变量的转换版本。赔率的对数是概率的对数,对数定义如下:
尽管逻辑回归中的因变量是伯努利,但logit的范围不受限制。[15] logit函数是这种广义线性模型中的链接函数,即
Y是伯努利分布的响应变量,而x是预测变量。
然后将成功概率的对数拟合到预测变量。logit的预测值通过自然对数的倒数,即指数函数,转换回预测的几率。因此,尽管在二进制逻辑回归中观察到的因变量是0或1变量,但逻辑回归估计因变量作为成功变量的可能性(作为连续变量)(一种情况)。在某些应用中,只需要赔率即可。在其他情况下,需要对因变量是否是情况进行特定的是或否预测;该分类预测可以基于计算出的成功几率,将高于某些选定的截止值的预测几率转换为成功的预测。
使用样条函数之类的技术可以轻松地放宽线性预测器效应的假设。[16]
逻辑回归与其他方法
Logistic回归通过使用Logistic函数(Logistic分布的累积分布函数)估计概率来测量类别因变量和一个或一个以上独立变量之间的关系。因此,它使用相似的技术来处理与概率回归相同的问题,后者使用累积正态分布曲线代替。同样,在这两种方法的潜在变量解释中,第一种假定误差的标准逻辑分布,第二种假定误差的标准正态分布。[17]
Logistic回归可以看作是广义线性模型的特例,因此类似于线性回归。但是,逻辑回归模型基于与线性回归完全不同的假设(关于因变量和自变量之间的关系)。特别是,这两个模型之间的关键区别可以从逻辑回归的以下两个特征中看出。一,条件分布是伯努利分布而不是高斯分布,因为因变量是二进制。其次,预测值是概率,因此通过逻辑分布函数将其限制为(0,1),因为逻辑回归预测的是特定结果的概率,而不是结果本身。
逻辑回归是费舍尔1936年方法(线性判别分析)的替代方法。[18] 如果线性判别分析的假设成立,则条件可以逆转以产生逻辑回归。相反,事实并非如此,因为逻辑回归不需要判别分析的多元正态假设。[19]
潜在变量解释
逻辑回归可以简单地理解为找到 最合适的参数:
哪里 是由标准logistic分布分配的错误。(如果改为使用标准正态分布,则它是一个概率模型。)
相关的潜在变量是 。错误项 没有被观察到,所以 也是不可观察的,因此称为“潜伏”(观察到的数据是 和 )。但是,与普通回归不同, 参数不能用任何直接的公式表示 和 观测数据中的值。取而代之的是通过迭代搜索过程(通常由软件程序实现)来找到它们,该过程查找复杂的“似然表达式”的最大值,该表达式是所有观察到的函数 和 价值观。估计方法将在下面说明。
逻辑函数,几率,几率和对数
物流功能的定义
对逻辑回归的解释可以从对标准逻辑函数的解释开始。逻辑函数是一个S型函数,它需要任何实际输入,(),并输出介于0和1之间的值;[15]对于logit,这被解释为采用输入对数奇数并具有输出概率。该标准的物流功能 定义如下:
t区间(-6,6)上的逻辑函数图如图1所示。
让我们假设 是单个解释变量的线性函数 (在这种情况下 是多个解释变量的线性组合,其处理方式类似)。然后我们可以表达 如下:
和一般的物流功能 现在可以写成:
在逻辑模型中, 被解释为因变量的概率 等于成功/案例,而不是失败/非案例。很明显,响应变量 分布不均: 与一个数据点不同 尽管它们是独立的给定设计矩阵 和共享参数 。[9]
逻辑函数逆的定义
我们现在可以将logit(对数几率)函数定义为反函数标准后勤功能。很容易看出它满足:
同样,在对双方求幂后,我们还有几率:
这些术语的解释
在上述等式中,术语如下:
- 是logit函数。的等式说明对数(即对数的对数或自然对数)等于线性回归表达式。
- 表示自然对数。
- 是给定预测变量的线性组合,因变量等于情况的概率。公式说明了因变量等于情况的概率等于线性回归表达式的逻辑函数的值。这很重要,因为它表明线性回归表达式的值可以从负无穷大到正无穷大,但是在变换之后,概率的结果表达式 范围介于0和1之间。
- 是线性回归方程式的截距(预测变量等于零时的标准值)。
- 是回归系数乘以预测变量的某个值。
- 基础 表示指数函数。
赔率的定义
因变量等于情况的几率(考虑到一些线性组合 的值等于线性回归表达式的指数函数。这说明了logit如何用作概率和线性回归表达式之间的链接函数。考虑到logit在负无穷大和正无穷大之间,它提供了进行线性回归的适当标准,并且logit容易转换回赔率。[15]
因此,我们定义因变量等于情况的几率(考虑到一些线性组合 预测变量)如下:
比值比
对于连续自变量,优势比可以定义为:
这种指数关系为 :赔率乘以 x每增加1单位。[20]
对于二进制自变量,优势比定义为 其中a,b,c和d是2×2 列联表中的像元。[21]
多个解释变量
如果有多个解释变量,则上面的表达式 可以修改为 。然后,当将其用于将成功的对数几率与预测变量的值相关联的方程式中时,线性回归将是具有m个解释器的多元回归。参数对于所有j = 0、1、2,...,m都被估计。
同样,更传统的方程式是:
和
通常在哪里 。
模型拟合
逻辑回归是一种重要的机器学习算法。目的是为随机变量的概率建模给定实验数据为0或1。[22]
考虑由以下参数化的广义线性模型函数,
因此,
由于 ,我们看到 是(谁)给的 现在,我们假设样本中的所有观测值都是独立的伯努利分布,从而计算似然函数,
通常,对数可能性最大,
使用优化技术(如梯度下降)可以使最大化。
假设 从基础分布均匀地绘制成对,然后在大N的极限内 ,
哪里 是条件熵,是Kullback-Leibler分歧。这导致直觉,即通过最大化模型的对数似然性,可以从最大熵分布中最小化模型的KL散度。直观地搜索参数最少的模型。
“十条规则”
一种广泛使用的经验法则,即“十分之一法则 ”,指出如果每个解释变量(EPV)至少约有10个事件,逻辑回归模型可以为解释变量提供稳定的值。其中event表示因变量中属于较不频繁类别的案例。因此,一项研究旨在事件(例如心肌梗塞)的预期解释性变量将按比例发生 的研究参与者总共需要 参与者。但是,关于此规则的可靠性存在很多争论,该规则基于模拟研究,并且缺乏可靠的理论基础。[23]根据某些作者的观点[24],该规则在某些情况下过于保守。作者说:“如果我们(在某种程度上是主观上)认为置信区间覆盖率小于93%,I型错误大于7%,或相对偏差大于15%是有问题的,那么我们的结果表明,存在2–4的问题相当普遍EPV在5–9 EPV中不常见,但在10–16 EPV中仍然观察到。每个问题的最坏情况在5–9 EPV中并不严重,通常可与10–16 EPV相比。” [25]
其他人则使用不同的标准发现了与上述结果不一致的结果。一个有用的标准是,拟合模型在新样品中是否有望实现与模型开发样品中相同的预测歧视。对于该标准,每个候选变量可能需要20个事件。[26] 另外,有人可以说,仅需要96个观察值就可以精确估计模型的截距,以使预测概率的误差范围为±0.1,置信度为0.95。[16]
最大似然估计
通常使用最大似然估计来估计回归系数。[27] [28]与具有正态分布残差的线性回归不同,不可能找到最大化似然函数的系数值的闭式表达式,因此必须使用迭代过程。例如牛顿的方法。此过程从一个暂定的解决方案开始,对其稍作修改以查看是否可以改进,然后重复进行此修订,直到不再进行任何改进为止,此时该过程已经收敛。[27]
在某些情况下,模型可能无法达到收敛。模型的非收敛性表明系数没有意义,因为迭代过程无法找到合适的解决方案。收敛失败的原因可能多种多样:预测变量与案例的比例很大,多重共线性,稀疏性或完全分离。
- 变量与案例的比例较大会导致Wald统计数据过于保守(如下所述),并可能导致不收敛。
- 多重共线性是指预测变量之间的不可接受的高相关性。随着多重共线性的增加,系数保持无偏但标准误差增加,并且模型收敛的可能性降低。[27]为了检测预测变量之间的多重共线性,可以对感兴趣的预测变量进行线性回归分析,其唯一目的是检查 用于评估多重共线性是否高的公差统计量[27]。
- 数据中的稀疏性是指有大量的空单元格(计数为零的单元格)。零单元格计数对于分类预测器尤其有问题。使用连续的预测变量,模型可以推断出零单元格计数的值,但是对于分类预测变量则不是这种情况。对于分类预测变量,该模型将不会与零单元格计数收敛,因为零的自然对数是一个未定义的值,因此无法获得该模型的最终解。为了解决这个问题,研究人员可以以理论上有意义的方式折叠类别或为所有单元格添加一个常数。[27]
- 可能导致缺乏收敛性的另一个数字问题是完全分离,这是指预测变量可以完美地预测准则的情况-所有情况都得到了准确分类。在这种情况下,应该重新检查数据,因为可能存在某种错误。[15][]
- 也可以采用半参数或非参数方法,例如通过局部似然法或非参数拟似然法,这些方法避免了对索引函数采用参数形式的假设,并且对链接函数的选择具有鲁棒性(例如,概率或logit)。[29]
迭代加权最小二乘法(IRLS)
二元逻辑回归( 要么 ),例如,可以使用迭代加权最小二乘法(IRLS)进行计算,这等效于 使用牛顿法将伯努利分布过程的对数似然性最小化。如果问题以向量矩阵形式编写,并带有参数, 解释变量 和伯努利分布的期望值 ,参数 可以使用以下迭代算法找到:
哪里 是对角线加权矩阵, 期望值的向量,
回归矩阵和 响应变量的向量。更多细节可以在文献中找到。[30]
评估拟合优度
拟合优度的线性回归模型使用通常测定- [R 2。由于这在逻辑回归中没有直接的类似物,因此可以使用包括以下内容的各种方法[31]:第21章。
偏差和似然比检验
在线性回归分析中,人们关注的是通过平方和计算来划分方差-标准中的方差基本上分为由预测变量解释的方差和残差方差。在逻辑回归分析中,偏差被用来代替平方和计算。[32]偏差类似于线性回归[15]中的平方和计算 ,是对Logistic回归模型中数据缺乏拟合的一种度量。[32]当“饱和”模型可用(理论上具有理想拟合的模型)时,通过将给定模型与饱和模型进行比较来计算偏差。[15] 此计算得出似然比检验:[15]
在上式中,D表示偏差,ln表示自然对数。该似然比(拟合模型与饱和模型的比率)的对数将产生一个负值,因此需要一个负号。可以证明D遵循近似卡方分布。[15] 较小的值表示较好的拟合,因为拟合的模型与饱和模型的偏差较小。当根据卡方分布进行评估时,不显着的卡方值表示很少的无法解释的方差,因此模型拟合良好。相反,显着的卡方值表示无法解释显着的方差。
当饱和模型不可用(常见情况)时,偏差被简单地计算为-2·(拟合模型的对数似然),并且可以从随后的所有内容中删除对饱和模型的对数似然的引用而不会造成损害。
在logistic回归中,偏差的两个度量特别重要:无效偏差和模型偏差。零偏差表示仅具有截距的模型(即“无预测变量”)与饱和模型之间的差异。模型偏差表示具有至少一个预测变量的模型与饱和模型之间的差异。[32]在这方面,空模型提供了一个基线,可以在该基线上比较预测变量模型。鉴于偏差是对给定模型与饱和模型之间差异的度量,因此较小的值表示较好的拟合度。因此,要评估一个预测变量或一组预测变量的贡献,可以从零偏差中减去模型偏差,然后评估一个偏差。自由度的 卡方分布[15]等于估计的参数数量之差。
让
那么两者的区别是:
如果模型偏差显着小于零偏差,则可以得出结论:预测变量或一组预测变量显着改善了模型拟合。这类似于线性回归分析中用于评估预测重要性的F检验。[32]
伪R 2 s
在线性回归中,平方乘积相关系数R 2用于评估拟合优度,因为它表示预测变量所解释的标准中的变化比例。[32]在逻辑回归分析中,没有商定类似的度量,但是有几种竞争性度量,每个度量都有局限性。[32] [33]
此页面上检查了四种最常用的索引,一种较不常用的索引:
- 似然比R 2 L
- 考克斯和斯内尔R 2 CS
- Nagelkerke R 2 N
- 麦克法登R 2 McF
- 土尔R 2 T
R 2 L由[32]给出
这是线性回归中多重相关平方的最相似指标。[27]它代表其中所述偏差被视为变化类似的度量,但不等同于在偏差减少的比例方差中的线性回归分析。[27]似然比R 2的一个局限性在于它与单数比不单调相关,[32]表示它不一定随单数比增加而增加,也不一定随单数比减少而减小。
R 2 CS是与线性回归的R 2值相关的拟合优度的替代指标。[33]由:
其中L M和L 0分别是拟合模型和零模型的可能性。Cox和Snell指数存在问题,因为其最大值为。此上限的最大值可以是0.75,但是当案例的边际比例较小时,很容易将其下调至0.48。[33]
R 2 N对Cox和Snell R 2进行校正,以使最大值等于1。但是,与Nagelkerke R 2相比,Cox和Snell以及似然比R 2 s彼此显示出更大的一致性。[32]当然,对于超过.75的值可能不是这种情况,因为Cox和Snell指数均以此值为上限。似然比- [R 2通常是优选的备选方案,因为它是最类似于ř 2中线性回归,是独立于基础速率(既考克斯和Snell和Nagelkerke - [R 2s随案件比例从0增加到0.5而增加,且在0和1之间变化。
R 2 McF定义为
并且比Allison的R 2 CS更受青睐。[33]然后,两个表达式R 2 McF和R 2 CS分别通过
但是,Allison现在更喜欢R 2 T,这是Tjur开发的相对较新的度量。[34]可以通过两个步骤进行计算:[33]
- 对于因变量的每个级别,找到事件的预测概率的平均值。
- 取这些均值之差的绝对值
在解释伪R 2统计信息时要特别注意。配合这些索引被称为原因伪 - [R 2是,它们并不代表出错的比例减少为- [R 2中的线性回归一样。[32]线性回归假设均方差,对于标准的所有值,误差方差都是相同的。Logistic回归永远是异方差的–对于预测分数的每个值,误差方差均不同。对于预测分数的每个值,都会有不同比例的误差减少值。因此,在逻辑回归中将R 2视为普遍意义上的误差成比例减少是不合适的。[32]
Hosmer–Lemeshow测试
所述霍斯默-Lemeshow测试使用的测试统计量渐近遵循分布以评估观察到的事件发生率是否与模型总体子组中的预期事件发生率匹配。一些统计学家认为此测试已过时,因为该测试依赖于预测概率的任意合并和相对较低的功效。[35]
系数
拟合模型后,研究人员可能希望检查各个预测变量的贡献。为此,他们将要检查回归系数。在线性回归中,回归系数代表预测变量中每个单位变化的标准变化。[32]然而,在逻辑回归中,回归系数代表预测变量中每个单位变化的对数变化。鉴于对数不直观,研究人员可能会专注于预测变量对回归系数(优势比)的指数函数的影响(请参阅定义)。在线性回归中,回归系数的显着性通过计算t测试。在逻辑回归中,设计了几种不同的检验来评估单个预测变量的显着性,最主要的是似然比检验和Wald统计量。
似然比检验
上面讨论的评估模型拟合的似然比检验也是推荐的方法,用于评估各个“预测变量”对给定模型的贡献。[15] [27] [32]在单个预测器模型的情况下,只需在具有单个自由度的卡方分布上将预测器模型的偏差与空模型的偏差进行比较即可。如果预测变量模型具有显着较小的偏差(使用两个模型的自由度差异比较卡方),则可以得出结论,“预测变量”与结果之间存在显着关联。尽管某些常见的统计数据包(例如SPSS)确实提供了似然比检验统计数据,但是如果没有这种计算密集型检验,则在多元逻辑回归案例中评估单个预测变量的贡献将更加困难。[]为了评估各个预测变量的贡献,可以分层输入预测变量,将每个新模型与以前的模型进行比较,以确定每个预测变量的贡献。[32]统计学家之间就所谓的“逐步”程序的适当性存在一些争论。担心的是它们可能无法保留名义上的统计属性,并且可能会产生误导。[36][]
沃尔德统计
或者,在评估给定模型中各个预测变量的贡献时,可以检查Wald统计量的重要性。类似于线性回归中的t检验的Wald统计量,用于评估系数的显着性。Wald统计量是回归系数的平方与系数标准误差的平方之比,并且渐近分布为卡方分布。[27]
尽管一些统计软件包(例如SPSS,SAS)报告了Wald统计量以评估各个预测变量的贡献,但是Wald统计量存在局限性。当回归系数较大时,回归系数的标准误差也趋于较大,从而增加了II型误差的可能性。当数据稀疏时,Wald统计量也易于产生偏差。[32]
病例对照抽样
假设情况很少。然后,我们可能希望对它们进行抽样,而不是对其在人群中的普遍性进行抽样调查。例如,假设有一种疾病会影响10,000人中的1个人,并且要收集我们的数据,我们需要进行完整的身体检查。为了仅获取少数患病个体的数据而对成千上万的健康人进行身体检查可能太昂贵了。因此,我们可以评估更多患病个体,也许是所有罕见的结果。这也是追溯采样,或等效地称为不平衡数据。根据经验,以五倍于案例数的比率对控件进行采样将产生足够的控件数据。[37]
Logistic回归的独特之处在于它可以根据不平衡数据(而不是随机采样的数据)进行估算,并且仍然可以对每个独立变量对结果的影响进行正确的系数估算。也就是说,如果我们根据这些数据形成逻辑模型,那么如果该模型在一般人群中是正确的,那么 参数都正确,除了 。我们可以纠正如果我们知道真实的患病率如下:[37]
哪里 是真正的流行, 是样本中的患病率。
正式的数学规范
有各种等效的逻辑回归规范,适用于不同类型的更一般的模型。这些不同的规范允许使用各种有用的概括。
设定
Logistic回归的基本设置如下。我们得到了包含N个点的数据集。每个点我由一组的米输入变量X 1,我 ... X M,I(也称为自变量,预测变量,特征或属性),和一个二进制结果变量ÿ 我(也称为从属变量,响应变量,输出变量或类),即它只能假设两个可能的值0(通常表示“否”或“失败”)或1(通常表示“是”或“成功”)。逻辑回归的目标是使用数据集创建结果变量的预测模型。
一些例子:
- 观察到的结果是一组患者中是否存在特定疾病(例如糖尿病),解释变量可能是被认为相关的患者特征(性别,种族,年龄,血压,体重指数)等)。
- 观察到的结果是选举中一组人的票数(例如,民主党或共和党),解释性变量是每个人的人口统计特征(例如,性别,种族,年龄,收入等)。在这种情况下,两个结果之一被任意编码为1,另一个被编码为0。
与线性回归一样,假设结果变量Y i取决于解释变量x 1,i ... x m,i。
- 解释变量
如以上示例所示,解释变量可以是任何类型:实值,二进制,类别等。主要区别在于连续变量(例如收入,年龄和血压)和离散变量(例如性别或种族)。涉及两个以上可能选择的离散变量通常使用伪变量(或指标变量)进行编码),即为离散变量的每个可能值创建取值为0或1的单独解释变量,其中1表示“变量确实具有给定值”,0表示“变量不具有该值”。例如,血液类型的四向离散变量可以将值“ A,B,AB,O”转换为四个单独的双向虚拟变量“ is-A,is-B,is-AB,is-O”,其中只有一个具有值为1,其余所有值为0。这允许将离散回归系数与离散变量的每个可能值匹配。(在这种情况下,四个虚拟变量中只有三个相互独立,在某种意义上,一旦知道三个变量的值,就会自动确定第四个变量。因此,仅需编码三个四个可能性中的一个作为虚拟变量。这也意味着,当所有四个可能性都被编码后,整个模型就无法识别在没有其他约束(例如正则化约束)的情况下。从理论上讲,这可能会引起问题,但实际上,几乎所有的逻辑回归模型都具有正则化约束。)
- 结果变量
形式上,结局Y i被描述为伯努利分布的数据,其中每个结局由未观察到的概率p i决定,该概率特定于手头的结局,但与解释变量有关。可以用以下任何等效形式表示:
这四行的含义是:
- 第一行表示每个Y i的概率分布:在解释变量的条件下,它遵循具有参数p i的伯努利分布,即试验i的结果为1的概率。如上所述,每个独立的试验都有其成功的可能性,就像每个试验都有其自己的解释变量一样。没有观察到成功的概率p i,仅观察到使用该概率的单个伯努利试验的结果。
- 第二行表示每个Y i的期望值等于成功概率p i的事实,这是伯努利分布的一般属性。换句话说,如果我们使用成功概率p i进行大量的伯努利试验,然后取所有1和0结果的平均值,那么结果将接近p i。这是因为以这种方式进行平均仅计算看到的成功比例,我们希望将其收敛到潜在的成功概率。
- 第三行写出伯努利分布的概率质量函数,指定看到两个可能结果中的每一个的概率。
- 第四行是编写概率质量函数的另一种方式,它避免了必须编写单独的案例,并且对于某些类型的计算更方便。这依赖于Y i只能取值0或1 的事实。在每种情况下,其中一个指数为1,“选择”其下的值,而另一个为0,“抵消”其下的值。它。因此,结果是p i或1- p i,如前一行所示。
- 线性预测函数
Logistic回归的基本思想是通过使用线性预测函数对概率p i建模,从而利用已经开发的用于线性回归的机制,即,将解释变量与特定于手头模型的一组回归系数进行线性组合但所有试验都一样。线性预测函数对于特定的数据点,我写为:
哪里 是表示特定解释变量对结果的相对影响的回归系数。
通常将模型放入更紧凑的形式,如下所示:
- 回归系数β 0,β 1,...,β 米被分组为单个矢量β的大小米 + 1。
- 对于每个数据点我,附加说明伪变量X 0,我加入,为1的固定值,对应于所述截距系数β 0。
- 然后将所得的解释变量x 0,i,x 1,i,...,x m,i分组为大小为m + 1 的单个向量X i。
这使得可以如下编写线性预测函数:
将符号用于两个向量之间的点积。
作为广义线性模型
逻辑回归使用的特定模型将其与标准线性回归以及用于二进制值结果的其他类型的回归分析相区别,该模型将特定结果的概率与线性预测函数联系起来:
使用上述更紧凑的表示法写的是:
此公式将逻辑回归表示为一种广义线性模型,该模型通过将上述形式的线性预测函数拟合到变量的期望值的某种任意转换来预测具有各种概率分布的变量。
上面说明了使用logit函数进行转换的直觉(赔率的自然对数)。它还具有将概率(限制在0到1之间)转换为范围在 从而匹配方程右边的线性预测函数的潜在范围。
注意,概率p i和回归系数均未观察到,确定它们的方法也不是模型本身的一部分。它们通常由某种优化程序(例如,最大似然估计)确定,该过程会找到最适合所观察数据的值(即,对已观察到的数据给出最准确的预测),通常要遵循正则化条件,以排除不大可能值,例如任何回归系数的极大值。使用正则化条件等效于进行最大后验(MAP)估计,这是最大似然的扩展。(正则化通常使用平方正则化函数,等效于在系数上放置零均值高斯 先验分布,但也可以使用其他正则化。)是否使用正则化,通常无法找到封闭形式的解;取而代之的是,必须使用迭代数值方法,例如迭代加权最小二乘法(IRLS),或者如今,更常见的是使用拟牛顿法,例如L-BFGS方法。[38]
所述的解释β Ĵ参数估计值是作为在日志中的加性效应赔率在一个单位的变化Ĵ作为解释变量。例如,在二元解释变量的情况下,性别 是男性比女性获得结果的几率估计。
等效公式使用logit函数的反函数,即logistic函数,即:
作为潜变量模型
上述模型具有与潜变量模型等效的公式。这种表述在离散选择模型理论中很常见,它使得更容易扩展到具有多个相关选择的某些更复杂的模型,并将逻辑回归与紧密相关的概率模型进行比较。
想象一下,对于每个试验i,都有一个连续的潜在变量 Y i *(即未观察到的随机变量),其分布如下:
哪里
即潜在变量可以根据线性预测函数和根据标准logistic分布分布的加性随机误差变量直接编写。
然后,Y i可被视为该潜在变量是否为正的指标:
选择使用标准逻辑分布而不是将位置和比例设置为任意值的一般逻辑分布来建模误差变量似乎是限制性的,但实际上并非如此。必须记住,我们可以自己选择回归系数,并且经常可以使用它们来补偿误差变量分布参数的变化。例如,具有非零位置参数μ(设置平均值)的对数误差变量分布等效于具有零位置参数的分布,其中μ已添加到截距系数中。两种情况的Y i *值相同无论解释变量的设置如何。类似地,任意比例参数s等同于将比例参数设置为1,然后将所有回归系数除以s。在后一种情况下,对于所有解释变量集,Y i *的结果值将比前一种情况小s倍,但关键的是,它始终保持在0的同一侧,因此导致相同的Y 我选择。
(请注意,这可以预测scale参数的无关性可能不会延续到可以使用两个以上选择的更复杂的模型中。)
事实证明,这种表示形式完全等同于前面的表示形式,用广义线性模型表示,没有任何潜在变量。使用标准logistic分布的累积分布函数(CDF)是logistic 函数,即logit函数的反函数,即 事实,可以如下所示。
然后:
这种表示法(在离散选择模型中是标准的)阐明了逻辑回归(“逻辑模型”)与概率模型之间的关系,该概率模型使用根据标准正态分布而不是标准逻辑分布分配的误差变量。逻辑分布和正态分布都是对称的,具有基本的单峰“钟形曲线”形状。唯一的区别是,逻辑分布的尾巴稍微重一些,这意味着它对外围数据不那么敏感(因此,对错误指定或错误数据进行建模则更健壮)。
两向潜在变量模型
另一种表述使用两个单独的潜在变量:
哪里
其中EV 1(0,1)是标准的type-1 极值分布:即
然后
对于因变量的每个可能结果,该模型具有单独的潜在变量和单独的回归系数集。这种分离的原因是,就像在多项logit模型中一样,它很容易将logistic回归扩展到多结果分类变量。在这样的模型中,使用一组不同的回归系数为每个可能的结果建模是很自然的。激励每个单独的潜在变量作为与做出相关选择相关的理论效用,从而根据效用理论激励逻辑回归。(就效用理论而言,理性的参与者总是选择具有最大关联效用的选择。)这是经济学家在制定离散选择模型时所采用的方法,因为它既提供了理论上的坚实基础,又促进了对模型的直觉,反过来,可以轻松考虑各种扩展。(请参见下面的示例。)
类型1 极值分布的选择似乎相当随意,但这使数学得以解决,并且可能有可能通过理性选择理论来证明其合理性。
事实证明,该模型与以前的模型等效,尽管这看起来并不明显,因为现在有两组回归系数和误差变量,并且误差变量具有不同的分布。实际上,此模型通过以下替换直接简化为先前的模型:
直觉来自于这样一个事实,因为我们基于两个值中的最大值进行选择,所以只有它们之间的差异才是问题,而不是确切的值,这实际上消除了一个自由度。另一个重要事实是,两个类型1极值分布变量的差是对数分布,即 我们可以证明等效项如下:
例
例如,以省级选举为例,其选择是在中央右派,中央左派和分裂主义派之间进行选择(例如,魁北克党(PartiQuébécois),该党希望魁北克脱离加拿大)。然后,我们将使用三个潜在变量,每个选择一个。然后,根据效用理论,我们可以将潜在变量解释为表示效用这是做出每个选择的结果。我们还可以将回归系数解释为表明相关因素(即,解释变量)对效用的贡献的强度,或更准确地说,是解释变量中单位改变的量改变给定选择的效用的强度。选民可能会期望中心权利党会降低税收,特别是对富人。这将给低收入人群带来任何好处,即公用事业不会发生变化(因为他们通常不纳税);将为中等收入人群带来适度的收益(即多一些钱,或公用事业的适度增长);会给高收入人群带来重大利益。另一方面,中左翼政党可能有望提高税收,并通过增加对中下阶层的福利和其他援助来抵消税收。这将给低收入人群带来巨大的正面收益,可能给中等收入人群带来微弱的收益,而给高收入人群带来重大的负面收益。最后,分离主义政党不会对经济采取任何直接行动,而只会分离。低收入或中等收入选民可能不会因此而预期没有明显的效用收益或损失,但是高收入选民可能会希望获得负效用,因为他/她很可能拥有自己的公司,而在公司中开展业务将更加困难这样的环境,可能会赔钱。并给高收入人群带来极大的负面影响。最后,分离主义政党不会对经济采取任何直接行动,而只会分离。低收入或中等收入选民可能不会因此而预期没有明显的效用收益或损失,但是高收入选民可能会希望获得负效用,因为他/她很可能拥有自己的公司,而在公司中开展业务将更加困难这样的环境,可能会赔钱。并给高收入人群带来极大的负面影响。最后,分离主义政党不会对经济采取任何直接行动,而只会分离。低收入或中等收入选民可能不会因此而预期没有明显的效用收益或损失,但是高收入选民可能会希望获得负效用,因为他/她很可能拥有自己的公司,而在公司中开展业务将更加困难这样的环境,可能会赔钱。
这些直觉可以表示如下:
| 右中 | 中左 | 分裂主义者 | |
|---|---|---|---|
| 高收入 | 强+ | 强- | 强- |
| 中等收入 | 中度+ | 弱+ | 没有 |
| 低收入 | 没有 | 强+ | 没有 |
这清楚地表明
- 每个选择都需要存在独立的回归系数集。用效用表述时,这很容易看出来。不同的选择对净效用有不同的影响。此外,效果以复杂的方式变化,具体取决于每个人的特性,因此每个特性需要有单独的系数集,而不仅仅是单个额外的按选择特性。
- 尽管收入是一个连续变量,但它对效用的影响却过于复杂,以至于不能将其视为一个单一变量。它要么需要直接划分为多个范围,要么需要增加收入的幂,以便有效地对收入进行多项式回归。
作为“对数线性”模型
还有另一种公式将上面的双向潜在变量公式与更高的原始公式结合起来而没有潜在变量,并且在此过程中提供了到多项式logit的标准公式之一的链接。
在这里,我们没有将概率p i的对数写为线性预测变量,而是将线性预测变量分为两个,一个用于两个结果:
请注意,就像在双向潜变量模型中一样,已经引入了两组独立的回归系数,并且两个方程式看起来是一种形式,该形式将相关概率的对数写为线性预测变量,并带有一个额外的项。在末尾。事实证明,该术语用作确保结果为分布的归一化因子。这可以通过对双方求幂来看出:
通过这种形式,很明显Z的目的是确保Y i上的结果分布实际上是概率分布,即总和为1。这意味着Z只是所有未归一化概率的和,并且通过将每个概率除以Z,概率变为“ 归一化 ”。那是:
结果方程是
或通常:
如多项式logit所示,这清楚地表明了如何将该公式推广为两个以上的结果。请注意,此一般公式恰好是softmax函数,如
为了证明这与以前的模型等效,请注意,上面的模型被过度指定,因为 和 不能独立指定: 所以知道一个会自动确定另一个。其结果是,该模型是nonidentifiable,在多个组合β 0和β 1将产生所有可能的解释变量相同的概率。实际上,可以看出,将任何常数向量都添加到它们两者将产生相同的概率:
结果,我们可以通过为两个向量之一选择任意值来简化事务并恢复可识别性。我们选择设置 然后,
所以
这表明该公式的确等同于先前的公式。(与双向潜变量公式一样, 将产生相同的结果。)
请注意,多数对数logit模型的处理都是通过扩展此处介绍的“对数线性”公式或上面提出的双向潜变量公式开始的,因为这两种方法都清楚地表明了该模型可以扩展为多方的方式结果。通常,具有潜在变量的表示形式在计量经济学和政治科学中更为常见,在离散选择模型和效用理论占主导地位,而此处的“对数线性”表述在计算机科学中更为常见,例如机器学习和自然语言处理。
作为单层感知器
该模型具有等效公式
这种功能形式通常称为单层感知器或单层人工神经网络。单层神经网络计算连续输出而不是阶跃函数。相对于 X =(x 1,...,x k)的p i导数由以下一般形式计算得出:
其中˚F(X)是一个解析函数在X。通过这种选择,单层神经网络与逻辑回归模型相同。此函数具有连续导数,可用于反向传播。此函数也是首选函数,因为它的导数很容易计算:
就二项式数据而言
一个密切相关的模型假设每个i都不与单个Bernoulli试验相关,而是与n i个 独立的均匀分布试验相关,其中观察值Y i是观察到的成功次数(各个Bernoulli分布的随机变量之和),并且因此遵循二项式分布:
这种分布的一个例子是种植n i后发芽的种子(p i)的比例。
就期望值而言,该模型表示为:
以便
或等效地:
可以使用与上述更基本的模型相同的方法来拟合该模型。
贝叶斯
在贝叶斯统计上下文中,通常将先验分布放在回归系数上,通常采用高斯分布的形式。在逻辑回归中,似然函数没有共轭先验。当用贝叶斯推断进行分析时,这使得后验分布很难计算,除非是非常小的尺寸。不过,现在有了自动软件,例如OpenBUGS,JAGS,PyMC3或Stan允许使用仿真来计算这些后验对象,因此无需考虑共轭性。但是,当样本大小或参数数量很大时,完整的贝叶斯模拟可能会变慢,并且人们经常使用近似方法,例如变分贝叶斯方法和期望传播。
历史
逻辑回归的详细历史记录在Cramer(2002)中给出。后勤职能是人口增长的模型,在阿道夫·奎特莱特(Adolphe Quetelet)的指导下,皮埃尔·弗朗索瓦·弗胡斯特(PierreFrançoisVerhulst)在1830年代和1840年代将其命名为“物流” 。有关详细信息,请参见物流功能§历史记录。[39]在Verhulst最早的论文(1838年)中,他没有说明如何将曲线拟合到数据中。[40] [41]在Verhulst的更详细的论文(1845年)中,通过使曲线穿过三个观察点确定了模型的三个参数,从而产生了较差的预测。[42] [43]
逻辑功能在化学中独立开发为自催化模型(Wilhelm Ostwald,1883)。[44]一种自催化反应,其中一种产物本身就是同一反应的催化剂,而一种反应物的供给是固定的。出于与人口增长相同的原因,这自然产生了逻辑方程:反应是自我强化的,但受到约束。
雷蒙·珀尔(Raymond Pearl)和洛厄尔· 里德(Lowell Reed)于1920年出版的《珍珠与里德》(Pearl&Reed,1920年)独立地重新发现了逻辑函数作为人口增长的模型,从而将其用于现代统计。他们最初并不了解Verhulst的工作,大概是从L. Gustave du Pasquier那里学到的,但是他们对他一点信用也没有,也没有采用他的术语。[45] Verhulst的优先考虑得到了认可,“物流” 一词在1925年由Udny Yule重新使用,此后一直沿用。[46]Pearl和Reed首先将模型应用于美国人口,并且还通过使曲线经过三个点来拟合曲线。与Verhulst一样,这再次产生了较差的结果。[47]
1930年代,概率模型由切斯特·伊特纳·布利斯(Chester Ittner Bliss )(在Bliss(1934)中创造了“概率”一词)和约翰·加杜姆(Gaddum(1933))进行了系统化,该模型通过Ronald A的最大似然估计进行拟合。费雪(Fisher in Fisher)(1935年),作为Bliss作品的附录。概率模型主要用于生物测定,并且早在1860年就已开展了早期工作。请参阅Probit模型§历史记录。概率模型影响了logit模型的后续开发,并且这些模型相互竞争。[48]
Logistic模型很可能首先用于在生物测定的替代概率模型埃德温·比德韦尔威尔逊和他的学生简伍斯特在威尔逊伍斯特(1943年)。[49]但是,逻辑模型作为概率模型的一般替代方法的发展主要归因于约瑟夫·伯克森(Joseph Berkson)数十年来的工作,始于伯克森(1944年),他在此创造了“ logit”,比喻为“概率”,并一直延续到伯克森(1951)及随后的几年。[50] Logit模型最初被认为不及Probit模型,但“逐渐实现了与Logit平等的地位”,[51]尤其是在1960年至1970年之间。到1970年,logit模型与统计期刊中使用的概率模型达到了同等水平,随后又超过了它。这种相对流行是由于在生物测定法之外采用了logit,而不是在生物测定法中取代了probit及其在实践中的非正式使用;Logit的受欢迎程度归功于Logit模型的计算简单性,数学特性和通用性,从而使其可以在各种领域中使用。[52]
在此期间,出现了各种改进,特别是David Cox,如Cox(1958)。[2]
多项式logit模型是在Cox(1966)和Thiel(1969)中独立引入的,这大大增加了Logit模型的应用范围和流行度。[53] 1973年,丹尼尔·麦克法登(Daniel McFadden)将多项式对数与离散选择理论联系起来,特别是卢斯的选择公理,表明多项式对数是从不相关选择的独立性假设和将选择的可能性解释为相对偏好中得出的;[54]这为逻辑回归提供了理论基础。[53]
扩展名
有大量扩展名:
- 多项逻辑回归(或multilogial logit)处理多向分类因变量(具有无序值,也称为“分类”)的情况。请注意,具有两个以上值的因变量的一般情况称为多变量回归。
- 有序逻辑回归(或有序logit)处理序数因变量(有序值)。
- 混合对数是多项式对数的扩展,它允许因变量的选择之间具有相关性。
- 对数模型的扩展是相互依赖的变量集,它是条件随机场。
- 当层数较小时,条件逻辑回归处理匹配或分层的数据。它主要用于观察研究的分析。
软件
大多数统计软件都可以进行二进制逻辑回归。
- SPSS
- [1]用于基本逻辑回归。
- 斯塔塔
- SAS
- PROC LOGISTIC用于基本逻辑回归。
- 当所有变量都是分类的时,执行PROC CATMOD。
- PROC GLIMMIX用于多级模型逻辑回归。
- [R
- 蟒蛇
Logit在Statsmodels模块中。LogisticRegression在Scikit学习模块中。LogisticRegressor在TensorFlow模块中。- Theano教程中的逻辑回归的完整示例[2]
- 贝叶斯逻辑回归与ARD先验代码,教程
- 使用ARD先验代码的变分贝叶斯Logistic回归,教程
- 贝叶斯逻辑回归 代码,教程
- NCSS
- Matlab的
mnrfit在统计和机器学习工具箱中(“不正确”编码为2而不是0)fminunc/fmincon, fitglm, mnrfit, fitclinear, mle都可以进行逻辑回归。
- Java(JVM)
- 线性库
- Apache Flink
- Apache Spark
- SparkML支持Logistic回归
- 现场可编程门阵列
值得注意的是,Microsoft Excel的统计信息扩展包不包括它。
也可以看看
- 物流功能
- 离散选择
- Jarrow–Turnbull模型
- 有限因变量
- 多项式logit模型
- 订购logit
- Hosmer–Lemeshow测试
- 石蜡分数
- mlpack-包含逻辑回归的C ++实现
- 当地病例对照抽样
- 物流模型树
参考文献
- 朱莉安娜·托勒斯;Meurer,William J(2016)。“将患者特征与结果相关的逻辑回归”。JAMA。316(5):533-4。DOI:10.1001 / jama.2016.7653。ISSN 0098-7484。OCLC 6823603312。PMID 27483067。
- ^ 沃克,SH;邓肯,DB(1967)。“根据几个独立变量对事件概率的估计”。Biometrika。54(1/2):167-178。doi:10.2307 / 2333860。JSTOR 2333860。
- Cramer,2002,p。8。
- CR,博伊德;马萨诸塞州托尔森; Copes,WS(1987)。“评估创伤护理:TRISS方法。创伤评分和损伤严重程度评分”。创伤杂志。27(4):370-378。DOI:10.1097 / 00005373-198704000-00005。PMID 3106646。
- M.科洛格鲁;Elker,D。Altun,H。塞耶克(Sayek,I.)(2001)。“在两组不同的继发性腹膜炎患者中MPI和PIA II的验证”。肝肠胃病学。48(37):147-51。PMID 11268952。
- Biondo,S .;E.拉莫斯;Deiros,M .;JMRagué;De Oca,J .;莫雷诺 法伦湖; Jaurrieta,E。(2000)。“左结肠腹膜炎死亡率的预后因素:新的评分系统”。美国外科医生学院学报。191(6):635–42。doi:10.1016 / S1072-7515(00)00758-4。PMID 11129812。
- JC马歇尔;DJ库克;内华达州克里斯图市;GR,伯纳德;CL Sprung;Sibbald,WJ(1995)。“多器官功能障碍评分:复杂临床结果的可靠描述”。重症监护医学。23(10):1638–52。doi:10.1097 / 00003246-199510000-00007。PMID 7587228。
- JR Le Gall;Lemeshow,S。Saulnier,F。(1993)。“基于欧洲/北美多中心研究的新的简化的急性生理学评分(SAPS II)”。JAMA。270(24):2957-63。doi:10.1001 / jama.1993.03510240069035。PMID 8254858。
- ^ 大卫·弗里德曼(2009)。统计模型:理论与实践。剑桥大学出版社。p。128。
- 特鲁特,J;康菲尔德,J;Kannel,W(1967)。“弗雷明汉冠心病风险的多变量分析”。中华慢性病杂志。20(7):511–24。doi:10.1016 / 0021-9681(67)90082-3。PMID 6028270。
- Harrell,Frank E.(2001)。回归建模策略(第二版)。施普林格出版社。书号 978-0-387-95232-1。
- M. Strano; BM Colosimo(2006)。“用于确定极限图的实验确定的逻辑回归分析”。国际机床制造。46(6):673–682。doi:10.1016 / j.ijmachtools.2005.07.005。
- SK Palei;Das,SK(2009)。“ Logistic回归模型,用于预测煤矿围岩和立柱工作中的冒顶风险:一种方法”。安全科学。47:88-96。doi:10.1016 / j.ssci.2008.01.002。
- Berry,Michael JA(1997)。用于营销,销售和客户支持的数据挖掘技术。威利。p。10。
- ^ Hosmer,David W .;Lemeshow,Stanley(2000)。应用逻辑回归(第二版)。威利。书号 978-0-471-35632-5。[]
- ^ Harrell,Frank E.(2015年)。回归建模策略。《统计中的Springer系列》(第二版)。纽约; 施普林格。doi:10.1007 / 978-3-319-19425-7。书号 978-3-319-19424-0。
- Rodríguez,G.(2007年)。关于广义线性模型的讲义。pp。第3章,第45页-通过http://data.princeton.edu/wws509/notes/。
- 加雷斯·詹姆斯;丹妮拉(Daniela Witten)特雷弗·哈斯蒂 Robert Tibshirani(2013)。统计学习概论。施普林格。p。6。
- Pohar,玛雅;布拉斯·马特亚;特克·桑德拉(2004)。“逻辑回归与线性判别分析的比较:模拟研究”。MetodološkiZvezki。1(1)。
- “如何解释逻辑回归中的赔率?” 。数字研究与教育研究所。
- 埃弗里特·布莱恩(1998)。剑桥统计词典。英国剑桥,纽约:剑桥大学出版社。书号 978-0521593465。
- Ng,Andrew(2000)。“ CS229讲义” (PDF)。CS229讲义:16-19。
- 范·斯梅登(M. JA De Groot;KG,月亮;柯林斯(GS);DG,奥特曼;密西西比州Eijkemans;Reitsma,JB(2016年)。“对于二进制逻辑回归分析,每10个事件标准中没有1个变量的理由”。BMC医学研究方法论。16(1):163. doi:10.1186 / s12874-016-0267-3。PMC 5122171。PMID 27881078。
- Peduzzi,P;康卡托,J;E·肯珀 TR Holford;宾夕法尼亚州芬斯坦(1996年12月)。“逻辑回归分析中每个变量的事件数量的模拟研究”。临床流行病学杂志。49(12):1373–9。doi:10.1016 / s0895-4356(96)00236-3。PMID 8970487。
- E.Vittinghoff;行政长官麦卡洛克(2007年1月12日)。“在Logistic和Cox回归中释放每个变量十个事件的规则”。美国流行病学杂志。165(6):710–718。doi:10.1093 / aje / kwk052。PMID 17182981。
- 杰尔德范德普洛格;奥斯汀(Peter C.)Steyerberg,Ewout W.(2014年)。“现代的建模技术需要大量数据:用于预测二分终点的模拟研究”。BMC医学研究方法论。14:137。DOI:10.1186 / 1471-2288-14-137。PMC 4289553。PMID 25532820。
- ^ Menard,Scott W.(2002)。应用逻辑回归(第二版)。智者。书号 978-0-7619-2208-7。[]
- 古里路,基督徒;蒙福特·阿兰(1981)。“二分对数Logit模型中最大似然估计的渐近性质”。计量经济。17(1):83–97。doi:10.1016 / 0304-4076(81)90060-9。
- 朴炳U 莱奥波尔德Simar; Zelenyuk,Valentin(2017)。“时间序列数据的动态离散选择模型的非参数估计” (PDF)。计算统计与数据分析。108:97-120。doi:10.1016 / j.csda.2016.10.024。
- 参见例如。Murphy,Kevin P.(2012年)。机器学习-概率观点。麻省理工学院出版社。245页。书号 978-0-262-01802-9。
- 格林,威廉·N(2003)。计量经济分析(第五版)。普伦蒂斯厅。书号 978-0-13-066189-0。
- ^ 科恩,雅各布;帕特里夏·科恩;韦斯特(Steven G.);艾肯(Leeona S.),艾肯(2002)。在行为科学中应用多元回归/相关性分析(第3版)。Routledge。书号 978-0-8058-2223-6。[]
- ^ 保罗·D·艾里森(Paul Allison),“适合逻辑回归的度量” (PDF)。统计地平线有限责任公司和宾夕法尼亚大学。
- Tjur,Tue(2009)。“逻辑回归模型中的确定系数”。美国统计学家:366–372。doi:10.1198 / tast.2009.08210。
- Hosmer,DW(1997)。“逻辑回归模型的拟合优度检验比较”。Stat Med。16(9):965–980。DOI:10.1002 /(SICI)1097-0258(19970515)16:9 <965 ::援助sim509> 3.3.co; 2-F。
- Harrell,Frank E.(2010)。回归建模策略:应用于线性模型,Logistic回归和生存分析。纽约:施普林格。书号 978-1-4419-2918-1。[]
- ^ https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf幻灯片16
- 罗伯特·马卢夫(Malouf,2002)。“最大熵参数估计算法的比较”。第六届自然语言学习会议论文集(CoNLL-2002)。第49–55页。doi:10.3115 / 1118853.1118871。
- Cramer 2002,第3-5页。
- Verhulst,Pierre-François(1838)。“通知民盟成员临时居住地的通知” (PDF)。函授数学与物理学。10:113-121 。于2014 年12月3日检索。
- Cramer,2002,p。4,“他没有说他如何拟合曲线。”
- Verhulst,Pierre-François(1845)。“研究人口统计学的数学研究” [关于人口增长规律的数学研究]。法国皇家科学院纪念科学博物馆和布鲁塞尔贝尔特-莱特雷斯博物馆。18 。检索2013-02-18。
- Cramer,2002,p。4。
- Cramer,2002,p。7
- Cramer,2002,p。6。
- Cramer,2002,p。6–7。
- Cramer,2002,p。5,
- Cramer,2002,p。7–9。
- Cramer,2002,p。9。
- Cramer,2002,p。8,“据我所知,物流是正常概率函数的替代方案,是一个人的工作,约瑟夫·伯克森(Joseph Berkson,1899-1982年),...”
- Cramer,2002,p。11。
- Cramer,2002,p。10-11。
- ^ 克拉默页。13
- 麦克法登,丹尼尔(1973)。“定性选择行为的有条件Logit分析” (PDF)。在P.Zarembka(ed。)计量经济学前沿。纽约:学术出版社。第105–142页。(原始内容 存档于(PDF) 2018-11-27)。检索2019-04-20。
- 安德鲁·盖尔曼;詹妮弗·希尔(2007)。使用回归和多层次/层次模型进行数据分析。纽约:剑桥大学出版社。第79–108页。书号 978-0-521-68689-1。
进一步阅读
- 考克斯(Cox,David R.)(1958年)。“二进制序列的回归分析(有讨论)”。Ĵ罗伊统计志乙。20(2):215–242。JSTOR 2983890。
- Cox,David R.(1966)。“一些与逻辑定性反应曲线有关的程序”。在FN David(1966)(ed。)中。概率统计研究论文(J. Neyman的Festschrift)。伦敦:威利。第55–71页。
- Cramer,JS(2002)。逻辑回归的起源 (PDF)(技术报告)。119。廷伯根研究所。第167–178页。doi:10.2139 / ssrn.360300。
- 发表于:Cramer,JS(2004)。“ logit模型的早期起源”。历史与科学哲学研究C部分:生物与生物医学史与哲学研究。35(4):613–626。doi:10.1016 / j.shpsc.2004.09.003。
- 亨利·泰尔(1969)。“线性Logit模型的多项式扩展”。国际经济评论。10(3):251–59。doi:10.2307 / 2525642。JSTOR 2525642。
- 威尔逊(EB)伍斯特,J。(1943)。“在生物测定中LD50的测定及其取样误差”。美利坚合众国国家科学院学报。29(2):79–85。Bibcode:1943PNAS ... 29 ... 79W。doi:10.1073 / pnas.29.2.79。PMC 1078563。PMID 16588606。
- 阿格里斯蒂,艾伦。(2002)。分类数据分析。纽约:Wiley-Interscience。书号 978-0-471-36093-3。
- Amemiya,Takeshi(1985)。“定性响应模型”。高级计量经济学。牛津:罗勒·布莱克威尔。第267–359页。书号 978-0-631-13345-2。
- Balakrishnan,N。(1991)。物流配送手册。Marcel Dekker,Inc. ISBN 978-0-8247-8587-1。
- Gouriéroux,克里斯蒂安(2000)。“简单的二分法”。定性因变量的计量经济学。纽约:剑桥大学出版社。第6–37页。书号 978-0-521-58985-7。
- 格林,威廉·H(2003)。计量经济学分析,第五版。学徒大厅。书号 978-0-13-066189-0。
- Hilbe,Joseph M.(2009年)。Logistic回归模型。查普曼和霍尔/ CRC出版社。书号 978-1-4200-7575-5。
- 霍斯默·戴维(2013)。应用Logistic回归。新泽西州霍博肯:Wiley。书号 978-0470582473。
- Howell,David C.(2010年)。心理学统计方法,第7版。加利福尼亚贝尔蒙特;汤姆森·沃兹沃思(Thomson Wadsworth)。书号 978-0-495-59786-5。
- Peduzzi,P .;J.康卡托;E.肯珀; TR Holford;AR Feinstein(1996)。“逻辑回归分析中每个变量的事件数量的模拟研究”。临床流行病学杂志。49(12):1373–1379。doi:10.1016 / s0895-4356(96)00236-3。PMID 8970487。
- 贝里(Michael JA);Linoff,Gordon(1997)。用于营销,销售和客户支持的数据挖掘技术。威利。
外部链接
维基共享资源中与Logistic回归相关的媒体
- Mark Thoma在 YouTube上进行的计量经济学讲座(主题:Logit模型)
- 逻辑回归教程
- mlelr:用于教学目的的C语言软件