回归仅仅是让曲线尽可能靠近数据点吗?我们将从 概率与统计 的视角重新看待回归这件事.
以下内容总结自up主“迷路的小画家”的视频
线性回归
对于数据中的每个数据点 (xi,yi),都有 yi∈R.我们 把标签 yi 看成某个分布的一个采样,而这个 分布的参数和数据点所处位置 xi 有关.
如果我们认为存在 ω∈R,使得已标准化的所有数据点满足
yi=ωxi+εi
其中所有 εi 都服从 N(0,σ2) ,即 yi 是 N(ωxi,σ2) 的一个采样,且所有 yi 的采样相互独立.由于采样的随机性,我们只能做到尽可能找出一个 ω,使得所有的 yi 都是从 N(ωxi,σ2) 采样得来的 可能性 最大.
像这样,若 已知分布类型,通过 采样 数据 反推 出最有可能的 分布参数,叫 极大似然估计.
为什么估计出分布参数后就能得到最终的模型参数估计呢?在这里看起来模型参数 ω 恰好出现在分布参数 (期望 μ) 上,这是巧合吗?这背后是 链接函数 的功劳,这里先按下不表,后文将提及.
由于 yi 采样独立,该过程可以被描述成:求使得联合概率 (似然) 取到最大值的 ω
argωmaxi∏N(yi∣ωxi,σ2)
这里 N(yi∣μ,σ2) 是概率密度函数
f(x)=σ2π1exp(−21(σx−μ)2)
在 x=yi 上的取值.
连乘会导致数值极小,故取其对数变为 对数似然,累加不会使得数值减小,并且自然对数函数是单调递增的,不会影响最值点.
argωmaxi∑lnN(yi∣ωxi,σ2)=argωmaxi∑lnσ2π1exp(−21(σyi−ωxi)2)=argωmini∑(yi−ωxi)2
可以看到这正是最小二乘估计出来的 ω,等价于让直线 y=ωx 尽可能拟合数据点 (xi,yi).
最小化几何距离的拟合是回归的表面目的,回归更多是为了找到每个位置 xi 的分布均值.
逻辑回归
在这里,每个 y(i) 都是位置 (x1(i),x2(i)) 上某种分布的一个独立采样,只可能为 0 或者 1,因此这种分布是参数 p 随位置变化的 伯努利分布 (即两点分布、0-1分布),设为 B(p),其中 p(x1(i),x2(i)),伯努利分布的概率质量函数
B(y(i)∣p)=py(i)(1−p)1−y(i)
我们使用 sigmoid 函数作为模型参数 θ0,θ1,θ2 与分布参数 p 的链接函数 (暂时可以理解成 sigmoid 函数值看起来适合作为 y(i) 为 1 的概率),即令
η(i)=θ0+θ1x1(i)+θ2x2(i)p(x1(i),x2(i))=p(x(i))=S(η(i))=sigmoidη(i)=x(i)Tθ=1+e−η(i)1=1+eη(i)eη(i)
此时 “所有 y(i) 都采样自 B(p) 的对数似然”
lni∏B(y(i)∣p)=i∑lnpy(i)(1−p)1−y(i)=i∑(y(i)lnp+(1−y(i))ln(1−p))=i∑(y(i)ln1+eη(i)eη(i)+(1−y(i))ln1+eη(i)1)=i∑(y(i)η(i)−ln(1+eη(i)))
最大化对数似然
argθmaxlni∏B(y(i)∣p)=argθmini∑(−y(i)η(i)+ln(1+eη(i)))
因此损失函数形式为
J(θ)=m1i=1∑m(−y(i)η(i)+ln(1+eη(i)))
这是高阶可导的凹函数.在梯度下降法中,步进
Δθ=−α∇θJ(θ)=−mαi=1∑m(−y(i)∂θ∂η(i)+dη(i)dln(1+eη(i))⋅∂θ∂η(i))=−mαi=1∑m(−y(i)+1+eη(i)eη(i))∂θ∂η(i)=−mαi=1∑m(−y(i)+sigmoidη(i))∂θ∂x(i)Tθ=−mαi=1∑m(−y(i)+sigmoidη(i))x(i)
可能用到的矩阵微积分公式:[(ML-0) 微积分与线性代数]
分布参数与模型参数的桥梁——链接函数
在逻辑回归中,为什么非要用 sigmoid 函数而不是用其它具有 S 形曲线图象的函数去拟合呢?
模型参数与伯努利分布参数 (期望 μ) 的桥梁必然是 sigmoid 函数.类似地,模型参数与正态分布参数 (期望 μ) 的桥梁必然是恒等函数.
模型是线性的,模型参数 θj 和特征 xj 的关系是线性的,当线性模型的输入是 x(i) 时,输出是 η(i)=x(i)Tθ,是确定的值;
我们认为需要预测的目标值是随机变量,我们假设出它的某种分布 (比如在回归任务中,由于预测值遍及 R,我们可以合理假设目标值的分布是正态分布,期望随着特征的值变化而变化;又比如在二分类任务中,预测值只可能是 0 和 1,因此我们合理假设目标值的分布是伯努利分布,期望随着特征的值变化而变化),期望 μ、方差 σ2 这些 分布参数理应限制着模型的输出;
因为我们有极大似然估计这种能根据采样估计出分布参数的工具,所有我们希望能够 将分布参数跟模型参数联系在一起,这样就能一并估计出模型的参数.
广义线性模型 中,分布从正态分布拓展为 指数族分布,并要求模型参数只与 期望 有关.
为什么预测的是期望而不是其他分布参数呢?
目标值的期望反映了“数据出现的中心”这一重要特点,“回归”的概念就在于此:在指定所有特征的值的情况下,对目标值多次采样,即便采出极端值,只要采样次数足够大,采出的值总会回归到某个值上.
如果要预测像方差这种参数,需要用到广义矩估计等更高级的估计方法.
指数族分布是什么?
正态分布、拉普拉斯分布、伽马分布、指数分布、伯努利分布都是指数族分布,它们满足许多优良的性质:满足最大熵原理、共轭先验、充分统计量等.
在广义线性模型中,线性模型在某个位置 x 下的输出 η=xTθ,此时指数族分布都可以写成统一的指数形式:
P(y∣η)=h(y)eηTT(y)−A(η)
其中 P(y∣η) 是在 η 条件下的分布的概率密度 (质量) 函数,T(y) 是充分统计量,A(θ) 用于归一化.模型参数 η 所对应的分布参数设为 μ,σ2,由于广义线性模型要求模型参数只与期望有关,此时 σ 是无关量,
P(y∣η)=P(y∣μ,σ2)=P(y∣μ)
正态分布可以写成指数形式
P(y∣μ)=2π1exp(−21(y−μ)2)=2π1exp([μ−21][yy2]−2μ2)
由于预测的是期望,充分统计量中 y 对应于 ηT 的第一个元素 μ,因此链接函数 η=μ 是恒等函数.
再比如伯努利分布,期望就是 p 也可以写成指数形式
P(y∣p)=exp(ln1−pp⋅y+ln(1−p))
充分统计量 y 对应 ln1−pp (对数几率),因此链接函数 η=ln1−pp,其反函数就是 p=sigmoidη.