零基础学习机器学习(十三)线性回归的回顾和总结

一、线性回归的统计本质:高斯噪声与平方损失的渊源

线性回归并非简单“拟合直线”,而是基于概率假设的参数估计问题,其核心逻辑围绕“高斯噪声假设”与“最大似然估计”展开。

1.1 数据生成的概率模型

线性回归假设观测值yy 由“真实线性关系”与“高斯噪声”共同生成,公式表示为:
y=wTx+ϵy = \boldsymbol{w}^T \boldsymbol{x} + \epsilon
其中,wTx\boldsymbol{w}^T \boldsymbol{x}回归函数(即条件期望E[yx]\mathbb{E}[y|\boldsymbol{x}]),ϵ\epsilon 为噪声项且满足ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)(均值为0、方差为σ2\sigma^2 的高斯分布),且不同样本的噪声独立同分布(i.i.d.)。
由此可推导出观测值yy 的分布:yN(wTx,σ2)y \sim \mathcal{N}(\boldsymbol{w}^T \boldsymbol{x}, \sigma^2),意味着yy 围绕真实线性关系波动,波动幅度由σ2\sigma^2 决定。

1.2 最大似然估计(MLE)推导平方损失

目标是从训练数据D={(x1,y1),...,(xn,yn)}D = \{(\boldsymbol{x}_1,y_1), ..., (\boldsymbol{x}_n,y_n)\} 中估计最优参数w\boldsymbol{w}^*,核心方法为最大似然估计——找到使“观测到当前数据”概率最大的w\boldsymbol{w}

  1. 似然函数构造:因样本独立同分布,联合概率为各样本概率乘积,单个样本概率密度为:
    p(yixi;w)=12πσ2exp((yiwTxi)22σ2)p(y_i|\boldsymbol{x}_i; \boldsymbol{w}) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \boldsymbol{w}^T \boldsymbol{x}_i)^2}{2\sigma^2}\right)
    数据集似然函数为各样本密度乘积。
  2. 对数似然简化:对似然函数取对数(避免数值溢出,不改变极值点),得到:
    logL(w)=i=1n[log(12πσ2)(yiwTxi)22σ2]\log L(\boldsymbol{w}) = \sum_{i=1}^n \left[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) - \frac{(y_i - \boldsymbol{w}^T \boldsymbol{x}_i)^2}{2\sigma^2} \right]
  3. 等价性推导:对数似然中第一项与w\boldsymbol{w} 无关(为常数),最大化对数似然等价于最小化第二项分子,即:
    w=argminwi=1n(yiwTxi)2\boldsymbol{w}^* = \arg\min_{\boldsymbol{w}} \sum_{i=1}^n (y_i - \boldsymbol{w}^T \boldsymbol{x}_i)^2
    这表明平方损失是高斯噪声假设下最大似然估计的必然结果

1.3 线性回归与判别式模型

线性回归属于判别式模型,其核心特点是仅建模“条件概率p(yx)p(y|\boldsymbol{x})”,不关心“特征边缘概率p(x)p(\boldsymbol{x})”,并假设p(x)=1np(\boldsymbol{x}) = \frac{1}{n}(所有特征样本等概率),因此联合概率p(x,y)=p(yx)p(x)p(\boldsymbol{x},y) = p(y|\boldsymbol{x}) \cdot p(\boldsymbol{x}) 简化为条件概率。

二、突破线性限制:基函数的妙用

线性回归的“线性”指“对参数w\boldsymbol{w} 线性”,而非对特征x\boldsymbol{x} 线性,通过“基函数映射”可让模型拟合非线性数据。

2.1 基函数的核心逻辑

基函数通过将原始特征x\boldsymbol{x} 映射到更高维特征空间z\boldsymbol{z},在新空间中保持线性模型形式,公式为:
z=ϕ(x),h(x;w)=wTz=wTϕ(x)\boldsymbol{z} = \phi(\boldsymbol{x}), \quad h(\boldsymbol{x}; \boldsymbol{w}) = \boldsymbol{w}^T \boldsymbol{z} = \boldsymbol{w}^T \phi(\boldsymbol{x})
其中ϕ()\phi(\cdot) 为基函数,常见类型包括:

  • 多项式基函数:如一维特征xx 映射为ϕ(x)=[1,x,x2,...,xk]T\phi(x) = [1, x, x^2, ..., x^k]^Tkk 为多项式阶数);
  • 径向基函数(RBF):如ϕ(x)=exp((xc)22σ2)\phi(x) = \exp\left(-\frac{(x - c)^2}{2\sigma^2}\right)cc 为中心,σ\sigma 为带宽)。

2.2 基函数与深度学习的关联

基函数的设计方式决定了模型类型:

  • ϕ()\phi(\cdot)手动设置(如多项式、RBF),则属于传统“特征工程”;
  • ϕ()\phi(\cdot)通过神经网络学习(如CNN卷积核、Transformer注意力映射),则属于“深度特征学习”,这是深度学习处理复杂非线性问题的核心逻辑之一。

三、驯服过拟合:正则化的艺术

基函数数量过多或阶数过高易导致过拟合(模型学噪声、泛化差),文档中案例显示:9阶多项式拟合9个数据点时,参数绝对值极大(如232.37、-5321.83),曲线在数据点外剧烈波动、。解决过拟合的核心是“限制参数复杂度”,即正则化。

3.1 L2正则化(岭回归)

L2正则化在平方损失中加入参数L2范数惩罚项,损失函数为:
w^=argminwi=1n(yiwTxi)2+λw22\hat{\boldsymbol{w}} = \arg\min_{\boldsymbol{w}} \sum_{i=1}^n (y_i - \boldsymbol{w}^T \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{w}\|_2^2
其中,w22=w12+...+wd2\|\boldsymbol{w}\|_2^2 = w_1^2 + ... + w_d^2(L2范数平方),λ0\lambda \geq 0 为正则化系数(控制惩罚强度)。
作用:使参数所有分量趋近于0(无稀疏性),实现“权重衰减”,避免个别参数过大导致模型波动,几何上等价于限制w\boldsymbol{w} 落在L2球内。

3.2 L1正则化(套索回归)

L1正则化在平方损失中加入参数L1范数惩罚项,损失函数为:
w^=argminwi=1n(yiwTxi)2+λw1\hat{\boldsymbol{w}} = \arg\min_{\boldsymbol{w}} \sum_{i=1}^n (y_i - \boldsymbol{w}^T \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{w}\|_1
其中,w1=w1+...+wd\|\boldsymbol{w}\|_1 = |w_1| + ... + |w_d|(L1范数)。
作用:使部分参数为0(实现特征选择),几何上因L1约束区域为“超菱形”,与损失等高线交点易落在坐标轴上,产生稀疏解、。

3.3 L1与L2正则化对比

对比维度L2正则化(岭回归)L1正则化(套索回归)
参数结果所有参数趋近于0,无稀疏性部分参数为0,有稀疏性
特征选择能力
优化难度凸函数,梯度下降可高效求解参数为0处不可导,需特殊优化(如近端梯度)
适用场景特征少、无冗余的场景特征多、有冗余的场景

3.4 正则化的理论依据:Lipschitz连续性

文档提出定理:参数范数越小,模型Lipschitz常数越小。Lipschitz常数衡量函数“平滑程度”,常数越小,函数对输入变化越不敏感,泛化能力越强、。
对线性模型h(x)=wTxh(\boldsymbol{x}) = \boldsymbol{w}^T \boldsymbol{x},其Lipschitz常数等于w2\|\boldsymbol{w}\|_2,因此正则化限制w2\|\boldsymbol{w}\|_2 本质是让模型更平滑,减少过拟合。

四、线性回归的关键前提:特征工程与核心假设

线性回归性能依赖“特征工程”与“前提假设”,忽略这些会导致模型失效。

4.1 特征归一化:消除量纲影响

线性回归对特征量纲敏感(如“身高(米)”与“体重(千克)”数值范围差异大),需通过Z-score归一化消除影响:
对特征维度jj,先计算均值μj=1ni=1nxij\mu_j = \frac{1}{n} \sum_{i=1}^n x_{ij} 和标准差σj=1ni=1n(xijμj)2\sigma_j = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_{ij} - \mu_j)^2},再标准化为:
xij=xijμjσjx_{ij}' = \frac{x_{ij} - \mu_j}{\sigma_j}
归一化后所有特征均值为0、方差为1,确保各特征贡献权重公平、、。

4.2 线性回归的3个核心假设

线性回归生效需满足以下假设,否则平方损失可能非最优:

  1. 线性假设E[yx]=wTx\mathbb{E}[y|\boldsymbol{x}] = \boldsymbol{w}^T \boldsymbol{x}(真实回归函数为线性);
  2. 高斯噪声假设ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)(否则MLE推导的平方损失可能失效);
  3. 独立同分布假设:样本(xi,yi)(\boldsymbol{x}_i,y_i) 独立同分布(确保模型可泛化)。

五、总结:线性回归的“简单”与“不简单”

  • 简单之处:模型形式直观(线性关系)、优化高效(闭式解或梯度下降)、可解释性强(参数反映特征重要性);
  • 不简单之处:高斯噪声到平方损失的推导、基函数对非线性的扩展、正则化对过拟合的控制、特征工程的影响——这些思想贯穿机器学习领域(如深度学习权重衰减、Transformer特征映射)、。

线性回归是理解机器学习模型原理与前提的“最佳起点”,掌握其核心逻辑可为后续学习复杂模型(如逻辑回归、SVM、神经网络)奠定基础。