一、线性回归的统计本质:高斯噪声与平方损失的渊源
线性回归并非简单“拟合直线”,而是基于概率假设的参数估计问题,其核心逻辑围绕“高斯噪声假设”与“最大似然估计”展开。
1.1 数据生成的概率模型
线性回归假设观测值y 由“真实线性关系”与“高斯噪声”共同生成,公式表示为:
y=wTx+ϵ
其中,wTx 是回归函数(即条件期望E[y∣x]),ϵ 为噪声项且满足ϵ∼N(0,σ2)(均值为0、方差为σ2 的高斯分布),且不同样本的噪声独立同分布(i.i.d.)。
由此可推导出观测值y 的分布:y∼N(wTx,σ2),意味着y 围绕真实线性关系波动,波动幅度由σ2 决定。
1.2 最大似然估计(MLE)推导平方损失
目标是从训练数据D={(x1,y1),...,(xn,yn)} 中估计最优参数w∗,核心方法为最大似然估计——找到使“观测到当前数据”概率最大的w。
- 似然函数构造:因样本独立同分布,联合概率为各样本概率乘积,单个样本概率密度为:
p(yi∣xi;w)=2πσ21exp(−2σ2(yi−wTxi)2)
数据集似然函数为各样本密度乘积。 - 对数似然简化:对似然函数取对数(避免数值溢出,不改变极值点),得到:
logL(w)=∑i=1n[log(2πσ21)−2σ2(yi−wTxi)2] - 等价性推导:对数似然中第一项与w 无关(为常数),最大化对数似然等价于最小化第二项分子,即:
w∗=argminw∑i=1n(yi−wTxi)2
这表明平方损失是高斯噪声假设下最大似然估计的必然结果。
1.3 线性回归与判别式模型
线性回归属于判别式模型,其核心特点是仅建模“条件概率p(y∣x)”,不关心“特征边缘概率p(x)”,并假设p(x)=n1(所有特征样本等概率),因此联合概率p(x,y)=p(y∣x)⋅p(x) 简化为条件概率。
二、突破线性限制:基函数的妙用
线性回归的“线性”指“对参数w 线性”,而非对特征x 线性,通过“基函数映射”可让模型拟合非线性数据。
2.1 基函数的核心逻辑
基函数通过将原始特征x 映射到更高维特征空间z,在新空间中保持线性模型形式,公式为:
z=ϕ(x),h(x;w)=wTz=wTϕ(x)
其中ϕ(⋅) 为基函数,常见类型包括:
- 多项式基函数:如一维特征x 映射为ϕ(x)=[1,x,x2,...,xk]T(k 为多项式阶数);
- 径向基函数(RBF):如ϕ(x)=exp(−2σ2(x−c)2)(c 为中心,σ 为带宽)。
2.2 基函数与深度学习的关联
基函数的设计方式决定了模型类型:
- 若ϕ(⋅) 为手动设置(如多项式、RBF),则属于传统“特征工程”;
- 若ϕ(⋅) 可通过神经网络学习(如CNN卷积核、Transformer注意力映射),则属于“深度特征学习”,这是深度学习处理复杂非线性问题的核心逻辑之一。
三、驯服过拟合:正则化的艺术
基函数数量过多或阶数过高易导致过拟合(模型学噪声、泛化差),文档中案例显示:9阶多项式拟合9个数据点时,参数绝对值极大(如232.37、-5321.83),曲线在数据点外剧烈波动、。解决过拟合的核心是“限制参数复杂度”,即正则化。
3.1 L2正则化(岭回归)
L2正则化在平方损失中加入参数L2范数惩罚项,损失函数为:
w^=argminw∑i=1n(yi−wTxi)2+λ∥w∥22
其中,∥w∥22=w12+...+wd2(L2范数平方),λ≥0 为正则化系数(控制惩罚强度)。
作用:使参数所有分量趋近于0(无稀疏性),实现“权重衰减”,避免个别参数过大导致模型波动,几何上等价于限制w 落在L2球内。
3.2 L1正则化(套索回归)
L1正则化在平方损失中加入参数L1范数惩罚项,损失函数为:
w^=argminw∑i=1n(yi−wTxi)2+λ∥w∥1
其中,∥w∥1=∣w1∣+...+∣wd∣(L1范数)。
作用:使部分参数为0(实现特征选择),几何上因L1约束区域为“超菱形”,与损失等高线交点易落在坐标轴上,产生稀疏解、。
3.3 L1与L2正则化对比
| 对比维度 | L2正则化(岭回归) | L1正则化(套索回归) |
|---|
| 参数结果 | 所有参数趋近于0,无稀疏性 | 部分参数为0,有稀疏性 |
| 特征选择能力 | 无 | 有 |
| 优化难度 | 凸函数,梯度下降可高效求解 | 参数为0处不可导,需特殊优化(如近端梯度) |
| 适用场景 | 特征少、无冗余的场景 | 特征多、有冗余的场景 |
3.4 正则化的理论依据:Lipschitz连续性
文档提出定理:参数范数越小,模型Lipschitz常数越小。Lipschitz常数衡量函数“平滑程度”,常数越小,函数对输入变化越不敏感,泛化能力越强、。
对线性模型h(x)=wTx,其Lipschitz常数等于∥w∥2,因此正则化限制∥w∥2 本质是让模型更平滑,减少过拟合。
四、线性回归的关键前提:特征工程与核心假设
线性回归性能依赖“特征工程”与“前提假设”,忽略这些会导致模型失效。
4.1 特征归一化:消除量纲影响
线性回归对特征量纲敏感(如“身高(米)”与“体重(千克)”数值范围差异大),需通过Z-score归一化消除影响:
对特征维度j,先计算均值μj=n1∑i=1nxij 和标准差σj=n1∑i=1n(xij−μj)2,再标准化为:
xij′=σjxij−μj
归一化后所有特征均值为0、方差为1,确保各特征贡献权重公平、、。
4.2 线性回归的3个核心假设
线性回归生效需满足以下假设,否则平方损失可能非最优:
- 线性假设:E[y∣x]=wTx(真实回归函数为线性);
- 高斯噪声假设:ϵ∼N(0,σ2)(否则MLE推导的平方损失可能失效);
- 独立同分布假设:样本(xi,yi) 独立同分布(确保模型可泛化)。
五、总结:线性回归的“简单”与“不简单”
- 简单之处:模型形式直观(线性关系)、优化高效(闭式解或梯度下降)、可解释性强(参数反映特征重要性);
- 不简单之处:高斯噪声到平方损失的推导、基函数对非线性的扩展、正则化对过拟合的控制、特征工程的影响——这些思想贯穿机器学习领域(如深度学习权重衰减、Transformer特征映射)、。
线性回归是理解机器学习模型原理与前提的“最佳起点”,掌握其核心逻辑可为后续学习复杂模型(如逻辑回归、SVM、神经网络)奠定基础。