跳转至

02 | Linear Regression

5326 个字 4 张图片 预计阅读时间 21 分钟

OLS - 优化视角

考虑经典的线性回归模型:

\[ y = X \beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2 I_n) \]

其中:

  • \(y \in \mathbb{R}^n\):响应变量
  • \(X \in \mathbb{R}^{n \times p}\):满秩设计矩阵(列满秩)
  • \(\beta \in \mathbb{R}^p\):未知回归系数
  • \(\varepsilon\):独立同分布噪声,均值 0,方差 \(\sigma^2\)

残差平方和(Residual Sum of Squares, RSS)定义为:

\[ RSS = \sum_{i=1}^n \left( y_i - x_{i1}\beta_1 - \cdots - x_{ip}\beta_p \right)^2 \]

也可以写成向量形式:

\[ RSS = \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\mathsf{T}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) \]

最小二乘估计(Ordinary Least Squares, OLS)就是选择使 RSS 最小的 \(\boldsymbol{\beta}\)

\[ \widehat{\beta} = \underset{\boldsymbol{\beta}}{\operatorname*{arg\,min}} \; (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\mathsf{T}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) \]
  • To estimate \(\beta\), we set the derivative equal to 0 \(\(\frac{\partial \text{RSS}}{\partial \beta} = -2 \mathbf{X}^\top (\mathbf{y} - \mathbf{X} \beta) = 0\)\)
\[ \widehat{\beta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} \]
  • \(\mathbf{X}\) full rank \(\iff \mathbf{X}^\top \mathbf{X}\) invertible

性质

\[ \hat{\beta} = (X^T X)^{-1} X^T y \]

无偏

我们计算 \(\mathbb{E}[\hat{\beta}]\)

\[ \begin{aligned} \mathbb{E}[\hat{\beta}] &= \mathbb{E}[(X^T X)^{-1} X^T y] \\ &= (X^T X)^{-1} X^T \mathbb{E}[y] \\ &= (X^T X)^{-1} X^T (X\beta) \\ &= (X^T X)^{-1} X^T X \beta \\ &= \beta \end{aligned} \]

方差

\(\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\) 代入:

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top (\mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}) \\ = \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\varepsilon} \]

\[ \begin{aligned} \operatorname{Var}(\hat{\boldsymbol{\beta}}) &= \operatorname{Var} \left( (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\varepsilon} \right) \\ &= (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \operatorname{Var}(\boldsymbol{\varepsilon}) \mathbf{X} (\mathbf{X}^\top \mathbf{X})^{-1} \\ &= \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{X} (\mathbf{X}^\top \mathbf{X})^{-1} \\ &=\boxed{ \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1} }\\ &= \widehat{\sigma}^2 (\mathbf{X}^\top \mathbf{X})^{-1} \quad \text{(可用残差平方和估计)} \\ &= \frac{RSS}{n - p} (\mathbf{X}^\top \mathbf{X})^{-1} \\ &= \frac{1}{n - p} \sum_{i=1}^n \hat{\varepsilon}_i^2 (\mathbf{X}^\top \mathbf{X})^{-1} \end{aligned} \]

UMVUE

Lehmann–Scheffé 定理告诉我们:

若某无偏估计量是充分统计量的函数,则它是 UMVUE

我们来验证:

1️⃣ \(\hat{\beta}\) \(\beta\) 的无偏估计量 → ✅

已证

2️⃣ \(X^T y\) 是充分统计量 → ✅

因子分解定理

  • \(y \sim \mathcal{N}(X\beta, \sigma^2 I)\)
  • 联合密度函数可以写成关于 \(X^T y\) 的函数和不含 \(\beta\) 的函数之积
  • 所以 \(X^T y\) \(\beta\) 的充分统计量

\(\hat{\beta}\) \(X^T y\) 的函数 ⇒ 它是充分统计量的函数

✅ 满足 LehmannScheffé 定理条件 ⇒ 是 UMVUE


或者你也可以使用 Gauss-Markov 定理(非正态条件下)

Gauss-Markov 定理

在线性模型中,在所有线性无偏估计量中,OLS 是方差最小的。


\[ Ax = b + \epsilon \]

噪声 \(\epsilon\) 满足

\[ \begin{align*} \mathbb{E}(\epsilon) &= 0\\ Cov(\epsilon) &= \mathbb{E}[\epsilon \epsilon^T] = \sigma^2 I \end{align*} \]

内含的假设:误差的干扰源是独立的

\[ \hat{x}_{LS} = (A^T A)^{-1} A^T b \]

OLS 最小二乘估计是 \(x\) 的最小方差无偏估计

即满足

\[ \begin{align*} \mathbb{E}[\hat{x}_{LS}] &= \mathbb{E}\left[(A^T A)^{-1} A^T b\right] \\ &= (A^T A)^{-1} A^T \mathbb{E}(Ax - \epsilon) \\ &= (A^T A)^{-1} A^T A x \\ &= x\\ Var(\hat{x}_{LS}) &\leq Var(\tilde{x}) \end{align*} \]

但要注意:

  • Gauss-Markov 定理 → 最优线性无偏估计(BLUE)
  • Lehmann–Scheffé 定理(+ 正态性)→ 最小方差无偏估计(UMVUE)

Training Error & Test Error

\[ \begin{aligned} \mathbb{E}[\mathrm{TestErr}] &= \mathbb{E}\|\mathbf{y}^*-\mathbf{X}\widehat{\beta}\|^2 \\ &= \mathbb{E}\|(\mathbf{y}^*-\mathbf{X}\beta)+(\mathbf{X}\beta-\mathbf{X}\widehat{\beta})\|^2 \\ &= \mathbb{E}\|\mathbf{y}^*-\mu\|^2 + \mathbb{E}\|\mathbf{X}(\widehat{\beta}-\beta)\|^2 \\ &= \mathbb{E}\|\mathbf{e}^*\|^2 + \mathrm{Trace}(\mathbf{X}^\mathsf{T}\mathbf{X}\,\mathrm{Cov}(\widehat{\beta})) \\ &= n\sigma^2 + p\sigma^2 \end{aligned} \]
\[ \begin{aligned} \mathbb{E}[\mathrm{TrainErr}] &= \mathbb{E}\|\mathbf{y}-\mathbf{\widehat{y}}\|^2 = \mathbb{E}\|(\mathbf{I}-\mathbf{H})\mathbf{y}\|^2 \\ &= \mathbb{E}\|(\mathbf{I}-\mathbf{H})\mathbf{e}\|^2 \\ &= \mathrm{Trace}\left((\mathbf{I}-\mathbf{H})^\mathsf{T}(\mathbf{I}-\mathbf{H})\,\mathrm{Cov}(\mathbf{e})\right) \\ &= (n-p)\sigma^2 \end{aligned} \]

OLS - 统计视角

OLS MLE 在高斯噪声的条件下是等价的

观测出模型的假设非常关键,给人判定模型好坏的一个直观的方法

首先定义拟合误差 :

\[ Az = b + e \]

其中假设噪声 \(e\) 服从白噪声高斯分布

使用高斯噪声的建模假设:模型的预测能力是比较好的,没有 outlier(超出 \(3\sigma\) 的离群值,比如上课一次不来,作业一次不交,考试考 100 分的样本

在这种时候使用高斯噪声建模,可以得到一个比较好的结果

\[ e \sim N(e|0,\sigma^{2}I) \propto \exp\left[-\frac{1}{\sigma^{2}}\mathrm{e}^{\mathrm{H}}e\right] \]

因此条件概率可以写作 :

\[ p(b | Ax) = N(b|Ax,\sigma^{2}I)\\ = \frac{1}{z}\exp\left[-\frac{(b-Ax)^T(b-Ax)}{\sigma^2}\right] \]

根据极大似然估计 , 我们需要找到一个 \(z\) 使得 \(p(b|Az)\) 最大 :

\[ \begin{aligned} \max\ \log p(b|Az) &\Leftrightarrow \max\ \log \frac{1}{z}\exp\left[-\frac{(b-Ax)^T(b-Ax)}{\sigma^2}\right]\\ &= \max\ \log \frac{1}{z} -\frac{(b-Ax)^T(b-Ax)}{\sigma^2} \\ &= \min\ \frac{(b-Ax)^T(b-Ax)}{\sigma^2}\\ &= \min \ (b-Ax)^T(b-Ax)\\ &= \min \ \|Ax-b\|_2^2 \end{aligned} \]

conditional pdf b

likelihood function z

DLS - 最小数据二乘

假设数据矩阵 \(A\) 存在误差(比如记录样本数据的时候写错了)

\[ A = A_0 + E \\ E_{ij} \stackrel{\text{i.i.d.}}{\sim} N(0, \sigma^2) \]

使用校正量 \(\Delta A\) 来表示误差 , 即考察下面的约束优化问题

\[ \begin{align*} \min \quad & ||\Delta A||^2_F\\ s.t. \quad &\left[ A + \Delta A \right] x = b \end{align*} \]

underlying idea: 每个数据的误差不会特别大

Frobenius 范数 \((p=2)\) 是矩阵元素范数的一种,平方和的平方根

\[ \|A\|_F \stackrel{\text{def}}{=} \left( \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2 \right)^{1/2} = \sqrt{\text{trace}(AA^H)} \]

对于有约束问题,写出拉格朗日函数

\[ \begin{align*} L(A, \lambda) &= \|A\|_F^2 + \lambda^H \left[(A + \Delta A)x - b\right]\\ &= Trace(AA^H) + \lambda^H \left[(A + \Delta A)x - b\right] \end{align*} \]

求导数并令导数为 0

\[ \begin{align*} \frac{\partial L(A, \lambda)}{\partial \Delta A} &= \Delta A^H + \lambda x^H = 0\\ \frac{\partial L(A, \lambda)}{\partial \lambda^H} &= (A + \Delta A)x - b = 0 \end{align*} \]

可以解出

\[ \Delta A = - \frac{(Ax-b)x^H}{x^H x}\quad \lambda = \frac{Ax-b}{x^H x} \]

\(\Delta A\) \(\lambda\) 代入 \(L(A, \lambda)\),得到

\[ L(\Delta A, \lambda,x) = \frac{(Ax-b)^H (Ax-b)}{x^H x} \]

变成了一个无约束的优化问题

\[ \min_x J(x) =\frac{(Ax-b)^H (Ax-b)}{x^H x} \]
  • 方法 1: 使用梯度下降法求解 \(x^{t+1} = x^t - \eta \nabla J(x^t)\)
  • 方法 2: 这是一个分式优化的问题 (Fractional Programming),2018 IEEE TSP
\[ \begin{align*} \max_{x ,y} & \quad x^H y \\ \mathrm{s.t.} & \quad y = \frac{x}{(Ax-b)^H(Ax-b)} \end{align*} \]
\[ \min_{x, y} \|y\|_2^2 x^H A A^H x - 2 \mathrm{Re} \left\{ \|y\|_2^2 b^H A x \right\} + \|y\|_2^2 b^H b - 2 y^H x \]
  • Fix \(x\), 那么 \(y\) 有闭式解
  • Fix \(y\), 那么 \(x\) 是凸优化问题

TLS - 总体最小二乘

优化问题:纠正最小 \(\Delta A\) \(\Delta b\),同时可以满足约束

步骤

  1. input \(A\) \(b\)
  2. 增广矩阵 \(B = \begin{bmatrix} A & b \end{bmatrix}\)
  3. \(B^HB = V \Sigma V^H\)
  4. \(\lambda_{min}\) 对应的特征向量 \(v_{min}\)
  5. \(z^{\star} = v_{min} \times \frac{-1}{v_ {n+1}}\)

问题求解

\[ \begin{align*} \min_{\Delta A, \Delta b,x} \quad & ||\Delta A||^2_F + ||\Delta b||^2\\ s.t. \quad &\left[ A + \Delta A \right] x = b + \Delta b \end{align*} \]

写成分块矩阵的形式

\[ \begin{bmatrix}A & b\end{bmatrix}\begin{bmatrix} x \\ -1 \end{bmatrix} +\begin{bmatrix} \Delta A & \Delta b \end{bmatrix} \begin{bmatrix} x \\ -1 \end{bmatrix} = 0 \]

\[ B = \begin{bmatrix} A & b \end{bmatrix} \quad D = \begin{bmatrix} \Delta A & \Delta b \end{bmatrix} \quad z = \begin{bmatrix} x \\ -1 \end{bmatrix} \]

所以原始问题可以写成

\[ \begin{align*} \min_{\Delta A, \Delta b,x} \quad & \|\mathbf{D}\|_F^2 \\ \text{s.t.} \quad &(\mathbf{B} + \mathbf{D})z = 0 \end{align*} \]

可以看出,TLS DLS \(b = 0\) 的特殊情况

使用拉格朗日乘子法

\[ \begin{align*} \min_{z} \quad & \frac{(Bz-0)^H (Bz-0)}{z^H z} \\ =\; & \min_{z} \frac{z^H B^H B z}{z^H z} \end{align*} \]

两个二次型相除:Rayleigh 商,有闭式解(在 PCA TLS 中都有应用)

\(B^HB = V \Sigma V^H\) 进行特征值分解

那么最优解 \(z^{\star} = \begin{bmatrix} x^{\star} \\ -1 \end{bmatrix} = v_{min}\)(最小特征值对应的特征向量)

但是这里存在一个问题:\(v_{min}\) 的最后一行不一定是 \(-1\), 所以需要进行归一化,把最后一行构造成 \(-1\)

\[ \frac{-1}{v_{n+1}} V_{min}= \begin{bmatrix} \frac{-v_1}{v_{n+1}} \\ \frac{-v_2}{v_{n+1}} \\ \vdots \\ \frac{-v_n}{v_{n+1}} \\ -1 \end{bmatrix} = \begin{bmatrix} x^{\star} \\ -1 \end{bmatrix} \]

几何含义

普通 LS 是让竖直方向的距离误差最小

TLS 是让垂直方向上的距离误差最小 ; 即找到一条直线,让所有点到直线的距离最小

\[ \begin{align*} \min_{z} \frac{z^H B^H B z}{z^H z} =\;&\frac{ \begin{bmatrix} x \\ -1 \end{bmatrix}^H \left( \begin{bmatrix} A & b \end{bmatrix}^H \begin{bmatrix} A & b \end{bmatrix} \right) \begin{bmatrix} x \\ -1 \end{bmatrix} }{ \begin{bmatrix} x \\ -1 \end{bmatrix}^H \begin{bmatrix} x \\ -1 \end{bmatrix} } \\ =\; & \frac{ \|A_{\color{red}m\times n}x_{\color{red}n\times 1}-b_{\color{red}m\times 1}\|_2^2 }{ \|x_{\color{red}n\times 1}\|_2^2 + 1 }\\ =\; &\frac{\sum_{i=1}^{m}(a_i^Tx-b_i)^2}{\|x\|^2+1} \quad \text{矩阵的行视角} \end{align*} \]

点到直线距离公式

假设点 \(P(x_1, y_1)\) 到直线 \(Ax + By + C = 0\) 的距离为 \(d\),则距离公式为:

\[ d = \frac{|Ax_1 + By_1 + C|}{\sqrt{A^2 + B^2}} \]

对于直线 \(Ax -b = 0\),如果我们把 \(A\) 看作是横坐标变量,\(b\) 看作是纵坐标变量,那么点 \((a_1,b_1)\) 到直线 \(b = Ax\) 的距离就是

\[ d^2 = \frac{|Ax -b|^2}{x^2 + 1} \]

Rayleigh 商的应用场景 —— 最大信噪比的接收滤波器设计

\[ r(t) = BS(t) +noise(t) \]
  • \(r(t)\) 是接收到的信号
  • \(S(t)\) 是发射信号
  • \(noise(t)\) 是噪声

signal-to-noise ratio

设计滤波器,使得输出信噪比 SNR 最大

\[ \underset{\text{filter output}}{x^H r(t)} = \underset{\text{signal}}{x^H B s(t)} + \underset{\text{noise}}{x^H n(t)} \]
\[ \mathrm{SNR} = \frac{\mathbb{E}\left[\,|x^H B s(t)|^2\,\right]}{\mathbb{E}\left[\,|x^H n(t)|^2\,\right]} = \frac{x^H B\, \mathbb{E}\left[\underset{发射信号协方差}{S(t)S^H(t)}\right] B^H x}{x^H\, \mathbb{E}\left[\underset{噪声协方差}{n(t)n^H(t)}\right] x} \]

如果建模噪声是白噪声,彼此正交;且认为信号也是彼此正交的

  • \(E(s(t)s^H(t)) = \alpha I\)
  • \(E(n(t)n^H(t)) = \beta I\)
\[ \mathrm{SNR} = \frac{\alpha x^H B B^H x}{\beta x^H x} \]

得到了 Rayleigh 商的表达式

如果要 maximize SNR,那么需要 对 \(B B^H\) 进行特征值分解,取最大的特征值对应的特征向量

广义线性回归

logistic

线性回归有一个很强的假设,就是 y 是连续的;并且有更像邻近数的趋势 (MSE 对于线性回归不是一个好的 function)

  • one vs. Rest

logistic function:

  • sigmoid function: \(f(x) = \frac{1}{1+e^{-x}}\) CDF(累积分布函数)ofthe standard logistic distribution
    使用sigmoid函数将线性回归的输出转换为概率

logistic Regreesion 是一个线性模型

主要考虑的是 decision boundary

为什么 loss function 要取 log - 为了方便求导 - 取log使得连乘变成连加,不会丢失信息

Assumptions behind logistic regression - l(a) = -sum_{iin I} log(1+e^{-y_i a^T x_i})

pros: - binomial distribution is a good assumption for classification - provide a probability - low computation, easy to optimize - support online learning:梯度下降的模型都支持在线学习

cons: - too simple:high bias & low variance

对于分类问题,只关心分类正确的类的值

Penalty

A unified framework is to minimize the objective function

\[ \arg\min_{\beta} \frac{1}{2n}\|\mathbf{y}-\mathbf{X}\boldsymbol{\beta}\|^2 + \sum_{j=1}^p P_{\lambda}(\beta_j) \]

where \(P_{\lambda}(\cdot)\) is a penalty function applied on the value of each parameter, and \(\lambda\) is a tuning parameter.

  • Lasso: \(P_{\lambda}(\beta) = \lambda|\beta|\)
  • Ridge: \(P_{\lambda}(\beta) = \lambda\beta^2\)
  • Best subset: \(P_{\lambda}(\beta) = \lambda\mathbf{1}\{\beta \neq 0\}\)
  • Elastic net: \(P_{\lambda}(\beta) = \lambda_1|\beta| + \lambda_2\beta^2\)

Lasso - l1

核心内容 解释
Oracle Property 同时实现变量选择一致性 + 最优估计精度
Lasso 的问题 有偏差,不能同时实现两者
理论上条件 为了选变量,\(\lambda\) 要够大;但为估计精度,\(\lambda\) 又要趋于 0
解决方法 改用无偏惩罚函数(如 SCAD,或者接受一定折中

求解下面的优化问题

\[ \begin{aligned} & \text{minimize } \sum_{i=1}^{n} \left(y_i - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 \\ & \text{subject to } \sum_{j=1}^{p} |\beta_j| \leq s \end{aligned} \]
  • Each value of \(\lambda\) corresponds to an unique value of \(s\).

Lasso 回归在正交设计下的推导与原理

假设:

  • 设计矩阵满足 \(\mathbf{X}^\top \mathbf{X} = \mathbf{I}_p\)(即列向量正交,单位范数)
  • 目标是求解 Lasso 回归问题:
\[ \widehat{\boldsymbol{\beta}}^{\text{lasso}} = \arg\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X} \boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1 \]

步骤 1:插入 OLS

因为 OLS 解为:

\[ \widehat{\boldsymbol{\beta}}^{\text{ols}} = \mathbf{X}^\top \mathbf{y} \]

我们将其插入目标函数:

\[ \begin{align*} \|\mathbf{y} - \mathbf{X} \boldsymbol{\beta}\|^2 &= \|\mathbf{y} - \mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}} + \mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}} - \mathbf{X} \boldsymbol{\beta}\|^2\\ &= \|\mathbf{y} - \mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}}\|^2 + \|\mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}} - \mathbf{X} \boldsymbol{\beta}\|^2 + 2 \underbrace{(\mathbf{y} - \mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}})^\top (\mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}} - \mathbf{X} \boldsymbol{\beta})}_{=0} \end{align*} \]

其中最后一项为 0 是因为:

  • 残差 \(\mathbf{r} = \mathbf{y} - \mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}}\) 垂直于 \(\operatorname{Col}(\mathbf{X})\)
  • \(\mathbf{X}(\widehat{\boldsymbol{\beta}}^{\text{ols}} - \boldsymbol{\beta}) \in \operatorname{Col}(\mathbf{X})\)

步骤 2:目标函数化简

因为第一项与 \(\boldsymbol{\beta}\) 无关,我们只需最小化第二项 + 正则项:

\[ \min_{\boldsymbol{\beta}} \|\mathbf{X} \widehat{\boldsymbol{\beta}}^{\text{ols}} - \mathbf{X} \boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1\\ \leftrightarrow \min_{\boldsymbol{\beta}} \|\widehat{\boldsymbol{\beta}}^{\text{ols}} - \boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1 \quad (\because\mathbf{X}^\top \mathbf{X} = \mathbf{I}) \]

变量独立求解

目标函数可分解为每个参数的独立优化:

\[ \widehat{\beta}_j^{\text{lasso}} = \arg\min_{x} (x - a)^2 + \lambda |x|, \quad a = \widehat{\beta}_j^{\text{ols}} \]

这就是经典的 Soft Thresholding 问题,解为:

\[ \boxed{ \widehat{\beta}_j^{\text{lasso}} = \operatorname{sign}(a) \cdot \max(|a| - \lambda/2, 0) } \]

即:

  • 如果 \(|a| \leq \lambda/2\),解为 0
  • 否则,在方向上缩减 \(\lambda/2\)

Soft Thresholding = 变量选择机制

  • Ridge 回归使用 \(\ell_2\) 惩罚:系数永远不会变为 0,只是变小
  • Lasso 使用 \(\ell_1\) 惩罚:会直接把小的系数压成 0
  • 所以 Lasso 能实现 变量选择(sparsity)
项目 解释
正交设计 \(\mathbf{X}^\top \mathbf{X} = \mathbf{I}\) 简化问题
拆分误差项 残差项垂直于列空间,交叉项为 0
可分解目标 可对每个 \(\beta_j\) 独立求解
Soft Threshold
稀疏性来源 系数可能直接为 0,实现选择
\(\lambda\) 越大 越多的参数会被压成 0

Ridge - l2

视角 解释
最优化视角 Ridge 解是最小化 \(\|\mathbf{y} - \mathbf{X}\boldsymbol{\beta} \|^2 + \lambda \|\boldsymbol{\beta}\|^2\) 的解
贝叶斯视角 Ridge 解是 \(\boldsymbol{\beta} \sim \mathcal{N}(0, \frac{\sigma^2}{\lambda} \mathbf{I})\) 下的后验均值
PCA 视角

优化视角

最优化视角,即求解下面的最优化问题

\[ (y - X\beta)^{\top}(y - X\beta) + \lambda\beta^{\top}\beta \]

Take derivative with respect to \(\beta\) and set to zero

\[ \begin{aligned} \widehat{\beta}^{\mathrm{~ridge}}&= \boxed{(X^{\top}X + \lambda I)^{-1}X^{\top}y}\\&=(\mathbf{X}^\mathsf{T}\mathbf{X}+\lambda\mathbf{I})^{-1}(\mathbf{X}^\mathsf{T}\mathbf{X})(\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{y}\\&=(\mathbf{X}^\mathsf{T}\mathbf{X}+\lambda\mathbf{I})^{-1}(\mathbf{X}^\mathsf{T}\mathbf{X})\widehat{\boldsymbol{\beta}}^\mathsf{ols}\\&=\mathbf{Z}\widehat{\boldsymbol{\beta}}^{\mathrm{ols}} \end{aligned} \]

PCA 视角

SVD 分解

\[ \mathbf{X} = U D V^\top \]
  • \(U\):正交列向量,表示在数据空间中的方向(主成分)
  • \(D\):奇异值(与协方差矩阵特征值相关)
  • \(V\):输入空间的正交基(回归系数方向)

将协方差矩阵写成 PCA 形式:

\[ \frac{1}{n} \mathbf{X}^\top \mathbf{X} = V D^2 V^\top \]
  • 说明协方差的主方向(特征向量)就是 \(V\),对应特征值 \(d_j^2\)
  • \(j\) 个主成分为 \(X v_j = d_j u_j\)
  • 大的奇异值方向:数据方差大,保留信息多
  • 小的奇异值方向:容易过拟合,要强烈惩罚

Ridge 回归对响应变量的估计:

\[ \mathbf{X} \hat{\boldsymbol{\beta}}^{\text{ridge}} = \sum_{j=1}^p u_j \cdot \frac{d_j^2}{d_j^2 + \lambda} \cdot u_j^\top \mathbf{y} \]
  1. \(\mathbf{y}\) 投影到每个主成分方向 \(u_j\)
  2. 投影结果 \(u_j^\top y\) 缩小 了一个因子 \(\frac{d_j^2}{d_j^2 + \lambda}\)
  3. \(d_j^2\) 小的方向(低方差)被惩罚得更严重,防止对噪声过拟合
主题 内容
有偏性 Ridge 有偏,但可控制偏差
方差降低 Ridge 显著减少估计方差
MSE 更优 合适的 \(\lambda\) 可让 MSE 优于 OLS
几何理解 Ridge PCA 空间中对不同方向施加不同强度的 shrinkage
实用价值 尤其在高维 / 共线性严重时表现更好

贝叶斯视角

📌 先验假设

我们将回归系数 \(\boldsymbol{\beta}\) 视为一个随机变量,赋予如下先验分布:

\[ \boldsymbol{\beta} \sim \mathcal{N}\left(0, \frac{\sigma^2}{\lambda} \mathbf{I} \right) \]

这是一个零均值、高斯先验,对每个参数都做了 \(\ell_2\) 范数的惩罚。

🎯 似然函数(来自线性模型)

\[ \mathbf{y} \mid \boldsymbol{\beta} \sim \mathcal{N}(\mathbf{X}\boldsymbol{\beta}, \sigma^2 \mathbf{I}) \]

🧠 后验分布

利用贝叶斯定理(高斯 + 高斯 ⇒ 高斯,得到后验分布为:

\[ \boldsymbol{\beta} \mid \mathbf{y} \sim \mathcal{N}\left( \underbrace{(\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y}}_{\text{ridge 解}}, \; \text{协方差矩阵} \right) \]

其中后验 均值 正是 Ridge 回归的解析解:

\[ \boxed{ \mathbb{E}[\boldsymbol{\beta} \mid \mathbf{y}] = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y} } \]

Tikhonov 正则化

对于 OLS 问题,我们求解

\[ \min_x \|Ax-b\|_2^2 \]
\[ x_{LS} = (A^T A)^{-1} A^T b \]

但是如果 \(A\) 是病态的,那么 \((A^T A)^{-1}\) 会很大,导致 \(x_{LS}\) 不稳定

很直观的想法是让 \(A^{H}A\) 变得好一些,即

\[ \hat{x} = (A^{H}A + \lambda I)^{-1}A^{H}b \]

(Bayesian Linear Regression)

Tikhonov 证明求下面的优化问题和上面的等价

\[ \min_x J(x) = \|Ax-b\|_2^2 + \lambda \|x\|_2^2, \quad \lambda \geq 0 \]

证明一下

\[ J(x)=||Ax-b||_{2}^{2}+\lambda||x||_{2}^{2} \]

求解共轭梯度

\[ \frac{\partial J(x)}{\partial x^{*}}=A^{H}Ax-A^{H}b+\lambda x=0\\ (A^{H}A+\lambda I)x=A^{H}b \]

解得

\[ \hat{x}_{Tik}=(A^{H}A+\lambda I)^{-1}Ab \]
  • 解决过拟合
  • 解决病态问题,提高数值稳定性
  • 代价函数对应的是 likelihood
  • 正则项对应的是 prior

bias

Ridge 回归是有偏估计

\[ \mathbb{E}[\hat{\boldsymbol{\beta}}^{\text{ridge}}] = Z \boldsymbol{\beta}, \quad Z = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{X} \]
  • 因为 \(Z \neq I\),所以 ridge 估计是 有偏的
  • 随着正则化参数 \(\lambda\) 增大,bias² 增加
  • 这是偏差 - 方差权衡的一部分

variance

\[ \begin{align*} \operatorname{Var}\left(\widehat{\boldsymbol{\beta}}^{\text{ ridge}}\right) &= \operatorname{Var}\left(\mathbf{Z}\widehat{\boldsymbol{\beta}}^{\mathrm{ols}}\right) \\ &= {\color{red}Z}\operatorname{Var}\left(\widehat{\boldsymbol{\beta}}^{\mathrm{ols}}\right) {\color{red}Z^T}\\ &= {\color{red}(\mathbf{X}^\mathsf{T}\mathbf{X}+\lambda\mathbf{I})^{-1}(\mathbf{X}^\mathsf{T}\mathbf{X})}\sigma^2(X^TX)^{-1}{\color{red}(\mathbf{X}^\mathsf{T}\mathbf{X})(\mathbf{X}^\mathsf{T}\mathbf{X}+\lambda\mathbf{I})^{-1}}\\ &=\sigma^{2}\left(\mathbf{X}^{\top} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\top} \mathbf{X}\left(\mathbf{X}^{\top} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \end{align*} \]

总体方差是一个关于正则化强度 \(\lambda\) 单调递减函数

\[ \text{Total Variance} = \operatorname{Tr}\left( \operatorname{Var}\left(\hat{\boldsymbol{\beta}}^{\text{ridge}} \right) \right) = \sigma^2 \cdot \operatorname{Tr} \left[ \left( X^T X + \lambda I \right)^{-1} X^T X \left( X^T X + \lambda I \right)^{-1} \right] \]

\(\mathbf{S} = X^T X\),它是对称正定的

我们可以对它做特征值分解(因为它对称

\[ \mathbf{S} = Q \Lambda Q^\top, \quad \text{其中 } \Lambda = \text{diag}(\lambda_1, \ldots, \lambda_p), \lambda_i > 0 \]

于是整个方差矩阵可以化简为:

\[ \operatorname{Var}(\hat{\boldsymbol{\beta}}^{\text{ridge}}) = \sigma^2 Q \cdot \text{diag} \left( \frac{\lambda_i}{(\lambda_i + \lambda)^2} \right) \cdot Q^\top \]

所以其 trace 为:

\[ \text{Total Variance} = \sigma^2 \sum_{i=1}^p \frac{\lambda_i}{(\lambda_i + \lambda)^2} \]
  • 总体方差是一个关于正则化强度 \(\lambda\) 单调递减函数
  • 换句话说,正则化越强 ⇒ 系数波动越小

自由度

  • Ridge 回归虽然估计 \(\widehat{\boldsymbol{\beta}}^{\text{ridge}} \in \mathbb{R}^p\),但由于 Shrinkage,不等价于使用所有 \(p\) 个变量的全部自由度。
  • 自由度随着 \(\lambda\) 的变化而变化:

    • \(\lambda \to 0\): Ridge 退化为 OLS\(\text{df} = p\)
    • \(\lambda \to \infty\): 所有参数被压缩到 0\(\text{df} \to 0\)
    • 所以:

      \[ 0 \leq \text{df}(\lambda) \leq p \]

dof

\[ \text{df}(\hat{f}) = \frac{1}{\sigma^2} \sum_{i=1}^n \operatorname{Cov}(\hat{y}_i, y_i) = \frac{1}{\sigma^2} \operatorname{Trace} \left( \operatorname{Cov}(\hat{\mathbf{y}}, \mathbf{y}) \right) \]
\[ \widehat{\mathbf{y}} = \mathbf{S} \mathbf{y}, \quad \text{其中} \quad \mathbf{S} = \mathbf{X}(\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \]
\[ \text{df}(\lambda) = \operatorname{Trace}(\mathbf{S}) = \operatorname{Trace} \left( \mathbf{X}(\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \right) \]
  • 若对 \(\mathbf{X}\) 做奇异值分解(SVD

    \[ \mathbf{X} = UDV^\top, \quad \text{其中} \ D = \operatorname{diag}(d_1, \dots, d_p) \]
  • 则自由度可写为:
\[ \boxed{ \text{df}(\lambda) = \sum_{j=1}^{p} \frac{d_j^2}{d_j^2 + \lambda} } \]
  • 每个主成分方向 \(j\) 的自由度贡献是一个 shrinkage 因子:

    $$ frac{d_j2}{d_j2 + lambda} $$ * 方差小的方向(\(d_j\) 小)会被严重 shrink,自由度贡献也少 * 这是 Ridge 比 OLS 更稳健但有偏的原因

elastic

lasso ridge 对比 - Ridge is \(\ell_{2}\) penalty - Lasso is \(\ell_{1}\) penalty - Best subset is \(\ell_{0}\) penalty - Bridge penalty is \(\ell_{q}\) normal

\(q = 4\)
\(q = 2\)
\(q = 1\)
\(q = 0.5\)
\(q = 0.1\)

\(\sum_{j}|\beta_{j}|^{q}\) for given values of \(q\).

Elastic-net is a hybrid of \(\ell_{1}\) and \(\ell_{2}\):

\(\lambda_{1}\|\beta\|_{1} + \lambda_{2}\|\beta\|_{2}^{2}\)

LDA

理解主成分分析(1)——最大方差投影与数据重建 - Fenrier Lab

简单理解线性判别分析 - 知乎

LDA 线性判别分析——投影的疑问解答 _lda 投影 -CSDN 博客

最小化类内方差

\[ \begin{align*} &\quad \min\limits_w \left[\sum\limits_{x\in X_0}(w^Tx-w^T\mu_0)^2+\sum\limits_{x\in X_1}(w^Tx-w^T\mu_1)^2\right]\\ &=\min\limits_w w^T \left[\sum\limits_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum\limits_{x\in X_1}(x-\mu_1)(x-\mu_1)^T\right]w \\ &=\min\limits_w w^TS_ww \\ \end{align*} \]

最大化类间方差

\[ \begin{align*} &\quad \max\limits_w \left[(w^T\mu_0-\frac{w^T\mu_0+w^T\mu_1}{2})^2+(w^T\mu_1-\frac{w^T\mu_0+w^T\mu_1}{2})^2\right]\\ &=\max\limits_w \frac{1}{2}w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw\\ &=\max\limits_w \frac{1}{2}w^TS_bw \\ \end{align*} \]

因为自变量只有 \(w\),不一定二者都能同时达到最优,所以整合到一起取下式的最大值:

\[ J = \displaystyle \frac{w^TS_bw}{w^TS_ww} \]

LDA——线性判别分析基本推导与实验 -CSDN 博客

二分类线性判别分析,看懂这篇就够了 - 知乎