清华大学线性代数(2)课程第六讲:伪逆
参考资料:
清华大学数学科学系-线性代数-马辉
《工程数学 线性代数 第六版》 同济大学数学系 高等教育出版社
Linear Algebra by Gilbert Strang MIT麻省理工线性代数公开视频课,非常推荐!
问题:对$m \times n$的矩阵$A$,定义其伪逆(pseudoinverse)$A^{\dagger}$,使得当$A$为n阶可逆矩阵时,有$A^{\dagger}=A^{-1}$。
思路:设$m \times n$实矩阵$A=U \Sigma V^{T} \quad(SVD)$,其中$U, V$分别为$m$阶,$n$阶正交阵;$\Sigma$为$m \times n$矩阵,前$r=r(A)$个“对角元”为$A$的奇异值$\sigma{1} \geq \cdots \geq \sigma{r}>0$
即:
若$A$可逆,则$A^{-1} \mathbf{u}{j}=\frac{1}{\sigma{j}} \mathbf{v}{j} \quad(1 \leq j \leq r=m=n)$
对$A{m \times n}$,令
即:
跟据奇异值分解SVD,有伪逆定义:$A_{n \times m}^{\dagger}:=V \Sigma^{\dagger} U^{T}$
伪逆的性质:
(1)若$A$可逆,则$r=m=n$,则
(2)
$\bullet$ 可以明显看出$A A^{\dagger}$是对称矩阵:$\left(A A^{\dagger}\right)^{T}=A A^{\dagger}$
$\bullet$ $A A^{\dagger}=\mathbf{u}{1} \mathbf{u}{1}^{T}+\cdots+\mathbf{u}{r} \mathbf{u}{r}^{T}$,也可以看出$A A^{\dagger}$为r个秩一投影矩阵之和。$\mathbf{u}{1}$到$\mathbf{u}{r}$为$A$的列空间的标准正交基。
所以$A A^{\dagger}$为$\mathbb{R}^{m}$到$C(A)$的正交投影矩阵,有
(id为恒同变换)
(3)
$\bullet$ 可以明显看出$A^{\dagger} A$是对称矩阵,$\left(A^{\dagger} A\right)^{T}=A^{\dagger} A$
$\bullet$ $A^{\dagger} A=\mathbf{v}{1} \mathbf{v}{1}^{T}+\cdots+\mathbf{v}{r} \mathbf{v}{r}^{T}$,也可以看出$A^{\dagger} A$为r个秩一投影矩阵之和。$\mathbf{v}{1}$到$\mathbf{v}{r}$为$A$的行空间的标准正交基。所以$A^{\dagger} A$为$\mathbb{R}^{n}$到$C\left(A^{T}\right)$的正交投影矩阵。
左逆和右逆
若$r=n$,($A$列满秩),则$A^{\dagger} A=V V^{T}=I_{n}$,称$A^{\dagger}$为$A$的左逆。
若$r=m$,($A$行满秩),则$A A^{\dagger}=U U^{T}=I_{m}$,称$A^{\dagger}$为$A$的右逆。
若$r=m=n$,($A$满秩),则$A A^{\dagger}=A^{\dagger} A=I, A^{\dagger}=A^{-1}$,则称$A^{\dagger}$为$A$的双边逆。
Moore-Penrose伪逆
Eliakim Hastings Moore(1862-1932),美国数学家,二十世纪初美国数学奠基人
Roger Penrose(1931- )英国著名数学物理学家,1988Wolf奖得主,与Stephen Hawking合作证明了广义相对论奇点存在性
对于$m \times n$矩阵$A$,Moore意义下的伪逆满足
的$n \times m$矩阵$X$,$P_{V}$表示到空间$V$的正交投影矩阵
1955年,英国剑桥大学博士研究生Penrose给出了伪逆的如下定义:
设$A$为$m \times n$实矩阵,若$n \times m$矩阵$X$满足如下方程组:
则称$X$为矩阵$A$的Penrose伪逆
命题:给定任一$m \times n$实矩阵$A$,$A$的伪逆$A^{\dagger}$是满足Penrose伪逆要求的唯一$n \times m$矩阵
证明:
存在性:由$A^{\dagger}=V \Sigma^{\dagger} U^{T}$,$A=U \Sigma V^{T}$容易验证出$A^{\dagger}$满足Penrose方程组。
唯一性:若$X$和$Y$均为矩阵$A$的Penrose伪逆,则可以证明$X=Y$
最小二乘法
之前我们学习最小二乘法,当方程$A \mathbf{x}=\mathbf{b}$无解时求解方程的最佳近似解。
根据normal equation:$A^{T} A \widehat{\mathbf{x}}=A^{T} \mathbf{b}$。因为$r\left(A^{T} A\right)=r(A)=n$。当$r(A)=n$(当$A$列满秩),则$A^{T} A$可逆。在这种情况下,有唯一最小二乘解:$\widehat{\mathbf{x}}=\left(A^{T} A\right)^{-1} A^{T} \mathbf{b}$。
但是当$r(A)<n$,(A列相关)时,有$r\left(A^{T} A\right)=r(A)<n$,normal equation的解不唯一。
命题:$\mathbf{x}^{\dagger}:=A^{\dagger} \mathbf{b}$为一个最小二乘解
证明:$A^{T} \mathbf{b}-A^{T} A \mathbf{x}^{\dagger}=A^{T}\left(\mathbf{b}-A \mathbf{x}^{\dagger}\right)=A^{T}\left(\mathbf{b}-A A^{\dagger} \mathbf{b}\right)$
由于$A A^{\dagger}$ 为 $\mathbb{R}^{m}$到$C(A)$的正交投影矩阵,故$\mathbf{b}-A A^{\dagger} \mathbf{b} \in N\left(A^{T}\right)$,于是有$A^{T} \mathbf{b}-A^{T} A \mathbf{x}^{+}=A^{T}\left(\mathbf{b}-A A^{+} \mathbf{b}\right)=\mathbf{0}$,得证。
命题:在$A \mathbf{x}=\mathbf{b}$的所有最小二乘解中,$\mathbf{x}^{\dagger}$的长度最小,称$\mathbf{x}^{\dagger}=A^{\dagger} \mathbf{b}$为$A \mathbf{x}=\mathbf{b}$的最佳最小二乘解。
证明:
设$\widehat{\mathbf{x}}$也是$A^{T} A \widehat{\mathbf{x}}=A^{T} \mathbf{b}$的一个解,即一个最小二乘解,于是
而$\mathbf{x}^{\dagger}=A^{\dagger} \mathbf{b} \in C\left(A^{T}\right)$,故$\mathbf{x}^{\dagger} \perp \widehat{\mathbf{x}}-\mathbf{x}^{\dagger}$,有
即$\mathbf{x}^{\dagger}$是长度最小的最小二乘解。
$\mathbf{x}^{\dagger}=A^{\dagger} \mathbf{b}$空间关系如下图所示: