清华大学线性代数课程第19,20,21,22讲:方阵的特征值与特征向量,方阵的对角化
参考资料:
清华大学数学科学系-线性代数-马辉
《工程数学 线性代数 第六版》 同济大学数学系 高等教育出版社
Linear Algebra by Gilbert Strang MIT麻省理工线性代数公开视频课,非常推荐!
1. 方阵的特征值与特征向量
定义:设$A$是n阶矩阵,如果数$\lambda$和n维非零列向量$x$使关系式
成立,那么,这样的数$\lambda$称为矩阵$A$的特征值(eigenvalue),非零向量$x$称为$A$的对应于特征值$\lambda$的特征向量(eigenvector),上式也可以写成
这是n个未知数n个方程的齐次线性方程组,它有非零解的充分必要条件是系数行列式
即
上式是以$\lambda$为未知数的一元n次方程,称为矩阵$A$的特征方程(characteristic equation),其左端$|A-\lambda E|$是$\lambda$的n次多项式,记作$f(\lambda)$,称为矩阵$A$的特征多项式(characteristic polynomial)。显然,$A$的特征值就是特征方程的解。根据代数的基本定理,特征方程在复数范围内恒有解,其个数为方程的次数(重根按重数计算),因此,n阶矩阵$A$在复数范围内有n个特征值。
设n阶矩阵$A=\left(a{i j}\right)$的特征值为$\lambda{1}, \lambda{2}, \cdots, \lambda{n}$,不难证明
$\text { (i) } \lambda{1}+\lambda{2}+\cdots+\lambda{n}=a{11}+a{22}+\cdots+a{n n}$
$\text { (ii) } \lambda{1} \lambda{2} \cdots \lambda{n}=|A|$
由$(\text { ii })$可知$A$是可逆矩阵的充分必要条件是它的n个特征值全不为零,若矩阵$A$不可逆,则$A$有零特征值。
设$\lambda=\lambda{i}$为矩阵$A$的一个特征值,则由方程
可求得非零解$\mathbf{x}=p{i}$,那么$\mathbf{p}{i}$便是$A$的对应于特征值$\lambda{i}$的特征向量。若$\lambda{i}$为实数,则$\mathbf{p}{i}$可以取实向量;若$\lambda{i}$为复数,则$\mathbf{p}{i}$为复向量。
显然,若$\mathbf{p}{i}$是矩阵$A$的对应于特征值$\lambda{i}$的特征向量,则$k p{i}\quad(k \neq 0)$也是对应于$\lambda_{i}$的特征向量
特征空间(eigenspace)是具有相同特征值的特征向量与一个同维数的零向量的集合
特征值的性质:设$\lambda$是方阵$A$的特征值,则
(1)$\lambda^{2}$是$A^{2}$的特征值
(2)当$\mathbf{A}$可逆时,$\frac{1}{\lambda}$是$A^{-1}$的特征值
证明:因为$\lambda$是方阵$A$的特征值,故有$p \neq 0$使得$A p=\lambda p$,于是
(1)因为$A^{2} p=A(A p)=A(\lambda p)=\lambda(A p)=\lambda^{2} p$,所以$\lambda^{2}$是$A^{2}$的特征值。
(2)当$A$可逆时,由$A p=\lambda p$,有$p=\lambda A^{-1} p$,因$p \neq 0$,知$\lambda \neq 0$,故
所以$\frac{1}{\lambda}$是$A^{-1}$的特征值。
以此类推,不难证明:若$\lambda$是方阵$A$的特征值,则$\lambda^{k}$是$A^{k}$的特征值;$\varphi(\lambda)$是$\varphi(A)$的特征值(其中$\varphi(\lambda)=a{0}+a{1} \lambda+\cdots+a{m} \lambda^{m}$是$\lambda$的多项式,$\varphi(A)=a{0} E+a{1} A+\cdots+a{m} A^{m}$是矩阵$A$的多项式)。这是特征值的一个重要性质。
投影矩阵$P=A\left(A^{T} A\right)^{-1} A^{T}$的特征值为0或1,从几何角度理解,特征向量为经过投影后方向不变的向量,只有A的列空间和A的左零空间里面的向量投影后方向不变,其中C(A)空间里面的向量投影后大小方向不变,特征值为1,$N(A^{T})$空间里面的向量经过投影后为零向量,特征值为0。
反射矩阵的特征值为1,-1。设$\mathbf{u} \in \mathbb{R}^{n},|\mathbf{u}|=1$,则$R=I_{n}-2 \mathbf{u} \mathbf{u}^{T}$为关于与$\mathbf{u}$正交的超平面的反射矩阵。从几何角度理解,$\forall \mathbf{v} \in \mathbb{R}^{n}$,若$\mathbf{v} \perp \mathbf{u}$,则$R \mathbf{v}=\mathbf{v}$。若$\mathbf{v} / / \mathbf{u}$,则$R \mathbf{v}=-\mathbf{v}$
由于,投影矩阵和反射矩阵都是对称矩阵,所以他们不同特征值对应的特征空间正交。
定理:设$\lambda{1}, \lambda{2}, \cdots, \lambda{m}$是方阵$A$的m个特征值,$p{1}, p{2}, \cdots, p{m}$依次是与之对应的特征向量,如果$\lambda{1}, \lambda{2}, \cdots, \lambda{m}$各不相等,则$p{1}, p{2}, \cdots, p{m}$线性无关。
推论:设$\lambda{1}$和$\lambda{2}$是方阵$A$的两不同的特征值,$\xi{1}, \xi{2}, \cdots, \xi{s}$和$\eta{1}, \eta{2}, \cdots, \eta{t}$分别是对应于$\lambda{1}$和$\lambda{2}$的线性无关的特征向量,则$\xi{1}, \xi{2}, \cdots, \xi{s}, \eta{1}, \eta{2}, \cdots, \eta{t}$线性无关。
2.相似矩阵
定义:设$A, B$都是n阶矩阵,若有可逆矩阵$P$使
则称$B$是$A$的相似矩阵,或说矩阵$A$和$B$相似,对$A$进行运算$\mathbf{P}^{-1} \mathbf{A} \mathbf{P}$称为对$A$进行相似变换,可逆矩阵$P$称为把$A$变成$B$的相似变换矩阵。
定理:若n阶矩阵$A$与$B$相似,则$A$与$B$的特征多项式相同,从而$A$与$B$的特征值亦相同
推论:若n阶矩阵$A$与对角矩阵
相似,则$\lambda{1}, \lambda{2}, \cdots, \lambda_{n}$即是$A$的n个特征值。
因为若$A=P B P^{-1}$,则有$A^{k}=P B^{k} P^{-1}$,有A的多项式$\varphi(\mathbf{A})=\mathbf{P} \varphi(\mathbf{B}) \mathbf{P}^{-1}$。特别地,若有可逆矩阵$P$使$P^{-1} A P=\Lambda$为对角矩阵,即若$A$相似于对角矩阵$\mathbf{\Lambda}$,则
而对角矩阵的方幂是便于计算的。
定理:n阶矩阵$A$与对角矩阵相似(即$A$能对角化)的充分必要条件是$A$有n个线性无关的特征向量
推论:如果n阶矩阵$A$的n个特征值互不相等,则$A$与对角矩阵相似。
特征值的代数重数和几何重数
定义:设$\operatorname{det}(A-\lambda I)=\left(\lambda{1}-\lambda\right)^{n{1}} \cdots\left(\lambda{k}-\lambda\right)^{n{k}}$,其中$\lambda{i} \neq \lambda{j}(i \neq j)$。称$n{i}$为特征值$\lambda{i}$的代数重数(algebraic multiplicity),记作$A M\left(\lambda{i}\right)=n{i}$。称$\operatorname{dim} N\left(A-\lambda{i} I\right)$为特征值$\lambda{i}$的几何重数(geometric multiplicity),记作$G M\left(\lambda{i}\right)=\operatorname{dim} N\left(A-\lambda{i} I\right)$。
一般地,$G M(\lambda) \leq A M(\lambda)$,特征值的几何重数小于等于代数重数
定理:复方阵$A$可对角化$\Longleftrightarrow$对任意的特征值$\lambda{i}, G M\left(\lambda{i}\right)=A M\left(\lambda{i}\right)$
因为:$\sum{i=1}^{k} A M\left(\lambda{i}\right)=n$。若$\forall i, G M\left(\lambda{i}\right)=A M\left(\lambda{i}\right)$,则$G M\left(\lambda{1}\right)+\cdots+G M\left(\lambda_{k}\right)=n$,故$A$有n个线性无关的特征向量,从而$A$可以对角化。
可以看到,使$A$对角化的相似变换矩阵不是唯一的,一个特征向量乘以非零常数后仍是属于同一特征值的特征向量,所以若用任意非零常数乘以相似变换矩阵的各列,则得一个新的使$A$对角化的矩阵。而对于重特征值则有更大的自由度。同一特征值的不同特征向量的任意线性组合得到的不同线性无关特征向量都可以充当相似变换矩阵各列。
Jordan 标准形
1个n阶Jordan块,形如
1个1阶Jordan块,形如
n阶Jordan块$J{\lambda{0}, n}=\left(\begin{array}{ccccc}
{\lambda{0}} & {1} & {} & {} & {} \
{} & {\ddots} & {\ddots} & {} \
{} & {} & {\ddots} & {1} \
{} & {} & {} & {\lambda{0}}
\end{array}\right){n \times n}$的性质
(1)只有一个n重特征值$\lambda{0}$,只有一个线性无关的特征向量。代数重数为n,几何重数为1
(2)$\left(J{\lambda{0}, n}-\lambda{0} I{n}\right)^{n}=0$,$J{\lambda{0}, n}-\lambda{0} I{n}=N$为幂零矩阵。
(3)$J{\lambda{0}, n}$与$J{\lambda{0}, n}^{T}$相似,某些教材定义的Jordan块上面的1写到对角线下方,与1在对角线上方本质上是一致的,因为二者是相似的。
定理:设矩阵$A$有$s$个线性无关的特征向量,则存在可逆矩阵$P$,使得
其中
$J$称为矩阵$A$的Jordan标准形,若不计Jordan块的次序,则Jordan标准形唯一。
注:(1)Jordan标准形中Jordan块的个数等于矩阵$A$中线性无关的特征向量的个数
(2)若$s=n$,则$J$是对角阵,$A$可对角化
3. 特征值在差分方程和微分方程中的应用
特征值在差分方程中的应用
设矩阵$A$可对角化,即存在可逆矩阵$S$,使得$S^{-1} A S=\Lambda$为对角阵,则$A=S \Lambda S^{-1}$,于是$A^{k}=S \Lambda^{k} S^{-1}$。
对于差分方程$\mathbf{u}{k+1}=A \mathbf{u}{k}$,解为
其中
特征值在微分方程中的应用
问题:设关于t的向量值可导函数
满足
其中$A=\left(a_{i j}\right)$为n阶常数矩阵,求解$\mathbf{u}=\mathbf{u}(t)$
当$A$不是对角矩阵时,这个问题是耦合的,每个分量的导数都和其他分量有关,问题不易解决。当$A$为对角矩阵时,这个问题是解耦的。若
为对角矩阵,则
我们看到,当$A$是对角矩阵时,每个分量的导数只与自身有关,这样的方程组称为“解耦的”(uncoupled)
那么问题来了,如果对于一般的矩阵$A$,如何求解$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$。
(1)$A$可以对角化的情形
一般的,若$A=S \Lambda S^{-1}$可对角化
(1)$A$不可对角化的情形
首先定义矩阵的指数函数:
对于普通的指数函数,由泰勒展开有:
设$A$为n阶矩阵,定义
对它关于t求导
⚠️$\mathbf{u}(t)=e^{A t} \mathbf{u}(0)$总是方程$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$的解
矩阵的指数函数的性质:
(1)若
则
证明:按矩阵的指数函数定义展开即得。
(2)若$A B=B A$,即$A$ $B$可交换,则$e^{A+B}=e^{A} \cdot e^{B}$
(3)若存在可逆阵$P$,使得$A=P B P^{-1}$,则$e^{A t}=P e^{B t} P^{-1}$
利用矩阵的指数函数的性质,回到$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$的问题
若$A$可对角化,即存在可逆矩阵$S$,使$S^{-1} A S=\Lambda$为对角矩阵,即有$A=S \Lambda S^{-1}$。因为对于方程$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$总有解
其中$S^{-1} \mathbf{u}(0)=\mathbf{c}$,即$\mathbf{u}(0)=S \mathbf{c}=c{1} \mathbf{x}{1}+\cdots+c{n} \mathbf{x}{n}$
若$A$不能对角化,如何求解呢?
对任何方阵$A$,总存在可逆矩阵$P$,有$P^{-1} A P=\Lambda+N$,即方阵A可以相似变换为一个对角矩阵$\Lambda$和一个幂零矩阵$N$的和,而且对角矩阵$\Lambda$和幂零矩阵$N$是可交换的。即$A=P (\Lambda+N) P^{-1}$
因为方程$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$总有解$\mathbf{u}(t)=e^{A t} \mathbf{u}(0)=P e^{(\Lambda+N)t} P^{-1} \mathbf{u}(0)=P e^{\Lambda t} e^{N t} P^{-1} \mathbf{u}(0)$。其中$e^{\Lambda t}$按照矩阵的指数函数的性质,有
而$N$是幂零矩阵,$e^{N t}$按矩阵的指数函数定义展开,计算结果必为有限个项,高次幂的项都为零。
微分方程$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$的稳定性
和差分方程一样,$t \rightarrow \infty$时,决定解$\mathbf{u}(t)$状态的是$A$的特征值。若$A$可对角化,则$\frac{d \mathbf{u}}{d t}=A \mathbf{u}$有通解:
(1)若所有$R e \lambda_{i}<0$,则$e^{A t} \rightarrow 0$,解是稳定的。
(2)若所有$Re \lambda_{i} \leq 0$,则$e^{A t}$有界,解是中性稳定的。
(3)若至少有一个特征值满足$Re \lambda>0$,则$e^{A t}$无界,解是不稳定的。
(Re是一个数学符号,表示取一个复数的实部)
4.实对称矩阵
若矩阵$A$满足$A^{T}=A$,则称$A$为是对称矩阵。实对称矩阵应用广泛,理论丰富、优美。
定理:实对称矩阵的特征值都是实数
证明:设实对称矩阵$A$有$A \mathbf{x}=\lambda \mathbf{x}, \mathbf{x} \neq \mathbf{0}$。则
因为$\mathrm{x} \neq 0, \overline{\mathrm{x}}^{T} \mathrm{x}>0$,故$\bar{\lambda}=\lambda$,即$\lambda$为实数。
定理:实对称矩阵的属于不同特征值的特征向量相互正交
证明:设$\lambda$和$\mu$是实对称矩阵$A$的两互异特征值(由前面定理$\lambda, \mu$是实数),$\mathbf{X}, \mathbf{Y}$是相应的特征向量,即$A \mathbf{x}=\lambda \mathbf{x}, A \mathbf{y}=\mu \mathbf{y}$。于是有
而$\lambda \neq \mu$,故$\mathbf{y}^{T} \mathbf{x}=0$
定理:设$A$为n阶对称矩阵,则必有正交矩阵$P$,使得$P^{-1} A P=P^{\mathrm{T}} A P=\Lambda$,其中$\mathbf{\Lambda}$是以$A$的n个特征值为对角元的对角矩阵。
由前面定理可知,对任何实对称矩阵$A$,有$Q^{T} A Q=\Lambda$,其中$Q=\left(\mathbf{q}{1}, \cdots, \mathbf{q}{n}\right)$为正交矩阵,$\Lambda=\operatorname{diag}\left(\lambda{1}, \cdots, \lambda{n}\right), A \mathbf{q}{i}=\lambda{i} \mathbf{q}_{i}$,于是
即有特征分解(eigen decomposition):又称为谱分解(Spectral decomposition)
注记:$P{j}:=\mathbf{q}{j} \mathbf{q}{j}^{T}$为到由特征向量$\mathbf{q}{j}$张成的一维空间的投影矩阵。任意实对称矩阵可以表示为秩1投影矩阵的和。
定理:实对称矩阵的正特征值数与正主元数相同(惯性定理)