本文从矩阵理论的前置知识出发,总结了矩阵理论课程的内容。
基础知识
记号说明
本文中\(A^*\)表示\(A^H\),即\(\bar{A^{T}}\);不加特殊说明的情况下,内积被定义为\((a,b)=a^*b=\bar{b^*a}\)。
如何看待矩阵乘法
矩阵乘法蕴含了非常丰富的信息。
设\(A_{m\times n}\)和\(B_{n \times p}\)以及\(AB=0\),那么:
- \(\text{rank}(A)+\text{rank}(B)\leq n\);
- \(B\)的列向量都是\(Ax=0\)的解;若\(A\)是方阵,那么\(B\)的列向量也是\(0\)对应的特征向量;
- \(A^*\)的每个列向量与\(B\)的每个列向量正交。
对\(B\)列分块可知,\(B\)的列向量都是\(Ax=0\)的解;若\(A\)是方阵,那么\(B\)的列向量也是\(0\)对应的特征向量。将\(A\)和\(B\)分别写成行向量和列向量的形式,易得\(A^*\)的每个列向量和\(B\)的每个行向量正交,这是因为:
\[A=\left(\begin{matrix}\alpha_1 \\ \alpha_2 \\ \cdots \\ \alpha_n \end{matrix}\right), B = \left(\begin{matrix}\beta_1, \beta_2 , \cdots , \beta_n \end{matrix}\right) \Rightarrow A^*=\left(\begin{matrix}\alpha_1^* \\ \alpha_2^* \\ \cdots \\ \alpha_n^* \end{matrix}\right)\] 计算内积\((\alpha_i^*,\beta_j)=\alpha_i \beta_j\),由\(AB=0\)可知\((\alpha_i^*,\beta_j)=0\)。此外,利用矩阵秩的不等式可知\(\text{rank}(A)+\)\(\text{rank}(B)\leq \text{rank}(AB)+n = n\),值得注意的是此处\(n\)代表\(A\)的列数。
设\(A\)是n阶方阵,并且有\((A-aI)(A-bI)=0\)和\(a\neq b\),根据前一个问题容易得到:
- \(\text{rank}(A-aI)+\text{rank}(A-bI) = n\);
- 方阵\(A − bI\)的非零的列向量是\(A\)的对应到特征值\(a\)的特征向量;
- 方阵\(A − aI\)的非零的列向量是\(A\)的对应到特征值\(b\)的特征向量;
- 方阵\(A\)可以相似对角化;
- \(A\)的特征多项式为\(f_A(x) = (x − a)^{r_1} (x − b)^{r_2}\),其中\(r_1 = \text{rank}(A − bI),r_2 = \text{rank}(A − aI)\)。
事实上,\(\text{rank}(A-aI)+\text{rank}(A-bI)\leq n\),并且\(\text{rank}(A-aI)+\text{rank}(A-bI) = \text{rank}(aI-A)+\)\(\text{rank}(A-bI)\geq r((a-b)I)=n\),那么\(\text{rank}(A-aI)+\text{rank}(A-bI) = n\)。由于\(A\)共有\(n\)个不同的特征向量,故\(A\)可以相似对角化。
特征值和特征向量
设\(A\)为\(n\)阶方阵,则:
- 方阵\(A_{n \times n}\)的所有特征值之和是\(\text{tr}(A)\),所有特征值之积是\(|A|\);
- 属于不同特征值的特征向量必定线性无关;
- 几何重数小于等于代数重数,即\(k\)重特征值至多有\(k\)个线性无关的特征向量;
- 秩1矩阵(\(A=\alpha\beta^T\))具有\(n-1\)重特征值\(0\)以及\(\text{tr}(A)\),并且\(\alpha\)是\(\text{tr}(A)\)对应的特征向量;
- 若\(f(A)=0\),则\(f(\lambda)=0\);
- 见下表。
考虑\(|\lambda I - A| = \lambda ^ n + a_{n-1}\lambda^{n-1}+\cdots + a_1\lambda + a_0\),另一方面\(|\lambda I - A| = \displaystyle \prod_{i}(\lambda - \lambda_i)\),对比系数即可得\(\text{tr}(A)=\displaystyle\sum_i\lambda_i\)。令\(\lambda=0\),可得\(|A|=\displaystyle\prod_{i=1}\lambda_i\)。
记\(\alpha_1,\alpha_2\)分别是矩阵\(A\)特征值\(\lambda_1,\lambda_2\)对应的特征向量,假定\(\alpha_1\)和\(\alpha_2\)线性相关,则存在\(k_1,k_2\in R\)使得\(k_1\alpha_1 + k_2\alpha_2 = 0\)。对等式同时左乘\(A\)有:
\[k_1 A \alpha_1 + k_2 A \alpha_2=k_1 \lambda_1 \alpha_1 + k_2 \lambda_2 \alpha_2=0\] 对等式同时左乘\(A\)有: \[k_1 \lambda_1 \alpha_1 + k_2 \lambda_1 \alpha_2=0\] 进而可得\(k_2 (\lambda_1-\lambda_2) \alpha_2=0\)。由于\(\alpha_2 \neq 0\),并且\(\lambda_1 \neq \lambda_2\),则\(k_2=0\),同理\(k_1=0\),原命题得证。
考察秩1矩阵的性质,直接由矩阵乘法对比可知\(\text{tr}(A)=(\alpha, \beta)\),另外容易发现: \[A\alpha = \alpha\beta^T\alpha = \alpha(\beta^T\alpha)=\text{tr}(A)\alpha\]
记\(\alpha\)为\(\lambda\)对应的特征向量,显然\(A^n\alpha=A^{n-1}\lambda \alpha =\lambda^n \alpha\),则:
\[f(A)=a_nA^n + a_{n-1}A^{n-1}+\cdots+a_1A+a_0I=0\] 等式两边同时右乘\(\alpha\),利用前面整理有\(f(\lambda)=0\)。
分块矩阵
广义初等变换包括:
- 对某行左乘矩阵;
- 对某列右乘矩阵;
- 将某行(列)加到另一行(列)。
事实上,四分块矩阵的行列式、逆也是较为常用的。设\(A\)可逆,并且分块矩阵\(\left( \begin{matrix}A & B \\ C & D\end{matrix} \right)\)是方阵,那么:
\[\left| \begin{matrix} A & B \\ C & D \end{matrix} \right|=|A||D-CA^{-1}B|\]
事实上,利用广义初等变换可以很容易证明。
\[\left| \begin{matrix}A & B \\ C & D\end{matrix} \right|\xlongequal{\text{第一行左乘}-CA^{-1}\text{加到第二行}}\left| \begin{matrix}A & B \\ O & D-CA^{-1}B\end{matrix} \right|=|A||D-CA^{-1}B|\]
秩的常见结论
秩的常用不等式为:
- \(r(A+B) \leq r(A) + r(B) \leq r(AB) + n\),其中\(n\)是\(A\)的列数;
- \(r(AB)\leq \text{min}(r(A), r(B))\);
- \(r(A) \leq r(A, b)\);
- \(r(A)=r(A^*)=r(A^*A)=r(AA^*)\);
- \(r(AB)+r(BC) \leq r(ABC) + r(B)\)。
\(r(A)=r(A^T)\)不再证明,显然共轭操作并不改变矩阵的秩,因此\(r(A)=r(A^*)\)。
\(Ax=0\)和\(A^*Ax=0\)同解:显然\(Ax=0\)的解都是\(A^*Ax=0\)的解;对于\(A^*Ax=0\),在等式两边同时左乘\(x^*\),得到\((Ax)^*Ax=0\),由内积的正定性可知\(Ax=0\),即两方程同解,其基础解系的数目相同,因此\(r(A)=r(A^*A)\);令\(A^*\)替换\(A\)即证明最后的等式。
记\(A_{n \times n}\),则\(r(A^n)=r(A^{n+1})\)。
\(A^nx=0\Rightarrow A^{n+1}x=0\)是显然的。假设存在\(\alpha\)使得\(A^{n+1}\alpha=0\)但\(A^{n}\alpha\neq 0\)。考虑方程\(k_0\alpha + k_1A\alpha+\cdots + k_nA^n\alpha=0\),两边同乘\(A^{n}\),易得\(k_0=0\);两边同乘\(A^{n-1}\),易得\(k_1=0\),类似地可得\(k_2=\cdots=k_n=0\),则上述\(n+1\)个\(n\)维向量线性无关,这显然是不可能的。产生矛盾,原命题得证。
当\(A\)和\(B\)可交换时,\(f(A)g(B)=f(B)g(A)\),特别地\(f(A)g(A)=g(A)f(A)\),其中\(f\)和\(g\)是多项式。
线性方程组\(A^*Ax=A^*b\)恒有解,从线性方程组有解的角度证明: \(r(A^*A)\leq r(A^*A,A^*b)\)显然 又\(r(A^*A,A^*b)=r(A^*(A,b))\leq r(A^*)=r(A^*A)\) 故\(r(A^*A)=r(A^*A,A^*b)\)
设\(P_{n\times n}\)、\(Q_{m\times m}\)满秩,记\(A_{n\times m}\),则\(r(A)=r(PA)=r(AQ)=r(PAQ)\)
\(r(PA)\leq r(A)\) \(r(PA) \geq r(P)+r(A)-n=r(A)\)
或者
\(r(PA)\leq r(A)\) \(r(A)=r(P^{-1}(PA))\leq r(PA)\)
得证,其余不等式类似,不再赘述
\((A,B)\rightarrow(E,A^{-1}B)\) 行变换
\(\left(\begin{matrix} A \\B \end{matrix}\right)\rightarrow \left(\begin{matrix} E \\BA^{-1} \end{matrix}\right)\) 列变换
\(\left(\begin{matrix} A & B \\O& C \end{matrix}\right)\rightarrow \left(\begin{matrix} E & A^{-1}B \\O& C \end{matrix}\right) \rightarrow\left(\begin{matrix} E & A^{-1}BC^{-1} \\O& E \end{matrix}\right)\)先做行变换,再做列变换
六种初等变换不改变秩
\(A\rightarrow \left(\begin{matrix} E_r & O \\O& O \end{matrix}\right)\) 经过行变换和列变换可得
\(PAQ=\left(\begin{matrix} E_r & O \\O& O \end{matrix}\right)\)其中\(P\)和\(Q\)都可逆
\(r(A)=1\)可知存在可逆矩阵\(P\)和\(Q\),使得\(A=P\left(\begin{matrix}1 &O\\O&O\end{matrix}\right)Q=P\left(\begin{matrix}1\\0\\\cdots\\0\end{matrix}\right)_{m\times 1}\left(\begin{matrix}1 & 0\cdots & 0\end{matrix}\right)_{1\times n}Q=\alpha^T\beta\)
\(A=\alpha^T\beta\),则\(r(A)\leq r(\alpha)\leq 1\),若\(R(A)\neq 0\),则\(r(A)=1\)
记\(r(A)=r\),则存在\(B_{s\times r}, C_{r\times n}\)使得\(A=BC\) \(r=r(A)=r(BC) \leq (B)\leq r \Rightarrow r(B) = r(C) = r\)
设\(A=\alpha^T\beta\),则\(\text{tr}(A)=\beta\alpha^T\),由矩阵乘法显然可知
\(f(A)=0\Rightarrow f(\lambda) = 0\)
考察秩\(-1\)矩阵的性质,已知\(A^k=(\text{tr}(A))^{k-1}\),考虑多项式\(f(x)=x^2-\text{tr}(A)x\),\(f(A)=0\Rightarrow f(\lambda)=0\),则\(A\)的特征值为\(\lambda_1=0,\lambda_2=0\) \(r(A)=1\),则\(A\)的\(0\)特征值\(0\)几何重数为\(n-1\),代数重数\(\geq n-1\)
\(A\rightarrow \left(\begin{matrix} E_r & O \\O& O \end{matrix}\right)\) 经过行变换和列变换可得
\(PAQ=\left(\begin{matrix} E_r & O \\O& O \end{matrix}\right)\)其中\(P\)和\(Q\)都可逆
行满秩列满秩
内积
常用的矩阵分解方法
QR分解
记\(A=(\alpha_1,\alpha_2,\cdots, \alpha_n)\),设\(A\)列满秩,那么可以通过施密特正交化求得\(A\)的一组标准正交基。
首先进行正交化。
\[\beta_1 = \alpha_1\]
\[\beta_2 = \alpha_2 - \frac{(\beta_1,\alpha_2)}{(\beta_1,\beta_1)}\beta_1\]
\[\cdots\]
\[\beta_n = \alpha_n - \sum_{i=1}^{n-1}\frac{(\beta_i,\alpha_n)}{(\beta_i,\beta_i)}\beta_i\]
再进行标准化,令\(\gamma_i = \frac{\beta_i}{||\beta_i||}\),其中\(i=1,2,\cdots,n\)。
由正交化过程可知:\(\alpha_j = \beta_j + \sum_{i=1}^{j-1}\frac{(\beta_i,\alpha_j)}{(\beta_i,\beta_i)}\beta_i,j\geq 2\),将其写为矩阵的形式有:
\[(\alpha_1,\alpha_2,\cdots, \alpha_n) = (\beta_1,\beta_2,\cdots, \beta_n)\left(\begin{matrix} 1 & \frac{(\beta_1,\alpha_2)}{(\beta_1,\beta_1)} & \cdots & \frac{(\beta_1,\alpha_n)}{(\beta_1,\beta_1)}\\ 0 & 1 & \cdots & \frac{(\beta_2,\alpha_n)}{(\beta_2,\beta_2)}\\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 1 \end{matrix}\right)\]
由标准化过程可知
\[(\beta_1,\beta_2,\cdots, \beta_n)=(\gamma_1,\gamma_2,\cdots, \gamma_n)\text{diag}(||\beta_1||,||\beta_2||,\cdots,||\beta_n||)\]
那么
\[(\alpha_1,\alpha_2,\cdots, \alpha_n)=(\gamma_1,\gamma_2,\cdots, \gamma_n)\text{diag}(||\beta_1||,||\beta_2||,\cdots,||\beta_n||)\left(\begin{matrix} 1 & \frac{(\beta_1,\alpha_2)}{(\beta_1,\beta_1)} & \cdots & \frac{(\beta_1,\alpha_n)}{(\beta_1,\beta_1)}\\ 0 & 1 & \cdots & \frac{(\beta_2,\alpha_n)}{(\beta_2,\beta_2)}\\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 1 \end{matrix}\right)\]
\(=(\gamma_1,\gamma_2,\cdots, \gamma_n)\left(\begin{matrix} ||\beta_1|| & ||\beta_1||\frac{(\beta_1,\alpha_2)}{(\beta_1,\beta_1)} & \cdots & ||\beta_1||\frac{(\beta_1,\alpha_n)}{(\beta_1,\beta_1)}\\ 0 & |\beta_2|| & \cdots & |\beta_2||\frac{(\beta_2,\alpha_n)}{(\beta_2,\beta_2)}\\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & ||\beta_n|| \end{matrix}\right)\)
\(=(\gamma_1,\gamma_2,\cdots, \gamma_n)\left(\begin{matrix} ||\gamma_1|| & (\gamma_1,\alpha_2) & \cdots & (\gamma_1,\alpha_n)\\ 0 & ||\gamma_2|| & \cdots & (\gamma_2,\alpha_n)\\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & ||\gamma_n|| \end{matrix}\right)\)
\(=(\gamma_1,\gamma_2,\cdots, \gamma_n)\left(\begin{matrix} 1 & (\gamma_1,\alpha_2) & \cdots & (\gamma_1,\alpha_n)\\ 0 & 1 & \cdots & (\gamma_2,\alpha_n)\\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 1 \end{matrix}\right)\)
令\(Q=(\gamma_1,\gamma_2,\cdots, \gamma_n)\),\(R=\left(\begin{matrix}1 & (\gamma_1,\alpha_2) & \cdots & (\gamma_1,\alpha_n)\\0 & 1 & \cdots & (\gamma_2,\alpha_n)\\\cdots & \cdots & \cdots & \cdots \\0 & 0 & \cdots & 1\end{matrix}\right)\),就得到了\(A\)的QR分解。
根据上述过程可以得到如下推论:
- 一个列满秩矩阵\(A\)可以分解为一个列正交的矩阵\(Q\)与一个对角线元素全为\(1\)的上三角矩阵\(R\)的乘积,并且该分解唯一;
- 一个列满秩矩阵\(A\)可以分解为一个酉矩阵\(Q\)与一个对角线元素全为正数的上三角矩阵\(R\)的乘积,并且该分解唯一。
下面对两个推论的唯一性进行证明。设列满秩矩阵\(A=Q_1R_1=Q_2R_2\),其中\(Q_1,Q_2\)是列满秩且列向量正交的矩阵,\(R_1,R_2\)是对角线元素全为\(1\)的上三角矩阵,那么:
\[Q_1=Q_2R_2R_1^{-1}\]
显然对角线全为1(或对角线元素全为正数)的上三角矩阵对矩阵乘法构成群,那么\(R_2R_1^{-1}\)依然是对角线元素全为\(1\)的上三角矩阵。考虑将\(Q_1\)和\(Q_2\)写为列向量的形式,令
\[Q_1=(\alpha_1,\alpha_2,\cdots, \alpha_n)\]
\[ Q_2= (\beta_1,\beta_2,\cdots, \beta_n)\]
\[(\alpha_1,\alpha_2,\cdots, \alpha_n) = (\beta_1,\beta_2,\cdots, \beta_n)R_2R_1^{-1}=(\beta_1,\beta_2,\cdots, \beta_n)\left(\begin{matrix} 1 & r_{12} & \cdots & r_{1n} \\ 0 & 1 & \cdots & r_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 1 \end{matrix}\right)\]
由矩阵相等的充要条件可知\(\alpha_1=\beta_1\),\(\alpha_2=r_{12}\beta_1+\beta_2\),由于\((\alpha_1,\alpha_2)=0\)和\((\beta_1, \beta_2)=0\)以及\(\beta_1\neq 0\),则\(r_{12}=0\);同理推得上三角矩阵\(R_2R_1^{-1}\)除了对角线上的元素之外其他元素全部为\(0\),因此\(R_2R_1^{-1}=I\),即\(R_{1}=R_{2}\)且\(Q_1=Q_2\)。
另一个推论的唯一性证明同理。
满秩分解
利用行初等变换和列初等变换可以将矩阵化为其标准型。设\(A_{m\times n}\)以及\(\text{rank}(A)=r\),那么存在可逆矩阵\(P\)和\(Q\)使
\[A=P\left(\begin{matrix} I_{r} & O_{r \times (n - r)} \\ O_{(m-r) \times r} & O_{(m - r)\times(n - r)} \end{matrix}\right)Q\]
又\(\left(\begin{matrix} I_{r} & O_{r \times (n - r)} \\ O_{(m-r) \times r} & O_{(m - r)\times(n - r)} \end{matrix}\right)=\left(\begin{matrix} I_{r} \\ O_{(m-r) \times r} \end{matrix}\right) \times \left(\begin{matrix} I_{r} & O_{r \times (n - r)} \end{matrix}\right)\)
故\(A=\left(\begin{matrix} P \\ O_{(m-r) \times r} \end{matrix}\right) \times \left(\begin{matrix} Q & O_{r \times (n - r)} \end{matrix}\right)\),这就是矩阵的满秩分解。记\(L=\left(\begin{matrix} P \\ O_{(m-r) \times r} \end{matrix}\right)\)和\(R=\left(\begin{matrix} Q & O_{r \times (n - r)} \end{matrix}\right)\),得到\(A=LR\)。矩阵的满秩分解是不唯一的。
奇异值分解(SVD)
SVD(Singular Value Decomposition)
对于实矩阵\(A{m\times n}\),设\(\text{rank}(A)=r\),那么存在正交矩阵\(U\)和\(V\)使得\(A=U\left(\begin{matrix}\Sigma_r & O \\ O & O \end{matrix}\right)V^T=U\Sigma V^T\),其中\(\Sigma_r=\text{diag}(\sigma_1,\sigma_2,\cdots,\sigma_r)\),\(\sigma_1\geq \sigma_2 \geq \cdots \geq \sigma_r\geq 0\)称为\(A\)的奇异值
证明过程
首先构造\(V\)。
\(A^TA\)正定,又\(\text{rank}(A^TA)=\text{rank(A)}\),设\(A^TA\)的非零特征值为\(\lambda_1\geq \lambda_2 \geq \cdots \geq \lambda_r > 0\),因此存在正交矩阵\(V\)使得
\[V^TA^TAV=\left(\begin{matrix}\Lambda_r & O \\ O & O \end{matrix}\right)\]
因为\(\Lambda_r=\text{diag}(\lambda_1, \lambda_2 , \cdots , \lambda_r, 0, \cdots, 0)\),故存在\(\Sigma^2_r=\Lambda_r\),其中\(\Sigma=\text{diag}(\sigma_1, \sigma_2 , \cdots , \sigma_r, 0,\cdots, 0)\),并且\(\sigma_i=\sqrt{\lambda_i},i=1,\cdots,r\)。
对\(V\)分块,得到\(V=(V_{r},V')\),从而\(A=AVV^T=AV_rV_r^T\)
再构造\(U\)。
\(V=(v_1,v_2,\cdots,v_n)\),令\(U_r=(\frac{1}{\sigma_1}Av_1,\frac{1}{\sigma_2}Av_2,\cdots,\frac{1}{\sigma_r}Av_r)\),那么\(U_r \Sigma_r=AV_r\)
\(U_r\)列向量之间的正交性是显然的(方阵不同特征值的特征向量彼此正交),考虑
\[(\frac{1}{\sigma_i}Av_i,\frac{1}{\sigma_i}Av_i)=\frac{1}{\sigma_i^2}v_i^TA^TAv_i=\frac{1}{\sigma_i^2}v_i^T(A^TAv_i)=\frac{\lambda_i}{\sigma_i^2}v_i^Tv_i=1\]
那么可以扩充\(U_r\)表示的标准正交列向量组,使之成为\(\mathbb{R}^m\)上的一组基,为此只需要求解\(U_r^TX=0\)的基础解系,并进行施密特正交化,得到\(U'\),最终令\(U=(U_r,U')\)
那么\(A=U\Sigma V^T\)。
根据上述构造过程可知:
- 矩阵\(A\)的非零奇异值个数为\(\text{rank}(A)\)
- \(v_i\)是\(A^TA\)的特征向量,\(u_i\)是\(AA^T\)的特征向量,\(\sigma_i^2\)是\(A^TA\)和\(AA^T\)的特征值
- \(A\)的奇异值唯一,但\(U,V\)一般不唯一
- 不妨设\(m\geq n\),则\(A\)的左右奇异向量满足
\[Av_i=\sigma u_iu_i,i=1,2,\cdots,n\] \[v_i^TA=\sigma u_iv_i,i=1,2,\cdots,n\] \[v_i^TA=0,i=n+1,n+2,\cdots,m\]
谱(特征值)分解
Schur 分解
三角分解
高斯消元法
Cholesky 分解
正定矩阵\(A\)存在唯一的对角线元素均为正数的下三角矩阵\(G\),使得\(A=GG^*\)
对阶数使用数学归纳法:
\(n=1\)时,由于正定矩阵的各阶顺序主子式必大于\(0\),因此\(G=(\sqrt{a_{11}})\)
假定\(n=k\geq 1\)时命题依然成立,那么\(n=k+1\)时:
Hermite矩阵\(A\)一定具有如下形式,其中\(B\)是\(k\)阶Hermite矩阵
\[A=\left(\begin{matrix} a_{11} & \alpha^* \\ \alpha & B \end{matrix}\right)\]
考虑将\(\alpha\)消去变为\(0\),则有下述合同变换
\[\left(\begin{matrix} 1 & \\ -\frac{\alpha}{a_{11}} & I_k \end{matrix}\right) \left(\begin{matrix} a_{11} & \alpha^* \\ \alpha & B \end{matrix}\right) \left(\begin{matrix} 1 & \\ -\frac{\alpha}{a_{11}} & I_k \end{matrix}\right)^*= \left(\begin{matrix} a_{11} & \alpha^* \\ & B - \frac{1}{a_{11}}\alpha\alpha^* \end{matrix}\right)\left(\begin{matrix} 1 & -\frac{\alpha^*}{a_{11}} \\ & I_k \end{matrix}\right)=\left(\begin{matrix} a_{11} & \\ & B - \frac{1}{a_{11}}\alpha\alpha^* \end{matrix}\right)\]
由于合同变换不改变正定性,那么\(B - \frac{1}{a_{11}}\alpha\alpha^*\)依然是一个正定矩阵,根据归纳假设可知存在对角线元素都是正数的下三角矩阵\(G_B\)使得\(B=G_BG_B^*\)
记\(G_1=\left(\begin{matrix}1 & \\-\frac{\alpha}{a_{11}} & I_k\end{matrix}\right)^{-1}=\left(\begin{matrix}1 & \\\frac{\alpha}{a_{11}} & I_k\end{matrix}\right)\)以及\(G_2=\left(\begin{matrix} \sqrt{a_{11}} & \\ & G_B \end{matrix}\right)\),则 \[A=G_1G_2G_2^*G_1^*=(G_1G_2)(G_1G_2)^*\]
由于对角线元素全为正数的下三角矩阵关于矩阵乘法构成群,则\(G=G_1G_2\)也是对角线元素全为正数的下三角矩阵,原命题得证
下面证明唯一性
设Hermite矩阵\(A=G_1G_1^*=G_2G_2^*\),那么\((G_2^{-1}G_1)^*=(G_2^{-1}G_1)^{-1}\),得知\(G_2^{-1}G_1\)是一个酉矩阵,设\(A=G_2^{-1},B=G_1,C=AB\),那么
\[\left(\begin{matrix}a_{11} \\ a_{21} & a_{22} \\ \cdots & \cdots & \cdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{matrix}\right) \times \left(\begin{matrix}b_{11} \\ b_{21} & b_{22}\\ \cdots & \cdots & \cdots \\ b_{n1} & b_{n2} & \cdots & b_{nn} \end{matrix}\right) = \left(\begin{matrix}c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{matrix}\right)\]
观察\(C\)的第一列,事实上\(c_{11}=a_{11}\times b_{11}\),并且\(c_{i1}=0,i=2,\cdots,n\),由于\(C\)是酉矩阵,故\(c_{11}=1\)。类似地可以发现\(c_{ij}=\left\{\begin{matrix}1, i = j \\ 0, i \neq j\end{matrix}\right.\),那么\(C=I\),这也就说明了\(G_1=G_2\)
极分解
该分解源于一道作业题目:试证明可逆矩阵可以分解为一个正定矩阵和正交矩阵的乘积。
对于可逆矩阵\(A\),\(A^*A\)是正定矩阵,那么它必定可以相似对角化:
\[U^*A^*AU=D\]
其中\(D\)是对角元素都为正的对角矩阵,记\(D=\text{diag}(d_1,d_2,\cdots,d_n)\),那么
\[D=\text{diag}(\sqrt{d_1},\sqrt{d_2},\cdots,\sqrt{d_n})\]
记\(\Lambda=(\sqrt{d_1},\sqrt{d_2},\cdots,\sqrt{d_n})\),那么
\[\Lambda^{-1}U^*A^*AU\Lambda^{-1}=I\]
事实上,\(\Lambda^{-1}=(\Lambda^{-1})^*\),那么:
\[(AU\Lambda^{-1})^*(AU\Lambda^{-1})=I\]
这说明\(AU\Lambda^{-1}\)是一个酉矩阵,记之为\(P\),则有:
\[AU\Lambda^{-1}=P\Rightarrow A=P\Lambda U^*=(P\Lambda P^*)( P U^*)\]
令\(C=P\Lambda P^*\),\(Q=P U^*\),满足题意