文章目錄
  1. 1. 矩阵和映射
  2. 2. 矩阵的乘积
  3. 3. 矩阵的转置
  4. 4. 矩阵乘积的秩
  5. 5. 方阵
  6. 6. 矩阵的等价类
  7. 7. 逆矩阵的计算
  8. 8. 解空间
  9. 9. 习题

矩阵和映射

设$\mathbb{R}^n$和$\mathbb{R}^m$分别为高为$n,m$的列向量空间.设$A=(a_{ij})$是一个$m\times n$阶矩阵.定义一个映射$\varphi _A :\mathbb{R}^n \to \mathbb{R}^m$,将任意向量$X=[x_1 ,x_2 ,\cdots ,x_n ]\in \mathbb{R}^n$,对应到

$$\varphi _A (X)=x_1 A^{(1)} +x_2 A^{(2)} +\cdots +x_n A^{(n)} .\label{1} \tag{1}$$

其中$A^{(1)} ,\cdots ,A^{(n)} $是矩阵$A$的列(与$\S 2(1)$相比较).由于它们的高是$m$,$\eqref{1}$式的右边给出了一个列向量$Y=[y_1 ,y_2 ,\cdots ,y_m ]\in \mathbb{R}^m$.更详尽地,$\eqref{1}$式可写成如下形式

$$y_i =\sum_{j=1}^n a_{ij} x_j ,i=1,2,\cdots ,m. \label{111} \tag{1′} $$

如果$X=X’+X’’ =[x’_1 +x’’_1 ,x’_2 +x’’_2 ,\cdots ,x’_n +x’’_n ]$,则

$$\varphi _A (X’+X’’) =\sum_{i=1}^n (x’_i +x’’_i )A^{(i)} =\sum_{i=1}^n x’_i A^{(i)} +\sum_{i=1}^n x’’_i A^{(i)} =\varphi _A (X’) +\varphi _A (X’’).$$

类似地,

$$\varphi _A (\lambda X)=\sum_{i=1}^n \lambda x_i A^{(i)} =\lambda \sum_{i=1}^n x_i A^{(i)} =\lambda \varphi _A (X) ,\lambda \in \mathbb{R} .$$

反之,设$\varphi :\mathbb{R}^n \to \mathbb{R}^m$是第$1$章$\S 5$意义下的映射,具有下述两条性质:

$i) \varphi (X’+X’’) =\varphi (X’)+\varphi (X’’),\quad \forall X’,X’’\in \mathbb{R}^n $;

$ii) \varphi (\lambda X) =\lambda \varphi (X),\quad \forall X\in \mathbb{R}^n ,\lambda \in \mathbb{R} $.

我们知道(见$\S 1$第$3$段),$\mathbb{R}^n =\langle E^{(1)} ,\cdots ,E^{(n)} \rangle $是列向量的标准基的线性包,则

$$X=[x_1 ,x_2 ,\cdots ,x_n ]=\sum_{j=1}^n x_j E^{(j)} .$$

运用性质$i),ii)$得到

$$\varphi (X) =\varphi \left( \sum_{j=1}^n x_j E^{(j)} \right) =\sum_{j=1}^n x_j \varphi (E^{(j)}).\label{2} \tag{2} $$

关系式$\eqref{2}$表明,映射$\varphi $由它在列向量基上的取值完全确定.令

$$\varphi (E^{(j)}) =[a_{1j} ,a_{2j} ,\cdots ,a_{mj} ]=A^{(j)} \in \mathbb{R}^m ,\label{3} \tag{3} $$

我们发现,给出$\varphi $等价于给出列为$A^{(1)} ,\cdots ,A^{(n)} $的$m\times n$阶长方阵$A=(a_{ij})$.关系式$\eqref{1}$和$\eqref{2}$实质上是一致的.我们可以写$\varphi =\varphi _A $.

定义 满足性质$i),ii)$的映射$\varphi =\varphi _A :\mathbb{R}^n \to \mathbb{R}^m $叫作从$\mathbb{R}^n $到$\mathbb{R}^m$的线性映射.特别地当$m=n$时叫作线性变换.矩阵$A$叫作线性映射$\varphi _A$的矩阵.

设$\varphi _A ,\varphi _{A’}$是$\mathbb{R}^n \to \mathbb{R}^m $的两个线性映射,分别有矩阵$A=(a_{ij})$和$A’=(a’_{ij})$.等式$\varphi _A =\varphi _{A’}$成立,当且仅当任取$X\in \mathbb{R}^n $,值$\varphi _A (X) =\varphi _{A’} (X)$.特别地,

$${A’}^{(j)} =\varphi _{A’} (E^{(j)}) =\varphi _A (E^{(j)}) = A^{(j)} ,1\leq j \leq n,$$

所以$a’_{ij} =a_{ij}$,故$A’=A$.

将我们的结果概括如下.

定理$1$ 从$\mathbb{R}^n$到$\mathbb{R}^m$的线性映射与$m\times n$阶矩阵之间存在着一一对应.

这里强调指出,谈论任意集合$S$到$T$的线性映射$S\to T$是没有意义的.条件$i)$和$ii)$预先假定了$S$和$T$分别是$\mathbb{R}^n$和$\mathbb{R}^m$中的线性包.

我们注意到$m=1$的特殊情况,这样的线性映射$\varphi :\mathbb{R}^n \to \mathbb{R}$通常称为$n$变元线性函数,由给定的$n$个纯量$a_1 ,a_2 ,\cdots ,a_n $给出:

$$\varphi (X)=\varphi (x_1 ,x_2 ,\cdots ,x_n ) =a_1 x_1 +a_2 x_2 +\cdots +a_n x_n .\label{4} \tag{4} $$

注记 我们这里的线性函数和中学时的概念有所区别,那时的线性函数是指$x\mapsto ax+b$(只谈单变元$x$的情况).

线性函数$\eqref{4}$,如同任意的线性映射:$\mathbb{R}^n \to \mathbb{R}^m $一样;可以做加法和纯量乘法.事实上,设$\varphi _A ,\varphi _B :\mathbb{R}^n \to \mathbb{R}^m $是两个线性映射.映射

$$\varphi =\alpha \varphi _A +\beta \varphi _B :\mathbb{R}^n \to \mathbb{R}^m ,\quad \alpha ,\beta \in \mathbb{R} $$

在$X$上取值定义为

$$\varphi (X)=\alpha \varphi _A (X) +\beta \varphi _B (X).$$

右边是通常的列向量的线性组合.

因为

$$\begin{align}
\varphi (X’+X’’) & =\alpha \varphi _A (X’+X’’) +\beta \varphi _B (X’+X’’) \\
& =\alpha \lbrace \varphi _A (X’) +\varphi _A (X’’) \rbrace +\beta \lbrace \varphi _B (X’) +\varphi _B (X’’)\rbrace \\
& =\lbrace \alpha \varphi _A (X’) +\beta \varphi _B (X’) \rbrace + \lbrace \alpha \varphi _A (X’’) +\beta \varphi _B (X’’) \rbrace \\
& =\varphi (X’) +\varphi (X’’) ;\\
\varphi (\lambda X) & =\alpha \varphi _A (\lambda X) +\beta \varphi _B (\lambda X) \\
& =\alpha \lambda \varphi _A (X) +\beta \lambda \varphi _B (X) \\
& =\lambda \lbrace \alpha \varphi _A (X) +\beta \varphi _B (X) \rbrace \\
& =\lambda \varphi (X),
\end{align}$$

所以$\varphi $是一个线性映射(在这里,我们未加说明地使用了$\S 1$的法则$\text{VS}_1 -\text{VS}_8 $).根据定理$1$,我们有线性变换的矩阵$C$,使得$\varphi =\varphi _C $.为了求出$C$,按照公式$\eqref{3}$写出第$j$个列向量:

$$\begin{align}
[c_{ij} ,c_{2j} ,\cdots ,c_{mj} ] & =C^{(j)} \\
& =\varphi _C (E_n^{(j)} ) \\
& =\alpha \varphi _A (E_n^{(j)}) +\beta \varphi _B (E_n^{(j)}) \\
& =\alpha A^{(j)} +\beta B^{(j)} \\
& =[\alpha a_{1j} +\beta b_{1j} ,\alpha a_{2j} +\beta b_{2j} ,\cdots ,\alpha a_{mj} +\beta b_{mj} ].
\end{align}$$

很自然地,将矩阵$C=(c_{ij})$,其中元素$c_{ij} =\alpha a_{ij} +\beta b_{ij}$,叫作矩阵$A$和$B$的以$\alpha $和$\beta $为系数的线性组合:

$$\alpha \begin{pmatrix} a_{11} & \cdots & a_{1n} \\ \cdots & \cdots & \cdots \\ a_{m1} & \cdots & a_{mn} \end{pmatrix} +\beta \begin{pmatrix} b_{11} & \cdots & b_{1n} \\ \cdots & \cdots & \cdots \\ b_{m1} & \cdots & b_{mn} \end{pmatrix} =\begin{pmatrix} \alpha a_{11} +\beta b_{11} & \cdots & \alpha a_{1n} +\beta b_{1n} \\ \cdots & \cdots & \cdots \\ \alpha a_{m1} +\beta b_{m1} & \cdots & \alpha a_{mn} +\beta b_{mn} \end{pmatrix} .\label{5} \tag{5}$$

于是

$$\alpha \varphi _A +\beta \varphi _B =\varphi _{\alpha A+\beta B} .\label{6} \tag{6}$$

我们将经常运用下述事实:线性函数的线性组合也是一个线性函数.

最后,我们指出,如果把所有的行向量$X,Y,Z$换成$m\times n$阶矩阵,对应的运算由公式$\eqref{5}$确定,并且将$\S 1$中对向量空间的法则$\text{VS}_1 -\text{VS}_8 $重写一遍,就得到了法则$\text{VSM}_1 -\text{VSM}_8 $,因而我们可以定义$m\times n$阶矩阵的向量空间.如果方便,它也可看作是密集写法的长度为$m\cdot n$的行向量空间$\mathbb{R}^{m\cdot n}$(将行折断为长度为$n$的段,一个排在另一个的下面).

矩阵的乘积

公式$\eqref{5}$和$\eqref{6}$给出了$m\times n$矩阵的集合以及从$\mathbb{R}^n$到$\mathbb{R}^m$的线性变换的集合之间加法和数乘运算的一致性.在考虑任意集合时,还有一个重要的运算概念,即映射的合成(见第$1$章$\S 5$,第$2$段).有理由期望,两个线性映射的合成应当与矩阵的合成方式一致.我们来看如何做到这一点.

设$\varphi _B :\mathbb{R}^n \to \mathbb{R}^s ,\varphi _A :\mathbb{R}^s \to \mathbb{R}^m $是线性映射,$\varphi _C =\varphi _A \circ\varphi _B $是它们的合成:

一般来说,在把乘积$\varphi =\varphi _A \circ \varphi _B $写成$\varphi _C $之前,需要验证$\varphi $是线性变换,这是很清楚的:

$$\begin{align}
(i)\quad \varphi (X’+X’’) & = \varphi _A (\varphi _B (X’+X’’)) \\
& =\varphi _A (\varphi _B (X’)+\varphi _B (X’’)) \\
& =\varphi _A (\varphi _B (X’)) +\varphi _A (\varphi _B (X’’)) \\
& =\varphi (X’) +\varphi (X’’);
\end{align} $$

$$ (ii)\quad \varphi (\lambda X)= \varphi _A (\varphi _B (\lambda X))=\varphi _A (\lambda \varphi _B (X))=\lambda \varphi _A (\varphi _B (X))=\lambda \varphi (X);$$

所以根据定理$1$,$\varphi $由某个矩阵$C$完全确定.

假定映射在列上的作用为

$$[x_1 ,\cdots ,x_n ]\overset{\varphi _B }{\longrightarrow } [y_1 ,\cdots ,y_s ]\overset{\varphi _A }{\longrightarrow } [z_1 ,\cdots ,z_m ],$$

按照公式$\eqref{111}$的显式表达:

$$z_i =\sum_{k=1}^s a_{ik} y_k =\sum_{k=1}^s a_{ik} \sum_{j=1}^n b_{kj} x_j =\sum_{j=1}^n \left( \sum_{k=1}^s a_{ik} b_{kj} \right) x_j .$$

另一方面,

$$z_i =\sum_{j=1}^n c_{ij} x_j ,\quad i=1,2,\cdots ,m.$$

比较所得的表达式并注意到$x_j$是任意实数$(j=1,2,\cdots ,n)$,我们得到

$$c_{ij} =\sum_{k=1}^s a_{ik} b_{kj} ,\quad 1\leq i \leq m ,1\leq j\leq n.\label{7} \tag{7}$$

矩阵$C=(a_{ij})$叫作矩阵$A$乘以矩阵$B$得到的结果.记作

$$C=AB.$$

这样,一个$m\times s$阶长方阵$(a_{ik})$与$s\times n$阶长方阵$(b_{kj} )$的乘积是一个$m\times n$阶长方阵$(c_{ij} )$,其元素$c_{ij}$由公式$\eqref{7}$给出.

我们证明了

定理$2$ 由矩阵$A$和$B$确定的两个线性变换的乘积$\varphi _A \cdot \varphi _B$是由矩阵$C=AB$确定的线性变换.换言之,

$$\varphi _A \varphi _B =\varphi _{AB} .\label{8} \tag{8}$$

公式$\eqref{8}$是对公式$\eqref{6}$的自然的补充.

我们可以忘记线性变换去求任意两个矩阵$A$和$B$的乘积$AB$,但必须记住,符号$AB$有意义,当且仅当矩阵$A$的列数等于矩阵$B$的行数.在这一条件下,等式$\eqref{7}$给出了乘积的$(i,j)$元是$A$的第$i$行$A_{(i)}$与$B$的第$j$列$B^{(j)}$的乘积,

$$c_{ij} =(a_{i1} ,\cdots ,a_{is} )[b_{1j} ,\cdots ,b_{sj} ]=A_{(i)} B^{(j)}.\label{9} \tag{9}$$

矩阵$AB$的行数等于矩阵$A$的行数,而$AB$的列数等于矩阵$B$的列数.特别地,同阶方阵的乘积总是有定义的,但即使在这种情况下,一般来说,$AB\neq BA$,例如:

$$\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix} =\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix} \neq \begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix} =\begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} .$$

当然还可以有许多其他的方式定义矩阵的乘积(例如行与行相乘),但是没有一种方式能够与上述定义的重要性相比.这并不奇怪,因为我们是通过映射的自然合成得到矩阵乘法的,而映射当属现代数学最基本的概念.

推论 矩阵的乘法满足结合律:

$$A(BC)=(AB)C.$$

证明 矩阵的乘积对应于线性映射的乘积(见定理$2$和公式$\eqref{8}$),根据第$1$章$\S 5$定理$1$,任意映射的乘积是结合的,也可以根据公式$\eqref{7}$直接计算进行验证.$\quad \square $

再来看分配律

$$(A+B)C=AC+BC ,D(A+B)=DA+DB,\label{10} \tag{10}$$

其中$A,B,C,D$分别是阶数为$m\times s ,m\times s ,s\times n ,n\times m$的任意矩阵.

事实上,令$A=(a_{ij}) ,B=(b_{ij}) ,C=(c_{ij})$,对任意$i,j$有等式(根据$\mathbb{R}$的分配律)

$$\sum_{k=1}^n (a_{ik} +b_{ik} )c_{kj} =\sum_{k=1}^n a_{ik} c_{kj} +\sum_{k=1}^n b_{ik} c_{kj}$$

左边给出了矩阵$(A+B)C$的元素$g_{ij}$,而右边分别给出了$AC$的元素$h_{ij}$和$BC$的元素$h’_{ij}$.$\eqref{10}$中的第二个分配律法则可类似得到.

矩阵的转置

阶数分别为$m\times n$与$n\times m$的两个矩阵

$$A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} ,\sideset{^t}{}A=\begin{pmatrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} & \cdots & a_{m2} \\ \cdots & \cdots & \cdots & \cdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \end{pmatrix}$$

叫作互为转置,其中的任意一个都是由另一个将行变为列,列变为行得到的(细心的读者会注意到,转置的概念已经在$\S 2$第$1$段遇到过了).易见

$$\sideset{^t}{}(\sideset{^t}{}A) =A,\sideset{^t}{}(A+B)=\sideset{^t}{}A+\sideset{^t}{}B,\sideset{^t}{}(\lambda A)=\lambda \sideset{^t}{}A.$$

矩阵乘积的转置满足一个更有趣的规律.如果

$$A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1s} \\ a_{21} & a_{22} & \cdots & a_{2s} \\ \cdots & \cdots & \cdots & \cdots \\ a_{m1} & a_{m2} & \cdots & a_{ms} \end{pmatrix} ,B=\begin{pmatrix} b_{11} & b_{12} & \cdots & b_{1n} \\ b_{21} & b_{22} & \cdots & b_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ b_{s1} & b_{s2} & \cdots & b_{sn} \end{pmatrix}$$

$$\sideset{^t}{}A=(a’_{ki}) ,\sideset{^t}{}B=(b’_{jk}),$$

那么

$$a’_{ki} =a_{ik} ,b’_{jk} =b_{kj} .$$

计算下述矩阵的元素

$$C=AB=\begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{m1} & c_{m2} & \cdots & c_{mn} \end{pmatrix} ,D=\sideset{^t}{}B \sideset{^t}{}A =\begin{pmatrix} d_{11} & d_{12} & \cdots & d_{1m} \\ d_{21} & d_{22} & \cdots & d_{2m} \\ \cdots & \cdots & \cdots & \cdots \\ d_{n1} & d_{n2} & \cdots & d_{nm} \end{pmatrix}$$

根据公式$\eqref{7}$:

$$c_{ij} =\sum_{k=1}^n a_{ik} b_{kj} ,d_{ji} =\sum_{k=1}^n b’_{jk} a’_{ki} =\sum_{k=1}^n a_{ik} b_{kj} ,$$

表明$d_{ji} =c_{ij}$对一切$1\leq i \leq m,1\leq j\leq n$成立.因而$\sideset{^t}{}C =D$,或用原来的记法,

$$\sideset{^t}{}(AB)=\sideset{^t}{}B \sideset{^t}{}A .$$

更一般地,如果矩阵$A_1 ,A_2 ,\cdots ,A_r$的乘积有定义,则

$$\sideset{^t}{} (A_1 A_2 \cdots A_r) =\sideset{^t}{_r} A \cdots \sideset{^t}{_2} A \sideset{^t}{_1} A .$$

由于$\S 2$定理$1$,性质$\text{rank} \sideset{^t}{} A =\text{rank} A$成立.

矩阵乘积的秩

设$A$和$B$是阶分别为$m\times s$和$s\times n$的任意两个矩阵.关于$\text{rank} AB$可以知道些什么呢?

定理$3$ 不等式

$$\text{rank} AB \leq \min{\lbrace \text{rank} A,\text{rank} B\rbrace }$$

成立.

证明 公式$\eqref{7}$给出了矩阵$C=AB$的行$C_{(i)}$和列$C^{(j)}$的表达式

$$C_{(i)} =A_{(i)} B,C^{(j)} =A B^{(j)} .\label{11} \tag{11}$$

矩阵$A$的秩可解释成

$$r_1 =\text{rank} A =\text{dim} \langle A_{(1)} ,A_{(2)} ,\cdots ,A_{(m)} \rangle ,$$

不失一般性,我们把$A_{(1)} \cdots ,A_{(r_1 )}$当作行向量基,因为$A$当中行的变换,附带引起了$C$中行的变换.但这种变换(Ⅰ型初等变换)既不改变$\text{rank} A$,也不改变$\text{rank} C$.于是

$$A_{(k)} =\sum_{i=1}^{r_1 } \lambda_{ki} A_{(i)} ,r_1 < k\leq m,$$

我们(运用分配律$\eqref{10}$)得到

$$C_{(k)} =A_{(k)} B =\left( \sum_{i=1}^{r_1 } \lambda_{ki} A_{(i)} \right) B =\sum_{i=1}^{r_1 }\lambda_{ki} (A_{(i)} B)=\sum_{i=1}^{r_1} \lambda_{ki}C_{(i)} ,$$

于是

$$\langle C_{(1)} ,\cdots ,C_{(m) } \rangle =\langle C_{(1)} ,\cdots ,C_{(r_1 ) } \rangle .$$

这时

$$\text{rank} C=\text{dim} \langle C_{(1)} ,\cdots ,C_{(m) } \rangle \leq r_1 =\text{rank} A.$$

类似地将矩阵$B$的秩看作

$$r_2 =\text{rank} B =\text{dim} \langle B^{(1)} ,B^{(2)} ,\cdots ,B^{(n)} \rangle ,$$

并不失一般性将$B^{(1)} ,B^{(2)} ,\cdots ,B^{(r_2 )}$作为列向量基,我们有

$$B^{(k)} =\sum_{j=1}^{r_2} \mu _{kj} B^{(j)},r_2 < k \leq n,$$

$$C^{(k)} =AB^{(k)}=A\left( \sum_{j=1}^{r_2 } \mu_{kj} B^{(j)} \right) =\sum_{j=1}^{r_2 } \mu_{kj} AB^{(j)} =\sum_{j=1}^{r_2 } \mu_{kj} C^{(j)} ,$$

从而

$$\text{rank} C=\text{dim} \langle C_{(1)} ,\cdots ,C_{(n) } \rangle \leq r_2 =\text{rank} B.\quad \square $$

我们指出,在某些情况下,定理$3$中的不等式可以是严格的.例如当$A\neq 0,B\neq 0$时,可能有$AB=0$(见第$2$段例$2$).一般来说,定理$3$只能简单地断定,矩阵乘积的秩不会增大.

方阵

全体$n$阶实方阵$(a_{ij})$的集合通常记作$M_n (\mathbb{R})$(或$M_n$).我们在第$1$段结尾处已经指出,亦可称这一集合为向量空间$M_n (\mathbb{R})$.根据第$2$段,$M_n (\mathbb{R})$中任意两个矩阵的乘积仍在$M_n (\mathbb{R})$中,且满足结合律和分配律.

定义 称$n$阶方阵的集合构成一个(结合)环.

不难验证纯量乘法满足$\lambda AB =(\lambda A)B=A(\lambda B)$,其中$\lambda \in \mathbb{R} $,考虑到这一点,集合$M_n (\mathbb{R})$也叫作一个$\mathbb{R}$上的代数.

我们要逐步习惯于使用这些名词(关于术语化新对象的分类见第$4$章),现在我们转到单位矩阵$E=(\delta _{kj})$,此处

$$\delta _{kj} =\begin{cases} 1, & 若 & k=j ,\\ 0, & 若 & k\neq j ,\end{cases}$$

叫作克罗内克符号.显然$\text{rank}E =n$.用$\delta _{kj}$代替$b_{kj}$,矩阵相乘的法则$\eqref{7}$给出了下述关系式:

$$EA=A=AE ,\quad A\in M_n (\mathbb{R}).$$

更一般地:

$$\text{diag}_n (\lambda )A=\lambda A=A\text{diag}_n (\lambda ),\label{12} \tag{12}$$

其中

$$\text{diag}_n (\lambda )=\lambda E=\begin{vmatrix} \lambda & 0 & \cdots & 0 \\ 0 & \lambda & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & \lambda \end{vmatrix} $$

是我们已经知道的纯量矩阵(见第$1$章$\S 3$).所以矩阵$A$与纯量$\lambda $的乘积等于$A$与纯量阵的乘积.

等式$\eqref{12}$给出了一个显而易见的事实,纯量阵$\text{diag}_n (\lambda )$与任意矩阵$A$可交换.它的逆命题在应用中十分重要.

定理$4$ 在$M_n$中,与任意矩阵可交换的矩阵是纯量阵.

证明 引入矩阵$E_{ij}$,它在第$i$行第$j$列的交战处取值$1$,而所有其他的元素均为零.如果$Z=(z_{ij})$是定理中要求的矩阵,则特别地,$Z$与所有的$E_{ij}$可交换:

$$ZE_{ij} =E_{ij} Z,\quad i,j=1,2,\cdots ,n.$$

在这一等式的左右两边做矩阵乘法,我们得到矩阵

$$\begin{matrix} \begin{pmatrix} 0 & \cdots & z_{1i} & \cdots & 0 \\ 0 & \cdots & z_{2i} & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 0 & \cdots & z_{ni} & \cdots & 0 \end{pmatrix} \\ (j) \end{matrix}和\begin{pmatrix} 0 & 0 & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ z_{j1} & z_{j2} & \cdots & z_{jn} \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 0 \end{pmatrix}(i)$$

它们分别有唯一非零的第$j$列和唯一非零的第$i$行.比较两个矩阵,立即得关系式$z_{ki} =0$若$k\neq i$,以及$z_{ii} =z_{jj}$.改变$i$和$j$,定理得证.$\quad \square $

对给定矩阵$A\in M_n (\mathbb{R} )$,可以试着去找一个矩阵$A’\in M_n (\mathbb{R} )$,满足关系式$AA’=E=A’A$.易见

$$AA’=E=A’’A \Rightarrow A’’=A.\label{13} \tag{13}$$

事实上,$A’’=A’’E=A’’(AA’)=(A’’A)A’=EA’=A’$.这样,若矩阵$A’$存在,必定唯一.它叫作矩阵$A$的逆矩阵,记作$A^{-1}$:

$$AA^{-1}=E=A^{-1}A.\label{14} \tag{14}$$

如果$\eqref{14}$式满足,称矩阵$A$是可逆的.

定义 矩阵$A\in M_n (\mathbb{R} )$叫作非退化的,如果它的行(同样地列)向量组是线性无关的,即$\text{rank}A=n$.如果$\text{rank} A < n$,则$A$叫作退化的.

定理$5$ 矩阵$A\in M_n (\mathbb{R} )$是可逆的,当且仅当$A$是非退化的.

证明 $1)$如果$AB=E$(或$BA=E$),则由定理$3$有

$$n=\text{rank} E = \text{rank} AB\leq \min{\lbrace \text{rank} A,\text{rank} B\rbrace } \leq n,$$

从而$\text{rank} A=n$.

$2)$如果$\text{rank} A=n$,则

$$\langle E^{(1)} ,\cdots ,E^{(n)} \rangle =\mathbb{R}^n =\langle A^{(1)} ,\cdots ,A^{(n)} \rangle ,$$

于是

$$E^{(j)} =\sum_{i=1}^n a’_{ij} A^{(i)} ,\quad 1\leq j\leq n,\label{15} \tag{15}$$

并且元素$a’_{ij}$组成的矩阵$A’=(a’_{ij} )\in M_n (\mathbb{R} )$是唯一确定的.根据$\S 2$第$1$段(见那里的等式$(1)$和$(2)$),关系式$\eqref{15}$可以写成

$$E^{(j)} =(A^{(1)},A^{(2)},\cdots ,A^{(1)})[a’_{1j} ,a’_{2j} ,\cdots ,a’_{nj} ]=A{A’}^{(j)},\quad 1\leq j\leq n,$$

所以

$$E=(E^{(1)},\cdots ,E^{(n)})=(A{A’}^{(1)} ,\cdots ,A{A’}^{(n)})=AA’.$$

此处我们将矩阵$E$和$AA’$都用它们的列来表示.

我们指出(见第$3$段)$A$的转置矩阵$\sideset{^t}{}A$也与$A$一样是非退化的.因而可以找到矩阵$B$,使$\sideset{^t}{}A\cdot B=E$.回到第$3$段并令$A’’=\sideset{^t}{}B$,我们有

$$E=\sideset{^t}{}E =\sideset{^t}{}(\sideset{^t}{}AB)=\sideset{^t}{t}B(\sideset{^t}{}A)=A’’A.$$

于是

$$AA’=E=A’’A.$$

根据$\eqref{13}$式,$A’’=A’$,所以按照$\eqref{14}$式,$A’=A^{-1}$,即矩阵$A$是可逆的.$\square $

推论$1$ 如果$B$和$C$分别是$m$阶和$n$阶的非退化方阵,而$A$是任意的$m\times n$矩阵,则

$$\text{rank}BAC =\text{rank}A.$$

证明 由于定理$3$和$5$,我们有

$$\text{rank}BAC \leq \text{rank}BA =\text{rank}BA(CC^{-1}) =\text{rank}(BAC)C^{-1} \leq \text{rank}BAC,$$

得到$\text{rank}BAC =\text{rank}BA$.类似地可建立等式

$$\text{rank}BA=\text{rank}A .\quad \square $$

推论$2$ 如果$A,B\in M_n (\mathbb{R} )$且$AB=E$或$BA=E$,则$B=A^{-1}$.

证明 见定理$5$证明的第$1)$部分,$AB=E\Rightarrow \text{rank}A =n$,即$A$是非退化的,从而是可逆的. $\quad \square $

推论$3$ 如果$A,B,\cdots ,C,D$是非退化的$n\times n$矩阵,则乘积$AB\cdots CD$也是非退化的,且

$$(AB\cdots CD)^{-1} =D^{-1} C^{-1} \cdots B^{-1} A^{-1} .$$

证明 矩阵$G=AB\cdots CD$的非退化性由推论$1$给出,而等式$G^{-1} =D^{-1}C^{-1} \cdots B^{-1} A^{-1}$可直接验证:

$$G(D^{-1}C^{-1} \cdots B^{-1} A^{-1}) =AB\cdots C(DD^{-1})C^{-1} \cdots B^{-1} A^{-1} =AB\cdots (CC^{-1})\cdots B^{-1} A^{-1}=\cdots =E.\square $$

实际计算逆矩阵的常用方法将在第$7$段给出.在那里也同时得到了定理$5$的另一种证明.

我们将在第$3$章给出$A^{-1}$的一个显式.现在仅仅指出,给定实系数矩阵$A$,实际计算$A^{-1}$,或者计算两个矩阵的乘积,需要完成大量的运算.在应用中会遇到阶数$n=100$或更大的矩阵.如果$A$和$B$是这样的两个矩阵,计算$C=AB$需要按照公式$\eqref{7}$(或$\eqref{9}$)找到$n^2$个元素$c_{ij}$,每找一个元素要做$(n+(n-1)=2n-1)$次乘法或加法.共需进行$(2n-1)n^2$次运算,也就是说当$n=100$时要做约二百万次运算.对于现代的计算机,这个问题不难,但如果我们想找到矩阵$A$的方幂$A^m$,且$m \geq 1000$,计算机实现就会发生困难.根据定义,$A^m =A\cdot A^{m-1}$;但由结合律(见定理$2$的推论)易见$A^m =A^k A^{m-k}$,$0\leq k\leq m$,这将在第四章中在更一般的背景下进行说明.为了计算$A^m$,人们使用各种附加的手段,它们或者基于矩阵$A$的特殊性质,或者借用于线性代数课程作为解释.我们来看三个例子.

例$1$ 如果

$$A=\text{diag}(\alpha _1 ,\cdots ,\alpha _n )=\begin{pmatrix} \alpha _1 & \cdots & 0 \\ \cdots & \cdots & \cdots \\ 0 & \cdots & \alpha _n \end{pmatrix} ,$$

则显然

$$A^m=\text{diag}(\alpha _1^m ,\cdots ,\alpha _n^m )=\begin{pmatrix} \alpha _1^m & \cdots & 0 \\ \cdots & \cdots & \cdots \\ 0 & \cdots & \alpha _n^m \end{pmatrix} .$$

例$2$

$$A=\begin{pmatrix} a & c \\ 0 & b \end{pmatrix} .$$

对$m$作归纳表明,有

$$A^m=\begin{pmatrix} a^m & c\dfrac{a^m-b^m}{a-b} \\ 0 & b^m \end{pmatrix} ,$$

此处

$$\dfrac{a^m-b^m}{a-b} =a^{m-1} +a^{m-2}b+\cdots +ab^{m-2}+b^{m-1} .$$

特别地,若$a=b$,有

$$\begin{pmatrix} a & c \\ 0 & a \end{pmatrix} ^m =\begin{pmatrix} a^m & ma^{m-1}c \\ 0 & a^m \end{pmatrix}.$$

例$3$ 对$m$用归纳法,不难证明矩阵

$$A=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix} $$

的$m$次方幂形如

$$A^m=\begin{pmatrix} f_{m-1} & f_m \\ f_m & f_{m+1} \end{pmatrix} ,\label{16} \tag{16}$$

其中整数$f_0 =0 ,f_1 =1,f_2 =1,f_3 =2,\cdots $,它们是用递归关系式

$$f_{m+1} =f_m +f_{m-1} $$

定义的.这些正是斐波那契数(见第$1$章$\S 3$末的例$2$).

引进行列式为$1$的矩阵(见第$1$章$\S 4$)

$$B=\begin{pmatrix} -\dfrac{\lambda _2 }{5} & \dfrac15 \\ -\sqrt{5} \lambda _1 & \sqrt{5} \end{pmatrix} ,$$

其中$\lambda _1 =\dfrac{1+\sqrt{5} }{2} ,\lambda _2 =\dfrac{1-\sqrt{5} }{2}$.

不难计算,

$$B^{-1}=\begin{pmatrix} \sqrt{5} & -\dfrac15 \\ \sqrt{5} \lambda _1 & -\dfrac{\lambda _2 }{5} \end{pmatrix} ,A=B^{-1}\cdot \begin{pmatrix} \lambda _1 & 0 \\ 0 & \lambda _2 \end{pmatrix} \cdot B.$$

但是如果三个$n\times n$矩阵$A,B,C$,其中$B$是非退化的,满足关系式$A=B^{-1}CB$,则

$$A^m =B^{-1}CB\cdot B^{-1}CB \cdot B^{-1}CB\cdots B^{-1}CB=B^{-1}C^mB$$

(其中的因子$BB^{-1}$等于$E$约去)在这种情况下,考虑到例$1$和关系式$\eqref{16}$有

$$\begin{align}
\begin{pmatrix} f_{m-1} & f_m \\ f_m & f_{m+1} \end{pmatrix} & =A^m \\
& =B^{-1}\begin{pmatrix} \lambda _1 & 0 \\ 0 & \lambda _2 \end{pmatrix}^mB \\
& =B^{-1}\begin{pmatrix} \lambda _1^m & 0 \\ 0 & \lambda _2^m \end{pmatrix}B \\
& =\begin{pmatrix} \sqrt{5} & -\dfrac15 \\ \sqrt{5} \lambda _1 & -\dfrac{\lambda _2 }{5} \end{pmatrix} \begin{pmatrix} \lambda _1^m & 0 \\ 0 & \lambda _2^m \end{pmatrix}B \\
& =\begin{pmatrix} \sqrt{5}\lambda _1^m & -\dfrac{1}{5}\lambda _2^m \\ \sqrt{5} \lambda _1^{m+1} & -\dfrac{1}{5} \lambda _2^{m+1} \end{pmatrix} \begin{pmatrix} -\dfrac{\lambda _2 }{5} & \dfrac15 \\ -\sqrt{5} \lambda _1 & \sqrt{5} \end{pmatrix} \\
& =\begin{pmatrix} \ast & \dfrac{1}{\sqrt{5}} (\lambda _1^m -\lambda _2^m ) \\ \ast & \ast \end{pmatrix}
\end{align} $$

($\ast $代表我们不感兴趣的数).

比较这些等式中第一个和最后一个右上角的元素,得到第$m$个斐波那契数的公式

$$f_m =\dfrac{\lambda _1^m -\lambda _2^m }{\sqrt{5} } =\dfrac{1}{\sqrt{5}}\begin{Bmatrix} \left( \dfrac{1+\sqrt{5} }{2} \right) ^m -\left( \dfrac{1-\sqrt{5} }{2} \right) ^m \end{Bmatrix}.$$

因为$\lim_{m\to \infty } \left( \dfrac{1-\sqrt{5} }{2} \right) ^m =0$,我们看到当$m$充分大时,$f_m \sim \dfrac{1}{\sqrt{5}}\lambda _1^m$(近似于几何级数).

矩阵的等价类

如同定理$4$的证明中所述,我们用$E_{st}$记$m\times m$矩阵,其中第$s$行与第$t$列交叉处的元素为$1$,所有其他的元素为$0$(这样的矩阵叫作矩阵单位).研究$M_m (\mathbb{R} )$中下述形式的初等矩阵

$$\begin{align}
& F_{s,t} \\
= & E-E_{s,s} -E_{t,t} +E_{s,t} +E_{t,s} \\
= & \begin{pmatrix} 1 & & & & & & & & \\ & \ddots & & & & & & & \\ & & 0 & & & & 1 & & \\ & & & \ddots & & & & & \\ & & & & 1 & & & & \\ & & & & & \ddots & & & \\ & & 1 & & & & 0 & & \\ & & & & & & & \ddots & \\ & & & & & & & & 1 \\ \end{pmatrix} ,s\neq t;\label{61} \tag{Ⅰ}
\end{align} $$

$$F_{s,t} (\lambda )=E+\lambda E_{s,t} =\begin{pmatrix} 1 & & & & & \\ & \ddots & & & & \\ & \cdots & 1 & \cdots & \lambda & \cdots \\ & & & \ddots & & \\ & & & & \ddots & \\ & & & & & 1 \end{pmatrix} ,s\neq t;\label{62} \tag{Ⅱ} $$

$$F_s (\lambda )=E+(\lambda -1)E_{s,s} =\text{diag} \lbrace 1,\cdots ,1,\lambda ,1,\cdots ,1 \rbrace ,\lambda \neq 0.\label{63} \tag{Ⅲ}$$

设$A$是任意的$m\times n$矩阵.直接验证可知,如果$F=F_{s,t}$或$F=F_{s,t} (\lambda )$,矩阵$A’=FA$是从$A$通过施行对行的$\eqref{61}$型或$\eqref{62}$型初等变换得到的.

如果$F=F_s (\lambda )$,我们有$\eqref{63}$型初等变换(用$\lambda $乘以$A$的第$s$行$A_{(s)}$).类似地,矩阵$A’’=AF$可以从$A$施行初等列变换得到.我们从$\S 2$第$2$段和$\S 2$习题$2$知道,对行和列施行$\eqref{61}$型和$\eqref{62}$型初等变换,$A$可以化成一个左上角为$r\times r$非退化对角子阵的矩阵,此处$r=\text{rank}A$(当$r=0$时,$A$是零矩阵).因为

$$\begin{pmatrix} a_1 & & & & & & \\ & a_2 & & & & 0 & \\ & & \ddots & & & & \\ & & & a_r & & & \\ & 0 & & & 0 & & \\ & & & & & \ddots & \\ & & & & & & 0 \\ \end{pmatrix} =F_1 (a_1 )F_2 (a_2 )\cdots F_r (a_r )\begin{pmatrix} 1 & & & & & & \\ & 1 & & & & 0 & \\ & & \ddots & & & & \\ & & & 1 & & & \\ & & & & 0 & & \\ & & 0 & & & \ddots & \\ & & & & & & 0 \\ \end{pmatrix},$$

允许施行$\eqref{63}$型初等变换,便可以从$A$得到下述形状的矩阵

$$\begin{pmatrix} E_r & 0 \\ 0 & 0 \end{pmatrix} \label{17} \tag{17}$$

(这里$E_r$是$M_r (\mathbb{R} )$中的单位矩阵;三个零分别表示阶为$r\times (n-r)$,$(m-r)\times r$以及$(m-r)\times (n-r)$的零矩阵).这样

$$P_k P_{k-1} \cdots P_1 A Q_1 Q_2 \cdots Q_l =\begin{pmatrix} E_r & 0 \\ 0 & 0 \end{pmatrix} ,\label{18} \tag{18}$$

其中$P_i (Q_i )$是$m$阶(相应地$n$阶)初等矩阵.

多次提及初等变换是可逆的.这与初等矩阵的可逆性是一致的:

$$(F_{s,t})^{-1} =F_{s,t} ,F_{s,t}(\lambda )^{-1} =F_{s,t}(-\lambda ),F_s (\lambda )^{-1} =F_s (\lambda ^{-1} ).$$

根据定理$5$的推论$3$,矩阵$P=P_k P_{k-1} \cdots P_1$和$Q=Q_1 Q_2 \cdots Q_l$也可逆:

$$P^{-1} =P_1^{-1} \cdots P_{k-1}^{-1} P_k^{-1} ,Q^{-1} =Q_l^{-1} \cdots Q_2^{-1} Q_1^{-1} .$$

注意$P_i^{-1} ,Q_j^{-1}$都是初等矩阵.

称两个$m\times n$阶矩阵$A,B$是等价的,并记作$A\sim B$,如果能够找到非退化的$m$阶和$n$阶矩阵$P,Q$,使得$B=PAQ$.

易见$\sim $是一个等价关系:

$i)$ $A\sim A(P=E_m ,Q=E_n)$;

$ii)$ $A\sim B \Rightarrow B\sim A$,因为$B=PAQ \Rightarrow A=P^{-1}BQ^{-1}$;

$iii)$ $B=P’AQ’,C=P’’BQ’’ \Rightarrow C=PAQ$,其中$P=P’’P’ ,Q=Q’Q’’$.

根据一般原则(见第$1$章$\S 6$),所有的$m\times n$矩阵的集合按照关系$\sim $划分成互不相交的等价矩阵类.因为等价矩阵的秩相等(见定理$5$的推论$1$),等式$\eqref{18}$的论证表明,可以选择矩阵$\eqref{17}$作为等价类的代表元.

我们得到了下述论断.

定理$6$ $m\times n$矩阵的集合划分成$p=\min{\lbrace m,n \rbrace } +1$个等价类.所有秩为$r$的矩阵都和代表元$\eqref{17}$在同一类中.

推论 每一个非退化的$n\times n$矩阵都可以写成初等矩阵的乘积.

证明 所有非退化的$n$阶矩阵都和单位矩阵在同一个等价类中,因为它们的秩等于$n$.将关系式$\eqref{18}$

$$P_k P_{k-1} \cdots P_1 AQ_1 Q_2 \cdots Q_l =E,$$

改写成

$$A=P_1^{-1} \cdots P_{k-1}^{-1}P_k^{-1} Q_l^{-1} \cdots Q_2^{-1} Q_1^{-1} ,\label{19} \tag{19}$$

推论得证.

不能断定将$A$写成初等矩阵的乘积时写法是唯一的,但这种写法的存在性本身就已经非常有用.特别地,它可以用来求逆矩阵.事实上,从公式$\eqref{19}$我们得到

$$A^{-1}=Q_1 Q_2 \cdots Q_l P_k P_{k-1} \cdots P_1 =QP.$$

逆矩阵的计算

在上一段的推论中,如果只做行变换,当$A\in M_n (\mathbb{R} )$非退化时,从$n\times 2n$阶的扩展矩阵$(A\mid E)$开始,就会得到一系列变换

$$(A\mid E) \overset{P_1 }{\longrightarrow } (P_1 A\mid P_1 E) \overset{P_2 }{\longrightarrow } \cdots \overset{P_k }{\longrightarrow } (P_k \cdots P_2 P_1 A\mid P_k \cdots P_2 P_1 E) =(E\mid A’).$$

这个序列在第$k$步中止,直到$n\times 2n$阶矩阵左半边的$A$换成了单位矩阵$E$.这时右半边得到了唯一的矩阵:$A’=A^{-1}$.如果矩阵$A$退化,这个过程可能中断得早些,我们将$A$化成了阶梯形并得到了秩$r=\text{rank} A$.

在第$6$节开头,取$n=3$,我们有初等矩阵的实例

$$F_{1,2} (-3)=\begin{pmatrix} 1 & -3 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \end{pmatrix} ,F_{3,2} (4)=\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 4 & 1 \\ \end{pmatrix},F_{1,3} =\begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \\ \end{pmatrix}.$$

左乘$n\times n$初等矩阵$P_i $的作用未加阐述.事实上,它可以看作一个指令,完成与之相应的初等行变换.

再次提醒读者注意下述符号的含义:

$1$.$P_i =F_{s,t}$——将矩阵的第$s$和$t$行交换位置;

$2$.$P_i =F_{s,t} (\lambda )$——将矩阵的第$t$行乘以$\lambda $加到第$s$行上;

$3$.$P_i =F_s (\lambda )$——将矩阵的第$s$行乘以$\lambda $.

例$4$

$$A=\begin{pmatrix} 0 & 2 & 0 \\ 1 & 1 & -1 \\ 2 & 1 & -1 \\ \end{pmatrix} $$

我们有

$$\begin{align}
(A\mid E)= & \begin{pmatrix} \begin {array}{ccc|ccc} 0 & 2 & 0 & 1 & 0 & 0 \\ 1 & 1 & -1 & 0 & 1 & 0 \\ 2 & 1 & -1 & 0 & 0 & 1 \end{array} \end{pmatrix} \overset{F_{1,2} }{\longrightarrow } \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 1 & -1 & 0 & 1 & 0 \\ 0 & 2 & 0 & 1 & 0 & 0 \\ 2 & 1 & -1 & 0 & 0 & 1 \end{array} \end{pmatrix} \overset{F_{3,1}(-2) }{\longrightarrow } \\
& \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 1 & -1 & 0 & 1 & 0 \\ 0 & 2 & 0 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 & -2 & 1 \end{array} \end{pmatrix} \overset{F_2 (\dfrac{1}{2}) }{\longrightarrow } \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 1 & -1 & 0 & 1 & 0 \\ 0 & 1 & 0 & \dfrac{1}{2} & 0 & 0 \\ 0 & -1 & 1 & 0 & -2 & 1 \end{array} \end{pmatrix} \overset{F_{1,2}(-1) }{\longrightarrow } \\
& \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 0 & -1 & -\dfrac{1}{2} & 1 & 0 \\ 0 & 1 & 0 & \dfrac{1}{2} & 0 & 0 \\ 0 & -1 & 1 & 0 & -2 & 1 \end{array} \end{pmatrix} \overset{F_{3,2} (1) }{\longrightarrow } \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 0 & -1 & -\dfrac{1}{2} & 1 & 0 \\ 0 & 1 & 0 & \dfrac{1}{2} & 0 & 0 \\ 0 & 0 & 1 & \dfrac{1}{2} & -2 & 1 \end{array} \end{pmatrix} \overset{F_{3,1}(1) }{\longrightarrow } \\
& \begin{pmatrix} \begin {array}{ccc|ccc} 1 & 0 & 0 & 0 & -1 & 1 \\ 0 & 1 & 0 & \dfrac{1}{2} & 0 & 0 \\ 0 & 0 & 1 & \dfrac{1}{2} & -2 & 1 \end{array} \end{pmatrix}.
\end{align}$$

所以

$$A^{-1}=\begin{pmatrix} 0 & -1 & 1 \\ \dfrac{1}{2} & 0 & 0 \\ \dfrac{1}{2} & -2 & 1 \end{pmatrix} .$$

为了书写简便,我们可以适当地将同类型的变换同时进行.

例$5$

$$A=\begin{pmatrix} -1 & 1 & 1 & 1 \\ 1 & -1 & 1 & 1 \\ 1 & 1 & -1 & 1 \\ 1 & 1 & 1 & -1 \end{pmatrix} .$$

我们有

$$\begin{align}
(A\mid E)= & \begin{pmatrix} \begin {array}{cccc|cccc} -1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 \\ 1 & -1 & 1 & 1 & 0 & 1 & 0 & 0 \\ 1 & 1 & -1 & 1 & 0 & 0 & 1 & 0 \\ 1 & 1 & 1 & -1 & 0 & 0 & 0 & 1 \end{array} \end{pmatrix} \\
\xrightarrow[F_{1,2}(1)]{\begin{matrix} F_{1,4} (1) \\ F_{1,3} (1) \end{matrix} } & \begin{pmatrix} \begin {array}{cccc|cccc} 2 & 2 & 2 & 2 & 1 & 1 & 1 & 1 \\ 1 & -1 & 1 & 1 & 0 & 1 & 0 & 0 \\ 1 & 1 & -1 & 1 & 0 & 0 & 1 & 0 \\ 1 & 1 & 1 & -1 & 0 & 0 & 0 & 1 \end{array} \end{pmatrix} \\
\overset{F_1 (\dfrac12 ) }{\longrightarrow } & \begin{pmatrix} \begin {array}{cccc|cccc} 1 & 1 & 1 & 1 & \dfrac12 & \dfrac12 & \dfrac12 & \dfrac12 \\ 1 & -1 & 1 & 1 & 0 & 1 & 0 & 0 \\ 1 & 1 & -1 & 1 & 0 & 0 & 1 & 0 \\ 1 & 1 & 1 & -1 & 0 & 0 & 0 & 1 \end{array} \end{pmatrix} \\
\xrightarrow[F_{2,1}(-1)]{\begin{matrix} F_{4,1} (-1) \\ F_{3,1} (-1) \end{matrix} } & \begin{pmatrix} \begin {array}{cccc|cccc} 1 & 1 & 1 & 1 & \dfrac12 & \dfrac12 & \dfrac12 & \dfrac12 \\ 0 & -2 & 0 & 0 & -\dfrac12 & \dfrac12 & -\dfrac12 & -\dfrac12 \\ 0 & 0 & -2 & 0 & -\dfrac12 & -\dfrac12 & \dfrac12 & -\dfrac12 \\ 0 & 0 & 0 & -2 & -\dfrac12 & -\dfrac12 & -\dfrac12 & \dfrac12 \end{array} \end{pmatrix} \\
\xrightarrow[F_2(-\dfrac12 )]{\begin{matrix} F_4 (-\dfrac12 ) \\ F_3 (-\dfrac12 ) \end{matrix} } & \begin{pmatrix} \begin {array}{cccc|cccc} 1 & 1 & 1 & 1 & \dfrac12 & \dfrac12 & \dfrac12 & \dfrac12 \\ 0 & 1 & 0 & 0 & \dfrac14 & -\dfrac14 & \dfrac14 & \dfrac14 \\ 0 & 0 & 1 & 0 & \dfrac14 & \dfrac14 & -\dfrac14 & \dfrac14 \\ 0 & 0 & 0 & 1 & \dfrac14 & \dfrac14 & \dfrac14 & -\dfrac14 \end{array} \end{pmatrix} \\
\xrightarrow[F_{1,2}(-1)]{\begin{matrix} F_{1,4} (-1) \\ F_{1,3} (-1) \end{matrix} } & \begin{pmatrix} \begin {array}{cccc|cccc} 1 & 0 & 0 & 0 & -\dfrac14 & \dfrac14 & \dfrac14 & \dfrac14 \\ 0 & 1 & 0 & 0 & \dfrac14 & -\dfrac14 & \dfrac14 & \dfrac14 \\ 0 & 0 & 1 & 0 & \dfrac14 & \dfrac14 & -\dfrac14 & \dfrac14 \\ 0 & 0 & 0 & 1 & \dfrac14 & \dfrac14 & \dfrac14 & -\dfrac14 \end{array} \end{pmatrix} .\\
\end{align}$$

所以,$A^{-1} =\dfrac14 A$.

在上例中,计算亦可避免.注意到退化矩阵与任意矩阵的乘积都是退化的(定理$3$),但我们有

$$A^2=\begin{pmatrix} 4 & 0 & 0 & 0 \\ 0 & 4 & 0 & 0 \\ 0 & 0 & 4 & 0 \\ 0 & 0 & 0 & 4 \end{pmatrix} =4E;$$

因而$A$非退化,$A^{-1}$是存在的.

$$A=A^2 A^{-1} =4E\cdot A^{-1} =4A^{-1}\Longrightarrow A^{-1} =\dfrac14 A.$$

注记 在施行系列初等行变换时,应当避免一个典型的错误——将前一个变换中改变了的行加到未改变的行上.例如算法

$$A\xrightarrow[F_{1,2}(1)]{F_{2,1}(1)} A’$$

是模棱两可的:不清楚其中作用的顺序,先$F_{1,2}(1)$,后$F_{2,1}(1)$;先$F_{2,1}(1)$,后$F_{1,2}(1)$,或同时进行?不同的方式得到了行$A’_{(1)} ,A’_{(2)}$的不同表达.在例$5$中,我们合并的只是同类型的变换,而如果我们打算按照上述方法用计算机进行计算,那么线性调整初等变换的序列是自然的.

上述求矩阵的秩以及逆矩阵的方法,叫作$P$约化,或更一般地,矩阵到标准型$\eqref{17}$的$(P,Q)$约化.

解空间

从$\S 2$和$\S 3$开头的导言得知,带有$m\times n$阶系数矩阵$A$和自由项$B\in \mathbb{R}^m$的线性方程组可以写成

$$AX=B \label{20} \tag{20}$$

(其中$X=[x_1 ,\cdots ,x_n ]$是高度为$n$的列).假设$m=n$且方阵$A$非退化(见第$5$段),用$A^{-1}$左乘矩阵等式的两端:$X=EX=(A^{-1}A)X =A^{-1}(AX)=A^{-1}B$,我们得到方程组$\eqref{20}$的解,并且该解是唯一的.解的这种方便的写法并没有使我们免去必要的计算,因为$A^{-1}$并未预先给定.但我们仍然满意地指出,矩阵工具的运用至少使人得到了美学上的快感.现在我们运用这一工具来求齐次线性方程组

$$AX=0 \label{21} \tag{21}$$

的全部解.先来看一个基本事实,若$X^{(1)},X^{(2)}$是齐次线性方程组$\eqref{21}$的解,则它们的任意线性组合也是$\eqref{21}$的解:

$$A(\alpha _1 X^{(1)} +\alpha _2 X^{(2)} )=\alpha _1 AX^{(1)} +\alpha _2 AX^{(2)} =0.$$

因而可以谈论齐次线性方程组的解空间——线性包:

$$V_A =\langle X\in \mathbb{R}^n \mid AX=0 \rangle \subset \mathbb{R}^n .$$

设$s=\text{dim} V_A ,r=\text{rank}A$.根据定义$s\leq n$,$r \leq \min{\lbrace m,n\rbrace } $.那么$s$与$r$之间存在什么联系呢?

定理$7$ 等式$r+s =n$成立.

证明 选择线性包$V_A$的一组基$X^{(1)} ,\cdots ,X^{(s)}$,并扩充成全空间$\mathbb{R}^n$的基$X^{(1)} ,\cdots ,X^{(s)} ,X^{(s+1)} ,\cdots ,X^{(n)}$.如同$\S 1$定理$2$的证明(或$\S 1$习题$6$)所指出的,这件事总能办到,任取向量$X=\sum_{i=1}^n \alpha _i X^{(i)} \in \mathbb{R}^n$,有

$$AX=\sum_{i=1}^n \alpha _i AX^{(i)} =\alpha _{s+1} AX^{(s+1)} +\cdots +\alpha _n AX^{(n)} ,$$

所以$\S 2$定义的线性包,称之为矩阵$A$的列空间,

$$V_c (A)=\langle A^{(1)} ,\cdots ,A^{(n)} \rangle =\langle x_1 A^{(1)} +\cdots +x_n A^{(n)} \mid x_i \in \mathbb{R}^n \rangle =\langle AX\mid X \in \mathbb{R}^n \rangle \subset \mathbb{R}^m ,$$

与线性包$\langle AX^{(s+1)} ,\cdots ,AX^{(n)} $重合.

特别地,$r=\text{dim} V_c (A)\leq n-s$.但是向量$AX^{(s+1)} ,\cdots ,AX^{(n)}$是线性无关的,因为从

$$0=\sum_{k\geq s+1} \beta _k AX^{(k)} =A\left( \sum_{k\geq s+1} \beta _k X^{(k)} \right) $$

得到$\sum_{k\geq s+1} \beta _k X^{(k)} \in V_A$,而由于$X^{(s+1)} ,\cdots ,X^{(n)} $的选择,仅有的可能性为$\beta _{s+1} =\cdots =\beta _n =0$.于是$r=n-s$.$\quad \square $

注记 如果使用线性变换的语言(见$\S 3$第$1$段),显然有

$$V_A =\text{ker} \varphi _A ,\quad V_c (A) =\text{Im} \varphi _A ,$$

即由$A$确定的线性变换$\varphi _A : \mathbb{R}^n \to \mathbb{R}^m$的核与像.对于我们来说,这种方法只是作为引入矩阵概念的一个说明.

为了找到空间$V_c (A)$的一组基,我们要在$A$中选择$r$个列向量基,方法之一是将$A$化为阶梯形,或者用第$3$章指出的方法置换矩阵的列,或等价地,重排未知量,可以使前$r$列$A^{(1)} ,\cdots ,A^{(r)}$成为列向量基.这里,在关于未知量$x’_1 ,x’_2 ,\cdots ,x’_n $的新方程组中,$x’_1 ,\cdots ,x’_r $成为主未知量.任意$r+1$个列向量$A^{(1)} ,\cdots ,A^{(r)},A^{(r+k)} ,k > 0$,都是线性相关的,根据$\S 1$的定理$1\; v)$,可以写出关系式

$$x_1^{(k)} A^{(1)}+x_2^{(k)} A^{(2)}+\cdots +x_r^{(k)} A^{(r)}+A^{(r+k)} =0,k=1,2,\cdots ,n-r .$$

$(n-r)$个列向量

$$\begin{matrix} X^{(1)} =\left[ x_1^{(1)} ,x_2^{(1)} ,\cdots ,x_r^{(1)} ,1,0,\cdots ,0 \right] ,\\ X^{(2)} =\left[ x_1^{(2)} ,x_2^{(2)} ,\cdots ,x_r^{(2)} ,0,1,\cdots ,0 \right] ,\\ \cdots \cdots \cdots \cdots \cdots \\ X^{(n-r)} =\left[ x_1^{(n-r)} ,x_2^{(n-r)} ,\cdots ,x_r^{(n-r)} ,0,0,\cdots ,1 \right] \end{matrix} \label{22} \tag{22}$$

显然是线性无关的(根据后$n-r$个分量的特殊形式),它们是齐次线性方程组$\eqref{22}$的解,根据定理$7$,构成解空间$V_A$的一组基.显然,若(带撇的)新自由未知量取值

$$x’_{r+1} =0,\cdots ,x’_{r+k} =1,\cdots ,x’_n =0,$$

则得到解$X^{(k)}$.

秩$r$齐次线性方程组$AX=0$的解空间的任意一组基称为一个基础解系.向量组$\eqref{22}$也叫作规范基础解系.根据$\S 2$定理$1$的推论,它的秩$s=\text{dim} V_A =n-r$,等于该方程组的自由未知量的个数.

习题

$1$.在下述映射中,哪些是线性映射:

$$\begin{align}
a) & [x_1 ,x_2 ,\cdots ,x_n ]\mapsto [x_n ,\cdots ,x_2 ,x_1 ]; \\
b) & [x_1 ,x_2 ,\cdots ,x_n ]\mapsto [x_1 ,x_2^2 ,\cdots ,x_n^n ]; \\
c) & [x_1 ,x_2 ,\cdots ,x_n ]\mapsto [x_1 ,x_1 +x_2 ,\cdots ,x_1 +x_2 +\cdots +x_n ].
\end{align}$$

$2$.证明

$$\begin{pmatrix} 1 & a & c \\ 0 & 1 & b \\ 0 & 0 & 1 \end{pmatrix} ^m =\begin{pmatrix} 1 & ma & \dfrac{m(m-1)}{2}ab+mc \\ 0 & 1 & mb \\ 0 & 0 & 1 \end{pmatrix} .$$

求矩阵

$$\begin{pmatrix} 1 & a & c \\ 0 & 1 & b \\ 0 & 0 & 1 \end{pmatrix}$$

的逆矩阵.

$3$.验证$\begin{pmatrix} 0 & -1 \\ 1 & -1 \end{pmatrix} ^3 =E$.

$4$.马尔可夫(或随机)矩阵在应用中十分重要:

$$P=(p_{ij}),p_{ij} \geq 0,\sum_{j=1}^n p_{ij} =1 ,i=1,2,\cdots ,n.$$

由马尔可夫矩阵确定的线性变换$\varphi _P$通常作用于概率列向量:

$$X=[x_1 ,\cdots ,x_n ],x_i \geq 0,\sum_{i=1}^n x_i =1.$$

从下述论断可见,这些来自于自然科学问题的定义是协调的论断,即便对$n=2$,也需要证明.

$a)$矩阵$P\in M_n (\mathbb{R} )$是马尔可夫的,当且仅当对任意概率向量$X$,$PX$仍然是概率向量(此处$PX=\varphi _P (X)$).

$b)$如果$P$是正的马尔可夫矩阵(即$\forall i,j,\; p_{ij} > 0$),那么任意概率向量$X$对应到正的概率向量$PX$(所有的分量严格大于$0$).

$c)$如果$P$和$Q$都是马尔可夫矩阵,那么矩阵$PQ$也是马尔可夫矩阵.特别地,马尔可夫矩阵的任意次方幂$P^k$是马尔可夫矩阵.

$5$.若

$$H=\begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & -1 & 1 & -1 \\ 1 & 1 & -1 & -1 \\ 1 & -1 & -1 & 1 \end{pmatrix} ,$$

求$\sideset{^t}{}H\cdot H$.

$6$.由$S_n$中的$n$阶循环(见第$1$章$\S 8$)确定的置换矩阵(行单位阵$E_n$)为

$$P=\begin{pmatrix} 0 & 0 & \cdots & 0 & 1 \\ 1 & 0 & \cdots & 0 & 0 \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & \cdots & 1 & 0\end{pmatrix} ,$$

验证$P^n =E$.

$7$.对于任意两个$m\times n$矩阵$A$和$B$,证明

$$\text{rank}(A+B) \leq \text{rank}A +\text{rank}B.$$

$8$.对于任意的$m\times s$矩阵$A$和$s\times n$矩阵$B$,证明

$$\text{rank}A +\text{rank}B -s\leq \text{rank}AB.$$

$9$.设$A,B,C$是$n$阶方阵,若$ABC=0$,则

$$\text{rank}A +\text{rank}B +\text{rank}C \leq 2n.$$

$10$.求矩阵

$$A=\begin{pmatrix} x_1 y_1 & x_1 y_2 & \cdots & x_1 y_n \\ x_2 y_1 & x_2 y_2 & \cdots & x_2 y_n \\ \cdots & \cdots & \cdots & \cdots \\ x_n y_1 & x_n y_2 & \cdots & x_n y_n \end{pmatrix} $$

的秩.

提示:$A=[x_1 ,\cdots ,x_n ] (y_1 ,\cdots ,y_n )$.

$11$.若$A=(a_{ij})$是非退化对称矩阵(即$a_{ij} =a_{ji}$),证明$A^{-1}$也是对称矩阵.

$12$.设

$$A=\begin{pmatrix} 5 & 4 & 3 & 2 & 1 \\ 4 & 8 & 6 & 4 & 2 \\ 3 & 6 & 9 & 6 & 3 \\ 2 & 4 & 6 & 8 & 4 \\ 1 & 2 & 3 & 4 & 5 \end{pmatrix} ,F=\begin{pmatrix} 2 & 3 & 2 & 1 \\ 3 & 6 & 4 & 2 \\ 4 & 8 & 6 & 3 \\ 2 & 4 & 3 & 2 \end{pmatrix} ,$$

求$A^{-1}$和$F^{-1}$.

$13$.验证

$$A=\begin{pmatrix} a & b \\ c & d \end{pmatrix} ,ad-bc\neq 0\Rightarrow A^{-1}=\dfrac{1}{ad-bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix} .$$

特别地,

$$ad-bc=1\Rightarrow A^{-1}=\begin{pmatrix} d & -b \\ -c & a \end{pmatrix} .$$

如果$ad-bc=0$,$A^{-1}$存在吗?

$14$.证明任意矩阵

$$A=\begin{pmatrix} a & b \\ c & d \end{pmatrix} $$

满足关系式

$$A^2 =(a+d)A-(ad-bc)E \label{23} \tag{23}$$

(换言之,$A$是二次方程$x^2-(a+d)x+(ad-bc)=0$的一个“根”).

$15$.如果$ad-bc\neq 0$,运用关系$\eqref{23}$求逆矩阵$A^{-1}$.

$16$.证明若$\begin{pmatrix} a & b \\ c & d \end{pmatrix} ^m =0$,则$\begin{pmatrix} a & b \\ c & d \end{pmatrix} ^2 =0$.

$17$.阐明下述论断:设$m\times s$矩阵$X$被水平线和竖直线划分为块(或长方块),

$$X=\begin{pmatrix} X_{11} & X_{12} & \cdots & X_{1k} \\ X_{21} & X_{22} & \cdots & X_{2k} \\ \cdots & \cdots & \cdots & \cdots \\ X_{l1} & X_{l2} & \cdots & X_{lk} \\ \end{pmatrix} $$

这里$X_{i1} ,\cdots ,X_{ik}$都是$m_i$行矩阵$(m_1 +\cdots +m_i =m)$,而$X_{1j} ,\cdots ,X_{lj}$,都是$s_j$列矩阵$(s_1 +\cdots +s_k =s)$.

如果

$$Y=\begin{pmatrix} Y_{11} & Y_{12} & \cdots & Y_{1r} \\ Y_{21} & Y_{22} & \cdots & Y_{2r} \\ \cdots & \cdots & \cdots & \cdots \\ Y_{k1} & Y_{k2} & \cdots & Y_{kr} \\ \end{pmatrix} $$

是一个$s\times n$矩阵,它的块$Y_{ij}$的阶是$s_i \times n_j$($n_1 +\cdots +n_r =n$),则乘积$Z=XY$是有意义的,并且矩阵$Z=(z_{ij})$可以分块计算,它的块$Z_{ij}$可按公式$\eqref{7}$形式地写出:

$$Z_{ij} =X_{i1} Y_{1j} +X_{i2} Y_{2j} +\cdots +X_{ik} Y_{kj} .$$

由于矩阵$X_{i\nu } ,Y_{\nu j}$的阶所满足的条件,乘积$X_{i\nu } Y_{\nu j}$也是有意义的.矩阵的分块法即便在最简单的情况下也会带来方便,例如

$$\begin{pmatrix} E & A \\ 0 & E \end{pmatrix} \begin{pmatrix} A & 0 \\ -E & B \end{pmatrix} =\begin{pmatrix} 0 & AB \\ -E & B \end{pmatrix} ,$$

此处$A,B,E,0\in M_n(\mathbb{R} )$($E$是单位矩阵,$0$是零矩阵).

$18$.令矩阵

$$X=(x_{ij}) \in M_n (\mathbb{R} ) ,T=(t_{ij}) \in M_n (\mathbb{R} ).$$

证明$T$左乘$X$得到行$X_{(1)} ,\cdots ,X_{(n)}$的线性组合,而右乘得到列$X^{(1)} ,\cdots ,X^{(n)}$的线性组合,特别注意到如果

$$T=\begin{pmatrix} 1 & t_{12} & t_{13} & \cdots & t_{1n} \\ & 1 & t_{23} & \cdots & t_{2n} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & 0 & \cdots & 1 \end{pmatrix} \begin{pmatrix} A & 0 \\ -E & B \end{pmatrix} =\begin{pmatrix} 0 & AB \\ -E & B \end{pmatrix} $$

是上三角矩阵,则

$$TX=\begin{pmatrix} X_{(1)} + t_{12} & X_{(2)} & +\cdots + t_{1n} & X_{(n)} \\ & X_{(2)} & +\cdots + t_{2n} & X_{(n)} \\ & & & \cdots \\ & & & X_{(n)} \end{pmatrix} $$

是从$X$经过一系列(Ⅱ)型初等变换得到的矩阵.

文章目錄
  1. 1. 矩阵和映射
  2. 2. 矩阵的乘积
  3. 3. 矩阵的转置
  4. 4. 矩阵乘积的秩
  5. 5. 方阵
  6. 6. 矩阵的等价类
  7. 7. 逆矩阵的计算
  8. 8. 解空间
  9. 9. 习题