线性代数

第1章线性方程

第1.1节域

我们假定读者熟悉实数和复数的初等代数. 对于本书的很大一部分, 数字的代数性质可从以下所列加法和乘法的性质简单推导出来. 我们令 $F$ 代表实数集或复数集.

加法是交换的, $x + y = y + x$ 对于所有 $F$ 中的 $x$ 和 $y$ 成立.
加法是结合的, $x + (y + z) = (x + y) + z$ 对于所有 $F$ 中的 $x$ , $y$ 和 $z$ 成立.
$F$ 中存在唯一的元素 $0$ (零) 满足 $x + 0 = x$ 对于每个 $F$ 中的 $x$ 成立.
对于每个 $F$ 中的 $x$ 存在唯一的 $F$ 中的元素 $(- x)$ 满足 $x + (- x) = 0$ 与之对应.
乘法是交换的, $x y = y x$ 对于所有 $F$ 中的 $x$ 和 $y$ 成立.
乘法是结合的, $x (y z) = (x y) z$ 对于所有 $F$ 中的 $x$ , $y$ 和 $z$ 成立.
$F$ 中存在唯一的非零元素 $1$ (幺) 满足 $x 1 = x$ 对于每个 $F$ 中的 $x$ 成立.
对于每个 $F$ 中非零的 $x$ 存在唯一的 $F$ 中的元素 $x^{- 1}$ (或 $1 / x$ ) 满足 $x x^{- 1} = 1$ 与之对应.
乘法对于加法分配, 即 $x (y + z) = x y + x z$ 对于所有 $F$ 中的 $x$ , $y$ 和 $z$ 成立.

假定我们拥有一个包含对象 $x, y, z, \dots$ 的集合 $F$ 和如下两种 $F$ 上的运算. 第一种运算, 被称为加法, 联系每对 $F$ 中的 $x$ 和 $y$ 以 $F$ 中的元素 $(x + y)$ . 第二种运算, 被称为乘法, 联系每对 $F$ 中的 $x$ 和 $y$ 以 $F$ 中的元素 $x y$ . 若是这两种运算满足如上从1到9的条件, 那么集合 $F$ 以及此两种运算被合称为一个域. 粗略说来, 一个域就是一个集合带有某些运算, 这些运算表现得就像通常的数字加减乘除一样, 在满足如上九条代数法则的意义下. 带有通常的加法和乘法运算, 复数集 $ℂ$ 是一个域, 实数集 $ℝ$ 也是一个域.

对于本书的大部分内容而言, 我们使用的"数字"可以来源于任意的域. 为了允许这种一般性, 我们将使用术语"标量"而不是"数字". 如果读者总是认为标量域是一个复数域的子域, 他也不会损失太多. 域 $ℂ$ 的一个子域是一个复数的集合 $F$ , 其在通常的加法和乘法下自身就是一个域. 这意味着 $0$ 和 $1$ 在 $F$ 之中, 并且如果 $x$ 和 $y$ 是 $F$ 的元素, 那么 $(x + y)$ , $- x$ , $x y$ 和 $x^{- 1}$ (如果 $x \neq 0$ ) 也是 $F$ 的元素. [译注: 实际上这给出了子域的判则.] 这样的子域的一个例子是实数域 $ℝ$ , 因为如果我们把实数当作是虚部为 $0$ 的复数, 复数域的 $0$ 和 $1$ 是实数, 并且如果 $x$ 和 $y$ 是实数, 那么 $(x + y)$ , $- x$ , $x y$ 和 $x^{- 1}$ (如果 $x \neq 0$ ) 也是实数. 我们讨论子域的要义如下, 若是我们处理来源于某个特定子域的标量, 那么施行加减乘除不会将我们带出给定的子域.

例子1. 正整数

1, 2, 3, \dots

的集合不是一个

ℂ

的子域, 出于各种原因. 例如,

0

不是正整数, 没有正整数

n

的加法逆元

- n

是正整数. 除了

1

之外, 没有正整数

n

的乘法逆元

1 / n

是正整数.

例子2. 整数

\dots, - 2, - 1, 0, 1, 2, \dots

的集合不是

ℂ

的子域, 因为除了

0

和

1

, 没有整数的乘法逆元是一个整数. 整数集在通常的加法和乘法下除了条件8其余都满足.

例子3. 有理数集是复数域的子域. 整数集里并不可能的除法, 在有理数集里是可能的. 有兴趣的读者应该验证一下每个复数域的子域都必须包含所有的有理数.

例子4. 所有具有

x + y \sqrt{2}

形式的数字构成的集合, 其中

x

和

y

是有理数, 是一个

ℂ

的子域. 我们将其留给读者进行验证.

在本书的例子和练习中, 读者应该将其中的域当成是复数域的某个子域, 除非另有说明这个域更加一般. 我们不想对于该点多加讨论. 然而, 我们应该指出我们为什么采用这样的约定. 如果 $F$ 是一个域, 有限多个单位元 $1$ 加起来有可能得到 $0$ (见第1.2节练习5): $1 + 1 + \dots + 1 = 0$ 复数域并不会发生这样的事情 (或者在任何复数域的子域). 如果在域 $F$ 中的确发生了这样的事情, 那么使得有限个 $1$ 加起来等于 $0$ 所用的 $1$ 的最少数目被称为域 $F$ 的特征. 若是没有这样的事情, (出于某种奇怪的原因) 我们就称域 $F$ 的特征为零. 经常的情况是, 我们假定 $F$ 是 $ℂ$ 的子域是希望保证 $F$ 的特征为零. 不过, 在初次接触线性代数的时候, 通常最好还是别太担心关于域的特征的事情.

第1.2节线性方程组

设 $F$ 是一个域. 我们考虑找出满足下列条件的 $n$ 个标量 (即 $F$ 的元素) $x_{1}, \dots, x_{n}$ 的问题. ${\begin{matrix} A_{1, 1} x_{1} & + & A_{1, 2} x_{2} & + & \dots & + & A_{1, n} x_{n} & = & y_{1} \\ A_{2, 1} x_{1} & + & A_{2, 2} x_{2} & + & \dots & + & A_{2, n} x_{n} & = & y_{2} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ A_{m, 1} x_{1} & + & A_{m, 2} x_{2} & + & \dots & + & A_{m, n} x_{n} & = & y_{m} \end{matrix}$ 其中 $y_{1}, \dots, y_{m}$ 和 $A_{i, j}, 1 \leq i \leq m, 1 \leq j \leq n$ 是给定的 $F$ 的元素. 我们称其为具 $m$ 个方程 $n$ 个未知元的线性方程组. 任何满足每个方程的由 $F$ 的元素构成的 $n$ 元组 $(x_{1}, \dots, x_{n})$ 都被称为方程组的一个解. 如果 $y_{1} = \dots = y_{m} = 0$ , 我们称该方程组是齐次的, 或者说每个方程是齐次的.

或许寻找线性方程组的解的最根本的技术就是消元法. 我们可以对于以下齐次方程组刻画这种方法. ${\begin{matrix} 2 x_{1} & - & x_{2} & + & x_{3} & = & 0 \\ x_{1} & + & 3 x_{2} & + & 4 x_{3} & = & 0 \end{matrix}$ 如果我们加 $(- 2)$ 倍的第二个方程到第一个方程上去, 就得到了 $\begin{matrix} - 7 x_{2} & - & 7 x_{3} & = & 0 \end{matrix}$ 或 $x_{2} = - x_{3}$ . 如果加 $3$ 倍的第一个方程到第二个方程上去, 就得到了 $\begin{matrix} 7 x_{1} & + & 7 x_{3} & = & 0 \end{matrix}$ 或 $x_{1} = - x_{3}$ . 因此, 我们总结道, 如果 $(x_{1}, x_{2}, x_{3})$ 是一个解, 那么 $x_{1} = x_{2} = - x_{3}$ . 反过来, 我们可以验证每个这样的三元组都是一个解, 于是解集就由所有的三元组 $(- a, - a, a)$ 构成.

我们通过"消去未知元"找到了方程组的解, 也就是通过给方程乘上标量再加起来的方式产生有些 $x_{j}$ 不存在的方程. 我们希望形式化这个过程一点, 以理解为什么这种方法有效, 并按照秩序井然的方式来施行解方程组所必要的计算.

对于这样的一般性方程组, 假定我们挑选 $m$ 个标量 $c_{1}, \dots, c_{m}$ , 将第 $j$ 个方程乘上 $c_{j}$ 并将它们加起来, 我们就得到了方程 $(c_{1} A_{1, 1} + \dots + c_{m} A_{m, 1}) x_{1} + \dots + (c_{1} A_{1, n} + \dots + c_{m} A_{m, n}) x_{n} = c_{1} y_{1} + \dots + c_{m} y_{m}$ 这样的方程被我们称为该线性方程组的线性组合. 显然, 每个方程组的解也是这个新的方程的解. 这就是消元过程的根本想法. 如果我们有了另外一个线性方程组 ${\begin{matrix} B_{1, 1} x_{1} & + & B_{1, 2} x_{2} & + & \dots & + & B_{1, n} x_{n} & = & z_{1} \\ B_{2, 1} x_{1} & + & B_{2, 2} x_{2} & + & \dots & + & B_{2, n} x_{n} & = & z_{2} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ B_{k, 1} x_{1} & + & B_{k, 2} x_{2} & + & \dots & + & B_{k, n} x_{n} & = & z_{k} \end{matrix}$ 其每个方程都是原本的线性方程组的方程的线性组合, 那么每个原本的线性方程组的解也是这个新的线性方程组的解. 当然, 新的方程组的解不一定是原本方程组的解. 但要是原本方程组的每个方程都是新的线性方程组的方程的线性组合的话, 这种事情就不会发生. 我们称两个线性方程组是等价的, 如果它们的每个方程都能表示为另一个线性方程组的方程的线性组合.

定理1. 等价的线性方程组拥有相同的解.

欲使消元过程在线性方程组求解中发挥效用, 人们就必须找出产生更容易求解的等价线性方程组的手段. 接下来的一节, 我们将讨论其中一种方法.

练习1. 验证例子4的集合是

ℂ

的子域.

练习2. 令

F

是复数域. 下面两个线性方程组等价吗? 如果是, 就互相表示成线性组合.

{\begin{matrix} x_{1} & - & x_{2} & = & 0 \\ 2 x_{1} & + & x_{2} & = & 0 \end{matrix} {\begin{matrix} 3 x_{1} & + & x_{2} & = & 0 \\ x_{1} & + & x_{2} & = & 0 \end{matrix}

练习3. 像练习2一样测试以下的线性方程组.

{\begin{matrix} - x_{1} & + & x_{2} & + & 4 x_{3} & = & 0 \\ x_{1} & + & 3 x_{2} & + & 8 x_{3} & = & 0 \\ \frac{1}{2} x_{1} & + & x_{2} & + & \frac{5}{2} x_{3} & = & 0 \end{matrix} {\begin{matrix} x_{1} & - & x_{3} & = & 0 \\ x_{2} & + & 3 x_{3} & = & 0 \end{matrix}

练习4. 像练习2一样测试以下的线性方程组.

{\begin{matrix} 2 x_{1} & + & (- 1 + i) x_{2} & + & x_{4} & = & 0 \\ 3 x_{2} & - & 2 i x_{3} & + & 5 x_{4} & = & 0 \end{matrix} {\begin{matrix} (1 + \frac{i}{2}) x_{1} & + & 8 x_{2} & - & i x_{3} & - & x_{4} & = & 0 \\ \frac{2}{3} x_{1} & - & \frac{1}{2} x_{2} & + & x_{3} & + & 7 x_{4} & = & 0 \end{matrix}

练习5. 令

F

是恰包含两个元素

0

和

1

的集合. 由以下表格定义加法和乘法:

\begin{matrix} + & 0 & 1 \\ 0 & 0 & 1 \\ 1 & 1 & 0 \end{matrix} \begin{matrix} \cdot & 0 & 1 \\ 0 & 0 & 0 \\ 1 & 0 & 1 \end{matrix}

验证集合

F

带有这两种运算是一个域.

练习6. 证明若两个具二未知元的线性方程组具有相同的解, 那么它们等价.

练习7. 证明每个

ℂ

的子域都包含所有的有理数.

练习8. 证明每个特征为零的域都包含一个有理数域的复制.

第1.3节矩阵和初等行变换

读者不可能没注意到, 在构造线性方程的线性组合时, 未知元 $x_{1}, \dots, x_{n}$ 是没有必要写下来的, 因为你实际上只是根据系数 $A_{i, j}$ 和常元 $y_{i}$ 进行计算. 现在我们将线性方程组简写成 $A X = Y$ 其中 $A = [\begin{matrix} A_{1, 1} & \dots & A_{1, n} \\ ⋮ & ⋮ \\ A_{m, 1} & \dots & A_{m, n} \end{matrix}], X = [\begin{matrix} x_{1} \\ ⋮ \\ x_{n} \end{matrix}], Y = [\begin{matrix} y_{1} \\ ⋮ \\ y_{m} \end{matrix}]$ 我们将 $A$ 称为系数矩阵. 严格说来, 上面显示的矩形阵列不是矩阵, 而是矩阵的表示. 一个域 $F$ 上的 $m \times n$ 矩阵是一个从序对 $(i, j), 1 \leq i \leq m, 1 \leq j \leq n$ 的集合到域 $F$ 的函数. [译注: 或许读者会对于这句话感到迷惑, 这是因为中文将matrix翻译成矩阵.] 矩阵 $A$ 的元素即标量 $A (i, j) = A_{i, j}$ , 并且往往描述矩阵的最简单方式是将其元素写成如上 $m$ 行 $n$ 列的矩形阵列的形式. 因此, 上面的 $X$ 是 (或者说定义了) 一个 $n \times 1$ 的矩阵, 而 $Y$ 是一个 $m \times 1$ 的矩阵. 暂时, $A X = Y$ 只是一种简记法. 之后, 我们将定义矩阵乘法, 那么它的意思就是 $Y$ 是 $A$ 和 $X$ 之积.

我们现在希望考虑与构造线性方程的线性组合有关的矩阵 $A$ 的行上的操作. 我们将我们的注意力限制在域 $F$ 上的 $m \times n$ 矩阵 $A$ 的三种初等行变换上:

给矩阵 $A$ 的一行乘上一个非零的标量 $c$ ;
将 $A$ 的第 $r$ 行替换以第 $r$ 行加上 $c$ 乘上第 $s$ 行, 其中 $c$ 是任意的标量, 并且 $r \neq s$ ;
交换 $A$ 的第 $r$ 行和第 $s$ 行.

因此, 一个初等行变换是一个特别的函数

e

联系每个

m \times n

矩阵

A

以一个

m \times n

的矩阵

e (A)

. 我们可以精确地将三种

e

刻画如下:

${e (A)}_{i, j} = A_{i, j}$ 如果 $i \neq r$ , ${e (A)}_{r, j} = c A_{r, j}$ .
${e (A)}_{i, j} = A_{i, j}$ 如果 $i \neq r$ , ${e (A)}_{r, j} = A_{r, j} + c A_{s, j}$ .
${e (A)}_{i, j} = A_{i, j}$ 如果 $i$ 异于 $r$ 和 $s$ , ${e (A)}_{r, j} = A_{s, j}$ , ${e (A)}_{s, j} = A_{r, j}$ .

在定义

e (A)

时,

A

的列数并不重要, 但

A

的行数是关键的. 例如, 我们不得不担心能否交换一个

5 \times 5

矩阵的第

5

行和第

6

行. 为了避免这种复杂性, 我们约定一个初等行变换

e

定义在由所有域

F

的

m \times n

矩阵构成的类之上, 其中

m

是固定的而

n

是任意的. 换句话说, 一个特定的

e

定义在由所有域

F

上的

m

行矩阵构成的类之上.

之所以我们将我们自己限制于这三种简单的行变换上, 是因为既已施行这样的 $e$ 于 $A$ 之上后, 我们能够通过在 $e (A)$ 上施行一个类似的操作来恢复 $A$ .

定理2. 对于每个初等行变换

e

, 存在一个与之对应的具有相同类型的初等行变换

e_{1}

满足

e_{1} (e (A)) = e (e_{1} (A)) = A

. 换言之, 初等行变换的逆变换存在, 并与之具有相同的类型. [译注: 显然不仅存在, 也是唯一的.]

证明.

设 $e$ 是给第 $r$ 行乘上非零标量 $c$ 的变换, 令 $e_{1}$ 为给第 $r$ 行乘上 $c^{- 1}$ 的变换.
设 $e$ 是将第 $r$ 行替换以第 $r$ 行加上 $c$ 乘上第 $s$ 行的变换, 其中 $r \neq s$ , 令 $e_{1}$ 为将第 $r$ 行替换以第 $r$ 行加上 $(- c)$ 乘上第 $s$ 行的变换.
设 $e$ 是交换第 $r$ 行和第 $s$ 行的变换, 令 $e_{1} = e$ .

每种情形之下, 显然有

e_{1} (e (A)) = e (e_{1} (A)) = A

对于每个

A

成立.

◻

定义. 如果

A

和

B

是域

F

上的

m \times n

矩阵, 我们称

B

行等价于

A

, 如果

B

可由

A

通过 (有限的) 一系列初等行变换得到. [译注: 原则上包含0步, 尽管包不包含均不影响结果, 因为本身初等行变换就包含恒等变换.]

使用定理2, 容易验证以下事实. 每个矩阵都行等价于自身. 如果 $B$ 行等价于 $A$ , 那么 $A$ 行等价于 $B$ . 如果 $B$ 行等价于 $A$ 而 $C$ 行等价于 $B$ , 那么 $C$ 行等价于 $A$ . 换句话说, 行等价是等价关系 (见附录).

定理3. 如果

A

和

B

是域

F

上行等价的

m \times n

矩阵, 那么齐次线性方程组

A X = 0

和

B X = 0

拥有相同的解.

证明. 设经过一系列变换我们从

A

得到了

B

A = A_{0} \to A_{1} \to \dots \to A_{k} = B .

只需要证明线性方程组

A_{j} X = 0

和

A_{j + 1} X = 0

拥有相同的解就够了, 即一次初等行变换不改变解集.
因此, 设

B

是由

A

通过一次初等行变换得到的, 不论它是三种变换的哪一种, 线性方程组

B X = 0

的每个方程都是线性方程组

A X = 0

的方程的线性组合. 鉴于初等行变换的逆也是初等行变换, 每个线性方程组

A X = 0

的方程也是线性方程组

B X = 0

的方程的线性组合. 于是, 两个线性方程组是等价的. 根据定理1, 它们拥有相同的解.

◻

例子5. 设

F

是有理数域, 并且

A = [\begin{matrix} 2 & - 1 & 3 & 2 \\ 1 & 4 & 0 & - 1 \\ 2 & 6 & - 1 & 5 \end{matrix}] .

我们将施行一系列初等行变换于

A

, 并在箭头上标示出变换的类型.

[\begin{matrix} 2 & - 1 & 3 & 2 \\ 1 & 4 & 0 & - 1 \\ 2 & 6 & - 1 & 5 \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & - 9 & 3 & 4 \\ 1 & 4 & 0 & - 1 \\ 2 & 6 & - 1 & 5 \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & - 9 & 3 & 4 \\ 1 & 4 & 0 & - 1 \\ 0 & - 2 & - 1 & 7 \end{matrix}] \overset{1}{\to}

[\begin{matrix} 0 & - 9 & 3 & 4 \\ 1 & 4 & 0 & - 1 \\ 0 & 1 & \frac{1}{2} & - \frac{7}{2} \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & - 9 & 3 & 4 \\ 1 & 0 & - 2 & 13 \\ 0 & 1 & \frac{1}{2} & - \frac{7}{2} \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & 0 & \frac{15}{2} & - \frac{55}{2} \\ 1 & 0 & - 2 & 13 \\ 0 & 1 & \frac{1}{2} & - \frac{7}{2} \end{matrix}] \overset{1}{\to}

[\begin{matrix} 0 & 0 & 1 & - \frac{11}{3} \\ 1 & 0 & - 2 & 13 \\ 0 & 1 & \frac{1}{2} & - \frac{7}{2} \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & 0 & 1 & - \frac{11}{3} \\ 1 & 0 & 0 & \frac{17}{3} \\ 0 & 1 & \frac{1}{2} & - \frac{7}{2} \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & 0 & 1 & - \frac{11}{3} \\ 1 & 0 & 0 & \frac{17}{3} \\ 0 & 1 & 0 & - \frac{5}{3} \end{matrix}]

上面的一系列初等行变换告诉我们

{\begin{matrix} 2 x_{1} & - & x_{2} & + & 3 x_{3} & + & 2 x_{4} & = & 0 \\ x_{1} & + & 4 x_{2} & - & x_{4} & = & 0 \\ 2 x_{1} & + & 6 x_{2} & - & x_{3} & + & 5 x_{4} & = & 0 \end{matrix}

和

{\begin{matrix} x_{3} & - & \frac{11}{3} x_{4} & = & 0 \\ x_{1} & + & \frac{17}{3} x_{4} & = & 0 \\ x_{2} & - & \frac{5}{3} x_{4} & = & 0 \end{matrix}

拥有相同的解. 对于第二个线性方程组, 显然如果我们赋任意的有理数值

c

给

x_{4}

就得到了一个解

(- \frac{17}{3} c, \frac{5}{3} c, \frac{11}{3} c, c)

, 并且每个解都具有这样的形式.

例子6. 设

F

是复数域并且

A = [\begin{matrix} - 1 & i \\ - i & 3 \\ 1 & 2 \end{matrix}]

施行行变换的时候通常把几个类型2的变换组合起来是方便的. 把这点记在心中,

[\begin{matrix} - 1 & i \\ - i & 3 \\ 1 & 2 \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & 2 + i \\ 0 & 3 + 2 i \\ 1 & 2 \end{matrix}] \overset{1}{\to} [\begin{matrix} 0 & 1 \\ 0 & 3 + 2 i \\ 1 & 2 \end{matrix}] \overset{2}{\to} [\begin{matrix} 0 & 1 \\ 0 & 0 \\ 1 & 0 \end{matrix}]

因此线性方程组

{\begin{matrix} - x_{1} & + & i x_{2} & = & 0 \\ - i x_{1} & + & 3 x_{2} & = & 0 \\ x_{1} & + & 2 x_{2} & = & 0 \end{matrix}

只有平凡解

x_{1} = x_{2} = 0

例子5和例子6里我们显然不是在随意施行行变换. 我们对于行变换的选择是由想要像消去未知元解线性方程组一样化简系数矩阵的欲望驱使的. 现在让我们给出一个形式化的定义, 对于我们想要抵达什么类型的矩阵.

定义. 一个

m \times n

矩阵

R

被称为行简化的, 如果

每个 $R$ 的非零行的第一个非零元素是 $1$ ;
每个包含首非零元的列, 其余的元素均为 $0$ .

例子7. 一个行简化矩阵的例子是

n \times n

的恒等矩阵

I

. 这是由

I_{i, j} = δ_{i, j} = {\begin{matrix} 1 & , 如果 i = j \\ 0 & , 如果 i \neq j \end{matrix}

定义的矩阵. 目前是我们第一次使用Kronecker delta, 之后也将经常用到.

例子5和例子6最终呈现的矩阵都是行简化矩阵. 以下是两个不是行简化矩阵的例子: $[\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & - 1 & 0 \\ 0 & 0 & 1 & 0 \end{matrix}] [\begin{matrix} 0 & 2 & 1 \\ 1 & 0 & - 3 \\ 0 & 0 & 0 \end{matrix}]$ 第二个矩阵没有满足条件a, 因为第一行的首非零元不是 $1$ . 第一个矩阵满足了条件a, 但是第三列没有满足条件b.

现在我们将证明我们可以从任意的矩阵出发, 通过有限数目的初等行变换, 得到一个行简化矩阵. 结合定理3, 这给我们提供了一个解决线性方程组的有效工具.

定理4. 每个域

F

上的

m \times n

矩阵都行等价于一个行简化矩阵.

证明. 令

A

是一个域

F

上的

m \times n

矩阵. 如果

A

的第一行的每个元素都是

0

, 那么只考虑第一行条件a就是成立的. 如果第一行有非零的元素, 令

k

是满足

A_{1, j} \neq 0

的正整数

j

中最小的. 给第一行乘上

A_{1, k}^{- 1}

, 那么第一行就满足条件a了. 现在对于每个

i \geq 2

, 将第一行乘上

(- A_{i, k})

加到第

i

行. 现在第一行的首非零元出现在第

k

列, 其值为

1

, 并且第

k

列的每个其他元素都是

0

.
现在考虑上面得到的矩阵. 如果第二行的每个元素都是

0

, 我们就什么也不做. 如果第二行有异于零的元素, 就给第二行乘上一个标量使其首非零元为

1

. 在第一行首非零元位于第

k

列的情况下, 第二行的首非零元不可能出现在第

k

列, 设其出现在第

k^{'}

列. 通过给第二行乘上合适的标量加到其他行上去, 就能使得第

k^{'}

列除了第二行之外都是

0

. 重要的是注意到以下这点, 在施行这些操作的时候, 我们不会改变第一行处于第

1, \dots, k

列的元素, 也不会改变第

k

列的元素. 当然, 如果第一行全是零, 那么这些操作就不会影响第一行.
以如上方式逐行操作, 显然在有限步内我们能够抵达一个行简化矩阵.

◻

练习1. 找出下列线性方程组的所有解.

{\begin{matrix} (1 - i) x_{1} & - & i x_{2} & = & 0 \\ 2 x_{1} & + & (1 - i) x_{2} & = & 0 \end{matrix}

练习2. 如果

A = [\begin{matrix} 3 & - 1 & 2 \\ 2 & 1 & 1 \\ 1 & - 3 & 0 \end{matrix}]

通过行简化

A

以找出

A X = 0

的所有解.

练习3. 如果

A = [\begin{matrix} 6 & - 4 & 0 \\ 4 & - 2 & 0 \\ - 1 & 0 & 3 \end{matrix}]

找出

A X = 2 X

和

A X = 3 X

的解. (符号

c X

表示一个矩阵, 其每个元素都是

c

乘上相对应的

X

的元素.)

练习4. 找出一个与下列矩阵行等价的行简化矩阵.

A = [\begin{matrix} i & - (1 + i) & 0 \\ 1 & - 2 & 1 \\ 1 & 2 i & - 1 \end{matrix}]

练习5. 证明下列两个矩阵不是行等价的.

[\begin{matrix} 2 & 0 & 0 \\ a & - 1 & 0 \\ b & c & 3 \end{matrix}] [\begin{matrix} 1 & 1 & 2 \\ - 2 & 0 & - 1 \\ 1 & 3 & 5 \end{matrix}]

练习6. 令

A = [\begin{matrix} a & b \\ c & d \end{matrix}]

是一个复数域上的

2 \times 2

矩阵. 设

A

是行简化的, 并且

a + b + c + d = 0

. 证明恰存在三个这样的矩阵.

练习7. 证明交换矩阵两行的操作可由其他两种操作达成.

练习8. 考虑线性方程组

A X = 0

, 其中

A = [\begin{matrix} a & b \\ c & d \end{matrix}]

是一个域

F

上的

2 \times 2

矩阵. [译注: 意即线性方程组就是域

F

上的.] 证明以下陈述.

如果 $A$ 的每个元素都是 $0$ , 那么每个序对 $(x_{1}, x_{2})$ 都是 $A X = 0$ 的解.
如果 $a d - b c \neq 0$ , 那么线性方程组 $A X = 0$ 仅有平凡解 $x_{1} = x_{2} = 0$ .
如果 $a d - b c = 0$ 并且某个 $A$ 的元素异于 $0$ , 那么存在一个解 $(x_{1}^{0}, x_{2}^{0})$ 满足, $(x_{1}, x_{2})$ 是一个解当且仅当存在标量 $y$ 满足 $x_{1} = y x_{1}^{0}, x_{2} = y x_{2}^{0}$ .

第1.4节行简化阶梯矩阵

到目前为止, 我们对于线性方程组的处理是由找出方程组的解的尝试推动的. 在第1.3节, 我们建立了找出这些解的一种标准化技术. 现在我们希望获得一些稍微理论一点的信息, 出于这样的目的, 走得比行简化矩阵更远一点是方便的.

定义. 一个

m \times n

的矩阵

R

被称为一个行简化阶梯矩阵, 如果

$R$ 是行简化的;
$R$ 的每个元素全为 $0$ 的行在具有非零元素的行的下方;
如果第 $1, \dots, r$ 行是 $R$ 的非零行, 并且如果第 $i$ 行的首非零元出现在第 $k_{i}$ 列, $i = 1, \dots, r$ , 那么 $k_{1} < k_{2} < \dots < k_{r}$ .

人们也可以按照以下方式刻画 $m \times n$ 的行简化阶梯矩阵 $R$ . 要么 $R$ 的每个元素都是 $0$ , 要么存在一个正整数 $r, 1 \leq r \leq m$ , 以及 $r$ 个正整数 $k_{1}, \dots, k_{r}, 1 \leq k_{i} \leq n$ 满足

对于 $i > r$ , $R_{i, j} = 0$ , 并且 $R_{i, j} = 0$ 如果 $j < k_{i}$ .
$R_{i, k_{j}} = δ_{i, j}, 1 \leq i \leq r, 1 \leq j \leq r$ .
$k_{1} < \dots < k_{r}$ .

例子8. 两个行简化阶梯矩阵的例子分别是

n \times n

的恒等矩阵和

m \times n

的零矩阵

0^{m, n}

, 其每个元素都是零. 当然读者构造出其他例子也没有困难, 不过这里我们给出一个非平凡的例子.

[\begin{matrix} 0 & 1 & - 3 & 0 & \frac{1}{2} \\ 0 & 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 0 & 0 \end{matrix}]

定理5. 每个

m \times n

的矩阵

A

都行等价于一个行简化阶梯矩阵.

证明. 我们知道

A

行等价于一个行简化矩阵, 所有我们需要做的只是观察到通过有限次的行交换我们可以将行简化矩阵变成行简化阶梯矩阵.

◻

在例子5和例子6中我们看到了在求解齐次线性方程组时行简化矩阵的重要性. 现在让我们来简要讨论方程组 $R X = 0$ , 其中 $R$ 是一个行简化阶梯矩阵. 令第 $1, \dots, r$ 行是 $R$ 的非零行, 并设第 $i$ 行的首非零元出现在第 $k_{i}$ 列. 于是, 方程组 $R X = 0$ 包含 $r$ 个非平凡方程. 并且, 未知元 $x_{k_{i}}$ 仅会出现在第 $i$ 行. 如果我们用 $u_{1}, \dots, u_{n - r}$ 代表异于 $x_{k_{1}}, \dots, x_{k_{r}}$ 的 $(n - r)$ 个未知元, 那么 $R X = 0$ 的 $r$ 个非平凡方程具有如下的形式. ${\begin{matrix} x_{k_{1}} & + & \sum_{j = 1}^{n - r} C_{1, j} u_{j} & = & 0 \\ ⋮ & ⋮ \\ x_{k_{r}} & + & \sum_{j = 1}^{n - r} C_{r, j} u_{j} & = & 0 \end{matrix}$ 线性方程组 $R X = 0$ 的所有解都可以由给 $u_{1}, \dots, u_{n - r}$ 赋任意的值然后计算相对应的 $x_{k_{1}}, \dots, x_{k_{r}}$ 的值获得. 例如, 如果 $R$ 是例子8展示的那个矩阵, 那么 $r = 2, k_{1} = 2, k_{2} = 4$ , 并且 $R X = 0$ 的两个非平凡方程是 ${\begin{matrix} x_{2} & - & 3 x_{3} & + & \frac{1}{2} x_{5} & = & 0 \\ x_{4} & + & 2 x_{5} & = & 0 \end{matrix} 或者写成 {\begin{matrix} x_{2} & = & 3 x_{3} - \frac{1}{2} x_{5} \\ x_{4} & = & - 2 x_{5} \end{matrix}$ 于是我们可以给 $x_{1}$ , $x_{3}$ 和 $x_{5}$ 赋任意的值, 比如 $x_{1} = a, x_{3} = b, x_{5} = c$ , 然后就得到了解 $(a, 3 b - \frac{1}{2} c, b, - 2 c, c)$ .

让我们再观察到与线性方程组 $R X = 0$ 有关的另一个事实. 如果 $R$ 的非零行数 $r$ 小于 $n$ , 那么方程组 $R X = 0$ 具有一个非平凡的解, 即一个解 $(x_{1}, \dots, x_{n})$ , 其中不是每个 $x_{j}$ 都是 $0$ . 这是因为, 既然 $r < n$ , 我们可以挑选一个 $x_{j}$ , 其异于 $x_{k_{1}}, \dots, x_{k_{r}}$ , 那么我们可以按照如上方式构造出一个解, 其中令 $x_{j} = 1$ . 这个观察将我们引导至和齐次线性方程组有关的最根本性的事实之一.

定理6. 如果

A

是一个

m \times n

的矩阵并且

m < n

, 那么齐次线性方程组

A X = 0

具有非平凡解.

证明. 令

R

是一个行等价于

A

的行简化阶梯矩阵, 那么根据定理3, 方程组

A X = 0

和

R X = 0

具有相同的解. 令

r

是

R

的非零行数, 那么肯定

r \leq m

. 既然

m < n

, 就有

r < n

. 立刻从我们以上的观察中就得知

A X = 0

具有非平凡解.

◻

定理7. 如果

A

是一个

n \times n

的矩阵, 那么

A

行等价于

n \times n

的恒等矩阵当且仅当线性方程组

A X = 0

仅有平凡解.

证明. 如果

A

行等价于

I

, 那么

A X = 0

和

I X = 0

具有相同的解. 反过来, 设

A X = 0

仅有平凡解

X = 0

. 令

R

是一个与

A

行等价的

n \times n

的行简化阶梯矩阵, 并令

r

是

R

的非零行数. 既然

R X = 0

没有非平凡的解, 那么

r \geq n

. 又因为

R

只有

n

行, 所以当然

r \leq n

, 于是

r = n

. 这意味着

R

的每一行都具有首非零元

1

, 而且因为它们分布于不同的

n

列里,

R

只可能是

n \times n

的恒等矩阵.

◻

现在让我们来探究如何使用初等行变换求解非齐次的线性方程组 $A X = Y$ . 首先, 读者应该注意到它与齐次情形的一个基本区别, 即尽管齐次线性方程组总有平凡的解 $x_{1} = \dots = x_{n} = 0$ , 非齐次的情况压根不一定有解.

我们来构造线性方程组 $A X = Y$ 的增广矩阵 $A^{'}$ . 这是一个 $m \times (n + 1)$ 的矩阵, 其中前 $n$ 列是 $A$ 的列, 最后一列是 $Y$ . 更精确地, $A_{i, j}^{'} = A_{i, j} 如果 j \leq n, A_{i, n + 1}^{'} = y_{i} .$ 设我们施行了一系列初等行变换于 $A$ , 得到了一个行简化阶梯矩阵 $R$ . 如果我们施行相同的初等行变换于 $A^{'}$ , 就会得到一个矩阵 $R^{'}$ , 其前 $n$ 列是 $R$ 的列, 而最后一列包含特定的标量 $z_{1}, \dots, z_{m}$ . 标量 $z_{i}$ 是 $m \times 1$ 矩阵 $Z = [\begin{matrix} z_{1} \\ ⋮ \\ z_{m} \end{matrix}]$ 的元素, 它是由施行相同的初等行变换于 $Y$ 得到的. 显然读者应该认识到, 正如定理3的证明一样, 线性方程组 $A X = Y$ 和 $R X = Z$ 是等价的, 因而拥有相同的解. 很容易确定 $R X = Z$ 是否有解并在有解的情况下确定所有的解. 这是因为, 如果 $R$ 具有 $r$ 个非零行, 并且其第 $i$ 行的首非零元出现在第 $k_{i}$ 列, 其中 $i = 1, \dots, r$ , 那么 $R X = Z$ 的前 $r$ 行有效地表达了 $x_{k_{1}}, \dots, x_{k_{r}}$ , 基于 $(n - r)$ 个剩余的 $x_{j}$ 和标量 $z_{1}, \dots, z_{r}$ . 最后的 $(m - r)$ 个方程是 $\begin{matrix} 0 & = & z_{r + 1} \\ ⋮ & ⋮ \\ 0 & = & z_{m} \end{matrix}$ 据此, 方程组拥有解的条件是 $i > r$ 时 $z_{i} = 0$ . 如果这个条件被满足, 所有线性方程组的解就可以像齐次的情况一样被找到, 即给 $(n - r)$ 个 $x_{j}$ 赋任意的值, 然后根据第 $i$ 个方程计算 $x_{k_{i}}$ 的值.

例子9. 令

F

是有理数域, 并且

A = [\begin{matrix} 1 & - 2 & 1 \\ 2 & 1 & 1 \\ 0 & 5 & - 1 \end{matrix}]

设我们希望求解线性方程组

A X = Y

, 对于某些

y_{1}

y_{2}

和

y_{3}

. 让我们将行规约

A

的一系列初等行变换施行于

A^{'}

之上:

[\begin{matrix} 1 & - 2 & 1 & y_{1} \\ 2 & 1 & 1 & y_{2} \\ 0 & 5 & - 1 & y_{3} \end{matrix}] \overset{2}{\to} [\begin{matrix} 1 & - 2 & 1 & y_{1} \\ 0 & 5 & - 1 & (y_{2} - 2 y_{1}) \\ 0 & 5 & - 1 & y_{3} \end{matrix}] \overset{2}{\to} [\begin{matrix} 1 & - 2 & 1 & y_{1} \\ 0 & 5 & - 1 & (y_{2} - 2 y_{1}) \\ 0 & 0 & 0 & (y_{3} - y_{2} + 2 y_{1}) \end{matrix}] \overset{1}{\to}

[\begin{matrix} 1 & - 2 & 1 & y_{1} \\ 0 & 1 & - \frac{1}{5} & \frac{1}{5} (y_{2} - 2 y_{1}) \\ 0 & 0 & 0 & (y_{3} - y_{2} + 2 y_{1}) \end{matrix}] \overset{2}{\to} [\begin{matrix} 1 & 0 & \frac{3}{5} & \frac{1}{5} (y_{1} + 2 y_{2}) \\ 0 & 1 & - \frac{1}{5} & \frac{1}{5} (y_{2} - 2 y_{1}) \\ 0 & 0 & 0 & (y_{3} - y_{2} + 2 y_{1}) \end{matrix}]

那么线性方程组

A X = Y

有解的条件就是

2 y_{1} - y_{2} + y_{3} = 0

并且如果给定的标量

y_{i}

满足这个条件, 所有的解都可以由以下方式获得, 赋一个值

c

给

x_{3}

, 然后计算

\begin{matrix} x_{1} & = & - \frac{3}{5} c + \frac{1}{5} (y_{1} + 2 y_{2}) \\ x_{2} & = & \frac{1}{5} c + \frac{1}{5} (y_{2} - 2 y_{1}) \end{matrix}

让我们再做关于线性方程组 $A X = Y$ 的最后一个观察. 设矩阵 $A$ 的元素和标量 $y_{1}, \dots, y_{m}$ 恰好落入域 $F$ 的一个子域 $F_{1}$ 中. 如果线性方程组 $A X = Y$ 拥有在域 $F$ 中的解, 那么它也拥有在域 $F_{1}$ 中的解, 因为不论对于哪一个域而言, 线性方程组有解的条件都是域 $F_{1}$ 中 $y_{1}, \dots, y_{m}$ 之间的特定关系成立 (也就是上面的关系 $z_{i} = 0$ 对于 $i > r$ 成立). 举个例子, 如果 $A X = Y$ 是一个线性方程组, 其标量 $y_{k}$ 和 $A_{i, j}$ 都是实数, 若其有复数的解, 那么它也有实数的解.

练习1. 通过行规约系数矩阵来找出下列线性方程组的所有解.

{\begin{matrix} \frac{1}{3} x_{1} & + & 2 x_{2} & - & 6 x_{3} & = & 0 \\ - 4 x_{1} & + & 5 x_{3} & = & 0 \\ - 3 x_{1} & + & 6 x_{2} & - & 13 x_{3} & = & 0 \\ - \frac{7}{3} x_{1} & + & 2 x_{2} & - & \frac{8}{3} x_{3} & = & 0 \end{matrix}

练习2. 找出与下列矩阵行等价的一个行简化阶梯矩阵.

A = [\begin{matrix} 1 & - i \\ 2 & 2 \\ i & 1 + i \end{matrix}]

A X = 0

的解是什么?

练习3. 显式描述所有

2 \times 2

的行简化阶梯矩阵.

练习4. 考虑以下线性方程组.

{\begin{matrix} x_{1} & - & x_{2} & + & 2 x_{3} & = & 1 \\ 2 x_{1} & + & 2 x_{3} & = & 1 \\ x_{1} & - & 3 x_{2} & + & 4 x_{3} & = & 2 \end{matrix}

这个方程组有解吗? 如果有的话, 显式描述所有的解.

练习5. 给出一个无解的具有两个方程和两个未知元的线性方程组的例子.

练习6. 证明线性方程组

{\begin{matrix} x_{1} & - & 2 x_{2} & + & x_{3} & + & 2 x_{4} & = & 1 \\ x_{1} & + & x_{2} & - & x_{3} & + & x_{4} & = & 2 \\ x_{1} & + & 7 x_{2} & - & 5 x_{3} & - & x_{4} & = & 3 \end{matrix}

没有解.

练习7. 找出下列线性方程组的所有解.

{\begin{matrix} 2 x_{1} & - & 3 x_{2} & - & 7 x_{3} & + & 5 x_{4} & + & 2 x_{5} & = & - 2 \\ x_{1} & - & 2 x_{2} & - & 4 x_{3} & + & 3 x_{4} & + & x_{5} & = & - 2 \\ 2 x_{1} & - & 4 x_{3} & + & 2 x_{4} & + & x_{5} & = & 3 \\ x_{1} & - & 5 x_{2} & - & 7 x_{3} & + & 6 x_{4} & + & 2 x_{5} & = & - 7 \end{matrix}

练习8. 令

A = [\begin{matrix} 3 & - 1 & 2 \\ 2 & 1 & 1 \\ 1 & - 3 & 0 \end{matrix}]

对于什么样的三元组

(y_{1}, y_{2}, y_{3})

线性方程组

A X = Y

有解?

练习9. 令

A = [\begin{matrix} 3 & - 6 & 2 & - 1 \\ - 2 & 4 & 1 & 3 \\ 0 & 0 & 1 & 1 \\ 1 & - 2 & 1 & 0 \end{matrix}]

对于什么样的四元组

(y_{1}, y_{2}, y_{3}, y_{4})

线性方程组

A X = Y

有解?

练习10. 设

R

和

R^{'}

是

2 \times 3

的行简化阶梯矩阵并且线性方程组

R X = 0

和

R^{'} X = 0

具有相同的解, 证明

R = R^{'}

第1.5节矩阵乘法

显然构造矩阵的行的线性组合的过程是一种根本性的运算. 出于这样的理由, 引入指示何种操作将被施行的系统记号是很有好处的. 更细致地说, 设 $B$ 是域 $F$ 上的 $n \times p$ 矩阵, 其行分别为 $β_{1}, \dots, β_{n}$ . 从 $B$ 我们构造出 $C$ , 其行分别为 $γ_{1}, \dots, γ_{m}$ 而 $γ_{i} = A_{i, 1} β_{1} + A_{i, 2} β_{2} + \dots + A_{i, n} β_{n} .$ $C$ 的行是由 $m n$ 个标量 $A_{i, j}$ 决定的, 而它们本身是一个 $m \times n$ 矩阵 $A$ 的元素. 将 $γ_{i}$ 展开来看, $(C_{i, 1}, \dots, C_{i, p}) = \sum_{r = 1}^{n} (A_{i, r} B_{r, 1}, \dots, A_{i, r} B_{r, p})$ 我们发现 $C$ 的元素由 $C_{i, j} = \sum_{r = 1}^{n} A_{i, r} B_{r, j}$ 给出.

定义. 令

A

是一个域

F

上的

m \times n

矩阵, 令

B

是一个域

F

上的

n \times p

矩阵. 积

A B

是一个

m \times p

矩阵

C

, 其第

i

行

j

列的元素为

C_{i, j} = \sum_{r = 1}^{n} A_{i, r} B_{r, j} .

例子10. 这里给出一些有理数域上的矩阵之积.

$[\begin{matrix} 5 & - 1 & 2 \\ 0 & 7 & 2 \end{matrix}] = [\begin{matrix} 1 & 0 \\ - 3 & 1 \end{matrix}] [\begin{matrix} 5 & - 1 & 2 \\ 15 & 4 & 8 \end{matrix}]$ 其中 $\begin{matrix} γ_{1} & = & (5, - 1, 2) & = & 1 \cdot (5, - 1, 2) & + & 0 \cdot (15, 4, 8) \\ γ_{2} & = & (0, 7, 2) & = & - 3 (5, - 1, 2) & + & 1 \cdot (15, 4, 8) \end{matrix}$
$[\begin{matrix} 0 & 6 & 1 \\ 9 & 12 & - 8 \\ 12 & 62 & - 3 \\ 3 & 8 & - 2 \end{matrix}] = [\begin{matrix} 1 & 0 \\ - 2 & 3 \\ 5 & 4 \\ 0 & 1 \end{matrix}] [\begin{matrix} 0 & 6 & 1 \\ 3 & 8 & - 2 \end{matrix}]$ 其中 $\begin{matrix} γ_{2} & = & (9, 12, - 8) & = & - 2 (0, 6, 1) + 3 (3, 8, - 2) \\ γ_{3} & = & (12, 62, - 3) & = & 5 (0, 6, 1) + 4 (3, 8, - 2) \end{matrix}$
$[\begin{matrix} 8 \\ 29 \end{matrix}] = [\begin{matrix} 2 & 1 \\ 5 & 4 \end{matrix}] [\begin{matrix} 1 \\ 6 \end{matrix}]$
$[\begin{matrix} - 2 & - 4 \\ 6 & 12 \end{matrix}] = [\begin{matrix} - 1 \\ 3 \end{matrix}] [\begin{matrix} 2 & 4 \end{matrix}]$ 其中 $γ_{2} = (6, 12) = 3 (2, 4)$
$[\begin{matrix} 2 & 4 \end{matrix}] [\begin{matrix} - 1 \\ 3 \end{matrix}] = [\begin{matrix} 10 \end{matrix}]$
$[\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}] [\begin{matrix} 1 & - 5 & 2 \\ 2 & 3 & 4 \\ 9 & - 1 & 3 \end{matrix}] = [\begin{matrix} 2 & 3 & 4 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}]$
$[\begin{matrix} 1 & - 5 & 2 \\ 2 & 3 & 4 \\ 9 & - 1 & 3 \end{matrix}] [\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}] = [\begin{matrix} 0 & 1 & 0 \\ 0 & 2 & 0 \\ 0 & 9 & 0 \end{matrix}]$

注意到两个矩阵之积不必有定义是重要的. 积有定义当且仅当第一个矩阵的列数与第二个矩阵的行数相合. 因此, 交换以上a, b, c中因子的顺序是没有意义的. 往往我们写下如 $A B$ 一样的积时并不显式提及因子的尺寸, 在这种情况下, 应该理解为积是有定义的. 从d, e, f, g中我们发现, 即便 $A B$ 和 $B A$ 都有定义, 也不一定有 $A B = B A$ . 换句话说, 矩阵乘法不是交换的.

例子11.

如果 $I$ 是 $m \times m$ 的恒等矩阵, 而 $A$ 是一个 $m \times n$ 的矩阵, 那么 $I A = A$ .
如果 $I$ 是 $n \times n$ 的恒等矩阵, 而 $A$ 是一个 $m \times n$ 的矩阵, 那么 $A I = A$ .
如果 $0^{k, m}$ 是 $k \times m$ 的零矩阵, 那么 $0^{k, n} = 0^{k, m} A$ . 类似地, $A 0^{n, p} = 0^{m, p}$ .

例子12. 令

A

是域

F

上的一个

m \times n

矩阵. 我们之前对于线性方程组的简记法

A X = Y

和我们对于矩阵乘法的定义是一致的, 因为如果

X = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]

其中

x_{i}

在

F

中, 那么

A X

是

m \times 1

矩阵

Y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{m} \end{matrix}]

满足

y_{i} = A_{i, 1} x_{1} + A_{i, 2} x_{2} + \dots + A_{i, n} x_{n}

列矩阵的使用提示了一种往往有用的记号. 如果 $B$ 是一个 $n \times p$ 的矩阵, 那么 $B$ 的列是 $n \times 1$ 矩阵 $B_{1}, \dots, B_{p}$ , 由 $B_{j} = [\begin{matrix} B_{1, j} \\ ⋮ \\ B_{n, j} \end{matrix}], 1 \leq j \leq p$ 定义. 矩阵 $B$ 是由这些列相继构成的: $B = [B_{1}, \dots, B_{p}]$ 积矩阵 $A B$ 的第 $i$ 行 $j$ 列元素是由 $A$ 的第 $i$ 行和 $B$ 的第 $j$ 列构造出来的. 读者应该验证 $A B$ 的第 $j$ 列就是 $A B_{j}$ : $A B = [A B_{1}, \dots, A B_{p}]$

尽管矩阵之积依赖于因子的顺序, 但是它独立于结合的方式, 这正是下一个定理表明的.

定理8. 如果

A

B

C

是域

F

上的矩阵, 满足乘积

B C

和

A (B C)

有定义, 那么乘积

A B

和

(A B) C

也有定义, 并且

A (B C) = (A B) C

证明. 设

B

是一个

n \times p

矩阵. 既然

B C

是有定义的, 那么

C

就是一个有

p

行的矩阵, 而

B C

有

n

行. 因为

A (B C)

是有定义的, 我们可以假定

A

是一个

m \times n

矩阵. 因此, 积

A B

存在, 是一个

m \times p

矩阵, 从中又可以知道

(A B) C

存在. 为了证明

A (B C) = (A B) C

其实也就是要证明

{[A (B C)]}_{i, j} = {[(A B) C]}_{i, j}

对于每个

i

和

j

成立. 根据定义,

\begin{array}{rcl} {[A (B C)]}_{i, j} & = & \sum_{r}^{} A_{i, r} {(B C)}_{r, j} \\ = & \sum_{r}^{} A_{i, r} \sum_{s}^{} B_{r, s} C_{s, j} \\ = & \sum_{r}^{} \sum_{s}^{} A_{i, r} B_{r, s} C_{s, j} \\ = & \sum_{s}^{} \sum_{r}^{} A_{i, r} B_{r, s} C_{s, j} \\ = & \sum_{s}^{} (\sum_{r}^{} A_{i, r} B_{r, s}) C_{s, j} \\ = & \sum_{s}^{} {(A B)}_{i, s} C_{s, j} \\ = & {[(A B) C]}_{i, j} \end{array}

◻

当 $A$ 是一个 $n \times n$ 矩阵时, 积 $A A$ 是有定义的. 我们用 $A^{2}$ 表示这个矩阵. 根据定理8, $(A A) A = A (A A)$ 或者说 $A^{2} A = A A^{2}$ , 于是积 $A A A$ 是良定的. 我们用 $A^{3}$ 表示这个积. 一般地, 积 $A A \dots A$ ( $k$ 次) 是良定的, 我们将其记作 $A^{k}$ .

注意到 $A (B C) = (A B) C$ 可以推出 $C$ 的行的线性组合的线性组合也是 $C$ 的行的线性组合.

如果 $B$ 是一个给定的矩阵而 $C$ 是由 $B$ 通过一次初等行变换得到的, 那么 $C$ 的每一行都是 $B$ 的行的线性组合, 因此存在一个矩阵 $A$ 满足 $A B = C$ . 一般而言, 这样的 $A$ 不止一个, 而从诸多这样的矩阵中挑选出一个具有许多特别性质的矩阵是可能的也是方便的. 在讨论这个之前我们需要先引入一类矩阵.

定义. 一个

m \times m

矩阵被称为是一个初等矩阵, 如果它是可由

m \times m

的恒等矩阵通过一次初等行变换得到.

例子13. 一个

2 \times 2

的初等矩阵只可能是以下几种之一:

[\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix}], [\begin{matrix} 1 & c \\ 0 & 1 \end{matrix}], [\begin{matrix} 1 & 0 \\ c & 1 \end{matrix}]

[\begin{matrix} c & 0 \\ 0 & 1 \end{matrix}], c \neq 0, [\begin{matrix} 1 & 0 \\ 0 & c \end{matrix}], c \neq 0

定理9. 令

e

是一个初等行变换, 令

m \times m

矩阵

E = e (I)

. 那么, 对于每一个

m \times n

矩阵

A

e (A) = E A

证明. 证明的要点在于积矩阵

E A

第

i

行

j

列的元素是由

E

的第

i

行和

A

的第

j

列得到的. 三种初等行变换应该分开看待. 我们将给出对于类型2的变换的详细证明. 其他两种情况更加简单, 留给读者作为练习. 设

r \neq s

而

e

是将第

r

行替换为第

r

行加上

c

乘上第

s

行的变换, 那么

E_{i, k} = {\begin{matrix} δ_{i, k} & , i \neq r \\ δ_{r, k} + c δ_{s, k} & , i = r \end{matrix}

因此,

{(E A)}_{i, j} = \sum_{k = 1}^{m} E_{i, k} A_{k, j} = {\begin{matrix} A_{i, j} & , i \neq r \\ A_{r, j} + c A_{s, j} & , i = r \end{matrix}

换句话说,

E A = e (A)

◻

推论. 令

A

和

B

是域

F

上的

m \times n

矩阵, 那么

B

行等价于

A

当且仅当

B = P A

, 其中

P

是一系列

m \times m

的初等矩阵之积.

证明. 设

B = P A

, 其中

P = E_{s} \dots E_{2} E_{1}

而

E_{i}

是

m \times m

的初等矩阵, 那么

E_{1} A

行等价于

A

, 并且

E_{2} (E_{1} A)

行等价于

E_{1} A

, 于是

E_{2} E_{1} A

行等价于

A

. 如法炮制我们可以看到

(E_{s} \dots E_{1}) A

行等价于

A

.
现在设

B

行等价于

A

. 令

E_{1}, E_{2}, \dots, E_{s}

为与将

A

变为

B

的一系列初等行变换相对应的初等矩阵, 那么

B = (E_{s} \dots E_{1}) A

◻

练习1. 令

A = [\begin{matrix} 2 & - 1 & 1 \\ 1 & 2 & 1 \end{matrix}], B = [\begin{matrix} 3 \\ 1 \\ - 1 \end{matrix}], C = [\begin{matrix} 1 & - 1 \end{matrix}]

计算

A B C

和

C A B

练习2. 令

A = [\begin{matrix} 1 & - 1 & 1 \\ 2 & 0 & 1 \\ 3 & 0 & 1 \end{matrix}], B = [\begin{matrix} 2 & - 2 \\ 1 & 3 \\ 4 & 4 \end{matrix}]

验证

A (A B) = A^{2} B

练习3. 找出两个不同的

2 \times 2

矩阵

A

满足

A^{2} = 0

但是

A \neq 0

练习4. 对于练习2的矩阵

A

, 找出初等矩阵

E_{1}, E_{2}, \dots, E_{k}

满足

E_{k} \dots E_{2} E_{1} A = I

练习5. 令

A = [\begin{matrix} 1 & - 1 \\ 2 & 2 \\ 1 & 0 \end{matrix}], B = [\begin{matrix} 3 & 1 \\ - 4 & 4 \end{matrix}]

存在矩阵

C

满足

C A = B

吗?

练习6. 令

A

是一个

m \times n

矩阵而

B

是一个

n \times k

矩阵. 证明

C = A B

的列是

A

的列的线性组合, 并且如果

α_{1}, \dots, α_{n}

是

A

的列, 而

γ_{1}, \dots, γ_{k}

是

C

的列, 那么

γ_{j} = \sum_{r = 1}^{n} B_{r, j} α_{r}

练习7. 令

A

和

B

是

2 \times 2

的矩阵满足

A B = I

, 证明

B A = I

练习8. 令

C = [\begin{matrix} C_{1, 1} & C_{1, 2} \\ C_{2, 1} & C_{2, 2} \end{matrix}]

是一个

2 \times 2

的矩阵. 我们想问什么情况下有可能找到两个

2 \times 2

的矩阵

A

和

B

满足

C = A B - B A

. 证明这样的矩阵可以被找到当且仅当

C_{1, 1} + C_{2, 2} = 0

第1.6节可逆矩阵

设 $m \times m$ 矩阵 $P$ 是初等矩阵之积. 对于每个 $m \times n$ 矩阵 $A$ , 矩阵 $B = P A$ 行等价于 $A$ , 因此 $A$ 行等价于 $B$ , 存在一个初等矩阵之积 $Q$ 满足 $A = Q B$ . 特别地, 当 $A$ 是 $m \times m$ 的恒等矩阵时亦成立. 换言之, 存在一个 $m \times m$ 矩阵 $Q$ , 其自身是初等矩阵之积, 满足 $Q P = I$ . 正如我们将看到的, 存在 $Q$ 满足 $Q P = I$ 等价于 $P$ 是初等矩阵之积.

定义. 令

A

是域

F

上的一个

n \times n

矩阵. 一个

n \times n

矩阵

B

若是满足

B A = I

, 则被称为

A

的一个左逆. 一个

n \times n

矩阵

B

若是满足

A B = I

, 则被称为

A

的一个右逆. 如果

A B = B A = I

, 则

B

被称为

A

的双端逆, 而

A

被称为可逆的.

引理. 如果

A

有一个左逆

B

和一个右逆

C

, 那么

B = C

证明. 设

B A = I

且

A C = I

, 那么

B = B I = B (A C) = (B A) C = I C = C

◻

因此, 如果 $A$ 有一个左逆和一个右逆, $A$ 就是可逆的, 并且拥有一个唯一的双端逆, 我们将其表示为 $A^{- 1}$ 并简单地称其为 $A$ 的逆.

定理10. 令

A

和

B

是域

F

上的

n \times n

矩阵.

如果 $A$ 可逆, 那么 $A^{- 1}$ 也可逆, 并且 ${(A^{- 1})}^{- 1} = A$ .
如果 $A$ 和 $B$ 都可逆, 那么 $A B$ 也可逆, 并且 ${(A B)}^{- 1} = B^{- 1} A^{- 1}$ .

证明. 第一条陈述从定义的对称性来看是显然的. 第二条陈述由验证以下关系自然得到.

(A B) (B^{- 1} A^{- 1}) = (B^{- 1} A^{- 1}) (A B) = I

◻

推论. 一系列可逆矩阵之积是可逆的.

定理11. 初等矩阵是可逆的. [译注: 并且逆也是初等矩阵.]

证明. 令

E

是与初等行变换

e

相对应的初等矩阵. 如果

e_{1}

是

e

的逆变换 (见定理2) 而

E_{1} = e_{1} (I)

, 那么有

E E_{1} = e (E_{1}) = e (e_{1} (I)) = I

和

E_{1} E = e_{1} (E) = e_{1} (e (I)) = I

于是

E

是可逆的且

E_{1} = E^{- 1}

◻

例子14.

${[\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix}]}^{- 1} = [\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix}]$
${[\begin{matrix} 1 & c \\ 0 & 1 \end{matrix}]}^{- 1} = [\begin{matrix} 1 & - c \\ 0 & 1 \end{matrix}]$
${[\begin{matrix} 1 & 0 \\ c & 1 \end{matrix}]}^{- 1} = [\begin{matrix} 1 & 0 \\ - c & 1 \end{matrix}]$
当 $c \neq 0$ , ${[\begin{matrix} c & 0 \\ 0 & 1 \end{matrix}]}^{- 1} = [\begin{matrix} c^{- 1} & 0 \\ 0 & 1 \end{matrix}] 且 {[\begin{matrix} 1 & 0 \\ 0 & c \end{matrix}]}^{- 1} = [\begin{matrix} 1 & 0 \\ 0 & c^{- 1} \end{matrix}]$

定理12. 如果

A

是一个

n \times n

的矩阵, 那么以下命题等价.

$A$ 可逆.
$A$ 行等价于 $n \times n$ 的恒等矩阵.
$A$ 是一系列初等矩阵之积.

证明. 令

R

是行等价于

A

的一个行简化阶梯矩阵. 根据定理9 (或其推论),

R = E_{k} \dots E_{2} E_{1} A

其中

E_{1}, \dots, E_{k}

是初等矩阵. 每个

E_{j}

都是可逆的, 于是

A = E_{1}^{- 1} \dots E_{k}^{- 1} R

既然可逆矩阵之积是可逆的, 我们看到

A

可逆当且仅当

R

可逆. 因为

R

是一个 (方的) 行简化阶梯矩阵,

R

可逆当且仅当

R

的每一行都包含非零元, 即当且仅当

R = I

. 现在我们已经证明了

A

可逆当且仅当

R = I

, 并且如果

R = I

, 那么

A = E_{1}^{- 1} \dots E_{k}^{- 1}

. 现在i, ii, iii是关于

A

的等价陈述应该是显然的了.

◻

推论. 如果

A

是一个

n \times n

的可逆矩阵, 并且一系列初等行变换将

A

规约为

I

, 那么相同的初等行变换应用于

I

就得到

A^{- 1}

推论. 令

A

和

B

是

m \times n

的矩阵, 那么

B

行等价于

A

当且仅当

B = P A

, 其中

P

是一个

m \times m

的可逆矩阵.

定理13. 对于

n \times n

矩阵

A

, 以下命题等价.

$A$ 可逆.
齐次线性方程组 $A X = 0$ 仅有平凡解.
线性方程组 $A X = Y$ 对于每个 $n \times 1$ 的 $Y$ 都有一个解 $X$ .

证明. 根据定理7, 条件ii等价于

A

行等价于恒等矩阵. 根据定理12, i和ii因此是等价的. 如果

A

可逆,

A X = Y

的解是

X = A^{- 1} Y

. 反过来, 设

A X = Y

对于每个给定的

Y

都有一个解. 令

R

是行等价于

A

的一个行简化阶梯矩阵. 我们想要证明

R = I

. 这只需要证明

R

的最后一行不都是零即可. 令

E = [\begin{matrix} 0 \\ 0 \\ ⋮ \\ 0 \\ 1 \end{matrix}]

若

R X = E

有解, 那么

R

的最后一行就不可能都是零. 我们知道

R = P A

, 其中

P

可逆, 因而

R X = E

和

A X = P^{- 1} E

拥有相同的解. 根据条件iii, 后一个线性方程组有解, 故

A

可逆.

◻

推论. 一个有左逆或右逆的方阵是可逆的.

证明. 令

A

是一个

n \times n

矩阵. 设

A

有一个左逆, 即一个矩阵

B

满足

B A = I

, 那么

A X = 0

仅有平凡解, 因为

X = I X = B (A X)

, 故

A

可逆. 另一方面, 设

A

有一个右逆, 即一个矩阵

C

满足

A C = I

, 那么

C

有一个左逆, 故是可逆的, 于是就有

A = C^{- 1}

, 那么

A

可逆, 其逆为

C

◻

推论. 令

A = A_{1} A_{2} \dots A_{k}

, 其中

A_{1}, \dots, A_{k}

是

n \times n

的方阵, 那么

A

可逆当且仅当每个

A_{j}

可逆.

证明. 我们已经证明了两个可逆矩阵之积是可逆的, 从中读者可以简单地看出来若是每个

A_{j}

可逆, 则

A

可逆. [译注: 实际上之前有一个推论陈述了这个事实.]
现在设

A

可逆. 我们先来证明

A_{k}

是可逆的. 设

X

是一个

n \times 1

的矩阵并且

A_{k} X = 0

, 那么

A X = (A_{1} \dots A_{k - 1}) A_{k} X = 0

. 既然

A

是可逆的, 那么

X

就必须是

0

. 因此,

A_{k} X = 0

没有非平凡的解, 于是

A_{k}

可逆. 现在,

A_{1} \dots A_{k - 1} = A A_{k}^{- 1}

也是可逆的了. 施行前述论证, 可知

A_{k - 1}

是可逆的. 续行此法, 可得每个

A_{j}

都是可逆的.

◻

我们想要作出关于求解线性方程组的最后一个注记. 设 $A$ 是一个 $m \times n$ 的矩阵, 并且我们想要求解线性方程组 $A X = Y$ . 如果 $R$ 是行等价于 $A$ 的一个行简化阶梯矩阵, 那么 $R = P A$ , 其中 $P$ 是一个 $m \times m$ 的可逆矩阵. 方程组 $A X = Y$ 的解恰好就和 $R X = P Y (= Z)$ 相同. 在实践中, 找到矩阵 $P$ 并不比行规约 $A$ 至 $R$ 困难. 这是因为, 设我们构造了方程组 $A X = Y$ 的增广矩阵 $A^{'}$ , 其最后一行是任意的标量 $y_{1}, \dots, y_{m}$ , 然后我们施行将 $A$ 变为 $R$ 的初等行变换于 $A^{'}$ , 那么矩阵 $P$ 是什么就很清楚了. (读者应该参考例子9, 那里我们基本上执行了这套过程.) [译注: 这段话并不十分清楚, 但实际上它的意思就是将 $y_{1}, \dots, y_{m}$ 当作符号带入计算.] 特别地, 如果 $A$ 是一个方阵, 那么这个过程将会表明 $A$ 是否可逆, 以及若可逆, 逆 $P$ 是什么. 既然我们已经给出这样的计算的一个例子的核心了, 那么现在我们举一个 $2 \times 2$ 的例子就心满意足了.

例子15. 设

F

是有理数域, 而

A = [\begin{matrix} 2 & - 1 \\ 1 & 3 \end{matrix}]

那么

\begin{array}{rcl} [\begin{matrix} 2 & - 1 & y_{1} \\ 1 & 3 & y_{2} \end{matrix}] & \overset{3}{\to} & [\begin{matrix} 1 & 3 & y_{2} \\ 2 & - 1 & y_{1} \end{matrix}] \\ \overset{2}{\to} & [\begin{matrix} 1 & 3 & y_{2} \\ 0 & - 7 & y_{1} - 2 y_{2} \end{matrix}] \\ \overset{1}{\to} & [\begin{matrix} 1 & 3 & y_{2} \\ 0 & 1 & \frac{1}{7} (2 y_{2} - y_{1}) \end{matrix}] \\ \overset{2}{\to} & [\begin{matrix} 1 & 0 & \frac{1}{7} (y_{2} + 3 y_{1}) \\ 0 & 1 & \frac{1}{7} (2 y_{2} - y_{1}) \end{matrix}] \end{array}

从中可以清楚地看出来

A

可逆, 并且

A^{- 1} = [\begin{matrix} \frac{3}{7} & \frac{1}{7} \\ - \frac{1}{7} & \frac{2}{7} \end{matrix}]

或许看上去一直把任意的标量 $y_{1}, y_{2}, \dots$ 写下来太过繁琐. 有的人觉得同时操作两列矩阵不那么尴尬一点, 一列描述了从 $A$ 到恒等矩阵的规约过程, 另一列记录了相同的操作对于恒等矩阵的影响. 读者或许应该自行决定哪一种对于他而言是更加利落的簿记格式.

例子16. 让我们找出

A = [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ \frac{1}{2} & \frac{1}{3} & \frac{1}{4} \\ \frac{1}{3} & \frac{1}{4} & \frac{1}{5} \end{matrix}]

的逆.

\begin{matrix} [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ \frac{1}{2} & \frac{1}{3} & \frac{1}{4} \\ \frac{1}{3} & \frac{1}{4} & \frac{1}{5} \end{matrix}] & [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] \\ [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ 0 & \frac{1}{12} & \frac{1}{12} \\ 0 & \frac{1}{12} & \frac{4}{45} \end{matrix}] & [\begin{matrix} 1 & 0 & 0 \\ - \frac{1}{2} & 1 & 0 \\ - \frac{1}{3} & 0 & 1 \end{matrix}] \\ [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ 0 & \frac{1}{12} & \frac{1}{12} \\ 0 & 0 & \frac{1}{180} \end{matrix}] & [\begin{matrix} 1 & 0 & 0 \\ - \frac{1}{2} & 1 & 0 \\ \frac{1}{6} & - 1 & 1 \end{matrix}] \\ [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{matrix}] & [\begin{matrix} 1 & 0 & 0 \\ - 6 & 12 & 0 \\ 30 & - 180 & 180 \end{matrix}] \\ [\begin{matrix} 1 & \frac{1}{2} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] & [\begin{matrix} - 9 & 60 & - 60 \\ - 36 & 192 & - 180 \\ 30 & - 180 & 180 \end{matrix}] \\ [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] & [\begin{matrix} 9 & - 36 & 30 \\ - 36 & 192 & - 180 \\ 30 & - 180 & 180 \end{matrix}] \end{matrix}

读者肯定想过我们详细地讨论了矩阵的行但很少涉及列. 我们专注于行是因为从线性方程的角度来看这似乎更加自然. 既然行没有什么神圣的地方, 后几节的讨论当然本可用列来展开而不是行. 如果有人仿照初等行变换和行等价定义了初等列变换和列等价, 那么显然每个 $m \times n$ 的矩阵都列等价于一个"列简化阶梯"矩阵. 另外, 每个初等列变换将拥有 $A \mapsto A E$ 的形式, 其中 $E$ 是一个 $n \times n$ 的初等矩阵. 诸如此类, 留给读者自行思考.

练习1. 令

A = [\begin{matrix} 1 & 2 & 1 & 0 \\ - 1 & 0 & 3 & 5 \\ 1 & - 2 & 1 & 1 \end{matrix}]

找出一个行等价于

A

的行简化阶梯矩阵

R

以及一个可逆的

3 \times 3

矩阵

P

满足

R = P A

练习2. 做练习1, 但是

A = [\begin{matrix} 2 & 0 & i \\ 1 & - 3 & - i \\ i & 1 & 1 \end{matrix}]

练习3. 对于以下两个矩阵的每一个

[\begin{matrix} 2 & 5 & - 1 \\ 4 & - 1 & 2 \\ 6 & 4 & 1 \end{matrix}], [\begin{matrix} 1 & - 1 & 2 \\ 3 & 2 & 4 \\ 0 & 1 & - 2 \end{matrix}]

使用初等行变换来判断其是否可逆, 并且在可逆的情况下找出其逆.

练习4. 令

A = [\begin{matrix} 5 & 0 & 0 \\ 1 & 5 & 0 \\ 0 & 1 & 5 \end{matrix}]

对于什么样的

X

存在标量

c

满足

A X = c X

练习5. 判断

A = [\begin{matrix} 1 & 2 & 3 & 4 \\ 0 & 2 & 3 & 4 \\ 0 & 0 & 3 & 4 \\ 0 & 0 & 0 & 4 \end{matrix}]

是否可逆, 并且在

A^{- 1}

存在的情况下找到它.

练习6. 设

A

是一个

2 \times 1

矩阵而

B

是一个

1 \times 2

矩阵, 证明

C = A B

不可逆.

练习7. 令

A

是一个

n \times n

的方阵. 证明以下两个陈述:

如果 $A$ 可逆而对于某个 $n \times n$ 的矩阵 $B$ 有 $A B = 0$ , 那么 $B = 0$ .
如果 $A$ 不可逆, 那么存在一个 $n \times n$ 的矩阵 $B$ 满足 $A B = 0$ 但是 $B \neq 0$ .

练习8. 令

A = [\begin{matrix} a & b \\ c & d \end{matrix}]

使用初等行变换证明,

A

可逆当且仅当

(a d - b c) \neq 0

练习9. 一个

n \times n

矩阵

A

被称为是上三角的, 如果

i > j

时

A_{i, j} = 0

, 即主对角线以下的元素均为零. 证明一个上三角矩阵可逆当且仅当其每个主对角线上的元素均不为零.

练习10. 证明以下练习6的一般化版本. 若

A

是一个

m \times n

矩阵而

B

是一个

n \times m

矩阵, 并且

n < m

, 那么

A B

不可逆.

练习11. 令

A

是一个

m \times n

矩阵. 证明通过一系列初等行变换和初等列变换可以从

A

得到一个矩阵

R

, 其既是行简化阶梯矩阵, 也是列简化阶梯矩阵. 也就是说, 如果

i \neq j

, 那么

R_{i, j} = 0

; 如果

1 \leq i \leq r

, 那么

R_{i, i} = 1

; 如果

i > r

, 那么

R_{i, i} = 0

. 证明

R = P A Q

, 其中

P

是一个

m \times m

的可逆矩阵, 而

Q

是一个

n \times n

的可逆矩阵.

练习12. 例子16的结果暗示或许矩阵

A = [\begin{matrix} 1 & \frac{1}{2} & \dots & \frac{1}{n} \\ \frac{1}{2} & \frac{1}{3} & \dots & \frac{1}{n + 1} \\ ⋮ & ⋮ & ⋮ \\ \frac{1}{n} & \frac{1}{n + 1} & \dots & \frac{1}{2 n - 1} \end{matrix}]

可逆并且

A^{- 1}

的元素都是整数. 你能证明吗?

第2章向量空间

第2.1节向量空间

在数学的许多部分中, 人们经常会遇到这样的集合, 其中处理对象的线性组合是有趣的. 例如, 我们发现在对于线性方程的研究中, 考虑矩阵的行的线性组合是相当自然的. 很有可能读者学过微积分, 那里处理函数的线性组合, 特别是学习微分方程的时候. 或许读者有些与三维Euclid空间打交道的经历, 特别是处理其中向量的线性组合.

不严格地说, 线性代数是这样的数学分支, 它讨论其中线性组合是有意义的代数系统的共同性质. 本节我们将定义一种数学对象, 经验表明它是此类代数系统最有用的抽象.

定义. 一个向量空间 (或者说线性空间) 包含以下资料:

一个标量域 $F$ ;
一个对象的集合 $V$ , 这些对象被称为向量;
一个法则 (或者说运算), 被称为向量加法, 联系每对V中向量α和β以一个V中向量α+β, 其被称为α和β之和, 并且该运算满足
1. 加法是交换的, $α + β = β + α$ ;
2. 加法是结合的, $α + (β + γ) = (α + β) + γ$ ;
3. $V$ 中存在唯一的向量 $0$ , 被称为零向量, 满足 $α + 0 = α$ 对于 $V$ 中所有向量 $α$ 成立;
4. 对于每个 $V$ 中向量 $α$ , 存在唯一的 $V$ 中向量 $- α$ 满足 $α + (- α) = 0$ ;
一种法则 (或者说运算), 被称为标量乘法, 联系每个F中标量c和V中向量α以一个V中向量c⁢α, 其被称为c和α之积, 并且该运算满足
1. $1 α = α$ 对于每个 $V$ 中的 $α$ 成立;
2. $c_{1} (c_{2} α) = (c_{1} c_{2}) α$ ;
3. $c (α + β) = c α + c β$ ;
4. $(c_{1} + c_{2}) α = c_{1} α + c_{2} α$ .

注意到, 正如定义所言, 一个向量空间是一个复合对象, 包含一个域, 一集"向量", 和两个带有特别性质的运算. 相同的向量集合可能是其他不同向量空间的组成部分 (见以下的例子5). 当没有歧义的时候, 我们就简单地以 $V$ 引用这个向量空间, 或者当我们想要刻画域的时候, 我们就说 $V$ 是一个域 $F$ 上的向量空间. "向量"这个名字应用于集合 $V$ 的元素很大程度上只是为了方便起见. 这个名字的由来可以从以下的例子1中找到, 但读者不应该给这个名字附加太多的重要性, 因为作为向量出现的各种对象可能与读者对于向量预先赋予的概念并无类似之处. 我们将在下面的一连串例子中尽力传达这点. 随着我们开始研究向量空间, 例子也会丰富起来.

例子1. $n$ 元组空间, $F^{n}$ . 令

F

是任意的域, 令

V

是所有

n

元组

α = (x_{1}, x_{2}, \dots, x_{n})

构成的集合, 其中

x_{i}

是

F

中的标量. 如果

β = (y_{1}, y_{2}, \dots, y_{n})

, 其中

y_{i}

是

F

中的标量, 那么

α

和

β

的和由

α + β = (x_{1} + y_{1}, x_{2} + y_{2}, \dots, x_{n} + y_{n})

定义. 标量

c

和向量

α

的积由

c α = (c x_{1}, c x_{2}, \dots, c x_{n})

定义. 这向量加法和标量乘法满足条件3和4是容易验证的, 运用

F

的元素的加法和乘法的类似性质即可.

例子2. $m \times n$ 矩阵的空间, $F^{m \times n}$ . 令

F

是任意的域, 并令

m

和

n

是正整数. 令

F^{m \times n}

是域

F

上所有

m \times n

矩阵构成的集合.

F^{m \times n}

中的两个向量

A

和

B

的和由

{(A + B)}_{i, j} = A_{i, j} + B_{i, j}

定义. 标量

c

和矩阵

A

的积由

{(c A)}_{i, j} = c A_{i, j}

定义. 注意到

F^{1 \times n} = F^{n}

. [译注: 在同构的意义上.]

例子3. 从一个集合到一个域的函数的空间. 令

F

是任意的域, 令

S

是一个非空集合. 令

V

是所有从集合

S

到域

F

的函数构成的集合.

V

中两个向量

f

和

g

之和是向量

f + g

, 即一个从

S

到

F

的函数, 由

(f + g) (s) = f (s) + g (s)

定义. 标量

c

和函数

f

的积是函数

c f

, 由

(c f) (s) = c f (s)

定义. 前述例子不过就是这个的特殊情形. 对于

F

的元素的

n

元组而言, 其或可被视为从整数

1, \dots, n

的集合

S

到

F

的一个函数. 类似地, 一个域

F

上的

m \times n

矩阵是一个从整数序对

(i, j), 1 \leq i \leq m, 1 \leq j \leq n

的集合

S

到域

F

的函数. 对于这第三个例子, 我们将指明读者该如何验证条件3和4. 对于向量加法:

既然 $F$ 中的加法是交换的, $f (s) + g (s) = g (s) + f (s)$ 对于每个 $S$ 中的 $s$ 成立, 于是函数 $f + g$ 和 $g + f$ 是等同的.
既然 $F$ 中的加法是结合的, $f (s) + [g (s) + h (s)] = [f (s) + g (s)] + h (s)$ 对于每个 $s$ 成立, 于是 $f + (g + h)$ 和 $(f + g) + h$ 是相同的函数.
唯一的零向量就是零函数, 其赋 $S$ 的每个元素以 $F$ 中的标量 $0$ .
对于每个 $V$ 中的 $f$ , $(- f)$ 是由 $(- f) (s) = - f (s)$ 给定的函数.

读者应当发现验证标量乘法满足条件4是容易的, 通过施行类似于我们上面对于向量加法的论证.

例子4. 域 $F$ 上的多项式函数的空间. 令

F

是一个域, 令

V

是所有具有如下形式的从

F

到

F

的函数

f (x) = c_{0} + c_{1} x + \dots + c_{n} x^{n}

构成的集合, 其中

c_{0}, c_{1}, \dots, c_{n}

是

F

中固定的标量 (独立于

x

). 一个这种类型的函数被称为

F

上的一个多项式函数. 令加法和标量乘法如例子3所定义的那样. 读者必须观察到如果

f

和

g

是多项式函数而

c

在

F

中, 那么

f + g

和

c f

也是多项式函数.

例子5. 复数域

ℂ

可以被当作实数域

ℝ

上的向量空间. 更一般地, 令

F

实数域, 而令

V

是

n

元组

(x_{1}, \dots, x_{n})

的集合, 其中

x_{1}, \dots, x_{n}

是复数. 如例子1一样定义向量的加法和标量乘法, 这般我们就得到了一个实数域

ℝ

上的向量空间, 其与

ℂ^{n}

和

ℝ^{n}

相当不同.

从向量空间的定义中我们几乎立刻就能推出一些简单的事实, 接下来我们将推导它们. 如果 $c$ 是一个标量而 $0$ 是零向量, 那么根据3c和4c $c 0 = c (0 + 0) = c 0 + c 0$ 加上 $- (c 0)$ 并使用3d, 我们就得到了 $c 0 = 0$ 类似地, 对于标量 $0$ 和任意的向量 $α$ 我们发现 $0 α = 0$ 如果 $c$ 是一个非零标量而 $α$ 是一个向量满足 $c α = 0$ 那么根据 $c 0 = 0$ , 我们有 $c^{- 1} (c 0) = 0$ , 但是又因为 $c^{- 1} (c 0) = (c^{- 1} c) α = 1 α = α$ 于是 $α = 0$ . 因此, 我们看到如果 $c$ 是一个标量而 $α$ 是一个向量, 并且 $c α = 0$ , 那么要么 $c$ 标量零, 要么 $α$ 是零向量.
如果 $α$ 是 $V$ 中任意的向量, 那么 $0 = 0 α = (1 - 1) α = 1 α + (- 1) α = α + (- 1) α$ 从中就推出 $(- 1) α = - α$ 最后, 向量加法的结合和交换性质可以推出牵扯到数个向量的和独立于这些向量组合和结合的方式. 例如, 如果 $α_{1}, α_{2}, α_{3}, α_{4}$ 是 $V$ 中向量, 那么 $(α_{1} + α_{2}) + (α_{3} + α_{4}) = [α_{2} + (α_{1} + α_{3})] + α_{4}$ 并且这样一个和可以无歧义地被写成 $α_{1} + α_{2} + α_{3} + α_{4}$

定义.

V

中一个向量

β

被称为

V

中向量

α_{1}, \dots, α_{n}

的线性组合, 只要存在

F

中的标量

c_{1}, \dots, c_{n}

满足

β = c_{1} α_{1} + \dots + c_{n} α_{n} = \sum_{i = 1}^{n} c_{i} α_{i}

对于向量加法的结合性质以及标量乘法的分配性质4c和4d的其他扩展可以施行于线性组合之上: $\begin{matrix} \sum_{i = 1}^{n} c_{i} α_{i} + \sum_{i = 1}^{n} d_{i} α_{i} & = & \sum_{i = 1}^{n} (c_{i} + d_{i}) α_{i} \\ c \sum_{i = 1}^{n} c_{i} α_{i} & = & \sum_{i = 1}^{n} (c c_{i}) α_{i} \end{matrix}$

线性代数的特定部分与几何紧密关联. "空间"暗示了某种几何的东西, "向量"对于大多数人也是如此. 当我们进一步研究向量空间时, 读者将会发现许多术语的确拥有几何的内涵. 在结束介绍向量空间的本节之前, 我们将在某种程度上讨论向量空间和几何之间的关系, 至少能够指明"向量空间"这个名字的由来. 这将会是简要的直觉性的讨论.

让我们考虑向量空间 $ℝ^{3}$ . 在解析几何中, 人们将实数三元组 $(x_{1}, x_{2}, x_{3})$ 和三维Euclid空间中的点视为等同的. 在这样的上下文之中, 一个向量经常被定义成一个有向线段 $P Q$ , 从点 $P$ 的位置到点 $Q$ . 这相当于对从 $P$ 到 $Q$ 的"箭头"的想法进行小心的形式化. 当向量被使用时, 意图在于它们应该由它们的长度和方向所决定. 因此, 当两个有向线段具有相同的长度和相同的方向时, 人们必须将其视为等同的.

从 $P = (x_{1}, x_{2}, x_{3})$ 到 $Q = (y_{1}, y_{2}, y_{3})$ 的有向线段 $P Q$ 与从原点 $O = (0, 0, 0)$ 到点 $(y_{1} - x_{1}, y_{2} - x_{2}, y_{3} - x_{3})$ 的有向线段具有相同的长度和方向. 并且, 这是自原点出发而与 $P Q$ 具有相同长度和方向的唯一一条有向线段. 因此, 如果读者同意仅处理从原点出发的向量, 那么与每个给定的长度和方向相关联着的仅恰有一个向量.

从原点至 $P = (x_{1}, x_{2}, x_{3})$ 的向量 $O P$ 完全由 $P$ 决定, 因此将这个向量与点 $P$ 视为等同是可能的. 在我们对于向量空间 $ℝ^{3}$ 的定义中, 那些向量就简单地被定义成三元组 $(x_{1}, x_{2}, x_{3})$ .

给定点 $P = (x_{1}, x_{2}, x_{3})$ 和 $Q = (y_{1}, y_{2}, y_{3})$ , 向量 $O P$ 和 $O Q$ 之和的定义可以被几何地给出. 如果这两个向量不是平行的, 那么线段 $O P$ 和 $O Q$ 确定了一个平面, 并且这两条线段是该平面中的一个平行四边形的两条边 (见图1). 该平行四边形的一条对角线自 $O$ 延伸至点 $S$ , 而 $O P$ 和 $O Q$ 之和就被定义成向量 $O S$ . 点 $S$ 的坐标为 $(x_{1} + y_{1}, x_{2} + y_{2}, x_{3} + y_{3})$ , 因此这向量加法的几何定义就等价于例子1的代数定义.

图1

标量乘法拥有一个简单的几何解释. 如果 $c$ 是一个实数, 那么 $c$ 与向量 $O P$ 之积是一个向量, 其自原点出发, 长度为 $| c |$ 乘以 $O P$ 的长度, 方向在 $c > 0$ 时与 $O P$ 相同, $c < 0$ 时与 $O P$ 相反. 这标量乘法就产生向量 $O T$ , 其中 $T = (c x_{1}, c x_{2}, c x_{3})$ , 因此也与为 $ℝ^{3}$ 给出的代数定义一致.

时不时地, 读者可能会发现"几何地思考"向量空间很有助益. 也就是说, 出于自身的需要, 通过绘图来刻画和启发一些想法. 的确, 读者应该这么做. 然而, 在绘制这样的图形时, 读者必须记住, 由于我们是把向量空间作为代数系统进行处理的, 所有我们给出的证明在性质上都是代数的.

练习1. 如果

F

是一个域, 验证

F^{n}

(在例子1中被定义) 是一个域

F

上的向量空间.

练习2. 如果

V

是一个域

F

上的向量空间, 验证

(α_{1} + α_{2}) + (α_{3} + α_{4}) = [α_{2} + (α_{3} + α_{1})] + α_{4}

对于

V

中所有向量

α_{1}, α_{2}, α_{3}, α_{4}

成立.

练习3. 如果

ℂ

是复数域, 那么

ℂ^{3}

中哪些向量是

(1, 0, - 1), (0, 1, 1), (1, 1, 1)

的线性组合?

练习4. 令

V

是所有实数序对

(x, y)

的集合, 令

F

是实数域, 定义

(x, y) + (x_{1}, y_{1}) = (x + x_{1}, y + y_{1}), c (x, y) = (c x, c y)

V

在这些运算下是一个实数域上的向量空间吗?

练习5. 在

ℝ^{n}

上定义两个运算

α \oplus β = α - β, c \cdot α = - c α

右侧的运算即通常的运算, 那么

(ℝ^{n}, \oplus, \cdot)

满足哪些向量空间的公理?

练习6. 令

V

是所有满足

f (- t) = \overline{f (t)}

的实数轴上的复值函数

f

的集合. 横杠代表复共轭. 证明

V

, 对于运算

(f + g) (t) = f (t) + g (t), (c f) (t) = c f (t)

是一个实数域上的向量空间. 给出

V

中一个不是实值函数的例子.

练习7. 令

V

是实数序对

(x, y)

的集合, 令

F

是实数域, 定义

(x, y) + (x_{1}, y_{1}) = (x + x_{1}, 0), c (x, y) = (c x, 0)

V

在这些运算下是一个向量空间吗?

第2.2节子空间

本节我们引入一些研究向量空间的基本概念.

定义. 令

V

是域

F

上的向量空间.

V

的子空间是

V

的子集

W

, 其在

V

的加法和数乘之下是域

F

上的向量空间.

对于向量空间的公理的直接检视表明, $V$ 的子集 $W$ 是一个子空间, 如果对于每个 $W$ 中的 $α$ 和 $β$ , 向量 $α + β$ 也在 $W$ 中; 零向量 $0$ 在 $W$ 之中; 对于每个 $W$ 中的 $α$ , 向量 $(- α)$ 在 $W$ 之中; 对于每个 $W$ 中的 $α$ 和每个标量 $c$ , 向量 $c α$ 在 $W$ 之中. 向量加法的交换律和结合律, 以及标量乘法的性质4a, 4b, 4c, 4d并不需要验证, 因为这些是 $V$ 上的运算所固有的性质. 判断的标准还可以进一步得到简化.

定理1.

V

的非空子集

W

是

V

的一个子空间当且仅当对于

W

中的每对向量

α

和

β

以及

F

中的每个标量

c

, 向量

c α + β

仍然在

W

之中. [译注: 空集显然不是子空间, 因为向量空间至少包含零向量.]

证明. 设

W

是

V

是一个非空子集, 其满足对于

W

中所有的向量

α

和

β

以及

F

中所有的标量

c

有

c α + β

属于

W

. 既然

W

是非空的,

W

中存在一个向量

ρ

, 因此

(- 1) ρ + ρ = 0

也在

W

中. 然后, 如果

α

是

W

中的任意向量,

c

是任意的标量, 那么向量

c α = c α + 0

在

W

中. 特别地,

(- 1) α = - α

在

W

中. 最后, 如果

α

和

β

在

W

中, 那么

α + β = 1 α + β

在

W

中. 因此,

W

是

V

的一个子空间.
反过来, 如果

W

是

V

的一个子空间,

α

和

β

在

W

中,

c

是一个标量, 当然有

c α + β

在

W

中.

◻

有些人倾向于使用定理中的 $c α + β$ 性质作为子空间的定义. 这没有什么区别. 重要的是, 如果 $W$ 是一个 $V$ 的非空子集满足对于 $W$ 中的 $α$ 和 $β$ 以及 $F$ 中的 $c$ 有 $c α + β$ 在 $V$ 之中, 那么 $W$ (在继承自 $V$ 的运算下) 是一个向量空间. 这给我们提供了许多向量空间的新例子.

例子6.

如果 $V$ 是任意的向量空间, 那么 $V$ 是 $V$ 的一个子空间; 仅包含零向量的子集也是 $V$ 的子空间, 被称为 $V$ 的零子空间.
在 $F^{n}$ 中, 满足 $x_{1} = 0$ 的 $n$ 元组 $(x_{1}, \dots, x_{n})$ 的集合是一个子空间; 然而, 满足 $x_{1} = 1 + x_{2}$ 的 $n$ 元组的集合不是一个子空间 ( $n \geq 2$ ).
域 $F$ 上的多项式函数的空间是从 $F$ 到 $F$ 的所有函数的空间的子空间.
域 $F$ 上的一个 $n \times n$ 矩阵 $A$ 是对称的, 如果对于每个 $i$ 和 $j$ 有 $A_{i, j} = A_{j, i}$ . 对称矩阵形成了一个域 $F$ 上的 $n \times n$ 矩阵的空间的子空间.
域 $ℂ$ 上的一个 $n \times n$ 矩阵 $A$ 是Hermite的 (或者说自伴的), 如果 $A_{j, k} = \overline{A_{k, j}}$ 对于每个 $j$ 和 $k$ 成立, 其中横杠代表复共轭. 一个 $2 \times 2$ 矩阵是Hermite的当且仅当其具有如下形式 $[\begin{matrix} z & x + i y \\ x - i y & w \end{matrix}]$ 其中 $x, y, z, w$ 是实数. 所有Hermite矩阵的集合不是 $ℂ$ 上的 $n \times n$ 矩阵空间的子空间, 因为如果 $A$ 是Hermite的, 那么它的对角线元素 $A_{1, 1}, A_{2, 2}, \dots$ 都是实数, 但是 $i A$ 的对角线元素不总是实数. 另一方面, 很容易验证 $n \times n$ 的复Hermite矩阵的集合是一个域 $ℝ$ 上的向量空间 (在通常的运算下).

例子7. 齐次线性方程组的解空间. 令

A

是域

F

上的一个

m \times n

矩阵, 那么满足

A X = 0

的所有

n \times 1

矩阵

X

构成的集合是域

F

上的

n \times 1

矩阵空间的一个子空间. 为了证明这个事实, 我们必须证明当

A X = 0

A Y = 0

以及

c

是

F

中任意标量时有

A (c X + Y) = 0

, 而这可由以下的一般性事实立即得到.

引理. 如果

A

是域

F

上的一个

m \times n

矩阵而

B

和

C

是域

F

上的

n \times p

矩阵, 那么

A (d B + C) = d (A B) + A C

对于每个

F

中的标量

d

成立.

证明.

\begin{array}{rcl} {[A (d B + C)]}_{i, j} & = & \sum_{k}^{} A_{i, k} {(d B + C)}_{k, j} \\ = & \sum_{k}^{} (d A_{i, k} B_{k, j} + A_{i, k} C_{k, j}) \\ = & d \sum_{k}^{} A_{i, k} B_{k, j} + \sum_{k}^{} A_{i, k} C_{k, j} \\ = & d {(A B)}_{i, j} + {A C}_{i, j} \\ = & {[d (A B) + A C]}_{i, j} \end{array}

◻

类似地, 还可以证明 $(d B + C) A = d (B A) + C A$ , 若矩阵的和与积确有定义.

定理2. 令

V

是域

F

上的一个向量空间, 那么

V

的任何子空间族的交是

V

的子空间.

证明. 令

{W_{α}}

是

V

的一个子空间族, 令

W = ⋂_{α} W_{α}

是其交. 回忆一下,

W

被定义成属于每个

W_{α}

的所有元素的集合 (见附录). 既然每个

W_{α}

都是子空间, 那么每个都包含零向量, 于是其交

W

也包含零向量,

W

非空. 令

α

和

β

是

W

中的向量, 令

c

是一个标量. 根据

W

的定义,

α

和

β

都属于每个

W_{α}

, 并且因为每个

W_{α}

都是一个子空间, 向量

(c α + β)

在每个

W_{α}

之中, 于是

(c α + β)

也在

W

里. 根据定理1,

W

是

V

的一个子空间.

◻

根据定理2, 若 $S$ 是 $V$ 的任意子集, 那么存在一个包含 $S$ 的最小的 $V$ 的子空间, 最小的意思即这个包含 $S$ 的子空间是其他每个包含 $S$ 的子空间的子集.

定义. 令

S

是一个向量的集合, 其来自于一个向量空间

V

. 由

S

张成的子空间被定义为所有包含

S

的

V

的子空间的交

W

. 当

S

是有限的向量集时, 如

S = {α_{1}, α_{2}, \dots, α_{n}}

, 我们也将

W

简单地称为由向量

α_{1}, α_{2}, \dots, α_{n}

张成的子空间.

定理3. 由向量空间

V

的一个非空子集

S

张成的子空间是

S

中向量所有的线性组合构成的集合.

证明. 令

W

是

S

张成的子空间, 那么

S

中的向量

α_{1}, α_{2}, \dots, α_{m}

的每个线性组合

α = x_{1} α_{1} + x_{2} α_{2} + \dots + x_{m} α_{m}

显然在

W

之中. 因此,

W

包含集合

L

L

为

S

中向量的所有线性组合的集合. 另一方面, 集合

L

包含

S

, 是非空的. 如果

α

和

β

属于

L

, 那么

α

是一个线性组合,

α = x_{1} α_{1} + x_{2} α_{2} + \dots + x_{m} α_{m}

其中

α_{i}

在

S

中, 并且

β

是一个线性组合,

β = y_{1} β_{1} + y_{2} β_{2} + \dots + y_{n} β_{n}

其中

β_{j}

在

S

中. 对于每个标量

c

c α + β = \sum_{i = 1}^{m} (c x_{i}) α_{i} + \sum_{j = 1}^{n} y_{j} β_{j}

因此,

c α + β

属于

L

, 于是

L

是

V

的一个子空间.
现在我们已经证明

L

是包含

S

的一个

V

的子空间, 并且任何包含

S

的子空间也包含

L

, 于是

L

是所有包含

S

的子空间之交, 即

L

是由集合

S

张成的子空间.

◻

定义. 如果

S_{1}, S_{2}, \dots, S_{k}

是向量空间

V

的子集, 那么所有形式为

α_{1} + α_{2} + \dots + α_{k}

的和 (其中

α_{i}

在

S_{i}

之中) 构成的集合被称为子集

S_{1}, S_{2}, \dots, S_{k}

的和, 用记号

S_{1} + S_{2} + \dots + S_{k}

表达, 或者

\sum_{i = 1}^{k} S_{i}

如果

W_{1}, W_{2}, \dots, W_{k}

是

V

的子空间, 那么和

W = W_{1} + W_{2} + \dots + W_{k}

显然是

V

的一个子空间, 其包含每个子空间

W_{i}

. 从中可以得到, 正如定理3的证明,

W

是由

W_{1}, W_{2}, \dots, W_{k}

之并张成的子空间.

例子8. 令

F

是复数域

ℂ

的一个子域, 设

α_{1} = (1, 2, 0, 3, 0), α_{2} = (0, 0, 1, 4, 0), α_{3} = (0, 0, 0, 0, 1)

根据定理3, 一个向量

α

在由

α_{1}, α_{2}, α_{3}

张成的

F^{5}

的子空间

W

之中当且仅当存在

F

中的标量

c_{1}, c_{2}, c_{3}

满足

α = c_{1} α_{1} + c_{2} α_{2} + c_{3} α_{3}

因此

W

由所有形式为

α = (c_{1}, 2 c_{1}, c_{2}, 3 c_{1} + 4 c_{2}, c_{3})

的向量构成, 其中

c_{1}, c_{2}, c_{3}

是

F

中任意的标量. 换句话说,

W

可以被描述为由满足

x_{2} = 2 x_{1}, x_{4} = 3 x_{1} + 4 x_{3}

的

5

元组

α = (x_{1}, x_{2}, x_{3}, x_{4}, x_{5})

构成的集合, 其中

x_{i}

在

F

中. 因此,

(- 3, - 6, 1, - 5, 2)

在

W

中, 而

(2, 4, 6, 7, 8)

不在.

例子9. 令

F

是复数域

ℂ

的一个子域, 令

V

是域

F

上所有

2 \times 2

矩阵的向量空间. 令

W_{1}

是包含所有形式为

[\begin{matrix} x & y \\ z & 0 \end{matrix}]

的矩阵的

V

的子集, 其中

x, y, z

是

F

中任意的标量. 最后, 令

W_{2}

是包含所有形式为

[\begin{matrix} x & 0 \\ 0 & y \end{matrix}]

的矩阵的

V

的子集, 其中

x

和

y

是

F

中任意的标量. 那么,

W_{1}

和

W_{2}

是

V

的子空间, 并且

V = W_{1} + W_{2}

因为

[\begin{matrix} a & b \\ c & d \end{matrix}] = [\begin{matrix} a & b \\ c & 0 \end{matrix}] + [\begin{matrix} 0 & 0 \\ 0 & d \end{matrix}]

子空间

W_{1} \cap W_{2}

包含所有形式为

[\begin{matrix} x & 0 \\ 0 & 0 \end{matrix}]

的矩阵.

例子10. 令

A

是域

F

上的一个

m \times n

矩阵.

A

的行向量是

F^{n}

中的向量, 其由

α_{i} = (A_{i, 1}, \dots, A_{i, n}), i = 1, \dots, m

给定. 由

A

的行向量张成的

F^{n}

的子空间被称为

A

的行空间. 例子8中所考虑的子空间是矩阵

A = [\begin{matrix} 1 & 2 & 0 & 3 & 0 \\ 0 & 0 & 1 & 4 & 0 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}]

的行空间. 它也是矩阵

B = [\begin{matrix} 1 & 2 & 0 & 3 & 0 \\ 0 & 0 & 1 & 4 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ - 4 & - 8 & 1 & - 8 & 0 \end{matrix}]

的行空间.

例子11. 令

V

是所有域

F

上的多项式函数的空间, 令

S

是

V

的一个子集, 包含多项式函数

f_{0}, f_{1}, f_{2}, \dots

, 其由

f_{n} (x) = x^{n}, n = 0, 1, 2, \dots

定义, 那么

V

是由

S

张成的子空间.

练习1. 以下哪些

ℝ^{n}

中的向量

α = (a_{1}, \dots, a_{n})

的集合是

ℝ^{n}

的子空间 (

n \geq 3

所有满足 $a_{1} \geq 0$ 的 $α$ ;
所有满足 $a_{1} + 3 a_{2} = a_{3}$ 的 $α$ ;
所有满足 $a_{2} = a_{1}^{2}$ 的 $α$ ;
所有满足 $a_{1} a_{2} = 0$ 的 $α$ ;
所有 $a_{2}$ 为有理数的 $α$ .

练习2. 令

V

是所有从

ℝ

到

ℝ

的函数

f

构成的(实)向量空间, 以下哪些函数的集合是

V

的子空间?

所有满足 $f (x^{2}) = {[f (x)]}^{2}$ 的 $f$ ;
所有满足 $f (0) = f (1)$ 的 $f$ ;
所有满足 $f (3) = 1 + f (- 5)$ 的 $f$ ;
所有满足 $f (- 1) = 0$ 的 $f$ ;
所有连续的 $f$ .

练习3. 向量

(3, - 1, 0, - 1)

在由向量

(2, - 1, 3, 2), (- 1, 1, 1, - 3), (1, 1, 9, - 5)

张成的

ℝ^{4}

的子空间之中吗?

练习4. 令

W

是满足

{\begin{matrix} 2 x_{1} & - & x_{2} & + & \frac{4}{3} x_{3} & - & x_{4} & = & 0 \\ x_{1} & + & \frac{2}{3} x_{3} & - & x_{5} & = & 0 \\ 9 x_{1} & - & 3 x_{2} & + & 6 x_{3} & - & 3 x_{4} & - & 3 x_{5} & = & 0 \end{matrix}

的所有

ℝ^{5}

中的

(x_{1}, x_{2}, x_{3}, x_{4}, x_{5})

的集合. 找出一个张成

W

的向量的有限集合.

练习5. 令

F

是一个域,

n

是一个大于等于

2

的正整数. 令

V

是域

F

上所有

n \times n

矩阵的向量空间. 以下哪些

V

中矩阵

A

的集合是

V

的子空间?

所有可逆的 $A$ ;
所有不可逆的 $A$ ;
所有满足 $A B = B A$ 的 $A$ , 其中 $B$ 是 $V$ 中一个固定的矩阵;
所有满足 $A^{2} = A$ 的 $A$ .

练习6.

证明 $ℝ^{1}$ 的子空间仅有 $ℝ^{1}$ 和零子空间.
证明 $ℝ^{2}$ 的子空间是 $ℝ^{2}$ , 或是零子空间, 或是由某个 $ℝ^{2}$ 中固定的(非零)向量的标量倍数构成. (最后一种类型的子空间, 从直觉上说, 是一条通过原点的直线.)
你能描述 $ℝ^{3}$ 的子空间吗?

练习7. 令

W_{1}

和

W_{2}

是向量空间

V

的子空间, 满足

W_{1}

和

W_{2}

之并也是子空间. 证明其中一个空间

W_{i}

是另一个的子集.

练习8. 令

V

是所有从

ℝ

到

ℝ

的函数

f

的向量空间, 令

V_{e}

是偶函数的子集, 即满足

f (- x) = f (x)

的函数, 令

V_{o}

是奇函数的子集, 即满足

f (- x) = - f (x)

的函数.

证明 $V_{e}$ 和 $V_{o}$ 是 $V$ 的子空间.
证明 $V_{e} + V_{o} = V$ .
证明 $V_{e} \cap V_{o} = {0}$ .

练习9. 令

W_{1}

和

W_{2}

是向量空间

V

的子空间, 满足

W_{1} + W_{2} = V

且

W_{1} \cap W_{2} = {0}

. 证明对于每个

V

中的向量

α

存在唯一的

W_{1}

中的向量

α_{1}

和

W_{2}

中的向量

α_{2}

满足

α = α_{1} + α_{2}

第2.3节基和维数

现在我们转向为特定的向量空间赋一个维数的任务. 尽管我们通常将"维数"与某种几何的东西联系起来, 我们必须为向量空间的维数寻找一个合适的代数定义. 这将通过向量空间的基的概念来完成.

定义. 令

V

是域

F

上的一个向量空间.

V

的一个子集

S

被称为线性相关的, 如果存在

S

中不同的向量

α_{1}, α_{2}, \dots, α_{n}

和

F

中的不全为

0

的标量

c_{1}, c_{2}, \dots, c_{n}

满足

c_{1} α_{1} + c_{2} α_{2} + \dots + c_{n} α_{n} = 0

不是线性相关的集合被称为线性无关的. 如果集合

S

仅包含有限多个向量

α_{1}, α_{2}, \dots, α_{n}

, 有时我们称

α_{1}, α_{2}, \dots, α_{n}

是线性相关的 (或线性无关的) 而不是说

S

是线性相关的 (或线性无关的).

以下陈述是定义的简单推论.

任何包含线性相关集合的集合是线性相关的.
线性无关集合的任意子集是线性无关的.
任何包含零向量的集合是线性相关的, 因为 $1 \cdot 0 = 0$ .
一个集合 $S$ 是线性无关的当且仅当 $S$ 的每个有限子集是线性无关的, 即当且仅当对于 $S$ 的不同向量 $α_{1}, \dots, α_{n}$ 有 $c_{1} α_{1} + \dots + c_{n} α_{n} = 0$ 可以推出每个 $c_{i} = 0$ .

定义. 令

V

是一个向量空间.

V

的一个基是一个能够张成

V

的线性无关的向量集合.

V

被称为有限维的, 如果它拥有一个有限的基.

例子12. 令

F

是一个

ℂ

的子域. 在

F^{3}

中, 向量

α_{1} = (3, 0, - 3), α_{2} = (- 1, 1, 2), α_{3} = (4, 2, - 2), α_{4} = (2, 1, 1)

是线性相关的, 因为

2 α_{1} + 2 α_{2} - α_{3} + 0 \cdot α_{4} = 0

向量

ε_{1} = (1, 0, 0), ε_{2} = (0, 1, 0), ε_{3} = (0, 0, 1)

是线性无关的.

例子13. 令

F

是一个域, 令

S

是由

ε_{1}, ε_{2}, \dots, ε_{n}

构成的

F^{n}

的子集, 其中

ε_{1} = (1, 0, 0, \dots, 0), ε_{2} = (0, 1, 0, \dots, 0), \dots, ε_{n} = (0, 0, 0, \dots, 1)

令

x_{1}, x_{2}, \dots, x_{n}

是

F

中标量, 置

α = x_{1} ε_{1} + x_{2} ε_{2} + \dots + x_{n} ε_{n}

, 那么

α = (x_{1}, x_{2}, \dots, x_{n})

这表明

ε_{1}, \dots, ε_{n}

可以张成

F^{n}

. 因为

α = 0

当且仅当

x_{1} = x_{2} = \dots = x_{n} = 0

, 所以向量

ε_{1}, \dots, ε_{n}

是线性无关的. 因此,

S = {ε_{1}, \dots, ε_{n}}

是

F^{n}

的一个基, 我们将其称为

F^{n}

的标准基.

例子14. 令

P

是域

F

上的一个

n \times n

的可逆矩阵, 那么

P

的列

P_{1}, \dots, P_{n}

构成了列矩阵空间

F^{n \times 1}

的一个基, 理由如下. 如果

X

是一个列矩阵, 那么

P X = x_{1} P_{1} + \dots + x_{n} P_{n}

既然

P X = 0

仅有平凡解

X = 0

, 那么

{P_{1}, \dots, P_{n}}

是一个线性无关的集合. 为什么它能够张成

F^{n \times 1}

呢? 令

Y

是任意的列矩阵, 如果

X = P^{- 1} Y

, 那么

Y = P X

, 即

Y = x_{1} P_{1} + \dots + x_{n} P_{n}

于是

{P_{1}, \dots, P_{n}}

是

F^{n \times 1}

的一个基.

例子15. 令

A

是一个

m \times n

矩阵,

S

是齐次线性方程组

A X = 0

(例子7) 的解空间. 令

R

是行等价于

A

的一个行简化阶梯形式, 那么

S

也是方程组

R X = 0

的解空间. 如果

R

具有

r

个非零行, 那么

R X = 0

就简单地将未知元

x_{1}, \dots, x_{n}

中的

r

个表达为了基于剩余

n - r

个未知元

x_{j}

的线性组合. 设非零行的首非零元出现在第

k_{1}, \dots, k_{r}

列, 令

J

是除去

k_{1}, \dots, k_{r}

剩下的

n - r

个索引的集合:

J = {1, \dots, n} - {k_{1}, \dots, k_{r}}

那么方程组

R X = 0

具有如下形式

{\begin{matrix} x_{k_{1}} & + & \sum_{J}^{} c_{1, j} x_{j} & = & 0 \\ ⋮ & ⋮ & ⋮ \\ x_{k_{r}} & + & \sum_{J}^{} c_{r, j} x_{j} & = & 0 \end{matrix}

其中

c_{i, j}

是特定的标量. 所有的解都可由以下方式获得, 对于每个

J

中的

j

, 给

x_{j}

赋(任意的)值, 然后计算相应的

x_{k_{1}}, \dots, x_{k_{r}}

的值. 若对于每个

J

中的

j

E_{j}

是令

x_{j} = 1

, 其余

x_{i} = 0

(

i

是

J

中异于

j

的索引) 得到的解, 那么我们断言这

(n - r)

个向量

E_{j}

构成了解空间的一个基.
因为列矩阵

E_{j}

的第

j

行为

1

, 而由

J

中其余元素索引的行是

0

, 根据例子13的推理, 这表明这些向量构成的集合是线性无关的. 以下是这些向量能够张成解空间的理由. 如果列矩阵

T

(其元素依次为

t_{1}, \dots, t_{n}

) 在解空间之中, 那么矩阵

N = \sum_{J}^{} t_{j} E_{j}

同样也在解空间之中, 并且满足对于每个

J

中的

j

有

x_{j} = t_{j}

. 具有这样性质的解是唯一的, 因此

N = T

, 而

T

就在诸向量

E_{j}

张成的空间之中.

例子16. 现在我们将给出一个无穷基的例子. 令

F

是复数域的一个子域,

V

是

F

上的多项式函数的空间. 回忆一下, 这些从

F

到

F

的函数具有如下形式

f (x) = c_{0} + c_{1} x + \dots + c_{n} x^{n}

令

f_{k} (x) = x^{k}, k = 0, 1, 2, \dots

, 那么(无限的)集合

{f_{0}, f_{1}, f_{2}, \dots}

是

V

的一个基. 显然, 它能张成

V

, 因为(上面的)函数

f

可以表示为

f = c_{0} f_{0} + c_{1} f_{1} + \dots + c_{n} f_{n}

读者应该看出来这事实上不过就是重复一遍多项式函数的定义, 即一个从

F

到

F

的函数

f

是多项式函数当且仅当存在一个整数

n

和标量

c_{0}, \dots, c_{n}

满足

c_{0} f_{0} + \dots + c_{n} f_{n}

. 那么为什么这些函数线性无关呢? 为了证明集合

{f_{0}, f_{1}, f_{2}, \dots}

是线性无关的, 只需要证明其每个有限子集是线性无关的即可, 实际上证明对于每个

n

, 集合

{f_{0}, \dots, f_{n}}

是线性无关的就够了. 设

c_{0} f_{0} + \dots + c_{n} f_{n} = 0

这等价于说

c_{0} + c_{1} x + \dots + c_{n} x^{n} = 0

对于每个

F

中的

x

成立. 换句话说, 每个

F

中的

x

都是多项式函数

f (x) = c_{0} + c_{1} x + \dots + c_{n} x^{n}

的根. 我们假定读者已经知道一个

n

阶的复系数多项式不可能拥有多于

n

个的不同的根, 于是就有

c_{0} = c_{1} = \dots = c_{n} = 0

.
我们已经给出了

V

的一个无限的基, 那么这是否意味着

V

不是有限维的? 实际上的确如此, 但这不能通过定义直接得到, 因为就目前我们所知, 或许

V

还拥有一个有限的基. 不过, 这种可能性很容易被排除. (我们将于下一个定理中在一般情况下排除它.) 假设我们拥有一个有限数目的多项式函数

g_{1}, \dots, g_{r}

, 那么

g_{1} (x), \dots, g_{r} (x)

中将出现一个最高的

x

的幂次. 如果该幂次是

k

, 那么显然

f_{k + 1} (x) = x^{k + 1}

不在

g_{1}, \dots, g_{r}

的线性扩张之中, 因此

V

不可能是有限维的. [译注: 当然, 存在一种极端情况, 即每个多项式函数都是零函数, 那就不存在最高的幂次, 不过这种情况可以被特殊对待, 论证仍然完全合理.]

关于这个例子的最后一条评注就位了. 无限的基同"无限的线性组合"毫无关系. 若是读者不能抵制将幂级数 $\sum_{k = 0}^{\infty} c_{k} x^{k}$ 注入这个例子之中, 那么他就应该再一次好好琢磨一下这个例子. 如果还是没有疗效的话, 从现在开始他就应该考虑将注意力限制在有限维空间上.

定理4. 令

V

是一个由有限多个向量

β_{1}, β_{2}, \dots, β_{m}

张成的向量空间, 那么

V

中任意线性无关的集合都是有限的, 并且拥有的元素不超过

m

个.

证明. 为了证明这个定理, 只需要证明

V

的每个拥有超过

m

个元素的子集

S

是线性相关的就够了. 令

S

就是这样一个集合. 在

S

中, 存在

n

个互异的向量

α_{1}, α_{2}, \dots, α_{n}

, 其中

n > m

. 因为

β_{1}, \dots, β_{m}

能够张成

V

, 所以存在

F

中的标量

A_{i, j}

满足

α_{j} = \sum_{i = 1}^{m} A_{i, j} β_{i}

对于

n

个标量

x_{1}, x_{2}, \dots, x_{n}

, 我们有

\begin{array}{rcl} x_{1} α_{1} + \dots + x_{n} α_{n} & = & \sum_{j = 1}^{n} x_{j} α_{j} \\ = & \sum_{j = 1}^{n} x_{j} (\sum_{i = 1}^{m} A_{i, j} β_{i}) \\ = & \sum_{j = 1}^{n} \sum_{i = 1}^{m} (A_{i, j} x_{j}) β_{i} \\ = & \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i, j} x_{j}) β_{i} \end{array}

既然

n > m

, 那么根据第1章的定理6, 存在不全为零的

x_{1}, x_{2}, \dots, x_{n}

满足

\sum_{j = 1}^{n} A_{i, j} x_{j} = 0, 1 \leq i \leq m

因此

x_{1} α_{1} + x_{2} α_{2} + \dots + x_{n} α_{n} = 0

, 这表明

S

是线性相关的集合.

◻

推论1. 如果

V

是一个有限维向量空间, 那么任意两个

V

的基都具有相同(有限)数目的元素.

证明. 既然

V

是有限维的, 它拥有一个有限的基

{β_{1}, β_{2}, \dots, β_{m}}

[译注: 这个记号隐含了

β_{1}, β_{2}, \dots, β_{m}

互异之意, 但请读者注意, 这并非集合论公理的要求, 只是一个常见的默认约定罢了.] 根据定理4, 每个

V

的基都应该是有限的, 并且拥有的元素不超过

m

个. 因此, 如果

{α_{1}, α_{2}, \dots, α_{n}}

是一个基, 那么

n \leq m

. 根据相同的论证, 有

m \leq n

, 于是

m = n

◻

这个推论允许我们将有限维向量空间的维数定义为 $V$ 的一个基的元素个数. 我们将用 $\dim V$ 表示有限维向量空间 $V$ 的维数. 这允许我们重新表述定理4如下.

推论2. 令

V

是一个有限维向量空间, 令

n = \dim V

, 那么

任何包含多于 $n$ 个向量的 $V$ 的子集是线性相关的;
没有包含少于 $n$ 个向量的 $V$ 的子集可以张成 $V$ .

例子17. 如果

F

是一个域, 那么

F^{n}

的维数是

n

, 因为

F^{n}

的标准基包含

n

个向量. 矩阵空间

F^{m \times n}

的维数是

m n

. 若与

F^{n}

的情况进行类比, 这应该是很显然的, 因为

m n

个矩阵, 其中每个矩阵的第

i

行

j

列是

1

, 其余位置是

0

, 构成了

F^{m \times n}

的一个基. 如果

A

是一个

m \times n

的矩阵, 那么

A

的维数是

n - r

, 其中

r

是与

A

行等价的行简化阶梯矩阵的非零行数, 见例子15.
如果

V

是

F

上任意的向量空间, 那么其零子空间可由向量

0

张成, 但是

{0}

是线性相关的集合, 因此不是一个基. 出于这样的原因, 我们将约定零子空间的维数是

0

. 另一种做法是, 我们论证空集是零子空间的基, 那么也能够达成相同的结论. 空集可以张成

{0}

, 因为所有包含空集的子空间之交是

{0}

. 并且, 空集也是线性无关的, 因为它不包含任何向量.

引理. 令

S

是向量空间

V

的一个线性无关的子集, 设

β

是

V

中向量但不在

S

张成的子空间之中, 那么将

β

加入

S

得到的集合仍然是线性无关的.

证明. 设

α_{1}, \dots, α_{m}

是

S

中互异的向量, 并且

c_{1} α_{1} + \dots + c_{m} α_{m} + b β = 0

那么

b = 0

, 否则的话

β = (- \frac{c_{1}}{b}) α_{1} + \dots + (- \frac{c_{m}}{b}) α_{m}

那么

β

就在

S

张成的子空间之中. 因此,

c_{1} α_{1} + \dots + c_{m} α_{m} = 0

. 既然

S

是线性无关的, 那么每个

c_{i} = 0

◻

定理5. 如果

W

是一个有限维向量空间

V

的子空间, 那么

W

每个线性无关的子集都是有限的, 并且是

W

的某个(有限的)基的一部分.

证明. 设

S_{0}

是

W

的一个线性无关的子集. 如果

S

是包含

S_{0}

的

W

的一个线性无关的子集, 那么

S

也是

V

的一个线性无关的子集. 因为

V

是有限维的, 所以

S

包含的元素个数不超过

\dim V

个.
我们按照以下方式将

S_{0}

扩展为

W

的一个基. 如果

S_{0}

可以张成

W

, 那么

S_{0}

就是

W

的一个基, 我们的任务就完成了. 如果

S_{0}

不能张成

W

, 那么根据前述引理, 我们可以在

W

中找到一个

β_{1}

满足

S_{1} = S_{0} \cup {β_{1}}

是线性无关的. [译注: 显然

β_{1}

不是

S_{0}

的元素.] 如果

S_{1}

能够张成

W

, 那就结束了. 否则的话, 再次应用引理以得到一个

W

中的

β_{2}

满足

S_{2} = S_{1} \cup {β_{2}}

是线性无关的. 继续实行此法, 那么 (在不超过

\dim V

步的情况下) 我们能够抵达一个集合

S_{m} = S_{0} \cup {β_{1}, \dots, β_{m}}

其为

W

的一个基.

◻

推论1. 如果

W

是有限维向量空间

V

的一个真子空间, 那么

W

也是有限维的, 并且

\dim W < \dim V

证明. 我们不妨设

W

包含一个向量

α \neq 0

. 根据定理5及其证明, 存在一个

W

的基, 其包含

α

且拥有不超过

\dim V

个元素. 因此,

W

是有限维的, 并且

\dim W \leq \dim V

. 既然

W

是一个真子空间, 那么存在

V

中的向量

β

, 但其不在

W

中. 将

β

加入

W

的任何一个基之中, 我们都能得到

V

的一个线性无关的子集, 于是

\dim W < \dim V

. [译注: 实际上证明不必如此曲折, 从空集开始就好, 即能扩展成为

W

的一个基, 并且这也覆盖了

W

是零子空间的平凡情况.]

◻

推论2. 在有限维向量空间

V

中每个非空的线性无关集合都是某个基的一部分. [译注: 平凡的空集情况当然也是某个基的一部分.]

推论3. 令

A

是域

F

上的一个

n \times n

矩阵, 设其行向量构成了

F^{n}

的一个线性无关的集合, 那么

A

是可逆的. [译注: 一般情况下, "构成集合"也就默认了互异, 尽管这不存在什么确切的道理可言.]

证明. 令

α_{1}, α_{2}, \dots, α_{n}

是

A

的行向量, 设

W

是由

α_{1}, α_{2}, \dots, α_{n}

张成的

F^{n}

的子空间. 既然

α_{1}, α_{2}, \dots, α_{n}

是线性无关的, 那么

W

的维数就是

n

. 推论1现在告诉我们

W = F^{n}

, 因此存在

F

中标量

B_{i, j}

满足

ε_{i} = \sum_{j = 1}^{n} B_{i, j} α_{j}, 1 \leq i \leq n

其中

{ε_{1}, ε_{2}, \dots, ε_{n}}

是

F^{n}

的标准基, 因此对于以

B_{i, j}

为元素的矩阵

B

, 我们有

B A = I

◻

定理6. 如果

W_{1}

和

W_{2}

是向量空间

V

的有限维子空间, 那么

W_{1} + W_{2}

也是有限维的, 并且有

\dim W_{1} + \dim W_{2} = \dim (W_{1} \cap W_{2}) + \dim (W_{1} + W_{2})

证明. 根据定理5及其推论,

W_{1} \cap W_{2}

具有一个有限的基

{α_{1}, \dots, α_{k}}

, 其为

W_{1}

的基

{α_{1}, \dots, α_{k}, β_{1}, \dots, β_{m}}

的一部分, 也是

W_{2}

的基

{α_{1}, \dots, α_{k}, γ_{1}, \dots, γ_{n}}

的一部分. 子空间

W_{1} + W_{2}

可由向量

α_{1}, \dots, α_{k}, β_{1}, \dots, β_{m}, γ_{1}, \dots, γ_{n}

张成, 并且这些向量也构成了一个线性无关的集合, 因为若设

\sum_{}^{} x_{i} α_{i} + \sum_{}^{} y_{j} β_{j} + \sum_{}^{} z_{r} γ_{r} = 0

那么

- \sum_{}^{} z_{r} γ_{r} = \sum_{}^{} x_{i} α_{i} + \sum_{}^{} y_{j} β_{j}

这表明

\sum_{}^{} z_{r} γ_{r}

属于

W_{1}

. 因为

\sum_{}^{} z_{r} γ_{r}

也属于

W_{2}

, 所以

\sum_{}^{} z_{r} γ_{r} = \sum_{}^{} c_{i} α_{i}

对于特定的

c_{1}, \dots, c_{k}

成立. 鉴于

{α_{1}, \dots, α_{k}, γ_{1}, \dots, γ_{n}}

是线性无关的, 每个标量

z_{r} = 0

, 因此

\sum_{}^{} x_{i} α_{i} + \sum_{}^{} y_{j} β_{j} = 0

既然

{α_{1}, \dots, α_{k}, β_{1}, \dots, β_{m}}

也是线性无关的, 那么有每个

x_{i} = 0

且每个

y_{j} = 0

. 最终我们得到

{α_{1}, \dots, α_{k}, β_{1}, \dots, β_{m}, γ_{1}, \dots, γ_{n}}

是

W_{1} + W_{2}

的一个基, 于是

\begin{array}{rcl} \dim W_{1} + \dim W_{2} & = & (k + m) + (k + n) \\ = & k + (m + k + n) \\ = & \dim (W_{1} \cap W_{2}) + \dim (W_{1} + W_{2}) \end{array}

◻

让我们以一条关于线性无关和线性相关的注记作结. 我们对于向量的集合定义了这些概念. 对于向量的有限序列 (有序的 $n$ 元组) $α_{1}, \dots, α_{n}$ 定义它们也是很有用的. 我们称向量 $α_{1}, \dots, α_{n}$ 是线性相关的, 如果存在不全为零的标量 $c_{1}, \dots, c_{n}$ 满足 $c_{1} α_{1} + \dots + c_{n} α_{n} = 0$ . 这是如此自然的, 以至于读者可能会发现他已经在这样使用术语了. 那么, 有限序列 $α_{1}, \dots, α_{n}$ 和集合 ${α_{1}, \dots, α_{n}}$ 之间有什么区别呢? 存在两种区别, 等同性和顺序.
如果我们讨论集合 ${α_{1}, \dots, α_{n}}$ , 通常已经假定向量 $α_{1}, \dots, α_{n}$ 之中没有两个向量是相同的. 对于序列 $α_{1}, \dots, α_{n}$ 而言, 可能每个 $α_{i}$ 都是相同的向量. 若对于某 $i \neq j$ 有 $α_{i} = α_{j}$ , 那么序列 $α_{1}, \dots, α_{n}$ 是线性相关的: $α_{i} + (- 1) α_{j} = 0$ 因此, 如果 $α_{1}, \dots, α_{n}$ 是线性无关的, 那么它们就是互异的, 并且我们可以讨论集合 ${α_{1}, \dots, α_{n}}$ , 知道其中有 $n$ 个向量. 显然, 在讨论基和维数的时候, 这不会引起什么歧义. 有限维向量空间 $V$ 的维数就是满足存在 $V$ 中线性无关的 $n$ 元向量组的最大的 $n$ , 诸如此类. 若是读者感到本段杂乱无章而毫无内容可言, 那么他该问问自己向量 $α_{1} = (e^{π / 2}, 1), α_{2} = (\sqrt[3]{110}, 1)$ 在 $ℝ^{2}$ 中是否线性无关.
一个序列的元素以特定的顺序被枚举出来. 一个集合是对象的合集, 而没有预先给定的排列或顺序. 当然, 为了描述一个集合, 我们或许会列出其成员, 而这就需要挑选一个顺序. 但是, 顺序不是集合的一部分. 集合 ${1, 2, 3, 4}$ 和 ${4, 3, 2, 1}$ 是等同的, 而序列 $1, 2, 3, 4$ 与 $4, 3, 2, 1$ 相当不同. 序列的顺序方面并不影响线性相关或者无关, 因为线性相关性 (根据定义) 并不受顺序影响. 序列 $α_{n}, \dots, α_{1}$ 线性相关当且仅当序列 $α_{1}, \dots, α_{n}$ 线性相关. 在下一节中, 顺序将变得重要起来.

练习1. 证明如果两个向量线性相关, 那么其中一个是另一个的标量倍数.

练习2. 向量

α_{1} = (1, 1, 2, 4), α_{2} = (2, - 1, - 5, 2), α_{3} = (1, - 1, - 4, 0), α_{4} = (2, 1, 1, 6)

在

ℝ^{4}

中线性无关吗?

练习3. 找到由练习2的四个向量张成的

ℝ^{4}

的子空间的一个基.

练习4. 证明向量

α_{1} = (1, 0, - 1), α_{2} = (1, 2, 1), α_{3} = (0, - 3, 2)

构成了

ℝ^{3}

的一个基. 将每个标准基向量表达为

α_{1}, α_{2}, α_{3}

的线性组合.

练习5. 找出

ℝ^{3}

中的三个向量, 它们线性相关, 但是两两线性无关.

练习6. 令

V

是域

F

上的

2 \times 2

矩阵的向量空间. 通过给出

V

的一个具有四个元素的基, 证明

V

的维数是

4

练习7. 令

V

是练习6的向量空间, 令

W_{1}

是由形式为

[\begin{matrix} x & - x \\ y & z \end{matrix}]

的矩阵构成的集合, 令

W_{2}

是由形式为

[\begin{matrix} a & b \\ - a & c \end{matrix}]

的矩阵构成的集合.

证明 $W_{1}$ 和 $W_{2}$ 是 $V$ 的子空间.
找出 $W_{1}, W_{2}, W_{1} + W_{2}, W_{1} \cap W_{2}$ 的维数.

练习8. 又一次令

V

是域

F

上的

2 \times 2

矩阵的向量空间. 找出

V

的一个基

{A_{1}, A_{2}, A_{3}, A_{4}}

满足对于每个

j

有

A_{j}^{2} = A_{j}

练习9. 令

V

是复数域的一个子域

F

上的一个向量空间. 设

α, β, γ

是

V

中线性无关的向量. 证明

(α + β), (β + γ), (γ + α)

是线性无关的.

练习10. 令

V

是域

F

上的一个向量空间. 设有限数目的向量

α_{1}, \dots, α_{r}

能够张成

V

. 证明

V

是有限维的.

练习11. 令

V

是复数域上所有满足

A_{1, 1} + A_{2, 2} = 0

的

2 \times 2

矩阵

A

构成的集合.

证明在通常的运算下, $V$ 是实数域上的向量空间.
找出该向量空间的一个基.
令 $W$ 为 $V$ 中满足 $A_{2, 1} = - \overline{A_{1, 2}}$ 的矩阵 $A$ 的集合, 其中横杠代表复数共轭. 证明 $W$ 是 $V$ 的子空间并找出 $W$ 的一个基.

练习12. 通过找出向量空间的一个基, 证明域

F

上的

m \times n

矩阵构成的向量空间的维数是

m n

练习13. 讨论练习9, 其中

V

是二元域上的向量空间. 二元域见第1.2节的练习5.

练习14. 令

V

是实数集合. 若将

V

视为有理数域上的向量空间 (带有通常的运算), 证明该向量空间不是有限维的.

第2.4节坐标

$n$ 维空间 $V$ 的基 $𝔅$ 的诸多有用性质之一在于, 它允许人们在 $V$ 中引入与空间 $F^{n}$ 中的向量 $α = (x_{1}, \dots, x_{n})$ 的"自然坐标" $x_{i}$ 类似的东西. 沿此进路, $V$ 中的向量 $α$ 相对于基 $𝔅$ 的坐标将会是用于将 $α$ 表达为基中向量的线性组合的标量. 因此, 我们想要将 $F^{n}$ 中的向量 $α$ 的自然坐标视为由 $α$ 和 $F^{n}$ 的标准基定义的. 然而, 若是采取此法, 我们必须足够小心. 如果 $α = (x_{1}, \dots, x_{n}) = \sum_{i = 1}^{n} x_{i} ε_{i}$ 而 $𝔅$ 是 $F^{n}$ 的标准基, 那么 $α$ 的坐标是如何由 $𝔅$ 和 $α$ 决定的呢? 一种组织回答的方式如下. 给定的 $α$ 作为标准基向量的线性组合的表达是唯一的, 并且 $α$ 的第 $i$ 个坐标 $x_{i}$ 就是该表达下 $ε_{i}$ 的系数. 以此观点来看, 我们之所以能够言称何谓第 $i$ 个坐标, 是因为我们已经为标准基中的向量安排了"自然"的顺序. 也就是说, 我们拥有一个规则来确定哪一个是基中"第一"的向量, 哪一个是基中"第二"的向量, 诸如此类. 如果 $𝔅$ 是 $n$ 维空间 $V$ 的任意一个基, 那么可能 $𝔅$ 中的向量并没有什么自然的顺序. 因此, 在我们能够定义" $α$ 相对于 $𝔅$ 的第 $i$ 个坐标"之前, 就有必要为这些向量施加一个顺序. 换言之, 坐标将相对于向量的序列而不是向量的集合进行定义.

定义. 如果

V

是一个有限维向量空间, 那么

V

的一个有序基是一个向量的有限序列, 其线性无关并可张成

V

如果序列 $α_{1}, \dots, α_{n}$ 是 $V$ 的一个有序基, 那么集合 ${α_{1}, \dots, α_{n}}$ 是 $V$ 的一个基. 有序基不过就是基的集合, 带上一个指定的顺序. 我们将稍微滥用一下符号, 言称 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基. 这不仅确定了什么是基的向量, 也刻画了顺序.

现在我们设 $V$ 是域 $F$ 上的一个有限维向量空间, 并且 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基. 给定 $V$ 中的 $α$ , 存在唯一的一个标量的 $n$ 元组满足 $α = \sum_{i = 1}^{n} x_{i} α_{i}$ 之所以这个 $n$ 元组是唯一的, 是因为若我们同样有 $α = \sum_{i = 1}^{n} z_{i} α_{i}$ 那么 $\sum_{i = 1}^{n} (x_{i} - z_{i}) α_{i} = 0$ 并且 $α_{i}$ 的线性无关性告诉我们对于每个 $i$ 有 $x_{i} - z_{i} = 0$ . 我们称 $x_{i}$ 为 $α$ 相对于有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ 的第 $i$ 个坐标. 如果 $β = \sum_{i = 1}^{n} y_{i} α_{i}$ 那么 $α + β = \sum_{i = 1}^{n} (x_{i} + y_{i}) α_{i}$ 于是 $(α + β)$ 在此有序基之下的第 $i$ 个坐标是 $(x_{i} + y_{i})$ . 类似地, $(c α)$ 的第 $i$ 个坐标是 $c x_{i}$ . 读者也应该注意到每个 $F$ 中的 $n$ 元组 $(x_{1}, \dots, x_{n})$ 也是 $V$ 中某个向量的坐标的 $n$ 元组, 即 $\sum_{i = 1}^{n} x_{i} α_{i}$

总结一下, 每个 $V$ 的有序基都确定了一个 $V$ 的所有向量的集合与 $F^{n}$ 的所有 $n$ 元组的集合之间的一一对应 $α \mapsto (x_{1}, \dots, x_{n})$ 这个对应拥有以下性质. $(α + β)$ 的像是 $F^{n}$ 中 $α$ 和 $β$ 的像之和, 以及 $(c α)$ 的像是 $F^{n}$ 中的标量 $c$ 与 $α$ 的像之积.

有的读者或许想问为什么在此时此刻我们为什么不简单地选取一个 $V$ 的有序基然后将 $V$ 的每个向量描述为与之对应的坐标 $n$ 元组, 因为若是这样的话, 我们就可以获得只与 $n$ 元组打交道之便. 这违背了我们的目的, 出于两个原因. 首先, 正如我们对于向量空间的公理化定义所暗示的那样, 我们试图研究如何将向量空间作为抽象的代数系统进行推理. 其次, 即便是在那些我们使用坐标的场合, 有的重要结果来源于我们能够改变坐标系统的能力, 即改变有序基的能力.

往往对于我们而言使用 $α$ 相对于 $𝔅$ 的坐标矩阵 $X = [\begin{matrix} x_{1} \\ ⋮ \\ x_{n} \end{matrix}]$ 而不是坐标 $n$ 元组 $(x_{1}, \dots, x_{n})$ 更加方便. 为了指明坐标矩阵依赖于哪个基, 我们将使用符号 ${[α]}_{𝔅}$ 来表示向量 $α$ 相对于有序基 $𝔅$ 的坐标矩阵. 从一个有序基变到另一个有序基时, 这个记号对于描述向量 $α$ 的坐标发生了什么变化是特别有用的.

接着, 我们设 $V$ 是 $n$ 维的, 并且 $𝔅 = {α_{1}, \dots, α_{n}} 和 𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}$ 是 $V$ 的两个有序基. 存在唯一的标量 $P_{i, j}$ 满足 $α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i}, 1 \leq j \leq n$ 令 $x_{1}^{'}, \dots, x_{n}^{'}$ 是给定的向量 $α$ 相对于有序基 $𝔅^{'}$ 的坐标, 那么 $\begin{array}{rcl} α & = & x_{1}^{'} α_{1}^{'} + \dots + x_{n}^{'} α_{n}^{'} \\ = & \sum_{j = 1}^{n} x_{j}^{'} α_{j}^{'} \\ = & \sum_{j = 1}^{n} x_{j}^{'} \sum_{i = 1}^{n} P_{i, j} α_{i} \\ = & \sum_{j = 1}^{n} \sum_{i = 1}^{n} (P_{i, j} x_{j}^{'}) α_{i} \\ = & \sum_{i = 1}^{n} (\sum_{j = 1}^{n} P_{i, j} x_{j}^{'}) α_{i} \end{array}$ 因此我们就得到关系 $α = \sum_{i = 1}^{n} (\sum_{j = 1}^{n} P_{i, j} x_{j}^{'}) α_{i}$ 既然 $α$ 在有序基 $𝔅$ 下的坐标 $x_{1}, \dots, x_{n}$ 是被唯一确定的, 那么 $x_{i} = \sum_{j = 1}^{n} P_{i, j} x_{j}^{'}, 1 \leq i \leq n$ 令 $P$ 是一个 $n \times n$ 矩阵, 其第 $i$ 行 $j$ 列的元素是标量 $P_{i, j}$ 并令 $X$ 和 $X^{'}$ 分别是 $α$ 在基 $𝔅$ 和 $𝔅^{'}$ 下的坐标矩阵, 那么我们可以重新表达上述结果为 $X = P X^{'}$ 既然 $𝔅$ 和 $𝔅^{'}$ 都是线性无关的, 那么 $X = 0$ 当且仅当 $X^{'} = 0$ . 根据第1章的定理7, $P$ 是可逆的, 于是 $X^{'} = P^{- 1} X$ 若我们使用之前引入的向量相对于某个有序基的坐标矩阵的记号, 那么 ${[α]}_{𝔅} = P {[α]}_{𝔅^{'}}, {[α]}_{𝔅^{'}} = P^{- 1} {[α]}_{𝔅}$ 因而之前的讨论可以被总结如下.

定理7. 令

V

是域

F

上的

n

维向量空间, 令

𝔅

和

𝔅^{'}

是

V

的两个有序基, 那么存在一个唯一的且必然可逆的域

F

上的

n \times n

矩阵

P

满足

{[α]}_{𝔅} = P {[α]}_{𝔅^{'}}, {[α]}_{𝔅^{'}} = P^{- 1} {[α]}_{𝔅}

对于每个

V

中的向量

α

成立.

P

的列由

P_{j} = {[α_{j}^{'}]}_{𝔅}, j = 1, \dots, n

给出.

为了使上面的分析完整, 我们还需要证明以下结果.

定理8. 设

P

是域

F

上的一个

n \times n

可逆矩阵. 令

V

是域

F

上的一个

n

维向量空间, 令

𝔅

是

V

的一个有序基. 那么, 存在唯一的一个

V

的有序基

𝔅^{'}

满足

{[α]}_{𝔅} = P {[α]}_{𝔅^{'}}, {[α]}_{𝔅^{'}} = P^{- 1} {[α]}_{𝔅}

对于每个

V

中的向量

α

成立.

证明. 令

𝔅

由向量

α_{1}, \dots, α_{n}

构成. 如果

𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

是满足第一条的

V

的有序基, 那么显然有

α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i}

因此我们只需要证明由这些等式定义的向量

α_{j}^{'}

的确构成了一个基. 令

Q = P^{- 1}

, 那么

\begin{array}{rcl} \sum_{j}^{} Q_{j, k} α_{j}^{'} & = & \sum_{j}^{} Q_{j, k} \sum_{i}^{} P_{i, j} α_{i} \\ = & \sum_{j}^{} \sum_{i}^{} P_{i, j} Q_{j, k} α_{i} \\ = & \sum_{i}^{} (\sum_{j}^{} P_{i, j} Q_{j, k}) α_{i} \\ = & α_{k} \end{array}

故由集合

𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

张成的子空间包含

𝔅

, 因而等于

V

. 于是,

𝔅^{'}

是一个基. 根据其定义和定理7, 显然第一条是成立的, 第二条也是.

◻

例子18. 令

F

是一个域, 令

α = (x_{1}, x_{2}, \dots, x_{n})

是一个

F^{n}

中的向量. 如果

𝔅

是

F^{n}

的标准有序基, 即

𝔅 = {ε_{1}, \dots, ε_{n}}

那么向量

α

在基

𝔅

下的坐标矩阵为

{[α]}_{𝔅} = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]

例子19. 令

ℝ

是实数域, 令

θ

是一个固定的实数. 矩阵

P = [\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}]

是可逆的, 其逆为

P^{- 1} = [\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}]

因此, 对于每个

θ

, 由向量

(\cos θ, \sin θ)

和

(- \sin θ, \cos θ)

构成的集合

𝔅^{'}

是

ℝ^{2}

的一个基. 从直觉上说, 这个基可被描述为由标准基旋转角度

θ

得到的. 如果

α

是向量

(x_{1}, x_{2})

, 那么

{[α]}_{𝔅^{'}} = [\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}]

或者

x_{1}^{'} = x_{1} \cos θ + x_{2} \sin θ, x_{2}^{'} = - x_{1} \sin θ + x_{2} \cos θ .

例子20. 令

F

是复数域的一个子域. 矩阵

P = [\begin{matrix} - 1 & 4 & 5 \\ 0 & 2 & - 3 \\ 0 & 0 & 8 \end{matrix}]

是可逆的, 其逆为

P^{- 1} = [\begin{matrix} - 1 & 2 & \frac{11}{8} \\ 0 & \frac{1}{2} & \frac{3}{16} \\ 0 & 0 & \frac{1}{8} \end{matrix}]

因此向量

α_{1}^{'} = (- 1, 0, 0), α_{2}^{'} = (4, 2, 0), α_{3}^{'} = (5, - 3, 8)

构成了

F^{3}

的一个基

𝔅^{'}

. 向量

α = (x_{1}, x_{2}, x_{3})

在基

𝔅^{'}

下的坐标

x_{1}^{'}, x_{2}^{'}, x_{3}^{'}

由

[\begin{matrix} x_{1}^{'} \\ x_{2}^{'} \\ x_{3}^{'} \end{matrix}] = [\begin{matrix} - x_{1} + 2 x_{2} + \frac{11}{8} x_{3} \\ \frac{1}{2} x_{2} + \frac{3}{16} x_{3} \\ \frac{1}{8} x_{3} \end{matrix}] = [\begin{matrix} - 1 & 2 & \frac{11}{8} \\ 0 & \frac{1}{2} & \frac{3}{16} \\ 0 & 0 & \frac{1}{8} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}]

特别地,

(3, 2, - 8) = - 10 α_{1}^{'} - \frac{1}{2} α_{2}^{'} - α_{3}^{'}

练习1. 证明向量

α_{1} = (1, 1, 0, 0), α_{2} = (0, 0, 1, 1), α_{3} = (1, 0, 0, 4), α_{4} = (0, 0, 0, 2)

构成了

ℝ^{4}

的一个基. 找出每个标准基向量在有序基

{α_{1}, α_{2}, α_{3}, α_{4}}

下的坐标.

练习2. 找出向量

(1, 0, 1)

在

ℂ^{3}

的有序基

(2 i, 1, 0), (2, - 1, 1), (0, 1 + i, 1 - i)

下的坐标矩阵.

练习3. 令

𝔅 = {α_{1}, α_{2}, α_{3}}

是由

α_{1} = (1, 0, - 1), α_{2} = (1, 1, 1), α_{3} = (1, 0, 0)

构成的

ℝ^{3}

的有序基. 那么, 向量

(a, b, c)

在有序基

𝔅

下的坐标是什么呢?

练习4. 令

W

是由

α_{1} = (1, 0, i)

和

α_{2} = (1 + i, 1, - 1)

张成的

ℂ^{3}

的子空间.

证明 $α_{1}$ 和 $α_{2}$ 构成了 $W$ 的一个基.
证明 $β_{1} = (1, 1, 0)$ 和 $β_{2} = (1, i, 1 + i)$ 也在 $W$ 中并且构成了 $W$ 的另一个基.
$α_{1}$ 和 $α_{2}$ 在 $W$ 的有序基 ${β_{1}, β_{2}}$ 下的坐标是什么?

练习5. 令

α = (x_{1}, x_{2})

和

β = (y_{1}, y_{2})

是

ℝ^{2}

中满足

x_{1} y_{1} + x_{2} y_{2} = 0, x_{1}^{2} + x_{2}^{2} = y_{1}^{2} + y_{2}^{2} = 1

的向量. 证明

𝔅 = {α, β}

是

ℝ^{2}

的一个基. 找出向量

(a, b)

在有序基

𝔅 = {α, β}

下的坐标. (

α

和

β

上的条件, 从几何上说, 指的是

α

和

β

垂直, 并且每个长度均为

1

练习6. 令

V

是一个复数域上的向量空间, 其由所有从

ℝ

到

ℂ

的函数构成, 即实轴上所有复值函数的空间. 令

f_{1} (x) = 1, f_{2} (x) = e^{i x}, f_{3} (x) = e^{- i x}

证明 $f_{1}, f_{2}, f_{3}$ 是线性无关的.
令 $g_{1} (x) = 1, g_{2} (x) = \cos x, g_{3} (x) = \sin x$ , 找出一个 $3 \times 3$ 的矩阵 $P$ 满足 $g_{j} = \sum_{i = 1}^{3} P_{i, j} f_{i} .$

练习7. 令

V

是所有次数小于等于

2

的从

ℝ

到

ℝ

的多项式函数构成的(实)向量空间, 即由所有形式为

f (x) = c_{0} + c_{1} x + c_{2} x^{2}

的函数

f

构成的空间. 令

t

是一个固定的实数, 定义

g_{1} (x) = 1, g_{2} (x) = x + t, g_{3} (x) = {(x + t)}^{2}

证明

𝔅 = {g_{1}, g_{2}, g_{3}}

是

V

的一个基. 如果

f (x) = c_{0} + c_{1} x + c_{2} x^{2}

那么

f

在此有序基

𝔅

下的坐标是什么呢?

第2.5节行等价的总结

本节我们将利用一些有限维向量空间基和维数的基本事实来完成我们对于矩阵的行等价性的讨论. 回忆一下, 如果 $A$ 是域 $F$ 上的一个 $m \times n$ 矩阵, 那么 $A$ 的行向量是 $F^{n}$ 中的向量 $α_{1}, \dots, α_{m}$ , 由 $α_{i} = (A_{i, 1}, \dots, A_{i, n})$ 定义. $A$ 的行空间是由这些向量张成的 $F^{n}$ 的子空间. $A$ 的行秩是 $A$ 的行空间的维数.

如果 $P$ 是域 $F$ 上的一个 $k \times m$ 矩阵, 那么积 $B = P A$ 是一个 $k \times n$ 矩阵, 其行向量 $β_{1}, \dots, β_{k}$ 分别为线性组合 $β_{i} = P_{i, 1} α_{1} + \dots + P_{i, m} α_{m}$ 因此, $B$ 的行空间是 $A$ 的行空间的一个子空间. 如果 $P$ 是一个 $m \times m$ 的可逆矩阵, 那么 $B$ 行等价于 $A$ , 于是根据行等价的对称性, 或者等式 $A = P^{- 1} B$ , 可知 $A$ 的行空间也是 $B$ 的行空间的一个子空间.

定理9. 行等价的矩阵拥有相同的子空间.

因而我们发现为了研究 $A$ 的行空间, 研究与 $A$ 行等价的行简化阶梯矩阵的行空间也是一样的. 接下来我们就要这么做.

定理10. 令

R

是一个非零的行简化阶梯矩阵, 那么

R

的非零行向量构成了

R

的行空间的一个基.

证明. 令

ρ_{1}, \dots, ρ_{r}

是

R

的非零行向量, 那么显然这些向量可以张成

R

的行空间, 因此我们只需证明它们线性无关即可. 既然

R

是一个行简化阶梯矩阵, 那么存在正整数

k_{1}, \dots, k_{r}

满足对于

i \leq r

$R (i, j) = 0$ 若 $j < k_{i}$ ;
$R (i, k_{j}) = δ_{i, j}$ ;
$k_{1} < \dots < k_{r}$ .

设

β = (b_{1}, \dots, b_{n})

是

R

的行空间的一个向量:

β = c_{1} ρ_{1} + \dots + c_{r} ρ_{r}

那么我们发现

c_{j} = b_{k_{j}}

, 因为

\begin{array}{rcl} b_{k_{j}} & = & \sum_{i = 1}^{r} c_{i} R (i, k_{j}) \\ = & \sum_{i = 1}^{r} c_{i} δ_{i, j} \\ = & c_{j} \end{array}

特别地, 如果

β = 0

, 即如果

c_{1} ρ_{1} + \dots + c_{r} ρ_{r} = 0

, 那么

c_{j}

必须是零向量的第

k_{j}

个分量, 于是

c_{j} = 0, j = 1, \dots, r

. 因此,

ρ_{1}, \dots, ρ_{r}

是线性无关的.

◻

定理11. 令

m

和

n

是正整数, 令

F

是一个域. 设

W

是

F^{n}

的一个子空间, 并且

\dim W \leq m

. 那么, 存在唯一的一个域

F

上的

m \times n

的行简化阶梯矩阵以

W

作为其行空间.

证明. 至少存在一个以

W

为行空间的

m \times n

的行简化阶梯矩阵, 因为既然

\dim W \leq m

, 我们可以挑选出

W

中的某

m

个向量

α_{1}, \dots, α_{m}

张成

W

. 令

A

是以

α_{1}, \dots, α_{m}

为行向量的

m \times n

矩阵, 令

R

是与

A

行等价的行简化阶梯矩阵, 那么

R

的行空间就是

W

.
现在令

R

是任意的以

W

为行空间的行简化阶梯矩阵, 令

ρ_{1}, \dots, ρ_{r}

是

R

的非零行向量, 设

ρ_{i}

的首非零元在第

k_{i}

列,

i = 1, \dots, r

. 向量

ρ_{1}, \dots, ρ_{r}

构成了

W

的一个基. 在定理10的证明中, 我们观察到如果

β = (b_{1}, \dots, b_{n})

在

W

之中, 那么有

β = c_{1} ρ_{1} + \dots + c_{r} ρ_{r},

并且

c_{i} = b_{k_{i}}

. 换句话说,

β

作为

ρ_{1}, \dots, ρ_{r}

的线性组合的唯一表示即

β = \sum_{i = 1}^{r} b_{k_{i}} ρ_{i}

因此若读者知道了坐标分量

b_{k_{i}}, i = 1, \dots, r

, 那么向量

β

就是确定的了. 例如,

ρ_{s}

可以被描述为

W

中唯一的第

k_{s}

个坐标为

1

, 第

k_{i}

个坐标为

0

的向量, 其中

i \neq s

.
设

β

在

W

之中而

β \neq 0

. 我们证明

β

的首非零元出现在某第

k_{s}

列. 既然

β = \sum_{i = 1}^{r} b_{k_{i}} ρ_{i}

且

β \neq 0

, 我们可以记

β = \sum_{i = s}^{r} b_{k_{i}} ρ_{i}, b_{k_{s}} \neq 0

[译注: 根据上下文可知, 这个

s

是满足

b_{k_{s}} \neq 0

的最小的整数.] 根据行简化阶梯矩阵的条件, 我们知道若有

i > s

和

j \leq k_{s}

, 那么

R_{i, j} = 0

, 于是

β = (0, \dots, 0, b_{k_{s}}, \dots, b_{n}), b_{k_{s}} \neq 0

β

的首非零元即出现在第

k_{s}

列. 读者也应该注意到, 对于每个

k_{s}, s = 1, \dots, r

, 存在一个

W

中的向量, 其第

k_{s}

个分量不为零, 即

ρ_{s}

.
现在看来

R

由

W

唯一决定是很清晰的了. 基于

W

对于

R

的刻画如下. 我们考虑所有

W

中的向量

β

. 如果

β \neq 0

, 那么

β

的首非零元必然出现在某第

t

列之中:

β = (0, \dots, 0, b_{t}, \dots, b_{n}), b_{t} \neq 0

令

k_{1}, \dots, k_{r}

是那些正整数

t

, 满足存在

W

中的某个

β \neq 0

其首非零元出现在第

t

列. 将

k_{1}, \dots, k_{r}

按照

k_{1} < k_{2} < \dots < k_{r}

的顺序排列. 对于每个正整数

k_{s}

存在唯一的

W

中的向量

ρ_{s}

满足

ρ_{s}

的第

k_{s}

个分量为

1

, 第

k_{i}

个分量为

0

, 其中

i \neq s

. 那么,

R

就是以

ρ_{1}, \dots, ρ_{r}, 0, \dots, 0

为行向量的行简化阶梯矩阵.

◻

推论. 每个

m \times n

矩阵

A

都行等价于唯一的一个行简化阶梯矩阵.

证明. 我们知道

A

至少行等价于一个行简化阶梯矩阵

R

. 如果

A

还行等价于另一个这样的矩阵

R^{'}

, 那么

R

行等价于

R^{'}

. 因此,

R

和

R^{'}

拥有相同的行空间, 必然是等同的.

◻

推论. 令

A

和

B

是域

F

上的

m \times n

矩阵, 那么

A

与

B

行等价当且仅当它们拥有相同的行空间.

证明. 我们已经知道如果

A

和

B

行等价, 那么它们拥有相同的行空间. 于是, 设

A

和

B

拥有相同的行空间. 现在,

A

行等价于一个行简化阶梯矩阵

R

B

行等价于一个行简化阶梯矩阵

R^{'}

. 既然

A

和

B

拥有相同的行空间, 那么

R

和

R^{'}

也拥有相同的行空间. 因此

R = R^{'}

A

行等价于

B

◻

总结一下, 如果 $A$ 和 $B$ 是域 $F$ 上的 $m \times n$ 矩阵, 那么以下陈述等价:

$A$ 和 $B$ 行等价.
$A$ 和 $B$ 拥有相同的行空间.
$B = P A$ , 其中 $P$ 是一个 $m \times m$ 的可逆矩阵.

第4条等价的陈述其实是齐次线性方程组

A X = 0

和

B X = 0

拥有相同的解. 然而, 尽管我们知道

A

与

B

的行等价可以推出这两个方程组拥有相同的解, 似乎最好将反方向的证明留到后面再说.

第2.6节关于子空间的计算

现在我们想要展示初等行变换是如何为回答与 $F^{n}$ 的子空间有关的特定问题提供一种标准化的方法的. 我们已经推导出了所有我们将用到的事实. 为了读者的方便, 它们被总结在这里. 这里的讨论适用于任何域 $F$ 上的 $n$ 维向量空间, 只需要选取一个固定的有序基 $𝔅$ , 然后每个 $V$ 中的向量 $α$ 就可由 $n$ 元组 $x_{1}, \dots, x_{n}$ 刻画, 其给出了 $α$ 在有序基 $𝔅$ 下的坐标.

假设给定了 $F^{n}$ 中的 $m$ 个向量 $α_{1}, \dots, α_{m}$ , 我们考虑下列问题.

如何判定向量 $α_{1}, \dots, α_{m}$ 是否线性相关? 更一般地, 如何找出由这些向量张成的子空间 $W$ 的维数?
给定 $F^{n}$ 中的 $β$ , 如何判定 $β$ 是否是 $α_{1}, \dots, α_{m}$ 的线性组合, 即 $β$ 是否在子空间 $W$ 中?
如何给出子空间 $W$ 的一个显式描述?

第三个问题有些模糊, 因为它没有说明什么叫做一个"显式描述". 然而, 我们将给出我们心中所想的这种描述以扫清模糊. 根据这种描述, 问题一和问题二都可以立即回答.

令 $A$ 是一个带有行向量 $α_{i}$ 的 $m \times n$ 矩阵: $α_{i} = (A_{i, 1}, \dots, A_{i, n}) .$ 施行一系列初等行变换, 自 $A$ 始, 终于行简化阶梯矩阵 $R$ . 之前我们已经说明过这是怎样做的. 此时, $W$ ( $A$ 的行空间) 的维数是显然易见的, 因为这个维数不过就是 $R$ 的非零行向量的数目. 如果 $ρ_{1}, \dots, ρ_{r}$ 是 $R$ 的非零行向量, 那么 $𝔅 = {ρ_{1}, \dots, ρ_{r}}$ 是 $W$ 的一个基. 如果 $ρ_{i}$ 的首非零元在第 $k_{i}$ 列, 那么对于 $i \leq r$ 我们有 $R (i, j) = 0, 如果 j < k_{i}; R (i, k_{j}) = δ_{i, j}; k_{1} < \dots < k_{r} .$ 子空间 $W$ 由所有具有以下形式的向量构成: $\begin{array}{rcl} β & = & c_{1} ρ_{1} + \dots + c_{r} ρ_{r} \\ = & \sum_{i = 1}^{r} c_{i} (R_{i, 1}, \dots, R_{i, n}) \end{array}$ 这样一个向量 $β$ 的坐标 $b_{1}, \dots, b_{n}$ 因此是 $b_{j} = \sum_{i = 1}^{r} c_{i} R_{i, j}$ 特别地, $b_{k_{j}} = c_{j}$ , 于是如果 $β = (b_{1}, \dots, b_{n})$ 是 $ρ_{i}$ 的线性组合, 那么它就必须是以下特定的线性组合. $β = \sum_{i = 1}^{r} b_{k_{i}} ρ_{i}$ 将此 $β$ 上之条件转换为坐标形式即 $b_{j} = \sum_{i = 1}^{r} b_{k_{i}} R_{i, j}, j = 1, \dots, n$ 这就是由 $α_{1}, \dots, α_{m}$ 张成的子空间 $W$ 的显式描述, 即这个子空间由所有 $F^{n}$ 中坐标满足显式描述的向量 $β$ 构成. 显式描述是什么样的呢? 首先, 它将 $W$ 描述为某个齐次线性方程组的所有解 $β = (b_{1}, \dots, b_{n})$ . 这个方程组当然具有非常特别的性质, 因为它将 $(n - r)$ 个坐标表示为另外 $r$ 个特别坐标 $b_{k_{1}}, \dots, b_{k_{r}}$ 的线性组合. 坐标 $b_{k_{i}}$ 的选择是完全自由的, 也就是说, 如果 $c_{1}, \dots, c_{r}$ 是任意的 $r$ 的标量, 那么 $W$ 中存在唯一的向量 $β$ 满足以 $c_{i}$ 作为第 $k_{i}$ 个坐标.

重要的点在于此: 给定向量 $α_{i}$ , 行规约是一种确定整数 $r, k_{1}, \dots, k_{r}$ 和标量 $R_{i, j}$ 的直接方法, 其给出了由 $α_{1}, \dots, α_{m}$ 张成的子空间的显式描述. 读者应该注意到定理11表明每个 $F^{n}$ 的子空间 $W$ 都具有这样一个显式描述. 我们也应该指出问题2的一些东西. 我们已经在第1.4节陈述了如何找出一个 $m \times m$ 的可逆矩阵 $P$ 满足 $R = P A$ . $P$ 的知识允许我们在可能的情况下找出满足 $β = x_{1} α_{1} + \dots + x_{m} α_{m}$ 的标量 $x_{1}, \dots, x_{m}$ . 这是因为 $R$ 的行向量由 $ρ_{i} = \sum_{j = 1}^{m} P_{i, j} α_{j}$ 给出, 于是若 $β$ 是 $α_{j}$ 的线性组合, 那么我们有 $\begin{array}{rcl} β & = & \sum_{i = 1}^{r} b_{k_{i}} ρ_{i} \\ = & \sum_{i = 1}^{r} b_{k_{i}} \sum_{j = 1}^{m} P_{i, j} α_{j} \\ = & \sum_{j = 1}^{m} \sum_{i = 1}^{r} b_{k_{i}} P_{i, j} α_{j} \end{array}$ 因此 $x_{j} = \sum_{i = 1}^{r} b_{k_{i}} P_{i, j}$ 是 $x_{j}$ 的选择之一 (可能存在许多解).

这样一个问题, 即 $β = (b_{1}, \dots, b_{n})$ 是否是 $α_{i}$ 的线性组合, 以及若是的情况下标量 $x_{i}$ 该是什么, 也可以通过问以下线性方程组 $\sum_{i = 1}^{m} A_{i, j} x_{i} = b_{j}, j = 1, \dots, n$ 是否有解, 以及解是什么来得出答案. 这个线性方程组的系数矩阵是 $n \times m$ 的矩阵 $B$ , 其列向量分别为 $α_{1}, \dots, α_{m}$ . 第1章中我们讨论了使用初等行变换来解这样一个线性方程组 $B X = Y$ . 让我们考虑一个例子, 其中我们采取两种观点来回答有关 $F^{n}$ 的子空间的问题.

例子21. 让我们提出以下问题. 令

W

是由向量

α_{1} = (1, 2, 2, 1), α_{2} = (0, 2, 0, 1), α_{3} = (- 2, 0, - 4, 3)

张成的

ℝ^{4}

的子空间.

证明 $α_{1}, α_{2}, α_{3}$ 是 $W$ 的一个基, 即这些向量是线性无关的.
令 $β = (b_{1}, b_{2}, b_{3}, b_{4})$ 是 $W$ 中的一个向量, 那么 $β$ 相对于有序基 ${α_{1}, α_{2}, α_{3}}$ 的坐标是什么?
令 $α_{1}^{'} = (1, 0, 2, 0), α_{2}^{'} = (0, 2, 0, 1), α_{3}^{'} = (0, 0, 0, 3)$ 证明 $α_{1}^{'}, α_{2}^{'}, α_{3}^{'}$ 构成了 $W$ 的一个基.
如果 $β$ 在 $W$ 中, 令 $X$ 是 $β$ 相对于 $α$ 基的坐标矩阵, $X^{'}$ 是相对于 $α^{'}$ 基的坐标矩阵. 找出 $3 \times 3$ 的矩阵 $P$ 满足对于每个这样的 $β$ 有 $X = P X^{'}$ .

为了用第一种方法回答这些问题, 我们构造以

α_{1}, α_{2}, α_{3}

为行向量的矩阵

A

, 并找出行等价于

A

的行简化阶梯矩阵

R

. 同时, 我们将相同的操作施行于恒等矩阵之上以获得满足

R = Q A

的可逆矩阵

Q

[\begin{matrix} 1 & 2 & 2 & 1 \\ 0 & 2 & 0 & 1 \\ - 2 & 0 & - 4 & 3 \end{matrix}] \to R = [\begin{matrix} 1 & 0 & 2 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}]

[\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] \to Q = \frac{1}{6} [\begin{matrix} 6 & - 6 & 0 \\ - 2 & 5 & - 1 \\ 4 & - 4 & 2 \end{matrix}]

显然 $R$ 的秩为 $3$ , 于是 $α_{1}, α_{2}, α_{3}$ 是线性无关的.
什么样的向量 $β = (b_{1}, b_{2}, b_{3}, b_{4})$ 在 $W$ 之中? 我们有 $W$ 的基 $ρ_{1}, ρ_{2}, ρ_{3}$ , 即 $R$ 的行向量. 读者只需一眼即可看出 $ρ_{1}, ρ_{2}, ρ_{3}$ 张成的空间由所有满足 $b_{3} = 2 b_{1}$ 的向量 $β$ 构成. 对于这样一个 $β$ 我们有 $\begin{array}{rcl} β & = & b_{1} ρ_{1} + b_{2} ρ_{2} + b_{3} ρ_{3} \\ = & [\begin{matrix} b_{1} & b_{2} & b_{4} \end{matrix}] R \\ = & [\begin{matrix} b_{1} & b_{2} & b_{4} \end{matrix}] Q A \\ = & x_{1} α_{1} + x_{2} α_{2} + x_{3} α_{3} \end{array}$ 其中 $x_{i} = [\begin{matrix} b_{1} & b_{2} & b_{4} \end{matrix}] Q_{i}$ : $\begin{array}{r} x_{1} & = & b_{1} - \frac{1}{3} b_{2} + \frac{2}{3} b_{4} \\ x_{2} & = & - b_{1} + \frac{5}{6} b_{2} - \frac{2}{3} b_{4} \\ x_{3} & = & - \frac{1}{6} b_{2} + \frac{1}{3} b_{4} \end{array}$
向量 $α_{1}^{'}, α_{2}^{'}, α_{3}^{'}$ 都具有 $(y_{1}, y_{2}, y_{3}, y_{4})$ 的形式, 其中 $y_{3} = 2 y_{1}$ , 因此它们都在 $W$ 中. 读者一眼就能看出它们是线性无关的.
矩阵 $P$ 以 $P_{j} = {[α_{j}^{'}]}_{𝔅}$ 为列, 其中 $𝔅 = {α_{1}, α_{2}, α_{3}}$ . 前面b里的结果已经告诉我们该如何找出 $α_{1}^{'}, α_{2}^{'}, α_{3}^{'}$ 的坐标矩阵了. 例如, 若 $β = α_{1}^{'}$ 我们有 $b_{1} = 1, b_{2} = 0, b_{3} = 2, b_{4} = 0$ , 然后 $\begin{array}{r} x_{1} & = & 1 - \frac{1}{3} (0) + \frac{2}{3} (0) & = & 1 \\ x_{2} & = & - 1 + \frac{5}{6} (0) - \frac{2}{3} (0) & = & - 1 \\ x_{3} & = & - \frac{1}{6} (0) + \frac{1}{3} (0) & = & 0 \end{array}$ 因此 $α_{1}^{'} = α_{1} - α_{2}$ . 类似地, 我们可以得到 $α_{2}^{'} = α_{2}$ 和 $α_{3}^{'} = 2 α_{1} - 2 α_{2} + α_{3}$ . 于是, $P = [\begin{matrix} 1 & 0 & 2 \\ - 1 & 1 & - 2 \\ 0 & 0 & 1 \end{matrix}]$

现在让我们看看如何用我们描述的第二种方法回答这些问题. 我们构造以

α_{1}, α_{2}, α_{3}

为列向量的

4 \times 3

矩阵

B

B = [\begin{matrix} 1 & 0 & - 2 \\ 2 & 2 & 0 \\ 2 & 0 & - 4 \\ 1 & 1 & 3 \end{matrix}]

我们问对于什么样的

y_{1}, y_{2}, y_{3}, y_{4}

方程组

B X = Y

有解.

[\begin{matrix} 1 & 0 & - 2 & y_{1} \\ 2 & 2 & 0 & y_{2} \\ 2 & 0 & - 4 & y_{3} \\ 1 & 1 & 3 & y_{4} \end{matrix}] \to [\begin{matrix} 1 & 0 & - 2 & y_{1} \\ 0 & 2 & 4 & y_{2} - 2 y_{1} \\ 0 & 0 & 0 & y_{3} - 2 y_{1} \\ 0 & 1 & 5 & y_{4} - y_{1} \end{matrix}] \to

[\begin{matrix} 1 & 0 & - 2 & y_{1} \\ 0 & 0 & - 6 & y_{2} - 2 y_{4} \\ 0 & 1 & 5 & y_{4} - y_{1} \\ 0 & 0 & 0 & y_{3} - 2 y_{1} \end{matrix}] \to [\begin{matrix} 1 & 0 & 0 & y_{1} - \frac{1}{3} y_{2} + \frac{2}{3} y_{4} \\ 0 & 0 & 1 & \frac{1}{6} (2 y_{4} - y_{2}) \\ 0 & 1 & 0 & - y_{1} + \frac{5}{6} y_{2} - \frac{2}{3} y_{4} \\ 0 & 0 & 0 & y_{3} - 2 y_{1} \end{matrix}]

因此方程组

B X = Y

有解的条件是

y_{3} = 2 y_{1}

. 于是,

β = (b_{1}, b_{2}, b_{3}, b_{4})

在

W

中当且仅当

b_{3} = 2 b_{1}

. 如果

β

在

W

中, 那么有序基

{α_{1}, α_{2}, α_{3}}

下的坐标

(x_{1}, x_{2}, x_{3})

可以从上面最后一个矩阵读出来. 其实我们就是又一次得到了第一种方法做出来的结果. 问题c和d可以像之前一样回答.

例子22. 我们考虑

5 \times 5

矩阵

A = [\begin{matrix} 1 & 2 & 0 & 3 & 0 \\ 1 & 2 & - 1 & - 1 & 0 \\ 0 & 0 & 1 & 4 & 0 \\ 2 & 4 & 1 & 10 & 1 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}]

以及以下和

A

有关的问题.

找出一个可逆矩阵 $P$ 满足 $P A$ 是行简化阶梯矩阵 $R$ .
找出 $A$ 的行空间 $W$ 的一个基.
说明什么样的向量 $(b_{1}, b_{2}, b_{3}, b_{4}, b_{5})$ 在 $W$ 中.
找出 $W$ 中的每个向量 $(b_{1}, b_{2}, b_{3}, b_{4}, b_{5})$ 在b选择的有序基下的坐标矩阵.
将 $W$ 中的每个向量 $(b_{1}, b_{2}, b_{3}, b_{4}, b_{5})$ 写成 $A$ 的行的线性组合的形式.
给出所有满足 $A X = 0$ 的 $5 \times 1$ 的列矩阵 $X$ 构成的向量空间 $V$ 的显式描述.
找出 $V$ 的一个基.
对于什么样的 $5 \times 1$ 的列矩阵 $Y$ , 方程组 $A X = Y$ 有解?

为了解决这些问题, 我们构造方程组

A X = Y

的增广矩阵

A^{'}

, 并对其施行一系列合适的行变换.

[\begin{matrix} 1 & 2 & 0 & 3 & 0 & y_{1} \\ 1 & 2 & - 1 & - 1 & 0 & y_{2} \\ 0 & 0 & 1 & 4 & 0 & y_{3} \\ 2 & 4 & 1 & 10 & 1 & y_{4} \\ 0 & 0 & 0 & 0 & 1 & y_{5} \end{matrix}] \to [\begin{matrix} 1 & 2 & 0 & 3 & 0 & y_{1} \\ 0 & 0 & - 1 & - 4 & 0 & - y_{1} + y_{2} \\ 0 & 0 & 1 & 4 & 0 & y_{3} \\ 0 & 0 & 1 & 4 & 1 & - 2 y_{1} + y_{4} \\ 0 & 0 & 0 & 0 & 1 & y_{5} \end{matrix}] \to

[\begin{matrix} 1 & 2 & 0 & 3 & 0 & y_{1} \\ 0 & 0 & 1 & 4 & 0 & y_{1} - y_{2} \\ 0 & 0 & 0 & 0 & 0 & - y_{1} + y_{2} + y_{3} \\ 0 & 0 & 0 & 0 & 1 & - 3 y_{1} + y_{2} + y_{4} \\ 0 & 0 & 0 & 0 & 1 & y_{5} \end{matrix}] \to [\begin{matrix} 1 & 2 & 0 & 3 & 0 & y_{1} \\ 0 & 0 & 1 & 4 & 0 & y_{1} - y_{2} \\ 0 & 0 & 0 & 0 & 1 & y_{5} \\ 0 & 0 & 0 & 0 & 0 & - y_{1} + y_{2} + y_{3} \\ 0 & 0 & 0 & 0 & 0 & - 3 y_{1} + y_{2} + y_{4} - y_{5} \end{matrix}]

如果对于所有的 $Y$ 有 $P Y = [\begin{matrix} y_{1} \\ y_{1} - y_{2} \\ y_{5} \\ - y_{1} + y_{2} + y_{3} \\ - 3 y_{1} + y_{2} + y_{4} - y_{5} \end{matrix}]$ 那么 $P = [\begin{matrix} 1 & 0 & 0 & 0 & 0 \\ 1 & - 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ - 1 & 1 & 1 & 0 & 0 \\ - 3 & 1 & 0 & 1 & - 1 \end{matrix}]$ 因此 $P A$ 是行简化阶梯矩阵 $R = [\begin{matrix} 1 & 2 & 0 & 3 & 0 \\ 0 & 0 & 1 & 4 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{matrix}]$ 必须要强调的是矩阵 $P$ 不是唯一的, 实际上存在很多种可能的矩阵 $P$ (来源于规约的不同顺序) 满足 $P A = R$ .
我们可以提取 $R$ 非零行 $\begin{matrix} ρ_{1} & = & (1, 2, 0, 3, 0) \\ ρ_{2} & = & (0, 0, 1, 4, 0) \\ ρ_{3} & = & (0, 0, 0, 0, 1) \end{matrix}$ 作为 $W$ 的一个基.
行空间 $W$ 由所有具有形式 $\begin{array}{rcl} β & = & c_{1} ρ_{1} + c_{2} ρ_{2} + c_{3} ρ_{3} \\ = & (c_{1}, 2 c_{1}, c_{2}, 3 c_{1} + 4 c_{2}, c_{3}) \end{array}$ 的向量构成, 其中 $c_{1}, c_{2}, c_{3}$ 是任意的标量. 因此, $(b_{1}, b_{2}, b_{3}, b_{4}, b_{5})$ 在 $W$ 中当且仅当 $(b_{1}, b_{2}, b_{3}, b_{4}, b_{5}) = b_{1} ρ_{1} + b_{3} ρ_{2} + b_{5} ρ_{3}$ 其为真当且仅当 $b_{2} = 2 b_{1}, b_{4} = 3 b_{1} + 4 b_{3}$ 这个线性方程组是显式描述的实例, 而通过它我们可以一眼看出一个给定向量是否在 $W$ 之中. 因此, $(- 5, - 10, 1, - 11, 20)$ 是 $A$ 的行的线性组合, 而 $(1, 2, 3, 4, 5)$ 不是.
向量 $(b_{1}, 2 b_{1}, b_{3}, 3 b_{1} + 4 b_{3}, b_{5})$ 在有序基 ${ρ_{1}, ρ_{2}, ρ_{3}}$ 下的坐标矩阵显然是 $[\begin{matrix} b_{1} \\ b_{3} \\ b_{5} \end{matrix}] .$
许多种方法都可以将 $W$ 的向量写成 $A$ 的行的线性组合, 或许最简单的一种是遵循例子21之前的第一个过程的步骤: $\begin{array}{rcl} β & = & (b_{1}, 2 b_{1}, b_{3}, 3 b_{1} + 4 b_{3}, b_{5}) \\ = & [\begin{matrix} b_{1} & b_{3} & b_{5} & 0 & 0 \end{matrix}] \cdot R \\ = & [\begin{matrix} b_{1} & b_{3} & b_{5} & 0 & 0 \end{matrix}] \cdot P A \\ = & [\begin{matrix} b_{1} & b_{3} & b_{5} & 0 & 0 \end{matrix}] [\begin{matrix} 1 & 0 & 0 & 0 & 0 \\ 1 & - 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ - 1 & 1 & 1 & 0 & 0 \\ - 3 & 1 & 0 & 1 & - 1 \end{matrix}] \cdot A \\ = & [\begin{matrix} b_{1} + b_{3} & - b_{3} & 0 & 0 & b_{5} \end{matrix}] \cdot A \end{array}$ 特别地, 如果 $β = (- 5, - 10, 1, - 11, 20)$ 我们有 $β = [\begin{matrix} - 4 & - 1 & 0 & 0 & 20 \end{matrix}] [\begin{matrix} 1 & 2 & 0 & 3 & 0 \\ 1 & 2 & - 1 & - 1 & 0 \\ 0 & 0 & 1 & 4 & 0 \\ 2 & 4 & 1 & 10 & 1 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}]$
方程组 $R X = 0$ 中的方程是 $\begin{array}{r} x_{1} + 2 x_{2} + 3 x_{4} & = & 0 \\ x_{3} + 4 x_{4} & = & 0 \\ x_{5} & = & 0 \end{array}$ 因此, $V$ 由所有具有形式 $[\begin{matrix} - 2 x_{2} - 3 x_{4} \\ x_{2} \\ - 4 x_{4} \\ x_{4} \\ 0 \end{matrix}]$ 的列向量构成, 其中 $x_{2}$ 和 $x_{4}$ 是任意的.
列向量 $[\begin{matrix} - 2 \\ 1 \\ 0 \\ 0 \\ 0 \end{matrix}], [\begin{matrix} - 3 \\ 0 \\ - 4 \\ 1 \\ 0 \end{matrix}]$ 构成了 $V$ 的一个基, 这是例子15所描述的基的一个例子.
方程组 $A X = Y$ 有解当且仅当 $\begin{array}{r} - y_{1} + y_{2} + y_{3} & = & 0 \\ - 3 y_{1} + y_{2} + y_{4} - y_{5} & = & 0 \end{array}$

练习1. 令

s < n

而

A

是一个域

F

上的

s \times n

矩阵, 使用定理4 (但不是其证明) 证明

F^{n \times 1}

中存在非零的

X

满足

A X = 0

练习2. 令

α_{1} = (1, 1, - 2, 1), α_{2} = (3, 0, 4, - 1), α_{3} = (- 1, 2, 5, 2)

令

α = (4, - 5, 9, - 7), β = (3, 1, - 4, 4), γ = (- 1, 1, 0, 1)

$α, β, γ$ 中哪些在 $α_{i}$ 张成的 $ℝ^{4}$ 的子空间之中?
$α, β, γ$ 中哪些在 $α_{i}$ 张成的 $ℂ^{4}$ 的子空间之中?
这是否暗示了一个定理?

练习3. 考虑以下

ℝ^{4}

中的向量

α_{1} = (- 1, 0, 1, 2), α_{2} = (3, 4, - 2, 5), α_{3} = (1, 4, 0, 9)

找出一个齐次线性方程组, 其解空间恰是这些向量张成的子空间.

练习4. 在

ℂ^{3}

中, 令

α_{1} = (1, 0, - i), α_{2} = (1 + i, 1 - i, 1), α_{3} = (i, i, i)

证明这些向量构成了

ℂ^{3}

的一个基. 向量

(a, b, c)

在这个基下的坐标是什么?

练习5. 给出

ℝ^{5}

中的向量

β = (b_{1}, b_{2}, b_{3}, b_{4}, b_{5})

的显式描述, 其为向量

α_{1} = (1, 0, 2, 1, - 1), α_{2} = (- 1, 2, - 4, 2, 0), α_{3} = (2, - 1, 5, 2, 1), α_{4} = (2, 1, 3, 5, 2)

的线性组合.

练习6. 令

V

是由矩阵

A = [\begin{matrix} 3 & 21 & 0 & 9 & 0 \\ 1 & 7 & - 1 & - 2 & - 1 \\ 2 & 14 & 0 & 6 & 1 \\ 6 & 42 & - 1 & 13 & 0 \end{matrix}]

的行张成的实向量空间.

找出 $A$ 的一个基.
什么样的向量 $(x_{1}, x_{2}, x_{3}, x_{4}, x_{5})$ 是 $V$ 的元素.
如果 $(x_{1}, x_{2}, x_{3}, x_{4}, x_{5})$ 在 $V$ 中, 那么它在a选择的基下的坐标是什么?

练习7. 令

A

是域

F

上的

m \times n

矩阵, 考虑线性方程组

A X = Y

. 证明该线性方程组有解当且仅当

A

的行秩等于其增广矩阵的行秩.

第3章线性变换

第3.1节线性变换

我们将引入线性变换, 本书的剩余部分我们将研究的对象. 读者或许会发现阅读 (或重读) 附录里关于函数的部分是有用的, 因为我们将自由地使用其中的术语.

定义. 令

V

和

W

是域

F

上的向量空间. 一个从

V

到

W

的线性变换是一个从

V

到

W

的函数

T

满足

T (c α + β) = c (T α) + T β

对于所有

V

中

α

和

β

以及所有

F

中标量

c

成立.

例子1. 如果

V

是任意的向量空间, 恒等变换

I

, 由

I α = α

定义, 是一个从

V

到

V

的线性变换. 零变换, 由

0 α = 0

定义, 也是一个从

V

到

V

的线性变换.

例子2. 令

F

是一个域,

V

是从

F

到

F

的多项式函数

f

构成的空间,

f

由

f (x) = c_{0} + c_{1} x + \dots + c_{k} x^{k}

给定. 令

(D f) (x) = c_{1} + 2 c_{1} x + \dots + k c_{k} x^{k - 1} .

那么

D

是一个从

V

到

V

的线性变换, 即微分变换.

例子3. 令

A

是域

F

上一个固定的

m \times n

矩阵, 由

T (X) = A X

定义的函数

T

是一个从

F^{n \times 1}

到

F^{m \times 1}

的线性变换. 由

U (α) = α A

定义的函数

U

是一个从

F^{m}

到

F^{n}

的线性变换.

例子4. 令

P

是域

F

上一个固定的

m \times m

矩阵, 令

Q

是域

F

上一个固定的

n \times n

矩阵. 定义一个从

F^{m \times n}

到自身的函数

T

T (A) = P A Q

. 那么

T

是一个线性变换, 因为

\begin{array}{rcl} T (c A + B) & = & P (c A + B) Q \\ = & (c P A + P B) Q \\ = & c P A Q + P B Q \\ = & c T (A) + T (B) \end{array}

例子5. 令

V

是所有从

ℝ

到

ℝ

的连续函数构成的空间, 由

(T f) (x) = \int_{0}^{x} f (t) d t

定义

T

, 那么

T

是一个从

V

到

V

的线性变换. 函数

T f

不仅是连续的, 还拥有连续的一阶导数. 积分的线性性质是其根本性质之一.

读者验证例子1, 2, 3, 5是线性变换是没有难度的. 当我们了解更多关于线性变换的东西时, 例子也会随之得到扩展.

注意到以下事实是重要的. 如果 $T$ 是一个从 $V$ 到 $W$ 的线性变换, 那么 $T (0) = 0$ . 人们可以从定义中看出来, 因为 $T (0) = T (0 + 0) = T (0) + T (0) .$ 这点对于线性代数的初学者而言有时令人迷惑, 因为他可能已经接触过术语"线性函数"一个稍微有点不同的用法. 扼要的注记应该能够扫清这种迷惑. 设 $V$ 是向量空间 $ℝ^{1}$ , 那么一个从 $V$ 到 $V$ 的线性变换是一种特定的实数轴 $ℝ$ 上的实值函数. 在一个微积分课程中, 人们可能会将图像是直线的函数称为线性的. 一个从 $ℝ^{1}$ 到 $ℝ^{1}$ 的线性变换, 根据我们的定义, 将会是一个从 $ℝ$ 到 $ℝ$ 的函数, 其图像是经过原点的直线.

不仅是 $T (0) = 0$ , 让我们指出一般的线性变换 $T$ 的另一个性质. 这样的线性变换"保持"线性组合, 也就是说, 如果 $α_{1}, \dots, α_{n}$ 是 $V$ 中的向量, $c_{1}, \dots, c_{n}$ 是标量, 那么 $T (c_{1} α_{1} + \dots + c_{n} α_{n}) = c_{1} (T α_{1}) + \dots + c_{n} (T α_{n})$ 这可由定义直接推得, 例如 $\begin{array}{rcl} T (c_{1} α_{1} + c_{2} α_{2}) & = & c_{1} (T α_{1}) + T (c_{2} α_{2}) \\ = & c_{1} (T α_{1}) + c_{2} (T α_{2}) \end{array}$

定理1. 令

V

是一个域

F

上的有限维向量空间, 令

{α_{1}, \dots, α_{n}}

是

V

的一个有序基. 令

W

也是域

F

上的一个向量空间, 并且令

β_{1}, \dots, β_{n}

是

W

中任意的向量. 那么, 恰存在唯一的从

V

到

W

的线性映射

T

满足

T α_{j} = β_{j}, j = 1, \dots, n

证明. 为了证明存在某个线性变换

T

满足

T α_{j} = β_{j}

我们按照以下方式推进. 给定

V

中的

α

, 存在唯一的

n

元组

(x_{1}, \dots, x_{n})

满足

α = x_{1} α_{1} + \dots + x_{n} α_{n} .

对于这个向量

α

我们定义

T α = x_{1} β_{1} + \dots + x_{n} β_{n} .

那么

T

是一个将每个

V

中的向量

α

与一个

W

中的向量

T α

联系起来的良定义的规则. 从此定义中显然可以看出对于每个

j

有

T α_{j} = β_{j}

. 为了说明

T

是线性的, 令

β = y_{1} α_{1} + \dots + y_{n} α_{n}

是

V

中的向量, 令

c

是任意的标量. 现在

c α + β = (c x_{1} + y_{1}) α_{1} + \dots + (c x_{n} + y_{n}) α_{n}

于是根据定义

T (c α + β) = (c x_{1} + y_{1}) β_{1} + \dots + (c x_{n} + y_{n}) β_{n}

另一方面

\begin{array}{rcl} c (T α) + T β & = & c \sum_{i = 1}^{n} x_{i} β_{i} + \sum_{i = 1}^{n} y_{i} β_{i} \\ = & \sum_{i = 1}^{n} (c x_{i} + y_{i}) β_{i} \end{array}

因此

T (c α + β) = c (T α) + T β .

如果

U

也是一个满足

U α_{j} = β_{j}, j = 1, \dots, n

的从

V

到

W

的线性变换, 那么对于向量

α = \sum_{i = 1}^{n} x_{i} α_{i}

我们有

\begin{array}{rcl} U α & = & U (\sum_{i = 1}^{n} x_{i} α_{i}) \\ = & \sum_{i = 1}^{n} x_{i} (U α_{i}) \\ = & \sum_{i = 1}^{n} x_{i} β_{i} \end{array}

因此

U

恰是我们之前所定义的规则

T

. 这表明满足

T α_{j} = β_{j}

的线性变换

T

是唯一的.

◻

定理1是相当初等的. 然而, 它是如此基本以至于我们形式化地陈述了该定理. 函数的概念是非常一般的. 如果 $V$ 和 $W$ 是(非零的)向量空间, 那么从 $V$ 到 $W$ 的函数存在相当多样的可能性. 定理1强调了线性函数是极其特殊的.

例子6. 向量

α_{1} = (1, 2), α_{2} = (3, 4)

是线性无关的, 因此构成了

ℝ^{2}

的一个基. 根据定理1, 存在唯一的一个从

ℝ^{2}

到

ℝ^{3}

的线性变换满足

T α_{1} = (3, 2, 1), T α_{2} = (6, 5, 4)

如果是这样的话, 我们必须能够找出

T (ε_{1})

. 我们先找到满足

ε_{1} = c_{1} α_{1} + c_{2} α_{2}

的标量

c_{1}

和

c_{2}

, 然后我们就知道

T ε_{1} = c_{1} T α_{1} + c_{2} T α_{2}

. 如果

(1, 0) = c_{1} (1, 2) + c_{2} (3, 4)

, 那么

c_{1} = - 2

且

c_{2} = 1

, 因此

\begin{array}{rcl} T (1, 0) & = & - 2 (3, 2, 1) + (6, 5, 4) \\ = & (0, 1, 2) \end{array}

例子7. 令

T

是一个从

m

元组空间

F^{m}

到

n

元组空间

F^{n}

的线性变换. 定理1告诉我们

T

由向量的序列

β_{1}, \dots, β_{m}

唯一地确定, 其中

β_{i} = T ε_{i}, i = 1, \dots, m .

简而言之,

T

由其在标准基向量下的像唯一地确定, 而这个确定就是

α = (x_{1}, \dots, x_{m}), T α = x_{1} β_{1} + \dots + x_{m} β_{m} .

如果

B

是一个以

β_{1}, \dots, β_{m}

为行向量的

m \times n

矩阵, 那么上面就是在说

T α = α B .

换言之, 如果

β_{i} = (B_{i, 1}, \dots, B_{i, n})

, 那么

T (x_{1}, \dots, x_{m}) = [\begin{matrix} x_{1} & \dots & x_{m} \end{matrix}] [\begin{matrix} B_{1, 1} & \dots & B_{1, n} \\ ⋮ & ⋮ \\ B_{m, 1} & \dots & B_{m, n} \end{matrix}] .

这是一种对于线性变换相当显式的刻画. 在第3.4节我们将严肃地研究线性变换和矩阵之间的关系. 之后我们并不会追求

T α = α B

这种特定的描述, 因为它将矩阵

B

置于向量

α

的右边, 而这可能会引起一些困惑. 这个例子的要点在于展现了我们对于所有从

F^{m}

到

F^{n}

的线性变换可以给出显式且相当简单的描述.

如果 $T$ 是一个从 $V$ 到 $W$ 的线性变换, 那么 $T$ 的像不仅是 $W$ 的子集, 而且是 $W$ 的子空间. 令 $R_{T}$ 是 $T$ 的像, 即满足存在某个 $V$ 中 $α$ 使得 $β = T α$ 的所有 $W$ 中向量 $β$ 构成的集合. 令 $β_{1}$ 和 $β_{2}$ 是 $R_{T}$ 的元素, 令 $c$ 是一个标量. 存在 $V$ 中向量 $α_{1}$ 和 $α_{2}$ 满足 $T α_{1} = β_{1}$ 和 $T α_{2} = β_{2}$ . 既然 $T$ 是线性的, 那么 $\begin{array}{rcl} T (c α_{1} + α_{2}) & = & c T α_{1} + T α_{2} \\ = & c β_{1} + β_{2} \end{array}$ 这表明 $c β_{1} + β_{2}$ 也在 $R_{T}$ 之中.

另一个与线性变换 $T$ 相关的有趣子空间是由所有满足 $T α = 0$ 的 $V$ 中的向量 $α$ 构成的集合 $N$ . 它是 $V$ 的一个子空间, 因为

$T (0) = 0$ , 于是 $N$ 非空;
如果 $T α_{1} = T α_{2} = 0$ , 那么 $\begin{array}{rcl} T (c α_{1} + α_{2}) & = & c T α_{1} + T α_{2} \\ = & c 0 + 0 \\ = & 0 \end{array}$ 于是 $c β_{1} + β_{2}$ 也在 $N$ 之中.

定义. 令

V

和

W

是域

F

上的向量空间, 令

T

是一个从

V

到

W

的线性变换.

T

的零空间是所有满足

T α = 0

的

V

中向量

α

构成的集合. 如果

V

是有限维的, 那么称

T

的像的维数为

T

的秩,

T

的零空间的维数为

T

的零化度.

以下是线性代数中最重要的结果之一.

定理2. 令

V

和

W

是域

F

上的向量空间, 令

T

是一个从

V

到

W

的线性变换, 设

V

是有限维的, 那么

rank (T) + nullity (T) = \dim V .

证明. 令

{α_{1}, \dots, α_{k}}

是

N

的一个基,

N

即

T

的零空间. 存在

V

中向量

α_{k + 1}, \dots, α_{n}

满足

{α_{1}, \dots, α_{n}}

是

V

的一个基. 我们将证明

{T α_{k + 1}, \dots, T α_{n}}

是

T

的像的一个基. 向量

T α_{1}, \dots, T α_{n}

当然能够张成

T

的像, 并且既然对于

j \leq k

有

T α_{j} = 0

, 我们可以看出

T α_{k + 1}, \dots, T α_{n}

能够张成像. 为了看出这些像是线性无关的, 设我们有标量

c_{i}

满足

\sum_{i = k + 1}^{n} c_{i} (T α_{i}) = 0 .

这说明

T (\sum_{i = k + 1}^{n} c_{i} α_{i}) = 0

并且可知

α = \sum_{i = k + 1}^{n} c_{i} α_{i}

在

T

的零空间中. 既然

α_{1}, \dots, α_{k}

构成了

N

的一个基, 那么必须存在标量

b_{1}, \dots, b_{k}

满足

α = \sum_{i = 1}^{k} b_{i} α_{i} .

因此

\sum_{i = 1}^{k} b_{i} α_{i} - \sum_{j = k + 1}^{n} c_{j} α_{j} = 0

并且既然

α_{1}, \dots, α_{n}

是线性无关的, 我们必须有

b_{1} = \dots = b_{k} = c_{k + 1} = \dots = c_{n} = 0 .

如果

r

是

T

的秩, 那么

T α_{k + 1}, \dots, T α_{n}

构成了

T

的像的基的事实告诉我们

r = n - k

. 既然

k

是

T

的零化度而

n

是

V

的维数, 证明结束了.

◻

定理3. 如果

A

是域

F

上的一个

m \times n

矩阵, 那么

row-rank (A) = column-rank (A) .

证明. 令

T

是由

T (X) = A X

定义的从

F^{n \times 1}

到

F^{m \times 1}

的线性变换.

T

的零空间是线性方程组

A X = 0

的解空间, 即由所有满足

A X = 0

的列矩阵

X

构成的集合.

T

的像是由所有满足线性方程组

A X = Y

有解的

m \times 1

的列矩阵

Y

构成的集合. 如果

A_{1}, \dots, A_{n}

是

A

的列, 那么

A X = x_{1} A_{1} + \dots + x_{n} A_{n}

于是

T

的像是由

A

的列张成的子空间. 换句话说,

T

的像就是

A

的列空间, 因此

rank (T) = column-rank (A) .

定理2告诉我们如果

S

是线性方程组

A X = 0

的解空间, 那么

\dim S + column-rank (A) = n .

我们现在引用第2章的例子15. 我们的意图在于, 如果

r

是

A

的行空间的维数, 那么解空间

S

拥有一个由

n - r

个向量构成的基:

\dim S = n - row-rank (A) .

现在显然有

row-rank (A) = column-rank (A) .

◻

刚刚我们给出的对于定理3的证明依赖于和线性方程组有关的显式计算. 实际上存在一个不依赖于这样的计算的概念性证明. 我们将在第3.7节给出这个证明.

练习1. 以下哪些函数

T

是从

ℝ^{2}

到

ℝ^{2}

的线性变换呢?

$T (x_{1}, x_{2}) = (1 + x_{1}, x_{2})$ ;
$T (x_{1}, x_{2}) = (x_{2}, x_{1})$ ;
$T (x_{1}, x_{2}) = (x_{1}^{2}, x_{2})$ ;
$T (x_{1}, x_{2}) = (\sin x_{1}, x_{2})$ ;
$T (x_{1}, x_{2}) = (x_{1} - x_{2}, 0)$ .

练习2. 找出有限维向量空间

V

上的零变换和恒等变换的像, 秩, 零空间, 零化度.

练习3. 描述例子2的微分变换和例子5的积分变换的像和零空间.

练习4. 存在从

ℝ^{3}

到

ℝ^{2}

的线性变换满足

T (1, - 1, 1) = (1, 0)

且

T (1, 1, 1) = (0, 1)

吗?

练习5. 如果

α_{1} = (1, - 1), β_{1} = (1, 0), α_{2} = (2, - 1), β_{2} = (0, 1), α_{3} = (- 3, 2), β_{3} = (1, 1)

存在从

ℝ^{2}

到

ℝ^{2}

的线性变换

T

满足

T α_{i} = β_{i}

对于

i = 1, 2, 3

成立吗?

练习6. 显式描述 (如练习1和2) 满足

T ε_{1} = (a, b), T ε_{2} = (c, d)

的从

F^{2}

到

F^{2}

的线性变换

T

练习7. 令

F

是一个复数域的子域, 令

T

是由

T (x_{1}, x_{2}, x_{3}) = (x_{1} - x_{2} + 2 x_{3}, 2 x_{1} + x_{2}, - x_{1} - 2 x_{2} + 2 x_{3})

定义的从

F^{3}

到

F^{3}

的函数.

验证 $T$ 是一个线性变换.
如果 $(a, b, c)$ 是 $F^{3}$ 中向量, 那么 $a, b, c$ 满足什么条件时向量在 $T$ 的像中? $T$ 的秩是多少?
$a, b, c$ 满足什么条件时 $(a, b, c)$ 在 $T$ 的零空间中? $T$ 的零化度是多少?

练习8. 显式描述一个从

ℝ^{3}

到

ℝ^{3}

的线性变换, 其像是由

(1, 0, - 1)

和

(1, 2, 2)

张成的子空间.

练习9. 令

V

是域

F

上的所有

n \times n

矩阵构成的向量空间, 令

B

是一个固定的

n \times n

矩阵. 如果

T (A) = A B - B A

验证

T

是一个从

V

到

V

的线性变换.

练习10. 令

V

是所有复数的集合, 其被当作实数域上的向量空间 (在通常的运算下). 找出一个从

V

到

V

的线性变换, 但不是

ℂ^{1}

上的线性变换, 即不是复线性的.

练习11. 令

V

是

F

上的

n \times 1

矩阵的空间, 令

W

是

F

上的

m \times 1

矩阵的空间. 令

A

是

F

上的一个固定的

m \times n

矩阵, 令

T

是由

T (X) = A X

定义的从

V

到

W

的线性变换. 证明

T

是零变换当且仅当

A

是零矩阵.

练习12. 令

V

是域

F

上的一个

n

维向量空间, 令

T

是一个从

V

到

V

的线性变换, 并且

T

的像和零空间是相等的. 证明

n

是偶数. (你能给出这样的线性变换

T

的例子吗?)

练习13. 令

V

是一个向量空间, 令

T

是一个从

V

到

V

的线性变换. 证明以下两个关于

T

的陈述是等价的.

$T$ 的像与零空间之交是 $V$ 的零子空间.
如果 $T (T α) = 0$ , 那么 $T α = 0$ .

第3.2节线性变换的代数

在研究从 $V$ 到 $W$ 的线性变换时, 这些变换的集合继承了自然的向量空间结构具有根本的重要性. 从空间 $V$ 到自身的线性变换的集合甚至有着更多的代数结构, 因为通常的函数复合提供了这样的变换的"乘法". 我们将在本节探索这些想法.

定理4. 令

V

和

W

是域

F

上的向量空间. 令

T

和

U

是从

V

到

W

的线性变换. 由

(T + U) (α) = T α + U α

定义的函数

(T + U)

是一个从

V

到

W

的线性变换. 如果

c

是

F

任意的元素, 那么由

(c T) (α) = c (T α)

定义的函数

(c T)

是一个从

V

到

W

的线性变换. 所有从

V

到

W

的线性变换的集合, 与其上定义的加法和标量乘法一起, 构成了一个域

F

上的向量空间.

证明. 设

T

和

U

是从

V

到

W

的线性变换, 而

(T + U)

定义如上, 那么

\begin{array}{rcl} (T + U) (c α + β) & = & T (c α + β) + U (c α + β) \\ = & c (T α) + T β + c (U α) + U β \\ = & c (T α + U α) + (T β + U β) \\ = & c (T + U) (α) + (T + U) (β) \end{array}

这表明

(T + U)

是一个线性变换. 类似地,

\begin{array}{rcl} (c T) (d α + β) & = & c [T (d α + β)] \\ = & c [d (T α) + T β] \\ = & c d (T α) + c (T β) \\ = & d [c (T α)] + c (T β) \\ = & d [(c T) α] + (c T) β \end{array}

这表明

(c T)

是一个线性变换.
为了验证从

V

到

W

的线性变换的集合 (以及这些运算) 是一个向量空间, 我们还必须直接检验每个向量加法和数乘上的条件是否满足. 我们将这些工作留给读者, 并满足于以下的评论: 这个空间里的零向量是零变换, 其将每个

V

的向量送至

W

的零向量; 这两个运算的每个性质都对应于空间

W

的运算的相应性质.

◻

或许我们应该提及另一种看待这个定理的方式. 如果我们如果上面那样定义和与标量积, 那么所有从 $V$ 到 $W$ 的函数构成了一个域 $F$ 上的向量空间. 这与 $V$ 是向量空间无关, $V$ 是一个非空集合足矣. 当 $V$ 是向量空间的时候我们可以定义从 $V$ 到 $W$ 的线性变换, 那么定理4告诉我们这些变换构成了从 $V$ 到 $W$ 的所有函数构成的空间的一个子空间.

我们将从 $V$ 到 $W$ 的线性变换的空间记作 $L (V, W)$ . 我们提醒读者只有当 $V$ 和 $W$ 是定义于同一个域上的向量空间时 $L (V, W)$ 才有定义.

定理5. 令

V

是域

F

上的

n

维向量空间而

W

是域

F

上的

m

维向量空间, 那么

L (V, W)

是有限维的, 并且维数是

m n

证明. 令

𝔅 = {α_{1}, \dots, α_{n}} 和 𝔅^{'} = {β_{1}, \dots, β_{m}}

分别是

V

和

W

的有序基. 对于每个满足

1 \leq p \leq m

和

1 \leq q \leq n

的整数序对

(p, q)

, 我们定义从

V

到

W

的线性变换

E^{p, q}

如下.

\begin{array}{rcl} E^{p, q} (α_{i}) & = & {\begin{matrix} 0 & , 如果 i \neq q \\ β_{p} & , 如果 i = q \end{matrix} \\ = & δ_{i, q} β_{p} \end{array}

根据定理1, 存在唯一的从

V

到

W

的线性变换满足这些条件. 我们要证明的是这

m n

个线性变换构成了

L (V, W)

的一个基.
令

T

是从

V

到

W

的线性变换. 对于每个

j, 1 \leq j \leq n

, 令

A_{1, j}, \dots, A_{m, j}

是向量

T α_{j}

相对于有序基

𝔅^{'}

的坐标, 即

T α_{j} = \sum_{p = 1}^{m} A_{p, j} β_{p} .

我们想要表明

T = \sum_{p = 1}^{m} \sum_{q = 1}^{n} A_{p, q} E^{p, q} .

令

U

是上面这个式子右侧的线性变换, 那么对于每个

j

\begin{array}{rcl} U α_{j} & = & \sum_{p = 1}^{m} \sum_{q = 1}^{n} A_{p, q} E^{p, q} (α_{j}) \\ = & \sum_{p = 1}^{m} \sum_{q = 1}^{n} A_{p, q} δ_{j, q} β_{p} \\ = & \sum_{p = 1}^{m} A_{p, j} β_{p} \\ = & T α_{j} \end{array}

因此

U = T

. 目前我们已经证明了

E^{p, q}

可以张成

L (V, W)

, 我们必须还要证明它们是线性无关的, 然而从我们上面写下的东西来看这是显然的, 因为如果变换

U = \sum_{p = 1}^{m} \sum_{q = 1}^{n} A_{p, q} E^{p, q}

是零变换, 那么对于每个

j

有

U α_{j} = 0

, 于是

\sum_{p = 1}^{m} A_{p, j} β_{p} = 0

而

β_{p}

的线性无关性质又可推出对于每个

p

和

j

我们有

A_{p, j} = 0

◻

定理6. 令

V, W, Z

是域

F

上的向量空间, 令

T

是从

V

到

W

的线性变换, 令

U

是从

W

到

Z

的线性变换, 那么由

(U T) (α) = U (T (α))

定义的复合函数

U T

是一个从

V

到

Z

的线性变换.

证明.

\begin{array}{rcl} U T (c α + β) & = & U [T (c α + β)] \\ = & U (c T α + T β) \\ = & c [U (T α)] + U (T β) \\ = & c (U T) (α) + (U T) (β) \end{array}

◻

接下来, 我们将主要关注从一个向量空间到自身的线性变换. 鉴于我们经常得说" $T$ 是一个从 $V$ 到 $V$ 的线性变换", 以后我们将说" $T$ 是 $V$ 上的一个线性算子".

定义. 如果

V

是域

F

上的一个向量空间, 那么一个

V

上的线性算子就是一个从

V

到

V

的线性变换.

在定理6的情况下, 当 $V = W = Z$ 时, 以至于 $U$ 和 $T$ 都是空间 $V$ 上的线性算子, 那么其复合 $U T$ 也是一个 $V$ 上的线性算子. 因此, 空间 $L (V, V)$ 有一个乘法定义于其上, 即复合. 当然算子 $T U$ 也是有定义的, 不过读者应该注意一般 $U T \neq T U$ , 即 $U T - T U \neq 0$ . 我们还应该特别注意如果 $T$ 是一个 $V$ 上的线性算子, 那么我们可以将 $T$ 和 $T$ 复合. 我们将使用记号 $T^{2} = T T$ , 而一般地, 对于 $n = 1, 2, 3, \dots$ , $T^{n} = T \dots T$ ( $n$ 个 $T$ 相乘). 我们定义 $T^{0} = I$ , 如果 $T \neq 0$ . [译注: $T = 0$ 时定义 $T^{0} = I$ 也是合理且必要的.]

引理. 令

V

是域

F

上的向量空间, 令

U, T_{1}, T_{2}

是

V

上的线性算子, 令

c

是

F

的元素.

$I U = U I = U$ ;
$U (T_{1} + T_{2}) = U T_{1} + U T_{2}$ ; $(T_{1} + T_{2}) U = T_{1} U + T_{2} U$ ;
$c (U T_{1}) = (c U) T_{1} = U (c T_{1})$ .

证明.

这个关于恒等函数的性质是显然的, 我们列在这里仅是为了强调一下.
$\begin{array}{rcl} [U (T_{1} + T_{2})] (α) & = & U [(T_{1} + T_{2}) (α)] \\ = & U (T_{1} α + T_{2} α) \\ = & U (T_{1} α) + U (T_{2} α) \\ = & (U T_{1}) (α) + (U T_{2}) (α) \end{array}$ 于是 $U (T_{1} + T_{2}) = U T_{1} + U T_{2}$ . 另外, $\begin{array}{rcl} [(T_{1} + T_{2}) U] (α) & = & (T_{1} + T_{2}) (U α) \\ = & T_{1} (U α) + T_{2} (U α) \\ = & (T_{1} U) (α) + (T_{2} U) (α) \end{array}$ 于是 $(T_{1} + T_{2}) U = T_{1} U + T_{2} U$ . (读者或许注意到了这两个分配律的证明并没有用到 $T_{1}$ 和 $T_{2}$ 是线性的这个事实, 而且第二个证明也没有用到 $U$ 是线性的.)
我们将c的证明留给读者.

◻

这个引理的内容和定理5的一部分告诉我们向量空间 $L (V, V)$ 和复合运算构成了一个叫做含幺元的线性代数的结构. 我们将在第4章讨论这个东西. [译注: 其实在一般的代数学书籍里这种结构就叫代数.]

例子8. 如果

A

是一个元素来源于

F

的

m \times n

矩阵, 我们可以由

T (X) = A X

定义一个从

F^{n \times 1}

到

F^{m \times 1}

的线性变换

T

. 如果

B

是一个

p \times m

的矩阵, 那么我们可以通过

U (Y) = B Y

定义一个从

F^{m \times 1}

到

F^{p \times 1}

的线性变换

U

. 它们的复合

U T

是很容易描述的:

\begin{array}{rcl} (U T) (X) & = & U (T (X)) \\ = & U (A X) \\ = & B (A X) \\ = & (B A) X \end{array}

因此

U T

即"左乘积矩阵

B A

例子9. 令

F

是一个域而

V

是所有从

F

到

F

的多项式函数构成的向量空间. 令

D

是例子2所定义的微分算子, 令

T

是"乘上

x

"的线性算子:

(T f) (x) = x f (x) .

那么

D T \neq T D

. 实际上, 读者应该很容易验证

D T - T D = I

, 即恒等算子.

即便我们定义的 $L (V, V)$ 上的乘法并不交换, 其与 $L (V, V)$ 的向量空间运算有着很好的联系.

例子10. 令

𝔅 = {α_{1}, \dots, α_{n}}

是向量空间

V

的一个有序基. 考虑定理5的证明中出现的线性算子

E^{p, q}

E^{p, q} (α_{i}) = δ_{i, q} α_{p} .

这

n^{2}

个线性算子构成了

V

上的线性算子空间的一个基.

E^{p, q} E^{r, s}

是什么呢? 我们有

\begin{array}{rcl} (E^{p, q} E^{r, s}) (α_{i}) & = & E^{p, q} (δ_{i, s} α_{r}) \\ = & δ_{i, s} E^{p, q} (α_{r}) \\ = & δ_{i, s} δ_{r, q} α_{p} \end{array}

因此

E^{p, q} E^{r, s} = {\begin{matrix} 0 & , 如果 r \neq q \\ E^{p, s} & , 如果 q = r \end{matrix}

令

T

是一个

V

上的线性算子, 我们在定理5的证明中表明如果

A_{j} = {[T α_{j}]}_{𝔅}, A = [A_{1}, \dots, A_{n}]

那么

T = \sum_{p = 1}^{n} \sum_{q = 1}^{n} A_{p, q} E^{p, q} .

如果

U = \sum_{r = 1}^{n} \sum_{s = 1}^{n} B_{r, s} E^{r, s}

是

V

上另一个线性算子, 那么上一条引理告诉我们

\begin{array}{rcl} T U & = & (\sum_{p = 1}^{n} \sum_{q = 1}^{n} A_{p, q} E^{p, q}) (\sum_{r = 1}^{n} \sum_{s = 1}^{n} B_{r, s} E^{r, s}) \\ = & \sum_{p = 1}^{n} \sum_{q = 1}^{n} \sum_{r = 1}^{n} \sum_{s = 1}^{n} A_{p, q} B_{r, s} E^{p, q} E^{r, s} \end{array}

我们注意到, 这巨大的求和之中只有满足

q = r

的项才能活下来, 又因为

E^{p, r} E^{r, s} = E^{p, s}

, 我们有

\begin{array}{rcl} T U & = & \sum_{p = 1}^{n} \sum_{s = 1}^{n} (\sum_{r = 1}^{n} A_{p, r} B_{r, s}) E^{p, s} \\ = & \sum_{p = 1}^{n} \sum_{s = 1}^{n} {(A B)}_{p, s} E^{p, s} \end{array}

因此, 复合

T

和

U

的效用相当于矩阵

A

和

B

相乘.

在我们对于线性变换的代数运算的讨论中, 我们还没有说任何与可逆性相关的东西. 我们所特别关心的问题之一是, 对于向量空间 $V$ 上什么样的线性算子 $T$ 存在线性算子 $T^{- 1}$ 满足 $T T^{- 1} = T^{- 1} T = I$ ? [译注: 读者应该将这里的 $T^{- 1}$ 当作一个整体, 而不是 $T$ 的逆, 因为还没有定义逆运算.]

从 $V$ 到 $W$ 的函数称为可逆的, 如果存在一个从 $W$ 到 $V$ 的函数 $U$ 满足 $U T$ 是 $V$ 上的恒等函数而 $T U$ 是 $W$ 上的恒等函数. 如果 $T$ 是可逆的, 那么函数 $U$ 是唯一的, 我们将其记作 $T^{- 1}$ . (见附录.) 而且, $T$ 可逆当且仅当

$T$ 是一一的, 即 $T α = T β$ 可以推出 $α = β$ ;
$T$ 是映上的, 即 $T$ 的像是(整个的) $W$ .

[译注: 一一和映上是过时的术语, 之后我们将用单射和满射.]

定理7. 令

V

和

W

是域

F

上的向量空间, 令

T

是从

V

到

W

的线性变换. 如果

T

是可逆的, 那么逆函数是一个从

W

到

V

的线性变换. [译注: 这里说的可逆是函数的可逆.]

证明. 这里我们重复以强调一个点. 当

T

是单射且是满射, 那么存在唯一决定的从

W

到

V

的逆函数

T^{- 1}

满足

T^{- 1} T

是

V

上的恒等函数而

T T^{- 1}

是

W

上的恒等函数. 现在我们要证明的是, 如果线性函数

T

是可逆的, 那么其逆

T^{- 1}

也是线性的.
令

β_{1}

和

β_{2}

是

W

的向量而

c

是一个标量, 我们想要证明

T^{- 1} (c β_{1} + β_{2}) = c T^{- 1} β_{1} + T^{- 1} β_{2} .

令

α_{i} = T^{- 1} β_{i}, i = 1, 2

, 即令

α_{i}

是

V

中唯一满足

T α_{i} = β_{i}

的向量. 既然

T

是线性的, 那么

\begin{array}{rcl} T (c α_{1} + α_{2}) & = & c T α_{1} + T α_{2} \\ = & c β_{1} + β_{2} \end{array}

因此

c α_{1} + α_{2}

是

V

中唯一的由

T

送至

c β_{1} + β_{2}

的向量, 于是

\begin{array}{rcl} T^{- 1} (c β_{1} + β_{2}) & = & c α_{1} + α_{2} \\ = & c (T^{- 1} β_{1}) + T^{- 1} β_{2} \end{array}

◻

设我们有一个从 $V$ 到 $W$ 的可逆的线性变换 $T$ 和一个从 $W$ 到 $Z$ 的可逆的线性变换 $U$ , 那么 $U T$ 是可逆的并且 ${(U T)}^{- 1} = T^{- 1} U^{- 1}$ . 这个结论并不需要线性性质, 也不需要分开检验 $U T$ 是单射和满射. 所有需要做的事情只是验证 $T^{- 1} U^{- 1}$ 既是 $U T$ 的左逆也是 $U T$ 的右逆.

如果 $T$ 是线性的, 那么 $T (α - β) = T α - T β$ . 因此, $T α = T β$ 当且仅当 $T (α - β) = 0$ . 这极大地简化了对于 $T$ 是否为单射的验证. 让我们称一个线性变换是非奇异的, 如果 $T γ = 0$ 可以推出 $γ = 0$ , 即 $T$ 的零空间是 ${0}$ . 显然, $T$ 是单射当且仅当 $T$ 非奇异. 这个评注的一个扩展是非奇异的线性变换就是那些保持线性无关的线性变换.

定理8. 令

T

是一个从

V

到

W

的线性变换, 那么

T

是非奇异的当且仅当

V

的每个线性无关子集在

T

下的像是

W

的线性无关子集.

证明. 首先设

T

是非奇异的. 令

S

是

V

的一个线性无关子集. 如果

α_{1}, \dots, α_{k}

是

S

中的向量 [译注: 不同的向量], 那么

T α_{1}, \dots, T α_{k}

是线性无关的, 因为如果

c_{1} (T α_{1}) + \dots + c_{k} (T α_{k}) = 0

那么

T (c_{1} α_{1} + \dots + c_{k} α_{k}) = 0

既然

T

是非奇异的, 那么

c_{1} α_{1} + \dots + c_{k} α_{k} = 0

从中我们可以得出每个

c_{i} = 0

, 因为

S

是一个线性无关的集合. 这个论证表明

S

在

T

下的像是线性无关的.
设

T

将线性无关的子集映射至线性无关的子集. 令

α

是

V

的一个非零向量, 那么仅包含

α

的集合

S

是线性无关的.

S

的像是仅包含向量

T α

的集合, 而这个集合是线性无关的. 因而

T α \neq 0

, 否则的话就是线性相关的了. 这表明

T

的零空间是零子空间, 即

T

是非奇异的.

◻

例子11. 令

F

是一个复数域的子域 (或者特征为零的域), 令

V

是域

F

上的多项式函数的空间. 考虑例子9的微分算子

D

和"乘上

x

"的算子

T

. 既然

D

将每个常函数送至

0

D

是奇异的. 然而, 因为

V

不是有限维的,

D

的像是整个

V

, 于是定义一个

D

的右逆是有可能的. 例如, 如果

E

是不定积分算子:

E (c_{0} + c_{1} x + \dots + c_{n} x^{n}) = c_{0} x + \frac{1}{2} c_{1} x^{2} + \dots + \frac{1}{n + 1} c_{n} x^{n + 1}

那么

E

是

V

上的线性算子并且

D E = I

. 另一方面,

E D \neq I

, 因为

E D

将每个常函数都送至

0

. 与之相对地, 算子

T

是非奇异的, 因为如果对于每个

x

有

x f (x) = 0

, 那么

f = 0

. 因此, 可以找到

T

的一个左逆. 例如, 如果

U

是"移除常数项并除以

x

"的操作:

U (c_{0} + c_{1} x + \dots + c_{n} x^{n}) = c_{1} + c_{2} x + \dots + c_{n} x^{n - 1}

那么

U

是一个

V

上的线性算子并且

U T = I

. 但是

T U \neq I

, 因为每个

T U

的像中的函数自然也在

T

的像中, 而

T

的像是所有满足

f (0) = 0

的函数

f

构成的空间. [译注: 而不是整个

V

例子12. 令

F

是一个域而

T

是一个

F^{2}

上的线性算子, 其由

T (x_{1}, x_{2}) = (x_{1} + x_{2}, x_{1})

定义. 那么,

T

是非奇异的, 因为如果

T (x_{1}, x_{2}) = 0

, 我们有

{\begin{matrix} x_{1} & + & x_{2} & = & 0 \\ x_{1} & = & 0 \end{matrix}

于是

x_{1} = x_{2} = 0

. 我们也看出

T

是满射, 因为如果令

(z_{1}, z_{2})

是

F^{2}

中任意的向量, 为了证明

(z_{1}, z_{2})

在

T

的像中, 我们必须找出满足

{\begin{matrix} x_{1} & + & x_{2} & = & z_{1} \\ x_{1} & = & z_{2} \end{matrix}

的标量

x_{1}

和

x_{2}

, 而

x_{1} = z_{2}, x_{2} = z_{1} - z_{2}

就是显而易见的解. 这个计算为我们提供了

T^{- 1}

的显式公式, 即

T^{- 1} (z_{1}, z_{2}) = (z_{2}, z_{1} - z_{2}) .

在例子11之中我们看到一个线性变换可能是非奇异的但不是满射, 或者可能是满射但不是非奇异的. 然而, 上面这个例子为我们刻画了一种情形, 其中例子11的这种事情不可能发生.

定理9. 令

V

和

W

是域

F

上的有限维向量空间, 并且

\dim V = \dim W

. 如果

T

是一个从

V

到

W

的线性变换, 那么以下陈述是等价的:

$T$ 是可逆的.
$T$ 是非奇异的.
$T$ 是满射, 即 $T$ 的像是 $W$ .

证明. 令

n = \dim V = \dim W

, 从定理2我们知道

rank (T) + nullity (T) = n .

既然

T

是非奇异的当且仅当

nullity (T) = 0

T

的像是

W

当且仅当

rank (T) = n

(因为

n = \dim W

), 而且零化度是

0

当且仅当秩为

n

, 那么

T

是非奇异的当且仅当

T (V) = W

. 于是, 只要ii或iii其中之一成立, 那么另一条也成立, 那么

T

就是可逆的了.

◻

我们提醒读者一下, 除非有限维和 $\dim V = \dim W$ 的条件都满足, 否则就不要应用定理9. 在定理9的假设下, 条件i, ii, iii还等价于以下陈述.

如果 ${α_{1}, \dots, α_{n}}$ 是 $V$ 的一个基, 那么 ${T α_{1}, \dots, T α_{n}}$ 是 $W$ 的一个基.
存在 $V$ 的某个基 ${α_{1}, \dots, α_{n}}$ 使得 ${T α_{1}, \dots, T α_{n}}$ 是 $W$ 的一个基.

我们将给出一个这五个条件等价的证明, 它不同于之前给出的三个条件等价的证明.

i推出ii. 如果 $T$ 是可逆的, $T$ 当然是非奇异的. ii推出iii. 设 $T$ 是非奇异的. 令 ${α_{1}, \dots, α_{n}}$ 是 $V$ 的一个基, 那么根据定理8, ${T α_{1}, \dots, T α_{n}}$ 是 $W$ 的一个线性无关集合. 而且, 因为 $W$ 的维数也是 $n$ , 所以这个集合也构成了 $W$ 的一个基. 现在令 $β$ 是 $W$ 任意的向量, 那么存在标量 $c_{1}, \dots, c_{n}$ 满足 $\begin{array}{rcl} β & = & c_{1} (T α_{1}) + \dots + c_{n} (T α_{n}) \\ = & T (c_{1} α_{1} + \dots + c_{n} α_{n}) \end{array}$ 这表明 $β$ 在 $T$ 的像之中. iii推出iv. 现在我们假定 $T$ 是满射. 如果 ${α_{1}, \dots, α_{n}}$ 是 $V$ 任意的基, 那么 ${T α_{1}, \dots, T α_{n}}$ 可以张成 $T$ 的像, 根据假设也就是整个 $W$ . 既然 $W$ 的维数是 $n$ , 那么这 $n$ 个向量必然是线性无关的, 也就是说构成了 $W$ 的一个基. iv推出v. 这不需要证明. v推出i. 设存在 $V$ 的某个基满足 ${T α_{1}, \dots, T α_{n}}$ 是 $W$ 的一个基. 既然 $T α_{i}$ 可以张成 $W$ , 那么显然 $T$ 的像是整个 $W$ . 如果 $α = c_{1} α_{1} + \dots + c_{n} α_{n}$ 在 $T$ 的零空间之中, 那么 $T (c_{1} α_{1} + \dots + c_{n} α_{n}) = 0$ 或者 $c_{1} (T α_{1}) + \dots + c_{n} (T α_{n}) = 0$ 既然 $T α_{i}$ 是线性无关的, 那么每个 $c_{i} = 0$ , 因此 $α = 0$ . 我们已经证明了 $T$ 的像是 $W$ 和 $T$ 是非奇异的, 所以 $T$ 是可逆的.

一个空间 $V$ 上的可逆线性算子, 连带着复合运算, 提供了一个代数中被称为"群"的例子. 尽管我们没有时间细致地讨论群, 但是我们至少可以给出群的定义.

定义. 一个群由以下资料构成.

一个集合 $G$ ;
一个法则 (或者说一个运算), 其联系G中每对元素x和y以一个G中元素x⁢y, 并且满足
1. 对于所以 $G$ 中 $x, y, z$ , $x (y z) = (x y) z$ ;
2. 存在一个 $G$ 中的元素 $e$ 满足对于每个 $G$ 中的 $x$ 有 $e x = x e = x$ ;
3. 对于每个 $G$ 的元素 $x$ 存在一个 $G$ 中元素 $x^{- 1}$ 与之对应, 满足 $x x^{- 1} = x^{- 1} x = e$ .

我们已经证明了复合 $(U, T) \mapsto U T$ 联系空间 $V$ 上的每对可逆线性算子以另一个 $V$ 上的可逆线性算子. 复合是一个结合运算. 恒等算子 $I$ 对于每个 $T$ 有 $I T = T I = T$ . 对于可逆的 $T$ , (根据定理7)存在一个可逆的线性算子 $T^{- 1}$ 满足 $T T^{- 1} = T^{- 1} T = I$ . 因此, $V$ 上的可逆线性算子的集合, 连带着复合运算, 构成了一个群. 以矩阵乘法作为运算的 $n \times n$ 可逆矩阵的集合是另一个群的例子. 一个群是交换的, 如果它满足对于每个 $x$ 和 $y$ 有 $x y = y x$ . 以上两个我们给出的例子一般不是交换群. 人们经常将交换群的运算写成 $(x, y) \mapsto x + y$ 而不是 $(x, y) \mapsto x y$ , 并用符号 $0$ 表示"恒元" $e$ . 向量空间的向量的集合, 连带着向量加法, 是一个交换群. 一个域可以被描述为一个带有加法和乘法运算的集合, 其在加法下是一个交换群, 而非零元素在乘法下也构成了一个交换群, 并且分配律 $x (y + z) = x y + x z$ 成立.

练习1. 令

T

和

U

是

ℝ^{2}

上由

T (x_{1}, x_{2}) = (x_{2}, x_{1}) 和 U (x_{1}, x_{2}) = (x_{1}, 0)

定义的线性算子.

如何几何地描述 $T$ 和 $U$ ?
像定义 $T$ 和 $U$ 一样给出刻画 $(U + T), U T, T U, T^{2}, U^{2}$ 的规则.

练习2. 令

T

是

ℂ^{3}

上满足

T ε_{1} = (1, 0, i), T ε_{2} = (0, 1, 1), T ε_{3} = (i, 1, 0)

的(唯一的)线性算子.

T

可逆吗?

练习3. 令

T

是

ℝ^{3}

上由

T (x_{1}, x_{2}, x_{3}) = (3 x_{1}, x_{1} - x_{2}, 2 x_{1} + x_{2} + x_{3})

定义的线性算子.

T

可逆吗? 如果可逆的话, 像定义

T

一样给出

T^{- 1}

的规则.

练习4. 对于练习3的线性算子

T

, 证明

(T^{2} - I) (T - 3 I) = 0 .

练习5. 令

B = [\begin{matrix} 1 & - 1 \\ - 4 & 4 \end{matrix}]

令

T

是由

T (A) = B A

定义的

ℂ^{2 \times 2}

上的线性算子.

T

的秩是多少? 你能描述

T^{2}

吗?

练习6. 令

T

是从

ℝ^{3}

到

ℝ^{2}

的线性变换, 令

U

是从

ℝ^{2}

到

ℝ^{3}

的线性变换. 证明变换

U T

是不可逆的. 给出这个定理的一般化版本.

练习7. 找出

ℝ^{2}

上两个线性算子

T

和

U

满足

T U = 0

但是

U T \neq 0

练习8. 令

V

是域

F

上的向量空间, 令

T

是

V

上的一个线性算子. 如果

T^{2} = 0

, 关于

T

的像和零空间的关系你有什么可说的? 给出一个

ℝ^{2}

上的线性算子

T

的例子, 其满足

T^{2} = 0

但

T \neq 0

练习9. 令

T

是有限维向量空间

V

上的一个线性算子. 设存在一个

V

上的线性算子

U

满足

T U = I

. 证明

T

是可逆的, 并且

U = T^{- 1}

. 给出一个例子表明在

V

不是有限维的情况下这是错的. (提示: 令

T = D

, 多项式函数空间上的微分算子.)

练习10. 令

A

是域

F

上的一个

m \times n

矩阵, 令

T

是由

T (X) = A X

定义的从

F^{n \times 1}

到

F^{m \times 1}

的线性变换. 说明在

m < n

的情况下

T

可以是满射但不是非奇异的. 类似地, 说明在

m > n

的情况下

T

可以是非奇异的但不是满射.

练习11. 令

V

是一个有限维向量空间, 令

T

是

V

上的一个线性算子. 设

rank (T^{2}) = rank (T)

. 证明

T

的像和零空间是不相交的 (disjoint), 即只有零向量作为共同元素.

练习12. 令

p, m, n

是正整数而

F

是一个域. 令

V

是域

F

上的

m \times n

矩阵的空间,

W

是域

F

上的

p \times n

矩阵的空间. 令

B

是一个固定的

p \times m

矩阵而

T

是一个由

T (A) = B A

定义的从

V

到

W

的线性变换. 证明

T

可逆当且仅当

p = m

且

B

是一个可逆的

m \times m

矩阵.

第3.3节同构

如果 $V$ 和 $W$ 是域 $F$ 上的向量空间, 那么任何从 $V$ 到 $W$ 的双射的线性变换 $T$ 都被称为从 $V$ 到 $W$ 的同构. 如果存在从 $V$ 到 $W$ 的同构, 那么就称 $V$ 同构于 $W$ . [译注: 更直接和正确的说法其实是可逆而不是双射, 不过在向量空间的情况下这二者是等价的.]

注意到 $V$ 平凡地同构于 $V$ , 恒等算子是一个从 $V$ 到 $V$ 的同构. 并且, 如果 $V$ 通过 $T$ 同构于 $W$ , 那么 $W$ 也同构于 $V$ , 因为 $T^{- 1}$ 是一个从 $W$ 到 $V$ 的同构. 读者应该很容易验证如果 $V$ 同构于 $W$ 且 $W$ 同构于 $Z$ , 那么 $V$ 同构于 $Z$ . 简而言之, 同构是向量空间的类上的等价关系. [译注: 这里的用词是class而不是set, 因为所有的向量空间的确不构成一个集合.] 当存在一个从 $V$ 到 $W$ 的同构时, 我们有时也说 $V$ 和 $W$ 是同构的, 而不说 $V$ 同构于 $W$ . 鉴于 $V$ 同构于 $W$ 当且仅当 $W$ 同构于 $V$ , 这不会引起歧义.

定理10. 每个域

F

上的

n

维向量空间都同构于空间

F^{n}

证明. 令

V

是域

F

上的

n

维向量空间, 令

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基. 我们按照以下方式定义从

V

到

F^{n}

的函数

T

: 如果

α

在

V

中, 令

T α

是

α

相对于有序基

𝔅

的坐标

n

元组

(x_{1}, \dots, x_{n})

, 即满足

α = x_{1} α_{1} + \dots + x_{n} α_{n}

的

n

元组. 根据我们第2章对于坐标的讨论, 我们验证这个

T

是线性的且是双射的.

◻

出于许多目的我们可以将同构的向量空间视为"相同的", 尽管空间中的向量和运算可能是相当不同的. 我们目前不会详细讨论这个想法, 但将在我们对于向量空间的研究中积累对于同构的理解以及同构空间是"相同的"这个感觉.

我们将作出一些简要的评注. 设 $T$ 是一个从 $V$ 到 $W$ 的同构. 如果 $S$ 是 $V$ 的一个子集, 那么定理8告诉我们 $S$ 是线性无关的当且仅当集合 $T (S)$ 在 $W$ 中是线性无关的. 因此, 在判断 $S$ 是否线性无关时, 检视 $S$ 还是 $T (S)$ 是无关紧要的. 从中我们可以看出, 同构是"维数保持的", 也就是说对于 $V$ 任意的有限维子空间, 其在 $T$ 下的像有着相同的维数. 现在我们给出这个想法的一个非常简单的刻画. 设 $A$ 是域 $F$ 上的一个 $m \times n$ 矩阵, 实际上我们给过两种对于矩阵 $A$ 的解空间的定义. 第一种是 $F^{n}$ 中所有满足线性方程组 $A X = 0$ 的每个方程的 $n$ 元组 $(x_{1}, \dots, x_{n})$ 构成的集合. 第二种是所有满足 $A X = 0$ 的 $n \times 1$ 列矩阵 $X$ 构成的集合. 第一种解空间是 $F^{n}$ 的子空间, 第二种解空间是 $F^{n \times 1}$ 的子空间. 实际上 $F^{n}$ 和 $F^{n \times 1}$ 之间有一个显见的同构, 即 $(x_{1}, \dots, x_{n}) \mapsto [\begin{matrix} x_{1} \\ ⋮ \\ x_{n} \end{matrix}] .$ 在这个同构下, $A$ 的第一种解空间被映射至第二种解空间. 这两个空间有着相同的维数, 于是在证明关于解空间的维数的定理时, 选择那个空间来讨论是无关紧要的. 实际上, 读者或许并不会产生一点犹豫, 如果我们选择将 $F^{n}$ 和 $F^{n \times 1}$ 视为等同的. 当方便的时候, 我们就会这么做, 而不方便的时候, 我们就不这么做.

练习1. 令

V

是复数集, 令

F

是实数域. 在通常的运算下,

V

是

F

上的一个向量空间. 显式描述一个从该空间到

ℝ^{2}

的同构.

练习2. 令

V

是复数域上的向量空间, 并设存在一个从

V

到

ℂ^{3}

的同构

T

. 令

α_{1}, α_{2}, α_{3}, α_{4}

是

V

中向量, 满足

T α_{1} = (1, 0, i), T α_{2} = (- 2, 1 + i, 0), T α_{3} = (- 1, 1, 1), T α_{4} = (\sqrt{2}, i, 3) .

$α_{1}$ 在 $α_{2}$ 和 $α_{3}$ 张成的子空间中吗?
令 $W_{1}$ 是 $α_{1}$ 和 $α_{2}$ 张成的子空间, 令 $W_{2}$ 是 $α_{3}$ 和 $α_{4}$ 张成的子空间, 那么 $W_{1}$ 和 $W_{2}$ 的交是什么呢?
找出一个这四个向量 $α_{j}$ 张成的 $V$ 的子空间的基.

练习3. 令

W

是所有

2 \times 2

的复Hermite矩阵构成的集合. 正如我们在第2章的例子6中所指出的, 在通常的运算下,

W

是一个实数域上的向量空间. 验证

(x, y, z, t) \mapsto [\begin{matrix} t + x & y + i z \\ y - i z & t - x \end{matrix}]

是一个从

ℝ^{4}

到

W

的同构.

练习4. 表明

F^{m \times n}

同构于

F^{m n}

练习5. 令

V

是复数集, 其可以被视为实数域上的向量空间 (练习1). 我们按照以下方式定义一个从

V

到

2 \times 2

实矩阵空间的函数

T

. 如果

z = x + i y

, 其中

x

和

y

是实数, 那么

T (z) = [\begin{matrix} x + 7 y & 5 y \\ - 10 y & x - 7 y \end{matrix}] .

验证 $T$ 是一个单射的(实)线性变换.
验证 $T (z_{1} z_{2}) = T (z_{1}) T (z_{2})$ .
你如何描述 $T$ 的像?

练习6. 令

V

和

W

是域

F

上的有限维向量空间. 证明

V

和

W

同构当且仅当

\dim V = \dim W

练习7. 令

V

和

W

是域

F

上的向量空间,

U

是一个从

V

到

W

的同构. 证明

T \mapsto U T U^{- 1}

是一个从

L (V, V)

到

L (W, W)

的同构.

第3.4节通过矩阵表示变换

令 $V$ 是域 $F$ 上的 $n$ 维向量空间, 令 $W$ 是域 $F$ 上的 $m$ 维向量空间. 令 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基, 令 $𝔅^{'} = {β_{1}, \dots, β_{m}}$ 是 $W$ 的一个有序基. 如果 $T$ 是任意的从 $V$ 到 $W$ 的线性变换, 那么 $T$ 由其施加于向量 $α_{j}$ 的作用决定. 每个向量 $T α_{j}$ 皆可唯一地表示为 $β_{i}$ 的线性组合 $T α_{j} = \sum_{i = 1}^{m} A_{i, j} β_{i}$ 其中 $A_{1, j}, \dots, A_{m, j}$ 是 $T α_{j}$ 在有序基 $𝔅^{'}$ 下的坐标. 于是, 变换 $T$ 可由 $m n$ 个标量 $A_{i, j}$ 决定. 由 $A (i, j) = A_{i, j}$ 定义的 $m \times n$ 矩阵 $A$ 被称为 $T$ 相对于有序基 $𝔅$ 和 $𝔅^{'}$ 的矩阵. 我们即时的任务在于显式地理解矩阵 $A$ 是如何决定线性变换 $T$ 的.

如果 $α = x_{1} α_{1} + \dots + x_{n} α_{n}$ 是 $V$ 中的一个向量, 那么 $\begin{array}{rcl} T α & = & T (\sum_{j = 1}^{n} x_{j} α_{j}) \\ = & \sum_{j = 1}^{n} x_{j} (T α_{j}) \\ = & \sum_{j = 1}^{n} x_{j} \sum_{i = 1}^{m} A_{i, j} β_{i} \\ = & \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i, j} x_{j}) β_{i} \end{array}$ 如果 $X$ 是 $α$ 在有序基 $𝔅$ 下的坐标矩阵, 那么以上的计算表明 $A X$ 是向量 $T α$ 在有序基 $𝔅^{'}$ 下的坐标矩阵, 因为标量 $\sum_{j = 1}^{n} A_{i, j} x_{j}$ 是列矩阵 $A X$ 第 $i$ 行的元素. 让我们也观察到如果 $A$ 是域 $F$ 上任意的 $m \times n$ 矩阵, 那么 $T (\sum_{j = 1}^{n} x_{j} α_{j}) = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i, j} x_{j}) β_{i}$ 定义了一个从 $V$ 到 $W$ 的线性变换 $T$ , 并且其相对于 $𝔅$ 和 $𝔅^{'}$ 的矩阵是 $A$ . 我们形式地总结如下:

定理11. 令

V

是域

F

上的

n

维向量空间, 令

W

是域

F

上的

m

维向量空间. 令

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基, 令

𝔅^{'} = {β_{1}, \dots, β_{m}}

是

W

的一个有序基. 对于每个从

V

到

W

的线性变换

T

, 存在一个域

F

上的

m \times n

矩阵

A

满足

{[T α]}_{𝔅^{'}} = A {[α]}_{𝔅}

对于每个

V

中向量

α

成立. 并且,

T \mapsto A

是一个从所有从

V

到

W

的线性变换构成的集合到所有域

F

上的

m \times n

矩阵构成的集合的一一对应.

定理11中与 $T$ 相关联着的矩阵 $A$ 被称为 $T$ 相对于有序基 $𝔅$ 和 $𝔅^{'}$ 的矩阵. 注意到式子 $T α_{j} = \sum_{i = 1}^{m} A_{i, j} β_{i}$ 是说矩阵 $A$ 的列 $A_{1}, \dots, A_{n}$ 由 $A_{j} = {[T α_{j}]}_{𝔅^{'}}, j = 1, \dots, n$ 给出. 如果 $U$ 是另一个从 $V$ 到 $W$ 的线性变换, 并且 $B = [B_{1}, \dots, B_{n}]$ 是 $U$ 相对于有序基 $𝔅$ 和 $𝔅^{'}$ 的矩阵, 那么 $c A + B$ 是 $c T + U$ 相对于有序基 $𝔅$ 和 $𝔅^{'}$ 矩阵. 这是显然的, 因为 $\begin{array}{rcl} c A_{j} + B_{j} & = & c {[T α_{j}]}_{𝔅^{'}} + {[U α_{j}]}_{𝔅^{'}} \\ = & {[c T α_{j} + U α_{j}]}_{𝔅^{'}} \\ = & {[(c T + U) α_{j}]}_{𝔅^{'}} \end{array}$

定理12. 令

V

是域

F

上的

n

维向量空间, 令

W

是域

F

上的

m

维向量空间. 对于

V

和

W

相应的每对有序基

𝔅

和

𝔅^{'}

, 为线性变换

T

赋予其相对于

𝔅

和

𝔅^{'}

的矩阵的函数是一个空间

L (V, W)

和

F^{m \times n}

之间的同构.

证明. 我们观察到这个函数是线性的 [译注: 就是上一段], 并且如定理11所言, 这个函数是

L (V, W)

和

F^{m \times n}

之间的双射.

◻

我们将特别关心从一个空间到自身的线性变换的矩阵表示, 也就是线性算子的矩阵表示. 在这种情况下使用相同的基是方便的, 即取 $𝔅 = 𝔅^{'}$ . 我们将称这个表示矩阵为 $T$ 相对于有序基 $𝔅$ 的矩阵. 因为这个概念是如此重要, 以至于我们将重复这个定义. 如果 $T$ 是有限维向量空间 $V$ 上的一个线性算子而 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基, 那么 $T$ 相对于 $𝔅$ 的矩阵 (或者说, $T$ 在有序基 $𝔅$ 下的矩阵) 是一个 $n \times n$ 矩阵 $A$ , 其元素 $A_{i, j}$ 由式子 $T α_{j} = \sum_{i = 1}^{n} A_{i, j} α_{i}, j = 1, \dots, n$ 定义. 读者必须记住这个表示 $T$ 的矩阵依赖于有序基 $𝔅$ , 而 $V$ 的每个有序基下都有一个 $T$ 的表示矩阵. (如果是从一个空间 $V$ 到另一个空间 $W$ 的线性变换, 那就是依赖于两个有序基, 一个是 $V$ 的有序基, 另一个是 $W$ 的有序基.) 为了不忘记这个依赖关系, 我们将使用记号 ${[T]}_{𝔅}$ 表示线性算子 $T$ 在有序基 $𝔅$ 下的矩阵. 这个矩阵以及相关的有序基刻画 $T$ 的方式在于对于每个 $V$ 中的 $α$ 有 ${[T α]}_{𝔅} = {[T]}_{𝔅} {[α]}_{𝔅} .$

例子13. 令

V

是域

F

上的

n \times 1

列矩阵构成的空间, 令

W

是域

F

上的

m \times 1

列矩阵构成的空间, 令

A

是域

F

上一个固定的

m \times n

矩阵. 令

T

是一个从

V

到

W

的线性变换, 由

T (X) = A X

定义. 令

𝔅

是

V

的有序基, 其类似于

F^{n}

的标准有序基, 也就是说,

𝔅

的第

i

个向量是

n \times 1

矩阵

X_{i}

, 其第

i

行是

1

, 而其他元素为

0

. 令

𝔅^{'}

是

W

的有序基, 其定义方式与

V

的这个有序基类似. 那么,

T

相对于

𝔅

和

𝔅^{'}

的矩阵就是

A

本身. 这是显然的, 因为矩阵

A X_{j}

就是

A

的第

j

列.

例子14. 令

F

是一个域, 令

T

是

F^{2}

上的一个线性算子, 由

T (x_{1} x_{2}) = (x_{1}, 0)

定义. 令

𝔅

是

F^{2}

的标准有序基,

𝔅 = (ε_{1}, ε_{2})

. 既然

T ε_{1} = T (1, 0) = (1, 0) = 1 ε_{1} + 0 ε_{2}, T ε_{2} = T (0, 1) = (0, 0) = 0 ε_{1} + 0 ε_{2},

那么

T

在有序基

𝔅

下的矩阵是

{[T]}_{𝔅} = [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}] .

例子15. 令

V

是所有具有形式

f (x) = c_{0} + c_{1} x + c_{2} x^{2} + c_{3} x^{3}

的从

ℝ

到

ℝ

的多项式函数构成的向量空间, 即次数小于等于三的多项式函数的空间. 例子2的微分算子

D

映射

V

至

V

, 鉴于

D

是"降次的". 令

𝔅

是

V

的有序基, 其由四个函数

f_{1}, f_{2}, f_{3}, f_{4}

构成, 通过

f_{j} (x) = x^{j - 1}

定义, 那么

\begin{matrix} (D f_{1}) (x) & = & 0, & D f_{1} & = & 0 f_{1} + 0 f_{2} + 0 f_{3} + 0 f_{4} \\ (D f_{2}) (x) & = & 1, & D f_{2} & = & 1 f_{1} + 0 f_{2} + 0 f_{3} + 0 f_{4} \\ (D f_{3}) (x) & = & 2 x, & D f_{3} & = & 0 f_{1} + 2 f_{2} + 0 f_{3} + 0 f_{4} \\ (D f_{4}) (x) & = & 3 x^{2}, & D f_{4} & = & 0 f_{1} + 0 f_{2} + 3 f_{3} + 0 f_{4} \end{matrix}

于是

D

在有序基

𝔅

下的矩阵是

{[D]}_{𝔅} = [\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] .

我们已经见过把变换相加时表示矩阵会怎么变化了, 即把矩阵相加. 现在我们想问把变换复合起来时会发生些什么. 更准确地说, 令 $V, W, Z$ 是域 $F$ 上相应维数为 $n, m, p$ 的向量空间. 令 $T$ 是一个从 $V$ 到 $W$ 的线性变换, 令 $U$ 是一个从 $W$ 到 $Z$ 的线性变换. 设 $V, W, Z$ 相应的有序基分别为 $𝔅 = {α_{1}, \dots, α_{n}}, 𝔅^{'} = {β_{1}, \dots, β_{m}}, 𝔅^{″} = {γ_{1}, \dots, γ_{p}} .$ 令 $A$ 是 $T$ 相对于 $𝔅$ 和 $𝔅^{'}$ 的矩阵, 令 $B$ 是 $U$ 相对于 $𝔅^{'}$ 和 $𝔅^{″}$ 的矩阵. 那么, 很容易看出来变换 $U T$ 相对于 $𝔅$ 和 $𝔅^{″}$ 的矩阵 $C$ 就是 $B$ 和 $A$ 的积. 这是因为, 如果 $α$ 是 $V$ 中任意的向量, 那么 ${[T α]}_{𝔅^{'}} = A {[α]}_{𝔅}, {[U (T α)]}_{𝔅^{″}} = B {[T α]}_{𝔅^{'}}$ 于是 ${[(U T) (α)]}_{𝔅^{″}} = (B A) {[α]}_{𝔅}$ 根据表示矩阵的定义和唯一性, 我们必有 $C = B A$ . 读者也可通过施行以下计算来看出这点. $\begin{array}{rcl} (U T) (α_{j}) & = & U (T α_{j}) \\ = & U (\sum_{k = 1}^{m} A_{k, j} β_{k}) \\ = & \sum_{k = 1}^{m} A_{k, j} (U β_{k}) \\ = & \sum_{k = 1}^{m} A_{k, j} \sum_{i = 1}^{p} B_{i, k} γ_{i} \\ = & \sum_{i = 1}^{p} (\sum_{k = 1}^{m} B_{i, k} A_{k, j}) γ_{i} \end{array}$ 于是我们必有 $C_{i, j} = \sum_{k = 1}^{m} B_{i, k} A_{k, j} .$ 之前我们定义矩阵乘法的动机在于矩阵行上的操作. 这里我们看到线性变换的复合也提供了强烈的动机. 让我们形式化地总结一下这个结果.

定理13. 令

V, W, Z

是域

F

上的有限维向量空间. 令

T

是从

V

到

W

的线性变换,

U

是从

W

到

Z

的线性变换. 如果

𝔅, 𝔅^{'}, 𝔅^{″}

分别是

V, W, Z

的有序基, 如果

A

是

T

相对于

𝔅

和

𝔅^{'}

的矩阵,

B

是

U

相对于

𝔅^{'}

和

𝔅^{″}

的矩阵, 那么变换的复合

U T

相对于

𝔅

和

𝔅^{″}

的矩阵是积

C = B A

注意到定理13给我们了一个矩阵乘法是结合运算的证明, 这个证明不需要计算, 并且独立于我们在第1章给出的证明. 我们还应该指出我们在例子10中证明了定理13的特殊情况. [译注: 原文是例子12, 疑似应该是例子10.]

如果 $T$ 和 $U$ 是空间 $V$ 上的线性算子, 并且我们以单一的有序基 $𝔅$ 表示这两个变换, 那么定理13呈现出特别简单的形式 ${[U T]}_{𝔅} = {[U]}_{𝔅} {[T]}_{𝔅}$ . 因此, 在这种情况下由 $𝔅$ 所决定的算子和矩阵之间的对应不仅是向量空间的同构, 还保持乘法. 这个事实的一个简单推论是线性算子 $T$ 可逆当且仅当矩阵 ${[T]}_{𝔅}$ 可逆. 这是因为恒等算子 $I$ 在任意的有序基下都由恒等矩阵表示, 于是 $U T = T U = I$ 等价于 ${[U]}_{𝔅} {[T]}_{𝔅} = {[T]}_{𝔅} {[U]}_{𝔅} = I .$ 当然, $T$ 可逆时有 ${[T^{- 1}]}_{𝔅} = {[T]}_{𝔅}^{- 1} .$

现在我们想要探究当有序基改变时表示矩阵会怎样变化. 为了简单起见, 我们将只考虑空间 $V$ 上的线性算子, 于是我们可以只使用一个有序基. 我们想问的特定问题如下. 令 $T$ 是有限维向量空间 $V$ 上的一个线性算子, 并令 $𝔅 = {α_{1}, \dots, α_{n}} 和 𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}$ 是 $V$ 的两个有序基. 矩阵 ${[T]}_{𝔅}$ 和 ${[T]}_{𝔅^{'}}$ 之间有什么联系呢? 正如我们在第2章所观察到的那样, 存在一个唯一的 $n \times n$ (可逆)矩阵 $P$ 满足对于每个 $V$ 的向量 $α$ 有 ${[α]}_{𝔅} = P {[α]}_{𝔅^{'}} .$ 这个矩阵即 $P = [P_{1}, \dots, P_{n}]$ , 其中 $P_{j} = {[α_{j}^{'}]}_{𝔅}$ . 根据定义, ${[T α]}_{𝔅} = {[T]}_{𝔅} {[α]}_{𝔅} .$ 将坐标变换公式应用于 $T α$ , 我们就得到 ${[T α]}_{𝔅} = P {[T α]}_{𝔅^{'}} .$ 结合这三个式子, 我们有 ${[T]}_{𝔅} P {[α]}_{𝔅^{'}} = P {[T α]}_{𝔅^{'}}$ 或是 $P^{- 1} {[T]}_{𝔅} P {[α]}_{𝔅^{'}} = {[T α]}_{𝔅^{'}}$ 因此就得到 ${[T]}_{𝔅^{'}} = P^{- 1} {[T]}_{𝔅} P .$ 这回答了我们的问题.

在形式化陈述这个结果之前, 让我们观察一下以下事实. 存在唯一的一个线性算子 $U$ 将有序基 $𝔅$ 映射成 $𝔅^{'}$ , 其由 $U α_{j} = α_{j}^{'}, j = 1, \dots, n$ 定义. 这个算子 $U$ 是可逆的, 因为它将 $V$ 的一个基映射至 $V$ 的另一个基. 上面的矩阵 $P$ 恰是 $U$ 在有序基 $𝔅$ 下的表示, 因为 $P$ 是由 $α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i}$ 定义的, 既然 $U α_{j} = α_{j}^{'}$ , 这个式子也可以写成 $U α_{j} = \sum_{i = 1}^{n} P_{i, j} α_{i}$ 于是 $P = {[U]}_{𝔅}$ , 根据定义.

定理14. 令

V

是一个域

F

上的有限维向量空间. 令

𝔅 = {α_{1}, \dots, α_{n}} 和 𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

是

V

的有序基. 设

T

是

V

上的一个线性算子. 如果

P = [P_{1}, \dots, P_{n}]

是一个以

P_{j} = {[α_{j}^{'}]}_{𝔅}

为列的

n \times n

矩阵, 那么

{[T]}_{𝔅^{'}} = P^{- 1} {[T]}_{𝔅} P .

或者说, 如果

U

是由

U α_{j} = α_{j}^{'}, j = 1, \dots, n

定义的

V

上的可逆线性算子, 那么

{[T]}_{𝔅^{'}} = {[U]}_{𝔅}^{- 1} {[T]}_{𝔅} {[U]}_{𝔅} .

例子16. 令

T

是

ℝ^{2}

上由

T (x_{1}, x_{2}) = (x_{1}, 0)

定义的线性算子. 在例子14中我们表明

T

在标准有序基

𝔅 = {ε_{1}, ε_{2}}

下的矩阵是

{[T]}_{𝔅} = [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}] .

设

𝔅^{'}

是

ℝ^{2}

的有序基, 其由向量

ε_{1}^{'} = (1, 1)

和

ε_{2}^{'} = (2, 1)

构成, 那么

ε_{1}^{'} = ε_{1} + ε_{2}, ε_{2}^{'} = 2 ε_{1} + ε_{2}

于是

P

是矩阵

P = [\begin{matrix} 1 & 2 \\ 1 & 1 \end{matrix}] .

根据简单的计算

P^{- 1} = [\begin{matrix} - 1 & 2 \\ 1 & - 1 \end{matrix}] .

因此

\begin{array}{rcl} {[T]}_{𝔅^{'}} & = & P^{- 1} {[T]}_{𝔅} P \\ = & [\begin{matrix} - 1 & 2 \\ 1 & - 1 \end{matrix}] [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}] [\begin{matrix} 1 & 2 \\ 1 & 1 \end{matrix}] \\ = & [\begin{matrix} - 1 & 2 \\ 1 & - 1 \end{matrix}] [\begin{matrix} 1 & 2 \\ 0 & 0 \end{matrix}] \\ = & [\begin{matrix} - 1 & - 2 \\ 1 & 2 \end{matrix}] \end{array}

我们很容易验证这是正确的, 因为

T ε_{1}^{'} = (1, 0) = - ε_{1}^{'} + ε_{2}^{'}, T ε_{2}^{'} = (2, 0) = - 2 ε_{1}^{'} + 2 ε_{2}^{'} .

例子17. 令

V

是从

ℝ

到

ℝ

的次数小于等于

3

的多项式函数构成的向量空间. 如例子15, 令

D

是

V

上的微分算子, 并令

𝔅 = {f_{1}, f_{2}, f_{3}, f_{4}}

是

V

的有序基, 其由

f_{i} (x) = x^{i - 1}

定义. 令

t

是一个实数, 定义

g_{i} (x) = {(x + t)}^{i - 1}

, 即

\begin{array}{l} g_{1} & = & f_{1} \\ g_{2} & = & t f_{1} + f_{2} \\ g_{3} & = & t^{2} f_{1} + 2 t f_{2} + f_{3} \\ g_{4} & = & t^{3} f_{1} + 3 t^{2} f_{2} + 3 t f_{3} + f_{4} \end{array}

既然矩阵

P = [\begin{matrix} 1 & t & t^{2} & t^{3} \\ 0 & 1 & 2 t & 3 t^{2} \\ 0 & 0 & 1 & 3 t \\ 0 & 0 & 0 & 1 \end{matrix}]

很容易看出来是可逆的, 并有

P^{- 1} = [\begin{matrix} 1 & - t & t^{2} & - t^{3} \\ 0 & 1 & - 2 t & 3 t^{2} \\ 0 & 0 & 1 & - 3 t \\ 0 & 0 & 0 & 1 \end{matrix}]

从中我们得知

𝔅^{'} = {g_{1}, g_{2}, g_{3}, g_{4}}

是

V

的一个有序基. 在例子15里, 我们发现

D

在有序基

𝔅

下的矩阵为

{[D]}_{𝔅} = [\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] .

因此

D

相对于有序基

𝔅^{'}

的矩阵为

\begin{array}{rcl} P^{- 1} {[D]}_{𝔅} P & = & [\begin{matrix} 1 & - t & t^{2} & - t^{3} \\ 0 & 1 & - 2 t & 3 t^{2} \\ 0 & 0 & 1 & - 3 t \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] [\begin{matrix} 1 & t & t^{2} & t^{3} \\ 0 & 1 & 2 t & 3 t^{2} \\ 0 & 0 & 1 & 3 t \\ 0 & 0 & 0 & 1 \end{matrix}] \\ = & [\begin{matrix} 1 & - t & t^{2} & - t^{3} \\ 0 & 1 & - 2 t & 3 t^{2} \\ 0 & 0 & 1 & - 3 t \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} 0 & 1 & 2 t & 3 t^{2} \\ 0 & 0 & 2 & 6 t \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] \\ = & [\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] \end{array}

于是

D

在有序基

𝔅

和

𝔅^{'}

下由相同的矩阵表示. 当然, 或许我们可以更直接地看出这点来, 因为

D g_{1} = 0, D g_{2} = g_{1}, D g_{3} = 2 g_{2}, D g_{4} = 3 g_{3} .

这个例子刻画了很好的一点. 如果读者已知一个线性算子在某个有序基

𝔅

下的矩阵, 并想要找出其在另一个有序基

𝔅^{'}

下的矩阵, 经常的情况是使用可逆矩阵

P

施行坐标变换是最方便的. 然而, 有时直接诉诸定义来寻找表示矩阵可能要简单得多.

定义. 令

A

和

B

是域

F

上的

n \times n

矩阵. 我们称

B

在

F

上相似于

A

, 如果存在一个域

F

上的可逆矩阵

P

满足

B = P^{- 1} A P

根据定理14, 我们知道: 如果 $V$ 是一个域 $F$ 上的 $n$ 维向量空间而 $𝔅$ 和 $𝔅^{'}$ 是 $V$ 的两个有序基, 那么对于每个 $V$ 上的线性算子 $T$ , 矩阵 $B = {[T]}_{𝔅^{'}}$ 相似于矩阵 $A = {[T]}_{𝔅}$ . 我们也可以从另一个方向看待这个事情. 设 $A$ 和 $B$ 是域 $F$ 上的 $n \times n$ 矩阵, 令 $𝔅$ 是 $V$ 的一个有序基. 令 $T$ 是 $V$ 上的线性算子, 其在基 $𝔅$ 下由 $A$ 表示. 如果 $B = P^{- 1} A P$ , 令 $𝔅^{'}$ 是经 $P$ 由 $𝔅$ 得到的 $V$ 的有序基, 即 $α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i},$ 那么 $T$ 在有序基 $𝔅^{'}$ 下的矩阵就是 $B$ .

因此, 陈述 $B$ 相似于 $A$ 意味着在每个域 $F$ 上的 $n$ 维空间上, 矩阵 $A$ 和 $B$ 在两个(可能)不同的有序基下表示着相同的线性变换.

注意到每个 $n \times n$ 矩阵 $A$ 都相似于自身, 只需令 $P = I$ ; 如果 $B$ 相似于 $A$ , 那么 $A$ 相似于 $B$ , 因为 $B = P^{- 1} A P$ 可以推出 $A = {(P^{- 1})}^{- 1} B P^{- 1}$ ; 如果 $B$ 相似于 $A$ 而 $C$ 相似于 $B$ , 那么 $C$ 相似于 $A$ , 因为 $B = P^{- 1} A P$ 和 $C = Q^{- 1} B Q$ 可以推出 $C = {(P Q)}^{- 1} A (P Q)$ . 因此, 相似性是域 $F$ 上的 $n \times n$ 矩阵的集合上的一个等价关系. 读者还应该注意到唯一与恒等矩阵 $I$ 相似的矩阵就是 $I$ 本身, 唯一与零矩阵相似的矩阵就是零矩阵本身.

练习1. 令

T

是

ℂ^{2}

上由

T (x_{1}, x_{2}) = (x_{1}, x_{2})

定义的线性算子. 令

𝔅

是

ℂ^{2}

的标准有序基而

𝔅^{'} = {α_{1}, α_{2}}

是由

α_{1} = (1, i), α_{2} = (- i, 2)

定义的有序基.

$T$ 相对于 $𝔅$ 和 $𝔅^{'}$ 的矩阵是什么?
$T$ 相对于 $𝔅^{'}$ 和 $𝔅$ 的矩阵是什么?
$T$ 在有序基 $𝔅^{'}$ 下的矩阵是什么?
$T$ 在有序基 ${α_{2}, α_{1}}$ 下的矩阵是什么?

练习2. 令

T

是从

ℝ^{3}

到

ℝ^{2}

的线性变换, 其由

T (x_{1}, x_{2}, x_{3}) = (x_{1} + x_{2}, 2 x_{3} - x_{1})

定义.

如果 $𝔅$ 是 $ℝ^{3}$ 的标准有序基而 $𝔅^{'}$ 是 $ℝ^{2}$ 的标准有序基, 那么 $T$ 相对于 $𝔅$ 和 $𝔅^{'}$ 的矩阵是什么?
如果 $𝔅 = {α_{1}, α_{2}, α_{3}}$ 且 $𝔅^{'} = (β_{1}, β_{2})$ , 其中 $α_{1} = (1, 0, - 1), α_{2} = (1, 1, 1), α_{3} = (1, 0, 0), β_{1} = (0, 1), β_{2} = (1, 0)$ $T$ 相对于 $𝔅$ 和 $𝔅^{'}$ 的矩阵是什么?

练习3. 令

T

是

F^{n}

上的线性算子, 令

A

是

T

在

F^{n}

的标准基下的矩阵, 令

W

是由

A

的列向量张成的

F^{n}

的子空间. 请问

W

和

T

有何关系?

练习4. 令

V

是域

F

上的一个二维向量空间, 令

𝔅

是

V

的一个有序基. 如果

T

是

V

上的一个线性算子, 并且

{[T]}_{𝔅} = [\begin{matrix} a & b \\ c & d \end{matrix}]

证明

T^{2} - (a + d) T + (a d - b c) I = 0

练习5. 令

T

是

ℝ^{3}

上的线性算子, 其在标准有序基下的矩阵为

A = [\begin{matrix} 1 & 2 & 1 \\ 0 & 1 & 1 \\ - 1 & 3 & 4 \end{matrix}] .

找出

T

的像的一个基和

T

的零空间的一个基.

练习6. 令

T

是

ℝ^{2}

上由

T (x_{1}, x_{2}) = (- x_{2}, x_{1})

定义的线性算子.

$T$ 在 $ℝ^{2}$ 的标准基下的矩阵是什么?
$T$ 在有序基 $𝔅 = {α_{1}, α_{2}}$ 下的矩阵是什么, 其中 $α_{1} = (1, 2)$ 且 $α_{2} = (1, - 1)$ ?
证明对于每个实数 $c$ , 算子 $(T - c I)$ 都是可逆的.
证明如果 $𝔅$ 是 $ℝ^{2}$ 任意的有序基并且 ${[T]}_{𝔅} = A$ , 那么 $A_{1, 2} A_{2, 1} \neq 0$ .

练习7. 令

T

是

ℝ^{3}

上的线性算子, 由

T (x_{1}, x_{2}, x_{3}) = (3 x_{1} + x_{3}, - 2 x_{1} + x_{2}, - x_{1} + 2 x_{2} + 4 x_{3})

定义.

$T$ 在 $ℝ^{3}$ 的标准有序基下的矩阵是什么?
$T$ 在有序基 ${α_{1}, α_{2}, α_{3}}$ 下的矩阵是什么, 其中 $α_{1} = (1, 0, 1), α_{2} = (- 1, 2, 1), α_{3} = (2, 1, 1)$ ?
证明 $T$ 是可逆的, 并如定义 $T$ 一样给出 $T^{- 1}$ 的规则.

练习8. 令

θ

是一个实数. 证明以下两个矩阵在复数域上是相似的:

[\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}], [\begin{matrix} e^{i θ} & 0 \\ 0 & e^{- i θ} \end{matrix}]

(提示: 令

T

是

ℂ^{2}

上的线性算子, 其在标准有序基下由第一个矩阵表示. 接着, 找出向量

α_{1}

和

α_{2}

使得

T α_{1} = e^{i θ} α_{1}, T α_{2} = e^{- i θ} α_{2}

并且

{α_{1}, α_{2}}

是一个基.)

练习9. 令

V

是域

F

上的一个有限维向量空间. 令

S

和

T

是

V

上的线性算子. 我们问: 什么时候存在

V

的有序基

𝔅

和

𝔅^{'}

使得

{[S]}_{𝔅} = {[T]}_{𝔅^{'}}

? 证明这样的基存在当且仅当存在一个

V

上的可逆线性算子

U

使得

T = U S U^{- 1}

. (证明大纲: 如果

{[S]}_{𝔅} = {[T]}_{𝔅^{'}}

, 令

U

是将

𝔅

映射成

𝔅^{'}

的线性算子, 然后表明

S = U T U^{- 1}

. 反过来, 如果对于某个可逆的

U

有

T = U S U^{- 1}

, 令

𝔅

是

V

任意的有序基, 令

𝔅^{'}

是其在

U

下的像 [译注: 当然要保持顺序], 然后表明

{[S]}_{𝔅} = {[T]}_{𝔅^{'}}

练习10. 我们已经知道由

T (x_{1}, x_{2}) = (x_{1}, 0)

定义的

ℝ^{2}

上的线性算子

T

在标准有序基下由矩阵

A = [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}]

表示. 这个算子满足

T^{2} = T

. 证明如果

S

是一个

ℝ^{2}

上满足

S^{2} = S

的线性算子, 那么

S = 0

, 或者

S = I

, 或者存在

ℝ^{2}

的一个有序基使得

{[S]}_{𝔅} = A

练习11. 令

W

是域

F

上所有

n \times 1

矩阵构成的空间. 如果

A

是域

F

上的一个

n \times n

矩阵, 那么

A

通过左乘定义了一个

W

上的线性算子

L_{A}

L_{A} (X) = A X

. 证明每个

W

上的线性算子都是左乘某个

n \times n

矩阵, 即是对于某个矩阵

A

而言的

L_{A}

.
现在设

V

是域

F

上的一个

n

维向量空间, 令

𝔅

是

V

的一个有序基. 对于每个

V

中的

α

, 定义

U α = {[α]}_{𝔅}

. 证明

U

是一个从

V

到

W

的线性算子. 如果

T

是一个

V

的线性算子, 那么

U T U^{- 1}

是一个

W

上的线性算子. 于是,

U T U^{- 1}

是一个左乘某个

n \times n

矩阵

A

的变换, 那么

A

是什么呢?

练习12. 令

V

是域

F

上的一个

n

维向量空间, 令

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基.

根据定理1, 存在唯一的 $V$ 上的线性算子 $T$ 满足 $T α_{j} = α_{j + 1}, j = 1, \dots, n - 1, T α_{n} = 0 .$ $T$ 在有序基 $𝔅$ 下的矩阵 $A$ 是什么?
证明 $T^{n} = 0$ 但是 $T^{n - 1} \neq 0$ .
令 $S$ 是 $V$ 上任意的满足 $S^{n} = 0$ 但是 $S^{n - 1} \neq 0$ 的线性算子. 证明存在 $V$ 的有序基 $𝔅^{'}$ 使得 $S$ 在 $𝔅^{'}$ 下的表示是a里的矩阵 $A$ .
证明如果 $M$ 和 $N$ 是域 $F$ 上满足 $M^{n} = N^{n} = 0$ 但是 $M^{n - 1} \neq 0$ 且 $N^{n - 1} \neq 0$ 的 $n \times n$ 矩阵, 那么 $M$ 和 $N$ 是相似的.

练习13. 令

V

和

W

是域

F

上的有限维向量空间. 令

T

是一个从

V

到

W

的线性变换. 如果

𝔅 = {α_{1}, \dots, α_{n}} 和 𝔅^{'} = {β_{1}, \dots, β_{m}}

分别是

V

和

W

的有序基, 如定理5的证明一样定义线性变换

E^{p, q}

E^{p, q} (α_{i}) = δ_{i, q} β_{p}

, 那么

E^{p, q}, 1 \leq p \leq m, 1 \leq q \leq n

构成了

L (V, W)

的一个基, 并且对于特定的标量

A_{p, q}

有

T = \sum_{p = 1}^{m} \sum_{q = 1}^{n} A_{p, q} E^{p, q} .

A_{p, q}

即

T

在这个

L (V, W)

的基下的坐标. 证明以

A (p, q) = A_{p, q}

为元素的矩阵

A

就恰是

T

相对于

𝔅

和

𝔅^{'}

的表示矩阵.

第3.5节线性泛函

如果 $V$ 是一个域 $F$ 上的向量空间, 那么从 $V$ 到标量域 $F$ 的线性变换 $f$ 也被称为 $V$ 上的线性泛函. 如果我们从头开始, 那么这意味着 $f$ 是一个从 $V$ 到 $F$ 的函数, 并且满足 $f (c α + β) = c f (α) + f (β)$ 对于所有 $V$ 中的 $α$ 和 $β$ 以及所有 $F$ 中的标量 $c$ 成立. 线性泛函这个概念的重要性在于它有助于组织和澄清关于子空间, 线性方程和坐标的讨论.

例子18. 令

F

是一个域而

a_{1}, \dots, a_{n}

是

F

中标量, 我们根据

f (x_{1}, \dots, x_{n}) = a_{1} x_{1} + \dots + a_{n} x_{n}

定义一个

F^{n}

上的函数

f

, 那么

f

是

F^{n}

上的一个线性泛函. 它是这样的泛函, 其在

F^{n}

的标准有序基和

F

的基

{1}

下由矩阵

[\begin{matrix} a_{1} & \dots & a_{n} \end{matrix}]

表示:

a_{j} = f (ε_{j}), j = 1, \dots, n .

[译注: 其实

{1}

就是

F

的标准有序基.] 每个

F^{n}

上的线性泛函都具有这种形式, 对于某些标量

a_{1}, \dots, a_{n}

而言. 这是由线性泛函的定义立即得到的, 因为如果我们定义

a_{j} = f (ε_{j})

并使用线性性质, 那么

\begin{array}{rcl} f (x_{1}, \dots, x_{n}) & = & f (\sum_{j = 1}^{n} x_{j} ε_{j}) \\ = & \sum_{j = 1}^{n} x_{j} f (ε_{j}) \\ = & \sum_{j = 1}^{n} a_{j} x_{j} \end{array}

例子19. 这里给出一个线性泛函的重要例子. 令

n

是一个正整数而

F

是一个域, 如果

A

是一个以

F

中标量为元素的

n \times n

矩阵, 那么

A

的迹是标量

tr (A) = A_{1, 1} + A_{2, 2} + \dots + A_{n, n} .

迹函数是一个矩阵空间

F^{n \times n}

上的线性泛函, 因为

\begin{array}{rcl} tr (c A + B) & = & \sum_{i = 1}^{n} (c A_{i, i} + B_{i, i}) \\ = & c \sum_{i = 1}^{n} A_{i, i} + \sum_{i = 1}^{n} B_{i, i} \\ = & c tr (A) + tr (B) \end{array}

例子20. 令

V

是所有从域

F

到自身的多项式函数构成的空间. 令

t

是

F

的一个元素. 如果我们定义

L_{t} (p) = p (t)

那么

L_{t}

是一个

V

上的线性泛函. 人们经常这样描述这个泛函, 对于每个

t

, "在

t

处求值"是一个多项式函数空间上的线性泛函. 或许我们应该指出, 在这个例子里多项式函数实际上并不发挥任何作用, 对于所有从

F

到

F

的函数构成的空间, 在

t

处求值同样也是一个线性泛函.

例子21. 这或许是数学中最重要的线性泛函. 令

[a, b]

是实轴上的一个闭区间,

C ([a, b])

是

[a, b]

上的连续实值函数构成的空间, 那么

L (g) = \int_{a}^{b} g (t) d t

定义了一个

C ([a, b])

上的线性泛函

L

如果 $V$ 是一个向量空间, 那么所有 $V$ 上的线性泛函自然地构成了一个向量空间, 此即 $L (V, F)$ , 我们记作 $V^{⁎}$ 并将其称为 $V$ 的对偶空间: $V^{⁎} = L (V, F) .$

如果 $V$ 是有限维的, 那么我们可以得到一个对于对偶空间 $V^{⁎}$ 相当显式的描述. 从定理5我们知道了一件关于 $V^{⁎}$ 的事情, 即 $\dim V^{⁎} = \dim V .$ 令 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个基. 根据定理1, (对于每个 $i$ )存在唯一的 $V$ 上的线性泛函 $f_{i}$ 满足 $f_{i} (α_{j}) = δ_{i, j} .$ 用这种方法我们从 $𝔅$ 得到了 $n$ 个不同的 $V$ 上的线性泛函 $f_{1}, \dots, f_{n}$ . 这些泛函也是线性无关的, 因为若设 $f = \sum_{i = 1}^{n} c_{i} f_{i}$ 那么 $\begin{array}{rcl} f (α_{j}) & = & \sum_{i = 1}^{n} c_{i} f_{i} (α_{j}) \\ = & \sum_{i = 1}^{n} c_{i} δ_{i, j} \\ = & c_{j} \end{array}$ 特别地, 如果 $f$ 是零泛函, 那么对于每个 $j$ 有 $f (α_{j}) = 0$ , 因此标量 $c_{j}$ 都是 $0$ . 现在 $f_{1}, \dots, f_{n}$ 是 $n$ 个线性无关的泛函, 而且我们知道 $V^{⁎}$ 的维数是 $n$ , 那么 $𝔅^{⁎} = {f_{1}, \dots, f_{n}}$ 必然是 $V^{⁎}$ 的一个基, 其被称为 $𝔅$ 的对偶基.

定理15. 令

V

是域

F

上的一个有限维向量空间, 令

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个基. 那么, 存在唯一的

V^{⁎}

的对偶基

𝔅^{⁎} = {f_{1}, \dots, f_{n}}

, 其满足

f_{i} (α_{j}) = δ_{i, j}

. 对于每个

V

上的线性泛函

f

, 我们有

f = \sum_{i = 1}^{n} f (α_{i}) f_{i}

以及对于每个

V

中的

α

, 我们有

α = \sum_{i = 1}^{n} f_{i} (α) α_{i} .

证明. 上面我们已经说明了存在唯一的基与

𝔅

"对偶". 如果

f

是一个

V

上的线性泛函, 那么

f

即是

f_{i}

的某个线性组合, 并且我们观察到标量

c_{j}

必然由

c_{j} = f (α_{j})

给出. 类似地, 如果

α = \sum_{i = 1}^{n} x_{i} α_{i}

是

V

的一个向量, 那么

\begin{array}{rcl} f_{j} (α) & = & \sum_{i = 1}^{n} x_{i} f_{j} (α_{i}) \\ = & \sum_{i = 1}^{n} x_{i} δ_{i, j} \\ = & x_{j} \end{array}

因此

α

作为

α_{i}

的线性组合的唯一表达为

α = \sum_{i = 1}^{n} f_{i} (α) α_{i} .

◻

上面这个式子给我们提供了一种刻画对偶基的绝佳方式. 它是说, 如果 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基, 并且 $𝔅^{⁎} = {f_{1}, \dots, f_{n}}$ 是其对偶基, 那么 $f_{i}$ 就恰是那个赋予 $V$ 中的向量 $α$ 相对于有序基 $𝔅$ 的第 $i$ 个坐标的函数. 因此, 我们也可以将 $f_{i}$ 称为 $𝔅$ 的坐标函数. 定理15实际上告诉了我们以下事实: 如果 $f$ 在 $V^{⁎}$ 中而令 $f (α_{i}) = a_{i}$ , 那么当 $α = x_{1} α_{1} + \dots + x_{n} α_{n}$ 时, 我们有 $f (α) = a_{1} x_{1} + \dots + a_{n} x_{n} .$ 换言之, 如果我们选定了 $V$ 的一个有序基 $𝔅$ 并描述 $V$ 中的每个向量以其相对于 $𝔅$ 的 $n$ 元坐标组 $(x_{1}, \dots, x_{n})$ , 那么每个 $V$ 上的线性泛函都具有 $f (α) = a_{1} x_{1} + \dots + a_{n} x_{n}$ 的形式. 这是例子18的自然泛化, 其为 $V = F^{n}$ 和 $𝔅 = {ε_{1}, \dots, ε_{n}}$ 的特别情形.

例子22. 令

V

是所有从

ℝ

到

ℝ

的次数小于等于

2

的多项式函数构成的向量空间, 令

t_{1}, t_{2}, t_{3}

是三个不同的实数, 令

L_{i} (p) = p (t_{i}) .

那么,

L_{1}, L_{2}, L_{3}

是

V

上的线性泛函. 这些线性泛函是线性无关的, 因为若设

L = c_{1} L_{1} + c_{2} L_{2} + c_{3} L_{3}

当

L = 0

时, 即对于每个

V

中的

p

都有

L (p) = 0

, 那么应用

L

于特定的多项式"函数"

1, x, x^{2}

, 我们就得到

{\begin{matrix} c_{1} & + & c_{2} & + & c_{3} & = & 0 \\ t_{1} c_{1} & + & t_{2} c_{2} & + & t_{3} c_{3} & = & 0 \\ t_{1}^{2} c_{1} & + & t_{2}^{2} c_{2} & + & t_{3}^{2} c_{3} & = & 0 \end{matrix}

从中我们得到

c_{1} = c_{2} = c_{3} = 0

, 因为(根据简单的计算可知)矩阵

[\begin{matrix} 1 & 1 & 1 \\ t_{1} & t_{2} & t_{3} \\ t_{1}^{2} & t_{2}^{2} & t_{3}^{2} \end{matrix}]

在

t_{1}, t_{2}, t_{3}

互异时是可逆的. 既然

L_{i}

是线性无关的并且

V

的维数是

3

, 这些泛函构成了

V^{⁎}

的一个基. 它是什么

V

的基的对偶呢? 这样一个

V

的基

{p_{1}, p_{2}, p_{3}}

必然满足

L_{i} (p_{j}) = δ_{i, j}

或者说

p_{j} (t_{i}) = δ_{i, j} .

很容易看出这些多项式函数应该是

p_{1} (x) = \frac{(x - t_{2}) (x - t_{3})}{(t_{1} - t_{2}) (t_{1} - t_{3})}, p_{2} (x) = \frac{(x - t_{1}) (x - t_{3})}{(t_{2} - t_{1}) (t_{2} - t_{3})}, p_{3} (x) = \frac{(x - t_{1}) (x - t_{2})}{(t_{3} - t_{1}) (t_{3} - t_{2})} .

V

的基

{p_{1}, p_{2}, p_{3}}

是有趣的, 因为根据定理15, 对于每个

V

中的

p

我们有

p = p (t_{1}) p_{1} + p (t_{2}) p_{2} + p (t_{3}) p_{3} .

因此, 如果

c_{1}, c_{2}, c_{3}

是任意的实数, 那么恰存在唯一的

ℝ

上的次数至多为

2

的多项式函数

p

满足

p (t_{j}) = c_{j}, j = 1, 2, 3

. 这个多项式函数为

p = c_{1} p_{1} + c_{2} p_{2} + c_{3} p_{3}

现在让我们来讨论线性泛函和子空间之间的关系. 如果 $f$ 是一个非零的线性泛函, 那么 $f$ 的秩就是 $1$ , 因为其像是标量域的非零子空间, 必然是标量域本身. 如果潜在的空间 $V$ 是有限维的, 那么秩加零化度定理 (定理2) 告诉我们零空间 $N_{f}$ 的维数 $\dim N_{f} = \dim V - 1 .$

在一个 $n$ 维空间中, 具有 $n - 1$ 维的子空间被称为超空间. 这样的空间有时也被称为超平面或者余维数为 $1$ 的子空间. 每个超空间都是某个线性泛函的零空间吗? 答案很容易看出来是yes. 而且, 证明以下事实也并不更加困难. $n$ 维空间的每个 $d$ 维子空间都是 $(n - d)$ 个线性泛函的零空间之交. (下面的定理16)

定义. 如果

V

是域

F

上的向量空间而

S

是

V

的一个子集,

S

的零化子

S^{0}

是

V

上所有这样的线性泛函

f

构成的集合, 其对于每个

S

中的

α

有

f (α) = 0

读者应该很容易看出 $S^{0}$ 是 $V^{⁎}$ 的子空间, 不论 $S$ 是否是 $V$ 的子空间. 如果 $S$ 仅包含零向量, 那么 $S^{0} = V^{⁎}$ . 如果 $S = V$ , 那么 $S^{0}$ 是 $V^{⁎}$ 的零子空间. (在 $V$ 是有限维的情况下很容易看出来.)

定理16. 令

V

是域

F

上的有限维向量空间, 令

W

是

V

的子空间, 那么

\dim W + \dim W^{0} = \dim V .

证明. 令

k

是

W

的维数而

{α_{1}, \dots, α_{k}}

是

W

的一个基. 选择

V

中向量

α_{k + 1}, \dots, α_{n}

使得

{α_{1}, \dots, α_{n}}

是

V

的一个基. 令

{f_{1}, \dots, f_{n}}

是

V^{⁎}

的基, 其对偶于这个

V

的基. 我们现在证明

{f_{k + 1}, \dots, f_{n}}

是零化子

W^{0}

的一个基. 显然对于

i \geq k + 1

我们知道

f_{i}

属于

W^{0}

, 因为

f_{i} (α_{j}) = δ_{i, j}

于是当

i \geq k + 1

且

j \leq k

时有

δ_{i, j} = 0

. 从中我们可知当

α

是

α_{1}, \dots, α_{k}

的线性组合时, 对于

i \geq k + 1

有

f_{i} (α) = 0

. 因为泛函

{f_{k + 1}, \dots, f_{n}}

是线性无关的, 所以剩下来我们必须要做的就是证明它们可以张成

W^{0}

. 设

f

在

V^{⁎}

中, 既然

f = \sum_{i = 1}^{n} f (α_{i}) f_{i},

于是若

f

在

W^{0}

中, 我们有

f (α_{i}) = 0

对于

i \leq k

成立, 那么

f = \sum_{i = k + 1}^{n} f (α_{i}) f_{i} .

我们证明了如果

\dim W = k

而

\dim V = n

, 那么

\dim W^{0} = n - k

◻

推论. 如果

W

是

n

维向量空间

V

的

k

维子空间, 那么

W

是

V

中

(n - k)

个超空间之交.

证明. 这是定理16证明的推论而不是定理16本身的推论. 在这个证明的记号下,

W

恰是满足

f_{i} (α) = 0, i = k + 1, \dots, n

的所有向量

α

的集合. 在

k = n - 1

的情形,

W

即是

f_{n}

的零空间.

◻

推论. 如果

W_{1}

和

W_{2}

是某个有限维向量空间的子空间, 那么

W_{1} = W_{2}

当且仅当

W_{1}^{0} = W_{2}^{0}

证明. 如果

W_{1} = W_{2}

, 那么显然有

W_{1}^{0} = W_{2}^{0}

. 如果

W_{1} \neq W_{2}

, 那么其中之一的子空间包含有不在另一个子空间的向量. 不妨设向量

α

在

W_{2}

之中但不在

W_{1}

中. 根据前面的推论 (或者定理16的证明), 存在一个线性泛函

f

满足对于所有的

W_{1}

中

β

有

f (β) = 0

但

f (α) \neq 0

, 那么

f

在

W_{1}^{0}

之中但不在

W_{2}^{0}

中, 即

W_{1}^{0} \neq W_{2}^{0}

◻

接下来的一节我们将给出这两个推论的不同的证明. 第一个推论是说, 如果我们挑选了空间的某个有序基, 那么每个 $k$ 维的子空间都可以由 $(n - k)$ 个相对于基的坐标上的齐次线性条件刻画.

让我们从线性泛函的视角简要看看齐次线性方程组. 设我们有一个想要求解的齐次线性方程组 ${\begin{matrix} A_{1, 1} x_{1} & + & \dots & + & A_{1, n} x_{n} & = & 0 \\ ⋮ & ⋮ \\ A_{m, 1} x_{1} & + & \dots & + & A_{m, n} x_{n} & = & 0 \end{matrix}$ 如果我们令 $f_{i}, i = 1, \dots, m$ 是由 $f_{i} (x_{1}, \dots, x_{n}) = A_{i, 1} x_{1} + \dots + A_{i, n} x_{n}$ 定义的 $F^{n}$ 上的线性泛函, 那么其实我们就是在寻找一个 $F^{n}$ 的子空间, 其由所有满足 $f_{i} (α) = 0, i = 1, \dots, m$ 的 $α$ 构成. 换言之, 我们在寻找被 $f_{1}, \dots, f_{m}$ 零化的子空间. 对于系数矩阵进行行规约为我们提供了找出这个子空间的系统方法. $n$ 元组 $(A_{i, 1}, \dots, A_{i, n})$ 给出了线性泛函 $f_{i}$ 相对于与 $F^{n}$ 的标准基对偶的基的坐标. 系数矩阵的行空间因此可被视为由 $f_{1}, \dots, f_{m}$ 张成的线性泛函的空间, 而解空间是被这个泛函的空间零化的子空间.

现在我们或许可以从"对偶"的角度看待线性方程组, 即给定 $F^{n}$ 中的 $m$ 个向量 $α_{i} = (A_{i, 1}, \dots, A_{i, n})$ 我们希望寻找由这些向量张成的子空间的零化子. 既然 $F^{n}$ 上一个典型的线性泛函具有形式 $f (x_{1}, \dots, x_{n}) = c_{1} x_{1} + \dots + c_{n} x_{n}$ 那么 $f$ 在这个零化子之中的条件即 $\sum_{j = 1}^{n} A_{i, j} c_{j} = 0, i = 1, \dots, m$ 换言之, $(c_{1}, \dots, c_{n})$ 是线性方程组 $A X = 0$ 的一个解. 从此观点来看, 行规约为我们提供了一种系统性的方法来寻找由给定的 $F^{n}$ 的有限子集张成的子空间的零化子.

例子23. 现在我们给出

ℝ^{4}

上的三个线性泛函:

\begin{array}{l} f_{1} (x_{1}, x_{2}, x_{3}, x_{4}) & = & x_{1} + 2 x_{2} + 2 x_{3} + x_{4} \\ f_{2} (x_{1}, x_{2}, x_{3}, x_{4}) & = & 2 x_{2} + x_{4} \\ f_{3} (x_{1}, x_{2}, x_{3}, x_{4}) & = & - 2 x_{1} - 4 x_{3} + 3 x_{4} \end{array}

它们所零化的子空间可以通过显式寻找矩阵

A = [\begin{matrix} 1 & 2 & 2 & 1 \\ 0 & 2 & 0 & 1 \\ - 2 & 0 & - 4 & 3 \end{matrix}]

的行简化阶梯形式得到. 经过简单的计算, 或者看看第2章的例子21, 我们知道

R = [\begin{matrix} 1 & 0 & 2 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] .

因此, 线性泛函

\begin{array}{l} g_{1} (x_{1}, x_{2}, x_{3}, x_{4}) & = & x_{1} + 2 x_{3} \\ g_{2} (x_{1}, x_{2}, x_{3}, x_{4}) & = & x_{2} \\ g_{3} (x_{1}, x_{2}, x_{3}, x_{4}) & = & x_{4} \end{array}

与

f_{1}, f_{2}, f_{3}

张成了相同的

{(ℝ^{4})}^{⁎}

的子空间, 并且零化了相同的

ℝ^{4}

的子空间. 被零化的子空间由所有满足

x_{1} = - 2 x_{3}, x_{2} = x_{4} = 0

的向量构成.

例子24. 令

W

是由

α_{1} = (2, - 2, 3, 4, - 1), α_{2} = (- 1, 1, 2, 5, 2), α_{3} = (0, 0, - 1, - 2, 3), α_{4} = (1, - 1, 2, 3, 0)

张成的

ℝ^{5}

的子空间. 人们该如何描述

W^{0}

, 即

W

的零化子呢? 让我们构造一个以

α_{1}, α_{2}, α_{3}, α_{4}

为行向量的矩阵

A

, 并找出行等价于

A

的行简化阶梯矩阵

R

A = [\begin{matrix} 2 & - 2 & 3 & 4 & - 1 \\ - 1 & 1 & 2 & 5 & 2 \\ 0 & 0 & - 1 & - 2 & 3 \\ 1 & - 1 & 2 & 3 & 0 \end{matrix}] \to R = [\begin{matrix} 1 & - 1 & 0 & - 1 & 0 \\ 0 & 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 \end{matrix}] .

如果

f

是

ℝ^{5}

上的一个线性泛函:

f (x_{1}, \dots, x_{5}) = \sum_{j = 1}^{5} c_{j} x_{j}

那么

f

在

W^{0}

中当且仅当

f (α_{i}) = 0, i = 1, 2, 3, 4

, 即当且仅当

\sum_{j = 1}^{5} A_{i, j} c_{j} = 0, 1 \leq i \leq 4 .

这等价于

\sum_{j = 1}^{5} R_{i, j} c_{j} = 0, 1 \leq i \leq 3

或者

\begin{array}{r} c_{1} - c_{2} - c_{4} & = & 0 \\ c_{3} + 2 c_{4} & = & 0 \\ c_{5} & = & 0 \end{array}

我们可以通过给

c_{2}

和

c_{4}

赋任意的值以得到所有这样的线性泛函

f

, 例如令

c_{2} = a

和

c_{4} = b

, 然后找出相应的

c_{1} = a + b, c_{3} = - 2 b, c_{5} = 0

. 于是,

W^{0}

由所有具有形式

f (x_{1}, x_{2}, x_{3}, x_{4}, x_{5}) = (a + b) x_{1} + a x_{2} - 2 b x_{3} + b x_{4}

的线性泛函

f

构成.

W^{0}

的维数是

2

, 而

W^{0}

的一个基

{f_{1}, f_{2}}

可由先令

a = 1, b = 0

再令

a = 0, b = 1

得到:

\begin{array}{l} f_{1} (x_{1}, \dots, x_{5}) & = & x_{1} + x_{2} \\ f_{2} (x_{1}, \dots, x_{5}) & = & x_{1} - 2 x_{3} + x_{4} \end{array}

上面

W^{0}

中一般的

f

即

f = a f_{1} + b f_{2}

练习1. 在

ℝ^{3}

中, 令

α_{1} = (1, 0, 1), α_{2} = (0, 1, - 2), α_{3} = (- 1, - 1, 0)

如果 $f$ 是 $ℝ^{3}$ 上满足 $f (α_{1}) = 1, f (α_{2}) = - 1, f (α_{3}) = 3$ 的线性泛函, 并且 $α = (a, b, c)$ , 找出 $f (α)$ .
显式描述 $ℝ^{3}$ 上满足 $f (α_{1}) = f (α_{2}) = 0 但是 f (α_{3}) \neq 0$ 的线性泛函 $f$ .
令 $f$ 是任意的满足 $f (α_{1}) = f (α_{2}) = 0 并且 f (α_{3}) \neq 0$ 的线性泛函. 如果 $α = (2, 3, - 1)$ , 表明 $f (α) \neq 0$ .

练习2. 令

𝔅 = {α_{1}, α_{2}, α_{3}}

是

ℂ^{3}

的基, 其由

α_{1} = (1, 0, - 1), α_{2} = (1, 1, 1), α_{3} = (2, 2, 0)

定义. 找出

𝔅

的对偶基.

练习3. 如果

A

和

B

是域

F

上的

n \times n

矩阵, 证明

trace (A B) = trace (B A)

, 接着证明相似矩阵有着相同的迹.

练习4. 令

V

是从

ℝ

到

ℝ

的所有次数小于等于

2

的多项式函数

p

p (x) = c_{0} + c_{1} x + c_{2} x^{2}

构成的向量空间. 定义三个

V

上的线性泛函如下:

f_{1} (p) = \int_{0}^{1} p (x) d x, f_{2} (p) = \int_{0}^{2} p (x) d x, f_{3} (p) = \int_{0}^{- 1} p (x) d x .

证明

{f_{1}, f_{2}, f_{3}}

是

V

的基, 通过找出以其为对偶的

V

的基.

练习5. 如果

A

和

B

是

n \times n

的复矩阵, 证明

A B - B A = I

是不可能的.

练习6. 令

m

和

n

是正整数而

F

是一个域. 令

f_{1}, \dots, f_{m}

是

F^{n}

上的线性泛函. 对于

F^{n}

中的

α

, 定义

T α = (f_{1} (α), \dots, f_{m} (α)) .

证明

T

是一个从

F^{n}

到

F^{m}

的线性变换, 接着表明每个从

F^{n}

到

F^{m}

的线性变换都具有以上形式, 对于特定的

f_{1}, \dots, f_{m}

而言.

练习7. 令

α_{1} = (1, 0, - 1, 2)

和

α_{2} = (2, 3, 1, 1)

, 令

W

是

α_{1}

和

α_{2}

张成的

ℝ^{4}

的子空间. 哪些线性泛函

f

f (x_{1}, x_{2}, x_{3}, x_{4}) = c_{1} x_{1} + c_{2} x_{2} + c_{3} x_{3} + c_{4} x_{4}

在

W

的零化子之中呢?

练习8. 令

W

是

ℝ^{5}

的子空间, 其由下列向量张成:

α_{1} = ε_{1} + 2 ε_{2} + ε_{3}, α_{2} = ε_{2} + 3 ε_{3} + 3 ε_{4} + ε_{5}, α_{3} = ε_{1} + 4 ε_{2} + 6 ε_{3} + 4 ε_{4} + ε_{5} .

找出

W^{0}

的一个基.

练习9. 令

V

是实数域上的所有

2 \times 2

矩阵的向量空间, 令

B = [\begin{matrix} 2 & - 2 \\ - 1 & 1 \end{matrix}] .

令

W

是

V

的子空间, 其由所有满足

A B = 0

的矩阵

A

构成. 令

f

是

V

上的线性泛函, 其在

W

的零化子之中. 设

f (I) = 0

且

f (C) = 3

, 其中

I

是

2 \times 2

的恒等矩阵而

C = [\begin{matrix} 0 & 0 \\ 0 & 1 \end{matrix}] .

找出

f (B)

练习10. 令

F

是复数域的一个子域. 我们通过

f_{k} (x_{1}, \dots, x_{n}) = \sum_{j = 1}^{n} (k - j) x_{j}, 1 \leq k \leq n

定义

F^{n}

上的

n

个线性泛函, 其中

n \geq 2

. 由

f_{1}, \dots, f_{n}

零化的子空间维数是多少呢?

练习11. 令

W_{1}

和

W_{2}

是有限维向量空间

V

的子空间.

证明 ${(W_{1} + W_{2})}^{0} = W_{1}^{0} \cap W_{2}^{0}$ .
证明 ${(W_{1} \cap W_{2})}^{0} = W_{1}^{0} + W_{2}^{0}$ .

练习12. 令

V

是域

F

上的一个有限维向量空间. 令

W

是

V

的一个子空间. 如果

f

是

W

上的线性泛函, 证明存在一个

V

上的线性泛函

g

满足对于每个

W

中的

α

有

g (α) = f (α)

练习13. 令

F

是复数域的一个子域. 令

V

是域

F

上任意的向量空间. 设

f

和

g

是

V

上的线性泛函, 并且满足由

h (α) = f (α) g (α)

定义的函数

h

仍然是

V

上的线性泛函. 证明

f = 0

或

g = 0

练习14. 令

F

是特征为零的域. 令

V

是域

F

上的一个有限维向量空间. 如果

α_{1}, \dots, α_{m}

是

V

中有限多个向量, 并且每个都异于零向量, 证明存在

V

上的线性泛函

f

满足

f (α_{i}) \neq 0, i = 1, \dots, m .

练习15. 根据练习3, 相似的矩阵拥有相同的迹. 因此, 我们可以将有限维空间上的线性算子的迹定义为其在任意有序基下的矩阵的迹. 这是良定的, 因为所有这样的表示矩阵都是相似的.
现在令

V

是域

F

上的

2 \times 2

矩阵的向量空间, 令

P

是一个固定的

2 \times 2

矩阵. 令

T

是由

T (A) = P A

定义的

V

上的线性算子. 证明

trace (T) = 2 trace (P)

练习16. 证明

n \times n

矩阵上的迹泛函在以下意义上唯一. 如果

W

是域

F

上的

n \times n

矩阵的空间, 如果

f

是

W

上满足对于

W

中的每个

A

和

B

有

f (A B) = f (B A)

的线性泛函, 那么

f

是迹函数的标量倍数. 另外, 如果

f (I) = n

, 那么

f

就是迹函数.

练习17. 令

W

是域

F

上的

n \times n

矩阵的空间. 令

W_{0}

是由所有具有形式

C = A B - B A

的矩阵

C

张成的子空间. 证明

W_{0}

恰好就是迹为零的矩阵构成的子空间. (提示: 迹为零的矩阵的空间的维数是什么? 使用矩阵"单元", 即恰具有一个非零元素的矩阵, 来构造足够多具有

A B - B A

形式的线性无关的矩阵.)

第3.6节二次对偶

上一节我们还有一个没有回答的问题, 即是否每个 $V^{⁎}$ 的基都是某个 $V$ 的基的对偶. 一种回答这个问题的方式是考虑 $V^{⁎⁎}$ , 即 $V^{⁎}$ 的对偶空间.

如果 $α$ 是 $V$ 中的一个向量, 那么 $α$ 导出了一个 $V^{⁎}$ 上的线性泛函, 即 $L_{α} (f) = f (α), f \in V^{⁎} .$ $L_{α}$ 是线性的这一事实不过就是对于 $V^{⁎}$ 中的线性泛函的定义的重述: $\begin{array}{rcl} L_{α} (c f + g) & = & (c f + g) (α) \\ = & (c f) (α) + g (α) \\ = & c f (α) + g (α) \\ = & c L_{α} (f) + L_{α} (g) \end{array}$ 如果 $V$ 是有限维的并且 $α \neq 0$ , 那么 $L_{α} \neq 0$ . 换言之, 存在线性泛函 $f$ 满足 $f (α) \neq 0$ . 证明非常简单, 在第3.5节已经给过了: 选择一个 $V$ 的有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ , 其中 $α_{1} = α$ , 令 $f$ 是赋予每个 $V$ 中向量其在有序基 $𝔅$ 下的坐标的第一分量的线性泛函. [译注: 换句话说, $f$ 即满足 $f (α_{1}) = 1$ 而 $f (α_{i}) = 0, 2 \leq i \leq n$ 的存在且唯一的那个线性泛函.]

定理17. 令

V

是域

F

上的一个有限维向量空间. 对于每个

V

中的向量

α

, 定义

L_{α} (f) = f (α), f \in V^{⁎} .

映射

α \mapsto L_{α}

是一个从

V

到

V^{⁎⁎}

的同构.

证明. 我们已经证明过对于每个

α

函数

L_{α}

是线性的了. 设

α

和

β

在

V

中而

c

在

F

中, 令

γ = c α + β

, 那么对于

V^{⁎}

中的每个

f

有

\begin{array}{rcl} L_{γ} (f) & = & f (γ) \\ = & f (c α + β) \\ = & c f (α) + f (β) \\ = & c L_{α} (f) + L_{β} (f) \\ = & (c L_{α} + L_{β}) (f) \end{array}

于是

L_{γ} = c L_{α} + L_{β} .

这表明映射

α \mapsto L_{α}

是一个从

V

到

V^{⁎⁎}

的线性变换. 这个变换是非奇异的, 因为根据之前的评注,

L_{α} = 0

当且仅当

α = 0

. 既然

α \mapsto L_{α}

是从

V

到

V^{⁎⁎}

的非奇异的线性变换, 并且

\dim V^{⁎⁎} = \dim V^{⁎} = \dim V

定理9告诉我们这个变换是可逆的, 因而是一个从

V

到

V^{⁎⁎}

的同构.

◻

推论. 令

V

是域

F

上的一个有限维向量空间. 如果

L

是

V

的对偶空间

V^{⁎}

上的一个线性泛函, 那么

V

中存在唯一的向量

α

满足

L (f) = f (α)

对于

V^{⁎}

中的每个

f

成立.

推论. 令

V

是域

F

上的一个有限维向量空间. 每个

V^{⁎}

的基都是某个

V

的基的对偶.

证明. 令

𝔅^{⁎} = {f_{1}, \dots, f_{n}}

是

V^{⁎}

的一个基. 根据定理15, 存在

V^{⁎⁎}

的一个基

{L_{1}, \dots, L_{n}}

满足

L_{i} (f_{j}) = δ_{i, j} .

使用上面的推论, 对于每个

i

存在

V

中唯一的向量

α_{i}

满足

L_{i} (f) = f (α_{i})

对于

V^{⁎}

中的每个

f

成立, 即

L_{i} = L_{α_{i}}

. 立刻就能得到

{α_{1}, \dots, α_{n}}

是

V

的一个基, 并且

𝔅^{⁎}

是这个基的对偶.

◻

在定理17的观点下, 我们通常将 $α$ 和 $L_{α}$ 视为等同的, 并称 $V$ "是" $V^{⁎}$ 的对偶空间或者说空间 $V$ 和 $V^{⁎}$ 自然地相互对偶. 上面的推论中, 我们描述了该定理是怎样可能有用的. 下面我们给出更进一步的刻画.

如果 $E$ 是 $V^{⁎}$ 的一个子集, 那么零化子 $E^{0}$ (从技术上说)是 $V^{⁎⁎}$ 的一个子集. 如果我们选择如定理17那样将 $V$ 和 $V^{⁎⁎}$ 视为等同的, 那么 $E^{0}$ 是一个 $V$ 的一个子空间, 即所有满足对于每个 $E$ 中的 $f$ 有 $f (α) = 0$ 的 $V$ 中向量 $α$ 构成的集合. 在定理16的一个推论中我们注意到每个子空间 $W$ 是由其零化子 $W^{0}$ 决定的. 然而是怎样决定的呢? 答案是 $W$ 是被所有 $W^{0}$ 中的 $f$ 零化的子空间 [译注: 这个也是定理16的推论], 即所有 $W^{0}$ 中的 $f$ 的零空间之交. 在我们现有的零化子的记号下, 这个定理可以被简单地陈述为: $W = {(W^{0})}^{0}$ .

定理18. 如果

S

是有限维向量空间

V

的子集, 那么

{(S^{0})}^{0}

是由

S

张成的子空间.

证明. 令

W

是由

S

张成的子空间. 显然

W^{0} = S^{0}

. 因此, 我们要证明的是

W = W^{00}

. 我们已经给出了一个证明, 现在我们给出另一个. 根据定理16, 我们有

\dim W + \dim W^{0} = \dim V, \dim W^{0} + \dim W^{00} = \dim V^{⁎}

既然

\dim V = \dim V^{⁎}

, 于是

\dim W = \dim W^{00} .

因为

W

是

W^{00}

的子空间, 所以我们知道

W = W^{00}

◻

本节的结果对于任意的向量空间也是成立的. 然而, 证明就需要使用所谓的选择公理 (Axiom of Choice). 我们想避免被卷入对于这个公理的冗长讨论之中, 所以我们不会对于一般的向量空间处理零化子的结果. 然而, 有两个关于一般向量空间上的线性泛函的结果是如此基本, 以至于我们要涵盖它们.

令 $V$ 是一个向量空间. 我们想要定义 $V$ 中的超空间. 除非 $V$ 是有限维的, 否则我们不能通过维数来定义超空间. 但是, 我们可以用以下的方式来表达一个空间 $N$ 差一个维度就能填满 $V$ 的想法:

$N$ 是 $V$ 的一个真子空间;
如果 $W$ 是一个包含 $N$ 的子空间, 那么要么 $W = N$ 要么 $W = V$ .

条件1和2表达了

N

是一个真子空间并且没有更大的真子空间, 换言之,

N

是极大的真子空间.

定义. 如果

V

是一个向量空间, 那么

V

中的一个超空间就是

V

的一个极大的真子空间.

定理19. 如果

f

是向量空间

V

上的一个非零的线性泛函, 那么

f

的零空间就是

V

中的一个超空间. 反过来说, 每个

V

中的超空间都是某个

V

上(并不唯一的)非零的线性泛函的零空间.

证明. 令

f

是

V

上一个非零的线性泛函, 并且

N_{f}

是其零空间. 我们令

α

是一个不在

N_{f}

中的

V

的向量, 即一个满足

f (α) \neq 0

的向量. 我们将证明

V

中的每个向量都在

N_{f}

和

α

张成的子空间之中. 这个子空间由所有具有形式

γ + c α, γ \in N_{f}, c \in F

的向量构成. 令

β

是

V

中的向量, 定义

c = \frac{f (β)}{f (α)}

这个定义是合理的, 因为

f (α) \neq 0

. 那么,

γ = β - c α

在

N_{f}

之中, 因为

\begin{array}{rcl} f (γ) & = & f (β - c α) \\ = & f (β) - c f (α) \\ = & 0 \end{array}

于是

β

在由

N_{f}

和

α

张成的子空间中.
现在令

N

是

V

中的一个超空间. 固定

α

为某个不在

N

中的向量. 既然

N

是极大的真子空间, 那么由

N

和

α

张成的子空间就是整个空间

V

. 因此, 每个

V

中的向量

β

都具有形式

β = γ + c α, γ \in N, c \in F .

向量

γ

和标量

c

是由

β

唯一确定的. 如果我们也有

β = γ^{'} + c^{'} α, γ^{'} \in N, c^{'} \in F,

那么

(c^{'} - c) α = γ - γ^{'} .

如果

c^{'} - c \neq 0

, 那么

α

就应该在

N

中了, 因而有

c^{'} = c

且

γ^{'} = γ

. 另一种表述这个结论的方式如下: 如果

β

在

V

中, 那么存在唯一的标量

c

使得

β - c α

在

N

中. 称这个标量为

g (β)

. 很容易看出来

g

是

V

上的一个线性泛函并且

N

是

g

的零空间.

◻

引理. 如果

f

和

g

是一个向量空间

V

上的线性泛函, 那么

g

是

f

的标量倍数当且仅当

g

的零空间包含

f

的零空间, 即当且仅当

f (α) = 0

可以推出

g (α) = 0

证明. 如果

f = 0

, 那么也有

g = 0

g

平凡地是

f

的标量倍数. 设

f \neq 0

, 于是其零空间

N_{f}

是

V

中的一个超空间. 选择

V

中的某个向量

α

使得

f (α) \neq 0

, 并且令

c = \frac{g (α)}{f (α)} .

线性泛函

h = g - c f

在

N_{f}

上是

0

, 因为

f

和

g

在其上都是

0

. 并且, 我们还有

h (α) = g (α) - c f (α) = 0

. 因此,

h

在由

N_{f}

和

α

张成的子空间上都是

0

, 而这个子空间就是

V

. 于是, 我们得出结论

h = 0

, 即

g = c f

◻

定理20. 令

g, f_{1}, \dots, f_{r}

是向量空间

V

上的线性泛函, 设其相应的零空间分别为

N, N_{1}, \dots, N_{r}

. 那么,

g

是

f_{1}, \dots, f_{r}

的线性组合当且仅当 (if and only if)

N

包含交集

N_{1} \cap \dots \cap N_{r}

证明. 如果

g = c_{1} f_{1} + \dots + c_{r} f_{r}

且对于每个

i

有

f_{i} (α) = 0

, 那么显然

g (α) = 0

. 因此,

N

包含

N, N_{1}, \dots, N_{r}

.
我们将通过数字

r

上的归纳证明另一个方向 (定理的"if"一半). 之前的引理处理了

r = 1

的情况. 设我们已知结果对于

r = k - 1

成立, 并且令

f_{1}, \dots, f_{k}

是分别以

N_{1}, \dots, N_{k}

为零空间的线性泛函, 满足

N_{1} \cap \dots \cap N_{k}

是

N

的子集,

N

即

g

的零空间. 令

g^{'}, f_{1}^{'}, \dots, f_{k - 1}^{'}

分别是

g, f_{1}, \dots, f_{k - 1}

于子空间

N_{k}

上的限制, 那么

g^{'}, f_{1}^{'}, \dots, f_{k - 1}^{'}

是向量空间

N_{k}

上的线性泛函. 而且, 如果

α

是一个

N_{k}

中的向量并有

f_{i}^{'} (α) = 0, i = 1, \dots, k - 1

, 那么

α

在

N_{1} \cap \dots \cap N_{k}

之中, 因而有

g^{'} (α) = 0

. 根据归纳 (

r = k - 1

的情形), 存在标量

c_{i}

满足

g^{'} = c_{1} f_{1}^{'} + \dots + c_{k - 1} f_{k - 1}^{'} .

现在令

h = g - \sum_{i = 1}^{k - 1} c_{i} f_{i},

那么

h

是一个

V

上的线性泛函, 并且

h

的定义告诉我们对于每个

N_{k}

中的

α

有

h (α) = 0

. 根据之前的引理,

h

是

f_{k}

的一个标量倍数. 如果

h = c_{k} f_{k}

, 那么

g = \sum_{i = 1}^{k} c_{i} f_{i} .

◻

练习1. 令

n

是一个正整数而

F

是一个域. 令

W

是

F^{n}

中所有满足

x_{1} + \dots + x_{n} = 0

的

(x_{1}, \dots, x_{n})

构成的集合.

证明 $W^{0}$ 由所有具有形式 $f (x_{1}, \dots, x_{n}) = c \sum_{j = 1}^{n} x_{j}$ 的线性泛函 $f$ 构成.
证明 $W$ 的对偶空间 $W^{⁎}$ 可被"自然地"等同为 $F^{n}$ 上所有满足 $c_{1} + \dots + c_{n} = 0$ 的线性泛函 $f (x_{1}, \dots, x_{n}) = c_{1} x_{1} + \dots + c_{n} x_{n}$ 构成的集合.

练习2. 运用定理20来证明以下事实. 如果

W

是一个有限维向量空间

V

的子空间, 并且如果

{g_{1}, \dots, g_{r}}

是

W^{0}

任意的基, 那么

W = ⋂_{i = 1}^{r} N_{g_{i}} .

练习3. 令

S

是一个集合,

F

是一个域, 以及

V (S; F)

是所有从

S

到

F

的函数构成的空间:

(f + g) (x) = f (x) + g (x), (c f) (x) = c f (x) .

令

W

是

V (S; F)

任意的

n

维子空间. 证明存在

S

中的点

x_{1}, \dots, x_{n}

和

W

中的函数

f_{1}, \dots, f_{n}

满足

f_{i} (x_{j}) = δ_{i, j}

第3.7节线性变换的转置

设我们有两个域 $F$ 上的向量空间 $V$ 和 $W$ , 以及一个从 $V$ 到 $W$ 的线性变换 $T$ , 那么 $T$ 按照以下方式导出了一个从 $W^{⁎}$ 到 $V^{⁎}$ 的线性变换. 设 $g$ 是 $W$ 上的一个线性泛函, 对于每个 $V$ 中的 $α$ , 令 $f (α) = g (T α)$ 那么这就定义了一个从 $V$ 到 $F$ 的函数 $f$ , 即 $T$ (一个从 $V$ 到 $W$ 的函数) 与 $g$ (一个从 $W$ 到 $F$ 的函数) 相复合. 既然 $T$ 和 $g$ 都是线性的, 那么定理6告诉我们 $f$ 也是线性的, 即 $f$ 是一个 $V$ 上的线性泛函. 因此, $T$ 给我们提供了一个规则 $T^{t}$ , 其为每个 $W$ 上的线性泛函 $g$ 赋一个 $V$ 上的线性泛函 $f = T^{t} g$ , 如上面的式子所定义的那样. 读者也应该注意到 $T^{t}$ 实际上是一个从 $W^{⁎}$ 到 $V^{⁎}$ 的线性变换, 因为如果 $g_{1}$ 和 $g_{2}$ 在 $W^{⁎}$ 中而 $c$ 是一个标量, 那么 $\begin{array}{rcl} [T^{t} (c g_{1} + g_{2})] (α) & = & (c g_{1} + g_{2}) (T α) \\ = & c g_{1} (T α) + g_{2} (T α) \\ = & c (T^{t} g_{1}) (α) + (T^{t} g_{2}) (α) \end{array}$ 于是 $T^{t} (c g_{1} + g_{2}) = c T^{t} g_{1} + T^{t} g_{2}$ . 让我们总结一下.

定理21. 令

V

和

W

是域

F

上的向量空间. 对于每个从

V

到

W

的线性变换, 存在唯一的从

W^{⁎}

到

V^{⁎}

的线性变换

T^{t}

满足

(T^{t} g) (α) = g (T α)

对于每个

W^{⁎}

中的

g

和

V

中的

α

成立.

我们将称 $T^{t}$ 为 $T$ 的转置. 这个变换 $T^{t}$ 也常被称作 $T$ 的伴随. 然而, 我们不会使用这个术语.

定理22. 令

V

和

W

是域

F

上的向量空间,

T

是一个从

V

到

W

的线性变换.

T^{t}

的零空间是

T

的像的零化子. 如果

V

和

W

是有限维的, 那么

$rank (T^{t}) = rank (T)$ ;
$T^{t}$ 的像是 $T$ 的零空间的零化子.

证明. 如果

g

在

W^{⁎}

中, 那么根据定义有

(T^{t} g) (α) = g (T α)

对于每个

V

中的

α

成立.

g

在

T^{t}

的零空间之中的意思是对于每个

V

中的

α

有

g (T α) = 0

. 因此,

T^{t}

的零空间就恰是

T

的像的零化子.
设

V

和

W

是有限维的, 比如说

\dim V = n

和

\dim W = m

. 对于i: 令

r

是

T

的秩, 即

T

的像的维数. 根据定理16,

T

的像的零化子的维数是

(m - r)

. 根据这个定理的第一条陈述, 我们知道

T^{t}

的零化度必然是

(m - r)

. 但是如果这样的话, 既然

T^{t}

是一个

m

维空间上的线性变换, 那么

T^{t}

的秩就应该是

m - (m - r) = r

, 于是

T

和

T^{t}

有着相同的秩. 对于ii: 令

N

是

T

的零空间. 每个

T^{t}

的像之中的线性泛函都在

N

的零化子之中, 因为若设对于某个

W^{⁎}

中的

g

有

f = T^{t} g

, 那么如果

α

在

N

中, 有

f (α) = (T^{t} g) (α) = g (T α) = g (0) = 0 .

现在我们知道

T^{t}

的像是空间

N^{0}

的一个子空间, 并且

\dim N^{0} = n - \dim N = rank (T) = rank (T^{t})

于是

T^{t}

的像必然就恰是

N^{0}

◻

定理23. 令

V

和

W

是域

F

上的有限维向量空间. 令

𝔅

是

V

的一个有序基, 其对偶基是

𝔅^{⁎}

. 令

𝔅^{'}

是

W

的一个有序基, 其对偶基是

{𝔅^{'}}^{⁎}

. 令

T

是一个从

V

到

W

的线性变换, 令

A

是

T

相对于

𝔅

和

𝔅^{'}

的矩阵. 令

B

是

T^{t}

相对于

{𝔅^{'}}^{⁎}

和

𝔅^{⁎}

的矩阵, 那么

B_{i, j} = A_{j, i}

证明. 令

𝔅 = {α_{1}, \dots, α_{n}}, 𝔅^{'} = {β_{1}, \dots, β_{m}}, 𝔅^{⁎} = {f_{1}, \dots, f_{n}}, {𝔅^{'}}^{⁎} = {g_{1}, \dots, g_{m}} .

根据定义,

T α_{j} = \sum_{i = 1}^{m} A_{i, j} β_{i}, j = 1, \dots, n, T^{t} g_{j} = \sum_{i = 1}^{n} B_{i, j} f_{i}, j = 1, \dots, m .

另一方面,

\begin{array}{rcl} (T^{t} g_{j}) (α_{i}) & = & g_{j} (T α_{i}) \\ = & g_{j} (\sum_{k = 1}^{m} A_{k, i} β_{k}) \\ = & \sum_{k = 1}^{m} A_{k, i} g_{j} (β_{k}) \\ = & \sum_{k = 1}^{m} A_{k, i} δ_{j, k} \\ = & A_{j, i} \end{array}

对于

V

上任意的线性泛函

f

我们有

f = \sum_{i = 1}^{n} f (α_{i}) f_{i} .

如果我们将此公式应用于泛函

f = T^{t} g_{j}

并运用

(T^{t} g_{j}) (α_{i}) = A_{j, i}

的事实, 那么我们有

T^{t} g_{j} = \sum_{i = 1}^{n} A_{j, i} f_{i}

从中立即可以得出

B_{i, j} = A_{j, i}

◻

定义. 如果

A

是域

F

上的一个

m \times n

矩阵, 那么

A

的转置

A^{t}

是由

A_{i, j}^{t} = A_{j, i}

定义的

n \times m

矩阵.

定理23是说如果 $T$ 是一个从 $V$ 到 $W$ 的线性变换, 其在某对有序基下的矩阵是 $A$ , 那么转置变换 $T^{t}$ 在与之对偶的一对有序基下由转置矩阵 $A^{t}$ 表示.

定理24. 令

A

是域

F

上任意的

m \times n

矩阵, 那么

A

的行秩等于

A

的列秩.

证明. 令

𝔅

是

F^{n}

的标准有序基,

𝔅^{'}

是

F^{m}

的标准有序基. 令

T

是从

F^{n}

到

F^{m}

的线性变换, 其相对于

𝔅

和

𝔅^{'}

的矩阵是

A

, 即

T (x_{1}, \dots, x_{n}) = (y_{1}, \dots, y_{m})

其中

y_{i} = \sum_{j = 1}^{n} A_{i, j} x_{j} .

A

的列秩等于变换

T

的秩, 因为

T

的像由所有这样的

m

元组构成, 其是

A

的列向量的线性组合. [译注: 在同构的意义下]
相对于对偶基

{𝔅^{'}}^{⁎}

和

𝔅^{⁎}

, 转置变换

T^{t}

由矩阵

A^{t}

表示. 既然

A^{t}

的列即

A

的行, 以相同的推理我们看出

A

的行秩 (

A^{t}

的列秩) 等于

T^{t}

的秩. 根据定理22,

T

和

T^{t}

有着相同的秩, 因此

A

的行秩等于

A

的列秩.

◻

现在我们知道如果 $A$ 是一个域 $F$ 的 $m \times n$ 矩阵而 $T$ 是一个按照以上方式定义的从 $F^{n}$ 到 $F^{m}$ 的线性变换, 那么 $rank (T) = row-rank (A) = column-rank (A) .$ 我们将简单地称这个数字为 $A$ 的秩.

例子25. 这个例子是一般性质的——与其说是例子, 不如说是讨论. 令

V

是域

F

上的一个

n

维向量空间, 令

T

是

V

上的一个线性变换. 设

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基.

T

在有序基

𝔅

下的矩阵被定义为

n \times n

矩阵

A

, 即

T α_{j} = \sum_{i = 1}^{n} A_{i, j} α_{i} .

换言之,

A_{i, j}

是向量

T α_{j}

在有序基

𝔅

下的第

i

个坐标. 如果

{f_{1}, \dots, f_{n}}

是

𝔅

的对偶基的话, 这可以被简单地陈述为

A_{i, j} = f_{i} (T α_{j}) .

让我们看看若改变基会发生什么. 设

𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

是

V

的另一个有序基, 其对偶基是

{f_{1}^{'}, \dots, f_{n}^{'}}

. 如果

B

是

T

在有序基

𝔅^{'}

下的矩阵, 那么

B_{i, j} = f_{i}^{'} (T α_{j}^{'}) .

令

U

是满足

U α_{j} = α_{j}^{'}

的可逆线性算子, 那么

U

的转置由

U^{t} f_{i}^{'} = f_{i}

给出. 读者很容易验证如果

U

是可逆的, 那么

U^{t}

和

{(U^{t})}^{- 1} = {(U^{- 1})}^{t}

也是可逆的. 因此,

f_{i}^{'} = {(U^{- 1})}^{t} f_{i}, i = 1, \dots, n

. 于是,

\begin{array}{rcl} B_{i, j} & = & f_{i}^{'} (T α_{j}^{'}) \\ = & [{(U^{- 1})}^{t} f_{i}] (T α_{j}^{'}) \\ = & f_{i} (U^{- 1} T α_{j}^{'}) \\ = & f_{i} (U^{- 1} T U α_{j}) \end{array}

那么这说明了什么呢? 嗯,

f_{i} (U^{- 1} T U α_{j})

是

U^{- 1} T U

在有序基

𝔅

下的矩阵的第

i

行

j

列元素. 上面的计算表明这个标量也是

T

在有序基

𝔅^{'}

下的第

i

行

j

列元素. 换句话说,

\begin{array}{rcl} {[T]}_{𝔅^{'}} & = & {[U^{- 1} T U]}_{𝔅} \\ = & {[U^{- 1}]}_{𝔅} {[T]}_{𝔅} {[U]}_{𝔅} \\ = & {[U]}_{𝔅}^{- 1} {[T]}_{𝔅} {[U]}_{𝔅} \end{array}

而这恰好就是我们之前推导出来的基变换公式.

练习1. 令

F

是一个域, 令

f

是

F^{2}

上由

f (x_{1}, x_{2}) = a x_{1} + b x_{2}

定义的线性泛函. 对于以下的每个线性算子

T

, 令

g = T^{t} f

, 找出

g (x_{1}, x_{2})

$T (x_{1}, x_{2}) = (x_{1}, 0)$ ;
$T (x_{1}, x_{2}) = (- x_{2}, x_{1})$ ;
$T (x_{1}, x_{2}) = (x_{1} - x_{2}, x_{1} + x_{2})$ .

练习2. 令

V

是实数域上的多项式函数的向量空间. 令

a

和

b

是固定的实数, 令

f

是

V

上由

f (p) = \int_{a}^{b} p (x) d x

定义的线性泛函. 如果

D

是

V

上的微分算子, 那么

D^{t} f

是什么呢?

练习3. 令

A

是域

F

上

n \times n

矩阵的向量空间, 令

B

是一个固定的

n \times n

矩阵. 如果

T

是

V

上由

T (A) = A B - B A

定义的线性算子,

f

是迹函数, 那么

T^{t} f

是什么呢?

练习4. 令

V

是域

F

上的一个有限维向量空间, 令

T

是

V

上的一个线性算子. 令

c

是一个标量, 设

V

中存在非零的向量

α

使得

T α = c α

. 证明

V

上存在一个非零的线性泛函

f

使得

T^{t} f = c f

练习5. 令

A

是

ℝ

上的

m \times n

矩阵. 证明

A = 0

当且仅当

trace (A^{t} A) = 0

练习6. 令

n

是一个正整数, 令

V

是实数域上次数不超过

n

的多项式函数构成的向量空间, 即所有具有形式

f (x) = c_{0} + c_{1} x + \dots + c_{n} x^{n}

的函数构成的空间. 令

D

是

V

上的微分算子. 找出转置算子

D^{t}

的零空间的一个基.

练习7. 令

V

是域

F

上的一个有限维向量空间. 证明

T \mapsto T^{t}

是一个从

L (V, V)

到

L (V^{⁎}, V^{⁎})

的同构.

练习8. 令

V

是域

F

上的

n \times n

矩阵构成的向量空间.

如果 $B$ 是一个固定的 $n \times n$ 矩阵, 以 $f_{B} (A) = trace (B^{t} A)$ 定义一个 $V$ 上的函数 $f_{B}$ . 证明 $f_{B}$ 是 $V$ 上的一个线性泛函.
证明每个 $V$ 上的线性泛函都具有以上形式, 即是某个 $B$ 下的 $f_{B}$ .
证明 $B \mapsto f_{B}$ 是一个从 $V$ 到 $V^{⁎}$ 的同构.

第4章多项式

第4.1节代数

本章的目的在于建立域上的多项式代数的一些基本性质. 如果我们先引入域上的线性代数的概念的话, 讨论会更加容易.

定义. 令

F

是一个域, 域

F

上的一个线性代数是一个

F

上的向量空间

V

, 其带有一个额外的被称为向量的乘法的运算. 它将每对

V

中的向量

α

和

β

联系以一个

V

中的向量

α β

, 其被称为

α

和

β

的积, 满足

乘法是结合的, $α (β γ) = (α β) γ;$
乘法对于加法是分配的, $α (β + γ) = α β + α γ 且 (α + β) γ = α γ + β γ;$
对于每个 $F$ 中的标量 $c$ , $c (α β) = (c α) β = α (c β) .$

如果

V

中存在元素

1

满足

1 α = α 1 = α

对于每个

V

中的

α

均成立, 那么我们就称

V

是域

F

上一个含幺元的线性代数, 并称

1

为

V

的幺元. 代数

V

被称为是交换的, 如果对于所有

V

中的

α

和

β

有

α β = β α

例子1. 域

F

上的

n \times n

矩阵的集合, 在通常的运算下, 是一个含幺元的线性代数. 特别地, 域本身就是一个含幺元的线性代数. 这个代数在

n \geq 2

时不交换, 域本身当然是交换的.

例子2. 一个向量空间上的所有线性算子的空间, 以复合为积, 是一个含幺元的线性代数. 它是交换的当且仅当空间是一维的. [译注: 零维其实也是.]

读者或许对于 $ℝ^{3}$ 中的点积和叉积已经有了一些经验. 如果确是如此的话, 那么他应该观察到这两种积和上面的线性代数的定义中所描述的向量乘法均不是一种类型的运算. 点积是一种"标量积", 也就是说, 它将一对向量联系以一个标量, 因此它当然不是我们现在所讨论的那种乘法. 叉积的确联系每对 $ℝ^{3}$ 中的向量以一个 $ℝ^{3}$ 中的向量, 然而它不是一种结合运算.

本节的剩余部分将致力于构造一种与之前的两个例子截然不同的代数. 令 $F$ 是一个域, $S$ 是非负整数的集合. 根据第2章的例子3, 所有从 $S$ 到 $F$ 的函数构成了一个域 $F$ 上的向量空间. 我们将其记作 $F^{\infty}$ . 因此, $F^{\infty}$ 中的向量是 $F$ 中的标量 $f_{i}$ 的无穷序列 $f = (f_{0}, f_{1}, f_{2}, \dots)$ . 如果 $g = (g_{0}, g_{1}, g_{2}, \dots), g_{i} \in F$ 并且 $a$ 和 $b$ 是 $F$ 中的标量, 那么 $a f + b g$ 是由 $a f + b g = (a f_{0} + b g_{0}, a f_{1} + b g_{1}, a f_{2} + b g_{2}, \dots)$ 给出的无穷序列. 我们这样定义 $F^{\infty}$ 中的积, 对于 $F^{\infty}$ 中的向量 $f$ 和 $g$ , 向量 $f g$ 由 ${(f g)}_{n} = \sum_{i = 0}^{n} f_{i} g_{n - i}, n = 0, 1, 2, \dots$ 给出, 因而 $f g = (f_{0} g_{0}, f_{0} g_{1} + f_{1} g_{0}, f_{0} g_{2} + f_{1} g_{1} + f_{2} g_{0}, \dots)$ 并且因为对于 $n = 0, 1, 2, \dots$ 有 ${(g f)}_{n} = \sum_{i = 0}^{n} g_{i} f_{n - i} = \sum_{i = 0}^{n} f_{i} g_{n - i} = {(f g)}_{n}$ 所以乘法是交换的 [译注: 这里用到了域的乘法的交换性质], 即 $f g = g f$ . 如果 $h$ 也属于 $F^{\infty}$ , 那么对于 $n = 0, 1, 2, \dots$ 我们有 $\begin{array}{rcl} {[(f g) h]}_{n} & = & \sum_{i = 0}^{n} {(f g)}_{i} h_{n - i} \\ = & \sum_{i = 0}^{n} (\sum_{j = 0}^{i} f_{j} g_{i - j}) h_{n - i} \\ = & \sum_{i = 0}^{n} \sum_{j = 0}^{i} f_{j} g_{i - j} h_{n - i} \\ = & \sum_{j = 0}^{n} \sum_{i = j}^{n} f_{j} g_{i - j} h_{n - i} \\ = & \sum_{j = 0}^{n} \sum_{i = 0}^{n - j} f_{j} g_{i} h_{n - i - j} \\ = & \sum_{j = 0}^{n} f_{j} (\sum_{i = 0}^{n - j} g_{i} h_{n - j - i}) \\ = & \sum_{j = 0}^{n} f_{j} {(g h)}_{n - j} \\ = & {[f (g h)]}_{n} \end{array}$ [译注: 以上的计算不单纯是指标体操, 还蕴含了"按照两种方式数 $(i, j)$ 格点"的想法.] 于是 $f (g h) = (f g) h .$ 我们将验证该乘法满足上述线性代数定义中的b和c的工作留给读者, 并且读者还应该发现向量 $1 = (1, 0, 0, \dots)$ 充当了 $F^{\infty}$ 的幺元. 因此, $F^{\infty}$ 在上述定义的运算下, 构成了一个域 $F$ 上含幺元的交换线性代数.

向量 $(0, 1, 0, \dots, 0, \dots)$ 在接下来起到了突出的作用, 于是我们将一致地记其为 $x$ . 在这整整一章里, $x$ 从不会被用来表示域 $F$ 的元素. $x$ 自乘 $n$ 次的结果被记为 $x^{n}$ , 并且我们置 $x^{0} = 1$ , 那么 $x^{2} = (0, 0, 1, 0, \dots), x^{3} = (0, 0, 0, 1, 0, \dots)$ 而一般地, 对于每个整数 $k \geq 0$ , ${(x^{k})}_{k} = 1$ , 对于所有非负整数 $n \neq k$ , 有 ${(x^{k})}_{n} = 0$ . 本节我们以这样的观察结束, 由 $1, x, x^{2}, \dots$ 构成的集合是线性无关的且是无限的, 于是代数 $F^{\infty}$ 不是有限维的.

代数 $F^{\infty}$ 有时也被称为域 $F$ 上的形式幂级数代数. 元素 $f = (f_{0}, f_{1}, f_{2}, \dots)$ 常被记为 $f = \sum_{n = 0}^{\infty} f_{n} x^{n} .$ 这个记号对于处理代数运算而言是十分便利的. 然而在使用时, 必须要记住这是全然形式上的. 代数中并不存在"无限的和", 幂级数记号并不意图传达任何有关收敛性的想法, 如果读者知道那是什么的话. 通过使用序列, 我们得以谨慎地定义了一个代数, 其行为与形式幂级数的加法和乘法一致, 但不会引起将其当作无穷和的困惑.

第4.2节多项式代数

我们现在准备定义域 $F$ 上的多项式.

定义. 令

F [x]

是由

1, x, x^{2}, \dots

张成的

F^{\infty}

的子空间.

F [x]

的元素被称为域

F

上的多项式.

既然 $F [x]$ 由 $x$ 及其幂的所有线性组合构成, 那么 $F^{\infty}$ 中的非零向量 $f$ 是多项式当且仅当存在一个整数 $n \geq 0$ 使得 $f_{n} \neq 0$ 并且对于所有整数 $k > n$ 有 $f_{k} = 0$ . 这个整数显然是唯一的, 其被称为 $f$ 的次数 (degree). 我们用 $\deg f$ 代表多项式 $f$ 的次数, 而 $0$ 多项式的次数是没有定义的. 如果 $f$ 是一个次数为 $n$ 的非零多项式, 那么 $f = f_{0} x^{0} + f_{1} x^{1} + f_{2} x^{2} + \dots + f_{n} x^{n}, f_{n} \neq 0 .$ 标量 $f_{0}, f_{1}, \dots, f_{n}$ 有时也被称为 $f$ 的系数, 而且我们也可以说 $f$ 是一个系数在 $F$ 之中的多项式. 我们称具有形式 $c x^{0}$ 的多项式为标量多项式, 并且经常将 $c x^{0}$ 记作 $c$ . 一个次数为 $n$ 的非零多项式 $f$ , 如果 $f_{n} = 1$ , 那么就称其为首项系数为一 (monic) 的多项式.

读者应该注意多项式和我们之前已经讨论甚多的 $F$ 上的多项式函数不是同一种对象. 如果 $F$ 包含无限的元素, 那么 $F [x]$ 和 $F$ 上的多项式函数的代数之间有一个自然的同构. 我们将在下一节讨论这个事情. 现在让我们来验证 $F [x]$ 是一个代数.

定理1. 令

f

和

g

是域

F

上非零的多项式, 那么

$f g$ 是一个非零的多项式;
$\deg (f g) = \deg f + \deg g$ ;
如果 $f$ 和 $g$ 都是首项系数为一的多项式, 那么 $f g$ 也是首项系数为一的多项式;
$f g$ 是标量多项式当且仅当 $f$ 和 $g$ 都是标量多项式;
如果 $f + g \neq 0$ , 那么 $\deg (f + g) \leq \max (\deg f, \deg g) .$

证明. 设

f

的次数为

m

g

的次数为

n

. 如果

k

是一个非负整数, 那么

{(f g)}_{m + n + k} = \sum_{i = 0}^{m + n + k} f_{i} g_{m + n + k - i} .

为了使得

f_{i} g_{m + n + k - i} \neq 0

i \leq m

且

m + n + k - i \leq n

是必要的. 因此

m + k \leq i \leq m

是必要的, 这推出了

k = 0

然后

i = m

, 于是

{(f g)}_{m + n} = f_{m} g_{n}

且

{(f g)}_{m + n + k} = 0, k > 0 .

陈述i, ii, iii立即可由以上两个结果得到, 而iv是i和ii的推论. 我们将v的验证留给读者.

◻

推论1. 一个给定域

F

上所有多项式的集合, 装备以上定义的线性组合和乘法运算后, 成为域

F

上的一个含幺元的交换线性代数.

证明. 既然线性组合和乘法运算是对于

F^{\infty}

定义的而

F [x]

是

F^{\infty}

的一个子空间, 那么只需证明两个多项式之积仍然是多项式就够了. 当其中一个因子是

0

时这是平凡的, 而剩下来的部分可从i得出.

◻

推论2. 设

f, g, h

是域

F

上的多项式满足

f \neq 0

且

f g = f h

, 那么

g = h

证明. 既然

f g = f h

, 那么

f (g - h) = 0

. 鉴于

f \neq 0

, 从i立即可以得到

g - h = 0

◻

特定的额外事实可由定理1的证明简单推得, 我们将总结其中一些.

设 $f = \sum_{i = 0}^{m} f_{i} x^{i} 和 g = \sum_{j = 0}^{n} g_{j} x^{j}$ 那么从 ${(f g)}_{m + n + k} = 0, k > 0$ 中我们可以得到 $f g = \sum_{s = 0}^{m + n} (\sum_{r = 0}^{s} f_{r} g_{s - r}) x^{s} .$ 读者应当验证, 在 $f = c x^{m}, g = d x^{n}$ 的特殊情形下, 其中 $c, d$ 是 $F$ 中的标量, 上式可被规约为 $(c x^{m}) (d x^{n}) = c d x^{m + n} .$ 据此, 以及 $F [x]$ 的分配律, 我们知道两多项式相乘的积也可由 $\sum_{i, j}^{} f_{i} g_{j} x^{i + j}$ 给出, 该求和布于所有满足 $0 \leq i \leq m$ 和 $0 \leq j \leq n$ 的整数序对 $i, j$ 之上.

定义. 令

V

是一个域

F

上的含幺元的线性代数. 我们用

1

表示

V

的幺元, 并对于

V

的每个元素

α

作出

α^{0} = 1

的约定. 那么, 对于每个域

F

上的多项式

f = \sum_{i = 0}^{n} f_{i} x^{i}

和

V

中的

α

, 我们联系以一个

V

中的元素

f (α)

, 由以下规则定义

f (α) = \sum_{i = 0}^{n} f_{i} α^{i}

例子3. 令

ℂ

是复数域, 令

f = x^{2} + 2

如果 $V = ℂ$ 而 $z \in ℂ$ , 那么 $f (z) = z^{2} + 2$ . 特别地, $f (2) = 6$ 而 $f (\frac{1 + i}{1 - i}) = 1 .$
如果 $V = ℂ^{2 \times 2}$ 且 $B = [\begin{matrix} 1 & 0 \\ - 1 & 2 \end{matrix}]$ 那么 $f (B) = 2 [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] + {[\begin{matrix} 1 & 0 \\ - 1 & 2 \end{matrix}]}^{2} = [\begin{matrix} 3 & 0 \\ - 3 & 6 \end{matrix}] .$
如果 $V$ 是 $ℂ^{3}$ 上的所有线性算子构成的代数, $T$ 是由 $T (c_{1}, c_{2}, c_{3}) = (i \sqrt{2} c_{1}, c_{2}, i \sqrt{2} c_{3})$ 给定的 $V$ 的元素, 那么 $f (T)$ 是由 $f (T) (c_{1}, c_{2}, c_{3}) = (0, 3 c_{2}, 0)$ 定义的 $ℂ^{3}$ 上的线性算子.
如果 $V$ 是所有 $ℂ$ 上的多项式的代数, 并且 $g = x^{4} + 3 i$ , 那么 $f (g)$ 也是一个 $V$ 中的多项式, 由 $f (g) = - 7 + 6 i x^{4} + x^{8}$ 给定.

机敏的读者可能会发现与这最后一个例子相关联的一个事实, 即如果

f

是任意的域上的一个多项式而

x

是多项式

(0, 1, 0, \dots)

, 那么

f = f (x)

, 不过我们建议他忘掉这个事实.

定理2. 令

F

是一个域,

V

是域

F

上的一个含幺元的线性代数. 设

f

和

g

是域

F

上的多项式,

α

是

V

的一个元素,

c

属于域

F

, 那么

$(c f + g) (α) = c f (α) + g (α)$ ;
$(f g) (α) = f (α) g (α)$ .

证明. 因为i的结果很容易建立, 我们将只证明ii. 设

f = \sum_{i = 0}^{m} f_{i} x^{i} 和 g = \sum_{j = 0}^{n} g_{j} x^{j}

之前我们已经证明了

f g = \sum_{i, j}^{} f_{i} g_{j} x^{i + j}

那么根据i,

\begin{array}{rcl} (f g) (α) & = & \sum_{i, j}^{} f_{i} g_{j} α^{i + j} \\ = & (\sum_{i = 0}^{m} f_{i} α^{i}) (\sum_{j = 0}^{n} g_{j} α^{j}) \\ = & f (α) g (α) \end{array}

◻

练习1. 令

F

是复数域的子域, 令

A

是如下

F

上的

2 \times 2

矩阵

A = [\begin{matrix} 2 & 1 \\ - 1 & 3 \end{matrix}] .

对于下列

F

上的多项式

f

, 计算

f (A)

$f = x^{2} - x + 2$ ;
$f = x^{3} - 1$ ;
$f = x^{2} - 5 x + 7$ .

练习2. 令

T

是

ℝ^{3}

上由

T (x_{1}, x_{2}, x_{3}) = (x_{1}, x_{3}, - 2 x_{2} - x_{3})

定义的线性算子. 令

f

是

ℝ

上的多项式, 由

f = - x^{3} + 2

定义. 找出

f (T)

练习3. 令

A

是域

F

上的一个

n \times n

对角矩阵, 即对于

i \neq j

有

A_{i, j} = 0

的矩阵. 令

f

是

F

上的多项式, 由

f = (x - A_{1, 1}) \dots (x - A_{n, n})

定义. 矩阵

f (A)

是什么?

练习4. 如果

f

和

g

是域

F

上线性无关的多项式,

h

是域

F

上一个非零的多项式, 证明

f h

和

g h

是线性无关的.

练习5. 如果

F

是一个域, 证明

F^{\infty}

的两个非零元素之积仍然是非零的.

练习6. 令

S

是域

F

上的某些非零多项式的集合. 如果

S

中没有两个元素具有相同的次数, 证明

S

在

F [x]

中是一个线性无关的集合.

练习7. 如果

a

和

b

是域

F

的元素并且

a \neq 0

, 证明多项式

1, a x + b, {(a x + b)}^{2}, {(a x + b)}^{3}, \dots

构成了

F [x]

的一个基.

练习8. 如果

F

是一个域,

h

是

F

上一个满足

\deg h \geq 1

的多项式, 证明映射

f \mapsto f (h)

是

F [x]

上的一个非奇异的线性算子. 证明这个算子是从

F [x]

到自身的同构当且仅当

\deg h = 1

练习9. 令

F

是复数域的一个子域, 定义

F [x]

上的变换

T, D

为

T (\sum_{i = 0}^{n} c_{i} x^{i}) = \sum_{i = 0}^{n} \frac{c_{i}}{1 + i} x^{i + 1}

和

D (\sum_{i = 0}^{n} c_{i} x^{i}) = \sum_{i = 1}^{n} i c_{i} x^{i - 1} .

证明 $T$ 是 $F [x]$ 上的非奇异线性算子, 并表明 $T$ 不是可逆的.
证明 $D$ 是 $F [x]$ 上满射的线性算子, 并找出其零空间.
证明 $D T = I$ 但是 $T D \neq I$ .
证明对于所有 $F [x]$ 中的 $f$ 和 $g$ 有 $T [(T f) g] = (T f) (T g) - T [f (T g)]$ .
陈述并证明一条与d中为 $T$ 给出的类似的 $D$ 的规律.
设 $V$ 是 $F [x]$ 的一个非零的子空间, 其满足对于每个 $f \in V$ , $T f \in V$ . 证明 $V$ 不是有限维的.
设 $V$ 是 $F [x]$ 的一个有限维子空间. 证明存在整数 $m \geq 0$ 使得对于每个 $f \in V$ 有 $D^{m} f = 0$ .

第4.3节 Lagrange插值

整节我们将默认 $F$ 是一个固定的域并且 $t_{0}, t_{1}, \dots, t_{n}$ 是 $F$ 的 $n + 1$ 个不同的元素. 令 $V$ 是 $F [x]$ 的子空间, 其由所有次数小于等于 $n$ 的多项式构成 (并包括 $0$ 多项式). 令 $L_{i}$ 是由 $L_{i} (f) = f (t_{i}), 0 \leq i \leq n$ 定义的从 $V$ 到 $F$ 的函数. 根据定理2的i, 每个 $L_{i}$ 都是 $V$ 上的线性泛函, 而我们想要证明的事实之一是由 $L_{0}, L_{1}, \dots, L_{n}$ 构成的集合是 $V^{⁎}$ 的一个基, $V^{⁎}$ 即 $V$ 的对偶空间.

当然为了达成这个目的, 实际上只需要说明 (参见第3章的定理15) ${L_{0}, L_{1}, \dots, L_{n}}$ 是某个 $V$ 的基 ${P_{0}, P_{1}, \dots, P_{n}}$ 的对偶就足够了. 最多只存在一个这样的基, 而且若存在的话则其由 $L_{j} (P_{i}) = P_{i} (t_{j}) = δ_{i, j}$ 刻画. 多项式 $\begin{array}{rcl} P_{i} & = & \frac{(x - t_{0}) \dots (x - t_{i - 1}) (x - t_{i + 1}) \dots (x - t_{n})}{(t_{i} - t_{0}) \dots (t_{i} - t_{i - 1}) (t_{i} - t_{i + 1}) \dots (t_{i} - t_{n})} \\ = & \prod_{j \neq i}^{} (\frac{x - t_{j}}{t_{i} - t_{j}}) \end{array}$ 的次数均为 $n$ , 因而属于 $V$ . 根据定理2, 它们满足上述刻画.

如果 $f = \sum_{i}^{} c_{i} P_{i}$ , 那么对于每个 $j$ 有 $f (t_{j}) = \sum_{i}^{} c_{i} P_{i} (t_{j}) = c_{j} .$ 既然 $0$ 多项式有着对于每个 $t \in F$ , $0 (t) = 0$ 的性质, 于是多项式 $P_{0}, P_{1}, \dots, P_{n}$ 是线性无关的. 鉴于多项式 $1, x, \dots, x^{n}$ 构成了 $V$ 的一个基, $V$ 的维数是 $(n + 1)$ . 因此, 线性无关集合 ${P_{0}, P_{1}, \dots, P_{n}}$ 必然也是 $V$ 的一个基, 于是对于每个 $f \in V$ 有 $f = \sum_{i = 0}^{n} f (t_{i}) P_{i} .$ 上述表达式被称为Lagrange插值公式, 置 $f = x^{j}$ 我们得到 $x^{j} = \sum_{i = 0}^{n} {(t_{i})}^{j} P_{i} .$ 现在根据第2章的定理7, 我们知道矩阵 $[\begin{matrix} 1 & t_{0} & t_{0}^{2} & \dots & t_{0}^{n} \\ 1 & t_{1} & t_{1}^{2} & \dots & t_{1}^{n} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 1 & t_{n} & t_{n}^{2} & \dots & t_{n}^{n} \end{matrix}]$ 是可逆的. 该矩阵被称为Vandermonde矩阵. 直接证明这样的矩阵是可逆的或许是一个有趣的练习, 其中 $t_{0}, t_{1}, \dots, t_{n}$ 是 $F$ 的 $n + 1$ 个不同的元素.

如果 $f$ 是域 $F$ 上任意的多项式, 在我们当下的讨论中, 我们将用 $f^{~}$ 表示将每个 $t \in F$ 映射到 $f (t)$ 的从 $F$ 到 $F$ 的多项式函数. 根据定义 (参见第2章的例子4), 每个多项式函数都以这样的方式产生. 然而, 对于两个多项式 $f$ 和 $g$ , 即便 $f \neq g$ , 也可能出现 $f^{~} = g^{~}$ 的情况. 幸运的是, 我们将看到这种令人不快的情况只会在 $F$ 是有限域的时候发生. 为了精确地刻画多项式与多项式函数之间的关系, 我们需要定义两个多项式函数的积. 如果 $f$ 和 $g$ 是域 $F$ 上的多项式, $f^{~}$ 和 $g^{~}$ 的积是从 $F$ 到 $F$ 的函数 $f^{~} g^{~}$ , 由 $(f^{~} g^{~}) (t) = f^{~} (t) g^{~} (t), t \in F$ 给出. 根据定理2的ii, $(f g) (t) = f (t) g (t)$ , 因而对于每个 $t \in F$ 有 ${(f g)}^{~} (t) = f^{~} (t) g^{~} (t) .$ 于是, $f^{~} g^{~} = {(f g)}^{~}$ 是一个多项式函数. 此时, 尽管是相当直接的, 我们将验证 $F$ 上的所有多项式函数构成的向量空间在上述定义的乘法下构成了一个域 $F$ 上的含幺元的交换线性代数的事情留给读者完成.

定义. 令

F

是一个域,

V

和

V^{~}

是

F

上的线性代数. 称代数

V

和

V^{~}

是同构的, 如果存在一个从

V

到

V^{~}

的双射满足

${(c α + d β)}^{~} = c α^{~} + d β^{~}$
${(α β)}^{~} = α^{~} β^{~}$

对于所有

α, β \in V

和所有

c, d \in F

成立. 映射

α \mapsto α^{~}

被称为从

V

到

V^{~}

的同构. 因此, 一个从

V

到

V^{~}

的同构是一个"保持"乘积的向量空间的同构.

例子4. 令

V

是域

F

上的一个

n

维向量空间. 根据第3章的定理13及其之后的评注, 每个

V

的有序基

𝔅

都确定了一个从

V

上的线性算子的代数到域

F

上的

n \times n

矩阵的代数的同构

T \mapsto {[T]}_{𝔅}

. 设

U

是

V

上一个固定的线性算子, 并给定多项式 [译注: 这个

n

和

n \times n

里的

n

是两个毫不相关的数字]

f = \sum_{i = 0}^{n} c_{i} x^{i}

其中系数

c_{i} \in F

, 那么

f (U) = \sum_{i = 0}^{n} c_{i} U^{i}

既然

T \mapsto {[T]}_{𝔅}

是一个线性映射, 于是

{[f (U)]}_{𝔅} = \sum_{i = 0}^{n} c_{i} {[U^{i}]}_{𝔅} .

现在我们还知道

{[T_{1} T_{2}]}_{𝔅} = {[T_{1}]}_{𝔅} {[T_{2}]}_{𝔅}

对于所有

T_{1}, T_{2} \in L (V, V)

成立, 于是

{[U^{i}]}_{𝔅} = {({[U]}_{𝔅})}^{i}, 2 \leq i \leq n .

这个关系对于

i = 0, 1

也是成立的, 因而我们得到结果

{[f (U)]}_{𝔅} = f ({[U]}_{𝔅}) .

用自然语言说, 如果

U

是

V

上的一个线性算子, 那么一个多项式应用于

U

的结果的矩阵, 和该多项式应用于

U

的矩阵的结果是相等的.

定理3. 如果

F

是一个无限域, 那么映射

f \mapsto f^{~}

是从域

F

上的多项式代数到域

F

上的多项式函数代数的同构.

证明. 根据定义, 这个映射是一个满射. 如果

f, g \in F [x]

, 对于所有的标量

c

和

d

显然有

{(c f + d g)}^{~} = c f^{~} + d g^{~} .

之前我们已经说明了

{(f g)}^{~} = f^{~} g^{~}

, 所以我们需要做的仅仅是证明该映射是一个单射. 根据线性性质, 实际上证明

f^{~} = 0

能够推出

f = 0

就足够了. 设

f

是一个次数小于等于

n

的多项式 [译注: 实际上还包括零多项式] 并且满足

f^{~} = 0

. 令

t_{0}, t_{1}, \dots, t_{n}

是

F

中

n + 1

个不同的元素. 既然

f^{~} = 0

, 那么对于

i = 0, 1, \dots, n

有

f (t_{i}) = 0

, 根据Lagrange插值公式就立即得到

f = 0

◻

根据下一节的结果, 我们将得到该定理的一个完全不同的证明.

练习1. 使用Lagrange插值公式找出这样一个实系数的多项式

f

, 其次数小于等于

3

, 并且满足

f (- 1) = - 6, f (0) = 2, f (1) = - 2, f (2) = 6

练习2. 令

α, β, γ, δ

是实数. 我们问何时能够找到一个域

ℝ

上的次数不高于

2

的多项式

f

满足

f (- 1) = α, f (1) = β, f (3) = γ, f (0) = δ

. 证明当且仅当

3 α + 6 β - γ - 8 δ = 0

的时候这是可能的.

练习3. 令

F

是实数域,

A = [\begin{matrix} 2 & 0 & 0 & 0 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}], p = (x - 2) (x - 3) (x - 1) .

证明 $p (A) = 0$ .
令 $P_{1}, P_{2}, P_{3}$ 是对于 $t_{1} = 2, t_{2} = 3, t_{3} = 1$ 的Lagrange多项式, 计算 $E_{i} = P_{i} (A), i = 1, 2, 3$ .
证明 $E_{1} + E_{2} + E_{3} = I$ ; 如果 $i \neq j$ , $E_{i} E_{j} = 0$ ; $E_{i}^{2} = E_{i}$ .
证明 $A = 2 E_{1} + 3 E_{2} + E_{3}$ .

练习4. 令

p = (x - 2) (x - 3) (x - 1)

, 令

T

是

ℝ^{4}

上任意的满足

p (T) = 0

的线性算子. 令

P_{1}, P_{2}, P_{3}

是练习3的Lagrange多项式. 令

E_{i} = P_{i} (T), i = 1, 2, 3

. 证明

E_{1} + E_{2} + E_{3} = I

; 如果

i \neq j

E_{i} E_{j} = 0

;

E_{i}^{2} = E_{i}

;

T = 2 E_{1} + 3 E_{2} + E_{3}

练习5. 令

n

是一个正整数,

F

是一个域. 设

A

是域

F

上的一个

n \times n

矩阵,

P

是域

F

上一个可逆的

n \times n

矩阵. 如果

f

是域

F

上任意的多项式, 证明

f (P^{- 1} A P) = P^{- 1} f (A) P .

练习6. 令

F

是一个域. 我们已经考虑了由"在

t

处求值"得到的

F [x]

上的相当特殊的线性泛函:

L (f) = f (t) .

这样的线性泛函不仅是线性的, 还具有

L (f g) = L (f) L (g)

的性质. 证明如果

L

是

F [x]

上的线性泛函, 并且满足

L (f g) = L (f) L (g)

对于所有的域

F

上的多项式

f

和

g

成立, 那么要么

L = 0

, 要么存在

t \in F

使得对于每个多项式

f

有

L (f) = f (t)

第4.4节多项式理想

本节我们关心主要依赖于域上的多项式代数的乘性结构的结果.

引理. 设

f

和

d

是域

F

上的非零多项式并且满足

\deg d \leq \deg f

, 那么存在

g \in F [x]

使得

f - d g = 0 或者 \deg (f - d g) < \deg f .

证明. 设

f = a_{m} x^{m} + \sum_{i = 0}^{m - 1} a_{i} x^{i}, a_{m} \neq 0

以及

d = b_{n} x^{n} + \sum_{i = 0}^{n - 1} b_{i} x^{i}, b_{n} \neq 0,

那么

m \geq n

, 并且

f - (\frac{a_{m}}{b_{n}}) x^{m - n} d = 0 或者 \deg [f - (\frac{a_{m}}{b_{n}}) x^{m - n} d] < \deg f .

因此, 我们可以取

g = (\frac{a_{m}}{b_{n}}) x^{m - n}

◻

使用该引理我们可以表明众所周知的实或复系数多项式的"长除"过程在任意的域上都是可能的.

定理4. 如果

f

和

d

是域

F

上的多项式并且

d \neq 0

, 那么存在

q, r \in F [x]

满足

$f = d q + r$ ;
要么 $r = 0$ 要么 $\deg r < \deg d$ .

满足i和ii的多项式

q

和

r

是唯一的.

证明. 如果

f

是

0

或者

\deg f < \deg d

, 那么取

q = 0

和

r = f

即可. 在

f \neq 0

并且

\deg f \geq \deg d

的情况下, 上述引理告诉我们存在多项式

g

使得

f - d g = 0

或者

\deg (f - d g) < \deg f

. 如果

f - d g \neq 0

并且

\deg (f - d g) \geq \deg d

, 那么我们可以选择一个多项式

h

使得

(f - d g) - d h = 0

或者

\deg [f - d (g + h)] < \deg (f - d g) .

若有必要则继续施行这个过程, 最终我们可以得到多项式

q

和

r

满足

r = 0

或者

\deg r < \deg d

, 并且

f = d q + r

. 现在设我们也有

f = d q_{1} + r_{1}

, 其中

r_{1} = 0

或者

\deg r_{1} < \deg d

, 那么

d q + r = d q_{1} + r_{1}

, 于是

d (q - q_{1}) = r_{1} - r

. 如果

q - q_{1} \neq 0

, 那么

d (q - q_{1}) \neq 0

, 并有

\deg d + \deg (q - q_{1}) = \deg (r_{1} - r) .

但是鉴于

r_{1} - r

的次数是小于

d

的次数的, 这是不可能的. 因而

q - q_{1} = 0

, 随之亦有

r_{1} - r = 0

◻

定义. 令

d

是域

F

上的一个非零多项式. 如果

f \in F [x]

, 之前的定理告诉我们至多存在一个多项式

q \in F [x]

满足

f = d q

. 如果这样的

q

存在, 那么我们称

d

整除

f

, 或者

f

被

d

整除, 或者

f

是

d

的倍数, 并称

q

是

f

和

d

的商. 我们也记

q = f / d

推论1. 令

f

是域

F

上的一个多项式, 令

c

是

F

的一个元素, 那么

f

被

x - c

整除当且仅当

f (c) = 0

证明. 根据定理,

f = (x - c) q + r

, 其中

r

是一个标量多项式. 又根据定理2,

f (c) = 0 q (c) + r (c) = r (c) .

于是,

r = 0

当且仅当

f (c) = 0

◻

定义. 令

F

是一个域,

c \in F

被称为是多项式

f \in F [x]

的根或者零点, 如果

f (c) = 0

推论2. 域

F

上的

n

次多项式在

F

中至多只有

n

个根.

证明. 这个结果对于

0

次和

1

次多项式而言显然是真的. 我们假设其对于

n - 1

次的多项式而言是真的. 如果

a

是

n

次多项式

f

的一个根, 那么

f = (x - a) q

, 其中

q

的次数是

n - 1

. 既然

f (b) = 0

当且仅当

a = b

或者

q (b) = 0

, 根据归纳假设我们可以得到

f

至多只有

n

个根.

◻

读者应该观察到定理3的证明的主要步骤可由该推论立即得到. [译注: 原本的证明用的是Lagrange插值.]

多项式的形式导数在讨论多重根的时候是很有用的. 多项式 $f = c_{0} + c_{1} x + \dots + c_{n} x^{n}$ 的导数是多项式 $f^{'} = c_{1} + 2 c_{2} x + \dots + n c_{n} x^{n - 1} .$ 我们也使用记号 $D f = f^{'}$ . [译注: 实际上, 形式导数由 $f_{n}^{'} = (n + 1) f_{n + 1}$ 刻画.] 微分是线性的, 也就是说, $D$ 是 $F [x]$ 上的一个线性算子. 我们也有高阶形式导数 $f^{″} = D^{2} f$ , $f^{(3)} = D^{3} f$ , 等等.

定理5. Taylor公式. 令

F

是一个特征为零的域,

c

是

F

的一个元素,

n

是一个正整数. 如果

f

是域

F

上一个满足

\deg f \leq n

的多项式, 那么

f = \sum_{k = 0}^{n} \frac{(D^{k} f)}{k!} (c) {(x - c)}^{k} .

证明. Taylor公式是二项式定理和算子

D, D^{2}, \dots, D^{n}

的线性性质的推论. 二项式定理很容易通过归纳证明, 并断言

{(a + b)}^{m} = \sum_{k = 0}^{m} (\binom{m}{k}) a^{m - k} b^{k}

其中

(\binom{m}{k}) = \frac{m!}{k! (m - k)!} = \frac{m (m - 1) \dots (m - k + 1)}{1 \cdot 2 \cdot \dots \cdot k}

是我们熟悉的二项式系数, 其给出了从

m

个物品中一次取

k

个的组合数. 根据二项式定理,

\begin{array}{rcl} x^{m} & = & {[c + (x - c)]}^{m} \\ = & \sum_{k = 0}^{m} (\binom{m}{k}) c^{m - k} {(x - c)}^{k} \\ = & c^{m} + m c^{m - 1} (x - c) + \dots + {(x - c)}^{m} \end{array}

而这就是在

f = x^{m}

的情形下Taylor公式的陈述. 如果

f = \sum_{m = 0}^{n} a_{m} x^{m}

那么

(D^{k} f) (c) = \sum_{m = 0}^{n} a_{m} (D^{k} x^{m}) (c)

因此

\begin{array}{rcl} \sum_{k = 0}^{n} \frac{(D^{k} f) (c)}{k!} {(x - c)}^{k} & = & \sum_{k = 0}^{n} \sum_{m = 0}^{n} a_{m} \frac{(D^{k} x^{m})}{k!} (c) {(x - c)}^{k} \\ = & \sum_{m = 0}^{n} a_{m} (\sum_{k = 0}^{n} \frac{(D^{k} x^{m})}{k!} (c) {(x - c)}^{k}) \\ = & \sum_{m = 0}^{n} a_{m} x^{m} \\ = & f \end{array}

◻

读者应该注意到, 因为多项式 $1, (x - c), \dots, {(x - c)}^{n}$ 是线性无关的 (参见4.2节的练习7), 所以Taylor公式为 $f$ 写成多项式 ${(x - c)}^{k}, 0 \leq k \leq n$ 唯一的线性组合提供了方法.

尽管我们不会给出任何细节, 但是在这个点上或许值得提及Taylor公式的正当解释使得其也适用于非零特征域上的多项式. 如果域 $F$ 的特征不为零, 那么在 $F$ 中我们可以有 $k! = 0$ , 那么这就使得 $(D^{k} f) (c)$ 除以 $k!$ 毫无意义. 然而, 我们也可以赋予 $(D^{k} f) (c)$ 除以 $k!$ 一种意义, 因为 $D^{k} f$ 的每个系数都是 $F$ 的一个元素乘上某个可以被 $k!$ 整除的整数. [译注: 不过, 在这种观点下, $D^{k} f$ 就是相当不同的对象了, 因为你不能仅从这个多项式对象本身还原出那些整数来, 还要考虑 $D^{k} f$ 的内涵.] 如果这些话使你感到困惑, 那么我们建议读者把自己的注意力限制于特征为零的域, 或者复数域的子域.

如果 $c$ 是非零多项式 $f$ 的一个根, 那么 $c$ 作为 $f$ 的根的重数是满足 ${(x - c)}^{r}$ 整除 $f$ 的最大正整数 $r$ .

一个根的重数显然小于等于 $f$ 的次数. 对于特征为零的域上的多项式而言, $c$ 作为 $f$ 的根的重数与 $f$ 的高阶导数有关.

定理6. 令

F

是一个特征为零的域, 令

f

是域

F

上的一个多项式并且满足

\deg f \leq n

, 那么标量

c

是

f

的一个

r

重根当且仅当

(D^{k} f) (c) = 0, 0 \leq k \leq r - 1 并且 (D^{r} f) (c) \neq 0 .

证明. 设

r

是

c

作为

f

的根的重数, 那么存在多项式

g

满足

f = {(x - c)}^{r} g

且

g (c) \neq 0

. 如果

g (c) = 0

, 那么根据定理4的推论1,

f

就会被

{(x - c)}^{r + 1}

整除. 将Taylor公式应用于

g

, 我们得到

\begin{array}{rcl} f & = & {(x - c)}^{r} [\sum_{m = 0}^{n - r} \frac{(D^{m} g)}{m!} (c) {(x - c)}^{m}] \\ = & \sum_{m = 0}^{n - r} \frac{(D^{m} g)}{m!} (c) {(x - c)}^{r + m} \end{array}

既然

f

写成幂

{(x - c)}^{k}, 0 \leq k \leq n

的线性组合的方式是唯一的, 于是

\frac{(D^{k} f) (c)}{k!} = {\begin{matrix} 0 & , 如果 0 \leq k \leq r - 1 \\ \frac{(D^{k - r} g) (c)}{(k - r)!} & , 如果 r \leq k \leq n \end{matrix}

因此,

(D^{k} f) (c) = 0, 0 \leq k \leq r - 1

并且

(D^{r} f) (c) = r! \cdot g (c) \neq 0

. 反过来说, 如果这些条件被满足了, 那么根据Taylor公式就能立即得出存在多项式

g

满足

f = {(x - c)}^{r} g

并且

g (c) \neq 0

. 现在设

r

不是满足

{(x - c)}^{r}

整除

f

的最大正整数, 那么存在多项式

h

满足

f = {(x - c)}^{r + 1} h

. 然而, 根据定理1的推论2, 这将推出

g = (x - c) h

, 于是

g (c) = 0

, 一个矛盾.

◻

定义. 令

F

是一个域.

F [x]

中的一个理想是

F [x]

的一个子空间

M

满足对于每个

f \in F [x]

和

g \in M

有

f g \in M

例子5. 如果

F

是一个域, 并且

d

是

F

上的一个多项式, 那么集合

M = d F [x]

是一个理想, 其由所有

d

乘上

F [x]

中任意的

f

得到的倍数

d f

构成. 鉴于

M

事实上包含

d

M

是非空的. 如果

f, g \in F [x]

而

c

是一个标量, 那么

c (d f) - d g = d (c f - g)

属于

M

, 于是

M

是一个子空间. 最后,

M

也包含

(d f) g = d (f g)

. 理想

M

被称为由

d

生成的主理想.

例子6. 令

d_{1}, \dots, d_{n}

是

F

上有限多个多项式, 那么子空间

d_{i} F [x]

之和

M

也是一个理想. 这是因为若设

p \in M

, 那么存在

F [x]

中的多项式

f_{1}, \dots, f_{n}

满足

p = d_{1} f_{1} + \dots + d_{n} f_{n}

. 如果

g

是域

F

上任意的多项式, 那么

p g = d_{1} (f_{1} g) + \dots + d_{n} (f_{n} g)

于是

p g

也属于

M

, 因此

M

是一个理想. 我们称

M

为由多项式

d_{1}, \dots, d_{n}

生成的理想.

例子7. 令

F

是复数域的一个子域, 考虑理想

M = (x + 2) F [x] + (x^{2} + 8 x + 16) F [x] .

我们断言

M = F [x]

. 这是因为

M

包含

(x^{2} + 8 x + 16) - x (x + 2) = 6 x + 16

因而

M

也包含

(6 x + 16) - 6 (x + 2) = 4

, 于是标量多项式

1 \in M

, 那么其倍数自然是整个

F [x]

定理7. 如果

F

是一个域, 并且

M

是

F [x]

任意的非零理想, 那么存在唯一的首项系数为一的多项式

d \in F [x]

使得

M

是由

d

生成的主理想.

证明. 根据假设,

M

包含一个非零的多项式.

M

所有的非零多项式中, 存在多项式

d

具有最低的次数. [译注: 这依赖于自然数集的良序原理.] 我们不妨假设

d

的首项系数为一, 因为不然的话我们可以给

d

乘上一个标量使其变成首项系数为一的. 现在如果

f \in M

, 定理4表明

f = d q + r

, 其中

r = 0

或者

\deg r < \deg d

. 既然

d \in M

, 也有

f - d q = r \in M

. 因为

d

是

M

中具有最低次数的元素, 所以我们不可能有

\deg r < \deg d

, 于是

r = 0

, 因此

M = d F [x]

. 如果

g

是另一个满足

M = g F [x]

的首项系数为一的多项式, 那么存在非零的多项式

p

和

q

满足

d = g p

和

g = d q

, 因而

d = d p q

, 然后

\deg d = \deg d + \deg p + \deg q .

于是,

\deg p = \deg q = 0

. 鉴于

d

和

g

的首项系数为一,

p = q = 1

, 即

d = g

. [译注: 这段证明也表明多项式

g

是某个非零理想的生成元当且仅当其为唯一的首项系数为一的生成元

d

的非零标量倍数.]

◻

值得注意的是, 在刚才的证明中我们运用了一个更加一般且相当有用的事实的一种特殊情形, 这个事实即如果 $p$ 是某个理想 $M$ 中的非零多项式而 $f \in M$ 不被 $p$ 整除, 那么 $f = p q + r$ , 其中"余项 (remainder)" $r \in M$ , 它异于 $0$ , 且次数比 $p$ 小. 我们已经在例子7中利用了这个事实来表明标量多项式 $1$ 是那里考虑的理想的首项系数为一的生成元. 从原则上说, 找出生成给定的非零理想的首项系数为一的多项式总是可能的. 这是因为人们通过有限步骤内的辗转相除最终可以得到理想中具有最低次数的多项式.

推论. 如果

p_{1}, \dots, p_{n}

是域

F

上的不全为零的多项式, 那么

F [x]

中存在唯一的首项系数为一的多项式

d

满足

$d$ 在由 $p_{1}, \dots, p_{n}$ 生成的理想之中;
$d$ 整除每个多项式 $p_{i}$ ;

任何满足a和b的多项式也必然满足

每个整除多项式 $p_{1}, \dots, p_{n}$ 的多项式也整除 $d$ .

证明. 令

d

是理想

p_{1} F [x] + \dots + p_{n} F [x]

的首项系数为一的生成元. 每个该理想的成员都被

d

整除, 因此每个多项式

p_{i}

也被

d

整除. 现在设

f

是整除多项式

p_{1}, \dots, p_{n}

的多项式, 那么存在多项式

g_{1}, \dots, g_{n}

满足

p_{i} = f g_{i}, 1 \leq i \leq n

. 并且, 既然

d

在理想

p_{1} F [x] + \dots + p_{n} F [x]

之中, 那么存在多项式

q_{1}, \dots, q_{n} \in F [x]

使得

d = p_{1} q_{1} + \dots + p_{n} q_{n}

于是

d = f (g_{1} q_{1} + \dots + g_{n} q_{n}) .

我们已经表明了

d

是满足a, b, c的首项系数为一的多项式. 如果

d^{'}

是满足a和b的多项式, 根据a和

d

的定义, 我们知道

d^{'}

是

d

的标量倍数, 于是也满足c. [译注: 不太能理解这句话的推理过程和想法, 可能存在笔误.] 最终, 当

d^{'}

是首项系数为一的多项式时, 我们有

d^{'} = d

.
[译注: 以上的证明似乎有些混乱. 实际上, 如果

d

是满足a和b的多项式, 那么它就是理想

p_{1} F [x] + \dots + p_{n} F [x]

的生成元. 在首项系数为一的情况下, 这个多项式至多只有一个. 很容易验证首项系数为一的生成元的确满足a和b. 另外, 条件a即可推出条件c, 不论首项系数是否为一.]

◻

定义. 如果

p_{1}, \dots, p_{n}

是域

F

上的不全为零的多项式, 那么理想

p_{1} F [x] + \dots + p_{n} F [x]

唯一的首项系数为一的生成元被称为

p_{1}, \dots, p_{n}

的最大公因子 (greatest common divisor, g.c.d.). 这个术语可由之前的推论澄清. [译注: 实际上, 更像是由条件b和c澄清, 但是条件c和条件a是等价的. 另外, 它也澄清了辗转相除法求最大公因子的原理.] 我们称多项式

p_{1}, \dots, p_{n}

互素, 如果其最大公因子为

1

, 或者等价地, 它们生成的理想是整个

F [x]

例子8. 令

F

是复数域

ℂ

, 那么 [译注: 本书对于最大公因子所用的记号是

g.c.d.

, 但是我们将其改成现在更加通行的

\gcd

$\gcd (x + 2, x^{2} + 8 x + 16) = 1$ (见例子7);
$\gcd ({(x - 2)}^{2} (x + i), (x - 2) (x^{2} + 1)) = (x - 2) (x + i)$ . 这是因为, 理想 ${(x - 2)}^{2} (x + i) F [x] + (x - 2) (x^{2} + 1) F [x]$ 包含 ${(x - 2)}^{2} (x + i) - (x - 2) (x^{2} + 1) = (x - 2) (x + i) (i - 2)$ 因而也包含 $(x - 2) (x + i)$ , 其首项系数为一, 且整除 ${(x - 2)}^{2} (x + i) 和 (x - 2) (x^{2} + 1) .$

例子9. 令

F

是有理数域, 并且在

F [x]

中令

M

是由

(x - 1) {(x + 2)}^{2}, {(x + 2)}^{2} (x - 3), (x - 3)

生成的理想, 那么

M

包含

\frac{1}{2} {(x + 2)}^{2} [(x - 1) - (x - 3)] = {(x + 2)}^{2}

并且既然

{(x + 2)}^{2} = (x - 3) (x + 7) + 25

[译注: 原文是

- 17

而不是

+ 25

, 应该是笔误.] 那么

M

包含标量多项式

1

, 于是

M = F [x]

而多项式

(x - 1) {(x + 2)}^{2}, {(x + 2)}^{2} (x - 3), (x - 3)

是互素的.

练习1. 令

ℚ

是有理数域, 判断以下

ℚ [x]

的子集是否是理想. 若是理想, 则找出其首项系数为一的生成元.

所有偶数次的 $f$ ;
所有次数大于等于 $5$ 的 $f$ ;
所有满足 $f (0) = 0$ 的 $f$ ;
所有满足 $f (2) = f (4) = 0$ 的 $f$ ;
所有线性算子 $T$ 的像中的 $f$ , 其中 $T$ 由 $T (\sum_{i = 0}^{n} c_{i} x^{i}) = \sum_{i = 0}^{n} \frac{c_{i}}{i + 1} x^{i + 1}$ 定义.

练习2. 找出以下每对多项式的最大公因子

$2 x^{5} - x^{3} - 3 x^{2} - 6 x + 4, x^{4} + x^{3} - x^{2} - 2 x - 2$ ;
$3 x^{4} + 8 x^{2} - 3, x^{3} + 2 x^{2} + 3 x + 6$ ;
$x^{4} - 2 x^{3} - 2 x^{2} - 2 x - 3, x^{3} + 6 x^{2} + 7 x + 1$ .

练习3. 令

A

是域

F

上的一个

n \times n

矩阵. 证明所有满足

f (A) = 0

的多项式

f \in F [x]

构成了一个理想.

练习4. 令

F

是复数域的一个子域, 令

A = [\begin{matrix} 1 & - 2 \\ 0 & 3 \end{matrix}] .

找出使得

f (A) = 0

的所有多项式

f \in F [x]

构成的理想的首项系数为一的生成元.

练习5. 令

F

是一个域, 证明

F [x]

中任意数目的理想之交仍然是一个理想.

练习6. 令

F

是一个域, 证明由

f_{1}, \dots, f_{n} \in F [x]

生成的理想是所有包含

f_{1}, \dots, f_{n}

的理想之交.

练习7. 令

K

是域

F

的一个子域, 设多项式

f, g \in K [x]

. 令

M_{K}

是

K [x]

中由

f

和

g

生成的理想,

M_{F}

是

F [x]

中由

f

和

g

生成的理想. 证明

M_{K}

和

M_{F}

有着相同的首项系数为一的生成元.

第4.5节多项式的素因子分解

本节我们将要证明每个域 $F$ 上的多项式都可以写成"素"多项式之积. 这种分解为我们提供了寻找有限多个多项式的最大公因子的有效工具, 并且特别地, 提供了判断多项式是否互素的有效手段.

定义. 令

F

是一个域. 一个多项式

f \in F [x]

被称为在

F

上可约, 如果存在多项式

g, h \in F [x]

, 它们的次数大于等于

1

, 并且满足

f = g h

. 在不存在的情况下, 我们称

f

在

F

上不可约. 域

F

上不可约的非标量多项式被称为域

F

上的素多项式 (prime polynomial over

F

), 或者有时称其是

F [x]

中的一个prime.

例子10. 多项式

x^{2} + 1

在域

ℂ

上是可约的, 因为

x^{2} + 1 = (x + i) (x - i)

而多项式

x + i

和

x - i

属于

ℂ [x]

. 另一方面,

x^{2} + 1

在域

ℝ

上是不可约的, 因为如果

x^{2} + 1 = (a x + b) (a^{'} x + b^{'})

其中

a, a^{'}, b, b^{'} \in ℝ

, 那么

a a^{'} = 1, a b^{'} + b a^{'} = 0, b b^{'} = 1 .

这些关系可以推出

a^{2} + b^{2} = 0

, 这对于实数是不可能的, 除非

a = b = 0

. [译注: 但是我们需要

a \neq 0

定理8. 令

p, f, g

是域

F

上的多项式, 设

p

是素多项式, 并且

p

整除

f g

, 那么要么

p

整除

f

, 要么

p

整除

g

证明. 不失一般性, 假定

p

是首项系数为一的素多项式. 那么,

p

是素的就是在说

p

仅有的首项系数为一的因子是

1

和

p

. 令

d

是

f

和

p

的最大公因子, 那么要么

d = 1

, 要么

d = p

, 既然

d

是整除

p

的首项系数为一的多项式. 如果

d = p

, 那么

p

整除

f

, 工作就结束了. 于是, 设

d = 1

, 即

f

和

p

是互素的. 我们将证明

p

整除

g

. 既然

\gcd (f, p) = 1

, 存在多项式

f_{0}

和

p_{0}

满足

1 = f_{0} f + p_{0} p

. 两边乘上

g

, 我们得到

\begin{array}{rcl} g & = & f_{0} f g + p_{0} p g \\ = & (f g) f_{0} + p (p_{0} g) \end{array}

既然

p

整除

f g

, 它也整除

(f g) f_{0}

, 并且

p

当然整除

p (p_{0} g)

, 因此

p

整除

g

◻

推论. 如果

p

是素多项式并且整除

f_{1} \dots f_{n}

, 那么

p

至少整除多项式

f_{1}, \dots, f_{n}

其中一个.

证明. 通过归纳进行证明. 当

n = 2

时, 该结果就是定理8. 设我们对于推论已经证明了

n = k

的情形, 并设

p

整除

(k + 1)

个多项式之积

f_{1} \dots f_{k + 1}

. 既然

p

整除

(f_{1} \dots f_{k}) f_{k + 1}

, 要么

p

整除

f_{k + 1}

, 要么

p

整除

f_{1} \dots f_{k}

. 根据归纳假设, 如果

p

整除

f_{1} \dots f_{k}

, 那么对于某个

j, 1 \leq j \leq k

有

p

整除

f_{j}

. 于是, 我们看到不论什么情况下必然都有对于某个

j, 1 \leq j \leq k + 1

p

整除

f_{j}

◻

定理9. 如果

F

是一个域, 那么

F [x]

中的非标量首项系数为一多项式, 在不计顺序的情况下, 有且仅有一种将其分解为

F [x]

中的首项系数为一的素因子之积的方式.

证明. 设

f

是域

F

上的一个非标量首项系数为一多项式. 因为次数为一的多项式是不可约的, 因此在

\deg f = 1

的情况下没有什么好证明的东西. 设

f

的次数

n > 1

. 根据归纳, 我们可以假定该定理对于所有次数小于

n

的非标量首项系数为一多项式均成立. 如果

f

是不可约的, 那么它就已经被分解为首项系数为一的素因子之积了. 若

f

可约, 则

f = g h

, 其中

g

和

h

是次数小于

n

的非标量首项系数为一多项式. 因此,

g

和

h

可以被分解为

F [x]

中的首项系数为一的素因子之积, 于是

f

也可以. 现在设

f = p_{1} \dots p_{m} = q_{1} \dots q_{n}

其中

p_{1}, \dots, p_{m}

和

q_{1}, \dots, q_{n}

是

F [x]

中的首项系数为一的素多项式. 那么,

p_{m}

整除

q_{1} \dots q_{n}

. 根据上述推论,

p_{m}

必然整除某个

q_{i}

. 鉴于

q_{i}

和

p_{m}

都是首项系数为一的素多项式, 这意味着

q_{i} = p_{m} .

从中我们看出, 如果

m = 1

或者

n = 1

, 那么

m = n = 1

, 因为

\deg f = \sum_{i = 1}^{m} \deg p_{i} = \sum_{j = 1}^{n} \deg q_{j} .

在

m = n = 1

的情况下没有什么好证明的东西, 所以我们不妨设

m > 1

且

n > 1

. 通过重排

q

的下标, 我们可以假定

p_{m} = q_{n}

, 并有

p_{1} \dots p_{m - 1} p_{m} = q_{1} \dots q_{n - 1} p_{m} .

根据定理1的推论2, 我们有

p_{1} \dots p_{m - 1} = q_{1} \dots q_{n - 1} .

因为多项式

p_{1} \dots p_{m - 1}

的次数小于

n

, 可以应用归纳假设表明序列

q_{1}, \dots, q_{n - 1}

最多只是

p_{1}, \dots, p_{m - 1}

的重排. 这个事实和

p_{m} = q_{n}

一起告诉我们

f

作为首项系数为一的素因子之积的分解, 在不计因子的顺序的情况下是唯一的.
[译注: 以上证明有一个小的混乱, 就是作为多项式

f

的次数的

n

和作为多项式序列

q_{1}, \dots, q_{n}

的长度的

n

之间是毫无关系的.]

◻

在以上对于一个给定非标量首项系数为一的多项式 $f$ 的分解中, 某些首项系数为一的素因子是可以重复的. 如果 $p_{1}, \dots, p_{r}$ 是对于这个 $f$ 的分解中所有不同的素因子, 那么 $f = p_{1}^{n_{1}} p_{2}^{n_{2}} \dots p_{r}^{n_{r}}$ 幂次 $n_{i}$ 是素因子 $p_{i}$ 在分解中出现的次数. 这样的分解显然也是唯一的, 其被称为 $f$ 的主分解 (primary decomposition). 很容易验证每个 $f$ 的首项系数为一的因子都具有 $p_{1}^{m_{1}} p_{2}^{m_{2}} \dots p_{r}^{m_{r}}, 0 \leq m_{i} \leq n_{i}$ 的形式. 这告诉我们有限数目的非标量首项系数为一多项式 $f_{1}, \dots, f_{s}$ 的最大公因子可由联合所有那些同时出现在每个 $f_{1}, \dots, f_{s}$ 的分解中的首项系数为一的素因子获得, 而其幂次取相应的幂能够整除每个 $f_{i}$ 的最大值. [译注: 这等价于取每个 $f_{i}$ 与之对应的素因子的幂次的最小值.] 若无素因子的(非平凡)幂次是每个 $f_{i}$ 的因子, 那么这些多项式是互素的. [译注: 这等价于若没有素因子出现在每个 $f_{i}$ 的分解中, 那么这些多项式是互素的.]

例子11. 设

F

是一个域, 令

a, b, c

是

F

的不同元素, 那么多项式

x - a, x - b, x - c

是

F [x]

中不同的首项系数为一的素多项式. 如果

m, n, s

是正整数, 那么

{(x - c)}^{s}

是多项式

{(x - b)}^{n} {(x - c)}^{s} 和 {(x - a)}^{m} {(x - c)}^{s}

的最大公因子, 尽管这三个多项式

{(x - b)}^{n} {(x - c)}^{s}, {(x - a)}^{m} {(x - c)}^{s}, {(x - a)}^{m} {(x - b)}^{n}

是互素的.

定理10. 令

f

是域

F

上的一个非标量首项系数为一多项式, 并且令

f = p_{1}^{n_{1}} \dots p_{k}^{n_{k}}

是

f

的素因子分解. [译注: 按照上面的说法, 这里的prime factorization应该写成primary decomposition. 当然了, 有基本理解能力的读者应该明白primary decompostion不过就是prime factorization的一种形式而已.] 对于每个

j, 1 \leq j \leq k

, 令

f_{j} = f / p_{j}^{n_{j}} = \prod_{i \neq j}^{} p_{i}^{n_{i}}

那么

f_{1}, \dots, f_{k}

是互素的. [译注: 这里需要定义多项式除法, 不过这是显然的.]

证明. 我们将这个(简单的)证明留给读者. 我们陈述这个定理很大程度上是因为我们想要在之后引用它. [译注: 第6章的定理12的证明引用了该定理.]

◻

证明. 鉴于证明的确十分简单, 译者在此拟一个证明. 考虑刻画最大公因子定义的定理7的推论, 若首项系数为一的多项式

d

满足条件b, 那么其仅可能为

1

. 但是, 既然这个刻画与非零理想存在且唯一的首项系数为一的生成元是等价的, 所以说

1

就是

f_{1}, \dots, f_{k}

的最大公因子, 即

f_{1}, \dots, f_{k}

互素.

◻

注意: 此黄色背景标注内容将被删去.

定理11. 令

f

是一个域

F

上的多项式, 其导数是

f^{'}

, 那么

f

是域

F

上的不同的不可约多项式之积当且仅当

f

和

f^{'}

互素.

证明. 设域

F

上对于

f

的素因子分解中某个(非标量)素多项式

p

是重复的 [译注: 原文之所以给非标量加上括号, 是因为素多项式按照定义本来就是非标量多项式], 那么

f = p^{2} h

, 其中

h \in F [x]

, 于是

f^{'} = p^{2} h^{'} + 2 p p^{'} h

所以

p

也是

f^{'}

的一个因子, 因此

f

和

f^{'}

不是互素的.
现在设

f = p_{1} \dots p_{k}

, 其中

p_{1}, \dots, p_{k}

是域

F

上不同的非标量不可约多项式. 令

f_{j} = f / p_{j}

, 那么

f^{'} = p_{1}^{'} f_{1} + p_{2}^{'} f_{2} + \dots + p_{k}^{'} f_{k} .

令

p

是一个整除

f

和

f^{'}

的素多项式, 那么对于某个

i

有

p = p_{i}

. 既然若

j \neq i

, 则

p_{i}

整除

f_{j}

, 并且

p_{i}

也整除

f^{'} = \sum_{j = 1}^{k} p_{j}^{'} f_{j}

我们看出来

p_{i}

也必然整除

p_{i}^{'} f_{i}

, 因而

p_{i}

整除

f_{i}

或

p_{i}^{'}

. 但是,

p_{i}

并不整除

f_{i}

, 鉴于

p_{1}, \dots, p_{k}

都是不同的, 于是

p_{i}

整除

p_{i}^{'}

. 这是不可能的, 因为

p_{i}^{'}

的次数比

p_{i}

的次数少一. 我们总结一下, 就是没有素多项式能够同时整除

f

和

f^{'}

, 即

f

和

f^{'}

是互素的.

◻

[译注: 定理11的陈述和证明都有些粗糙. 如果根据之前给出的定义稍加打磨一下, 定理11应该是"令 $f$ 是域 $F$ 上的首项系数为一的多项式, 那么 $f$ 的素因子分解中每个因子仅出现一次当且仅当 $f$ 和 $f^{'}$ 互素". 其中 $1$ 的素因子分解应该是"空白", 因为"空白"的积定义为乘法的单位元 (也就是多项式 $1$ ) 是很合理的. 至于证明, 许多地方应该加上"首项系数为一", 不然的话是不正确的. 另外, 这个证明中还用到了形式导数类似于导数的性质却没有另加证明, 尽管证明起来并不困难.]

定理11. 对于域

F

上的一个首项系数为一的多项式

f

, 设其素因子分解为

f = p_{1} \dots p_{k}

, 那么

p_{1}, \dots, p_{k}

互异当且仅当

f

和

f^{'}

互素.

证明. 设

p_{1}, \dots, p_{k}

互异. 若

f

和

f^{'}

不互素, 存在

i

使得

p_{i}

整除

f

和

f^{'}

. 令

f_{j} = f / p_{j}

, 那么

f^{'} = p_{1}^{'} f_{1} + \dots + p_{k}^{'} f_{k} .

对于

j \neq i

, 我们知道

p_{i}

整除

f_{j}

. 又因为

p_{i}

整除

f^{'}

, 所以

p_{i}

整除

p_{i}^{'} f_{i}

, 这等价于

p_{i}

整除

p_{i}^{'}

或

f_{i}

. 但是,

p_{i}

不可能整除

p_{i}^{'}

, 鉴于

p_{i}^{'}

的次数小于

p_{i}

的次数. 而且,

p_{i}

也不可能整除

f_{i}

, 鉴于

p_{1}, \dots, p_{k}

是互异的. 这就推导出了一个矛盾, 于是

f

和

f^{'}

必然是互素的.
反过来, 设

f

和

f^{'}

互素. 若

f

的素因子分解中出现重复的因子

p

, 那么存在多项式

h

使得

f = p^{2} h

, 于是

f^{'} = p^{2} h^{'} + 2 p p^{'} h = p (p h^{'} + 2 p^{'} h) .

因此,

p

也整除

f^{'}

, 但这与

f

和

f^{'}

矛盾. 换言之,

p_{1}, \dots, p_{k}

互异.
证明的最后, 我们想要澄清一下

f = 1

的极端情况. 此时,

f

的素因子分解应该理解为"空积", 因而互异的条件得到满足. 鉴于

1^{'} = 0

\gcd (1, 0) = 1

f

和

f^{'}

也是互素的. 我们看到, 即便是

f = 1

, 定理也是成立的.

◻

译者注记. 刚才这个证明中用到了形式导数的性质而未加说明, 即对于多项式

f, g \in F [x]

, 我们有

{(f g)}^{'} = f^{'} g + f g^{'} .

并且, 使用归纳法, 我们很容易将其推广至任意多项的版本, 而刚才的证明中也要用到. 鉴于其并非一眼即得的结果, 我们将其表述为定理并进行证明.

定理. 给定域

F

, 对于任意的多项式

f, g \in F [x]

, 其乘积的形式导数可以被表示为

{(f g)}^{'} = f^{'} g + f g^{'} .

证明. 显然, 此定理成立当且仅当对于每个自然数

n \in ℕ

, 我们有

{(f g)}_{n}^{'} = {(f^{'} g + f g^{'})}_{n} .

对于左边, 我们可知

\begin{array}{rcl} {(f g)}_{n}^{'} & = & (n + 1) {(f g)}_{n + 1} \\ = & (n + 1) \sum_{k = 0}^{n + 1} f_{k} g_{n + 1 - k} \end{array}

对于

{(f^{'} g)}_{n}

, 我们可知

\begin{array}{rcl} {(f^{'} g)}_{n} & = & \sum_{k = 0}^{n} f_{k}^{'} g_{n - k} \\ = & \sum_{k = 0}^{n} (k + 1) f_{k + 1} g_{n - k} \\ = & \sum_{k = 1}^{n + 1} k f_{k} g_{n + 1 - k} \\ = & \sum_{k = 0}^{n + 1} k f_{k} g_{n + 1 - k} \end{array}

对于

{(f g^{'})}_{n}

, 我们可知

\begin{array}{rcl} {(f g^{'})}_{n} & = & \sum_{k = 0}^{n} f_{k} g_{n - k}^{'} \\ = & \sum_{k = 0}^{n} (n + 1 - k) f_{k} g_{n + 1 - k} \\ = & (n + 1) \sum_{k = 0}^{n} f_{k} g_{n + 1 - k} + \sum_{k = 0}^{n} (- k) f_{k} g_{n + 1 - k} \end{array}

因此, 我们得到

\begin{array}{rcl} {(f^{'} g + f g^{'})}_{n} & = & {(f^{'} g)}_{n} + {(f g^{'})}_{n} \\ = & \sum_{k = 0}^{n + 1} k f_{k} g_{n + 1 - k} + (n + 1) \sum_{k = 0}^{n} f_{k} g_{n + 1 - k} + \sum_{k = 0}^{n} (- k) f_{k} g_{n + 1 - k} \\ = & (n + 1) \sum_{k = 0}^{n} f_{k} g_{n + 1 - k} + (n + 1) f_{n + 1} g_{0} \\ = & (n + 1) \sum_{k = 0}^{n + 1} f_{k} g_{n + 1 - k} \\ = & {(f g)}_{n}^{'} \end{array}

证明也就结束了. 这个证明的优点在于其可以直接被推广至形式幂级数的情形而无需修改.

◻

推论. 给定域

F

, 对于任意的多项式

f_{1}, f_{2}, \dots, f_{n} \in F [x]

, 其乘积的形式导数可以被表示为

{(f_{1} f_{2} \dots f_{n})}^{'} = f_{1}^{'} f_{2} \dots f_{n} + f_{1} f_{2}^{'} \dots f_{n} + \dots + f_{1} \dots f_{n - 1} f_{n}^{'} .

定义. 域

F

被称为代数封闭的 (algebraically closed), 如果每个域

F

上的素多项式的次数都是

1

称 $F$ 是代数封闭的意味着每个 $F$ 上的非标量不可约的首项系数为一多项式均具有 $(x - c)$ 的形式. 我们已经观察到每个这样的多项式对于任意的 $F$ 都是不可约的. 据此, 代数闭域的一个等价定义是 $F [x]$ 中的每个非标量多项式 $f$ 都可以被表达为 $f = c {(x - c_{1})}^{n_{1}} \dots {(x - c_{k})}^{n_{k}}$ 的形式, 其中 $c$ 是一个标量, $c_{1}, \dots, c_{k}$ 是 $F$ 的不同元素, $n_{1}, \dots, n_{k}$ 是正整数. 另一种对于代数闭域的刻画是如果 $f$ 是域 $F$ 上的非标量多项式, 那么存在 $c \in F$ 使得 $f (c) = 0$ .

实数域 $ℝ$ 不是代数封闭的, 因为多项式 $(x^{2} + 1)$ 在 $ℝ$ 上是不可约的且次数不为 $1$ , 或是因为不存在实数 $c$ 满足 $c^{2} + 1 = 0$ . 所谓的代数基本定理陈述了复数域 $ℂ$ 是代数闭域的事实. 我们将不会证明这个定理, 尽管我们之后将在本书中稍微使用一下它. 省略这个定理的证明的一部分原因在于时间的限制, 一部分原因在于此证明依赖于实数系的一个"非代数"性质. 至于一种可能的证明, 感兴趣的读者可以阅读参考文献中Schreier和Sperner所写的书.

代数基本定理也使得实系数多项式的素因子分解的可能性明晰化. 如果 $f$ 是一个实系数多项式而 $c$ 是 $f$ 的一个复根, 那么其复共轭 $\overline{c}$ 也是 $f$ 的一个根. 因此, 那些非实的复根必然以共轭对偶的形式出现, 而整个根的集合具有 ${t_{1}, \dots, t_{k}, c_{1}, {\overline{c}}_{1}, \dots, c_{r}, {\overline{c}}_{r}}$ 的形式, 其中 $t_{1}, \dots, t_{k}$ 是实数而 $c_{1}, \dots, c_{r}$ 是非实的复数, 因此 $f$ 可以被分解为 $f = c (x - t_{1}) \dots (x - t_{k}) p_{1} \dots p_{r}$ 其中 $p_{i}$ 是二次多项式 $p_{i} = (x - c_{i}) (x - {\overline{c}}_{i}) .$ 这些多项式 $p_{i}$ 具有实系数. 我们总结一下, 实数域上的每个非标量不可约多项式的次数都是 $1$ 或 $2$ . $ℝ$ 上的每个非标量多项式都是特定的线性因子 (从 $f$ 的实根中得到) 和特定的不可约二次多项式之积 [译注: 还要考虑一下最后再乘上一个系数].

练习1. 令

p

是域

F

上一个首项系数为一的多项式. 令

f

和

g

是域

F

上互素的多项式. 证明

p f

和

p g

的最大公因子是

p

练习2. 默认代数基本定理成立, 证明以下事实. 如果

f

和

g

是复数域上的多项式, 那么

\gcd (f, g) = 1

当且仅当

f

和

g

没有共同的根.

练习3. 令

D

是

ℂ [x]

上的微分算子. 令

f

是复数域上的首项系数为一多项式. 证明

f = (x - c_{1}) \dots (x - c_{k})

其中

c_{1}, \dots, c_{k}

是不同的复数, 当且仅当

f

和

D f

互素. 换言之,

f

没有重复的根当且仅当

f

和

D f

没有相同的根. (默认代数基本定理成立.)

练习4. 证明以下Taylor公式的推广. 令

f, g, h

是某个复数域的子域上的多项式, 并且

\deg f \leq n

, 那么

f (g) = \sum_{k = 0}^{n} \frac{1}{k!} f^{(k)} (h) {(g - h)}^{k} .

(这里

f (g)

代表"应用

f

于

g

".)

对于剩余的练习, 我们需要如下定义. 如果 $f, g, p$ 是域 $F$ 上的多项式并且 $p \neq 0$ , 那么我们称模 $p$ 下 $f$ 和 $g$ 同余, 如果 $(f - g)$ 被 $p$ 整除. 如果模 $p$ 下 $f$ 同余于 $g$ , 那么我们记 $f \equiv g (\mod p) .$

练习5. 对于任意的非零多项式

p

, 证明模

p

同余是一个等价关系.

自反: $f \equiv f (\mod p)$ .
对称: 如果 $f \equiv g (\mod p)$ , 那么 $g \equiv f (\mod p)$ .
传递: 如果 $f \equiv g (\mod p)$ 并且 $g \equiv h (\mod p)$ , 那么 $f \equiv h (\mod p)$ .

练习6. 设

f \equiv g (\mod p)

且

f_{1} \equiv g_{1} (\mod p)

证明 $f + f_{1} \equiv g + g_{1} (\mod p)$ .
证明 $f f_{1} \equiv g g_{1} (\mod p)$ .

练习7. 使用练习6证明以下结果. 如果

f, g, h, p

是域

F

上的多项式而

p \neq 0

, 若

f \equiv g (\mod p)

, 则

h (f) \equiv h (g) (\mod p)

. [译注: 原文是练习7, 应该是练习6. 或许其他地方这样的编号引用错误还有很多, 因为我没有一一检查.]

练习8. 如果

p

是一个 [译注: 非标量] 不可约多项式而

f g \equiv 0 (\mod p)

, 那么

f \equiv 0 (\mod p)

或者

g \equiv 0 (\mod p)

. 给出反例说明在

p

可约的情况下这是错误的.

第5章行列式

第5.1节交换环

本章我们将证明与方阵的行列式有关的基本事实. 我们不仅对于域上的矩阵这么做, 矩阵的元素还可能是更一般类型的"标量". 这种一般化有两个理由. 首先, 在下一章, 我们将会发现不得不处理元素是多项式的矩阵的行列式. 其次, 在我们呈现的对于行列式的处理中, 有一条公理是不发挥作用的, 也就是保证每个非零元素都拥有乘法逆元的那条公理. 出于这些原因, 建立含幺交换环上的矩阵的行列式理论是合适的.

定义. 一个环是一个集合

K

, 带有两种运算

(x, y) \mapsto x + y

和

(x, y) \mapsto x y

满足

$K$ 在运算 $(x, y) \mapsto x + y$ 下是一个交换群;
$(x y) z = x (y z)$ ;
$x (y + z) = x y + x z$ ; $(y + z) x = y x + z x$ .

如果

x y = y x

对于所有

K

中的

x

和

y

成立, 那么我们称环

K

是交换的. 如果

K

中存在一个元素

1

满足对于每个

x

有

1 x = x 1 = x

, 那么

K

就被称为含幺环, 而

1

就被称为

K

的幺元.

这里我们感兴趣的是含幺交换环. 这样的环, 可以被简要地描述为一个集合 $K$ 带有两种运算, 满足第1章给出的域公理, 除了公理8和条件 $1 \neq 0$ . 因此, 域是含有非零幺元的交换环, 并且每个非零元都可逆. 整数集, 带有通常的运算, 就是一个含幺交换环, 但不是域. 另一个含幺交换环的例子是域上的多项式.

如果 $K$ 是一个含幺交换环, 我们定义 $K$ 上的 $m \times n$ 矩阵是一个从整数序对 $(i, j), 1 \leq i \leq m, 1 \leq j \leq n$ 的集合到 $K$ 的函数. 像往常一样, 我们将这样的矩阵表示为 $m$ 行 $n$ 列的矩形阵列. $K$ 上的矩阵的和与积定义恰如域上的矩阵 ${(A + B)}_{i, j} = A_{i, j} + B_{i, j}$ ${(A B)}_{i, j} = \sum_{k}^{} A_{i, k} B_{k, j}$ 当 $A$ 和 $B$ 具有相同的行数和列数时, 和有定义. 当 $A$ 的列数等于 $B$ 的行数时, 积有定义. 这些运算的基本代数性质当然仍然成立, 例如 $A (B + C) = A B + A C, A (B C) = (A B) C, 等等.$

和域的情况一样, 我们将称 $K$ 的元素为标量. 接着, 我们可以像之前一样定义矩阵的行或列的线性组合. 粗略说来, 我们对于域上的矩阵所做的事情, 对于 $K$ 上的矩阵一样合法, 除了那些需要"除法"的结果.

第5.2节行列式函数

令 $K$ 是一个含幺交换环. 我们希望为每个 $K$ 上的 $n \times n$ 矩阵赋一个被称为行列式的标量. 将行列式定义为基于矩阵元素的公式是可能的, 接着人们可以从这个公式里推导出行列式的性质. 然而, 这样的公式是相当复杂的, 为了获得一些技术性优势, 我们将按以下方式处理. 我们将 $K^{n \times n}$ 上的"行列式函数"定义为一种具有如下特别性质的函数. 它对于矩阵的每一行都是线性的; 若矩阵具有两个相等的行, 那么其值为 $0$ ; 对于恒等矩阵, 其值为 $1$ . 我们将证明这样的函数存在, 并且唯一, 也就是恰有一个这样的函数. 随着我们证明唯一性, 就得到了一个行列式的显式公式, 以及许多有用的性质.

本节我们将致力于"行列式函数"的定义, 以及证明至少有一个这样的函数存在.

定义. 令

K

是一个含幺交换环, 令

n

是一个正整数, 令

D

是一个函数, 其赋每个

K

上的

n \times n

矩阵

A

以一个

K

中标量

D (A)

. 我们称

D

是

n

线性的, 如果对于每个

i, 1 \leq i \leq n

, 在其他

(n - 1)

行固定的情况下,

D

对于第

i

行是一个线性函数.

这个定义需要一些澄清. 如果 $D$ 是一个从 $K^{n \times n}$ 到 $K$ 的函数, 并且如果 $α_{1}, \dots, α_{n}$ 是矩阵 $A$ 的行, 那么我们也记 $D (A) = D (α_{1}, \dots, α_{n})$ 即是说, 我们也将 $D$ 想成是 $A$ 的行的函数. $D$ 是 $n$ 线性的陈述意味着 $D (α_{1}, \dots, c α_{i} + α_{i}^{'}, \dots, α_{n}) = c D (α_{1}, \dots, α_{i}, \dots, α_{n}) + D (α_{1}, \dots, α_{i}^{'}, \dots, α_{n})$ 如果我们固定除了第 $i$ 行之外的所有行并将 $D$ 视为第 $i$ 行的函数, 那么将 $D (A)$ 写成 $D (α_{i})$ 是更方便的. 因此, 我们可以将上式简写成 $D (c α_{i} + α_{i}^{'}) = c D (α_{i}) + D (α_{i}^{'})$ 只要意思足够清楚即可.

例子1. 令

k_{1}, \dots, k_{n}

是正整数, 其中

1 \leq k_{i} \leq n

, 并令

a

是

K

的一个元素. 对于每个

K

上的

n \times n

矩阵

A

, 定义

D (A) = a A (1, k_{1}) \dots A (n, k_{n})

那么函数

D

就是

n

线性的. 这是因为如果我们将

D

视为第

i

行的函数, 而其他行固定, 我们可以将其写作

D (α_{i}) = A (i, k_{i}) b

其中

b

是一个

K

的固定元素. 令

α_{i}^{'} = (A_{i, 1}^{'}, \dots, A_{i, n}^{'})

, 那么我们有

\begin{array}{rcl} D (c α_{i} + α_{i}^{'}) & = & [c A (i, k_{i}) + A^{'} (i, k_{i})] b \\ = & c D (α_{i}) + D (α_{i}^{'}) \end{array}

因此

D

对于

A

的每一行都是一个线性函数.
这种类型的

n

线性函数的一个特别例子是

D (A) = A_{1, 1} A_{2, 2} \dots A_{n, n}

换言之, "对角线元素之积"是一个

K^{n \times n}

上的

n

线性函数.

例子2. 让我们找出所有

K

上的

2 \times 2

矩阵上的

2

线性函数. 令

D

是这样一个函数. 如果我们用

ε_{1}, ε_{2}

代表

2 \times 2

的恒等矩阵的行, 那么我们有

D (A) = D (A_{1, 1} ε_{1} + A_{1, 2} ε_{2}, A_{2, 1} ε_{1} + A_{2, 2} ε_{2})

因为

D

是

2

线性的, 我们有

\begin{array}{rcl} D (A) & = & A_{1, 1} D (ε_{1}, A_{2, 1} ε_{1} + A_{2, 2} ε_{2}) + A_{1, 2} D (ε_{2}, A_{2, 1} ε_{1} + A_{2, 2} ε_{2}) \\ = & A_{1, 1} A_{2, 1} D (ε_{1}, ε_{1}) + A_{1, 1} A_{2, 2} D (ε_{1}, ε_{2}) + A_{1, 2} A_{2, 1} D (ε_{2}, ε_{1}) + A_{1, 2} A_{2, 2} D (ε_{2}, ε_{2}) \end{array}

因此,

D

完全由四个标量

D (ε_{1}, ε_{1}), D (ε_{1}, ε_{2}), D (ε_{2}, ε_{1}), D (ε_{2}, ε_{2})

决定. 读者应该很容易验证, 如果

a, b, c, d

是

K

中四个标量, 定义

D (A) = A_{1, 1} A_{2, 1} a + A_{1, 1} A_{2, 2} b + A_{1, 2} A_{2, 1} c + A_{1, 2} A_{2, 2} d

那么

D

是一个

K

上的

2 \times 2

矩阵上的

2

线性函数, 并且

D (ε_{1}, ε_{1}) = a, D (ε_{1}, ε_{2}) = b, D (ε_{2}, ε_{1}) = c, D (ε_{2}, ε_{2}) = d

引理.

n

线性函数之线性组合亦是

n

线性函数.

证明. 证明两个

n

线性函数的线性组合是

n

线性函数足矣. 令

D

和

E

是

n

线性函数. 如果

a

和

b

属于

K

, 那么

a D + b E

当然由

(a D + b E) (A) = a D (A) + b E (A)

定义. 因此, 如果我们固定除了第

i

行之外的所有行

\begin{array}{rcl} (a D + b E) (c α_{i} + α_{i}^{'}) & = & a D (c α_{i} + α_{i}^{'}) + b E (c α_{i} + α_{i}^{'}) \\ = & a c D (α_{i}) + a D (α_{i}^{'}) + b c E (α_{i}) + b E (α_{i}^{'}) \\ = & c (a D + b E) (α_{i}) + (a D + b E) (α_{i}^{'}) \end{array}

◻

如果 $K$ 是一个域而 $V$ 是 $K$ 上的 $n \times n$ 矩阵的集合, 那么以上引理是说, $V$ 上的 $n$ 线性函数的集合是从 $V$ 到 $K$ 的所有函数的空间的子空间.

例子3. 令

D

是

K

上的

2 \times 2

矩阵上的函数, 由

D (A) = A_{1, 1} A_{2, 2} - A_{1, 2} A_{2, 1}

定义. 现在

D

是两个函数之和, 它们具有例子1所刻画的类型:

\begin{matrix} D & = & D_{1} + D_{2} \\ D_{1} (A) & = & A_{1, 1} A_{2, 2} \\ D_{2} (A) & = & - A_{1, 2} A_{2, 1} \end{matrix}

根据以上引理,

D

是一个

2

线性函数. 对于行列式有任何一点经验的读者都不会对此感到惊讶, 因为他会识别出来这就是

2 \times 2

矩阵的行列式的通常定义. 当然了, 我们刚才定义的函数

D

不是一个普通的

2

线性函数. 它拥有许多特别的性质. 让我们注意到其中一些. 首先, 如果

I

是

2 \times 2

的恒等矩阵, 那么

D (I) = 1

, 即

D (ε_{1}, ε_{2}) = 1

. 其次, 如果

A

的两行是相等的, 那么

D (A) = A_{1, 1} A_{2, 2} - A_{1, 2} A_{2, 1} = 0

最后, 如果

A^{'}

是由一个

2 \times 2

的矩阵

A

交换其行得到的, 那么

D (A^{'}) = - D (A)

, 因为

\begin{array}{rcl} D (A^{'}) & = & A_{1, 1}^{'} A_{2, 2}^{'} - A_{1, 2}^{'} A_{2, 1}^{'} \\ = & A_{2, 1} A_{1, 2} - A_{2, 2} A_{1, 1} \\ = & - D (A) \end{array}

定义. 令

D

是一个

n

线性函数, 称

D

是交错的, 如果其下两个条件满足:

凡 $A$ 有两行相等, 则 $D (A) = 0$ .
如果 $A^{'}$ 由 $A$ 交换两行获得, 那么 $D (A^{'}) = - D (A)$ .

我们将在之后证明任何满足条件a的 $n$ 线性函数自动地满足条件b. 我们将两种条件放在交错 $n$ 线性函数的定义里主要是为了方便. 读者可能也会注意到如果 $D$ 满足b, 而 $A$ 是一个有着相等两行的矩阵, 那么 $D (A) = - D (A)$ . 这让人忍不住断言 $D$ 也满足条件a. 这在某些时候是对的, 例如 $K$ 是一个满足 $1 + 1 \neq 0$ 的域, 但在一般情况下a不是b的推论.

定义. 令

K

是一个含幺交换环, 令

n

是一个正整数. 设

D

是一个从

K

上的

n \times n

矩阵到

K

的函数. 我们称

D

是一个行列式函数, 如果

D

是

n

线性的, 交错的, 并且

D (I) = 1

正如我们之前所说的, 我们最终要证明 $K$ 上的 $n \times n$ 矩阵上恰存在一个行列式函数. 这对于 $K$ 上的 $1 \times 1$ 矩阵 $A = [a]$ 而言是显然的. 由 $D (A) = a$ 给定的函数 $D$ 是一个行列式函数, 并且很明显这就是 $1 \times 1$ 的矩阵上唯一的行列式函数. 现在我们来处理 $n = 2$ 的情况. 我们已经在例子3中表明了 $D (A) = A_{1, 1} A_{2, 2} - A_{1, 2} A_{2, 1}$ 是一个行列式函数. 而且, 例子2中呈现的公式表明 $D$ 是 $2 \times 2$ 矩阵上唯一的行列式函数. 这是因为, 我们已经证明了对于任何 $2$ 线性函数 $D$ 有 $D (A) = A_{1, 1} A_{2, 1} D (ε_{1}, ε_{1}) + A_{1, 1} A_{2, 2} D (ε_{1}, ε_{2}) + A_{1, 2} A_{2, 1} D (ε_{2}, ε_{1}) + A_{1, 2} A_{2, 2} D (ε_{2}, ε_{2})$ 如果 $D$ 是交错的, 那么 $D (ε_{1}, ε_{1}) = D (ε_{2}, ε_{2}) = 0$ 且 $D (ε_{2}, ε_{1}) = - D (ε_{1}, ε_{2}) = - D (I)$ 如果 $D$ 还满足 $D (I) = 1$ , 那么 $D (A) = A_{1, 1} A_{2, 2} - A_{1, 2} A_{2, 1}$

例子4. 令

F

是一个域, 令

D

是多项式环

F [x]

上的

3 \times 3

矩阵上的任意一个交错的

3

线性函数. 令

A = [\begin{matrix} x & 0 & - x^{2} \\ 0 & 1 & 0 \\ 1 & 0 & x^{3} \end{matrix}]

如果我们将

3 \times 3

的恒等矩阵的行表示为

ε_{1}, ε_{2}, ε_{3}

, 那么

D (A) = D (x ε_{1} - x^{2} ε_{3}, ε_{2}, ε_{1} + x^{3} ε_{3})

既然

D

对于每一行都是线性的,

\begin{array}{rcl} D (A) & = & x D (ε_{1}, ε_{2}, ε_{1} + x^{3} ε_{3}) - x^{2} D (ε_{3}, ε_{2}, ε_{1} + x^{3} ε_{3}) \\ = & x D (ε_{1}, ε_{2}, ε_{1}) + x^{4} D (ε_{1}, ε_{2}, ε_{3}) - x^{2} D (ε_{3}, ε_{2}, ε_{1}) - x^{5} D (ε_{3}, ε_{2}, ε_{3}) \end{array}

因为

D

是交错的, 于是

D (A) = (x^{4} + x^{2}) D (ε_{1}, ε_{2}, ε_{3})

引理. 令

D

是一个

2

线性函数, 并且对于

K

上具有相同的行的

2 \times 2

矩阵

A

有

D (A) = 0

, 那么

D

是交错的.

证明. 我们必须证明的是, 如果

A

是一个

2 \times 2

的矩阵而

A^{'}

是由

A

交换两行得到的, 那么

D (A^{'}) = - D (A)

. 如果

A

的行是

α

和

β

, 这意味着我们必须证明的是

D (β, α) = - D (α, β)

. 既然

D

是

2

线性的,

D (α + β, α + β) = D (α, α) + D (α, β) + D (β, α) + D (β, β)

根据我们的假设,

D (α + β, α + β) = D (α, α) = D (β, β) = 0

, 于是

0 = D (α, β) + D (β, α)

◻

引理. 令

D

是一个

K

上的

n \times n

矩阵上的

n

线性函数. 设

D

满足凡

A

两相邻行相等时即有

D (A) = 0

, 那么

D

是交错的.

证明. 我们必须证明, 每当

A

的两行相等时,

D (A) = 0

, 以及若

A^{'}

是由

A

交换某两行得到的, 那么

D (A^{'}) = - D (A)

. 首先, 让我们设

A^{'}

是由

A

交换两个相邻的行得到的. 读者应该能够看出来, 前一个引理的证明中使用的论证可以扩展到目前的情形, 并告诉我们

D (A^{'}) = - D (A)

.
现在令

B

由

A

交换第

i

行和第

j

行得到, 其中

i < j

. 我们可以由

A

通过一系列交换相邻行的操作得到

B

. 我们首先交换第

i

行和第

(i + 1)

行, 如此反复直至行的排列呈现

α_{1}, \dots, α_{i - 1}, α_{i + 1}, \dots, α_{j}, α_{i}, α_{j + 1}, \dots, α_{n}

的顺序. 这需要交换

k = j - i

次交换相邻的行. 现在我们用

(k - 1)

次交换相邻的行将

α_{j}

移到第

i

行的位置. 因此, 我们通过

k + (k - 1) = 2 k - 1

次交换相邻行的操作由

A

获得了

B

, 于是

D (B) = {(- 1)}^{2 k - 1} D (A) = - D (A)

设

A

是任意拥有相等两行的

n \times n

矩阵, 即有

α_{i} = α_{j}

, 其中

i < j

. 如果

j = i + 1

, 那么

A

有相等的邻行, 于是

D (A) = 0

. 如果

j > i + 1

, 我们交换

α_{i + 1}

和

α_{j}

, 其结果

B

拥有相等的邻行, 于是

D (B) = 0

. 从另一方面说,

D (B) = - D (A)

, 因此

D (A) = 0

◻

定义. 如果

n > 1

并且

A

是一个

K

上的

n \times n

矩阵, 我们令

A (i | j)

代表删去

A

的第

i

行和第

j

列得到的

(n - 1) \times (n - 1)

矩阵. 如果

D

是一个

(n - 1)

线性函数, 而

A

是一个

n \times n

矩阵, 我们记

D_{i, j} (A) = D [A (i | j)]

定理1. 令

n > 1

, 令

D

是

K

上的

(n - 1) \times (n - 1)

矩阵上的一个交错的

(n - 1)

线性函数. 对于每个

j, 1 \leq j \leq n

, 由

E_{j} (A) = \sum_{i = 1}^{n} {(- 1)}^{i + j} A_{i, j} D_{i, j} (A)

定义的函数

E_{j}

是

n \times n

矩阵

A

上的一个交错的

n

线性函数. 如果

D

是一个行列式函数, 那么每个

E_{j}

也是行列式函数.

证明. 如果

A

是一个

n \times n

矩阵, 那么

D_{i, j} (A)

独立于

A

的第

i

行. 既然

D

是

(n - 1)

线性的, 那么显然

D_{i, j}

对于除了第

i

行之外的行都是线性的. 因此,

A_{i, j} D_{i, j} (A)

是

A

的一个

n

线性函数.

n

线性函数的线性组合仍是

n

线性的, 于是

E_{j}

是

n

线性的. 为了证明

E_{j}

是交错的, 只需证明凡

A

有相等的邻行则

E_{j} (A) = 0

就够了. 设

α_{k} = α_{k + 1}

, 如果

i \neq k

且

i \neq k + 1

, 那么矩阵

A (i | j)

拥有相等的两行, 于是

D_{i, j} (A) = 0

, 因此

E_{j} (A) = {(- 1)}^{k + j} A_{k, j} D_{k, j} (A) + {(- 1)}^{k + 1 + j} A_{k + 1, j} D_{k + 1, j} (A)

既然

α_{k} = α_{k + 1}

, 那么

A_{k, j} = A_{k + 1, j} 且 A (k | j) = A (k + 1 | j)

显然有

E_{j} (A) = 0

.
现在设

D

是一个行列式函数. 如果

I^{(n)}

是

n \times n

的恒等矩阵, 那么

I^{(n)} (j | j)

是

(n - 1) \times (n - 1)

的恒等矩阵

I^{(n - 1)}

. 既然

{I^{(n)}}_{i, j} = δ_{i, j}

, 那么根据

E_{j}

的定义有

E_{j} (I^{(n)}) = D (I^{(n - 1)})

因为

D (I^{(n - 1)}) = 1

, 所以

E_{j} (I^{(n)}) = 1

, 即

E_{j}

是一个行列式函数.

◻

推论. 令

K

是一个含幺交换环而

n

是一个正整数, 那么至少存在一个

K^{n \times n}

上的行列式函数.

证明. 我们已经证明了

K

上的

1 \times 1

矩阵上行列式函数的存在性, 甚至

2 \times 2

的矩阵上也证明了. 定理1告诉我们如何从

(n - 1) \times (n - 1)

矩阵上的行列式函数构造出

n \times n

矩阵上的行列式函数, 根据归纳可得推论.

◻

例子5. 如果

B

是

K

上的一个

2 \times 2

矩阵, 我们令

| B | = B_{1, 1} B_{2, 2} - B_{1, 2} B_{2, 1}

那么

| B | = D (B)

, 其中

D

是

2 \times 2

矩阵上的行列式函数. 我们已经证明过

K^{2 \times 2}

上这样的函数是唯一的了. 令

A = [\begin{matrix} A_{1, 1} & A_{1, 2} & A_{1, 3} \\ A_{2, 1} & A_{2, 2} & A_{2, 3} \\ A_{3, 1} & A_{3, 2} & A_{3, 3} \end{matrix}]

是

K

上的一个

3 \times 3

矩阵. 如果我们如定理1中对于

E_{j}

的定义一样定义了

E_{1}, E_{2}, E_{3}

, 那么

\begin{matrix} E_{1} (A) & = & A_{1, 1} | \begin{matrix} A_{2, 2} & A_{2, 3} \\ A_{3, 2} & A_{3, 3} \end{matrix} | & - & A_{2, 1} | \begin{matrix} A_{1, 2} & A_{1, 3} \\ A_{3, 2} & A_{3, 3} \end{matrix} | & + & A_{3, 1} | \begin{matrix} A_{1, 2} & A_{1, 3} \\ A_{2, 2} & A_{2, 3} \end{matrix} | \\ E_{2} (A) & = & - A_{1, 2} | \begin{matrix} A_{2, 1} & A_{2, 3} \\ A_{3, 1} & A_{3, 3} \end{matrix} | & + & A_{2, 2} | \begin{matrix} A_{1, 1} & A_{1, 3} \\ A_{3, 1} & A_{3, 3} \end{matrix} | & - & A_{3, 2} | \begin{matrix} A_{1, 1} & A_{1, 3} \\ A_{2, 1} & A_{2, 3} \end{matrix} | \\ E_{3} (A) & = & A_{1, 3} | \begin{matrix} A_{2, 1} & A_{2, 2} \\ A_{3, 1} & A_{3, 2} \end{matrix} | & - & A_{2, 3} | \begin{matrix} A_{1, 1} & A_{1, 2} \\ A_{3, 1} & A_{3, 2} \end{matrix} | & + & A_{3, 3} | \begin{matrix} A_{1, 1} & A_{1, 2} \\ A_{2, 1} & A_{2, 2} \end{matrix} | \end{matrix}

从定理1可知

E_{1}, E_{2}, E_{3}

都是行列式函数. 实际上, 我们之后将证明

E_{1} = E_{2} = E_{3}

, 但即便在此简单情形之下这也并非显然. 然而, 这可以直接地通过展开以上每个表达式进行验证. 我们不做这种事情, 转而给出一些特定的例子.

令 $K = ℝ [x]$ 并且 $A = [\begin{matrix} x - 1 & x^{2} & x^{3} \\ 0 & x - 2 & 1 \\ 0 & 0 & x - 3 \end{matrix}]$ 那么 $\begin{matrix} E_{1} (A) & = & (x - 1) | \begin{matrix} x - 2 & 1 \\ 0 & x - 3 \end{matrix} | \\ = & (x - 1) (x - 2) (x - 3) \\ E_{2} (A) & = & - x^{2} | \begin{matrix} 0 & 1 \\ 0 & x - 3 \end{matrix} | + (x - 2) | \begin{matrix} x - 1 & x^{3} \\ 0 & x - 3 \end{matrix} | \\ = & (x - 1) (x - 2) (x - 3) \\ E_{3} (A) & = & x^{3} | \begin{matrix} 0 & x - 2 \\ 0 & 0 \end{matrix} | - | \begin{matrix} x - 1 & x^{2} \\ 0 & 0 \end{matrix} | + (x - 3) | \begin{matrix} x - 1 & x^{2} \\ 0 & x - 2 \end{matrix} | \\ = & (x - 1) (x - 2) (x - 3) \end{matrix}$
令 $K = ℝ$ 并且 $A = [\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{matrix}]$ 那么 $\begin{matrix} E_{1} (A) & = & | \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} | & = & 1 \\ E_{2} (A) & = & - | \begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix} | & = & 1 \\ E_{3} (A) & = & - | \begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix} | & = & 1 \end{matrix}$

练习1. 下列每个表达式都定义了一个实数域上的

3 \times 3

矩阵上的函数

D

, 其中哪些

D

是

3

线性函数?

$D (A) = A_{1, 1} + A_{2, 2} + A_{3, 3}$ ;
$D (A) = {(A_{1, 1})}^{2} + 3 A_{1, 1} A_{2, 2}$ ;
$D (A) = A_{1, 1} A_{1, 2} A_{3, 3}$ ;
$D (A) = A_{1, 3} A_{2, 2} A_{3, 2} + 5 A_{1, 2} A_{2, 2} A_{3, 2}$ ;
$D (A) = 0$ ;
$D (A) = 1$ .

练习2. 直接验证前文中的

E_{1}, E_{2}, E_{3}

是等同的.

练习3. 令

K

是一个含幺交换环. 如果

A

是

K

上的一个

2 \times 2

矩阵, 那么

A

的古典伴随

adj A

由

adj A = [\begin{matrix} A_{2, 2} & - A_{1, 2} \\ - A_{2, 1} & A_{1, 1} \end{matrix}]

定义. 如果

\det

代表

K

上的

2 \times 2

矩阵上唯一的行列式函数, 证明

$(adj A) A = A (adj A) = (\det A) I$ ;
$\det (adj A) = \det (A)$ ;
$adj (A^{t}) = {(adj A)}^{t}$ .

(

A^{t}

代表

A

的转置.)

练习4. 令

A

是一个域

F

上的

2 \times 2

矩阵. 证明

A

可逆当且仅当

\det (A) \neq 0

. 当

A

可逆时, 给出一个

A^{- 1}

的公式.

练习5. 令

A

是一个域

F

上的

2 \times 2

矩阵, 设

A^{2} = 0

. 证明对于每个标量

c

有

\det (c I - A) = c^{2}

练习6. 令

K

是一个复数域的子域, 并且

n

是一个正整数. 令

j_{1}, \dots, j_{n}

和

k_{1}, \dots, k_{n}

是不超过

n

的正整数. 对于一个

K

上的

n \times n

的矩阵

A

而言定义

D (A) = A (j_{1}, k_{1}) A (j_{2}, k_{2}) \dots A (j_{n}, k_{n})

证明

D

是

n

线性的当且仅当整数

j_{1}, \dots, j_{n}

是互异的.

练习7. 令

K

是一个含幺交换环. 证明

K

上的

2 \times 2

矩阵上的行列式函数对于列是

2

线性的和交错的.

练习8. 令

K

是一个含幺交换环. 通过规则

D (A) = A_{1, 1} | \begin{matrix} A_{2, 2} & A_{2, 3} \\ A_{3, 2} & A_{3, 3} \end{matrix} | - A_{1, 2} | \begin{matrix} A_{2, 1} & A_{2, 3} \\ A_{3, 1} & A_{3, 3} \end{matrix} | + A_{1, 3} | \begin{matrix} A_{2, 1} & A_{2, 2} \\ A_{3, 1} & A_{3, 2} \end{matrix} |

定义了一个

K

上的

3 \times 3

矩阵上的函数

D

. 证明

D

对于列而言是交错的和

3

线性的.

练习9. 令

K

是一个含幺交换环而

D

是

K

上的

n \times n

矩阵上的交错的

n

线性函数, 证明

如果 $A$ 有一行为 $0$ , 那么 $D (A) = 0$ ;
如果 $B$ 是由 $A$ 通过将一行的倍数加到另一行上去得到的, 那么 $D (B) = D (A)$ .

练习10. 令

F

是一个域,

A

是一个域

F

上的

2 \times 3

矩阵.

(c_{1}, c_{2}, c_{3})

是一个

F^{3}

中的向量, 由

c_{1} = | \begin{matrix} A_{1, 2} & A_{1, 3} \\ A_{2, 2} & A_{2, 3} \end{matrix} |, c_{2} = | \begin{matrix} A_{1, 3} & A_{1, 1} \\ A_{2, 3} & A_{2, 1} \end{matrix} |, c_{3} = | \begin{matrix} A_{1, 1} & A_{1, 2} \\ A_{2, 1} & A_{2, 2} \end{matrix} |

定义. 证明

$rank (A) = 2$ 当且仅当 $(c_{1}, c_{2}, c_{3}) \neq 0$ ;
如果 $A$ 的秩为 $2$ , 那么 $(c_{1}, c_{2}, c_{3})$ 是线性方程组 $A X = 0$ 的解空间的一个基.

练习11. 令

K

是一个含幺交换环而

D

是

K

上的

2 \times 2

矩阵上的一个交错的

2

线性函数. 证明对于每个

A

而言有

D (A) = (\det A) D (I)

. 现在使用这个结果, 在不对于矩阵的元素进行计算的情况下, 证明

\det (A B) = (\det A) (\det B)

对于

K

上任意的

2 \times 2

矩阵

A

和

B

成立.

练习12. 令

F

是一个域,

D

是一个

F

上的

n \times n

矩阵上的函数. 设

D (A B) = D (A) D (B)

对于所有

A

和

B

成立. 证明要么对于所有的

A

有

D (A) = 0

, 要么

D (I) = 1

. 在后一种情况, 证明凡

A

可逆即有

D (A) \neq 0

练习13. 令

ℝ

是实数域, 令

D

是一个

ℝ

上的

2 \times 2

矩阵上的函数, 满足

D (A B) = D (A) D (B)

对于所有

A

和

B

成立, 并设

D ([\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix}]) \neq D ([\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}])

证明以下命题.

$D (0) = 0$ ;
如果 $A^{2} = 0$ , 那么 $D (A) = 0$ ;
如果 $B$ 由 $A$ 交换两行 (或交换两列) 获得, 那么 $D (B) = - D (A)$ ;
如果 $A$ 有一行 (或一列) 为零, 那么 $D (A) = 0$ ;
若 $A$ 是奇异的, 那么 $D (A) = 0$ .

练习14. 令

A

是域

F

上的一个

2 \times 2

矩阵, 那么所有具有形式

f (A)

的矩阵, 其中

f

是

F

上的一个多项式, 构成了一个含幺交换环

K

. 如果

B

是

K

上的一个

2 \times 2

矩阵, 那么

B

的行列式是

F

上的一个

2 \times 2

矩阵. 设

I

是

F

上的

2 \times 2

的恒等矩阵,

K

上的

2 \times 2

矩阵

B

为

B = [\begin{matrix} A - A_{1, 1} I & - A_{1, 2} I \\ - A_{2, 1} I & A - A_{2, 2} I \end{matrix}]

证明

\det (B) = f (A)

, 其中

f = x^{2} - (A_{1, 1} + A_{2, 2}) x + \det (A)

, 并证明

f (A) = 0

第5.3节置换和行列式的唯一性

本节我们将证明 $K$ 上的 $n \times n$ 矩阵上的行列式函数的唯一性. 这个证明相当自然地将我们引向考虑置换及其一些基本性质.

设 $D$ 是 $K$ 上的 $n \times n$ 矩阵上的一个交错的 $n$ 线性函数. 令 $A$ 是一个 $K$ 上的 $n \times n$ 矩阵, 其行分别为 $α_{1}, \dots, α_{n}$ . 如果我们用 $ε_{1}, ε_{2}, \dots, ε_{n}$ 表示 $K$ 上的 $n \times n$ 恒等矩阵的行, 那么 $α_{i} = \sum_{j = 1}^{n} A (i, j) ε_{j}, 1 \leq i \leq n$ 因此 $\begin{array}{rcl} D (A) & = & D (\sum_{j}^{} A (1, j) ε_{j}, α_{2}, \dots, α_{n}) \\ = & \sum_{j}^{} A (1, j) D (ε_{j}, α_{2}, \dots, α_{n}) \end{array}$ 如果我们现在替换 $α_{2}$ 以 $\sum_{k}^{} A (2, k) ε_{k}$ , 那么我们看到 $D (ε_{j}, α_{2}, \dots, α_{n}) = \sum_{k}^{} A (2, k) D (ε_{j}, ε_{k}, \dots, α_{n})$ 因此 $D (A) = \sum_{j, k}^{} A (1, j) A (2, k) D (ε_{j}, ε_{k}, \dots, α_{n})$ 对于 $D (ε_{j}, ε_{k}, \dots, α_{n})$ 我们接着替换 $α_{3}$ 以 $\sum_{l}^{} A (3, l) ε_{l}$ , 如此反复. 最终我们得到了一个 $D (A)$ 的表达式, 其复杂但在理论上十分重要, 即 $D (A) = \sum_{k_{1}, k_{2}, \dots, k_{n}}^{} A (1, k_{1}) A (2, k_{2}) \dots A (n, k_{n}) D (ε_{k_{1}}, ε_{k_{2}}, \dots, ε_{k_{n}})$ 此和布于所有不超过 $n$ 的正整数的有限序列 $(k_{1}, k_{2}, \dots, k_{n})$ 之上. 这表明 $D$ 是一系列函数的有限之和, 它们具有例子1所刻画的类型. 应该注意到此式仅是 $D$ 为 $n$ 线性之推论, 而例子2是其一个特殊情形. 既然 $D$ 是交错的, 那么每当下标 $k_{i}$ 之中有两个相等时, 有 $D (ε_{k_{1}}, ε_{k_{2}}, \dots, ε_{k_{n}}) = 0$ 不超过 $n$ 的正整数的一个有限序列 $(k_{1}, k_{2}, \dots, k_{n})$ , 若其没有两个相等的分量, 则被称为一个 $n$ 阶置换. 因此, 在这 $D$ 的复杂表达式之中, 我们只需要将 $(k_{1}, k_{2}, \dots, k_{n})$ 算是 $n$ 阶置换的部分加起来即可.

既然一个有限的序列, 或者说 $n$ 元组, 是一个定义于前 $n$ 个正整数上的函数, 一个 $n$ 阶置换可以被定义为从集合 ${1, 2, \dots, n}$ 到自身的双射. 这样一个函数 $σ$ 对应于 $n$ 元组 $(σ 1, σ 2, \dots, σ n)$ , 因此实际上它不过就是一个以某种良定的方式排列 $1, 2, \dots, n$ 的规则.

如果 $D$ 是一个交错的 $n$ 线性函数, 而 $A$ 是 $K$ 上的一个 $n \times n$ 矩阵, 那么 $D (A) = \sum_{σ}^{} A (1, σ 1) \dots A (n, σ n) D (ε_{σ 1}, \dots, ε_{σ n})$ 此和布于所有 $n$ 阶置换 $σ$ 之上.

接着我们将证明 $D (ε_{σ 1}, \dots, ε_{σ n}) = \pm D (ε_{1}, \dots, ε_{n})$ 其中符号 $\pm$ 仅依赖于排列 $σ$ . 理由如下. 序列 $(σ 1, σ 2, \dots, σ n)$ 可由 $(1, 2, \dots, n)$ 通过有限次交换元素得到. 例如, 如果 $σ 1 \neq 1$ , 那么我们可以交换 $1$ 和 $σ 1$ 的位置, 获得 $(σ 1, \dots, 1, \dots)$ . 继行此法, 我们将在 $n$ 次或更少这样的交换之后抵达序列 $(σ 1, σ 2, \dots, σ n)$ . [译注: 实际上最多仅需 $(n - 1)$ 次这样的交换. 另外, 交换也可以被视为一种特殊的置换, 那么这是说任何置换都可以被表示为交换的复合.] 既然 $D$ 是交错的, 那么每当我们交换行 $ε_{i}$ 和 $ε_{j}$ 其值的符号就会改变. 因此, 如果我们通过 $m$ 次交换从 $(1, 2, \dots, n)$ 得到了 $(σ 1, σ 2, \dots, σ n)$ , 我们有 $D (ε_{σ 1}, \dots, ε_{σ n}) = {(- 1)}^{m} D (ε_{1}, \dots, ε_{n})$ 特别地, 如果 $D$ 是一个行列式函数, $D (ε_{σ 1}, \dots, ε_{σ n}) = {(- 1)}^{m}$ 其中 $m$ 仅依赖于 $σ$ 而不依赖于 $D$ . 因此, 所有的行列式函数为以 $ε_{σ 1}, \dots, ε_{σ n}$ 为行的矩阵赋相同的值, 该值要么是 $1$ 要么是 $- 1$ .

现在我们给出一个关于置换的基本事实. 如果 $σ$ 是一个 $n$ 阶置换, 读者可以通过一系列交换由 $(1, 2, \dots, n)$ 得到 $(σ 1, σ 2, \dots, σ n)$ , 而且这可以按照各种不同的方式进行. 尽管如此, 不论以何种方式进行, 交换的次数要么总是偶数, 要么总是奇数. 于是, 置换也就相应地被称为偶的或奇的. 我们以 $sgn σ = {\begin{matrix} 1 & , 如果 σ 是偶置换 \\ - 1 & , 如果 σ 是奇置换 \end{matrix}$ 定义置换的符号 (sign), 其中符号 (symbol) " $1$ "代表整数 $1$ . [译注: 实际上, 我们需要定义整数和环/域的元素的乘法, 当然它只依赖于加法群的结构.]

我们将在之后表明置换的这个基本性质可从我们已经知道的关于行列式函数的东西推导出来. 让我们暂时假设这个性质成立, 那么整数 $m$ 在 $σ$ 是偶置换的情况下总是偶数, 在 $σ$ 是奇置换的情况下总是奇数. 那么, 对于任何一个交错的 $n$ 线性函数 $D$ 我们有 $D (ε_{σ 1}, \dots, ε_{σ n}) = (sgn σ) D (ε_{1}, \dots, ε_{n})$ 那么根据我们已经得到的公式, $D (A) = [\sum_{σ}^{} (sgn σ) A (1, σ 1) \dots A (n, σ n)] D (I)$ 当然 $I$ 代表 $n \times n$ 的恒等矩阵.

从此结果之中我们可以看出来 $K$ 上的 $n \times n$ 矩阵上恰存在唯一的行列式函数. 如果我们用 $\det$ 代表这个函数, 那么它由 $\det (A) = \sum_{σ}^{} (sgn σ) A (1, σ 1) \dots A (n, σ n)$ 给出, 其中和布于所有 $n$ 阶置换之上. 我们可以将其形式化地总结如下.

定理2. 令

K

是一个含幺交换环, 令

n

是一个正整数.

K

上的

n \times n

矩阵上恰存在唯一的行列式函数, 即由

\det (A) = \sum_{σ}^{} (sgn σ) A (1, σ 1) \dots A (n, σ n)

给定的函数

\det

. 如果

D

是一个

K^{n \times n}

上的交错的

n

线性函数, 那么对于每个

n \times n

的矩阵

A

D (A) = (\det A) D (I)

这就是我们一直在寻求的定理, 不过证明中我们留下了一个gap. 这个gap就是证明对于一个给定的 $σ$ , 当我们从 $(1, 2, \dots, n)$ 经过交换得到 $(σ 1, σ 2, \dots, σ n)$ 时, 交换的次数要么总是偶数, 要么总是奇数. 这个基本的组合学事实当然可以不借助于行列式来证明. 然而, 我们乐意指出如何从 $n \times n$ 矩阵上的行列式函数的存在性中得到这个事实.

令 $K$ 是整数环, 令 $D$ 是 $K$ 上的 $n \times n$ 矩阵上的一个行列式函数. 令 $σ$ 是一个 $n$ 阶置换, 设我们通过 $m$ 次交换从 $(1, 2, \dots, n)$ 得到 $(σ 1, σ 2, \dots, σ n)$ . 之前我们已经知道的 ${(- 1)}^{m} = D (ε_{σ 1}, \dots, ε_{σ n})$ 也就是说, ${(- 1)}^{m}$ 必须是 $D$ 在以 $ε_{σ 1}, \dots, ε_{σ n}$ 为行的矩阵上的值. 如果 $D (ε_{σ 1}, \dots, ε_{σ n}) = 1$ 那么 $m$ 必须是偶数. 如果 $D (ε_{σ 1}, \dots, ε_{σ n}) = - 1$ 那么 $m$ 必须是奇数. [译注: 若 $m$ 可能为奇可能为偶, 那么 $D$ 就不是良定的了.]

既然我们有了 $n \times n$ 矩阵的行列式的显式公式, 并且这个公式牵扯到 $n$ 阶置换, 让我们对于置换的一些观察为本节作结. 首先, 我们注意到恰存在 $n! = 1 \cdot 2 \cdot \dots \cdot n$ 个 $n$ 阶置换. 这是因为, 如果 $σ$ 是一个置换, $σ 1$ 存在 $n$ 种可能的选择. 当作出这个选择之后, $σ 2$ 有 $(n - 1)$ 种选择, 然后 $σ 3$ 有 $(n - 2)$ 种选择, 诸如此类. 因此, 存在 $n \cdot (n - 1) \cdot (n - 2) \cdot \dots \cdot 2 \cdot 1 = n!$ 种置换 $σ$ . 于是, $\det (A)$ 的公式是 $n!$ 个项的和, 每一项对应于一个 $n$ 阶置换. 每个项都是 $A$ 的 $n$ 个元素之积 $A (1, σ 1) \dots A (n, σ n)$ 其中每个元素都来自于不同的每一行和不同的每一列, 并且根据 $σ$ 是偶置换还是奇置换, 前面带着符号" $+$ "或者" $-$ ".

当置换被认为是从集合 ${1, 2, \dots, n}$ 到自身的双射时, 我们可以定义置换的积. $σ$ 和 $τ$ 之积被简单地定义为复合函数 $σ τ$ , 其由 $(σ τ) (i) = σ (τ (i))$ 定义. 如果 $ε$ 代表恒等置换, 即由 $ε (i) = i$ 定义的置换, 那么对于每个置换 $σ$ 存在一个逆 $σ^{- 1}$ 满足 $σ σ^{- 1} = σ^{- 1} σ = ε$ 我们可以这样总结我们的观察, 即是说所有 $n$ 阶置换构成的集合, 在函数复合之下, 是一个群. 这个群一般被称为 $n$ 阶对称群.

从置换的积的角度来看, 置换的符号的基本性质是 $sgn (σ τ) = (sgn σ) (sgn τ)$ 换句话说, $σ τ$ 是偶置换, 如果 $σ$ 和 $τ$ 都是偶置换或都是奇置换; $σ τ$ 是奇置换, 如果其中有一个是奇置换, 另一个是偶置换. 读者可以基于交换操作的相继从符号的定义中看出来这个结果. [译注: 如果 $σ$ 可以被表示为 $m$ 个交换的复合, 而 $τ$ 可以被表示为 $l$ 个交换的复合, 那么显然 $σ τ$ 可以被表示为 $(m + l)$ 个交换的复合, 由此看出这基本性质.] 如果我们指出如何从行列式的一个基本性质中得到 $sgn (σ τ) = (sgn σ) (sgn τ)$ , 那也是很有好处的.

令 $K$ 是整数环, 令 $σ$ 和 $τ$ 是 $n$ 阶置换. 令 $ε_{1}, \dots, ε_{n}$ 是 $K$ 上的 $n \times n$ 恒等矩阵的行, 令 $A$ 是以 $ε_{τ 1}, \dots, ε_{τ n}$ 为行的矩阵, 令 $B$ 是以 $ε_{σ 1}, \dots, ε_{σ n}$ 为行的矩阵. $A$ 的第 $i$ 行仅包含一个非零元素, 那就是在第 $τ i$ 列的 $1$ . 从这点很容易看出 $ε_{σ τ i}$ 是积矩阵 $A B$ 的第 $i$ 行, 那么现在有 $\det (A) = sgn τ, \det (B) = sgn σ, \det (A B) = sgn (σ τ)$ 只要我们证明了以下定理, 就能立刻得出 $sgn (σ τ) = (sgn σ) (sgn τ)$ .

定理3. 令

K

是一个含幺交换环, 令

A

和

B

是

K

上的

n \times n

矩阵, 那么

\det (A B) = (\det A) (\det B)

证明. 令

B

是

K

上一个固定的

n \times n

矩阵, 并且对于每个

n \times n

矩阵

A

, 定义

D (A) = \det (A B)

. 如果我们用

α_{1}, \dots, α_{n}

代表矩阵

A

的行, 那么

D (α_{1}, \dots, α_{n}) = \det (α_{1} B, \dots, α_{n} B)

这里

α_{j} B

代表一个

1 \times n

矩阵, 其是

1 \times n

矩阵

α_{j}

和

n \times n

矩阵

B

之积. 既然

(c α_{i} + α_{i}^{'}) B = c α_{i} B + α_{i}^{'} B

并且

\det

是

n

线性的, 那么很容易看出

D

是

n

线性的. 如果

α_{i} = α_{j}

, 那么

α_{i} B = α_{j} B

, 鉴于

\det

是交错的,

D (α_{1}, \dots, α_{n}) = 0

因此,

D

是交错的, 现在

D

是一个交错的

n

线性函数. 根据定理2,

D (A) = (\det A) D (I)

但是

D (I) = \det (I B) = \det (B)

, 那么

\det (A B) = D (A) = (\det A) (\det B)

◻

$sgn (σ τ) = (sgn σ) (sgn τ)$ 仅是定理3的众多推论之一. 我们将在下一节考虑其中一些推论.

练习1. 如果

K

是一个含幺交换环, 而

K

上的矩阵

A = [\begin{matrix} 0 & a & b \\ - a & 0 & c \\ - b & - c & 0 \end{matrix}]

证明

\det (A) = 0

练习2. 证明Vandermonde矩阵

[\begin{matrix} 1 & a & a^{2} \\ 1 & b & b^{2} \\ 1 & c & c^{2} \end{matrix}]

的行列式为

(b - a) (c - a) (c - b)

练习3. 显式列出所有的六个

3

阶置换, 判断它们是奇是偶, 然后给出

3 \times 3

行列式的完整公式.

练习4. 令

σ

和

τ

是

4

阶置换, 其由

σ 1 = 2, σ 2 = 3, σ 3 = 4, σ 4 = 1

和

τ 1 = 3, τ 2 = 1, τ 3 = 2, τ 4 = 4

定义.

判断 $σ$ 和 $τ$ 奇偶性.
找出 $σ τ$ 和 $τ σ$ .

练习5. 如果

A

是一个

n \times n

的可逆矩阵, 证明

\det (A) \neq 0

练习6. 如果

A

是某个域上的

2 \times 2

矩阵, 证明

\det (I + A) = 1 + \det (A)

当且仅当

trace (A) = 0

练习7. 一个

n \times n

的矩阵

A

被称为三角的, 若每当

i > j

即有

A_{i, j} = 0

, 或是每当

i < j

即有

A_{i, j} = 0

. 证明三角矩阵的行列式是其对角线元素之积

A_{1, 1} A_{2, 2} \dots A_{n, n}

练习8. 令

A

是复数域上的一个

3 \times 3

矩阵. 我们构造一个矩阵

x I - A

, 其元素是多项式, 该矩阵第

i

行

j

列的元素是

δ_{i, j} x - A_{i, j}

. 如果

f = \det (x I - A)

, 证明

f

是一个次数为

3

的首项次数为一的多项式. 如果我们将多项式写成

f = (x - c_{1}) (x - c_{2}) (x - c_{3})

其中

c_{1}, c_{2}, c_{3}

是复数, 证明

c_{1} + c_{2} + c_{3} = trace (A) 和 c_{1} c_{2} c_{3} = \det (A)

练习9. 令

n

是一个正整数而

F

是一个域, 如果

σ

是一个

n

阶置换, 证明函数

T (x_{1}, \dots, x_{n}) = (x_{σ 1}, \dots, x_{σ n})

是一个

F^{n}

上的可逆线性算子.

练习10. 令

F

是一个域,

n

是一个正整数,

S

是域

F

上的

n \times n

所有矩阵的集合. 令

V

是一个从

S

到

F

的所有函数构成的向量空间, 令

W

是

S

上交错

n

线性形式的集合. 证明

W

是

V

的一个子空间.

W

的维数又是多少?

练习11. 令

T

是

F^{n}

上的一个线性算子. 定义

D_{T} (α_{1}, \dots, α_{n}) = \det (T α_{1}, \dots, T α_{n})

证明 $D_{T}$ 是一个交错的 $n$ 线性函数.
如果 $c = \det (T ε_{1}, \dots, T ε_{n})$ 证明对于任意的 $n$ 个向量 $α_{1}, \dots, α_{n}$ 我们有 $\det (T α_{1}, \dots, T α_{n}) = c \det (α_{1}, \dots, α_{n})$
如果 $𝔅$ 是 $F^{n}$ 任意的有序基, $A$ 是 $T$ 在有序基 $𝔅$ 下的矩阵, 证明 $\det (A) = c$ .
你觉得标量 $c$ 的合理名字是什么?

练习12. 如果

σ

是一个

n

阶置换,

A

是一个以

α_{1}, \dots, α_{n}

为行向量的域

F

上的

n \times n

矩阵, 令

σ (A)

代表以

α_{σ 1}, \dots, α_{σ n}

为行向量的

n \times n

矩阵.

证明 $σ (A B) = σ (A) B$ 并且特别地, $σ (A) = σ (I) A$ .
如果 $T$ 是练习9中的线性算子, 证明 $T$ 在标准有序基下的矩阵是 $σ (I)$ .
$σ^{- 1} (I)$ 是 $σ (I)$ 的逆矩阵吗?
$σ (A)$ 相似于 $A$ 吗?

练习13. 证明置换的符号函数在以下意义上是唯一的. 如果

f

是一个函数, 其赋每个

n

阶置换以一个整数, 并且

f (σ τ) = f (σ) f (τ)

, 那么要么

f

恒为

0

, 要么

f

是符号函数.

第5.4节行列式的额外性质

本节我们将讲述 $n \times n$ 矩阵上的行列式函数的一些有用性质. 或许首先应该注意到以下事实. 在我们对于 $\det (A)$ 的讨论中, $A$ 的行扮演着具有特权的角色. 既然行和列本质上没有区别, 那么读者也会期望 $\det (A)$ 是 $A$ 的列的交错的 $n$ 线性函数. 诚然如此, 而为了证明它, 仅需要证明 $\det (A^{t}) = \det (A)$ 就够了, 其中 $A^{t}$ 代表 $A$ 的转置.

如果 $σ$ 是一个 $n$ 阶置换, $A^{t} (i, σ i) = A (σ i, i)$ 根据行列式的公式, 我们可以得到 $\det (A^{t}) = \sum_{σ}^{} (sgn σ) A (σ 1, 1) \dots A (σ n, n)$ 当 $i = σ^{- 1} j$ 时, $A (σ i, i) = A (j, σ^{- 1} j)$ , 因此 $A (σ 1, 1) \dots A (σ n, n) = A (1, σ^{- 1} 1) \dots A (n, σ^{- 1} n)$ 既然 $σ σ^{- 1}$ 是恒等置换, 那么 $(sgn σ) (sgn σ^{- 1}) = 1 或 sgn (σ^{- 1}) = sgn (σ)$ 而且, 当 $σ$ 遍历所有 $n$ 阶置换时, $σ^{- 1}$ 也遍历了所有的 $n$ 阶置换. 因此, $\begin{array}{rcl} \det (A^{t}) & = & \sum_{σ}^{} (sgn σ^{- 1}) A (1, σ^{- 1} 1) \dots A (n, σ^{- 1} n) \\ = & \det (A) \end{array}$ 证明完毕.

在特定场合, 读者需要计算特定的行列式. 当不得不进行计算时, 以下事实往往是很有用的. 如果 $B$ 是由 $A$ 通过将某一行的倍数加到另一行上去 (或者将某一列的倍数加到另一列上去) 得到的, 那么 $\det (B) = \det (A)$ 我们将证明关于行的陈述. 令 $B$ 是 $A$ 由加 $c α_{j}$ 到 $α_{i}$ 上得到的, 其中 $i \neq j$ . [译注: 原文是 $i < j$ , 疑有误.] 既然 $\det$ 对于第 $i$ 行是线性的, 那么 $\begin{array}{rcl} \det (B) & = & \det (A) + c \det (α_{1}, \dots, α_{j}, \dots, α_{j}, \dots, α_{n}) \\ = & \det (A) \end{array}$ [译注: 当然这也用到交错性.]

另一个有用的事实如下. 设我们拥有一个分块形式的 $n \times n$ 矩阵 $[\begin{matrix} A & B \\ 0 & C \end{matrix}]$ 其中 $A$ 是一个 $r \times r$ 的矩阵, 而 $C$ 是一个 $s \times s$ 的矩阵, $B$ 是一个 $r \times s$ 矩阵, $0$ 是一个 $s \times r$ 的零矩阵, 那么 $\det [\begin{matrix} A & B \\ 0 & C \end{matrix}] = (\det A) (\det C)$ 为了证明这个, 我们定义 $D (A, B, C) = \det [\begin{matrix} A & B \\ 0 & C \end{matrix}]$ 如果我们固定 $A$ 和 $B$ , 那么 $D$ 对于 $C$ 的行而言是一个交错的 $s$ 线性函数. 因此, 根据定理2, $D (A, B, C) = (\det C) D (A, B, I)$ 其中 $I$ 是 $s \times s$ 的恒等矩阵. 通过给 $B$ 的行减去 $I$ 的行的倍数, 我们得到了 $D (A, B, I) = D (A, 0, I)$ 现在 $D (A, 0, I)$ 显然对于 $A$ 的行是一个交错的 $r$ 线性函数, 因此 $D (A, 0, I) = (\det A) D (I, 0, I)$ 但是 $D (I, 0, I) = 1$ , 于是 $\begin{array}{rcl} D (A, B, C) & = & (\det C) D (A, B, I) \\ = & (\det C) D (A, 0, I) \\ = & (\det C) (\det A) \end{array}$ 通过类似的论证, 或者通过转置, 可以得到 $\det [\begin{matrix} A & 0 \\ B & C \end{matrix}] = (\det A) (\det C)$

例子6. 设

K

是有理数域, 我们希望计算

4 \times 4

矩阵

A = [\begin{matrix} 1 & - 1 & 2 & 3 \\ 2 & 2 & 0 & 2 \\ 4 & 1 & - 1 & - 1 \\ 1 & 2 & 3 & 0 \end{matrix}]

的行列式.
通过给第

2, 3, 4

行减去第

1

行的适当倍数, 我们就得到了

[\begin{matrix} 1 & - 1 & 2 & 3 \\ 0 & 4 & - 4 & - 4 \\ 0 & 5 & - 9 & - 13 \\ 0 & 3 & 1 & - 3 \end{matrix}]

我们知道其与

A

有着相同的行列式. 如果我们给第

3

行减去

\frac{5}{4}

倍的第

2

行, 给第

4

行减去

\frac{3}{4}

倍的第

2

行, 就得到了

B = [\begin{matrix} 1 & - 1 & 2 & 3 \\ 0 & 4 & - 4 & - 4 \\ 0 & 0 & - 4 & - 8 \\ 0 & 0 & 4 & 0 \end{matrix}]

又一次, 我们知道

\det (B) = \det (A)

B

的分块形式告诉我们

\det (A) = \det (B) = | \begin{matrix} 1 & - 1 \\ 0 & 4 \end{matrix} | | \begin{matrix} - 4 & - 8 \\ 4 & 0 \end{matrix} | = 4 \times 32 = 128

现在我们令 $n > 1$ , 令 $A$ 是 $K$ 上的 $n \times n$ 矩阵. 在定理1中, 我们呈现了如何从 $(n - 1) \times (n - 1)$ 矩阵上的行列式函数构造 $n \times n$ 矩阵上的行列式函数. 既然现在我们已经证明了行列式的唯一性, 这告诉我们, 如果固定列数 $j$ , 那么 $\det (A) = \sum_{i = 1}^{n} {(- 1)}^{i + j} A_{i, j} \det [A (i | j)]$ 标量 ${(- 1)}^{i + j} \det [A (i | j)]$ 通常被称为 $A$ 的 $i, j$ 代数余子式, 或者 $A$ 的第 $i$ 行 $j$ 列的代数余子式. [译注: "代数余子式"的英文是"cofactor".] 那么, 以上关于 $\det (A)$ 的公式被称为 $\det (A)$ 按第 $j$ 列的代数余子式展开 (有的时候也被称为按第 $j$ 列的余子式 (minor) 展开). 如果我们令 $C_{i, j} = {(- 1)}^{i + j} \det [A (i | j)]$ 那么以上公式即对于每个 $j$ , $\det (A) = \sum_{i = 1}^{n} A_{i, j} C_{i, j}$ 其中代数余子式 $C_{i, j}$ 为 ${(- 1)}^{i + j}$ 乘上一个 $(n - 1) \times (n - 1)$ 矩阵的行列式, 这个矩阵是由 $A$ 删去第 $i$ 行和第 $j$ 列得到的.

如果 $j \neq k$ , 那么 $\sum_{i = 1}^{n} A_{i, k} C_{i, j} = 0$ 这是因为, 如果将 $A$ 的第 $j$ 列替换以第 $k$ 列, 并称结果为 $B$ , 那么 $B$ 有相等的两列, 于是 $\det (B) = 0$ . 既然 $B (i | j) = A (i | j)$ , 我们有 $\begin{array}{rcl} 0 & = & \det (B) \\ = & \sum_{i = 1}^{n} {(- 1)}^{i + j} B_{i, j} \det [B (i | j)] \\ = & \sum_{i = 1}^{n} {(- 1)}^{i + j} A_{i, k} \det [A (i | j)] \\ = & \sum_{i = 1}^{n} A_{i, k} C_{i, j} \end{array}$ 代数余子式的这些性质可以被总结为 $\sum_{i = 1}^{n} A_{i, k} C_{i, j} = δ_{j, k} \det (A)$

$n \times n$ 矩阵 $adj A$ , 其是 $A$ 的代数余子式的矩阵的转置, 被称为 $A$ 的古典伴随, 因此 ${(adj A)}_{i, j} = C_{j, i} = {(- 1)}^{i + j} \det [A (j | i)]$ 那么以上关于代数余子式的性质, 可以被转写成以下形式. $(adj A) A = (\det A) I$ 我们也希望看到 $A (adj A) = (\det A) I$ . 既然 $A^{t} (i | j) = {[A (j | i)]}^{t}$ , 我们有 ${(- 1)}^{i + j} \det [A^{t} (i | j)] = {(- 1)}^{j + i} \det [A (j | i)]$ 这简单说来就是 $A^{t}$ 的 $i, j$ 代数余子式等于 $A$ 的 $j, i$ 代数余子式. 因此, $adj (A^{t}) = {(adj A)}^{t}$ 应用 $(adj A) A = (\det A) I$ 于 $A^{t}$ , 我们就得到 $(adj A^{t}) A^{t} = (\det A^{t}) I = (\det A) I$ 再进行转置 $A {[adj (A^{t})]}^{t} = (\det A) I$ 使用 $adj (A^{t}) = {(adj A)}^{t}$ , 我们得到了我们想要的 $A (adj A) = (\det A) I$

就像域上的矩阵, 一个 $K$ 上的 $n \times n$ 矩阵被称为在 $K$ 上可逆, 如果存在 $K$ 上的 $n \times n$ 矩阵 $A^{- 1}$ 满足 $A A^{- 1} = A^{- 1} A = I$ . 若逆矩阵存在, 则它是唯一的, 因为第1章使用的相同论证表明当 $B A = A C = I$ 时我们有 $B = C$ . 上面关于古典伴随的公式告诉我们以下关于 $K$ 上矩阵的可逆性的事实. 如果 $\det (A)$ 在 $K$ 中具有乘法逆元, 那么 $A$ 是可逆的, 并且 $A^{- 1} = {(\det A)}^{- 1} (adj A)$ 是 $A$ 唯一的逆元. 反过来说, 很容易看出来如果 $A$ 在 $K$ 上可逆, 那么 $\det (A)$ 在 $K$ 中可逆, 因为如果 $A B = I$ , 那么 $1 = \det (I) = \det (A B) = (\det A) (\det B)$ 我们已经证明的是以下定理.

定理4. 令

A

是

K

上的一个

n \times n

矩阵, 那么

A

是

K

上的可逆矩阵当且仅当

\det (A)

在

K

中可逆. 当

A

可逆的时候,

A

唯一的逆元是

A^{- 1} = {(\det A)}^{- 1} (adj A)

特别地, 域上的

n \times n

矩阵可逆当且仅当其行列式异于零.

我们应该指出这个可逆性的行列式判则也证明了有左逆或右逆的 $n \times n$ 矩阵可逆. 这个证明独立于我们在第1章中为域上的矩阵给出的. 我们还应该指出可逆性对于多项式环上的矩阵意味着什么. 如果 $K$ 是多项式环 $F [x]$ , 那么 $K$ 中仅有的可逆元素是非零的标量多项式, 因为若 $f$ 和 $g$ 是多项式且有 $f g = 1$ , 那么 $\deg f + \deg g = 0$ , 于是 $\deg f = \deg g = 0$ , 即 $f$ 和 $g$ 都是非零的标量多项式. 因此, 一个多项式环 $F [x]$ 上的 $n \times n$ 矩阵在 $F [x]$ 上可逆当且仅当其行列式是一个非零的标量多项式.

例子7. 令

K = ℝ [x]

, 即实数域上的多项式环, 令

A = [\begin{matrix} x^{2} + x & x + 1 \\ x - 1 & 1 \end{matrix}], B = [\begin{matrix} x^{2} - 1 & x + 2 \\ x^{2} - 2 x + 3 & x \end{matrix}]

接着, 根据简单的计算,

\det (A) = x + 1

\det (B) = - 6

. 因此,

A

在

K

上不可逆, 而

B

在

K

上可逆. 注意到

adj (A) = [\begin{matrix} 1 & - x - 1 \\ - x + 1 & x^{2} + x \end{matrix}], adj (B) = [\begin{matrix} x & - x - 2 \\ - x^{2} + 2 x - 3 & x^{2} - 1 \end{matrix}]

并且

(adj A) A = (x + 1) I

(adj B) B = - 6 I

. 当然,

B^{- 1} = - \frac{1}{6} [\begin{matrix} x & - x - 2 \\ - x^{2} + 2 x - 3 & x^{2} - 1 \end{matrix}]

[译注: 原文将

x^{2} - 1

写成了

1 - x^{2}

, 应该是笔误.]

例子8. 令

K

是整数环, 并且

A = [\begin{matrix} 1 & 2 \\ 3 & 4 \end{matrix}]

那么

\det (A) = - 2

adj (A) = [\begin{matrix} 4 & - 2 \\ - 3 & 1 \end{matrix}]

因此,

A

作为一个整数环上的矩阵是不可逆的. 然而, 我们也可以将

A

当成有理数域上的矩阵, 那么

A

就可逆了, 并且

A = - \frac{1}{2} [\begin{matrix} 4 & - 2 \\ - 3 & 1 \end{matrix}] = [\begin{matrix} - 2 & 1 \\ \frac{3}{2} & - \frac{1}{2} \end{matrix}]

[译注: 原文将

- \frac{1}{2}

写成了

\frac{1}{2}

, 应该是笔误.]

与可逆矩阵有关, 我们想要提及一个更加初等的事实. 相似矩阵具有相同的行列式, 即若 $P$ 在 $K$ 上可逆, 并有 $B = P^{- 1} A P$ , 那么 $\det (B) = \det (A)$ . 这很显然, 因为 $\det (P^{- 1} A P) = (\det P^{- 1}) (\det A) (\det P) = \det (A)$ 这个简单的观察使得定义有限维向量空间上的线性算子的行列式是可能的. 如果 $T$ 是 $V$ 上的一个线性算子, 那么我们定义 $T$ 的行列式为任何在 $V$ 的某个有序基下表示 $T$ 的 $n \times n$ 矩阵的行列式. 因为这样的矩阵都是相似的, 所以我们的定义是有意义的. 在此联系之下, 看看第5.3节的练习11.

现在我们想要讨论以下求解线性方程组的Cramer法则. 设 $A$ 是一个域 $F$ 上的 $n \times n$ 矩阵, 我们想要求解线性方程组 $A X = Y$ , 对于某个给定的 $n$ 元组 $(y_{1}, \dots, y_{n})$ . 若 $A X = Y$ , 那么 $(adj A) A X = (adj A) Y$ 于是 $(\det A) X = (adj A) Y$ 因此 $\begin{array}{rcl} (\det A) x_{j} & = & \sum_{i = 1}^{n} {(adj A)}_{j, i} y_{i} \\ = & \sum_{i = 1}^{n} {(- 1)}^{i + j} y_{i} \det [A (i | j)] \end{array}$ 最后一个表达式的值是由将 $A$ 的第 $j$ 列替换为 $Y$ 得到的 $n \times n$ 矩阵的行列式. 如果 $\det (A) = 0$ , 那么它什么也没有告诉我们. 然而, 若 $\det (A) \neq 0$ , 那么我们就得到了所谓的Cramer法则. 令 $A$ 是一个域 $F$ 上的 $n \times n$ 矩阵满足 $\det (A) \neq 0$ , 如果 $y_{1}, \dots, y_{n}$ 是 $F$ 中任意的标量, 那么线性方程组 $A X = Y$ 的唯一解 $X = A^{- 1} Y$ 由 $x_{j} = \frac{\det (B_{j})}{\det (A)}, j = 1, \dots, n$ 给出, 其中 $B_{j}$ 是由将 $A$ 的第 $j$ 列替换为 $Y$ 得到的 $n \times n$ 矩阵.

在本章的末尾, 我们想要作出一些评注, 以将行列式置于我们所认为的适当位置. 我们时常不得不计算一些特定的行列式, 而本节的很大一部分是在处理相关的技巧. 然而, 在本书之中, 行列式的主要地位是理论性的. 这不是要否认某些结果的漂亮, 例如Cramer法则. 但是对于求解线性方程组而言Cramer法则是一个并不有效的工具, 主要是因为它牵扯太多的计算. 因此, 读者应该关注Cramer法则说了什么, 而不是如何利用它进行计算. 的确, 在回顾整个章节的时候, 我们希望读者将更多的精力放在理解行列式函数是什么以及它具有怎样的行为上, 而不是计算特定矩阵的行列式. [译注: 的确这不是本章的末尾, 但是原文的确使用的是"chapter", 这大概是因为后文是之后补充的高级部分.]

练习1. 使用古典伴随公式计算下列

3 \times 3

实矩阵的逆.

[\begin{matrix} - 2 & 3 & 2 \\ 6 & 0 & 3 \\ 4 & 1 & - 1 \end{matrix}], [\begin{matrix} \cos θ & 0 & - \sin θ \\ 0 & 1 & 0 \\ \sin θ & 0 & \cos θ \end{matrix}]

练习2. 使用Cramer法则计算下列每个有理数域上的线性方程组的解.

${\begin{matrix} x & + & y & + & z & = & 11 \\ 2 x & - & 6 y & - & z & = & 0 \\ 3 x & + & 4 y & + & 2 z & = & 0 \end{matrix}$
${\begin{matrix} 3 x & - & 2 y & = & 7 \\ 3 y & - & 2 z & = & 6 \\ 3 z & - & 2 x & = & - 1 \end{matrix}$

练习3. 一个域

F

上的

n \times n

矩阵

A

被称为斜对称的, 如果

A^{t} = - A

. 如果

A

是一个复数域上的

n \times n

的斜对称矩阵, 并且

n

是奇数, 证明

\det (A) = 0

练习4. 一个域

F

上的

n \times n

矩阵

A

被称为正交的, 如果

A A^{t} = I

. 如果

A

是正交的, 证明

\det (A) = \pm 1

. 给出一个正交矩阵

A

的例子, 其行列式

\det (A) = - 1

练习5. 一个复数域上的

n \times n

矩阵被称为是酉的 (unitary), 如果

A A^{*} = I

(

A^{*}

代表

A

的共轭转置). 如果

A

是酉矩阵, 证明

| \det (A) | = 1

练习6. 令

T

和

U

是有限维向量空间

V

上的线性算子, 证明

$\det (T U) = (\det T) (\det U)$ ;
$T$ 可逆当且仅当 $\det (T) \neq 0$ .

练习7. 令

A

是一个含幺交换环

K

上的

n \times n

矩阵, 设

A

具有分块形式

A = [\begin{matrix} A_{1} & 0 & \dots & 0 \\ 0 & A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & A_{k} \end{matrix}]

其中

A_{j}

是一个

r_{j} \times r_{j}

矩阵. 证明

\det (A) = (\det A_{1}) (\det A_{2}) \dots (\det A_{k})

练习8. 令

V

是域

F

上的

n \times n

矩阵构成的向量空间, 令

B

是

V

的一个固定元素. 令

T_{B}

是一个

V

上的线性算子, 由

T_{B} (A) = A B - B A

定义. 证明

\det (T_{B}) = 0

练习9. 令

A

是域

F

上的一个

n \times n

矩阵, 并且

A \neq 0

. 如果

r

是一个

1

和

n

之间的正整数, 那么

A

的

r \times r

子矩阵是由

A

删去

(n - r)

行和

(n - r)

列得到的.

A

的行列式秩是最大的正整数

r

, 满足存在

A

的某个

r \times r

子矩阵其行列式不为零. 证明

A

的行列式秩等于

A

的行秩, 当然也等于

A

的列秩.

练习10. 令

A

是一个域

F

上的

n \times n

矩阵. 证明至多存在

n

个不同的标量

c

满足

\det (c I - A) = 0

练习11. 令

A

和

B

是域

F

上的

n \times n

矩阵. 证明如果

A

可逆, 那么至多存在

n

个不同的标量

c

使得矩阵

c A + B

不可逆.

练习12. 如果

V

是域

F

上的

n \times n

矩阵的向量空间,

B

是

F

上一个固定的

n \times n

矩阵, 令

L_{B}

和

R_{B}

是

V

上的线性算子, 由

L_{B} (A) = B A

和

R_{B} (A) = A B

定义. 证明

$\det (L_{B}) = {(\det B)}^{n}$ ;
$\det (R_{B}) = {(\det B)}^{n}$ .

练习13. 令

V

是复数域上所有的

n \times n

矩阵构成的向量空间, 令

B

是

ℂ

上一个固定的

n \times n

矩阵. 由

M_{B} (A) = B A B^{*}

定义一个

V

上的线性算子

M_{B}

, 其中

B^{*} = \overline{B^{t}}

. 证明

\det (M_{B}) = {| \det (B) |}^{2 n}

现在令

H

是

V

中所有的Hermite矩阵构成的集合, 称

A

是Hermite的, 如果

A = A^{*}

, 那么

H

是实数域上的一个向量空间. 证明由

T_{B} (A) = B A B^{*}

定义的函数

T_{B}

实向量空间

H

上的一个线性算子, 并证明

\det (T_{B}) = {| \det (B) |}^{2 n}

. (提示: 计算

T_{B}

的时候表明

V

具有一个由Hermite矩阵构成的基, 然后证明

\det (T_{B}) = \det (M_{B})

练习14. 令

A, B, C, D

是域

F

上

n \times n

的可交换矩阵, 证明

2 n \times 2 n

矩阵

[\begin{matrix} A & B \\ C & D \end{matrix}]

的行列式为

\det (A D - B C)

第5.5节模

如果 $K$ 是一个含幺交换环 [译注: 本章的剩余部分, 凡提到含幺交换环, 均默认是非平凡的], 一个 $K$ 上的模是一种表现得类似于向量空间的代数系统, 其中 $K$ 扮演着类似于标量域的角色. 为了精确起见, 我们称 $V$ 是一个 $K$ 上的模 (或者一个 $K$ 模) 如果

$V$ 上存在一个加法 $(α, β) \mapsto α + β$ , $V$ 在其下是一个交换群;
存在一个乘法 $(c, α) \mapsto c α$ , 其中 $α$ 在 $V$ 之中, $c$ 在 $K$ 之中, 满足 $\begin{matrix} (c_{1} + c_{2}) α & = & c_{1} α + c_{2} α \\ c (α_{1} + α_{2}) & = & c α_{1} + c α_{2} \\ (c_{1} c_{2}) α & = & c_{1} (c_{2} α) \\ 1 α & = & α \end{matrix}$

对于我们而言, 最重要的 $K$ 模是 $n$ 元组的模 $K^{n}$ . 矩阵模 $K^{m \times n}$ 也很重要. 如果 $V$ 是一个模, 我们可以讨论线性组合, 线性相关和线性无关, 就像在向量空间里一样. 我们必须小心不将依赖于非零标量的可逆性的向量空间的结果应用于 $V$ , 因为在域中可以施行的除法不一定在环 $K$ 中可以进行. 例如, 如果 $α_{1}, \dots, α_{k}$ 是线性相关的, 我们不能断言某个 $α_{i}$ 可以被表示为其他元素的线性组合. 这使得在模中寻找基变得更加困难.

模 $V$ 的一个基是一个线性无关的子集, 其可以张成 (或者说生成) 这个模. 这与我们对于向量空间给出的定义是一样的. 一个基 $𝔅$ 的重要性质在于每个 $V$ 的元素都可以被唯一地表示为 $𝔅$ 的 (有限数目的) 元素的线性组合. 如果承认选择公理 (见附录) 的话, 那么可以证明每个向量空间都拥有一个基. 读者已经很清楚若是一个向量空间可由有限数目的向量张成, 那么它肯定拥有一个基, 但是对于模来说这并非如此. 因此, 对于拥有基的模和可由有限数目的元素张成的模, 我们需要特别的不同名字.

定义.

K

模

V

被称为一个自由模, 如果它拥有一个基. 如果

V

拥有一个有限的基, 其包含

n

个元素, 那么

V

被称为具有

n

个生成元的自由

K

模.

定义. 模

V

是有限生成的, 如果它包含一个能够张成

V

的有限子集. 一个有限生成模的秩是使得某

k

个元素能够张成

V

的最小整数

k

我们需要强调一个模在没有有限的基的情况下仍然可能是有限生成的. 如果 $V$ 是一个具有 $n$ 个生成元的自由 $K$ 模, 那么 $V$ 同构于模 $K^{n}$ . 如果 ${β_{1}, \dots, β_{n}}$ 是 $V$ 的一个基, 那么存在一个同构, 将向量 $c_{1} β_{1} + \dots + c_{n} β_{n}$ 送至 $K^{n}$ 中的 $n$ 元组 $(c_{1}, \dots, c_{n})$ . 我们并不能立即看出来这相同的模 $V$ 不能也是一个具有 $k$ 个生成元的自由模, 其中 $k \neq n$ . 换句话说, $V$ 的任意两个基都必然包含相同数目的元素并非显然的事实, 而其证明是行列式的一个有趣应用.

定理5. 令

K

是一个含幺交换环, 如果

V

是一个具有

n

个生成元的自由

K

模, 那么

V

的秩是

n

证明. 我们要证明的是

V

不能由少于

n

个它的元素张成. 既然

V

同构于

K^{n}

, 我们必须证明, 如果

m < n

, 那么模

K^{n}

不能由

n

元组

α_{1}, \dots, α_{m}

张成. 令

A

是以

α_{1}, \dots, α_{m}

为行的矩阵. 假设标准基向量

ε_{1}, \dots, ε_{n}

都是

α_{1}, \dots, α_{m}

的线性组合, 那么存在矩阵

P \in K^{n \times m}

使得

P A = I

其中

I

是

n \times n

的恒等矩阵. 令

\tilde{A}

是一个

n \times n

的矩阵, 其由

A

往底部再填充

n - m

个零行得到. 令

\tilde{P}

是任意的以

P

的列为前

m

列的

n \times n

矩阵. 那么,

\tilde{P} \tilde{A} = I .

因此,

\det (\tilde{A}) \neq 0

. 但是, 既然

m < n

\tilde{A}

至少有一行全为零. 这个矛盾表明

α_{1}, \dots, α_{m}

不能张成

K^{n}

. [译注: 这里的证明用到了

0 \neq 1

, 也就是说, 排除了平凡环的情况. 另请读者参考维基百科条目invariant basis number.]

◻

有趣的是, 读者应该注意到定理5建立了(有限维)向量空间的维数的唯一性. 而且, 这个基于行列式函数的存在性的证明, 与我们第2章所给出的证明截然不同. 从定理5我们知道"秩为 $n$ 的自由模"和"具有 $n$ 个生成元的自由模"是一样的.

如果 $V$ 是 $K$ 上的一个模, 那么对偶模 $V^{⁎}$ 由所有从 $V$ 到 $K$ 的线性函数 $f$ 构成. 如果 $V$ 是秩为 $n$ 的自由模, 那么 $V^{⁎}$ 也是秩为 $n$ 的自由模. 这个事实的证明就和向量空间一样. 如果 ${β_{1}, \dots, β_{n}}$ 是 $V$ 的一个有序基, 那么存在与之对应的 $V^{⁎}$ 的对偶基 ${f_{1}, \dots, f_{n}}$ . 函数 $f_{i}$ 赋予每个 $α \in V$ 以其相对于 ${β_{1}, \dots, β_{n}}$ 的第 $i$ 个坐标分量: $α = f_{1} (α) β_{1} + \dots + f_{n} (α) β_{n} .$ 如果 $f$ 是 $V$ 上的一个线性函数, 那么 $f = f (β_{1}) f_{1} + \dots + f (β_{n}) f_{n} .$

第5.6节多线性函数

本节的目的在于将关于行列式的讨论置于我们所相信的正确视角之下. 我们将处理模上的交错多线性形式. 这些形式是我们之前呈现的行列式的自然泛化. 还没有阅读 (或者不希望阅读) 第5.5节对于模的简要总结的读者仍可从学习本节中获益良多, 只要一致地将" $K$ 上秩为 $n$ 的自由模"读作" $F$ 上维数为 $n$ 的向量空间"即可.

令 $K$ 是一个含幺交换环, $V$ 是 $K$ 上的一个模. 如果 $r$ 是一个正整数, 那么从 $V^{r} = V \times V \times \dots \times V$ 到 $K$ 的函数 $L$ 被称为多线性的, 如果 $L (α_{1}, \dots, α_{r})$ 对于每个 $α_{i}$ 在其他 $α_{j}$ 的值固定的情况下是线性的函数. 也就是说, 对于每个 $i$ 有 $L (α_{1}, \dots, c α_{i} + β_{i}, \dots, α_{r}) = c L (α_{1}, \dots, α_{i}, \dots, α_{r}) + L (α_{1}, \dots, β_{i}, \dots, α_{r}) .$ $V^{r}$ 上的多线性函数也被称为 $V$ 上的 $r$ 线性形式或者 $V$ 上的阶数为 $r$ 的多线性形式. 这样的函数有时也被称为 $V$ 上的 $r$ 张量. $V^{r}$ 上所有多线性形式的集合将被记成 $M^{r} (V)$ . 如果 $L, M \in M^{r} (V)$ , 那么其和 $L + M$ : $(L + M) (α_{1}, \dots, α_{r}) = L (α_{1}, \dots, α_{r}) + M (α_{1}, \dots, α_{r})$ 也是多线性的; 并且, 如果 $c \in K$ , 那么积 $c L$ : $(c L) (α_{1}, \dots, α_{r}) = c L (α_{1}, \dots, α_{r})$ 是多线性的. 因此, $M^{r} (V)$ 是一个 $K$ 模——所有从 $V^{r}$ 到 $K$ 的函数构成的模的一个子模.

如果 $r = 1$ , 那么我们有 $M^{1} (V) = V^{⁎}$ , 即由线性函数构成的 $V$ 的对偶模. 线性函数也可被用来构造更高阶的多线性形式. 如果 $f_{1}, \dots, f_{r}$ 是 $V$ 上的线性函数, 那么 $L (α_{1}, \dots, α_{r}) = f_{1} (α_{1}) f_{2} (α_{2}) \dots f_{r} (α_{r})$ 显然是 $V$ 上的一个 $r$ 线性形式.

例子9. 如果

V

是一个模, 那么

V

上的

2

线性形式也常被称为

V

上的双线性形式 (bilinear form). 令

A

是一个元素来源于

K

的

n \times n

矩阵, 那么

L (X, Y) = Y^{t} A X

定义了模

K^{n \times 1}

上的一个双线性形式

L

. 类似地,

M (α, β) = α A β^{t}

定义了一个

K^{n}

上的双线性形式

M

. [译注: 你需要将

K^{1 \times 1}

和

K

通过自然的同构视为等同的.]

例子10. 行列式函数将

K

上的每个

n \times n

矩阵与元素

\det (A) \in K

联系起来. 若

\det (A)

被视为

A

的行的函数:

\det (A) = D (α_{1}, \dots, α_{n})

那么

D

是

K^{n}

上的一个

n

线性形式.

例子11. 很容易得到模

K^{n}

上的一般的

r

线性形式的代数表达式. 如果向量

α_{1}, \dots, α_{r} \in V

而

A

是以

α_{1}, \dots, α_{r}

为行的

r \times n

矩阵, 那么对于任意的函数

L \in M^{r} (K^{n})

有

\begin{array}{rcl} L (α_{1}, \dots, α_{r}) & = & L (\sum_{j = 1}^{n} A_{1, j} ε_{j}, α_{2}, \dots, α_{r}) \\ = & \sum_{j = 1}^{n} A_{1, j} L (ε_{j}, α_{2}, \dots, α_{r}) \\ = & \sum_{j = 1}^{n} A_{1, j} L (ε_{j}, \sum_{k = 1}^{n} A_{2, k} ε_{k}, α_{3}, \dots, α_{r}) \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{1, j} A_{2, k} L (ε_{j}, ε_{k}, α_{3}, \dots, α_{r}) \\ = & \sum_{j, k = 1}^{n} A_{1, j} A_{2, k} L (ε_{j}, ε_{k}, α_{3}, \dots, α_{r}) \end{array}

如果我们将

α_{3}, \dots, α_{r}

依次替换以其标准基向量下的线性组合, 并且记

A_{i, j}

为

A (i, j)

, 那么我们得到了以下表达式:

L (α_{1}, \dots, α_{r}) = \sum_{j_{1}, \dots, j_{r} = 1}^{n} A (1, j_{1}) \dots A (r, j_{r}) L (ε_{j_{1}}, \dots, ε_{j_{r}}) .

此表达式中, 每个分量为从

1

至

n

的正整数的

r

元组

J = (j_{1}, \dots, j_{r})

与一个项相对应. 这样的

r

元组有

n^{r}

个. 因此,

L

完全由该表达式以及赋给

n^{r}

个元素

(ε_{j_{1}}, \dots, ε_{j_{r}})

的特定值:

c_{J} = L (ε_{j_{1}}, \dots, ε_{j_{r}})

决定. 也很容易看出以下事实, 如果我们为每个

r

元组

J

挑选一个元素

c_{J} \in K

, 那么

L (α_{1}, \dots, α_{r}) = \sum_{J}^{} A (1, j_{1}) \dots A (r, j_{r}) c_{J}

定义了一个

K^{n}

上的

r

线性形式.

设 $L$ 是 $V^{r}$ 上的一个多线性形式而 $M$ 是 $V^{s}$ 上的一个多线性形式. 我们定义 $V^{r + s}$ 上的函数 $L \otimes M$ 为 $(L \otimes M) (α_{1}, \dots, α_{r + s}) = L (α_{1}, \dots, α_{r}) M (α_{r + 1}, \dots, α_{r + s}) .$ 如果我们将 $V^{r + s}$ 想成是 $V^{r} \times V^{s}$ , 那么对于 $α \in V^{r}$ 和 $β \in V^{s}$ 有 $(L \otimes M) (α, β) = L (α) M (β) .$ 显然 $L \otimes M$ 在 $V^{r + s}$ 是多线性的, 其被称为 $L$ 和 $M$ 的张量积 (tensor product). 张量积不是可交换的. 实际上, 除非 $L = 0$ 或 $M = 0$ , $M \otimes L \neq L \otimes M$ . 然而, 张量积的确与 $M^{r}$ 和 $M^{s}$ 中的模运算漂亮地联系在一起.

引理. 令

L, L_{1}

是

V

上的

r

线性形式,

M, M_{1}

是

V

上的

s

线性形式,

c

是

K

的一个元素.

$(c L + L_{1}) \otimes M = c (L \otimes M) + L_{1} \otimes M$ ;
$L \otimes (c M + M_{1}) = c (L \otimes M) + L \otimes M_{1}$ .

证明. 留作练习.

◻

张量积的确是可结合的, 例如, 令 $L, M, N$ 分别是 $V$ 上的 $r, s, t$ 线性形式, 那么 $(L \otimes M) \otimes N = L \otimes (M \otimes N) .$ 这从 $K$ 的乘法的结合律中可立即推出. 因此, 如果 $L_{1}, \dots, L_{k}$ 是 $V^{r_{1}}, \dots, V^{r_{k}}$ 上的多线性函数, 那么张量积 $L = L_{1} \otimes \dots \otimes L_{k}$ 无歧义地被定义为 $V^{r}$ 上的一个多线性函数, 其中 $r = r_{1} + \dots + r_{k}$ . 之前我们已经提及了它的一种特殊情形, 即如果 $f_{1}, \dots, f_{r}$ 是 $V$ 上的线性函数, 那么张量积 $L = f_{1} \otimes \dots \otimes f_{r}$ 由 $L (α_{1}, \dots, α_{r}) = f_{1} (α_{1}) \dots f_{r} (α_{r})$ 给出.

定理6. 令

K

是一个含幺交换环. 如果

V

是一个秩为

n

的自由

K

模, 那么

M^{r} (V)

是一个秩为

n^{r}

的自由

K

模. 实际上, 如果

{f_{1}, \dots, f_{n}}

是对偶模

V^{⁎}

的一个基, 那么

n^{r}

个张量积

f_{j_{1}} \otimes \dots \otimes f_{j_{r}}, 1 \leq j_{1} \leq n, \dots, 1 \leq j_{r} \leq n

构成了

M^{r} (V)

的一个基.

证明. 令

{f_{1}, \dots, f_{n}}

是

V^{⁎}

的一个有序基, 其对偶于

V

的基

{β_{1}, \dots, β_{n}}

. 对于每个向量

α \in V

, 我们有

α = f_{1} (α) β_{1} + \dots + f_{n} (α) β_{n} .

现在我们进行例子11所施行的计算. 如果

L

是

V

上的一个

r

线性形式而

α_{1}, \dots, α_{r}

是

V

的元素, 那么

L (α_{1}, \dots, α_{r}) = \sum_{j_{1}, \dots, j_{r}}^{} f_{j_{1}} (α_{1}) \dots f_{j_{r}} (α_{r}) L (β_{j_{1}}, \dots, β_{j_{r}}) .

换言之, 即

L = \sum_{j_{1}, \dots, j_{r}}^{} L (β_{j_{1}}, \dots, β_{j_{r}}) f_{j_{1}} \otimes \dots \otimes f_{j_{r}} .

这表明由

r

元组

J = (j_{1}, \dots, j_{r})

给出的

n^{r}

个张量积

E_{J} = f_{j_{1}} \otimes \dots \otimes f_{j_{r}}

可以张成模

M^{r} (V)

. 我们也可看出这些

r

形式

E_{J}

是线性无关的. 设对于每个

J

我们有一个元素

c_{J} \in K

, 然后我们构造多线性函数

L = \sum_{J}^{} c_{J} E_{J} .

注意到如果

I = (i_{1}, \dots, i_{r})

, 那么

E_{J} (β_{i_{1}}, \dots, β_{i_{r}}) = {\begin{matrix} 0 & , I \neq J \\ 1 & , I = J \end{matrix}

因而我们看到

c_{I} = L (β_{i_{1}}, \dots, β_{i_{r}}) .

特别地, 如果

L = 0

, 那么对于每个

r

元组

I

都有

c_{I} = 0

◻

定义. 令

L

是

K

模

V

上的一个

r

线性形式. 我们称

L

是交错的, 如果每当

α_{i} = α_{j}, i \neq j

时有

L (α_{1}, \dots, α_{r}) = 0

如果 $L$ 是 $V^{r}$ 上的一个交错多线性函数, 那么 $L (α_{1}, \dots, α_{i}, \dots, α_{j}, \dots, α_{r}) = - L (α_{1}, \dots, α_{j}, \dots, α_{i}, \dots, α_{r}) .$ 换言之, 交换 $r$ 元组 $(α_{1}, \dots, α_{r})$ 中两个(不同下标的)向量, 那么与之关联的 $L$ 的值会改变符号 (sign). 既然每个置换 $σ$ 都是交换之积, 我们看出 $L (α_{σ 1}, \dots, α_{σ r}) = (sgn σ) L (α_{1}, \dots, α_{r})$ .

我们用 $Λ^{r} (V)$ 表示 $V$ 上所有交错 $r$ 线性形式构成的集合. 显然 $Λ^{r} (V)$ 是 $M^{r} (V)$ 的一个子模.

例子12. 本章的早些时候, 我们证明了模

K^{n}

上恰存在一个交错

n

线性形式

D

满足性质

D (ε_{1}, \dots, ε_{n}) = 1

. 我们也在定理2中证明了如果形式

L \in Λ^{n} (K^{n})

, 那么

L = L (ε_{1}, \dots, ε_{n}) D .

换言之,

Λ^{n} (K^{n})

是一个秩为

1

的自由

K

模. 我们也建立了

D

的显式公式. 基于我们现在所使用的记号, 其可以记成

D = \sum_{σ}^{} (sgn σ) f_{σ 1} \otimes \dots \otimes f_{σ n}

其中

f_{1}, \dots, f_{n}

是

K^{n}

上的标准坐标函数而其和布于集合

{1, \dots, n}

的所有

n!

个不同置换

σ

之上. 如果我们将一个矩阵

A

的行列式写成

\det (A) = \sum_{σ}^{} (sgn σ) A (σ 1, 1) \dots A (σ n, n)

那么我们就得到了

D

的一个不同的表达式:

\begin{array}{rcl} D (α_{1}, \dots, α_{n}) & = & \sum_{σ}^{} (sgn σ) f_{1} (α_{σ 1}) \dots f_{n} (α_{σ n}) \\ = & \sum_{σ}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ n}) \end{array}

其中

L = f_{1} \otimes \dots \otimes f_{n}

存在一种一般性的方法将一个交错形式与一个多线性形式联系起来. 如果 $L$ 是模 $V$ 上的一个 $r$ 线性形式, $σ$ 是 ${1, \dots, r}$ 的一个置换, 那么通过定义 $L_{σ} (α_{1}, \dots, α_{r}) = L (α_{σ 1}, \dots, α_{σ r})$ 我们就得到了另一个 $r$ 线性函数 $L_{σ}$ . 若 $L$ 碰巧是交错的, 那么 $L_{σ} = (sgn σ) L$ . 现在, 对于每个 $L \in M^{r} (V)$ , 我们通过 $π_{r} L = \sum_{σ}^{} (sgn σ) L_{σ}$ 定义一个函数 $π_{r} L \in M^{r} (V)$ , 即 $(π_{r} L) (α_{1}, \dots, α_{r}) = \sum_{σ}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) .$

引理.

π_{r}

是一个从

M^{r} (V)

到

Λ^{r} (V)

的线性变换. 如果

L \in Λ^{r} (V)

, 那么

π_{r} L = r! L

证明. 令

τ

是

{1, \dots, r}

任意的置换, 那么

\begin{array}{rcl} (π_{r} L) (α_{τ 1}, \dots, α_{τ r}) & = & \sum_{σ}^{} (sgn σ) L (α_{τ σ 1}, \dots, α_{τ σ r}) \\ = & (sgn τ) \sum_{σ}^{} (sgn τ σ) L (α_{τ σ 1}, \dots, α_{τ σ r}) \end{array}

当

σ

遍历所有

{1, \dots, r}

的置换时,

τ σ

也是如此. 因此, 我们有

(π_{r} L) (α_{τ 1}, \dots, α_{τ r}) = (sgn τ) (π_{r} L) (α_{1}, \dots, α_{r}) .

于是,

π_{r} L

是一个交错形式. [译注: 这个论证是有问题的, 因为对于任意的

x \in K

, 我们并不总是能够保证

2 x = 0

可以推出

x = 0

, 这点本书之前也有提及.]
如果

L \in Λ^{r} (V)

, 那么对于每个

σ

有

L (α_{σ 1}, \dots, α_{σ r}) = (sgn σ) L (α_{1}, \dots, α_{r})

, 因而

π_{r} L = r! L

◻

证明. 既然以上的论证存在问题, 我们补充一个没有问题的证明. 设对于某

i

和

j

满足

i \neq j

, 我们有

α_{i} = α_{j}

. 考虑

{1, \dots, r}

的所有置换构成的集合的一个子集

A = {σ | σ i < σ j}

. 根据简单的组合推理, 我们知道

A

的元素个数为

n! / 2

. 再考虑子集

B = {τ | τ i > τ j}

, 我们知道

B

的元素个数也是

n! / 2

, 并且

A

和

B

构成了一个划分. 现在我们给出一个对换

υ

, 其由

υ i = j, υ j = i

定义, 那么函数

f (σ) = σ \circ υ

是一个从

A

到

B

的映射. 并且, 实际上它也可以被视为从

B

到

A

的一个映射, 而

f \circ f = id

. 那么, 我们知道

f : A \to B

是一个双射, 以及

\begin{array}{rcl} (π_{r} L) (α_{1}, \dots, α_{r}) & = & \sum_{σ}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) \\ = & \sum_{σ \in A}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) + \sum_{τ \in B}^{} (sgn τ) L (α_{τ 1}, \dots, α_{τ r}) \\ = & \sum_{σ \in A}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) + \sum_{σ \in A}^{} [sgn f (σ)] L (α_{f (σ) (1)}, \dots, α_{f (σ) (r)}) \\ = & \sum_{σ \in A}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) + \sum_{σ \in A}^{} - (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) \\ = & 0 \end{array}

换句话说, 也就是

π_{r} L

是一个交错形式. 剩下的命题论证和原文一致.

◻

根据(按列的)公式, 我们知道行列式函数 $D \in Λ^{n} (K^{n})$ 是 $D = π_{n} (f_{1} \otimes \dots \otimes f_{n})$ 其中 $f_{1}, \dots, f_{n}$ 是 $K^{n}$ 上的标准坐标函数. 我们还有一个与上面的引理有关的重要评注要说. 如果 $K$ 是一个特征为零的域, 以至于 $r!$ 在 $K$ 中是可逆的, 那么 $π$ 是一个从 $M^{r} (V)$ 到 $Λ^{r} (V)$ 的满射. 实际上, 在这种情况下从某种角度来说使用映射 $π_{1} = (1 / r!) π$ 而不是 $π$ 是更自然的, 因为 $π_{1}$ 是一个从 $M^{r} (V)$ 到 $Λ^{r} (V)$ 的投影, 即一个从 $M^{r} (V)$ 到 $Λ^{r} (V)$ 的线性映射满足 $π_{1} (L) = L$ 当且仅当 $L \in Λ^{r} (V)$ .

定理7. 令

K

是一个含幺交换环,

V

是一个秩为

n

的自由

K

模. 如果

r > n

, 那么

Λ^{r} (V) = {0}

. 如果

1 \leq r \leq n

, 那么

Λ^{r} (V)

是一个秩为

(\binom{n}{r})

的自由

K

模.

证明. 令

{β_{1}, \dots, β_{n}}

是

V

的一个有序基, 其以

{f_{1}, \dots, f_{n}}

为对偶基. 如果

L \in M^{r} (V)

, 我们有

L = \sum_{J}^{} L (β_{j_{1}}, \dots, β_{j_{r}}) f_{j_{1}} \otimes \dots \otimes f_{j_{r}}

其中和布于

1

到

n

之间的整数 [译注: 当然包括

1

和

n

] 的所有

r

元组

J = (j_{1}, \dots, j_{r})

之上. 如果

L

是交错的, 那么每当下标

j_{i}

中存在两个数字相同时, 就有

L (β_{j_{1}}, \dots, β_{j_{r}}) = 0 .

如果

r > n

, 那么每个

r

元组

J

中必有整数重复出现, 因此

r > n

时有

Λ^{r} (V) = {0}

.
现在设

1 \leq r \leq n

. 如果

L \in Λ^{r} (V)

, 那么上面的和只需要布于满足

j_{1}, \dots, j_{r}

两两不同的

r

元组

J

之上, 因为其余的项均为

0

. 每个这样的

r

元组都是某个满足

j_{1} < \dots < j_{r}

的

r

元组

J = (j_{1}, \dots, j_{r})

的置换, 后者这种特别类型的

r

元组被称为

{1, \dots, n}

的一个

r

-shuffle. 这样的shuffle的数目为

(\binom{n}{r}) = \frac{n!}{r! (n - r)!} .

设我们固定一个

r

-shuffle

J

. 令

L_{J}

是与shuffle

J

的所有置换相对应的项之和. 如果

σ

是

{1, \dots, r}

的一个置换, 那么

L (β_{j_{σ 1}}, \dots, β_{j_{σ r}}) = (sgn σ) L (β_{j_{1}}, \dots, β_{j_{r}})

因此

\begin{array}{rcl} L_{J} & = & \sum_{σ}^{} L (β_{j_{σ 1}}, \dots, β_{j_{σ r}}) f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}} \\ = & L (β_{j_{1}}, \dots, β_{j_{r}}) D_{J} \end{array}

其中

\begin{array}{rcl} D_{J} & = & \sum_{σ}^{} (sgn σ) f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}} \\ = & π_{r} (f_{j_{1}} \otimes \dots \otimes f_{j_{r}}) \end{array}

我们从中看出每个

D_{J}

都是交错的, 而对于每个

L \in Λ^{r} (V)

有

L = \sum_{shuffles J}^{} L (β_{j_{1}}, \dots, β_{j_{r}}) D_{J} .

我们断言

(\binom{n}{r})

个形式

D_{J}

构成了

Λ^{r} (V)

的一个基, 而我们已经看到它们能够张成

Λ^{r} (V)

. 很容易看出来它们也是线性无关的. 如果

I = (i_{1}, \dots, i_{r})

和

J = (j_{1}, \dots, j_{r})

是shuffle, 那么

D_{J} (β_{i_{1}}, \dots, β_{i_{r}}) = {\begin{matrix} 1 & , I = J \\ 0 & , I \neq J \end{matrix} .

设对于每个shuffle

J

我们有一个标量

c_{J}

与之对应, 并且定义

L = \sum_{J}^{} c_{J} D_{J} .

根据之前的式子, 我们得到

c_{I} = L (β_{i_{1}}, \dots, β_{i_{r}}) .

特别地, 如果

L = 0

, 那么对于每个shuffle

I

, 我们有

c_{I} = 0

◻

译者注记. 以上的证明中有一个不大不小的gap, 但至少不算平凡, 即 $\begin{array}{rcl} D_{J} & = & \sum_{σ}^{} (sgn σ) f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}} \\ = & π_{r} (f_{j_{1}} \otimes \dots \otimes f_{j_{r}}) \end{array}$ 从第一行到第二行并不是直接的, 因为 $\sum_{σ}^{} (sgn σ) (f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}}) (α_{1}, \dots, α_{r}) = \sum_{σ}^{} (sgn σ) f_{j_{σ 1}} (α_{1}) \dots f_{j_{σ r}} (α_{r})$ 而 $π_{r} (f_{j_{1}} \otimes \dots \otimes f_{j_{r}}) (α_{1}, \dots, α_{r}) = \sum_{σ}^{} (sgn σ) f_{j_{1}} (α_{σ 1}) \dots f_{j_{r}} (α_{σ r})$ 不过, 如何证明这右边两个式子相等的思路, 其实在第5.4节的开头就有, 那里证明了行列式不论按行展开还是按列展开都是一样的.

推论. 如果

V

是一个秩为

n

的自由

K

模, 那么

Λ^{n} (V)

是一个秩为

1

的自由

K

模. 如果

T

是

V

上的一个线性算子, 那么存在唯一的元素

c \in K

使得

L (T α_{1}, \dots, T α_{n}) = c L (α_{1}, \dots, α_{n})

对于每个

V

上的交错

n

线性形式

L

成立.

证明. 如果

L \in Λ^{n} (V)

, 那么显然

L_{T} (α_{1}, \dots, α_{n}) = L (T α_{1}, \dots, T α_{n})

定义了一个交错

n

线性形式

L_{T}

. 令

M

是秩

1

模

Λ^{n} (V)

的一个生成元. 每个

L \in Λ^{n} (V)

都可以被唯一的表达为

L = a M

, 其中

a \in K

. 特别地, 对于某个特定的

c

有

M_{T} = c M

. 对于

L = a M

, 我们有

\begin{array}{rcl} L_{T} & = & {(a M)}_{T} \\ = & a M_{T} \\ = & a (c M) \\ = & c (a M) \\ = & c L \end{array}

◻

当然, 这个推论中的元素 $c$ 被称为 $T$ 的行列式. 从式子 $\begin{array}{rcl} D_{J} & = & \sum_{σ}^{} (sgn σ) f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}} \\ = & π_{r} (f_{j_{1}} \otimes \dots \otimes f_{j_{r}}) \end{array}$ 我们可以看出在 $r = n$ 的情形下 (此时仅存在一种shuffle $J = (1, \dots, n)$ ) $T$ 的行列式就是在有序基 ${β_{1}, \dots, β_{n}}$ 下表示 $T$ 的矩阵的行列式. 让我们现在弄明白为什么. 这个表示矩阵的第 $i$ 行 $j$ 列的元素是 [译注: 原文下面这个式子恰好把 $i$ 和 $j$ 搞反了] $A_{i, j} = f_{i} (T β_{j})$ 于是 $\begin{array}{rcl} D_{J} (T β_{1}, \dots, T β_{n}) & = & \sum_{σ}^{} (sgn σ) f_{1} (T β_{σ 1}) \dots f_{n} (T β_{σ n}) \\ = & \sum_{σ}^{} (sgn σ) A (1, σ 1) \dots A (n, σ n) \\ = & \det (A) \end{array}$ 另一方面, $\begin{array}{rcl} D_{J} (T β_{1}, \dots, T β_{n}) & = & (\det T) D_{J} (β_{1}, \dots, β_{n}) \\ = & \det (T) \end{array}$ 这些评注的要义在于通过定理7及其推论, 我们获得了一个线性算子的行列式的定义而不需要预先的关于矩阵的行列式的知识. 矩阵的行列式可以基于算子的行列式定义而不是反过来.

关于这特别的交错 $r$ 线性形式 $D_{J}$ , 其与 $V^{⁎}$ 的一个基 ${f_{1}, \dots, f_{n}}$ 相关, 我们还有一点想说的东西. 理解 $D_{J} (α_{1}, \dots, α_{r})$ 是一个特定的 $r \times r$ 矩阵的行列式是很重要的. 如果 $A_{i, j} = f_{j} (α_{i}), 1 \leq i \leq r, 1 \leq j \leq n$ 即如果 $α_{i} = A_{i, 1} β_{1} + \dots + A_{i, n} β_{n}, 1 \leq i \leq r$ 而 $J$ 是 $r$ -shuffle $(j_{1}, \dots, j_{r})$ , 那么 $\begin{array}{rcl} D_{J} (α_{1}, \dots, α_{r}) & = & \sum_{σ}^{} (sgn σ) A (1, j_{σ 1}) \dots A (n, j_{σ r}) \\ = & \det [\begin{matrix} A (1, j_{1}) & \dots & A (1, j_{r}) \\ ⋮ & ⋮ \\ A (r, j_{1}) & \dots & A (r, j_{r}) \end{matrix}] \end{array}$ [译注: 这里第一行的 $D_{J}$ 是按照 $\sum_{σ}^{} (sgn σ) f_{j_{σ 1}} \otimes \dots \otimes f_{j_{σ r}}$ 展开的.] 因此, $D_{J} (α_{1}, \dots, α_{r})$ 是以 $α_{1}, \dots, α_{r}$ 的坐标 $n$ 元组为行的 $r \times n$ 矩阵取第 $j_{1}, \dots, j_{r}$ 列得到的 $r \times r$ 矩阵的行列式. 有时我们也用另一个记号 $D_{J} (α_{1}, \dots, α_{r}) = \frac{\partial (α_{1}, \dots, α_{r})}{\partial (β_{j_{1}}, \dots, β_{j_{r}})}$ 来表示这个行列式. 在这个记号下, 定理7的证明表明每个交错的 $r$ 线性形式 $L$ 都可以相对于某个基 ${β_{1}, \dots, β_{n}}$ 由式子 $L (α_{1}, \dots, α_{r}) = \sum_{j_{1} < \dots < j_{r}}^{} \frac{\partial (α_{1}, \dots, α_{r})}{\partial (β_{j_{1}}, \dots, β_{j_{r}})} L (β_{j_{1}}, \dots, β_{j_{r}})$ 表达.

第5.7节 Grassman环

许多行列式和交错多线性形式的性质最好基于一种形式 (form) 上的乘法运算进行描述, 这种乘法被称为外积 (exterior product). 如果 $L$ 和 $M$ 分别是模 $V$ 上的交错 $r$ 和 $s$ 线性形式, 我们有一个 $L$ 和 $M$ 的满足结合律的积, 即张量积 $L \otimes M$ . 除非 $L = 0$ 或者 $M = 0$ , 这不是一个交错形式. 然而, 我们有一种自然的方式将其投影于 $Λ^{r + s} (V)$ . 似乎 $L \cdot M = π_{r + s} (L \otimes M)$ 应该是交错形式的"自然"乘法, 但果真如此吗?

让我们举一个特定的例子. 设 $V$ 是模 $K^{n}$ 而 $f_{1}, \dots, f_{n}$ 是 $K^{n}$ 上的标准坐标函数. 如果 $i \neq j$ , 那么 $f_{i} \cdot f_{j} = π_{2} (f_{i} \otimes f_{j})$ 是之前给出的(行列式)函数 [译注: 注意一下那里要求 $J$ 是一个shuffle, 也就是 $i < j$ , 但是这里并不需要] $D_{i, j} = f_{i} \otimes f_{j} - f_{j} \otimes f_{i} .$ 现在设 $k$ 是一个不同于 $i$ 和 $j$ 的下标, 那么 $\begin{array}{rcl} D_{i, j} \cdot f_{k} & = & π_{3} [(f_{i} \otimes f_{j} - f_{j} \otimes f_{i}) \otimes f_{k}] \\ = & π_{3} (f_{i} \otimes f_{j} \otimes f_{k}) - π_{3} (f_{j} \otimes f_{i} \otimes f_{k}) \end{array}$ 前一章的引理的证明表明对于任意的 $r$ 线性形式 $L$ 和 ${1, \dots, r}$ 任意的置换 $σ$ , 我们有 $π_{r} (L_{σ}) = (sgn σ) π_{r} (L)$ 因此, $D_{i, j} \cdot f_{k} = 2 π_{3} (f_{i} \otimes f_{j} \otimes f_{k})$ . 根据类似的计算, $f_{i} \cdot D_{j, k} = 2 π_{3} (f_{i} \otimes f_{j} \otimes f_{k})$ . 因此, 我们有 $(f_{i} \cdot f_{j}) \cdot f_{k} = f_{i} \cdot (f_{j} \cdot f_{k})$ 而所有这一切看起来前途都那么光明. 但是, 这里存在隐藏的陷阱. 尽管刚才我们所完成的计算看起来像是那么回事, 之前提出的这个乘法并不满足结合律. 实际上, 如果 $l$ 是一个不同于 $i, j, k$ 的下标, 那么我们可以算出 $D_{i, j} \cdot D_{k, l} = 4 π_{4} (f_{i} \otimes f_{j} \otimes f_{k} \otimes f_{l})$ 以及 [译注: 原文为 $6$ , 应作 $12$ ] $(D_{i, j} \cdot f_{k}) \cdot f_{l} = 12 π_{4} (f_{i} \otimes f_{j} \otimes f_{k} \otimes f_{l})$ 因此, 在一般情况下 $(f_{i} \cdot f_{j}) \cdot (f_{k} \cdot f_{l}) \neq [(f_{i} \cdot f_{j}) \cdot f_{k}] \cdot f_{l}$ 我们看到我们的第一次寻找乘法运算的尝试产生了一个非结合运算.

译者注记. 以上的论证里有一些gap. 首先, 前一章的引理证明的是 ${(π_{r} L)}_{σ} = (sgn σ) π_{r} (L)$ 而不是 $π_{r} (L_{σ}) = (sgn σ) π_{r} (L)$ 不过这也是正确的, 而且论证方式也和前一章的引理类似, 只是的确需要证明一下: $\begin{array}{rcl} π_{r} (L_{σ}) (α_{1}, \dots, α_{r}) & = & \sum_{τ}^{} (sgn τ) L_{σ} (α_{τ 1}, \dots, α_{τ r}) \\ = & \sum_{τ}^{} (sgn τ) L (α_{τ σ 1}, \dots, α_{τ σ r}) \\ = & (sgn σ) \sum_{τ}^{} (sgn τ σ) L (α_{τ σ 1}, \dots, α_{τ σ r}) \\ = & (sgn σ) π_{r} (L) (α_{1}, \dots, α_{r}) \end{array}$ 其实 ${(π_{r} L)}_{σ} (α_{1}, \dots, α_{r})$ 展开之后和 $π_{r} (L_{σ}) (α_{1}, \dots, α_{r})$ 是类似的, 即 ${(π_{r} L)}_{σ} (α_{1}, \dots, α_{r}) = \sum_{τ}^{} (sgn τ) L (α_{σ τ 1}, \dots, α_{σ τ r})$ 其次, 作者由此结果直接得出 $D_{i, j} \cdot f_{k} = 2 π_{3} (f_{i} \otimes f_{j} \otimes f_{k})$ 的过程并不是那么显然. 实际上, 我们想要证明一下以下结果: $(sgn σ) π_{r} (f_{σ 1} \otimes \dots \otimes f_{σ r}) = π_{r} (f_{1} \otimes \dots \otimes f_{r})$ 为了证明它, 我们先证明一个引理: $f_{σ 1} \otimes \dots \otimes f_{σ r} = {(f_{1} \otimes \dots \otimes f_{r})}_{σ^{- 1}}$ 计算一下 $(f_{σ 1} \otimes \dots \otimes f_{σ r}) (α_{1}, \dots, α_{r}) = f_{σ 1} (α_{1}) \dots f_{σ r} (α_{r})$ 然后我们发现 $f_{i}$ 就应用于 $α_{σ^{- 1} i}$ , 鉴于 $f_{1}, \dots, f_{r}$ 在这个积中恰好都出现一次, 经过重新排序我们就得到了引理. 现在我们证明刚才陈述的结果: $\begin{array}{rcl} (sgn σ) π_{r} (f_{σ 1} \otimes \dots \otimes f_{σ r}) & = & (sgn σ) π_{r} [{(f_{1} \otimes \dots \otimes f_{r})}_{σ^{- 1}}] \\ = & (sgn σ) (sgn σ^{- 1}) π_{r} (f_{1} \otimes \dots \otimes f_{r}) \\ = & π_{r} (f_{1} \otimes \dots \otimes f_{r}) \end{array}$

如果读者发现直接验证表明非结合性的两个式子相当乏味, 那也不必感到惊讶. 这是该主题的典型特征, 并且同样典型的是, 存在一个一般性的事实可以极大地简化工作.

设 $L$ 是模 $V$ 上的一个 $r$ 线性形式而 $M$ 是模 $V$ 上的一个 $s$ 线性形式, 那么 $\begin{array}{rcl} π_{r + s} ((π_{r} L) \otimes (π_{s} M)) & = & π_{r + s} (\sum_{σ, τ}^{} (sgn σ) (sgn τ) (L_{σ} \otimes M_{τ})) \\ = & \sum_{σ, τ}^{} (sgn σ) (sgn τ) π_{r + s} (L_{σ} \otimes M_{τ}) \end{array}$ 其中 $σ$ 布于 ${1, \dots, r}$ 的所有置换构成的对称群 $S_{r}$ 之上而 $τ$ 布于 $S_{s}$ 之上. 每对 $σ, τ$ 都定义了 $S_{r + s}$ 的一个元素 $(σ, τ)$ , 其中 ${1, \dots, r + s}$ 的前 $r$ 个元素根据 $σ$ 进行置换, 而后 $s$ 个元素根据 $τ$ 进行置换. 显然我们有 $sgn (σ, τ) = (sgn σ) (sgn τ)$ 以及 ${(L \otimes M)}_{(σ, τ)} = L_{σ} \otimes M_{τ}$ 因此 $π_{r + s} ((π_{r} L) \otimes (π_{s} M)) = \sum_{σ, τ}^{} sgn (σ, τ) π_{r + s} [{(L \otimes M)}_{(σ, τ)}] .$ 既然我们已经观察到 $sgn (σ, τ) π_{r + s} [{(L \otimes M)}_{(σ, τ)}] = π_{r + s} (L \otimes M)$ 于是, 我们就有 $π_{r + s} [(π_{r} L) \otimes (π_{s} M)] = r! s! π_{r + s} (L \otimes M) .$ 这个公式简化了大量的计算. 例如, 设我们有一个 $r$ -shuffle $I = (i_{1}, \dots, i_{r})$ 和一个 $s$ -shuffle $J = (j_{1}, \dots, j_{s})$ . 为了使事情比较简单, 我们额外假设 $i_{1} < \dots < i_{r} < j_{1} < \dots < j_{s} .$ 那么, 我们有与之关联的行列式函数 $D_{I} = π_{r} (E_{I}), D_{J} = π_{s} (E_{J})$ 其中 $E_{I} = f_{i_{1}} \otimes \dots \otimes f_{i_{r}}$ 而 $E_{J} = f_{j_{1}} \otimes \dots \otimes f_{j_{s}}$ . 使用我们已经得到的结果, 我们立即可以看出 $\begin{array}{rcl} D_{I} \cdot D_{J} & = & π_{r + s} [π_{r} (E_{I}) \otimes π_{s} (E_{J})] \\ = & r! s! π_{r + s} (E_{I} \otimes E_{J}) \end{array}$ 既然 $E_{I} \otimes E_{J} = E_{I \cup J}$ [译注: 鉴于 $I$ 和 $J$ 是元素不重复的递增序列, 所以可以用集合来表示它们, 于是这个记号有其合理性], 我们得到 $D_{I} \cdot D_{J} = r! s! D_{I \cup J} .$ 这暗示了乘法的结合性的缺失是由 [译注: 在一般情况下] $D_{I} \cdot D_{J} \neq D_{I \cup J}$ 导致的. 毕竟, $D_{I}$ 和 $D_{J}$ 的积应该是 $D_{I \cup J}$ . 为了修复这种情况, 我们应该定义一个新的积. 一个交错 $r$ 线性形式 $L$ 和一个交错 $s$ 线性形式 $M$ 的外积 (或者楔积) 是 $L \land M = \frac{1}{r! s!} π_{r + s} (L \otimes M)$ 那么, 对于 $K^{n}$ 上的行列式函数, 我们有 $D_{I} \land D_{J} = D_{I \cup J}$ 或许若有公平可言, 那么我们必然已经找到了正确的交错多线性形式的乘法. 不幸的是, 这个定义在我们所考虑的最一般情况下是没有意义的, 因为在环 $K$ 中我们不一定能够除以 $r! s!$ . 不过, 如果 $K$ 是一个特征为零的域, 那么就没有问题了, 并且我们能够迅速证明楔积是结合的.

定理8. 令

K

是一个特征为零的域,

V

是

K

上的一个向量空间, 那么外积是

V

上的交错多线性形式上的一个结合运算. 换言之, 如果

L, M, N

分别是

V

上阶数为

r, s, t

的交错多线性形式, 那么

(L \land M) \land N = L \land (M \land N) .

证明. 根据楔积的定义, 我们知道对于任意的标量

c

和

d

有

c d (L \land M) = (c L) \land (d M)

, 因此

r! s! t! [(L \land M) \land N] = [r! s! (L \land M)] \land (t! N)

既然

π_{t} (N) = t! N

, 这就导致

\begin{array}{rcl} r! s! t! [(L \land M) \land N] & = & π_{r + s} (L \otimes M) \land π_{t} (N) \\ = & \frac{1}{(r + s)!} \frac{1}{t!} π_{r + s + t} [π_{r + s} (L \otimes M) \otimes π_{t} (N)] \end{array}

根据之前的结果, 我们看出

r! s! t! [(L \land M) \land N] = π_{r + s + t} (L \otimes M \otimes N)

通过类似的计算我们得到

r! s! t! [L \land (M \land N)] = π_{r + s + t} (L \otimes M \otimes N)

因此就有

(L \land M) \land N = L \land (M \land N)

◻

现在我们回到一般情况上来, 其仅假定 $K$ 是一个含幺交换环. 第一个问题在于将楔积的定义换成能在一般情况下生效的等价版本. 如果 $L$ 和 $M$ 分别是阶数为 $r$ 和 $s$ 的交错多线性形式, 那么我们将构造一个阶数为 $r + s$ 的典范的 [译注: 可以理解成存在且唯一的] 交错多线性形式 $L \land M$ 满足 $r! s! (L \land M) = π_{r + s} (L \otimes M) .$

让我们回忆一下我们是如何定义 $π_{r + s} (L \otimes M)$ 的. 对于 ${1, \dots, r + s}$ 的每个置换 $σ$ , 我们联系以多线性函数 $(sgn σ) {(L \otimes M)}_{σ}$ 其中 ${(L \otimes M)}_{σ} (α_{1}, \dots, α_{r + s}) = (L \otimes M) (α_{σ 1}, \dots, α_{σ (r + s)})$ 然后我们将布于所有置换 $σ$ 之上的这些函数加起来. 存在 $(r + s)!$ 个置换. 然而, 既然 $L$ 和 $M$ 都是交错的, 许多这样的函数都是相同的. 实际上, 至多存在 $\frac{(r + s)!}{r! s!}$ 个不同的这种函数. 让我们看看为什么. 令 $S_{r + s}$ 是 ${1, \dots, r + s}$ 的所有置换构成的集合, 即 $r + s$ 阶对称群. 如我们之前所做的, 我们区分出一个子集 $G$ 来, 其由所有这样的置换 $σ$ 构成, 满足 $σ {1, \dots, r} \subseteq {1, \dots, r}$ 且 $σ {r + 1, \dots, r + s} \subseteq {r + 1, \dots, r + s}$ . 换言之, $σ \in G$ , 如果对于每个 $i$ 满足 $1 \leq i \leq r$ 有 $1 \leq σ i \leq r$ . (然后就必然也满足对于每个 $j$ 满足 $r + 1 \leq j \leq r + s$ 有 $r + 1 \leq σ j \leq r + s$ .) 现在 $G$ 是 $S_{r + s}$ 的一个子群, 即若 $σ$ 和 $τ$ 是 $G$ 的元素, 那么 $σ τ^{- 1} \in G$ . [译注: 当然 $G$ 还要是非空的, 不过这是明显的.] 显然 $G$ 有 $r! s!$ 个元素.

我们定义一个映射 $ψ : S_{r + s} \to M^{r + s} (V), σ \mapsto (sgn σ) {(L \otimes M)}_{σ}$ 既然 $L$ 和 $M$ 是交错的, 那么对于每个 $γ \in G$ 有 $ψ (γ) = L \otimes M .$ 因此, 既然对于 $V$ 上任意的 $(r + s)$ 线性形式 $N$ 有 ${(N_{σ})}_{τ} = N_{τ σ}$ , 那么 $ψ (τ γ) = ψ (τ), τ \in S_{r + s}, γ \in G .$ 这是在说映射 $ψ$ 在子群 $G$ 的每个(左)陪集 $τ G$ 上都是常函数. 如果 $τ_{1}, τ_{2} \in S_{r + s}$ , 那么陪集 $τ_{1} G$ 和 $τ_{2} G$ 根据 $τ_{2}^{- 1} τ_{1}$ 在 $G$ 中还是不在 $G$ 中, 要么相等要么互不相交. 每个陪集都具有 $r! s!$ 个元素, 因此存在 $\frac{(r + s)!}{r! s!}$ 个不同的陪集. 若用 $S_{r + s} / G$ 代表由所有这些陪集构成的集合, 那么 $ψ$ 导出了 $S_{r + s} / G$ 上的一个函数, 即根据我们已知的东西, 存在 [译注: 当然也是唯一的] 函数 $\tilde{ψ}$ 满足对于每个 $τ \in S_{r + s}$ 有 $ψ (τ) = \tilde{ψ} (τ G) .$ 如果 $H$ 是 $G$ 的一个左陪集, 那么对于每个 $τ \in H$ 有 $\tilde{ψ} (H) = ψ (τ)$ .

译者注记. 以上有点小小的gap, 在声称 $ψ (τ γ) = ψ (τ)$ 那里, 我们补充一下证明: $\begin{array}{rcl} ψ (τ γ) & = & sgn (τ γ) {(L \otimes M)}_{τ γ} \\ = & (sgn τ) (sgn γ) {[{(L \otimes M)}_{γ}]}_{τ} \\ = & (sgn τ) (sgn γ) {[(sgn γ) (L \otimes M)]}_{τ} \\ = & (sgn τ) (sgn γ) (sgn γ) {(L \otimes M)}_{τ} \\ = & (sgn τ) {(L \otimes M)}_{τ} \\ = & ψ (τ) \end{array}$ 以上推导中我们用到了 ${(L \otimes M)}_{γ} = (sgn γ) (L \otimes M)$ , 这可由 $ψ (γ) = L \otimes M$ 两边左乘 $(sgn γ)$ 得到. 另外, 如果你看不懂上面这一段在说什么, 那么你应该找一本代数入门书籍看一看.

现在我们定义阶数分别为 $r$ 和 $s$ 的交错多线性形式 $L$ 和 $M$ 的外积为 $L \land M = \sum_{H}^{} \tilde{ψ} (H)$ 其中 $H$ 遍历 $S_{r + s} / G$ 的每个元素. 另一种陈述 $L \land M$ 的定义的方式如下. 令 $S$ 是 $S_{r + s}$ 的一个子集, 其从每个 $G$ 的左陪集中恰选一个代表出来, 那么 $L \land M = \sum_{σ \in S}^{} (sgn σ) {(L \otimes M)}_{σ} .$ 显然我们有 $r! s! (L \land M) = π_{r + s} (L \otimes M)$ 于是这个新定义等价于之前我们所给出的在 $K$ 是特征为零的域的情况下的定义.

定理9. 令

K

是一个含幺交换环,

V

是

K

上的一个模, 那么外积是

V

上的交错多线性形式上的一个结合运算. 换言之, 如果

L, M, N

分别是

V

上阶数为

r, s, t

的交错多线性形式, 那么

(L \land M) \land N = L \land (M \land N) .

证明. 尽管定理8的证明不能直接应用到这里来, 它的确暗示了该如何处理一般的情况. 令

G (r, s, t)

是

S_{r + s + t}

的一个子群, 其由所有这样的置换

σ

构成, 它们满足

σ {1, \dots, r} \subseteq {1, \dots, r}

且

σ {r + 1, \dots, r + s} \subseteq {r + 1, \dots, r + s}

且

σ {r + s + 1, \dots, r + s + t} \subseteq {r + s + 1, \dots, r + s + t}

. 那么, 对于一个给定的

G (r, s, t)

的左陪集而言, 其每个元素

μ

给出的

(sgn μ) {(L \otimes M \otimes N)}_{μ}

均是相同的多线性函数. 从

G (r, s, t)

的每个左陪集中选出一个代表

μ

来, 令

E

是这些代表所对应的项

(sgn μ) {(L \otimes M \otimes N)}_{μ}

之和, 那么

E

独立于代表元

μ

的选取方式, 并且

r! s! t! E = π_{r + s + t} (L \otimes M \otimes N) .

我们将证明

(L \land M) \land N

和

L \land (M \land N)

均等于

E

.
令

G (r + s, t)

是

S_{r + s + t}

的一个子群, 其定义方式与上面相同. 令

T

是任意的恰从

G (r + s, t)

的每个左陪集中选取一个元素得到的集合, 那么根据楔积的定义, 我们有

(L \land M) \land N = \sum_{τ \in T}^{} (sgn τ) {[(L \land M) \otimes N]}_{τ} .

现在令

G (r, s)

是如上定义的

S_{r + s}

的一个子群. 令

S

是任意的恰从

G (r, s)

的每个左陪集中选取一个元素得到的集合. 那么, 根据楔积的定义和我们已经知道的结果, 立即可以得出

(L \land M) \land N = \sum_{(σ, τ) \in S \times T}^{} (sgn σ) (sgn τ) {[{(L \otimes M)}_{σ} \otimes N]}_{τ} .

如果我们将

S_{r + s}

的每个元素

σ

视为

S_{r + s + t}

的元素, 即

σ

在

{1, \dots, r + s}

上与原来一致, 而在

{r + s + 1, \dots, r + s + t}

上是恒等函数, 那么我们或许可以将以上式子写成

(L \land M) \land N = \sum_{(σ, τ) \in S \times T}^{} sgn (σ τ) {[{(L \otimes M \otimes N)}_{σ}]}_{τ}

但是

{[{(L \otimes M \otimes N)}_{σ}]}_{τ} = {(L \otimes M \otimes N)}_{τ σ}

因此

(L \land M) \land N = \sum_{(σ, τ) \in S \times T}^{} sgn (τ σ) {(L \otimes M \otimes N)}_{τ σ}

现在设我们有

τ_{1} σ_{1} = τ_{2} σ_{2} γ

其中

σ_{i} \in S, τ_{i} \in T, γ \in G (r, s, t)

, 那么

τ_{2}^{- 1} τ_{1} = σ_{2} γ σ_{1}^{- 1}

. 并且, 既然

σ_{2} γ σ_{1}^{- 1} \in G (r + s, t)

, 那么

τ_{1}

和

τ_{2}

落入了

G (r + s, t)

的相同的左陪集中. 因此,

τ_{1} = τ_{2}

[译注: 虽然

T

是任意的, 却也是固定的], 然后

σ_{1} = σ_{2} γ

. 但是, 这将推出

σ_{1}

和

σ_{2}

(被视为

S_{r + s}

的元素) 落入了

G (r, s)

的相同的左陪集中, 于是

σ_{1} = σ_{2}

. [译注: 这句话里,

γ

被视为 (或者说限制为)

G (r, s)

的元素.] 因此, 与

\frac{(r + s + t)!}{(r + s)! t!} \frac{(r + s)!}{r! s!}

个序对

(τ, σ) \in T \times S

相对应的积

τ σ

都是不同的, 并且落入了

G (r, s, t)

的不同的左陪集中. 既然

S_{r + s + t}

中恰有

\frac{(r + s + t)!}{r! s! t!}

个

G (r, s, t)

的左陪集, 那么

(L \land M) \land N = E

. 根据类似的论证, 也可说明

L \land (M \land N) = E

◻

例子13. 外积与所谓的Laplace展开关系密切, 其可以用来计算行列式的值. 令

K

是一个含幺交换环,

n

是一个正整数. 设

1 \leq r < n

, 并且令

L

是

K^{n}

上的交错

r

线性形式, 其由 [译注: 作者默认

α_{i} = (A_{i, 1}, \dots, A_{i, n})

]

L (α_{1}, \dots, α_{r}) = \det [\begin{matrix} A_{1, 1} & \dots & A_{1, r} \\ ⋮ & ⋮ \\ A_{r, 1} & \dots & A_{r, r} \end{matrix}]

定义. 如果

s = n - r

并且

M

是交错

s

线性形式

M (α_{1}, \dots, α_{s}) = \det [\begin{matrix} A_{1, r + 1} & \dots & A_{1, n} \\ ⋮ & ⋮ \\ A_{s, r + 1} & \dots & A_{s, n} \end{matrix}]

那么

L \land M = D

, 即

K^{n}

上的行列式函数. 这可以从

L \land M

是交错

n

线性形式以及 (可以看出来)

(L \land M) (ε_{1}, \dots, ε_{n}) = 1

立即得出. 如果我们现在以适当的方式描述

L \land M

, 那么我们就得到了

K

上的

n \times n

矩阵的行列式的一种Laplace展开.
在置换群

S_{n}

中, 令

G = G (r, s)

是之前所定义的子群. 每个

G

的左陪集中都恰包含一个这样的置换

σ

, 其满足

σ 1 < σ 2 < \dots < σ r

且

σ (r + 1) < \dots < σ n

. 这个置换的符号由 [译注: 原文是

[r (r - 1) / 2]

, 应作

[r (r + 1) / 2]

, 下同]

sgn σ = {(- 1)}^{σ 1 + \dots + σ r + [r (r + 1) / 2]}

给出, 而楔积

L \land M

由

(L \land M) (α_{1}, \dots, α_{n}) = \sum_{σ}^{} (sgn σ) L (α_{σ 1}, \dots, α_{σ r}) M (α_{σ (r + 1)}, \dots, α_{σ n})

给出, 其和中的

σ

是从

G

的每个左陪集中挑选出的那个满足上述要求的置换, 因此

(L \land M) (α_{1}, \dots, α_{n}) = \sum_{j_{1} < \dots < j_{r}}^{} e_{J} L (α_{j_{1}}, \dots, α_{j_{r}}) M (α_{k_{1}}, \dots, α_{k_{s}})

其中 [译注: 实际上,

k_{i}

就是集合

{1, \dots, n} - {j_{1}, \dots, j_{r}}

中的元素从小到大排列的第

i

个]

e_{J} = {(- 1)}^{j_{1} + \dots + j_{r} + [r (r + 1) / 2]}, k_{i} = σ (r + i) .

换句话说,

\det (A) = \sum_{j_{1} < \dots < j_{r}}^{} e_{J} | \begin{matrix} A_{j_{1}, 1} & \dots & A_{j_{1}, r} \\ ⋮ & ⋮ \\ A_{j_{r}, 1} & \dots & A_{j_{r}, r} \end{matrix} | | \begin{matrix} A_{k_{1}, r + 1} & \dots & A_{k_{1}, n} \\ ⋮ & ⋮ \\ A_{k_{s}, 1} & \dots & A_{k_{s}, n} \end{matrix} |

这只是一种Laplace展开. 其他的展开可由将集合

{1, \dots, r}

和

{r + 1, \dots, n}

替换成两个互补的下标集合得到.

译者注记. 我们继续补充一些gap. 虽然看出 $(L \land M) (ε_{1}, \dots, ε_{n}) = 1$ 还算容易, 但也不是那么平凡. 对于 $σ \in G (r, s)$ , 我们有 $\begin{array}{rcl} (sgn σ) {(L \otimes M)}_{σ} (ε_{1}, \dots, ε_{n}) & = & (L \otimes M) (ε_{1}, \dots, ε_{n}) \\ = & L (ε_{1}, \dots, ε_{r}) M (ε_{r + 1}, \dots, ε_{n}) \\ = & \det (I) \det (I) \\ = & 1 \end{array}$ 对于 $σ \notin G (r, s)$ , 存在 $i$ 满足 $1 \leq i \leq r$ 但是 $σ i > r$ , 那么矩阵 $A = [\begin{matrix} δ_{σ 1, 1} & \dots & δ_{σ 1, r} \\ ⋮ & ⋮ \\ δ_{σ r, 1} & \dots & δ_{σ r, r} \end{matrix}]$ 的第 $i$ 行是零行, 于是 $\det (A) = 0$ , 而 $\begin{array}{rcl} (sgn σ) {(L \otimes M)}_{σ} (ε_{1}, \dots, ε_{n}) & = & (sgn σ) L (ε_{σ 1}, \dots, ε_{σ r}) M (ε_{σ (r + 1)}, \dots, ε_{σ n}) \\ = & (sgn σ) \det (A) M (ε_{σ (r + 1)}, \dots, ε_{σ n}) \\ = & 0 \end{array}$ 因此, 根据楔积的定义, $(L \land M) (ε_{1}, \dots, ε_{n})$ 的和中只有一项为 $1$ 而其余项均为 $0$ , 所以其值为 $1$ . 另外, 作者没有说明置换的符号是怎样计算的. 实际上, 如果考虑更一般的Laplace展开, 也就是说考虑互补的集合 ${j_{1}, \dots, j_{r}}$ 和 ${k_{1}, \dots, k_{s}}$ , 其中 $j_{1} < \dots < j_{r}$ 且 $k_{1} < \dots < k_{s}$ , 那么我们就需要思考如何计算这样的置换 $σ$ 的符号, 其满足 $σ j_{1} < \dots < σ j_{r}$ 且 $σ k_{1} < \dots < σ k_{s}$ . 我们先将 $σ j_{1}$ 通过反复交换插入到第 $1$ 个位置, 这需要 $j_{1} - 1$ 次交换. 接着, 从小到大依次将 $σ j_{i}$ 插入到第 $i$ 个位置, 这分别需要 $j_{i} - i$ 次交换. 然后, 我们将位于第 $r$ 个位置的 $σ j_{r}$ 插入到它本应该位于的第 $σ j_{r}$ 个位置, 这需要 $σ j_{r} - r$ 次交换. 从大到小, 我们依次将 $σ j_{i}$ 从第 $i$ 个位置插入到第 $σ j_{i}$ 个位置, 这分别需要 $σ j_{i} - i$ 次交换. 最终我们得到了恒等置换, 而所用的交换次数为 $\sum_{i = 1}^{r} (j_{i} - i) + \sum_{i = 1}^{r} (σ j_{i} - i) = (j_{1} + \dots + j_{r}) + (σ j_{1} + \dots + σ j_{r}) - r (r + 1)$ 鉴于 $r (r + 1)$ 是偶数, 那么置换 $σ$ 的符号为 $sgn σ = {(- 1)}^{(j_{1} + \dots + j_{r}) + (σ j_{1} + \dots + σ j_{r})} .$

如果 $V$ 是一个 $K$ 模, 我们可以将各种形式模 (form module) $Λ^{r} (V)$ 放在一起并使用外积定义一个环. 为了简单性, 我们只考虑秩为 $n$ 的自由 $K$ 模的情形. 那么, 在 $r > n$ 时模 $Λ^{r} (V)$ 是平凡的. 我们定义 $Λ (V) = Λ^{0} (V) \oplus Λ^{1} (V) \oplus \dots \oplus Λ^{n} (V) .$ 这是外直和, 某个之前我们还没讨论过的东西. $Λ (V)$ 的元素是 $(n + 1)$ 元组 $(L_{0}, \dots, L_{n})$ , 其中 $L_{r} \in Λ^{r} (V)$ . 加法和乘上 $K$ 的元素按读者的预想定义. 顺带一提, $Λ^{0} (V) = K$ . 如果我们将 $L \in Λ^{r} (V)$ 与 $(n + 1)$ 元组 $(0, \dots, 0, L, 0, \dots, 0)$ 等同起来, 其中自零计的第 $r$ 个分量是 $L$ , 那么 $Λ^{r} (V)$ 是 $Λ (V)$ 的一个子模, 而直和分解 $Λ (V) = Λ^{0} (V) \oplus \dots \oplus Λ^{n} (V)$ 在通常的意义下成立. [译注: 前一句话作者将多处 $Λ^{r} (V)$ 写成了 $Λ^{r} (K)$ .] 既然 $Λ^{r} (V)$ 是一个秩为 $(\binom{n}{r})$ 的自由 $K$ 模, 那么我们看到 $Λ (V)$ 是一个自由 $K$ 模并且 $rank [Λ (V)] = \sum_{r = 0}^{n} (\binom{n}{r}) = 2^{n} .$ 外积定义了一个 $Λ (V)$ 上的乘法: 使用形式 (form) 上的外积并将其线性地扩展至 $Λ (V)$ 的情形. 它对于 $Λ (V)$ 上的加法分配并给予了 $Λ (V)$ 一个环的结构. 这个环是 $V^{⁎}$ 上的Grassman环. 它不是一个交换环, 例如若 $L$ 和 $M$ 分别在 $Λ^{r} (V)$ 和 $Λ^{s} (V)$ 中, 那么 [译注: 这 ${(- 1)}^{r s}$ 是将前面和后面的参数互换得到的] $L \land M = {(- 1)}^{r s} (M \land L) .$ 但是, Grassman环在许多数学领域里是重要的. [译注: 以上所提Grassman环, 现多称Grassman代数, 毕竟它还有个数乘运算.]

第6章初等标准形式

第6.1节引论

之前我们已经提过我们的主要目的在于研究有限维向量空间上的线性变换. 到目前为止, 我们已经见过了许多线性变换的特殊例子, 并且证明了一些关于一般线性变换的定理. 在有限维的情形我们利用有序基通过矩阵来表示这样的变换, 这种表示增添了我们对于其行为的直觉. 我们探索了向量空间 $L (V, W)$ , 其由从一个向量空间到另一个的线性变换构成. 我们也探索了 $L (V, V)$ , 其由从一个向量空间到自身的线性变换构成.

在接下来的两章中, 我们将主要关心线性算子. 我们的流程是选取一个有限维向量空间 $V$ 上的单独的一个线性算子 $T$ , 将它拆下来, 看看什么使其运转. 在这早期阶段, 将我们的目标以矩阵的语言表述是最为简单的: 给定线性算子 $T$ , 找出 $V$ 的一个有序基使得 $T$ 的矩阵呈现特别简单的形式.

现在对于我们心中所想作一个基本的刻画. 或许最简单的矩阵, 除了恒等矩阵之外, 就是对角矩阵了: $D = [\begin{matrix} c_{1} & 0 & 0 & \dots & 0 \\ 0 & c_{2} & 0 & \dots & 0 \\ 0 & 0 & c_{3} & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & c_{n} \end{matrix}]$ 令 $T$ 是一个 $n$ 维向量空间 $V$ 上的线性算子. 如果我们能够找到 $V$ 的一个有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ 使得 $T$ 由上面的对角矩阵 $D$ 表示, 那么我们能够获得和 $T$ 有关的相当信息. 例如, 和 $T$ 有关的简单数字, 比如说 $T$ 和秩或者 $T$ 的行列式, 看一眼矩阵 $D$ 就能出来. 我们可以显式描述 $T$ 的像和零空间. 既然 ${[T]}_{𝔅} = D$ 当且仅当 $T α_{k} = c_{k} α_{k}, k = 1, \dots, n$ 那么像就是由那些 $c_{k} \neq 0$ 的 $α_{k}$ 张成的子空间, 零空间就是由剩下来的 $α_{k}$ 张成的. 似乎可以这样说, 如果我们知道了一个基 $𝔅$ 和一个对角矩阵 $D$ 满足 ${[T]}_{𝔅} = D$ , 那么我们就能轻易回答一切与 $T$ 有关的问题.

是否每个线性算子都可以在某个有序基下表示为对角矩阵呢? 如果不是的话, 那么什么样的算子 $T$ 下这样的基存在呢? 如果存在这样的基的话, 那么我们又该怎么找到它呢? 如果这样的基不存在的话, 那么可以表示 $T$ 的最简单的矩阵类型是什么样的呢? 这些是我们将在本章 (和下一章) 解决的问题. 随着我们理解到其中的困难, 一些问题的形式也会变得更加复杂.

第6.2节特征值

前一节的评注为我们提供了尝试分析一般线性算子 $T$ 的起点. 之前的线索暗示着我们应该研究这样的向量, 其由 $T$ 送至自身的标量倍数.

定义. 令

V

是域

F

上的向量空间而

T

是

V

上的线性算子.

T

的一个特征值是一个

F

中的标量

c

, 存在

V

中非零的向量

α

使得

T α = c α

. 如果

c

是

T

的特征值, 那么

任何满足 $T α = c α$ 的向量 $α$ 都被称为 $T$ 在特征值 $c$ 下的特征向量.
所有满足 $T α = c α$ 的向量 $α$ 构成的集合被称为 $T$ 在特征值 $c$ 下的特征空间.

特征值 (characteristic value) 也被称为特征根 (characteristic root), 隐式根 (latent root), 特征值 (eigenvalue), 特征值 (proper value) 或者谱值 (spectral value). 本书我们将只使用"特征值 (characteristic value)"这个名字.

如果 $T$ 是任意的线性算子而 $c$ 是任意的标量, 所有满足 $T α = c α$ 的向量 $α$ 的集合是 $V$ 的子空间, 实际上它就是线性变换 $(T - c I)$ 的零空间. 我们称 $c$ 是 $T$ 的特征值, 如果该子空间异于零子空间, 即 $(T - c I)$ 不是单射的. 在 $V$ 是有限维的情况下, $(T - c I)$ 不是单射恰当其行列式等于零.

定理1. 令

T

是有限维向量空间

V

上的一个线性算子,

c

是一个标量, 那么以下是等价的.

$c$ 是 $T$ 的特征值.
算子 $(T - c I)$ 是奇异的 (不可逆的).
$\det (T - c I) = 0$ .

行列式判则iii是非常重要的, 因为它告诉我们从哪里寻找 $T$ 的特征值. 既然 $\det (T - c I)$ 是对于变量 $c$ 的 $n$ 次多项式, 那么我们所求的特征值就是该多项式的根. 让我们仔细解释这个想法.

如果 $𝔅$ 是 $V$ 的基并且 $A = {[T]}_{𝔅}$ , 那么 $(T - c I)$ 可逆当且仅当矩阵 $(A - c I)$ 可逆. 据此, 我们有如下定义.

定义. 如果

A

是域

F

上的一个

n \times n

矩阵, 那么

A

的一个在

F

中的特征值是一个

F

中标量

c

满足矩阵

(A - c I)

是奇异的 (不可逆的).

既然 $c$ 是 $A$ 的特征值当且仅当 $\det (A - c I) = 0$ 或者等价地当且仅当 $\det (c I - A) = 0$ , 我们构造以多项式为元素的矩阵 $(x I - A)$ 并考虑多项式 $f = \det (x I - A)$ . 显然 $A$ 在 $F$ 中的特征值不过就是 $F$ 中满足 $f (c) = 0$ 的标量 $c$ . 出于这样的原因 $f$ 被称为 $A$ 的特征多项式. 注意到 $f$ 是一个次数恰为 $n$ 的首项系数为一的多项式是重要的. 这很容易从基于元素的矩阵的行列式公式中看出来.

引理. 相似矩阵拥有相同的特征多项式.

证明. 如果

B = P^{- 1} A P

, 那么

\begin{array}{rcl} \det (x I - B) & = & \det (x I - P^{- 1} A P) \\ = & \det (P^{- 1} (x I - A) P) \\ = & \det P^{- 1} \cdot \det (x I - A) \cdot \det P \\ = & \det (x I - A) \end{array}

◻

这条引理允许我们将算子 $T$ 的特征多项式定义为任意在某个 $V$ 的有序基下表示 $T$ 的 $n \times n$ 矩阵的特征多项式. 正如矩阵一样, $T$ 特征值就是 $T$ 的特征多项式的根. 特别地, 这表明 $T$ 不可能拥有多于 $n$ 个不同的特征值. 我们也应该指出 $T$ 可能没有任何特征值.

例子1. 令

T

是

ℝ^{2}

上的线性算子, 其在标准有序基下由矩阵

A = [\begin{matrix} 0 & - 1 \\ 1 & 0 \end{matrix}]

表示.

T

(或者

A

) 的特征多项式为

\det (x I - A) = | \begin{matrix} x & 1 \\ - 1 & x \end{matrix} | = x^{2} + 1 .

既然这个多项式没有实根, 那么

T

就没有特征值. 如果

U

是

ℂ^{2}

上的线性算子, 其在标准有序基下由

A

表示, 那么

U

就有两个特征值,

i

和

- i

. 这里我们看到了微妙的一点. 在讨论一个矩阵

A

的特征值时, 我们必须小心地规定所涉及的域. 上面的矩阵

A

在

ℝ

中没有特征值, 但在

ℂ

中有两个特征值

i

和

- i

例子2. 令

A

是

3 \times 3

的(实)矩阵

[\begin{matrix} 3 & 1 & - 1 \\ 2 & 2 & - 1 \\ 2 & 2 & 0 \end{matrix}] .

那么

A

的特征多项式为

| \begin{matrix} x - 3 & - 1 & 1 \\ - 2 & x - 2 & 1 \\ - 2 & - 2 & x \end{matrix} | = x^{3} - 5 x^{2} + 3 x - 4 = (x - 1) {(x - 2)}^{2} .

因此

A

的特征值是

1

和

2

.
设

T

是

ℝ^{3}

上的线性算子, 其在标准基下由

A

表示. 让我们找出

T

在特征值

1

和

2

下的特征向量. 现在

A - I = [\begin{matrix} 2 & 1 & - 1 \\ 2 & 1 & - 1 \\ 2 & 2 & - 1 \end{matrix}]

显然一眼就可以看出

A - I

的秩等于

2

(因此

T - I

的零化度为

1

). 于是特征值

1

下的特征向量的空间是一维的. 向量

α_{1} = (1, 0, 2)

可以张成

T - I

的零空间. 因此

T α = α

当且仅当

α

是

α_{1}

的标量倍数. 现在考虑

A - 2 I = [\begin{matrix} 1 & 1 & - 1 \\ 2 & 0 & - 1 \\ 2 & 2 & - 2 \end{matrix}]

显然

A - 2 I

的秩也是

2

, 于是在特征值

2

下的特征向量的空间维数是

1

. 显然

T α = 2 α

当且仅当

α

是

α_{2} = (1, 1, 2)

的标量倍数.

定义. 令

T

是有限维向量空间

V

上的一个线性算子. 我们称

T

是可对角化的, 如果存在

V

的一个基满足其中每个向量都是

T

的特征向量.

为什么要叫这个名字应该是很显然的, 因为如果存在 $V$ 的一个有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ 满足每个 $α_{i}$ 都是 $T$ 的特征向量, 那么 $T$ 在有序基 $𝔅$ 下的矩阵是对角的. 如果 $T α_{i} = c_{i} α_{i}$ , 那么 ${[T]}_{𝔅} = [\begin{matrix} c_{1} & 0 & \dots & 0 \\ 0 & c_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & c_{n} \end{matrix}]$ 我们当然并不需要标量 $c_{1}, \dots, c_{n}$ 互异. 实际上, 它们可以是相同的标量 (当 $T$ 是恒等算子的标量倍数时).

我们也可以将 $T$ 可对角化定义为存在 $T$ 的一集特征向量可以张成 $V$ . 这与之前的定义只是表面上不同而已, 因为我们可以从任意能够张成 $V$ 的一集向量中挑选出一个基.

对于例子1和2我们故意挑选了在 $ℝ^{n}$ 上不可对角化的线性算子 $T$ . 在例子1中, $ℝ^{2}$ 上的这个线性算子之所以是不可逆的, 是因为它没有特征值. 在例子2中, 线性算子 $T$ 的确有特征值. 实际上, $T$ 的特征多项式可以在实数域上被分解完全: $f = (x - 1) {(x - 2)}^{2}$ . 然而, $T$ 并非可对角化的. 在 $T$ 的两个特征值下每个特征空间都只是一维的, 因此我们并不能构造出一个全由 $T$ 的特征向量构成的 $ℝ^{3}$ 的基.

设 $T$ 是一个可对角化的线性算子. 令 $c_{1}, \dots, c_{k}$ 是 $T$ 互异的特征值. 那么存在一个有序基 $𝔅$ 满足其下 $T$ 由一个以标量 $c_{i}$ 为对角元素的对角矩阵表示, 每个标量均重复特定的次数. 如果 $c_{i}$ 重复了 $d_{i}$ 次, 那么(我们可以重新排列有序基的向量顺序使得)该矩阵具有如下分块形式 ${[T]}_{𝔅} = [\begin{matrix} c_{1} I_{1} & 0 & \dots & 0 \\ 0 & c_{2} I_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & c_{k} I_{k} \end{matrix}]$ 其中 $I_{j}$ 是 $d_{j} \times d_{j}$ 的恒等矩阵. 从中我们看出两件事. 首先, $T$ 的特征多项式是(可能重复的)线性因子之积: $f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}} .$ 如果标量域 $F$ 是代数闭域, 例如复数域, 那么每个 $F$ 上的多项式都可以被这么分解 (见第4.5节). 然而, 如果 $F$ 不是代数闭域, 当我们说 $T$ 的特征多项式有这样一种分解时, 我们是在声明 $T$ 的一个特别性质. 第二件能看出来的事情是 $d_{i}$ ( $c_{i}$ 作为 $f$ 的重根次数) 等于与特征值 $c_{i}$ 相关的特征空间的维数. 这是因为对角矩阵的零化度等于其主对角线上零的数目, 而矩阵 ${[T - c_{i} I]}_{𝔅}$ 在其主对角线上拥有 $d_{i}$ 个零. 这个特征空间的维数与特征值作为 $f$ 的根的重数之间的关系最初看上去并不令人兴奋. 然而, 它为我们提供了一种更简单的判断给定算子是否可对角化的方法.

引理. 设

T α = c α

. 如果

f

是任意的多项式, 那么

f (T) α = f (c) α

证明. 作为练习.

◻

引理. 令

T

是有限维向量空间

V

上的线性算子. 令

c_{1}, \dots, c_{k}

是

T

不同的特征值, 而

W_{i}

是特征值

c_{i}

下的特征空间. 如果

W = W_{1} + \dots + W_{k}

, 那么

\dim W = \dim W_{1} + \dots + \dim W_{k} .

实际上, 如果

𝔅_{i}

是

W_{i}

的一个有序基, 那么

𝔅 = (𝔅_{1}, \dots, 𝔅_{k})

是

W

的一个有序基.

证明. 空间

W = W_{1} + \dots + W_{k}

是由

T

的所有特征向量张成的子空间. 当一个人构造子空间

W_{i}

之和

W

时, 通常会预料

\dim W < \dim W_{1} + \dots + \dim W_{k}

, 因为不同空间的向量之间也可能存在线性关系. 这条引理告诉我们不同特征值下的特征空间是独立的.
设(对于每个

i

)我们有一个

W_{i}

中的向量

β_{i}

, 并且假定

β_{1} + \dots + β_{k} = 0

. 我们将证明对于每个

i

有

β_{i} = 0

. 令

f

是任意的多项式. 既然

T β_{i} = c_{i} β_{i}

, 那么之前的引理告诉我们

\begin{array}{rcl} 0 & = & f (T) 0 \\ = & f (T) β_{1} + \dots + f (T) β_{k} \\ = & f (c_{1}) β_{1} + \dots + f (c_{k}) β_{k} \end{array}

选择多项式

f_{1}, \dots, f_{k}

使得

f_{i} (c_{j}) = δ_{i, j} = {\begin{matrix} 1 & , i = j \\ 0 & , i \neq j \end{matrix}

那么

\begin{array}{rcl} 0 & = & f_{i} (T) 0 \\ = & \sum_{j = 1}^{k} δ_{i, j} β_{j} \\ = & β_{i} \end{array}

现在令

𝔅_{i}

是

W_{i}

的一个有序基, 令

𝔅

是序列

𝔅 = (𝔅_{1}, \dots, 𝔅_{k})

, 那么

𝔅

能够张成子空间

W = W_{1} + \dots + W_{k}

. 并且,

𝔅

也是线性无关的向量序列, 原因如下. 任何

𝔅

中向量之间的线性关系都具有

β_{1} + \dots + β_{k} = 0

的形式, 其中

β_{i}

是

𝔅_{i}

中的向量的线性组合. 根据我们刚才得到的结果, 我们知道对于每个

i

有

β_{i} = 0

. 既然每个

𝔅_{i}

都是线性无关的, 那么显然

𝔅

中的向量之间只存在平凡的线性关系.

◻

定理2. 令

T

是有限维向量空间

V

上的线性算子, 令

c_{1}, \dots, c_{k}

是

T

不同的特征值, 令

W_{i}

是

(T - c_{i} I)

的零空间, 以下条件是等价的.

$T$ 是可对角化的.
$T$ 的特征多项式为 $f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}$ 并且 $\dim W_{i} = d_{i}, i = 1, \dots, k$ .
$\dim W_{1} + \dots + \dim W_{k} = \dim V$ .

证明. 我们已经观察到i可以推出ii. 如果特征多项式

f

是如ii所示的线性因子之积, 那么

d_{1} + \dots + d_{k} = \dim V

, 因为

d_{i}

之和就是特征多项式的次数, 而这个次数就是

\dim V

. 于是, ii能够推出iii. 设iii成立. 根据引理, 我们必须有

V = W_{1} + \dots + W_{k}

, 即

T

的特征向量能够张成

V

◻

定理2的矩阵类比可以按照如下方式陈述. 令 $A$ 是一个元素来源于域 $F$ 的 $n \times n$ 矩阵, 令 $c_{1}, \dots, c_{k}$ 是 $A$ 在 $F$ 中不同的特征值. 对于每个 $i$ , 令 $W_{i}$ 是满足 $(A - c_{i} I) X = 0$ 的列矩阵 $X$ 的空间, 当然 $X$ 的元素应该来源于 $F$ , 令 $𝔅_{i}$ 是 $W_{i}$ 的一个有序基. 我们将基 $(𝔅_{1}, \dots, 𝔅_{k})$ 连在一起以构成了一个矩阵 $P$ 的列的序列: $P = [P_{1}, P_{2}, \dots] = (𝔅_{1}, \dots, 𝔅_{k}) .$ 矩阵 $A$ 在域 $F$ 上能够相似于一个对角矩阵当且仅当 $P$ 是一个方阵. 当 $P$ 是方阵的时候, $P$ 可逆并且 $P^{- 1} A P$ 是对角矩阵.

例子3. 令

T

是

ℝ^{3}

上的线性算子, 其在标准基下由矩阵

A = [\begin{matrix} 5 & - 6 & - 6 \\ - 1 & 4 & 2 \\ 3 & - 6 & - 4 \end{matrix}]

表示. 让我们指出读者计算特征多项式的一种可能方式, 使用行变换和列变换:

\begin{array}{rcl} | \begin{matrix} x - 5 & 6 & 6 \\ 1 & x - 4 & - 2 \\ - 3 & 6 & x + 4 \end{matrix} | & = & | \begin{matrix} x - 5 & 0 & 6 \\ 1 & x - 2 & - 2 \\ - 3 & 2 - x & x + 4 \end{matrix} | \\ = & (x - 2) | \begin{matrix} x - 5 & 0 & 6 \\ 1 & 1 & - 2 \\ - 3 & - 1 & x + 4 \end{matrix} | \\ = & (x - 2) | \begin{matrix} x - 5 & 0 & 6 \\ 1 & 1 & - 2 \\ - 2 & 0 & x + 2 \end{matrix} | \\ = & (x - 2) | \begin{matrix} x - 5 & 6 \\ - 2 & x + 2 \end{matrix} | \\ = & (x - 2) (x^{2} - 3 x + 2) \\ = & {(x - 2)}^{2} (x - 1) \end{array}

在这两个特征值下的特征空间的维数是多少呢? 我们有

A - I = [\begin{matrix} 4 & - 6 & - 6 \\ - 1 & 3 & 2 \\ 3 & - 6 & - 5 \end{matrix}], A - 2 I = [\begin{matrix} 3 & - 6 & - 6 \\ - 1 & 2 & 2 \\ 3 & - 6 & - 6 \end{matrix}]

我们知道

A - I

是奇异的, 并且显然有

rank (A - I) \geq 2

. 因此,

rank (A - I) = 2

. 另外, 显然有

rank (A - 2 I) = 1

.
令

W_{1}

和

W_{2}

分别是特征值

1

和

2

下的特征空间, 我们知道

\dim W_{1} = 1

和

\dim W_{2} = 2

. 根据定理2,

T

是可对角化的. 很容易找出

ℝ^{3}

的一个基满足其下

T

由一个对角矩阵表示.

(T - I)

的零空间由向量

α_{1} = (3, - 1, 3)

张成, 于是

{α_{1}}

是

W_{1}

的一个基.

T - 2 I

的零空间 (即空间

W_{2}

) 由满足

x_{1} = 2 x_{2} + 2 x_{3}

的向量

(x_{1}, x_{2}, x_{3})

构成. 因此,

W_{2}

的基的一个例子是

α_{2} = (2, 1, 0), α_{3} = (2, 0, 1) .

如果

𝔅 = {α_{1}, α_{2}, α_{3}}

, 那么

{[T]}_{𝔅}

是对角矩阵

D = [\begin{matrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2 \end{matrix}] .

T

可对角化的事实意味着原本的矩阵

A

(在

ℝ

上)相似于对角矩阵

D

. 使得我们能够将基

𝔅

下的坐标转换为标准基下的坐标的矩阵

P

(当然)以

α_{1}, α_{2}, α_{3}

的转置为列向量:

P = [\begin{matrix} 3 & 2 & 2 \\ - 1 & 1 & 0 \\ 3 & 0 & 1 \end{matrix}] .

而且,

A P = P D

, 于是

P^{- 1} A P = D .

练习1. 以下的每种情形, 令

T

是

ℝ^{2}

上的线性算子, 其在

ℝ^{2}

的标准有序基下由矩阵

A

表示. 并且, 令

U

是

ℂ^{2}

上的线性算子, 其在

ℂ^{2}

的标准有序基下也由矩阵

A

表示. 找出

T

和

U

的特征多项式, 找出

T

和

U

的特征值, 以及找出每个特征值所对应的特征空间的一个基.

A = [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}], A = [\begin{matrix} 2 & 3 \\ - 1 & 1 \end{matrix}], A = [\begin{matrix} 1 & 1 \\ 1 & 1 \end{matrix}] .

练习2. 令

V

是域

F

上的一个

n

维向量空间.

V

上的恒等算子的特征多项式是什么?

V

上的零算子的特征多项式是什么?

练习3. 令

A

是域

F

上的一个

n \times n

的三角矩阵. 证明

A

的特征值就是其对角线的元素, 即标量

A_{i, i}

练习4. 令

T

是

ℝ^{3}

上在标准有序基下由矩阵

[\begin{matrix} - 9 & 4 & 4 \\ - 8 & 3 & 4 \\ - 16 & 8 & 7 \end{matrix}]

表示的线性算子. 证明

T

是可对角化的, 通过给出

ℝ^{3}

的一个基, 其每个向量都是

T

的特征向量.

练习5. 令

A = [\begin{matrix} 6 & - 3 & - 2 \\ 4 & - 1 & - 2 \\ 10 & - 5 & - 3 \end{matrix}] .

域

ℝ

上

A

是否相似于一个对角矩阵? 域

ℂ

上

A

是否相似于一个对角矩阵?

练习6. 令

T

是

ℝ^{4}

上在标准有序基下由矩阵

[\begin{matrix} 0 & 0 & 0 & 0 \\ a & 0 & 0 & 0 \\ 0 & b & 0 & 0 \\ 0 & 0 & c & 0 \end{matrix}]

表示的线性算子.

a, b, c

在何种条件下使得

T

是可对角化的?

练习7. 令

T

是

n

维向量空间

V

上的一个线性算子. 如果

T

具有

n

个不同的特征值, 证明

T

是可对角化的.

练习8. 令

A

和

B

是域

F

上的

n \times n

矩阵, 证明如果

(I - A B)

是可逆的, 那么

(I - B A)

也是可逆的, 并且

{(I - B A)}^{- 1} = I + B {(I - A B)}^{- 1} A .

练习9. 使用练习8的结果证明, 如果

A

和

B

是域

F

上的

n \times n

矩阵, 那么

A B

和

B A

在域

F

中恰好拥有相同的特征值.

练习10. 设

A

是一个

2 \times 2

的实对称矩阵, 证明

A

在

ℝ

上相似于一个对角矩阵.

练习11. 令

N

是一个

2 \times 2

的复矩阵满足

N^{2} = 0

, 证明要么

N = 0

, 要么

N

在

ℂ

上相似于

[\begin{matrix} 0 & 0 \\ 1 & 0 \end{matrix}] .

练习12. 使用练习11的结果证明, 如果

A

是一个

2 \times 2

的复矩阵, 那么

A

在

ℂ

上相似于以下两种类型的矩阵中的一种:

[\begin{matrix} a & 0 \\ 0 & b \end{matrix}], [\begin{matrix} a & 0 \\ 1 & a \end{matrix}] .

练习13. 令

V

是所有从

ℝ

到

ℝ

的连续函数构成的向量空间, 令

T

是

V

上由

(T f) (x) = \int_{0}^{x} f (t) d t

定义的线性算子, 证明

T

没有特征值.

练习14. 令

A

是

n \times n

的对角矩阵, 它的特征多项式为

{(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

其中

c_{1}, \dots, c_{k}

是不同的标量. 令

V

是所有与

A

交换的

n \times n

矩阵构成的向量空间, 证明

V

的维数是

d_{1}^{2} + \dots + d_{k}^{2}

练习15. 令

V

是

F^{n \times n}

, 矩阵

A \in V

T

是

V

上"左乘

A

"的线性算子,

A

和

T

具有相同的特征值吗?

第6.3节零化多项式

在尝试分析一个线性算子 $T$ 的时候, 知道能够零化 $T$ 的多项式类是很有用的. 更确切地说, 设 $T$ 是域 $F$ 上的向量空间 $V$ 上的线性算子. 如果 $p$ 是域 $F$ 上的多项式, 那么 $p (T)$ 也是 $V$ 上的线性算子. 如果 $q$ 是另一个域 $F$ 上的多项式, 那么 $(p + q) (T) = p (T) + q (T), (p q) (T) = p (T) q (T) .$ 因此, 零化 $T$ 的多项式 $p$ (意即 $p (T) = 0$ ) 的集合是多项式代数 $F [x]$ 的理想. 它可能是零理想, 也就是说 $T$ 可能不由任何非零多项式零化. 但是, 如果 $V$ 是有限维的, 这种情况是不可能发生的.

设 $T$ 是一个 $n$ 维空间 $V$ 上的线性算子. 看看 $T$ 的前 $(n^{2} + 1)$ 次幂: $I, T, T^{2}, \dots, T^{n^{2}} .$ 这是 $L (V, V)$ 中 $n^{2} + 1$ 个算子的序列, $L (V, V)$ 即 $V$ 上的线性算子的空间. 空间 $L (V, V)$ 是 $n^{2}$ 维的, 因此这 $n^{2} + 1$ 个算子的序列必然是线性相关的, 也就是说存在不是全零的标量 $c_{i}$ 满足 $c_{0} I + c_{1} T + \dots + c_{n^{2}} T^{n^{2}} = 0 .$ 于是, 零化 $T$ 的多项式理想中有一个非零的多项式, 其次数小于等于 $n^{2}$ .

根据第4章的定理7, 每个非零的多项式理想都可由某个首项系数为一的多项式生成. 因此, 存在一个与 $T$ 相关的首项系数为一的多项式 $p$ 满足以下性质: 如果 $f$ 是一个域 $F$ 上的多项式, 那么 $f (T) = 0$ 当且仅当 $f = p g$ , 其中 $g$ 是某个 $F$ 上的多项式.

定义. 令

T

是一个域

F

上的有限维向量空间

V

上的线性算子.

T

的极小多项式是零化

T

的域

F

上的多项式理想的(唯一的)首项系数为一的生成元.

"极小多项式"这个名字来源于这个多项式理想的生成元可由理想中次数最小的首项系数为一多项式刻画. 这意味着线性算子 $T$ 的极小多项式 $p$ 由以下三条性质唯一确定:

$p$ 是标量域 $F$ 上的首项系数为一的多项式.
$p (T) = 0$ .
没有能够零化 $T$ 的域 $F$ 上的多项式次数比 $p$ 低.

如果 $A$ 是域 $F$ 上的一个 $n \times n$ 矩阵, 我们可以按照类似的方式定义 $A$ 的极小多项式, 即域 $F$ 上零化 $A$ 的多项式理想的那个唯一的首项系数为一的生成元. 如果 $T$ 在某个有序基下由矩阵 $A$ 表示, 那么 $T$ 和 $A$ 有着相同的极小多项式. 这是因为在这个基下 $f (T)$ 由矩阵 $f (A)$ 表示, 于是 $f (T) = 0$ 当且仅当 $f (A) = 0$ .

上面关于算子和矩阵的评注也可说明相似矩阵拥有相同的极小多项式. 从定义看这个事实也是显然的, 因为对于每个多项式 $f$ 有 $f (P^{- 1} A P) = P^{- 1} f (A) P .$

关于矩阵的极小多项式的另一个基本评注也是应该说的. 设 $A$ 是一个 $n \times n$ 矩阵, 其元素来源于域 $F$ . 设 $F_{1}$ 是以 $F$ 为子域的一个域. (例如, $A$ 的元素可能是有理数, 而 $F_{1}$ 是实数域. 或者, $A$ 的元素是实数, 而 $F_{1}$ 是复数域.) 我们既可以将 $A$ 当成 $F$ 上的矩阵, 也可以将其当作 $F_{1}$ 上的矩阵. 从表面上来看, 似乎我们会得到 $A$ 的两个不同的极小多项式. 幸运的是, 这并不会发生, 我们必须明白为什么. 当 $A$ 被视为域 $F$ 上的 $n \times n$ 矩阵时, 其极小多项式的定义是什么? 我们考虑能够零化 $A$ 的系数来源于 $F$ 的首项系数为一的多项式, 并挑选其中次数最小的那个. 如果 $f$ 是域 $F$ 上的一个首项系数为一的多项式: $f = x^{k} + \sum_{j = 0}^{k - 1} a_{j} x^{j}$ 那么 $f (A) = 0$ 仅仅是说我们有了一个 $A$ 的幂之间的线性关系: $A^{k} + a_{k - 1} A^{k - 1} + \dots + a_{1} A + a_{0} I = 0 .$ 极小多项式的次数是满足存在以上形式的 $I, A, \dots, A^{k}$ 之间的线性关系的最小的正整数 $k$ . 而且, 根据极小多项式的唯一性, 对于 $k$ 而言有且仅有一种这样形式的关系, 即一旦最小的 $k$ 确定下来了, 存在唯一的 $F$ 中标量 $a_{0}, \dots, a_{k - 1}$ 能够使得以上形式的关系成立. 它们是极小多项式的系数.

现在(对于每个 $k$ )我们有一个"未知元" $a_{0}, \dots, a_{k - 1}$ 的具 $n^{2}$ 个方程的线性方程组. [译注: 也就是考虑 $A$ 的 $n^{2}$ 个元素得到的线性方程组.] 既然 $A$ 的元素都在 $F$ 中, 那么该线性方程组的系数也都在 $F$ 中. 因此, 如果该方程组有 $F_{1}$ 中的 $a_{0}, \dots, a_{k - 1}$ 的解, 那么它就有 $F$ 中的 $a_{0}, \dots, a_{k - 1}$ 的解. (见第1.4节末.) 现在读者显然可以看出两个极小多项式应该是相同的. [译注: 而且, 这是因为此时解是唯一的.]

到目前为止, 关于 $n$ 维空间上的线性算子的极小多项式, 我们知道什么呢? 我们只知道它的次数不超过 $n^{2}$ . 这实际上是一个相当糟糕的估计, 因为它的次数不可能超过 $n$ . 我们将简短地证明该算子由其特征多项式零化. 首先, 让我们观察到一个基本事实.

定理3. 令

T

是

n

维向量空间

V

上的一个线性算子 (或者, 令

A

是一个

n \times n

矩阵), 那么

T

(或者

A

) 的特征多项式和极小多项式具有相同的根, 不计重数.

证明. 令

p

是

T

的极小多项式. 令

c

是一个标量. 我们想要证明的是

p (c) = 0

当且仅当

c

是

T

的一个特征值.
首先, 设

p (c) = 0

, 那么

p = (x - c) q

其中

q

是一个多项式. 既然

\deg q < \deg p

, 那么极小多项式

p

的定义告诉我们

q (T) \neq 0

. 选择一个向量

β

使得

q (T) β \neq 0

. 令

α = q (T) β

, 那么

\begin{array}{rcl} 0 & = & p (T) β \\ = & (T - c I) q (T) β \\ = & (T - c I) α \end{array}

即

c

是

T

的一个特征值.
现在设

c

是

T

的一个特征值, 即存在

α \neq 0

使得

T α = c α

. 正如我们在之前的引理中所注意到的,

p (T) α = p (c) α .

既然

p (T) = 0

而

α \neq 0

, 我们有

p (c) = 0

◻

令 $T$ 是一个可对角化线性算子而 $c_{1}, \dots, c_{k}$ 是其不同的特征值, 那么很容易看出来 $T$ 的极小多项式为 $p = (x - c_{1}) \dots (x - c_{k}) .$ 如果 $α$ 是一个特征向量, 那么算子 $T - c_{1} I, \dots, T - c_{k} I$ 之一将 $α$ 送至 $0$ , 因此对于每个特征向量 $α$ 有 $(T - c_{1} I) \dots (T - c_{k} I) α = 0 .$ 对于 $T$ 所变换的空间, 存在一个全由 $T$ 的特征向量构成的基, 于是 $p (T) = (T - c_{1} I) \dots (T - c_{k} I) = 0 .$ 总结一下. 如果 $T$ 是一个可对角化的线性算子, 那么 $T$ 的极小多项式是不同的线性因子之积. 我们很快将看到, 这个性质刻画了可对角化算子.

例子4. 让我们试着寻找一下例子1, 2, 3里的线性算子的极小多项式. 我们将以相反的顺序讨论它们. 例子3中的线性算子被我们发现是可对角化的, 并且其特征多项式为

f = (x - 1) {(x - 2)}^{2} .

根据前一段的论述, 我们知道

T

的极小多项式为

p = (x - 1) (x - 2) .

读者可能会发现直接验证一下

(A - I) (A - 2 I) = 0

要更令人放心一点. 在例子2中, 算子

T

的特征多项式也是

(x - 1) {(x - 2)}^{2}

. 但是, 这个

T

不是可对角化的, 所以我们并不能知道其极小多项式就是

(x - 1) (x - 2)

. 在这种情况下, 关于极小多项式我们又知道什么呢? 从定理3中我们得知其根是

1

和

2

, 但是重数未知. 因此, 我们在具有形式

{(x - 1)}^{k} {(x - 2)}^{l}, k \geq 1, l \geq 1

的多项式中寻找

p

. 先试试

(x - 1) (x - 2)

\begin{array}{rcl} (A - I) (A - 2 I) & = & [\begin{matrix} 2 & 1 & - 1 \\ 2 & 1 & - 1 \\ 2 & 2 & - 1 \end{matrix}] [\begin{matrix} 1 & 1 & - 1 \\ 2 & 0 & - 1 \\ 2 & 2 & - 2 \end{matrix}] \\ = & [\begin{matrix} 2 & 0 & - 1 \\ 2 & 0 & - 1 \\ 4 & 0 & - 2 \end{matrix}] \end{array}

于是, 极小多项式的次数至少为

3

. 于是, 接下来我们应该尝试

{(x - 1)}^{2} (x - 2)

或者

(x - 1) {(x - 2)}^{2}

. 后者是特征多项式, 似乎是不那么随机的选择. 读者通过计算可以发现

(A - I) {(A - 2 I)}^{2} = 0

, 因此

T

的极小多项式就是其特征多项式. [译注: 虽然例子2中的

T

是实向量空间上的线性算子, 以至于看起来极小多项式和特征多项式拥有相同的根的事实并不能保证极小多项式就是由那两个线性因子的幂构成. 但是, 我们也可以将其当作复数域上的线性算子, 根据前面的论证, 其极小多项式也是一样的, 而复数域是代数闭域.] 在例子1中我们讨论了

ℝ^{2}

上的线性算子

T

, 其在标准基下由矩阵

A = [\begin{matrix} 0 & - 1 \\ 1 & 0 \end{matrix}]

表示. 它的特征多项式为

x^{2} + 1

, 其没有实根. 为了确定极小多项式, 让我们忘了

T

而专注于

A

. 如果将其视为复矩阵, 那么

A

具有特征值

i

和

- i

. 这两个根都必须出现在极小多项式的根里, 因而极小多项式被

x^{2} + 1

整除. 验证

A^{2} + I = 0

是平凡的, 于是极小多项式就是

x^{2} + 1

定理4. (Cayley-Hamilton). 令

T

是有限维向量空间

V

上的一个线性算子. 如果

f

是

T

的特征多项式, 那么

f (T) = 0

. 换言之, 极小多项式整除特征多项式.

证明. 之后我们将会给出另外两个独立于此证明的证明. 当前这个证明, 尽管比较短, 可能难以理解. 除了简洁性, 它还有一个优点, 就是提供了第5章建立的行列式理论的一个富于启发性且远非平凡的应用.
令

K

是一个含幺交换环, 其由所有以

T

为变元的多项式构成. 当然,

K

实际上是一个标量域上的含幺元的交换代数. 选择

V

的一个有序基

{α_{1}, \dots, α_{n}}

, 令

A

是在此给定基下表示

T

的矩阵, 那么

T α_{i} = \sum_{j = 1}^{n} A_{j, i} α_{j}, 1 \leq i \leq n .

这些式子也可以被写成以下等价的形式

\sum_{j = 1}^{n} (δ_{i, j} T - A_{j, i} I) α_{j} = 0, 1 \leq i \leq n .

令

B \in K^{n \times n}

的元素为

B_{i, j} = δ_{i, j} T - A_{j, i} I .

当

n = 2

时, 有

B = [\begin{matrix} T - A_{1, 1} I & - A_{2, 1} I \\ - A_{1, 2} I & T - A_{2, 2} I \end{matrix}]

并且 [译注: 在某种意义上, 这里存在一个"类型错误", 因为

\det (B)

是多项式而

f (T)

是一个线性算子, 更正确的陈述是

\det (B) = f

, 至于多项式变元是何种符号则无关紧要. 下面仍然有许多类型错误, 还请读者自行甄别.]

\begin{array}{rcl} \det (B) & = & (T - A_{1, 1} I) (T - A_{2, 2} I) - A_{1, 2} A_{2, 1} I \\ = & T^{2} - (A_{1, 1} + A_{2, 2}) T + (A_{1, 1} A_{2, 2} - A_{1, 2} A_{2, 1}) I \\ = & f (T) \end{array}

其中

f

是特征多项式:

f = x^{2} - (trace A) x + \det (A) .

对于

n > 2

的情形, 显然也有

\det (B) = f (T)

这是因为

f

是矩阵

x I - A

的行列式, 该矩阵的元素为多项式 [译注: 这里作者不小心将

A_{i, j}

写成了

A_{j, i}

, 但是不影响论证的合法性, 因为转置并不影响矩阵的行列式的值]

{(x I - A)}_{i, j} = δ_{i, j} x - A_{i, j} .

我们想要证明

f (T) = 0

. 为了证明

f (T)

是零算子, 只需要证明其充要条件就够了, 即对于

k = 1, \dots, n

有

(\det B) α_{k} = 0

. 根据

B

的定义, 向量

α_{1}, \dots, α_{n}

满足等式

\sum_{j = 1}^{n} B_{i, j} α_{j} = 0, 1 \leq i \leq n .

当

n = 2

时, 它或许暗示我们将其写成以下形式 [译注: 这完全是形式上的, 至于其内在的涵义, 则需要读者仔细考察, 下面的推理亦是如此]

[\begin{matrix} T - A_{1, 1} I & - A_{2, 1} I \\ - A_{1, 2} I & T - A_{2, 2} I \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \end{matrix}] = [\begin{matrix} 0 \\ 0 \end{matrix}] .

在此情形之下, 古典伴随

(adj B)

是矩阵

\tilde{B} = [\begin{matrix} T - A_{2, 2} I & A_{2, 1} I \\ A_{1, 2} I & T - A_{1, 1} I \end{matrix}]

并且

\tilde{B} B = [\begin{matrix} \det (B) & 0 \\ 0 & \det (B) \end{matrix}] .

因此, 我们有

\begin{array}{rcl} (\det B) [\begin{matrix} α_{1} \\ α_{2} \end{matrix}] & = & (\tilde{B} B) [\begin{matrix} α_{1} \\ α_{2} \end{matrix}] \\ = & \tilde{B} (B [\begin{matrix} α_{1} \\ α_{2} \end{matrix}]) \\ = & [\begin{matrix} 0 \\ 0 \end{matrix}] \end{array}

一般情况下, 令

\tilde{B} = (adj B)

, 那么对于每对

k

和

i

, 根据

B

的定义可得 [译注: 这里的

{\tilde{B}}_{k, i}

只是附带的系数, 不被求和所绑定]

\sum_{j = 1}^{n} {\tilde{B}}_{k, i} B_{i, j} α_{j} = 0

在

i

上求和, 我们有

\begin{array}{rcl} 0 & = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} {\tilde{B}}_{k, i} B_{i, j} α_{j} \\ = & \sum_{j = 1}^{n} (\sum_{i = 1}^{n} {\tilde{B}}_{k, i} B_{i, j}) α_{j} \end{array}

既然

\tilde{B} B = (\det B) I

, 于是

\sum_{i = 1}^{n} {\tilde{B}}_{k, i} B_{i, j} = δ_{k, j} (\det B)

因此对于

k = 1, \dots, n

, 我们得到

\begin{array}{rcl} 0 & = & \sum_{j = 1}^{n} δ_{k, j} (\det B) α_{j} \\ = & (\det B) α_{k} \end{array}

◻

证明. 以上证明的叙述有些混乱, 译者在此试图将其整理成更加清晰易读的形式. 设

{α_{1}, \dots, α_{n}}

是

V

的一个有序基, 而

A

是

T

在此有序基下的矩阵表示. 令

B = x I - A

, 这是多项式环上的矩阵. 另外, 设

f

是

T

的特征多项式, 那么我们知道

\det (B) = f

, 以及

B (adj B) = f I

. 根据

A

的定义, 我们知道

\sum_{i = 1}^{n} B_{i, j} (T) α_{i} = 0, 1 \leq j \leq n .

这里的

B_{i, j}

是一个多项式, 而应用一个多项式于线性算子是第4章所定义的操作, 其结果仍然是一个线性算子. 接着, 我们可以推出对于

k = 1, \dots, n

有

\begin{array}{rcl} 0 & = & {(adj B)}_{j, k} (T) (\sum_{i = 1}^{n} B_{i, j} (T) α_{i}) \\ = & \sum_{i = 1}^{n} {(adj B)}_{j, k} (T) B_{i, j} (T) α_{i} \\ = & \sum_{i = 1}^{n} [{(adj B)}_{j, k} B_{i, j}] (T) α_{i} \\ = & \sum_{i = 1}^{n} [B_{i, j} {(adj B)}_{j, k}] (T) α_{i} \end{array}

在

j

上求和, 我们得到

\begin{array}{rcl} 0 & = & \sum_{j = 1}^{n} \sum_{i = 1}^{n} [B_{i, j} {(adj B)}_{j, k}] (T) α_{i} \\ = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} [B_{i, j} {(adj B)}_{j, k}] (T) α_{i} \\ = & \sum_{i = 1}^{n} (\sum_{j = 1}^{n} [B_{i, j} {(adj B)}_{j, k}] (T)) α_{i} \\ = & \sum_{i = 1}^{n} (\sum_{j = 1}^{n} B_{i, j} {(adj B)}_{j, k}) (T) α_{i} \\ = & \sum_{i = 1}^{n} δ_{i, k} (\det B) (T) α_{i} \\ = & \sum_{i = 1}^{n} δ_{i, k} f (T) α_{i} \end{array}

分别令

k = 1, \dots, n

, 可得

f (T) α_{k} = 0, 1 \leq k \leq n

既然

{α_{1}, \dots, α_{n}}

是

V

的一个基, 而

f (T)

在基的每个向量上都为零, 那么

f (T)

本身肯定是一个零变换.

◻

译者注记. 以上我们补充的证明中的 $B$ 和原来的证明中的 $B$ 恰好是互为转置的关系. 读者可以看到, 这并不影响证明, 只是原本与矩阵乘法在形式上暗合的推理变成了转置了的顺序反转的版本而已. 作者的潜在想法实际上是这样的, 虽然原文只是在 $2 \times 2$ 的情况下提了一下. 对于多项式上的矩阵, 我们可以定义一个应用矩阵于线性算子的entrywise操作, 其结果是一个以线性算子为元素的矩阵, 即将多项式上的矩阵的逐个元素应用于线性算子得到的矩阵. 这个操作可以保持矩阵乘法, 即如果 $A$ 和 $B$ 是多项式上的矩阵, 而 $T$ 是一个线性算子, 那么 $(A B) (T) = A (T) B (T)$ . 这里的 $A (T) B (T)$ 纯粹是形式上的矩阵乘法, 其每个元素都是线性算子相乘再相加得到的. 虽然线性算子在一般情况下并不交换, 但在这里相乘的顺序的确没有那么重要, 因为我们知道对于多项式 $p$ 和 $q$ 有 $p (T) q (T) = q (T) p (T)$ . 除了应用多项式矩阵于线性算子和线性算子矩阵的乘法之外, 我们还需要定义应用线性算子的矩阵于向量的列矩阵的形式操作, 这点在形式上当然和矩阵乘法也是一样的, 只是乘法变成了函数应用而已. 关键的一点在于, 如果 $C$ 是这样一个向量的列矩阵, 那么 $A (T) [B (T) C] = [A (T) B (T)] C$ 这个形式上的"乘法结合律"的确也是成立的. 在定义了这些形式操作并知道这几条性质之后, 那么Cayley-Hamilton的证明的确没有什么魔法可言.

此时此刻Cayley-Hamilton定理对于我们有用主要是因为它缩小了我们寻找线性算子的极小多项式的搜索范围. 如果我们知道了在某个有序基下表示 $T$ 的矩阵 $A$ , 那么我们可以计算特征多项式 $f$ . 我们知道极小多项式 $p$ 整除 $f$ , 并且它们拥有相同的根. 不过, 除非次数很小, 没有方法可以精确计算多项式的根. 然而, 如果 $f$ 可以被分解为 $f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}, c_{1}, \dots, c_{k} 各不相同, d_{i} \geq 1$ 那么 $p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}, 1 \leq r_{j} \leq d_{j} .$ 这就是在一般情况下我们能够断言的全部事情了. 如果 $f$ 的确是这样的多项式并且其次数为 $n$ , 那么对于每个具有这种形式的多项式 $p$ , 我们可以找到一个 $n \times n$ 的矩阵满足以 $f$ 为特征多项式而 $p$ 为极小多项式. 暂时我们还不会证明这个. 但是, 我们想强调的是, 具有这种形式的特征多项式告诉我们了极小多项式所具有的形式. 至于其他内容, 则无可奉告.

例子5. 令

A

是

4 \times 4

的(有理数)矩阵

A = [\begin{matrix} 0 & 1 & 0 & 1 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 \\ 1 & 0 & 1 & 0 \end{matrix}] .

A

的幂是容易计算的:

A^{2} = [\begin{matrix} 2 & 0 & 2 & 0 \\ 0 & 2 & 0 & 2 \\ 2 & 0 & 2 & 0 \\ 0 & 2 & 0 & 2 \end{matrix}], A^{3} = [\begin{matrix} 0 & 4 & 0 & 4 \\ 4 & 0 & 4 & 0 \\ 0 & 4 & 0 & 4 \\ 4 & 0 & 4 & 0 \end{matrix}] .

因此,

A^{3} = 4 A

, 即如果

p = x^{3} - 4 x = x (x + 2) (x - 2)

, 那么

p (A) = 0

A

的极小多项式必然整除

p

. 这个极小多项式的次数显然不是

1

, 因为次数为

1

意味着

A

是恒等矩阵的标量倍数. 因此, 极小多项式的候选者为:

p, x (x + 2), x (x - 2), x^{2} - 4

. 这三个二次的多项式也很容易排除, 因为一眼就能看出

A^{2} \neq - 2 A

A^{2} \neq 2 A

A^{2} \neq 4 I

. 于是,

p

即

A

的极小多项式. 并且,

0, 2, - 2

是

A

的特征值. 特征多项式里

x, x - 2, x + 2

这三个因子之一必然要重复两次. 显然,

rank (A) = 2

. 因此, 与特征值

0

第6.4节不变子空间

本节我们将引入一些在试图分析一个线性算子时有用的概念. 我们将运用这些想法来获得基于极小多项式的对于可对角化 (和可三角化) 算子的刻画.

定义. 令

V

是一个向量空间而

T

是

V

上的一个线性算子. 如果

W

是

V

的一个子空间, 那么我们称

W

在

T

下不变, 如果对于每个向量

α \in W

有向量

T α \in W

, 即

T (W) \subseteq W

例子6. 如果

T

是

V

上任意的线性算子, 那么

V

和零子空间在

T

下不变.

T

的像和零空间也在

T

下不变.

例子7. 令

F

是一个域而

D

是多项式空间

F [x]

上的微分算子. 令

n

是正整数而

W

是次数小于等于

n

的多项式的子空间, 那么

W

在

D

下不变. 这只是另一种陈述

D

是"次数降低"的算子的方式.

例子8. 这里给出例子6的一种非常有用的泛化. 令

T

是

V

上的一个线性算子,

U

是任意的与

T

交换的线性算子, 即

T U = U T

. 令

W

是

U

的像, 而

N

是

U

的零空间, 那么

W

和

N

都在

T

下不变. 如果

α

在

U

的像中, 比如说

α = U β

, 那么

T α = T (U β) = U (T β)

, 于是

T α

也在

U

的像中. 如果

α \in N

, 那么

U (T α) = T (U α) = T (0) = 0

, 因而

T α \in N

U = g (T)

是一类与

T

交换的算子, 其中

g

是一个多项式. 例如, 我们可以有

U = T - c I

, 其中

c

是

T

的一个特征值. 这个

U

的零空间对于我们而言是熟悉的. 我们看到这个例子包含了显见的事实, 即与某个特征值

c

第6.5节同时三角化; 同时对角化

令 $V$ 是一个有限维向量空间, $𝔉$ 是 $V$ 上的一族线性算子. 我们可以问何时能够同时三角化或者对角化这些 $𝔉$ 中的线性算子, 即找到一个基 $𝔅$ 使得矩阵 ${[T]}_{𝔅}, T \in 𝔉$ 都是三角矩阵 (或者对角矩阵). 在可对角化的情形, $𝔉$ 必然是可交换算子族, 即对于所有 $T, U \in 𝔉$ , $U T = T U$ . 当然, 每个 $𝔉$ 中的算子也必然是可对角化的. 为了同时三角化, 每个 $𝔉$ 中的算子必然是可三角化的, 但是 $𝔉$ 不必是一个可交换算子族. 然而, 可交换是同时三角化的充分条件 (如果每个 $T$ 都可以被单独三角化). 这些结果只需对于定理5和定理6的证明作小的修改即可得到.

子空间 $W$ 在算子族 $𝔉$ 下不变, 如果其在 $𝔉$ 中的每个算子下不变.

引理. 令

𝔉

是

V

上一个可三角化算子的交换族. 令

W

是一个

V

的真子空间, 其在

𝔉

下不变. 存在

V

中向量

α

满足

$α \notin W$ ;
对于每个 $T \in 𝔉$ , 向量 $T α$ 在 $α$ 和 $W$ 张成的子空间之中.

证明. 不失一般性, 假定

𝔉

仅包含有限数目的算子, 这是出于以下观察. 令

{T_{1}, \dots, T_{r}}

是

𝔉

的一个极大线性无关子集, 即

𝔉

张成的子空间的一个基. 如果

α

是使得b对于每个

T_{i}

成立的向量, 那么b将对于

T_{1}, \dots, T_{r}

的每个线性组合成立.
根据定理5之前的引理 (这个引理是对于单一的算子而言的), 我们可以找到向量

β_{1} \notin W

和标量

c_{1}

满足

(T_{1} - c_{1} I) β_{1} \in W

. 令

V_{1} = {β \in V | (T_{1} - c_{1} I) β \in W}

, 那么

V_{1}

是

V

的一个子空间且以

W

为真子空间. 更进一步,

V_{1}

在

𝔉

下不变, 以下是原因. 如果

T

与

T_{1}

交换, 那么

(T_{1} - c_{1} I) (T β) = T (T_{1} - c_{1} I) β .

如果

β \in V_{1}

, 那么

(T_{1} - c_{1} I) β \in V_{1}

. 既然

W

在

𝔉

下不变, 那么对于每个

β \in V_{1}

和每个

T \in 𝔉

, 我们有

T (T_{1} - c_{1} I) β \in W

, 即

T β \in V_{1}

.
现在

W

是

V_{1}

的一个真子空间. 令

U_{2}

是由

T_{2}

限制于子空间

V_{1}

得到的线性算子.

U_{2}

的极小多项式整除

T_{2}

的极小多项式. 因此, 我们可以应用定理5之前的引理于

U_{2}

和不变子空间

W

. 我们得到了一个向量

β_{2} \in V_{1}

但是

β_{2} \notin W

和一个标量

c_{2}

满足

(T_{2} - c_{2} I) β_{2} \in W

. [译注: 实际上先是

U_{2}

, 然后变为

T_{2}

.] 注意到

$β_{2} \notin W$ ;
$(T_{1} - c_{1} I) β_{2} \in W$ ;
$(T_{2} - c_{2} I) β_{2} \in W$ .

令

V_{2} = {β \in V_{1} | (T_{2} - c_{2} I) β \in W}

, 那么

V_{2}

在

𝔉

下不变. 应用定理5之前的引理于

U_{3}

, 即限制

T_{3}

于

V_{2}

得到的算子. 不断重复施行这样的过程, 我们将抵达一个向量

α = β_{r} \notin W

满足

(T_{j} - c_{j} I) α \in W, j = 1, \dots, r

◻

定理7. 令

V

是域

F

上的一个有限维向量空间. 令

𝔉

是

V

上的一个可三角化算子的交换族. 存在

V

的一个有序基使得每个

𝔉

中的算子在这个基下都由三角矩阵表示.

证明. 考虑到刚才我们证明的引理, 这个定理的证明和定理5是一样的, 如果读者将

T

替换为

𝔉

◻

推论. 令

𝔉

是某个代数闭域

F

上的一个

n \times n

矩阵的交换族, 存在域

F

上的一个非奇异矩阵

P

使得对于每个矩阵

A \in 𝔉

P^{- 1} A P

是上三角矩阵.

定理8. 令

𝔉

是有限维向量空间

V

上的一个可对角化算子的交换族, 存在

V

的一个有序基使得每个

𝔉

中的算子在这个基下都由对角矩阵表示.

证明. 我们可以修饰定理7之前的引理, 使其适应于可对角化的情形, 以此来证明定理8. 之前在证明定理6的时候, 我们就已经这么做了, 通过修饰定理5之前的引理以使其适应于可对角化的情形. 然而, 此时通过

V

的维数上的归纳进行证明是更加容易的.
如果

\dim V = 1

, 没有需要证明的东西. 假定定理对于维数小于

n

的向量空间成立, 令

V

是一个

n

维空间. 选择任意不是恒等算子标量倍数的算子

T \in 𝔉

. [译注: 若不然, 则

𝔉

中的算子在任意的基下均可同时对角化.] 令

c_{1}, \dots, c_{k}

是

T

不同的特征值, 并令

W_{i}

是

c_{i}

所对应的特征空间. [译注:

k \geq 2

.] 固定一个下标

i

, 那么

W_{i}

在任意与

T

交换的算子下都是不变的. 令

𝔉_{i}

是限制

𝔉

中算子于(不变)子空间

W_{i}

的线性算子族. 因为限制算子的极小多项式整除本来的算子的极小多项式, 所以每个

𝔉_{i}

中的算子也都是可对角化的. 既然

\dim W_{i} < \dim V

, 根据归纳假设,

𝔉_{i}

中的算子可以被同时对角化. [译注: 这个限制算子族当然也是交换的族.] 换言之,

W_{i}

拥有一个基

𝔅_{i}

, 其包含的向量同时为每个

𝔉_{i}

中的算子的特征向量.
既然

T

是可对角化的, 定理2之前的引理告诉我们

𝔅 = (𝔅_{1}, \dots, 𝔅_{k})

是

V

的一个基. 这就是我们要找的基.

◻

练习1. 找到一个可逆的实矩阵

P

使得

P^{- 1} A P

和

P^{- 1} B P

都是对角矩阵, 其中

A

和

B

是实矩阵

$A = [\begin{matrix} 1 & 2 \\ 0 & 2 \end{matrix}], B = [\begin{matrix} 3 & - 8 \\ 0 & - 1 \end{matrix}]$
$A = [\begin{matrix} 1 & 1 \\ 1 & 1 \end{matrix}], B = [\begin{matrix} 1 & a \\ a & 1 \end{matrix}]$

练习2. 令

𝔉

是一个

3 \times 3

复矩阵的交换族.

𝔉

至多可以包含多少线性无关的矩阵?

n \times n

的情形呢?

练习3. 令

T

是

n

维空间

V

上的一个线性算子, 设

T

具有

n

个不同的特征值. 证明对于任意与

T

交换的线性算子

U

, 存在多项式

g

使得

U = g (T)

练习4. 令

A, B, C, D

是交换的

n \times n

复矩阵. 令

E

是

2 n \times 2 n

矩阵

E = [\begin{matrix} A & B \\ C & D \end{matrix}] .

证明

\det (E) = \det (A D - B C)

练习5. 令

V = F^{n \times n}

A \in V

V

上的线性算子

T_{A} (B) = A B - B A

. 考虑线性算子族

{T_{A} \in L (V, V) | A 为对角矩阵}

, 证明其可以被同时对角化.

第6.6节直和分解

当我们继续分析单一的线性算子, 我们将以稍微复杂一点的方式刻画我们的想法——基于子空间而不是矩阵. 本章之初, 我们这样描述我们的目的: 找到一个基使得线性算子的矩阵呈现特别简单的形式. 现在, 我们将我们的目的描述为: 将线性算子所在的空间分解为不变子空间的直和使得这些子空间上的限制算子是简单的.

定义. 令

W_{1}, \dots, W_{k}

是向量空间

V

的子空间. 我们称

W_{1}, \dots, W_{k}

是线性无关的, 如果

α_{1} + \dots + α_{k} = 0, α_{i} \in W_{i}

可以推出每个

α_{i} = 0

对于 $k = 2$ , $W_{1}$ 和 $W_{2}$ 线性无关当且仅当 $W_{1} \cap W_{2} = {0}$ . 如果 $k > 2$ , $W_{1}, \dots, W_{k}$ 线性无关不仅是说 $W_{1} \cap \dots \cap W_{k} = {0}$ , 实际上每个 $W_{j}$ 与其他子空间 $W_{i}$ 之交都仅是零子空间.

令 $W = W_{1} + \dots + W_{k}$ , 那么每个向量 $α \in W$ 均可被表示为和 $α = α_{1} + \dots + α_{k}, α_{i} \in W_{i} .$ 线性无关的重要性在于, 如果 $W_{1}, \dots, W_{k}$ 是线性无关的, 那么 $α$ 的这种表示是唯一的, 因为如果 $α = β_{1} + \dots + β_{k}, β_{i} \in W_{i}$ 那么 $0 = (α_{1} - β_{1}) + \dots + (α_{k} - β_{k})$ , 于是 $α_{i} - β_{i} = 0, i = 1, \dots, k$ . 因此, 当 $W_{1}, \dots, W_{k}$ 线性无关时, 我们可以将 $W$ 中的向量当作 $k$ 元组 $(α_{1}, \dots, α_{k}), α_{i} \in W_{i}$ 操作, 就像我们操作 $ℝ^{k}$ 的向量一样.

引理. 令

V

是有限维向量空间,

W_{1}, \dots, W_{k}

是

V

的子空间,

W = W_{1} + \dots + W_{k}

, 那么以下条件等价.

$W_{1}, \dots, W_{k}$ 线性无关.
对于每个 $j, 2 \leq j \leq k$ , 我们有 $W_{j} \cap (W_{1} + \dots + W_{j - 1}) = {0} .$
如果 $𝔅_{i}$ 是 $W_{i}$ 的一个有序基, 其中 $1 \leq i \leq k$ , 那么 $𝔅 = (𝔅_{1}, \dots, 𝔅_{k})$ 是 $W$ 的一个有序基.

证明. 假定a成立, 令向量

α \in W_{j} \cap (W_{1} + \dots + W_{j - 1})

, 那么存在向量

α_{1}, \dots, α_{j - 1}, α_{i} \in W_{i}

满足

α = α_{1} + \dots + α_{j - 1}

. 鉴于

α_{1} + \dots + α_{j - 1} + (- α) + 0 + \dots + 0 = 0

以及

W_{1}, \dots, W_{k}

是线性无关的, 必然有

α_{1} = α_{2} = \dots = α_{j - 1} = α = 0

.
现在我们证明b可以推出a. 假定b成立, 若a不成立, 存在不全为零的向量

α_{1}, \dots, α_{k}, α_{i} \in W_{i}

使得

0 = α_{1} + \dots + α_{k} .

令

j = \max {i \in ℕ | α_{i} \neq 0}

j

是良定义的, 那么

0 = α_{1} + \dots + α_{j}, α_{j} \neq 0

于是

α_{j} = - α_{1} - \dots - α_{j - 1}

是

W_{j} \cap (W_{1} + \dots + W_{j - 1})

中的一个非零向量, 这与条件b相矛盾.
现在我们已经知道a和b是等价的, 让我们看看为什么a等价于c. 假定a成立, 令

𝔅_{i}

是

W_{i}

的一个基, 其中

1 \leq i \leq k

, 并设

𝔅 = (𝔅_{1}, \dots, 𝔅_{k})

𝔅

中向量之间任意的线性关系都具有形式

β_{1} + \dots + β_{k} = 0

其中

β_{i}

是

𝔅_{i}

的某个线性组合. 既然

W_{1}, \dots, W_{k}

是线性无关的, 每个

β_{i}

都是

0

. 又因为每个

𝔅_{i}

都是线性无关的,

𝔅

中的向量之间的线性关系只可能是平凡的. [译注: 这段论证实际上是从定理2之前的引理以及该引理的证明那里照搬过来的.]
我们将由c推出a的证明留作练习 (练习2).

◻

若以上引理中任意的条件成立 (自然其他条件也成立), 那么我们称和 $W = W_{1} + \dots + W_{k}$ 是直的, 或者说 $W$ 是 $W_{1}, \dots, W_{k}$ 的直和, 记作 $W = W_{1} \oplus \dots \oplus W_{k} .$ 在其他文献中, 读者会发现这种和也被称为 $W_{1}, \dots, W_{k}$ 的独立和或者内直和.

例子11. 令

V

是域

F

上的一个有限维向量空间,

{α_{1}, \dots, α_{n}}

是

V

任意的基. 如果

W_{i}

是由

α_{i}

张成的一维子空间, 那么

V = W_{1} \oplus \dots \oplus W_{n}

例子12. 令

n

是一个正整数,

F

是复数域的一个子域,

V

是

F^{n \times n}

W_{1}

是所有对称矩阵构成的子空间,

W_{2}

是所有斜对称矩阵构成的子空间, 那么

V = W_{1} \oplus W_{2}

. 如果

A \in V

, 那么

A

作为

W_{1}

的向量和

W_{2}

的向量之和的唯一表达为

A = A_{1} + A_{2}, A_{1} = \frac{1}{2} (A + A^{t}), A_{2} = \frac{1}{2} (A - A^{t}) .

例子13. 令

T

是有限维向量空间

V

上任意的线性算子,

c_{1}, \dots, c_{k}

是其不同的特征值,

W_{i}

是

c_{i}

对应的特征空间, 那么

W_{1}, \dots, W_{k}

是线性无关的, 见定理2之前的引理. 特别地, 如果

T

是可对角化的, 那么

V = W_{1} \oplus \dots \oplus W_{k}

. [译注: 特征值当然有可能并不存在.]

定义. 如果

V

是一个向量空间,

V

的一个投影是

V

上一个满足

E^{2} = E

的线性算子

E

设 $E$ 是一个投影, 令 $R$ 是 $E$ 的像, $N$ 是 $E$ 的零空间.

向量 $β \in R$ 当且仅当 $E β = β$ . 若存在 $α$ 使得 $β = E α$ , 那么 $E β = E^{2} α = E α = β$ . 反过来, 如果 $β = E β$ , 那么(当然有) $β \in R$ .
$V = R \oplus N$ .
$α$ 作为 $R$ 和 $N$ 的向量之和的唯一表达为 $α = E α + (α - E α)$ .

根据1, 2, 3, 很容易看出以下事实. 如果

R

和

N

是

V

的子空间满足

V = R \oplus N

, 那么存在唯一的投影算子

E

以

R

为像且以

N

为零空间. 这个算子被称为沿着

N

到

R

上的投影.

任意的投影 $E$ 都可以被(平凡地)对角化. 如果 ${α_{1}, \dots, α_{r}}$ 是 $R$ 的一个基, ${α_{r + 1}, \dots, α_{n}}$ 是 $N$ 的一个基, 那么基 $𝔅 = {α_{1}, \dots, α_{n}}$ 可以对角化 $E$ : ${[E]}_{𝔅} = [\begin{matrix} I & 0 \\ 0 & 0 \end{matrix}]$ 其中 $I$ 是 $r \times r$ 的恒等矩阵. 这有助于解释某些和投影相关的术语. 读者应该看看平面 $ℝ^{2}$ 或者空间 $ℝ^{3}$ 里的各种例子以使得他们信服投影具有特定的几何意义.

投影可以用来刻画空间 $V$ 的直和分解. 设 $V = W_{1} \oplus \dots \oplus W_{k}$ . 对于每个 $j$ 我们可以定义一个 $V$ 上的算子 $E_{j}$ . 令 $α \in V$ , 若 $α = α_{1} + \dots + α_{k}, α_{i} \in W_{i}$ , 定义 $E_{j} α = α_{j}$ , 那么 $E_{j}$ 是良定义的法则. 容易看出 $E_{j}$ 是线性的, $E_{j}$ 的像是 $W_{j}$ , 以及 $E_{j}^{2} = E_{j}$ . $E_{j}$ 的零空间是子空间 $(W_{1} + \dots + W_{j - 1} + W_{j + 1} + \dots + W_{k}) .$ 这是因为 $E_{j} α = 0$ 的意思即 $α_{j} = 0$ , 或者说 $α$ 是除了 $W_{j}$ 之外的子空间 $W_{i}$ 的向量的和. 基于投影 $E_{j}$ , 对于每个 $α \in V$ , 我们有 $α = E_{1} α + \dots + E_{k} α .$ 这是在说 $I = E_{1} + \dots + E_{k} .$ 注意到如果 $i \neq j$ , 那么 $E_{i} E_{j} = 0$ , 因为 $E_{j}$ 的像 $W_{j}$ 包含于 $E_{i}$ 的零空间之中. 我们现在将我们的发现总结如下, 并证明其逆.

定理9. 如果

V = W_{1} \oplus \dots \oplus W_{k}

, 那么存在

V

上的

k

个线性算子

E_{1}, \dots, E_{k}

满足

每个 $E_{i}$ 都是投影, 即 $E_{i}^{2} = E_{i}$ ;
若 $i \neq j$ , 那么 $E_{i} E_{j} = 0$ ;
$I = E_{1} + \dots + E_{k}$ ;
$E_{i}$ 的像是 $W_{i}$ .

反过来, 如果

E_{1}, \dots, E_{k}

是

V

上的

k

个线性算子并且满足条件i, ii, iii, 令

W_{i}

是

E_{i}

的像, 那么

V = W_{1} \oplus \dots \oplus W_{k}

. [译注: 实际上, ii和iii可以推出i.]

证明. 我们仅需证明逆命题. 设

E_{1}, \dots, E_{k}

是

V

上满足前三个条件的线性算子, 令

W_{i}

是

E_{i}

的像, 那么定有

V = W_{1} + \dots + W_{k}

这是因为根据条件iii, 对于每个

α \in V

我们有

α = E_{1} α + \dots + E_{k} α

而

E_{i} α \in W_{i}

. 这个

α

的表达方式是唯一的, 因为若

α = α_{1} + \dots + α_{k}

而

α_{i} \in W_{i}

, 即存在

β_{i}

满足

α_{i} = E_{i} β_{i}

, 那么根据i和ii我们有

\begin{array}{rcl} E_{j} α & = & \sum_{i = 1}^{k} E_{j} α_{i} \\ = & \sum_{i = 1}^{k} E_{j} E_{i} β_{i} \\ = & E_{j}^{2} β_{j} \\ = & E_{j} β_{j} \\ = & α_{j} \end{array}

这表明

V

是

W_{i}

的直和.

◻

练习1. 令

V

是一个有限维向量空间,

W_{1}

是

V

任意的子空间, 证明存在

V

的子空间

W_{2}

满足

V = W_{1} \oplus W_{2}

练习2. 令

V

是一个有限维向量空间, 而

W_{1}, \dots, W_{k}

是满足

V = W_{1} + \dots + W_{k} 且 \dim V = \dim W_{1} + \dots + \dim W_{k}

的子空间, 证明

V = W_{1} \oplus \dots \oplus W_{k}

练习3. 寻找这样一个投影

E

, 其将

ℝ^{2}

沿着由

(1, 2)

张成的子空间投影至由

(1, - 1)

张成的子空间.

练习4. 如果

E_{1}

和

E_{2}

是投影至线性无关的子空间的算子, 那么

E_{1} + E_{2}

也是一个投影, 对还是错呢?

练习5. 如果

E

是一个投影而

f

是一个多项式, 那么

f (E) = a I + b E

. 如何以

f

的系数表示

a

和

b

练习6. 对还是错? 如果一个可对角化算子的特征值仅是

0

和

1

, 那么它是一个投影.

练习7. 证明如果

E

是沿着

N

到

R

上的投影, 那么

(I - E)

是沿着

R

到

N

上的投影.

练习8. 令

E_{1}, \dots, E_{k}

是空间

V

上满足

E_{1} + \dots + E_{k} = I

的线性算子.

证明若 $i \neq j$ 时有 $E_{i} E_{j} = 0$ , 那么对于每个 $i$ 有 $E_{i}^{2} = E_{i}$ .
在 $k = 2$ 的情形下, 证明a的逆, 即若有 $E_{1} + E_{2} = I$ 且 $E_{1}^{2} = E_{1}, E_{2}^{2} = E_{2}$ , 那么 $E_{1} E_{2} = 0$ .

练习9. 令

V

是一个实向量空间,

E

是

V

上的一个幂等线性算子, 即投影, 证明

(I + E)

是可逆的, 并找出

{(I + E)}^{- 1}

是什么.

练习10. 令

F

是复数域的一个子域 (或者一个特征为零的域),

V

是

F

上的一个有限维向量空间,

E_{1}, \dots, E_{k}

是

V

的投影并且满足

E_{1} + \dots + E_{k} = I

. 证明如果

i \neq j

, 那么

E_{i} E_{j} = 0

. (提示: 使用迹函数并问问自己投影的迹是什么.)

练习11. 令

V

是一个向量空间,

W_{1}, \dots, W_{k}

是

V

的子空间,

V_{j} = W_{1} + \dots + W_{j - 1} + W_{j + 1} + \dots + W_{k} .

设

V = W_{1} \oplus \dots \oplus W_{k}

, 证明对偶空间

V^{⁎}

拥有直和分解

V^{⁎} = V_{1}^{0} \oplus \dots \oplus V_{k}^{0}

第6.7节不变直和

我们主要对于这样的直和分解 $V = W_{1} \oplus \dots \oplus W_{k}$ 感兴趣, 其每个子空间 $W_{i}$ 都在某个给定的线性算子 $T$ 下不变. 给定这样一种对于 $V$ 的分解, $T$ 通过限制导出了每个 $W_{i}$ 上的线性算子 $T_{i}$ . $T$ 的作用方式如下. 如果 $α \in V$ , 那么我们有着唯一的分解 $α = α_{1} + \dots + α_{k}, α_{i} \in W_{i}$ 然后 $T α = T_{1} α_{1} + \dots + T_{k} α_{k} .$ 我们将这种情况描述为 $T$ 是算子 $T_{1}, \dots, T_{k}$ 的直和. 必须要记得使用此术语时 $T_{i}$ 不是 $V$ 上而是子空间 $W_{i}$ 上的线性算子. $V = W_{1} \oplus \dots \oplus W_{k}$ 的事实允许我们将每个 $α \in V$ 与唯一的一个 $k$ 元组 $(α_{1}, \dots, α_{k})$ 联系起来, 其中 $α_{i} \in W_{i}$ (通过 $α = α_{1} + \dots + α_{k}$ ), 再加上每个 $W_{i}$ 都在 $T$ 下不变, 我们可以将 $T$ 在 $V$ 上的作用视为 $T_{i}$ 于 $W_{i}$ 上的各独立作用之和. 我们寻找不变直和分解的最终目的当然还是研究 $T$ , 分解中的每个 $T_{i}$ 的性质都应该是比较简单的.

在观察例子之前, 让我们先来指出其矩阵形式的类比. 设我们为每个 $W_{i}$ 挑选了一个有序基 $𝔅_{i}$ , 那么 $𝔅 = (𝔅_{1}, \dots, 𝔅_{k})$ 是 $V$ 的一个有序基. 根据之前讨论单一不变子空间的矩阵类比的经验, 很容易看出来如果 $A = {[T]}_{𝔅}$ 且 $A_{i} = {[T_{i}]}_{𝔅_{i}}$ , 那么 $A$ 具有分块形式 $A = [\begin{matrix} A_{1} & 0 & \dots & 0 \\ 0 & A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & A_{k} \end{matrix}] .$

往往我们藉由与直和分解相关联的投影来刻画那些子空间 (定理9), 于是我们需要能够基于投影来重述不变直和.

定理10. 令

T

是空间

V

上的一个线性算子, 而

W_{1}, \dots, W_{k}

和

E_{1}, \dots, E_{k}

的情况和定理9一样, 那么每个

W_{i}

都在

T

下不变的充要条件是

T

与每个

E_{i}

交换, 即

T E_{i} = E_{i} T, i = 1, \dots, k .

证明. 设

T

与每个

E_{i}

交换. 令

α \in W_{j}

, 那么

E_{j} α = α

, 并有

\begin{array}{rcl} T α & = & T (E_{j} α) \\ = & E_{j} (T α) \end{array}

这表明

T α \in W_{j}

, 即

W_{j}

在

T

下不变.
现在假定每个

W_{i}

都在

T

下不变, 我们将证明

T E_{j} = E_{j} T

. 令

α \in V

, 那么

α = E_{1} α + \dots + E_{k} α, T α = T E_{1} α + \dots + T E_{k} α .

因为

E_{i} α \in W_{i}

, 并且

W_{i}

在

T

下不变, 于是

T (E_{i} α) \in W_{i}

, 存在向量

β_{i}

满足

T (E_{i} α) = E_{i} β_{i}

, 那么

\begin{array}{rcl} E_{j} T E_{i} α & = & E_{j} E_{i} β_{i} \\ = & {\begin{matrix} 0 & , 如果 i \neq j \\ E_{j} β_{j} & , 如果 i = j \end{matrix} \end{array}

因此

\begin{array}{rcl} E_{j} T α & = & E_{j} T E_{1} α + \dots + E_{j} T E_{k} α \\ = & E_{j} β_{j} \\ = & T E_{j} α \end{array}

这对于每个

α \in V

自然都是成立的, 所以

T E_{j} = E_{j} T

. [译注: 以

β_{i}

作为媒介实际上是不必要的, 在译者看来直接讨论更加清晰明了.]

◻

现在我们将以不变直和分解 (与 $T$ 交换的投影) 的语言刻画可对角化算子 $T$ . 这将有助于我们理解之后一些更加深刻的分解定理. 这种描述乍看上去可能比较复杂, 但是读者应该明白这是我们第一次得以瞥见一种非常有效的方法, 其可以将子空间, 基, 矩阵之类的相关问题规约为线性算子的代数计算. 在稍微熟悉之后, 这种推理方法的有效和优雅应该是显然的.

定理11. 令

T

是有限维向量空间

V

上的一个线性算子. 如果

T

是可对角化的并且

c_{1}, \dots, c_{k}

是其不同的特征值, 那么存在

V

上的线性算子

E_{1}, \dots, E_{k}

满足

$T = c_{1} E_{1} + \dots + c_{k} E_{k}$ ;
$I = E_{1} + \dots + E_{k}$ ;
若 $i \neq j$ , 则 $E_{i} E_{j} = 0$ ;
$E_{i}^{2} = E_{i}$ (即 $E_{i}$ 是投影);
$E_{i}$ 的像是与 $c_{i}$ 相关联的特征空间.

反过来, 如果存在

k

个不同的标量

c_{1}, \dots, c_{k}

和

k

个非零的线性算子

E_{1}, \dots, E_{k}

满足条件i, ii, iii, 那么

T

是可对角化的,

c_{1}, \dots, c_{k}

是

T

的不同的特征值, 并且条件iv和v也得到满足.

证明. 设

T

是可对角化的, 并以

c_{1}, \dots, c_{k}

为不同的特征值. 令

W_{i}

是与

c_{i}

相关联的特征空间. 正如我们之前所见,

V = W_{1} \oplus \dots \oplus W_{k} .

和定理9一样, 令

E_{1}, \dots, E_{k}

是与该分解对应的投影, 那么ii, iii, iv, v被满足是显然的. 为了验证i, 我们按照以下方式处理. 对于每个

α \in V

, 我们有

α = E_{1} α + \dots + E_{k} α

于是

\begin{array}{rcl} T α & = & T E_{1} α + \dots + T E_{k} α \\ = & c_{1} E_{1} α + \dots + c_{k} E_{k} α \end{array}

换言之,

T = c_{1} E_{1} + \dots + c_{k} E_{k}

.
现在设我们给定了一个以不同的标量

c_{i}

为特征值的线性算子

T

以及非零的线性算子

E_{i}

满足i, ii, iii. 既然当

i \neq j

时有

E_{i} E_{j} = 0

, 那么我们给

I = E_{1} + \dots + E_{k}

两边同乘

E_{i}

就立即得到了

E_{i}^{2} = E_{i}

. 对于

T = c_{1} E_{1} + \dots + c_{k} E_{k}

两边右乘

E_{i}

, 那么我们有

T E_{i} = c_{i} E_{i}

, 这表明了

E_{i}

的像之中的向量也在

(T - c_{i} I)

的零空间里. 因为我们已经假定

E_{i} \neq 0

, 所以

(T - c_{i} I)

的零空间中至少存在一个非零向量, 即

c_{i}

是

T

的一个特征值. 而且, 这些

c_{i}

就是

T

的全部的特征值了. 这是因为如果

c

是任意的特征值, 那么

T - c I = (c_{1} - c) E_{1} + \dots + (c_{k} - c) E_{k}

于是若

(T - c I) α = 0

, 我们必有

(c_{i} - c) E_{i} α = 0

. 如果

α

不是零向量, 那么存在某个

i

使得

E_{i} α \neq 0

, 于是对于这个

i

我们有

c_{i} - c = 0

.
当然

T

是可对角化的, 因为我们已经表明了每个

E_{i}

的像中的向量都是

T

的特征向量, 而且

I = E_{1} + \dots + E_{k}

告诉我们这些特征向量可以张成

V

. 剩下来我们需要说明的就只是

(T - c_{i} I)

的零空间恰为

E_{i}

的像. 但这是显然的, 因为如果

T α = c_{i} α

, 那么

\sum_{j = 1}^{k} (c_{j} - c_{i}) E_{j} α = 0

因此对于每个

j

有

(c_{j} - c_{i}) E_{j} α = 0

那么对于

j \neq i

都有

E_{j} α = 0

既然

α = E_{1} α + \dots + E_{k} α

并且

j \neq i

时有

E_{j} α = 0

, 我们有

α = E_{i} α

, 即

α

在

E_{i}

的像之中.

◻

定理9的一部分告诉我们, 对于一个可对角化算子 $T$ 而言, 标量 $c_{1}, \dots, c_{k}$ 和算子 $E_{1}, \dots, E_{k}$ 由条件i, ii, iii以及 $c_{i}$ 不同和 $E_{i}$ 非零的事实所唯一确定. 这种分解 $T = c_{1} E_{1} + \dots + c_{k} E_{k}$ 的一个令人愉快的特性在于如果 $g$ 是域 $F$ 上任意的多项式, 那么 $g (T) = g (c_{1}) E_{1} + \dots + g (c_{k}) E_{k} .$ 我们将证明的细节留给读者. 为了看明白其是如何得以证明的, 读者只需对于每个正整数 $r$ 计算 $T^{r}$ , 例如 $\begin{array}{rcl} T^{2} & = & (\sum_{i = 1}^{k} c_{i} E_{i}) (\sum_{j = 1}^{k} c_{j} E_{j}) \\ = & \sum_{i = 1}^{k} \sum_{j = 1}^{k} c_{i} c_{j} E_{i} E_{j} \\ = & \sum_{i = 1}^{k} c_{i}^{2} E_{i}^{2} \\ = & \sum_{i = 1}^{k} c_{i}^{2} E_{i} \end{array}$ 读者应该将这个结果与 $A$ 为对角矩阵时的 $g (A)$ 进行比较, 因为 $g (A)$ 就是以 $g (A_{1, 1}), \dots, g (A_{n, n})$ 为对角元素的对角矩阵.

我们特别想要指出当人们应用与 $c_{1}, \dots, c_{k}$ 相对应的Lagrange多项式 $p_{j} = \prod_{i \neq j}^{} \frac{(x - c_{i})}{(c_{j} - c_{i})}$ 时会发生什么. 我们有 $p_{j} (c_{i}) = δ_{i, j}$ , 这表明 $\begin{array}{rcl} p_{j} (T) & = & \sum_{i = 1}^{k} δ_{i, j} E_{i} \\ = & E_{j} \end{array}$ 因此投影 $E_{i}$ 不仅与 $T$ 交换, 还是多项式应用于 $T$ 的结果.

这样应用多项式于 $T$ 的计算可以用来给出定理6的另一个证明, 定理6基于极小多项式刻画了可对角化的条件. 这个证明完全独立于我们先前所给出的.

如果 $T$ 是可对角化的, $T = c_{1} E_{1} + \dots + c_{k} E_{k}$ , 那么对于每个多项式 $g$ 有 $g (T) = g (c_{1}) E_{1} + \dots + g (c_{k}) E_{k}$ 因此 $g (T) = 0$ 当且仅当对于每个 $i$ 有 $g (c_{i}) = 0$ . 特别地, $T$ 的极小多项式为 $p = (x - c_{1}) \dots (x - c_{k}) .$

现在设 $T$ 是以 $p = (x - c_{1}) \dots (x - c_{k})$ 为极小多项式的线性算子, 其中 $c_{1}, \dots, c_{k}$ 是标量域的不同元素. 我们构造Lagrange多项式 $p_{j} = \prod_{i \neq j}^{} \frac{(x - c_{i})}{(c_{j} - c_{i})} .$ 回忆一下第4章, $p_{j} (c_{i}) = δ_{i, j}$ 以及对于任意次数小于等于 $(k - 1)$ 的多项式, 我们有 $g = g (c_{1}) p_{1} + \dots + g (c_{k}) p_{k} .$ 取 $g$ 为标量多项式 $1$ , 然后是多项式 $x$ , 我们得到 $1 = p_{1} + \dots + p_{k}, x = c_{1} p_{1} + \dots + c_{k} p_{k} .$ (聪明的读者可能会注意到应用Lagrange插值于 $x$ 可能并不合法, 因为 $k$ 可能是 $1$ . 但是如果 $k = 1$ , $T$ 是恒等算子的一个标量倍数, 因而是可对角化的.) 现在令 $E_{j} = p_{j} (T)$ , 根据Lagrange插值我们有 $I = E_{1} + \dots + E_{k}, T = c_{1} E_{1} + \dots + c_{k} E_{k} .$ 观察到如果 $i \neq j$ , 那么 $p_{i} p_{j}$ 被极小多项式 $p$ 整除, 因为每个 $c_{r}$ 都是其根. 因此, 我们可以推出 $E_{i} E_{j} = 0, i \neq j .$ 我们还需要注意到另一个事实, 即对于每个 $i$ 有 $E_{i} \neq 0$ . 这是因为 $p$ 是 $T$ 的极小多项式, 而 $p_{i}$ 的次数小于 $p$ 的次数, 所以不可能有 $p_{i} (T) = 0$ . 现在应用定理11, 我们可以得出 $T$ 是可对角化的. [译注: 实际上, 即便没有 $E_{i} \neq 0$ , 也足够断言 $T$ 是可对角化的. 这是因为 $E_{1}, \dots, E_{k}$ 显然可以被同时对角化, 而恰恰在这个同时对角化的基下, 鉴于 $T = c_{1} E_{1} + \dots + c_{k} E_{k}$ , 直接就可以看出 $T$ 的表示矩阵是对角矩阵. 之所以定理11需要额外的条件, 那是因为定理11作出了额外的断言.]

练习1. 令

E

是一个

V

的投影,

T

是

V

上的一个线性算子. 证明

E

的像在

T

下不变当且仅当

E T E = T E

. 证明

E

的像与零空间均在

T

下不变当且仅当

E T = T E

练习2. 令

T

是

ℝ^{2}

上的线性算子, 其在标准有序基下的矩阵为

[\begin{matrix} 2 & 1 \\ 0 & 2 \end{matrix}] .

令

W_{1}

是由

ε_{1} = (1, 0)

张成的

ℝ^{2}

的子空间.

证明 $W_{1}$ 在 $T$ 下不变.
证明不存在子空间 $W_{2}$ 满足其在 $T$ 下不变且与 $W_{1}$ 互补: $ℝ^{2} = W_{1} \oplus W_{2} .$

练习3. 令

T

是有限维向量空间

V

上的一个线性算子,

R

是

T

的像,

N

是

T

的零空间, 证明

R

和

N

线性无关当且仅当

V = R \oplus N

练习4. 令

T

是有限维向量空间

V

上的一个线性算子, 设

V = W_{1} \oplus \dots \oplus W_{k}

, 其中每个

W_{i}

都在

T

下不变, 令

T_{i}

是

W_{i}

上导出的(限制)算子.

证明 $\det (T) = \det (T_{1}) \dots \det (T_{k})$ .
证明 $T$ 的特征多项式是 $T_{1}, \dots, T_{k}$ 的特征多项式之积.
证明 $T$ 的极小多项式是 $T_{1}, \dots, T_{k}$ 的极小多项式的最小公倍式. (提示: 证明并使用与矩阵直和有关的相应事实.)

练习5. 令

T

是第6.2节例子3中的线性算子, 使用Lagrange多项式将表示矩阵

A

写成

A = E_{1} + 2 E_{2}, E_{1} + E_{2} = I, E_{1} E_{2} = 0

的形式.

练习6. 令

A

是第6.3节例子5中的矩阵, 找出矩阵

E_{1}, E_{2}, E_{3}

使得

A = c_{1} E_{1} + c_{2} E_{2} + c_{3} E_{3}, E_{1} + E_{2} + E_{3} = I, E_{i} E_{j} = 0, i \neq j

练习7. 在练习5和6中, 注意到(对于每个

i

)与特征值

c_{i}

第6.8节准素分解定理

我们一直在尽力研究有限维空间 $V$ 上的线性算子 $T$ , 通过将其分解为算子的直和, 这些算子在某种意义上是简单的. 在特定的情况下, 即 $T$ 的极小多项式在标量域 $F$ 上可以被分解为不同的首项系数为一的一次多项式之积时, 我们藉由特征值和特征向量的概念就可以完成分解. 那么对于一般情况下的 $T$ , 我们该怎么做呢? 如果我们想要通过特征值来研究 $T$ , 我们将面临两个问题. 第一个问题是 $T$ 可能压根没有特征值, 这或许应该归咎于标量域, 即它不是代数闭域. 第二个问题是即便特征多项式在 $F$ 上可以被完全分解为一次多项式之积, 仍然可能没有足够的特征向量以张成 $V$ , 这显然应该归咎于 $T$ . 我们用一个例子来刻画第二种情况. 现在给定 $F^{3}$ ( $F$ 为任意的域) 上的线性算子 $T$ , 其在标准有序基下由 $A = [\begin{matrix} 2 & 0 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & - 1 \end{matrix}]$ 表示. $A$ 的特征多项式为 ${(x - 2)}^{2} (x + 1)$ , 这也是 $A$ (或者 $T$ ) 的极小多项式. 因此, $T$ 是不可对角化的. 读者可以看出来, 这种情况会发生是因为 $(T - 2 I)$ 的零空间仅是一维的. 另一方面, $(T + I)$ 的零空间和 ${(T - 2 I)}^{2}$ 的零空间一起可以张成 $V$ , 前者是由 $ε_{3}$ 张成的子空间, 后者是由 $ε_{1}$ 和 $ε_{2}$ 张成的子空间.

这或多或少将会是我们处理第二个问题的一般方法. 如果 (记住这是一个假设) $T$ 的极小多项式可以被分解为 $p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}$ 其中 $c_{1}, \dots, c_{k}$ 是 $F$ 的不同元素, 那么我们可以证明空间 $V$ 是 ${(T - c_{i} I)}^{r_{i}}, i = 1, \dots, k$ 的零空间的直和. 这关于极小多项式 $p$ 的假设等价于 $T$ 是可三角化的 (定理5). 然而, 这条知识并不会帮到我们.

我们实际将要证明的定理比起刚才所描述的要更加一般, 因为它考虑的是极小多项式的素因子分解, 不论素因子本身的次数是否为一. 读者或许会发现思考素因子均为一次的特殊情形是有用的, 甚至是思考定理6的基于投影概念的证明, 定理6是这个定理更加特殊的情形.

定理12. 准素分解定理 (Primary Decomposition Theorem). 令

T

是域

F

上的有限维向量空间

V

上的线性算子, 设

p

是

T

的极小多项式, 其分解为

p = p_{1}^{r_{1}} \dots p_{k}^{r_{k}}

其中

p_{i}

是域

F

上互异的首项系数为一的素多项式而

r_{i}

是正整数. [译注: 原文用的是irreducible而不是prime, 但是如果追究第4章的定义的细节的话, 素多项式是更加适合的, 因为素多项式被定义为非标量的不可约多项式, 虽然即便在第4章原文中作者已经开始混淆这两个概念.] 令

W_{i}

是

p_{i}^{r_{i}} (T), i = 1, \dots, k

的零空间, 那么

$V = W_{1} \oplus \dots \oplus W_{k}$ ;
每个 $W_{i}$ 都在 $T$ 下不变;
如果 $T_{i}$ 是 $T$ 在 $W_{i}$ 上由限制导出的算子, 那么 $T_{i}$ 的极小多项式为 $p_{i}^{r_{i}}$ .

证明. 证明的想法如下. 如果i的直和分解是可能的, 那么我们该如何得到与之相关的投影

E_{1}, \dots, E_{k}

呢? 投影

E_{i}

在

W_{i}

上是恒等算子, 在其他的

W_{j}

上则是零算子. 我们将寻找一个多项式

h_{i}

使得

h_{i} (T)

在

W_{i}

上是恒等算子而在其他

W_{j}

上均是零算子, 于是

h_{1} (T) + \dots + h_{k} (T) = I

, 等等.
对于每个

i

, 令

f_{i} = \frac{p}{p_{i}^{r_{i}}} = \prod_{j \neq i}^{} p_{j}^{r_{j}} .

既然

p_{1}, \dots, p_{k}

是不同的素多项式, 多项式

f_{1}, \dots, f_{k}

是互素的 (第4章的定理10). 因此, 存在多项式

g_{1}, \dots, g_{k}

满足

\sum_{i = 1}^{n} f_{i} g_{i} = 1 .

我们也注意到, 如果

i \neq j

, 那么

f_{i} f_{j}

被多项式

p

整除, 因为

f_{i} f_{j}

包含每个

p_{m}^{r_{m}}

作为因子. 我们将说明多项式

h_{i} = f_{i} g_{i}

表现得如同证明的第一段所述的那样.
令

E_{i} = h_{i} (T) = f_{i} (T) g_{i} (T)

. 既然

h_{1} + \dots + h_{k} = 1

且

p

整除

f_{i} f_{j}, i \neq j

, 我们有

E_{1} + \dots + E_{k} = I, E_{i} E_{j} = 0, i \neq j .

因此, 这些

E_{i}

是与某个

V

的直和分解相对应的投影. 我们想要证明

E_{i}

的像恰是子空间

W_{i}

. 显然

E_{i}

的像的每个向量都在

W_{i}

之中, 因为若

α

在

E_{i}

的像中, 那么

α = E_{i} α

, 于是

\begin{array}{rcl} p_{i}^{r_{i}} (T) α & = & p_{i}^{r_{i}} (T) E_{i} α \\ = & p_{i}^{r_{i}} (T) f_{i} (T) g_{i} (T) α \\ = & (p g_{i}) (T) α \\ = & 0 \end{array}

鉴于

p

是极小多项式. 反过来, 设

α

在

p_{i}^{r_{i}} (T)

的零空间之中. 如果

j \neq i

, 那么

f_{j} g_{j}

被

p_{i}^{r_{i}}

整除, 于是

(f_{j} g_{j}) (T) α = 0

, 即

E_{j} α = 0, j \neq i

. 但是, 这立刻就可以推出

E_{i} α = α

, 即

α

在

E_{i}

的像之中. 这就完成了陈述i的证明.
子空间

W_{i}

显然在

T

是不变的. [译注: 可以直接证明, 也可应用定理10.] 如果

T_{i}

是由

T

限制于

W_{i}

导出的算子, 那么显然有

p_{i}^{r_{i}} (T_{i}) = 0

, 因为根据定义,

p_{i}^{r_{i}} (T)

在子空间

W_{i}

上的值均为

0

. 这表明

T_{i}

的极小多项式整除

p_{i}^{r_{i}}

. 反过来, 令

g

是

T_{i}

的一个零化多项式, 即

g (T_{i}) = 0

, 那么

g (T) f_{i} (T) = 0

. [译注: 这里没有那么平凡, 对于

α \in W_{i}

有

g (T) α = g (T_{i}) α = 0

, 而对于

α \in W_{j}, j \neq i

, 我们知道

p_{j}^{r_{j}}

整除

f_{i}

, 所以

f_{i} (T) α = 0

, 将这两者综合, 又因为

V

是

W_{i}

的直和, 我们才得到

g f_{i}

是

T

的一个零化多项式.] 因此,

g f_{i}

被

T

的极小多项式

p

整除, 即

p_{i}^{r_{i}} f_{i}

整除

g f_{i}

. 很容易看出来

p_{i}^{r_{i}}

整除

g

. [译注: 这是因为

f_{i} \neq 0

.] 因此,

p_{i}^{r_{i}}

也整除

T_{i}

的极小多项式, 那么

T_{i}

的极小多项式就是

p_{i}^{r_{i}}

◻

推论. 如果

E_{1}, \dots, E_{k}

是与

T

的准素分解相关的投影, 那么每个

E_{i}

都是应用某个多项式于

T

的值. 因此, 如果线性算子

U

与

T

交换, 那么

U

与每个

E_{i}

交换, 即每个子空间

W_{i}

都在

U

下不变.

在定理12的证明的记号下, 让我们看看 $T$ 的极小多项式是一次多项式之积的特殊情形, 即每个 $p_{i}$ 都具有形式 $p_{i} = x - c_{i}$ . 现在 $E_{i}$ 的像是 ${(T - c_{i} I)}^{r_{i}}$ 的零空间 $W_{i}$ . 让我们置 $D = c_{1} E_{1} + \dots + c_{k} E_{k}$ . 根据定理11, $D$ 是一个可对角化算子, 我们将其称为 $T$ 的可对角化部分. 让我们看看算子 $N = T - D$ . 因为 $T = T E_{1} + \dots + T E_{k}, D = c_{1} E_{1} + \dots + c_{k} E_{k}$ 所以 $N = (T - c_{1} I) E_{1} + \dots + (T - c_{k} I) E_{k}$ 读者现在对于投影已经足够熟悉了, 可以看出 $N^{2} = {(T - c_{1} I)}^{2} E_{1} + \dots + {(T - c_{k} I)}^{2} E_{k}$ 以及在一般情况下 $N^{r} = {(T - c_{1} I)}^{r} E_{1} + \dots + {(T - c_{k} I)}^{r} E_{k}$ 当 $r$ 满足对于每个 $i$ 有 $r \geq r_{i}$ 时, 我们有 $N^{r} = 0$ , 因为算子 ${(T - c_{i} I)}^{r}$ 在 $E_{i}$ 的像上为 $0$ .

定义. 令

N

是向量空间

V

上的一个线性算子. 我们称

N

是幂零算子, 如果存在某个正整数

r

满足

N^{r} = 0

定理13. 令

T

是域

F

上的有限维向量空间

V

上的一个线性算子, 设

T

的极小多项式在

F

上被分解为线性多项式之积, 那么存在

V

上的一个可对角化算子

D

和一个幂零算子

N

满足

$T = D + N$ ;
$D N = N D$ .

可对角化算子

D

和幂零算子

N

由i和ii唯一确定, 并且它们都是某个多项式应用于

T

的结果.

证明. 我们刚才观察到我们可以将

T

写成

D + N

, 其中

D

是可对角化的而

N

是幂零算子. 并且,

D

和

N

不仅是可交换的, 它们还是应用多项式于

T

的值. 现在设

T = D^{'} + N^{'}

, 其中

D^{'}

是可对角化的,

N^{'}

是幂零的, 并且

D^{'} N^{'} = N^{'} D^{'}

. 我们将证明

D = D^{'}

和

N = N^{'}

.
既然

D^{'}

和

N^{'}

可以交换而

T = D^{'} + N^{'}

, 我们可以看出

D^{'}

和

N^{'}

与

T

也是可以交换的. 因此,

D^{'}

和

N^{'}

与任意应用多项式于

T

的结果交换. 现在我们有

D + N = D^{'} + N^{'}

或者说

D - D^{'} = N^{'} - N

并且这四个算子是互相交换的. 既然

D

和

D^{'}

都是可对角化的并且是可交换的, 它们可以被同时对角化, 于是

D - D^{'}

是可对角化的. 既然

N

和

N^{'}

都是幂零的并且是可交换的, 算子

(N^{'} - N)

也是幂零的. 这是因为, 使用

N

和

N^{'}

可以交换的事实, 可以得到

{(N^{'} - N)}^{r} = \sum_{j = 0}^{r} (\binom{r}{j}) {(N^{'})}^{r - j} {(- N)}^{j}

于是当

r

足够大时这个

{(N^{'} - N)}^{r}

的表达式中的每一项都是

0

. (实际上,

n

维空间上的幂零算子的

n

次幂必然为

0

. 如果我们以上取

r = 2 n

, 那肯定是足够大了. 当然接着可以知道

r = n

已经足够大了, 但是这不能直接从上面的表达式看出来.) 现在我们知道可对角化算子

D - D^{'}

也是幂零算子. 这样一个算子显然是零算子, 以下是论证. 作为幂零算子, 其极小多项式显然具有

x^{r}

的形式. [译注: 根据定义, 存在正整数

m

满足

N^{m} = 0

, 鉴于极小多项式整除零化多项式

x^{m}

, 因而对于某个

r \leq m

有极小多项式

p = x^{r}

.] 但是既然它也是可对角化的, 极小多项式不可能有重复的根. 因此

r = 1

, 或者说极小多项式就是

x

, 即

D - D^{'} = 0

. [译注: 在一般情况下, 极小多项式的次数大于等于一, 除非是零维向量空间上的算子, 但是本书除了第2章提及了这种可能性之外 (那里说仅包含零向量的平凡空间的维数要么不定义, 要么就定义为零), 其余地方提及有限维向量空间时都排除了零维的情况. 基本上所有结果包含零维的情况仍然成立, 只是许多证明需要打上补丁.] 于是, 我们可以看出

D = D^{'}

和

N = N^{'}

◻

推论. 令

V

是某个代数闭域 (例如复数域) 上的有限维向量空间, 那么

V

上的每个线性算子

T

都可以写成交换的可对角化算子

D

和幂零算子

N

之和.

D

和

N

是唯一确定的, 并且每个都是应用多项式于

T

的结果.

从以上这些结果来看, 读者应该明白对于代数闭域上的向量空间上的线性算子的研究基本上可以归结为对于幂零算子的研究. 对于非代数闭域上的向量空间而言, 我们仍然需要寻找特征值和特征向量的某种替代物. 有趣的是, 这两个问题可以被同时处理, 而这就是我们在下一章所要做的事情.

为了给本节作结, 我们想要举一个例子, 它刻画了准素分解定理的某些想法. 之所以我们选择把它放在本节的最后, 是因为它处理微分方程, 并不是纯粹的线性代数.

例子14. 在准素分解定理中, 向量空间

V

是有限维的是不必要的条件. 另外, 对于i和ii而言,

p

是

T

的极小多项式也是不必要的. 如果

T

是任意向量空间上的线性算子, 如果存在一个首项系数为一的多项式

p

满足

p (T) = 0

, 那么定理12的i和ii在我们之前给出的证明下对于

T

也是成立的. [译注: 注意到定理9并不局限于有限维的情形.]
令

n

是一个正整数, 令

V

是满足微分方程

\frac{d^{n} f}{d t^{n}} + a_{n - 1} \frac{d^{n - 1} f}{d t^{n - 1}} + \dots + a_{1} \frac{d f}{d t} + a_{0} f = 0

的所有实轴上的

n

次连续可微函数

f

构成的空间, 其中

a_{0}, \dots, a_{n - 1}

是一些固定的常数. 如果用

C^{n}

表示

n

次连续可微函数构成的空间, 那么作为这个微分方程的解空间的

V

是

C^{n}

的子空间. 如果

D

代表微分算子而

p

是多项式

p = x^{n} + a_{n - 1} x^{n - 1} + \dots + a_{1} x + a_{0}

那么

V

是算子

p (D)

的零空间, 因为这个微分方程就是在说

p (D) f = 0

. 因此,

V

在

D

下不变. 现在让我们将

D

视为子空间

V

上的一个线性算子, 那么

p (D) = 0

.
如果我们讨论的是复值可微函数, 那么

C^{n}

和

V

是复向量空间而

a_{0}, \dots, a_{n - 1}

可以是任意的复数. 现在我们将

p

写成

p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}

其中

c_{1}, \dots, c_{k}

是不同的复数. 如果

W_{j}

是

{(D - c_{j} I)}^{r_{j}}

的零空间, 那么定理12告诉我们

V = W_{1} \oplus \dots \oplus W_{k} .

换言之, 如果

f

满足这个微分方程, 那么

f

可以被唯一地表示为

f = f_{1} + \dots + f_{k}

的形式, 其中

f_{j}

满足微分方程

{(D - c_{j} I)}^{r_{j}} f_{j} = 0

. 因此, 对于这个大的微分方程的解的研究可以被规约为对于具有形式

{(D - c I)}^{r} f = 0

的小的微分方程的解空间的研究. 这种规约是藉由线性代数的一般方法实现的, 即准素分解定理.
为了刻画这个小的微分方程的解空间, 我们必须要了解一些关于微分方程的知识. 也就是说, 除了

D

是线性算子的事实之外, 我们必须还要了解一些关于

D

的其他性质. 然而, 实际上并不需要太多. 很容易对于

r

进行归纳得到如果

f \in C^{r}

, 那么

{(D - c I)}^{r} f = e^{c t} D^{r} (e^{- c t} f)

也就是说,

\frac{d f}{d t} - c f (t) = e^{c t} \frac{d}{d t} (e^{- c t} f), 等等.

因此,

{(D - c I)}^{r} f = 0

当且仅当

D^{r} (e^{- c t} f) = 0

. 一个满足

D^{r} (g) = 0

的函数

g

, 即

d^{r} g / d t^{r} = 0

, 必然是一个次数小于等于

(r - 1)

的多项式函数 [译注: 严格说来, 次数是定义在多项式而非多项式函数上的, 但是这里的意思应该是明了的, 即由次数小于等于

(r - 1)

的多项式导出的函数, 并且在这种意义下次数对于这里的多项式函数是良定的]:

g (t) = b_{0} + b_{1} t + \dots + b_{r - 1} t^{r - 1} .

于是,

{(D - c I)}^{r} f = 0

当且仅当

f

具有形式

f (t) = e^{c t} (b_{0} + b_{1} t + \dots + b_{r - 1} t^{r - 1}) .

据此, "函数"

e^{c t}, t e^{c t}, \dots, t^{r - 1} e^{c t}

可以张成这个小的微分方程的解空间. 鉴于

1, t, \dots, t^{r - 1}

是线性无关的函数并且指数函数 (exponential function) 没有零点, 这

r

个函数

t^{j} e^{c t}, 0 \leq j \leq r - 1

构成了解空间的一个基.
回到本来的微分方程上去, 即

p (D) f = 0, p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}

我们可以看到

t^{m} e^{c_{j} t}, 0 \leq m \leq r_{j} - 1, 1 \leq j \leq k

构成了解空间的一个基. 特别地, 解空间是有限维的, 其维数等于多项式

p

的次数.

译者注记. 以上的例子中的推理过程存在不甚严格的步骤, 即微分算子 $D$ 并非严格意义上的 $C^{n}$ 上的线性算子, 因为 $n$ 次连续可微函数的导数并不一定仍然是 $n$ 次连续可微的. 因此, 鉴于 $p (D)$ 和 $D$ 交换, 所以 $p (D)$ 的零空间在 $D$ 下不变这样的推理也不能称得上令人满意. 当然, 如果将我们所考虑的函数类限制于无穷可微的 $C^{\infty}$ 的情形, 上述的推理倒是相当严密, 结果也没有改变.

练习1. 令

T

是

ℝ^{3}

上的一个线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 6 & - 3 & - 2 \\ 4 & - 1 & - 2 \\ 10 & - 5 & - 3 \end{matrix}]

表示. 将

T

的极小多项式

p

表示为

p = p_{1} p_{2}

的形式, 其中

p_{1}

和

p_{2}

是实数域上首项系数为一的素多项式. 令

W_{i}

是

p_{i} (T)

的零空间, 找出

W_{1}

和

W_{2}

各自的一个基

𝔅_{i}

. 如果

T_{i}

是

T

在

W_{i}

上由限制导出的算子, 求出

T_{i}

在基

𝔅_{i}

下的矩阵.

练习2. 令

T

是

ℝ^{3}

上的一个线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 3 & 1 & - 1 \\ 2 & 2 & - 1 \\ 2 & 2 & 0 \end{matrix}]

表示. 证明

ℝ^{3}

上存在可对角化算子

D

和幂零算子

N

满足

T = D + N

且

D N = N D

. 找出

D

和

N

在标准基下的矩阵. (只需要对于这个特殊情形重复定理12的证明就够了.)

练习3. 如果

V

是域

F

上所有次数小于等于

n

的多项式构成的向量空间, 证明

V

上的微分算子是幂零的.

练习4. 令

T

是有限维向量空间

V

上的一个线性算子, 其特征多项式为

f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

而极小多项式为

p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}} .

令

W_{i}

是

{(T - c_{i} I)}^{r_{i}}

的零空间.

证明 $W_{i}$ 是集合 ${α \in V | 存在正整数 m 满足 {(T - c_{i} I)}^{m} α = 0}$ ( $m$ 可以依赖于 $α$ ).
证明 $W_{i}$ 的维数是 $d_{i}$ . (提示: 如果 $T_{i}$ 是 $T$ 于 $W_{i}$ 上通过限制导出的算子, 那么 $T_{i} - c_{i} I$ 是幂零的; 因而 $T_{i} - c_{i} I$ 的特征多项式必然是 $x^{e_{i}}$ , 其中 $e_{i}$ 是 $W_{i}$ 的维数 (证明?); 于是 $T_{i}$ 的特征多项式为 ${(x - c_{i})}^{e_{i}}$ ; 现在使用 $T$ 的特征多项式是 $T_{i}$ 的特征多项式之积的事实来说明 $e_{i} = d_{i}$ .)

练习5. 令

V

是复数域上的一个有限维向量空间. 令

T

是

V

上的一个线性算子,

D

是

T

的可对角化部分. 证明如果

g

是复数域上任意的多项式, 那么

g (T)

的可对角化部分是

g (D)

练习6. 令

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子且

rank (T) = 1

. 证明

T

要么是可对角化的, 要么是幂零的, 但不可兼任.

练习7. 令

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子. 设

T

与

V

上的每个可对角化算子交换, 证明

T

是恒等算子的标量倍数.

练习8. 令

V

是域

F

上的

n \times n

矩阵的空间,

A

是域

F

上一个固定的

n \times n

矩阵. 我们定义

V

上的线性算子

T_{A} (B) = A B - B A

. 证明如果

A

是一个幂零矩阵, 那么

T_{A}

是一个幂零算子. [译注: 参照幂零算子的定义, 可以定义幂零矩阵.]

练习9. 给出这样的一个例子, 两个

4 \times 4

的幂零矩阵具有相同的极小多项式 (它们的特征多项式必然也是相同的), 但是并不相似.

练习10. 令

T

是有限维向量空间

V

上的一个线性算子,

p = p_{1}^{r_{1}} \dots p_{k}^{r_{k}}

是

T

的极小多项式,

V = W_{1} \oplus \dots \oplus W_{k}

是

T

的准素分解, 即

W_{i}

是

p_{i}^{r_{i}} (T)

的零空间,

W

是

V

任意的在

T

下不变的子空间, 证明

W = (W \cap W_{1}) \oplus (W \cap W_{2}) \oplus \dots \oplus (W \cap W_{k}) .

练习11. 以下对于定理13的证明有何问题? 设

T

的极小多项式是线性因子之积. 那么, 根据定理5,

T

是可三角化的. 令

𝔅

是一个使得

A = {[T]}_{𝔅}

为上三角矩阵的有序基. 令

D

是以

A_{1, 1}, \dots, A_{n, n}

为对角线元素的对角矩阵, 那么

A = D + N

, 其中

N

是一个严格上三角矩阵. 显然

N

是幂零的. [译注: 严格上三角矩阵指的是对角线元素均为零的上三角矩阵.]

练习12. 如果你已经思考过了练习11, 在你观察到定理7告诉你的关于

T

的可对角化部分和幂零部分的东西之后, 再次思考这个练习.

练习13. 令

T

是

V

上的一个线性算子, 它的极小多项式具有

p^{n}

的形式, 其中

p

在标量域上是不可约的. 证明存在

α \in V

使得

α

的

T

零化子为

p^{n}

练习14. 使用准素分解定理和练习13的结果证明以下结论. 如果

T

是有限维向量空间

V

上任意的线性算子, 那么存在

α \in V

使得

α

的

T

零化子等于

T

的极小多项式.

练习15. 如果

N

是

n

维向量空间

V

上的一个幂零线性算子, 那么

N

的特征多项式为

x^{n}

第7章有理形式和Jordan形式

第7.1节循环子空间和零化子

又一次, $V$ 是域 $F$ 上的一个有限维向量空间, 而 $T$ 是 $V$ 上一个固定的 (但也是任意的) 线性算子. 如果 $α$ 是 $V$ 的任意一个向量, 那么存在一个最小的包含 $α$ 且在 $T$ 下不变的 $V$ 的子空间. 这个子空间可以被定义为所有包含 $α$ 的 $T$ 不变子空间之交. 然而, 现在对我们来说按照以下方式看待它是更有优势的. 如果 $W$ 是任意的包含 $α$ 且在 $T$ 下不变的 $V$ 的子空间, 那么 $W$ 也必然包含向量 $T α$ . 因此, $W$ 还必然包含 $T (T α) = T^{2} α$ , $T (T^{2} α) = T^{3} α$ , 等等. 换言之, 对于每个域 $F$ 上的多项式 $g$ , 必然有 $g (T) α \in W$ . 集合 ${g (T) α | g \in F [x]}$ 显然在 $T$ 下不变, 因而是包含 $α$ 的最小 $T$ 不变子空间.

定义. 若

α \in V

, 由 $α$ 生成的 $T$ 循环子空间是

Z (α; T) = {g (T) α | g \in F [x]}

. 如果

Z (α; T) = V

, 那么

α

被称为

T

的一个循环向量.

另一种描述子空间 $Z (α; T)$ 的方式为 $Z (α; T)$ 是由向量 $T^{k} α, k \geq 0$ 张成的子空间, 因而 $α$ 是 $T$ 的循环向量当且仅当这些向量可以张成 $V$ . 我们提醒读者, 一般的线性算子 $T$ 可能没有循环向量.

例子1. 对于任意的

T

, 由零向量生成的

T

循环子空间是零子空间. 空间

Z (α; T)

是一维的当且仅当

α

是

T

的特征向量. [译注: 尽管在上一章定义特征向量时没有排除零向量, 但是从现在开始本书所称特征向量均不包括零向量, 这也与其他文本保持一致.] 对于恒等算子而言, 每个非零向量都生成了一维的循环子空间. 因此, 若

\dim V > 1

, 恒等算子没有循环向量. 一个具有循环向量的线性算子的例子是

F^{2}

上在标准有序基下由矩阵

[\begin{matrix} 0 & 0 \\ 1 & 0 \end{matrix}]

表示的线性算子

T

. 这里的一个循环向量是

ε_{1}

, 因为若

β = (a, b)

, 以

g = a + b x

我们有

β = g (T) ε_{1}

. 对于相同的算子

T

, 由

ε_{2}

生成的循环子空间是一维的, 因为

ε_{2}

是

T

的特征向量.

对于任意的 $T$ 和 $α$ , 我们所感兴趣的是向量 $T^{j} α$ 之间的线性关系 $c_{0} α + c_{1} T α + \dots + c_{k} T^{k} α = 0$ 即我们所感兴趣的是具有性质 $g (T) α = 0$ 的多项式 $g = c_{0} + c_{1} x + \dots + c_{k} x^{k}$ . 集合 ${g \in F [x] | g (T) α = 0}$ 显然是 $F [x]$ 中的一个理想. 并且, 它也是一个非零理想, 因为它包含 $T$ 的极小多项式.

定义. 如果

α \in V

α

的

T

零化子是

F [x]

中的理想

M (α; T) = {g \in F [x] | g (T) α = 0}

, 其唯一的首项系数为一的生成元

p_{α}

也被称为

α

的

T

零化子. [译注: 这个定义在第6.4节{不变子空间}已经给出过了.]

正如我们所指出的, $T$ 零化子 $p_{α}$ 整除算子 $T$ 的极小多项式. 读者也应该注意到除非 $α$ 是零向量, $\deg p_{α} > 0$ .

定理1. 令

α

是

V

中的非零向量,

p_{α}

是

α

的

T

零化子.

$p_{α}$ 的次数等于循环子空间 $Z (α; T)$ 的维数.
如果 $p_{α}$ 的次数为 $k$ , 那么向量 $α, T α, T^{2} α, \dots, T^{k - 1} α$ 构成了 $Z (α; T)$ 的一个基.
如果 $U$ 是由 $T$ 于 $Z (α; T)$ 上的限制导出的线性算子, 那么 $U$ 的极小多项式为 $p_{α}$ .

证明. 令

g

是域

F

上任意的多项式, 作带余除法

g = p_{α} q + r

其中

r = 0

或

\deg r < \deg p_{α} = k

. 鉴于

p_{α} q \in M (α; T)

, 于是

g (T) α = r (T) α .

既然

r = 0

或

\deg r < k

, 向量

r (T) α

是向量

α, T α, \dots, T^{k - 1} α

的线性组合. 换言之, 这

k

个向量可以张成

Z (α; T)

. 它们当然也是线性无关的, 因为若这些向量之间存在非平凡的线性关系, 那么其可以导出一个非零的多项式

g

满足

g (T) α = 0

且

\deg g < \deg p_{α}

, 但这是不可能的. 现在我们已经证明了i和ii.
令

U

是

T

于

Z (α; T)

的限制. 如果

g \in F [x]

, 那么

\begin{array}{rcl} p_{α} (U) g (T) α & = & p_{α} (T) g (T) α \\ = & g (T) p_{α} (T) α \\ = & g (T) 0 \\ = & 0 \end{array}

因此, 算子

p_{α} (U)

将每个

Z (α; T)

的向量都送至

0

, 即

Z (α; T)

上的零算子. 并且, 如果

h

是一个次数小于

k

的多项式, 那么我们不可能有

h (U) = 0

, 不然的话

h (U) α = h (T) α = 0

, 但这与

p_{α}

的定义矛盾. [译注: 此即若

h

零化

U

, 则

p_{α}

整除

h

. 换句话说, 就是

p_{α}

的确生成了零化

U

的理想.] 这表明

p_{α}

是

U

的极小多项式.

◻

译者注记. 实际上, 定理1对于

α = 0

也成立, 此时

p_{α} = 1

\deg p_{α} = 0

Z (α; T) = {0}

\dim Z (α; T) = 0

\emptyset

是

Z (α; T)

的基,

Z (α; T)

上导出的算子即零向量空间上的平凡线性算子, 其零化多项式构成的理想就是整个

F [x]

, 所以极小多项式是

1

, 也就是

p_{α}

该定理的一个特别推论如下: 如果 $α$ 碰巧是 $T$ 的一个循环向量, 那么 $T$ 的极小多项式的次数必然等于空间 $V$ 的维数. 因此, Cayley-Hamilton定理告诉我们 $T$ 的极小多项式就是 $T$ 的特征多项式. 之后我们将证明对于任意的 $T$ , 存在向量 $α \in V$ 使得其 $T$ 零化子是 $T$ 的极小多项式. 然后, 这可以推出 $T$ 具有循环向量当且仅当 $T$ 的极小多项式和特征多项式是相同的. 但是, 还需要一些工作我们才能抵达这一步.

我们的计划是利用具有循环向量的算子研究一般的 $T$ . 因此, 让我们检视 $k$ 维空间 $W$ 上的一个具有循环向量 $α$ 的算子 $U$ . 根据定理1, 向量 $α, \dots, U^{k - 1} α$ 构成了空间 $W$ 的一个基, 并且 $α$ 的零化子 $p_{α}$ 是 $U$ 的极小多项式 (因而也是 $U$ 的特征多项式). 如果我们令 $α_{i} = U^{i - 1} α, i = 1, \dots, k$ , 那么 $U$ 于有序基 $𝔅 = {α_{1}, \dots, α_{k}}$ 上的作用为 $\begin{array}{l} U α_{i} = α_{i + 1}, i = 1, \dots, k - 1 \\ U α_{k} = - c_{0} α_{1} - c_{1} α_{2} - \dots - c_{k - 1} α_{k} \end{array}$ 其中 $p_{α} = c_{0} + c_{1} x + \dots + c_{k - 1} x^{k - 1} + x^{k}$ . $U α_{k}$ 的表达式是由 $p_{α} (U) α = 0$ 的事实推得的, 即 $U^{k} α + c_{k - 1} U^{k - 1} α + \dots + c_{1} U α + c_{0} α = 0 .$ 这表明 $U$ 在有序基 $𝔅$ 下的矩阵为 $[\begin{matrix} 0 & 0 & 0 & \dots & 0 & - c_{0} \\ 1 & 0 & 0 & \dots & 0 & - c_{1} \\ 0 & 1 & 0 & \dots & 0 & - c_{2} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & 1 & - c_{k - 1} \end{matrix}] .$ 这个矩阵被称为首项系数为一的多项式 $p_{α}$ 的同伴矩阵 (companion matrix). [译注: 读者应该将同伴矩阵的概念视为多项式上的一个映射.]

定理2. 如果

U

是有限维向量空间

W

上的一个线性算子, 那么

U

拥有循环向量当且仅当存在

W

的一个有序基使得

U

在其下以

U

的极小多项式的同伴矩阵表示.

证明. 我们刚才已经观察到若

U

拥有循环向量, 那么的确存在这样一个基. 反过来说, 如果我们有

W

的一个有序基

{α_{1}, \dots, α_{k}}

使得

U

在其下由

U

的极小多项式的同伴矩阵表示, 那么显然

α_{1}

是

U

的一个循环向量.

◻

推论. 如果

A

是一个首项系数为一的多项式

p

的同伴矩阵, 那么

p

既是

A

的极小多项式, 也是

A

的特征多项式.

证明. 一种方法是令

U

为

F^{k}

上在标准有序基下由

A

表示的线性算子, 然后应用定理1和Cayley-Hamilton定理. 另一种方法是使用定理1看出

p

是

A

的极小多项式, 并通过直接的计算验证

p

是

A

的特征多项式.

◻

译者注记. 证明的要点在于意识到

ε_{1}

的

U

零化子

p_{ε_{1}}

(根据定理1, 其等于

A

的极小多项式) 何以等于

p

. 答案是, 根据直接的计算, 可以知道

p (U) ε_{1} = 0

, 因而

p_{ε_{1}}

整除

p

, 但是它们次数相等且首项系数都为一, 所以

p = p_{ε_{1}}

以下是本节最后的注记. 如果 $T$ 是空间 $V$ 上任意的线性算子, $α$ 是 $V$ 中任意的向量, 那么 $T$ 于循环子空间 $Z (α; T)$ 上的限制算子 $U$ 具有一个循环向量, 即 $α$ . 因此, $Z (α; T)$ 拥有一个有序基, $U$ 在其下以 $p_{α}$ 的同伴矩阵表示, $p_{α}$ 即 $α$ 的 $T$ 零化子. [译注: 当然, $p_{α}$ 也是 $U$ 的极小多项式.]

练习1. 令

T

是

F^{2}

上的一个线性算子. 证明对于向量

α

, 若

α

非零且

α

不是

T

的特征向量, 那么

α

是

T

的一个循环向量. 据此, 证明要么

T

拥有循环向量, 要么

T

是恒等算子的标量倍数.

练习2. 令

T

是

ℝ^{3}

上的线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & - 1 \end{matrix}]

表示. 证明

T

没有循环向量. 由向量

(1, - 1, 3)

生成的

T

循环子空间是什么?

练习3. 令

T

是

ℂ^{3}

上的线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 1 & i & 0 \\ - 1 & 2 & - i \\ 0 & 1 & 1 \end{matrix}]

表示. 找出向量

(1, 0, 0)

的

T

零化子. 找出

(1, 0, i)

的

T

零化子.

练习4. 证明如果

T^{2}

拥有循环向量, 那么

T

拥有循环向量. 反过来正确吗?

练习5. 令

V

是域

F

上的一个

n

维向量空间,

N

是

V

上的一个幂零线性算子. 设

N^{n - 1} \neq 0

, 令

α \in V

是满足

N^{n - 1} α \neq 0

的一个向量. 证明

α

是

N

的一个循环向量.

N

在有序基

{α, N α, \dots, N^{n - 1} α}

的矩阵是什么?

练习6. 给出以下事实的一个直接证明. 如果

A

是首项系数为一的多项式

p

的同伴矩阵, 那么

p

是

A

的特征多项式.

练习7. 令

V

是一个

n

维向量空间,

T

是

V

上的一个线性算子. 设

T

是可对角化的.

如果 $T$ 拥有循环向量, 证明 $T$ 拥有 $n$ 个不同的特征值.
如果 $T$ 拥有 $n$ 个不同的特征值, 并且 ${α_{1}, \dots, α_{k}}$ 是由 $T$ 的特征向量构成的一个基, 证明 $α = α_{1} + \dots + α_{k}$ 是 $T$ 的一个循环向量.

练习8. 令

T

是有限维向量空间

V

上的一个线性算子. 设

T

拥有循环向量. 证明如果

U

是任意与

T

交换的线性算子, 那么

U

是应用某个多项式于

T

的结果.

第7.2节循环分解和有理形式

本节的主要目的在于证明如果 $T$ 是有限维向量空间 $V$ 上任意的线性算子, 那么存在向量 $α_{1}, \dots, α_{r} \in V$ 满足 $V = Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T) .$ 换言之, 我们希望证明 $V$ 是一个 $T$ 循环子空间的直和. 这将表明 $T$ 是有限数目的线性算子的直和, 其中每个都拥有循环向量. 其效用在于将关于一般线性算子的诸多问题规约为关于拥有循环向量的算子的类似问题. 我们将证明的定理3是线性代数中最为深刻的结果之一, 并且拥有许多有趣的推论.

循环分解定理与以下问题紧密关联. 对于什么样的 $T$ 不变子空间 $W$ 而言, 存在另一个 $T$ 不变子空间 $W^{'}$ 满足 $V = W \oplus W^{'}$ . 如果 $W$ 是有限维向量空间 $V$ 的任意一个子空间, 那么存在一个子空间 $W^{'}$ 满足 $V = W \oplus W^{'}$ . 通常来说存在许多这样的子空间 $W^{'}$ , 其中每个都被称为与 $W^{'}$ 互补. 我们问的是何时一个 $T$ 不变子空间拥有一个与之互补的 $T$ 不变子空间.

让我们设 $V = W \oplus W^{'}$ , 其中 $W$ 和 $W^{'}$ 都在 $T$ 下不变, 然后看看我们可以发现什么关于子空间 $W$ 的性质. 每个向量 $β \in V$ 都具有 $β = γ + γ^{'}$ 的形式, 其中 $γ \in W$ 而 $γ^{'} \in W^{'}$ . 如果 $f$ 是标量域上任意的多项式, 那么 $f (T) β = f (T) γ + f (T) γ^{'} .$ 既然 $W$ 和 $W^{'}$ 都是 $T$ 不变的, 向量 $f (T) γ \in W$ 且 $f (T) γ^{'} \in W^{'}$ . 因此, $f (T) β \in W$ 当且仅当 $f (T) γ^{'} = 0$ . 我们所感兴趣的正是这看似单纯的事实, 即如果 $f (T) β \in W$ , 那么 $f (T) β = f (T) γ$ .

定义. 令

T

是向量空间

V

上的线性算子,

W

是

V

的一个子空间. 我们称

W

是

T

可容许的 (

T

-admissible), 如果

$W$ 在 $T$ 下不变;
若 $f (T) β \in W$ , 则存在向量 $γ \in W$ 满足 $f (T) β = f (T) γ$ .

[译注: admissible暂无通行翻译, 译者将其定为"可容许的".]

刚才我们已经表明了, 如果 $W$ 是不变的且有一个互补的不变子空间, 那么 $W$ 是可容许的. 定理3的一个推论是其逆, 于是可容许性刻画了那些拥有互补不变子空间的不变子空间.

让我们指出在获得分解 $V = Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T)$ 的尝试里可容许性质的概念是如何牵涉其中的. 我们抵达这样一种分解的基本方法是归纳地挑选向量 $α_{1}, \dots, α_{r}$ . 设根据某种过程我们已经挑选了向量 $α_{1}, \dots, α_{j}$ , 并且子空间 $W_{j} = Z (α_{1}; T) + \dots + Z (α_{j}; T)$ 是真子空间. 我们想要找到一个非零向量 $α_{j + 1}$ 满足 $W_{j} \cap Z (α_{j + 1}; T) = {0}$ 因为这样的话子空间 $W_{j + 1} = W_{j} \oplus Z (α_{j + 1}; T)$ 就离穷尽 $V$ 更进至少一维. 但是, 这样的 $α_{j + 1}$ 何以存在呢? 如果 $α_{1}, \dots, α_{j}$ 的挑选使得 $W_{j}$ 是一个 $T$ 可容许子空间, 那么很容易看出来我们可以找到一个合适的 $α_{j + 1}$ . 这是使得我们对于定理3的证明成立之所在, 即便这并非我们组织论证的方式.

令 $W$ 是一个 $T$ 不变的真子空间. 让我们试着寻找一个非零的向量 $α$ 满足 $W \cap Z (α; T) = {0} .$ 我们可以选择某个向量 $β \notin W$ , 考虑 $T$ 导子 $S (β; W)$ , 其由所有满足 $g (T) β \in W$ 的多项式 $g$ 构成. 回忆一下, 生成理想 $S (β; W)$ 的唯一的首项系数为一的多项式 $f = s (β; W)$ 也被称为从 $β$ 到 $W$ 的 $T$ 导子. 向量 $f (T) β$ 在 $W$ 之中. 现在, 如果 $W$ 是 $T$ 可容许的, 那么存在 $γ \in W$ 满足 $f (T) β = f (T) γ$ . 令 $α = β - γ$ , $g$ 是任意的多项式. 既然 $(β - α) \in W$ , $g (T) β \in W$ 当且仅当 $g (T) α \in W$ . 换言之, $S (α; W) = S (β; W)$ . 因此, 多项式 $f$ 也是从 $α$ 到 $W$ 的 $T$ 导子. 但是 $f (T) α = 0$ , 这告诉我们 $g (T) α \in W$ 当且仅当 $g (T) α = 0$ , 即子空间 $Z (α; T)$ 和 $W$ 是线性无关的, 并且 $f$ 是 $α$ 的 $T$ 零化子.

定理3. 循环分解定理. 令

T

是有限维向量空间

V

上的一个线性算子,

W_{0}

是一个

T

可容许的

V

的真子空间, 存在非零向量

α_{1}, \dots, α_{r} \in V

满足

$V = W_{0} \oplus Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T)$ ;
$p_{k}$ 整除 $p_{k - 1}$ , 其中 $k = 2, \dots, r$ 而 $p_{i}$ 是 $α_{i}$ 的 $T$ 零化子.

而且, 整数

r

和零化子

p_{1}, \dots, p_{r}

由i, ii以及

α_{i} \neq 0

的事实唯一确定.

证明. 证明相当冗长, 故我们将其分为四个步骤. 似乎初读证明时取

W_{0} = {0}

会比较容易, 尽管这并不会带来任何实质性的简化. 贯穿整个证明, 我们都将

f (T) β

缩略为

f β

第1步. 存在非零向量 $β_{1}, \dots, β_{r} \in V$ 满足

$V = W_{0} + Z (β_{1}; T) + \dots + Z (β_{r}; T)$ ;
如果 $1 \leq k \leq r$ 并且 $W_{k} = W_{0} + Z (β_{1}; T) + \dots + Z (β_{k}; T)$ 那么导子 $p_{k} = s (β_{k}; W_{k - 1})$ 在所有到子空间 $W_{k - 1}$ 的 $T$ 导子中拥有最大的次数, 即对于每个 $k$ 有 $\deg p_{k} = \max_{α \in V} \deg s (α; W_{k - 1}) .$

这一步只依赖于

W_{0}

是不变子空间的事实. 如果

W

是一个

T

不变的真子空间, 那么

0 < \max_{α \in V} \deg s (α; W) \leq \dim V

我们可以选择一个向量

β

使得

\deg s (β; W)

取得最大值, 然后子空间

W + Z (β; T)

是

T

不变的且维数大于

\dim W

. [译注: Cayley-Hamilton定理告诉我们特征多项式是一个零化多项式, 于是

s (α; W)

整除特征多项式, 因而有

\deg s (α; W) \leq \dim V

, 那么我们可以明白最大值是良定的且

\max_{α \in V} \deg s (α; W) \leq \dim V

. 考虑到

W

是真子空间, 若

α \notin W

, 那么

\deg s (α; W) > 0

, 由此可知

\max_{α \in V} \deg s (α; W) > 0

. 文中

β

的选择必然满足

β \notin W

, 因为否则的话

T

导子的次数为零. 那么, 子空间

W + Z (β; T)

的维数的确严格大于

W

的维数. 当然, 其在

T

下不变是显然的.] 应用此过程于

W = W_{0}

可以得到

β_{1}

. 若

W_{1} = W_{0} + Z (β_{1}; T)

仍然是真子空间, 那么就再次应用该过程于

W_{1}

以得到

β_{2}

. 将过程继续施行下去, 鉴于

\dim W_{k} > \dim W_{k - 1}

, 我们必然可以在不超过

\dim V

步的情况下抵达

W_{r} = V

第2步. 令 $β_{1}, \dots, β_{r}$ 是满足第1步的条件a和b的非零向量. 固定 $k$ , 其中 $1 \leq k \leq r$ . 令 $β$ 是 $V$ 中任意的向量, $f = s (β; W_{k - 1})$ . 如果 $f β = β_{0} + \sum_{i = 1}^{k - 1} g_{i} β_{i}, β_{i} \in W_{i}$ 那么 $f$ 整除每个多项式 $g_{i}$ 并且存在 $γ_{0} \in W_{0}$ 满足 $β_{0} = f γ_{0}$ . [译注: $β_{i} \in W_{i}$ 只是约束了 $β_{0} \in W_{0}$ , 其余则是已知的.]
如果 $k = 1$ , 此即陈述 $W_{0}$ 是 $T$ 可容许的这个条件. 为了在 $k > 1$ 的情形下证明断言, 应用带余除法: $g_{i} = f h_{i} + r_{i}, r_{i} = 0 或者 \deg r_{i} < \deg f .$ 我们想要证明的是对于每个 $i$ 有 $r_{i} = 0$ . 令 $γ = β - \sum_{i = 1}^{k - 1} h_{i} β_{i}$ 既然 $γ - β \in W_{k - 1}$ , 我们有 $s (γ; W_{k - 1}) = s (β; W_{k - 1}) = f$ 而且 $f γ = β_{0} + \sum_{i = 1}^{k - 1} r_{i} β_{i} .$ 设某个 $r_{i}$ 异于 $0$ , 我们可以推导出矛盾来. 令 $j = \max {i \in {1, \dots, k - 1} | r_{i} \neq 0}$ , 那么 $f γ = β_{0} + \sum_{i = 1}^{j} r_{i} β_{i}, r_{j} \neq 0 且 \deg r_{j} < \deg f .$ 令 $p = s (γ; W_{j - 1})$ , 既然 $W_{j - 1} \subseteq W_{k - 1}$ , 导子 $f = s (γ; W_{k - 1})$ 必然整除 $p$ : $存在多项式 g, p = f g .$ 应用 $g (T)$ 于前式两边, 可以得到: $p γ = g f γ = g r_{j} β_{j} + g β_{0} + \sum_{i = 1}^{j - 1} g r_{i} β_{i} .$ 根据 $p$ 的定义, $p γ \in W_{j - 1}$ , 而且上式最右边两项之和也在 $W_{j - 1}$ 之中, 所以 $g r_{j} β_{j} \in W_{j - 1}$ . 现在我们使用第1步的条件b: $\begin{array}{rcl} \deg (g r_{j}) & \geq & \deg s (β_{j}; W_{j - 1}) \\ = & \deg p_{j} \\ \geq & \deg s (γ; W_{j - 1}) \\ = & \deg p \\ = & \deg (f g) \end{array}$ 因此, $\deg r_{j} \geq \deg f$ , 但这与 $j$ 的选择相矛盾. 现在我们知道 $f$ 整除每个 $g_{i}$ , 于是 $β_{0} = f γ$ . 既然 $W$ 是 $T$ 可容许的, 存在 $γ_{0} \in W_{0}$ 使得 $β_{0} = f γ_{0}$ . 顺带值得一提的是, 第2步是断言 $W_{1}, W_{2}, \dots, W_{r}$ 具有 $T$ 可容许性的一种增强形式.

第3步. 存在非零向量 $α_{1}, \dots, α_{r} \in V$ 满足定理3的条件i和ii.
我们自第1步的向量 $β_{1}, \dots, β_{r}$ 始. 固定 $k$ , 其中 $1 \leq k \leq r$ . 我们将第2步应用于 $β = β_{k}$ , 那么 $T$ 导子 $f = p_{k}$ , 于是可以得到 $p_{k} β_{k} = p_{k} γ_{0} + \sum_{i = 1}^{k - 1} p_{k} h_{i} β_{i}$ 其中 $γ_{0} \in W_{0}$ 而 $h_{1}, \dots, h_{k - 1}$ 是多项式. 令 $α_{k} = β_{k} - γ_{0} - \sum_{i = 1}^{k - 1} h_{i} β_{i}$ 鉴于 $β_{k} - α_{k} \in W_{k - 1}$ , 我们知道 $s (α_{k}; W_{k - 1}) = s (β_{k}; W_{k - 1}) = p_{k}$ 既然 $p_{k} α_{k} = 0$ , 可以得到 $W_{k - 1} \cap Z (α_{k}; T) = {0} .$ 因为每个 $α_{k}$ 都满足以上两式, 所以 $W_{k} = W_{0} \oplus Z (α_{1}; T) \oplus \dots \oplus Z (α_{k}; T)$ 并且 $p_{k}$ 是 $α_{k}$ 的 $T$ 零化子. [译注: 读者需要注意到因为 $β_{k} - α_{k} \in W_{k - 1}$ , 所以 $W_{k - 1} + Z (α_{k}; T) = W_{k - 1} + Z (β_{k}; T)$ .] 换言之, 向量 $α_{1}, \dots, α_{r}$ 和向量 $β_{1}, \dots, β_{r}$ 定义了相同的子空间序列 $W_{1}, W_{2}, \dots$ 并且 $T$ 导子 $p_{k} = s (α_{k}; W_{k - 1})$ 自然也满足最大性质, 即第1步的条件b. 其还具有额外的性质, 就是子空间 $W_{0}, Z (α_{1}; T), Z (α_{2}; T), \dots$ 是线性无关的. 由此很容易验证定理3的条件ii. 既然对于每个 $i$ 都有 $p_{i} α_{i} = 0$ , 我们有着平凡的关系 $p_{k} α_{k} = 0 + p_{1} α_{1} + \dots + p_{k - 1} α_{k - 1}$ 现在应用第2步, 将 $β_{1}, \dots, β_{k}$ 替换为 $α_{1}, \dots, α_{k}$ 而 $β = α_{k}$ , 那么可以得到结论: $p_{k}$ 整除每个 $p_{i}$ , 其中 $i < k$ .

第4步. 数字 $r$ 和多项式 $p_{1}, \dots, p_{k}$ 在定理3的条件下是唯一的.
设除了向量 $α_{1}, \dots, α_{r}$ 之外非零向量 $γ_{1}, \dots, γ_{s}$ 也满足定理3的条件, 也就是说 $V = W_{0} \oplus Z (γ_{1}; T) \oplus \dots \oplus Z (γ_{s}; T)$ 并且 $g_{k}$ 整除 $g_{k - 1}$ , 其中 $k = 2, \dots, s$ 而 $g_{i}$ 是 $γ_{i}$ 的 $T$ 零化子. 我们要证明的是 $r = s$ 以及对于每个 $i$ 有 $p_{i} = g_{i}$ .
很容易看出来 $p_{1} = g_{1}$ . 多项式 $g_{1}$ 实际上由前述条件可以被确定为从 $V$ 到 $W_{0}$ 的 $T$ 导子. $S (V; W_{0})$ 被定义为集合 ${f \in F [x] | 对于每个 β \in V, f β \in W_{0}}$ , 其中 $F$ 是标量域; 换言之, 多项式 $f \in S (V; W_{0})$ 当且仅当 $f (T)$ 的像是 $W_{0}$ 的子集. 那么, $S (V; W_{0})$ 是多项式代数中的一个非零理想, 而多项式 $g_{1}$ 是该理想的首项系数为一的生成元. 以下是我们的理由. 每个 $β \in V$ 都具有形式 $β = β_{0} + f_{1} γ_{1} + \dots + f_{s} γ_{s}$ 于是 $g_{1} β = g_{1} β_{0} + \sum_{i = 1}^{s} g_{1} f_{i} γ_{i}$ 因为每个 $g_{i}$ 都整除 $g_{1}$ , 所以对于每个 $i$ 有 $g_{1} γ_{i} = 0$ , 那么 $g_{1} β = g_{1} β_{0} \in W_{0}$ , 于是 $g_{1} \in S (V; W_{0})$ . 既然 $g_{1}$ 是将 $γ_{1}$ 送至 $W_{0}$ 的次数最低的首项系数为一多项式, 那么 $g_{1}$ 当然也是理想 $S (V; W_{0})$ 中次数最低的首项系数为一多项式. 根据同样的论证, $p_{1}$ 也应该是这个理想的首项系数为一的生成元, 所以 $p_{1} = g_{1}$ .
如果 $f$ 是一个多项式, $W$ 是 $V$ 的一个子空间, 那么缩写 $f W$ 将表示集合 ${f α | α \in W}$ . 我们将以下三个事实的验证留作练习.

$f Z (α; T) = Z (f α; T)$ .
如果 $V = V_{1} \oplus \dots \oplus V_{k}$ , 其中每个 $V_{i}$ 都在 $T$ 下不变, 那么 $f V = f V_{1} \oplus \dots \oplus f V_{k}$ .
如果 $α$ 和 $γ$ 有着相同的 $T$ 零化子, 那么 $f α$ 和 $f γ$ 也有着相同的 $T$ 零化子, 因而有 $\dim Z (f α; T) = \dim Z (f γ; T) .$

现在我们通过归纳来论证

r = s

以及对于

i = 2, \dots, r

有

p_{i} = g_{i}

. 论证的手法在于以恰当的方式数维数. 我们将给出

r \geq 2

的情况下有

p_{2} = g_{2}

的证明, 由此怎样进行归纳则是清晰的. 设

r \geq 2

, 那么

\dim W_{0} + \dim Z (α_{1}; T) < \dim V

既然我们已经知道了

p_{1} = g_{1}

, 那么

Z (α_{1}; T)

和

Z (γ_{1}; T)

有着相同的维数. 因此, 也有

\dim W_{0} + \dim Z (γ_{1}; T) < \dim V

这说明

s \geq 2

. 现在问是否有

p_{2} = g_{2}

是有意义的了. 从两个对于

V

的分解中, 我们可以得到两种对于

p_{2} V

的分解方式:

\begin{array}{l} p_{2} V & = & p_{2} W_{0} \oplus Z (p_{2} α_{1}; T) \\ p_{2} V & = & p_{2} W_{0} \oplus Z (p_{2} γ_{1}; T) \oplus \dots \oplus Z (p_{2} γ_{s}; T) \end{array}

这里用到了事实1和2, 以及对于

i \geq 2

有

p_{2} α_{i} = 0

. 既然我们已经知道了

p_{1} = g_{1}

, 事实3告诉我们

Z (p_{2} α_{1}; T)

和

Z (p_{2} γ_{1}; T)

有着相同的维数. 显然, 我们可以得到

\dim Z (p_{2} γ_{i}; T) = 0, i \geq 2 .

于是,

p_{2} γ_{2} = 0

, 那么

g_{2}

整除

p_{2}

. 同样的论证可以反过来以得到

p_{2}

整除

g_{2}

. 因此,

p_{2} = g_{2}

◻

推论. 如果

T

是有限维向量空间上的一个线性算子, 那么每个

T

可容许子空间都具有

T

下不变的补子空间.

证明. 令

W_{0}

是

V

的一个可容许子空间. 若

W_{0} = V

, 那么我们所寻求的补就是

{0}

. 若

W_{0}

是真子空间, 那么就应用定理3, 令

W_{0}^{'} = Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T)

于是

W_{0}^{'}

在

T

下不变且

V = W_{0} \oplus W_{0}^{'}

◻

推论. 令

T

是有限维向量空间

V

上的一个线性算子.

存在向量 $α \in V$ 满足 $α$ 的 $T$ 零化子是 $T$ 的极小多项式.
$T$ 有循环向量当且仅当 $T$ 的极小多项式和特征多项式相等.

证明. 如果

V = {0}

, 那么结果平凡地成立. 如果

V \neq {0}

, 令

V = Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T)

而

α_{1}, \dots, α_{r}

的

T

零化子

p_{1}, \dots, p_{r}

满足

p_{k + 1}

整除

p_{k}

, 其中

k = 1, \dots, r - 1

. 正如我们在定理3的证明中所注意到的那样, 很容易看出

p_{1}

是

T

的极小多项式, 即从

V

到

{0}

的

T

导子. 我们已然证明了a.
我们在第7.1节中看到, 如果

T

拥有循环向量, 那么

T

的极小多项式和特征多项式恰好是相等的. 为了证明b, 还需要证明的是其逆. 应用定理a, 选择一个满足要求的

α

. 如果极小多项式的次数等于

\dim V

, 那么

Z (α; T)

的维数为

\dim V

, 即

V = Z (α; T)

◻

定理4. 一般Cayley-Hamilton定理. 令

T

是有限维向量空间

V

上的一个线性算子,

p

和

f

分别为

T

的极小多项式和特征多项式.

$p$ 整除 $f$ ;
$p$ 和 $f$ 拥有相同的素因子, 在不计重数的情况下;
如果 $p = f_{1}^{r_{1}} \dots f_{k}^{r_{k}}$ 是 $p$ 的素因子分解, 那么 $f = f_{1}^{d_{1}} \dots f_{k}^{d_{k}}$ 其中 $d_{i}$ 是 $f_{i}^{r_{i}} (T)$ 的零化度除以 $f_{i}$ 的次数.

证明. 我们就不考虑平凡情形

V = {0}

了. 为了证明i和ii, 考虑由定理3得到的

V

的一个循环分解. 正如我们在定理3的第2个推论的证明中所注意到的,

p_{1} = p

. 令

U_{i}

是

T

于

Z (α_{i}; T)

的限制, 那么

U_{i}

当然有循环向量, 于是

p_{i}

既是

U_{i}

的极小多项式, 也是其特征多项式. 因此, 特征多项式

f

是乘积

f = p_{1} \dots p_{r}

. 这从

T

在适当的基下呈现的分块形式矩阵看是显然的. 此时

p_{1}

整除

f

是自明的, 这就证明了i. 显然任何

p

的素因子也是

f

的素因子. 反过来,

f = p_{1} \dots p_{r}

的素因子必须整除其中一个

p_{i}

, 于是又整除

p = p_{1}

.
令

p = f_{1}^{r_{1}} \dots f_{k}^{r_{k}}

是

p

的素因子分解. 准素分解定理 (第6章的定理12) 告诉我们, 如果

V_{i}

是

f_{i}^{r_{i}} (T)

的零空间, 那么

V = V_{1} \oplus \dots \oplus V_{k}

并且

f_{i}^{r_{i}}

是算子

T_{i}

的极小多项式, 其中

T_{i}

是

T

于(不变)子空间

V_{i}

上的限制. 将当前定理的i和ii应用于

T_{i}

, 既然其是素因子

f_{i}

之幂, 那么

T_{i}

的特征多项式必然具有

f_{i}^{d_{i}}

的形式, 其中

d_{i} \geq r_{i}

. 显然, 我们得到了

d_{i} = \frac{\dim V_{i}}{\deg f_{i}}

而且根据定义有

\dim V_{i} = nullity (f_{i}^{r_{i}} (T))

, 于是

d_{i} = \frac{nullity (f_{i}^{r_{i}} (T))}{\deg f_{i}} .

既然

T

是算子

T_{1}, \dots, T_{k}

的直和, 那么特征多项式

f

是乘积

f = f_{1}^{d_{1}} \dots f_{k}^{d_{k}} .

◻

译者注记. 这个即是第6章所说的对于Cayley-Hamilton定理的三个证明中的最后一个. 似乎此证明所依赖的循环分解定理 (定理3) 的证明中有个估计可能需要用到Cayley-Hamilton定理, 然而这并不意味着该证明存在循环论证的嫌疑, 因为那个估计实际上并不需要那么准确, 以极小多项式的存在性划定一个有限的上界就够了.

推论. 如果

T

是

n

维向量空间上的一个幂零线性算子, 那么

T

的特征多项式为

x^{n}

现在让我们检视循环分解定理的矩阵类比. 如果我们拥有线性算子 $T$ 和定理3的直和分解, 令 $𝔅_{i}$ 是 $Z (α_{i}; T)$ 的"循环有序基" ${α_{i}, T α_{i}, \dots, T^{k_{i} - 1} α_{i}} .$ 这里 $k_{i}$ 表示 $Z (α_{i}; T)$ 的维数, 或者说零化子 $p_{i}$ 的次数. 在有序基 $𝔅_{i}$ 下, 导出算子 $T_{i}$ 的矩阵是多项式 $p_{i}$ 的同伴矩阵. 因此, 若 $𝔅$ 是将 $𝔅_{1}, \dots, 𝔅_{r}$ 按照顺序合并得到的 $V$ 的有序基, 那么 $T$ 在 $𝔅$ 下的矩阵为 $A = [\begin{matrix} A_{1} & 0 & \dots & 0 \\ 0 & A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & A_{r} \end{matrix}]$ 其中 $A_{i}$ 是 $p_{i}$ 的同伴矩阵, 大小为 $k_{i} \times k_{i}$ . 一个 $n \times n$ 的矩阵 $A$ , 如果其为非标量首项系数为一多项式 $p_{1}, \dots, p_{r}$ 的同伴矩阵的直和且对于 $i = 1, \dots, r - 1$ 有 $p_{i + 1}$ 整除 $p_{i}$ , 那么我们称 $A$ 具有有理形式. 循环分解定理告诉我们了以下结果.

译者注记. 读者需要注意一下, 本书的有理形式在顺序上与通行定义正好相反. 也就是说, 其他材料将形如

A = [\begin{matrix} A_{r} & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & \dots & A_{2} & 0 \\ 0 & \dots & 0 & A_{1} \end{matrix}]

的矩阵称为有理形式.

定理5. 令

F

是一个域,

B

是域

F

上的一个

n \times n

矩阵, 那么

B

在域

F

上相似于唯一的有理形式矩阵.

证明. 令

T

是

F^{n}

上在标准有序基下由

B

表示的线性算子. 正如我们刚才所观察到的那样, 存在

F^{n}

的某个有序基使得其下的

T

由有理形式

A

表示. 那么,

B

相似于这个矩阵

A

. 设

B

在

F

上相似于另一个有理形式

C

. 这就意味着存在

F^{n}

的某个基使得其下的

T

由

C

表示. 如果

C

是非标量首项系数为一多项式

g_{1}, \dots, g_{s}

的同伴矩阵的直和, 其中对于

i = 1, \dots, s - 1

有

g_{i + 1}

整除

g_{i}

[译注: 以上是在复述定义], 那么我们有非零向量

β_{1}, \dots, β_{s} \in V

以

g_{1}, \dots, g_{s}

为

T

零化子满足

V = Z (β_{1}; T) \oplus \dots \oplus Z (β_{s}; T) .

但是, 根据循环分解定理的唯一性陈述, 多项式

g_{i}

和定义了矩阵

A

的多项式

p_{i}

应该是完全等同的, 于是

C = A

◻

多项式 $p_{1}, \dots, p_{r}$ 被称为矩阵 $B$ 的不变因子. 在第7.4节, 我们将描述一个计算给定矩阵的不变因子的算法. 可根据施行于矩阵的元素上的有限次有理操作计算得出这些多项式的事实赋予了有理形式其名.

例子2. 设

V

是域

F

上的一个二维向量空间,

T

是

V

上的一个线性算子.

T

的循环子空间分解的可能性是相当受限的. 这是因为如果

T

的极小多项式的次数为

2

, 那么它等于

T

的特征多项式, 于是

T

拥有循环向量. 因此, 存在

V

的某个有序基使得

T

由其特征多项式的同伴矩阵表示. 另一方面, 如果

T

的极小多项式的次数为

1

, 那么

T

是恒等算子的标量倍数. 若

T = c I

, 那么对于任意的两个线性无关的向量

α_{1}

和

α_{2}

, 我们有

V = Z (α_{1}; T) \oplus Z (α_{2}; T), p_{1} = p_{2} = x - c .

对于矩阵而言, 这样的分析是说每个域

F

上的

2 \times 2

矩阵都在

F

上恰相似于以下两种类型的矩阵中的一种:

[\begin{matrix} c & 0 \\ 0 & c \end{matrix}], [\begin{matrix} 0 & - c_{0} \\ 1 & - c_{1} \end{matrix}] .

例子3. 令

T

是

ℝ^{3}

上由矩阵

A = [\begin{matrix} 5 & - 6 & - 6 \\ - 1 & 4 & 2 \\ 3 & - 6 & - 4 \end{matrix}]

表示的线性算子. 我们之前已经计算过了,

T

的特征多项式为

f = (x - 1) {(x - 2)}^{2}

, 极小多项式为

p = (x - 1) (x - 2)

. 因此, 我们知道在

T

的循环分解中, 第一个向量

α_{1}

的

T

零化子为

p

. 既然我们是在三维空间中讨论, 那么只能再有一个向量

α_{2}

. 其必然生成的是一维的循环子空间, 即其必是

T

的一个特征向量. 其

T

零化子

p_{2}

必然是

(x - 2)

, 因为

p p_{2} = f

. 注意到这立即告诉我们

A

相似于矩阵

B = [\begin{matrix} 0 & - 2 & 0 \\ 1 & 3 & 0 \\ 0 & 0 & 2 \end{matrix}]

即

T

在某个有序基下由

B

表示. 我们该如何寻找合适的向量

α_{1}

和

α_{2}

呢? 嗯, 我们知道任意能够生成二维

T

循环子空间的向量都是合适的

α_{1}

, 所以先让我们试试

ε_{1}

. 我们有

T ε_{1} = (5, - 1, 3)

其并非

ε_{1}

的标量倍数, 因此

Z (ε_{1}; T)

的维数是

2

. 这个空间由所有具有形式

a ε_{1} + b (T ε_{1}) = a (1, 0, 0) + b (5, - 1, 3) = (a + 5 b, - b, 3 b)

的向量构成, 或者说由所有满足

x_{3} = - 3 x_{2}

的向量

(x_{1}, x_{2}, x_{3})

构成. 现在我们想要寻找的是一个满足

T α_{2} = 2 α_{2}

且

Z (α_{2}; T) \cap Z (ε_{1}; T) = {0}

的向量

α_{2}

. 既然

α_{2}

是

T

的特征向量, 那么空间

Z (α_{2}; T)

必然是由

α_{2}

张成的一维子空间, 于是我们的要求其实是

α_{2} \notin Z (ε_{1}; T)

. 如果

α = (x_{1}, x_{2}, x_{3})

, 那么很容易通过计算得知

T α = 2 α

当且仅当

x_{1} = 2 x_{2} + 2 x_{3}

. 因此,

α_{2} = (2, 1, 0)

是满足我们要求的一个向量. 读者应该直接验证有序基

{(1, 0, 0), (5, - 1, 3), (2, 1, 0)}

下

T

的矩阵即是上面的

B

例子4. 设

T

是

V

上的一个可对角化算子. 将

T

的循环分解与对角化

T

的基联系起来是有趣的. 令

c_{1}, \dots, c_{k}

是

T

不同的特征值,

V_{i}

是与特征值

c_{i}

关联的特征空间, 那么

V = V_{1} \oplus \dots \oplus V_{k}

并且如果

d_{i} = \dim V_{i}

, 那么

f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

是

T

的特征多项式. 如果

α \in V

, 那么很容易将循环子空间

Z (α; T)

和子空间

V_{1}, \dots, V_{k}

联系起来. 首先我们知道存在唯一的向量

β_{1}, \dots, β_{k}

使得

α = β_{1} + \dots + β_{k}

其中

β_{i} \in V_{i}

. 既然

T β_{i} = c_{i} β_{i}

, 那么对于每个多项式

f

, 我们有

f (T) α = f (c_{1}) β_{1} + \dots + f (c_{k}) β_{k} .

给定任意的标量

t_{1}, \dots, t_{k}

, 存在多项式

f

满足

f (c_{i}) = t_{i}, 1 \leq i \leq k

. 因此,

Z (α; T)

就是由向量

β_{1}, \dots, β_{k}

张成的子空间.

α

的零化子是什么呢? 根据前面的讨论,

f (T) α = 0

当且仅当

f (c_{i}) β_{i} = 0, 1 \leq i \leq k

. 换言之, 只需要对于那些使得

β_{i} \neq 0

的

i

有

f (c_{i}) = 0

即可推出

f (T) α = 0

. 据此,

α

的零化子是积

\prod_{β_{i} \neq 0}^{} (x - c_{i}) .

现在, 令

𝔅_{i} = {β_{1}^{i}, \dots, β_{d_{i}}^{i}}

是

V_{i}

的一个有序基, 令

r = \max_{1 \leq i \leq k} d_{i} .

我们通过

α_{j} = \sum_{d_{i} \geq j}^{} β_{j}^{i}, 1 \leq j \leq r

定义向量

α_{1}, \dots, α_{r}

. 循环子空间

Z (α_{j}; T)

是由向量

β_{j}^{i}

张成的子空间, 其中

i

遍历所有满足

d_{i} \geq j

的那些指标.

α_{j}

的

T

零化子是

p_{j} = \prod_{d_{i} \geq j}^{} (x - c_{i}) .

我们有

V = Z (α_{1}; T) \oplus \dots \oplus Z (α_{r}; T)

因为每个

β_{j}^{i}

属于且仅属于子空间

Z (α_{1}; T), \dots, Z (α_{r}; T)

其中的一个并且

𝔅 = (𝔅_{1}, \dots, 𝔅_{k})

是

V

的一个基. [译注: 直和的论证稍显意味不明, 但是事实本身是容易看出的.] 根据

p_{j}

的公式, 也很容易看出

p_{i + 1}

整除

p_{i}

i = 1, \dots, r - 1

. [译注: 由此看出这的确是定理3中的循环分解.]

练习1. 令

T

是

F^{2}

上在标准有序基下由矩阵

[\begin{matrix} 0 & 0 \\ 1 & 0 \end{matrix}]

表示的线性算子. 令

α_{1} = (0, 1)

. 证明

F^{2} \neq Z (α_{1}; T)

且不存在非零向量

α_{2} \in F^{2}

满足

Z (α_{2}; T) \cap Z (α_{1}; T) = {0}

练习2. 令

T

是有限维向量空间

V

上的一个线性算子,

R

是

T

的像.

证明 $R$ 拥有一个与之互补的 $T$ 不变子空间当且仅当 $R$ 与 $T$ 的零空间 $N$ 线性无关.
如果 $R$ 和 $N$ 线性无关, 证明 $N$ 是唯一的与 $R$ 互补的 $T$ 不变子空间.

练习3. 令

T

是

ℝ^{3}

上在标准有序基下由矩阵

[\begin{matrix} 2 & 0 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & 3 \end{matrix}]

表示的线性算子. 令

W

是

T - 2 I

的零空间. 证明

W

没有与之互补的

T

不变子空间. (提示: 令

β = ε_{1}

, 观察到

(T - 2 I) β \in W

, 证明不存在

α \in W

使得

(T - 2 I) β = (T - 2 I) α

.) [译注:

W

存在

T

不变的补子空间当且仅当

W

是

T

可容许的.]

练习4. 令

T

是

F^{4}

上的线性算子, 其在标准有序基下由矩阵

[\begin{matrix} c & 0 & 0 & 0 \\ 1 & c & 0 & 0 \\ 0 & 1 & c & 0 \\ 0 & 0 & 1 & c \end{matrix}]

表示. 令

W

是

T - c I

的零空间.

证明 $W$ 是由 $ε_{4}$ 张成的子空间.
找出理想 $S (ε_{4}; T), S (ε_{3}; T), S (ε_{2}; T), S (ε_{1}; T)$ 的首项系数为一的生成元.

练习5. 令

T

是域

F

上的向量空间

V

上的一个线性算子. 如果

f

是域

F

上的一个多项式而

α \in V

, 令

f α = f (T) α

. 如果

V_{1}, \dots, V_{k}

是

T

不变子空间而

V = V_{1} \oplus \dots \oplus V_{k}

, 证明

f V = f V_{1} \oplus \dots \oplus f V_{k} .

[译注: 这个是定理3的证明中留给读者补充证明的引理.]

练习6. 令

T

是域

F

上的向量空间

V

上的一个线性算子. 如果向量

α, β \in V

有着相同的

T

零化子, 证明对于任意的多项式

f

f α

和

f β

也有着相同的

T

零化子. [译注: 这个亦是定理3的证明中留给读者补充证明的引理.]

练习7. 找出以下每个实矩阵的极小多项式和有理形式.

[\begin{matrix} 0 & - 1 & - 1 \\ 1 & 0 & 0 \\ - 1 & 0 & 0 \end{matrix}], [\begin{matrix} c & 0 & - 1 \\ 0 & c & 1 \\ - 1 & 1 & c \end{matrix}], [\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}]

练习8. 令

T

是

ℝ^{3}

上的线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 3 & - 4 & - 4 \\ - 1 & 3 & 2 \\ 2 & - 4 & - 3 \end{matrix}]

表示. 找出满足定理3条件的非零向量

α_{1}, \dots, α_{r}

练习9. 令

A

是实矩阵

A = [\begin{matrix} 1 & 3 & 3 \\ 3 & 1 & 3 \\ - 3 & - 3 & - 5 \end{matrix}] .

找出一个

3 \times 3

的可逆实矩阵

P

使得

P^{- 1} A P

是有理形式.

练习10. 令

F

是复数域的一个子域,

T

是

F^{4}

上的线性算子, 其在标准有序基下由矩阵

[\begin{matrix} 2 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 \\ 0 & a & 2 & 0 \\ 0 & 0 & b & 2 \end{matrix}]

表示. 找出

T

的特征多项式. 考虑

a = b = 1

;

a = b = 0

;

a = 0, b = 1

的情形. 在这三种情形下, 找出

T

的极小多项式以及满足定理3条件的非零向量

α_{1}, \dots, α_{r}

练习11. 证明如果

A

和

B

是域

F

上的

3 \times 3

矩阵, 那么

A

和

B

在域

F

上相似的充要条件是它们拥有相同的特征多项式和极小多项式. 给出一个例子表明对于

4 \times 4

的矩阵而言这是不对的.

练习12. 令

F

是复数域的一个子域,

A

和

B

是域

F

上的

n \times n

矩阵. 证明如果

A

和

B

在复数域上相似, 那么它们也在

F

上相似. (提示: 证明

A

的有理形式不论

A

被视为

F

还是

ℂ

上的矩阵都是一样的,

B

当然也是如此.)

练习13. 令

A

是一个

n \times n

复矩阵, 证明如果

A

的每个特征值都是实数, 那么

A

相似于一个实矩阵.

练习14. 令

T

是有限维向量空间

V

上的一个线性算子, 证明存在满足以下性质的向量

α \in V

. 如果

f

是一个多项式而

f (T) α = 0

, 那么

f (T) = 0

. (这样的向量

α

被称为

T

的多项式代数的一个分离向量.) 当

T

拥有循环向量时, 给出循环向量也是分离向量的直接证明.

练习15. 令

F

是复数域的一个子域,

A

是

F

上的一个

n \times n

矩阵,

p

是

A

的极小多项式. 如果我们将

A

视为

ℂ

上的矩阵, 那么

A

在

ℂ

上也拥有一个极小多项式

f

. 使用关于线性方程组的定理证明

p = f

. 另外, 你能看出这也可由循环分解定理推得吗?

练习16. 令

A

是一个满足

A^{2} + I = 0

的

n \times n

实矩阵, 证明

n

是偶数, 并且如果

n = 2 k

, 那么

A

在实数域上相似于以下分块形式的矩阵

[\begin{matrix} 0 & - I \\ I & 0 \end{matrix}]

其中

I

是

k \times k

的恒等矩阵.

练习17. 令

T

是有限维向量空间

V

上的一个线性算子, 设

$T$ 的极小多项式是素多项式之幂;
$T$ 的极小多项式等于特征多项式.

证明不存在非平凡的

T

不变子空间拥有

T

不变的补子空间.

练习18. 如果

T

是可对角化线性算子, 那么每个

T

不变子空间都有与之互补的

T

不变子空间.

练习19. 令

T

是有限维向量空间

V

上的一个线性算子, 证明

T

拥有循环向量当且仅当每个与

T

交换的线性算子

U

都是应用某个多项式于

T

的结果.

练习20. 令

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子. 我们问何时

V

中的每个非零向量都是

T

的一个循环向量, 证明其成立的充要条件为

T

的特征多项式在

F

上不可约.

练习21. 令

A

是一个

n \times n

实矩阵,

T

是

ℝ^{n}

上在标准有序基下由

A

表示的线性算子,

U

是

ℂ^{n}

上在标准有序基下由

A

表示的线性算子. 使用练习20的结果证明以下结论: 若

T

仅有平凡的不变子空间, 那么

U

是可对角化的.

第7.3节 Jordan形式

设 $N$ 是有限维向量空间 $V$ 上的一个幂零算子. 让我们检视由定理3获得的 $N$ 的循环分解. 我们有一个正整数 $r$ 和 $r$ 个非零向量 $α_{1}, \dots, α_{r} \in V$ 满足 $V = Z (α_{1}; N) \oplus \dots \oplus Z (α_{r}; N)$ 并且若 $p_{1}, \dots, p_{r}$ 分别是 $α_{1}, \dots, α_{r}$ 的 $N$ 零化子, 那么对于 $i = 1, \dots, r - 1$ 有 $p_{i + 1}$ 整除 $p_{i}$ . 既然 $N$ 是幂零算子, 那么其极小多项式为 $x^{k}$ , 其中 $k \leq n$ . [译注: 这里的 $n$ 是隐式的 $V$ 的维数.] 因此, 每个 $p_{i}$ 都具有 $x^{k_{i}}$ 的形式, 而整除的条件可以被表达为 $k_{1} \geq k_{2} \geq \dots \geq k_{r} .$ 当然了, $k_{1} = k$ 并且 $k_{r} \geq 1$ . $x^{k_{i}}$ 的同伴矩阵是 $k_{i} \times k_{i}$ 的矩阵 $A_{i} = [\begin{matrix} 0 & 0 & \dots & 0 & 0 \\ 1 & 0 & \dots & 0 & 0 \\ 0 & 1 & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & 1 & 0 \end{matrix}] .$ 因此, 定理3为我们提供了 $V$ 的一个有序基使得其下的矩阵是 $A_{i}$ 这样的初等幂零矩阵之直和, 而且随着 $i$ 的增大, $A_{i}$ 的大小是在减小的. 从中读者可以看出, 与一个 $n \times n$ 的幂零矩阵相关联着的, 是一个正整数 $r$ 和 $r$ 个正整数 $k_{1}, \dots, k_{r}$ 满足 $k_{1} + \dots + k_{r} = n$ 且 $k_{i} \geq k_{i + 1}$ . 这些正整数确定了矩阵的有理形式, 即在相似意义下确定了矩阵是什么. [译注: 相似矩阵有着相同的有理形式, 这从循环分解的唯一性来看是显然的.]

还有一点是我们想要对于上述的幂零算子 $N$ 指出的. 正整数 $r$ 恰是 $N$ 的零化度. 实际上, $r$ 个向量 $N^{k_{i} - 1} α_{i}$ 构成了 $N$ 的零空间的一个基. 这是因为, 令 $α$ 是 $N$ 的零空间中的一个向量, 我们可以将 $α$ 写成 $α = f_{1} α_{1} + \dots + f_{r} α_{r}$ 的形式, 其中 $f_{i}$ 是多项式, 并且不妨设对于每个 $i$ 有 $f_{i} = 0$ 或者 $\deg f_{i} < k_{i}$ . 既然 $N α = 0$ , 那么对于每个 $i$ 可知 $\begin{array}{rcl} 0 & = & N (f_{i} α_{i}) \\ = & N f_{i} (N) α_{i} \\ = & (x f_{i}) α_{i} \end{array}$ 因此, $x f_{i}$ 被 $x^{k_{i}}$ 整除. 但是, 因为 $f_{i} = 0$ 或者 $\deg f_{i} < k_{i}$ , 这意味着 $f_{i} = c_{i} x^{k_{i} - 1}$ 其中 $c_{i}$ 是某个标量, 那么我们就有 $α = c_{1} (x^{k_{1} - 1} α_{1}) + \dots + c_{r} (x^{k_{r} - 1} α_{r})$ 其表明这 $r$ 个向量的确是 $N$ 的零空间的一个基. [译注: 这些向量之所以线性无关, 是因为它们是使得幂零算子呈现有理形式的基的一部分.] 读者也应该注意到这个事实从矩阵的角度来看是相当清晰的.

现在我们想要将我们关于幂零算子或者幂零矩阵的发现和第6章的准素分解定理结合起来. 情况如下: 设 $T$ 是 $V$ 的一个线性算子并且 $T$ 的特征多项式在标量域 $F$ 上可以被分解为 $f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}$ 其中 $c_{1}, \dots, c_{k}$ 是 $F$ 的不同元素而 $d_{i} \geq 1$ , 那么 $T$ 的极小多项式为 $p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}$ 其中 $1 \leq r_{i} \leq d_{i}$ . 若 $W_{i}$ 是 ${(T - c_{i} I)}^{r_{i}}$ 的零空间, 那么准素分解定理告诉我们 $V = W_{1} \oplus \dots \oplus W_{k}$ 并且由 $T$ 于 $W_{i}$ 上的限制导出的算子 $T_{i}$ 的极小多项式为 ${(x - c_{i})}^{r_{i}}$ . 令 $N_{i} = T_{i} - c_{i} I$ , 那么 $N_{i}$ 是幂零的并且其极小多项式为 $x^{r_{i}}$ . 在 $W_{i}$ 上, $T$ 就表现为 $N_{i}$ 加上标量 $c_{i}$ 倍的恒等算子. 设我们挑选了 $W_{i}$ 的一个有序基使得 $N_{i}$ 呈现有理形式, 那么 $T_{i}$ 在此有序基下的矩阵应该是形式为 $[\begin{matrix} c & 0 & \dots & 0 & 0 \\ 1 & c & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ c \\ 0 & 0 & \dots & 1 & c \end{matrix}]$ 的矩阵的直和, 并且每个 $c = c_{i}$ . 更进一步, 这些矩阵的大小自左向右递减. 我们将以上这种形式的矩阵称为与特征值 $c$ 相关联的基本Jordan矩阵. 现在如果我们将每个 $W_{i}$ 的基放在一起, 那么我们就得到了 $V$ 的一个有序基. 让我们来刻画 $T$ 在这个有序基下的矩阵 $A$ .

矩阵 $A$ 是矩阵 $A_{1}, \dots, A_{k}$ 的直和 $A = [\begin{matrix} A_{1} & 0 & \dots & 0 \\ 0 & A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & A_{k} \end{matrix}]$ 每个 $A_{i}$ 都具有形式 $A_{i} = [\begin{matrix} J_{1}^{(i)} & 0 & \dots & 0 \\ 0 & J_{2}^{(i)} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & J_{n_{i}}^{(i)} \end{matrix}]$ 其中每个 $J_{j}^{(i)}$ 都是与特征值 $c_{i}$ 相关联的基本Jordan矩阵. 而且, 在每个 $A_{i}$ 内部, 矩阵 $J_{j}^{(i)}$ 的大小随着 $j$ 的增加而递减. 一个满足本段之前所述条件的 $n \times n$ 矩阵 $A$ (对于不同的标量 $c_{1}, \dots, c_{k}$ ) 被称为是具有Jordan形式.

刚才我们已经指出, 若线性算子 $T$ 的特征多项式可在标量域上被完全分解, 那么存在 $V$ 的一个有序基使得 $T$ 由某个Jordan形式表示. 现在我们想要说明的是, 这个矩阵在某种意义下是唯一的, 实际上最多仅取决于将 $T$ 的特征值 $c_{i}$ 写下来的顺序. 换句话说, 如果两个Jordan形式是相似的, 那么它们仅可能是在标量 $c_{i}$ 的顺序上有所不同.

我们可以从以下论证中看出唯一性. 设存在 $V$ 的某个有序基使得 $T$ 由前述的Jordan矩阵 $A$ 表示. 如果 $A_{i}$ 是一个 $d_{i} \times d_{i}$ 的矩阵, 那么 $d_{i}$ 显然是 $c_{i}$ 作为 $A$ (或者说 $T$ ) 的特征多项式的根的重数. 换言之, $T$ 的特征多项式为 $f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}} .$ 这表明 $c_{1}, \dots, c_{k}$ 和 $d_{1}, \dots, d_{k}$ 除开顺序应该是唯一的. $A$ 为矩阵 $A_{i}$ 之直和的事实为我们提供了一个 $T$ 不变的直和分解 $V = W_{1} \oplus \dots \oplus W_{k}$ . 我们注意到 $W_{i}$ 必然是 ${(T - c_{i} I)}^{n}$ 的零空间, 其中 $n = \dim V$ . 这是因为, $A_{i} - c_{i} I$ 显然是幂零的, 而对于 $j \neq i$ , $A_{j} - c_{i} I$ 又显然是非奇异的. 于是, 我们看到子空间 $W_{i}$ 是唯一的. 如果 $T_{i}$ 是由 $T$ 于 $W_{i}$ 上的限制导出的算子, 那么矩阵 $A_{i}$ 作为 $(T_{i} - c_{i} I)$ 的有理形式加上 $c_{i}$ 倍的 $d_{i} \times d_{i}$ 恒等矩阵是唯一的. [译注: 原文似乎忘掉还需要为幂零算子的有理形式加上 $c_{i}$ 倍的恒等矩阵才是 $A_{i}$ . 另外, $A_{i}$ 的唯一性依赖于有理形式的唯一性, 虽然实际上其间还有一点点差距, 但因为并不困难, 就留给读者思考了.]

现在我们希望更深入地观察算子 $T$ 及其在某个有序基下的Jordan矩阵 $A$ , 以下所列出的是我们的发现:

$A$ 的每个元素, 若是不在主对角线上或者紧挨着主对角线的下方, 必然是 $0$ . $A$ 的对角线上的元素是 $T$ 的 $k$ 种不同的特征值 $c_{1}, \dots, c_{k}$ . 并且, $c_{i}$ 重复 $d_{i}$ 次, 而 $d_{i}$ 是 $c_{i}$ 作为特征多项式的根的重数, 即 $d_{i} = \dim W_{i}$ .
对于每个 $i$ , 矩阵 $A_{i}$ 是 $n_{i}$ 个与特征值 $c_{i}$ 有关的基本Jordan矩阵 $J_{j}^{(i)}$ 的直和. 数字 $n_{i}$ 恰为与特征值 $c_{i}$ 相关联的特征空间的维数. 这是因为, $n_{i}$ 是 $(T_{i} - c_{i} I)$ 的有理形式的基本幂零块的数目, 因而等于 $(T - c_{i} I)$ 的零空间的维数. [译注: $W_{i}$ 是 ${(T - c_{i} I)}^{r_{i}}$ 的零空间, 其中 $r_{i}$ 是一个正整数, 于是其显然包含 $(T - c_{i} I)$ 的零空间.] 特别地, 我们注意到 $T$ 是可对角化的当且仅当对于每个 $i$ , $n_{i} = d_{i}$ . [译注: $n_{i}$ 是所谓的几何重数, $d_{i}$ 是所谓的代数重数.]
对于每个 $i$ , 矩阵 $A_{i}$ 的第一个块 $J_{1}^{(i)}$ 是一个 $r_{i} \times r_{i}$ 的矩阵, 其中 $r_{i}$ 是 $c_{i}$ 作为 $T$ 的极小多项式的根的重数. 这可由幂零算子 $(T_{i} - c_{i} I)$ 的极小多项式为 $x^{r_{i}}$ 的事实推得.

当然, 和之前一样, 我们也有直接的矩阵形式的结果. 如果 $B$ 是域 $F$ 上的一个 $n \times n$ 矩阵并且 $B$ 的特征多项式可在域 $F$ 上被分解完全, 那么 $B$ 在域 $F$ 相似于一个 $n \times n$ 的Jordan矩阵 $A$ , 而 $A$ 在可以重排其特征值顺序的意义下是唯一的, 我们将 $A$ 称为 $B$ 的Jordan形式.

若 $F$ 是代数闭域, 那么上述评注则可应用于所有 $F$ 上的有限维向量空间上的线性算子. 因此, 例如, 每个复数域上的 $n \times n$ 矩阵都相似于一个基本上唯一的Jordan形式. [译注: "基本上"的意思即不计特征值的顺序.]

例子5. 设

T

是

ℂ^{2}

上的一个线性算子, 那么

T

的特征多项式要么具有

(x - c_{1}) (x - c_{2})

的形式, 其中

c_{1}

和

c_{2}

是不同的复数, 要么具有

{(x - c)}^{2}

的形式. 在前一种情况下,

T

必然是可对角化的且在某个有序基下由

[\begin{matrix} c_{1} & 0 \\ 0 & c_{2} \end{matrix}]

表示. 在后一种情况下,

T

的极小多项式可能是

(x - c)

, 那么

T = c I

, 或者是

{(x - c)}^{2}

, 那么在此情况下

T

在某个有序基下可由矩阵

[\begin{matrix} c & 0 \\ 1 & c \end{matrix}]

表示. 因此, 复数域上的每个

2 \times 2

矩阵, 要么相似于一个对角矩阵, 要么相似于以上这种形式的矩阵, 二者不可兼得.

例子6. 令

A

是

3 \times 3

的复矩阵

A = [\begin{matrix} 2 & 0 & 0 \\ a & 2 & 0 \\ b & c & - 1 \end{matrix}]

A

的特征多项式显然是

{(x - 2)}^{2} (x + 1)

. 若这也是

A

的极小多项式, 那么

A

相似于

[\begin{matrix} 2 & 0 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & - 1 \end{matrix}]

或者极小多项式为

(x - 2) (x + 1)

, 那么

A

相似于

[\begin{matrix} 2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & - 1 \end{matrix}]

既然

(A - 2 I) (A + I) = [\begin{matrix} 0 & 0 & 0 \\ 3 a & 0 & 0 \\ a c & 0 & 0 \end{matrix}]

因而

A

相似于对角矩阵当且仅当

a = 0

例子7. 令

A = [\begin{matrix} 2 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & a & 2 \end{matrix}]

A

的特征多项式为

{(x - 2)}^{4}

. 既然

A

是两个

2 \times 2

矩阵的直和,

A

的极小多项式显然是

{(x - 2)}^{2}

. 现在如果

a = 0

或者

a = 1

, 那么矩阵

A

是Jordan形式. 注意到对于

a = 0

和

a = 1

, 我们得到的两个矩阵有着相同的特征多项式和极小多项式, 但是它们并不相似. 这是因为,

a = 0

时矩阵

(A - 2 I)

的解空间的维数是

3

, 而

a = 1

时解空间的维数则是

2

. [译注: 相似矩阵的解空间可以被视为对于同一个线性算子的零空间的具体刻画, 不论怎样它们的维数至少应该是相同的.]

译者注记. 在例子8之前, 译者想要写一些注记, 尽管这只是第6章的例子14的译者注记的老调重弹而已. 微分运算

D

实际上并非

n

次连续可微函数空间

C^{n}

上的线性算子, 因为它甚至不是算子. 实际上,

n

次连续可微函数的导数并不一定仍然是

n

次连续可微的. 换言之,

C^{n}

压根就不对运算

D

封闭. 原文看似完美无瑕的论证势必要打上一点补丁才行, 而改动最小的方式就是将

C^{n}

改成

C^{\infty}

, 即仅考虑无穷可微函数空间中满足微分方程的解. 这里的例子8甚至考虑的仅是

n

次可微而不是

n

次连续可微, 但是我们译注的基点没有发生变化.

例子8. 常系数齐次线性微分方程 (第6章的例子14) 提供了对于Jordan形式的一种很好的刻画. 令

a_{0}, \dots, a_{n - 1}

是复数而

V

是定义在实轴的某个固定区间上满足微分方程

\frac{d^{n} f}{d x^{n}} + a_{n - 1} \frac{d^{n - 1} f}{d x^{n - 1}} + \dots + a_{1} \frac{d f}{d x} + a_{0} f = 0

的所有

n

次可微函数

f

构成的空间. 令

D

是微分算子, 那么

V

在

D

下不变, 因为

V

是

p (D)

的零空间, 其中

p = x^{n} + \dots + a_{1} x + a_{0} .

那么

V

上的微分算子的Jordan形式是什么样的呢?
令

c_{1}, \dots, c_{k}

是

p

不同的复根, 那么

p = {(x - c_{1})}^{r_{1}} \dots {(x - c_{k})}^{r_{k}}

令

V_{i}

是

{(D - c_{i} I)}^{r_{i}}

的零空间, 即微分方程

{(D - c_{i} I)}^{r_{i}} f = 0

的解集, 那么根据第6章例子14的观察, 准素分解定理告诉我们

V = V_{1} \oplus \dots \oplus V_{k} .

令

N_{i}

是

D - c_{i} I

于

V_{i}

上的限制算子, 那么(

V

上的)算子

D

的Jordan形式由分别位于空间

V_{1}, \dots, V_{k}

上的幂零算子

N_{1}, \dots, N_{k}

的有理形式决定.
所以说, 我们必须要知道的是(在各种各样的

c

下)空间

V_{c}

上的算子

N = D - c I

的有理形式, 其中

V_{c}

是微分方程

{(D - c I)}^{r} f = 0

的解集. [译注: 这里的

r

实际上是某个任意的正整数, 并且根据第6章的微分方程的例子,

V_{c}

的维数就是

r

. 当然,

N

在

V_{c}

上是幂零算子的事实是显然的.]

N

在有理形式下有多少基本幂零块呢? 这个数字是

N

的零化度, 即与特征值

c

相关联的特征空间的维数. [译注: 这里说的特征值指的是

V_{c}

上的微分算子

D

的特征值, 而且其特征值就是唯一的, 即

c

, 这可以从之前的观察中看出来.] 然而, 此维数必然是

1

, 因为任意满足微分方程

D f = c f

的函数都是指数函数

h (x) = e^{c x}

的某个标量倍数. 因此, (空间

V_{c}

上的)算子

N

具有循环向量, 其一个比较好的选择是

g = x^{r - 1} h

g (x) = x^{r - 1} e^{c x} .

那么这就给出

\begin{matrix} N g & = & (r - 1) x^{r - 2} h \\ ⋮ & ⋮ \\ N^{r - 1} g & = & (r - 1)! h \end{matrix}

[译注: 这里的符号运用稍微值得解释一下. 在

x^{r - 1} h

中,

x

代表将每个值映射至自身的函数,

x^{r - 1}

表示这个函数的

r - 1

次幂, 但是这里的乘法是定义在函数上的, 即

(f g) (x) = f (x) g (x)

, 那当然

x^{r - 1} h

也应该这么解释. 对于其余类似的表达式, 我们还应该注意到诸如

(r - 1)

这样的常数被解释为常值函数.] 现在我们知道

D

(在空间

V

)上的Jordan形式是

k

个基本Jordan矩阵的直和, 其中每个都对应于一个根

c_{i}

, 且大小为

r_{i} \times r_{i}

练习1. 令

N_{1}

和

N_{2}

是域

F

上的

3 \times 3

幂零矩阵, 证明

N_{1}

和

N_{2}

相似当且仅当它们拥有相同的极小多项式.

练习2. 使用练习1和Jordan形式的结果证明以下事实: 如果域

F

上的

n \times n

矩阵

A

和

B

有着相同的特征多项式

f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

和相同的极小多项式, 并且没有

d_{i}

大于

3

, 那么

A

和

B

是相似的.

练习3. 如果

A

是一个

5 \times 5

的复矩阵, 其特征多项式为

f = {(x - 2)}^{3} {(x + 7)}^{2}

而极小多项式为

p = {(x - 2)}^{2} (x + 7)

那么

A

的Jordan形式是什么呢?

练习4.

6 \times 6

的复矩阵, 若其特征多项式为

{(x + 2)}^{4} {(x - 1)}^{2}

, 那么其Jordan形式有多少种可能呢?

练习5. 次数小于等于

3

的多项式构成的向量空间 [译注: 当然包括不能定义次数的零多项式] 上的微分算子, 其在"自然"有序基下由矩阵

[\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}]

表示. 这个矩阵的Jordan形式是什么? (

F

是复数域的一个子域.)

练习6. 令

A

是复矩阵

[\begin{matrix} 2 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2 & 0 & 0 & 0 & 0 \\ - 1 & 0 & 2 & 0 & 0 & 0 \\ 0 & 1 & 0 & 2 & 0 & 0 \\ 1 & 1 & 1 & 1 & 2 & 0 \\ 0 & 0 & 0 & 0 & 1 & - 1 \end{matrix}]

找出

A

的Jordan形式.

练习7. 如果域

F

上的

n \times n

矩阵

A

以

f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

为特征多项式, 请问

A

的迹是多少?

练习8. 按照相似对于满足

A^{3} = I

的

3 \times 3

复矩阵

A

进行分类.

练习9. 按照相似对于满足

A^{n} = I

的

n \times n

复矩阵

A

进行分类.

练习10. 令

n

是大于

1

的整数,

N

是域

F

上一个满足

N^{n} = 0

但是

N^{n - 1} \neq 0

的

n \times n

矩阵, 证明

N

没有平方根, 即不存在

n \times n

的矩阵

A

使得

A^{2} = N

练习11. 令

N_{1}

和

N_{2}

是域

F

上的

6 \times 6

幂零矩阵, 设其拥有相同的极小多项式和相同的零化度, 证明

N_{1}

和

N_{2}

是相似的. 说明为何这对于

7 \times 7

的情况并不成立.

练习12. 使用练习11和Jordan形式的结果证明以下事实: 令

A

和

B

是域

F

有着相同特征多项式

f = {(x - c_{1})}^{d_{1}} \dots {(x - c_{k})}^{d_{k}}

和相同极小多项式的

n \times n

矩阵, 并且设对于每个

i

(A - c_{i} I)

和

(B - c_{i} I)

的解空间有着相同的维数, 如果没有

d_{i}

大于

6

, 那么

A

和

B

是相似的.

练习13. 如果

N

是一个

k \times k

的基本幂零矩阵, 即

N^{k} = 0

但是

N^{k - 1} \neq 0

, 证明

N^{t}

相似于

N

. 现在使用Jordan形式来证明每个复矩阵都相似于其转置.

练习14. 以下证明有何错误? 如果

A

是一个

n \times n

的复矩阵满足

A^{t} = - A

, 那么

A = 0

. (证明: 令

J

是

A

的Jordan形式, 因为

A^{t} = - A

, 所以

J^{t} = - J

. 但是, 鉴于

J

是下三角矩阵,

J^{t} = - J

可以推出

J

的每个元素都是

0

. 既然

J = 0

而

A

相似于

J

, 那么

A = 0

.) (给出非零矩阵

A

满足

A^{t} = - A

的例子.)

练习15. 如果

N

是

ℂ

上的一个

3 \times 3

的幂零矩阵, 证明

A = I + \frac{1}{2} N - \frac{1}{8} N^{2}

满足

A^{2} = I + N

, 即

A

是

I + N

的一个平方根. 使用

{(1 + t)}^{1 / 2}

的二项级数展开以得到类似的

I + N

的平方根公式, 其中

N

是

ℂ

上任意的

n \times n

的幂零矩阵.

练习16. 使用练习15的结果证明如果

c

是一个非零复数而

N

是一个幂零的复矩阵, 那么

(c I + N)

拥有平方根. 现在使用Jordan形式来证明每个非奇异的

n \times n

复矩阵都拥有平方根.

第7.4节不变因子的计算

设 $A$ 是域 $F$ 上的一个 $n \times n$ 矩阵, 我们希望找到一种能够计算确定了 $A$ 的有理形式的不变因子 $p_{1}, \dots, p_{r}$ 的方法. 让我们从简单的情况着手, 即 $A$ 是首项系数为一多项式 $p = x^{n} + c_{n - 1} x^{n - 1} + \dots + c_{1} x + c_{0}$ 的同伴矩阵. 在第7.1节我们已经看到 $p$ 既是 $A$ 的极小多项式也是 $A$ 的特征多项式, 但是现在我们希望直接给出计算以表明 $p$ 是 $A$ 的特征多项式. 在此情况下, 特征矩阵为 $x I - A = [\begin{matrix} x & 0 & 0 & \dots & 0 & c_{0} \\ - 1 & x & 0 & \dots & 0 & c_{1} \\ 0 & - 1 & x & \dots & 0 & c_{2} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & x & c_{n - 2} \\ 0 & 0 & 0 & \dots & - 1 & x + c_{n - 1} \end{matrix}] .$ 将第 $n$ 行乘上 $x$ 加到第 $(n - 1)$ 行上去, 这将移除第 $(n - 1)$ 行 $(n - 1)$ 列的 $x$ , 但是不会改变其行列式的值. 接着, 将新的第 $(n - 1)$ 行乘上 $x$ 加到第 $(n - 2)$ 行上去. 如此反复直至所有主对角线上的 $x$ 都被移除. 这个过程的最终结果是矩阵 $[\begin{matrix} 0 & 0 & 0 & \dots & 0 & x^{n} + \dots + c_{1} x + c_{0} \\ - 1 & 0 & 0 & \dots & 0 & x^{n - 1} + \dots + c_{2} x + c_{1} \\ 0 & - 1 & 0 & \dots & 0 & x^{n - 2} + \dots + c_{3} x + c_{2} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & 0 & x^{2} + c_{n - 1} x + c_{n - 2} \\ 0 & 0 & 0 & \dots & - 1 & x + c_{n - 1} \end{matrix}]$ 其与 $x I - A$ 有着相同的行列式, 而右上角是 $p$ . 通过列变换我们可以清理一下最后一列: $[\begin{matrix} 0 & 0 & 0 & \dots & 0 & p \\ - 1 & 0 & 0 & \dots & 0 & 0 \\ 0 & - 1 & 0 & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & 0 & 0 \\ 0 & 0 & 0 & \dots & - 1 & 0 \end{matrix}]$ 将前 $(n - 1)$ 列每个都乘上 $- 1$ , 然后通过 $(n - 1)$ 次相邻的对换将当前的最后一列移到第一列的位置. 因其(对于行列式而言)总的效果就是 $2 n - 2$ 次的符号反转, 所以行列式仍然不变. 我们得到了矩阵 $[\begin{matrix} p & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ 0 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & 1 \end{matrix}]$ 此时 $p = \det (x I - A)$ 这个事实是显然的.

现在我们将要表明, 对于任意的 $n \times n$ 矩阵 $A$ , 存在一系列行和列变换将 $x I - A$ 转换为上面这种形式的矩阵, 即 $A$ 的不变因子沿着主对角线依次出现. 先让我们完全明了我们将要(对于行和列)施行的操作.

我们关心的是 ${F [x]}^{m \times n}$ , 即由所有以域 $F$ 上的多项式为元素的 $m \times n$ 矩阵构成的集合. 如果 $M$ 是这样的一个矩阵, 那么 $M$ 上的一个初等行变换是以下三种操作中的一种:

给 $M$ 的一行乘上 $F$ 中的一个非零标量;
将 $M$ 的第 $r$ 行替换为第 $r$ 行加上 $f$ 倍的第 $s$ 行, 其中 $f$ 是域 $F$ 上任意的多项式并且 $r \neq s$ ;
交换 $M$ 的两行.

一个初等行变换的逆仍然是相同类型的初等行变换. [译注: 其实所谓类型不是良定的, 但是不要紧, 因为压根不会利用这个事实.] 注意到在1中, 我们要求的是非零标量而不是非零多项式, 因为非标量的多项式并非可逆, 若是如此则会导致不能作出初等行变换可逆的断言. 一个

m \times m

的初等矩阵, 即一个

{F [x]}^{m \times m}

中的初等矩阵, 是可由

m \times m

的恒等矩阵通过单独一个初等行变换得到的矩阵. 显然对于

M

施行一个初等行变换可以等效为给

M

左乘一个相应的

m \times m

的初等矩阵; 实际上, 如果

e

是这样的一个初等行变换, 那么

e (M) = e (I) M .

令 $M, N \in {F [x]}^{m \times n}$ , 我们称 $M$ 行等价于 $N$ , 如果 $N$ 可由 $M$ 经过有限的一系列初等行变换得到: $M = M_{0} \to M_{1} \to \dots \to M_{k} = N .$ 显然 $N$ 行等价于 $M$ 当且仅当 $M$ 行等价于 $N$ , 所以我们可以使用术语" $M$ 和 $N$ 是行等价的". 如果 $N$ 行等价于 $M$ , 那么 $N = P M$ 其中 $m \times m$ 的矩阵 $P$ 是初等矩阵之积: $P = E_{1} \dots E_{k} .$ 特别地, $P$ 是一个可逆矩阵, 其逆为 $P^{- 1} = E_{k}^{- 1} \dots E_{1}^{- 1} .$ 当然, $E_{j}$ 的逆来源于初等行变换的逆. [译注: 多项式上的矩阵乘法也满足结合律, 所以逆矩阵自然是唯一的.]

刚才的这些内容就和域上的矩阵是一样的, 其平行于第1章的那些基本结果. 因此, 其所暗示的接下来的问题应该是如何引入多项式矩阵的行简化阶梯形式. 这里我们遇到了新的障碍. 之前我们是怎么对于矩阵进行行规约的呢? 第一步是选出第 $1$ 行的首非零元, 然后将第 $1$ 行的每个元素都除以那个元素. 对于元素为多项式的矩阵, 我们必然不能在一般情况下完成这个操作. 在接下来的定理中我们可以看到, 特定情形下我们可以绕开这个困难. 然而, 对于 ${F [x]}^{m \times n}$ 而言, 并不存在适用于所有情况的行简化形式. 若是我们也引入列变换, 并研究兼用行列变换得到的等价关系, 那么对于每个矩阵我们可以得到一种相当有用的标准形式. 以下是我们的基本工具.

引理. 令

M \in {F [x]}^{m \times n}

, 设其第一列不全为零, 并令

p

是

M

的第一列各元素的最大公因子, 那么

M

行等价于一个矩阵

N

, 其中

N

的第一列为

[\begin{matrix} p \\ 0 \\ ⋮ \\ 0 \end{matrix}] .

证明. 我们将要证明的东西比我们刚才所陈述的要强一点. 实际上, 我们表明了存在一个找到

N

的算法, 即一个可供机器执行以在有限步骤内计算

N

的描述. 首先, 我们需要一些记号.
令

M \in {F [x]}^{m \times n}

具有非零的首列

M_{1} = [\begin{matrix} f_{1} \\ ⋮ \\ f_{m} \end{matrix}]

定义

\begin{array}{l} l (M_{1}) & = & \min_{f_{i} \neq 0} \deg f_{i} \\ p (M_{1}) & = & \gcd (f_{1}, \dots, f_{m}) \end{array}

令

j

是某个满足

\deg f_{j} = l (M_{1})

的下标. 为了明确起见, 令

j

是满足要求的下标中最小的那个, 即

j = \min {i \in {1, \dots, m} | \deg f_{i} = l (M_{1})}

. 我们尝试用

f_{j}

去除每个

f_{i}

f_{i} = f_{j} g_{i} + r_{i}, r_{i} = 0 或者 \deg r_{i} < \deg f_{j} .

对于每个异于

j

的

i

, 将

M

的第

i

行替换为第

i

行减去

g_{i}

乘上第

j

行. 将第

j

行乘上首项系数的倒数以将

f_{j}

化为首项系数为一的多项式, 然后交换第

j

行和第

1

行. 通过所有这些操作, 我们得到了一个矩阵

M^{'}

, 其第一列为

M_{1}^{'} = [\begin{matrix} {\overline{f}}_{j} \\ r_{2} \\ ⋮ \\ r_{j - 1} \\ r_{1} \\ r_{j + 1} \\ ⋮ \\ r_{m} \end{matrix}] .

我们已经给出了一个良定义的过程以将每个

M

转化为一个具有以下这些性质的

M^{'}

$M^{'}$ 行等价于 $M$ ;
$p (M_{1}^{'}) = p (M_{1})$ ;
要么 $l (M_{1}^{'}) < l (M_{1})$ , 要么 $M_{1}^{'} = [\begin{matrix} p (M_{1}) \\ 0 \\ ⋮ \\ 0 \end{matrix}] .$

性质b和c是容易验证的. [译注: 为了验证性质b, 读者最好回顾一下第4章, 那里将

f_{1}, \dots, f_{m}

的

\gcd

定义为由这些多项式生成的理想的首项系数为一的生成元. 并且, 第4章给出了

\gcd

的一个等价定义, 其更符合我们的直觉, 即若首项系数为一的多项式

d

满足其整除

f_{1}, \dots, f_{m}

且每个整除

f_{1}, \dots, f_{m}

的多项式都整除

d

, 那么

d

是

f_{1}, \dots, f_{m}

的

\gcd

. 或许, 利用等价定义说明性质b是更简单的, 但其实两种定义都差不多.] 实际上, 性质c只是在重述, 要么存在某个

i

使得

r_{i} \neq 0

而

\deg r_{i} < \deg f_{j}

, 要么对于每个

i

都有

r_{i} = 0

, 于是

{\overline{f}}_{j}

成为

f_{1}, \dots, f_{m}

的最大公因子.
现在要证明引理就相当简单了. 我们从矩阵

M

开始, 应用上述过程以得到

M^{'}

. 性质c告诉我们要么矩阵

M^{'}

就是引理所需要的

N

, 要么

l (M_{1}^{'}) < l (M_{1})

. 对于后一种情况, 我们再次应用该过程于

M^{'}

以得到矩阵

M^{(2)} = {(M^{'})}^{'}

. 要是

M^{(2)}

也不合适, 我们就构造

M^{(3)} = {(M^{(2)})}^{'}

, 如此进行下去. 证明的要义在于严格的不等式

l (M_{1}) > l (M_{1}^{'}) > l (M_{1}^{(2)}) > \dots

不可能无限延伸下去. 至多只需要

l (M_{1})

次过程迭代, 我们必定能够抵达具有我们所寻求性质的矩阵

M^{(k)}

. [译注: 这里其实存在一个无关紧要的细节问题, 就是迭代次数的上界严格说来是

l (M_{1}) + 1

, 原因如下. 首先, 除非一开始矩阵的第一列就是符合条件的, 否则都需要进行至少一次迭代. 其次, 迭代终止的条件为

l

应用于矩阵第一列的值不变. 也就是说, 尽管前面的迭代步骤都会导致

l

应用于矩阵第一列的值严格减小, 但是最后一步时总是不变的.]

◻

译者注记. 将引理的背景去掉, 其实这就是求多个多项式的最大公因子的辗转相除法.

定理6. 令

P \in {F [x]}^{m \times m}

, 以下条件是等价的:

$P$ 是可逆的;
$P$ 的行列式是非零的标量多项式;
$P$ 行等价于 $m \times m$ 的恒等矩阵;
$P$ 是初等矩阵之积.

证明. 由i推出ii是显然的, 这是因为行列式函数是乘性的, 而

F [x]

中的可逆元素仅是非零的标量多项式. 实际上, 第5章我们已经通过古典伴随说明了i和ii是等价的. 这里我们的论证提供了由ii推出i的一个不同证明. 我们将坐一圈旋转木马 (merry-go-round)

\begin{matrix} i & \to & ii \\ ↑ & ↓ \\ iv & \leftarrow & iii \end{matrix}

其实并不显然的命题只有从ii推出iii而已.
假定ii成立, 我们考虑

P

的第一列. 其包含特定的多项式

p_{1}, \dots, p_{m}

而我们知道必然有

\gcd (p_{1}, \dots, p_{m}) = 1

因为每个

p_{1}, \dots, p_{m}

的公因子都必然整除

\det (P)

, 其为非零的标量多项式. 应用前述引理于

P

, 我们可以得到一个矩阵

Q = [\begin{matrix} 1 & a_{2} & \dots & a_{m} \\ 0 \\ ⋮ & B \\ 0 \end{matrix}]

其行等价于

P

. 鉴于一次初等行变换至多只会改变矩阵的行列式以一个非零的标量因子,

\det (Q)

也是一个非零的标量多项式. 显然,

(m - 1) \times (m - 1)

的矩阵

B

和

Q

有着相同的行列式. 因此, 我们可以继续将前述引理应用于

B

. 若是重复此步骤

m

次, 就可以得到一个上三角矩阵

R = [\begin{matrix} 1 & a_{2} & \dots & a_{m} \\ 0 & 1 & \dots & b_{m} \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}]

其行等价于

P

. 并且,

R

又显然等价于

m \times m

的恒等矩阵.

◻

推论. 令

M, N \in {F [x]}^{m \times n}

, 那么

N

行等价于

M

当且仅当

N = P M

其中

P \in {F [x]}^{m \times m}

是一个可逆矩阵.

现在我们以类比于初等行变换和行等价的方式来定义初等列变换和列等价. 我们并不需要新的初等矩阵的概念, 因为施行一次初等列变换于恒等矩阵得到的矩阵类和施行一次初等行变换得到的是一样的.

定义. 矩阵

N

等价于矩阵

M

, 如果我们可以通过一系列变换从

M

得到

N

M = M_{0} \to M_{1} \to \dots \to M_{k} = N

其中每一步都是一次初等行变换或者初等列变换.

定理7. 令

M, N \in {F [x]}^{m \times n}

N

等价于

M

当且仅当

N = P M Q

其中

P \in {F [x]}^{m \times m}

和

Q \in {F [x]}^{n \times n}

都是可逆矩阵.

定理8. 令

A \in F^{n \times n}

p_{1}, \dots, p_{r}

是

A

的不变因子, 那么矩阵

x I - A

等价于一个

n \times n

的对角矩阵, 其对角线上的元素依次为

p_{1}, \dots, p_{r}, 1, 1, \dots, 1

证明. 存在可逆矩阵

P \in F^{n \times n}

使得

P^{- 1} A P

成为有理形式, 即具有分块形式

P^{- 1} A P = [\begin{matrix} A_{1} & 0 & \dots & 0 \\ 0 & A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & A_{r} \end{matrix}]

其中

A_{i}

是多项式

p_{i}

的同伴矩阵. 根据定理7, 矩阵

P^{- 1} (x I - A) P = x I - P^{- 1} A P

等价于

x I - A

. 现在我们有

x I - P^{- 1} A P = [\begin{matrix} x I - A_{1} & 0 & \dots & 0 \\ 0 & x I - A_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & x I - A_{r} \end{matrix}]

其中的各个

I

是具有适当大小的恒等矩阵. 根据本节开头的讨论, 我们表明了

x I - A_{i}

等价于矩阵

[\begin{matrix} p_{i} & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}] .

将以上得到的结果组合一下, 显然

x I - A

等价于这样的对角矩阵, 其主对角线上具有多项式

p_{i}

和

(n - r)

个

1

. 通过交换行和列, 可以将对角线元素按照我们想要的顺序排列, 即:

p_{1}, \dots, p_{r}, 1, \dots, 1

◻

定理8的证明并未给出计算不变因子 $p_{1}, \dots, p_{r}$ 的有效方法, 因为其依赖于循环分解定理. 现在我们将给出一个规约行列式矩阵为对角形式的显式算法. 定理8的证明暗示了我们也可以将主对角线上的相继元素安排成前一个整除后一个的样子. [译注: 也就是说, 反转整个主对角线上的元素的顺序.]

定义. 令

N \in {F [x]}^{m \times n}

, 我们称

N

具有(Smith)规范形式, 如果

$N$ 的每个偏离主对角线的元素都是 $0$ ;
$N$ 的主对角线上的元素依次是 $f_{1}, \dots, f_{l}$ , 其满足 $f_{k}$ 整除 $f_{k + 1}$ , $1 \leq k \leq l - 1$ .

在以上定义中, 数字

l = \min (m, n)

, 而主对角线元素是

f_{k} = N_{k, k}, k = 1, \dots, l

译者注记. 作者在定义里遗漏了一个细节, 其后果是规范形式并非唯一. 实际上, 这里还需要添加额外的限制条件, 即主对角线上的非零元素的首项系数均为一.

定理9. 令

M \in {F [x]}^{m \times n}

, 那么

M

等价于一个具有规范形式的矩阵

N

证明. 鉴于原文的证明存在一些基本问题, 又很难通过直接打上补丁修复完善, 因此译者自行编制了一个证明, 其已经尽量在精神上与原文保持一致.
如果

M = 0

, 那么

M

本身就具有规范形式, 无需证明. 如果

M \neq 0

, 我们想要(通过初等行变换和初等列变换)将其化为与之等价的形式

M^{'} = [\begin{matrix} f_{1} & 0 & \dots & 0 \\ 0 \\ ⋮ & R \\ 0 \end{matrix}]

其中首项系数为一的多项式

f_{1}

整除矩阵

R

的每个元素. 若我们的确能够施行此项操作, 实际上证明就结束了. 这是因为我们可以再次将该过程应用于

R

以得到多项式

f_{2}

, 并且我们知道

f_{1}

整除

f_{2}

. 不断迭代下去, 我们最终将抵达所需的规范形式.
令

l (M) = \min_{M_{i, j} \neq 0} \deg M_{i, j}

. 为了简单起见, 我们将以归纳法叙述证明. 如果

l (M) = 0

, 这是显然的, 因为此时

M

具有某个标量元素, 只需将其化为

1

然后移动到左上角, 最后消去第一列和第一行的其他元素即可. 对于

l (M) > 0

, 我们令

k = l (M)

, 并作归纳假设: 对于任意的矩阵

N \in {F [x]}^{m \times n}

, 如果

l (N) < k

, 那么我们可以运用初等行变换和初等列变换将其化为我们想要的形式. 现在我们找出矩阵

M

中一个具有最低次数的元素, 然后将其移动到左上角来. 我们可以通过初等行变换将第一列除第一行以外的元素化为其除以第一行元素的余式. 若余式不均为零, 那么整个矩阵的元素的最低次数就减小了, 运用归纳假设即可. 否则的话, 我们将注意力放到第一行上来. 如法炮制, 我们可以通过初等列变换将第一行除了第一列以外的元素化为其除以第一列元素的余式. 若存在不为零的余式, 则又可使用归纳假设. 如果上面两个手段失效了, 此时第一行和第一列除左上角元素外均已化为零. 那么, 左上角的元素是否整除右下角的

(m - 1) \times (n - 1)

分块矩阵的每个元素呢? 如果是, 那么就结束了. 否则的话, 即存在某个元素不能被左上角整除, 我们将包含该元素的列加到第一列上去. 明显地, 我们再次将第一列除了第一行之外的元素化为其除以第一行元素的余式. 此时可以肯定某个余式不为零, 即我们创造了利用归纳假设的条件. 至此证明全然结束了.
最后我们还想顺便说一句, 尽管这个以归纳法进行的证明似乎是声明性的, 但是实际上其已足够指导我们施行一个过程算法来将矩阵化为我们所需要的形式, 或者说其可以导出一个这样的过程. 或许, 这是因为归纳和递归天然就是类似的.

◻

我们想要表明与一个矩阵 $M$ 相关联的规范形式是唯一的. 我们已经见过的两件事实提供了定理9中的多项式 $f_{1}, \dots, f_{l}$ 何以被 $M$ 唯一确定的线索. 首先, 初等行变换和初等列变换至多改变一个方阵的行列式以非零的标量因子. 其次, 初等行变换和初等列变换不会改变矩阵的元素的最大公因子. [译注: 实际上, 这两个事实之间的关系是递进的, 而后者才是真正的线索. 以下我们将证明, 确定了矩阵的Smith规范形式的不变因子 (即规范形式的主对角线上的元素) 可由所谓的行列式因子决定.]

定义. 令

M \in {F [x]}^{m \times n}

, 如果

1 \leq k \leq \min (m, n)

, 我们将

δ_{k} (M)

定义为

M

的所有

k \times k

子矩阵的行列式的最大公因子. [译注: 在许多中文教材中,

k \times k

的子矩阵的行列式常被称为

k

阶子式, 而

δ_{k} (M)

常被称为

M

的

k

阶行列式因子. 值得注意的是, 某一阶的子式可能全部为零, 此时的行列式因子要么设为未定义的, 要么就定义为零.]

回忆一下, $M$ 的一个 $k \times k$ 子矩阵是将 $M$ 的某 $m - k$ 行和某 $n - k$ 列删去得到的东西. 换言之, 我们挑选了两个特定的 $k$ 元组 $\begin{array}{l} I & = & (i_{1}, \dots, i_{k}) & , 1 \leq i_{1} < \dots < i_{k} \leq m \\ J & = & (j_{1}, \dots, j_{k}) & , 1 \leq j_{1} < \dots < j_{k} \leq n \end{array}$ 然后由 $M$ 的这些行和列构造了矩阵. 我们感兴趣的是行列式 $D_{I, J} (M) = \det [\begin{matrix} M_{i_{1}, j_{1}} & \dots & M_{i_{1}, j_{k}} \\ ⋮ & ⋮ \\ M_{i_{k}, j_{1}} & \dots & M_{i_{k}, j_{k}} \end{matrix}] .$ 多项式 $δ_{k} (M)$ 是诸多项式 $D_{I, J} (M)$ 的最大公因子, 其中 $I$ 和 $J$ 遍历所有可能的前述 $k$ 元组.

定理10. 如果

M, N \in {F [x]}^{m \times n}

是等价的矩阵, 那么

δ_{k} (M) = δ_{k} (N), 1 \leq k \leq \min (m, n) .

证明. 实际上证明单次初等行变换

e

不会改变

δ_{k}

就够了, 而又因为

e

是可逆的, 所以我们只需要证明: 对于每个

k

而言, 如果多项式

f

整除所有

D_{I, J} (M)

, 那么

f

整除所有

D_{I, J} (e (M))

, 其中

I, J

是一切可能的前述

k

元组.
既然我们在考虑行变换, 令

α_{1}, \dots, α_{m}

是

M

的行, 并且我们采用记号

D_{J} (α_{i_{1}}, \dots, α_{i_{k}}) = D_{I, J} (M) .

[译注: 严格说来, 这个定义方式稍有问题, 但是记号的含义还算是明确, 即以这些行构造矩阵, 取

J

指定的列来构造子矩阵, 最后计算其行列式.] 给定

I

和

J

D_{I, J} (M)

和

D_{I, J} (e (M))

之间有什么关系呢? 考虑变换

e

的三种类型:

给第 $r$ 行乘上一个非零标量 $c$ ;
将第 $r$ 行替换为第 $r$ 行加上 $g$ 倍的第 $s$ 行, 其中 $r \neq s$ ;
交换第 $r$ 行和第 $s$ 行, 其中 $r \neq s$ .

暂时忘掉类型c的操作, 让我们专注于类型a和b, 其仅改变第

r

行. 如果

r

不在下标

i_{1}, \dots, i_{k}

之中, 那么显然

D_{I, J} (e (M)) = D_{I, J} (M) .

如果

r

在下标

i_{1}, \dots, i_{k}

之中, 那么对于这两种类型的操作我们有

$\begin{array}{rcl} D_{I, J} (e (M)) & = & D_{J} (α_{i_{1}}, \dots, c α_{r}, \dots, α_{i_{k}}) \\ = & c D_{J} (α_{i_{1}}, \dots, α_{r}, \dots, α_{i_{k}}) \\ = & c D_{I, J} (M) \end{array}$
$\begin{array}{rcl} D_{I, J} (e (M)) & = & D_{J} (α_{i_{1}}, \dots, α_{r} + g α_{s}, \dots, α_{i_{k}}) \\ = & D_{I, J} (M) + g D_{J} (α_{i_{1}}, \dots, α_{s}, \dots, α_{i_{k}}) \end{array}$

对于类型a的操作, 显然任意整除

D_{I, J} (M)

的多项式

f

也整除

D_{I, J} (e (M))

. 对于类型c的操作的情况, 注意到

如果存在 $j$ 使得 $s = i_{j}$ , 那么 $D_{J} (α_{i_{1}}, \dots, α_{s}, \dots, α_{i_{k}}) = 0$ ;
否则的话, 即对于所有 $j$ 都是 $s \neq i_{j}$ , 那么 $D_{J} (α_{i_{1}}, \dots, α_{s}, \dots, α_{i_{k}}) = \pm D_{I^{'}, J} (M)$ .

这个

I^{'}

是将

k

元组

(i_{1}, \dots, s, \dots, i_{k})

按照升序重新排列得到的. 应该很明了的是, 如果

f

整除每个

D_{I, J} (M)

, 那么

f

整除每个

D_{I, J} (e (M))

. [译注: 这里的

I, J

就不是给定的两个

k

元组了, 而是所有可能的情况.]
对于类型c操作的情况, 大致上也可遵循相同的论证手段, 或者说实际上其可以被实现为类型a和b操作的组合.

◻

推论. 每个矩阵

M \in {F [x]}^{m \times n}

都恰等价于一个具有规范形式的

N

. 出现在

N

的主对角线上的多项式

f_{1}, \dots, f_{l}

为

f_{k} = \frac{δ_{k} (M)}{δ_{k - 1} (M)}, 1 \leq k \leq \min (m, n)

其中为了方便起见, 我们定义

δ_{0} (M) = 1

证明. 如果规范形式

N

以

f_{1}, \dots, f_{l}

为对角线元素, 那么很容易看出来

δ_{k} (N) = f_{1} f_{2} \dots f_{k} .

◻

译者注记. 这个推论及其证明大体上是正确的, 就是有点粗糙. 问题在于, 可能存在某个

k

使得所有

k

阶子式都为零. (当然, 对于每个

k^{'} \geq k

k^{'}

阶子式也都为零.) 至于如何细致地解决这个问题, 也就是说将推论及其证明陈述得圆满, 那就留给读者了.

当然了, 我们将推论中的矩阵 $N$ 称为 $M$ 的规范形式. 多项式 $f_{1}, \dots, f_{l}$ 常被称为 $M$ 的不变因子.

设 $A \in F^{n \times n}$ 而令 $p_{1}, \dots, p_{r}$ 是 $A$ 的不变因子. 现在我们可以看出矩阵 $x I - A$ 的规范形式的对角线元素依次是 $1, 1, \dots, 1, p_{r}, \dots, p_{1}$ . 前面的推论告诉我们如何基于 $x I - A$ 的子矩阵 [译注: 其实就是各阶行列式因子] 来表达 $p_{1}, \dots, p_{r}$ . 数字 $n - r$ 是 $\max {k \in {1, \dots, n} | δ_{k} (x I - A) = 1}$ . $A$ 的极小多项式 $p_{1}$ 是 $A$ 的特征多项式除以 $x I - A$ 的所有 $(n - 1) \times (n - 1)$ 的子矩阵的最大公因子 [译注: 也就是 $(n - 1)$ 阶行列式因子], 诸如此类.

练习1. 对还是错? 每个

{F [x]}^{m \times n}

中的矩阵都行等价于一个上三角矩阵.

练习2. 令

T

是有限维向量空间上的一个线性算子,

A

是

T

在某个有序基下的矩阵, 那么

T

拥有循环向量当且仅当

(x I - A)

的各

(n - 1) \times (n - 1)

子矩阵的行列式互素.

练习3. 令

A \in F^{n \times n}

, 设

f_{1}, \dots, f_{n}

是

x I - A

的规范形式的对角线元素. 对于什么样的矩阵

A

有

f_{1} \neq 1

呢?

练习4. 构造一个以

x^{2} {(x - 1)}^{2}

为极小多项式且以

x^{3} {(x - 1)}^{4}

为特征多项式的线性算子

T

. 描述

T

下对于向量空间的准素分解, 并找出投影至这些不变子空间的算子. 找到一个基使得

T

的表示矩阵呈现Jordan形式. 最后, 显式给出定理3中的循环分解 (其将向量空间分解为

T

循环子空间的直和), 并求出不变因子.

练习5. 令

T

是

ℝ^{8}

上的线性算子, 其在标准有序基下由矩阵

A = [\begin{array}{r} 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & - 1 \\ 0 & 1 & 1 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 1 & 0 & 0 & 0 \\ 0 & 1 & 1 & 1 & 1 & 1 & 0 & 1 \\ 0 & - 1 & - 1 & - 1 & - 1 & 0 & 1 & - 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{array}]

表示.

找出特征多项式和不变因子.
找出 $ℝ^{8}$ 在 $T$ 下的准素分解以及相应的那些投影. 对于准素分解的每个直和分量, 找出如定理3那样的循环分解.
找出 $A$ 的Jordan形式.
如定理3那样, 将 $ℝ^{8}$ 分解为 $T$ 循环子空间的直和. (提示: 一种做法是使用b的结果并对于例子4中所讨论的想法进行适当泛化.)

第7.5节总结; 半单算子

在前一章和本章中, 我们一直在处理有限维向量空间 $V$ 上的单独一个线性算子 $T$ . 既定的流程在于将 $T$ 分解为比较简单的线性算子的直和, 这是为了获得 $T$ 是如何在空间 $V$ 上进行"操作"的详细信息. 让我们简要回顾一下现在我们所立之地.

最初我们使用特征值和特征向量来研究 $T$ . 我们引入了可对角化算子的概念, 其可以基于特征值和特征向量被完全刻画. 接着, 我们观察到 $T$ 可能连一个特征向量都没有. 即便是标量域为代数闭域的情形, 此时每个线性算子都至少拥有一个特征向量, 我们注意到这些 $T$ 的特征向量也未必能够张成整个空间.

于是, 我们证明了循环分解定理, 将任意的线性算子表达为拥有循环向量的算子的直和, 这无需对于标量域进行任何假定. 如果 $U$ 是拥有循环向量的一个线性算子, 那么存在一个基 ${α_{1}, \dots, α_{n}}$ 满足 $\begin{array}{l} U α_{j} = α_{j + 1}, j = 1, \dots, n - 1 \\ U α_{n} = - c_{0} α_{1} - c_{1} α_{2} - \dots - c_{n - 1} α_{n} \end{array}$ $U$ 在这个基上的作用为将每个 $α_{j}$ 偏移为下一个向量 $α_{j + 1}$ , 除了 $U α_{n}$ 是基中这些向量的某个线性组合. 既然一般的线性算子 $T$ 都是有限数目的这样的线性算子 $U$ 的直和, 我们可以得到对于 $T$ 的作用的一种显式而又相当简单的描述.

接下来我们将循环分解定理应用于幂零算子. 在标量域为代数闭域的情形下, 我们将其与准素分解定理相结合, 可以得到所谓的Jordan形式. Jordan形式给出了空间 $V$ 的一个基 ${α_{1}, \dots, α_{n}}$ , 其使得对于每个 $j$ , 要么 $T α_{j}$ 是 $α_{j}$ 的标量倍数, 要么 $T α_{j} = c α_{j} + α_{j + 1}$ . 这样的一个基当然以一种显式而又简单的方式刻画了 $T$ 的作用.

有理形式 (或者Jordan形式) 的重要性在于其存在性, 而非其在特定情形下可以被计算出来. 当然了, 如果给定一个线性算子并可计算其循环形式 [译注: 也就是有理形式] 或者Jordan形式, 那就是应该要做的事情. 这是因为, 若是我们拥有如此形式, 则可一口气报出大量关于 $T$ 的信息. 标准形式的计算之中会出现两种不同类型的困难. 一种困难当然是计算可能会过于冗长. 另一种困难在于即便拥有必要的时间和耐心, 可能也没有任何方法能够施行意图的计算. 比如说, 第二种类型的困难出现于尝试计算一个复矩阵的Jordan形式时. 鉴于分解特征多项式并无良定的方法, 因而读者可能在问题的外围就卡住了. 不过, 我们的确在第7.4节表明了存在一个找出给定 $n \times n$ 矩阵的有理形式的算法. 然而, 这样的计算通常都是极其繁琐的. [译注: 当然, 就译者所处的时代而言, 读者完全可以使用计算机来施行这种计算.]

在以上我们对于本章和前一章的总结中, 我们尚未提及一个我们已经证明了的定理. 这个定理是说, 如果 $T$ 是某个代数闭域上的向量空间上的线性算子, 那么其可以被唯一地分解为相互交换的一个可对角化算子和一个幂零算子之和. 这个结果是由准素分解定理和关于可对角化算子的特定信息推得的. 它不像循环分解定理或者Jordan形式的存在性那样深刻, 但是它的确在特定的数学部分里有着重要的用途. 为了给本章作结, 我们将证明了一个类似的定理, 但不假定标量域为代数闭域. 我们先来定义一种算子, 其将扮演着与可对角化算子类似的角色.

定义. 令

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子. 我们称

T

是半单 (semi-simple) 的, 如果每个

T

不变的子空间都拥有一个与之互补的

T

不变的子空间.

我们要证明的是, 只需要对于域 $F$ 作出一些限制, 那么每个线性算子 $T$ 都可以被唯一地表示为 $T = S + N$ 的形式, 其中 $S$ 是半单的, $N$ 是幂零的, 而且 $S N = N S$ . 首先, 我们将要通过极小多项式来刻画半单算子, 而这种刻画将表明, 当 $F$ 是代数闭域时, 一个线性算子是半单的当且仅当其是可对角化的.

引理. 令

T

是有限维向量空间

V

上的一个线性算子, 令

V = W_{1} \oplus \dots \oplus W_{k}

是

T

的准素分解. 换言之, 如果

p

是

T

的极小多项式而

p = p_{1}^{r_{1}} \dots p_{k}^{r_{k}}

是

p

的素因子分解, 那么

W_{j}

是

p_{j}^{r_{j}} (T)

的零空间. 令

W

是

V

的任意在

T

下不变的子空间, 那么

W = (W \cap W_{1}) \oplus \dots \oplus (W \cap W_{k}) .

证明. 为了证明这个引理, 我们需要回忆一下第6.8节中我们对于准素分解定理的证明的一个推论. 如果

E_{1}, \dots, E_{k}

是与分解

V = W_{1} \oplus \dots \oplus W_{k}

对应的投影, 那么每个

E_{j}

都是应用某个多项式于

T

的结果. 也就是说, 存在多项式

h_{1}, \dots, h_{k}

使得

E_{j} = h_{j} (T)

.
现在令

W

是在

T

下不变的一个子空间. 如果

α \in W

, 那么

α = α_{1} + \dots + α_{k}

, 其中

α_{j} \in W_{j}

. 既然

α_{j} = E_{j} (α) = h_{j} (T) α

并且

W

在

T

下不变, 每个

α_{j}

也在

W

之中. 因此, 每个

α \in W

都具有

α = α_{1} + \dots + α_{k}

的形式, 其中

α_{j} \in W \cap W_{j}

. 这个表达方式当然是唯一的, 鉴于

V = W_{1} \oplus \dots \oplus W_{k}

. 也就是说, 我们得到了

W = (W \cap W_{1}) \oplus \dots \oplus (W \cap W_{k}) .

◻

引理. 令

T

是有限维向量空间

V

上的一个线性算子, 设

T

的极小多项式在标量域

F

上不可约, 那么

T

是半单的.

证明. 令

W

是

V

的一个在

T

下不变的子空间, 我们必须要证明

W

拥有一个与之互补的

T

不变子空间. 根据定理3的一个推论, 实际上证明{如果多项式

f

和向量

β \in V

满足

f (T) β \in W

, 那么存在

α \in W

使得

f (T) β = f (T) α

}就足够了. 于是, 设

β \in V

和多项式

f

满足

f (T) β \in W

. 若

f (T) β = 0

, 令

α = 0

, 那么

α \in W

并且

f (T) β = f (T) α

. 若

f (T) β \neq 0

, 那么

f

不被

T

的极小多项式

p

整除. 既然

p

是素多项式, 那么

f

和

p

是互素的. 也就是说, 存在多项式

g

和

h

使得

f g + p h = 1

. 因为

p (T) = 0

, 我们就有

f (T) g (T) = I

, 而这又能推出

β

必然在子空间

W

之中, 鉴于

\begin{array}{rcl} β & = & g (T) f (T) β \\ = & g (T) (f (T) β) \end{array}

其中

f (T) β \in W

而

W

在

T

下不变. 取

α = β

即可.

◻

定理11. 令

T

是有限维向量空间

V

上的一个线性算子, 那么

T

为半单算子的充要条件是

T

的极小多项式

p

具有

p = p_{1} \dots p_{k}

的形式, 其中

p_{1}, \dots, p_{k}

是互异的标量域

F

上的不可约多项式. [译注: 虽然没有显式说明, 但是

p_{1}, \dots, p_{k}

当然默认是非标量且首项系数为一的了.]

证明. 设

T

是半单算子, 我们将证明在对于极小多项式

p

的素因子分解中, 没有不可约多项式会重复出现. 假设其否定成立, 那么存在某个非标量的首项系数为一多项式

g

满足

g^{2}

整除

p

. 令

W

是算子

g (T)

的零空间, 那么

W

在

T

下不变. 现在对于某个多项式

h

有

p = g^{2} h

, 既然

g

并非标量多项式, 那么算子

g (T) h (T)

并非零算子. 于是, 存在

β \in V

使得

g (T) h (T) β \neq 0

, 即

(g h) β \neq 0

. 虽然

(g h) β \in W

, 鉴于

g (g h β) = g^{2} h β = p β = 0

, 但是并无

α \in W

能够使得

g h β = g h α

. 这是因为, 如果

α \in W

, 那么

(g h) α = (h g) α = h (g α) = h (0) = 0 .

也就是说,

W

没有与之互补的

T

不变子空间, 这与

T

是半单算子的假设矛盾.
现在设

p

的素因子分解为

p = p_{1} \dots p_{k}

, 其中

p_{1}, \dots, p_{k}

是互异的不可约(非标量)首项系数为一的多项式. [译注: 作者似乎终于回想起来第4章里不可约多项式和素多项式是两个不同的概念.] 令

W

是

V

的一个在

T

下不变的子空间, 我们将证明

W

拥有一个与之互补的

T

不变的子空间. 令

V = W_{1} \oplus \dots \oplus W_{k}

是

T

的准素分解, 即令

W_{j}

是

p_{j} (T)

的零空间. 令

T_{j}

是

T

于

W_{j}

上由限制导出的算子, 于是

T_{j}

的极小多项式为素多项式

p_{j}

. 现在

W \cap W_{j}

是

W_{j}

的一个在

T_{j}

下 (或者说在

T

下) 不变的子空间. 根据前面的第二条引理, 存在

W_{j}

的一个在

T_{j}

下不变的子空间

V_{j}

使得

W_{j} = (W \cap W_{j}) \oplus V_{j}

. 当然, 既然

V_{j}

在

T_{j}

下不变, 其肯定也在

T

下不变. 那么, 我们有

\begin{array}{rcl} V & = & W_{1} \oplus \dots \oplus W_{k} \\ = & (W \cap W_{1}) \oplus V_{1} \oplus \dots \oplus (W \cap W_{k}) \oplus V_{k} \\ = & [(W \cap W_{1}) \oplus \dots \oplus (W \cap W_{k})] \oplus V_{1} \oplus \dots \oplus V_{k} \end{array}

根据之前的第一条引理, 我们知道

W = (W \cap W_{1}) \oplus \dots \oplus (W \cap W_{k})

. 于是, 若令

W^{'} = V_{1} \oplus \dots \oplus V_{k}

, 那么

V = W \oplus W^{'}

且

W^{'}

在

T

下不变.

◻

推论. 如果

T

是某个代数闭域上的有限维向量空间上的线性算子, 那么

T

是半单的当且仅当

T

是可对角化的.

证明. 如果标量域

F

是代数闭域, 那么

F

上的首项系数为一的素多项式都具有

x - c

的形式. 在这种情况下,

T

是半单算子当且仅当

T

的极小多项式为

p = (x - c_{1}) \dots (x - c_{k})

, 其中

c_{1}, \dots, c_{k}

是

F

的不同元素, 而这恰恰就是我们在第6章建立的刻画

T

为可对角化算子的准则.

◻

我们应该指出, $T$ 是半单算子当且仅当存在某个多项式 $f$ , 其是不同的素多项式之积, 使得 $f (T) = 0$ . 这仅是与极小多项式为不同的素多项式之积的条件在表面上有所区别. [译注: 这里说的不同, 更准确地说, 实际上是互素, 因为我们不计标量缩放的差异.]

现在我们将注意力转移到将线性算子表示为交换的半单算子与幂零算子之和的问题上来. 在这里, 我们要限制标量域为复数域的一个子域. 机敏的读者可能会看出来要义在于域 $F$ 应该是一个特征为零的域. 也就是说, 对于每个正整数 $n$ , $F$ 中的和 $1 + \dots + 1$ ( $n$ 个 $1$ 相加) 不应该为 $0$ . 对于域 $F$ 上的多项式 $f$ , 我们用 $f^{(k)}$ 代表 $f$ 的 $k$ 阶形式导数. 换一种记号的话, 就是 $f^{(k)} = D^{k} f$ , 其中 $D$ 是多项式空间上的形式微分算子. 如果 $g$ 是另一个域 $F$ 的多项式, 那么我们用 $f (g)$ 代表应用 $f$ 于 $g$ 的结果, 即由应用多项式 $f$ 于线性代数 $F [x]$ 中的元素 $g$ 得到的多项式. [译注: 应用域 $F$ 上的多项式于域 $F$ 上的含幺元的线性代数的元素的操作在第4章中被定义, 当然这里的域不需要什么额外的限制.]

引理. Taylor公式. 令

F

是一个特征为零的域,

g

和

h

是域

F

上的多项式. 如果

f

也是域

F

上的多项式并且

\deg f \leq n

, 那么

f (g) = \sum_{k = 0}^{n} \frac{1}{k!} f^{(k)} (h) {(g - h)}^{k} .

[译注: 这个实际上是第4章最后一节的某个练习.]

证明. 我们要证明的是一般化了的Taylor公式. 若令

h = c

而

g = x

, 我们则可得到原本的公式, 即

f = f (x) = f (c) + f^{(1)} (c) (x - c) + \frac{f^{(2)} (c)}{2!} {(x - c)}^{2} + \dots + \frac{f^{(n)} (c)}{n!} {(x - c)}^{n} .

对于这一般公式的证明实际上只是二项式定理

{(a + b)}^{k} = a^{k} + k a^{k - 1} b + \frac{k (k - 1)}{2!} a^{k - 2} b^{2} + \dots + b^{k}

的一个应用. 读者应该看出来, 既然替换和微分是线性过程, 那么只需要对于

f = x^{k}

的情况证明公式成立就足够了, 因为

f = \sum_{k = 0}^{n} c_{k} x^{k}

的一般情形可再由线性组合推得. 若

f = x^{k}

, 其中

k \leq n

, 那么Taylor公式是在说

g^{k} = h^{k} + k h^{k - 1} (g - h) + \frac{k (k - 1)}{2!} h^{k - 2} {(g - h)}^{2} + \dots + {(g - h)}^{k}

这不过就是

g^{k} = {[h + (g - h)]}^{k}

的二项式展开而已. [译注: 对于

j > k

f^{(j)} = 0

◻

译者注记. "替换和微分是线性过程"是说对于任意的标量

a

和

b

, 对于任意的多项式

f

和

g

, 对于任意的非负整数

k

, 我们有

(a f + b g) (h) = a [f (h)] + b [g (h)]

以及

{(a f + b g)}^{(k)} = a f^{(k)} + b g^{(k)}

于是最终得到

\begin{array}{rcl} a [f^{(k)} (h)] + b [g^{(k)} (h)] & = & [a f^{(k)} + b g^{(k)}] (h) \\ = & {(a f + b g)}^{(k)} (h) \end{array}

引理. 令

F

是复数域的一个子域,

f

是域

F

上的一个首项系数为一的多项式,

f^{'}

是

f

的形式导数, 那么以下陈述是等价的:

$f$ 的素因子分解中各项互异;
$f$ 和 $f^{'}$ 互素;
若将 $f$ 视为域 $ℂ$ 上的多项式, $f$ 没有重复的根.

证明. 陈述a和b的等价性实际上就是第4章的定理11 (而且那里的域可以是任意的), 所以不再赘述. 为了看出陈述c与a和b的等价性, 我们只需观察到以下事实. 对于域

F

上的多项式

f

和

g

, 它们作为域

F

上的多项式而互素等价于其作为域

ℂ

上的多项式而互素. 我们将这个的证明留作练习. 取

g = f^{'}

, 注意到在

f

被视为

ℂ

上的多项式时, c就是a, 因而b和c是等价的.

◻

译者注记. 这个观察到的事实可以通过带余除法的唯一性和辗转相除法说明.

现在我们可以证明一个定理, 其使得半单算子和可对角化算子之间的关系更加明晰.

定理12. 令

F

是复数域的一个子域,

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子,

A

是

T

在某个有序基下的表示矩阵, 那么

T

是半单算子当且仅当

A

在复数域上相似于一个对角矩阵.

证明. 令

p

是

T

的极小多项式. 根据定理11,

T

为半单算子当且仅当

p

在域

F

上的素因子分解

p = p_{1} \dots p_{k}

中

p_{1}, \dots, p_{k}

互异. 根据前述引理,

T

是半单算子当且仅当

p

在复数域上没有重复的根.
当然,

p

也是矩阵

A

的极小多项式. [译注: 读者或许可以回忆一下, 极小多项式并不会因为域的扩张而改变.] 我们知道

A

在复数域上相似于一个对角矩阵当且仅当极小多项式没有重复的复根. 这就证明了定理12.

◻

定理13. 令

F

是复数域的一个子域,

V

是域

F

上的一个有限维向量空间,

T

是

V

上的一个线性算子, 那么存在

V

上的半单算子

S

和幂零算子

N

使得

$T = S + N$ ;
$S N = N S$ .

而且, 半单算子

S

和幂零算子

N

可由i和ii唯一确定, 它们都是应用某个多项式于

T

得到的结果.

证明. 令

p_{1}^{r_{1}} \dots p_{k}^{r_{k}}

是

T

的极小多项式的素因子分解,

f = p_{1} \dots p_{k}

r = \max (r_{1}, \dots, r_{k})

, 那么

f

是互异的首项系数为一的素多项式之积, 且

f^{r}

被

T

的极小多项式整除, 于是

f^{r} (T) = 0 .

我们将要构造一个多项式序列

g_{0}, g_{1}, g_{2}, \dots

使得对于每个自然数

n = 0, 1, 2, \dots

, 有

f (x - \sum_{j = 0}^{n} g_{j} f^{j})

被

f^{n + 1}

整除. 我们取

g_{0} = 0

, 那么

f (x - g_{0} f^{0}) = f (x) = f

被

f

整除. 设我们已经选定了

g_{0}, \dots, g_{n - 1}

, 令

h = x - \sum_{j = 0}^{n - 1} g_{j} f^{j}

根据假设,

f (h)

被

f^{n}

整除. 我们想要找出一个

g_{n}

使得

f (h - g_{n} f^{n})

被

f^{n + 1}

整除. 我们应用一般Taylor公式, 然后可以得到

\begin{array}{rcl} f (h - g_{n} f^{n}) & = & \sum_{k = 0}^{\deg f} \frac{1}{k!} f^{(k)} (h) {(- g_{n} f^{n})}^{k} \\ = & f (h) - g_{n} f^{n} f^{'} (h) + f^{n + 1} b \end{array}

其中

b

是某个多项式. [译注: 如果注意一下细节的话, 这里

\deg f \geq 1

且

n \geq 1

.] 根据假设, 存在多项式

q

满足

f (h) = q f^{n}

. 因此, 为了使得

f (h - g_{n} f^{n})

被

f^{n + 1}

整除, 只需要选择令

[q - g_{n} f^{'} (h)]

被

f

整除的

g_{n}

就可以了, 这的确是可以做到的. 鉴于

p_{1}, \dots, p_{k}

互异, 所以

f

和

f^{'}

互素. 也就是说, 存在多项式

a

和

e

满足

a f + e f^{'} = 1

. 将其应用于

h

, 我们就得到

a (h) f (h) + e (h) f^{'} (h) = 1 .

令

g_{n} = q [e (h)]

, 那么

\begin{array}{rcl} q - g_{n} f^{'} (h) & = & q - q [e (h)] f^{'} (h) \\ = & q [a (h)] f (h) \\ = & q^{2} [a (h)] f^{n} \end{array}

即

[q - g_{n} f^{'} (h)]

被

f

整除. [译注: 这里的方括号仅是为了明示运算的顺序, 而非应用多项式之意.]
现在我们已经有了一个序列

g_{0}, g_{1}, \dots

使得

f^{n + 1}

整除

f (x - \sum_{j = 0}^{n} g_{j} f^{j})

并且

g_{0} = 0

. 让我们取

n = r - 1

, 既然

f^{r} (T) = 0

, 我们有

f (T - \sum_{j = 0}^{r - 1} g_{j} (T) f^{j} (T)) = 0 .

[译注: 这里用到了

[f (g)] (T) = f (g (T))

的事实.] 令

N = \sum_{j = 1}^{r - 1} g_{j} (T) f^{j} (T) = \sum_{j = 0}^{r - 1} g_{j} (T) f^{j} (T)

既然

\sum_{j = 1}^{n} g_{j} f^{j}

被

f

整除, 我们看出来

N^{r} = 0

, 即

N

是一个幂零算子. 令

S = T - N

, 那么

f (S) = f (T - N) = 0

. 鉴于

f

是不同的首项系数为一的素多项式之积, 那么

S

的极小多项式的素因子分解中也不可能出现重复的因子, 所以

S

是半单的.
现在我们有

T = S + N

, 其中

S

是一个半单算子,

N

是一个幂零算子, 并且它们都是应用某个多项式于

T

的结果, 因而是交换的. 为了证明唯一性的陈述, 让我们从标量域

F

转移到复数域

ℂ

上来考虑问题. 令

𝔅

是空间

V

的某个有序基, 那么我们有

{[T]}_{𝔅} = {[S]}_{𝔅} + {[N]}_{𝔅}

其中

{[S]}_{𝔅}

在复数域上是可对角化的, 而

{[N]}_{𝔅}

是一个幂零矩阵, 并且它们还是交换的. 根据第6章中我们已经证明了的结果, 这样的两个矩阵是唯一确定的.

◻

译者注记. 实际上第6章只表述了线性算子的版本, 若将其写成矩阵的形式, 则是以下定理.

定理. 对于域

F

上的

n \times n

矩阵

A

, 若

A

的极小多项式可以在域

F

上被分解为一次因子之积, 那么存在可对角化矩阵

D \in F^{n \times n}

和幂零矩阵

N \in F^{n \times n}

满足

$A = D + N$ ;
$D N = N D$ .

其中可对角化矩阵

D

和幂零矩阵

N

由条件i和ii唯一确定, 并且它们都是应用某个多项式于

A

得到的结果.

练习1. 对于标量域为复数域的一个子域的有限维向量空间

V

, 如果

N

是

V

上的一个幂零线性算子, 那么对于任意的多项式

f

f (N)

的半单部分是恒等算子的一个标量倍数.

练习2. 令

F

是复数域的一个子域,

V

是

F

上的一个有限维向量空间,

T

是

V

上的一个半单线性算子. 如果

f

是域

F

上任意的一个多项式, 那么

f (T)

也是半单的.

练习3. 设标量域为复数域的一个子域, 对于向量空间上的一个线性算子

T

, 证明

T

是半单算子当且仅当对于任意的多项式

f

f (T)

是幂零算子可以推出

f (T) = 0

第8章内积空间

第8.1节内积

整章我们只考虑实或复向量空间, 即实数域或复数域上的向量空间. 我们的主要目的在于研究可以讨论向量长度和夹角的向量空间. 我们将研究一类特定的标量值函数, 其定义于向量的序对之上, 被称为内积. 内积的一个例子是 $ℝ^{3}$ 中的标量积或者说点积. $ℝ^{3}$ 中的向量 $α = (x_{1}, x_{2}, x_{3}) 和 β = (y_{1}, y_{2}, y_{3})$ 的标量积是实数 $⟨ α | β ⟩ = x_{1} y_{1} + x_{2} y_{2} + x_{3} y_{3} .$ 从几何上说, 这个点积是 $α$ 的长度, $β$ 的长度, 以及 $α$ 和 $β$ 的夹角的余弦之积. 因此, 藉由代数地定义的标量积来定义 $ℝ^{3}$ 中的长度和夹角这样的几何概念完全是可能的.

向量空间上的内积是性质与 $ℝ^{3}$ 中的点积类似的函数, 而基于这样的内积我们又可以定义长度和角度. 我们关于角度的一般概念的注记将仅限于向量的垂直性 (或者说正交性). 第一节我们将定义何谓内积, 考虑一些实际的例子, 并建立内积的一些基本性质. 之后, 我们将回到讨论长度和正交性的任务上来.

定义. 令

F

是实数域或复数域,

V

是域

F

上的一个向量空间.

V

上的一个内积是一个函数

V \times V \to F, (α, β) \mapsto ⟨ α | β ⟩

满足对于任意的

α, β, γ \in V

和任意的标量

c \in F

有

$⟨ α + β | γ ⟩ = ⟨ α | γ ⟩ + ⟨ β | γ ⟩$ ;
$⟨ c α | β ⟩ = c ⟨ α | β ⟩$ ;
$⟨ β | α ⟩ = \overline{⟨ α | β ⟩}$ , 一横代表复共轭;
如果 $α \neq 0$ , 那么 $⟨ α | α ⟩ > 0$ .

读者应该注意到条件a, b, c可以推出条件e: $⟨ α | c β + γ ⟩ = \overline{c} ⟨ α | β ⟩ + ⟨ α | γ ⟩ .$ 另一点值得说明的是, 当 $F$ 是实数域 $ℝ$ 时, 条件c和e中的复共轭是多余的. 然而, 在复数域的情况下, 为了条件的一致性, 复共轭则是必要的. 若是没有这些复共轭, 我们就会得到以下矛盾: $⟨ α | α ⟩ > 0 且 ⟨ i α | i α ⟩ = - 1 ⟨ α | α ⟩ > 0 .$

在本章的剩余部分里, $F$ 要么代表实数域, 要么代表复数域.

例子1.

F^{n}

上存在一个内积, 我们称之为标准内积. 对于向量

α = (x_{1}, \dots, x_{n})

和

β = (y_{1}, \dots, y_{n})

, 其标准内积被定义为

⟨ α | β ⟩ = \sum_{j = 1}^{n} x_{j} {\overline{y}}_{j} .

当

F = ℝ

时, 这也可以记成

⟨ α | β ⟩ = \sum_{j = 1}^{n} x_{j} y_{j} .

在实数域的情形下, 标准内积常被称为点积或者标量积, 并记为

α \cdot β

例子2. 对于

ℝ^{2}

中的向量

α = (x_{1}, x_{2})

和

β = (y_{1}, y_{2})

, 令

⟨ α | β ⟩ = x_{1} y_{1} - x_{2} y_{1} - x_{1} y_{2} + 4 x_{2} y_{2} .

既然

⟨ α | α ⟩ = {(x_{1} - x_{2})}^{2} + 3 x_{2}^{2}

, 可直接推得

α \neq 0

时有

⟨ α | α ⟩ > 0

. 内积定义中的条件a, b, c则是容易验证的.

例子3. 令

V

是

F^{n \times n}

, 那么

V

以自然的方式同构于

F^{n^{2}}

, 因而由例子1可知

⟨ A | B ⟩ = \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{j, k} {\overline{B}}_{j, k}

定义了

V

上的一个内积. 而且, 如果我们引入共轭转置矩阵

B^{⁎}

, 其由

B_{k, j}^{⁎} = {\overline{B}}_{j, k}

定义, 那么我们可以基于迹函数来表达内积:

⟨ A | B ⟩ = tr (A B^{⁎}) = tr (B^{⁎} A) .

这是因为

\begin{array}{rcl} tr (A B^{⁎}) & = & \sum_{j = 1}^{n} {(A B^{⁎})}_{j, j} \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{j, k} B_{k, j}^{⁎} \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{j, k} {\overline{B}}_{j, k} \end{array}

例子4. 令

Q \in F^{n \times n}

是一个可逆矩阵, 对于

X, Y \in F^{n \times 1}

, 置

⟨ X | Y ⟩ = Y^{⁎} Q^{⁎} Q X .

注意到我们这里将右边的

1 \times 1

矩阵与其唯一的元素等同起来了. 当

Q

为恒等矩阵时, 这个内积本质上和例子1是相同的, 我们将其称为

F^{n \times 1}

上的标准内积. 读者应该注意到术语"标准内积"在两种特定的上下文中使用. 对于一般的域

F

上的有限维向量空间, 并不存在显然可称之为标准的内积.

例子5. 令

V

是所有类型为

[0, 1] \to ℂ

的连续函数构成的向量空间, 那么

⟨ f | g ⟩ = \int_{0}^{1} f (t) \overline{g (t)} d t

是

V

上的一个内积. 可能读者更熟悉单位区间上的实值连续函数构成的向量空间, 此时

g (t)

上的复共轭是可以省略的.

例子6. 这实际上是一类例子. 读者可以通过以下方法根据已有的内积构造出新的内积来. 令

V

和

W

是域

F

上的向量空间, 设

⟨ | ⟩

是

W

上的一个内积. 如果

T

是一个从

V

到

W

的非奇异线性变换, 那么

p_{T} (α, β) = ⟨ T α | T β ⟩

定义了

V

上的一个内积

p_{T}

. 例子4中的内积可以被视为这个的一种特殊情形, 以下同样也是特殊情形.

令 $V$ 是一个有限维向量空间, 令 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基. 令 $ε_{1}, \dots, ε_{n}$ 是 $F^{n}$ 的标准有序基, 令 $T$ 是由 $T α_{j} = ε_{j}, j = 1, \dots, n$ 定义的从 $V$ 到 $F^{n}$ 的线性变换. 换言之, 令 $T$ 是由 $𝔅$ 确定的从 $V$ 到 $F^{n}$ 的"自然"同构. 如果我们取 $F^{n}$ 上的标准内积, 那么 $p_{T} (\sum_{j = 1}^{n} x_{j} α_{j}, \sum_{k = 1}^{n} y_{k} α_{k}) = \sum_{j = 1}^{n} x_{j} {\overline{y}}_{j} .$ 因此, 对于 $V$ 的任意的有序基, 都存在一个具有性质 $⟨ α_{j} | α_{k} ⟩ = δ_{j, k}$ 的内积. 实际上, 很容易表明恰存在一个这样的内积. 之后我们将证明 $V$ 上的每个内积都可根据某个有序基 $𝔅$ 按照以上方式确定.
让我们再次检视例子5, 令 $V$ 是单位区间上的所有连续函数构成的空间, 取 $W = V$ . 令 $T$ 是"乘上 $t$ "的线性算子, 即 $(T f) (t) = t f (t), 0 \leq t \leq 1$ . 容易验证 $T$ 是线性的. 而且, $T$ 也是非奇异的. 这是因为, 设 $T f = 0$ , 那么对于 $0 \leq t \leq 1$ 有 $t f (t) = 0$ , 因而 $t > 0$ 时 $f (t) = 0$ . 鉴于 $f$ 是连续的, 我们也有 $f (0) = 0$ , 于是 $f = 0$ . 现在使用例子5的内积, 我们可以构造 $V$ 上的一个新的内积 $\begin{array}{rcl} p_{T} (f, g) & = & \int_{0}^{1} (T f) (t) \overline{(T g) (t)} d t \\ = & \int_{0}^{1} f (t) \overline{g (t)} t^{2} d t \end{array}$

我们现在开始检视内积的一些一般性质. 设 $V$ 是一个带有内积的复向量空间, 那么对于 $α, β \in V$ , 我们有 $⟨ α | β ⟩ = Re ⟨ α | β ⟩ + i Im ⟨ α | β ⟩$ 其中 $Re ⟨ α | β ⟩$ 和 $Im ⟨ α | β ⟩$ 分别是复数 $⟨ α | β ⟩$ 的实部和虚部. 如果 $z$ 是一个复数, 那么 $Im z = Re (- i z)$ , 这可以推出 $Im ⟨ α | β ⟩ = Re [- i ⟨ α | β ⟩] = Re ⟨ α | i β ⟩ .$ 因此, 按照 $⟨ α | β ⟩ = Re ⟨ α | β ⟩ + i Re ⟨ α | i β ⟩$ 内积完全可由其"实部"确定.

偶尔知道实或复向量空间上的内积可由另一种函数确定是很有用的, 这种函数即所谓的二次形式. 为了定义二次形式, 我们首先以 $‖ α ‖$ 代表 $⟨ α | α ⟩$ 的正平方根; $‖ α ‖$ 被称为 $α$ 相对于内积的范数. 通过考察 $ℝ^{1}, ℂ, ℝ^{2}, ℝ^{3}$ 上由标准内积导出的范数, 读者应该说服自己将 $α$ 的范数想成是 $α$ 的长度是很贴切的. 由内积决定的二次形式是函数 $α \mapsto {‖ α ‖}^{2}$ . 根据内积的性质, 我们可以推出, 对于任意的向量 $α$ 和 $β$ 有 ${‖ α \pm β ‖}^{2} = {‖ α ‖}^{2} \pm 2 Re ⟨ α | β ⟩ + {‖ β ‖}^{2} .$ 因此, 在实数域的情形下, 我们有 $⟨ α | β ⟩ = \frac{1}{4} {‖ α + β ‖}^{2} - \frac{1}{4} {‖ α - β ‖}^{2} .$ 在复数域的情形下, 我们得到的是更复杂的表达式 $⟨ α | β ⟩ = \frac{1}{4} {‖ α + β ‖}^{2} - \frac{1}{4} {‖ α - β ‖}^{2} + \frac{i}{4} {‖ α + i β ‖}^{2} - \frac{i}{4} {‖ α - i β ‖}^{2} .$ 这两个公式都被称为极化恒等式, 我们也应该注意到在复数域的情形下其也可以写成以下形式: $⟨ α | β ⟩ = \frac{1}{4} \sum_{n = 1}^{4} i^{n} {‖ α + i^{n} β ‖}^{2} .$

刚才我们所得到的性质对于任意的实或复向量空间上的内积均成立, 不论其维数如何. 现在我们转向 $V$ 是有限维向量空间的情形. 正如读者可能会猜到的, 有限维向量空间上的内积总是可以基于一个有序基由矩阵刻画.

设 $V$ 是有限维的, 令 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基, 并且给定 $V$ 上的一个特定的内积. 我们将表明, 这个内积完全由以下的这些值 $G_{j, k} = ⟨ α_{k} | α_{j} ⟩$ 决定. 如果 $α = \sum_{k = 1}^{n} x_{k} α_{k}$ 且 $β = \sum_{j = 1}^{n} y_{j} α_{j}$ , 那么 $\begin{array}{rcl} ⟨ α | β ⟩ & = & ⟨ \sum_{k = 1}^{n} x_{k} α_{k} | β ⟩ \\ = & \sum_{k = 1}^{n} x_{k} ⟨ α_{k} | β ⟩ \\ = & \sum_{k = 1}^{n} x_{k} \sum_{j = 1}^{n} {\overline{y}}_{j} ⟨ α_{k} | α_{j} ⟩ \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} {\overline{y}}_{j} G_{j, k} x_{k} \\ = & Y^{⁎} G X \end{array}$ 其中 $X$ 和 $Y$ 分别是 $α$ 和 $β$ 在有序基 $𝔅$ 下的坐标矩阵, 而 $G$ 是以 $G_{j, k} = ⟨ α_{k} | α_{j} ⟩$ 为元素的矩阵. 我们称 $G$ 为内积在有序基 $𝔅$ 下的矩阵. 根据定义, $G$ 是一个Hermite矩阵, 即 $G = G^{⁎}$ . 然而, $G$ 是一种相当特殊的Hermite矩阵, 因为其必须满足附加的条件 $X^{⁎} G X > 0, X \neq 0 .$ 特别地, $G$ 必须是可逆的. 否则的话, 存在一个 $X \neq 0$ 使得 $G X = 0$ , 那么对于这样的 $X$ 就不能满足以上要求了. 更显式地说, 以上的条件即对于任意不全为零的标量 $x_{1}, \dots, x_{n}$ 有 $\sum_{j = 1}^{n} \sum_{k = 1}^{n} {\overline{x}}_{j} G_{j, k} x_{k} > 0 .$ 从中我们立即可以看出 $G$ 的每个对角线元素都必然是正数. [译注: 提及正数, 一定是实数.] 然而, 这个施加于对角线元素上的条件并不足以保证 $X^{⁎} G X > 0, X \neq 0$ , 之后我们将给出使其成立的充分条件. [译注: 这个施加于Hermite矩阵上的条件一般被称为"正定"条件.]

以上这样的过程是可逆的, 即若任意的Hermite矩阵 $G \in F^{n \times n}$ 满足 $X^{⁎} G X > 0, X \neq 0$ , 那么 $G$ 是 $V$ 上的一个内积在有序基 $𝔅$ 下的矩阵. 这个内积是由公式 $⟨ α | β ⟩ = Y^{⁎} G X$ 给定的, 其中 $X$ 和 $Y$ 分别是 $α$ 和 $β$ 在有序基 $𝔅$ 下的坐标矩阵.

练习1. 令

V

是一个向量空间而

⟨ | ⟩

是

V

上的一个内积.

证明对于任意的 $β \in V$ 有 $⟨ 0 | β ⟩ = 0$ .
证明若对于任意的 $β \in V$ 有 $⟨ α | β ⟩ = 0$ , 那么 $α = 0$ .

练习2. 令

V

是域

F

上的一个向量空间. 证明

V

上的两个内积之和仍然是

V

上的一个内积. 两个内积之差是内积吗? 证明一个内积的正倍数仍然是一个内积.

练习3. 显式描述

ℝ^{1}

和

ℂ^{1}

上的所有内积.

练习4. 验证

F^{n}

上的标准内积的确是一个内积.

练习5. 令

⟨ | ⟩

是

ℝ^{2}

上的标准内积.

令 $α = (1, 2), β = (- 1, 1)$ , 如果向量 $γ$ 满足 $⟨ α | γ ⟩ = - 1$ 且 $⟨ β | γ ⟩ = 3$ , 求出 $γ$ .
证明对于任意的 $α \in ℝ^{2}$ , 我们有 $α = ⟨ α | ε_{1} ⟩ ε_{1} + ⟨ α | ε_{2} ⟩ ε_{2}$ .

练习6. 令

⟨ | ⟩

是

ℝ^{2}

上的标准内积, 而

T (x_{1}, x_{2}) = (- x_{2}, x_{1})

是

ℝ^{2}

上的线性算子. 现在

T

是"逆时针旋转90度"的变换, 并且对于所有的

α \in ℝ^{2}

, 都有

⟨ α | T α ⟩ = 0

. 找出所有这样的

ℝ^{2}

上的内积

[|]

, 其对于每个向量

α

有

[α | T α] = 0

练习7. 令

⟨ | ⟩

是

ℂ^{2}

上的标准内积, 证明不存在非零的

ℂ^{2}

上的线性算子

T

使得对于每个

α \in ℂ^{2}

有

⟨ α | T α ⟩ = 0

. 推广这个结果.

练习8. 令

A \in ℝ^{2 \times 2}

, 定义映射

f_{A} : ℝ^{2 \times 1} \times ℝ^{2 \times 1} \to ℝ

为

f_{A} (X, Y) = Y^{t} A X .

证明

f_{A}

是

ℝ^{2 \times 1}

上的一个内积当且仅当

A = A^{t}, A_{1, 1} > 0, A_{2, 2} > 0, \det (A) > 0

练习9. 令

V

是一个带有的内积的实或复向量空间, 证明由内积确定的范数满足平行四边形定律

{‖ α + β ‖}^{2} + {‖ α - β ‖}^{2} = 2 {‖ α ‖}^{2} + 2 {‖ β ‖}^{2} .

练习10. 找出例子2中的内积在

ℝ^{2}

的标准有序基下的矩阵.

练习11. 证明公式

⟨ \sum_{j = 0}^{l} a_{j} x^{j} | \sum_{k = 0}^{m} b_{k} x^{k} ⟩ = \sum_{j = 0}^{l} \sum_{k = 0}^{m} \frac{a_{j} b_{k}}{j + k + 1}

定义了

ℝ [x]

上的一个内积. 令

W

是次数小于等于

n

的多项式构成的子空间. 限制以上内积于

W

, 找出其相对于有序基

{1, x, x^{2}, \dots, x^{n}}

的矩阵. (提示: 为了表明这个公式的确定义了一个内积, 观察到

⟨ f | g ⟩ = \int_{0}^{1} f (t) g (t) d t

然后处理这个积分表达式.)

练习12. 令

V

是一个有限维向量空间,

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基,

⟨ | ⟩

是

V

上的一个内积. 如果

c_{1}, \dots, c_{n}

是任意的

n

个标量, 那么恰存在一个向量

α \in V

使得

⟨ α | α_{j} ⟩ = c_{j}, j = 1, \dots, n

练习13. 令

V

是一个复向量空间. 一个函数

J : V \to V

被称为一个共轭 (conjugation), 如果

J (α + β) = J (α) + J (β), J (c α) = \overline{c} J (α), J (J (α)) = α

, 其中

c

是任意的标量而

α, β \in V

. 如果

J

是一个共轭, 证明:

$W = {α \in V | J α = α}$ 相对于 $V$ 中所定义的运算可以被视为域 $ℝ$ 上的一个向量空间.
对于每个 $α \in V$ , 存在唯一的向量 $β, γ \in W$ 使得 $α = β + i γ$ .

练习14. 令

V

是一个复向量空间,

W

是一个满足以下性质的

V

的子集:

相对于 $V$ 中所定义的运算, $W$ 可以被视为一个实向量空间.
对于每个 $α \in V$ , 存在唯一的向量 $β, γ \in W$ 满足 $α = β + i γ$ .

证明

J α = β - i γ

定义了

V

上的一个共轭, 其满足

J α = α

当且仅当

α \in W

. 另外, 证明

J

是

V

上唯一带有此性质的共轭.

练习15. 找出

ℂ^{1}

和

ℂ^{2}

上的所有共轭.

练习16. 令

W

是复向量空间

V

的一个有限维实子空间. 证明

W

满足练习14的条件b当且仅当

W

的每个基也是

V

的一个基.

练习17. 令

V

是一个复向量空间,

J

是

V

上的一个共轭,

W = {α \in V | J α = α}

是

V

的一个实子空间,

f

是

W

上的一个内积, 证明:

存在唯一的 $V$ 上的内积 $g$ 使得对于任意的 $α, β \in W$ 有 $g (α, β) = f (α, β)$ .
对于所有的 $α, β \in V$ , $g (J α, J β) = g (β, α)$ .

以上的部分a是在说

ℝ^{1}

和

ℂ^{1}

(或者

ℝ^{n}

和

ℂ^{n}

) 上的标准内积之间的什么关系?

第8.2节内积空间

既然现在我们已经对于内积有所了解, 那么我们将注意力转移到向量空间与其上的某个特定内积结合产生的代数结构上来. 具体来说, 我们将建立由内积赋予向量空间的"长度"和"正交性"的概念的基本性质.

定义. 一个内积空间是一个其上带有特定内积的实或复向量空间.

一个有限维的实内积空间常被称为一个Euclid空间. 一个复内积空间经常被称为一个酉空间.

定理1. 如果

V

是一个内积空间, 那么对于任意的向量

α, β \in V

和标量

c

, 我们有

$‖ c α ‖ = | c | ‖ α ‖$ ;
对于 $α \neq 0$ , $‖ α ‖ > 0$ ;
$| ⟨ α | β ⟩ | \leq ‖ α ‖ ‖ β ‖$ ;
$‖ α + β ‖ \leq ‖ α ‖ + ‖ β ‖$ .

证明. 陈述i和ii几乎可由定义直接推出. iii中的不等式在

α = 0

时是显然成立的. 若

α \neq 0

, 置

γ = β - \frac{⟨ β | α ⟩}{{‖ α ‖}^{2}} α

那么

⟨ γ | α ⟩ = 0

, 然后

\begin{array}{rcl} 0 \leq {‖ γ ‖}^{2} & = & ⟨ β - \frac{⟨ β | α ⟩}{{‖ α ‖}^{2}} α | β - \frac{⟨ β | α ⟩}{{‖ α ‖}^{2}} α ⟩ \\ = & ⟨ β | β ⟩ - \frac{⟨ β | α ⟩ ⟨ α | β ⟩}{{‖ α ‖}^{2}} \\ = & ⟨ β | β ⟩ - \frac{{| ⟨ α | β ⟩ |}^{2}}{{‖ α ‖}^{2}} \end{array}

因此,

{| ⟨ α | β ⟩ |}^{2} \leq {‖ α ‖}^{2} {‖ β ‖}^{2}

, 再开根即可. 现在使用iii, 我们可以推出

\begin{array}{rcl} {‖ α + β ‖}^{2} & = & {‖ α ‖}^{2} + 2 Re ⟨ α | β ⟩ + {‖ β ‖}^{2} \\ \leq & {‖ α ‖}^{2} + 2 | ⟨ α | β ⟩ | + {‖ β ‖}^{2} \\ \leq & {‖ α ‖}^{2} + 2 ‖ α ‖ ‖ β ‖ + {‖ β ‖}^{2} \\ = & {(‖ α ‖ + ‖ β ‖)}^{2} \end{array}

于是,

‖ α + β ‖ \leq ‖ α ‖ + ‖ β ‖

◻

iii被称为Cauchy-Schwarz不等式, 其有着各种各样的应用. 根据刚才我们的证明, 如果 $α \neq 0$ , 那么除非 $β = \frac{⟨ β | α ⟩}{{‖ α ‖}^{2}} α$ 该不等式严格成立. 也就是说, Cauchy-Schwarz不等式取等号当且仅当 $α$ 和 $β$ 线性相关.

译者注记. 以上对于Cauchy-Schwarz不等式的证明看似复杂, 实则在某种意义上有着简单的几何解释. 例如, 在

ℝ^{2}

及其上的标准内积下, 很容易看出来

\frac{⟨ β | α ⟩}{{‖ α ‖}^{2}} α

是

β

在

α

上的垂直投影,

⟨ γ | α ⟩ = 0

就是对于垂直的表述, 而

{‖ γ ‖}^{2} = ⟨ β | β ⟩ - \frac{{| ⟨ α | β ⟩ |}^{2}}{{‖ α ‖}^{2}}

差不多就是勾股定理/Pythagoras定理的一个应用.

例子7. 如果我们将Cauchy-Schwarz不等式应用于例子1, 2, 3, 5中给出的内积, 那么我们就会得到以下结果:

$| \sum_{k = 1}^{n} x_{k} {\overline{y}}_{k} | \leq {(\sum_{k = 1}^{n} {| x_{k} |}^{2})}^{\frac{1}{2}} {(\sum_{k = 1}^{n} {| y_{k} |}^{2})}^{\frac{1}{2}}$
$| x_{1} y_{1} - x_{2} y_{1} - x_{1} y_{2} + 4 x_{2} y_{2} | \leq {({(x_{1} - x_{2})}^{2} + 3 x_{2}^{2})}^{1 / 2} {({(y_{1} - y_{2})}^{2} + 3 y_{2}^{2})}^{1 / 2}$
$| tr (A B^{⁎}) | \leq {(tr (A A^{⁎}))}^{1 / 2} {(tr (B B^{⁎}))}^{1 / 2}$
$| \int_{0}^{1} f (t) \overline{g (t)} d t | \leq {(\int_{0}^{1} {| f (t) |}^{2} d t)}^{\frac{1}{2}} {(\int_{0}^{1} {| g (t) |}^{2} d t)}^{\frac{1}{2}}$

定义. 令

α

和

β

是内积空间

V

中的向量, 那么

α

正交于

β

, 如果

⟨ α | β ⟩ = 0

. 既然这能推出

β

正交于

α

, 我们常就简单说

α

和

β

是正交的. 对于

V

的一个子集

S

, 我们称

S

是一个正交集合, 若其中不同向量之间均是正交的. 如果对于正交集合

S

的每个向量

α

有

‖ α ‖ = 1

, 那么我们就称

S

是一个规范正交集合.

零向量正交于 $V$ 中的每个向量, 而且是唯一具有此性质的向量. 另外, 读者应该将规范正交集合想成是由长度为 $1$ 且相互垂直的向量构成的集合.

例子8.

ℝ^{n}

的标准基相对于其上的标准内积是一个规范正交集合,

ℂ^{n}

也是如此.

例子9.

ℝ^{2}

中的向量

(x, y)

相对于标准内积与

(- y, x)

正交, 因为

⟨ (x, y) | (- y, x) ⟩ = - x y + y x = 0 .

然而, 如果

ℝ^{2}

装备的是例子2中的内积, 那么

(x, y)

和

(- y, x)

正交当且仅当

y = \frac{- 3 \pm \sqrt{13}}{2} x .

例子10. 令

V

是

ℂ^{n \times n}

E^{p, q}

是仅第

p

行

q

列为

1

其余均为

0

的矩阵, 那么所有这样的矩阵

E^{p, q}

构成的集合相对于例子3中给出的内积是规范正交的, 因为

⟨ E^{p, q} | E^{r, s} ⟩ = tr (E^{p, q} E^{s, r}) = δ_{q, s} tr (E^{p, r}) = δ_{q, s} δ_{p, r} .

例子11. 令

V

是区间

[0, 1]

上的连续复值 (或者实值) 函数构成的向量空间, 并定义其上的内积为

⟨ f | g ⟩ = \int_{0}^{1} f (t) \overline{g (t)} d t .

设

f_{n} (x) = \sqrt{2} \cos 2 π n x

且

g_{n} (x) = \sqrt{2} \sin 2 π n x

, 那么

{1, f_{1}, g_{1}, f_{2}, g_{2}, \dots}

构成了一个无穷的规范正交集合. 在复情形下, 我们也可以构造以下线性组合

\frac{1}{\sqrt{2}} (f_{n} \pm i g_{n}), n = 1, 2, \dots

以这种方式, 我们构造了一个新的规范正交集合

S

, 其由所有具有形式

h_{n} (x) = e^{2 π i n x}, n = \pm 1, \pm 2, \dots

的函数构成. 将常函数

1

加入

S

得到的集合

S^{'}

也是规范正交的. 我们假定读者熟悉以上内容所牵涉的积分计算.

以上例子给出的规范正交集合均是线性无关的, 现在我们将表明诚然如此.

定理2. 由非零向量构成的正交集合是线性无关的.

证明. 令

S

是某给定内积空间中由非零向量构成的有限或无限的正交集合, 设

α_{1}, α_{2}, \dots, α_{m}

是

S

中的不同向量, 并且

β = c_{1} α_{1} + c_{2} α_{2} + \dots + c_{m} α_{m}

那么

\begin{array}{rcl} ⟨ β | α_{k} ⟩ & = & ⟨ \sum_{j = 1}^{m} c_{j} α_{j} | α_{k} ⟩ \\ = & \sum_{j = 1}^{m} c_{j} ⟨ α_{j} | α_{k} ⟩ \\ = & c_{k} ⟨ α_{k} | α_{k} ⟩ \end{array}

既然

⟨ α_{k} | α_{k} ⟩ \neq 0

, 这可以推出

c_{k} = \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}}, 1 \leq k \leq m .

因此, 当

β = 0

时, 每个

c_{k} = 0

, 即

S

是线性无关的集合.

◻

推论. 如果一个向量

β

是由非零向量

α_{1}, \dots, α_{m}

构成的一个正交序列的线性组合, 那么

β

必然是以下特定的线性组合

β = \sum_{k = 1}^{m} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k} .

以上的推论是定理的证明的直接结果. 另外, 还有一个应该提及的显然推论. 如果 ${α_{1}, \dots, α_{m}}$ 是某个有限维内积空间 $V$ 中由非零向量构成的正交集合, 那么 $m \leq \dim V$ . 这是在说 $V$ 中相互正交的方向的数目不可能超过 $V$ 的由代数定义的维数. $V$ 中相互正交的方向的最大数目可以被理解为 $V$ 的几何维数, 并且我们刚才看到其不会大于代数维数. 这两种维数相等的事实是以下结果的一个特定推论.

定理3. 令

V

是一个内积空间, 而

β_{1}, \dots, β_{n}

是

V

中线性无关的向量, 那么我们可以构造

V

中相互正交的向量

α_{1}, \dots, α_{n}

使得对于每个

k = 1, 2, \dots, n

, 集合

{α_{1}, \dots, α_{k}}

是由

β_{1}, \dots, β_{k}

张成的子空间的一个基.

证明. 向量

α_{1}, \dots, α_{n}

可由一种被称为Gram-Schmidt正交化过程的构造方式得到. 首先, 令

α_{1} = β_{1}

, 而其他向量则按以下方法由归纳给定: 设已经挑选了

α_{1}, \dots, α_{m}

使得对于每个

k

有

{α_{1}, \dots, α_{k}}, 1 \leq k \leq m

是由

β_{1}, \dots, β_{k}

张成的

V

的子空间的一个正交基, 其中

1 \leq m < n

. 为了构造下一个向量

α_{m + 1}

, 令

α_{m + 1} = β_{m + 1} - \sum_{k = 1}^{m} \frac{⟨ β_{m + 1} | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k}

那么

α_{m + 1} \neq 0

, 因为否则的话

β_{m + 1}

就是

α_{1}, \dots, α_{m}

的线性组合了, 也就是

β_{1}, \dots, β_{m}

的线性组合. 而且, 如果

1 \leq j \leq m

, 那么

\begin{array}{rcl} ⟨ α_{m + 1} | α_{j} ⟩ & = & ⟨ β_{m + 1} | α_{j} ⟩ - \sum_{k = 1}^{m} \frac{⟨ β_{m + 1} | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} ⟨ α_{k} | α_{j} ⟩ \\ = & ⟨ β_{m + 1} | α_{j} ⟩ - ⟨ β_{m + 1} | α_{j} ⟩ \\ = & 0 \end{array}

因此,

{α_{1}, \dots, α_{m + 1}}

是由

m + 1

个非零向量构成的正交集合, 并且它们都在由

β_{1}, \dots, β_{m + 1}

张成的子空间之中. 根据定理2, 其的确是该子空间的一个基. 换言之, 向量

α_{1}, \dots, α_{n}

可按以上公式一个接着一个地构造出来. 特别地, 当

n = 4

时, 我们有

\begin{array}{l} α_{1} & = & β_{1} \\ α_{2} & = & β_{2} - \frac{⟨ β_{2} | α_{1} ⟩}{{‖ α_{1} ‖}^{2}} α_{1} \\ α_{3} & = & β_{3} - \frac{⟨ β_{3} | α_{1} ⟩}{{‖ α_{1} ‖}^{2}} α_{1} - \frac{⟨ β_{3} | α_{2} ⟩}{{‖ α_{2} ‖}^{2}} α_{2} \\ α_{4} & = & β_{4} - \frac{⟨ β_{4} | α_{1} ⟩}{{‖ α_{1} ‖}^{2}} α_{1} - \frac{⟨ β_{4} | α_{2} ⟩}{{‖ α_{2} ‖}^{2}} α_{2} - \frac{⟨ β_{4} | α_{3} ⟩}{{‖ α_{3} ‖}^{2}} α_{3} \end{array}

◻

推论. 每个有限维内积空间都拥有一个规范正交基.

证明. 令

V

是一个有限维内积空间, 而

{β_{1}, \dots, β_{n}}

是

V

的一个基. 应用Gram-Schmidt过程, 我们可以构造一个正交基

{α_{1}, \dots, α_{n}}

. 那么, 为了获得一个规范正交基, 我们仅需将每个向量

α_{k}

替换以

α_{k} / ‖ α_{k} ‖

就够了.

◻

规范正交基相较于其他任意的基的一个主要优势在于牵涉坐标的计算会更加简单. 为了澄清这个断言, 设 $V$ 是一个有限维内积空间. 那么, 根据上一节的讨论, 我们可以构造这个内积相对于 $V$ 的某个有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ 的矩阵 $G$ , 其由 $G_{j, k} = ⟨ α_{k} | α_{j} ⟩$ 定义, 然后便可基于坐标来计算内积. 若 $𝔅$ 是一个规范正交基, 那么 $G$ 就是恒等矩阵, 而对于任意的标量 $x_{j}$ 和 $y_{k}$ , 我们有 $⟨ \sum_{j = 1}^{n} x_{j} α_{j} | \sum_{k = 1}^{n} y_{k} α_{k} ⟩ = \sum_{j = 1}^{n} x_{j} {\overline{y}}_{j}$ 因此, 基于规范正交基, $V$ 中的内积看起来就像是 $F^{n}$ 中的标准内积.

尽管实际计算上的用途有限, 但有趣的是, Gram-Schmidt过程也可以用来判定是否线性相关. 设 $β_{1}, \dots, β_{n}$ 是 $V$ 中线性相关的向量, 排除 $β_{1} = 0$ 的平凡情况. [译注: 其实不排除也可以, 只是对于极端情况需要一些说明.] 令 $m$ 是使得 $β_{1}, \dots, β_{m}$ 能够线性无关的最大整数, 那么 $1 \leq m < n$ . 若 $α_{1}, \dots, α_{m}$ 是施行正交化过程于 $β_{1}, \dots, β_{m}$ 得到的向量, 那么 $α_{m + 1} = β_{m + 1} - \sum_{k = 1}^{m} \frac{⟨ β_{m + 1} | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k}$ 必然为 $0$ . 这是因为, $α_{m + 1}$ 在由 $α_{1}, \dots, α_{m}$ 张成的子空间之中并且正交于这些向量, 因而根据定理2的推论可知 $α_{m + 1} = 0$ . 也就是说, $β_{m + 1}$ 是 $α_{1}, \dots, α_{m}$ 的线性组合, 即 $β_{1}, \dots, β_{m}$ 的线性组合, 那么 $β_{1}, \dots, β_{m + 1}$ 是线性相关的.

译者注记. 上一段的内容告诉我们, 即便为了施行Gram-Schmidt正交化过程, 也无需提前判断出

β_{1}, \dots, β_{n}

是线性无关的. 这是因为, 在正交化的过程中, 一旦遇到某个

α_{k} = 0

, 那么便可知

β_{1}, \dots, β_{k}

线性相关. 而若正交化过程结束也没有出现哪个

α_{k} = 0

, 就可以断言

β_{1}, \dots, β_{n}

线性无关.

例子12. 对于装备有标准内积的

ℝ^{3}

, 考虑向量

β_{1} = (3, 0, 4), β_{2} = (- 1, 0, 7), β_{3} = (2, 9, 11)

施行Gram-Schmidt过程于

β_{1}, β_{2}, β_{3}

, 我们就得到了以下向量.

\begin{array}{l} α_{1} & = & (3, 0, 4) \\ α_{2} & = & (- 1, 0, 7) - \frac{⟨ (- 1, 0, 7) | (3, 0, 4) ⟩}{25} (3, 0, 4) \\ = & (- 1, 0, 7) - (3, 0, 4) \\ = & (- 4, 0, 3) \\ α_{3} & = & (2, 9, 11) - \frac{⟨ (2, 9, 11) | (3, 0, 4) ⟩}{25} (3, 0, 4) - \frac{⟨ (2, 9, 11) | (- 4, 0, 3) ⟩}{25} (- 4, 0, 3) \\ = & (2, 9, 11) - 2 (3, 0, 4) - (- 4, 0, 3) \\ = & (0, 9, 0) \end{array}

这些向量显然是非零的且相互正交, 因而

{α_{1}, α_{2}, α_{3}}

是

ℝ^{3}

的一个正交基. 为了将

ℝ^{3}

中任意的向量

(x_{1}, x_{2}, x_{3})

表达为

α_{1}, α_{2}, α_{3}

的线性组合, 我们无需求解任何线性方程组, 运用定理2的推论即可. 因此, 我们就有

(x_{1}, x_{2}, x_{3}) = \frac{3 x_{1} + 4 x_{3}}{25} α_{1} + \frac{- 4 x_{1} + 3 x_{3}}{25} α_{2} + \frac{x_{2}}{9} α_{3} .

例如,

(1, 2, 3)

可以被表示为线性组合

(1, 2, 3) = \frac{3}{5} (3, 0, 4) + \frac{1}{5} (- 4, 0, 3) + \frac{2}{9} (0, 9, 0) .

实际上, 我们可以换个角度陈述以上的结果: 对偶于基

{α_{1}, α_{2}, α_{3}}

的

{(ℝ^{3})}^{⁎}

的基

{f_{1}, f_{2}, f_{3}}

可由以下公式所显式定义

\begin{array}{l} f_{1} (x_{1}, x_{2}, x_{3}) & = & \frac{3 x_{1} + 4 x_{3}}{25} \\ f_{2} (x_{1}, x_{2}, x_{3}) & = & \frac{- 4 x_{1} + 3 x_{3}}{25} \\ f_{3} (x_{1}, x_{2}, x_{3}) & = & \frac{x_{2}}{9} \end{array}

当然, 这些公式可以写成以下更为一般的形式

f_{j} (x_{1}, x_{2}, x_{3}) = \frac{⟨ (x_{1}, x_{2}, x_{3}) | α_{j} ⟩}{{‖ α_{j} ‖}^{2}} .

最后一点, 注意到从

α_{1}, α_{2}, α_{3}

中我们可以得到规范正交基

\frac{1}{5} (3, 0, 4), \frac{1}{5} (- 4, 0, 3), (0, 1, 0) .

例子13. 令

A = [\begin{matrix} a & b \\ c & d \end{matrix}]

是一个复矩阵, 置

β_{1} = (a, b)

和

β_{2} = (c, d)

, 并设

β_{1} \neq 0

. 如果我们使用

ℂ^{2}

上的标准内积对于

β_{1}, β_{2}

施行正交化过程, 就会得到以下向量:

\begin{array}{rcl} α_{1} & = & (a, b) \\ α_{2} & = & (c, d) - \frac{⟨ (c, d) | (a, b) ⟩}{{| a |}^{2} + {| b |}^{2}} (a, b) \\ = & (c, d) - \frac{c \overline{a} + d \overline{b}}{{| a |}^{2} + {| b |}^{2}} (a, b) \\ = & (\frac{c \overline{b} b - d \overline{b} a}{{| a |}^{2} + {| b |}^{2}}, \frac{d \overline{a} a - c \overline{a} b}{{| a |}^{2} + {| b |}^{2}}) \\ = & \frac{\det A}{{| a |}^{2} + {| b |}^{2}} (- \overline{b}, \overline{a}) \end{array}

之前的一般理论告诉我们

α_{2} \neq 0

当且仅当

β_{1}, β_{2}

线性无关. 另一方面,

α_{2}

的公式告诉我们

α_{2} \neq 0

当且仅当

\det A \neq 0

从本质上说, Gram-Schmidt过程就是不断重复应用一种被称为正交投影的基本几何操作. 并且, 从这一角度理解正交化过程最为恰当. 在解决近似问题时, 正交投影也会自然出现.

设 $W$ 是内积空间 $V$ 的一个子空间, 令 $β$ 是 $V$ 中的任意一个向量. 我们的问题在于找出 $W$ 中对于 $β$ 的最佳的可能近似. 这意味着在向量 $α$ 属于 $W$ 的限制下寻找使得 $‖ β - α ‖$ 尽可能小的向量 $α$ . 让我们用更加精确的语言来陈述这件事情.

以 $W$ 中的向量对于 $β$ 进行的最佳近似是这样一个向量 $α \in W$ , 其满足对于每个向量 $γ \in W$ , 我们都有 $‖ β - α ‖ \leq ‖ β - γ ‖ .$

通过检视这个问题在 $ℝ^{2}$ 或者 $ℝ^{3}$ 中的情况, 读者从直觉上可以感受到以 $W$ 的向量对于 $β$ 的最佳近似应该是使得 $β - α$ 垂直 (或者说正交) 于 $W$ 的向量 $α$ . 而且, 这样的 $α$ 应该恰只有一个. 这些直觉性的想法对于有限维子空间是正确的, 而仅对于部分而不是全部的无限维子空间成立. 鉴于精确的情况太过复杂而难以在这里处理, 我们将只证明以下的结果.

定理4. 令

W

是内积空间

V

的一个子空间, 并设

β

是

V

中的一个向量.

向量 $α \in W$ 是以 $W$ 中的向量对于 $β$ 进行的最佳近似当且仅当 $β - α$ 正交于 $W$ 中的每个向量.
如果以 $W$ 的向量对于 $β$ 进行的最佳近似存在, 那么其是唯一的.
如果 $W$ 是有限维的并且 ${α_{1}, \dots, α_{n}}$ 是 $W$ 的任意的正交基, 那么向量 $α = \sum_{k = 1}^{n} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k}$ 是以 $W$ 的向量对于 $β$ 的(唯一的)最佳近似.

证明. 首先, 注意到如果

γ

是

V

中的任意向量, 那么

β - γ = (β - α) + (α - γ)

, 而且

{‖ β - γ ‖}^{2} = {‖ β - α ‖}^{2} + 2 Re ⟨ β - α | α - γ ⟩ + {‖ α - γ ‖}^{2} .

现在设

β - α

正交于

W

中的每个向量, 如果

γ \in W

且

γ \neq α

, 那么既然

α - γ \in W

, 我们可以推出

\begin{array}{rcl} {‖ β - γ ‖}^{2} & = & {‖ β - α ‖}^{2} + {‖ α - γ ‖}^{2} \\ > & {‖ β - α ‖}^{2} \end{array}

反过来, 设对于每个

γ \in W

有

‖ β - γ ‖ \geq ‖ β - α ‖

, 那么根据上面的第一个等式, 这可以推出

2 Re ⟨ β - α | α - γ ⟩ + {‖ α - γ ‖}^{2} \geq 0

对于每个

γ \in W

成立. 鉴于

{α - γ | γ \in W} = W

, 实际上其等价于

2 Re ⟨ β - α | τ ⟩ + {‖ τ ‖}^{2} \geq 0

对于每个

τ \in W

成立. 对于非零的

τ \in W

, 我们可以构造向量

φ = - \frac{⟨ β - α | τ ⟩}{{‖ τ ‖}^{2}} τ \in W

代入即得

\begin{array}{rcl} 2 Re ⟨ β - α | φ ⟩ + {‖ φ ‖}^{2} & = & 2 Re ⟨ β - α | - \frac{⟨ β - α | τ ⟩}{{‖ τ ‖}^{2}} τ ⟩ + {‖ - \frac{⟨ β - α | τ ⟩}{{‖ τ ‖}^{2}} τ ‖}^{2} \\ = & - 2 \frac{{| ⟨ β - α | τ ⟩ |}^{2}}{{‖ τ ‖}^{2}} + \frac{{| ⟨ β - α | τ ⟩ |}^{2}}{{‖ τ ‖}^{2}} \\ = & - \frac{{| ⟨ β - α | τ ⟩ |}^{2}}{{‖ τ ‖}^{2}} \\ \geq & 0 \end{array}

于是,

⟨ β - α | τ ⟩ = 0

. 换言之,

β - α

正交于

W

中的每个向量. 到目前为止, 我们完成了对于i的证明. 不过, 根据上面的讨论, 若存在

W

中的向量满足最佳近似的条件, 那么显然至多只有一个这样的向量. 也就是说, ii的确成立.
现在设

W

是

V

的一个有限维子空间, 那么我们知道, 根据定理3,

W

的确拥有正交基. 令

{α_{1}, \dots, α_{n}}

是

W

的任意的正交基, 按照iii的方式定义

α

. 然后, 根据定理3的证明中的计算, 我们知道

β - α

正交于每个

α_{k}

. 换言之,

β - α

正交于

W

中的每个向量. 根据已经证明了的i, 我们可以断言

α

是以

W

中的向量对于

β

的最佳近似.

◻

定义. 令

V

是一个内积空间,

S

是

V

的一个子集, 那么

S

的正交补被定义为

S^{⊥} = {β \in V | 对于每个 α \in S, ⟨ β | α ⟩ = 0} .

$V$ 的正交补是零子空间. 反过来, ${0}^{⊥} = V$ . 如果 $S$ 是 $V$ 的任意子集, 那么其正交补 $S^{⊥}$ 总是 $V$ 的子空间. 这是因为, 首先 $S^{⊥}$ 是非空的, 鉴于其总是包含 $0$ ; 其次, 每当 $α, β \in S^{⊥}$ 而 $c$ 是任意的标量, 对于每个 $γ \in S$ , 我们有 $\begin{array}{rcl} ⟨ c α + β | γ ⟩ & = & c ⟨ α | γ ⟩ + ⟨ β | γ ⟩ \\ = & c 0 + 0 \\ = & 0 \end{array}$ 因而 $c α + β \in S^{⊥}$ . 在定理4中, 最佳近似 $α$ 的特征性质在于其是 $W$ 中唯一使得 $β - α \in W^{⊥}$ 的向量.

定义. 每当定理4中的向量

α

存在, 其被称为 $β$ 在 $W$ 上的正交投影. 如果

V

中的每个向量都在

W

上具有正交投影, 那么赋

V

的向量以其在

W

上的正交投影的确是一个映射, 这被称为 $V$ 在 $W$ 上的正交投影.

根据定理4, 内积空间在有限维子空间上的正交投影总是存在的. 但是, 定理4也能推出以下结果.

推论. 令

V

是一个内积空间,

W

是其一个有限维子空间,

E

是

V

在

W

上的正交投影, 那么映射

β \mapsto β - E β

是

V

在

W^{⊥}

上的正交投影.

证明. 对于任意的向量

β \in V

, 根据

E

的定义和定理4, 我们知道

β - E β \in W^{⊥}

. 然后, 既然

β - (β - E β) = E β \in W

而又根据

W^{⊥}

的定义,

W

中的向量总是正交于

W^{⊥}

的每个向量, 于是

β - (β - E β)

也正交于

W^{⊥}

的每个向量. 换言之,

β \mapsto β - E β

是

V

在

W^{⊥}

上的正交投影.

◻

例子14. 给定装备有标准内积的

ℝ^{3}

, 那么

(- 10, 2, 8)

在由

(3, 12, - 1)

张成的子空间

W

上的正交投影为

\begin{array}{rcl} α & = & \frac{⟨ (- 10, 2, 8) | (3, 12, - 1) ⟩}{{‖ (3, 12, - 1) ‖}^{2}} (3, 12, - 1) \\ = & \frac{- 14}{154} (3, 12, - 1) \end{array}

ℝ^{3}

在

W

上的正交投影

E

为

(x_{1}, x_{2}, x_{3}) \mapsto \frac{3 x_{1} + 12 x_{2} - x_{3}}{154} (3, 12, - 1) .

E

的秩显然为

1

, 因而

E

的零化度为

2

. 另一方面,

E (x_{1}, x_{2}, x_{3}) = (0, 0, 0)

当且仅当

3 x_{1} + 12 x_{2} - x_{3} = 0

, 而这等价于

(x_{1}, x_{2}, x_{3}) \in W^{⊥}

. 因此,

W^{⊥}

是

E

的零空间, 而

\dim W^{⊥} = 2

. 通过计算

(x_{1}, x_{2}, x_{3}) - \frac{3 x_{1} + 12 x_{2} - x_{3}}{154} (3, 12, - 1)

我们知道

ℝ^{3}

在

W^{⊥}

上的正交投影

I - E

为

(x_{1}, x_{2}, x_{3}) \mapsto \frac{1}{154} (145 x_{1} - 36 x_{2} + 3 x_{3}, - 36 x_{1} + 10 x_{2} + 12 x_{3}, 3 x_{1} + 12 x_{2} + 153 x_{3})

例子14中的观察将以如下形式得到泛化.

定理5. 令

W

是内积空间

V

的一个有限维子空间, 设

E

是

V

在

W

上的正交投影, 那么

E

是

V

上的一个幂等线性算子. 而且,

W

是

E

的像,

W^{⊥}

是

E

的零空间, 于是

V = W \oplus W^{⊥} .

证明. 对于每个

β \in V

, 既然

E β \in W

, 那么

E (E β) = E β

是显然的. 换言之,

E^{2} = E

, 即

E

是幂等的. 现在我们需要证明

E

是线性的. 对于

α, β \in V

, 我们知道

α - E α, β - E β \in W^{⊥}

. 设

c

是任意的标量, 那么

c (α - E α) + (β - E β) = (c α + β) - (c E α + E β) \in W^{⊥}

其中

c E α + E β \in W

. 换言之, 即

E (c α + β) = c E α + E β

, 由此

E

是线性算子.
只需稍微检视一下正交投影的定义, 便可知

E

的像是

W

. 另外, 根据定理4的推论,

I - E

是

V

在

W^{⊥}

上的正交投影. 而且,

I - E

的像是

W^{⊥}

. 现在让我们回忆一下第6章的定理9及其之前的讨论, 就知道

E

的零空间是

W^{⊥}

, 于是

V = W \oplus W^{⊥}

◻

推论. 在定理5的条件下,

I - E

是

V

在

W^{⊥}

上的正交投影. 而且,

I - E

是

V

上的幂等线性算子, 其以

W^{⊥}

为像而

W

为零空间.

译者注记. 对于定理4的推论还有定理5及其推论而言,

W

是有限维子空间的条件并不是必要的, 只是为了确保正交投影的存在性. 实际上, 若

V

在

W

上的正交投影的确存在, 那么这些命题依旧成立.

现在我们可以按照如下方式几何地陈述Gram-Schmidt过程了. 给定内积空间 $V$ 和线性无关的向量 $β_{1}, \dots, β_{n}$ , 令 $P_{k}, k > 1$ 是 $V$ 在由 $β_{1}, \dots, β_{k - 1}$ 张成的子空间的正交补上的正交投影, 并设 $P_{1} = I$ , 那么应用正交化过程于 $β_{1}, \dots, β_{n}$ 得到的向量 $α_{1}, \dots, α_{n}$ 可由 $α_{k} = P_{k} β_{k}, 1 \leq k \leq n$ 定义.

定理5也可以推出所谓的Bessel不等式.

推论. 令

{α_{1}, \dots, α_{n}}

是内积空间

V

中由非零向量构成的正交集合, 如果

β \in V

, 那么

\sum_{k = 1}^{n} \frac{{| ⟨ β | α_{k} ⟩ |}^{2}}{{‖ α_{k} ‖}^{2}} \leq {‖ β ‖}^{2} .

并且, 此不等式取得等号当且仅当

β = \sum_{k = 1}^{n} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k} .

证明. 设

W

是由

α_{1}, \dots, α_{n}

张成的子空间, 那么

γ = \sum_{k = 1}^{n} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k} \in W

是以

W

中的向量对于

β

的最佳近似. 并且, 若令

δ = β - γ

, 则

δ \in W^{⊥}

, 因而

⟨ γ | δ ⟩ = 0

, 故

\begin{array}{rcl} {‖ β ‖}^{2} & = & {‖ γ ‖}^{2} + {‖ δ ‖}^{2} \\ = & ⟨ \sum_{k = 1}^{n} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k} | \sum_{k = 1}^{n} \frac{⟨ β | α_{k} ⟩}{{‖ α_{k} ‖}^{2}} α_{k} ⟩ + {‖ δ ‖}^{2} \\ = & (\sum_{k = 1}^{n} \frac{{| ⟨ β | α_{k} ⟩ |}^{2}}{{‖ α_{k} ‖}^{2}}) + {‖ δ ‖}^{2} \\ \geq & \sum_{k = 1}^{n} \frac{{| ⟨ β | α_{k} ⟩ |}^{2}}{{‖ α_{k} ‖}^{2}} \end{array}

显然, 此不等式取得等号当且仅当

{‖ δ ‖}^{2} = 0

, 即

β = γ

. 证明就结束了.

◻

译者注记. Bessel不等式取得等号的一个等价条件为

β

在由

α_{1}, \dots, α_{n}

张成的子空间之中.

在 ${α_{1}, \dots, α_{n}}$ 为规范正交集的特殊情况下, Bessel不等式就变成了 $\sum_{k = 1}^{n} {| ⟨ β | α_{k} ⟩ |}^{2} \leq {‖ β ‖}^{2} .$ 当然, 若 ${α_{1}, \dots, α_{n}}$ 是 $V$ 的一个规范正交基, 那么Bessel不等式总是取等号, 而此时 $β$ 在有序基 ${α_{1}, \dots, α_{n}}$ 下的坐标的第 $k$ 个分量为 $⟨ β | α_{k} ⟩$ .

例子15. 若我们将上述推论应用于例子11中所描述的规范正交集合, 就会发现

$\sum_{k = - n}^{n} {| \int_{0}^{1} f (t) e^{- 2 π i k t} d t |}^{2} \leq \int_{0}^{1} {| f (t) |}^{2} d t$
$\int_{0}^{1} {| \sum_{k = - n}^{n} c_{k} e^{2 π i k t} |}^{2} d t = \sum_{k = - n}^{n} {| c_{k} |}^{2}$
$\int_{0}^{1} {(\sqrt{2} \cos 2 π t + \sqrt{2} \sin 4 π t)}^{2} d t = 1 + 1 = 2$

练习1. 考虑装备了标准内积的

ℝ^{4}

, 令子空间

W = {γ \in ℝ^{4} | ⟨ γ | α ⟩ = 0 且 ⟨ γ | β ⟩ = 0}

其中

α = (1, 0, - 1, 1)

而

β = (2, 3, - 1, 2)

, 找出

W

的一个基.

练习2. 应用Gram-Schmidt过程于向量

β_{1} = (1, 0, 1)

β_{2} = (1, 0, - 1)

β_{3} = (0, 3, 4)

以得到装备有标准内积的

ℝ^{3}

的一个规范正交基.

练习3. 考虑装备有标准内积的

ℂ^{3}

, 找出由

β_{1} = (1, 0, i)

和

β_{2} = (2, 1, 1 + i)

张成的子空间的一个规范正交基.

练习4. 令

V

是一个内积空间, 两个向量

α

和

β

之间的距离由

d (α, β) = ‖ α - β ‖

定义, 证明

$d (α, β) \geq 0$ ;
$d (α, β) = 0$ 当且仅当 $α = β$ ;
$d (α, β) = d (β, α)$ ;
$d (α, β) \leq d (α, γ) + d (γ, β)$ .

练习5. 令

V

是一个内积空间而

α, β \in V

, 那么

α = β

当且仅当对于每个

γ \in V

有

⟨ α | γ ⟩ = ⟨ β | γ ⟩

练习6. 给定装备有标准内积的

ℝ^{2}

, 令

W

是由

(3, 4)

张成的子空间,

E

是

ℝ^{2}

在

W

上的正交投影, 找出

$E (x_{1}, x_{2})$ 的公式;
标准有序基下 $E$ 的矩阵;
$W^{⊥}$ ;
使得 $E$ 由矩阵 $[\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}]$ 表示的一个规范正交基.

练习7. 令

V

是一个内积空间, 其向量空间为

ℝ^{2}

, 而其内积的二次形式由

{‖ (x_{1}, x_{2}) ‖}^{2} = {(x_{1} - x_{2})}^{2} + 3 x_{2}^{2}

定义. 令

E

是

V

在由

(3, 4)

张成的子空间

W

上的正交投影, 现在回答练习6的四个问题.

练习8. 找出

ℝ^{2}

上的一个内积使得

⟨ ε_{1} | ε_{2} ⟩ = 2

练习9. 令

V

是

ℝ [x]

的次数至多为

3

的多项式构成的子空间, 其上装备的内积为

⟨ f | g ⟩ = \int_{0}^{1} f (t) g (t) d t .

找出由所有标量多项式构成的子空间的正交补.
应用Gram-Schmidt过程于基 ${1, x, x^{2}, x^{3}}$ .

练习10. 令

V

是向量空间

ℂ^{n \times n}

, 设其上的内积为

⟨ A | B ⟩ = tr (A B^{⁎})

, 找出由所有对角矩阵构成的子空间的正交补.

练习11. 令

V

是一个有限维内积空间,

{α_{1}, \dots, α_{n}}

是

V

的一个规范正交基, 证明对于任意的

α, β \in V

, 我们都有

⟨ α | β ⟩ = \sum_{k = 1}^{n} ⟨ α | α_{k} ⟩ \overline{⟨ β | α_{k} ⟩} .

练习12. 令

W

是内积空间

V

的一个有限维子空间,

E

是

V

在

W

上的正交投影, 证明对于所有

α, β \in V

⟨ E α | β ⟩ = ⟨ α | E β ⟩

练习13. 令

S

是内积空间

V

的一个子集. 证明

{(S^{⊥})}^{⊥}

包含由

S

张成的子空间. 当

V

是有限维的时候, 证明

{(S^{⊥})}^{⊥}

就是由

S

张成的子空间.

练习14. 令

V

是一个有限维内积空间而

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个规范正交基. 令

T

是

V

上的一个线性算子而

A

是在有序基

𝔅

下的矩阵. 证明

A_{i, j} = ⟨ T α_{j} | α_{i} ⟩ .

练习15. 设

V = W_{1} \oplus W_{2}

而

f_{1}

和

f_{2}

分别是

W_{1}

和

W_{2}

上的内积. 证明存在唯一的

V

上的内积

f

使得

$W_{2} = W_{1}^{⊥}$ ;
对于 $α, β \in W_{k}, k = 1, 2$ , 有 $f (α, β) = f_{k} (α, β)$ .

练习16. 令

V

是一个内积空间而

W

是

V

的一个有限维子空间, 一般存在许多以

W

为像的投影. 其中一种当然是

W

上的正交投影, 它具有对于每个

α \in V

‖ E α ‖ \leq ‖ α ‖

的性质. 证明如果

E

是一个以

W

为像的投影且对于每个

α \in V

有

‖ E α ‖ \leq ‖ α ‖

, 那么

E

是

W

上的正交投影. [译注: 这个不等式和Bessel不等式差不多.]

练习17. 令

V

是一个实内积空间, 其由区间

[- 1, 1]

上的所有连续实值函数构成, 而内积为

⟨ f | g ⟩ = \int_{- 1}^{1} f (t) g (t) d t .

令

W

是所有奇函数构成子空间, 找出

W

的正交补.

第8.3节线性泛函和伴随

本节的第一部分处理内积空间上的线性泛函以及其与内积的关系. 基本的结果在于有限维内积空间上任意的线性泛函 $f$ 就是"固定一个向量的内积", 即对于某个固定的 $β \in V$ , $f$ 具有 $f (α) = ⟨ α | β ⟩$ 的形式. 我们使用这个结果证明了 $V$ 上的线性算子 $T$ 的"伴随"的存在性, 其是一个对于每个 $α, β \in V$ 有 $⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩$ 的线性算子 $T^{⁎}$ . 通过规范正交基的使用, 线性算子上的伴随操作 (从 $T$ 到 $T^{⁎}$ ) 就相当于构造一个矩阵的共轭转置. 我们稍微探索了一下伴随操作和复数的共轭之间的类似之处.

令 $V$ 是任意的内积空间, $β \in V$ 是一个固定的向量, 我们定义从 $V$ 到标量域的函数 $f_{β}$ 为 $f_{β} (α) = ⟨ α | β ⟩ .$ 函数 $f_{β}$ 是 $V$ 上的一个线性泛函, 这是因为根据内积的定义, $⟨ α | β ⟩$ 作为 $α$ 的函数是线性的. 如果 $V$ 是有限维的, 那么 $V$ 上的每个线性泛函都可由某个 $β$ 以这种方式产生.

定理6. 令

V

是一个有限维内积空间, 而

f

是

V

上的一个线性泛函, 那么存在唯一的向量

β \in V

使得对于每个

α \in V

有

f (α) = ⟨ α | β ⟩

证明. 令

{α_{1}, α_{2}, \dots, α_{n}}

是

V

的一个规范正交基, 置

β = \sum_{j = 1}^{n} \overline{f (α_{j})} α_{j}

令

f_{β}

是由

f_{β} (α) = ⟨ α | β ⟩

定义的线性泛函, 那么

f_{β} (α_{k}) = ⟨ α_{k} | \sum_{j = 1}^{n} \overline{f (α_{j})} α_{j} ⟩ = f (α_{k}) .

既然这对于每个基向量

α_{k}

成立, 于是

f = f_{β}

. 现在设

γ \in V

满足

f_{γ} = f

, 那么

\begin{array}{rcl} f_{γ} (γ - β) - f_{β} (γ - β) & = & ⟨ γ - β | γ ⟩ - ⟨ γ - β | β ⟩ \\ = & ⟨ γ - β | γ - β ⟩ \\ = & 0 \end{array}

换言之,

γ - β = 0

, 即

γ = β

. 因此, 恰存在一个向量

β

按照以上陈述的方式确定了线性泛函

f

◻

这个证明可以使用基下的线性泛函的表示的语言稍微重述一下. 如果我们选定了 $V$ 的一个规范正交基 ${α_{1}, \dots, α_{n}}$ , 那么 $α = x_{1} α_{1} + \dots + x_{n} α_{n}$ 和 $β = y_{1} α_{1} + \dots + y_{n} α_{n}$ 的内积为 $⟨ α | β ⟩ = x_{1} {\overline{y}}_{1} + \dots + x_{n} {\overline{y}}_{n} .$ 如果 $f$ 是 $V$ 上任意的线性泛函, 那么 $f$ 具有 $f (α) = c_{1} x_{1} + \dots + c_{n} x_{n}$ 的形式, 其中 $c_{1}, \dots, c_{n}$ 是由基确定的一些固定标量. 当然, $c_{j} = f (α_{j})$ . 如果我们希望找到一个向量 $β \in V$ 使得对于每个 $α$ 有 $⟨ α | β ⟩ = f (α)$ , 那么显然 $β$ 的坐标分量 $y_{j}$ 必须满足 ${\overline{y}}_{j} = c_{j}$ , 或者说 $y_{j} = \overline{f (α_{j})}$ . 据此, 可知 $β = \overline{f (α_{1})} α_{1} + \dots + \overline{f (α_{n})} α_{n}$ 就是我们所要的向量.

现在应该作出一些更加深刻的评注. 刚才我们所给出的对于定理6的证明相当简短, 然而它却没能强调一个基本的几何事实, 即 $β$ 位于 $f$ 的零空间的正交补之中. 令 $W$ 是 $f$ 的零空间, 那么 $V = W \oplus W^{⊥}$ , 并且 $f$ 完全由其在 $W^{⊥}$ 上的值所确定. 实际上, 如果 $P$ 是 $V$ 在 $W^{⊥}$ 上的正交投影, 那么 $f (α) = f (P α)$ 对于每个 $α \in V$ 成立. 设 $f \neq 0$ , 那么 $f$ 的秩为 $1$ 而 $\dim W^{⊥} = 1$ . 如果 $γ$ 是 $W^{⊥}$ 中任意的非零向量, 那么 $P α = \frac{⟨ α | γ ⟩}{{‖ γ ‖}^{2}} γ$ 对于所有 $α \in V$ 成立, 因此 $\begin{array}{rcl} f (α) & = & f (P α) \\ = & f (\frac{⟨ α | γ ⟩}{{‖ γ ‖}^{2}} γ) \\ = & ⟨ α | γ ⟩ \frac{f (γ)}{{‖ γ ‖}^{2}} \\ = & ⟨ α | \frac{\overline{f (γ)}}{{‖ γ ‖}^{2}} γ ⟩ \end{array}$ 换言之, $β = [\overline{f (γ)} / {‖ γ ‖}^{2}] γ$ .

译者注记. 前一段的一些基本事实(对于像我这样不够聪明的读者)值得澄清. 首先, 之所以

β

位于

f

的零空间的正交补之中, 是因为若

f (α) = 0

, 那么

⟨ α | β ⟩ = 0

, 即

β

正交于

f

的零空间的每个向量. 其次, 之所以

f (α) = f (P α)

, 是因为根据

P

的定义,

α - P α

正交于

W^{⊥}

的每个向量, 而我们知道

β \in W^{⊥}

, 于是就有

\begin{array}{rcl} ⟨ α - P α | β ⟩ & = & ⟨ α | β ⟩ - ⟨ P α | β ⟩ \\ = & f (α) - f (P α) \\ = & 0 \end{array}

即

f (α) = f (P α)

例子16. 我们应该给出一个例子以表明定理6若缺少

V

是有限维空间的条件则并不成立. 令

V

是复数域上的多项式的向量空间, 而内积为

⟨ f | g ⟩ = \int_{0}^{1} f (t) \overline{g (t)} d t .

这个内积也可以被代数地定义. 如果

f = \sum_{j = 0}^{l} a_{j} x^{j}

而

g = \sum_{k = 0}^{m} b_{k} x^{k}

, 那么

⟨ f | g ⟩ = \sum_{j = 0}^{l} \sum_{k = 0}^{m} \frac{a_{j} {\overline{b}}_{k}}{j + k + 1} .

令

z

是一个固定的复数,

L

是"在

z

处求值"的线性泛函:

L (f) = f (z) .

存在一个多项式

g

使得对于每个

f

有

⟨ f | g ⟩ = L (f)

吗? 答案是否定的, 以下是我们的推理. 设存在多项式

g

满足

f (z) = \int_{0}^{1} f (t) \overline{g (t)} d t

对于每个多项式

f

成立. 令

h = x - z

, 那么对于任意的

f

我们有

(h f) (z) = 0

, 于是

0 = \int_{0}^{1} h (t) f (t) \overline{g (t)} d t

特别地, 这个等式在

f = \overline{h} g

时也成立, 以至于

\begin{array}{rcl} \int_{0}^{1} h (t) (\overline{h} g) (t) \overline{g (t)} d t & = & \int_{0}^{1} {| h (t) |}^{2} {| g (t) |}^{2} d t \\ = & \int_{0}^{1} {| (h g) (t) |}^{2} d t \\ = & ⟨ h g | h g ⟩ \\ = & 0 \end{array}

这可以推出

h g = 0

. 鉴于

h \neq 0

, 必然有

g = 0

. 可是,

L

并非零线性泛函, 即这样的

g

不存在.

译者注记. 以上的

\overline{h}

是对于

h

的每个系数作复共轭得到的多项式. 在

t

为实数的情况下,

\overline{h} (t) = \overline{h (t)}

读者可以稍微推广一下这个例子. 设我们选定了标量 $c_{1}, \dots, c_{n}$ 和不同的复数 $z_{1}, \dots, z_{n}$ , 令 $L (f) = c_{1} f (z_{1}) + \dots + c_{n} f (z_{n})$ 那么 $L$ 是 $V$ 上的一个线性泛函, 但是除非 $c_{1} = c_{2} = \dots = c_{n} = 0$ , 并不存在多项式 $g$ 使得 $L (f) = ⟨ f | g ⟩$ . 读者只需重复上述的论证以 $h = (x - z_{1}) \dots (x - z_{n})$ .

现在我们将注意力转到线性算子的伴随的概念上来.

定理7. 对于有限维内积空间

V

上任意的线性算子

T

, 存在唯一的

V

上的线性算子

T^{⁎}

使得对于每个

α, β \in V

有

⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩ .

证明. 令

β

是

V

中任意的一个向量, 那么

α \mapsto ⟨ T α | β ⟩

是

V

上的一个线性泛函. 根据定理6, 存在唯一的

β^{'} \in V

使得对于每个

α \in V

有

⟨ T α | β ⟩ = ⟨ α | β^{'} ⟩

. 令

T^{⁎}

是映射

β \mapsto β^{'}

, 我们知道

⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩

对于所有

α, β \in V

成立, 那么剩下来的工作就是要验证

T^{⁎}

的确是一个线性算子. 令

β, γ \in V

而

c

是一个标量, 对于任意的

α

, 我们有

\begin{array}{rcl} ⟨ α | T^{⁎} (c β + γ) ⟩ & = & ⟨ T α | c β + γ ⟩ \\ = & \overline{c} ⟨ T α | β ⟩ + ⟨ T α | γ ⟩ \\ = & \overline{c} ⟨ α | T^{⁎} β ⟩ + ⟨ α | T^{⁎} γ ⟩ \\ = & ⟨ α | c T^{⁎} β + T^{⁎} γ ⟩ \end{array}

因此,

T^{⁎} (c β + γ) = c T^{⁎} β + T^{⁎} γ

, 即

T^{⁎}

是线性的.

T^{⁎}

的唯一性是显然的. 对于任意的向量

β \in V

, 向量

T^{⁎} β

由以下条件所唯一刻画:

对于每个 α \in V, ⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩ .

◻

译者注记. 以上证明的写法在某种意义上有些颠倒. 实际上, 根据定理6, 满足条件的

T^{⁎}

至多只有一个. 接着, 我们仅需要验证这个由定理6确定的映射的确是我们所要的线性算子即可.

定理8. 令

V

是一个有限维内积空间而

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个(有序)规范正交基, 令

T

是

V

上的一个线性算子而

A

是在有序基

𝔅

下的矩阵, 那么

A_{k, j} = ⟨ T α_{j} | α_{k} ⟩

证明. 既然

𝔅

是一个规范正交基, 我们有

α = \sum_{k = 1}^{n} ⟨ α | α_{k} ⟩ α_{k} .

鉴于矩阵

A

由

T α_{j} = \sum_{k = 1}^{n} A_{k, j} α_{k}

定义, 而

T α_{j} = \sum_{k = 1}^{n} ⟨ T α_{j} | α_{k} ⟩ α_{k}

我们有

A_{k, j} = ⟨ T α_{j} | α_{k} ⟩

◻

推论. 令

V

是一个有限维内积空间而

T

是

V

上的一个线性算子, 那么在

V

的任意的规范正交基下,

T^{⁎}

的矩阵是

T

的矩阵的共轭转置.

证明. 令

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个规范正交基, 设

A = {[T]}_{𝔅}

而

B = {[T^{⁎}]}_{𝔅}

. 根据定理6, 我们有

A_{k, j} = ⟨ T α_{j} | α_{k} ⟩ 和 B_{k, j} = ⟨ T^{⁎} α_{j} | α_{k} ⟩ .

根据

T^{⁎}

的定义, 可以推出

\begin{array}{rcl} B_{k, j} & = & ⟨ T^{⁎} α_{j} | α_{k} ⟩ \\ = & \overline{⟨ α_{k} | T^{⁎} α_{j} ⟩} \\ = & \overline{⟨ T α_{k} | α_{j} ⟩} \\ = & {\overline{A}}_{j, k} \end{array}

◻

例子17. 令

V

是一个有限维内积空间,

E

是

V

在其一个子空间

W

上的正交投影, 那么对于任意的

α, β \in V

, 我们可以推出

\begin{array}{rcl} ⟨ E α | β ⟩ & = & ⟨ E α | E β + (I - E) β ⟩ \\ = & ⟨ E α | E β ⟩ \\ = & ⟨ E α + (I - E) α | E β ⟩ \\ = & ⟨ α | E β ⟩ \end{array}

根据算子

E^{⁎}

的唯一性, 我们知道

E^{⁎} = E

. 现在考虑例子14所描述的投影, 那么

A = \frac{1}{154} [\begin{array}{r} 9 & 36 & - 3 \\ 36 & 144 & - 12 \\ - 3 & - 12 & 1 \end{array}]

是

E

在标准规范正交基下的矩阵. 根据之前的推论, 应该有

A^{⁎} = A

, 的确如此. 另一方面, 设

\begin{array}{rcl} α_{1} & = & (154, 0, 0) \\ α_{2} & = & (145, - 36, 3) \\ α_{3} & = & (- 36, 10, 12) \end{array}

那么

{α_{1}, α_{2}, α_{3}}

是一个基, 并且

\begin{array}{rcl} E α_{1} & = & (9, 36, - 3) \\ E α_{2} & = & (0, 0, 0) \\ E α_{3} & = & (0, 0, 0) \end{array}

既然

(9, 36, - 3) = (154, 0, 0) - (145, - 36, 3)

E

在基

{α_{1}, α_{2}, α_{3}}

下的矩阵为

B = [\begin{array}{r} 1 & 0 & 0 \\ - 1 & 0 & 0 \\ 0 & 0 & 0 \end{array}] .

在这种情况下,

B^{⁎} \neq B

, 而且

B^{⁎}

也不是

E^{⁎}

在基

{α_{1}, α_{2}, α_{3}}

下的矩阵. 应用以上推论, 我们可以得出

{α_{1}, α_{2}, α_{3}}

不是规范正交基. 当然, 这不论如何都是很显然的.

定义. 令

T

是内积空间

V

上的一个线性算子, 那么我们称 $T$ 在 $V$ 上具有一个伴随, 如果存在

V

上的一个线性算子

T^{⁎}

使得

⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩

对于所有

α, β \in V

成立.

根据定理7, 有限维内积空间 $V$ 上的每个线性算子 $T$ 都在 $V$ 上具有伴随. 在无限维的情形下, 并不总是如此. 但是, 不论如何, 至多只有一个这样的算子 $T^{⁎}$ . 当它存在时, 我们将其称为 $T$ 的伴随.

关于有限维的情形, 有两点评注值得一说.

$T$ 的伴随不仅依赖于 $T$ , 也依赖于内积的定义.
正如例子17所显示的那样, 对于任意而非规范正交的有序基 $𝔅$ , ${[T]}_{𝔅}$ 和 ${[T^{⁎}]}_{𝔅}$ 之间的关系要比以上推论所描述的更加复杂.

例子18. 令

V

是

ℂ^{n \times 1}

而内积为

⟨ X | Y ⟩ = Y^{⁎} X

. 如果

A \in ℂ^{n \times n}

, 那么线性算子

X \mapsto A X

的伴随是线性算子

X \mapsto A^{⁎} X

, 因为

⟨ A X | Y ⟩ = Y^{⁎} A X = {(A^{⁎} Y)}^{⁎} X = ⟨ X | A^{⁎} Y ⟩ .

读者应该发现这是前述推论的一个特殊情形.

例子19. 这个例子类似于例子18. 令

V

是

ℂ^{n \times n}

而内积为

⟨ A | B ⟩ = tr (A B^{⁎})

. 令

M \in ℂ^{n \times n}

, 那么左乘

M

的伴随是左乘

M^{⁎}

. 当然, 左乘

M

指的是线性算子

L_{M} (A) = M A

\begin{array}{rcl} ⟨ L_{M} (A) | B ⟩ & = & tr (M A B^{⁎}) \\ = & tr (A B^{⁎} M) \\ = & tr (A {(M^{⁎} B)}^{⁎}) \\ = & ⟨ A | L_{M^{⁎}} (B) ⟩ \end{array}

因此,

{(L_{M})}^{⁎} = L_{M^{⁎}}

. 以上计算中, 我们用到了迹函数的一个特有性质:

tr (A B) = tr (B A)

译者注记. 本书还没有证明过

tr (A B) = tr (B A)

, 现在我们来证明一下:

\begin{array}{rcl} tr (A B) & = & \sum_{j = 1}^{n} {(A B)}_{j, j} \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{j, k} B_{k, j} \\ = & \sum_{k = 1}^{n} \sum_{j = 1}^{n} B_{k, j} A_{j, k} \\ = & \sum_{k = 1}^{n} {(B A)}_{k, k} \\ = & tr (B A) \end{array}

例子20. 令

V

是复数域上的多项式的向量空间, 而其上的内积为

⟨ f | g ⟩ = \int_{0}^{1} f (t) \overline{g (t)} d t .

考虑线性算子"乘以

f

", 即

M_{f} (g) = f g

, 那么这个算子具有一个伴随, 即乘以

\overline{f}

, 这是因为

\begin{array}{rcl} ⟨ M_{f} (g) | h ⟩ & = & ⟨ f g | h ⟩ \\ = & \int_{0}^{1} f (t) g (t) \overline{h (t)} d t \\ = & \int_{0}^{1} g (t) \overline{[\overline{f (t)} h (t)]} d t \\ = & \int_{0}^{1} g (t) \overline{(\overline{f} h) (t)} d t \\ = & ⟨ g | \overline{f} h ⟩ \\ = & ⟨ g | M_{\overline{f}} (h) ⟩ \end{array}

于是

{(M_{f})}^{⁎} = M_{\overline{f}}

例子21. 在例子20里, 我们看到某些无限维向量空间上的线性算子的确也有伴随. 正如之前所说, 这种线性算子并不总是具有伴随. 令

V

是例子20中的内积空间, 而

D

是

ℂ [x]

上的形式微分算子, 那么分部积分表明

⟨ D f | g ⟩ = f (1) \overline{g} (1) - f (0) \overline{g} (0) - ⟨ f | D g ⟩ .

让我们固定

g

, 并检视何时存在一个多项式

D^{⁎} g

使得对于所有的

f

都有

⟨ D f | g ⟩ = ⟨ f | D^{⁎} g ⟩

. 如果这样的一个

D^{⁎} g

存在的话, 我们有

⟨ f | D^{⁎} g ⟩ = f (1) \overline{g} (1) - f (0) \overline{g} (0) - ⟨ f | D g ⟩

或者

⟨ f | D^{⁎} g + D g ⟩ = f (1) \overline{g} (1) - f (0) \overline{g} (0) .

在

g

固定的情况下,

L (f) = f (1) \overline{g} (1) - f (0) \overline{g} (0)

就成为例子16中所考虑的那种类型的线性泛函. 除非

L = 0

, 其就不可能具有

L (f) = ⟨ f | h ⟩

的形式. 如果

D^{⁎} g

存在, 那么令

h = D^{⁎} g + D g

, 我们就有

L (f) = ⟨ f | h ⟩

, 于是

g (0) = g (1) = 0

. 也就是说, 适合的

D^{⁎} g

的存在可以推出

g (0) = g (1) = 0

. 反过来, 若

g (0) = g (1) = 0

, 多项式

D^{⁎} g = - D g

满足对于所有的

f

⟨ D f | g ⟩ = ⟨ f | D^{⁎} g ⟩

. 如果我们选择了任意的

g

使得

g (0) \neq 0

或

g (1) \neq 0

, 那么就不可能定义合适的

D^{⁎} g

. 我们总结一下, 即

D

没有伴随.

我们希望这些例子能够加深读者对于线性算子的伴随的理解. 我们看到, 从 $T$ 到 $T^{⁎}$ 的伴随操作表现得有些类似于复数上的共轭. 以下的定理强调了这种类比.

定理9. 令

V

是一个有限维内积空间,

T

和

U

是

V

上的线性算子,

c

是任意的标量, 那么

${(T + U)}^{⁎} = T^{⁎} + U^{⁎}$ ;
${(c T)}^{⁎} = \overline{c} T^{⁎}$ ;
${(T U)}^{⁎} = U^{⁎} T^{⁎}$ ;
${(T^{⁎})}^{⁎} = T$ .

证明. 为了证明i, 令

α, β \in V

, 那么

\begin{array}{rcl} ⟨ (T + U) α | β ⟩ & = & ⟨ T α + U α | β ⟩ \\ = & ⟨ T α | β ⟩ + ⟨ U α | β ⟩ \\ = & ⟨ α | T^{⁎} β ⟩ + ⟨ α | U^{⁎} β ⟩ \\ = & ⟨ α | T^{⁎} β + U^{⁎} β ⟩ \\ = & ⟨ α | (T^{⁎} + U^{⁎}) β ⟩ \end{array}

根据伴随的唯一性, 我们得到了

{(T + U)}^{⁎} = T^{⁎} + U^{⁎}

. 我们将ii的证明留给读者. 我们从以下关系

⟨ T U α | β ⟩ = ⟨ U α | T^{⁎} β ⟩ = ⟨ α | U^{⁎} T^{⁎} β ⟩

和

⟨ T^{⁎} α | β ⟩ = \overline{⟨ β | T^{⁎} α ⟩} = \overline{⟨ T β | α ⟩} = ⟨ α | T β ⟩

可以得到iii和iv.

◻

定理9经常被重述为伴随是一个周期为 $2$ 的共轭线性的反同构. 我们上面提及的伴随与复共轭的类似之处当然是复共轭具有 $\overline{z_{1} + z_{2}} = \overline{z_{1}} + \overline{z_{2}}$ , $\overline{z_{1} z_{2}} = \overline{z_{1}} \overline{z_{2}}$ , $\overline{\overline{z}} = z$ 的性质. 对于乘积的伴随, 读者必须小心顺序是相反的: ${(T U)}^{⁎} = U^{⁎} T^{⁎}$ . 当我们继续研究内积空间上的线性算子时, 我们将提及以上类比的一些扩展. 现在, 我们就要沿着之前的路线提及一点. 一个复数 $z$ 是实数当且仅当 $z = \overline{z}$ . 读者可能会设想满足 $T = T^{⁎}$ 的线性算子 $T$ 在某种意义上表现得与实数类似, 实际上的确如此. 例如, 若 $T$ 是有限维复内积空间上的一个线性算子, 那么 $T = U_{1} + i U_{2}$ 其中 $U_{1} = U_{1}^{⁎}$ 而 $U_{2} = U_{2}^{⁎}$ . 因此, $T$ 也拥有某种"实部"和"虚部". 这样的算子 $U_{1}$ 和 $U_{2}$ 是唯一的, 由 $U_{1} = \frac{1}{2} (T + T^{⁎}) 和 U_{2} = \frac{1}{2 i} (T - T^{⁎})$ 给定.

满足 $T = T^{⁎}$ 的线性算子 $T$ 被称为是自伴的, 或者Hermite的. 若 $𝔅$ 是 $V$ 的一个规范正交基, 那么 ${[T^{⁎}]}_{𝔅} = {[T]}_{𝔅}^{⁎} .$ 于是, $T$ 是自伴算子当且仅当其在每个规范正交基下的矩阵表示都是自伴的. 自伴算子是重要的, 不仅在于其提供了一般线性算子在某种意义下的实部和虚部, 还出于以下原因:

自伴算子具有许多特殊的性质. 例如, 对于这样的一种线性算子, 存在一个由其特征向量构成的规范正交基.
许多实践中出现的线性算子都是自伴的.

之后我们将考虑自伴算子的特殊性质.

练习1. 令

V

是带有标准内积的向量空间

ℂ^{2}

T

是由

T ε_{1} = (1, - 2)

和

T ε_{2} = (i, - 1)

定义的线性算子. 如果

α = (x_{1}, x_{2})

, 找出

T^{⁎} α

练习2. 令

T

是

ℂ^{2}

上的线性算子, 由

T ε_{1} = (1 + i, 2)

和

T ε_{2} = (i, i)

定义. 使用标准内积, 找出

T^{⁎}

在标准有序基下的矩阵.

T

与

T^{⁎}

交换吗?

练习3. 令

V

是带有标准内积的

ℂ^{3}

T

是

V

上的线性算子, 其在标准有序基下的矩阵由

A_{j, k} = i^{j + k}

定义, 其中

i

是虚数单位. 找出

T^{⁎}

的零空间的一个基.

练习4. 令

V

是一个有限维内积空间,

T

是

V

上的一个线性算子, 证明

T^{⁎}

的像是

T

的零空间的正交补.

练习5. 令

V

是一个有限维内积空间,

T

是

V

上的一个线性算子. 如果

T

是可逆的, 证明

T^{⁎}

也是可逆的, 并且

{(T^{⁎})}^{- 1} = {(T^{- 1})}^{⁎}

练习6. 令

V

是一个内积空间, 而

β

和

γ

是

V

中固定的向量. 证明

T α = ⟨ α | β ⟩ γ

定义了

V

上的一个线性算子. 证明

T

具有伴随, 并显式描述

T^{⁎}

.
现在设

V

是带有标准内积的

ℂ^{n}

β = (y_{1}, \dots, y_{n})

而

γ = (x_{1}, \dots, x_{n})

T

在标准有序基下的矩阵的第

j

行

k

列的元素是什么? 这个矩阵的秩是多少?

练习7. 证明两个自伴算子之积是自伴的当且仅当这两个算子交换.

练习8. 令

V

是

ℝ

上次数小于等于

3

的多项式构成的向量空间, 而内积为

⟨ f | g ⟩ = \int_{0}^{1} f (t) g (t) d t .

如果

t

是一个实数, 找出多项式

g_{t} \in V

使得对于每个

f \in V

都有

⟨ f | g_{t} ⟩ = f (t)

练习9. 令

V

是练习8的内积空间,

D

是

V

上的形式微分算子, 找出

D^{⁎}

练习10. 令

V

是

ℂ^{n \times n}

, 其上的内积为

⟨ A | B ⟩ = tr (A B^{⁎})

. 令

P \in V

是一个固定的可逆矩阵, 而

T_{P} (A) = P^{- 1} A P

是

V

上的线性算子. 找出

T_{P}

的伴随.

练习11. 令

V

是一个有限维内积空间,

E

是

V

上的一个幂等线性算子, 证明

E

是自伴的当且仅当

E E^{⁎} = E^{⁎} E

练习12. 令

V

是一个有限维复内积空间,

T

是

V

上的一个线性算子, 证明

T

是自伴的当且仅当对于每个

α \in V

⟨ T α | α ⟩

是实数.

第8.4节酉算子

在本节中, 我们将考虑两个内积空间之间的同构的概念. 如果 $V$ 和 $W$ 是向量空间, 那么从 $V$ 到 $W$ 的同构是一个从 $V$ 到 $W$ 的双射的线性变换, 即"保持"向量空间运算的从 $V$ 到 $W$ 的一一对应. 既然内积空间不仅包含包含向量空间, 还具有一个给定的内积, 那么当 $V$ 和 $W$ 是内积空间时, 我们要求从 $V$ 到 $W$ 的内积不仅保持线性运算, 还应该保持内积. 内积空间上的自同构被称为"酉算子". 我们将考虑酉算子的各种例子并建立其基本性质.

定义. 令

V

和

W

是相同的域上的内积空间,

T

是从

V

到

W

的线性变换, 那么我们称

T

保持内积, 如果对于每个

α, β \in V

都有

⟨ T α | T β ⟩ = ⟨ α | β ⟩

. 从

V

到

W

的同构是保持内积的从

V

到

W

的向量空间的同构.

如果 $T$ 保持内积, 那么 $‖ T α ‖ = ‖ α ‖$ , 于是 $T$ 必然是非奇异的. 因此, 从 $V$ 到 $W$ 的同构也可以被定义为保持内积的从 $V$ 到 $W$ 的满射的线性变换. 若 $T$ 是从 $V$ 到 $W$ 的同构, 那么 $T^{- 1}$ 是从 $W$ 到 $V$ 的同构. 当这样的一个 $T$ 存在时, 我们就称 $V$ 和 $W$ 是同构的. 当然, 内积空间之间的同构是一个等价关系.

定理10. 令

V

和

W

是相同的域上的

n

维内积空间, 如果

T

是从

V

到

W

的线性变换, 那么以下条件是等价的.

$T$ 保持内积.
$T$ 是一个(内积空间的)同构.
$T$ 将 $V$ 的每个规范正交基映射为 $W$ 的规范正交基.
$T$ 将 $V$ 的某个规范正交基映射为 $W$ 的规范正交基.

证明. 由i推出ii: 如果

T

保持内积, 那么对于每个

α \in V

‖ T α ‖ = ‖ α ‖

. 因此,

T

是非奇异的. 既然

\dim V = \dim W

, 我们知道

T

是一个向量空间的同构.
由ii推出iii: 设

T

是一个同构. 令

{α_{1}, \dots, α_{n}}

是

V

的一个规范正交基. 既然

T

是一个向量空间的同构, 那么

{T α_{1}, \dots, T α_{n}}

是

W

的一个基. 鉴于

T

也保持内积,

⟨ T α_{j} | T α_{k} ⟩ = ⟨ α_{j} | α_{k} ⟩ = δ_{j, k}

.
由iii推出iv: 不言自明.
由iv推出i: 令

{α_{1}, \dots, α_{n}}

是

V

的一个规范正交基, 其使得

{T α_{1}, \dots, T α_{n}}

是

W

的一个规范正交基, 那么

⟨ T α_{j} | T α_{k} ⟩ = δ_{j, k} = ⟨ α_{j} | α_{k} ⟩ .

对于

V

中任意的向量

α = x_{1} α_{1} + \dots + x_{n} α_{n}

和

β = y_{1} α_{1} + \dots + y_{n} α_{n}

, 我们有

\begin{array}{rcl} ⟨ α | β ⟩ & = & \sum_{j = 1}^{n} x_{j} {\overline{y}}_{j} \\ ⟨ T α | T β ⟩ & = & ⟨ \sum_{j = 1}^{n} x_{j} T α_{j} | \sum_{k = 1}^{n} y_{k} T α_{k} ⟩ \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} x_{j} {\overline{y}}_{k} ⟨ T α_{j} | T α_{k} ⟩ \\ = & \sum_{j = 1}^{n} x_{j} {\overline{y}}_{j} \end{array}

于是,

T

保持内积.

◻

译者注记. 以上证明用到了第3章的定理9的注记.

推论. 令

V

和

W

是相同的域上的有限维内积空间, 那么

V

和

W

同构当且仅当它们具有相等的维数.

证明. 如果

{α_{1}, \dots, α_{n}}

是

V

的一个规范正交基而

{β_{1}, \dots, β_{n}}

是

W

的一个规范正交基, 令

T

是由

T α_{j} = β_{j}

定义的从

V

到

W

的线性变换, 那么

T

是从

V

到

W

的同构.

◻

例子22. 如果

V

是一个

n

维内积空间, 那么每个有序规范正交基

𝔅 = {α_{1}, \dots, α_{n}}

都确定了一个从

V

到带有标准内积的

F^{n}

的同构, 这个同构即

T (x_{1} α_{1} + \dots + x_{n} α_{n}) = (x_{1}, \dots, x_{n}) .

还有一个由

𝔅

确定的从

V

到带有标准内积的

F^{n \times 1}

的同构, 其仅与前述例子在表面上有所不同, 此即

α \mapsto {[α]}_{𝔅}

也就是将

α

送至其在有序基

𝔅

下的坐标矩阵的变换. 对于任意的有序基

𝔅

而言, 这都是一个向量空间的同构. 然而, 这是两个内积空间之间的同构当且仅当

𝔅

是一个规范正交基.

例子23. 现在我们给出一个不那么浮浅的例子. 令

W

是

ℝ

上的所有

3 \times 3

的斜对称矩阵

A

(即

A^{t} = - A

) 构成的向量空间. 我们装备

W

以内积

⟨ A | B ⟩ = \frac{1}{2} tr (A B^{t})

, 这里的

\frac{1}{2}

只是为了方便而插入的. 令

V

是带有标准内积的

ℝ^{3}

. 令

T

是从

V

到

W

的线性变换, 由

T (x_{1}, x_{2}, x_{3}) = [\begin{array}{r} 0 & - x_{3} & x_{2} \\ x_{3} & 0 & - x_{1} \\ - x_{2} & x_{1} & 0 \end{array}] .

定义, 那么

T

是一个满射. 置

A = [\begin{array}{r} 0 & - x_{3} & x_{2} \\ x_{3} & 0 & - x_{1} \\ - x_{2} & x_{1} & 0 \end{array}], B = [\begin{array}{r} 0 & - y_{3} & y_{2} \\ y_{3} & 0 & - y_{1} \\ - y_{2} & y_{1} & 0 \end{array}]

我们有

\begin{array}{rcl} tr (A B^{t}) & = & x_{3} y_{3} + x_{2} y_{2} + x_{3} y_{3} + x_{2} y_{2} + x_{1} y_{1} \\ = & 2 (x_{1} y_{1} + x_{2} y_{2} + x_{3} y_{3}) \end{array}

因此,

⟨ α | β ⟩ = ⟨ T α | T β ⟩

而

T

是一个内积空间之间的同构. 注意到

T

将标准基

ε_{1}, ε_{2}, ε_{3}

送至规范正交基

[\begin{array}{r} 0 & 0 & 0 \\ 0 & 0 & - 1 \\ 0 & 1 & 0 \end{array}], [\begin{array}{r} 0 & 0 & 1 \\ 0 & 0 & 0 \\ - 1 & 0 & 0 \end{array}], [\begin{array}{r} 0 & - 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \end{array}] .

例子24. 基于规范正交基描述同构实际上并不总是最方便. 例如, 设

G = P^{⁎} P

, 其中

P

是一个

n \times n

的可逆复矩阵. 令

V

是向量空间

ℂ^{n \times 1}

, 带有内积

[X | Y] = Y^{⁎} G X

. 令

W

是相同的向量空间, 但是带有标准内积

⟨ X | Y ⟩ = Y^{⁎} X

. 我们知道

V

和

W

是同构的内积空间. 似乎刻画一个

V

和

W

之间的同构的最简单方式如下: 令从

V

到

W

的线性变换

T (X) = P X

, 那么

\begin{array}{rcl} ⟨ T X | T Y ⟩ & = & ⟨ P X | P Y ⟩ \\ = & {(P Y)}^{⁎} (P X) \\ = & Y^{⁎} P^{⁎} P X \\ = & Y^{⁎} G X \\ = & [X | Y] \end{array}

因而

T

是一个同构.

例子25. 令

V

是单位区间上的实值连续函数的空间, 带有内积

[f | g] = \int_{0}^{1} f (t) g (t) t^{2} d t .

令

W

是相同的向量空间, 带有内积

⟨ f | g ⟩ = \int_{0}^{1} f (t) g (t) d t .

令

T

是从

V

到

W

的线性变换, 由

(T f) (t) = t f (t)

给定, 那么

⟨ T f | T g ⟩ = [f | g]

, 于是

T

保持内积. 然而,

T

并非从

V

到

W

的同构, 因为

T

不是满射. 当然, 这会发生仅是因为作为基础的向量空间不是有限维的.

定理11. 令

V

和

W

是相同的域上的内积空间,

T

是从

V

到

W

的线性变换, 那么

T

保持内积当且仅当对于每个

α \in V

‖ T α ‖ = ‖ α ‖

证明. 如果

T

保持内积, 那么当然

T

"保持范数". 设对于每个

α \in V

有

‖ T α ‖ = ‖ α ‖

, 那么

{‖ T α ‖}^{2} = {‖ α ‖}^{2}

. 现在根据实或复选择相应的极化恒等式, 再加上

T

具有线性性质的事实, 很容易得到对于每个

α, β \in V

, 我们有

⟨ α | β ⟩ = ⟨ T α | T β ⟩

◻

译者注记. 以复内积空间为例, 我们补充一下这里的推理:

\begin{array}{rcl} ⟨ T α | T β ⟩ & = & \frac{1}{4} ({‖ T α + T β ‖}^{2} - {‖ T α - T β ‖}^{2}) + \frac{i}{4} ({‖ T α + i T β ‖}^{2} - {‖ T α - i T β ‖}^{2}) \\ = & \frac{1}{4} ({‖ T (α + β) ‖}^{2} - {‖ T (α - β) ‖}^{2}) + \frac{i}{4} ({‖ T (α + i β) ‖}^{2} - {‖ T (α - i β) ‖}^{2}) \\ = & \frac{1}{4} ({‖ α + β ‖}^{2} - {‖ α - β ‖}^{2}) + \frac{i}{4} ({‖ α + i β ‖}^{2} - {‖ α - i β ‖}^{2}) \\ = & ⟨ α | β ⟩ \end{array}

定义. 一个内积空间上的一个酉算子是一个从此空间到自身的同构.

两个酉算子之积仍然是酉算子, 因为如果 $U_{1}$ 和 $U_{2}$ 是酉算子, 那么 $U_{2} U_{1}$ 是可逆的, 并且对于每个 $α$ 有 ${‖ U_{2} U_{1} α ‖}^{2} = {‖ U_{1} α ‖}^{2} = {‖ α ‖}^{2}$ . [译注: 作者这里提及可逆时, 指的是作为映射的可逆, 或者是作为线性变换的可逆, 但肯定不是作为内积空间同态的可逆, 因为那样的话就不需要说明了.] 当然, 酉算子的逆也是酉算子, 鉴于 $‖ U α ‖ = ‖ α ‖$ 可以推出 $‖ U^{- 1} β ‖ = ‖ β ‖$ , 其中 $β = U α$ . [译注: 这个逆当然说的是作为映射的逆.] 既然恒等算子显然是一个酉算子, 我们看到一个内积空间上的所有酉算子构成的集合在复合运算下是一个群.

如果 $V$ 是一个有限维内积空间而 $T$ 是 $V$ 上的一个线性算子, 那么定理10告诉我们 $U$ 是酉算子当且仅当对于每个 $α, β \in V$ , $⟨ U α | U β ⟩ = ⟨ α | β ⟩$ ; 或者, 当且仅当对于某个 (或者每个) 规范正交基 ${α_{1}, \dots, α_{n}}$ , ${U α_{1}, \dots, U α_{n}}$ 也是规范正交基.

定理12. 令

U

是内积空间

V

上的一个线性算子, 那么

U

是酉算子当且仅当

U

的伴随

U^{⁎}

存在并且

U U^{⁎} = U^{⁎} U = I

证明. 设

U

是酉算子, 那么

U

是可逆的, 并且

⟨ U α | β ⟩ = ⟨ U α | U U^{- 1} β ⟩ = ⟨ α | U^{- 1} β ⟩

对于任意的

α, β \in V

成立, 因而

U^{- 1}

是

U

的伴随.
反过来, 设

U^{⁎}

存在并且

U U^{⁎} = U^{⁎} U = I

, 那么

U

是可逆的, 而

U^{- 1} = U^{⁎}

. 于是, 剩下来我们要做的事情就只是证明

U

保持内积. 对于任意的

α, β \in V

, 我们有

\begin{array}{rcl} ⟨ U α | U β ⟩ & = & ⟨ α | U^{⁎} U β ⟩ \\ = & ⟨ α | I β ⟩ \\ = & ⟨ α | β ⟩ \end{array}

◻

例子26. 考虑带有标准内积的

ℂ^{n \times 1}

, 令

A

是域

ℂ

上的一个

n \times n

矩阵,

U

是由

U (X) = A X

定义的线性算子, 那么对于每个

X, Y \in ℂ^{n \times 1}

有

⟨ U X | U Y ⟩ = ⟨ A X | A Y ⟩ = Y^{⁎} A^{⁎} A X

因此,

U

是酉算子当且仅当

A^{⁎} A = I

定义. 一个

n \times n

的复矩阵被称为酉矩阵, 如果

A^{⁎} A = I

. [译注: 这里提及了复矩阵, 也就包括了实矩阵的情况, 鉴于实数域是复数域的子域.]

定理13. 令

V

是一个有限维内积空间而

U

是

V

上的一个线性算子, 那么

U

是酉算子当且仅当

U

在某个 (或者每个) 有序规范正交基下的表示是酉矩阵.

证明. 在当前阶段, 这不太算是一个定理, 我们陈述该定理主要是为了强调一下. 如果

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序规范正交基, 而

A

是

U

相对于

𝔅

的矩阵, 那么

A^{⁎} A = I

当且仅当

U^{⁎} U = I

. 现在这个结果可由定理12直接推出.

◻

令 $A$ 是一个 $n \times n$ 的复矩阵, 那么陈述 $A$ 为酉矩阵即意味着 ${(A^{⁎} A)}_{j, k} = δ_{j, k}$ 或者 $\sum_{r = 1}^{n} {\overline{A}}_{r, j} A_{r, k} = δ_{j, k} .$ 换言之, $A$ 的列相对于标准内积 $⟨ X | Y ⟩ = Y^{⁎} X$ 构成了一个规范正交集合. 既然 $A^{⁎} A = I$ 当且仅当 $A A^{⁎} = I$ , 我们看到 $U$ 是酉矩阵恰当 $A$ 的行在带有标准内积的 $ℂ^{n}$ 中构成了一个规范正交集合. [译注: 在本书中, 作者将 $ℂ^{1 \times n}$ 和 $ℂ^{n}$ 视为完全相同的.] 因此, 使用标准内积, $A$ 是酉矩阵当且仅当 $A$ 的行和列都构成了规范正交集合. 这里读者看到了展现矩阵的单边逆也是双边逆这个定理的威力的一例. 按照以上方式应用该定理于实矩阵, 我们得到了以下结果: 设我们有一个实方阵, 其每一行的元素的平方和为 $1$ 而不同的行是正交的, 那么每一列的元素的平方和也为 $1$ , 并且不同的列是正交的. [译注: 相对于标准内积而言. 当然, 这本质上只是对于实数域上的方阵重复了一下刚才的结果.] 若是读者对于 $3 \times 3$ 的情形写下证明而不诉诸于任何矩阵的知识, 那么他应该会对于矩阵的单边逆可以推出双边逆印象深刻.

定义. 一个实或复的

n \times n

矩阵

A

被称为是正交矩阵, 如果

A^{t} A = I

一个实正交矩阵是酉矩阵; 并且, 一个酉矩阵是正交矩阵当且仅当其每个元素都是实数.

译者注记. 读者应该注意一下, 这里的定义与其他材料稍有不同. 一般而言, 当提起酉矩阵的时候, 人们默认这是一个复矩阵; 当提起正交矩阵的时候, 人们默认这是一个实矩阵. 显然, 正交矩阵即酉矩阵被限制为实情形得到的概念. 或者说, 酉矩阵即正交矩阵在复情形上的推广. 当然, 只要读者稍加注意, 就不会有什么问题.

例子27. 我们给出一些酉矩阵和正交矩阵的例子.

$1 \times 1$ 的矩阵 $[\begin{matrix} c \end{matrix}]$ 是正交矩阵当且仅当 $c = \pm 1$ , 是酉矩阵当且仅当 $c \overline{c} = 1$ . 后一个条件即 $| c | = 1$ , 或者 $c = e^{i θ}$ , 其中 $θ$ 是实数.
令 $A = [\begin{matrix} a & b \\ c & d \end{matrix}]$ 那么 $A$ 是正交矩阵当且仅当 $A^{t} = A^{- 1} = \frac{1}{a d - b c} [\begin{array}{r} d & - b \\ - c & a \end{array}] .$ 显然, 任何正交矩阵的行列式都是 $\pm 1$ . 因此, $A$ 是正交矩阵当且仅当 $A = [\begin{array}{r} a & b \\ - b & a \end{array}]$ 或者 $A = [\begin{array}{r} a & b \\ b & - a \end{array}]$ 其中 $a^{2} + b^{2} = 1$ . 这两种情形由 $\det (A)$ 的值区分.
三角函数之间的关系表明 $A_{θ} = [\begin{array}{r} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{array}]$ 是正交矩阵. 如果 $θ$ 是一个实数, 那么 $A_{θ}$ 即平面上逆时针旋转 $θ$ 的线性变换 $U_{θ}$ 在 $ℝ^{2}$ 的标准有序基下的矩阵. 此时, 鉴于 $A_{θ}$ 是一个实正交矩阵, 因而 $A_{θ}$ 是一个酉矩阵, 那么 $U_{θ}$ 是一个酉算子, 即保持点积.
令 $A = [\begin{matrix} a & b \\ c & d \end{matrix}]$ 那么 $A$ 是酉矩阵当且仅当 $[\begin{matrix} \overline{a} & \overline{c} \\ \overline{b} & \overline{d} \end{matrix}] = \frac{1}{a d - b c} [\begin{array}{r} d & - b \\ - c & a \end{array}] .$ 酉矩阵的行列式具有绝对值 $1$ , 因而是一个具有 $e^{i θ}$ 形式的复数, 其中 $θ$ 是实数. 于是, $A$ 是酉矩阵当且仅当 $A = [\begin{matrix} a & b \\ - e^{i θ} \overline{b} & e^{i θ} \overline{a} \end{matrix}] = [\begin{matrix} 1 & 0 \\ 0 & e^{i θ} \end{matrix}] [\begin{array}{r} a & b \\ - \overline{b} & \overline{a} \end{array}]$ 其中 $θ$ 是一个实数而 $a$ 和 $b$ 是满足 ${| a |}^{2} + {| b |}^{2} = 1$ 的复数.

正如我们之前所注意到的, 一个内积空间上的酉算子构成了一个群. 根据这个观察以及定理13, 我们可以推出由所有 $n \times n$ 的酉矩阵构成的集合 $U (n)$ 也是一个群. 因此, 酉矩阵的逆和两个酉矩阵之积都是酉矩阵. 当然, 直接看出来也是很简单的. 一个 $n \times n$ 的复矩阵 $A$ 是酉矩阵当且仅当 $A^{- 1} = A^{⁎}$ . 因此, 如果 $A$ 是酉矩阵, 我们有 ${(A^{- 1})}^{- 1} = A = {(A^{⁎})}^{- 1} = {(A^{- 1})}^{⁎}$ . 如果 $A$ 和 $B$ 是 $n \times n$ 的酉矩阵, 那么 ${(A B)}^{- 1} = B^{- 1} A^{- 1} = B^{⁎} A^{⁎} = {(A B)}^{⁎}$ . [译注: 似乎直接按照酉矩阵的定义进行证明反而更简单.]

$ℂ^{n}$ 中的Gram-Schmidt过程对于牵涉群 $U (n)$ 的矩阵具有一个有趣的推论.

定理14. 对于每个

n \times n

的可逆复矩阵

B

, 存在唯一的主对角线元素皆为正数的下三角矩阵

M

使得

M B

是酉矩阵.

证明.

B

的行

β_{1}, \dots, β_{n}

构成了

ℂ^{n}

的一个基. 应用Gram-Schmidt过程于

β_{1}, \dots, β_{n}

, 我们得到了

ℂ^{n}

的一个正交基

α_{1}, \dots, α_{n}

, 其中

α_{k} = β_{k} - \sum_{j = 1}^{k - 1} \frac{⟨ β_{k} | α_{j} ⟩}{{‖ α_{j} ‖}^{2}} α_{j} .

因此, 对于每个

k

, 存在唯一的标量

C_{k, j}

使得

α_{k} = β_{k} - \sum_{j = 1}^{k - 1} C_{k, j} β_{j} .

令

U

是以

\frac{α_{1}}{‖ α_{1} ‖}, \dots, \frac{α_{n}}{‖ α_{n} ‖}

为行的酉矩阵, 而

M

是由

M_{k, j} = {\begin{matrix} - \frac{C_{k, j}}{‖ α_{k} ‖} & , 如果 j < k \\ \frac{1}{‖ α_{k} ‖} & , 如果 j = k \\ 0 & , 如果 j > k \end{matrix}

定义的矩阵. 那么,

M

是下三角矩阵 (意即主对角线的上面的元素均为

0

M

的主对角线上的元素均大于

0

, 并且

\frac{α_{k}}{‖ α_{k} ‖} = \sum_{j = 1}^{n} M_{k, j} β_{j}, 1 \leq k \leq n .

此即是说

U = M B .

为了证明

M

的唯一性, 令

T^{+} (n)

代表所有主对角线元素均为正数的下三角矩阵构成的集合. 设

M_{1}, M_{2} \in T^{+} (n)

满足

M_{1} B, M_{2} B \in U (n)

, 那么因为

U (n)

是一个群, 我们有

(M_{1} B) {(M_{2} B)}^{- 1} = M_{1} M_{2}^{- 1} \in U (n) .

另一方面, 虽然并不全然明显, 但是

T^{+} (n)

在矩阵乘法下也是一个群. 一种看出这点的方法是考虑列矩阵的空间上的线性变换

M \mapsto M X, M \in T^{+} (n)

的几何性质. 因此,

M_{2}^{- 1}, M_{1} M_{2}^{- 1}, {(M_{1} M_{2}^{- 1})}^{- 1} \in T^{+} (n)

. 但是, 既然

M_{1} M_{2}^{- 1} \in U (n)

, 我们知道

{(M_{1} M_{2}^{- 1})}^{- 1} = {(M_{1} M_{2}^{- 1})}^{⁎}

. 鉴于任何下三角矩阵的转置或者共轭转置都是上三角矩阵, 所以

M_{1} M_{2}^{- 1}

既是上三角矩阵又是下三角矩阵. 换言之, 就是对角矩阵. 一个对角矩阵是酉矩阵当且仅当其每个对角线元素均具有绝对值

1

; 若是对角线元素都为正数, 那么它们只能全等于

1

. 因此,

M_{1} M_{2}^{- 1} = I

, 即

M_{1} = M_{2}

◻

译者注记. 译者也没太明白怎么利用几何性质说明

T^{+} (n)

是一个群, 但是当然还有其他方式. 例如, 通过和以上证明相同的手法 (其中的酉矩阵就是恒等矩阵), 我们可以证明

T^{+} (n)

中的矩阵的逆必然也是

T^{+} (n)

的元素. 另外,

T^{+} (n)

显然对于乘法封闭, 所以

T^{+} (n)

是一个群.

令 $GL (n)$ 代表所有 $n \times n$ 的可逆复矩阵构成的集合, 那么 $GL (n)$ 在矩阵乘法下也是一个群. 这个群被称为一般线性群. 定理14等价于以下结果.

推论. 对于每个

B \in GL (n)

, 存在唯一的

N \in T^{+} (n)

和

U \in U (n)

使得

B = N U .

证明. 根据定理14, 存在唯一的矩阵

M \in T^{+} (n)

使得

M B \in U (n)

. 令

U = M B

而

N = M^{- 1}

, 那么

N \in T^{+} (n)

而

B = N U

. 另一方面, 若

N \in T^{+} (n)

和

U \in U (n)

满足

B = N U

, 那么

N^{- 1} B \in U (n)

, 其中

N^{- 1}

即是由定理14刻画的唯一的矩阵

M

. 而且,

U

必然为

N^{- 1} B

◻

例子28. 令

x_{1}

和

x_{2}

是满足

x_{1}^{2} + x_{2}^{2} = 1

的实数, 并且

x_{1} \neq 0

. 令

B = [\begin{matrix} x_{1} & x_{2} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] .

应用Gram-Schmidt过程于

B

的行, 我们会得到向量

\begin{array}{rcl} α_{1} & = & (x_{1}, x_{2}, 0) \\ α_{2} & = & (0, 1, 0) - x_{2} (x_{1}, x_{2}, 0) \\ = & x_{1} (- x_{2}, x_{1}, 0) \\ α_{3} & = & (0, 0, 1) \end{array}

令

U

是以

α_{1}, (α_{2} / x_{1}), α_{3}

为行的矩阵, 那么

U

是酉矩阵, 并且

U = [\begin{array}{r} x_{1} & x_{2} & 0 \\ - x_{2} & x_{1} & 0 \\ 0 & 0 & 1 \end{array}] = [\begin{matrix} 1 & 0 & 0 \\ - \frac{x_{2}}{x_{1}} & \frac{1}{x_{1}} & 0 \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} x_{1} & x_{2} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] .

现在左乘

M = [\begin{matrix} 1 & 0 & 0 \\ - \frac{x_{2}}{x_{1}} & \frac{1}{x_{1}} & 0 \\ 0 & 0 & 1 \end{matrix}]

的逆, 我们得到

[\begin{matrix} x_{1} & x_{2} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ x_{2} & x_{1} & 0 \\ 0 & 0 & 1 \end{matrix}] [\begin{array}{r} x_{1} & x_{2} & 0 \\ - x_{2} & x_{1} & 0 \\ 0 & 0 & 1 \end{array}] .

现在让我们来简要考虑一下内积空间的坐标变换. 设 $V$ 是一个有限维内积空间, $𝔅 = {α_{1}, \dots, α_{n}}$ 和 $𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}$ 是 $V$ 的两个规范正交基, 那么存在唯一的(必然可逆的) $n \times n$ 矩阵 $P$ 使得 ${[α]}_{𝔅^{'}} = P^{- 1} {[α]}_{𝔅}$ 对于每个 $α \in V$ 成立. 如果 $U$ 是由 $U α_{j} = α_{j}^{'}$ 定义的唯一的 $V$ 上的线性算子, 那么 $P$ 是 $U$ 在有序基 $𝔅$ 下的矩阵: $α_{k}^{'} = \sum_{j = 1}^{n} P_{j, k} α_{j} .$ 既然 $𝔅$ 和 $𝔅^{'}$ 都是规范正交基, 那么 $U$ 是一个酉算子而 $P$ 是一个酉矩阵. 如果 $T$ 是 $V$ 上的一个线性算子, 那么 ${[T]}_{𝔅^{'}} = P^{- 1} {[T]}_{𝔅} P = P^{⁎} {[T]}_{𝔅} P .$

定义. 令

A

和

B

是

n \times n

的复矩阵. 我们称

B

酉等价于

A

, 如果存在一个

n \times n

的酉矩阵

P

使得

B = P^{- 1} A P

. 我们称

B

正交等价于

A

, 如果存在一个

n \times n

的正交矩阵使得

B = P^{- 1} A P

译者注记. 当然, 以上定义中, 酉等价里的

P^{- 1} A P

可以换成

P^{⁎} A P

, 正交等价里的

P^{- 1} A P

可以换成

P^{t} A P

. 另外, 酉等价也可以被称为酉相似, 正交等价也可以被称为正交相似.

根据这个定义, 我们可以重新表述以上的观察如下: 如果 $𝔅$ 和 $𝔅^{'}$ 是 $V$ 的两个规范正交基, 那么 ${[T]}_{𝔅^{'}}$ 酉等价于 ${[T]}_{𝔅}$ . 在 $V$ 是实内积空间的情形下, 这些矩阵是正交等价的, 通过一个实正交矩阵.

练习1. 找出一个不是正交矩阵的酉矩阵, 以及一个不是酉矩阵的正交矩阵.

练习2. 令

V

是

ℂ^{n \times n}

, 带有通常内积

⟨ A | B ⟩ = tr (A B^{⁎})

. 对于每个

M \in A

, 令

T_{M} (A) = M A

是

V

上的线性算子. 证明

T_{M}

是一个酉算子当且仅当

M

是一个酉矩阵.

练习3. 令

V

是被当作实向量空间的复数域.

表明 $⟨ α | β ⟩ = Re (α \overline{β})$ 定义了一个 $V$ 上的内积.
找出一个从 $V$ 到带有标准内积的 $ℝ^{2}$ 的(内积空间的)同构.
对于每个 $γ \in V$ , 令 $M_{γ} (α) = γ α$ 是 $V$ 上的线性算子, 证明 ${(M_{γ})}^{⁎} = M_{\overline{γ}}$ .
对于什么样的复数 $γ$ , $M_{γ}$ 是自伴算子?
对于什么样的复数 $γ$ , $M_{γ}$ 是酉算子?
对于什么样的复数 $γ$ , $M_{γ}$ 是正定算子? [译注: 正定算子的定义见第9.3节.]
$\det (M_{γ})$ 是多少?
找出 $M_{γ}$ 在基 ${1, i}$ 下的矩阵.
如果 $T$ 是 $V$ 上的一个线性算子, 找出存在 $γ \in ℂ$ 使得 $T = M_{γ}$ 的充要条件.
找出一个 $V$ 上的酉算子 $U$ , 但是不存在 $γ \in ℂ$ 使得 $U = M_{γ}$ .

练习4. 令

V

是带有标准内积的

ℝ^{2}

. 如果

U

是

V

上的一个酉算子, 证明

U

在标准有序基下的矩阵是

[\begin{array}{r} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{array}] 或者 [\begin{array}{r} \cos θ & \sin θ \\ \sin θ & - \cos θ \end{array}]

其中

0 \leq θ < 2 π

. 令

U_{θ}

是在标准有序基下以

[\begin{array}{r} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{array}]

为矩阵表示的线性算子, 即

U_{θ}

是逆时针旋转

θ

的变换. 现在读者应该说服自己,

V

上的每个酉矩阵, 要么是一个旋转, 要么是一个关于

ε_{1}

轴的反射接着一个旋转. [译注: 对于后一种变换, 另外一种描述方法是关于角度为

θ / 2

的轴的反射.]

$U_{θ} U_{ϕ}$ 是什么?
表明 $U_{θ}^{⁎} = U_{- θ}$ .
令 $ϕ$ 是一个固定的实数, $𝔅 = {α_{1}, α_{2}}$ 是由 ${ε_{1}, ε_{2}}$ 经过逆时针旋转 $ϕ$ 得到的规范正交基, 即 $α_{j} = U_{ϕ} ε_{j}$ . 如果 $θ$ 是另一个实数, 那么 $U_{θ}$ 在有序基 $𝔅$ 下的矩阵是什么?

练习5. 令

V

是带有标准内积的

ℝ^{3}

. 令

W

是由

α = (1, 1, 1)

和

β = (1, 1, - 2)

张成的平面. 令

U

是按照以下方式几何地定义的线性算子:

U

是关于过原点正交于

W

的直线旋转

θ

的变换. 实际上存在两种这样的旋转, 选择一个即可. 找出

U

在标准有序基下的矩阵. (这里给出一种可行的方法. 找到

W

的一个规范正交基

α_{1}

和

α_{2}

. 令

α_{3}

是正交于

W

且范数为

1

的向量. 找出

U

在基

{α_{1}, α_{2}, α_{3}}

的矩阵. 施行一次基变换.)

练习6. 令

V

是有限维的内积空间,

W

是

V

的一个子空间, 那么

V = W \oplus W^{⊥}

, 即每个

α \in V

都可以唯一地被表示为

α = β + γ

的形式, 其中

β \in W

而

γ \in W^{⊥}

. 我们定义线性算子

U α = β - γ

证明 $U$ 既是自伴算子又是酉算子.
如果 $V$ 是带有标准内积的 $ℝ^{3}$ 而 $W$ 是由 $(1, 0, 1)$ 张成的子空间, 找出 $U$ 在标准有序基下的矩阵.

练习7. 令

V

是一个复内积空间而

T

是

V

上的一个自伴线性算子, 证明

$‖ α + i T α ‖ = ‖ α - i T α ‖$ .
$α + i T α = β + i T β$ 当且仅当 $α = β$ .
$I + i T$ 是非奇异的.
$I - i T$ 是非奇异的.
现在设 $V$ 是有限维的, 证明 $U = (I - i T) {(I + i T)}^{- 1}$ 是一个酉算子. $U$ 被称为 $T$ 的Cayley变换. 在某种意义上说, 令 $f (x) = (1 - i x) / (1 + i x)$ , 那么 $U = f (T)$ .

练习8. 如果

θ

是一个实数, 证明

[\begin{array}{r} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{array}] 和 [\begin{matrix} e^{i θ} & 0 \\ 0 & e^{- i θ} \end{matrix}]

是酉等价的.

练习9. 令

V

是一个有限维内积空间而

T

是

V

上的一个正定算子. 令

p_{T} (α, β) = ⟨ T α | β ⟩

是

V

上的内积. 令

U

是

V

上的一个线性算子而

U^{⁎}

是其相对于

⟨ | ⟩

的伴随. 证明

U

是相对于内积

p_{T}

的酉算子当且仅当

T = U^{⁎} T U

练习10. 令

V

是一个有限维内积空间, 对于每个

α, β \in V

, 定义

V

上的线性算子

T_{α, β} (γ) = ⟨ γ | β ⟩ α

, 证明以下命题.

$T_{α, β}^{⁎} = T_{β, α}$ .
$trace (T_{α, β}) = ⟨ α | β ⟩$ .
$T_{α, β} T_{γ, δ} = T_{α, ⟨ β | γ ⟩ δ}$ .
在何种条件下 $T_{α, β}$ 是自伴算子?

练习11. 令

V

是域

F

上的一个

n

维内积空间,

L (V, V)

是

V

上的所有线性算子构成的空间, 证明

L (V, V)

上存在唯一的一个内积使得对于任意的

α, β \in V

‖ T_{α, β} ‖ = {‖ α ‖}^{2} {‖ β ‖}^{2}

, 其中

T_{α, β}

是练习10中那样定义的线性算子. 找到一个带有此内积的

L (V, V)

和带有内积

⟨ A | B ⟩ = tr (A B^{⁎})

的空间

F^{n \times n}

之间的同构.

练习12. 令

V

是一个有限维内积空间. 在练习6中, 我们展示了如何构造一个

V

上既自伴又酉的算子. 现在证明对于每个

V

上的自伴酉算子, 都存在一个子空间

W

使得这个算子可由练习6中所描述的方法构造出来.

练习13. 令

V

和

W

是有限维内积空间,

U

是从

V

到

W

的同构, 证明

映射 $T \mapsto U T U^{- 1}$ 是从向量空间 $L (V, V)$ 到向量空间 $L (W, W)$ 的同构.
对于每个 $T \in L (V, V)$ , $trace (U T U^{- 1}) = trace (T)$ .
$U T_{α, β} U^{- 1} = T_{U α, U β}$ , 其中 $T_{α, β}$ 于练习10中被定义.
${(U T U^{- 1})}^{⁎} = U T^{⁎} U^{- 1}$ .
如果我们装备 $L (V, V)$ 以内积 $⟨ T_{1} | T_{2} ⟩ = trace (T_{1} T_{2}^{⁎})$ , 并以类似的方式定义 $L (W, W)$ 上的内积, 那么 $T \mapsto U T U^{- 1}$ 是一个内积空间的同构.

练习14. 如果

V

是一个内积空间, 那么刚体运动是满足对于每个

α, β \in V

有

‖ T α - T β ‖ = ‖ α - β ‖

的映射

T : V \to V

, 其中

T

不必是线性变换. 酉算子是刚体运动的一个例子. 另外一个例子是平移一个固定的向量

γ

T_{γ} (α) = α + γ .

令 $V$ 是带有标准内积的 $ℝ^{2}$ , 设 $T$ 是 $V$ 的一个刚体运动, 并且 $T (0) = 0$ , 证明 $T$ 是线性的, 而且是一个酉算子.
使用a的结果证明每个 $ℝ^{2}$ 的刚体运动都是由一个平移接着一个酉算子复合而成的.
现在证明 $ℝ^{2}$ 的刚体运动要么是一个平移接着一个旋转, 要么是一个平移接着一个反射接着一个旋转.

练习15.

ℝ^{4}

(带有标准内积) 上的酉算子不过就是保持二次形式

{‖ (x, y, z, t) ‖}^{2} = x^{2} + y^{2} + z^{2} + t^{2}

的线性算子, 即对于每个

α \in ℝ^{4}

满足

{‖ U α ‖}^{2} = {‖ α ‖}^{2}

的线性算子

U

. 在相对论的特定部分中, 寻找保持形式

{‖ (x, y, z, t) ‖}_{L}^{2} = t^{2} - x^{2} - y^{2} - z^{2}

的线性算子

T

是令人感兴趣的.

{‖ ‖}_{L}^{2}

并不来源于内积, 而是某种被称为"Lorentz度量"的东西 (我们不会深入讨论这个). 出于这种原因,

ℝ^{4}

上的线性变换

T

, 若满足对于每个

α \in ℝ^{4}

都有

{‖ T α ‖}_{L}^{2} = {‖ α ‖}_{L}^{2}

, 则被称为Lorentz变换.

说明由 $U (x, y, z, t) = [\begin{matrix} t + x & y + i z \\ y - i z & t - x \end{matrix}]$ 定义的函数 $U$ 是从 $ℝ^{4}$ 到由所有 $2 \times 2$ 的自伴复矩阵构成的实向量空间 $H$ 的同构.
说明 ${‖ α ‖}_{L}^{2} = \det (U α)$ .
设 $T$ 是 $H$ 上的一个(实)线性算子, 说明 $L = U^{- 1} T U$ 是 $ℝ^{4}$ 上的线性算子.
令 $M$ 是任意的 $2 \times 2$ 复矩阵, 说明 $T_{M} (A) = M^{⁎} A M$ 定义了一个 $H$ 上的线性算子. (一定要检查 $T_{M}$ 的确将 $H$ 映入 $H$ .)
如果 $M \in ℂ^{2 \times 2}$ 满足 $| \det (M) | = 1$ , 说明 $L_{M} = U^{- 1} T_{M} U$ 是 $ℝ^{4}$ 上的一个Lorentz变换.
找到一个这样的Lorentz变换 $L$ , 不存在 $M \in ℂ^{2 \times 2}$ 使得 $L = L_{M}$ .

第8.5节正规算子

本节的主要目标在于解决以下问题. 如果 $T$ 是有限维内积空间 $V$ 上的一个线性算子, 在何种条件下 $V$ 拥有一个由 $T$ 的特征向量构成的规范正交基? 换言之, 何时存在 $V$ 的一个规范正交基 $𝔅$ 使得 $T$ 在 $𝔅$ 下的表示是一个对角矩阵.

我们先来推导一些 $T$ 上的必要条件, 之后我们将逐步证明这些条件也是充分的. 设 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个规范正交基, 并且满足性质 $T α_{j} = c_{j} α_{j}, j = 1, \dots, n .$ 这不过就是在说 $T$ 在有序基 $𝔅$ 下的表示是以 $c_{1}, \dots, c_{n}$ 为对角线元素的对角矩阵. 伴随算子 $T^{⁎}$ 在相同的有序基下的表示是该矩阵的共轭转置, 即以 ${\overline{c}}_{1}, \dots, {\overline{c}}_{n}$ 为对角线元素的对角矩阵. 如果 $V$ 是一个实内积空间, 标量 $c_{1}, \dots, c_{n}$ 都是实数, 因而必然有 $T = T^{⁎}$ . 换言之, 对于有限维实内积空间 $V$ 和其上的线性算子 $T$ , 若存在一个全由 $T$ 的特征向量构成的规范正交基, 那么 $T$ 必然是自伴算子. 如果 $V$ 是复内积空间, 那么标量 $c_{1}, \dots, c_{n}$ 不必是实数, $T$ 也就不必是自伴的了. 但是, 我们应该注意到 $T$ 必然满足 $T T^{⁎} = T^{⁎} T .$ 这是因为, 任意的两个对角矩阵都是交换的, 而 $T$ 和 $T^{⁎}$ 同时在有序基 $𝔅$ 下由对角矩阵表示. [译注: 读者可以回忆一下第6.5节的内容, 交换是同时对角化的充要条件.] 有趣的是, 在复情形下, 交换的条件实际上足以推出全由特征向量构成的规范正交基的存在性.

定义. 令

V

是一个有限维内积空间而

T

是

V

上的一个线性算子, 我们称

T

为正规算子, 如果其与它的伴随交换, 即

T T^{⁎} = T^{⁎} T

任意的自伴算子都是正规算子, 任意的酉算子也是正规算子. 正规算子的任意标量倍数都是正规的; 然而, 正规算子之和与积并不一定是正规的. 尽管并非必要, 我们将从考虑自伴算子开始我们对于正规算子的研究.

定理15. 如果

V

是一个内积空间而

T

是

V

上的一个自伴算子, 那么

T

的特征值均为实数, 且不同的特征值所对应的特征向量之间是正交的.

证明. 设

c

是

T

的一个特征值, 那么存在

α \neq 0

使得

T α = c α

, 于是

\begin{array}{rcl} c ⟨ α | α ⟩ & = & ⟨ c α | α ⟩ \\ = & ⟨ T α | α ⟩ \\ = & ⟨ α | T α ⟩ \\ = & ⟨ α | c α ⟩ \\ = & \overline{c} ⟨ α | α ⟩ \end{array}

鉴于

⟨ α | α ⟩ \neq 0

, 我们必然有

c = \overline{c}

. 现在设我们也有

β \neq 0

满足

T β = d β

, 那么

\begin{array}{rcl} c ⟨ α | β ⟩ & = & ⟨ T α | β ⟩ \\ = & ⟨ α | T β ⟩ \\ = & ⟨ α | d β ⟩ \\ = & \overline{d} ⟨ α | β ⟩ \\ = & d ⟨ α | β ⟩ \end{array}

如果

c \neq d

, 那么

⟨ α | β ⟩ = 0

◻

应该指出的是, 定理15并没有断言特征值或者说特征向量一定存在.

定理16. 在有限维内积空间上 (除开仅包含零向量的平凡空间), 每个自伴算子都拥有一个特征向量.

译者注记. 原文给特征向量之前加上了带括号的"non-zero", 这可能是为第6章找补, 因为那里的定义将零向量也视为特征向量. 但是, 自从第7章开始, 本书所提的特征向量的概念, 就不再包含零向量了, 这也与通行的定义保持一致.

证明. 令

V

是一个

n

维内积空间, 其中

n > 0

, 而

T

是

V

上的一个自伴算子. 挑选

V

的一个规范正交基

𝔅

而令

A = {[T]}_{𝔅}

, 既然

T = T^{⁎}

, 我们有

A = A^{⁎}

. 现在令

W

是带有标准内积的

ℂ^{n \times 1}

, 那么

U (X) = A X

定义了一个

W

上的自伴算子. 对于特征多项式

\det (x I - A)

, 我们知道其在域

ℂ

上至少拥有一个根

c

. 鉴于

U

是自伴算子, 根据定理15,

c

是实数. 换言之, 存在

c \in ℝ

使得

A - c I

是奇异的. 若

V

是复内积空间, 那么证明算是结束了, 因为

T - c I

是奇异的. 而对于实内积空间

V

, 我们最好回忆一下第1章关于线性方程组的观察. 也就是说, 如果以

A - c I

为系数矩阵的齐次线性方程组在复数域上有非平凡解, 那么其在实数域上也应该有非平凡解, 即

A - c I

在实数域上当然也是奇异的. 因此,

T - c I

是奇异的, 存在非零的向量

α \in V

使得

T α = c α

◻

关于这个证明, 我们应该作出数条评注.

在复情形下, 即便 $A$ 不是Hermite矩阵 (或者说自伴矩阵), 也不影响 $A$ 具有特征值和特征向量. 但是, 在实情形下, 自伴的条件就显得非常重要了, 因为它可以告诉我们 $A$ 的特征多项式在域 $ℂ$ 上的根均为实数.
Hermite矩阵的特征多项式的系数一定是实数, 即便矩阵的各个元素可能不都是实数.
对于 $A$ 是有限维空间的假设是必要的, 无限维内积空间上的自伴算子可能没有特征值.

例子29. 令

V

是单位区间上的连续复值 (或者实值) 函数构成的向量空间, 带有内积

⟨ f | g ⟩ = \int_{0}^{1} f (t) \overline{g (t)} d t .

"乘上

t

"的算子

(T f) (t) = t f (t)

是自伴的. 让我们设

T f = c f

, 那么

(t - c) f (t) = 0, 0 \leq t \leq 1

于是,

t \neq c

时

f (t) = 0

. 鉴于

f

是连续的,

f = 0

, 因而

T

没有特征值.

定理17. 令

V

是一个有限维内积空间,

T

是

V

上任意的线性算子. 设

W

是一个

T

不变子空间, 那么

W

的正交补在

T^{⁎}

下不变.

证明. 设

β \in W^{⊥}

, 对于每个

α \in W

, 因为

W

在

T

下不变, 所以

T α \in W

, 那么

⟨ α | T^{⁎} β ⟩ = ⟨ T α | β ⟩ = 0 .

换言之,

T^{⁎} β \in W^{⊥}

, 即

W^{⊥}

在

T^{⁎}

下不变.

◻

定理18. 令

V

是一个有限维内积空间,

T

是

V

上的一个自伴算子, 那么存在一个全由

T

的特征向量构成的

V

的规范正交基.

证明. 不妨设

\dim V > 0

. 根据定理16,

T

拥有一个特征向量

α

. 令

α_{1} = α / ‖ α ‖

, 那么

α_{1}

也是

T

的一个特征向量, 并且

‖ α_{1} ‖ = 1

. 如果

\dim V = 1

, 证明就结束了. 不然的话, 我们对于

V

的维数施行归纳. 设定理对于维数小于

\dim V

的内积空间成立. 令

W

是由

α_{1}

张成的一维子空间. 既然

α_{1}

是

T

的特征向量, 那么

W

在

T

下不变. 根据定理17, 正交补

W^{⊥}

在

T^{⁎} = T

下不变. 现在

W^{⊥}

在继承自

V

的内积下成为了一个

\dim V - 1

维的内积空间. 令

U

是

T

在

W^{⊥}

上由限制导出的算子, 那么

U

是自伴的. 根据归纳假设,

W^{⊥}

拥有一个以

U

的特征向量构成的规范正交基

{α_{2}, \dots, α_{n}}

. 当然,

U

的特征向量自然也是

T

的特征向量. 因此, 我们可以断言

{α_{1}, \dots, α_{n}}

即是我们所要的

V

的基.

◻

推论. 令

A

是一个

n \times n

的Hermite矩阵 (自伴矩阵), 那么存在一个酉矩阵

P

使得

P^{- 1} A P

是对角矩阵. (或者说,

A

酉等价于一个对角矩阵.) 若

A

是一个实对称矩阵, 那么存在一个实正交矩阵

P

使得

P^{- 1} A P

成为对角矩阵.

证明. 令

V

是带有标准内积的

ℂ^{n \times 1}

, 而

T

是在标准有序基下由

A

表示的线性算子. 既然

A = A^{⁎}

, 我们有

T = T^{⁎}

. 令

𝔅 = {α_{1}, \dots, α_{n}}

是一个全由

T

的特征向量构成的

V

的规范正交基, 我们设

T α_{j} = c_{j} α_{j}, j = 1, \dots, n

. 如果

D = {[T]}_{𝔅}

, 那么

D

是以

c_{1}, \dots, c_{n}

为对角线元素的对角矩阵. 考虑由

U ε_{j} = α_{j}

定义的线性算子

U

, 令

P

是

U

在标准有序基下的表示. 那么,

P

是一个酉矩阵, 并且

D = P^{- 1} A P

.
对于推论的后半部分, 实际上取

V

为带有标准内积的

ℝ^{n \times 1}

然后重复前述论证即可. 在此情形下,

P

仍然是一个酉矩阵, 只是其元素都是实数, 因而也是一个正交矩阵.

◻

将定理18与本节开头的评注相结合, 我们就得到了以下结果: 如果 $V$ 是一个有限维实内积空间, 而 $T$ 是 $V$ 上的一个线性算子, 那么 $V$ 拥有一个全由 $T$ 的特征向量构成的规范正交基当且仅当 $T$ 是自伴算子. 等价地, 如果 $A$ 是一个 $n \times n$ 的实矩阵, 那么存在实正交矩阵 $P$ 使得 $P^{t} A P$ 为对角矩阵当且仅当 $A = A^{t}$ . 对于复对称矩阵我们没有这样的结果. 换言之, 对于复矩阵而言, 条件 $A = A^{t}$ 和 $A = A^{⁎}$ 有着显著的不同之处.

译者注记. 实矩阵的正交相似对角化的充要条件为对称.

解决了自伴的情况, 我们现在回到对于正规算子的一般性研究上来. 我们将在复情形下对于正规算子证明定理18的类似物. 之所以我们要限制于复情形, 一个原因在于实内积空间上的正规算子可能压根就没有任何特征向量. 例如, $ℝ^{2}$ 中的旋转, 除开旋转 $0$ 度和 $180$ 度这两种特殊情况.

定理19. 令

V

是一个有限维内积空间,

T

是

V

上的一个正规算子. 设非零向量

α \in V

, 那么

α

是

T

在特征值

c

下所对应的特征向量当且仅当

α

是

T^{⁎}

在特征值

\overline{c}

下所对应的特征向量.

证明. 设

U

是

V

上任意的正规算子, 根据

U U^{⁎} = U^{⁎} U

, 我们可以推出

\begin{array}{rcl} ⟨ U α | U α ⟩ & = & ⟨ α | U^{⁎} U α ⟩ \\ = & ⟨ α | U U^{⁎} α ⟩ \\ = & ⟨ U^{⁎} α | U^{⁎} α ⟩ \end{array}

换言之,

‖ U α ‖ = ‖ U^{⁎} α ‖

. 如果

c

是任意的标量, 那么

{(T - c I)}^{⁎} = T^{⁎} - \overline{c} I

. 我们很容易验证

T - c I

的确是一个正规算子, 于是

‖ (T - c I) α ‖ = ‖ (T^{⁎} - \overline{c} I) α ‖

因而

(T - c I) α = 0

当且仅当

(T^{⁎} - \overline{c} I) α = 0

, 证明就结束了.

◻

定义. 一个

n \times n

的复矩阵被称为正规矩阵, 如果

A A^{⁎} = A^{⁎} A

理解正规矩阵或者正规算子究竟具有什么意义并不容易. 然而, 为了建立一点对于这个概念的感觉, 或许读者知道{一个三角矩阵是一个正规矩阵当且仅当其是一个对角矩阵}是有用的.

定理20. 令

V

是一个有限维内积空间,

T

是

V

上的一个线性算子,

𝔅

是

V

的一个规范正交基. 设

T

在

𝔅

下的矩阵

A

是上三角的, 那么

T

是一个正规算子当且仅当

A

是一个对角矩阵.

证明. 既然

𝔅

是规范正交基, 那么

A^{⁎}

是

T^{⁎}

在

𝔅

下的矩阵. 若

A

是对角矩阵, 那么显然

A A^{⁎} = A^{⁎} A

, 这可以推出

T T^{⁎} = T^{⁎} T

. 反过来, 设

T

是正规算子而

𝔅 = {α_{1}, \dots, α_{n}}

. 既然

A

是上三角矩阵, 那么

T α_{1} = A_{1, 1} α_{1}

. 根据定理19,

T^{⁎} α_{1} = {\overline{A}}_{1, 1} α_{1}

. 另一方面, 我们有

\begin{array}{rcl} T^{⁎} α_{1} & = & \sum_{j = 1}^{n} {(A^{⁎})}_{j, 1} α_{j} \\ = & \sum_{j = 1}^{n} {\overline{A}}_{1, j} α_{j} \end{array}

因此, 对于每个

j > 1

A_{1, j} = 0

. 特别地,

A_{1, 2} = 0

. 鉴于

A

是上三角矩阵, 可以推出

T α_{2} = A_{2, 2} α_{2}

因而

T^{⁎} α_{2} = {\overline{A}}_{2, 2} α_{2}

, 于是对于

j > 2

A_{2, j} = 0

. 按照这种手段继续下去, 我们最终可以证明

A

的确是一个对角矩阵.

◻

定理21. 令

V

是一个有限维的复内积空间,

T

是

V

上的一个线性算子, 那么存在规范正交基使得

T

在其下的矩阵为上三角的.

证明. 设

n = \dim V

. 当

n = 1

时, 这个定理显然成立. 我们对于

n

施行归纳, 假设结果对于

n - 1

维的复内积空间上的线性算子成立. 既然

V

是一个有限维复内积空间, 那么对于伴随

T^{⁎}

而言, 存在标量

c

和单位向量

α \in V

使得

T^{⁎} α = c α .

令

W

是由

α

张成的子空间的正交补, 根据定理17,

W

在

T

下不变. 设

S

是

T

由限制于

W

上导出的算子. 既然

W

是

n - 1

维的, 归纳假设告诉我们存在

W

的一个规范正交基

{α_{1}, \dots, α_{n - 1}}

使得

S

在其下的矩阵是上三角的. 令

α_{n} = α

, 那么

{α_{1}, \dots, α_{n}}

是

V

的一个规范正交基, 并且

T

在其下的表示是一个上三角矩阵.

◻

这个定理推出了以下的矩阵版本.

推论. 对于每个

n \times n

的复矩阵

A

, 存在一个酉矩阵

U

使得

U^{- 1} A U

是上三角矩阵.

译者注记. 每个复矩阵都可以酉相似三角化 (Schur定理).

现在将定理20和定理21相结合, 我们就立即得到了定理18对于正规算子而言的类似物.

定理22. 令

V

是一个有限维复内积空间,

T

是

V

上的一个正规算子, 那么存在一个全由

T

的特征向量构成的

V

的规范正交基.

当然, 这个定理也有一个矩阵解释.

推论. 对于每个

n \times n

的(复)正规矩阵

A

, 存在一个酉矩阵

P

使得

P^{⁎} A P

是对角矩阵.

译者注记. 对于有限维复内积空间

V

, 设

T

是

V

上的一个线性算子, 那么存在

V

的一个全由

T

的特征向量构成的规范正交基 (或者说

T

在某个

V

的规范正交基下呈现对角矩阵的形式) 当且仅当

T

是一个正规算子. 另外, 复矩阵酉相似对角化的充要条件为正规.

练习1. 对于以下每个实对称矩阵

A

, 找出一个实正交矩阵

P

使得

P^{t} A P

成为对角矩阵.

[\begin{matrix} 1 & 1 \\ 1 & 1 \end{matrix}], [\begin{matrix} 1 & 2 \\ 2 & 1 \end{matrix}], [\begin{array}{r} \cos θ & \sin θ \\ \sin θ & - \cos θ \end{array}]

练习2. 复对称矩阵是自伴的吗? 是正规的吗?

练习3. 对于

A = [\begin{matrix} 1 & 2 & 3 \\ 2 & 3 & 4 \\ 3 & 4 & 5 \end{matrix}]

存在实正交矩阵

P

使得

P^{t} A P = D

是一个对角矩阵. 找出一个这样的对角矩阵

D

练习4. 令

V

是带有标准内积的

ℂ^{2}

T

是

V

上在标准有序基下由矩阵

A = [\begin{matrix} 1 & i \\ i & 1 \end{matrix}]

表示的线性算子. 证明

T

是正规算子, 并找到

V

的一个全由

T

的特征向量构成的规范正交基.

练习5. 给出一个

2 \times 2

的矩阵

A

的例子,

A^{2}

是正规的, 但是

A

不是正规的.

练习6. 令

T

是有限维复内积空间上的一个正规算子, 证明

如果 $T$ 的每个特征值都是实数, 那么 $T$ 是一个自伴算子.
如果 $T$ 的每个特征值都是正数, 那么 $T$ 是一个正定算子.
如果 $T$ 的每个特征值的绝对值均为 $1$ , 那么 $T$ 是一个酉算子.

练习7. 令

T

是有限维内积空间

V

上的一个线性算子, 设

T

既是正定算子又是酉算子, 证明

T = I

练习8. 证明有限维复内积空间上的线性算子

T

是正规的当且仅当存在交换的自伴算子

T_{1}

和

T_{2}

使得

T = T_{1} + i T_{2}

练习9. 证明实对称矩阵具有实对称立方根, 即若

A

为实对称矩阵, 则存在实对称的

B

满足

B^{3} = A

练习10. 证明每个正定矩阵都是某个正定矩阵的平方.

练习11. 设

T

是有限维复内积空间上的一个线性算子, 若

T

既是正规算子也是幂零算子, 那么

T = 0

练习12. 如果

T

是有限维内积空间上的一个正规算子, 证明

T

的不同特征值所对应的特征向量之间是正交的.

练习13. 令

T

是有限维复内积空间上的一个正规算子, 证明存在复数域上的多项式

f

使得

T^{⁎} = f (T)

. (表示

T

以对角矩阵, 看看

f

必须是什么.)

练习14. 如果有限维复内积空间上的两个正规算子交换, 证明它们的积也是正规算子.

译者注记. 以上诸多练习缺少条件, 经过译者考察, 绝大部分都应该是有限维复内积空间. 实际上, 读者也可以看到, 虽然正文中的正规算子也可以定义在实内积空间上, 但是理论构建的主要结果中只考虑复内积空间上的正规算子.

第9章内积空间上的算子

第9.1节引论

我们将第8章所处理的大部分议题视为基础的, 即每个人都应该知道的材料. 本章是面向更加优秀的学生以及那些迫不及待想要扩展自己关于内积空间上的算子的知识的读者的. 这里呈现的材料更加复杂, 一般牵涉更多的技术, 除了主轴定理, 其基本上就是重述定理18关于自伴算子的酉/正交对角化的结果, 以及第9.2节中关于形式的其他结果. 我们要求读者更加成熟, 就像第5章和第7章的后半部分那样. 论证和证明以更加凝缩的风格编写, 并且几乎没有多少用以润滑的例子. 然而, 我们已经预见到了这种困难, 所以为读者提供了大量的练习.

起初的三节致力于关于内积空间上的形式以及形式与线性算子之间的关系的结果. 接下来的一节处理谱论, 即第8章牵涉自伴算子和正规算子的对角化的定理18和22的推论. 最后一节里, 我们研究实内积空间上的正规算子, 由此我们检视了第6章的准素分解定理之于正规算子的意蕴.

第9.2节内积空间上的形式

如果 $T$ 是域 $F$ 上的有限维内积空间 $V$ 上的一个线性算子, 那么由 $f (α, β) = ⟨ T α | β ⟩$ 定义的函数 $f : V \times V \to F$ 可以被视为 $T$ 的一种替代物. 诸多关于 $T$ 的问题都等价于关于 $f$ 的问题. 实际上, 很容易看出来 $f$ 可以确定 $T$ . 这是因为, 如果 $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个规范正交基, 那么 $T$ 在 $𝔅$ 下的矩阵 $A$ 由 $A_{j, k} = f (α_{k}, α_{j})$ 给出. 从更加抽象的角度理解为什么 $f$ 可以确定 $T$ 是重要的. $f$ 的重要性质在以下定义中得以描述.

定义. 一个域

F

(

F

是实数域或复数域) 上的向量空间

V

上的(半双线性)形式是一个函数

f : V \times V \to F

满足对于任意的

α, β, γ \in V

和任意的标量

c

有

$f (c α + β, γ) = c f (α, γ) + f (β, γ)$ ;
$f (α, c β + γ) = \overline{c} f (α, β) + f (α, γ)$ .

因此, 半双线性形式 $f$ 使得 $f (α, β)$ 在固定的 $β$ 下是 $α$ 的线性函数, 而在固定的 $α$ 下是 $β$ 的共轭线性函数. 在实情形下, $f (α, β)$ 对于每个参数都是线性的. 换言之, $f$ 是一个双线性形式. 在复情形下, 除非 $f = 0$ , 否则半双线性形式 $f$ 不会是双线性形式. 在本章的剩余部分里, 除非确有必要, 否则形容词"半双线性"一律省略.

如果 $f$ 和 $g$ 是 $V$ 上的形式而 $c$ 是任意的标量, 那么很容易验证 $c f + g$ 也是一个形式. 换言之, 任意的形式的线性组合仍然是一个形式. 因此, $V$ 上的所有形式构成的集合是向量空间 $F^{V \times V}$ 的一个子空间, 其中 $F$ 是向量空间 $V$ 的标量域.

定理1. 令

V

是一个有限维内积空间,

f

是

V

上的一个形式, 那么存在唯一的

V

上的线性算子

T

满足对于任意的

α, β \in V

都有

f (α, β) = ⟨ T α | β ⟩ .

并且, 由此定义的映射

f \mapsto T

是从形式的空间到

L (V, V)

的一个同构.

证明. 固定一个向量

β \in V

, 那么

α \mapsto f (α, β)

是

V

上的一个线性泛函. 根据第8章的定理6, 存在唯一的向量

β^{'} \in V

使得对于每个

α

, 我们有

f (α, β) = ⟨ α | β^{'} ⟩

. 定义函数

U : V \to V, β \mapsto β^{'}

, 那么

\begin{array}{rcl} f (α, c β + γ) & = & ⟨ α | U (c β + γ) ⟩ \\ = & \overline{c} f (α, β) + f (α, γ) \\ = & \overline{c} ⟨ α | U β ⟩ + ⟨ α | U γ ⟩ \\ = & ⟨ α | c U β + U γ ⟩ \end{array}

对于任意的

α, β, γ \in V

和任意的标量

c

成立. 因此,

U

是

V

上的一个线性算子. 令

T = U^{⁎}

, 则有对于所有的

α, β \in V

f (α, β) = ⟨ T α | β ⟩

. 如果我们也有线性算子

T^{'}

使得

f (α, β) = ⟨ T^{'} α | β ⟩

, 那么

⟨ T α - T^{'} α | β ⟩ = 0 .

于是, 对于每个

α \in V

T α = T^{'} α

. 换言之, 对于每个形式

f

, 存在唯一的线性算子

T_{f}

使得对于每个

α, β \in V

, 我们有

f (α, β) = ⟨ T_{f} α | β ⟩ .

如果

f

和

g

是形式而

c

是标量, 那么

\begin{array}{rcl} (c f + g) (α, β) & = & ⟨ T_{c f + g} α | β ⟩ \\ = & c f (α, β) + g (α, β) \\ = & c ⟨ T_{f} α | β ⟩ + ⟨ T_{g} α | β ⟩ \\ = & ⟨ (c T_{f} + T_{g}) α | β ⟩ \end{array}

对于任意的

α, β \in V

成立, 因而

T_{c f + g} = c T_{f} + T_{g} .

换言之,

f \mapsto T_{f}

是一个线性映射. 对于每个

f \in L (V, V)

, 等式

f (α, β) = ⟨ T α | β ⟩

定义了一个形式

f

使得

T_{f} = T

. 并且, 如果

T_{f} = 0

, 那么

f = 0

. 因此,

f \mapsto T_{f}

的确是一个同构.

◻

推论. 等式

⟨ f | g ⟩ = tr (T_{f} T_{g}^{⁎})

定义了形式的空间上的一个内积, 并且对于每个

V

的规范正交基

{α_{1}, \dots, α_{n}}

, 我们有

⟨ f | g ⟩ = \sum_{j = 1}^{n} \sum_{k = 1}^{n} f (α_{k}, α_{j}) \overline{g (α_{k}, α_{j})} .

证明. 根据第8章的例子3, 很容易推出

(T, U) \mapsto tr (T U^{⁎})

是

L (V, V)

上的一个内积. 既然

f \mapsto T_{f}

是一个同构, 第8章的例子6表明

⟨ f | g ⟩ = tr (T_{f} T_{g}^{⁎})

也是一个内积. [译注: 实际上, 前一个内积也是通过第8章的例子6得到的.] 现在设

A

和

B

分别是

T_{f}

和

T_{g}

在规范正交基

𝔅 = {α_{1}, \dots, α_{n}}

下的矩阵, 那么

A_{j, k} = ⟨ T_{f} α_{k} | α_{j} ⟩ = f (α_{k}, α_{j})

而

B_{j, k} = ⟨ T_{g} α_{k} | α_{j} ⟩ = g (α_{k}, α_{j}) .

这可以推出

\begin{array}{rcl} ⟨ f | g ⟩ & = & tr (T_{f} T_{g}^{⁎}) \\ = & tr (A B^{⁎}) \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} A_{j, k} {\overline{B}}_{j, k} \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} f (α_{k}, α_{j}) \overline{g (α_{k}, α_{j})} \end{array}

◻

定义. 如果

f

是

V

上的一个形式而

𝔅 = {α_{1}, \dots, α_{n}}

是

V

的一个有序基, 那么由

A_{j, k} = f (α_{k}, α_{j})

定义的矩阵

A

被称为 $f$ 在有序基 $𝔅$ 下的矩阵.

当 $𝔅$ 是一个规范正交基时, $f$ 在 $𝔅$ 下的矩阵也是线性变换 $T_{f}$ 在 $𝔅$ 下的矩阵, 但是在一般情况下并非如此.

如果 $A$ 是 $f$ 在有序基 $𝔅 = {α_{1}, \dots, α_{n}}$ 下的矩阵, 那么 $f (\sum_{s = 1}^{n} x_{s} α_{s}, \sum_{r = 1}^{n} y_{r} α_{r}) = \sum_{r = 1}^{n} \sum_{s = 1}^{n} {\overline{y}}_{r} A_{r, s} x_{s}$ 对于任意的标量 $x_{s}$ 和 $y_{r}$ 成立. 换言之, 矩阵 $A$ 具有 $f (α, β) = Y^{⁎} A X$ 的性质, 其中 $X$ 和 $Y$ 分别是 $α$ 和 $β$ 在有序基 $𝔅$ 下的坐标矩阵.

$f$ 在另外一个基 $α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i}, 1 \leq j \leq n$ 下的矩阵由式子 $A^{'} = P^{⁎} A P$ 给出, 这是因为 $\begin{array}{rcl} A_{j, k}^{'} & = & f (α_{k}^{'}, α_{j}^{'}) \\ = & f (\sum_{s = 1}^{n} P_{s, k} α_{s}, \sum_{r = 1}^{n} P_{r, j} α_{r}) \\ = & \sum_{r = 1}^{n} \sum_{s = 1}^{n} {\overline{P}}_{r, j} A_{r, s} P_{s, k} \\ = & {(P^{⁎} A P)}_{j, k} \end{array}$ 既然对于酉矩阵而言, 我们有 $P^{⁎} = P^{- 1}$ , 因而与酉等价相关的结果也可应用于对形式的研究.

定理2. 令

f

是有限维复内积空间

V

上的一个形式, 那么存在

V

的一个规范正交基使得其下的

f

的矩阵是上三角的.

证明. 令

T

是

V

上的线性算子, 其满足对于任意的

α, β \in V

有

f (α, β) = ⟨ T α | β ⟩

. 根据第8章的定理21, 存在

V

的一个规范正交基

𝔅 = {α_{1}, \dots, α_{n}}

使得

T

在其下的矩阵是上三角的. 根据之前的观察, 我们知道此时

f

的矩阵和

T

的矩阵是相同的. 换言之,

f

在规范正交基

𝔅

下的矩阵是上三角的.

◻

定义. 实或复向量空间

V

上的形式

f

被称为Hermite的, 如果对于每个

α, β \in V

有

f (α, β) = \overline{f (β, α)} .

如果 $T$ 是有限维内积空间 $V$ 上的线性算子, 而 $f$ 是由 $f (α, β) = ⟨ T α | β ⟩$ 定义的形式, 那么 $\overline{f (β, α)} = ⟨ α | T β ⟩ = ⟨ T^{⁎} α | β ⟩$ 换言之, $f$ 是Hermite的当且仅当 $T$ 是自伴的.

译者注记. 上述观察, 即便没有有限维的条件, 也同样成立.

当 $f$ 是一个Hermite形式, 那么对于每个向量 $α$ , $f (α, α)$ 是实数. 在复向量空间上, 这个性质就刻画了Hermite形式.

定理3. 令

V

是一个复向量空间而

f

是

V

上的一个形式, 如果对于每个向量

α \in V

有

f (α, α)

为实数, 那么

f

是一个Hermite形式.

证明. 令

α

和

β

是

V

中的向量, 我们必须证明

f (α, β) = \overline{f (β, α)}

. 现在我们有

f (α + β, α + β) = f (α, α) + f (α, β) + f (β, α) + f (β, β) .

既然

f (α + β, α + β)

f (α, α)

f (β, β)

都是实数,

f (α, β) + f (β, α)

也应该是实数. 对于

α + i β

施行相同的论证, 我们又可以得到

- i f (α, β) + i f (β, α)

是实数. 我们知道实数的共轭等于其本身, 于是

\begin{array}{rcl} f (α, β) + f (β, α) & = & \overline{f (α, β)} + \overline{f (β, α)} \\ - i f (α, β) + i f (β, α) & = & i \overline{f (α, β)} - i \overline{f (β, α)} \end{array}

给第二个等式乘上

i

, 然后再加上第一个等式, 我们就得到

2 f (α, β) = 2 \overline{f (β, α)}

即

f (α, β) = \overline{f (β, α)} .

◻

推论. 令

T

是有限维复内积空间

V

上的一个线性算子, 那么

T

是自伴算子当且仅当对于每个

α \in V

⟨ T α | α ⟩

是实数.

译者注记. 实际上, 即便没有有限维的条件, 以上推论仍然成立.

定理4. 主轴定理. 对于有限维内积空间

V

上的每个Hermite形式

f

, 存在

V

的一个规范正交基使得

f

在其下由一个实对角矩阵表示.

证明. 根据定理1, 存在唯一的线性算子

T

使得

f (α, β) = ⟨ T α | β ⟩

. 根据之前的观察, 既然

f

是Hermite形式, 那么

T

是自伴算子. 根据第8章的定理18, 我们知道存在

V

的一个规范正交基

𝔅

使得

T

由对角矩阵表示. 当然, 根据第8章的定理15, 这个对角矩阵的元素均为实数. 我们知道,

f

在规范正交基

𝔅

下的矩阵即

T

在

𝔅

下的表示, 所以

f

在

𝔅

下也由实对角矩阵表示.

◻

推论. 对于有限维内积空间

V

上的Hermite形式

f

, 存在一个规范正交基

𝔅

使得对于每个

α, β \in V

, 若

(x_{1}, \dots, x_{n})

和

(y_{1}, \dots, y_{n})

分别是

α

和

β

在

𝔅

下的坐标, 那么

f (α, β) = \sum_{j = 1}^{n} c_{j} x_{j} {\overline{y}}_{j}

其中

c_{1}, \dots, c_{n}

是固定的实数.

练习1. 请问下列函数

f : ℂ^{2} \times ℂ^{2} \to ℂ

中哪些是

ℂ^{2}

上的(半双线性)形式, 其中我们设

α = (x_{1}, x_{2})

β = (y_{1}, y_{2})

$f (α, β) = 1$ .
$f (α, β) = {(x_{1} - {\overline{y}}_{1})}^{2} + x_{2} {\overline{y}}_{2}$ .
$f (α, β) = {(x_{1} + {\overline{y}}_{1})}^{2} - {(x_{1} - {\overline{y}}_{1})}^{2}$ .
$f (α, β) = x_{1} {\overline{y}}_{2} - {\overline{x}}_{2} y_{1}$ .

练习2. 令

f ((x_{1}, x_{2}), (y_{1}, y_{2})) = x_{1} y_{1} + x_{2} y_{2}

是

ℝ^{2}

上的形式, 找出

f

在以下的每个基下的矩阵:

{(1, 0), (0, 1)}, {(1, - 1), (1, 1)}, {(1, 2), (3, 4)} .

练习3. 令

A = [\begin{array}{r} 1 & i \\ - i & 2 \end{array}]

而

g (X, Y) = Y^{⁎} A X

是

ℂ^{2 \times 1}

上的形式, 那么

g

是一个内积吗?

练习4. 令

V

是一个复向量空间而

f

是

V

上的一个对称的(半双线性)形式, 即

f (α, β) = f (β, α)

, 那么

f

是什么呢?

练习5. 令

f ((x_{1}, x_{2}), (y_{1}, y_{2})) = x_{1} y_{1} + 4 x_{2} y_{2} + 2 x_{1} y_{2} + 2 x_{2} y_{1}

是

ℝ^{2}

上的形式, 找到一个有序基使得

f

由一个对角矩阵表示.

练习6. 称形式

f

为(左)非退化的, 如果对于每个向量

β

有

f (α, β) = 0

可以推出

α = 0

. 令

f

是有限维内积空间

V

上的一个形式, 证明

f

是非退化的当且仅当其对应的线性算子

T_{f}

(定理1) 是非奇异的.

练习7. 令

f

是有限维向量空间

V

上的一个形式. 参考练习6给出的左非退化的概念, 定义右非退化, 并证明

f

是左非退化的当且仅当

f

是右非退化的.

练习8. 令

f

是有限维向量空间

V

上的一个非退化形式 (练习6和7),

L

是

V

上的一个线性泛函, 证明存在唯一的

β \in V

使得对于每个

α \in V

有

L (α) = f (α, β)

练习9. 令

f

是有限维向量空间

V

上的一个非退化形式, 证明每个线性算子

S

都有一个"相对于

f

的伴随", 即一个线性算子

S^{'}

满足对于每个

α, β \in V

有

f (S α, β) = f (α, S^{'} β)

第9.3节正定形式

本节我们将讨论非负(半双线性)形式以及其与向量空间上的给定内积之间的关系.

定义. 给定实或复向量空间

V

, 其上的形式

f

被称为非负的, 如果

f

是Hermite的并且对于每个

α \in V

有

f (α, α) \geq 0

; 其上的形式

f

被称为正定的, 如果

f

是Hermite的并且对于每个非零向量

α \in V

有

f (α, α) > 0

译者注记. "非负"这个术语现在一般被"半正定"所代替.

$V$ 上的正定形式实际上就是 $V$ 上的内积. 非负形式几乎就是内积了, 除了某些非零向量可能"正交"于自身.

令 $f$ 是有限维向量空间 $V$ 上的一个形式, $𝔅 = {α_{1}, \dots, α_{n}}$ 是 $V$ 的一个有序基, $A$ 是 $f$ 在基 $𝔅$ 下的矩阵, 即 $A_{j, k} = f (α_{k}, α_{j})$ . 如果 $α = x_{1} α_{1} + \dots + x_{n} α_{n}$ , 那么 $\begin{array}{rcl} f (α, α) & = & f (\sum_{j = 1}^{n} x_{j} α_{j}, \sum_{k = 1}^{n} x_{k} α_{k}) \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} x_{j} {\overline{x}}_{k} f (α_{j}, α_{k}) \\ = & \sum_{j = 1}^{n} \sum_{k = 1}^{n} {\overline{x}}_{k} A_{k, j} x_{j} \end{array}$ 于是, 我们看出来 $f$ 是非负形式当且仅当 $A = A^{⁎}$ [译注: 这是 $f$ 为Hermite形式的充要条件] 且 $\sum_{j = 1}^{n} \sum_{k = 1}^{n} {\overline{x}}_{k} A_{k, j} x_{j} \geq 0 对于任意的标量 x_{1}, \dots, x_{n} 成立.$ 为了使得 $f$ 成为正定形式, 以上的不等式必须对于每个 $(x_{1}, \dots, x_{n}) \neq 0$ 严格成立. 刚才我们推导出的条件说明 $f$ 是 $V$ 上的一个正定形式当且仅当函数 $g (X, Y) = Y^{⁎} A X$ 是列矩阵空间 $F^{n \times 1}$ 上的正定形式, 其中 $F$ 是向量空间 $V$ 的标量域.

定理5. 令

F

是实数域或者复数域,

A

是域

F

上的一个

n \times n

矩阵, 那么由

g (X, Y) = Y^{⁎} A X

定义的函数

g

是

F^{n \times 1}

上的正定形式当且仅当存在一个可逆矩阵

P \in F^{n \times n}

满足

A = P^{⁎} P

证明. 对于任意的

n \times n

矩阵

A

, 函数

g

都是列矩阵空间上的(半双线性)形式. 我们想要证明的是,

g

为正定的当且仅当

A = P^{⁎} P

. 首先, 设

A = P^{⁎} P

, 那么

g

是Hermite的, 并且

\begin{array}{rcl} g (X, X) & = & X^{⁎} P^{⁎} P X \\ = & {(P X)}^{⁎} P X \\ \geq & 0 \end{array}

若

P

是可逆的, 那么

X \neq 0

时

P X \neq 0

, 于是

{(P X)}^{⁎} P X > 0

.
现在, 设

g

是列矩阵空间上的正定形式, 那么

g

就是一个内积, 因而存在列矩阵

Q_{1}, \dots, Q_{n}

使得

\begin{array}{rcl} δ_{j, k} & = & g (Q_{j}, Q_{k}) \\ = & Q_{k}^{⁎} A Q_{j} \end{array}

但是, 这不过就是在说, 如果

Q

是以

Q_{1}, \dots, Q_{n}

为列的矩阵, 那么

Q^{⁎} A Q = I

. 既然

{Q_{1}, \dots, Q_{n}}

相对于内积

g

是一个规范正交基, 所以

Q

是可逆的. 令

P = Q^{- 1}

, 我们就得到

A = P^{⁎} P

◻

在实践中, 验证一个给定的矩阵 $A$ 满足我们到目前为止给出的正定判则并非易事. 定理5的一个推论是, 若 $g$ 为正定形式, 那么 $\det (A) > 0$ , 因为 $\det (A) = \det (P^{⁎} P) = (\det P^{⁎}) (\det P) = {| \det (P) |}^{2} .$ 然而, $\det (A) > 0$ 并不足以保证 $g$ 是正定形式. 不过, 存在与 $A$ 相关联的 $n$ 个行列式具有此性质: 如果 $A = A^{⁎}$ 且这些行列式均为正数, 那么 $g$ 是一个正定形式.

定义. 令

A

是域

F

上的一个

n \times n

矩阵, 那么

A

的顺序主子式 (principal minor)是由

Δ_{k} (A) = \det [\begin{matrix} A_{1, 1} & \dots & A_{1, k} \\ ⋮ & ⋮ \\ A_{k, 1} & \dots & A_{k, k} \end{matrix}], 1 \leq k \leq n

定义的

n

个标量

Δ_{1} (A), \dots, Δ_{n} (A)

引理. 令

A

是域

F

上的一个

n \times n

的可逆矩阵, 那么以下陈述是等价的.

存在一个主对角线元素全为 $1$ 的上三角矩阵 $P$ 使得 $B = A P$ 是下三角矩阵.
$A$ 的顺序主子式均异于 $0$ .

证明. 令

P

是任意的

n \times n

矩阵, 置

B = A P

, 那么

B_{j, k} = \sum_{r = 1}^{n} A_{j, r} P_{r, k} .

如果

P

是一个主对角线均为

1

的上三角矩阵, 那么

\sum_{r = 1}^{k - 1} A_{j, r} P_{r, k} = B_{j, k} - A_{j, k} .

既然

B

为下三角矩阵等价于

j < k

时有

B_{j, k} = 0

, 因而

B

为下三角矩阵当且仅当

\sum_{r = 1}^{k - 1} A_{j, r} P_{r, k} = - A_{j, k}, j < k .

我们可以将以上式子看成是关于

P_{r, k}

的线性方程组, 那么陈述a就等价于该方程组有解.
实际上, 我们最好将这个大的线性方程组按照

k

拆分. 对于每个

k = 2, \dots, n

, 我们有一个关于未知元

P_{1, k}, \dots, P_{k - 1, k}

的具

k - 1

个方程的线性方程组, 其系数矩阵为

[\begin{matrix} A_{1, 1} & \dots & A_{1, k - 1} \\ ⋮ & ⋮ \\ A_{k - 1, 1} & \dots & A_{k - 1, k - 1} \end{matrix}]

这个矩阵的行列式即顺序主子式

Δ_{k - 1} (A)

. 若陈述b成立, 那么这些线性方程组都有唯一解. 也就是说, 大的线性方程组也有唯一解. 于是, 陈述a成立, 并且矩阵

P

实际上是唯一的. 因此, 陈述b可以推出陈述a.
现在设a成立, 那么

\begin{array}{rcl} Δ_{k} (B) & = & Δ_{k} (A P) \\ = & Δ_{k} (A) Δ_{k} (P) \\ = & Δ_{k} (A) \\ = & B_{1, 1} \dots B_{k, k} \end{array}

其中

Δ_{k} (A P) = Δ_{k} (A) Δ_{k} (P)

利用了

P

是上三角矩阵的事实. 既然

A

和

P

均可逆, 那么

B

也可逆. 鉴于下三角矩阵

B

可逆等价于

B_{k, k} \neq 0, k = 1, \dots, n

, 于是

Δ_{k} (A) \neq 0, k = 1, \dots, n .

◻

定理6. 令

f

是有限维向量空间

V

上的一个形式,

A

是

f

在

V

的某个有序基

𝔅

下的矩阵, 那么

f

是正定形式当且仅当

A = A^{⁎}

并且

A

的顺序主子式均为正数.

证明. 让我们先来证明这个定理有趣的一半. 设

A = A^{⁎}

, 并且

Δ_{k} (A) > 0, 1 \leq k \leq n

. 根据引理, 存在(唯一的)主对角线均为

1

的上三角矩阵

P

使得

B = A P

是下三角矩阵. 矩阵

P^{⁎}

当然是一个下三角矩阵, 于是

P^{⁎} B = P^{⁎} A P

也是下三角的. 既然

A

是自伴的, 那么

D = P^{⁎} A P

也是自伴的. 显然, 自伴的下三角矩阵必然是一个对角矩阵. 按照前面引理的证明里的类似手法, 我们可以推出

\begin{array}{rcl} Δ_{k} (D) & = & Δ_{k} (P^{⁎} B) \\ = & Δ_{k} (P^{⁎}) Δ_{k} (B) \\ = & Δ_{k} (B) \\ = & Δ_{k} (A) \end{array}

鉴于

D

是一个对角矩阵, 其顺序主子式为

Δ_{k} (D) = D_{1, 1} \dots D_{k, k} .

因为

A

的顺序主子式均为正数, 所以

D

的顺序主子式也均为正数, 那么我们可以推出

D_{k, k} > 0, 1 \leq k \leq n .

如果

A

是形式

f

在有序基

𝔅 = {α_{1}, \dots, α_{n}}

下的矩阵, 那么

D = P^{⁎} A P

是形式

f

在有序基

{α_{1}^{'}, \dots, α_{n}^{'}}

下的矩阵, 其中

α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i} .

既然

D

是主对角线元素均为正数的对角矩阵, 那么显然有

X^{⁎} D X > 0, X \neq 0 .

这就说明

f

是一个正定形式.
现在反过来设

f

是正定形式. 我们知道

A = A^{⁎}

, 但是该怎么说明

Δ_{k} (A) > 0, 1 \leq k \leq n

呢? 令

V_{k}

是由

α_{1}, \dots, α_{k}

张成的子空间, 而

f_{k}

是

f

在

V_{k} \times V_{k}

上的限制, 那么显然

f_{k}

是

V_{k}

上的正定形式, 且

f_{k}

在有序基

{α_{1}, \dots, α_{k}}

下的表示为

A_{k} = [\begin{matrix} A_{1, 1} & \dots & A_{1, k} \\ ⋮ & ⋮ \\ A_{k, 1} & \dots & A_{k, k} \end{matrix}] .

作为定理5的推论, 我们注意到每个正定形式

f_{k}

的矩阵表示

A_{k}

的行列式都应该是正数, 即

A

的每个顺序主子式

Δ_{k} (A)

均为正数.

◻

这里有一些我们应该作出的评注, 以完成我们对于正定形式和正定矩阵之间的关系的讨论. 什么刻画了表示正定形式的矩阵? 如果 $f$ 是有限维复向量空间上的一个形式, $A$ 是 $f$ 在某个有序基下的矩阵, 那么 $f$ 是正定的当且仅当 $A = A^{⁎}$ 且 $X^{⁎} A X > 0, X \neq 0 .$ 根据定理3, $A = A^{⁎}$ 的条件是多余的, 因为 $X^{⁎} A X > 0, X \neq 0$ 可以推出 $A = A^{⁎}$ . 另一方面, 如果 $f$ 是有限维实向量空间上的形式而 $A$ 是 $f$ 在某个有序基下的矩阵, 那么 $f$ 是正定的当且仅当 $A = A^{t}$ 且 $X^{t} A X > 0, X \neq 0 .$ 我们想要强调的是, 实情形下 $X^{t} A X > 0, X \neq 0$ 无法推出 $A = A^{t}$ . 然而, 值得注意的是, 如果实矩阵 $A$ 满足 $A = A^{t}$ 和 $X^{t} A X > 0, X \neq 0$ , 那么即便对于每个复的列矩阵 $X$ , 我们也有 $X^{⁎} A X > 0, X \neq 0 .$ 这是因为, 若 $X = Y + i Z$ , 其中 $Y, Z \in ℝ^{n \times 1}$ , 那么 $\begin{array}{rcl} {(Y + i Z)}^{⁎} A (Y + i Z) & = & (Y^{t} - i Z^{t}) A (Y + i Z) \\ = & Y^{t} A Y + Z^{t} A Z + i (Y^{t} A Z - Z^{t} A Y) \end{array}$ 而在 $A = A^{t}$ 的情况下, 有 $Y^{t} A Z = Z^{t} A Y$ .

如果 $A$ 是一个 $n \times n$ 的复矩阵并且满足 $X^{⁎} A X > 0, X \neq 0$ 那么我们就称 $A$ 是一个正定矩阵. 我们已经知道, 有限维复向量空间上的形式是正定的当且仅当其在某个有序基下的矩阵是正定矩阵. (这里的"某个"也可以被替换为"每个".) 但是, 刚才的评注告诉我们, 即便是在实情形下, 我们还是可以断言形式正定的充要条件为其在某个有序基下的矩阵正定. 当然, 我们这里将实矩阵也视为复矩阵. 不过, 读者需要注意的是, 即便是实矩阵, 其正定的条件亦是相对于每个非零的复列矩阵而言的.

现在设 $V$ 是一个有限维内积空间而 $f$ 是 $V$ 上的一个非负形式, 那么存在唯一的 $V$ 上的一个自伴算子 $T$ 满足 $f (α, β) = ⟨ T α | β ⟩$ 并且 $T$ 还具有 $⟨ T α | α ⟩ \geq 0$ 的额外性质.

定义. 设

V

是一个有限维内积空间.

V

上的一个线性算子

T

是非负的, 如果

T = T^{⁎}

且对于每个

α \in V

有

⟨ T α | α ⟩ \geq 0

V

上的一个线性算子

T

是正定的, 如果

T = T^{⁎}

且对于每个

α \neq 0

有

⟨ T α | α ⟩ > 0

如果 $V$ 是一个有限维的(实或复)向量空间而 $⟨ | ⟩$ 是 $V$ 上的一个内积, 那么 $V$ 上有个与之相关联的正定算子类. 通过定理1所描述的映射, $V$ 上所有正定形式构成的集合与所有正定算子构成的集合之间存在一个双射. 我们将以本节的练习来强调正定算子, 正定形式, 正定矩阵之间的关系. 以下的总结或许是有用的.

如果 $A$ 是一个复数域上的 $n \times n$ 矩阵, 那么以下陈述是等价的.

$A$ 是正定矩阵, 即对于不全为零的复数 $x_{1}, \dots, x_{n}$ , 我们有 $\sum_{j = 1}^{n} \sum_{k = 1}^{n} {\overline{x}}_{k} A_{k, j} x_{j} > 0$ .
$⟨ X | Y ⟩ = Y^{⁎} A X$ 是 $n \times 1$ 的复矩阵空间上的一个内积.
相对于 $n \times 1$ 的复矩阵空间上的标准内积 $⟨ X | Y ⟩ = Y^{⁎} X$ , 线性算子 $X \mapsto A X$ 是正定的.
存在某个可逆的 $P \in ℂ^{n \times n}$ 满足 $A = P^{⁎} P$ .
$A = A^{⁎}$ 且 $A$ 的顺序主子式均为正数.

若

A

的每个元素均为实数, 那么以上这些又等价于

$A = A^{t}$ 且对于不全为零的实数 $x_{1}, \dots, x_{n}$ , 我们有 $\sum_{j = 1}^{n} \sum_{k = 1}^{n} x_{k} A_{k, j} x_{j} > 0$ .
$⟨ X | Y ⟩ = Y^{t} A X$ 是 $n \times 1$ 的实矩阵空间上的一个内积.
相对于 $n \times 1$ 的实矩阵空间上的标准内积 $⟨ X | Y ⟩ = Y^{t} X$ , 线性算子 $X \mapsto A X$ 是正定的.
存在某个可逆的 $P \in ℝ^{n \times n}$ 满足 $A = P^{t} P$ .

练习1. 令

V

是带有标准内积的

ℂ^{2}

, 对于什么样的向量

α \in V

, 存在一个正定算子

T

使得

α = T ε_{1}

呢?

练习2. 令

V

是带有标准内积的

ℝ^{2}

, 如果

θ

是一个实数, 令

T_{θ}

是逆时针旋转

θ

的线性算子, 即

T_{θ} (x_{1}, x_{2}) = (x_{1} \cos θ - x_{2} \sin θ, x_{1} \sin θ + x_{2} \cos θ)

θ

为何值时

T_{θ}

是正定算子呢?

练习3. 令

V

是

ℂ^{n \times 1}

, 而其上的内积为

⟨ X | Y ⟩ = Y^{⁎} G X

, 这里的

G \in ℂ^{n \times n}

要使得该公式的确定义了一个内积. 令

A

是一个

n \times n

的矩阵而线性算子

T (X) = A X

. 找出

T^{⁎}

. 如果

Y

是

V

的一个固定元素, 找出确定了线性泛函

X \mapsto Y^{⁎} X

的元素

Z \in V

. 换言之, 对于每个

X \in V

有

Y^{⁎} X = ⟨ X | Z ⟩

练习4. 令

V

是一个有限维内积空间. 如果

T

和

U

是

V

上的正定算子, 证明

(T + U)

也是正定算子. 给出一个例子表明

T U

不必是正定的.

练习5. 令

A = [\begin{matrix} 1 & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{3} \end{matrix}] .

证明 $A$ 是正定的.
令 $V$ 是 $ℝ^{2 \times 1}$ , 而其上的内积为 $⟨ X | Y ⟩ = Y^{t} A X$ . 现在定义 $X_{1} = [\begin{matrix} 1 \\ 0 \end{matrix}], X_{2} = [\begin{matrix} 0 \\ 1 \end{matrix}]$ 请应用Gram-Schmidt过程以找出 $V$ 的一个规范正交基.
找出一个 $2 \times 2$ 的可逆实矩阵 $P$ 使得 $A = P^{t} P$ .

练习6. 以下哪些矩阵是正定的?

[\begin{matrix} 1 & 2 \\ 3 & 4 \end{matrix}], [\begin{matrix} 1 & 1 + i \\ 1 - i & 3 \end{matrix}], [\begin{matrix} 1 & - 1 & 1 \\ 2 & - 1 & 1 \\ 3 & - 1 & 1 \end{matrix}], [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} \\ \frac{1}{2} & \frac{1}{3} & \frac{1}{4} \\ \frac{1}{3} & \frac{1}{4} & \frac{1}{5} \end{matrix}]

练习7. 给出一个

n \times n

矩阵的例子, 其所有顺序主子式均为正数, 但是并非正定矩阵.

练习8.

⟨ (x_{1}, x_{2}) | (y_{1}, y_{2}) ⟩ = x_{1} {\overline{y}}_{1} + 2 x_{2} {\overline{y}}_{1} + 2 x_{1} {\overline{y}}_{2} + x_{2} {\overline{y}}_{2}

定义了

ℂ^{2}

上的一个内积吗?

练习9. 证明正定矩阵的每个主对角线元素均为正数.

练习10. 令

V

是一个有限维内积空间. 如果

T

和

U

是

V

上的线性算子, 当

U - T

为正定算子时我们记

T < U

. 证明以下断言:

$T < U$ 和 $U < T$ 不能同时成立.
如果 $T < U$ 且 $U < S$ , 那么 $T < S$ .
如果 $T < U$ 且 $0 < S$ , $S T < S U$ 不必成立.

练习11. 令

V

是一个有限维内积空间而

E

是

V

在其某个子空间上的正交投影.

证明对于任意的正数 $c$ , 算子 $c I + E$ 是正定的.
以 $E$ 表达满足 $T^{2} = I + E$ 自伴线性算子 $T$ .

练习12. 设

n

是一个正整数而

A = [\begin{matrix} 1 & \frac{1}{2} & \frac{1}{3} & \dots & \frac{1}{n} \\ \frac{1}{2} & \frac{1}{3} & \frac{1}{4} & \dots & \frac{1}{n + 1} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ \frac{1}{n} & \frac{1}{n + 1} & \frac{1}{n + 2} & \dots & \frac{1}{2 n - 1} \end{matrix}] .

证明

A

是正定的.

练习13. 令

A

是一个自伴的

n \times n

矩阵, 证明存在正数

c

使得矩阵

c I + A

是正定的.

练习14. 证明两个正定线性算子之积是正定的当且仅当它们交换.

练习15. 令

S

和

T

是正定算子, 证明

S T

的每个特征值都是正数.

第9.4节更多关于形式的结果

本节包含两个结果, 其给出了关于(半双线性)形式的更加详细的信息.

定理7. 设

V

是一个实或复向量空间,

W

是

V

的一个有限维子空间并且

{α_{1}, \dots, α_{r}}

是其一个有序基. 令

f

是

V

上的一个形式而

M

是由

M_{j, k} = f (α_{k}, α_{j})

定义的

r \times r

矩阵. 如果

W^{'} = {β \in V | 对于任意的 α \in W, f (α, β) = 0}

那么

W^{'}

是

V

的一个子空间, 并且

W \cap W^{'} = {0}

当且仅当

M

可逆. 当的确如此时,

V = W \oplus W^{'}

证明. 如果

β, γ \in W^{'}

而

c

是一个标量, 那么对于每个

α \in W

, 我们可以推出

f (α, c β + γ) = \overline{c} f (α, β) + f (α, γ) = 0 .

因此,

W^{'}

的确是

V

的一个子空间.
现在设

α = \sum_{k = 1}^{r} x_{k} α_{k} 和 β = \sum_{j = 1}^{r} y_{j} α_{j}

那么

\begin{array}{rcl} f (α, β) & = & \sum_{k = 1}^{r} \sum_{j = 1}^{r} {\overline{y}}_{j} M_{j, k} x_{k} \\ = & \sum_{k = 1}^{r} (\sum_{j = 1}^{r} {\overline{y}}_{j} M_{j, k}) x_{k} \end{array}

由此可知

β \in W^{'}

当且仅当方程组

\sum_{j = 1}^{r} {\overline{y}}_{j} M_{j, k} = 0, 1 \leq k \leq r

成立, 因而

W \cap W^{'} \neq {0}

当且仅当齐次线性方程组

\sum_{j = 1}^{r} {\overline{M}}_{j, k} y_{j} = 0, 1 \leq k \leq r

具有非平凡解. 换言之,

W \cap W^{'} = {0}

等价于

M^{⁎}

可逆, 但

M^{⁎}

可逆当且仅当

M

可逆.
设

M

可逆并令

A = {(M^{⁎})}^{- 1} = {(M^{- 1})}^{⁎}

我们定义

V

上的函数

g_{j}

为

g_{j} (β) = \sum_{k = 1}^{r} A_{j, k} \overline{f (α_{k}, β)}

那么

\begin{array}{rcl} g_{j} (c β + γ) & = & \sum_{k = 1}^{r} A_{j, k} \overline{f (α_{k}, c β + γ)} \\ = & c \sum_{k = 1}^{r} A_{j, k} \overline{f (α_{k}, β)} + \sum_{k = 1}^{r} A_{j, k} \overline{f (α_{k}, γ)} \\ = & c g_{j} (β) + g_{j} (γ) \end{array}

也就是说, 每个

g_{j}

的确都是

V

上的线性泛函. 因此, 我们可以定义

V

上的一个线性算子

E

为

E β = \sum_{j = 1}^{r} g_{j} (β) α_{j}

既然

\begin{array}{rcl} g_{j} (α_{n}) & = & \sum_{k = 1}^{r} A_{j, k} \overline{f (α_{k}, α_{n})} \\ = & \sum_{k = 1}^{r} A_{j, k} M_{k, n}^{⁎} \\ = & {(A M^{⁎})}_{j, n} \\ = & δ_{j, n} \end{array}

我们可以推出

E (α_{n}) = α_{n}, 1 \leq n \leq r

换言之, 对于每个

α \in W

E α = α

. 现在我们知道

E

的像是

W

并且

E^{2} = E

, 即

E

是从

V

到

W

上的投影. 若

β

是

V

中任意的一个向量, 那么

\begin{array}{rcl} f (α_{n}, E β) & = & f (α_{n}, \sum_{j = 1}^{r} g_{j} (β) α_{j}) \\ = & \sum_{j = 1}^{r} \overline{g_{j} (β)} f (α_{n}, α_{j}) \\ = & \sum_{j = 1}^{r} (\sum_{k = 1}^{r} {\overline{A}}_{j, k} f (α_{k}, β)) f (α_{n}, α_{j}) \end{array}

既然

A^{⁎} = M^{- 1}

, 我们可以推出

\begin{array}{rcl} f (α_{n}, E β) & = & \sum_{k = 1}^{r} (\sum_{j = 1}^{r} A_{k, j}^{⁎} f (α_{n}, α_{j})) f (α_{k}, β) \\ = & \sum_{k = 1}^{r} (\sum_{j = 1}^{r} M_{k, j}^{- 1} M_{j, n}) f (α_{k}, β) \\ = & \sum_{k = 1}^{r} δ_{k, n} f (α_{k}, β) \\ = & f (α_{n}, β) \end{array}

换言之, 对于每个

α \in W

, 我们有

f (α, β) = f (α, E β)

, 于是

f (α, β - E β) = 0

对于所有

α \in W

和

β \in V

成立. 那么,

(I - E) β \in W^{'}

, 根据等式

β = E β + (I - E) β

我们可以断言

V = W + W^{'}

. 当然, 依照前面的论证, 这个和是一个直和, 即

V = W \oplus W^{'}

. 证明的最后, 还有一点值得提及的是,

I - E

实际上是从

V

到

W^{'}

的投影. 若

β \in W^{'}

, 那么

E β = 0

, 因此

(I - E) β = β

, 即

W^{'}

是

I - E

的像. 另外, 根据第6章的推理,

I - E

的确是一个幂等线性算子.

◻

证明中构造的投影 $E$ 可由以下性质刻画: $E β = α$ 当且仅当 $α \in W$ 且 $β - α \in W^{'}$ . 因此, $E$ 独立于其构造过程中用到的 $W$ 的基. 因此, 我们可以称 $E$ 是由直和分解 $V = W \oplus W^{'}$ 确定的从 $V$ 到 $W$ 上的投影. 注意到 $E$ 是一个正交投影当且仅当 $W^{'} = W^{⊥}$ .

译者注记. 对于以上这段话, 读者应该回忆一下第6章和投影相关的内容. 另外, 译者觉得这最后一句话有点问题, 因为这个定理的条件并没有说

V

是一个内积空间, 所以这个空间里还没有正交的概念. 但是, 在一般的内积空间中, 这个论断的确是正确的, 并且

W

无需是有限维的.

定理8. 设

V

是一个有限维的实或复向量空间,

f

是

V

上的一个形式而

A

是

f

在

V

的某个有序基

{α_{1}, \dots, α_{n}}

下的矩阵. 如果

A

的顺序主子式均异于零, 那么存在唯一的主对角线元素全为

1

的上三角矩阵

P

使得

P^{⁎} A P

是一个上三角矩阵.

证明. 既然

Δ_{k} (A^{⁎}) = \overline{Δ_{k} (A)}

A^{⁎}

的顺序主子式也都异于零. 因此, 根据定理6的引理, 存在一个主对角线元素全为

1

的上三角矩阵

P

满足

A^{⁎} P

是一个下三角矩阵. 于是,

P^{⁎} A = {(A^{⁎} P)}^{⁎}

是一个上三角矩阵. 既然两个上三角矩阵之积仍然是上三角矩阵,

P^{⁎} A P

是一个上三角矩阵. 这表明了

P

的存在性, 但没有说明

P

的唯一性. 然而, 其实有一个更加几何的论证方法可以同时说明

P

的存在性和唯一性.
令

W_{k}

是由

α_{1}, \dots, α_{k}

张成的子空间, 而

W_{k}^{'} = {β \in V | 对于任意的 α \in W_{k}, f (α, β) = 0}

既然

Δ_{k} (A) \neq 0

, 那么由

M_{i, j} = f (α_{j}, α_{i}) = A_{i, j}

定义的

k \times k

矩阵

M

是可逆的. 根据定理7, 我们有

V = W_{k} \oplus W_{k}^{'} .

令

E_{k}

是由这个直和分解决定的从

V

到

W_{k}

上的投影, 并置

E_{0} = 0

, 设

β_{k} = α_{k} - E_{k - 1} α_{k}, 1 \leq k \leq n

那么

β_{1} = α_{1}

, 而

k > 1

时有

E_{k - 1} α_{k} \in W_{k - 1}

. 于是, 对于

k > 1

, 存在唯一的标量

P_{j, k}

使得

E_{k - 1} α_{k} = - \sum_{j = 1}^{k - 1} P_{j, k} α_{j} .

再置

P_{k, k} = 1

以及

j > k

时

P_{j, k} = 0

, 我们就得到了一个

n \times n

的上三角矩阵

P

, 其主对角线元素均为

1

, 并且对于

k = 1, \dots, n

, 我们有

β_{k} = \sum_{j = 1}^{k} P_{j, k} α_{j} .

设

1 \leq i

且

i < k

, 那么

β_{i} \in W_{i}

而

W_{i} \subseteq W_{k - 1}

. 既然

β_{k} \in W_{k - 1}^{'}

, 可以推出

f (β_{i}, β_{k}) = 0 .

令

B

是

f

在有序基

{β_{1}, \dots, β_{n}}

下的矩阵表示, 那么

B_{k, i} = f (β_{i}, β_{k}) .

于是,

k > i

时

B_{k, i} = 0

, 因而

B

是一个上三角矩阵. 另一方面, 根据关于形式的基变换的讨论, 我们有

B = P^{⁎} A P .

反过来, 设

P

是一个满足我们要求的矩阵, 即

P

是一个主对角线元素均为

1

的上三角矩阵使得

P^{⁎} A P

也是上三角的, 置

β_{k} = \sum_{j = 1}^{n} P_{j, k} α_{j} = \sum_{j = 1}^{k} P_{j, k} α_{j}, 1 \leq k \leq n

那么

{β_{1}, \dots, β_{k}}

显然是

W_{k}

的一个基. 对于

k > 1

{β_{1}, \dots, β_{k - 1}}

是

W_{k - 1}

的一个基, 而且当

i < k

时有

f (β_{i}, β_{k}) = 0

[译注: 这是因为

f (β_{i}, β_{k}) = {(P^{⁎} A P)}_{k, i}

且

P^{⁎} A P

是一个上三角矩阵], 由此我们可以看出

β_{k} \in W_{k - 1}^{'}

. 定义

β_{k}

的公式告诉我们

α_{k} = - (\sum_{j = 1}^{k - 1} P_{j, k} α_{j}) + β_{k} .

既然

- (\sum_{j = 1}^{k - 1} P_{j, k} α_{j}) \in W_{k - 1}

而

β_{k} \in W_{k - 1}^{'}

又鉴于

V = W_{k - 1} \oplus W_{k - 1}^{'}

故

E_{k - 1} α_{k} = - (\sum_{j = 1}^{k - 1} P_{j, k} α_{j})

这实际上就完全确定了

P_{1, k}, \dots, P_{k - 1, k}

的可能性, 进而完全确定了矩阵

P

. 当然, 我们可以很容易看出这个

P

正是我们之前说明存在性时所构造出来的矩阵.

◻

第9.5节谱论

本节我们探求牵涉自伴算子和正规算子的对角化的第8章的定理18和22的推论.

定理9. 谱定理. 令

T

是有限维复内积空间

V

上的一个正规算子, 或者是有限维实内积空间

V

上的一个自伴算子, 设

c_{1}, \dots, c_{k}

是

T

的不同的特征值, 令

W_{j}

是特征值

c_{j}

所对应的特征空间,

E_{j}

是

V

在

W_{j}

上的正交投影, 那么不同的

W_{i}

和

W_{j}

相互正交,

V

是

W_{1}, \dots, W_{k}

的直和, 并且

T = c_{1} E_{1} + \dots + c_{k} E_{k} .

证明. 令

α \in W_{j}

β \in W_{i}

, 并设

i \neq j

, 那么

c_{j} ⟨ α | β ⟩ = ⟨ T α | β ⟩ = ⟨ α | T^{⁎} β ⟩ = ⟨ α | {\overline{c}}_{i} β ⟩ = c_{i} ⟨ α | β ⟩

鉴于

c_{i} \neq c_{j}

, 可以推出

⟨ α | β ⟩ = 0

, 即不同的

W_{i}

和

W_{j}

是相互正交的.
根据

V

拥有全由

T

的特征向量构成的规范正交基这一事实 (见第8章的定理18和22), 立即可以得到

V = W_{1} \oplus \dots \oplus W_{k} .

因此,

E_{1} + \dots + E_{k} = I

并且

\begin{array}{rcl} T & = & T I \\ = & T (E_{1} + \dots + E_{k}) \\ = & T E_{1} + \dots + T E_{k} \\ = & c_{1} E_{1} + \dots + c_{k} E_{k} \end{array}

◻

译者注记. 以上证明中使用了第8章的定理19. 另外, 这个证明对于

E_{1} + \dots + E_{k} = I

没有任何解释, 其实并非那么平凡. 实际上, 如果

α = α_{1} + \dots + α_{k}, α_{i} \in W_{i}

当然这种分解是唯一的, 那么我们可以证明

E_{i} α = α_{i}

这是因为, 当

i \neq j

时,

E_{i} α_{j} = 0

, 鉴于

α_{j}

正交于

W_{i}

而

E_{i}

是

V

在

W_{i}

上的正交投影.

这个定理中出现的分解, 我们将其称为 $T$ 的谱分解 (spectral resolution). 某些物理应用导致了有限维向量空间上的线性算子的谱 (spectrum)被定义为线性算子的特征值的集合, 而这是我们使用谱分解这一术语的部分缘由. 另外, 注意到正交投影 $E_{1}, \dots, E_{k}$ 由 $T$ 唯一确定也是重要的; 实际上, 它们是应用多项式于 $T$ 得到的结果. [译注: 也请读者参考第6章的定理11.]

推论. 如果

e_{j} = \prod_{i \neq j} (\frac{x - c_{i}}{c_{j} - c_{i}})

那么

E_{j} = e_{j} (T), 1 \leq j \leq k .

证明. 译者就不翻译这里的证明了, 因为它实际上只是第6章的定理11的证明之后的讨论的重复.

◻

因为 $E_{1}, \dots, E_{k}$ 由 $T$ 唯一确定并且 $I = E_{1} + \dots + E_{k}$ 投影族 ${E_{1}, \dots, E_{k}}$ 被称为由 $T$ 定义的单位分解 (resolution of the identity defined by $T$ ).

关于谱定理的证明我们有需要作出的评注. 我们运用关于自伴算子和正规算子对角化的第8章的定理18和22推导出了这个定理. 实际上还有一个更加代数的证明方法, 其需要先证明正规算子的极小多项式是不同的素因子之积. 然后, 我们以类似于证明准素分解定理 (第6章的定理12) 的方式进行处理. 下一节我们将会给出这种证明.

在各种应用中, 有时知道我们能否计算关于算子或者矩阵的特定函数 (例如平方根) 是必要的, 而这对于可对角化的正规算子而言是简单的.

定义. 令

T

是有限维内积空间上的一个可对角化正规算子, 并且

T = \sum_{j = 1}^{k} c_{j} E_{j}

是其谱分解. 如果函数

f

的定义域包括

T

的谱而取值于标量域, 那么我们定义线性算子

f (T)

为

f (T) = \sum_{j = 1}^{k} f (c_{j}) E_{j} .

定理10. 令

T

是有限维内积空间

V

上的一个谱为

S

的可对角化正规算子, 设

f

是一个定义域包含

S

而值取于标量域的函数, 那么

f (T)

是一个谱为

f (S)

的可对角化正规算子. 如果

V^{'}

也是一个有限维内积空间而

U

是一个从

V

到

V^{'}

的酉映射, 并且

T^{'} = U T U^{- 1}

, 那么

S

也是

T^{'}

的谱而

f (T^{'}) = U f (T) U^{- 1} .

证明.

f (T)

的正规性可以根据定义和

{f (T)}^{⁎} = \sum_{j = 1}^{k} \overline{f (c_{j})} E_{j}

这一事实通过简单的计算推得. 而且, 显然对于每个

α \in E_{j} (V)

, 我们有

f (T) α = f (c_{j}) α .

因此, 集合

f (S)

是

f (T)

的谱的子集. 反过来, 设

α \neq 0

并且

f (T) α = b α

那么根据

α = \sum_{j = 1}^{k} E_{j} α

由此可以推出

\begin{array}{rcl} f (T) α & = & \sum_{j = 1}^{k} f (T) E_{j} α \\ = & \sum_{j = 1}^{k} f (c_{j}) E_{j} α \\ = & \sum_{j = 1}^{k} b E_{j} α \end{array}

因而

\begin{array}{rcl} ‖ \sum_{j = 1}^{k} (f (c_{j}) - b) E_{j} α ‖ & = & \sum_{j = 1}^{k} {| f (c_{j}) - b |}^{2} {‖ E_{j} α ‖}^{2} \\ = & 0 \end{array}

所以, 我们可以断言

f (c_{j}) = b

或者

E_{j} α = 0

. 根据假设,

α \neq 0

, 故存在一个下标

i

使得

E_{i} α \neq 0

. 然后我们就可以推出

f (c_{i}) = b

, 也就是说

f (S)

的确是

f (T)

的谱. 实际上, 设

f (S) = {b_{1}, \dots, b_{r}}

其中当

m \neq n

时

b_{m} \neq b_{n}

, 也就是互异, 令

X_{m} = {i \in ℕ | 1 \leq i \leq k 且 f (c_{i}) = b_{m}}

, 置

P_{m} = \sum_{i \in X_{m}} E_{i}

那么

P_{m}

是从

V

到

f (T)

与特征值

b_{m}

相关联的特征空间的正交投影, 而且

f (T) = \sum_{m = 1}^{r} b_{m} P_{m}

是

f (T)

的谱分解.
现在设

U

是从

V

到

V^{'}

的酉变换, 并且

T^{'} = U T U^{- 1}

, 那么等式

T α = c α

成立当且仅当

T^{'} U α = c U α

因此

S

是

T^{'}

的谱, 并且

U

将

T

的每个特征空间映射成相对应的

T^{'}

的特征空间. 实际上, 根据定义, 我们可以看出

T^{'} = \sum_{j = 1}^{k} c_{j} E_{j}^{'}, E_{j}^{'} = U E_{j} U^{- 1}

是

T^{'}

的谱分解. 因此, 我们又可以推出

\begin{array}{rcl} f (T^{'}) & = & \sum_{j = 1}^{k} f (c_{j}) E_{j}^{'} \\ = & \sum_{j = 1}^{k} f (c_{j}) U E_{j} U^{- 1} \\ = & U (\sum_{j = 1}^{k} f (c_{j}) E_{j}) U^{- 1} \\ = & U f (T) U^{- 1} \end{array}

◻

译者注记. 以上存在一些需要澄清的地方. 首先, 酉映射其实指的就是内积空间的同构. 其次, 事实

{f (T)}^{⁎} = \sum_{j = 1}^{k} \overline{f (c_{j})} E_{j}

的推出需要伴随的基本性质,

E_{j}

是正交投影, 还有正交投影是自伴算子. 之所以

E_{j}

是正交投影, 实际上是因为我们发现可对角化正规算子的条件就足够推出定理9的那些结论了, 当然或许读者还需要结合第6章的定理11的讨论看看. 至于证明正交投影是自伴算子, 第8章的例子17实际上已经提供了一个证明. 接着, 为了推出

f (c_{j}) = b

或者

E_{j} α = 0

, 其实不一定要用勾股定理, 也可以根据直和的性质得到. 最后, 这个证明没有提及

T^{'} = U T U^{- 1}

的正规性, 但是我们可以发现

{(T^{'})}^{⁎} = U T^{⁎} U^{- 1}

, 鉴于

\begin{array}{rcl} ⟨ T^{'} α^{'} | β^{'} ⟩ & = & ⟨ U T U^{- 1} α^{'} | β^{'} ⟩ \\ = & ⟨ T U^{- 1} α^{'} | U^{- 1} β^{'} ⟩ \\ = & ⟨ U^{- 1} α^{'} | T^{⁎} U^{- 1} β^{'} ⟩ \\ = & ⟨ α^{'} | U T^{⁎} U^{- 1} β^{'} ⟩ \end{array}

其中

α^{'}, β^{'} \in V^{'}

, 并且我们用到了酉变换的保持内积的特性.

在思考前述的讨论时, 我们一定要记得正规算子 $T$ 的谱是集合 $S = {c_{1}, \dots, c_{k}}$ 而且这些 $c_{j}$ 是互异的. 当 $T$ 在某个由特征向量构成的基下由一个对角矩阵表示时, 每个 $c_{j}$ 都需要重复相对应的特征空间的维数次. 这是我们在以下结果中改换记号的原因.

推论. 在定理10的假设下, 设

T

在某个有序基

𝔅 = {α_{1}, \dots, α_{n}}

下由对角矩阵

D

表示, 并且

D

的对角线为

d_{1}, \dots, d_{n}

, 那么在有序基

𝔅

下,

f (T)

由对角矩阵

f (D)

表示, 其对角线为

f (d_{1}), \dots, f (d_{n})

. 如果

𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

是任意的有序基并且

P

是从

𝔅

到

𝔅^{'}

的基变换矩阵, 即

α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j} α_{i}

那么

P^{- 1} f (D) P

是

f (T)

在基

𝔅^{'}

下的矩阵.

证明. 对于每个下标

i

, 存在唯一的

j

(

1 \leq j \leq k

) 使得

α_{i} \in E_{j} (V)

且

d_{i} = c_{i}

. 因此, 对于每个

i

f (T) α_{i} = f (d_{i}) α_{i}

, 并且

\begin{array}{rcl} f (T) α_{j}^{'} & = & \sum_{i = 1}^{n} P_{i, j} f (T) α_{i} \\ = & \sum_{i = 1}^{n} d_{i} P_{i, j} α_{i} \\ = & \sum_{i = 1}^{n} {(D P)}_{i, j} α_{i} \\ = & \sum_{i = 1}^{n} {(D P)}_{i, j} (\sum_{k = 1}^{n} P_{k, i}^{- 1} α_{k}^{'}) \\ = & \sum_{k = 1}^{n} \sum_{i = 1}^{n} P_{k, i}^{- 1} {(D P)}_{i, j} α_{k}^{'} \\ = & \sum_{k = 1}^{n} {(P^{- 1} D P)}_{k, j} α_{k}^{'} \end{array}

◻

由这个结果我们可以构造正规矩阵的特定函数, 以下是论证. 设 $A$ 是一个正规矩阵, 那么存在一个可逆的矩阵 $P$ (实际上是一个酉矩阵 $P$ ) 使得 $P A P^{- 1}$ 是一个对角矩阵, 设其为 $D$ 而对角线元素分别为 $d_{1}, \dots, d_{n}$ . 令 $f$ 是一个可以应用到 $d_{1}, \dots, d_{n}$ 上的复值函数, 令 $f (D)$ 是以 $f (d_{1}), \dots, f (d_{n})$ 为对角线元素的对角矩阵, 那么 $P^{- 1} f (D) P$ 独立于 $D$ , 在以下意义上只是 $A$ 的一个函数. 如果 $Q$ 是另一个可逆矩阵并且 $D^{'} = Q A Q^{- 1}$ 是一个对角矩阵, 那么 $f$ 可以被应用到 $D^{'}$ 的对角线元素上且 $P^{- 1} f (D) P = Q^{- 1} f (D^{'}) Q .$

译者注记. 以上说的矩阵均是复矩阵. 另外, 我们最好解释一下以上这段话的进路. 设

𝔅 = {α_{1}, \dots, α_{n}}

是一个有序规范正交基, 并且

T

是在

𝔅

下由

A

确定的线性算子. 因为

A

是正规的且

𝔅

是规范正交的, 所以

T

也是正规的. 考虑由

𝔅

和基变换矩阵

P^{- 1}

确定的有序基

𝔅^{'} = {α_{1}^{'}, \dots, α_{n}^{'}}

, 即由

α_{j}^{'} = \sum_{i = 1}^{n} P_{i, j}^{- 1} α_{i}

确定的有序基, 那么

T

在

𝔅^{'}

下的矩阵即对角矩阵

D = P A P^{- 1}

. 我们知道

f (T)

在

𝔅^{'}

下由

f (D)

表示. 而且, 由于从

𝔅^{'}

到

𝔅

的基变换矩阵是

P = {(P^{- 1})}^{- 1}

, 所以

f (T)

在

𝔅

下的矩阵是

P^{- 1} f (D) P

. 同理可得,

f (T)

在

𝔅

下的矩阵也是

Q^{- 1} f (D^{'}) Q

. 因此, 这两个矩阵是相等的.

定义. 在以上条件下,

f (A)

被定义为

P^{- 1} f (D) P

译者注记.

f (A)

可以理解成是选定一个任意的规范正交基

𝔅

得到一个正规算子

T

, 然后

f (A)

就是

f (T)

在

𝔅

下的矩阵. 根据之前的讨论, 我们知道这个矩阵独立于规范正交基的选择.

矩阵 $f (A)$ 也可以用一种不同的方式刻画.

线性代数

前言

第1章 线性方程

第1.1节 域

第1.2节 线性方程组

第1.3节 矩阵和初等行变换

第1.4节 行简化阶梯矩阵

第1.5节 矩阵乘法

第1.6节 可逆矩阵

第2章 向量空间

第2.1节 向量空间

第2.2节 子空间

第2.3节 基和维数

第2.4节 坐标

第2.5节 行等价的总结

第2.6节 关于子空间的计算

第3章 线性变换

第3.1节 线性变换

第3.2节 线性变换的代数

第3.3节 同构

第3.4节 通过矩阵表示变换

第3.5节 线性泛函

第3.6节 二次对偶

第3.7节 线性变换的转置

第4章 多项式

第4.1节 代数

第4.2节 多项式代数

第4.3节 Lagrange插值

第4.4节 多项式理想

第4.5节 多项式的素因子分解

第5章 行列式

第5.1节 交换环

第5.2节 行列式函数

第5.3节 置换和行列式的唯一性

第5.4节 行列式的额外性质

第5.5节 模

第5.6节 多线性函数

第5.7节 Grassman环

第6章 初等标准形式

第6.1节 引论

第6.2节 特征值

第6.3节 零化多项式

第6.4节 不变子空间

第6.5节 同时三角化; 同时对角化

第6.6节 直和分解

第6.7节 不变直和

第6.8节 准素分解定理

第7章 有理形式和Jordan形式

第7.1节 循环子空间和零化子

第7.2节 循环分解和有理形式

第7.3节 Jordan形式

第7.4节 不变因子的计算

第7.5节 总结; 半单算子

第8章 内积空间

第8.1节 内积

第8.2节 内积空间

第8.3节 线性泛函和伴随

第8.4节 酉算子

第8.5节 正规算子

第9章 内积空间上的算子

第9.1节 引论

第9.2节 内积空间上的形式

第9.3节 正定形式

第9.4节 更多关于形式的结果

第9.5节 谱论

第9.6节 正规算子的更深刻性质

第10章 双线性形式

第10.1节 双线性形式

第10.2节 对称双线性形式

第10.3节 斜对称双线性形式

第10.4节 保持双线性形式的群

附录

第A.1节 集合

第A.2节 函数

第A.3节 等价关系

第A.4节 商空间

第A.5节 线性代数中的等价关系

第A.6节 选择公理

第1章线性方程

第1.1节域

第1.2节线性方程组

第1.3节矩阵和初等行变换

第1.4节行简化阶梯矩阵

第1.5节矩阵乘法

第1.6节可逆矩阵

第2章向量空间

第2.1节向量空间

第2.2节子空间

第2.3节基和维数

第2.4节坐标

第2.5节行等价的总结

第2.6节关于子空间的计算

第3章线性变换

第3.1节线性变换

第3.2节线性变换的代数

第3.3节同构

第3.4节通过矩阵表示变换

第3.5节线性泛函

第3.6节二次对偶

第3.7节线性变换的转置

第4章多项式

第4.1节代数

第4.2节多项式代数

第4.4节多项式理想

第4.5节多项式的素因子分解

第5章行列式

第5.1节交换环

第5.2节行列式函数

第5.3节置换和行列式的唯一性

第5.4节行列式的额外性质

第5.5节模

第5.6节多线性函数

第6章初等标准形式

第6.1节引论

第6.2节特征值

第6.3节零化多项式

第6.4节不变子空间

第6.5节同时三角化; 同时对角化

第6.6节直和分解

第6.7节不变直和

第6.8节准素分解定理

第7章有理形式和Jordan形式

第7.1节循环子空间和零化子

第7.2节循环分解和有理形式

第7.4节不变因子的计算

第7.5节总结; 半单算子

第8章内积空间

第8.1节内积

第8.2节内积空间

第8.3节线性泛函和伴随

第8.4节酉算子

第8.5节正规算子

第9章内积空间上的算子

第9.1节引论

第9.2节内积空间上的形式

第9.3节正定形式

第9.4节更多关于形式的结果

第9.5节谱论

第9.6节正规算子的更深刻性质

第10章双线性形式

第10.1节双线性形式

第10.2节对称双线性形式

第10.3节斜对称双线性形式

第10.4节保持双线性形式的群

第A.1节集合

第A.2节函数

第A.3节等价关系

第A.4节商空间

第A.5节线性代数中的等价关系

第A.6节选择公理