线性代数

第6章 初等标准形式

第6.1节 引论

之前我们已经提过我们的主要目的在于研究有限维向量空间上的线性变换. 到目前为止, 我们已经见过了许多线性变换的特殊例子, 并且证明了一些关于一般线性变换的定理. 在有限维的情形我们利用有序基通过矩阵来表示这样的变换, 这种表示增添了我们对于其行为的直觉. 我们探索了向量空间L(V,W), 其由从一个向量空间到另一个的线性变换构成. 我们也探索了L(V,V), 其由从一个向量空间到自身的线性变换构成.

在接下来的两章中, 我们将主要关心线性算子. 我们的流程是选取一个有限维向量空间V上的单独的一个线性算子T, 将它拆下来, 看看什么使其运转. 在这早期阶段, 将我们的目标以矩阵的语言表述是最为简单的: 给定线性算子T, 找出V的一个有序基使得T的矩阵呈现特别简单的形式.

现在对于我们心中所想作一个基本的刻画. 或许最简单的矩阵, 除了恒等矩阵之外, 就是对角矩阵了:D=[c10000c20000c30000cn]T是一个n维向量空间V上的线性算子. 如果我们能够找到V的一个有序基𝔅={α1,,αn}使得T由上面的对角矩阵D表示, 那么我们能够获得和T有关的相当信息. 例如, 和T有关的简单数字, 比如说T和秩或者T的行列式, 看一眼矩阵D就能出来. 我们可以显式描述T的像和零空间. 既然[T]𝔅=D当且仅当Tαk=ckαk,k=1,,n那么像就是由那些ck0αk张成的子空间, 零空间就是由剩下来的αk张成的. 似乎可以这样说, 如果我们知道了一个基𝔅和一个对角矩阵D满足[T]𝔅=D, 那么我们就能轻易回答一切与T有关的问题.

是否每个线性算子都可以在某个有序基下表示为对角矩阵呢? 如果不是的话, 那么什么样的算子T下这样的基存在呢? 如果存在这样的基的话, 那么我们又该怎么找到它呢? 如果这样的基不存在的话, 那么可以表示T的最简单的矩阵类型是什么样的呢? 这些是我们将在本章 (和下一章) 解决的问题. 随着我们理解到其中的困难, 一些问题的形式也会变得更加复杂.

第6.2节 特征值

前一节的评注为我们提供了尝试分析一般线性算子T的起点. 之前的线索暗示着我们应该研究这样的向量, 其由T送至自身的标量倍数.

定义.V是域F上的向量空间而TV上的线性算子. T的一个特征值是一个F中的标量c, 存在V中非零的向量α使得Tα=cα. 如果cT的特征值, 那么
  1. 任何满足Tα=cα的向量α都被称为T在特征值c下的特征向量.
  2. 所有满足Tα=cα的向量α构成的集合被称为T在特征值c下的特征空间.

特征值 (characteristic value) 也被称为特征根 (characteristic root), 隐式根 (latent root), 特征值 (eigenvalue), 特征值 (proper value) 或者谱值 (spectral value). 本书我们将只使用"特征值 (characteristic value)"这个名字.

如果T是任意的线性算子而c是任意的标量, 所有满足Tα=cα的向量α的集合是V的子空间, 实际上它就是线性变换(TcI)的零空间. 我们称cT的特征值, 如果该子空间异于零子空间, 即(TcI)不是单射的. 在V是有限维的情况下, (TcI)不是单射恰当其行列式等于零.

定理1.T是有限维向量空间V上的一个线性算子, c是一个标量, 那么以下是等价的.
  1. cT的特征值.
  2. 算子(TcI)是奇异的 (不可逆的).
  3. det(TcI)=0.

行列式判则iii是非常重要的, 因为它告诉我们从哪里寻找T的特征值. 既然det(TcI)是对于变量cn次多项式, 那么我们所求的特征值就是该多项式的根. 让我们仔细解释这个想法.

如果𝔅V的基并且A=[T]𝔅, 那么(TcI)可逆当且仅当矩阵(AcI)可逆. 据此, 我们有如下定义.

定义. 如果A是域F上的一个n×n矩阵, 那么A的一个在F中的特征值是一个F中标量c满足矩阵(AcI)是奇异的 (不可逆的).

既然cA的特征值当且仅当det(AcI)=0或者等价地当且仅当det(cIA)=0, 我们构造以多项式为元素的矩阵(xIA)并考虑多项式f=det(xIA). 显然AF中的特征值不过就是F中满足f(c)=0的标量c. 出于这样的原因f被称为A的特征多项式. 注意到f是一个次数恰为n的首项系数为一的多项式是重要的. 这很容易从基于元素的矩阵的行列式公式中看出来.

引理. 相似矩阵拥有相同的特征多项式.
证明. 如果B=P1AP, 那么det(xIB)=det(xIP1AP)=det(P1(xIA)P)=detP1det(xIA)detP=det(xIA)

这条引理允许我们将算子T的特征多项式定义为任意在某个V的有序基下表示Tn×n矩阵的特征多项式. 正如矩阵一样, T特征值就是T的特征多项式的根. 特别地, 这表明T不可能拥有多于n个不同的特征值. 我们也应该指出T可能没有任何特征值.

例子1.T2上的线性算子, 其在标准有序基下由矩阵A=[0110]表示. T (或者A) 的特征多项式为det(xIA)=|x11x|=x2+1.既然这个多项式没有实根, 那么T就没有特征值. 如果U2上的线性算子, 其在标准有序基下由A表示, 那么U就有两个特征值, ii. 这里我们看到了微妙的一点. 在讨论一个矩阵A的特征值时, 我们必须小心地规定所涉及的域. 上面的矩阵A中没有特征值, 但在中有两个特征值ii.
例子2.A3×3的(实)矩阵[311221220].那么A的特征多项式为|x3112x2122x|=x35x2+3x4=(x1)(x2)2.因此A的特征值是12.
T3上的线性算子, 其在标准基下由A表示. 让我们找出T在特征值12下的特征向量. 现在AI=[211211221]显然一眼就可以看出AI的秩等于2 (因此TI的零化度为1). 于是特征值1下的特征向量的空间是一维的. 向量α1=(1,0,2)可以张成TI的零空间. 因此Tα=α当且仅当αα1的标量倍数. 现在考虑A2I=[111201222]显然A2I的秩也是2, 于是在特征值2下的特征向量的空间维数是1. 显然Tα=2α当且仅当αα2=(1,1,2)的标量倍数.
定义.T是有限维向量空间V上的一个线性算子. 我们称T是可对角化的, 如果存在V的一个基满足其中每个向量都是T的特征向量.

为什么要叫这个名字应该是很显然的, 因为如果存在V的一个有序基𝔅={α1,,αn}满足每个αi都是T的特征向量, 那么T在有序基𝔅下的矩阵是对角的. 如果Tαi=ciαi, 那么[T]𝔅=[c1000c2000cn]我们当然并不需要标量c1,,cn互异. 实际上, 它们可以是相同的标量 (当T是恒等算子的标量倍数时).

我们也可以将T可对角化定义为存在T的一集特征向量可以张成V. 这与之前的定义只是表面上不同而已, 因为我们可以从任意能够张成V的一集向量中挑选出一个基.

对于例子1和2我们故意挑选了在n上不可对角化的线性算子T. 在例子1中, 2上的这个线性算子之所以是不可逆的, 是因为它没有特征值. 在例子2中, 线性算子T的确有特征值. 实际上, T的特征多项式可以在实数域上被分解完全: f=(x1)(x2)2. 然而, T并非可对角化的. 在T的两个特征值下每个特征空间都只是一维的, 因此我们并不能构造出一个全由T的特征向量构成的3的基.

T是一个可对角化的线性算子. 令c1,,ckT互异的特征值. 那么存在一个有序基𝔅满足其下T由一个以标量ci为对角元素的对角矩阵表示, 每个标量均重复特定的次数. 如果ci重复了di次, 那么(我们可以重新排列有序基的向量顺序使得)该矩阵具有如下分块形式[T]𝔅=[c1I1000c2I2000ckIk]其中Ijdj×dj的恒等矩阵. 从中我们看出两件事. 首先, T的特征多项式是(可能重复的)线性因子之积:f=(xc1)d1(xck)dk.如果标量域F是代数闭域, 例如复数域, 那么每个F上的多项式都可以被这么分解 (见第4.5节). 然而, 如果F不是代数闭域, 当我们说T的特征多项式有这样一种分解时, 我们是在声明T的一个特别性质. 第二件能看出来的事情是di (ci作为f的重根次数) 等于与特征值ci相关的特征空间的维数. 这是因为对角矩阵的零化度等于其主对角线上零的数目, 而矩阵[TciI]𝔅在其主对角线上拥有di个零. 这个特征空间的维数与特征值作为f的根的重数之间的关系最初看上去并不令人兴奋. 然而, 它为我们提供了一种更简单的判断给定算子是否可对角化的方法.

引理.Tα=cα. 如果f是任意的多项式, 那么f(T)α=f(c)α.
证明. 作为练习.
引理.T是有限维向量空间V上的线性算子. 令c1,,ckT不同的特征值, 而Wi是特征值ci下的特征空间. 如果W=W1++Wk, 那么dimW=dimW1++dimWk.实际上, 如果𝔅iWi的一个有序基, 那么𝔅=(𝔅1,,𝔅k)W的一个有序基.
证明. 空间W=W1++Wk是由T的所有特征向量张成的子空间. 当一个人构造子空间Wi之和W时, 通常会预料dimW<dimW1++dimWk, 因为不同空间的向量之间也可能存在线性关系. 这条引理告诉我们不同特征值下的特征空间是独立的.
设(对于每个i)我们有一个Wi中的向量βi, 并且假定β1++βk=0. 我们将证明对于每个iβi=0. 令f是任意的多项式. 既然Tβi=ciβi, 那么之前的引理告诉我们0=f(T)0=f(T)β1++f(T)βk=f(c1)β1++f(ck)βk选择多项式f1,,fk使得fi(cj)=δi,j={1,i=j0,ij那么0=fi(T)0=j=1kδi,jβj=βi现在令𝔅iWi的一个有序基, 令𝔅是序列𝔅=(𝔅1,,𝔅k), 那么𝔅能够张成子空间W=W1++Wk. 并且, 𝔅也是线性无关的向量序列, 原因如下. 任何𝔅中向量之间的线性关系都具有β1++βk=0的形式, 其中βi𝔅i中的向量的线性组合. 根据我们刚才得到的结果, 我们知道对于每个iβi=0. 既然每个𝔅i都是线性无关的, 那么显然𝔅中的向量之间只存在平凡的线性关系.
定理2.T是有限维向量空间V上的线性算子, 令c1,,ckT不同的特征值, 令Wi(TciI)的零空间, 以下条件是等价的.
  1. T是可对角化的.
  2. T的特征多项式为f=(xc1)d1(xck)dk并且dimWi=di,i=1,,k.
  3. dimW1++dimWk=dimV.
证明. 我们已经观察到i可以推出ii. 如果特征多项式f是如ii所示的线性因子之积, 那么d1++dk=dimV, 因为di之和就是特征多项式的次数, 而这个次数就是dimV. 于是, ii能够推出iii. 设iii成立. 根据引理, 我们必须有V=W1++Wk, 即T的特征向量能够张成V.

定理2的矩阵类比可以按照如下方式陈述. 令A是一个元素来源于域Fn×n矩阵, 令c1,,ckAF中不同的特征值. 对于每个i, 令Wi是满足(AciI)X=0的列矩阵X的空间, 当然X的元素应该来源于F, 令𝔅iWi的一个有序基. 我们将基(𝔅1,,𝔅k)连在一起以构成了一个矩阵P的列的序列:P=[P1,P2,]=(𝔅1,,𝔅k).矩阵A在域F上能够相似于一个对角矩阵当且仅当P是一个方阵. 当P是方阵的时候, P可逆并且P1AP是对角矩阵.

例子3.T3上的线性算子, 其在标准基下由矩阵A=[566142364]表示. 让我们指出读者计算特征多项式的一种可能方式, 使用行变换和列变换:|x5661x4236x+4|=|x5061x2232xx+4|=(x2)|x50611231x+4|=(x2)|x50611220x+2|=(x2)|x562x+2|=(x2)(x23x+2)=(x2)2(x1)在这两个特征值下的特征空间的维数是多少呢? 我们有AI=[466132365],A2I=[366122366]我们知道AI是奇异的, 并且显然有rank(AI)2. 因此, rank(AI)=2. 另外, 显然有rank(A2I)=1.
W1W2分别是特征值12下的特征空间, 我们知道dimW1=1dimW2=2. 根据定理2, T是可对角化的. 很容易找出3的一个基满足其下T由一个对角矩阵表示. (TI)的零空间由向量α1=(3,1,3)张成, 于是{α1}W1的一个基. T2I的零空间 (即空间W2) 由满足x1=2x2+2x3的向量(x1,x2,x3)构成. 因此, W2的基的一个例子是α2=(2,1,0),α3=(2,0,1).如果𝔅={α1,α2,α3}, 那么[T]𝔅是对角矩阵D=[100020002].T可对角化的事实意味着原本的矩阵A(在上)相似于对角矩阵D. 使得我们能够将基𝔅下的坐标转换为标准基下的坐标的矩阵P(当然)以α1,α2,α3的转置为列向量:P=[322110301].而且, AP=PD, 于是P1AP=D.
练习1. 以下的每种情形, 令T2上的线性算子, 其在2的标准有序基下由矩阵A表示. 并且, 令U2上的线性算子, 其在2的标准有序基下也由矩阵A表示. 找出TU的特征多项式, 找出TU的特征值, 以及找出每个特征值所对应的特征空间的一个基.A=[1000],A=[2311],A=[1111].
练习2.V是域F上的一个n维向量空间. V上的恒等算子的特征多项式是什么? V上的零算子的特征多项式是什么?
练习3.A是域F上的一个n×n的三角矩阵. 证明A的特征值就是其对角线的元素, 即标量Ai,i.
练习4.T3上在标准有序基下由矩阵[9448341687]表示的线性算子. 证明T是可对角化的, 通过给出3的一个基, 其每个向量都是T的特征向量.
练习5.A=[6324121053].A是否相似于一个对角矩阵? 域A是否相似于一个对角矩阵?
练习6.T4上在标准有序基下由矩阵[0000a0000b0000c0]表示的线性算子. a,b,c在何种条件下使得T是可对角化的?
练习7.Tn维向量空间V上的一个线性算子. 如果T具有n个不同的特征值, 证明T是可对角化的.
练习8.AB是域F上的n×n矩阵, 证明如果(IAB)是可逆的, 那么(IBA)也是可逆的, 并且(IBA)1=I+B(IAB)1A.
练习9. 使用练习8的结果证明, 如果AB是域F上的n×n矩阵, 那么ABBA在域F中恰好拥有相同的特征值.
练习10.A是一个2×2的实对称矩阵, 证明A上相似于一个对角矩阵.
练习11.N是一个2×2的复矩阵满足N2=0, 证明要么N=0, 要么N上相似于[0010].
练习12. 使用练习11的结果证明, 如果A是一个2×2的复矩阵, 那么A上相似于以下两种类型的矩阵中的一种:[a00b],[a01a].
练习13.V是所有从的连续函数构成的向量空间, 令TV上由(Tf)(x)=0xf(t)dt定义的线性算子, 证明T没有特征值.
练习14.An×n的对角矩阵, 它的特征多项式为(xc1)d1(xck)dk其中c1,,ck是不同的标量. 令V是所有与A交换的n×n矩阵构成的向量空间, 证明V的维数是d12++dk2.
练习15.VFn×n, 矩阵AV, TV上"左乘A"的线性算子, AT具有相同的特征值吗?

第6.3节 零化多项式

在尝试分析一个线性算子T的时候, 知道能够零化T的多项式类是很有用的. 更确切地说, 设T是域F上的向量空间V上的线性算子. 如果p是域F上的多项式, 那么p(T)也是V上的线性算子. 如果q是另一个域F上的多项式, 那么(p+q)(T)=p(T)+q(T),(pq)(T)=p(T)q(T).因此, 零化T的多项式p (意即p(T)=0) 的集合是多项式代数F[x]的理想. 它可能是零理想, 也就是说T可能不由任何非零多项式零化. 但是, 如果V是有限维的, 这种情况是不可能发生的.

T是一个n维空间V上的线性算子. 看看T的前(n2+1)次幂:I,T,T2,,Tn2.这是L(V,V)n2+1个算子的序列, L(V,V)V上的线性算子的空间. 空间L(V,V)n2维的, 因此这n2+1个算子的序列必然是线性相关的, 也就是说存在不是全零的标量ci满足c0I+c1T++cn2Tn2=0.于是, 零化T的多项式理想中有一个非零的多项式, 其次数小于等于n2.

根据第4章的定理7, 每个非零的多项式理想都可由某个首项系数为一的多项式生成. 因此, 存在一个与T相关的首项系数为一的多项式p满足以下性质: 如果f是一个域F上的多项式, 那么f(T)=0当且仅当f=pg, 其中g是某个F上的多项式.

定义.T是一个域F上的有限维向量空间V上的线性算子. T的极小多项式是零化T的域F上的多项式理想的(唯一的)首项系数为一的生成元.

"极小多项式"这个名字来源于这个多项式理想的生成元可由理想中次数最小的首项系数为一多项式刻画. 这意味着线性算子T的极小多项式p由以下三条性质唯一确定:

  1. p是标量域F上的首项系数为一的多项式.
  2. p(T)=0.
  3. 没有能够零化T的域F上的多项式次数比p低.

如果A是域F上的一个n×n矩阵, 我们可以按照类似的方式定义A的极小多项式, 即域F上零化A的多项式理想的那个唯一的首项系数为一的生成元. 如果T在某个有序基下由矩阵A表示, 那么TA有着相同的极小多项式. 这是因为在这个基下f(T)由矩阵f(A)表示, 于是f(T)=0当且仅当f(A)=0.

上面关于算子和矩阵的评注也可说明相似矩阵拥有相同的极小多项式. 从定义看这个事实也是显然的, 因为对于每个多项式ff(P1AP)=P1f(A)P.

关于矩阵的极小多项式的另一个基本评注也是应该说的. 设A是一个n×n矩阵, 其元素来源于域F. 设F1是以F为子域的一个域. (例如, A的元素可能是有理数, 而F1是实数域. 或者, A的元素是实数, 而F1是复数域.) 我们既可以将A当成F上的矩阵, 也可以将其当作F1上的矩阵. 从表面上来看, 似乎我们会得到A的两个不同的极小多项式. 幸运的是, 这并不会发生, 我们必须明白为什么. 当A被视为域F上的n×n矩阵时, 其极小多项式的定义是什么? 我们考虑能够零化A的系数来源于F的首项系数为一的多项式, 并挑选其中次数最小的那个. 如果f是域F上的一个首项系数为一的多项式:f=xk+j=0k1ajxj那么f(A)=0仅仅是说我们有了一个A的幂之间的线性关系:Ak+ak1Ak1++a1A+a0I=0.极小多项式的次数是满足存在以上形式的I,A,,Ak之间的线性关系的最小的正整数k. 而且, 根据极小多项式的唯一性, 对于k而言有且仅有一种这样形式的关系, 即一旦最小的k确定下来了, 存在唯一的F中标量a0,,ak1能够使得以上形式的关系成立. 它们是极小多项式的系数.

现在(对于每个k)我们有一个"未知元"a0,,ak1的具n2个方程的线性方程组. [译注: 也就是考虑An2个元素得到的线性方程组.] 既然A的元素都在F中, 那么该线性方程组的系数也都在F中. 因此, 如果该方程组有F1中的a0,,ak1的解, 那么它就有F中的a0,,ak1的解. (见第1.4节末.) 现在读者显然可以看出两个极小多项式应该是相同的. [译注: 而且, 这是因为此时解是唯一的.]

到目前为止, 关于n维空间上的线性算子的极小多项式, 我们知道什么呢? 我们只知道它的次数不超过n2. 这实际上是一个相当糟糕的估计, 因为它的次数不可能超过n. 我们将简短地证明该算子由其特征多项式零化. 首先, 让我们观察到一个基本事实.

定理3.Tn维向量空间V上的一个线性算子 (或者, 令A是一个n×n矩阵), 那么T (或者A) 的特征多项式和极小多项式具有相同的根, 不计重数.
证明.pT的极小多项式. 令c是一个标量. 我们想要证明的是p(c)=0当且仅当cT的一个特征值.
首先, 设p(c)=0, 那么p=(xc)q其中q是一个多项式. 既然degq<degp, 那么极小多项式p的定义告诉我们q(T)0. 选择一个向量β使得q(T)β0. 令α=q(T)β, 那么0=p(T)β=(TcI)q(T)β=(TcI)αcT的一个特征值.
现在设cT的一个特征值, 即存在α0使得Tα=cα. 正如我们在之前的引理中所注意到的,p(T)α=p(c)α.既然p(T)=0α0, 我们有p(c)=0.

T是一个可对角化线性算子而c1,,ck是其不同的特征值, 那么很容易看出来T的极小多项式为p=(xc1)(xck).如果α是一个特征向量, 那么算子Tc1I,,TckI之一将α送至0, 因此对于每个特征向量α(Tc1I)(TckI)α=0.对于T所变换的空间, 存在一个全由T的特征向量构成的基, 于是p(T)=(Tc1I)(TckI)=0.总结一下. 如果T是一个可对角化的线性算子, 那么T的极小多项式是不同的线性因子之积. 我们很快将看到, 这个性质刻画了可对角化算子.

例子4. 让我们试着寻找一下例子1, 2, 3里的线性算子的极小多项式. 我们将以相反的顺序讨论它们. 例子3中的线性算子被我们发现是可对角化的, 并且其特征多项式为f=(x1)(x2)2.根据前一段的论述, 我们知道T的极小多项式为p=(x1)(x2).读者可能会发现直接验证一下(AI)(A2I)=0要更令人放心一点. 在例子2中, 算子T的特征多项式也是(x1)(x2)2. 但是, 这个T不是可对角化的, 所以我们并不能知道其极小多项式就是(x1)(x2). 在这种情况下, 关于极小多项式我们又知道什么呢? 从定理3中我们得知其根是12, 但是重数未知. 因此, 我们在具有形式(x1)k(x2)l,k1,l1的多项式中寻找p. 先试试(x1)(x2):(AI)(A2I)=[211211221][111201222]=[201201402]于是, 极小多项式的次数至少为3. 于是, 接下来我们应该尝试(x1)2(x2)或者(x1)(x2)2. 后者是特征多项式, 似乎是不那么随机的选择. 读者通过计算可以发现(AI)(A2I)2=0, 因此T的极小多项式就是其特征多项式. [译注: 虽然例子2中的T是实向量空间上的线性算子, 以至于看起来极小多项式和特征多项式拥有相同的根的事实并不能保证极小多项式就是由那两个线性因子的幂构成. 但是, 我们也可以将其当作复数域上的线性算子, 根据前面的论证, 其极小多项式也是一样的, 而复数域是代数闭域.] 在例子1中我们讨论了2上的线性算子T, 其在标准基下由矩阵A=[0110]表示. 它的特征多项式为x2+1, 其没有实根. 为了确定极小多项式, 让我们忘了T而专注于A. 如果将其视为复矩阵, 那么A具有特征值ii. 这两个根都必须出现在极小多项式的根里, 因而极小多项式被x2+1整除. 验证A2+I=0是平凡的, 于是极小多项式就是x2+1.
定理4. (Cayley-Hamilton).T是有限维向量空间V上的一个线性算子. 如果fT的特征多项式, 那么f(T)=0. 换言之, 极小多项式整除特征多项式.
证明. 之后我们将会给出另外两个独立于此证明的证明. 当前这个证明, 尽管比较短, 可能难以理解. 除了简洁性, 它还有一个优点, 就是提供了第5章建立的行列式理论的一个富于启发性且远非平凡的应用.
K是一个含幺交换环, 其由所有以T为变元的多项式构成. 当然, K实际上是一个标量域上的含幺元的交换代数. 选择V的一个有序基{α1,,αn}, 令A是在此给定基下表示T的矩阵, 那么Tαi=j=1nAj,iαj,1in.这些式子也可以被写成以下等价的形式j=1n(δi,jTAj,iI)αj=0,1in.BKn×n的元素为Bi,j=δi,jTAj,iI.n=2时, 有B=[TA1,1IA2,1IA1,2ITA2,2I]并且 [译注: 在某种意义上, 这里存在一个"类型错误", 因为det(B)是多项式而f(T)是一个线性算子, 更正确的陈述是det(B)=f, 至于多项式变元是何种符号则无关紧要. 下面仍然有许多类型错误, 还请读者自行甄别.]det(B)=(TA1,1I)(TA2,2I)A1,2A2,1I=T2(A1,1+A2,2)T+(A1,1A2,2A1,2A2,1)I=f(T)其中f是特征多项式:f=x2(traceA)x+det(A).对于n>2的情形, 显然也有det(B)=f(T)这是因为f是矩阵xIA的行列式, 该矩阵的元素为多项式 [译注: 这里作者不小心将Ai,j写成了Aj,i, 但是不影响论证的合法性, 因为转置并不影响矩阵的行列式的值](xIA)i,j=δi,jxAi,j.我们想要证明f(T)=0. 为了证明f(T)是零算子, 只需要证明其充要条件就够了, 即对于k=1,,n(detB)αk=0. 根据B的定义, 向量α1,,αn满足等式j=1nBi,jαj=0,1in.n=2时, 它或许暗示我们将其写成以下形式 [译注: 这完全是形式上的, 至于其内在的涵义, 则需要读者仔细考察, 下面的推理亦是如此][TA1,1IA2,1IA1,2ITA2,2I][α1α2]=[00].在此情形之下, 古典伴随(adjB)是矩阵B~=[TA2,2IA2,1IA1,2ITA1,1I]并且B~B=[det(B)00det(B)].因此, 我们有(detB)[α1α2]=(B~B)[α1α2]=B~(B[α1α2])=[00]一般情况下, 令B~=(adjB), 那么对于每对ki, 根据B的定义可得 [译注: 这里的B~k,i只是附带的系数, 不被求和所绑定]j=1nB~k,iBi,jαj=0i上求和, 我们有0=i=1nj=1nB~k,iBi,jαj=j=1n(i=1nB~k,iBi,j)αj既然B~B=(detB)I, 于是i=1nB~k,iBi,j=δk,j(detB)因此对于k=1,,n, 我们得到0=j=1nδk,j(detB)αj=(detB)αk
证明. 以上证明的叙述有些混乱, 译者在此试图将其整理成更加清晰易读的形式. 设{α1,,αn}V的一个有序基, 而AT在此有序基下的矩阵表示. 令B=xIA, 这是多项式环上的矩阵. 另外, 设fT的特征多项式, 那么我们知道det(B)=f, 以及B(adjB)=fI. 根据A的定义, 我们知道i=1nBi,j(T)αi=0,1jn.这里的Bi,j是一个多项式, 而应用一个多项式于线性算子是第4章所定义的操作, 其结果仍然是一个线性算子. 接着, 我们可以推出对于k=1,,n0=(adjB)j,k(T)(i=1nBi,j(T)αi)=i=1n(adjB)j,k(T)Bi,j(T)αi=i=1n[(adjB)j,kBi,j](T)αi=i=1n[Bi,j(adjB)j,k](T)αij上求和, 我们得到0=j=1ni=1n[Bi,j(adjB)j,k](T)αi=i=1nj=1n[Bi,j(adjB)j,k](T)αi=i=1n(j=1n[Bi,j(adjB)j,k](T))αi=i=1n(j=1nBi,j(adjB)j,k)(T)αi=i=1nδi,k(detB)(T)αi=i=1nδi,kf(T)αi分别令k=1,,n, 可得f(T)αk=0,1kn既然{α1,,αn}V的一个基, 而f(T)在基的每个向量上都为零, 那么f(T)本身肯定是一个零变换.

译者注记. 以上我们补充的证明中的B和原来的证明中的B恰好是互为转置的关系. 读者可以看到, 这并不影响证明, 只是原本与矩阵乘法在形式上暗合的推理变成了转置了的顺序反转的版本而已. 作者的潜在想法实际上是这样的, 虽然原文只是在2×2的情况下提了一下. 对于多项式上的矩阵, 我们可以定义一个应用矩阵于线性算子的entrywise操作, 其结果是一个以线性算子为元素的矩阵, 即将多项式上的矩阵的逐个元素应用于线性算子得到的矩阵. 这个操作可以保持矩阵乘法, 即如果AB是多项式上的矩阵, 而T是一个线性算子, 那么(AB)(T)=A(T)B(T). 这里的A(T)B(T)纯粹是形式上的矩阵乘法, 其每个元素都是线性算子相乘再相加得到的. 虽然线性算子在一般情况下并不交换, 但在这里相乘的顺序的确没有那么重要, 因为我们知道对于多项式pqp(T)q(T)=q(T)p(T). 除了应用多项式矩阵于线性算子和线性算子矩阵的乘法之外, 我们还需要定义应用线性算子的矩阵于向量的列矩阵的形式操作, 这点在形式上当然和矩阵乘法也是一样的, 只是乘法变成了函数应用而已. 关键的一点在于, 如果C是这样一个向量的列矩阵, 那么A(T)[B(T)C]=[A(T)B(T)]C这个形式上的"乘法结合律"的确也是成立的. 在定义了这些形式操作并知道这几条性质之后, 那么Cayley-Hamilton的证明的确没有什么魔法可言.

此时此刻Cayley-Hamilton定理对于我们有用主要是因为它缩小了我们寻找线性算子的极小多项式的搜索范围. 如果我们知道了在某个有序基下表示T的矩阵A, 那么我们可以计算特征多项式f. 我们知道极小多项式p整除f, 并且它们拥有相同的根. 不过, 除非次数很小, 没有方法可以精确计算多项式的根. 然而, 如果f可以被分解为f=(xc1)d1(xck)dk,c1,,ck各不相同,di1那么p=(xc1)r1(xck)rk,1rjdj.这就是在一般情况下我们能够断言的全部事情了. 如果f的确是这样的多项式并且其次数为n, 那么对于每个具有这种形式的多项式p, 我们可以找到一个n×n的矩阵满足以f为特征多项式而p为极小多项式. 暂时我们还不会证明这个. 但是, 我们想强调的是, 具有这种形式的特征多项式告诉我们了极小多项式所具有的形式. 至于其他内容, 则无可奉告.

例子5.A4×4的(有理数)矩阵A=[0101101001011010].A的幂是容易计算的:A2=[2020020220200202],A3=[0404404004044040].因此, A3=4A, 即如果p=x34x=x(x+2)(x2), 那么p(A)=0. A的极小多项式必然整除p. 这个极小多项式的次数显然不是1, 因为次数为1意味着A是恒等矩阵的标量倍数. 因此, 极小多项式的候选者为: p,x(x+2),x(x2),x24. 这三个二次的多项式也很容易排除, 因为一眼就能看出A22A, A22A, A24I. 于是, pA的极小多项式. 并且, 0,2,2A的特征值. 特征多项式里x,x2,x+2这三个因子之一必然要重复两次. 显然, rank(A)=2. 因此, 与特征值0相关联的特征空间是2维的. 根据定理2, 特征多项式显然是x2(x24), 并且A在有理数域上相似于矩阵[0000000000200002].
练习1.V是有限维向量空间. V上的恒等算子的极小多项式是什么? V上的零算子的极小多项式是什么?
练习2.a,b,c是一个域F的元素, A是以下F上的3×3矩阵:A=[00c10b01a].证明A的特征多项式为x3ax2bxc, 并且这也是A的极小多项式.
练习3.A4×4的实矩阵A=[1100110022211110].证明A的特征多项式为x2(x1)2, 而这也是其极小多项式.
练习4. 练习3的矩阵A在复数域上是可对角化矩阵吗?
练习5.V是一个n维向量空间而TV上的一个线性算子. 设存在某个正整数k使得Tk=0, 证明Tn=0.
练习6. 找出一个3×3的矩阵, 其极小多项式是x2.
练习7.n是一个正整数, V是次数不超过n的实多项式的向量空间, DV上的微分算子. D的极小多项式是什么?
练习8.P2上将每个向量平行于y轴投影于x轴的算子: P(x,y)=(x,0). 表明P是线性的. P的极小多项式是什么?
练习9.A是一个n×n的矩阵, 其特征多项式为f=(xc1)d1(xck)dk.证明c1d1++ckdk=trace(A).
练习10.V是域F上的n×n矩阵的向量空间. 令A是一个固定的n×n矩阵. 令TV上由T(B)=AB定义的线性算子. 证明T的极小多项式是A的极小多项式.
练习11.AB是域F上的n×n矩阵. 根据6.2节的练习9, 矩阵ABBA拥有相同的特征值. 它们有着相同的特征多项式吗? 它们有着相同的极小多项式吗?

第6.4节 不变子空间

本节我们将引入一些在试图分析一个线性算子时有用的概念. 我们将运用这些想法来获得基于极小多项式的对于可对角化 (和可三角化) 算子的刻画.

定义.V是一个向量空间而TV上的一个线性算子. 如果WV的一个子空间, 那么我们称WT下不变, 如果对于每个向量αW有向量TαW, 即T(W)W.
例子6. 如果TV上任意的线性算子, 那么V和零子空间在T下不变. T的像和零空间也在T下不变.
例子7.F是一个域而D是多项式空间F[x]上的微分算子. 令n是正整数而W是次数小于等于n的多项式的子空间, 那么WD下不变. 这只是另一种陈述D是"次数降低"的算子的方式.
例子8. 这里给出例子6的一种非常有用的泛化. 令TV上的一个线性算子, U是任意的与T交换的线性算子, 即TU=UT. 令WU的像, 而NU的零空间, 那么WN都在T下不变. 如果αU的像中, 比如说α=Uβ, 那么Tα=T(Uβ)=U(Tβ), 于是Tα也在U的像中. 如果αN, 那么U(Tα)=T(Uα)=T(0)=0, 因而TαN.
U=g(T)是一类与T交换的算子, 其中g是一个多项式. 例如, 我们可以有U=TcI, 其中cT的一个特征值. 这个U的零空间对于我们而言是熟悉的. 我们看到这个例子包含了显见的事实, 即与某个特征值c相关联的T的特征空间在T下是不变的.
例子9.T2上的线性算子, 其在标准有序基下由矩阵A=[0110]表示, 那么在T下不变的仅有2平凡的子空间. 若有其他的不变子空间, 那它必然是1维的. 但是, 若W是由某个非零向量α张成的子空间, 那么WT下不变的事实意味着α是一个特征向量, 但是A没有实特征值.

当子空间W在算子T下不变时, T导出了空间W上的一个线性算子TW, 其由TW(α)=T(α),αW定义. 不过, TWT是相当不同的对象, 因为其定义域是W而不是V.

V是有限维的, 那么WT下的不变性有一个简单的矩阵解释, 或许我们现在就应该提到它. 设我们选取了V的一个有序基𝔅={α1,,αn}使得𝔅={α1,,αr}W的一个有序基 (r=dimW). 令A=[T]𝔅, 于是Tαj=i=1nAi,jαi.既然WT下不变, 那么对于jrTαjW, 这意味着Tαj=i=1rAi,jαi,jr.换言之, 对于jri>r, Ai,j=0.

若试图将A写下来, 其具有分块形式A=[BC0D]其中B是一个r×r矩阵, C是一个r×(nr)矩阵, D是一个(nr)×(nr)矩阵. 读者应该注意到, 根据定义, 矩阵B恰是导出算子TW在有序基𝔅下的矩阵.

往往我们并不利用矩阵A的分块形式展开关于TTW的论证, 但是我们应该注意到这样的分块形式呈现了TTW之间怎样的显然关系.

引理.WT下不变的子空间. 限制算子TW的特征多项式整除T的特征多项式. TW的极小多项式整除T的极小多项式.
证明. 我们有A=[BC0D]其中A=[T]𝔅B=[TW]𝔅. 对于这样的分块形式, 我们知道det(xIA)=det(xIB)det(xID).此即证明了关于特征多项式的陈述. 注意到这里的三个I的大小是不同的.
矩阵Ak次幂具有分块形式Ak=[BkCk0Dk]其中Ck是某个r×(nr)的矩阵. 因此, 任何零化A的多项式也零化B (还有D). 于是, B的极小多项式整除A的极小多项式.

译者注记. 对于多项式f, f(A)具有形式f(A)=[f(B)Cf0f(D)]其中Cf是某个r×(nr)的矩阵. 另外, 关于分块矩阵的运算性质, 原书几乎没有任何讨论, 或许读者应该参考其他线性代数教材.

例子10.T是有限维向量空间V上任意的线性算子. 令WT的所有特征向量张成的子空间. 令c1,,ckT不同的特征值. 对于每个i, 令Wi是与特征值ci相关的特征空间, 并令𝔅iWi的一个有序基. 定理2前的引理告诉我们𝔅=(𝔅1,,𝔅k)W的一个有序基, 因而dimW=dimW1++dimWk.𝔅={α1,,αr}, 其中最前面的一些向量构成了基𝔅1, 接下来的一些构成了基𝔅2, 诸如此类. 那么, 我们得到Tαi=tiαi,i=1,,r其中(t1,,tr)=(c1,c1,,c1,,ck,ck,,ck)ci重复dimWi次.
现在WT下不变, 因为对于每个αW, 我们有α=x1α1++xrαr,Tα=t1x1α1++trxrαr.选取任意其他的向量αr+1,,αnV使得𝔅={α1,,αn}V的一个基, 那么T𝔅下的矩阵具有之前所呈现的那种分块形式, 并且限制算子TW相对于基𝔅的矩阵为B=[t1000t2000tr].B (即TW) 的特征多项式为g=(xc1)e1(xck)ek其中ei=dimWi. 而且, g整除f, fT的特征多项式. 因此, ci作为f的根的重数至少为dimWi.
以上这些讨论应该能够使得定理2透明起来. 它仅仅是说T是可对角化的当且仅当r=n, 当且仅当e1++ek=n. 在不可对角化的情形下, 它不是很有用, 因为我们不知道分块形式中的矩阵CD是什么.
定义.WT下不变的子空间, 而αV中向量. 从αWT导子 (T-conductor) 是集合ST(α;W), 其由所有(标量域上)满足g(T)αW的多项式g构成.

既然算子T在大多数讨论中都是固定的, 我们也常扔掉下标T而就记作S(α;W). 许多作者通常将这个多项式的集合称为"stuffer" (das einstopfende Ideal). "conductor"是更标准的术语, 想象一下, 一个不那么激进的算子g(T), 温和地将向量α送往W. 在W={0}的特别情况下, 这个导子也被称为αT零化子 (T-annihilator).

引理. 如果WT下不变的子空间, 那么对于每个多项式f, Wf(T)下不变. 因此, 对于每个αV, 导子S(α;W)是多项式代数F[x]中的一个理想.
证明. 如果βW, 那么TβW. 因此, T(Tβ)=T2βW. 根据归纳, 对于每个自然数kTkβW. 取线性组合则能看出对于每个多项式f, f(T)βW.
即便WV的任意子集, S(α;W)的定义还是可以成立的. 如果WV是子空间, 那么S(α;W)F[x]的子空间, 因为(cf+g)(T)=cf(T)+g(T).如果W还在T下不变, 令多项式gS(α;W), 即g(T)αW. 如果f是任意的多项式, 那么f(T)[g(T)α]W. 既然(fg)(T)=f(T)g(T),那么fgS(α;W). 因此, 导子吸收了乘法.

理想S(α;W)唯一的首项系数为一的生成元也被称为从αWT导子 (在W={0}的情况下也被称为T零化子). 从αWT导子是满足g(T)αW的次数最低的首项系数为一的多项式g. 多项式fS(α;W)当且仅当g整除f. 注意到导子S(α;W)总是包含T的极小多项式. 因此, 每个T导子都整除T的极小多项式.

作为如何使用导子S(α;W)的第一个例子, 我们将刻画可三角化算子. 线性算子T被称为是可三角化的, 如果其在某个有序基下由三角矩阵表示.

引理.V是域F上的一个有限维向量空间. 令TV上的线性算子, 其极小多项式为线性因子之积p=(xc1)r1(xck)rk,ciF.WT下不变的一个真子空间 (WV). 存在向量αV满足
  1. αW;
  2. (TcI)αW, 其中c是线性算子T的某个特征值.
证明. a和b是在说从αWT导子是一个线性的多项式. 令βV是任意的不在W之中的向量. 令g是从βWT导子, 那么g整除p, 其中pT的极小多项式. 既然βW, 多项式g不可能是常量多项式. 因此,g=(xc1)e1(xck)ek其中至少有一个ei是正的. 选择使得ej>0j, 那么(xcj)整除g:g=(xcj)h.根据g的定义, 向量α=h(T)βW, 但是(TcjI)α=(TcjI)h(T)β=g(T)βW
定理5.V是域F上的一个有限维向量空间, TV上的一个线性算子, 那么T是可三角化的当且仅当T的极小多项式是域F上的线性多项式之积.
证明. 设极小多项式被分解为p=(xc1)r1(xck)rk.重复应用上述引理, 我们将会抵达一个有序基𝔅={α1,,αn}, 而其下表示T的矩阵是上三角的:[T]𝔅=[a1,1a1,2a1,3a1,n0a2,2a2,3a2,n00a3,3a3,n000an,n].这个式子仅仅是说Tαj=a1,jα1++aj,jαj,1jnTαj在由α1,,αj张成的子空间之中. 为了找出α1,,αn, 我们从应用引理于W={0}的情形开始, 这就得到了向量α1. 接着, 应用引理于W1, 此即α1张成的空间, 我们就得到了α2. 然后, 应用引理于W2, 即由α1α2张成的空间, 续行此法. 值得说明的是, 在α1,,αi找到后, 上面这样的三角类型的关系对于j=1,,i成立, 这保证了由α1,,αi张成的子空间在T下是不变的.
如果T是可三角化的, 那么显然T的特征多项式具有形式f=(xc1)d1(xck)dk,ciF.看看上面的三角矩阵, 我们知道对角线元素a1,1,,an,n是其特征值, 其中ci重复di次. 但是, 如果特征多项式f可以被这么分解, 那么极小多项式p当然也可以, 因为p整除f.
推论.F是代数闭域, 例如复数域, 那么每个域F上的n×n矩阵都在F上相似于一个三角矩阵.
定理6.V是域F上的有限维向量空间, TV上的一个线性算子, 那么T是可对角化的当且仅当T的极小多项式具有形式p=(xc1)(xck)其中c1,,ckF的不同元素.
证明. 之前我们已经注意到, 如果T是可对角化的, 那么极小多项式是不同的线性因子之积 (见例子4前的讨论). 为了证明其逆, 令WT的所有特征向量张成的子空间, 并设WV. 根据定理5的证明所用到的引理, 存在向量αWT的一个特征值cj满足β=(TcjI)αW.既然βW, 那么β=β1++βk其中Tβi=ciβi,1ik, 因而对于每个多项式hh(T)β=h(c1)β1++h(ck)βkW.既然p=(xcj)q, 其中q是某个多项式, 并且qq(cj)=(xcj)h我们有q(T)αq(cj)α=h(T)(TcjI)α=h(T)β但是h(T)βW, 并且因为0=p(T)α=(TcjI)q(T)α向量q(T)αW, 于是q(cj)αW. 既然αW, 我们有q(cj)=0, 但这与p的根互异矛盾 [译注: 显然, 此时需要计入重数].

在第6.7节末, 我们将给出定理6的另一个证明. 定理6除了作为优雅的结果, 其在计算方面也是实用的. 设我们有一个线性算子T, 在某个有序基下由矩阵A表示, 现在我们想要知道T是否是可对角化的. 我们计算其特征多项式f, 如果我们可以将f分解为f=(xc1)d1(xck)dk那么我们有两种判断的方法. 第一种方法是看我们能否对于每个i找到与特征值ci相关的di个线性无关的特征向量. 另一种方法是检验(Tc1I)(TckI)是否是零算子.

定理5提供了对于Cayley-Hamilton定理的一个不同的证明. 这个定理对于三角矩阵而言是容易证明, 而通过定理5, 对于任意代数闭域上的矩阵我们都可以得到此结果. 实际上, 任何域都是某个代数闭域的子域. 如果读者知道这个结果, 那么就得到了任意域上的矩阵的Cayley-Hamilton定理. 如果我们至少承认我们对于代数基本定理 (即复数域是代数闭域) 的讨论, 那么定理5提供了对于复矩阵的Cayley-Hamilton的一个证明, 此证明独立于我们之前所给出的.

练习1.T2上的线性算子, 其在标准有序基下的矩阵为A=[1122].
  1. 证明T的不变子空间仅可能是平凡的.
  2. 如果U2上的线性算子, 其在标准有序基下的矩阵和T一样, 表明U拥有一维的不变子空间.
练习2.WT的一个不变子空间. 证明限制算子TW的极小多项式整除T的极小多项式, 但是不涉及矩阵的概念.
练习3.cT的一个特征值, W是与特征值c相关的特征空间. 限制算子TW是什么?
练习4.A=[010222232].A在实数域上相似于三角矩阵吗? 如果可以, 找出这样的一个三角矩阵.
练习5. 每个满足A2=A的矩阵A都是可对角化的.
练习6.Tn维向量空间V上的一个可对角化算子, W是在T下不变的一个子空间. 证明限制算子TW也是可对角化的.
练习7.T是域上的一个有限维向量空间上的一个线性算子. 证明T是可对角化的当且仅当T可由某个域上根互异的多项式零化.
练习8.TV上的一个线性算子. 如果V的每个子空间都在T下不变, 那么T是恒等算子的标量倍数.
练习9.T是区间[0,1]上的连续函数空间上的不定积分算子(Tf)(x)=0xf(t)dt.多项式函数空间在T下不变吗? 可微函数空间呢? x=12时为零的函数空间呢?
练习10.A是一个3×3的实矩阵. 证明如果A上不相似于一个三角矩阵, 那么A上相似于一个对角矩阵.
练习11. 对还是错? 若三角矩阵A相似于一个对角矩阵, 那么A已经是一个对角矩阵了.
练习12.T是某个代数闭域F上的一个有限维向量空间上的一个线性算子, f是域F上的一个多项式. 证明cf(T)的特征值当且仅当c=f(t), 其中tT的一个特征值.
练习13.V=Fn×n, AV, V上的线性算子TU分别由T(B)=AB,U(B)=ABBA定义.
  1. 对还是错? 如果A(在F上)可对角化, 那么T是可对角化的.
  2. 对还是错? 如果A是可对角化的, 那么U是可对角化的.

第6.5节 同时三角化; 同时对角化

V是一个有限维向量空间, 𝔉V上的一族线性算子. 我们可以问何时能够同时三角化或者对角化这些𝔉中的线性算子, 即找到一个基𝔅使得矩阵[T]𝔅,T𝔉都是三角矩阵 (或者对角矩阵). 在可对角化的情形, 𝔉必然是可交换算子族, 即对于所有T,U𝔉, UT=TU. 当然, 每个𝔉中的算子也必然是可对角化的. 为了同时三角化, 每个𝔉中的算子必然是可三角化的, 但是𝔉不必是一个可交换算子族. 然而, 可交换是同时三角化的充分条件 (如果每个T都可以被单独三角化). 这些结果只需对于定理5和定理6的证明作小的修改即可得到.

子空间W在算子族𝔉下不变, 如果其在𝔉中的每个算子下不变.

引理.𝔉V上一个可三角化算子的交换族. 令W是一个V的真子空间, 其在𝔉下不变. 存在V中向量α满足
  1. αW;
  2. 对于每个T𝔉, 向量TααW张成的子空间之中.
证明. 不失一般性, 假定𝔉仅包含有限数目的算子, 这是出于以下观察. 令{T1,,Tr}𝔉的一个极大线性无关子集, 即𝔉张成的子空间的一个基. 如果α是使得b对于每个Ti成立的向量, 那么b将对于T1,,Tr的每个线性组合成立.
根据定理5之前的引理 (这个引理是对于单一的算子而言的), 我们可以找到向量β1W和标量c1满足(T1c1I)β1W. 令V1={βV|(T1c1I)βW}, 那么V1V的一个子空间且以W为真子空间. 更进一步, V1𝔉下不变, 以下是原因. 如果TT1交换, 那么(T1c1I)(Tβ)=T(T1c1I)β.如果βV1, 那么(T1c1I)βV1. 既然W𝔉下不变, 那么对于每个βV1和每个T𝔉, 我们有T(T1c1I)βW, 即TβV1.
现在WV1的一个真子空间. 令U2是由T2限制于子空间V1得到的线性算子. U2的极小多项式整除T2的极小多项式. 因此, 我们可以应用定理5之前的引理于U2和不变子空间W. 我们得到了一个向量β2V1但是β2W和一个标量c2满足(T2c2I)β2W. [译注: 实际上先是U2, 然后变为T2.] 注意到
  1. β2W;
  2. (T1c1I)β2W;
  3. (T2c2I)β2W.
V2={βV1|(T2c2I)βW}, 那么V2𝔉下不变. 应用定理5之前的引理于U3, 即限制T3V2得到的算子. 不断重复施行这样的过程, 我们将抵达一个向量α=βrW满足(TjcjI)αW,j=1,,r.
定理7.V是域F上的一个有限维向量空间. 令𝔉V上的一个可三角化算子的交换族. 存在V的一个有序基使得每个𝔉中的算子在这个基下都由三角矩阵表示.
证明. 考虑到刚才我们证明的引理, 这个定理的证明和定理5是一样的, 如果读者将T替换为𝔉.
推论.𝔉是某个代数闭域F上的一个n×n矩阵的交换族, 存在域F上的一个非奇异矩阵P使得对于每个矩阵A𝔉, P1AP是上三角矩阵.
定理8.𝔉是有限维向量空间V上的一个可对角化算子的交换族, 存在V的一个有序基使得每个𝔉中的算子在这个基下都由对角矩阵表示.
证明. 我们可以修饰定理7之前的引理, 使其适应于可对角化的情形, 以此来证明定理8. 之前在证明定理6的时候, 我们就已经这么做了, 通过修饰定理5之前的引理以使其适应于可对角化的情形. 然而, 此时通过V的维数上的归纳进行证明是更加容易的.
如果dimV=1, 没有需要证明的东西. 假定定理对于维数小于n的向量空间成立, 令V是一个n维空间. 选择任意不是恒等算子标量倍数的算子T𝔉. [译注: 若不然, 则𝔉中的算子在任意的基下均可同时对角化.] 令c1,,ckT不同的特征值, 并令Wici所对应的特征空间. [译注: k2.] 固定一个下标i, 那么Wi在任意与T交换的算子下都是不变的. 令𝔉i是限制𝔉中算子于(不变)子空间Wi的线性算子族. 因为限制算子的极小多项式整除本来的算子的极小多项式, 所以每个𝔉i中的算子也都是可对角化的. 既然dimWi<dimV, 根据归纳假设, 𝔉i中的算子可以被同时对角化. [译注: 这个限制算子族当然也是交换的族.] 换言之, Wi拥有一个基𝔅i, 其包含的向量同时为每个𝔉i中的算子的特征向量.
既然T是可对角化的, 定理2之前的引理告诉我们𝔅=(𝔅1,,𝔅k)V的一个基. 这就是我们要找的基.
练习1. 找到一个可逆的实矩阵P使得P1APP1BP都是对角矩阵, 其中AB是实矩阵
  1. A=[1202],B=[3801]
  2. A=[1111],B=[1aa1]
练习2.𝔉是一个3×3复矩阵的交换族. 𝔉至多可以包含多少线性无关的矩阵? n×n的情形呢?
练习3.Tn维空间V上的一个线性算子, 设T具有n个不同的特征值. 证明对于任意与T交换的线性算子U, 存在多项式g使得U=g(T).
练习4.A,B,C,D是交换的n×n复矩阵. 令E2n×2n矩阵E=[ABCD].证明det(E)=det(ADBC).
练习5.V=Fn×n, AV, V上的线性算子TA(B)=ABBA. 考虑线性算子族{TAL(V,V)|A为对角矩阵}, 证明其可以被同时对角化.

第6.6节 直和分解

当我们继续分析单一的线性算子, 我们将以稍微复杂一点的方式刻画我们的想法——基于子空间而不是矩阵. 本章之初, 我们这样描述我们的目的: 找到一个基使得线性算子的矩阵呈现特别简单的形式. 现在, 我们将我们的目的描述为: 将线性算子所在的空间分解为不变子空间的直和使得这些子空间上的限制算子是简单的.

定义.W1,,Wk是向量空间V的子空间. 我们称W1,,Wk是线性无关的, 如果α1++αk=0,αiWi可以推出每个αi=0.

对于k=2, W1W2线性无关当且仅当W1W2={0}. 如果k>2, W1,,Wk线性无关不仅是说W1Wk={0}, 实际上每个Wj与其他子空间Wi之交都仅是零子空间.

W=W1++Wk, 那么每个向量αW均可被表示为和α=α1++αk,αiWi.线性无关的重要性在于, 如果W1,,Wk是线性无关的, 那么α的这种表示是唯一的, 因为如果α=β1++βk,βiWi那么0=(α1β1)++(αkβk), 于是αiβi=0,i=1,,k. 因此, 当W1,,Wk线性无关时, 我们可以将W中的向量当作k元组(α1,,αk),αiWi操作, 就像我们操作k的向量一样.

引理.V是有限维向量空间, W1,,WkV的子空间, W=W1++Wk, 那么以下条件等价.
  1. W1,,Wk线性无关.
  2. 对于每个j,2jk, 我们有Wj(W1++Wj1)={0}.
  3. 如果𝔅iWi的一个有序基, 其中1ik, 那么𝔅=(𝔅1,,𝔅k)W的一个有序基.
证明. 假定a成立, 令向量αWj(W1++Wj1), 那么存在向量α1,,αj1,αiWi满足α=α1++αj1. 鉴于α1++αj1+(α)+0++0=0以及W1,,Wk是线性无关的, 必然有α1=α2==αj1=α=0.
现在我们证明b可以推出a. 假定b成立, 若a不成立, 存在不全为零的向量α1,,αk,αiWi使得0=α1++αk.j=max{i|αi0}, j是良定义的, 那么0=α1++αj,αj0于是αj=α1αj1Wj(W1++Wj1)中的一个非零向量, 这与条件b相矛盾.
现在我们已经知道a和b是等价的, 让我们看看为什么a等价于c. 假定a成立, 令𝔅iWi的一个基, 其中1ik, 并设𝔅=(𝔅1,,𝔅k). 𝔅中向量之间任意的线性关系都具有形式β1++βk=0其中βi𝔅i的某个线性组合. 既然W1,,Wk是线性无关的, 每个βi都是0. 又因为每个𝔅i都是线性无关的, 𝔅中的向量之间的线性关系只可能是平凡的. [译注: 这段论证实际上是从定理2之前的引理以及该引理的证明那里照搬过来的.]
我们将由c推出a的证明留作练习 (练习2).

若以上引理中任意的条件成立 (自然其他条件也成立), 那么我们称和W=W1++Wk是直的, 或者说WW1,,Wk的直和, 记作W=W1Wk.在其他文献中, 读者会发现这种和也被称为W1,,Wk的独立和或者内直和.

例子11.V是域F上的一个有限维向量空间, {α1,,αn}V任意的基. 如果Wi是由αi张成的一维子空间, 那么V=W1Wn.
例子12.n是一个正整数, F是复数域的一个子域, VFn×n, W1是所有对称矩阵构成的子空间, W2是所有斜对称矩阵构成的子空间, 那么V=W1W2. 如果AV, 那么A作为W1的向量和W2的向量之和的唯一表达为A=A1+A2,A1=12(A+At),A2=12(AAt).
例子13.T是有限维向量空间V上任意的线性算子, c1,,ck是其不同的特征值, Wici对应的特征空间, 那么W1,,Wk是线性无关的, 见定理2之前的引理. 特别地, 如果T是可对角化的, 那么V=W1Wk. [译注: 特征值当然有可能并不存在.]
定义. 如果V是一个向量空间, V的一个投影是V上一个满足E2=E的线性算子E.

E是一个投影, 令RE的像, NE的零空间.

  1. 向量βR当且仅当Eβ=β. 若存在α使得β=Eα, 那么Eβ=E2α=Eα=β. 反过来, 如果β=Eβ, 那么(当然有)βR.
  2. V=RN.
  3. α作为RN的向量之和的唯一表达为α=Eα+(αEα).
根据1, 2, 3, 很容易看出以下事实. 如果RNV的子空间满足V=RN, 那么存在唯一的投影算子ER为像且以N为零空间. 这个算子被称为沿着NR上的投影.

任意的投影E都可以被(平凡地)对角化. 如果{α1,,αr}R的一个基, {αr+1,,αn}N的一个基, 那么基𝔅={α1,,αn}可以对角化E:[E]𝔅=[I000]其中Ir×r的恒等矩阵. 这有助于解释某些和投影相关的术语. 读者应该看看平面2或者空间3里的各种例子以使得他们信服投影具有特定的几何意义.

投影可以用来刻画空间V的直和分解. 设V=W1Wk. 对于每个j我们可以定义一个V上的算子Ej. 令αV, 若α=α1++αk,αiWi, 定义Ejα=αj, 那么Ej是良定义的法则. 容易看出Ej是线性的, Ej的像是Wj, 以及Ej2=Ej. Ej的零空间是子空间(W1++Wj1+Wj+1++Wk).这是因为Ejα=0的意思即αj=0, 或者说α是除了Wj之外的子空间Wi的向量的和. 基于投影Ej, 对于每个αV, 我们有α=E1α++Ekα.这是在说I=E1++Ek.注意到如果ij, 那么EiEj=0, 因为Ej的像Wj包含于Ei的零空间之中. 我们现在将我们的发现总结如下, 并证明其逆.

定理9. 如果V=W1Wk, 那么存在V上的k个线性算子E1,,Ek满足
  1. 每个Ei都是投影, 即Ei2=Ei;
  2. ij, 那么EiEj=0;
  3. I=E1++Ek;
  4. Ei的像是Wi.
反过来, 如果E1,,EkV上的k个线性算子并且满足条件i, ii, iii, 令WiEi的像, 那么V=W1Wk. [译注: 实际上, ii和iii可以推出i.]
证明. 我们仅需证明逆命题. 设E1,,EkV上满足前三个条件的线性算子, 令WiEi的像, 那么定有V=W1++Wk这是因为根据条件iii, 对于每个αV我们有α=E1α++EkαEiαWi. 这个α的表达方式是唯一的, 因为若α=α1++αkαiWi, 即存在βi满足αi=Eiβi, 那么根据i和ii我们有Ejα=i=1kEjαi=i=1kEjEiβi=Ej2βj=Ejβj=αj这表明VWi的直和.
练习1.V是一个有限维向量空间, W1V任意的子空间, 证明存在V的子空间W2满足V=W1W2.
练习2.V是一个有限维向量空间, 而W1,,Wk是满足V=W1++WkdimV=dimW1++dimWk的子空间, 证明V=W1Wk.
练习3. 寻找这样一个投影E, 其将2沿着由(1,2)张成的子空间投影至由(1,1)张成的子空间.
练习4. 如果E1E2是投影至线性无关的子空间的算子, 那么E1+E2也是一个投影, 对还是错呢?
练习5. 如果E是一个投影而f是一个多项式, 那么f(E)=aI+bE. 如何以f的系数表示ab?
练习6. 对还是错? 如果一个可对角化算子的特征值仅是01, 那么它是一个投影.
练习7. 证明如果E是沿着NR上的投影, 那么(IE)是沿着RN上的投影.
练习8.E1,,Ek是空间V上满足E1++Ek=I的线性算子.
  1. 证明若ij时有EiEj=0, 那么对于每个iEi2=Ei.
  2. k=2的情形下, 证明a的逆, 即若有E1+E2=IE12=E1,E22=E2, 那么E1E2=0.
练习9.V是一个实向量空间, EV上的一个幂等线性算子, 即投影, 证明(I+E)是可逆的, 并找出(I+E)1是什么.
练习10.F是复数域的一个子域 (或者一个特征为零的域), VF上的一个有限维向量空间, E1,,EkV的投影并且满足E1++Ek=I. 证明如果ij, 那么EiEj=0. (提示: 使用迹函数并问问自己投影的迹是什么.)
练习11.V是一个向量空间, W1,,WkV的子空间, Vj=W1++Wj1+Wj+1++Wk.V=W1Wk, 证明对偶空间V拥有直和分解V=V10Vk0.

第6.7节 不变直和

我们主要对于这样的直和分解V=W1Wk感兴趣, 其每个子空间Wi都在某个给定的线性算子T下不变. 给定这样一种对于V的分解, T通过限制导出了每个Wi上的线性算子Ti. T的作用方式如下. 如果αV, 那么我们有着唯一的分解α=α1++αk,αiWi然后Tα=T1α1++Tkαk.我们将这种情况描述为T是算子T1,,Tk的直和. 必须要记得使用此术语时Ti不是V上而是子空间Wi上的线性算子. V=W1Wk的事实允许我们将每个αV与唯一的一个k元组(α1,,αk)联系起来, 其中αiWi (通过α=α1++αk), 再加上每个Wi都在T下不变, 我们可以将TV上的作用视为TiWi上的各独立作用之和. 我们寻找不变直和分解的最终目的当然还是研究T, 分解中的每个Ti的性质都应该是比较简单的.

在观察例子之前, 让我们先来指出其矩阵形式的类比. 设我们为每个Wi挑选了一个有序基𝔅i, 那么𝔅=(𝔅1,,𝔅k)V的一个有序基. 根据之前讨论单一不变子空间的矩阵类比的经验, 很容易看出来如果A=[T]𝔅Ai=[Ti]𝔅i, 那么A具有分块形式A=[A1000A2000Ak].

往往我们藉由与直和分解相关联的投影来刻画那些子空间 (定理9), 于是我们需要能够基于投影来重述不变直和.

定理10.T是空间V上的一个线性算子, 而W1,,WkE1,,Ek的情况和定理9一样, 那么每个Wi都在T下不变的充要条件是T与每个Ei交换, 即TEi=EiT,i=1,,k.
证明.T与每个Ei交换. 令αWj, 那么Ejα=α, 并有Tα=T(Ejα)=Ej(Tα)这表明TαWj, 即WjT下不变.
现在假定每个Wi都在T下不变, 我们将证明TEj=EjT. 令αV, 那么α=E1α++Ekα,Tα=TE1α++TEkα.因为EiαWi, 并且WiT下不变, 于是T(Eiα)Wi, 存在向量βi满足T(Eiα)=Eiβi, 那么EjTEiα=EjEiβi={0, 如果ijEjβj, 如果i=j因此EjTα=EjTE1α++EjTEkα=Ejβj=TEjα这对于每个αV自然都是成立的, 所以TEj=EjT. [译注: 以βi作为媒介实际上是不必要的, 在译者看来直接讨论更加清晰明了.]

现在我们将以不变直和分解 (与T交换的投影) 的语言刻画可对角化算子T. 这将有助于我们理解之后一些更加深刻的分解定理. 这种描述乍看上去可能比较复杂, 但是读者应该明白这是我们第一次得以瞥见一种非常有效的方法, 其可以将子空间, 基, 矩阵之类的相关问题规约为线性算子的代数计算. 在稍微熟悉之后, 这种推理方法的有效和优雅应该是显然的.

定理11.T是有限维向量空间V上的一个线性算子. 如果T是可对角化的并且c1,,ck是其不同的特征值, 那么存在V上的线性算子E1,,Ek满足
  1. T=c1E1++ckEk;
  2. I=E1++Ek;
  3. ij, 则EiEj=0;
  4. Ei2=Ei (即Ei是投影);
  5. Ei的像是与ci相关联的特征空间.
反过来, 如果存在k个不同的标量c1,,ckk个非零的线性算子E1,,Ek满足条件i, ii, iii, 那么T是可对角化的, c1,,ckT的不同的特征值, 并且条件iv和v也得到满足.
证明.T是可对角化的, 并以c1,,ck为不同的特征值. 令Wi是与ci相关联的特征空间. 正如我们之前所见,V=W1Wk.和定理9一样, 令E1,,Ek是与该分解对应的投影, 那么ii, iii, iv, v被满足是显然的. 为了验证i, 我们按照以下方式处理. 对于每个αV, 我们有α=E1α++Ekα于是Tα=TE1α++TEkα=c1E1α++ckEkα换言之, T=c1E1++ckEk.
现在设我们给定了一个以不同的标量ci为特征值的线性算子T以及非零的线性算子Ei满足i, ii, iii. 既然当ij时有EiEj=0, 那么我们给I=E1++Ek两边同乘Ei就立即得到了Ei2=Ei. 对于T=c1E1++ckEk两边右乘Ei, 那么我们有TEi=ciEi, 这表明了Ei的像之中的向量也在(TciI)的零空间里. 因为我们已经假定Ei0, 所以(TciI)的零空间中至少存在一个非零向量, 即ciT的一个特征值. 而且, 这些ci就是T的全部的特征值了. 这是因为如果c是任意的特征值, 那么TcI=(c1c)E1++(ckc)Ek于是若(TcI)α=0, 我们必有(cic)Eiα=0. 如果α不是零向量, 那么存在某个i使得Eiα0, 于是对于这个i我们有cic=0.
当然T是可对角化的, 因为我们已经表明了每个Ei的像中的向量都是T的特征向量, 而且I=E1++Ek告诉我们这些特征向量可以张成V. 剩下来我们需要说明的就只是(TciI)的零空间恰为Ei的像. 但这是显然的, 因为如果Tα=ciα, 那么j=1k(cjci)Ejα=0因此对于每个j(cjci)Ejα=0那么对于ji都有Ejα=0既然α=E1α++Ekα并且ji时有Ejα=0, 我们有α=Eiα, 即αEi的像之中.

定理9的一部分告诉我们, 对于一个可对角化算子T而言, 标量c1,,ck和算子E1,,Ek由条件i, ii, iii以及ci不同和Ei非零的事实所唯一确定. 这种分解T=c1E1++ckEk的一个令人愉快的特性在于如果g是域F上任意的多项式, 那么g(T)=g(c1)E1++g(ck)Ek.我们将证明的细节留给读者. 为了看明白其是如何得以证明的, 读者只需对于每个正整数r计算Tr, 例如T2=(i=1kciEi)(j=1kcjEj)=i=1kj=1kcicjEiEj=i=1kci2Ei2=i=1kci2Ei读者应该将这个结果与A为对角矩阵时的g(A)进行比较, 因为g(A)就是以g(A1,1),,g(An,n)为对角元素的对角矩阵.

我们特别想要指出当人们应用与c1,,ck相对应的Lagrange多项式pj=ij(xci)(cjci)时会发生什么. 我们有pj(ci)=δi,j, 这表明pj(T)=i=1kδi,jEi=Ej因此投影Ei不仅与T交换, 还是多项式应用于T的结果.

这样应用多项式于T的计算可以用来给出定理6的另一个证明, 定理6基于极小多项式刻画了可对角化的条件. 这个证明完全独立于我们先前所给出的.

如果T是可对角化的, T=c1E1++ckEk, 那么对于每个多项式gg(T)=g(c1)E1++g(ck)Ek因此g(T)=0当且仅当对于每个ig(ci)=0. 特别地, T的极小多项式为p=(xc1)(xck).

现在设T是以p=(xc1)(xck)为极小多项式的线性算子, 其中c1,,ck是标量域的不同元素. 我们构造Lagrange多项式pj=ij(xci)(cjci).回忆一下第4章, pj(ci)=δi,j以及对于任意次数小于等于(k1)的多项式, 我们有g=g(c1)p1++g(ck)pk.g为标量多项式1, 然后是多项式x, 我们得到1=p1++pk,x=c1p1++ckpk.(聪明的读者可能会注意到应用Lagrange插值于x可能并不合法, 因为k可能是1. 但是如果k=1, T是恒等算子的一个标量倍数, 因而是可对角化的.) 现在令Ej=pj(T), 根据Lagrange插值我们有I=E1++Ek,T=c1E1++ckEk.观察到如果ij, 那么pipj被极小多项式p整除, 因为每个cr都是其根. 因此, 我们可以推出EiEj=0,ij.我们还需要注意到另一个事实, 即对于每个iEi0. 这是因为pT的极小多项式, 而pi的次数小于p的次数, 所以不可能有pi(T)=0. 现在应用定理11, 我们可以得出T是可对角化的. [译注: 实际上, 即便没有Ei0, 也足够断言T是可对角化的. 这是因为E1,,Ek显然可以被同时对角化, 而恰恰在这个同时对角化的基下, 鉴于T=c1E1++ckEk, 直接就可以看出T的表示矩阵是对角矩阵. 之所以定理11需要额外的条件, 那是因为定理11作出了额外的断言.]

练习1.E是一个V的投影, TV上的一个线性算子. 证明E的像在T下不变当且仅当ETE=TE. 证明E的像与零空间均在T下不变当且仅当ET=TE.
练习2.T2上的线性算子, 其在标准有序基下的矩阵为[2102].W1是由ε1=(1,0)张成的2的子空间.
  1. 证明W1T下不变.
  2. 证明不存在子空间W2满足其在T下不变且与W1互补:2=W1W2.
练习3.T是有限维向量空间V上的一个线性算子, RT的像, NT的零空间, 证明RN线性无关当且仅当V=RN.
练习4.T是有限维向量空间V上的一个线性算子, 设V=W1Wk, 其中每个Wi都在T下不变, 令TiWi上导出的(限制)算子.
  1. 证明det(T)=det(T1)det(Tk).
  2. 证明T的特征多项式是T1,,Tk的特征多项式之积.
  3. 证明T的极小多项式是T1,,Tk的极小多项式的最小公倍式. (提示: 证明并使用与矩阵直和有关的相应事实.)
练习5.T是第6.2节例子3中的线性算子, 使用Lagrange多项式将表示矩阵A写成A=E1+2E2,E1+E2=I,E1E2=0的形式.
练习6.A是第6.3节例子5中的矩阵, 找出矩阵E1,E2,E3使得A=c1E1+c2E2+c3E3,E1+E2+E3=I,EiEj=0,ij.
练习7. 在练习5和6中, 注意到(对于每个i)与特征值ci相关联的特征空间由满足ji的各个矩阵Ej的列向量张成, 这是巧合吗? [译注: 练习本身很有可能是错误的, 应该将其改为"由Ei的列向量张成".]
练习8.TV上的一个线性算子, 其与每个V的投影交换, 关于T你能知道什么?
练习9.V是区间[1,1]上的实值连续函数的向量空间, We是由偶函数构成的子空间, Wo是由奇函数构成的子空间.
  1. 证明V=WeWo.
  2. 如果T是不定积分算子(Tf)(x)=0xf(t)dtWeWoT下不变吗?

第6.8节 准素分解定理

我们一直在尽力研究有限维空间V上的线性算子T, 通过将其分解为算子的直和, 这些算子在某种意义上是简单的. 在特定的情况下, 即T的极小多项式在标量域F上可以被分解为不同的首项系数为一的一次多项式之积时, 我们藉由特征值和特征向量的概念就可以完成分解. 那么对于一般情况下的T, 我们该怎么做呢? 如果我们想要通过特征值来研究T, 我们将面临两个问题. 第一个问题是T可能压根没有特征值, 这或许应该归咎于标量域, 即它不是代数闭域. 第二个问题是即便特征多项式在F上可以被完全分解为一次多项式之积, 仍然可能没有足够的特征向量以张成V, 这显然应该归咎于T. 我们用一个例子来刻画第二种情况. 现在给定F3 (F为任意的域) 上的线性算子T, 其在标准有序基下由A=[200120001]表示. A的特征多项式为(x2)2(x+1), 这也是A (或者T) 的极小多项式. 因此, T是不可对角化的. 读者可以看出来, 这种情况会发生是因为(T2I)的零空间仅是一维的. 另一方面, (T+I)的零空间和(T2I)2的零空间一起可以张成V, 前者是由ε3张成的子空间, 后者是由ε1ε2张成的子空间.

这或多或少将会是我们处理第二个问题的一般方法. 如果 (记住这是一个假设) T的极小多项式可以被分解为p=(xc1)r1(xck)rk其中c1,,ckF的不同元素, 那么我们可以证明空间V(TciI)ri,i=1,,k的零空间的直和. 这关于极小多项式p的假设等价于T是可三角化的 (定理5). 然而, 这条知识并不会帮到我们.

我们实际将要证明的定理比起刚才所描述的要更加一般, 因为它考虑的是极小多项式的素因子分解, 不论素因子本身的次数是否为一. 读者或许会发现思考素因子均为一次的特殊情形是有用的, 甚至是思考定理6的基于投影概念的证明, 定理6是这个定理更加特殊的情形.

定理12. 准素分解定理 (Primary Decomposition Theorem).T是域F上的有限维向量空间V上的线性算子, 设pT的极小多项式, 其分解为p=p1r1pkrk其中pi是域F上互异的首项系数为一的素多项式而ri是正整数. [译注: 原文用的是irreducible而不是prime, 但是如果追究第4章的定义的细节的话, 素多项式是更加适合的, 因为素多项式被定义为非标量的不可约多项式, 虽然即便在第4章原文中作者已经开始混淆这两个概念.] 令Wipiri(T),i=1,,k的零空间, 那么
  1. V=W1Wk;
  2. 每个Wi都在T下不变;
  3. 如果TiTWi上由限制导出的算子, 那么Ti的极小多项式为piri.
证明. 证明的想法如下. 如果i的直和分解是可能的, 那么我们该如何得到与之相关的投影E1,,Ek呢? 投影EiWi上是恒等算子, 在其他的Wj上则是零算子. 我们将寻找一个多项式hi使得hi(T)Wi上是恒等算子而在其他Wj上均是零算子, 于是h1(T)++hk(T)=I, 等等.
对于每个i, 令fi=ppiri=jipjrj.既然p1,,pk是不同的素多项式, 多项式f1,,fk是互素的 (第4章的定理10). 因此, 存在多项式g1,,gk满足i=1nfigi=1.我们也注意到, 如果ij, 那么fifj被多项式p整除, 因为fifj包含每个pmrm作为因子. 我们将说明多项式hi=figi表现得如同证明的第一段所述的那样.
Ei=hi(T)=fi(T)gi(T). 既然h1++hk=1p整除fifj,ij, 我们有E1++Ek=I,EiEj=0,ij.因此, 这些Ei是与某个V的直和分解相对应的投影. 我们想要证明Ei的像恰是子空间Wi. 显然Ei的像的每个向量都在Wi之中, 因为若αEi的像中, 那么α=Eiα, 于是piri(T)α=piri(T)Eiα=piri(T)fi(T)gi(T)α=(pgi)(T)α=0鉴于p是极小多项式. 反过来, 设αpiri(T)的零空间之中. 如果ji, 那么fjgjpiri整除, 于是(fjgj)(T)α=0, 即Ejα=0,ji. 但是, 这立刻就可以推出Eiα=α, 即αEi的像之中. 这就完成了陈述i的证明.
子空间Wi显然在T是不变的. [译注: 可以直接证明, 也可应用定理10.] 如果Ti是由T限制于Wi导出的算子, 那么显然有piri(Ti)=0, 因为根据定义, piri(T)在子空间Wi上的值均为0. 这表明Ti的极小多项式整除piri. 反过来, 令gTi的一个零化多项式, 即g(Ti)=0, 那么g(T)fi(T)=0. [译注: 这里没有那么平凡, 对于αWig(T)α=g(Ti)α=0, 而对于αWj,ji, 我们知道pjrj整除fi, 所以fi(T)α=0, 将这两者综合, 又因为VWi的直和, 我们才得到gfiT的一个零化多项式.] 因此, gfiT的极小多项式p整除, 即pirifi整除gfi. 很容易看出来piri整除g. [译注: 这是因为fi0.] 因此, piri也整除Ti的极小多项式, 那么Ti的极小多项式就是piri.
推论. 如果E1,,Ek是与T的准素分解相关的投影, 那么每个Ei都是应用某个多项式于T的值. 因此, 如果线性算子UT交换, 那么U与每个Ei交换, 即每个子空间Wi都在U下不变.

在定理12的证明的记号下, 让我们看看T的极小多项式是一次多项式之积的特殊情形, 即每个pi都具有形式pi=xci. 现在Ei的像是(TciI)ri的零空间Wi. 让我们置D=c1E1++ckEk. 根据定理11, D是一个可对角化算子, 我们将其称为T可对角化部分. 让我们看看算子N=TD. 因为T=TE1++TEk,D=c1E1++ckEk所以N=(Tc1I)E1++(TckI)Ek读者现在对于投影已经足够熟悉了, 可以看出N2=(Tc1I)2E1++(TckI)2Ek以及在一般情况下Nr=(Tc1I)rE1++(TckI)rEkr满足对于每个irri时, 我们有Nr=0, 因为算子(TciI)rEi的像上为0.

定义.N是向量空间V上的一个线性算子. 我们称N是幂零算子, 如果存在某个正整数r满足Nr=0.
定理13.T是域F上的有限维向量空间V上的一个线性算子, 设T的极小多项式在F上被分解为线性多项式之积, 那么存在V上的一个可对角化算子D和一个幂零算子N满足
  1. T=D+N;
  2. DN=ND.
可对角化算子D和幂零算子N由i和ii唯一确定, 并且它们都是某个多项式应用于T的结果.
证明. 我们刚才观察到我们可以将T写成D+N, 其中D是可对角化的而N是幂零算子. 并且, DN不仅是可交换的, 它们还是应用多项式于T的值. 现在设T=D+N, 其中D是可对角化的, N是幂零的, 并且DN=ND. 我们将证明D=DN=N.
既然DN可以交换而T=D+N, 我们可以看出DNT也是可以交换的. 因此, DN与任意应用多项式于T的结果交换. 现在我们有D+N=D+N或者说DD=NN并且这四个算子是互相交换的. 既然DD都是可对角化的并且是可交换的, 它们可以被同时对角化, 于是DD是可对角化的. 既然NN都是幂零的并且是可交换的, 算子(NN)也是幂零的. 这是因为, 使用NN可以交换的事实, 可以得到(NN)r=j=0r(rj)(N)rj(N)j于是当r足够大时这个(NN)r的表达式中的每一项都是0. (实际上, n维空间上的幂零算子的n次幂必然为0. 如果我们以上取r=2n, 那肯定是足够大了. 当然接着可以知道r=n已经足够大了, 但是这不能直接从上面的表达式看出来.) 现在我们知道可对角化算子DD也是幂零算子. 这样一个算子显然是零算子, 以下是论证. 作为幂零算子, 其极小多项式显然具有xr的形式. [译注: 根据定义, 存在正整数m满足Nm=0, 鉴于极小多项式整除零化多项式xm, 因而对于某个rm有极小多项式p=xr.] 但是既然它也是可对角化的, 极小多项式不可能有重复的根. 因此r=1, 或者说极小多项式就是x, 即DD=0. [译注: 在一般情况下, 极小多项式的次数大于等于一, 除非是零维向量空间上的算子, 但是本书除了第2章提及了这种可能性之外 (那里说仅包含零向量的平凡空间的维数要么不定义, 要么就定义为零), 其余地方提及有限维向量空间时都排除了零维的情况. 基本上所有结果包含零维的情况仍然成立, 只是许多证明需要打上补丁.] 于是, 我们可以看出D=DN=N.
推论.V是某个代数闭域 (例如复数域) 上的有限维向量空间, 那么V上的每个线性算子T都可以写成交换的可对角化算子D和幂零算子N之和. DN是唯一确定的, 并且每个都是应用多项式于T的结果.

从以上这些结果来看, 读者应该明白对于代数闭域上的向量空间上的线性算子的研究基本上可以归结为对于幂零算子的研究. 对于非代数闭域上的向量空间而言, 我们仍然需要寻找特征值和特征向量的某种替代物. 有趣的是, 这两个问题可以被同时处理, 而这就是我们在下一章所要做的事情.

为了给本节作结, 我们想要举一个例子, 它刻画了准素分解定理的某些想法. 之所以我们选择把它放在本节的最后, 是因为它处理微分方程, 并不是纯粹的线性代数.

例子14. 在准素分解定理中, 向量空间V是有限维的是不必要的条件. 另外, 对于i和ii而言, pT的极小多项式也是不必要的. 如果T是任意向量空间上的线性算子, 如果存在一个首项系数为一的多项式p满足p(T)=0, 那么定理12的i和ii在我们之前给出的证明下对于T也是成立的. [译注: 注意到定理9并不局限于有限维的情形.]
n是一个正整数, 令V是满足微分方程dnfdtn+an1dn1fdtn1++a1dfdt+a0f=0的所有实轴上的n次连续可微函数f构成的空间, 其中a0,,an1是一些固定的常数. 如果用Cn表示n次连续可微函数构成的空间, 那么作为这个微分方程的解空间的VCn的子空间. 如果D代表微分算子而p是多项式p=xn+an1xn1++a1x+a0那么V是算子p(D)的零空间, 因为这个微分方程就是在说p(D)f=0. 因此, VD下不变. 现在让我们将D视为子空间V上的一个线性算子, 那么p(D)=0.
如果我们讨论的是复值可微函数, 那么CnV是复向量空间而a0,,an1可以是任意的复数. 现在我们将p写成p=(xc1)r1(xck)rk其中c1,,ck是不同的复数. 如果Wj(DcjI)rj的零空间, 那么定理12告诉我们V=W1Wk.换言之, 如果f满足这个微分方程, 那么f可以被唯一地表示为f=f1++fk的形式, 其中fj满足微分方程(DcjI)rjfj=0. 因此, 对于这个大的微分方程的解的研究可以被规约为对于具有形式(DcI)rf=0的小的微分方程的解空间的研究. 这种规约是藉由线性代数的一般方法实现的, 即准素分解定理.
为了刻画这个小的微分方程的解空间, 我们必须要了解一些关于微分方程的知识. 也就是说, 除了D是线性算子的事实之外, 我们必须还要了解一些关于D的其他性质. 然而, 实际上并不需要太多. 很容易对于r进行归纳得到如果fCr, 那么(DcI)rf=ectDr(ectf)也就是说,dfdtcf(t)=ectddt(ectf), 等等.因此, (DcI)rf=0当且仅当Dr(ectf)=0. 一个满足Dr(g)=0的函数g, 即drg/dtr=0, 必然是一个次数小于等于(r1)的多项式函数 [译注: 严格说来, 次数是定义在多项式而非多项式函数上的, 但是这里的意思应该是明了的, 即由次数小于等于(r1)的多项式导出的函数, 并且在这种意义下次数对于这里的多项式函数是良定的]:g(t)=b0+b1t++br1tr1.于是, (DcI)rf=0当且仅当f具有形式f(t)=ect(b0+b1t++br1tr1).据此, "函数"ect,tect,,tr1ect可以张成这个小的微分方程的解空间. 鉴于1,t,,tr1是线性无关的函数并且指数函数 (exponential function) 没有零点, 这r个函数tject,0jr1构成了解空间的一个基.
回到本来的微分方程上去, 即p(D)f=0,p=(xc1)r1(xck)rk我们可以看到tmecjt,0mrj1,1jk构成了解空间的一个基. 特别地, 解空间是有限维的, 其维数等于多项式p的次数.

译者注记. 以上的例子中的推理过程存在不甚严格的步骤, 即微分算子D并非严格意义上的Cn上的线性算子, 因为n次连续可微函数的导数并不一定仍然是n次连续可微的. 因此, 鉴于p(D)D交换, 所以p(D)的零空间在D下不变这样的推理也不能称得上令人满意. 当然, 如果将我们所考虑的函数类限制于无穷可微的C的情形, 上述的推理倒是相当严密, 结果也没有改变.

练习1.T3上的一个线性算子, 其在标准有序基下由矩阵[6324121053]表示. 将T的极小多项式p表示为p=p1p2的形式, 其中p1p2是实数域上首项系数为一的素多项式. 令Wipi(T)的零空间, 找出W1W2各自的一个基𝔅i. 如果TiTWi上由限制导出的算子, 求出Ti在基𝔅i下的矩阵.
练习2.T3上的一个线性算子, 其在标准有序基下由矩阵[311221220]表示. 证明3上存在可对角化算子D和幂零算子N满足T=D+NDN=ND. 找出DN在标准基下的矩阵. (只需要对于这个特殊情形重复定理12的证明就够了.)
练习3. 如果V是域F上所有次数小于等于n的多项式构成的向量空间, 证明V上的微分算子是幂零的.
练习4.T是有限维向量空间V上的一个线性算子, 其特征多项式为f=(xc1)d1(xck)dk而极小多项式为p=(xc1)r1(xck)rk.Wi(TciI)ri的零空间.
  1. 证明Wi是集合{αV|存在正整数m满足(TciI)mα=0} (m可以依赖于α).
  2. 证明Wi的维数是di. (提示: 如果TiTWi上通过限制导出的算子, 那么TiciI是幂零的; 因而TiciI的特征多项式必然是xei, 其中eiWi的维数 (证明?); 于是Ti的特征多项式为(xci)ei; 现在使用T的特征多项式是Ti的特征多项式之积的事实来说明ei=di.)
练习5.V是复数域上的一个有限维向量空间. 令TV上的一个线性算子, DT的可对角化部分. 证明如果g是复数域上任意的多项式, 那么g(T)的可对角化部分是g(D).
练习6.V是域F上的一个有限维向量空间, TV上的一个线性算子且rank(T)=1. 证明T要么是可对角化的, 要么是幂零的, 但不可兼任.
练习7.V是域F上的一个有限维向量空间, TV上的一个线性算子. 设TV上的每个可对角化算子交换, 证明T是恒等算子的标量倍数.
练习8.V是域F上的n×n矩阵的空间, A是域F上一个固定的n×n矩阵. 我们定义V上的线性算子TA(B)=ABBA. 证明如果A是一个幂零矩阵, 那么TA是一个幂零算子. [译注: 参照幂零算子的定义, 可以定义幂零矩阵.]
练习9. 给出这样的一个例子, 两个4×4的幂零矩阵具有相同的极小多项式 (它们的特征多项式必然也是相同的), 但是并不相似.
练习10.T是有限维向量空间V上的一个线性算子, p=p1r1pkrkT的极小多项式, V=W1WkT的准素分解, 即Wipiri(T)的零空间, WV任意的在T下不变的子空间, 证明W=(WW1)(WW2)(WWk).
练习11. 以下对于定理13的证明有何问题? 设T的极小多项式是线性因子之积. 那么, 根据定理5, T是可三角化的. 令𝔅是一个使得A=[T]𝔅为上三角矩阵的有序基. 令D是以A1,1,,An,n为对角线元素的对角矩阵, 那么A=D+N, 其中N是一个严格上三角矩阵. 显然N是幂零的. [译注: 严格上三角矩阵指的是对角线元素均为零的上三角矩阵.]
练习12. 如果你已经思考过了练习11, 在你观察到定理7告诉你的关于T的可对角化部分和幂零部分的东西之后, 再次思考这个练习.
练习13.TV上的一个线性算子, 它的极小多项式具有pn的形式, 其中p在标量域上是不可约的. 证明存在αV使得αT零化子为pn.
练习14. 使用准素分解定理和练习13的结果证明以下结论. 如果T是有限维向量空间V上任意的线性算子, 那么存在αV使得αT零化子等于T的极小多项式.
练习15. 如果Nn维向量空间V上的一个幂零线性算子, 那么N的特征多项式为xn.