线性代数 前言 我们编写本书的初衷是为Massachusetts Institute of Technology的本科线性代数课程提供一本教材. 这门课程是为数学专业的大三学生设计的, 不过实际上有四分之三的学生来自其他科学和技术学科, 并且从大一新生到研究生都有. 时至今日, 这对于本书在M.I.T.的受众刻画仍然大体上是准确的. 自第一版出版以来的十年间, 线性代数课程在全国范围内得到了普及, 本书的作者之一也有机会在Brandeis University, Washington University (St. Louis), 以及University of California (Irvine)为各种各样的群体讲授基本材料.
第1章 线性方程 第1.1节 域 我们假定读者熟悉实数和复数的初等代数. 对于本书的很大一部分, 数字的代数性质可从以下所列加法和乘法的性质简单推导出来. 我们令F 代表实数集或复数集.
加法是交换的,x + y = y + x 对于所有F 中的x 和y 成立. 加法是结合的,x + ( y + z ) = ( x + y ) + z 对于所有F 中的x , y 和z 成立. F 中存在唯一的元素0 (零) 满足x + 0 = x 对于每个F 中的x 成立.对于每个F 中的x 存在唯一的F 中的元素( − x ) 满足x + ( − x ) = 0 与之对应. 乘法是交换的,x ⁢ y = y ⁢ x 对于所有F 中的x 和y 成立. 乘法是结合的,x ⁢ ( y ⁢ z ) = ( x ⁢ y ) ⁢ z 对于所有F 中的x , y 和z 成立. F 中存在唯一的非零元素1 (幺) 满足x ⁢ 1 = x 对于每个F 中的x 成立.对于每个F 中非零的x 存在唯一的F 中的元素x − 1 (或1 / x ) 满足x ⁢ x − 1 = 1 与之对应. 乘法对于加法分配, 即x ⁢ ( y + z ) = x ⁢ y + x ⁢ z 对于所有F 中的x , y 和z 成立. 假定我们拥有一个包含对象x , y , z , … 的集合F 和如下两种F 上的运算. 第一种运算, 被称为加法, 联系每对F 中的x 和y 以F 中的元素( x + y ) . 第二种运算, 被称为乘法, 联系每对F 中的x 和y 以F 中的元素x ⁢ y . 若是这两种运算满足如上从1到9的条件, 那么集合F 以及此两种运算被合称为一个域. 粗略说来, 一个域就是一个集合带有某些运算, 这些运算表现得就像通常的数字加减乘除一样, 在满足如上九条代数法则的意义下. 带有通常的加法和乘法运算, 复数集ℂ 是一个域, 实数集ℝ 也是一个域.
对于本书的大部分内容而言, 我们使用的"数字"可以来源于任意的域. 为了允许这种一般性, 我们将使用术语"标量"而不是"数字". 如果读者总是认为标量域是一个复数域的子域, 他也不会损失太多. 域ℂ 的一个子域是一个复数的集合F , 其在通常的加法和乘法下自身就是一个域. 这意味着0 和1 在F 之中, 并且如果x 和y 是F 的元素, 那么( x + y ) , − x , x ⁢ y 和x − 1 (如果x ≠ 0 ) 也是F 的元素. [译注: 实际上这给出了子域的判则.] 这样的子域的一个例子是实数域ℝ , 因为如果我们把实数当作是虚部为0 的复数, 复数域的0 和1 是实数, 并且如果x 和y 是实数, 那么( x + y ) , − x , x ⁢ y 和x − 1 (如果x ≠ 0 ) 也是实数. 我们讨论子域的要义如下, 若是我们处理来源于某个特定子域的标量, 那么施行加减乘除不会将我们带出给定的子域.
例子1. 正整数1 , 2 , 3 , … 的集合不是一个ℂ 的子域, 出于各种原因. 例如, 0 不是正整数, 没有正整数n 的加法逆元− n 是正整数. 除了1 之外, 没有正整数n 的乘法逆元1 / n 是正整数.
例子2. 整数… , − 2 , − 1 , 0 , 1 , 2 , … 的集合不是ℂ 的子域, 因为除了0 和1 , 没有整数的乘法逆元是一个整数. 整数集在通常的加法和乘法下除了条件8其余都满足.
例子3. 有理数集是复数域的子域. 整数集里并不可能的除法, 在有理数集里是可能的. 有兴趣的读者应该验证一下每个复数域的子域都必须包含所有的有理数.
例子4. 所有具有x + y ⁢ 2 形式的数字构成的集合, 其中x 和y 是有理数, 是一个ℂ 的子域. 我们将其留给读者进行验证.
在本书的例子和练习中, 读者应该将其中的域当成是复数域的某个子域, 除非另有说明这个域更加一般. 我们不想对于该点多加讨论. 然而, 我们应该指出我们为什么采用这样的约定. 如果F 是一个域, 有限多个单位元1 加起来有可能得到0 (见第1.2节练习5):1 + 1 + ⋯ + 1 = 0 复数域并不会发生这样的事情 (或者在任何复数域的子域). 如果在域F 中的确发生了这样的事情, 那么使得有限个1 加起来等于0 所用的1 的最少数目被称为域F 的特征. 若是没有这样的事情, (出于某种奇怪的原因) 我们就称域F 的特征为零. 经常的情况是, 我们假定F 是ℂ 的子域是希望保证F 的特征为零. 不过, 在初次接触线性代数的时候, 通常最好还是别太担心关于域的特征的事情.
第1.2节 线性方程组 设F 是一个域. 我们考虑找出满足下列条件的n 个标量 (即F 的元素) x 1 , … , x n 的问题.{ A 1 , 1 ⁢ x 1 + A 1 , 2 ⁢ x 2 + ⋯ + A 1 , n ⁢ x n = y 1 A 2 , 1 ⁢ x 1 + A 2 , 2 ⁢ x 2 + ⋯ + A 2 , n ⁢ x n = y 2 ⋮ ⋮ ⋮ ⋮ A m , 1 ⁢ x 1 + A m , 2 ⁢ x 2 + ⋯ + A m , n ⁢ x n = y m 其中y 1 , … , y m 和A i , j , 1 ≤ i ≤ m , 1 ≤ j ≤ n 是给定的F 的元素. 我们称其为具m 个方程n 个未知元的线性方程组. 任何满足每个方程的由F 的元素构成的n 元组( x 1 , … , x n ) 都被称为方程组的一个解. 如果y 1 = ⋯ = y m = 0 , 我们称该方程组是齐次的, 或者说每个方程是齐次的.
或许寻找线性方程组的解的最根本的技术就是消元法. 我们可以对于以下齐次方程组刻画这种方法.{ 2 ⁢ x 1 − x 2 + x 3 = 0 x 1 + 3 ⁢ x 2 + 4 ⁢ x 3 = 0 如果我们加( − 2 ) 倍的第二个方程到第一个方程上去, 就得到了− 7 ⁢ x 2 − 7 ⁢ x 3 = 0 或x 2 = − x 3 . 如果加3 倍的第一个方程到第二个方程上去, 就得到了7 ⁢ x 1 + 7 ⁢ x 3 = 0 或x 1 = − x 3 . 因此, 我们总结道, 如果( x 1 , x 2 , x 3 ) 是一个解, 那么x 1 = x 2 = − x 3 . 反过来, 我们可以验证每个这样的三元组都是一个解, 于是解集就由所有的三元组( − a , − a , a ) 构成.
我们通过"消去未知元"找到了方程组的解, 也就是通过给方程乘上标量再加起来的方式产生有些x j 不存在的方程. 我们希望形式化这个过程一点, 以理解为什么这种方法有效, 并按照秩序井然的方式来施行解方程组所必要的计算.
对于这样的一般性方程组, 假定我们挑选m 个标量c 1 , … , c m , 将第j 个方程乘上c j 并将它们加起来, 我们就得到了方程( c 1 ⁢ A 1 , 1 + ⋯ + c m ⁢ A m , 1 ) ⁢ x 1 + ⋯ + ( c 1 ⁢ A 1 , n + ⋯ + c m ⁢ A m , n ) ⁢ x n = c 1 ⁢ y 1 + ⋯ + c m ⁢ y m 这样的方程被我们称为该线性方程组的线性组合. 显然, 每个方程组的解也是这个新的方程的解. 这就是消元过程的根本想法. 如果我们有了另外一个线性方程组{ B 1 , 1 ⁢ x 1 + B 1 , 2 ⁢ x 2 + ⋯ + B 1 , n ⁢ x n = z 1 B 2 , 1 ⁢ x 1 + B 2 , 2 ⁢ x 2 + ⋯ + B 2 , n ⁢ x n = z 2 ⋮ ⋮ ⋮ ⋮ B k , 1 ⁢ x 1 + B k , 2 ⁢ x 2 + ⋯ + B k , n ⁢ x n = z k 其每个方程都是原本的线性方程组的方程的线性组合, 那么每个原本的线性方程组的解也是这个新的线性方程组的解. 当然, 新的方程组的解不一定是原本方程组的解. 但要是原本方程组的每个方程都是新的线性方程组的方程的线性组合的话, 这种事情就不会发生. 我们称两个线性方程组是等价的, 如果它们的每个方程都能表示为另一个线性方程组的方程的线性组合.
定理1. 等价的线性方程组拥有相同的解.
欲使消元过程在线性方程组求解中发挥效用, 人们就必须找出产生更容易求解的等价线性方程组的手段. 接下来的一节, 我们将讨论其中一种方法.
练习1. 验证例子4的集合是ℂ 的子域.
练习2. 令F 是复数域. 下面两个线性方程组等价吗? 如果是, 就互相表示成线性组合.{ x 1 − x 2 = 0 2 ⁢ x 1 + x 2 = 0 { 3 ⁢ x 1 + x 2 = 0 x 1 + x 2 = 0
练习3. 像练习2一样测试以下的线性方程组.{ − x 1 + x 2 + 4 ⁢ x 3 = 0 x 1 + 3 ⁢ x 2 + 8 ⁢ x 3 = 0 1 2 ⁢ x 1 + x 2 + 5 2 ⁢ x 3 = 0 { x 1 − x 3 = 0 x 2 + 3 ⁢ x 3 = 0
练习4. 像练习2一样测试以下的线性方程组.{ 2 ⁢ x 1 + ( − 1 + i ) ⁢ x 2 + x 4 = 0 3 ⁢ x 2 − 2 ⁢ i ⁢ x 3 + 5 ⁢ x 4 = 0 { ( 1 + i 2 ) ⁢ x 1 + 8 ⁢ x 2 − i ⁢ x 3 − x 4 = 0 2 3 ⁢ x 1 − 1 2 ⁢ x 2 + x 3 + 7 ⁢ x 4 = 0
练习5. 令F 是恰包含两个元素0 和1 的集合. 由以下表格定义加法和乘法:+ 0 1 0 0 1 1 1 0 ⋅ 0 1 0 0 0 1 0 1 验证集合F 带有这两种运算是一个域.
练习6. 证明若两个具二未知元的线性方程组具有相同的解, 那么它们等价.
练习7. 证明每个ℂ 的子域都包含所有的有理数.
练习8. 证明每个特征为零的域都包含一个有理数域的复制.
第1.3节 矩阵和初等行变换 读者不可能没注意到, 在构造线性方程的线性组合时, 未知元x 1 , … , x n 是没有必要写下来的, 因为你实际上只是根据系数A i , j 和常元y i 进行计算. 现在我们将线性方程组简写成A ⁢ X = Y 其中A = [ A 1 , 1 ⋯ A 1 , n ⋮ ⋮ A m , 1 ⋯ A m , n ] , X = [ x 1 ⋮ x n ] , Y = [ y 1 ⋮ y m ] 我们将A 称为系数矩阵. 严格说来, 上面显示的矩形阵列不是矩阵, 而是矩阵的表示. 一个域F 上的m × n 矩阵是一个从序对( i , j ) , 1 ≤ i ≤ m , 1 ≤ j ≤ n 的集合到域F 的函数. [译注: 或许读者会对于这句话感到迷惑, 这是因为中文将matrix翻译成矩阵.] 矩阵A 的元素即标量A ⁡ ( i , j ) = A i , j , 并且往往描述矩阵的最简单方式是将其元素写成如上m 行n 列的矩形阵列的形式. 因此, 上面的X 是 (或者说定义了) 一个n × 1 的矩阵, 而Y 是一个m × 1 的矩阵. 暂时, A ⁢ X = Y 只是一种简记法. 之后, 我们将定义矩阵乘法, 那么它的意思就是Y 是A 和X 之积.
我们现在希望考虑与构造线性方程的线性组合有关的矩阵A 的行上的操作. 我们将我们的注意力限制在域F 上的m × n 矩阵A 的三种初等行变换上:
给矩阵A 的一行乘上一个非零的标量c ; 将A 的第r 行替换以第r 行加上c 乘上第s 行, 其中c 是任意的标量, 并且r ≠ s ; 交换A 的第r 行和第s 行. 因此, 一个初等行变换是一个特别的函数
e 联系每个
m × n 矩阵
A 以一个
m × n 的矩阵
e ⁡ ( A ) . 我们可以精确地将三种
e 刻画如下:
e ⁡ ( A ) i , j = A i , j 如果i ≠ r , e ⁡ ( A ) r , j = c ⁢ A r , j .e ⁡ ( A ) i , j = A i , j 如果i ≠ r , e ⁡ ( A ) r , j = A r , j + c ⁢ A s , j .e ⁡ ( A ) i , j = A i , j 如果i 异于r 和s , e ⁡ ( A ) r , j = A s , j , e ⁡ ( A ) s , j = A r , j .在定义
e ⁡ ( A ) 时,
A 的列数并不重要, 但
A 的行数是关键的. 例如, 我们不得不担心能否交换一个
5 × 5 矩阵的第
5 行和第
6 行. 为了避免这种复杂性, 我们约定一个初等行变换
e 定义在由所有域
F 的
m × n 矩阵构成的类之上, 其中
m 是固定的而
n 是任意的. 换句话说, 一个特定的
e 定义在由所有域
F 上的
m 行矩阵构成的类之上.
之所以我们将我们自己限制于这三种简单的行变换上, 是因为既已施行这样的e 于A 之上后, 我们能够通过在e ⁡ ( A ) 上施行一个类似的操作来恢复A .
定理2. 对于每个初等行变换e , 存在一个与之对应的具有相同类型的初等行变换e 1 满足e 1 ⁡ ( e ⁡ ( A ) ) = e ⁡ ( e 1 ⁡ ( A ) ) = A . 换言之, 初等行变换的逆变换存在, 并与之具有相同的类型. [译注: 显然不仅存在, 也是唯一的.]
证明. 设e 是给第r 行乘上非零标量c 的变换, 令e 1 为给第r 行乘上c − 1 的变换. 设e 是将第r 行替换以第r 行加上c 乘上第s 行的变换, 其中r ≠ s , 令e 1 为将第r 行替换以第r 行加上( − c ) 乘上第s 行的变换. 设e 是交换第r 行和第s 行的变换, 令e 1 = e . 每种情形之下, 显然有
e 1 ⁡ ( e ⁡ ( A ) ) = e ⁡ ( e 1 ⁡ ( A ) ) = A 对于每个
A 成立.
◻
定义. 如果A 和B 是域F 上的m × n 矩阵, 我们称B 行等价于A , 如果B 可由A 通过 (有限的) 一系列初等行变换得到. [译注: 原则上包含0步, 尽管包不包含均不影响结果, 因为本身初等行变换就包含恒等变换.]
使用定理2, 容易验证以下事实. 每个矩阵都行等价于自身. 如果B 行等价于A , 那么A 行等价于B . 如果B 行等价于A 而C 行等价于B , 那么C 行等价于A . 换句话说, 行等价是等价关系 (见附录).
定理3. 如果A 和B 是域F 上行等价的m × n 矩阵, 那么齐次线性方程组A ⁢ X = 0 和B ⁢ X = 0 拥有相同的解.
证明. 设经过一系列变换我们从
A 得到了
B :
A = A 0 → A 1 → ⋯ → A k = B . 只需要证明线性方程组
A j ⁢ X = 0 和
A j + 1 ⁢ X = 0 拥有相同的解就够了, 即一次初等行变换不改变解集.
因此, 设
B 是由
A 通过一次初等行变换得到的, 不论它是三种变换的哪一种, 线性方程组
B ⁢ X = 0 的每个方程都是线性方程组
A ⁢ X = 0 的方程的线性组合. 鉴于初等行变换的逆也是初等行变换, 每个线性方程组
A ⁢ X = 0 的方程也是线性方程组
B ⁢ X = 0 的方程的线性组合. 于是, 两个线性方程组是等价的. 根据定理1, 它们拥有相同的解.
◻
例子5. 设F 是有理数域, 并且A = [ 2 − 1 3 2 1 4 0 − 1 2 6 − 1 5 ] . 我们将施行一系列初等行变换于A , 并在箭头上标示出变换的类型.[ 2 − 1 3 2 1 4 0 − 1 2 6 − 1 5 ] → 2 [ 0 − 9 3 4 1 4 0 − 1 2 6 − 1 5 ] → 2 [ 0 − 9 3 4 1 4 0 − 1 0 − 2 − 1 7 ] → 1 [ 0 − 9 3 4 1 4 0 − 1 0 1 1 2 − 7 2 ] → 2 [ 0 − 9 3 4 1 0 − 2 13 0 1 1 2 − 7 2 ] → 2 [ 0 0 15 2 − 55 2 1 0 − 2 13 0 1 1 2 − 7 2 ] → 1 [ 0 0 1 − 11 3 1 0 − 2 13 0 1 1 2 − 7 2 ] → 2 [ 0 0 1 − 11 3 1 0 0 17 3 0 1 1 2 − 7 2 ] → 2 [ 0 0 1 − 11 3 1 0 0 17 3 0 1 0 − 5 3 ] 上面的一系列初等行变换告诉我们{ 2 ⁢ x 1 − x 2 + 3 ⁢ x 3 + 2 ⁢ x 4 = 0 x 1 + 4 ⁢ x 2 − x 4 = 0 2 ⁢ x 1 + 6 ⁢ x 2 − x 3 + 5 ⁢ x 4 = 0 和{ x 3 − 11 3 ⁢ x 4 = 0 x 1 + 17 3 ⁢ x 4 = 0 x 2 − 5 3 ⁢ x 4 = 0 拥有相同的解. 对于第二个线性方程组, 显然如果我们赋任意的有理数值c 给x 4 就得到了一个解( − 17 3 ⁢ c , 5 3 ⁢ c , 11 3 ⁢ c , c ) , 并且每个解都具有这样的形式.
例子6. 设F 是复数域并且A = [ − 1 i − i 3 1 2 ] 施行行变换的时候通常把几个类型2的变换组合起来是方便的. 把这点记在心中,[ − 1 i − i 3 1 2 ] → 2 [ 0 2 + i 0 3 + 2 ⁢ i 1 2 ] → 1 [ 0 1 0 3 + 2 ⁢ i 1 2 ] → 2 [ 0 1 0 0 1 0 ] 因此线性方程组{ − x 1 + i ⁢ x 2 = 0 − i ⁢ x 1 + 3 ⁢ x 2 = 0 x 1 + 2 ⁢ x 2 = 0 只有平凡解x 1 = x 2 = 0 .
例子5和例子6里我们显然不是在随意施行行变换. 我们对于行变换的选择是由想要像消去未知元解线性方程组一样化简系数矩阵的欲望驱使的. 现在让我们给出一个形式化的定义, 对于我们想要抵达什么类型的矩阵.
定义. 一个
m × n 矩阵
R 被称为行简化的, 如果
每个R 的非零行的第一个非零元素是1 ; 每个包含首非零元的列, 其余的元素均为0 . 例子7. 一个行简化矩阵的例子是n × n 的恒等矩阵I . 这是由I i , j = δ i , j = { 1 , 如果 i = j 0 , 如果 i ≠ j 定义的矩阵. 目前是我们第一次使用Kronecker delta, 之后也将经常用到.
例子5和例子6最终呈现的矩阵都是行简化矩阵. 以下是两个不是行简化矩阵的例子:[ 1 0 0 0 0 1 − 1 0 0 0 1 0 ] [ 0 2 1 1 0 − 3 0 0 0 ] 第二个矩阵没有满足条件a, 因为第一行的首非零元不是1 . 第一个矩阵满足了条件a, 但是第三列没有满足条件b.
现在我们将证明我们可以从任意的矩阵出发, 通过有限数目的初等行变换, 得到一个行简化矩阵. 结合定理3, 这给我们提供了一个解决线性方程组的有效工具.
定理4. 每个域F 上的m × n 矩阵都行等价于一个行简化矩阵.
证明. 令
A 是一个域
F 上的
m × n 矩阵. 如果
A 的第一行的每个元素都是
0 , 那么只考虑第一行条件a就是成立的. 如果第一行有非零的元素, 令
k 是满足
A 1 , j ≠ 0 的正整数
j 中最小的. 给第一行乘上
A 1 , k − 1 , 那么第一行就满足条件a了. 现在对于每个
i ≥ 2 , 将第一行乘上
( − A i , k ) 加到第
i 行. 现在第一行的首非零元出现在第
k 列, 其值为
1 , 并且第
k 列的每个其他元素都是
0 .
现在考虑上面得到的矩阵. 如果第二行的每个元素都是
0 , 我们就什么也不做. 如果第二行有异于零的元素, 就给第二行乘上一个标量使其首非零元为
1 . 在第一行首非零元位于第
k 列的情况下, 第二行的首非零元不可能出现在第
k 列, 设其出现在第
k ′ 列. 通过给第二行乘上合适的标量加到其他行上去, 就能使得第
k ′ 列除了第二行之外都是
0 . 重要的是注意到以下这点, 在施行这些操作的时候, 我们不会改变第一行处于第
1 , … , k 列的元素, 也不会改变第
k 列的元素. 当然, 如果第一行全是零, 那么这些操作就不会影响第一行.
以如上方式逐行操作, 显然在有限步内我们能够抵达一个行简化矩阵.
◻
练习1. 找出下列线性方程组的所有解.{ ( 1 − i ) ⁢ x 1 − i ⁢ x 2 = 0 2 ⁢ x 1 + ( 1 − i ) ⁢ x 2 = 0
练习2. 如果A = [ 3 − 1 2 2 1 1 1 − 3 0 ] 通过行简化A 以找出A ⁢ X = 0 的所有解.
练习3. 如果A = [ 6 − 4 0 4 − 2 0 − 1 0 3 ] 找出A ⁢ X = 2 ⁢ X 和A ⁢ X = 3 ⁢ X 的解. (符号c ⁢ X 表示一个矩阵, 其每个元素都是c 乘上相对应的X 的元素.)
练习4. 找出一个与下列矩阵行等价的行简化矩阵.A = [ i − ( 1 + i ) 0 1 − 2 1 1 2 ⁢ i − 1 ]
练习5. 证明下列两个矩阵不是行等价的.[ 2 0 0 a − 1 0 b c 3 ] [ 1 1 2 − 2 0 − 1 1 3 5 ]
练习6. 令A = [ a b c d ] 是一个复数域上的2 × 2 矩阵. 设A 是行简化的, 并且a + b + c + d = 0 . 证明恰存在三个这样的矩阵.
练习7. 证明交换矩阵两行的操作可由其他两种操作达成.
练习8. 考虑线性方程组
A ⁢ X = 0 , 其中
A = [ a b c d ] 是一个域
F 上的
2 × 2 矩阵. [译注: 意即线性方程组就是域
F 上的.] 证明以下陈述.
如果A 的每个元素都是0 , 那么每个序对( x 1 , x 2 ) 都是A ⁢ X = 0 的解. 如果a ⁢ d − b ⁢ c ≠ 0 , 那么线性方程组A ⁢ X = 0 仅有平凡解x 1 = x 2 = 0 . 如果a ⁢ d − b ⁢ c = 0 并且某个A 的元素异于0 , 那么存在一个解( x 1 0 , x 2 0 ) 满足, ( x 1 , x 2 ) 是一个解当且仅当存在标量y 满足x 1 = y ⁢ x 1 0 , x 2 = y ⁢ x 2 0 . 第1.4节 行简化阶梯矩阵 到目前为止, 我们对于线性方程组的处理是由找出方程组的解的尝试推动的. 在第1.3节, 我们建立了找出这些解的一种标准化技术. 现在我们希望获得一些稍微理论一点的信息, 出于这样的目的, 走得比行简化矩阵更远一点是方便的.
定义. 一个
m × n 的矩阵
R 被称为一个行简化阶梯矩阵, 如果
R 是行简化的;R 的每个元素全为0 的行在具有非零元素的行的下方;如果第1 , … , r 行是R 的非零行, 并且如果第i 行的首非零元出现在第k i 列, i = 1 , … , r , 那么k 1 < k 2 < ⋯ < k r . 人们也可以按照以下方式刻画m × n 的行简化阶梯矩阵R . 要么R 的每个元素都是0 , 要么存在一个正整数r , 1 ≤ r ≤ m , 以及r 个正整数k 1 , … , k r , 1 ≤ k i ≤ n 满足
对于i > r , R i , j = 0 , 并且R i , j = 0 如果j < k i . R i , k j = δ i , j , 1 ≤ i ≤ r , 1 ≤ j ≤ r .k 1 < ⋯ < k r .例子8. 两个行简化阶梯矩阵的例子分别是n × n 的恒等矩阵和m × n 的零矩阵0 m , n , 其每个元素都是零. 当然读者构造出其他例子也没有困难, 不过这里我们给出一个非平凡的例子.[ 0 1 − 3 0 1 2 0 0 0 1 2 0 0 0 0 0 ]
定理5. 每个m × n 的矩阵A 都行等价于一个行简化阶梯矩阵.
证明. 我们知道
A 行等价于一个行简化矩阵, 所有我们需要做的只是观察到通过有限次的行交换我们可以将行简化矩阵变成行简化阶梯矩阵.
◻
在例子5和例子6中我们看到了在求解齐次线性方程组时行简化矩阵的重要性. 现在让我们来简要讨论方程组R ⁢ X = 0 , 其中R 是一个行简化阶梯矩阵. 令第1 , … , r 行是R 的非零行, 并设第i 行的首非零元出现在第k i 列. 于是, 方程组R ⁢ X = 0 包含r 个非平凡方程. 并且, 未知元x k i 仅会出现在第i 行. 如果我们用u 1 , … , u n − r 代表异于x k 1 , … , x k r 的( n − r ) 个未知元, 那么R ⁢ X = 0 的r 个非平凡方程具有如下的形式.{ x k 1 + ∑ j = 1 n − r C 1 , j ⁢ u j = 0 ⋮ ⋮ x k r + ∑ j = 1 n − r C r , j ⁢ u j = 0 线性方程组R ⁢ X = 0 的所有解都可以由给u 1 , … , u n − r 赋任意的值然后计算相对应的x k 1 , … , x k r 的值获得. 例如, 如果R 是例子8展示的那个矩阵, 那么r = 2 , k 1 = 2 , k 2 = 4 , 并且R ⁢ X = 0 的两个非平凡方程是{ x 2 − 3 ⁢ x 3 + 1 2 ⁢ x 5 = 0 x 4 + 2 ⁢ x 5 = 0 或者写成 { x 2 = 3 ⁢ x 3 − 1 2 ⁢ x 5 x 4 = − 2 ⁢ x 5 于是我们可以给x 1 , x 3 和x 5 赋任意的值, 比如x 1 = a , x 3 = b , x 5 = c , 然后就得到了解( a , 3 ⁢ b − 1 2 ⁢ c , b , − 2 ⁢ c , c ) .
让我们再观察到与线性方程组R ⁢ X = 0 有关的另一个事实. 如果R 的非零行数r 小于n , 那么方程组R ⁢ X = 0 具有一个非平凡的解, 即一个解( x 1 , … , x n ) , 其中不是每个x j 都是0 . 这是因为, 既然r < n , 我们可以挑选一个x j , 其异于x k 1 , … , x k r , 那么我们可以按照如上方式构造出一个解, 其中令x j = 1 . 这个观察将我们引导至和齐次线性方程组有关的最根本性的事实之一.
定理6. 如果A 是一个m × n 的矩阵并且m < n , 那么齐次线性方程组A ⁢ X = 0 具有非平凡解.
证明. 令
R 是一个行等价于
A 的行简化阶梯矩阵, 那么根据定理3, 方程组
A ⁢ X = 0 和
R ⁢ X = 0 具有相同的解. 令
r 是
R 的非零行数, 那么肯定
r ≤ m . 既然
m < n , 就有
r < n . 立刻从我们以上的观察中就得知
A ⁢ X = 0 具有非平凡解.
◻
定理7. 如果A 是一个n × n 的矩阵, 那么A 行等价于n × n 的恒等矩阵当且仅当线性方程组A ⁢ X = 0 仅有平凡解.
证明. 如果
A 行等价于
I , 那么
A ⁢ X = 0 和
I ⁢ X = 0 具有相同的解. 反过来, 设
A ⁢ X = 0 仅有平凡解
X = 0 . 令
R 是一个与
A 行等价的
n × n 的行简化阶梯矩阵, 并令
r 是
R 的非零行数. 既然
R ⁢ X = 0 没有非平凡的解, 那么
r ≥ n . 又因为
R 只有
n 行, 所以当然
r ≤ n , 于是
r = n . 这意味着
R 的每一行都具有首非零元
1 , 而且因为它们分布于不同的
n 列里,
R 只可能是
n × n 的恒等矩阵.
◻
现在让我们来探究如何使用初等行变换求解非齐次的线性方程组A ⁢ X = Y . 首先, 读者应该注意到它与齐次情形的一个基本区别, 即尽管齐次线性方程组总有平凡的解x 1 = ⋯ = x n = 0 , 非齐次的情况压根不一定有解.
我们来构造线性方程组A ⁢ X = Y 的增广矩阵A ′ . 这是一个m × ( n + 1 ) 的矩阵, 其中前n 列是A 的列, 最后一列是Y . 更精确地,A i , j ′ = A i , j 如果 j ≤ n , A i , n + 1 ′ = y i . 设我们施行了一系列初等行变换于A , 得到了一个行简化阶梯矩阵R . 如果我们施行相同的初等行变换于A ′ , 就会得到一个矩阵R ′ , 其前n 列是R 的列, 而最后一列包含特定的标量z 1 , … , z m . 标量z i 是m × 1 矩阵Z = [ z 1 ⋮ z m ] 的元素, 它是由施行相同的初等行变换于Y 得到的. 显然读者应该认识到, 正如定理3的证明一样, 线性方程组A ⁢ X = Y 和R ⁢ X = Z 是等价的, 因而拥有相同的解. 很容易确定R ⁢ X = Z 是否有解并在有解的情况下确定所有的解. 这是因为, 如果R 具有r 个非零行, 并且其第i 行的首非零元出现在第k i 列, 其中i = 1 , … , r , 那么R ⁢ X = Z 的前r 行有效地表达了x k 1 , … , x k r , 基于( n − r ) 个剩余的x j 和标量z 1 , … , z r . 最后的( m − r ) 个方程是0 = z r + 1 ⋮ ⋮ 0 = z m 据此, 方程组拥有解的条件是i > r 时z i = 0 . 如果这个条件被满足, 所有线性方程组的解就可以像齐次的情况一样被找到, 即给( n − r ) 个x j 赋任意的值, 然后根据第i 个方程计算x k i 的值.
例子9. 令F 是有理数域, 并且A = [ 1 − 2 1 2 1 1 0 5 − 1 ] 设我们希望求解线性方程组A ⁢ X = Y , 对于某些y 1 , y 2 和y 3 . 让我们将行规约A 的一系列初等行变换施行于A ′ 之上:[ 1 − 2 1 y 1 2 1 1 y 2 0 5 − 1 y 3 ] → 2 [ 1 − 2 1 y 1 0 5 − 1 ( y 2 − 2 ⁢ y 1 ) 0 5 − 1 y 3 ] → 2 [ 1 − 2 1 y 1 0 5 − 1 ( y 2 − 2 ⁢ y 1 ) 0 0 0 ( y 3 − y 2 + 2 ⁢ y 1 ) ] → 1 [ 1 − 2 1 y 1 0 1 − 1 5 1 5 ⁢ ( y 2 − 2 ⁢ y 1 ) 0 0 0 ( y 3 − y 2 + 2 ⁢ y 1 ) ] → 2 [ 1 0 3 5 1 5 ⁢ ( y 1 + 2 ⁢ y 2 ) 0 1 − 1 5 1 5 ⁢ ( y 2 − 2 ⁢ y 1 ) 0 0 0 ( y 3 − y 2 + 2 ⁢ y 1 ) ] 那么线性方程组A ⁢ X = Y 有解的条件就是2 ⁢ y 1 − y 2 + y 3 = 0 并且如果给定的标量y i 满足这个条件, 所有的解都可以由以下方式获得, 赋一个值c 给x 3 , 然后计算x 1 = − 3 5 ⁢ c + 1 5 ⁢ ( y 1 + 2 ⁢ y 2 ) x 2 = 1 5 ⁢ c + 1 5 ⁢ ( y 2 − 2 ⁢ y 1 )
让我们再做关于线性方程组A ⁢ X = Y 的最后一个观察. 设矩阵A 的元素和标量y 1 , … , y m 恰好落入域F 的一个子域F 1 中. 如果线性方程组A ⁢ X = Y 拥有在域F 中的解, 那么它也拥有在域F 1 中的解, 因为不论对于哪一个域而言, 线性方程组有解的条件都是域F 1 中y 1 , … , y m 之间的特定关系成立 (也就是上面的关系z i = 0 对于i > r 成立). 举个例子, 如果A ⁢ X = Y 是一个线性方程组, 其标量y k 和A i , j 都是实数, 若其有复数的解, 那么它也有实数的解.
练习1. 通过行规约系数矩阵来找出下列线性方程组的所有解.{ 1 3 ⁢ x 1 + 2 ⁢ x 2 − 6 ⁢ x 3 = 0 − 4 ⁢ x 1 + 5 ⁢ x 3 = 0 − 3 ⁢ x 1 + 6 ⁢ x 2 − 13 ⁢ x 3 = 0 − 7 3 ⁢ x 1 + 2 ⁢ x 2 − 8 3 ⁢ x 3 = 0
练习2. 找出与下列矩阵行等价的一个行简化阶梯矩阵.A = [ 1 − i 2 2 i 1 + i ] A ⁢ X = 0 的解是什么?
练习3. 显式描述所有2 × 2 的行简化阶梯矩阵.
练习4. 考虑以下线性方程组.{ x 1 − x 2 + 2 ⁢ x 3 = 1 2 ⁢ x 1 + 2 ⁢ x 3 = 1 x 1 − 3 ⁢ x 2 + 4 ⁢ x 3 = 2 这个方程组有解吗? 如果有的话, 显式描述所有的解.
练习5. 给出一个无解的具有两个方程和两个未知元的线性方程组的例子.
练习6. 证明线性方程组{ x 1 − 2 ⁢ x 2 + x 3 + 2 ⁢ x 4 = 1 x 1 + x 2 − x 3 + x 4 = 2 x 1 + 7 ⁢ x 2 − 5 ⁢ x 3 − x 4 = 3 没有解.
练习7. 找出下列线性方程组的所有解.{ 2 ⁢ x 1 − 3 ⁢ x 2 − 7 ⁢ x 3 + 5 ⁢ x 4 + 2 ⁢ x 5 = − 2 x 1 − 2 ⁢ x 2 − 4 ⁢ x 3 + 3 ⁢ x 4 + x 5 = − 2 2 ⁢ x 1 − 4 ⁢ x 3 + 2 ⁢ x 4 + x 5 = 3 x 1 − 5 ⁢ x 2 − 7 ⁢ x 3 + 6 ⁢ x 4 + 2 ⁢ x 5 = − 7
练习8. 令A = [ 3 − 1 2 2 1 1 1 − 3 0 ] 对于什么样的三元组( y 1 , y 2 , y 3 ) 线性方程组A ⁢ X = Y 有解?
练习9. 令A = [ 3 − 6 2 − 1 − 2 4 1 3 0 0 1 1 1 − 2 1 0 ] 对于什么样的四元组( y 1 , y 2 , y 3 , y 4 ) 线性方程组A ⁢ X = Y 有解?
练习10. 设R 和R ′ 是2 × 3 的行简化阶梯矩阵并且线性方程组R ⁢ X = 0 和R ′ ⁢ X = 0 具有相同的解, 证明R = R ′ .
第1.5节 矩阵乘法 显然构造矩阵的行的线性组合的过程是一种根本性的运算. 出于这样的理由, 引入指示何种操作将被施行的系统记号是很有好处的. 更细致地说, 设B 是域F 上的n × p 矩阵, 其行分别为β 1 , … , β n . 从B 我们构造出C , 其行分别为γ 1 , … , γ m 而γ i = A i , 1 ⁢ β 1 + A i , 2 ⁢ β 2 + ⋯ + A i , n ⁢ β n . C 的行是由m ⁢ n 个标量A i , j 决定的, 而它们本身是一个m × n 矩阵A 的元素. 将γ i 展开来看,( C i , 1 , … , C i , p ) = ∑ r = 1 n ( A i , r ⁢ B r , 1 , … , A i , r ⁢ B r , p ) 我们发现C 的元素由C i , j = ∑ r = 1 n A i , r ⁢ B r , j 给出.
定义. 令A 是一个域F 上的m × n 矩阵, 令B 是一个域F 上的n × p 矩阵. 积A ⁢ B 是一个m × p 矩阵C , 其第i 行j 列的元素为C i , j = ∑ r = 1 n A i , r ⁢ B r , j .
例子10. 这里给出一些有理数域上的矩阵之积.
[ 5 − 1 2 0 7 2 ] = [ 1 0 − 3 1 ] ⁢ [ 5 − 1 2 15 4 8 ] 其中γ 1 = ( 5 , − 1 , 2 ) = 1 ⋅ ( 5 , − 1 , 2 ) + 0 ⋅ ( 15 , 4 , 8 ) γ 2 = ( 0 , 7 , 2 ) = − 3 ⁢ ( 5 , − 1 , 2 ) + 1 ⋅ ( 15 , 4 , 8 ) [ 0 6 1 9 12 − 8 12 62 − 3 3 8 − 2 ] = [ 1 0 − 2 3 5 4 0 1 ] ⁢ [ 0 6 1 3 8 − 2 ] 其中γ 2 = ( 9 , 12 , − 8 ) = − 2 ⁢ ( 0 , 6 , 1 ) + 3 ⁢ ( 3 , 8 , − 2 ) γ 3 = ( 12 , 62 , − 3 ) = 5 ⁢ ( 0 , 6 , 1 ) + 4 ⁢ ( 3 , 8 , − 2 ) [ 8 29 ] = [ 2 1 5 4 ] ⁢ [ 1 6 ] [ − 2 − 4 6 12 ] = [ − 1 3 ] ⁢ [ 2 4 ] 其中γ 2 = ( 6 , 12 ) = 3 ⁢ ( 2 , 4 ) [ 2 4 ] ⁢ [ − 1 3 ] = [ 10 ] [ 0 1 0 0 0 0 0 0 0 ] ⁢ [ 1 − 5 2 2 3 4 9 − 1 3 ] = [ 2 3 4 0 0 0 0 0 0 ] [ 1 − 5 2 2 3 4 9 − 1 3 ] ⁢ [ 0 1 0 0 0 0 0 0 0 ] = [ 0 1 0 0 2 0 0 9 0 ] 注意到两个矩阵之积不必有定义是重要的. 积有定义当且仅当第一个矩阵的列数与第二个矩阵的行数相合. 因此, 交换以上a, b, c中因子的顺序是没有意义的. 往往我们写下如A ⁢ B 一样的积时并不显式提及因子的尺寸, 在这种情况下, 应该理解为积是有定义的. 从d, e, f, g中我们发现, 即便A ⁢ B 和B ⁢ A 都有定义, 也不一定有A ⁢ B = B ⁢ A . 换句话说, 矩阵乘法不是交换的.
例子11. 如果I 是m × m 的恒等矩阵, 而A 是一个m × n 的矩阵, 那么I ⁢ A = A . 如果I 是n × n 的恒等矩阵, 而A 是一个m × n 的矩阵, 那么A ⁢ I = A . 如果0 k , m 是k × m 的零矩阵, 那么0 k , n = 0 k , m ⁢ A . 类似地, A ⁢ 0 n , p = 0 m , p . 例子12. 令A 是域F 上的一个m × n 矩阵. 我们之前对于线性方程组的简记法A ⁢ X = Y 和我们对于矩阵乘法的定义是一致的, 因为如果X = [ x 1 x 2 ⋮ x n ] 其中x i 在F 中, 那么A ⁢ X 是m × 1 矩阵Y = [ y 1 y 2 ⋮ y m ] 满足y i = A i , 1 ⁢ x 1 + A i , 2 ⁢ x 2 + ⋯ + A i , n ⁢ x n .
列矩阵的使用提示了一种往往有用的记号. 如果B 是一个n × p 的矩阵, 那么B 的列是n × 1 矩阵B 1 , … , B p , 由B j = [ B 1 , j ⋮ B n , j ] , 1 ≤ j ≤ p 定义. 矩阵B 是由这些列相继构成的:B = [ B 1 , … , B p ] 积矩阵A ⁢ B 的第i 行j 列元素是由A 的第i 行和B 的第j 列构造出来的. 读者应该验证A ⁢ B 的第j 列就是A ⁢ B j :A ⁢ B = [ A ⁢ B 1 , … , A ⁢ B p ]
尽管矩阵之积依赖于因子的顺序, 但是它独立于结合的方式, 这正是下一个定理表明的.
定理8. 如果A , B , C 是域F 上的矩阵, 满足乘积B ⁢ C 和A ⁢ ( B ⁢ C ) 有定义, 那么乘积A ⁢ B 和( A ⁢ B ) ⁢ C 也有定义, 并且A ⁢ ( B ⁢ C ) = ( A ⁢ B ) ⁢ C
证明. 设
B 是一个
n × p 矩阵. 既然
B ⁢ C 是有定义的, 那么
C 就是一个有
p 行的矩阵, 而
B ⁢ C 有
n 行. 因为
A ⁢ ( B ⁢ C ) 是有定义的, 我们可以假定
A 是一个
m × n 矩阵. 因此, 积
A ⁢ B 存在, 是一个
m × p 矩阵, 从中又可以知道
( A ⁢ B ) ⁢ C 存在. 为了证明
A ⁢ ( B ⁢ C ) = ( A ⁢ B ) ⁢ C 其实也就是要证明
[ A ⁢ ( B ⁢ C ) ] i , j = [ ( A ⁢ B ) ⁢ C ] i , j 对于每个
i 和
j 成立. 根据定义,
[ A ⁢ ( B ⁢ C ) ] i , j = ∑ r A i , r ⁢ ( B ⁢ C ) r , j = ∑ r A i , r ⁢ ∑ s B r , s ⁢ C s , j = ∑ r ∑ s A i , r ⁢ B r , s ⁢ C s , j = ∑ s ∑ r A i , r ⁢ B r , s ⁢ C s , j = ∑ s ( ∑ r A i , r ⁢ B r , s ) ⁢ C s , j = ∑ s ( A ⁢ B ) i , s ⁢ C s , j = [ ( A ⁢ B ) ⁢ C ] i , j ◻
当A 是一个n × n 矩阵时, 积A ⁢ A 是有定义的. 我们用A 2 表示这个矩阵. 根据定理8, ( A ⁢ A ) ⁢ A = A ⁢ ( A ⁢ A ) 或者说A 2 ⁢ A = A ⁢ A 2 , 于是积A ⁢ A ⁢ A 是良定的. 我们用A 3 表示这个积. 一般地, 积A ⁢ A ⁢ ⋯ ⁢ A (k 次) 是良定的, 我们将其记作A k .
注意到A ⁢ ( B ⁢ C ) = ( A ⁢ B ) ⁢ C 可以推出C 的行的线性组合的线性组合也是C 的行的线性组合.
如果B 是一个给定的矩阵而C 是由B 通过一次初等行变换得到的, 那么C 的每一行都是B 的行的线性组合, 因此存在一个矩阵A 满足A ⁢ B = C . 一般而言, 这样的A 不止一个, 而从诸多这样的矩阵中挑选出一个具有许多特别性质的矩阵是可能的也是方便的. 在讨论这个之前我们需要先引入一类矩阵.
定义. 一个m × m 矩阵被称为是一个初等矩阵, 如果它是可由m × m 的恒等矩阵通过一次初等行变换得到.
例子13. 一个2 × 2 的初等矩阵只可能是以下几种之一:[ 0 1 1 0 ] , [ 1 c 0 1 ] , [ 1 0 c 1 ] [ c 0 0 1 ] , c ≠ 0 , [ 1 0 0 c ] , c ≠ 0
定理9. 令e 是一个初等行变换, 令m × m 矩阵E = e ⁡ ( I ) . 那么, 对于每一个m × n 矩阵A ,e ⁡ ( A ) = E ⁢ A
证明. 证明的要点在于积矩阵
E ⁢ A 第
i 行
j 列的元素是由
E 的第
i 行和
A 的第
j 列得到的. 三种初等行变换应该分开看待. 我们将给出对于类型2的变换的详细证明. 其他两种情况更加简单, 留给读者作为练习. 设
r ≠ s 而
e 是将第
r 行替换为第
r 行加上
c 乘上第
s 行的变换, 那么
E i , k = { δ i , k , i ≠ r δ r , k + c ⁢ δ s , k , i = r 因此,
( E ⁢ A ) i , j = ∑ k = 1 m E i , k ⁢ A k , j = { A i , j , i ≠ r A r , j + c ⁢ A s , j , i = r 换句话说,
E ⁢ A = e ⁡ ( A ) .
◻
推论. 令A 和B 是域F 上的m × n 矩阵, 那么B 行等价于A 当且仅当B = P ⁢ A , 其中P 是一系列m × m 的初等矩阵之积.
证明. 设
B = P ⁢ A , 其中
P = E s ⁢ ⋯ ⁢ E 2 ⁢ E 1 而
E i 是
m × m 的初等矩阵, 那么
E 1 ⁢ A 行等价于
A , 并且
E 2 ⁢ ( E 1 ⁢ A ) 行等价于
E 1 ⁢ A , 于是
E 2 ⁢ E 1 ⁢ A 行等价于
A . 如法炮制我们可以看到
( E s ⁢ ⋯ ⁢ E 1 ) ⁢ A 行等价于
A .
现在设
B 行等价于
A . 令
E 1 , E 2 , … , E s 为与将
A 变为
B 的一系列初等行变换相对应的初等矩阵, 那么
B = ( E s ⁢ ⋯ ⁢ E 1 ) ⁢ A .
◻
练习1. 令A = [ 2 − 1 1 1 2 1 ] , B = [ 3 1 − 1 ] , C = [ 1 − 1 ] 计算A ⁢ B ⁢ C 和C ⁢ A ⁢ B .
练习2. 令A = [ 1 − 1 1 2 0 1 3 0 1 ] , B = [ 2 − 2 1 3 4 4 ] 验证A ⁢ ( A ⁢ B ) = A 2 ⁢ B .
练习3. 找出两个不同的2 × 2 矩阵A 满足A 2 = 0 但是A ≠ 0 .
练习4. 对于练习2的矩阵A , 找出初等矩阵E 1 , E 2 , … , E k 满足E k ⁢ ⋯ ⁢ E 2 ⁢ E 1 ⁢ A = I
练习5. 令A = [ 1 − 1 2 2 1 0 ] , B = [ 3 1 − 4 4 ] 存在矩阵C 满足C ⁢ A = B 吗?
练习6. 令A 是一个m × n 矩阵而B 是一个n × k 矩阵. 证明C = A ⁢ B 的列是A 的列的线性组合, 并且如果α 1 , … , α n 是A 的列, 而γ 1 , … , γ k 是C 的列, 那么γ j = ∑ r = 1 n B r , j ⁢ α r
练习7. 令A 和B 是2 × 2 的矩阵满足A ⁢ B = I , 证明B ⁢ A = I .
练习8. 令C = [ C 1 , 1 C 1 , 2 C 2 , 1 C 2 , 2 ] 是一个2 × 2 的矩阵. 我们想问什么情况下有可能找到两个2 × 2 的矩阵A 和B 满足C = A ⁢ B − B ⁢ A . 证明这样的矩阵可以被找到当且仅当C 1 , 1 + C 2 , 2 = 0 .
第1.6节 可逆矩阵 设m × m 矩阵P 是初等矩阵之积. 对于每个m × n 矩阵A , 矩阵B = P ⁢ A 行等价于A , 因此A 行等价于B , 存在一个初等矩阵之积Q 满足A = Q ⁢ B . 特别地, 当A 是m × m 的恒等矩阵时亦成立. 换言之, 存在一个m × m 矩阵Q , 其自身是初等矩阵之积, 满足Q ⁢ P = I . 正如我们将看到的, 存在Q 满足Q ⁢ P = I 等价于P 是初等矩阵之积.
定义. 令A 是域F 上的一个n × n 矩阵. 一个n × n 矩阵B 若是满足B ⁢ A = I , 则被称为A 的一个左逆. 一个n × n 矩阵B 若是满足A ⁢ B = I , 则被称为A 的一个右逆. 如果A ⁢ B = B ⁢ A = I , 则B 被称为A 的双端逆, 而A 被称为可逆的.
引理. 如果A 有一个左逆B 和一个右逆C , 那么B = C .
证明. 设
B ⁢ A = I 且
A ⁢ C = I , 那么
B = B ⁢ I = B ⁢ ( A ⁢ C ) = ( B ⁢ A ) ⁢ C = I ⁢ C = C ◻
因此, 如果A 有一个左逆和一个右逆, A 就是可逆的, 并且拥有一个唯一的双端逆, 我们将其表示为A − 1 并简单地称其为A 的逆.
定理10. 令
A 和
B 是域
F 上的
n × n 矩阵.
如果A 可逆, 那么A − 1 也可逆, 并且( A − 1 ) − 1 = A . 如果A 和B 都可逆, 那么A ⁢ B 也可逆, 并且( A ⁢ B ) − 1 = B − 1 ⁢ A − 1 . 证明. 第一条陈述从定义的对称性来看是显然的. 第二条陈述由验证以下关系自然得到.
( A ⁢ B ) ⁢ ( B − 1 ⁢ A − 1 ) = ( B − 1 ⁢ A − 1 ) ⁢ ( A ⁢ B ) = I ◻
推论. 一系列可逆矩阵之积是可逆的.
定理11. 初等矩阵是可逆的. [译注: 并且逆也是初等矩阵.]
证明. 令
E 是与初等行变换
e 相对应的初等矩阵. 如果
e 1 是
e 的逆变换 (见定理2) 而
E 1 = e 1 ⁡ ( I ) , 那么有
E ⁢ E 1 = e ⁡ ( E 1 ) = e ⁡ ( e 1 ⁡ ( I ) ) = I 和
E 1 ⁢ E = e 1 ⁡ ( E ) = e 1 ⁡ ( e ⁡ ( I ) ) = I 于是
E 是可逆的且
E 1 = E − 1 .
◻
例子14. [ 0 1 1 0 ] − 1 = [ 0 1 1 0 ] [ 1 c 0 1 ] − 1 = [ 1 − c 0 1 ] [ 1 0 c 1 ] − 1 = [ 1 0 − c 1 ] 当c ≠ 0 ,[ c 0 0 1 ] − 1 = [ c − 1 0 0 1 ] 且 [ 1 0 0 c ] − 1 = [ 1 0 0 c − 1 ] 定理12. 如果
A 是一个
n × n 的矩阵, 那么以下命题等价.
A 可逆.A 行等价于n × n 的恒等矩阵.A 是一系列初等矩阵之积.证明. 令
R 是行等价于
A 的一个行简化阶梯矩阵. 根据定理9 (或其推论),
R = E k ⁢ ⋯ ⁢ E 2 ⁢ E 1 ⁢ A 其中
E 1 , … , E k 是初等矩阵. 每个
E j 都是可逆的, 于是
A = E 1 − 1 ⁢ ⋯ ⁢ E k − 1 ⁢ R 既然可逆矩阵之积是可逆的, 我们看到
A 可逆当且仅当
R 可逆. 因为
R 是一个 (方的) 行简化阶梯矩阵,
R 可逆当且仅当
R 的每一行都包含非零元, 即当且仅当
R = I . 现在我们已经证明了
A 可逆当且仅当
R = I , 并且如果
R = I , 那么
A = E 1 − 1 ⁢ ⋯ ⁢ E k − 1 . 现在i, ii, iii是关于
A 的等价陈述应该是显然的了.
◻
推论. 如果A 是一个n × n 的可逆矩阵, 并且一系列初等行变换将A 规约为I , 那么相同的初等行变换应用于I 就得到A − 1 .
推论. 令A 和B 是m × n 的矩阵, 那么B 行等价于A 当且仅当B = P ⁢ A , 其中P 是一个m × m 的可逆矩阵.
定理13. 对于
n × n 矩阵
A , 以下命题等价.
A 可逆.齐次线性方程组A ⁢ X = 0 仅有平凡解. 线性方程组A ⁢ X = Y 对于每个n × 1 的Y 都有一个解X . 证明. 根据定理7, 条件ii等价于
A 行等价于恒等矩阵. 根据定理12, i和ii因此是等价的. 如果
A 可逆,
A ⁢ X = Y 的解是
X = A − 1 ⁢ Y . 反过来, 设
A ⁢ X = Y 对于每个给定的
Y 都有一个解. 令
R 是行等价于
A 的一个行简化阶梯矩阵. 我们想要证明
R = I . 这只需要证明
R 的最后一行不都是零即可. 令
E = [ 0 0 ⋮ 0 1 ] 若
R ⁢ X = E 有解, 那么
R 的最后一行就不可能都是零. 我们知道
R = P ⁢ A , 其中
P 可逆, 因而
R ⁢ X = E 和
A ⁢ X = P − 1 ⁢ E 拥有相同的解. 根据条件iii, 后一个线性方程组有解, 故
A 可逆.
◻
推论. 一个有左逆或右逆的方阵是可逆的.
证明. 令
A 是一个
n × n 矩阵. 设
A 有一个左逆, 即一个矩阵
B 满足
B ⁢ A = I , 那么
A ⁢ X = 0 仅有平凡解, 因为
X = I ⁢ X = B ⁢ ( A ⁢ X ) , 故
A 可逆. 另一方面, 设
A 有一个右逆, 即一个矩阵
C 满足
A ⁢ C = I , 那么
C 有一个左逆, 故是可逆的, 于是就有
A = C − 1 , 那么
A 可逆, 其逆为
C .
◻
推论. 令A = A 1 ⁢ A 2 ⁢ ⋯ ⁢ A k , 其中A 1 , … , A k 是n × n 的方阵, 那么A 可逆当且仅当每个A j 可逆.
证明. 我们已经证明了两个可逆矩阵之积是可逆的, 从中读者可以简单地看出来若是每个
A j 可逆, 则
A 可逆. [译注: 实际上之前有一个推论陈述了这个事实.]
现在设
A 可逆. 我们先来证明
A k 是可逆的. 设
X 是一个
n × 1 的矩阵并且
A k ⁢ X = 0 , 那么
A ⁢ X = ( A 1 ⁢ ⋯ ⁢ A k − 1 ) ⁢ A k ⁢ X = 0 . 既然
A 是可逆的, 那么
X 就必须是
0 . 因此,
A k ⁢ X = 0 没有非平凡的解, 于是
A k 可逆. 现在,
A 1 ⁢ ⋯ ⁢ A k − 1 = A ⁢ A k − 1 也是可逆的了. 施行前述论证, 可知
A k − 1 是可逆的. 续行此法, 可得每个
A j 都是可逆的.
◻
我们想要作出关于求解线性方程组的最后一个注记. 设A 是一个m × n 的矩阵, 并且我们想要求解线性方程组A ⁢ X = Y . 如果R 是行等价于A 的一个行简化阶梯矩阵, 那么R = P ⁢ A , 其中P 是一个m × m 的可逆矩阵. 方程组A ⁢ X = Y 的解恰好就和R ⁢ X = P ⁢ Y ( = Z ) 相同. 在实践中, 找到矩阵P 并不比行规约A 至R 困难. 这是因为, 设我们构造了方程组A ⁢ X = Y 的增广矩阵A ′ , 其最后一行是任意的标量y 1 , … , y m , 然后我们施行将A 变为R 的初等行变换于A ′ , 那么矩阵P 是什么就很清楚了. (读者应该参考例子9, 那里我们基本上执行了这套过程.) [译注: 这段话并不十分清楚, 但实际上它的意思就是将y 1 , … , y m 当作符号带入计算.] 特别地, 如果A 是一个方阵, 那么这个过程将会表明A 是否可逆, 以及若可逆, 逆P 是什么. 既然我们已经给出这样的计算的一个例子的核心了, 那么现在我们举一个2 × 2 的例子就心满意足了.
例子15. 设F 是有理数域, 而A = [ 2 − 1 1 3 ] 那么[ 2 − 1 y 1 1 3 y 2 ] → 3 [ 1 3 y 2 2 − 1 y 1 ] → 2 [ 1 3 y 2 0 − 7 y 1 − 2 ⁢ y 2 ] → 1 [ 1 3 y 2 0 1 1 7 ⁢ ( 2 ⁢ y 2 − y 1 ) ] → 2 [ 1 0 1 7 ⁢ ( y 2 + 3 ⁢ y 1 ) 0 1 1 7 ⁢ ( 2 ⁢ y 2 − y 1 ) ] 从中可以清楚地看出来A 可逆, 并且A − 1 = [ 3 7 1 7 − 1 7 2 7 ]
或许看上去一直把任意的标量y 1 , y 2 , … 写下来太过繁琐. 有的人觉得同时操作两列矩阵不那么尴尬一点, 一列描述了从A 到恒等矩阵的规约过程, 另一列记录了相同的操作对于恒等矩阵的影响. 读者或许应该自行决定哪一种对于他而言是更加利落的簿记格式.
例子16. 让我们找出A = [ 1 1 2 1 3 1 2 1 3 1 4 1 3 1 4 1 5 ] 的逆.[ 1 1 2 1 3 1 2 1 3 1 4 1 3 1 4 1 5 ] [ 1 0 0 0 1 0 0 0 1 ] [ 1 1 2 1 3 0 1 12 1 12 0 1 12 4 45 ] [ 1 0 0 − 1 2 1 0 − 1 3 0 1 ] [ 1 1 2 1 3 0 1 12 1 12 0 0 1 180 ] [ 1 0 0 − 1 2 1 0 1 6 − 1 1 ] [ 1 1 2 1 3 0 1 1 0 0 1 ] [ 1 0 0 − 6 12 0 30 − 180 180 ] [ 1 1 2 0 0 1 0 0 0 1 ] [ − 9 60 − 60 − 36 192 − 180 30 − 180 180 ] [ 1 0 0 0 1 0 0 0 1 ] [ 9 − 36 30 − 36 192 − 180 30 − 180 180 ]
读者肯定想过我们详细地讨论了矩阵的行但很少涉及列. 我们专注于行是因为从线性方程的角度来看这似乎更加自然. 既然行没有什么神圣的地方, 后几节的讨论当然本可用列来展开而不是行. 如果有人仿照初等行变换和行等价定义了初等列变换和列等价, 那么显然每个m × n 的矩阵都列等价于一个"列简化阶梯"矩阵. 另外, 每个初等列变换将拥有A ↦ A ⁢ E 的形式, 其中E 是一个n × n 的初等矩阵. 诸如此类, 留给读者自行思考.
练习1. 令A = [ 1 2 1 0 − 1 0 3 5 1 − 2 1 1 ] 找出一个行等价于A 的行简化阶梯矩阵R 以及一个可逆的3 × 3 矩阵P 满足R = P ⁢ A .
练习2. 做练习1, 但是A = [ 2 0 i 1 − 3 − i i 1 1 ]
练习3. 对于以下两个矩阵的每一个[ 2 5 − 1 4 − 1 2 6 4 1 ] , [ 1 − 1 2 3 2 4 0 1 − 2 ] 使用初等行变换来判断其是否可逆, 并且在可逆的情况下找出其逆.
练习4. 令A = [ 5 0 0 1 5 0 0 1 5 ] 对于什么样的X 存在标量c 满足A ⁢ X = c ⁢ X ?
练习5. 判断A = [ 1 2 3 4 0 2 3 4 0 0 3 4 0 0 0 4 ] 是否可逆, 并且在A − 1 存在的情况下找到它.
练习6. 设A 是一个2 × 1 矩阵而B 是一个1 × 2 矩阵, 证明C = A ⁢ B 不可逆.
练习7. 令
A 是一个
n × n 的方阵. 证明以下两个陈述:
如果A 可逆而对于某个n × n 的矩阵B 有A ⁢ B = 0 , 那么B = 0 . 如果A 不可逆, 那么存在一个n × n 的矩阵B 满足A ⁢ B = 0 但是B ≠ 0 . 练习8. 令A = [ a b c d ] 使用初等行变换证明, A 可逆当且仅当( a ⁢ d − b ⁢ c ) ≠ 0 .
练习9. 一个n × n 矩阵A 被称为是上三角的, 如果i > j 时A i , j = 0 , 即主对角线以下的元素均为零. 证明一个上三角矩阵可逆当且仅当其每个主对角线上的元素均不为零.
练习10. 证明以下练习6的一般化版本. 若A 是一个m × n 矩阵而B 是一个n × m 矩阵, 并且n < m , 那么A ⁢ B 不可逆.
练习11. 令A 是一个m × n 矩阵. 证明通过一系列初等行变换和初等列变换可以从A 得到一个矩阵R , 其既是行简化阶梯矩阵, 也是列简化阶梯矩阵. 也就是说, 如果i ≠ j , 那么R i , j = 0 ; 如果1 ≤ i ≤ r , 那么R i , i = 1 ; 如果i > r , 那么R i , i = 0 . 证明R = P ⁢ A ⁢ Q , 其中P 是一个m × m 的可逆矩阵, 而Q 是一个n × n 的可逆矩阵.
练习12. 例子16的结果暗示或许矩阵A = [ 1 1 2 ⋯ 1 n 1 2 1 3 ⋯ 1 n + 1 ⋮ ⋮ ⋮ 1 n 1 n + 1 ⋯ 1 2 ⁢ n − 1 ] 可逆并且A − 1 的元素都是整数. 你能证明吗?
第2章 向量空间 第2.1节 向量空间 在数学的许多部分中, 人们经常会遇到这样的集合, 其中处理对象的线性组合是有趣的. 例如, 我们发现在对于线性方程的研究中, 考虑矩阵的行的线性组合是相当自然的. 很有可能读者学过微积分, 那里处理函数的线性组合, 特别是学习微分方程的时候. 或许读者有些与三维Euclid空间打交道的经历, 特别是处理其中向量的线性组合.
不严格地说, 线性代数是这样的数学分支, 它讨论其中线性组合是有意义的代数系统的共同性质. 本节我们将定义一种数学对象, 经验表明它是此类代数系统最有用的抽象.
定义. 一个向量空间 (或者说线性空间) 包含以下资料:
一个标量域F ; 一个对象的集合V , 这些对象被称为向量; 一个法则 (或者说运算), 被称为向量加法, 联系每对V 中向量α 和β 以一个V 中向量α + β , 其被称为α 和β 之和, 并且该运算满足加法是交换的, α + β = β + α ; 加法是结合的, α + ( β + γ ) = ( α + β ) + γ ; V 中存在唯一的向量0 , 被称为零向量, 满足α + 0 = α 对于V 中所有向量α 成立;对于每个V 中向量α , 存在唯一的V 中向量− α 满足α + ( − α ) = 0 ; 一种法则 (或者说运算), 被称为标量乘法, 联系每个F 中标量c 和V 中向量α 以一个V 中向量c ⁢ α , 其被称为c 和α 之积, 并且该运算满足1 ⁢ α = α 对于每个V 中的α 成立;c 1 ⁢ ( c 2 ⁢ α ) = ( c 1 ⁢ c 2 ) ⁢ α ;c ⁢ ( α + β ) = c ⁢ α + c ⁢ β ;( c 1 + c 2 ) ⁢ α = c 1 ⁢ α + c 2 ⁢ α . 注意到, 正如定义所言, 一个向量空间是一个复合对象, 包含一个域, 一集"向量", 和两个带有特别性质的运算. 相同的向量集合可能是其他不同向量空间的组成部分 (见以下的例子5). 当没有歧义的时候, 我们就简单地以V 引用这个向量空间, 或者当我们想要刻画域的时候, 我们就说V 是一个域F 上的向量空间. "向量"这个名字应用于集合V 的元素很大程度上只是为了方便起见. 这个名字的由来可以从以下的例子1中找到, 但读者不应该给这个名字附加太多的重要性, 因为作为向量出现的各种对象可能与读者对于向量预先赋予的概念并无类似之处. 我们将在下面的一连串例子中尽力传达这点. 随着我们开始研究向量空间, 例子也会丰富起来.
例子1. n 元组空间, F n . 令F 是任意的域, 令V 是所有n 元组α = ( x 1 , x 2 , … , x n ) 构成的集合, 其中x i 是F 中的标量. 如果β = ( y 1 , y 2 , … , y n ) , 其中y i 是F 中的标量, 那么α 和β 的和由α + β = ( x 1 + y 1 , x 2 + y 2 , … , x n + y n ) 定义. 标量c 和向量α 的积由c ⁢ α = ( c ⁢ x 1 , c ⁢ x 2 , … , c ⁢ x n ) 定义. 这向量加法和标量乘法满足条件3和4是容易验证的, 运用F 的元素的加法和乘法的类似性质即可.
例子2. m × n 矩阵的空间, F m × n . 令F 是任意的域, 并令m 和n 是正整数. 令F m × n 是域F 上所有m × n 矩阵构成的集合. F m × n 中的两个向量A 和B 的和由( A + B ) i , j = A i , j + B i , j 定义. 标量c 和矩阵A 的积由( c ⁢ A ) i , j = c ⁢ A i , j 定义. 注意到F 1 × n = F n . [译注: 在同构的意义上.]
例子3. 从一个集合到一个域的函数的空间. 令
F 是任意的域, 令
S 是一个非空集合. 令
V 是所有从集合
S 到域
F 的函数构成的集合.
V 中两个向量
f 和
g 之和是向量
f + g , 即一个从
S 到
F 的函数, 由
( f + g ) ⁡ ( s ) = f ⁡ ( s ) + g ⁡ ( s ) 定义. 标量
c 和函数
f 的积是函数
c ⁢ f , 由
( c ⁢ f ) ⁡ ( s ) = c ⁢ f ⁡ ( s ) 定义. 前述例子不过就是这个的特殊情形. 对于
F 的元素的
n 元组而言, 其或可被视为从整数
1 , … , n 的集合
S 到
F 的一个函数. 类似地, 一个域
F 上的
m × n 矩阵是一个从整数序对
( i , j ) , 1 ≤ i ≤ m , 1 ≤ j ≤ n 的集合
S 到域
F 的函数. 对于这第三个例子, 我们将指明读者该如何验证条件3和4. 对于向量加法:
既然F 中的加法是交换的,f ⁡ ( s ) + g ⁡ ( s ) = g ⁡ ( s ) + f ⁡ ( s ) 对于每个S 中的s 成立, 于是函数f + g 和g + f 是等同的. 既然F 中的加法是结合的,f ⁡ ( s ) + [ g ⁡ ( s ) + h ⁡ ( s ) ] = [ f ⁡ ( s ) + g ⁡ ( s ) ] + h ⁡ ( s ) 对于每个s 成立, 于是f + ( g + h ) 和( f + g ) + h 是相同的函数. 唯一的零向量就是零函数, 其赋S 的每个元素以F 中的标量0 . 对于每个V 中的f , ( − f ) 是由( − f ) ⁡ ( s ) = − f ⁡ ( s ) 给定的函数. 读者应当发现验证标量乘法满足条件4是容易的, 通过施行类似于我们上面对于向量加法的论证.
例子4. 域F 上的多项式函数的空间. 令F 是一个域, 令V 是所有具有如下形式的从F 到F 的函数f ⁡ ( x ) = c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n 构成的集合, 其中c 0 , c 1 , … , c n 是F 中固定的标量 (独立于x ). 一个这种类型的函数被称为F 上的一个多项式函数. 令加法和标量乘法如例子3所定义的那样. 读者必须观察到如果f 和g 是多项式函数而c 在F 中, 那么f + g 和c ⁢ f 也是多项式函数.
例子5. 复数域ℂ 可以被当作实数域ℝ 上的向量空间. 更一般地, 令F 实数域, 而令V 是n 元组( x 1 , … , x n ) 的集合, 其中x 1 , … , x n 是复数. 如例子1一样定义向量的加法和标量乘法, 这般我们就得到了一个实数域ℝ 上的向量空间, 其与ℂ n 和ℝ n 相当不同.
从向量空间的定义中我们几乎立刻就能推出一些简单的事实, 接下来我们将推导它们. 如果c 是一个标量而0 是零向量, 那么根据3c和4cc ⁢ 0 = c ⁢ ( 0 + 0 ) = c ⁢ 0 + c ⁢ 0 加上− ( c ⁢ 0 ) 并使用3d, 我们就得到了c ⁢ 0 = 0 类似地, 对于标量0 和任意的向量α 我们发现0 ⁢ α = 0 如果c 是一个非零标量而α 是一个向量满足c ⁢ α = 0 那么根据c ⁢ 0 = 0 , 我们有c − 1 ⁢ ( c ⁢ 0 ) = 0 , 但是又因为c − 1 ⁢ ( c ⁢ 0 ) = ( c − 1 ⁢ c ) ⁢ α = 1 ⁢ α = α 于是α = 0 . 因此, 我们看到如果c 是一个标量而α 是一个向量, 并且c ⁢ α = 0 , 那么要么c 标量零, 要么α 是零向量. 如果α 是V 中任意的向量, 那么0 = 0 ⁢ α = ( 1 − 1 ) ⁢ α = 1 ⁢ α + ( − 1 ) ⁢ α = α + ( − 1 ) ⁢ α 从中就推出( − 1 ) ⁢ α = − α 最后, 向量加法的结合和交换性质可以推出牵扯到数个向量的和独立于这些向量组合和结合的方式. 例如, 如果α 1 , α 2 , α 3 , α 4 是V 中向量, 那么( α 1 + α 2 ) + ( α 3 + α 4 ) = [ α 2 + ( α 1 + α 3 ) ] + α 4 并且这样一个和可以无歧义地被写成α 1 + α 2 + α 3 + α 4
定义. V 中一个向量β 被称为V 中向量α 1 , … , α n 的线性组合, 只要存在F 中的标量c 1 , … , c n 满足β = c 1 ⁢ α 1 + ⋯ + c n ⁢ α n = ∑ i = 1 n c i ⁢ α i
对于向量加法的结合性质以及标量乘法的分配性质4c和4d的其他扩展可以施行于线性组合之上:∑ i = 1 n c i ⁢ α i + ∑ i = 1 n d i ⁢ α i = ∑ i = 1 n ( c i + d i ) ⁢ α i c ⁢ ∑ i = 1 n c i ⁢ α i = ∑ i = 1 n ( c ⁢ c i ) ⁢ α i
线性代数的特定部分与几何紧密关联. "空间"暗示了某种几何的东西, "向量"对于大多数人也是如此. 当我们进一步研究向量空间时, 读者将会发现许多术语的确拥有几何的内涵. 在结束介绍向量空间的本节之前, 我们将在某种程度上讨论向量空间和几何之间的关系, 至少能够指明"向量空间"这个名字的由来. 这将会是简要的直觉性的讨论.
让我们考虑向量空间ℝ 3 . 在解析几何中, 人们将实数三元组( x 1 , x 2 , x 3 ) 和三维Euclid空间中的点视为等同的. 在这样的上下文之中, 一个向量经常被定义成一个有向线段P Q , 从点P 的位置到点Q . 这相当于对从P 到Q 的"箭头"的想法进行小心的形式化. 当向量被使用时, 意图在于它们应该由它们的长度和方向所决定. 因此, 当两个有向线段具有相同的长度和相同的方向时, 人们必须将其视为等同的.
从P = ( x 1 , x 2 , x 3 ) 到Q = ( y 1 , y 2 , y 3 ) 的有向线段P Q 与从原点O = ( 0 , 0 , 0 ) 到点( y 1 − x 1 , y 2 − x 2 , y 3 − x 3 ) 的有向线段具有相同的长度和方向. 并且, 这是自原点出发而与P Q 具有相同长度和方向的唯一一条有向线段. 因此, 如果读者同意仅处理从原点出发的向量, 那么与每个给定的长度和方向相关联着的仅恰有一个向量.
从原点至P = ( x 1 , x 2 , x 3 ) 的向量O P 完全由P 决定, 因此将这个向量与点P 视为等同是可能的. 在我们对于向量空间ℝ 3 的定义中, 那些向量就简单地被定义成三元组( x 1 , x 2 , x 3 ) .
给定点P = ( x 1 , x 2 , x 3 ) 和Q = ( y 1 , y 2 , y 3 ) , 向量O P 和O Q 之和的定义可以被几何地给出. 如果这两个向量不是平行的, 那么线段O P 和O Q 确定了一个平面, 并且这两条线段是该平面中的一个平行四边形的两条边 (见图1). 该平行四边形的一条对角线自O 延伸至点S , 而O P 和O Q 之和就被定义成向量O S . 点S 的坐标为( x 1 + y 1 , x 2 + y 2 , x 3 + y 3 ) , 因此这向量加法的几何定义就等价于例子1的代数定义.
P ( x 1 , x 2 , x 3 ) Q ( y 1 , y 2 , y 3 ) S ( x 1 + y 1 , x 2 + y 2 , x 3 + y 3 ) 图1
标量乘法拥有一个简单的几何解释. 如果c 是一个实数, 那么c 与向量O P 之积是一个向量, 其自原点出发, 长度为| c | 乘以O P 的长度, 方向在c > 0 时与O P 相同, c < 0 时与O P 相反. 这标量乘法就产生向量O T , 其中T = ( c ⁢ x 1 , c ⁢ x 2 , c ⁢ x 3 ) , 因此也与为ℝ 3 给出的代数定义一致.
时不时地, 读者可能会发现"几何地思考"向量空间很有助益. 也就是说, 出于自身的需要, 通过绘图来刻画和启发一些想法. 的确, 读者应该这么做. 然而, 在绘制这样的图形时, 读者必须记住, 由于我们是把向量空间作为代数系统进行处理的, 所有我们给出的证明在性质上都是代数的.
练习1. 如果F 是一个域, 验证F n (在例子1中被定义) 是一个域F 上的向量空间.
练习2. 如果V 是一个域F 上的向量空间, 验证( α 1 + α 2 ) + ( α 3 + α 4 ) = [ α 2 + ( α 3 + α 1 ) ] + α 4 对于V 中所有向量α 1 , α 2 , α 3 , α 4 成立.
练习3. 如果ℂ 是复数域, 那么ℂ 3 中哪些向量是( 1 , 0 , − 1 ) , ( 0 , 1 , 1 ) , ( 1 , 1 , 1 ) 的线性组合?
练习4. 令V 是所有实数序对( x , y ) 的集合, 令F 是实数域, 定义( x , y ) + ( x 1 , y 1 ) = ( x + x 1 , y + y 1 ) , c ⁢ ( x , y ) = ( c ⁢ x , c ⁢ y ) V 在这些运算下是一个实数域上的向量空间吗?
练习5. 在ℝ n 上定义两个运算α ⊕ β = α − β , c ⋅ α = − c ⁢ α 右侧的运算即通常的运算, 那么( ℝ n , ⊕ , ⋅ ) 满足哪些向量空间的公理?
练习6. 令V 是所有满足f ⁡ ( − t ) = f ⁡ ( t ) ‾ 的实数轴上的复值函数f 的集合. 横杠代表复共轭. 证明V , 对于运算( f + g ) ⁡ ( t ) = f ⁡ ( t ) + g ⁡ ( t ) , ( c ⁢ f ) ⁡ ( t ) = c ⁢ f ⁡ ( t ) 是一个实数域上的向量空间. 给出V 中一个不是实值函数的例子.
练习7. 令V 是实数序对( x , y ) 的集合, 令F 是实数域, 定义( x , y ) + ( x 1 , y 1 ) = ( x + x 1 , 0 ) , c ⁢ ( x , y ) = ( c ⁢ x , 0 ) V 在这些运算下是一个向量空间吗?
第2.2节 子空间 本节我们引入一些研究向量空间的基本概念.
定义. 令V 是域F 上的向量空间. V 的子空间是V 的子集W , 其在V 的加法和数乘之下是域F 上的向量空间.
对于向量空间的公理的直接检视表明, V 的子集W 是一个子空间, 如果对于每个W 中的α 和β , 向量α + β 也在W 中; 零向量0 在W 之中; 对于每个W 中的α , 向量( − α ) 在W 之中; 对于每个W 中的α 和每个标量c , 向量c ⁢ α 在W 之中. 向量加法的交换律和结合律, 以及标量乘法的性质4a, 4b, 4c, 4d并不需要验证, 因为这些是V 上的运算所固有的性质. 判断的标准还可以进一步得到简化.
定理1. V 的非空子集W 是V 的一个子空间当且仅当对于W 中的每对向量α 和β 以及F 中的每个标量c , 向量c ⁢ α + β 仍然在W 之中. [译注: 空集显然不是子空间, 因为向量空间至少包含零向量.]
证明. 设
W 是
V 是一个非空子集, 其满足对于
W 中所有的向量
α 和
β 以及
F 中所有的标量
c 有
c ⁢ α + β 属于
W . 既然
W 是非空的,
W 中存在一个向量
ρ , 因此
( − 1 ) ⁢ ρ + ρ = 0 也在
W 中. 然后, 如果
α 是
W 中的任意向量,
c 是任意的标量, 那么向量
c ⁢ α = c ⁢ α + 0 在
W 中. 特别地,
( − 1 ) ⁢ α = − α 在
W 中. 最后, 如果
α 和
β 在
W 中, 那么
α + β = 1 ⁢ α + β 在
W 中. 因此,
W 是
V 的一个子空间.
反过来, 如果
W 是
V 的一个子空间,
α 和
β 在
W 中,
c 是一个标量, 当然有
c ⁢ α + β 在
W 中.
◻
有些人倾向于使用定理中的c ⁢ α + β 性质作为子空间的定义. 这没有什么区别. 重要的是, 如果W 是一个V 的非空子集满足对于W 中的α 和β 以及F 中的c 有c ⁢ α + β 在V 之中, 那么W (在继承自V 的运算下) 是一个向量空间. 这给我们提供了许多向量空间的新例子.
例子6. 如果V 是任意的向量空间, 那么V 是V 的一个子空间; 仅包含零向量的子集也是V 的子空间, 被称为V 的零子空间. 在F n 中, 满足x 1 = 0 的n 元组( x 1 , … , x n ) 的集合是一个子空间; 然而, 满足x 1 = 1 + x 2 的n 元组的集合不是一个子空间 (n ≥ 2 ). 域F 上的多项式函数的空间是从F 到F 的所有函数的空间的子空间. 域F 上的一个n × n 矩阵A 是对称的, 如果对于每个i 和j 有A i , j = A j , i . 对称矩阵形成了一个域F 上的n × n 矩阵的空间的子空间. 域ℂ 上的一个n × n 矩阵A 是Hermite的 (或者说自伴的), 如果A j , k = A k , j ‾ 对于每个j 和k 成立, 其中横杠代表复共轭. 一个2 × 2 矩阵是Hermite的当且仅当其具有如下形式[ z x + i ⁢ y x − i ⁢ y w ] 其中x , y , z , w 是实数. 所有Hermite矩阵的集合不是ℂ 上的n × n 矩阵空间的子空间, 因为如果A 是Hermite的, 那么它的对角线元素A 1 , 1 , A 2 , 2 , … 都是实数, 但是i ⁢ A 的对角线元素不总是实数. 另一方面, 很容易验证n × n 的复Hermite矩阵的集合是一个域ℝ 上的向量空间 (在通常的运算下). 例子7. 齐次线性方程组的解空间. 令A 是域F 上的一个m × n 矩阵, 那么满足A ⁢ X = 0 的所有n × 1 矩阵X 构成的集合是域F 上的n × 1 矩阵空间的一个子空间. 为了证明这个事实, 我们必须证明当A ⁢ X = 0 , A ⁢ Y = 0 以及c 是F 中任意标量时有A ⁢ ( c ⁢ X + Y ) = 0 , 而这可由以下的一般性事实立即得到.
引理. 如果A 是域F 上的一个m × n 矩阵而B 和C 是域F 上的n × p 矩阵, 那么A ⁢ ( d ⁢ B + C ) = d ⁢ ( A ⁢ B ) + A ⁢ C 对于每个F 中的标量d 成立.
证明. [ A ⁢ ( d ⁢ B + C ) ] i , j = ∑ k A i , k ⁢ ( d ⁢ B + C ) k , j = ∑ k ( d ⁢ A i , k ⁢ B k , j + A i , k ⁢ C k , j ) = d ⁢ ∑ k A i , k ⁢ B k , j + ∑ k A i , k ⁢ C k , j = d ⁢ ( A ⁢ B ) i , j + A ⁢ C i , j = [ d ⁢ ( A ⁢ B ) + A ⁢ C ] i , j ◻
类似地, 还可以证明( d ⁢ B + C ) ⁢ A = d ⁢ ( B ⁢ A ) + C ⁢ A , 若矩阵的和与积确有定义.
定理2. 令V 是域F 上的一个向量空间, 那么V 的任何子空间族的交是V 的子空间.
证明. 令
{ W α } 是
V 的一个子空间族, 令
W = ⋂ α W α 是其交. 回忆一下,
W 被定义成属于每个
W α 的所有元素的集合 (见附录). 既然每个
W α 都是子空间, 那么每个都包含零向量, 于是其交
W 也包含零向量,
W 非空. 令
α 和
β 是
W 中的向量, 令
c 是一个标量. 根据
W 的定义,
α 和
β 都属于每个
W α , 并且因为每个
W α 都是一个子空间, 向量
( c ⁢ α + β ) 在每个
W α 之中, 于是
( c ⁢ α + β ) 也在
W 里. 根据定理1,
W 是
V 的一个子空间.
◻
根据定理2, 若S 是V 的任意子集, 那么存在一个包含S 的最小的V 的子空间, 最小的意思即这个包含S 的子空间是其他每个包含S 的子空间的子集.
定义. 令S 是一个向量的集合, 其来自于一个向量空间V . 由S 张成的子空间被定义为所有包含S 的V 的子空间的交W . 当S 是有限的向量集时, 如S = { α 1 , α 2 , … , α n } , 我们也将W 简单地称为由向量α 1 , α 2 , … , α n 张成的子空间.
定理3. 由向量空间V 的一个非空子集S 张成的子空间是S 中向量所有的线性组合构成的集合.
证明. 令
W 是
S 张成的子空间, 那么
S 中的向量
α 1 , α 2 , … , α m 的每个线性组合
α = x 1 ⁢ α 1 + x 2 ⁢ α 2 + ⋯ + x m ⁢ α m 显然在
W 之中. 因此,
W 包含集合
L ,
L 为
S 中向量的所有线性组合的集合. 另一方面, 集合
L 包含
S , 是非空的. 如果
α 和
β 属于
L , 那么
α 是一个线性组合,
α = x 1 ⁢ α 1 + x 2 ⁢ α 2 + ⋯ + x m ⁢ α m 其中
α i 在
S 中, 并且
β 是一个线性组合,
β = y 1 ⁢ β 1 + y 2 ⁢ β 2 + ⋯ + y n ⁢ β n 其中
β j 在
S 中. 对于每个标量
c ,
c ⁢ α + β = ∑ i = 1 m ( c ⁢ x i ) ⁢ α i + ∑ j = 1 n y j ⁢ β j 因此,
c ⁢ α + β 属于
L , 于是
L 是
V 的一个子空间.
现在我们已经证明
L 是包含
S 的一个
V 的子空间, 并且任何包含
S 的子空间也包含
L , 于是
L 是所有包含
S 的子空间之交, 即
L 是由集合
S 张成的子空间.
◻
定义. 如果S 1 , S 2 , … , S k 是向量空间V 的子集, 那么所有形式为α 1 + α 2 + ⋯ + α k 的和 (其中α i 在S i 之中) 构成的集合被称为子集S 1 , S 2 , … , S k 的和, 用记号S 1 + S 2 + ⋯ + S k 表达, 或者∑ i = 1 k S i 如果W 1 , W 2 , … , W k 是V 的子空间, 那么和W = W 1 + W 2 + ⋯ + W k 显然是V 的一个子空间, 其包含每个子空间W i . 从中可以得到, 正如定理3的证明, W 是由W 1 , W 2 , … , W k 之并张成的子空间.
例子8. 令F 是复数域ℂ 的一个子域, 设α 1 = ( 1 , 2 , 0 , 3 , 0 ) , α 2 = ( 0 , 0 , 1 , 4 , 0 ) , α 3 = ( 0 , 0 , 0 , 0 , 1 ) 根据定理3, 一个向量α 在由α 1 , α 2 , α 3 张成的F 5 的子空间W 之中当且仅当存在F 中的标量c 1 , c 2 , c 3 满足α = c 1 ⁢ α 1 + c 2 ⁢ α 2 + c 3 ⁢ α 3 因此W 由所有形式为α = ( c 1 , 2 ⁢ c 1 , c 2 , 3 ⁢ c 1 + 4 ⁢ c 2 , c 3 ) 的向量构成, 其中c 1 , c 2 , c 3 是F 中任意的标量. 换句话说, W 可以被描述为由满足x 2 = 2 ⁢ x 1 , x 4 = 3 ⁢ x 1 + 4 ⁢ x 3 的5 元组α = ( x 1 , x 2 , x 3 , x 4 , x 5 ) 构成的集合, 其中x i 在F 中. 因此, ( − 3 , − 6 , 1 , − 5 , 2 ) 在W 中, 而( 2 , 4 , 6 , 7 , 8 ) 不在.
例子9. 令F 是复数域ℂ 的一个子域, 令V 是域F 上所有2 × 2 矩阵的向量空间. 令W 1 是包含所有形式为[ x y z 0 ] 的矩阵的V 的子集, 其中x , y , z 是F 中任意的标量. 最后, 令W 2 是包含所有形式为[ x 0 0 y ] 的矩阵的V 的子集, 其中x 和y 是F 中任意的标量. 那么, W 1 和W 2 是V 的子空间, 并且V = W 1 + W 2 因为[ a b c d ] = [ a b c 0 ] + [ 0 0 0 d ] 子空间W 1 ∩ W 2 包含所有形式为[ x 0 0 0 ] 的矩阵.
例子10. 令A 是域F 上的一个m × n 矩阵. A 的行向量是F n 中的向量, 其由α i = ( A i , 1 , … , A i , n ) , i = 1 , … , m 给定. 由A 的行向量张成的F n 的子空间被称为A 的行空间. 例子8中所考虑的子空间是矩阵A = [ 1 2 0 3 0 0 0 1 4 0 0 0 0 0 1 ] 的行空间. 它也是矩阵B = [ 1 2 0 3 0 0 0 1 4 0 0 0 0 0 1 − 4 − 8 1 − 8 0 ] 的行空间.
例子11. 令V 是所有域F 上的多项式函数的空间, 令S 是V 的一个子集, 包含多项式函数f 0 , f 1 , f 2 , … , 其由f n ⁡ ( x ) = x n , n = 0 , 1 , 2 , … 定义, 那么V 是由S 张成的子空间.
练习1. 以下哪些
ℝ n 中的向量
α = ( a 1 , … , a n ) 的集合是
ℝ n 的子空间 (
n ≥ 3 )?
所有满足a 1 ≥ 0 的α ; 所有满足a 1 + 3 ⁢ a 2 = a 3 的α ; 所有满足a 2 = a 1 2 的α ; 所有满足a 1 ⁢ a 2 = 0 的α ; 所有a 2 为有理数的α . 练习2. 令
V 是所有从
ℝ 到
ℝ 的函数
f 构成的(实)向量空间, 以下哪些函数的集合是
V 的子空间?
所有满足f ⁡ ( x 2 ) = [ f ⁡ ( x ) ] 2 的f ; 所有满足f ⁡ ( 0 ) = f ⁡ ( 1 ) 的f ; 所有满足f ⁡ ( 3 ) = 1 + f ⁡ ( − 5 ) 的f ; 所有满足f ⁡ ( − 1 ) = 0 的f ; 所有连续的f . 练习3. 向量( 3 , − 1 , 0 , − 1 ) 在由向量( 2 , − 1 , 3 , 2 ) , ( − 1 , 1 , 1 , − 3 ) , ( 1 , 1 , 9 , − 5 ) 张成的ℝ 4 的子空间之中吗?
练习4. 令W 是满足{ 2 ⁢ x 1 − x 2 + 4 3 ⁢ x 3 − x 4 = 0 x 1 + 2 3 ⁢ x 3 − x 5 = 0 9 ⁢ x 1 − 3 ⁢ x 2 + 6 ⁢ x 3 − 3 ⁢ x 4 − 3 ⁢ x 5 = 0 的所有ℝ 5 中的( x 1 , x 2 , x 3 , x 4 , x 5 ) 的集合. 找出一个张成W 的向量的有限集合.
练习5. 令
F 是一个域,
n 是一个大于等于
2 的正整数. 令
V 是域
F 上所有
n × n 矩阵的向量空间. 以下哪些
V 中矩阵
A 的集合是
V 的子空间?
所有可逆的A ; 所有不可逆的A ; 所有满足A ⁢ B = B ⁢ A 的A , 其中B 是V 中一个固定的矩阵; 所有满足A 2 = A 的A . 练习6. 证明ℝ 1 的子空间仅有ℝ 1 和零子空间. 证明ℝ 2 的子空间是ℝ 2 , 或是零子空间, 或是由某个ℝ 2 中固定的(非零)向量的标量倍数构成. (最后一种类型的子空间, 从直觉上说, 是一条通过原点的直线.) 你能描述ℝ 3 的子空间吗? 练习7. 令W 1 和W 2 是向量空间V 的子空间, 满足W 1 和W 2 之并也是子空间. 证明其中一个空间W i 是另一个的子集.
练习8. 令
V 是所有从
ℝ 到
ℝ 的函数
f 的向量空间, 令
V e 是偶函数的子集, 即满足
f ⁡ ( − x ) = f ⁡ ( x ) 的函数, 令
V o 是奇函数的子集, 即满足
f ⁡ ( − x ) = − f ⁡ ( x ) 的函数.
证明V e 和V o 是V 的子空间. 证明V e + V o = V . 证明V e ∩ V o = { 0 } . 练习9. 令W 1 和W 2 是向量空间V 的子空间, 满足W 1 + W 2 = V 且W 1 ∩ W 2 = { 0 } . 证明对于每个V 中的向量α 存在唯一的W 1 中的向量α 1 和W 2 中的向量α 2 满足α = α 1 + α 2 .
第2.3节 基和维数 现在我们转向为特定的向量空间赋一个维数的任务. 尽管我们通常将"维数"与某种几何的东西联系起来, 我们必须为向量空间的维数寻找一个合适的代数定义. 这将通过向量空间的基的概念来完成.
定义. 令V 是域F 上的一个向量空间. V 的一个子集S 被称为线性相关的, 如果存在S 中不同的向量α 1 , α 2 , … , α n 和F 中的不全为0 的标量c 1 , c 2 , … , c n 满足c 1 ⁢ α 1 + c 2 ⁢ α 2 + ⋯ + c n ⁢ α n = 0 不是线性相关的集合被称为线性无关的. 如果集合S 仅包含有限多个向量α 1 , α 2 , … , α n , 有时我们称α 1 , α 2 , … , α n 是线性相关的 (或线性无关的) 而不是说S 是线性相关的 (或线性无关的).
以下陈述是定义的简单推论.
任何包含线性相关集合的集合是线性相关的. 线性无关集合的任意子集是线性无关的. 任何包含零向量的集合是线性相关的, 因为1 ⋅ 0 = 0 . 一个集合S 是线性无关的当且仅当S 的每个有限子集是线性无关的, 即当且仅当对于S 的不同向量α 1 , … , α n 有c 1 ⁢ α 1 + ⋯ + c n ⁢ α n = 0 可以推出每个c i = 0 . 定义. 令V 是一个向量空间. V 的一个基是一个能够张成V 的线性无关的向量集合. V 被称为有限维的, 如果它拥有一个有限的基.
例子12. 令F 是一个ℂ 的子域. 在F 3 中, 向量α 1 = ( 3 , 0 , − 3 ) , α 2 = ( − 1 , 1 , 2 ) , α 3 = ( 4 , 2 , − 2 ) , α 4 = ( 2 , 1 , 1 ) 是线性相关的, 因为2 ⁢ α 1 + 2 ⁢ α 2 − α 3 + 0 ⋅ α 4 = 0 向量ε 1 = ( 1 , 0 , 0 ) , ε 2 = ( 0 , 1 , 0 ) , ε 3 = ( 0 , 0 , 1 ) 是线性无关的.
例子13. 令F 是一个域, 令S 是由ε 1 , ε 2 , … , ε n 构成的F n 的子集, 其中ε 1 = ( 1 , 0 , 0 , … , 0 ) , ε 2 = ( 0 , 1 , 0 , … , 0 ) , … , ε n = ( 0 , 0 , 0 , … , 1 ) 令x 1 , x 2 , … , x n 是F 中标量, 置α = x 1 ⁢ ε 1 + x 2 ⁢ ε 2 + ⋯ + x n ⁢ ε n , 那么α = ( x 1 , x 2 , … , x n ) 这表明ε 1 , … , ε n 可以张成F n . 因为α = 0 当且仅当x 1 = x 2 = ⋯ = x n = 0 , 所以向量ε 1 , … , ε n 是线性无关的. 因此, S = { ε 1 , … , ε n } 是F n 的一个基, 我们将其称为F n 的标准基.
例子14. 令P 是域F 上的一个n × n 的可逆矩阵, 那么P 的列P 1 , … , P n 构成了列矩阵空间F n × 1 的一个基, 理由如下. 如果X 是一个列矩阵, 那么P ⁢ X = x 1 ⁢ P 1 + ⋯ + x n ⁢ P n 既然P ⁢ X = 0 仅有平凡解X = 0 , 那么{ P 1 , … , P n } 是一个线性无关的集合. 为什么它能够张成F n × 1 呢? 令Y 是任意的列矩阵, 如果X = P − 1 ⁢ Y , 那么Y = P ⁢ X , 即Y = x 1 ⁢ P 1 + ⋯ + x n ⁢ P n 于是{ P 1 , … , P n } 是F n × 1 的一个基.
例子15. 令A 是一个m × n 矩阵, S 是齐次线性方程组A ⁢ X = 0 (例子7) 的解空间. 令R 是行等价于A 的一个行简化阶梯形式, 那么S 也是方程组R ⁢ X = 0 的解空间. 如果R 具有r 个非零行, 那么R ⁢ X = 0 就简单地将未知元x 1 , … , x n 中的r 个表达为了基于剩余n − r 个未知元x j 的线性组合. 设非零行的首非零元出现在第k 1 , … , k r 列, 令J 是除去k 1 , … , k r 剩下的n − r 个索引的集合:J = { 1 , … , n } − { k 1 , … , k r } 那么方程组R ⁢ X = 0 具有如下形式{ x k 1 + ∑ J c 1 , j ⁢ x j = 0 ⋮ ⋮ ⋮ x k r + ∑ J c r , j ⁢ x j = 0 其中c i , j 是特定的标量. 所有的解都可由以下方式获得, 对于每个J 中的j , 给x j 赋(任意的)值, 然后计算相应的x k 1 , … , x k r 的值. 若对于每个J 中的j , E j 是令x j = 1 , 其余x i = 0 (i 是J 中异于j 的索引) 得到的解, 那么我们断言这( n − r ) 个向量E j 构成了解空间的一个基. 因为列矩阵E j 的第j 行为1 , 而由J 中其余元素索引的行是0 , 根据例子13的推理, 这表明这些向量构成的集合是线性无关的. 以下是这些向量能够张成解空间的理由. 如果列矩阵T (其元素依次为t 1 , … , t n ) 在解空间之中, 那么矩阵N = ∑ J t j ⁢ E j 同样也在解空间之中, 并且满足对于每个J 中的j 有x j = t j . 具有这样性质的解是唯一的, 因此N = T , 而T 就在诸向量E j 张成的空间之中.
例子16. 现在我们将给出一个无穷基的例子. 令F 是复数域的一个子域, V 是F 上的多项式函数的空间. 回忆一下, 这些从F 到F 的函数具有如下形式f ⁡ ( x ) = c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n 令f k ⁡ ( x ) = x k , k = 0 , 1 , 2 , … , 那么(无限的)集合{ f 0 , f 1 , f 2 , … } 是V 的一个基. 显然, 它能张成V , 因为(上面的)函数f 可以表示为f = c 0 ⁢ f 0 + c 1 ⁢ f 1 + ⋯ + c n ⁢ f n 读者应该看出来这事实上不过就是重复一遍多项式函数的定义, 即一个从F 到F 的函数f 是多项式函数当且仅当存在一个整数n 和标量c 0 , … , c n 满足c 0 ⁢ f 0 + ⋯ + c n ⁢ f n . 那么为什么这些函数线性无关呢? 为了证明集合{ f 0 , f 1 , f 2 , … } 是线性无关的, 只需要证明其每个有限子集是线性无关的即可, 实际上证明对于每个n , 集合{ f 0 , … , f n } 是线性无关的就够了. 设c 0 ⁢ f 0 + ⋯ + c n ⁢ f n = 0 这等价于说c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n = 0 对于每个F 中的x 成立. 换句话说, 每个F 中的x 都是多项式函数f ⁡ ( x ) = c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n 的根. 我们假定读者已经知道一个n 阶的复系数多项式不可能拥有多于n 个的不同的根, 于是就有c 0 = c 1 = ⋯ = c n = 0 . 我们已经给出了V 的一个无限的基, 那么这是否意味着V 不是有限维的? 实际上的确如此, 但这不能通过定义直接得到, 因为就目前我们所知, 或许V 还拥有一个有限的基. 不过, 这种可能性很容易被排除. (我们将于下一个定理中在一般情况下排除它.) 假设我们拥有一个有限数目的多项式函数g 1 , … , g r , 那么g 1 ⁡ ( x ) , … , g r ⁡ ( x ) 中将出现一个最高的x 的幂次. 如果该幂次是k , 那么显然f k + 1 ⁡ ( x ) = x k + 1 不在g 1 , … , g r 的线性扩张之中, 因此V 不可能是有限维的. [译注: 当然, 存在一种极端情况, 即每个多项式函数都是零函数, 那就不存在最高的幂次, 不过这种情况可以被特殊对待, 论证仍然完全合理.]
关于这个例子的最后一条评注就位了. 无限的基同"无限的线性组合"毫无关系. 若是读者不能抵制将幂级数∑ k = 0 ∞ c k ⁢ x k 注入这个例子之中, 那么他就应该再一次好好琢磨一下这个例子. 如果还是没有疗效的话, 从现在开始他就应该考虑将注意力限制在有限维空间上.
定理4. 令V 是一个由有限多个向量β 1 , β 2 , … , β m 张成的向量空间, 那么V 中任意线性无关的集合都是有限的, 并且拥有的元素不超过m 个.
证明. 为了证明这个定理, 只需要证明
V 的每个拥有超过
m 个元素的子集
S 是线性相关的就够了. 令
S 就是这样一个集合. 在
S 中, 存在
n 个互异的向量
α 1 , α 2 , … , α n , 其中
n > m . 因为
β 1 , … , β m 能够张成
V , 所以存在
F 中的标量
A i , j 满足
α j = ∑ i = 1 m A i , j ⁢ β i 对于
n 个标量
x 1 , x 2 , … , x n , 我们有
x 1 ⁢ α 1 + ⋯ + x n ⁢ α n = ∑ j = 1 n x j ⁢ α j = ∑ j = 1 n x j ⁢ ( ∑ i = 1 m A i , j ⁢ β i ) = ∑ j = 1 n ∑ i = 1 m ( A i , j ⁢ x j ) ⁢ β i = ∑ i = 1 m ( ∑ j = 1 n A i , j ⁢ x j ) ⁢ β i 既然
n > m , 那么根据第1章的定理6, 存在不全为零的
x 1 , x 2 , … , x n 满足
∑ j = 1 n A i , j ⁢ x j = 0 , 1 ≤ i ≤ m 因此
x 1 ⁢ α 1 + x 2 ⁢ α 2 + ⋯ + x n ⁢ α n = 0 , 这表明
S 是线性相关的集合.
◻
推论1. 如果V 是一个有限维向量空间, 那么任意两个V 的基都具有相同(有限)数目的元素.
证明. 既然
V 是有限维的, 它拥有一个有限的基
{ β 1 , β 2 , … , β m } [译注: 这个记号隐含了
β 1 , β 2 , … , β m 互异之意, 但请读者注意, 这并非集合论公理的要求, 只是一个常见的默认约定罢了.] 根据定理4, 每个
V 的基都应该是有限的, 并且拥有的元素不超过
m 个. 因此, 如果
{ α 1 , α 2 , … , α n } 是一个基, 那么
n ≤ m . 根据相同的论证, 有
m ≤ n , 于是
m = n .
◻
这个推论允许我们将有限维向量空间的维数定义为V 的一个基的元素个数. 我们将用dim ⁡ V 表示有限维向量空间V 的维数. 这允许我们重新表述定理4如下.
推论2. 令
V 是一个有限维向量空间, 令
n = dim ⁡ V , 那么
任何包含多于n 个向量的V 的子集是线性相关的; 没有包含少于n 个向量的V 的子集可以张成V . 例子17. 如果F 是一个域, 那么F n 的维数是n , 因为F n 的标准基包含n 个向量. 矩阵空间F m × n 的维数是m ⁢ n . 若与F n 的情况进行类比, 这应该是很显然的, 因为m ⁢ n 个矩阵, 其中每个矩阵的第i 行j 列是1 , 其余位置是0 , 构成了F m × n 的一个基. 如果A 是一个m × n 的矩阵, 那么A 的维数是n − r , 其中r 是与A 行等价的行简化阶梯矩阵的非零行数, 见例子15. 如果V 是F 上任意的向量空间, 那么其零子空间可由向量0 张成, 但是{ 0 } 是线性相关的集合, 因此不是一个基. 出于这样的原因, 我们将约定零子空间的维数是0 . 另一种做法是, 我们论证空集是零子空间的基, 那么也能够达成相同的结论. 空集可以张成{ 0 } , 因为所有包含空集的子空间之交是{ 0 } . 并且, 空集也是线性无关的, 因为它不包含任何向量.
引理. 令S 是向量空间V 的一个线性无关的子集, 设β 是V 中向量但不在S 张成的子空间之中, 那么将β 加入S 得到的集合仍然是线性无关的.
证明. 设
α 1 , … , α m 是
S 中互异的向量, 并且
c 1 ⁢ α 1 + ⋯ + c m ⁢ α m + b ⁢ β = 0 那么
b = 0 , 否则的话
β = ( − c 1 b ) ⁢ α 1 + ⋯ + ( − c m b ) ⁢ α m 那么
β 就在
S 张成的子空间之中. 因此,
c 1 ⁢ α 1 + ⋯ + c m ⁢ α m = 0 . 既然
S 是线性无关的, 那么每个
c i = 0 .
◻
定理5. 如果W 是一个有限维向量空间V 的子空间, 那么W 每个线性无关的子集都是有限的, 并且是W 的某个(有限的)基的一部分.
证明. 设
S 0 是
W 的一个线性无关的子集. 如果
S 是包含
S 0 的
W 的一个线性无关的子集, 那么
S 也是
V 的一个线性无关的子集. 因为
V 是有限维的, 所以
S 包含的元素个数不超过
dim ⁡ V 个.
我们按照以下方式将
S 0 扩展为
W 的一个基. 如果
S 0 可以张成
W , 那么
S 0 就是
W 的一个基, 我们的任务就完成了. 如果
S 0 不能张成
W , 那么根据前述引理, 我们可以在
W 中找到一个
β 1 满足
S 1 = S 0 ∪ { β 1 } 是线性无关的. [译注: 显然
β 1 不是
S 0 的元素.] 如果
S 1 能够张成
W , 那就结束了. 否则的话, 再次应用引理以得到一个
W 中的
β 2 满足
S 2 = S 1 ∪ { β 2 } 是线性无关的. 继续实行此法, 那么 (在不超过
dim ⁡ V 步的情况下) 我们能够抵达一个集合
S m = S 0 ∪ { β 1 , … , β m } 其为
W 的一个基.
◻
推论1. 如果W 是有限维向量空间V 的一个真子空间, 那么W 也是有限维的, 并且dim ⁡ W < dim ⁡ V .
证明. 我们不妨设
W 包含一个向量
α ≠ 0 . 根据定理5及其证明, 存在一个
W 的基, 其包含
α 且拥有不超过
dim ⁡ V 个元素. 因此,
W 是有限维的, 并且
dim ⁡ W ≤ dim ⁡ V . 既然
W 是一个真子空间, 那么存在
V 中的向量
β , 但其不在
W 中. 将
β 加入
W 的任何一个基之中, 我们都能得到
V 的一个线性无关的子集, 于是
dim ⁡ W < dim ⁡ V . [译注: 实际上证明不必如此曲折, 从空集开始就好, 即能扩展成为
W 的一个基, 并且这也覆盖了
W 是零子空间的平凡情况.]
◻
推论2. 在有限维向量空间V 中每个非空的线性无关集合都是某个基的一部分. [译注: 平凡的空集情况当然也是某个基的一部分.]
推论3. 令A 是域F 上的一个n × n 矩阵, 设其行向量构成了F n 的一个线性无关的集合, 那么A 是可逆的. [译注: 一般情况下, "构成集合"也就默认了互异, 尽管这不存在什么确切的道理可言.]
证明. 令
α 1 , α 2 , … , α n 是
A 的行向量, 设
W 是由
α 1 , α 2 , … , α n 张成的
F n 的子空间. 既然
α 1 , α 2 , … , α n 是线性无关的, 那么
W 的维数就是
n . 推论1现在告诉我们
W = F n , 因此存在
F 中标量
B i , j 满足
ε i = ∑ j = 1 n B i , j ⁢ α j , 1 ≤ i ≤ n 其中
{ ε 1 , ε 2 , … , ε n } 是
F n 的标准基, 因此对于以
B i , j 为元素的矩阵
B , 我们有
B ⁢ A = I ◻
定理6. 如果
W 1 和
W 2 是向量空间
V 的有限维子空间, 那么
W 1 + W 2 也是有限维的, 并且有
dim ⁡ W 1 + dim ⁡ W 2 = dim ⁡ ( W 1 ∩ W 2 ) + dim ⁡ ( W 1 + W 2 ) 证明. 根据定理5及其推论,
W 1 ∩ W 2 具有一个有限的基
{ α 1 , … , α k } , 其为
W 1 的基
{ α 1 , … , α k , β 1 , … , β m } 的一部分, 也是
W 2 的基
{ α 1 , … , α k , γ 1 , … , γ n } 的一部分. 子空间
W 1 + W 2 可由向量
α 1 , … , α k , β 1 , … , β m , γ 1 , … , γ n 张成, 并且这些向量也构成了一个线性无关的集合, 因为若设
∑ x i ⁢ α i + ∑ y j ⁢ β j + ∑ z r ⁢ γ r = 0 那么
− ∑ z r ⁢ γ r = ∑ x i ⁢ α i + ∑ y j ⁢ β j 这表明
∑ z r ⁢ γ r 属于
W 1 . 因为
∑ z r ⁢ γ r 也属于
W 2 , 所以
∑ z r ⁢ γ r = ∑ c i ⁢ α i 对于特定的
c 1 , … , c k 成立. 鉴于
{ α 1 , … , α k , γ 1 , … , γ n } 是线性无关的, 每个标量
z r = 0 , 因此
∑ x i ⁢ α i + ∑ y j ⁢ β j = 0 既然
{ α 1 , … , α k , β 1 , … , β m } 也是线性无关的, 那么有每个
x i = 0 且每个
y j = 0 . 最终我们得到
{ α 1 , … , α k , β 1 , … , β m , γ 1 , … , γ n } 是
W 1 + W 2 的一个基, 于是
dim ⁡ W 1 + dim ⁡ W 2 = ( k + m ) + ( k + n ) = k + ( m + k + n ) = dim ⁡ ( W 1 ∩ W 2 ) + dim ⁡ ( W 1 + W 2 ) ◻
让我们以一条关于线性无关和线性相关的注记作结. 我们对于向量的集合定义了这些概念. 对于向量的有限序列 (有序的n 元组) α 1 , … , α n 定义它们也是很有用的. 我们称向量α 1 , … , α n 是线性相关的, 如果存在不全为零的标量c 1 , … , c n 满足c 1 ⁢ α 1 + ⋯ + c n ⁢ α n = 0 . 这是如此自然的, 以至于读者可能会发现他已经在这样使用术语了. 那么, 有限序列α 1 , … , α n 和集合{ α 1 , … , α n } 之间有什么区别呢? 存在两种区别, 等同性和顺序. 如果我们讨论集合{ α 1 , … , α n } , 通常已经假定向量α 1 , … , α n 之中没有两个向量是相同的. 对于序列α 1 , … , α n 而言, 可能每个α i 都是相同的向量. 若对于某i ≠ j 有α i = α j , 那么序列α 1 , … , α n 是线性相关的:α i + ( − 1 ) ⁢ α j = 0 因此, 如果α 1 , … , α n 是线性无关的, 那么它们就是互异的, 并且我们可以讨论集合{ α 1 , … , α n } , 知道其中有n 个向量. 显然, 在讨论基和维数的时候, 这不会引起什么歧义. 有限维向量空间V 的维数就是满足存在V 中线性无关的n 元向量组的最大的n , 诸如此类. 若是读者感到本段杂乱无章而毫无内容可言, 那么他该问问自己向量α 1 = ( e π / 2 , 1 ) , α 2 = ( 110 3 , 1 ) 在ℝ 2 中是否线性无关. 一个序列的元素以特定的顺序被枚举出来. 一个集合是对象的合集, 而没有预先给定的排列或顺序. 当然, 为了描述一个集合, 我们或许会列出其成员, 而这就需要挑选一个顺序. 但是, 顺序不是集合的一部分. 集合{ 1 , 2 , 3 , 4 } 和{ 4 , 3 , 2 , 1 } 是等同的, 而序列1 , 2 , 3 , 4 与4 , 3 , 2 , 1 相当不同. 序列的顺序方面并不影响线性相关或者无关, 因为线性相关性 (根据定义) 并不受顺序影响. 序列α n , … , α 1 线性相关当且仅当序列α 1 , … , α n 线性相关. 在下一节中, 顺序将变得重要起来.
练习1. 证明如果两个向量线性相关, 那么其中一个是另一个的标量倍数.
练习2. 向量α 1 = ( 1 , 1 , 2 , 4 ) , α 2 = ( 2 , − 1 , − 5 , 2 ) , α 3 = ( 1 , − 1 , − 4 , 0 ) , α 4 = ( 2 , 1 , 1 , 6 ) 在ℝ 4 中线性无关吗?
练习3. 找到由练习2的四个向量张成的ℝ 4 的子空间的一个基.
练习4. 证明向量α 1 = ( 1 , 0 , − 1 ) , α 2 = ( 1 , 2 , 1 ) , α 3 = ( 0 , − 3 , 2 ) 构成了ℝ 3 的一个基. 将每个标准基向量表达为α 1 , α 2 , α 3 的线性组合.
练习5. 找出ℝ 3 中的三个向量, 它们线性相关, 但是两两线性无关.
练习6. 令V 是域F 上的2 × 2 矩阵的向量空间. 通过给出V 的一个具有四个元素的基, 证明V 的维数是4 .
练习7. 令
V 是练习6的向量空间, 令
W 1 是由形式为
[ x − x y z ] 的矩阵构成的集合, 令
W 2 是由形式为
[ a b − a c ] 的矩阵构成的集合.
证明W 1 和W 2 是V 的子空间. 找出W 1 , W 2 , W 1 + W 2 , W 1 ∩ W 2 的维数. 练习8. 又一次令V 是域F 上的2 × 2 矩阵的向量空间. 找出V 的一个基{ A 1 , A 2 , A 3 , A 4 } 满足对于每个j 有A j 2 = A j .
练习9. 令V 是复数域的一个子域F 上的一个向量空间. 设α , β , γ 是V 中线性无关的向量. 证明( α + β ) , ( β + γ ) , ( γ + α ) 是线性无关的.
练习10. 令V 是域F 上的一个向量空间. 设有限数目的向量α 1 , … , α r 能够张成V . 证明V 是有限维的.
练习11. 令
V 是复数域上所有满足
A 1 , 1 + A 2 , 2 = 0 的
2 × 2 矩阵
A 构成的集合.
证明在通常的运算下, V 是实数域上的向量空间. 找出该向量空间的一个基. 令W 为V 中满足A 2 , 1 = − A 1 , 2 ‾ 的矩阵A 的集合, 其中横杠代表复数共轭. 证明W 是V 的子空间并找出W 的一个基. 练习12. 通过找出向量空间的一个基, 证明域F 上的m × n 矩阵构成的向量空间的维数是m ⁢ n .
练习13. 讨论练习9, 其中V 是二元域上的向量空间. 二元域见第1.2节的练习5.
练习14. 令V 是实数集合. 若将V 视为有理数域上的向量空间 (带有通常的运算), 证明该向量空间不是有限维的.
第2.4节 坐标 n 维空间V 的基𝔅 的诸多有用性质之一在于, 它允许人们在V 中引入与空间F n 中的向量α = ( x 1 , … , x n ) 的"自然坐标"x i 类似的东西. 沿此进路, V 中的向量α 相对于基𝔅 的坐标将会是用于将α 表达为基中向量的线性组合的标量. 因此, 我们想要将F n 中的向量α 的自然坐标视为由α 和F n 的标准基定义的. 然而, 若是采取此法, 我们必须足够小心. 如果α = ( x 1 , … , x n ) = ∑ i = 1 n x i ⁢ ε i 而𝔅 是F n 的标准基, 那么α 的坐标是如何由𝔅 和α 决定的呢? 一种组织回答的方式如下. 给定的α 作为标准基向量的线性组合的表达是唯一的, 并且α 的第i 个坐标x i 就是该表达下ε i 的系数. 以此观点来看, 我们之所以能够言称何谓第i 个坐标, 是因为我们已经为标准基中的向量安排了"自然"的顺序. 也就是说, 我们拥有一个规则来确定哪一个是基中"第一"的向量, 哪一个是基中"第二"的向量, 诸如此类. 如果𝔅 是n 维空间V 的任意一个基, 那么可能𝔅 中的向量并没有什么自然的顺序. 因此, 在我们能够定义"α 相对于𝔅 的第i 个坐标"之前, 就有必要为这些向量施加一个顺序. 换言之, 坐标将相对于向量的序列而不是向量的集合进行定义.
定义. 如果V 是一个有限维向量空间, 那么V 的一个有序基是一个向量的有限序列, 其线性无关并可张成V .
如果序列α 1 , … , α n 是V 的一个有序基, 那么集合{ α 1 , … , α n } 是V 的一个基. 有序基不过就是基的集合, 带上一个指定的顺序. 我们将稍微滥用一下符号, 言称𝔅 = { α 1 , … , α n } 是V 的一个有序基. 这不仅确定了什么是基的向量, 也刻画了顺序.
现在我们设V 是域F 上的一个有限维向量空间, 并且𝔅 = { α 1 , … , α n } 是V 的一个有序基. 给定V 中的α , 存在唯一的一个标量的n 元组满足α = ∑ i = 1 n x i ⁢ α i 之所以这个n 元组是唯一的, 是因为若我们同样有α = ∑ i = 1 n z i ⁢ α i 那么∑ i = 1 n ( x i − z i ) ⁢ α i = 0 并且α i 的线性无关性告诉我们对于每个i 有x i − z i = 0 . 我们称x i 为α 相对于有序基𝔅 = { α 1 , … , α n } 的第i 个坐标. 如果β = ∑ i = 1 n y i ⁢ α i 那么α + β = ∑ i = 1 n ( x i + y i ) ⁢ α i 于是( α + β ) 在此有序基之下的第i 个坐标是( x i + y i ) . 类似地, ( c ⁢ α ) 的第i 个坐标是c ⁢ x i . 读者也应该注意到每个F 中的n 元组( x 1 , … , x n ) 也是V 中某个向量的坐标的n 元组, 即∑ i = 1 n x i ⁢ α i
总结一下, 每个V 的有序基都确定了一个V 的所有向量的集合与F n 的所有n 元组的集合之间的一一对应α ↦ ( x 1 , … , x n ) 这个对应拥有以下性质. ( α + β ) 的像是F n 中α 和β 的像之和, 以及( c ⁢ α ) 的像是F n 中的标量c 与α 的像之积.
有的读者或许想问为什么在此时此刻我们为什么不简单地选取一个V 的有序基然后将V 的每个向量描述为与之对应的坐标n 元组, 因为若是这样的话, 我们就可以获得只与n 元组打交道之便. 这违背了我们的目的, 出于两个原因. 首先, 正如我们对于向量空间的公理化定义所暗示的那样, 我们试图研究如何将向量空间作为抽象的代数系统进行推理. 其次, 即便是在那些我们使用坐标的场合, 有的重要结果来源于我们能够改变坐标系统的能力, 即改变有序基的能力.
往往对于我们而言使用α 相对于𝔅 的坐标矩阵X = [ x 1 ⋮ x n ] 而不是坐标n 元组( x 1 , … , x n ) 更加方便. 为了指明坐标矩阵依赖于哪个基, 我们将使用符号[ α ] 𝔅 来表示向量α 相对于有序基𝔅 的坐标矩阵. 从一个有序基变到另一个有序基时, 这个记号对于描述向量α 的坐标发生了什么变化是特别有用的.
接着, 我们设V 是n 维的, 并且𝔅 = { α 1 , … , α n } 和 𝔅 ′ = { α 1 ′ , … , α n ′ } 是V 的两个有序基. 存在唯一的标量P i , j 满足α j ′ = ∑ i = 1 n P i , j ⁢ α i , 1 ≤ j ≤ n 令x 1 ′ , … , x n ′ 是给定的向量α 相对于有序基𝔅 ′ 的坐标, 那么α = x 1 ′ ⁢ α 1 ′ + ⋯ + x n ′ ⁢ α n ′ = ∑ j = 1 n x j ′ ⁢ α j ′ = ∑ j = 1 n x j ′ ⁢ ∑ i = 1 n P i , j ⁢ α i = ∑ j = 1 n ∑ i = 1 n ( P i , j ⁢ x j ′ ) ⁢ α i = ∑ i = 1 n ( ∑ j = 1 n P i , j ⁢ x j ′ ) ⁢ α i 因此我们就得到关系α = ∑ i = 1 n ( ∑ j = 1 n P i , j ⁢ x j ′ ) ⁢ α i 既然α 在有序基𝔅 下的坐标x 1 , … , x n 是被唯一确定的, 那么x i = ∑ j = 1 n P i , j ⁢ x j ′ , 1 ≤ i ≤ n 令P 是一个n × n 矩阵, 其第i 行j 列的元素是标量P i , j 并令X 和X ′ 分别是α 在基𝔅 和𝔅 ′ 下的坐标矩阵, 那么我们可以重新表达上述结果为X = P ⁢ X ′ 既然𝔅 和𝔅 ′ 都是线性无关的, 那么X = 0 当且仅当X ′ = 0 . 根据第1章的定理7, P 是可逆的, 于是X ′ = P − 1 ⁢ X 若我们使用之前引入的向量相对于某个有序基的坐标矩阵的记号, 那么[ α ] 𝔅 = P ⁢ [ α ] 𝔅 ′ , [ α ] 𝔅 ′ = P − 1 ⁢ [ α ] 𝔅 因而之前的讨论可以被总结如下.
定理7. 令V 是域F 上的n 维向量空间, 令𝔅 和𝔅 ′ 是V 的两个有序基, 那么存在一个唯一的且必然可逆的域F 上的n × n 矩阵P 满足[ α ] 𝔅 = P ⁢ [ α ] 𝔅 ′ , [ α ] 𝔅 ′ = P − 1 ⁢ [ α ] 𝔅 对于每个V 中的向量α 成立. P 的列由P j = [ α j ′ ] 𝔅 , j = 1 , … , n 给出.
为了使上面的分析完整, 我们还需要证明以下结果.
定理8. 设P 是域F 上的一个n × n 可逆矩阵. 令V 是域F 上的一个n 维向量空间, 令𝔅 是V 的一个有序基. 那么, 存在唯一的一个V 的有序基𝔅 ′ 满足[ α ] 𝔅 = P ⁢ [ α ] 𝔅 ′ , [ α ] 𝔅 ′ = P − 1 ⁢ [ α ] 𝔅 对于每个V 中的向量α 成立.
证明. 令
𝔅 由向量
α 1 , … , α n 构成. 如果
𝔅 ′ = { α 1 ′ , … , α n ′ } 是满足第一条的
V 的有序基, 那么显然有
α j ′ = ∑ i = 1 n P i , j ⁢ α i 因此我们只需要证明由这些等式定义的向量
α j ′ 的确构成了一个基. 令
Q = P − 1 , 那么
∑ j Q j , k ⁢ α j ′ = ∑ j Q j , k ⁢ ∑ i P i , j ⁢ α i = ∑ j ∑ i P i , j ⁢ Q j , k ⁢ α i = ∑ i ( ∑ j P i , j ⁢ Q j , k ) ⁢ α i = α k 故由集合
𝔅 ′ = { α 1 ′ , … , α n ′ } 张成的子空间包含
𝔅 , 因而等于
V . 于是,
𝔅 ′ 是一个基. 根据其定义和定理7, 显然第一条是成立的, 第二条也是.
◻
例子18. 令F 是一个域, 令α = ( x 1 , x 2 , … , x n ) 是一个F n 中的向量. 如果𝔅 是F n 的标准有序基, 即𝔅 = { ε 1 , … , ε n } 那么向量α 在基𝔅 下的坐标矩阵为[ α ] 𝔅 = [ x 1 x 2 ⋮ x n ]
例子19. 令ℝ 是实数域, 令θ 是一个固定的实数. 矩阵P = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] 是可逆的, 其逆为P − 1 = [ cos ⁡ θ sin ⁡ θ − sin ⁡ θ cos ⁡ θ ] 因此, 对于每个θ , 由向量( cos ⁡ θ , sin ⁡ θ ) 和( − sin ⁡ θ , cos ⁡ θ ) 构成的集合𝔅 ′ 是ℝ 2 的一个基. 从直觉上说, 这个基可被描述为由标准基旋转角度θ 得到的. 如果α 是向量( x 1 , x 2 ) , 那么[ α ] 𝔅 ′ = [ cos ⁡ θ sin ⁡ θ − sin ⁡ θ cos ⁡ θ ] ⁢ [ x 1 x 2 ] 或者x 1 ′ = x 1 ⁢ cos ⁡ θ + x 2 ⁢ sin ⁡ θ , x 2 ′ = − x 1 ⁢ sin ⁡ θ + x 2 ⁢ cos ⁡ θ .
例子20. 令F 是复数域的一个子域. 矩阵P = [ − 1 4 5 0 2 − 3 0 0 8 ] 是可逆的, 其逆为P − 1 = [ − 1 2 11 8 0 1 2 3 16 0 0 1 8 ] 因此向量α 1 ′ = ( − 1 , 0 , 0 ) , α 2 ′ = ( 4 , 2 , 0 ) , α 3 ′ = ( 5 , − 3 , 8 ) 构成了F 3 的一个基𝔅 ′ . 向量α = ( x 1 , x 2 , x 3 ) 在基𝔅 ′ 下的坐标x 1 ′ , x 2 ′ , x 3 ′ 由[ x 1 ′ x 2 ′ x 3 ′ ] = [ − x 1 + 2 ⁢ x 2 + 11 8 ⁢ x 3 1 2 ⁢ x 2 + 3 16 ⁢ x 3 1 8 ⁢ x 3 ] = [ − 1 2 11 8 0 1 2 3 16 0 0 1 8 ] ⁢ [ x 1 x 2 x 3 ] 特别地,( 3 , 2 , − 8 ) = − 10 ⁢ α 1 ′ − 1 2 ⁢ α 2 ′ − α 3 ′
练习1. 证明向量α 1 = ( 1 , 1 , 0 , 0 ) , α 2 = ( 0 , 0 , 1 , 1 ) , α 3 = ( 1 , 0 , 0 , 4 ) , α 4 = ( 0 , 0 , 0 , 2 ) 构成了ℝ 4 的一个基. 找出每个标准基向量在有序基{ α 1 , α 2 , α 3 , α 4 } 下的坐标.
练习2. 找出向量( 1 , 0 , 1 ) 在ℂ 3 的有序基( 2 ⁢ i , 1 , 0 ) , ( 2 , − 1 , 1 ) , ( 0 , 1 + i , 1 − i ) 下的坐标矩阵.
练习3. 令𝔅 = { α 1 , α 2 , α 3 } 是由α 1 = ( 1 , 0 , − 1 ) , α 2 = ( 1 , 1 , 1 ) , α 3 = ( 1 , 0 , 0 ) 构成的ℝ 3 的有序基. 那么, 向量( a , b , c ) 在有序基𝔅 下的坐标是什么呢?
练习4. 令
W 是由
α 1 = ( 1 , 0 , i ) 和
α 2 = ( 1 + i , 1 , − 1 ) 张成的
ℂ 3 的子空间.
证明α 1 和α 2 构成了W 的一个基. 证明β 1 = ( 1 , 1 , 0 ) 和β 2 = ( 1 , i , 1 + i ) 也在W 中并且构成了W 的另一个基. α 1 和α 2 在W 的有序基{ β 1 , β 2 } 下的坐标是什么?练习5. 令α = ( x 1 , x 2 ) 和β = ( y 1 , y 2 ) 是ℝ 2 中满足x 1 ⁢ y 1 + x 2 ⁢ y 2 = 0 , x 1 2 + x 2 2 = y 1 2 + y 2 2 = 1 的向量. 证明𝔅 = { α , β } 是ℝ 2 的一个基. 找出向量( a , b ) 在有序基𝔅 = { α , β } 下的坐标. (α 和β 上的条件, 从几何上说, 指的是α 和β 垂直, 并且每个长度均为1 .)
练习6. 令
V 是一个复数域上的向量空间, 其由所有从
ℝ 到
ℂ 的函数构成, 即实轴上所有复值函数的空间. 令
f 1 ⁡ ( x ) = 1 , f 2 ⁡ ( x ) = e i ⁢ x , f 3 ⁡ ( x ) = e − i ⁢ x .
证明f 1 , f 2 , f 3 是线性无关的. 令g 1 ⁡ ( x ) = 1 , g 2 ⁡ ( x ) = cos ⁡ x , g 3 ⁡ ( x ) = sin ⁡ x , 找出一个3 × 3 的矩阵P 满足g j = ∑ i = 1 3 P i , j ⁢ f i . 练习7. 令V 是所有次数小于等于2 的从ℝ 到ℝ 的多项式函数构成的(实)向量空间, 即由所有形式为f ⁡ ( x ) = c 0 + c 1 ⁢ x + c 2 ⁢ x 2 的函数f 构成的空间. 令t 是一个固定的实数, 定义g 1 ⁡ ( x ) = 1 , g 2 ⁡ ( x ) = x + t , g 3 ⁡ ( x ) = ( x + t ) 2 证明𝔅 = { g 1 , g 2 , g 3 } 是V 的一个基. 如果f ⁡ ( x ) = c 0 + c 1 ⁢ x + c 2 ⁢ x 2 那么f 在此有序基𝔅 下的坐标是什么呢?
第2.5节 行等价的总结 本节我们将利用一些有限维向量空间基和维数的基本事实来完成我们对于矩阵的行等价性的讨论. 回忆一下, 如果A 是域F 上的一个m × n 矩阵, 那么A 的行向量是F n 中的向量α 1 , … , α m , 由α i = ( A i , 1 , … , A i , n ) 定义. A 的行空间是由这些向量张成的F n 的子空间. A 的行秩是A 的行空间的维数.
如果P 是域F 上的一个k × m 矩阵, 那么积B = P ⁢ A 是一个k × n 矩阵, 其行向量β 1 , … , β k 分别为线性组合β i = P i , 1 ⁢ α 1 + ⋯ + P i , m ⁢ α m 因此, B 的行空间是A 的行空间的一个子空间. 如果P 是一个m × m 的可逆矩阵, 那么B 行等价于A , 于是根据行等价的对称性, 或者等式A = P − 1 ⁢ B , 可知A 的行空间也是B 的行空间的一个子空间.
定理9. 行等价的矩阵拥有相同的子空间.
因而我们发现为了研究A 的行空间, 研究与A 行等价的行简化阶梯矩阵的行空间也是一样的. 接下来我们就要这么做.
定理10. 令R 是一个非零的行简化阶梯矩阵, 那么R 的非零行向量构成了R 的行空间的一个基.
证明. 令
ρ 1 , … , ρ r 是
R 的非零行向量, 那么显然这些向量可以张成
R 的行空间, 因此我们只需证明它们线性无关即可. 既然
R 是一个行简化阶梯矩阵, 那么存在正整数
k 1 , … , k r 满足对于
i ≤ r ,
R ⁡ ( i , j ) = 0 若j < k i ;R ⁡ ( i , k j ) = δ i , j ;k 1 < ⋯ < k r .设
β = ( b 1 , … , b n ) 是
R 的行空间的一个向量:
β = c 1 ⁢ ρ 1 + ⋯ + c r ⁢ ρ r 那么我们发现
c j = b k j , 因为
b k j = ∑ i = 1 r c i ⁢ R ⁡ ( i , k j ) = ∑ i = 1 r c i ⁢ δ i , j = c j 特别地, 如果
β = 0 , 即如果
c 1 ⁢ ρ 1 + ⋯ + c r ⁢ ρ r = 0 , 那么
c j 必须是零向量的第
k j 个分量, 于是
c j = 0 , j = 1 , … , r . 因此,
ρ 1 , … , ρ r 是线性无关的.
◻
定理11. 令m 和n 是正整数, 令F 是一个域. 设W 是F n 的一个子空间, 并且dim ⁡ W ≤ m . 那么, 存在唯一的一个域F 上的m × n 的行简化阶梯矩阵以W 作为其行空间.
证明. 至少存在一个以
W 为行空间的
m × n 的行简化阶梯矩阵, 因为既然
dim ⁡ W ≤ m , 我们可以挑选出
W 中的某
m 个向量
α 1 , … , α m 张成
W . 令
A 是以
α 1 , … , α m 为行向量的
m × n 矩阵, 令
R 是与
A 行等价的行简化阶梯矩阵, 那么
R 的行空间就是
W .
现在令
R 是任意的以
W 为行空间的行简化阶梯矩阵, 令
ρ 1 , … , ρ r 是
R 的非零行向量, 设
ρ i 的首非零元在第
k i 列,
i = 1 , … , r . 向量
ρ 1 , … , ρ r 构成了
W 的一个基. 在定理10的证明中, 我们观察到如果
β = ( b 1 , … , b n ) 在
W 之中, 那么有
β = c 1 ⁢ ρ 1 + ⋯ + c r ⁢ ρ r , 并且
c i = b k i . 换句话说,
β 作为
ρ 1 , … , ρ r 的线性组合的唯一表示即
β = ∑ i = 1 r b k i ⁢ ρ i 因此若读者知道了坐标分量
b k i , i = 1 , … , r , 那么向量
β 就是确定的了. 例如,
ρ s 可以被描述为
W 中唯一的第
k s 个坐标为
1 , 第
k i 个坐标为
0 的向量, 其中
i ≠ s .
设
β 在
W 之中而
β ≠ 0 . 我们证明
β 的首非零元出现在某第
k s 列. 既然
β = ∑ i = 1 r b k i ⁢ ρ i 且
β ≠ 0 , 我们可以记
β = ∑ i = s r b k i ⁢ ρ i , b k s ≠ 0 [译注: 根据上下文可知, 这个
s 是满足
b k s ≠ 0 的最小的整数.] 根据行简化阶梯矩阵的条件, 我们知道若有
i > s 和
j ≤ k s , 那么
R i , j = 0 , 于是
β = ( 0 , … , 0 , b k s , … , b n ) , b k s ≠ 0 β 的首非零元即出现在第
k s 列. 读者也应该注意到, 对于每个
k s , s = 1 , … , r , 存在一个
W 中的向量, 其第
k s 个分量不为零, 即
ρ s .
现在看来
R 由
W 唯一决定是很清晰的了. 基于
W 对于
R 的刻画如下. 我们考虑所有
W 中的向量
β . 如果
β ≠ 0 , 那么
β 的首非零元必然出现在某第
t 列之中:
β = ( 0 , … , 0 , b t , … , b n ) , b t ≠ 0 令
k 1 , … , k r 是那些正整数
t , 满足存在
W 中的某个
β ≠ 0 其首非零元出现在第
t 列. 将
k 1 , … , k r 按照
k 1 < k 2 < ⋯ < k r 的顺序排列. 对于每个正整数
k s 存在唯一的
W 中的向量
ρ s 满足
ρ s 的第
k s 个分量为
1 , 第
k i 个分量为
0 , 其中
i ≠ s . 那么,
R 就是以
ρ 1 , … , ρ r , 0 , … , 0 为行向量的行简化阶梯矩阵.
◻
推论. 每个m × n 矩阵A 都行等价于唯一的一个行简化阶梯矩阵.
证明. 我们知道
A 至少行等价于一个行简化阶梯矩阵
R . 如果
A 还行等价于另一个这样的矩阵
R ′ , 那么
R 行等价于
R ′ . 因此,
R 和
R ′ 拥有相同的行空间, 必然是等同的.
◻
推论. 令A 和B 是域F 上的m × n 矩阵, 那么A 与B 行等价当且仅当它们拥有相同的行空间.
证明. 我们已经知道如果
A 和
B 行等价, 那么它们拥有相同的行空间. 于是, 设
A 和
B 拥有相同的行空间. 现在,
A 行等价于一个行简化阶梯矩阵
R ,
B 行等价于一个行简化阶梯矩阵
R ′ . 既然
A 和
B 拥有相同的行空间, 那么
R 和
R ′ 也拥有相同的行空间. 因此
R = R ′ ,
A 行等价于
B .
◻
总结一下, 如果A 和B 是域F 上的m × n 矩阵, 那么以下陈述等价:
A 和B 行等价.A 和B 拥有相同的行空间.B = P ⁢ A , 其中P 是一个m × m 的可逆矩阵.第4条等价的陈述其实是齐次线性方程组
A ⁢ X = 0 和
B ⁢ X = 0 拥有相同的解. 然而, 尽管我们知道
A 与
B 的行等价可以推出这两个方程组拥有相同的解, 似乎最好将反方向的证明留到后面再说.
第2.6节 关于子空间的计算 现在我们想要展示初等行变换是如何为回答与F n 的子空间有关的特定问题提供一种标准化的方法的. 我们已经推导出了所有我们将用到的事实. 为了读者的方便, 它们被总结在这里. 这里的讨论适用于任何域F 上的n 维向量空间, 只需要选取一个固定的有序基𝔅 , 然后每个V 中的向量α 就可由n 元组x 1 , … , x n 刻画, 其给出了α 在有序基𝔅 下的坐标.
假设给定了F n 中的m 个向量α 1 , … , α m , 我们考虑下列问题.
如何判定向量α 1 , … , α m 是否线性相关? 更一般地, 如何找出由这些向量张成的子空间W 的维数? 给定F n 中的β , 如何判定β 是否是α 1 , … , α m 的线性组合, 即β 是否在子空间W 中? 如何给出子空间W 的一个显式描述? 第三个问题有些模糊, 因为它没有说明什么叫做一个"显式描述". 然而, 我们将给出我们心中所想的这种描述以扫清模糊. 根据这种描述, 问题一和问题二都可以立即回答.
令A 是一个带有行向量α i 的m × n 矩阵:α i = ( A i , 1 , … , A i , n ) . 施行一系列初等行变换, 自A 始, 终于行简化阶梯矩阵R . 之前我们已经说明过这是怎样做的. 此时, W (A 的行空间) 的维数是显然易见的, 因为这个维数不过就是R 的非零行向量的数目. 如果ρ 1 , … , ρ r 是R 的非零行向量, 那么𝔅 = { ρ 1 , … , ρ r } 是W 的一个基. 如果ρ i 的首非零元在第k i 列, 那么对于i ≤ r 我们有R ⁡ ( i , j ) = 0 , 如果 j < k i ; R ⁡ ( i , k j ) = δ i , j ; k 1 < ⋯ < k r . 子空间W 由所有具有以下形式的向量构成:β = c 1 ⁢ ρ 1 + ⋯ + c r ⁢ ρ r = ∑ i = 1 r c i ⁢ ( R i , 1 , … , R i , n ) 这样一个向量β 的坐标b 1 , … , b n 因此是b j = ∑ i = 1 r c i ⁢ R i , j 特别地, b k j = c j , 于是如果β = ( b 1 , … , b n ) 是ρ i 的线性组合, 那么它就必须是以下特定的线性组合.β = ∑ i = 1 r b k i ⁢ ρ i 将此β 上之条件转换为坐标形式即b j = ∑ i = 1 r b k i ⁢ R i , j , j = 1 , … , n 这就是由α 1 , … , α m 张成的子空间W 的显式描述, 即这个子空间由所有F n 中坐标满足显式描述的向量β 构成. 显式描述是什么样的呢? 首先, 它将W 描述为某个齐次线性方程组的所有解β = ( b 1 , … , b n ) . 这个方程组当然具有非常特别的性质, 因为它将( n − r ) 个坐标表示为另外r 个特别坐标b k 1 , … , b k r 的线性组合. 坐标b k i 的选择是完全自由的, 也就是说, 如果c 1 , … , c r 是任意的r 的标量, 那么W 中存在唯一的向量β 满足以c i 作为第k i 个坐标.
重要的点在于此: 给定向量α i , 行规约是一种确定整数r , k 1 , … , k r 和标量R i , j 的直接方法, 其给出了由α 1 , … , α m 张成的子空间的显式描述. 读者应该注意到定理11表明每个F n 的子空间W 都具有这样一个显式描述. 我们也应该指出问题2的一些东西. 我们已经在第1.4节陈述了如何找出一个m × m 的可逆矩阵P 满足R = P ⁢ A . P 的知识允许我们在可能的情况下找出满足β = x 1 ⁢ α 1 + ⋯ + x m ⁢ α m 的标量x 1 , … , x m . 这是因为R 的行向量由ρ i = ∑ j = 1 m P i , j ⁢ α j 给出, 于是若β 是α j 的线性组合, 那么我们有β = ∑ i = 1 r b k i ⁢ ρ i = ∑ i = 1 r b k i ⁢ ∑ j = 1 m P i , j ⁢ α j = ∑ j = 1 m ∑ i = 1 r b k i ⁢ P i , j ⁢ α j 因此x j = ∑ i = 1 r b k i ⁢ P i , j 是x j 的选择之一 (可能存在许多解).
这样一个问题, 即β = ( b 1 , … , b n ) 是否是α i 的线性组合, 以及若是的情况下标量x i 该是什么, 也可以通过问以下线性方程组∑ i = 1 m A i , j ⁢ x i = b j , j = 1 , … , n 是否有解, 以及解是什么来得出答案. 这个线性方程组的系数矩阵是n × m 的矩阵B , 其列向量分别为α 1 , … , α m . 第1章中我们讨论了使用初等行变换来解这样一个线性方程组B ⁢ X = Y . 让我们考虑一个例子, 其中我们采取两种观点来回答有关F n 的子空间的问题.
例子21. 让我们提出以下问题. 令
W 是由向量
α 1 = ( 1 , 2 , 2 , 1 ) , α 2 = ( 0 , 2 , 0 , 1 ) , α 3 = ( − 2 , 0 , − 4 , 3 ) 张成的
ℝ 4 的子空间.
证明α 1 , α 2 , α 3 是W 的一个基, 即这些向量是线性无关的. 令β = ( b 1 , b 2 , b 3 , b 4 ) 是W 中的一个向量, 那么β 相对于有序基{ α 1 , α 2 , α 3 } 的坐标是什么? 令α 1 ′ = ( 1 , 0 , 2 , 0 ) , α 2 ′ = ( 0 , 2 , 0 , 1 ) , α 3 ′ = ( 0 , 0 , 0 , 3 ) 证明α 1 ′ , α 2 ′ , α 3 ′ 构成了W 的一个基. 如果β 在W 中, 令X 是β 相对于α 基的坐标矩阵, X ′ 是相对于α ′ 基的坐标矩阵. 找出3 × 3 的矩阵P 满足对于每个这样的β 有X = P ⁢ X ′ . 为了用第一种方法回答这些问题, 我们构造以
α 1 , α 2 , α 3 为行向量的矩阵
A , 并找出行等价于
A 的行简化阶梯矩阵
R . 同时, 我们将相同的操作施行于恒等矩阵之上以获得满足
R = Q ⁢ A 的可逆矩阵
Q :
[ 1 2 2 1 0 2 0 1 − 2 0 − 4 3 ] → R = [ 1 0 2 0 0 1 0 0 0 0 0 1 ] [ 1 0 0 0 1 0 0 0 1 ] → Q = 1 6 ⁢ [ 6 − 6 0 − 2 5 − 1 4 − 4 2 ] 显然R 的秩为3 , 于是α 1 , α 2 , α 3 是线性无关的. 什么样的向量β = ( b 1 , b 2 , b 3 , b 4 ) 在W 之中? 我们有W 的基ρ 1 , ρ 2 , ρ 3 , 即R 的行向量. 读者只需一眼即可看出ρ 1 , ρ 2 , ρ 3 张成的空间由所有满足b 3 = 2 ⁢ b 1 的向量β 构成. 对于这样一个β 我们有β = b 1 ⁢ ρ 1 + b 2 ⁢ ρ 2 + b 3 ⁢ ρ 3 = [ b 1 b 2 b 4 ] ⁢ R = [ b 1 b 2 b 4 ] ⁢ Q ⁢ A = x 1 ⁢ α 1 + x 2 ⁢ α 2 + x 3 ⁢ α 3 其中x i = [ b 1 b 2 b 4 ] ⁢ Q i :x 1 = b 1 − 1 3 ⁢ b 2 + 2 3 ⁢ b 4 x 2 = − b 1 + 5 6 ⁢ b 2 − 2 3 ⁢ b 4 x 3 = − 1 6 ⁢ b 2 + 1 3 ⁢ b 4 向量α 1 ′ , α 2 ′ , α 3 ′ 都具有( y 1 , y 2 , y 3 , y 4 ) 的形式, 其中y 3 = 2 ⁢ y 1 , 因此它们都在W 中. 读者一眼就能看出它们是线性无关的. 矩阵P 以P j = [ α j ′ ] 𝔅 为列, 其中𝔅 = { α 1 , α 2 , α 3 } . 前面b里的结果已经告诉我们该如何找出α 1 ′ , α 2 ′ , α 3 ′ 的坐标矩阵了. 例如, 若β = α 1 ′ 我们有b 1 = 1 , b 2 = 0 , b 3 = 2 , b 4 = 0 , 然后x 1 = 1 − 1 3 ⁢ ( 0 ) + 2 3 ⁢ ( 0 ) = 1 x 2 = − 1 + 5 6 ⁢ ( 0 ) − 2 3 ⁢ ( 0 ) = − 1 x 3 = − 1 6 ⁢ ( 0 ) + 1 3 ⁢ ( 0 ) = 0 因此α 1 ′ = α 1 − α 2 . 类似地, 我们可以得到α 2 ′ = α 2 和α 3 ′ = 2 ⁢ α 1 − 2 ⁢ α 2 + α 3 . 于是,P = [ 1 0 2 − 1 1 − 2 0 0 1 ] 现在让我们看看如何用我们描述的第二种方法回答这些问题. 我们构造以
α 1 , α 2 , α 3 为列向量的
4 × 3 矩阵
B :
B = [ 1 0 − 2 2 2 0 2 0 − 4 1 1 3 ] 我们问对于什么样的
y 1 , y 2 , y 3 , y 4 方程组
B ⁢ X = Y 有解.
[ 1 0 − 2 y 1 2 2 0 y 2 2 0 − 4 y 3 1 1 3 y 4 ] → [ 1 0 − 2 y 1 0 2 4 y 2 − 2 ⁢ y 1 0 0 0 y 3 − 2 ⁢ y 1 0 1 5 y 4 − y 1 ] → [ 1 0 − 2 y 1 0 0 − 6 y 2 − 2 ⁢ y 4 0 1 5 y 4 − y 1 0 0 0 y 3 − 2 ⁢ y 1 ] → [ 1 0 0 y 1 − 1 3 ⁢ y 2 + 2 3 ⁢ y 4 0 0 1 1 6 ⁢ ( 2 ⁢ y 4 − y 2 ) 0 1 0 − y 1 + 5 6 ⁢ y 2 − 2 3 ⁢ y 4 0 0 0 y 3 − 2 ⁢ y 1 ] 因此方程组
B ⁢ X = Y 有解的条件是
y 3 = 2 ⁢ y 1 . 于是,
β = ( b 1 , b 2 , b 3 , b 4 ) 在
W 中当且仅当
b 3 = 2 ⁢ b 1 . 如果
β 在
W 中, 那么有序基
{ α 1 , α 2 , α 3 } 下的坐标
( x 1 , x 2 , x 3 ) 可以从上面最后一个矩阵读出来. 其实我们就是又一次得到了第一种方法做出来的结果. 问题c和d可以像之前一样回答.
例子22. 我们考虑
5 × 5 矩阵
A = [ 1 2 0 3 0 1 2 − 1 − 1 0 0 0 1 4 0 2 4 1 10 1 0 0 0 0 1 ] 以及以下和
A 有关的问题.
找出一个可逆矩阵P 满足P ⁢ A 是行简化阶梯矩阵R . 找出A 的行空间W 的一个基. 说明什么样的向量( b 1 , b 2 , b 3 , b 4 , b 5 ) 在W 中. 找出W 中的每个向量( b 1 , b 2 , b 3 , b 4 , b 5 ) 在b选择的有序基下的坐标矩阵. 将W 中的每个向量( b 1 , b 2 , b 3 , b 4 , b 5 ) 写成A 的行的线性组合的形式. 给出所有满足A ⁢ X = 0 的5 × 1 的列矩阵X 构成的向量空间V 的显式描述. 找出V 的一个基. 对于什么样的5 × 1 的列矩阵Y , 方程组A ⁢ X = Y 有解? 为了解决这些问题, 我们构造方程组
A ⁢ X = Y 的增广矩阵
A ′ , 并对其施行一系列合适的行变换.
[ 1 2 0 3 0 y 1 1 2 − 1 − 1 0 y 2 0 0 1 4 0 y 3 2 4 1 10 1 y 4 0 0 0 0 1 y 5 ] → [ 1 2 0 3 0 y 1 0 0 − 1 − 4 0 − y 1 + y 2 0 0 1 4 0 y 3 0 0 1 4 1 − 2 ⁢ y 1 + y 4 0 0 0 0 1 y 5 ] → [ 1 2 0 3 0 y 1 0 0 1 4 0 y 1 − y 2 0 0 0 0 0 − y 1 + y 2 + y 3 0 0 0 0 1 − 3 ⁢ y 1 + y 2 + y 4 0 0 0 0 1 y 5 ] → [ 1 2 0 3 0 y 1 0 0 1 4 0 y 1 − y 2 0 0 0 0 1 y 5 0 0 0 0 0 − y 1 + y 2 + y 3 0 0 0 0 0 − 3 ⁢ y 1 + y 2 + y 4 − y 5 ] 如果对于所有的Y 有P ⁢ Y = [ y 1 y 1 − y 2 y 5 − y 1 + y 2 + y 3 − 3 ⁢ y 1 + y 2 + y 4 − y 5 ] 那么P = [ 1 0 0 0 0 1 − 1 0 0 0 0 0 0 0 1 − 1 1 1 0 0 − 3 1 0 1 − 1 ] 因此P ⁢ A 是行简化阶梯矩阵R = [ 1 2 0 3 0 0 0 1 4 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 ] 必须要强调的是矩阵P 不是唯一的, 实际上存在很多种可能的矩阵P (来源于规约的不同顺序) 满足P ⁢ A = R . 我们可以提取R 非零行ρ 1 = ( 1 , 2 , 0 , 3 , 0 ) ρ 2 = ( 0 , 0 , 1 , 4 , 0 ) ρ 3 = ( 0 , 0 , 0 , 0 , 1 ) 作为W 的一个基. 行空间W 由所有具有形式β = c 1 ⁢ ρ 1 + c 2 ⁢ ρ 2 + c 3 ⁢ ρ 3 = ( c 1 , 2 ⁢ c 1 , c 2 , 3 ⁢ c 1 + 4 ⁢ c 2 , c 3 ) 的向量构成, 其中c 1 , c 2 , c 3 是任意的标量. 因此, ( b 1 , b 2 , b 3 , b 4 , b 5 ) 在W 中当且仅当( b 1 , b 2 , b 3 , b 4 , b 5 ) = b 1 ⁢ ρ 1 + b 3 ⁢ ρ 2 + b 5 ⁢ ρ 3 其为真当且仅当b 2 = 2 ⁢ b 1 , b 4 = 3 ⁢ b 1 + 4 ⁢ b 3 这个线性方程组是显式描述的实例, 而通过它我们可以一眼看出一个给定向量是否在W 之中. 因此, ( − 5 , − 10 , 1 , − 11 , 20 ) 是A 的行的线性组合, 而( 1 , 2 , 3 , 4 , 5 ) 不是. 向量( b 1 , 2 ⁢ b 1 , b 3 , 3 ⁢ b 1 + 4 ⁢ b 3 , b 5 ) 在有序基{ ρ 1 , ρ 2 , ρ 3 } 下的坐标矩阵显然是[ b 1 b 3 b 5 ] . 许多种方法都可以将W 的向量写成A 的行的线性组合, 或许最简单的一种是遵循例子21之前的第一个过程的步骤:β = ( b 1 , 2 ⁢ b 1 , b 3 , 3 ⁢ b 1 + 4 ⁢ b 3 , b 5 ) = [ b 1 b 3 b 5 0 0 ] ⋅ R = [ b 1 b 3 b 5 0 0 ] ⋅ P ⁢ A = [ b 1 b 3 b 5 0 0 ] ⁢ [ 1 0 0 0 0 1 − 1 0 0 0 0 0 0 0 1 − 1 1 1 0 0 − 3 1 0 1 − 1 ] ⋅ A = [ b 1 + b 3 − b 3 0 0 b 5 ] ⋅ A 特别地, 如果β = ( − 5 , − 10 , 1 , − 11 , 20 ) 我们有β = [ − 4 − 1 0 0 20 ] ⁢ [ 1 2 0 3 0 1 2 − 1 − 1 0 0 0 1 4 0 2 4 1 10 1 0 0 0 0 1 ] 方程组R ⁢ X = 0 中的方程是x 1 + 2 ⁢ x 2 + 3 ⁢ x 4 = 0 x 3 + 4 ⁢ x 4 = 0 x 5 = 0 因此, V 由所有具有形式[ − 2 ⁢ x 2 − 3 ⁢ x 4 x 2 − 4 ⁢ x 4 x 4 0 ] 的列向量构成, 其中x 2 和x 4 是任意的. 列向量[ − 2 1 0 0 0 ] , [ − 3 0 − 4 1 0 ] 构成了V 的一个基, 这是例子15所描述的基的一个例子. 方程组A ⁢ X = Y 有解当且仅当− y 1 + y 2 + y 3 = 0 − 3 ⁢ y 1 + y 2 + y 4 − y 5 = 0 练习1. 令s < n 而A 是一个域F 上的s × n 矩阵, 使用定理4 (但不是其证明) 证明F n × 1 中存在非零的X 满足A ⁢ X = 0 .
练习2. 令
α 1 = ( 1 , 1 , − 2 , 1 ) , α 2 = ( 3 , 0 , 4 , − 1 ) , α 3 = ( − 1 , 2 , 5 , 2 ) 令
α = ( 4 , − 5 , 9 , − 7 ) , β = ( 3 , 1 , − 4 , 4 ) , γ = ( − 1 , 1 , 0 , 1 ) α , β , γ 中哪些在α i 张成的ℝ 4 的子空间之中?α , β , γ 中哪些在α i 张成的ℂ 4 的子空间之中?这是否暗示了一个定理? 练习3. 考虑以下ℝ 4 中的向量α 1 = ( − 1 , 0 , 1 , 2 ) , α 2 = ( 3 , 4 , − 2 , 5 ) , α 3 = ( 1 , 4 , 0 , 9 ) 找出一个齐次线性方程组, 其解空间恰是这些向量张成的子空间.
练习4. 在ℂ 3 中, 令α 1 = ( 1 , 0 , − i ) , α 2 = ( 1 + i , 1 − i , 1 ) , α 3 = ( i , i , i ) 证明这些向量构成了ℂ 3 的一个基. 向量( a , b , c ) 在这个基下的坐标是什么?
练习5. 给出ℝ 5 中的向量β = ( b 1 , b 2 , b 3 , b 4 , b 5 ) 的显式描述, 其为向量α 1 = ( 1 , 0 , 2 , 1 , − 1 ) , α 2 = ( − 1 , 2 , − 4 , 2 , 0 ) , α 3 = ( 2 , − 1 , 5 , 2 , 1 ) , α 4 = ( 2 , 1 , 3 , 5 , 2 ) 的线性组合.
练习6. 令
V 是由矩阵
A = [ 3 21 0 9 0 1 7 − 1 − 2 − 1 2 14 0 6 1 6 42 − 1 13 0 ] 的行张成的实向量空间.
找出A 的一个基. 什么样的向量( x 1 , x 2 , x 3 , x 4 , x 5 ) 是V 的元素. 如果( x 1 , x 2 , x 3 , x 4 , x 5 ) 在V 中, 那么它在a选择的基下的坐标是什么? 练习7. 令A 是域F 上的m × n 矩阵, 考虑线性方程组A ⁢ X = Y . 证明该线性方程组有解当且仅当A 的行秩等于其增广矩阵的行秩.
第3章 线性变换 第3.1节 线性变换 我们将引入线性变换, 本书的剩余部分我们将研究的对象. 读者或许会发现阅读 (或重读) 附录里关于函数的部分是有用的, 因为我们将自由地使用其中的术语.
定义. 令V 和W 是域F 上的向量空间. 一个从V 到W 的线性变换是一个从V 到W 的函数T 满足T ⁡ ( c ⁢ α + β ) = c ⁢ ( T ⁡ α ) + T ⁡ β 对于所有V 中α 和β 以及所有F 中标量c 成立.
例子1. 如果V 是任意的向量空间, 恒等变换I , 由I ⁡ α = α 定义, 是一个从V 到V 的线性变换. 零变换, 由0 ⁡ α = 0 定义, 也是一个从V 到V 的线性变换.
例子2. 令F 是一个域, V 是从F 到F 的多项式函数f 构成的空间, f 由f ⁡ ( x ) = c 0 + c 1 ⁢ x + ⋯ + c k ⁢ x k 给定. 令( D ⁡ f ) ⁡ ( x ) = c 1 + 2 ⁢ c 1 ⁢ x + ⋯ + k ⁢ c k ⁢ x k − 1 . 那么D 是一个从V 到V 的线性变换, 即微分变换.
例子3. 令A 是域F 上一个固定的m × n 矩阵, 由T ⁡ ( X ) = A ⁢ X 定义的函数T 是一个从F n × 1 到F m × 1 的线性变换. 由U ⁡ ( α ) = α ⁢ A 定义的函数U 是一个从F m 到F n 的线性变换.
例子4. 令P 是域F 上一个固定的m × m 矩阵, 令Q 是域F 上一个固定的n × n 矩阵. 定义一个从F m × n 到自身的函数T , T ⁡ ( A ) = P ⁢ A ⁢ Q . 那么T 是一个线性变换, 因为T ⁡ ( c ⁢ A + B ) = P ⁢ ( c ⁢ A + B ) ⁢ Q = ( c ⁢ P ⁢ A + P ⁢ B ) ⁢ Q = c ⁢ P ⁢ A ⁢ Q + P ⁢ B ⁢ Q = c ⁢ T ⁡ ( A ) + T ⁡ ( B )
例子5. 令V 是所有从ℝ 到ℝ 的连续函数构成的空间, 由( T ⁡ f ) ⁡ ( x ) = ∫ 0 x f ⁡ ( t ) d t 定义T , 那么T 是一个从V 到V 的线性变换. 函数T ⁡ f 不仅是连续的, 还拥有连续的一阶导数. 积分的线性性质是其根本性质之一.
读者验证例子1, 2, 3, 5是线性变换是没有难度的. 当我们了解更多关于线性变换的东西时, 例子也会随之得到扩展.
注意到以下事实是重要的. 如果T 是一个从V 到W 的线性变换, 那么T ⁡ ( 0 ) = 0 . 人们可以从定义中看出来, 因为T ⁡ ( 0 ) = T ⁡ ( 0 + 0 ) = T ⁡ ( 0 ) + T ⁡ ( 0 ) . 这点对于线性代数的初学者而言有时令人迷惑, 因为他可能已经接触过术语"线性函数"一个稍微有点不同的用法. 扼要的注记应该能够扫清这种迷惑. 设V 是向量空间ℝ 1 , 那么一个从V 到V 的线性变换是一种特定的实数轴ℝ 上的实值函数. 在一个微积分课程中, 人们可能会将图像是直线的函数称为线性的. 一个从ℝ 1 到ℝ 1 的线性变换, 根据我们的定义, 将会是一个从ℝ 到ℝ 的函数, 其图像是经过原点的直线.
不仅是T ⁡ ( 0 ) = 0 , 让我们指出一般的线性变换T 的另一个性质. 这样的线性变换"保持"线性组合, 也就是说, 如果α 1 , … , α n 是V 中的向量, c 1 , … , c n 是标量, 那么T ⁡ ( c 1 ⁢ α 1 + ⋯ + c n ⁢ α n ) = c 1 ⁢ ( T ⁡ α 1 ) + ⋯ + c n ⁢ ( T ⁡ α n ) 这可由定义直接推得, 例如T ⁡ ( c 1 ⁢ α 1 + c 2 ⁢ α 2 ) = c 1 ⁢ ( T ⁡ α 1 ) + T ⁡ ( c 2 ⁢ α 2 ) = c 1 ⁢ ( T ⁡ α 1 ) + c 2 ⁢ ( T ⁡ α 2 )
定理1. 令V 是一个域F 上的有限维向量空间, 令{ α 1 , … , α n } 是V 的一个有序基. 令W 也是域F 上的一个向量空间, 并且令β 1 , … , β n 是W 中任意的向量. 那么, 恰存在唯一的从V 到W 的线性映射T 满足T ⁡ α j = β j , j = 1 , … , n
证明. 为了证明存在某个线性变换
T 满足
T ⁡ α j = β j 我们按照以下方式推进. 给定
V 中的
α , 存在唯一的
n 元组
( x 1 , … , x n ) 满足
α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n . 对于这个向量
α 我们定义
T ⁡ α = x 1 ⁢ β 1 + ⋯ + x n ⁢ β n . 那么
T 是一个将每个
V 中的向量
α 与一个
W 中的向量
T ⁡ α 联系起来的良定义的规则. 从此定义中显然可以看出对于每个
j 有
T ⁡ α j = β j . 为了说明
T 是线性的, 令
β = y 1 ⁢ α 1 + ⋯ + y n ⁢ α n 是
V 中的向量, 令
c 是任意的标量. 现在
c ⁢ α + β = ( c ⁢ x 1 + y 1 ) ⁢ α 1 + ⋯ + ( c ⁢ x n + y n ) ⁢ α n 于是根据定义
T ⁡ ( c ⁢ α + β ) = ( c ⁢ x 1 + y 1 ) ⁢ β 1 + ⋯ + ( c ⁢ x n + y n ) ⁢ β n 另一方面
c ⁢ ( T ⁡ α ) + T ⁡ β = c ⁢ ∑ i = 1 n x i ⁢ β i + ∑ i = 1 n y i ⁢ β i = ∑ i = 1 n ( c ⁢ x i + y i ) ⁢ β i 因此
T ⁡ ( c ⁢ α + β ) = c ⁢ ( T ⁡ α ) + T ⁡ β . 如果
U 也是一个满足
U ⁡ α j = β j , j = 1 , … , n 的从
V 到
W 的线性变换, 那么对于向量
α = ∑ i = 1 n x i ⁢ α i 我们有
U ⁡ α = U ⁡ ( ∑ i = 1 n x i ⁢ α i ) = ∑ i = 1 n x i ⁢ ( U ⁡ α i ) = ∑ i = 1 n x i ⁢ β i 因此
U 恰是我们之前所定义的规则
T . 这表明满足
T ⁡ α j = β j 的线性变换
T 是唯一的.
◻
定理1是相当初等的. 然而, 它是如此基本以至于我们形式化地陈述了该定理. 函数的概念是非常一般的. 如果V 和W 是(非零的)向量空间, 那么从V 到W 的函数存在相当多样的可能性. 定理1强调了线性函数是极其特殊的.
例子6. 向量α 1 = ( 1 , 2 ) , α 2 = ( 3 , 4 ) 是线性无关的, 因此构成了ℝ 2 的一个基. 根据定理1, 存在唯一的一个从ℝ 2 到ℝ 3 的线性变换满足T ⁡ α 1 = ( 3 , 2 , 1 ) , T ⁡ α 2 = ( 6 , 5 , 4 ) 如果是这样的话, 我们必须能够找出T ⁡ ( ε 1 ) . 我们先找到满足ε 1 = c 1 ⁢ α 1 + c 2 ⁢ α 2 的标量c 1 和c 2 , 然后我们就知道T ⁡ ε 1 = c 1 ⁢ T ⁡ α 1 + c 2 ⁢ T ⁡ α 2 . 如果( 1 , 0 ) = c 1 ⁢ ( 1 , 2 ) + c 2 ⁢ ( 3 , 4 ) , 那么c 1 = − 2 且c 2 = 1 , 因此T ⁡ ( 1 , 0 ) = − 2 ⁢ ( 3 , 2 , 1 ) + ( 6 , 5 , 4 ) = ( 0 , 1 , 2 )
例子7. 令T 是一个从m 元组空间F m 到n 元组空间F n 的线性变换. 定理1告诉我们T 由向量的序列β 1 , … , β m 唯一地确定, 其中β i = T ⁡ ε i , i = 1 , … , m . 简而言之, T 由其在标准基向量下的像唯一地确定, 而这个确定就是α = ( x 1 , … , x m ) , T ⁡ α = x 1 ⁢ β 1 + ⋯ + x m ⁢ β m . 如果B 是一个以β 1 , … , β m 为行向量的m × n 矩阵, 那么上面就是在说T ⁡ α = α ⁢ B . 换言之, 如果β i = ( B i , 1 , … , B i , n ) , 那么T ⁡ ( x 1 , … , x m ) = [ x 1 ⋯ x m ] ⁢ [ B 1 , 1 ⋯ B 1 , n ⋮ ⋮ B m , 1 ⋯ B m , n ] . 这是一种对于线性变换相当显式的刻画. 在第3.4节我们将严肃地研究线性变换和矩阵之间的关系. 之后我们并不会追求T ⁡ α = α ⁢ B 这种特定的描述, 因为它将矩阵B 置于向量α 的右边, 而这可能会引起一些困惑. 这个例子的要点在于展现了我们对于所有从F m 到F n 的线性变换可以给出显式且相当简单的描述.
如果T 是一个从V 到W 的线性变换, 那么T 的像不仅是W 的子集, 而且是W 的子空间. 令R T 是T 的像, 即满足存在某个V 中α 使得β = T ⁡ α 的所有W 中向量β 构成的集合. 令β 1 和β 2 是R T 的元素, 令c 是一个标量. 存在V 中向量α 1 和α 2 满足T ⁡ α 1 = β 1 和T ⁡ α 2 = β 2 . 既然T 是线性的, 那么T ⁡ ( c ⁢ α 1 + α 2 ) = c ⁢ T ⁡ α 1 + T ⁡ α 2 = c ⁢ β 1 + β 2 这表明c ⁢ β 1 + β 2 也在R T 之中.
另一个与线性变换T 相关的有趣子空间是由所有满足T ⁡ α = 0 的V 中的向量α 构成的集合N . 它是V 的一个子空间, 因为
T ⁡ ( 0 ) = 0 , 于是N 非空;如果T ⁡ α 1 = T ⁡ α 2 = 0 , 那么T ⁡ ( c ⁢ α 1 + α 2 ) = c ⁢ T ⁡ α 1 + T ⁡ α 2 = c ⁢ 0 + 0 = 0 于是c ⁢ β 1 + β 2 也在N 之中. 定义. 令V 和W 是域F 上的向量空间, 令T 是一个从V 到W 的线性变换. T 的零空间是所有满足T ⁡ α = 0 的V 中向量α 构成的集合. 如果V 是有限维的, 那么称T 的像的维数为T 的秩, T 的零空间的维数为T 的零化度.
以下是线性代数中最重要的结果之一.
定理2. 令V 和W 是域F 上的向量空间, 令T 是一个从V 到W 的线性变换, 设V 是有限维的, 那么rank ⁡ ( T ) + nullity ⁡ ( T ) = dim ⁡ V .
证明. 令
{ α 1 , … , α k } 是
N 的一个基,
N 即
T 的零空间. 存在
V 中向量
α k + 1 , … , α n 满足
{ α 1 , … , α n } 是
V 的一个基. 我们将证明
{ T ⁡ α k + 1 , … , T ⁡ α n } 是
T 的像的一个基. 向量
T ⁡ α 1 , … , T ⁡ α n 当然能够张成
T 的像, 并且既然对于
j ≤ k 有
T ⁡ α j = 0 , 我们可以看出
T ⁡ α k + 1 , … , T ⁡ α n 能够张成像. 为了看出这些像是线性无关的, 设我们有标量
c i 满足
∑ i = k + 1 n c i ⁢ ( T ⁡ α i ) = 0 . 这说明
T ⁡ ( ∑ i = k + 1 n c i ⁢ α i ) = 0 并且可知
α = ∑ i = k + 1 n c i ⁢ α i 在
T 的零空间中. 既然
α 1 , … , α k 构成了
N 的一个基, 那么必须存在标量
b 1 , … , b k 满足
α = ∑ i = 1 k b i ⁢ α i . 因此
∑ i = 1 k b i ⁢ α i − ∑ j = k + 1 n c j ⁢ α j = 0 并且既然
α 1 , … , α n 是线性无关的, 我们必须有
b 1 = ⋯ = b k = c k + 1 = ⋯ = c n = 0 . 如果
r 是
T 的秩, 那么
T ⁡ α k + 1 , … , T ⁡ α n 构成了
T 的像的基的事实告诉我们
r = n − k . 既然
k 是
T 的零化度而
n 是
V 的维数, 证明结束了.
◻
定理3. 如果A 是域F 上的一个m × n 矩阵, 那么row-rank ⁡ ( A ) = column-rank ⁡ ( A ) .
证明. 令
T 是由
T ⁡ ( X ) = A ⁢ X 定义的从
F n × 1 到
F m × 1 的线性变换.
T 的零空间是线性方程组
A ⁢ X = 0 的解空间, 即由所有满足
A ⁢ X = 0 的列矩阵
X 构成的集合.
T 的像是由所有满足线性方程组
A ⁢ X = Y 有解的
m × 1 的列矩阵
Y 构成的集合. 如果
A 1 , … , A n 是
A 的列, 那么
A ⁢ X = x 1 ⁢ A 1 + ⋯ + x n ⁢ A n 于是
T 的像是由
A 的列张成的子空间. 换句话说,
T 的像就是
A 的列空间, 因此
rank ⁡ ( T ) = column-rank ⁡ ( A ) . 定理2告诉我们如果
S 是线性方程组
A ⁢ X = 0 的解空间, 那么
dim ⁡ S + column-rank ⁡ ( A ) = n . 我们现在引用第2章的例子15. 我们的意图在于, 如果
r 是
A 的行空间的维数, 那么解空间
S 拥有一个由
n − r 个向量构成的基:
dim ⁡ S = n − row-rank ⁡ ( A ) . 现在显然有
row-rank ⁡ ( A ) = column-rank ⁡ ( A ) . ◻
刚刚我们给出的对于定理3的证明依赖于和线性方程组有关的显式计算. 实际上存在一个不依赖于这样的计算的概念性证明. 我们将在第3.7节给出这个证明.
练习1. 以下哪些函数
T 是从
ℝ 2 到
ℝ 2 的线性变换呢?
T ⁡ ( x 1 , x 2 ) = ( 1 + x 1 , x 2 ) ;T ⁡ ( x 1 , x 2 ) = ( x 2 , x 1 ) ;T ⁡ ( x 1 , x 2 ) = ( x 1 2 , x 2 ) ;T ⁡ ( x 1 , x 2 ) = ( sin ⁡ x 1 , x 2 ) ;T ⁡ ( x 1 , x 2 ) = ( x 1 − x 2 , 0 ) .练习2. 找出有限维向量空间V 上的零变换和恒等变换的像, 秩, 零空间, 零化度.
练习3. 描述例子2的微分变换和例子5的积分变换的像和零空间.
练习4. 存在从ℝ 3 到ℝ 2 的线性变换满足T ⁡ ( 1 , − 1 , 1 ) = ( 1 , 0 ) 且T ⁡ ( 1 , 1 , 1 ) = ( 0 , 1 ) 吗?
练习5. 如果α 1 = ( 1 , − 1 ) , β 1 = ( 1 , 0 ) , α 2 = ( 2 , − 1 ) , β 2 = ( 0 , 1 ) , α 3 = ( − 3 , 2 ) , β 3 = ( 1 , 1 ) 存在从ℝ 2 到ℝ 2 的线性变换T 满足T ⁡ α i = β i 对于i = 1 , 2 , 3 成立吗?
练习6. 显式描述 (如练习1和2) 满足T ⁡ ε 1 = ( a , b ) , T ⁡ ε 2 = ( c , d ) 的从F 2 到F 2 的线性变换T .
练习7. 令
F 是一个复数域的子域, 令
T 是由
T ⁡ ( x 1 , x 2 , x 3 ) = ( x 1 − x 2 + 2 ⁢ x 3 , 2 ⁢ x 1 + x 2 , − x 1 − 2 ⁢ x 2 + 2 ⁢ x 3 ) 定义的从
F 3 到
F 3 的函数.
验证T 是一个线性变换. 如果( a , b , c ) 是F 3 中向量, 那么a , b , c 满足什么条件时向量在T 的像中? T 的秩是多少? a , b , c 满足什么条件时( a , b , c ) 在T 的零空间中? T 的零化度是多少?练习8. 显式描述一个从ℝ 3 到ℝ 3 的线性变换, 其像是由( 1 , 0 , − 1 ) 和( 1 , 2 , 2 ) 张成的子空间.
练习9. 令V 是域F 上的所有n × n 矩阵构成的向量空间, 令B 是一个固定的n × n 矩阵. 如果T ⁡ ( A ) = A ⁢ B − B ⁢ A 验证T 是一个从V 到V 的线性变换.
练习10. 令V 是所有复数的集合, 其被当作实数域上的向量空间 (在通常的运算下). 找出一个从V 到V 的线性变换, 但不是ℂ 1 上的线性变换, 即不是复线性的.
练习11. 令V 是F 上的n × 1 矩阵的空间, 令W 是F 上的m × 1 矩阵的空间. 令A 是F 上的一个固定的m × n 矩阵, 令T 是由T ⁡ ( X ) = A ⁢ X 定义的从V 到W 的线性变换. 证明T 是零变换当且仅当A 是零矩阵.
练习12. 令V 是域F 上的一个n 维向量空间, 令T 是一个从V 到V 的线性变换, 并且T 的像和零空间是相等的. 证明n 是偶数. (你能给出这样的线性变换T 的例子吗?)
练习13. 令
V 是一个向量空间, 令
T 是一个从
V 到
V 的线性变换. 证明以下两个关于
T 的陈述是等价的.
T 的像与零空间之交是V 的零子空间.如果T ⁡ ( T ⁡ α ) = 0 , 那么T ⁡ α = 0 . 第3.2节 线性变换的代数 在研究从V 到W 的线性变换时, 这些变换的集合继承了自然的向量空间结构具有根本的重要性. 从空间V 到自身的线性变换的集合甚至有着更多的代数结构, 因为通常的函数复合提供了这样的变换的"乘法". 我们将在本节探索这些想法.
定理4. 令V 和W 是域F 上的向量空间. 令T 和U 是从V 到W 的线性变换. 由( T + U ) ⁡ ( α ) = T ⁡ α + U ⁡ α 定义的函数( T + U ) 是一个从V 到W 的线性变换. 如果c 是F 任意的元素, 那么由( c ⁢ T ) ⁡ ( α ) = c ⁢ ( T ⁡ α ) 定义的函数( c ⁢ T ) 是一个从V 到W 的线性变换. 所有从V 到W 的线性变换的集合, 与其上定义的加法和标量乘法一起, 构成了一个域F 上的向量空间.
证明. 设
T 和
U 是从
V 到
W 的线性变换, 而
( T + U ) 定义如上, 那么
( T + U ) ⁡ ( c ⁢ α + β ) = T ⁡ ( c ⁢ α + β ) + U ⁡ ( c ⁢ α + β ) = c ⁢ ( T ⁡ α ) + T ⁡ β + c ⁢ ( U ⁡ α ) + U ⁡ β = c ⁢ ( T ⁡ α + U ⁡ α ) + ( T ⁡ β + U ⁡ β ) = c ⁢ ( T + U ) ⁡ ( α ) + ( T + U ) ⁡ ( β ) 这表明
( T + U ) 是一个线性变换. 类似地,
( c ⁢ T ) ⁡ ( d ⁢ α + β ) = c ⁢ [ T ⁡ ( d ⁢ α + β ) ] = c ⁢ [ d ⁢ ( T ⁡ α ) + T ⁡ β ] = c ⁢ d ⁢ ( T ⁡ α ) + c ⁢ ( T ⁡ β ) = d ⁢ [ c ⁢ ( T ⁡ α ) ] + c ⁢ ( T ⁡ β ) = d ⁢ [ ( c ⁢ T ) ⁡ α ] + ( c ⁢ T ) ⁡ β 这表明
( c ⁢ T ) 是一个线性变换.
为了验证从
V 到
W 的线性变换的集合 (以及这些运算) 是一个向量空间, 我们还必须直接检验每个向量加法和数乘上的条件是否满足. 我们将这些工作留给读者, 并满足于以下的评论: 这个空间里的零向量是零变换, 其将每个
V 的向量送至
W 的零向量; 这两个运算的每个性质都对应于空间
W 的运算的相应性质.
◻
或许我们应该提及另一种看待这个定理的方式. 如果我们如果上面那样定义和与标量积, 那么所有从V 到W 的函数构成了一个域F 上的向量空间. 这与V 是向量空间无关, V 是一个非空集合足矣. 当V 是向量空间的时候我们可以定义从V 到W 的线性变换, 那么定理4告诉我们这些变换构成了从V 到W 的所有函数构成的空间的一个子空间.
我们将从V 到W 的线性变换的空间记作L ⁡ ( V , W ) . 我们提醒读者只有当V 和W 是定义于同一个域上的向量空间时L ⁡ ( V , W ) 才有定义.
定理5. 令V 是域F 上的n 维向量空间而W 是域F 上的m 维向量空间, 那么L ⁡ ( V , W ) 是有限维的, 并且维数是m ⁢ n .
证明. 令
𝔅 = { α 1 , … , α n } 和 𝔅 ′ = { β 1 , … , β m } 分别是
V 和
W 的有序基. 对于每个满足
1 ≤ p ≤ m 和
1 ≤ q ≤ n 的整数序对
( p , q ) , 我们定义从
V 到
W 的线性变换
E p , q 如下.
E p , q ⁡ ( α i ) = { 0 , 如果 i ≠ q β p , 如果 i = q = δ i , q ⁢ β p 根据定理1, 存在唯一的从
V 到
W 的线性变换满足这些条件. 我们要证明的是这
m ⁢ n 个线性变换构成了
L ⁡ ( V , W ) 的一个基.
令
T 是从
V 到
W 的线性变换. 对于每个
j , 1 ≤ j ≤ n , 令
A 1 , j , … , A m , j 是向量
T ⁡ α j 相对于有序基
𝔅 ′ 的坐标, 即
T ⁡ α j = ∑ p = 1 m A p , j ⁢ β p . 我们想要表明
T = ∑ p = 1 m ∑ q = 1 n A p , q ⁢ E p , q . 令
U 是上面这个式子右侧的线性变换, 那么对于每个
j ,
U ⁡ α j = ∑ p = 1 m ∑ q = 1 n A p , q ⁢ E p , q ⁡ ( α j ) = ∑ p = 1 m ∑ q = 1 n A p , q ⁢ δ j , q ⁢ β p = ∑ p = 1 m A p , j ⁢ β p = T ⁡ α j 因此
U = T . 目前我们已经证明了
E p , q 可以张成
L ⁡ ( V , W ) , 我们必须还要证明它们是线性无关的, 然而从我们上面写下的东西来看这是显然的, 因为如果变换
U = ∑ p = 1 m ∑ q = 1 n A p , q ⁢ E p , q 是零变换, 那么对于每个
j 有
U ⁡ α j = 0 , 于是
∑ p = 1 m A p , j ⁢ β p = 0 而
β p 的线性无关性质又可推出对于每个
p 和
j 我们有
A p , j = 0 .
◻
定理6. 令V , W , Z 是域F 上的向量空间, 令T 是从V 到W 的线性变换, 令U 是从W 到Z 的线性变换, 那么由( U ⁢ T ) ⁡ ( α ) = U ⁡ ( T ⁡ ( α ) ) 定义的复合函数U ⁢ T 是一个从V 到Z 的线性变换.
证明. U ⁢ T ⁡ ( c ⁢ α + β ) = U ⁡ [ T ⁡ ( c ⁢ α + β ) ] = U ⁡ ( c ⁢ T ⁡ α + T ⁡ β ) = c ⁢ [ U ⁡ ( T ⁡ α ) ] + U ⁡ ( T ⁡ β ) = c ⁢ ( U ⁢ T ) ⁡ ( α ) + ( U ⁢ T ) ⁡ ( β ) ◻
接下来, 我们将主要关注从一个向量空间到自身的线性变换. 鉴于我们经常得说"T 是一个从V 到V 的线性变换", 以后我们将说"T 是V 上的一个线性算子".
定义. 如果V 是域F 上的一个向量空间, 那么一个V 上的线性算子就是一个从V 到V 的线性变换.
在定理6的情况下, 当V = W = Z 时, 以至于U 和T 都是空间V 上的线性算子, 那么其复合U ⁢ T 也是一个V 上的线性算子. 因此, 空间L ⁡ ( V , V ) 有一个乘法定义于其上, 即复合. 当然算子T ⁢ U 也是有定义的, 不过读者应该注意一般U ⁢ T ≠ T ⁢ U , 即U ⁢ T − T ⁢ U ≠ 0 . 我们还应该特别注意如果T 是一个V 上的线性算子, 那么我们可以将T 和T 复合. 我们将使用记号T 2 = T ⁢ T , 而一般地, 对于n = 1 , 2 , 3 , … , T n = T ⁢ ⋯ ⁢ T (n 个T 相乘). 我们定义T 0 = I , 如果T ≠ 0 . [译注: T = 0 时定义T 0 = I 也是合理且必要的.]
引理. 令
V 是域
F 上的向量空间, 令
U , T 1 , T 2 是
V 上的线性算子, 令
c 是
F 的元素.
I ⁢ U = U ⁢ I = U ;U ⁢ ( T 1 + T 2 ) = U ⁢ T 1 + U ⁢ T 2 ; ( T 1 + T 2 ) ⁢ U = T 1 ⁢ U + T 2 ⁢ U ;c ⁢ ( U ⁢ T 1 ) = ( c ⁢ U ) ⁢ T 1 = U ⁢ ( c ⁢ T 1 ) .证明. 这个关于恒等函数的性质是显然的, 我们列在这里仅是为了强调一下. [ U ⁢ ( T 1 + T 2 ) ] ⁡ ( α ) = U ⁡ [ ( T 1 + T 2 ) ⁡ ( α ) ] = U ⁡ ( T 1 ⁡ α + T 2 ⁡ α ) = U ⁡ ( T 1 ⁡ α ) + U ⁡ ( T 2 ⁡ α ) = ( U ⁢ T 1 ) ⁡ ( α ) + ( U ⁢ T 2 ) ⁡ ( α ) 于是U ⁢ ( T 1 + T 2 ) = U ⁢ T 1 + U ⁢ T 2 . 另外,[ ( T 1 + T 2 ) ⁢ U ] ⁡ ( α ) = ( T 1 + T 2 ) ⁡ ( U ⁡ α ) = T 1 ⁡ ( U ⁡ α ) + T 2 ⁡ ( U ⁡ α ) = ( T 1 ⁢ U ) ⁡ ( α ) + ( T 2 ⁢ U ) ⁡ ( α ) 于是( T 1 + T 2 ) ⁢ U = T 1 ⁢ U + T 2 ⁢ U . (读者或许注意到了这两个分配律的证明并没有用到T 1 和T 2 是线性的这个事实, 而且第二个证明也没有用到U 是线性的.)我们将c的证明留给读者. ◻
这个引理的内容和定理5的一部分告诉我们向量空间L ⁡ ( V , V ) 和复合运算构成了一个叫做含幺元的线性代数的结构. 我们将在第4章讨论这个东西. [译注: 其实在一般的代数学书籍里这种结构就叫代数.]
例子8. 如果A 是一个元素来源于F 的m × n 矩阵, 我们可以由T ⁡ ( X ) = A ⁢ X 定义一个从F n × 1 到F m × 1 的线性变换T . 如果B 是一个p × m 的矩阵, 那么我们可以通过U ⁡ ( Y ) = B ⁢ Y 定义一个从F m × 1 到F p × 1 的线性变换U . 它们的复合U ⁢ T 是很容易描述的:( U ⁢ T ) ⁡ ( X ) = U ⁡ ( T ⁡ ( X ) ) = U ⁡ ( A ⁢ X ) = B ⁢ ( A ⁢ X ) = ( B ⁢ A ) ⁢ X 因此U ⁢ T 即"左乘积矩阵B ⁢ A ".
例子9. 令F 是一个域而V 是所有从F 到F 的多项式函数构成的向量空间. 令D 是例子2所定义的微分算子, 令T 是"乘上x "的线性算子:( T ⁡ f ) ⁡ ( x ) = x ⁢ f ⁡ ( x ) . 那么D ⁢ T ≠ T ⁢ D . 实际上, 读者应该很容易验证D ⁢ T − T ⁢ D = I , 即恒等算子.
即便我们定义的L ⁡ ( V , V ) 上的乘法并不交换, 其与L ⁡ ( V , V ) 的向量空间运算有着很好的联系.
例子10. 令𝔅 = { α 1 , … , α n } 是向量空间V 的一个有序基. 考虑定理5的证明中出现的线性算子E p , q :E p , q ⁡ ( α i ) = δ i , q ⁢ α p . 这n 2 个线性算子构成了V 上的线性算子空间的一个基. E p , q ⁢ E r , s 是什么呢? 我们有( E p , q ⁢ E r , s ) ⁡ ( α i ) = E p , q ⁡ ( δ i , s ⁢ α r ) = δ i , s ⁢ E p , q ⁡ ( α r ) = δ i , s ⁢ δ r , q ⁢ α p 因此E p , q ⁢ E r , s = { 0 , 如果 r ≠ q E p , s , 如果 q = r 令T 是一个V 上的线性算子, 我们在定理5的证明中表明如果A j = [ T ⁡ α j ] 𝔅 , A = [ A 1 , … , A n ] 那么T = ∑ p = 1 n ∑ q = 1 n A p , q ⁢ E p , q . 如果U = ∑ r = 1 n ∑ s = 1 n B r , s ⁢ E r , s 是V 上另一个线性算子, 那么上一条引理告诉我们T ⁢ U = ( ∑ p = 1 n ∑ q = 1 n A p , q ⁢ E p , q ) ⁢ ( ∑ r = 1 n ∑ s = 1 n B r , s ⁢ E r , s ) = ∑ p = 1 n ∑ q = 1 n ∑ r = 1 n ∑ s = 1 n A p , q ⁢ B r , s ⁢ E p , q ⁢ E r , s 我们注意到, 这巨大的求和之中只有满足q = r 的项才能活下来, 又因为E p , r ⁢ E r , s = E p , s , 我们有T ⁢ U = ∑ p = 1 n ∑ s = 1 n ( ∑ r = 1 n A p , r ⁢ B r , s ) ⁢ E p , s = ∑ p = 1 n ∑ s = 1 n ( A ⁢ B ) p , s ⁢ E p , s 因此, 复合T 和U 的效用相当于矩阵A 和B 相乘.
在我们对于线性变换的代数运算的讨论中, 我们还没有说任何与可逆性相关的东西. 我们所特别关心的问题之一是, 对于向量空间V 上什么样的线性算子T 存在线性算子T − 1 满足T ⁢ T − 1 = T − 1 ⁢ T = I ? [译注: 读者应该将这里的T − 1 当作一个整体, 而不是T 的逆, 因为还没有定义逆运算.]
从V 到W 的函数称为可逆的, 如果存在一个从W 到V 的函数U 满足U ⁢ T 是V 上的恒等函数而T ⁢ U 是W 上的恒等函数. 如果T 是可逆的, 那么函数U 是唯一的, 我们将其记作T − 1 . (见附录.) 而且, T 可逆当且仅当
T 是一一的, 即T ⁡ α = T ⁡ β 可以推出α = β ;T 是映上的, 即T 的像是(整个的)W .[译注: 一一和映上是过时的术语, 之后我们将用单射和满射.]
定理7. 令V 和W 是域F 上的向量空间, 令T 是从V 到W 的线性变换. 如果T 是可逆的, 那么逆函数是一个从W 到V 的线性变换. [译注: 这里说的可逆是函数的可逆.]
证明. 这里我们重复以强调一个点. 当
T 是单射且是满射, 那么存在唯一决定的从
W 到
V 的逆函数
T − 1 满足
T − 1 ⁢ T 是
V 上的恒等函数而
T ⁢ T − 1 是
W 上的恒等函数. 现在我们要证明的是, 如果线性函数
T 是可逆的, 那么其逆
T − 1 也是线性的.
令
β 1 和
β 2 是
W 的向量而
c 是一个标量, 我们想要证明
T − 1 ⁡ ( c ⁢ β 1 + β 2 ) = c ⁢ T − 1 ⁡ β 1 + T − 1 ⁡ β 2 . 令
α i = T − 1 ⁡ β i , i = 1 , 2 , 即令
α i 是
V 中唯一满足
T ⁡ α i = β i 的向量. 既然
T 是线性的, 那么
T ⁡ ( c ⁢ α 1 + α 2 ) = c ⁢ T ⁡ α 1 + T ⁡ α 2 = c ⁢ β 1 + β 2 因此
c ⁢ α 1 + α 2 是
V 中唯一的由
T 送至
c ⁢ β 1 + β 2 的向量, 于是
T − 1 ⁡ ( c ⁢ β 1 + β 2 ) = c ⁢ α 1 + α 2 = c ⁢ ( T − 1 ⁡ β 1 ) + T − 1 ⁡ β 2 ◻
设我们有一个从V 到W 的可逆的线性变换T 和一个从W 到Z 的可逆的线性变换U , 那么U ⁢ T 是可逆的并且( U ⁢ T ) − 1 = T − 1 ⁢ U − 1 . 这个结论并不需要线性性质, 也不需要分开检验U ⁢ T 是单射和满射. 所有需要做的事情只是验证T − 1 ⁢ U − 1 既是U ⁢ T 的左逆也是U ⁢ T 的右逆.
如果T 是线性的, 那么T ⁡ ( α − β ) = T ⁡ α − T ⁡ β . 因此, T ⁡ α = T ⁡ β 当且仅当T ⁡ ( α − β ) = 0 . 这极大地简化了对于T 是否为单射的验证. 让我们称一个线性变换是非奇异的, 如果T ⁡ γ = 0 可以推出γ = 0 , 即T 的零空间是{ 0 } . 显然, T 是单射当且仅当T 非奇异. 这个评注的一个扩展是非奇异的线性变换就是那些保持线性无关的线性变换.
定理8. 令T 是一个从V 到W 的线性变换, 那么T 是非奇异的当且仅当V 的每个线性无关子集在T 下的像是W 的线性无关子集.
证明. 首先设
T 是非奇异的. 令
S 是
V 的一个线性无关子集. 如果
α 1 , … , α k 是
S 中的向量 [译注: 不同的向量], 那么
T ⁡ α 1 , … , T ⁡ α k 是线性无关的, 因为如果
c 1 ⁢ ( T ⁡ α 1 ) + ⋯ + c k ⁢ ( T ⁡ α k ) = 0 那么
T ⁡ ( c 1 ⁢ α 1 + ⋯ + c k ⁢ α k ) = 0 既然
T 是非奇异的, 那么
c 1 ⁢ α 1 + ⋯ + c k ⁢ α k = 0 从中我们可以得出每个
c i = 0 , 因为
S 是一个线性无关的集合. 这个论证表明
S 在
T 下的像是线性无关的.
设
T 将线性无关的子集映射至线性无关的子集. 令
α 是
V 的一个非零向量, 那么仅包含
α 的集合
S 是线性无关的.
S 的像是仅包含向量
T ⁡ α 的集合, 而这个集合是线性无关的. 因而
T ⁡ α ≠ 0 , 否则的话就是线性相关的了. 这表明
T 的零空间是零子空间, 即
T 是非奇异的.
◻
例子11. 令F 是一个复数域的子域 (或者特征为零的域), 令V 是域F 上的多项式函数的空间. 考虑例子9的微分算子D 和"乘上x "的算子T . 既然D 将每个常函数送至0 , D 是奇异的. 然而, 因为V 不是有限维的, D 的像是整个V , 于是定义一个D 的右逆是有可能的. 例如, 如果E 是不定积分算子:E ⁡ ( c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n ) = c 0 ⁢ x + 1 2 ⁢ c 1 ⁢ x 2 + ⋯ + 1 n + 1 ⁢ c n ⁢ x n + 1 那么E 是V 上的线性算子并且D ⁢ E = I . 另一方面, E ⁢ D ≠ I , 因为E ⁢ D 将每个常函数都送至0 . 与之相对地, 算子T 是非奇异的, 因为如果对于每个x 有x ⁢ f ⁡ ( x ) = 0 , 那么f = 0 . 因此, 可以找到T 的一个左逆. 例如, 如果U 是"移除常数项并除以x "的操作:U ⁡ ( c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n ) = c 1 + c 2 ⁢ x + ⋯ + c n ⁢ x n − 1 那么U 是一个V 上的线性算子并且U ⁢ T = I . 但是T ⁢ U ≠ I , 因为每个T ⁢ U 的像中的函数自然也在T 的像中, 而T 的像是所有满足f ⁡ ( 0 ) = 0 的函数f 构成的空间. [译注: 而不是整个V .]
例子12. 令F 是一个域而T 是一个F 2 上的线性算子, 其由T ⁡ ( x 1 , x 2 ) = ( x 1 + x 2 , x 1 ) 定义. 那么, T 是非奇异的, 因为如果T ⁡ ( x 1 , x 2 ) = 0 , 我们有{ x 1 + x 2 = 0 x 1 = 0 于是x 1 = x 2 = 0 . 我们也看出T 是满射, 因为如果令( z 1 , z 2 ) 是F 2 中任意的向量, 为了证明( z 1 , z 2 ) 在T 的像中, 我们必须找出满足{ x 1 + x 2 = z 1 x 1 = z 2 的标量x 1 和x 2 , 而x 1 = z 2 , x 2 = z 1 − z 2 就是显而易见的解. 这个计算为我们提供了T − 1 的显式公式, 即T − 1 ⁡ ( z 1 , z 2 ) = ( z 2 , z 1 − z 2 ) .
在例子11之中我们看到一个线性变换可能是非奇异的但不是满射, 或者可能是满射但不是非奇异的. 然而, 上面这个例子为我们刻画了一种情形, 其中例子11的这种事情不可能发生.
定理9. 令
V 和
W 是域
F 上的有限维向量空间, 并且
dim ⁡ V = dim ⁡ W . 如果
T 是一个从
V 到
W 的线性变换, 那么以下陈述是等价的:
T 是可逆的.T 是非奇异的.T 是满射, 即T 的像是W .证明. 令
n = dim ⁡ V = dim ⁡ W , 从定理2我们知道
rank ⁡ ( T ) + nullity ⁡ ( T ) = n . 既然
T 是非奇异的当且仅当
nullity ⁡ ( T ) = 0 ,
T 的像是
W 当且仅当
rank ⁡ ( T ) = n (因为
n = dim ⁡ W ), 而且零化度是
0 当且仅当秩为
n , 那么
T 是非奇异的当且仅当
T ⁡ ( V ) = W . 于是, 只要ii或iii其中之一成立, 那么另一条也成立, 那么
T 就是可逆的了.
◻
我们提醒读者一下, 除非有限维和dim ⁡ V = dim ⁡ W 的条件都满足, 否则就不要应用定理9. 在定理9的假设下, 条件i, ii, iii还等价于以下陈述.
如果{ α 1 , … , α n } 是V 的一个基, 那么{ T ⁡ α 1 , … , T ⁡ α n } 是W 的一个基. 存在V 的某个基{ α 1 , … , α n } 使得{ T ⁡ α 1 , … , T ⁡ α n } 是W 的一个基. 我们将给出一个这五个条件等价的证明, 它不同于之前给出的三个条件等价的证明.
i推出ii. 如果T 是可逆的, T 当然是非奇异的. ii推出iii. 设T 是非奇异的. 令{ α 1 , … , α n } 是V 的一个基, 那么根据定理8, { T ⁡ α 1 , … , T ⁡ α n } 是W 的一个线性无关集合. 而且, 因为W 的维数也是n , 所以这个集合也构成了W 的一个基. 现在令β 是W 任意的向量, 那么存在标量c 1 , … , c n 满足β = c 1 ⁢ ( T ⁡ α 1 ) + ⋯ + c n ⁢ ( T ⁡ α n ) = T ⁡ ( c 1 ⁢ α 1 + ⋯ + c n ⁢ α n ) 这表明β 在T 的像之中. iii推出iv. 现在我们假定T 是满射. 如果{ α 1 , … , α n } 是V 任意的基, 那么{ T ⁡ α 1 , … , T ⁡ α n } 可以张成T 的像, 根据假设也就是整个W . 既然W 的维数是n , 那么这n 个向量必然是线性无关的, 也就是说构成了W 的一个基. iv推出v. 这不需要证明. v推出i. 设存在V 的某个基满足{ T ⁡ α 1 , … , T ⁡ α n } 是W 的一个基. 既然T ⁡ α i 可以张成W , 那么显然T 的像是整个W . 如果α = c 1 ⁢ α 1 + ⋯ + c n ⁢ α n 在T 的零空间之中, 那么T ⁡ ( c 1 ⁢ α 1 + ⋯ + c n ⁢ α n ) = 0 或者c 1 ⁢ ( T ⁡ α 1 ) + ⋯ + c n ⁢ ( T ⁡ α n ) = 0 既然T ⁡ α i 是线性无关的, 那么每个c i = 0 , 因此α = 0 . 我们已经证明了T 的像是W 和T 是非奇异的, 所以T 是可逆的.
一个空间V 上的可逆线性算子, 连带着复合运算, 提供了一个代数中被称为"群"的例子. 尽管我们没有时间细致地讨论群, 但是我们至少可以给出群的定义.
定义. 一个群由以下资料构成.
一个集合G ; 一个法则 (或者说一个运算), 其联系G 中每对元素x 和y 以一个G 中元素x ⁢ y , 并且满足对于所以G 中x , y , z , x ⁢ ( y ⁢ z ) = ( x ⁢ y ) ⁢ z ; 存在一个G 中的元素e 满足对于每个G 中的x 有e ⁢ x = x ⁢ e = x ; 对于每个G 的元素x 存在一个G 中元素x − 1 与之对应, 满足x ⁢ x − 1 = x − 1 ⁢ x = e . 我们已经证明了复合( U , T ) ↦ U ⁢ T 联系空间V 上的每对可逆线性算子以另一个V 上的可逆线性算子. 复合是一个结合运算. 恒等算子I 对于每个T 有I ⁢ T = T ⁢ I = T . 对于可逆的T , (根据定理7)存在一个可逆的线性算子T − 1 满足T ⁢ T − 1 = T − 1 ⁢ T = I . 因此, V 上的可逆线性算子的集合, 连带着复合运算, 构成了一个群. 以矩阵乘法作为运算的n × n 可逆矩阵的集合是另一个群的例子. 一个群是交换的, 如果它满足对于每个x 和y 有x ⁢ y = y ⁢ x . 以上两个我们给出的例子一般不是交换群. 人们经常将交换群的运算写成( x , y ) ↦ x + y 而不是( x , y ) ↦ x ⁢ y , 并用符号0 表示"恒元"e . 向量空间的向量的集合, 连带着向量加法, 是一个交换群. 一个域可以被描述为一个带有加法和乘法运算的集合, 其在加法下是一个交换群, 而非零元素在乘法下也构成了一个交换群, 并且分配律x ⁢ ( y + z ) = x ⁢ y + x ⁢ z 成立.
练习1. 令
T 和
U 是
ℝ 2 上由
T ⁡ ( x 1 , x 2 ) = ( x 2 , x 1 ) 和 U ⁡ ( x 1 , x 2 ) = ( x 1 , 0 ) 定义的线性算子.
如何几何地描述T 和U ? 像定义T 和U 一样给出刻画( U + T ) , U ⁢ T , T ⁢ U , T 2 , U 2 的规则. 练习2. 令T 是ℂ 3 上满足T ⁡ ε 1 = ( 1 , 0 , i ) , T ⁡ ε 2 = ( 0 , 1 , 1 ) , T ⁡ ε 3 = ( i , 1 , 0 ) 的(唯一的)线性算子. T 可逆吗?
练习3. 令T 是ℝ 3 上由T ⁡ ( x 1 , x 2 , x 3 ) = ( 3 ⁢ x 1 , x 1 − x 2 , 2 ⁢ x 1 + x 2 + x 3 ) 定义的线性算子. T 可逆吗? 如果可逆的话, 像定义T 一样给出T − 1 的规则.
练习4. 对于练习3的线性算子T , 证明( T 2 − I ) ⁢ ( T − 3 ⁢ I ) = 0 .
练习5. 令B = [ 1 − 1 − 4 4 ] 令T 是由T ⁡ ( A ) = B ⁢ A 定义的ℂ 2 × 2 上的线性算子. T 的秩是多少? 你能描述T 2 吗?
练习6. 令T 是从ℝ 3 到ℝ 2 的线性变换, 令U 是从ℝ 2 到ℝ 3 的线性变换. 证明变换U ⁢ T 是不可逆的. 给出这个定理的一般化版本.
练习7. 找出ℝ 2 上两个线性算子T 和U 满足T ⁢ U = 0 但是U ⁢ T ≠ 0 .
练习8. 令V 是域F 上的向量空间, 令T 是V 上的一个线性算子. 如果T 2 = 0 , 关于T 的像和零空间的关系你有什么可说的? 给出一个ℝ 2 上的线性算子T 的例子, 其满足T 2 = 0 但T ≠ 0 .
练习9. 令T 是有限维向量空间V 上的一个线性算子. 设存在一个V 上的线性算子U 满足T ⁢ U = I . 证明T 是可逆的, 并且U = T − 1 . 给出一个例子表明在V 不是有限维的情况下这是错的. (提示: 令T = D , 多项式函数空间上的微分算子.)
练习10. 令A 是域F 上的一个m × n 矩阵, 令T 是由T ⁡ ( X ) = A ⁢ X 定义的从F n × 1 到F m × 1 的线性变换. 说明在m < n 的情况下T 可以是满射但不是非奇异的. 类似地, 说明在m > n 的情况下T 可以是非奇异的但不是满射.
练习11. 令V 是一个有限维向量空间, 令T 是V 上的一个线性算子. 设rank ⁡ ( T 2 ) = rank ⁡ ( T ) . 证明T 的像和零空间是不相交的 (disjoint), 即只有零向量作为共同元素.
练习12. 令p , m , n 是正整数而F 是一个域. 令V 是域F 上的m × n 矩阵的空间, W 是域F 上的p × n 矩阵的空间. 令B 是一个固定的p × m 矩阵而T 是一个由T ⁡ ( A ) = B ⁢ A 定义的从V 到W 的线性变换. 证明T 可逆当且仅当p = m 且B 是一个可逆的m × m 矩阵.
第3.3节 同构 如果V 和W 是域F 上的向量空间, 那么任何从V 到W 的双射的线性变换T 都被称为从V 到W 的同构. 如果存在从V 到W 的同构, 那么就称V 同构于W . [译注: 更直接和正确的说法其实是可逆而不是双射, 不过在向量空间的情况下这二者是等价的.]
注意到V 平凡地同构于V , 恒等算子是一个从V 到V 的同构. 并且, 如果V 通过T 同构于W , 那么W 也同构于V , 因为T − 1 是一个从W 到V 的同构. 读者应该很容易验证如果V 同构于W 且W 同构于Z , 那么V 同构于Z . 简而言之, 同构是向量空间的类上的等价关系. [译注: 这里的用词是class而不是set, 因为所有的向量空间的确不构成一个集合.] 当存在一个从V 到W 的同构时, 我们有时也说V 和W 是同构的, 而不说V 同构于W . 鉴于V 同构于W 当且仅当W 同构于V , 这不会引起歧义.
定理10. 每个域F 上的n 维向量空间都同构于空间F n .
证明. 令
V 是域
F 上的
n 维向量空间, 令
𝔅 = { α 1 , … , α n } 是
V 的一个有序基. 我们按照以下方式定义从
V 到
F n 的函数
T : 如果
α 在
V 中, 令
T ⁡ α 是
α 相对于有序基
𝔅 的坐标
n 元组
( x 1 , … , x n ) , 即满足
α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n 的
n 元组. 根据我们第2章对于坐标的讨论, 我们验证这个
T 是线性的且是双射的.
◻
出于许多目的我们可以将同构的向量空间视为"相同的", 尽管空间中的向量和运算可能是相当不同的. 我们目前不会详细讨论这个想法, 但将在我们对于向量空间的研究中积累对于同构的理解以及同构空间是"相同的"这个感觉.
我们将作出一些简要的评注. 设T 是一个从V 到W 的同构. 如果S 是V 的一个子集, 那么定理8告诉我们S 是线性无关的当且仅当集合T ⁡ ( S ) 在W 中是线性无关的. 因此, 在判断S 是否线性无关时, 检视S 还是T ⁡ ( S ) 是无关紧要的. 从中我们可以看出, 同构是"维数保持的", 也就是说对于V 任意的有限维子空间, 其在T 下的像有着相同的维数. 现在我们给出这个想法的一个非常简单的刻画. 设A 是域F 上的一个m × n 矩阵, 实际上我们给过两种对于矩阵A 的解空间的定义. 第一种是F n 中所有满足线性方程组A ⁢ X = 0 的每个方程的n 元组( x 1 , … , x n ) 构成的集合. 第二种是所有满足A ⁢ X = 0 的n × 1 列矩阵X 构成的集合. 第一种解空间是F n 的子空间, 第二种解空间是F n × 1 的子空间. 实际上F n 和F n × 1 之间有一个显见的同构, 即( x 1 , … , x n ) ↦ [ x 1 ⋮ x n ] . 在这个同构下, A 的第一种解空间被映射至第二种解空间. 这两个空间有着相同的维数, 于是在证明关于解空间的维数的定理时, 选择那个空间来讨论是无关紧要的. 实际上, 读者或许并不会产生一点犹豫, 如果我们选择将F n 和F n × 1 视为等同的. 当方便的时候, 我们就会这么做, 而不方便的时候, 我们就不这么做.
练习1. 令V 是复数集, 令F 是实数域. 在通常的运算下, V 是F 上的一个向量空间. 显式描述一个从该空间到ℝ 2 的同构.
练习2. 令
V 是复数域上的向量空间, 并设存在一个从
V 到
ℂ 3 的同构
T . 令
α 1 , α 2 , α 3 , α 4 是
V 中向量, 满足
T ⁡ α 1 = ( 1 , 0 , i ) , T ⁡ α 2 = ( − 2 , 1 + i , 0 ) , T ⁡ α 3 = ( − 1 , 1 , 1 ) , T ⁡ α 4 = ( 2 , i , 3 ) . α 1 在α 2 和α 3 张成的子空间中吗?令W 1 是α 1 和α 2 张成的子空间, 令W 2 是α 3 和α 4 张成的子空间, 那么W 1 和W 2 的交是什么呢? 找出一个这四个向量α j 张成的V 的子空间的基. 练习3. 令W 是所有2 × 2 的复Hermite矩阵构成的集合. 正如我们在第2章的例子6中所指出的, 在通常的运算下, W 是一个实数域上的向量空间. 验证( x , y , z , t ) ↦ [ t + x y + i ⁢ z y − i ⁢ z t − x ] 是一个从ℝ 4 到W 的同构.
练习4. 表明F m × n 同构于F m ⁢ n .
练习5. 令
V 是复数集, 其可以被视为实数域上的向量空间 (练习1). 我们按照以下方式定义一个从
V 到
2 × 2 实矩阵空间的函数
T . 如果
z = x + i ⁢ y , 其中
x 和
y 是实数, 那么
T ⁡ ( z ) = [ x + 7 ⁢ y 5 ⁢ y − 10 ⁢ y x − 7 ⁢ y ] . 验证T 是一个单射的(实)线性变换. 验证T ⁡ ( z 1 ⁢ z 2 ) = T ⁡ ( z 1 ) ⁢ T ⁡ ( z 2 ) . 你如何描述T 的像? 练习6. 令V 和W 是域F 上的有限维向量空间. 证明V 和W 同构当且仅当dim ⁡ V = dim ⁡ W .
练习7. 令V 和W 是域F 上的向量空间, U 是一个从V 到W 的同构. 证明T ↦ U ⁢ T ⁢ U − 1 是一个从L ⁡ ( V , V ) 到L ⁡ ( W , W ) 的同构.
第3.4节 通过矩阵表示变换 令V 是域F 上的n 维向量空间, 令W 是域F 上的m 维向量空间. 令𝔅 = { α 1 , … , α n } 是V 的一个有序基, 令𝔅 ′ = { β 1 , … , β m } 是W 的一个有序基. 如果T 是任意的从V 到W 的线性变换, 那么T 由其施加于向量α j 的作用决定. 每个向量T ⁡ α j 皆可唯一地表示为β i 的线性组合T ⁡ α j = ∑ i = 1 m A i , j ⁢ β i 其中A 1 , j , … , A m , j 是T ⁡ α j 在有序基𝔅 ′ 下的坐标. 于是, 变换T 可由m ⁢ n 个标量A i , j 决定. 由A ⁡ ( i , j ) = A i , j 定义的m × n 矩阵A 被称为T 相对于有序基𝔅 和𝔅 ′ 的矩阵. 我们即时的任务在于显式地理解矩阵A 是如何决定线性变换T 的.
如果α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n 是V 中的一个向量, 那么T ⁡ α = T ⁡ ( ∑ j = 1 n x j ⁢ α j ) = ∑ j = 1 n x j ⁢ ( T ⁡ α j ) = ∑ j = 1 n x j ⁢ ∑ i = 1 m A i , j ⁢ β i = ∑ i = 1 m ( ∑ j = 1 n A i , j ⁢ x j ) ⁢ β i 如果X 是α 在有序基𝔅 下的坐标矩阵, 那么以上的计算表明A ⁢ X 是向量T ⁡ α 在有序基𝔅 ′ 下的坐标矩阵, 因为标量∑ j = 1 n A i , j ⁢ x j 是列矩阵A ⁢ X 第i 行的元素. 让我们也观察到如果A 是域F 上任意的m × n 矩阵, 那么T ⁡ ( ∑ j = 1 n x j ⁢ α j ) = ∑ i = 1 m ( ∑ j = 1 n A i , j ⁢ x j ) ⁢ β i 定义了一个从V 到W 的线性变换T , 并且其相对于𝔅 和𝔅 ′ 的矩阵是A . 我们形式地总结如下:
定理11. 令V 是域F 上的n 维向量空间, 令W 是域F 上的m 维向量空间. 令𝔅 = { α 1 , … , α n } 是V 的一个有序基, 令𝔅 ′ = { β 1 , … , β m } 是W 的一个有序基. 对于每个从V 到W 的线性变换T , 存在一个域F 上的m × n 矩阵A 满足[ T ⁡ α ] 𝔅 ′ = A ⁢ [ α ] 𝔅 对于每个V 中向量α 成立. 并且, T ↦ A 是一个从所有从V 到W 的线性变换构成的集合到所有域F 上的m × n 矩阵构成的集合的一一对应.
定理11中与T 相关联着的矩阵A 被称为T 相对于有序基𝔅 和𝔅 ′ 的矩阵. 注意到式子T ⁡ α j = ∑ i = 1 m A i , j ⁢ β i 是说矩阵A 的列A 1 , … , A n 由A j = [ T ⁡ α j ] 𝔅 ′ , j = 1 , … , n 给出. 如果U 是另一个从V 到W 的线性变换, 并且B = [ B 1 , … , B n ] 是U 相对于有序基𝔅 和𝔅 ′ 的矩阵, 那么c ⁢ A + B 是c ⁢ T + U 相对于有序基𝔅 和𝔅 ′ 矩阵. 这是显然的, 因为c ⁢ A j + B j = c ⁢ [ T ⁡ α j ] 𝔅 ′ + [ U ⁡ α j ] 𝔅 ′ = [ c ⁢ T ⁡ α j + U ⁡ α j ] 𝔅 ′ = [ ( c ⁢ T + U ) ⁡ α j ] 𝔅 ′
定理12. 令V 是域F 上的n 维向量空间, 令W 是域F 上的m 维向量空间. 对于V 和W 相应的每对有序基𝔅 和𝔅 ′ , 为线性变换T 赋予其相对于𝔅 和𝔅 ′ 的矩阵的函数是一个空间L ⁡ ( V , W ) 和F m × n 之间的同构.
证明. 我们观察到这个函数是线性的 [译注: 就是上一段], 并且如定理11所言, 这个函数是
L ⁡ ( V , W ) 和
F m × n 之间的双射.
◻
我们将特别关心从一个空间到自身的线性变换的矩阵表示, 也就是线性算子的矩阵表示. 在这种情况下使用相同的基是方便的, 即取𝔅 = 𝔅 ′ . 我们将称这个表示矩阵为T 相对于有序基𝔅 的矩阵. 因为这个概念是如此重要, 以至于我们将重复这个定义. 如果T 是有限维向量空间V 上的一个线性算子而𝔅 = { α 1 , … , α n } 是V 的一个有序基, 那么T 相对于𝔅 的矩阵 (或者说, T 在有序基𝔅 下的矩阵) 是一个n × n 矩阵A , 其元素A i , j 由式子T ⁡ α j = ∑ i = 1 n A i , j ⁢ α i , j = 1 , … , n 定义. 读者必须记住这个表示T 的矩阵依赖于有序基𝔅 , 而V 的每个有序基下都有一个T 的表示矩阵. (如果是从一个空间V 到另一个空间W 的线性变换, 那就是依赖于两个有序基, 一个是V 的有序基, 另一个是W 的有序基.) 为了不忘记这个依赖关系, 我们将使用记号[ T ] 𝔅 表示线性算子T 在有序基𝔅 下的矩阵. 这个矩阵以及相关的有序基刻画T 的方式在于对于每个V 中的α 有[ T ⁡ α ] 𝔅 = [ T ] 𝔅 ⁢ [ α ] 𝔅 .
例子13. 令V 是域F 上的n × 1 列矩阵构成的空间, 令W 是域F 上的m × 1 列矩阵构成的空间, 令A 是域F 上一个固定的m × n 矩阵. 令T 是一个从V 到W 的线性变换, 由T ⁡ ( X ) = A ⁢ X 定义. 令𝔅 是V 的有序基, 其类似于F n 的标准有序基, 也就是说, 𝔅 的第i 个向量是n × 1 矩阵X i , 其第i 行是1 , 而其他元素为0 . 令𝔅 ′ 是W 的有序基, 其定义方式与V 的这个有序基类似. 那么, T 相对于𝔅 和𝔅 ′ 的矩阵就是A 本身. 这是显然的, 因为矩阵A ⁢ X j 就是A 的第j 列.
例子14. 令F 是一个域, 令T 是F 2 上的一个线性算子, 由T ⁡ ( x 1 x 2 ) = ( x 1 , 0 ) 定义. 令𝔅 是F 2 的标准有序基, 𝔅 = ( ε 1 , ε 2 ) . 既然T ⁡ ε 1 = T ⁡ ( 1 , 0 ) = ( 1 , 0 ) = 1 ⁢ ε 1 + 0 ⁢ ε 2 , T ⁡ ε 2 = T ⁡ ( 0 , 1 ) = ( 0 , 0 ) = 0 ⁢ ε 1 + 0 ⁢ ε 2 , 那么T 在有序基𝔅 下的矩阵是[ T ] 𝔅 = [ 1 0 0 0 ] .
例子15. 令V 是所有具有形式f ⁡ ( x ) = c 0 + c 1 ⁢ x + c 2 ⁢ x 2 + c 3 ⁢ x 3 的从ℝ 到ℝ 的多项式函数构成的向量空间, 即次数小于等于三的多项式函数的空间. 例子2的微分算子D 映射V 至V , 鉴于D 是"降次的". 令𝔅 是V 的有序基, 其由四个函数f 1 , f 2 , f 3 , f 4 构成, 通过f j ⁡ ( x ) = x j − 1 定义, 那么( D ⁡ f 1 ) ⁡ ( x ) = 0 , D ⁡ f 1 = 0 ⁢ f 1 + 0 ⁢ f 2 + 0 ⁢ f 3 + 0 ⁢ f 4 ( D ⁡ f 2 ) ⁡ ( x ) = 1 , D ⁡ f 2 = 1 ⁢ f 1 + 0 ⁢ f 2 + 0 ⁢ f 3 + 0 ⁢ f 4 ( D ⁡ f 3 ) ⁡ ( x ) = 2 ⁢ x , D ⁡ f 3 = 0 ⁢ f 1 + 2 ⁢ f 2 + 0 ⁢ f 3 + 0 ⁢ f 4 ( D ⁡ f 4 ) ⁡ ( x ) = 3 ⁢ x 2 , D ⁡ f 4 = 0 ⁢ f 1 + 0 ⁢ f 2 + 3 ⁢ f 3 + 0 ⁢ f 4 于是D 在有序基𝔅 下的矩阵是[ D ] 𝔅 = [ 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ] .
我们已经见过把变换相加时表示矩阵会怎么变化了, 即把矩阵相加. 现在我们想问把变换复合起来时会发生些什么. 更准确地说, 令V , W , Z 是域F 上相应维数为n , m , p 的向量空间. 令T 是一个从V 到W 的线性变换, 令U 是一个从W 到Z 的线性变换. 设V , W , Z 相应的有序基分别为𝔅 = { α 1 , … , α n } , 𝔅 ′ = { β 1 , … , β m } , 𝔅 ″ = { γ 1 , … , γ p } . 令A 是T 相对于𝔅 和𝔅 ′ 的矩阵, 令B 是U 相对于𝔅 ′ 和𝔅 ″ 的矩阵. 那么, 很容易看出来变换U ⁢ T 相对于𝔅 和𝔅 ″ 的矩阵C 就是B 和A 的积. 这是因为, 如果α 是V 中任意的向量, 那么[ T ⁡ α ] 𝔅 ′ = A ⁢ [ α ] 𝔅 , [ U ⁡ ( T ⁡ α ) ] 𝔅 ″ = B ⁢ [ T ⁡ α ] 𝔅 ′ 于是[ ( U ⁢ T ) ⁡ ( α ) ] 𝔅 ″ = ( B ⁢ A ) ⁢ [ α ] 𝔅 根据表示矩阵的定义和唯一性, 我们必有C = B ⁢ A . 读者也可通过施行以下计算来看出这点.( U ⁢ T ) ⁡ ( α j ) = U ⁡ ( T ⁡ α j ) = U ⁡ ( ∑ k = 1 m A k , j ⁢ β k ) = ∑ k = 1 m A k , j ⁢ ( U ⁡ β k ) = ∑ k = 1 m A k , j ⁢ ∑ i = 1 p B i , k ⁢ γ i = ∑ i = 1 p ( ∑ k = 1 m B i , k ⁢ A k , j ) ⁢ γ i 于是我们必有C i , j = ∑ k = 1 m B i , k ⁢ A k , j . 之前我们定义矩阵乘法的动机在于矩阵行上的操作. 这里我们看到线性变换的复合也提供了强烈的动机. 让我们形式化地总结一下这个结果.
定理13. 令V , W , Z 是域F 上的有限维向量空间. 令T 是从V 到W 的线性变换, U 是从W 到Z 的线性变换. 如果𝔅 , 𝔅 ′ , 𝔅 ″ 分别是V , W , Z 的有序基, 如果A 是T 相对于𝔅 和𝔅 ′ 的矩阵, B 是U 相对于𝔅 ′ 和𝔅 ″ 的矩阵, 那么变换的复合U ⁢ T 相对于𝔅 和𝔅 ″ 的矩阵是积C = B ⁢ A .
注意到定理13给我们了一个矩阵乘法是结合运算的证明, 这个证明不需要计算, 并且独立于我们在第1章给出的证明. 我们还应该指出我们在例子10中证明了定理13的特殊情况. [译注: 原文是例子12, 疑似应该是例子10.]
如果T 和U 是空间V 上的线性算子, 并且我们以单一的有序基𝔅 表示这两个变换, 那么定理13呈现出特别简单的形式[ U ⁢ T ] 𝔅 = [ U ] 𝔅 ⁢ [ T ] 𝔅 . 因此, 在这种情况下由𝔅 所决定的算子和矩阵之间的对应不仅是向量空间的同构, 还保持乘法. 这个事实的一个简单推论是线性算子T 可逆当且仅当矩阵[ T ] 𝔅 可逆. 这是因为恒等算子I 在任意的有序基下都由恒等矩阵表示, 于是U ⁢ T = T ⁢ U = I 等价于[ U ] 𝔅 ⁢ [ T ] 𝔅 = [ T ] 𝔅 ⁢ [ U ] 𝔅 = I . 当然, T 可逆时有[ T − 1 ] 𝔅 = [ T ] 𝔅 − 1 .
现在我们想要探究当有序基改变时表示矩阵会怎样变化. 为了简单起见, 我们将只考虑空间V 上的线性算子, 于是我们可以只使用一个有序基. 我们想问的特定问题如下. 令T 是有限维向量空间V 上的一个线性算子, 并令𝔅 = { α 1 , … , α n } 和 𝔅 ′ = { α 1 ′ , … , α n ′ } 是V 的两个有序基. 矩阵[ T ] 𝔅 和[ T ] 𝔅 ′ 之间有什么联系呢? 正如我们在第2章所观察到的那样, 存在一个唯一的n × n (可逆)矩阵P 满足对于每个V 的向量α 有[ α ] 𝔅 = P ⁢ [ α ] 𝔅 ′ . 这个矩阵即P = [ P 1 , … , P n ] , 其中P j = [ α j ′ ] 𝔅 . 根据定义,[ T ⁡ α ] 𝔅 = [ T ] 𝔅 ⁢ [ α ] 𝔅 . 将坐标变换公式应用于T ⁡ α , 我们就得到[ T ⁡ α ] 𝔅 = P ⁢ [ T ⁡ α ] 𝔅 ′ . 结合这三个式子, 我们有[ T ] 𝔅 ⁢ P ⁢ [ α ] 𝔅 ′ = P ⁢ [ T ⁡ α ] 𝔅 ′ 或是P − 1 ⁢ [ T ] 𝔅 ⁢ P ⁢ [ α ] 𝔅 ′ = [ T ⁡ α ] 𝔅 ′ 因此就得到[ T ] 𝔅 ′ = P − 1 ⁢ [ T ] 𝔅 ⁢ P . 这回答了我们的问题.
在形式化陈述这个结果之前, 让我们观察一下以下事实. 存在唯一的一个线性算子U 将有序基𝔅 映射成𝔅 ′ , 其由U ⁡ α j = α j ′ , j = 1 , … , n 定义. 这个算子U 是可逆的, 因为它将V 的一个基映射至V 的另一个基. 上面的矩阵P 恰是U 在有序基𝔅 下的表示, 因为P 是由α j ′ = ∑ i = 1 n P i , j ⁢ α i 定义的, 既然U ⁡ α j = α j ′ , 这个式子也可以写成U ⁡ α j = ∑ i = 1 n P i , j ⁢ α i 于是P = [ U ] 𝔅 , 根据定义.
定理14. 令V 是一个域F 上的有限维向量空间. 令𝔅 = { α 1 , … , α n } 和 𝔅 ′ = { α 1 ′ , … , α n ′ } 是V 的有序基. 设T 是V 上的一个线性算子. 如果P = [ P 1 , … , P n ] 是一个以P j = [ α j ′ ] 𝔅 为列的n × n 矩阵, 那么[ T ] 𝔅 ′ = P − 1 ⁢ [ T ] 𝔅 ⁢ P . 或者说, 如果U 是由U ⁡ α j = α j ′ , j = 1 , … , n 定义的V 上的可逆线性算子, 那么[ T ] 𝔅 ′ = [ U ] 𝔅 − 1 ⁢ [ T ] 𝔅 ⁢ [ U ] 𝔅 .
例子16. 令T 是ℝ 2 上由T ⁡ ( x 1 , x 2 ) = ( x 1 , 0 ) 定义的线性算子. 在例子14中我们表明T 在标准有序基𝔅 = { ε 1 , ε 2 } 下的矩阵是[ T ] 𝔅 = [ 1 0 0 0 ] . 设𝔅 ′ 是ℝ 2 的有序基, 其由向量ε 1 ′ = ( 1 , 1 ) 和ε 2 ′ = ( 2 , 1 ) 构成, 那么ε 1 ′ = ε 1 + ε 2 , ε 2 ′ = 2 ⁢ ε 1 + ε 2 于是P 是矩阵P = [ 1 2 1 1 ] . 根据简单的计算P − 1 = [ − 1 2 1 − 1 ] . 因此[ T ] 𝔅 ′ = P − 1 ⁢ [ T ] 𝔅 ⁢ P = [ − 1 2 1 − 1 ] ⁢ [ 1 0 0 0 ] ⁢ [ 1 2 1 1 ] = [ − 1 2 1 − 1 ] ⁢ [ 1 2 0 0 ] = [ − 1 − 2 1 2 ] 我们很容易验证这是正确的, 因为T ⁡ ε 1 ′ = ( 1 , 0 ) = − ε 1 ′ + ε 2 ′ , T ⁡ ε 2 ′ = ( 2 , 0 ) = − 2 ⁢ ε 1 ′ + 2 ⁢ ε 2 ′ .
例子17. 令V 是从ℝ 到ℝ 的次数小于等于3 的多项式函数构成的向量空间. 如例子15, 令D 是V 上的微分算子, 并令𝔅 = { f 1 , f 2 , f 3 , f 4 } 是V 的有序基, 其由f i ⁡ ( x ) = x i − 1 定义. 令t 是一个实数, 定义g i ⁡ ( x ) = ( x + t ) i − 1 , 即g 1 = f 1 g 2 = t ⁢ f 1 + f 2 g 3 = t 2 ⁢ f 1 + 2 ⁢ t ⁢ f 2 + f 3 g 4 = t 3 ⁢ f 1 + 3 ⁢ t 2 ⁢ f 2 + 3 ⁢ t ⁢ f 3 + f 4 既然矩阵P = [ 1 t t 2 t 3 0 1 2 ⁢ t 3 ⁢ t 2 0 0 1 3 ⁢ t 0 0 0 1 ] 很容易看出来是可逆的, 并有P − 1 = [ 1 − t t 2 − t 3 0 1 − 2 ⁢ t 3 ⁢ t 2 0 0 1 − 3 ⁢ t 0 0 0 1 ] 从中我们得知𝔅 ′ = { g 1 , g 2 , g 3 , g 4 } 是V 的一个有序基. 在例子15里, 我们发现D 在有序基𝔅 下的矩阵为[ D ] 𝔅 = [ 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ] . 因此D 相对于有序基𝔅 ′ 的矩阵为P − 1 ⁢ [ D ] 𝔅 ⁢ P = [ 1 − t t 2 − t 3 0 1 − 2 ⁢ t 3 ⁢ t 2 0 0 1 − 3 ⁢ t 0 0 0 1 ] ⁢ [ 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ] ⁢ [ 1 t t 2 t 3 0 1 2 ⁢ t 3 ⁢ t 2 0 0 1 3 ⁢ t 0 0 0 1 ] = [ 1 − t t 2 − t 3 0 1 − 2 ⁢ t 3 ⁢ t 2 0 0 1 − 3 ⁢ t 0 0 0 1 ] ⁢ [ 0 1 2 ⁢ t 3 ⁢ t 2 0 0 2 6 ⁢ t 0 0 0 3 0 0 0 0 ] = [ 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ] 于是D 在有序基𝔅 和𝔅 ′ 下由相同的矩阵表示. 当然, 或许我们可以更直接地看出这点来, 因为D ⁡ g 1 = 0 , D ⁡ g 2 = g 1 , D ⁡ g 3 = 2 ⁢ g 2 , D ⁡ g 4 = 3 ⁢ g 3 . 这个例子刻画了很好的一点. 如果读者已知一个线性算子在某个有序基𝔅 下的矩阵, 并想要找出其在另一个有序基𝔅 ′ 下的矩阵, 经常的情况是使用可逆矩阵P 施行坐标变换是最方便的. 然而, 有时直接诉诸定义来寻找表示矩阵可能要简单得多.
定义. 令A 和B 是域F 上的n × n 矩阵. 我们称B 在F 上相似于A , 如果存在一个域F 上的可逆矩阵P 满足B = P − 1 ⁢ A ⁢ P .
根据定理14, 我们知道: 如果V 是一个域F 上的n 维向量空间而𝔅 和𝔅 ′ 是V 的两个有序基, 那么对于每个V 上的线性算子T , 矩阵B = [ T ] 𝔅 ′ 相似于矩阵A = [ T ] 𝔅 . 我们也可以从另一个方向看待这个事情. 设A 和B 是域F 上的n × n 矩阵, 令𝔅 是V 的一个有序基. 令T 是V 上的线性算子, 其在基𝔅 下由A 表示. 如果B = P − 1 ⁢ A ⁢ P , 令𝔅 ′ 是经P 由𝔅 得到的V 的有序基, 即α j ′ = ∑ i = 1 n P i , j ⁢ α i , 那么T 在有序基𝔅 ′ 下的矩阵就是B .
因此, 陈述B 相似于A 意味着在每个域F 上的n 维空间上, 矩阵A 和B 在两个(可能)不同的有序基下表示着相同的线性变换.
注意到每个n × n 矩阵A 都相似于自身, 只需令P = I ; 如果B 相似于A , 那么A 相似于B , 因为B = P − 1 ⁢ A ⁢ P 可以推出A = ( P − 1 ) − 1 ⁢ B ⁢ P − 1 ; 如果B 相似于A 而C 相似于B , 那么C 相似于A , 因为B = P − 1 ⁢ A ⁢ P 和C = Q − 1 ⁢ B ⁢ Q 可以推出C = ( P ⁢ Q ) − 1 ⁢ A ⁢ ( P ⁢ Q ) . 因此, 相似性是域F 上的n × n 矩阵的集合上的一个等价关系. 读者还应该注意到唯一与恒等矩阵I 相似的矩阵就是I 本身, 唯一与零矩阵相似的矩阵就是零矩阵本身.
练习1. 令
T 是
ℂ 2 上由
T ⁡ ( x 1 , x 2 ) = ( x 1 , x 2 ) 定义的线性算子. 令
𝔅 是
ℂ 2 的标准有序基而
𝔅 ′ = { α 1 , α 2 } 是由
α 1 = ( 1 , i ) , α 2 = ( − i , 2 ) 定义的有序基.
T 相对于𝔅 和𝔅 ′ 的矩阵是什么?T 相对于𝔅 ′ 和𝔅 的矩阵是什么?T 在有序基𝔅 ′ 下的矩阵是什么?T 在有序基{ α 2 , α 1 } 下的矩阵是什么?练习2. 令
T 是从
ℝ 3 到
ℝ 2 的线性变换, 其由
T ⁡ ( x 1 , x 2 , x 3 ) = ( x 1 + x 2 , 2 ⁢ x 3 − x 1 ) 定义.
如果𝔅 是ℝ 3 的标准有序基而𝔅 ′ 是ℝ 2 的标准有序基, 那么T 相对于𝔅 和𝔅 ′ 的矩阵是什么? 如果𝔅 = { α 1 , α 2 , α 3 } 且𝔅 ′ = ( β 1 , β 2 ) , 其中α 1 = ( 1 , 0 , − 1 ) , α 2 = ( 1 , 1 , 1 ) , α 3 = ( 1 , 0 , 0 ) , β 1 = ( 0 , 1 ) , β 2 = ( 1 , 0 ) T 相对于𝔅 和𝔅 ′ 的矩阵是什么? 练习3. 令T 是F n 上的线性算子, 令A 是T 在F n 的标准基下的矩阵, 令W 是由A 的列向量张成的F n 的子空间. 请问W 和T 有何关系?
练习4. 令V 是域F 上的一个二维向量空间, 令𝔅 是V 的一个有序基. 如果T 是V 上的一个线性算子, 并且[ T ] 𝔅 = [ a b c d ] 证明T 2 − ( a + d ) ⁢ T + ( a ⁢ d − b ⁢ c ) ⁢ I = 0 .
练习5. 令T 是ℝ 3 上的线性算子, 其在标准有序基下的矩阵为A = [ 1 2 1 0 1 1 − 1 3 4 ] . 找出T 的像的一个基和T 的零空间的一个基.
练习6. 令
T 是
ℝ 2 上由
T ⁡ ( x 1 , x 2 ) = ( − x 2 , x 1 ) 定义的线性算子.
T 在ℝ 2 的标准基下的矩阵是什么?T 在有序基𝔅 = { α 1 , α 2 } 下的矩阵是什么, 其中α 1 = ( 1 , 2 ) 且α 2 = ( 1 , − 1 ) ?证明对于每个实数c , 算子( T − c ⁢ I ) 都是可逆的. 证明如果𝔅 是ℝ 2 任意的有序基并且[ T ] 𝔅 = A , 那么A 1 , 2 ⁢ A 2 , 1 ≠ 0 . 练习7. 令
T 是
ℝ 3 上的线性算子, 由
T ⁡ ( x 1 , x 2 , x 3 ) = ( 3 ⁢ x 1 + x 3 , − 2 ⁢ x 1 + x 2 , − x 1 + 2 ⁢ x 2 + 4 ⁢ x 3 ) 定义.
T 在ℝ 3 的标准有序基下的矩阵是什么?T 在有序基{ α 1 , α 2 , α 3 } 下的矩阵是什么, 其中α 1 = ( 1 , 0 , 1 ) , α 2 = ( − 1 , 2 , 1 ) , α 3 = ( 2 , 1 , 1 ) ?证明T 是可逆的, 并如定义T 一样给出T − 1 的规则. 练习8. 令θ 是一个实数. 证明以下两个矩阵在复数域上是相似的:[ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] , [ e i ⁢ θ 0 0 e − i ⁢ θ ] (提示: 令T 是ℂ 2 上的线性算子, 其在标准有序基下由第一个矩阵表示. 接着, 找出向量α 1 和α 2 使得T ⁡ α 1 = e i ⁢ θ ⁢ α 1 , T ⁡ α 2 = e − i ⁢ θ ⁢ α 2 并且{ α 1 , α 2 } 是一个基.)
练习9. 令V 是域F 上的一个有限维向量空间. 令S 和T 是V 上的线性算子. 我们问: 什么时候存在V 的有序基𝔅 和𝔅 ′ 使得[ S ] 𝔅 = [ T ] 𝔅 ′ ? 证明这样的基存在当且仅当存在一个V 上的可逆线性算子U 使得T = U ⁢ S ⁢ U − 1 . (证明大纲: 如果[ S ] 𝔅 = [ T ] 𝔅 ′ , 令U 是将𝔅 映射成𝔅 ′ 的线性算子, 然后表明S = U ⁢ T ⁢ U − 1 . 反过来, 如果对于某个可逆的U 有T = U ⁢ S ⁢ U − 1 , 令𝔅 是V 任意的有序基, 令𝔅 ′ 是其在U 下的像 [译注: 当然要保持顺序], 然后表明[ S ] 𝔅 = [ T ] 𝔅 ′ .)
练习10. 我们已经知道由T ⁡ ( x 1 , x 2 ) = ( x 1 , 0 ) 定义的ℝ 2 上的线性算子T 在标准有序基下由矩阵A = [ 1 0 0 0 ] 表示. 这个算子满足T 2 = T . 证明如果S 是一个ℝ 2 上满足S 2 = S 的线性算子, 那么S = 0 , 或者S = I , 或者存在ℝ 2 的一个有序基使得[ S ] 𝔅 = A .
练习11. 令W 是域F 上所有n × 1 矩阵构成的空间. 如果A 是域F 上的一个n × n 矩阵, 那么A 通过左乘定义了一个W 上的线性算子L A : L A ⁡ ( X ) = A ⁢ X . 证明每个W 上的线性算子都是左乘某个n × n 矩阵, 即是对于某个矩阵A 而言的L A . 现在设V 是域F 上的一个n 维向量空间, 令𝔅 是V 的一个有序基. 对于每个V 中的α , 定义U ⁡ α = [ α ] 𝔅 . 证明U 是一个从V 到W 的线性算子. 如果T 是一个V 的线性算子, 那么U ⁢ T ⁢ U − 1 是一个W 上的线性算子. 于是, U ⁢ T ⁢ U − 1 是一个左乘某个n × n 矩阵A 的变换, 那么A 是什么呢?
练习12. 令
V 是域
F 上的一个
n 维向量空间, 令
𝔅 = { α 1 , … , α n } 是
V 的一个有序基.
根据定理1, 存在唯一的V 上的线性算子T 满足T ⁡ α j = α j + 1 , j = 1 , … , n − 1 , T ⁡ α n = 0 . T 在有序基𝔅 下的矩阵A 是什么? 证明T n = 0 但是T n − 1 ≠ 0 . 令S 是V 上任意的满足S n = 0 但是S n − 1 ≠ 0 的线性算子. 证明存在V 的有序基𝔅 ′ 使得S 在𝔅 ′ 下的表示是a里的矩阵A . 证明如果M 和N 是域F 上满足M n = N n = 0 但是M n − 1 ≠ 0 且N n − 1 ≠ 0 的n × n 矩阵, 那么M 和N 是相似的. 练习13. 令V 和W 是域F 上的有限维向量空间. 令T 是一个从V 到W 的线性变换. 如果𝔅 = { α 1 , … , α n } 和 𝔅 ′ = { β 1 , … , β m } 分别是V 和W 的有序基, 如定理5的证明一样定义线性变换E p , q : E p , q ⁡ ( α i ) = δ i , q ⁢ β p , 那么E p , q , 1 ≤ p ≤ m , 1 ≤ q ≤ n 构成了L ⁡ ( V , W ) 的一个基, 并且对于特定的标量A p , q 有T = ∑ p = 1 m ∑ q = 1 n A p , q ⁢ E p , q . A p , q 即T 在这个L ⁡ ( V , W ) 的基下的坐标. 证明以A ⁡ ( p , q ) = A p , q 为元素的矩阵A 就恰是T 相对于𝔅 和𝔅 ′ 的表示矩阵.
第3.5节 线性泛函 如果V 是一个域F 上的向量空间, 那么从V 到标量域F 的线性变换f 也被称为V 上的线性泛函. 如果我们从头开始, 那么这意味着f 是一个从V 到F 的函数, 并且满足f ⁡ ( c ⁢ α + β ) = c ⁢ f ⁡ ( α ) + f ⁡ ( β ) 对于所有V 中的α 和β 以及所有F 中的标量c 成立. 线性泛函这个概念的重要性在于它有助于组织和澄清关于子空间, 线性方程和坐标的讨论.
例子18. 令F 是一个域而a 1 , … , a n 是F 中标量, 我们根据f ⁡ ( x 1 , … , x n ) = a 1 ⁢ x 1 + ⋯ + a n ⁢ x n 定义一个F n 上的函数f , 那么f 是F n 上的一个线性泛函. 它是这样的泛函, 其在F n 的标准有序基和F 的基{ 1 } 下由矩阵[ a 1 ⋯ a n ] 表示:a j = f ⁡ ( ε j ) , j = 1 , … , n . [译注: 其实{ 1 } 就是F 的标准有序基.] 每个F n 上的线性泛函都具有这种形式, 对于某些标量a 1 , … , a n 而言. 这是由线性泛函的定义立即得到的, 因为如果我们定义a j = f ⁡ ( ε j ) 并使用线性性质, 那么f ⁡ ( x 1 , … , x n ) = f ⁡ ( ∑ j = 1 n x j ⁢ ε j ) = ∑ j = 1 n x j ⁢ f ⁡ ( ε j ) = ∑ j = 1 n a j ⁢ x j
例子19. 这里给出一个线性泛函的重要例子. 令n 是一个正整数而F 是一个域, 如果A 是一个以F 中标量为元素的n × n 矩阵, 那么A 的迹是标量tr ⁡ ( A ) = A 1 , 1 + A 2 , 2 + ⋯ + A n , n . 迹函数是一个矩阵空间F n × n 上的线性泛函, 因为tr ⁡ ( c ⁢ A + B ) = ∑ i = 1 n ( c ⁢ A i , i + B i , i ) = c ⁢ ∑ i = 1 n A i , i + ∑ i = 1 n B i , i = c ⁢ tr ⁡ ( A ) + tr ⁡ ( B )
例子20. 令V 是所有从域F 到自身的多项式函数构成的空间. 令t 是F 的一个元素. 如果我们定义L t ⁡ ( p ) = p ⁡ ( t ) 那么L t 是一个V 上的线性泛函. 人们经常这样描述这个泛函, 对于每个t , "在t 处求值"是一个多项式函数空间上的线性泛函. 或许我们应该指出, 在这个例子里多项式函数实际上并不发挥任何作用, 对于所有从F 到F 的函数构成的空间, 在t 处求值同样也是一个线性泛函.
例子21. 这或许是数学中最重要的线性泛函. 令[ a , b ] 是实轴上的一个闭区间, C ⁡ ( [ a , b ] ) 是[ a , b ] 上的连续实值函数构成的空间, 那么L ⁡ ( g ) = ∫ a b g ⁡ ( t ) d t 定义了一个C ⁡ ( [ a , b ] ) 上的线性泛函L .
如果V 是一个向量空间, 那么所有V 上的线性泛函自然地构成了一个向量空间, 此即L ⁡ ( V , F ) , 我们记作V ⁎ 并将其称为V 的对偶空间:V ⁎ = L ⁡ ( V , F ) .
如果V 是有限维的, 那么我们可以得到一个对于对偶空间V ⁎ 相当显式的描述. 从定理5我们知道了一件关于V ⁎ 的事情, 即dim ⁡ V ⁎ = dim ⁡ V . 令𝔅 = { α 1 , … , α n } 是V 的一个基. 根据定理1, (对于每个i )存在唯一的V 上的线性泛函f i 满足f i ⁡ ( α j ) = δ i , j . 用这种方法我们从𝔅 得到了n 个不同的V 上的线性泛函f 1 , … , f n . 这些泛函也是线性无关的, 因为若设f = ∑ i = 1 n c i ⁢ f i 那么f ⁡ ( α j ) = ∑ i = 1 n c i ⁢ f i ⁡ ( α j ) = ∑ i = 1 n c i ⁢ δ i , j = c j 特别地, 如果f 是零泛函, 那么对于每个j 有f ⁡ ( α j ) = 0 , 因此标量c j 都是0 . 现在f 1 , … , f n 是n 个线性无关的泛函, 而且我们知道V ⁎ 的维数是n , 那么𝔅 ⁎ = { f 1 , … , f n } 必然是V ⁎ 的一个基, 其被称为𝔅 的对偶基.
定理15. 令V 是域F 上的一个有限维向量空间, 令𝔅 = { α 1 , … , α n } 是V 的一个基. 那么, 存在唯一的V ⁎ 的对偶基𝔅 ⁎ = { f 1 , … , f n } , 其满足f i ⁡ ( α j ) = δ i , j . 对于每个V 上的线性泛函f , 我们有f = ∑ i = 1 n f ⁡ ( α i ) ⁢ f i 以及对于每个V 中的α , 我们有α = ∑ i = 1 n f i ⁡ ( α ) ⁢ α i .
证明. 上面我们已经说明了存在唯一的基与
𝔅 "对偶". 如果
f 是一个
V 上的线性泛函, 那么
f 即是
f i 的某个线性组合, 并且我们观察到标量
c j 必然由
c j = f ⁡ ( α j ) 给出. 类似地, 如果
α = ∑ i = 1 n x i ⁢ α i 是
V 的一个向量, 那么
f j ⁡ ( α ) = ∑ i = 1 n x i ⁢ f j ⁡ ( α i ) = ∑ i = 1 n x i ⁢ δ i , j = x j 因此
α 作为
α i 的线性组合的唯一表达为
α = ∑ i = 1 n f i ⁡ ( α ) ⁢ α i . ◻
上面这个式子给我们提供了一种刻画对偶基的绝佳方式. 它是说, 如果𝔅 = { α 1 , … , α n } 是V 的一个有序基, 并且𝔅 ⁎ = { f 1 , … , f n } 是其对偶基, 那么f i 就恰是那个赋予V 中的向量α 相对于有序基𝔅 的第i 个坐标的函数. 因此, 我们也可以将f i 称为𝔅 的坐标函数. 定理15实际上告诉了我们以下事实: 如果f 在V ⁎ 中而令f ⁡ ( α i ) = a i , 那么当α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n 时, 我们有f ⁡ ( α ) = a 1 ⁢ x 1 + ⋯ + a n ⁢ x n . 换言之, 如果我们选定了V 的一个有序基𝔅 并描述V 中的每个向量以其相对于𝔅 的n 元坐标组( x 1 , … , x n ) , 那么每个V 上的线性泛函都具有f ⁡ ( α ) = a 1 ⁢ x 1 + ⋯ + a n ⁢ x n 的形式. 这是例子18的自然泛化, 其为V = F n 和𝔅 = { ε 1 , … , ε n } 的特别情形.
例子22. 令V 是所有从ℝ 到ℝ 的次数小于等于2 的多项式函数构成的向量空间, 令t 1 , t 2 , t 3 是三个不同的实数, 令L i ⁡ ( p ) = p ⁡ ( t i ) . 那么, L 1 , L 2 , L 3 是V 上的线性泛函. 这些线性泛函是线性无关的, 因为若设L = c 1 ⁢ L 1 + c 2 ⁢ L 2 + c 3 ⁢ L 3 当L = 0 时, 即对于每个V 中的p 都有L ⁡ ( p ) = 0 , 那么应用L 于特定的多项式"函数"1 , x , x 2 , 我们就得到{ c 1 + c 2 + c 3 = 0 t 1 ⁢ c 1 + t 2 ⁢ c 2 + t 3 ⁢ c 3 = 0 t 1 2 ⁢ c 1 + t 2 2 ⁢ c 2 + t 3 2 ⁢ c 3 = 0 从中我们得到c 1 = c 2 = c 3 = 0 , 因为(根据简单的计算可知)矩阵[ 1 1 1 t 1 t 2 t 3 t 1 2 t 2 2 t 3 2 ] 在t 1 , t 2 , t 3 互异时是可逆的. 既然L i 是线性无关的并且V 的维数是3 , 这些泛函构成了V ⁎ 的一个基. 它是什么V 的基的对偶呢? 这样一个V 的基{ p 1 , p 2 , p 3 } 必然满足L i ⁡ ( p j ) = δ i , j 或者说p j ⁡ ( t i ) = δ i , j . 很容易看出这些多项式函数应该是p 1 ⁡ ( x ) = ( x − t 2 ) ⁢ ( x − t 3 ) ( t 1 − t 2 ) ⁢ ( t 1 − t 3 ) , p 2 ⁡ ( x ) = ( x − t 1 ) ⁢ ( x − t 3 ) ( t 2 − t 1 ) ⁢ ( t 2 − t 3 ) , p 3 ⁡ ( x ) = ( x − t 1 ) ⁢ ( x − t 2 ) ( t 3 − t 1 ) ⁢ ( t 3 − t 2 ) . V 的基{ p 1 , p 2 , p 3 } 是有趣的, 因为根据定理15, 对于每个V 中的p 我们有p = p ⁡ ( t 1 ) ⁢ p 1 + p ⁡ ( t 2 ) ⁢ p 2 + p ⁡ ( t 3 ) ⁢ p 3 . 因此, 如果c 1 , c 2 , c 3 是任意的实数, 那么恰存在唯一的ℝ 上的次数至多为2 的多项式函数p 满足p ⁡ ( t j ) = c j , j = 1 , 2 , 3 . 这个多项式函数为p = c 1 ⁢ p 1 + c 2 ⁢ p 2 + c 3 ⁢ p 3 .
现在让我们来讨论线性泛函和子空间之间的关系. 如果f 是一个非零的线性泛函, 那么f 的秩就是1 , 因为其像是标量域的非零子空间, 必然是标量域本身. 如果潜在的空间V 是有限维的, 那么秩加零化度定理 (定理2) 告诉我们零空间N f 的维数dim ⁡ N f = dim ⁡ V − 1 .
在一个n 维空间中, 具有n − 1 维的子空间被称为超空间. 这样的空间有时也被称为超平面或者余维数为1 的子空间. 每个超空间都是某个线性泛函的零空间吗? 答案很容易看出来是yes. 而且, 证明以下事实也并不更加困难. n 维空间的每个d 维子空间都是( n − d ) 个线性泛函的零空间之交. (下面的定理16)
定义. 如果V 是域F 上的向量空间而S 是V 的一个子集, S 的零化子S 0 是V 上所有这样的线性泛函f 构成的集合, 其对于每个S 中的α 有f ⁡ ( α ) = 0 .
读者应该很容易看出S 0 是V ⁎ 的子空间, 不论S 是否是V 的子空间. 如果S 仅包含零向量, 那么S 0 = V ⁎ . 如果S = V , 那么S 0 是V ⁎ 的零子空间. (在V 是有限维的情况下很容易看出来.)
定理16. 令V 是域F 上的有限维向量空间, 令W 是V 的子空间, 那么dim ⁡ W + dim ⁡ W 0 = dim ⁡ V .
证明. 令
k 是
W 的维数而
{ α 1 , … , α k } 是
W 的一个基. 选择
V 中向量
α k + 1 , … , α n 使得
{ α 1 , … , α n } 是
V 的一个基. 令
{ f 1 , … , f n } 是
V ⁎ 的基, 其对偶于这个
V 的基. 我们现在证明
{ f k + 1 , … , f n } 是零化子
W 0 的一个基. 显然对于
i ≥ k + 1 我们知道
f i 属于
W 0 , 因为
f i ⁡ ( α j ) = δ i , j 于是当
i ≥ k + 1 且
j ≤ k 时有
δ i , j = 0 . 从中我们可知当
α 是
α 1 , … , α k 的线性组合时, 对于
i ≥ k + 1 有
f i ⁡ ( α ) = 0 . 因为泛函
{ f k + 1 , … , f n } 是线性无关的, 所以剩下来我们必须要做的就是证明它们可以张成
W 0 . 设
f 在
V ⁎ 中, 既然
f = ∑ i = 1 n f ⁡ ( α i ) ⁢ f i , 于是若
f 在
W 0 中, 我们有
f ⁡ ( α i ) = 0 对于
i ≤ k 成立, 那么
f = ∑ i = k + 1 n f ⁡ ( α i ) ⁢ f i . 我们证明了如果
dim ⁡ W = k 而
dim ⁡ V = n , 那么
dim ⁡ W 0 = n − k .
◻
推论. 如果W 是n 维向量空间V 的k 维子空间, 那么W 是V 中( n − k ) 个超空间之交.
证明. 这是定理16证明的推论而不是定理16本身的推论. 在这个证明的记号下,
W 恰是满足
f i ⁡ ( α ) = 0 , i = k + 1 , … , n 的所有向量
α 的集合. 在
k = n − 1 的情形,
W 即是
f n 的零空间.
◻
推论. 如果W 1 和W 2 是某个有限维向量空间的子空间, 那么W 1 = W 2 当且仅当W 1 0 = W 2 0 .
证明. 如果
W 1 = W 2 , 那么显然有
W 1 0 = W 2 0 . 如果
W 1 ≠ W 2 , 那么其中之一的子空间包含有不在另一个子空间的向量. 不妨设向量
α 在
W 2 之中但不在
W 1 中. 根据前面的推论 (或者定理16的证明), 存在一个线性泛函
f 满足对于所有的
W 1 中
β 有
f ⁡ ( β ) = 0 但
f ⁡ ( α ) ≠ 0 , 那么
f 在
W 1 0 之中但不在
W 2 0 中, 即
W 1 0 ≠ W 2 0 .
◻
接下来的一节我们将给出这两个推论的不同的证明. 第一个推论是说, 如果我们挑选了空间的某个有序基, 那么每个k 维的子空间都可以由( n − k ) 个相对于基的坐标上的齐次线性条件刻画.
让我们从线性泛函的视角简要看看齐次线性方程组. 设我们有一个想要求解的齐次线性方程组{ A 1 , 1 ⁢ x 1 + ⋯ + A 1 , n ⁢ x n = 0 ⋮ ⋮ A m , 1 ⁢ x 1 + ⋯ + A m , n ⁢ x n = 0 如果我们令f i , i = 1 , … , m 是由f i ⁡ ( x 1 , … , x n ) = A i , 1 ⁢ x 1 + ⋯ + A i , n ⁢ x n 定义的F n 上的线性泛函, 那么其实我们就是在寻找一个F n 的子空间, 其由所有满足f i ⁡ ( α ) = 0 , i = 1 , … , m 的α 构成. 换言之, 我们在寻找被f 1 , … , f m 零化的子空间. 对于系数矩阵进行行规约为我们提供了找出这个子空间的系统方法. n 元组( A i , 1 , … , A i , n ) 给出了线性泛函f i 相对于与F n 的标准基对偶的基的坐标. 系数矩阵的行空间因此可被视为由f 1 , … , f m 张成的线性泛函的空间, 而解空间是被这个泛函的空间零化的子空间.
现在我们或许可以从"对偶"的角度看待线性方程组, 即给定F n 中的m 个向量α i = ( A i , 1 , … , A i , n ) 我们希望寻找由这些向量张成的子空间的零化子. 既然F n 上一个典型的线性泛函具有形式f ⁡ ( x 1 , … , x n ) = c 1 ⁢ x 1 + ⋯ + c n ⁢ x n 那么f 在这个零化子之中的条件即∑ j = 1 n A i , j ⁢ c j = 0 , i = 1 , … , m 换言之, ( c 1 , … , c n ) 是线性方程组A ⁢ X = 0 的一个解. 从此观点来看, 行规约为我们提供了一种系统性的方法来寻找由给定的F n 的有限子集张成的子空间的零化子.
例子23. 现在我们给出ℝ 4 上的三个线性泛函:f 1 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = x 1 + 2 ⁢ x 2 + 2 ⁢ x 3 + x 4 f 2 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = 2 ⁢ x 2 + x 4 f 3 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = − 2 ⁢ x 1 − 4 ⁢ x 3 + 3 ⁢ x 4 它们所零化的子空间可以通过显式寻找矩阵A = [ 1 2 2 1 0 2 0 1 − 2 0 − 4 3 ] 的行简化阶梯形式得到. 经过简单的计算, 或者看看第2章的例子21, 我们知道R = [ 1 0 2 0 0 1 0 0 0 0 0 1 ] . 因此, 线性泛函g 1 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = x 1 + 2 ⁢ x 3 g 2 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = x 2 g 3 ⁡ ( x 1 , x 2 , x 3 , x 4 ) = x 4 与f 1 , f 2 , f 3 张成了相同的( ℝ 4 ) ⁎ 的子空间, 并且零化了相同的ℝ 4 的子空间. 被零化的子空间由所有满足x 1 = − 2 ⁢ x 3 , x 2 = x 4 = 0 的向量构成.
例子24. 令W 是由α 1 = ( 2 , − 2 , 3 , 4 , − 1 ) , α 2 = ( − 1 , 1 , 2 , 5 , 2 ) , α 3 = ( 0 , 0 , − 1 , − 2 , 3 ) , α 4 = ( 1 , − 1 , 2 , 3 , 0 ) 张成的ℝ 5 的子空间. 人们该如何描述W 0 , 即W 的零化子呢? 让我们构造一个以α 1 , α 2 , α 3 , α 4 为行向量的矩阵A , 并找出行等价于A 的行简化阶梯矩阵R :A = [ 2 − 2 3 4 − 1 − 1 1 2 5 2 0 0 − 1 − 2 3 1 − 1 2 3 0 ] → R = [ 1 − 1 0 − 1 0 0 0 1 2 0 0 0 0 0 1 0 0 0 0 0 ] . 如果f 是ℝ 5 上的一个线性泛函:f ⁡ ( x 1 , … , x 5 ) = ∑ j = 1 5 c j ⁢ x j 那么f 在W 0 中当且仅当f ⁡ ( α i ) = 0 , i = 1 , 2 , 3 , 4 , 即当且仅当∑ j = 1 5 A i , j ⁢ c j = 0 , 1 ≤ i ≤ 4 . 这等价于∑ j = 1 5 R i , j ⁢ c j = 0 , 1 ≤ i ≤ 3 或者c 1 − c 2 − c 4 = 0 c 3 + 2 ⁢ c 4 = 0 c 5 = 0 我们可以通过给c 2 和c 4 赋任意的值以得到所有这样的线性泛函f , 例如令c 2 = a 和c 4 = b , 然后找出相应的c 1 = a + b , c 3 = − 2 ⁢ b , c 5 = 0 . 于是, W 0 由所有具有形式f ⁡ ( x 1 , x 2 , x 3 , x 4 , x 5 ) = ( a + b ) ⁢ x 1 + a ⁢ x 2 − 2 ⁢ b ⁢ x 3 + b ⁢ x 4 的线性泛函f 构成. W 0 的维数是2 , 而W 0 的一个基{ f 1 , f 2 } 可由先令a = 1 , b = 0 再令a = 0 , b = 1 得到:f 1 ⁡ ( x 1 , … , x 5 ) = x 1 + x 2 f 2 ⁡ ( x 1 , … , x 5 ) = x 1 − 2 ⁢ x 3 + x 4 上面W 0 中一般的f 即f = a ⁢ f 1 + b ⁢ f 2 .
练习1. 在
ℝ 3 中, 令
α 1 = ( 1 , 0 , 1 ) , α 2 = ( 0 , 1 , − 2 ) , α 3 = ( − 1 , − 1 , 0 ) .
如果f 是ℝ 3 上满足f ⁡ ( α 1 ) = 1 , f ⁡ ( α 2 ) = − 1 , f ⁡ ( α 3 ) = 3 的线性泛函, 并且α = ( a , b , c ) , 找出f ⁡ ( α ) . 显式描述ℝ 3 上满足f ⁡ ( α 1 ) = f ⁡ ( α 2 ) = 0 但是 f ⁡ ( α 3 ) ≠ 0 的线性泛函f . 令f 是任意的满足f ⁡ ( α 1 ) = f ⁡ ( α 2 ) = 0 并且 f ⁡ ( α 3 ) ≠ 0 的线性泛函. 如果α = ( 2 , 3 , − 1 ) , 表明f ⁡ ( α ) ≠ 0 . 练习2. 令𝔅 = { α 1 , α 2 , α 3 } 是ℂ 3 的基, 其由α 1 = ( 1 , 0 , − 1 ) , α 2 = ( 1 , 1 , 1 ) , α 3 = ( 2 , 2 , 0 ) 定义. 找出𝔅 的对偶基.
练习3. 如果A 和B 是域F 上的n × n 矩阵, 证明trace ⁡ ( A ⁢ B ) = trace ⁡ ( B ⁢ A ) , 接着证明相似矩阵有着相同的迹.
练习4. 令V 是从ℝ 到ℝ 的所有次数小于等于2 的多项式函数p :p ⁡ ( x ) = c 0 + c 1 ⁢ x + c 2 ⁢ x 2 构成的向量空间. 定义三个V 上的线性泛函如下:f 1 ⁡ ( p ) = ∫ 0 1 p ⁡ ( x ) d x , f 2 ⁡ ( p ) = ∫ 0 2 p ⁡ ( x ) d x , f 3 ⁡ ( p ) = ∫ 0 − 1 p ⁡ ( x ) d x . 证明{ f 1 , f 2 , f 3 } 是V 的基, 通过找出以其为对偶的V 的基.
练习5. 如果A 和B 是n × n 的复矩阵, 证明A ⁢ B − B ⁢ A = I 是不可能的.
练习6. 令m 和n 是正整数而F 是一个域. 令f 1 , … , f m 是F n 上的线性泛函. 对于F n 中的α , 定义T ⁡ α = ( f 1 ⁡ ( α ) , … , f m ⁡ ( α ) ) . 证明T 是一个从F n 到F m 的线性变换, 接着表明每个从F n 到F m 的线性变换都具有以上形式, 对于特定的f 1 , … , f m 而言.
练习7. 令α 1 = ( 1 , 0 , − 1 , 2 ) 和α 2 = ( 2 , 3 , 1 , 1 ) , 令W 是α 1 和α 2 张成的ℝ 4 的子空间. 哪些线性泛函f :f ⁡ ( x 1 , x 2 , x 3 , x 4 ) = c 1 ⁢ x 1 + c 2 ⁢ x 2 + c 3 ⁢ x 3 + c 4 ⁢ x 4 在W 的零化子之中呢?
练习8. 令W 是ℝ 5 的子空间, 其由下列向量张成:α 1 = ε 1 + 2 ⁢ ε 2 + ε 3 , α 2 = ε 2 + 3 ⁢ ε 3 + 3 ⁢ ε 4 + ε 5 , α 3 = ε 1 + 4 ⁢ ε 2 + 6 ⁢ ε 3 + 4 ⁢ ε 4 + ε 5 . 找出W 0 的一个基.
练习9. 令V 是实数域上的所有2 × 2 矩阵的向量空间, 令B = [ 2 − 2 − 1 1 ] . 令W 是V 的子空间, 其由所有满足A ⁢ B = 0 的矩阵A 构成. 令f 是V 上的线性泛函, 其在W 的零化子之中. 设f ⁡ ( I ) = 0 且f ⁡ ( C ) = 3 , 其中I 是2 × 2 的恒等矩阵而C = [ 0 0 0 1 ] . 找出f ⁡ ( B ) .
练习10. 令F 是复数域的一个子域. 我们通过f k ⁡ ( x 1 , … , x n ) = ∑ j = 1 n ( k − j ) ⁢ x j , 1 ≤ k ≤ n 定义F n 上的n 个线性泛函, 其中n ≥ 2 . 由f 1 , … , f n 零化的子空间维数是多少呢?
练习11. 令
W 1 和
W 2 是有限维向量空间
V 的子空间.
证明( W 1 + W 2 ) 0 = W 1 0 ∩ W 2 0 . 证明( W 1 ∩ W 2 ) 0 = W 1 0 + W 2 0 . 练习12. 令V 是域F 上的一个有限维向量空间. 令W 是V 的一个子空间. 如果f 是W 上的线性泛函, 证明存在一个V 上的线性泛函g 满足对于每个W 中的α 有g ⁡ ( α ) = f ⁡ ( α ) .
练习13. 令F 是复数域的一个子域. 令V 是域F 上任意的向量空间. 设f 和g 是V 上的线性泛函, 并且满足由h ⁡ ( α ) = f ⁡ ( α ) ⁢ g ⁡ ( α ) 定义的函数h 仍然是V 上的线性泛函. 证明f = 0 或g = 0 .
练习14. 令F 是特征为零的域. 令V 是域F 上的一个有限维向量空间. 如果α 1 , … , α m 是V 中有限多个向量, 并且每个都异于零向量, 证明存在V 上的线性泛函f 满足f ⁡ ( α i ) ≠ 0 , i = 1 , … , m .
练习15. 根据练习3, 相似的矩阵拥有相同的迹. 因此, 我们可以将有限维空间上的线性算子的迹定义为其在任意有序基下的矩阵的迹. 这是良定的, 因为所有这样的表示矩阵都是相似的. 现在令V 是域F 上的2 × 2 矩阵的向量空间, 令P 是一个固定的2 × 2 矩阵. 令T 是由T ⁡ ( A ) = P ⁢ A 定义的V 上的线性算子. 证明trace ⁡ ( T ) = 2 ⁢ trace ⁡ ( P ) .
练习16. 证明n × n 矩阵上的迹泛函在以下意义上唯一. 如果W 是域F 上的n × n 矩阵的空间, 如果f 是W 上满足对于W 中的每个A 和B 有f ⁡ ( A ⁢ B ) = f ⁡ ( B ⁢ A ) 的线性泛函, 那么f 是迹函数的标量倍数. 另外, 如果f ⁡ ( I ) = n , 那么f 就是迹函数.
练习17. 令W 是域F 上的n × n 矩阵的空间. 令W 0 是由所有具有形式C = A ⁢ B − B ⁢ A 的矩阵C 张成的子空间. 证明W 0 恰好就是迹为零的矩阵构成的子空间. (提示: 迹为零的矩阵的空间的维数是什么? 使用矩阵"单元", 即恰具有一个非零元素的矩阵, 来构造足够多具有A ⁢ B − B ⁢ A 形式的线性无关的矩阵.)
第3.6节 二次对偶 上一节我们还有一个没有回答的问题, 即是否每个V ⁎ 的基都是某个V 的基的对偶. 一种回答这个问题的方式是考虑V ⁎⁎ , 即V ⁎ 的对偶空间.
如果α 是V 中的一个向量, 那么α 导出了一个V ⁎ 上的线性泛函, 即L α ⁡ ( f ) = f ⁡ ( α ) , f ∈ V ⁎ . L α 是线性的这一事实不过就是对于V ⁎ 中的线性泛函的定义的重述:L α ⁡ ( c ⁢ f + g ) = ( c ⁢ f + g ) ⁡ ( α ) = ( c ⁢ f ) ⁡ ( α ) + g ⁡ ( α ) = c ⁢ f ⁡ ( α ) + g ⁡ ( α ) = c ⁢ L α ⁡ ( f ) + L α ⁡ ( g ) 如果V 是有限维的并且α ≠ 0 , 那么L α ≠ 0 . 换言之, 存在线性泛函f 满足f ⁡ ( α ) ≠ 0 . 证明非常简单, 在第3.5节已经给过了: 选择一个V 的有序基𝔅 = { α 1 , … , α n } , 其中α 1 = α , 令f 是赋予每个V 中向量其在有序基𝔅 下的坐标的第一分量的线性泛函. [译注: 换句话说, f 即满足f ⁡ ( α 1 ) = 1 而f ⁡ ( α i ) = 0 , 2 ≤ i ≤ n 的存在且唯一的那个线性泛函.]
定理17. 令V 是域F 上的一个有限维向量空间. 对于每个V 中的向量α , 定义L α ⁡ ( f ) = f ⁡ ( α ) , f ∈ V ⁎ . 映射α ↦ L α 是一个从V 到V ⁎⁎ 的同构.
证明. 我们已经证明过对于每个
α 函数
L α 是线性的了. 设
α 和
β 在
V 中而
c 在
F 中, 令
γ = c ⁢ α + β , 那么对于
V ⁎ 中的每个
f 有
L γ ⁡ ( f ) = f ⁡ ( γ ) = f ⁡ ( c ⁢ α + β ) = c ⁢ f ⁡ ( α ) + f ⁡ ( β ) = c ⁢ L α ⁡ ( f ) + L β ⁡ ( f ) = ( c ⁢ L α + L β ) ⁡ ( f ) 于是
L γ = c ⁢ L α + L β . 这表明映射
α ↦ L α 是一个从
V 到
V ⁎⁎ 的线性变换. 这个变换是非奇异的, 因为根据之前的评注,
L α = 0 当且仅当
α = 0 . 既然
α ↦ L α 是从
V 到
V ⁎⁎ 的非奇异的线性变换, 并且
dim ⁡ V ⁎⁎ = dim ⁡ V ⁎ = dim ⁡ V 定理9告诉我们这个变换是可逆的, 因而是一个从
V 到
V ⁎⁎ 的同构.
◻
推论. 令V 是域F 上的一个有限维向量空间. 如果L 是V 的对偶空间V ⁎ 上的一个线性泛函, 那么V 中存在唯一的向量α 满足L ⁡ ( f ) = f ⁡ ( α ) 对于V ⁎ 中的每个f 成立.
推论. 令V 是域F 上的一个有限维向量空间. 每个V ⁎ 的基都是某个V 的基的对偶.
证明. 令
𝔅 ⁎ = { f 1 , … , f n } 是
V ⁎ 的一个基. 根据定理15, 存在
V ⁎⁎ 的一个基
{ L 1 , … , L n } 满足
L i ⁡ ( f j ) = δ i , j . 使用上面的推论, 对于每个
i 存在
V 中唯一的向量
α i 满足
L i ⁡ ( f ) = f ⁡ ( α i ) 对于
V ⁎ 中的每个
f 成立, 即
L i = L α i . 立刻就能得到
{ α 1 , … , α n } 是
V 的一个基, 并且
𝔅 ⁎ 是这个基的对偶.
◻
在定理17的观点下, 我们通常将α 和L α 视为等同的, 并称V "是"V ⁎ 的对偶空间或者说空间V 和V ⁎ 自然地相互对偶. 上面的推论中, 我们描述了该定理是怎样可能有用的. 下面我们给出更进一步的刻画.
如果E 是V ⁎ 的一个子集, 那么零化子E 0 (从技术上说)是V ⁎⁎ 的一个子集. 如果我们选择如定理17那样将V 和V ⁎⁎ 视为等同的, 那么E 0 是一个V 的一个子空间, 即所有满足对于每个E 中的f 有f ⁡ ( α ) = 0 的V 中向量α 构成的集合. 在定理16的一个推论中我们注意到每个子空间W 是由其零化子W 0 决定的. 然而是怎样决定的呢? 答案是W 是被所有W 0 中的f 零化的子空间 [译注: 这个也是定理16的推论], 即所有W 0 中的f 的零空间之交. 在我们现有的零化子的记号下, 这个定理可以被简单地陈述为: W = ( W 0 ) 0 .
定理18. 如果S 是有限维向量空间V 的子集, 那么( S 0 ) 0 是由S 张成的子空间.
证明. 令
W 是由
S 张成的子空间. 显然
W 0 = S 0 . 因此, 我们要证明的是
W = W 00 . 我们已经给出了一个证明, 现在我们给出另一个. 根据定理16, 我们有
dim ⁡ W + dim ⁡ W 0 = dim ⁡ V , dim ⁡ W 0 + dim ⁡ W 00 = dim ⁡ V ⁎ 既然
dim ⁡ V = dim ⁡ V ⁎ , 于是
dim ⁡ W = dim ⁡ W 00 . 因为
W 是
W 00 的子空间, 所以我们知道
W = W 00 .
◻
本节的结果对于任意的向量空间也是成立的. 然而, 证明就需要使用所谓的选择公理 (Axiom of Choice). 我们想避免被卷入对于这个公理的冗长讨论之中, 所以我们不会对于一般的向量空间处理零化子的结果. 然而, 有两个关于一般向量空间上的线性泛函的结果是如此基本, 以至于我们要涵盖它们.
令V 是一个向量空间. 我们想要定义V 中的超空间. 除非V 是有限维的, 否则我们不能通过维数来定义超空间. 但是, 我们可以用以下的方式来表达一个空间N 差一个维度就能填满V 的想法:
N 是V 的一个真子空间;如果W 是一个包含N 的子空间, 那么要么W = N 要么W = V . 条件1和2表达了
N 是一个真子空间并且没有更大的真子空间, 换言之,
N 是极大的真子空间.
定义. 如果V 是一个向量空间, 那么V 中的一个超空间就是V 的一个极大的真子空间.
定理19. 如果f 是向量空间V 上的一个非零的线性泛函, 那么f 的零空间就是V 中的一个超空间. 反过来说, 每个V 中的超空间都是某个V 上(并不唯一的)非零的线性泛函的零空间.
证明. 令
f 是
V 上一个非零的线性泛函, 并且
N f 是其零空间. 我们令
α 是一个不在
N f 中的
V 的向量, 即一个满足
f ⁡ ( α ) ≠ 0 的向量. 我们将证明
V 中的每个向量都在
N f 和
α 张成的子空间之中. 这个子空间由所有具有形式
γ + c ⁢ α , γ ∈ N f , c ∈ F 的向量构成. 令
β 是
V 中的向量, 定义
c = f ⁡ ( β ) f ⁡ ( α ) 这个定义是合理的, 因为
f ⁡ ( α ) ≠ 0 . 那么,
γ = β − c ⁢ α 在
N f 之中, 因为
f ⁡ ( γ ) = f ⁡ ( β − c ⁢ α ) = f ⁡ ( β ) − c ⁢ f ⁡ ( α ) = 0 于是
β 在由
N f 和
α 张成的子空间中.
现在令
N 是
V 中的一个超空间. 固定
α 为某个不在
N 中的向量. 既然
N 是极大的真子空间, 那么由
N 和
α 张成的子空间就是整个空间
V . 因此, 每个
V 中的向量
β 都具有形式
β = γ + c ⁢ α , γ ∈ N , c ∈ F . 向量
γ 和标量
c 是由
β 唯一确定的. 如果我们也有
β = γ ′ + c ′ ⁢ α , γ ′ ∈ N , c ′ ∈ F , 那么
( c ′ − c ) ⁢ α = γ − γ ′ . 如果
c ′ − c ≠ 0 , 那么
α 就应该在
N 中了, 因而有
c ′ = c 且
γ ′ = γ . 另一种表述这个结论的方式如下: 如果
β 在
V 中, 那么存在唯一的标量
c 使得
β − c ⁢ α 在
N 中. 称这个标量为
g ⁡ ( β ) . 很容易看出来
g 是
V 上的一个线性泛函并且
N 是
g 的零空间.
◻
引理. 如果f 和g 是一个向量空间V 上的线性泛函, 那么g 是f 的标量倍数当且仅当g 的零空间包含f 的零空间, 即当且仅当f ⁡ ( α ) = 0 可以推出g ⁡ ( α ) = 0 .
证明. 如果
f = 0 , 那么也有
g = 0 ,
g 平凡地是
f 的标量倍数. 设
f ≠ 0 , 于是其零空间
N f 是
V 中的一个超空间. 选择
V 中的某个向量
α 使得
f ⁡ ( α ) ≠ 0 , 并且令
c = g ⁡ ( α ) f ⁡ ( α ) . 线性泛函
h = g − c ⁢ f 在
N f 上是
0 , 因为
f 和
g 在其上都是
0 . 并且, 我们还有
h ⁡ ( α ) = g ⁡ ( α ) − c ⁢ f ⁡ ( α ) = 0 . 因此,
h 在由
N f 和
α 张成的子空间上都是
0 , 而这个子空间就是
V . 于是, 我们得出结论
h = 0 , 即
g = c ⁢ f .
◻
定理20. 令g , f 1 , … , f r 是向量空间V 上的线性泛函, 设其相应的零空间分别为N , N 1 , … , N r . 那么, g 是f 1 , … , f r 的线性组合当且仅当 (if and only if) N 包含交集N 1 ∩ ⋯ ∩ N r .
证明. 如果
g = c 1 ⁢ f 1 + ⋯ + c r ⁢ f r 且对于每个
i 有
f i ⁡ ( α ) = 0 , 那么显然
g ⁡ ( α ) = 0 . 因此,
N 包含
N , N 1 , … , N r .
我们将通过数字
r 上的归纳证明另一个方向 (定理的"if"一半). 之前的引理处理了
r = 1 的情况. 设我们已知结果对于
r = k − 1 成立, 并且令
f 1 , … , f k 是分别以
N 1 , … , N k 为零空间的线性泛函, 满足
N 1 ∩ ⋯ ∩ N k 是
N 的子集,
N 即
g 的零空间. 令
g ′ , f 1 ′ , … , f k − 1 ′ 分别是
g , f 1 , … , f k − 1 于子空间
N k 上的限制, 那么
g ′ , f 1 ′ , … , f k − 1 ′ 是向量空间
N k 上的线性泛函. 而且, 如果
α 是一个
N k 中的向量并有
f i ′ ⁡ ( α ) = 0 , i = 1 , … , k − 1 , 那么
α 在
N 1 ∩ ⋯ ∩ N k 之中, 因而有
g ′ ⁡ ( α ) = 0 . 根据归纳 (
r = k − 1 的情形), 存在标量
c i 满足
g ′ = c 1 ⁢ f 1 ′ + ⋯ + c k − 1 ⁢ f k − 1 ′ . 现在令
h = g − ∑ i = 1 k − 1 c i ⁢ f i , 那么
h 是一个
V 上的线性泛函, 并且
h 的定义告诉我们对于每个
N k 中的
α 有
h ⁡ ( α ) = 0 . 根据之前的引理,
h 是
f k 的一个标量倍数. 如果
h = c k ⁢ f k , 那么
g = ∑ i = 1 k c i ⁢ f i . ◻
练习1. 令
n 是一个正整数而
F 是一个域. 令
W 是
F n 中所有满足
x 1 + ⋯ + x n = 0 的
( x 1 , … , x n ) 构成的集合.
证明W 0 由所有具有形式f ⁡ ( x 1 , … , x n ) = c ⁢ ∑ j = 1 n x j 的线性泛函f 构成. 证明W 的对偶空间W ⁎ 可被"自然地"等同为F n 上所有满足c 1 + ⋯ + c n = 0 的线性泛函f ⁡ ( x 1 , … , x n ) = c 1 ⁢ x 1 + ⋯ + c n ⁢ x n 构成的集合. 练习2. 运用定理20来证明以下事实. 如果W 是一个有限维向量空间V 的子空间, 并且如果{ g 1 , … , g r } 是W 0 任意的基, 那么W = ⋂ i = 1 r N g i .
练习3. 令S 是一个集合, F 是一个域, 以及V ⁡ ( S ; F ) 是所有从S 到F 的函数构成的空间:( f + g ) ⁡ ( x ) = f ⁡ ( x ) + g ⁡ ( x ) , ( c ⁢ f ) ⁡ ( x ) = c ⁢ f ⁡ ( x ) . 令W 是V ⁡ ( S ; F ) 任意的n 维子空间. 证明存在S 中的点x 1 , … , x n 和W 中的函数f 1 , … , f n 满足f i ⁡ ( x j ) = δ i , j .
第3.7节 线性变换的转置 设我们有两个域F 上的向量空间V 和W , 以及一个从V 到W 的线性变换T , 那么T 按照以下方式导出了一个从W ⁎ 到V ⁎ 的线性变换. 设g 是W 上的一个线性泛函, 对于每个V 中的α , 令f ⁡ ( α ) = g ⁡ ( T ⁡ α ) 那么这就定义了一个从V 到F 的函数f , 即T (一个从V 到W 的函数) 与g (一个从W 到F 的函数) 相复合. 既然T 和g 都是线性的, 那么定理6告诉我们f 也是线性的, 即f 是一个V 上的线性泛函. 因此, T 给我们提供了一个规则T t , 其为每个W 上的线性泛函g 赋一个V 上的线性泛函f = T t ⁡ g , 如上面的式子所定义的那样. 读者也应该注意到T t 实际上是一个从W ⁎ 到V ⁎ 的线性变换, 因为如果g 1 和g 2 在W ⁎ 中而c 是一个标量, 那么[ T t ⁡ ( c ⁢ g 1 + g 2 ) ] ⁡ ( α ) = ( c ⁢ g 1 + g 2 ) ⁡ ( T ⁡ α ) = c ⁢ g 1 ⁡ ( T ⁡ α ) + g 2 ⁡ ( T ⁡ α ) = c ⁢ ( T t ⁡ g 1 ) ⁡ ( α ) + ( T t ⁡ g 2 ) ⁡ ( α ) 于是T t ⁡ ( c ⁢ g 1 + g 2 ) = c ⁢ T t ⁡ g 1 + T t ⁡ g 2 . 让我们总结一下.
定理21. 令V 和W 是域F 上的向量空间. 对于每个从V 到W 的线性变换, 存在唯一的从W ⁎ 到V ⁎ 的线性变换T t 满足( T t ⁡ g ) ⁡ ( α ) = g ⁡ ( T ⁡ α ) 对于每个W ⁎ 中的g 和V 中的α 成立.
我们将称T t 为T 的转置 . 这个变换T t 也常被称作T 的伴随. 然而, 我们不会使用这个术语.
定理22. 令
V 和
W 是域
F 上的向量空间,
T 是一个从
V 到
W 的线性变换.
T t 的零空间是
T 的像的零化子. 如果
V 和
W 是有限维的, 那么
rank ⁡ ( T t ) = rank ⁡ ( T ) ;T t 的像是T 的零空间的零化子.证明. 如果
g 在
W ⁎ 中, 那么根据定义有
( T t ⁡ g ) ⁡ ( α ) = g ⁡ ( T ⁡ α ) 对于每个
V 中的
α 成立.
g 在
T t 的零空间之中的意思是对于每个
V 中的
α 有
g ⁡ ( T ⁡ α ) = 0 . 因此,
T t 的零空间就恰是
T 的像的零化子.
设
V 和
W 是有限维的, 比如说
dim ⁡ V = n 和
dim ⁡ W = m . 对于i: 令
r 是
T 的秩, 即
T 的像的维数. 根据定理16,
T 的像的零化子的维数是
( m − r ) . 根据这个定理的第一条陈述, 我们知道
T t 的零化度必然是
( m − r ) . 但是如果这样的话, 既然
T t 是一个
m 维空间上的线性变换, 那么
T t 的秩就应该是
m − ( m − r ) = r , 于是
T 和
T t 有着相同的秩. 对于ii: 令
N 是
T 的零空间. 每个
T t 的像之中的线性泛函都在
N 的零化子之中, 因为若设对于某个
W ⁎ 中的
g 有
f = T t ⁡ g , 那么如果
α 在
N 中, 有
f ⁡ ( α ) = ( T t ⁡ g ) ⁡ ( α ) = g ⁡ ( T ⁡ α ) = g ⁡ ( 0 ) = 0 . 现在我们知道
T t 的像是空间
N 0 的一个子空间, 并且
dim ⁡ N 0 = n − dim ⁡ N = rank ⁡ ( T ) = rank ⁡ ( T t ) 于是
T t 的像必然就恰是
N 0 .
◻
定理23. 令V 和W 是域F 上的有限维向量空间. 令𝔅 是V 的一个有序基, 其对偶基是𝔅 ⁎ . 令𝔅 ′ 是W 的一个有序基, 其对偶基是𝔅 ′ ⁎ . 令T 是一个从V 到W 的线性变换, 令A 是T 相对于𝔅 和𝔅 ′ 的矩阵. 令B 是T t 相对于𝔅 ′ ⁎ 和𝔅 ⁎ 的矩阵, 那么B i , j = A j , i .
证明. 令
𝔅 = { α 1 , … , α n } , 𝔅 ′ = { β 1 , … , β m } , 𝔅 ⁎ = { f 1 , … , f n } , 𝔅 ′ ⁎ = { g 1 , … , g m } . 根据定义,
T ⁡ α j = ∑ i = 1 m A i , j ⁢ β i , j = 1 , … , n , T t ⁡ g j = ∑ i = 1 n B i , j ⁢ f i , j = 1 , … , m . 另一方面,
( T t ⁡ g j ) ⁡ ( α i ) = g j ⁡ ( T ⁡ α i ) = g j ⁡ ( ∑ k = 1 m A k , i ⁢ β k ) = ∑ k = 1 m A k , i ⁢ g j ⁡ ( β k ) = ∑ k = 1 m A k , i ⁢ δ j , k = A j , i 对于
V 上任意的线性泛函
f 我们有
f = ∑ i = 1 n f ⁡ ( α i ) ⁢ f i . 如果我们将此公式应用于泛函
f = T t ⁡ g j 并运用
( T t ⁡ g j ) ⁡ ( α i ) = A j , i 的事实, 那么我们有
T t ⁡ g j = ∑ i = 1 n A j , i ⁢ f i 从中立即可以得出
B i , j = A j , i .
◻
定义. 如果A 是域F 上的一个m × n 矩阵, 那么A 的转置A t 是由A i , j t = A j , i 定义的n × m 矩阵.
定理23是说如果T 是一个从V 到W 的线性变换, 其在某对有序基下的矩阵是A , 那么转置变换T t 在与之对偶的一对有序基下由转置矩阵A t 表示.
定理24. 令A 是域F 上任意的m × n 矩阵, 那么A 的行秩等于A 的列秩.
证明. 令
𝔅 是
F n 的标准有序基,
𝔅 ′ 是
F m 的标准有序基. 令
T 是从
F n 到
F m 的线性变换, 其相对于
𝔅 和
𝔅 ′ 的矩阵是
A , 即
T ⁡ ( x 1 , … , x n ) = ( y 1 , … , y m ) 其中
y i = ∑ j = 1 n A i , j ⁢ x j . A 的列秩等于变换
T 的秩, 因为
T 的像由所有这样的
m 元组构成, 其是
A 的列向量的线性组合. [译注: 在同构的意义下]
相对于对偶基
𝔅 ′ ⁎ 和
𝔅 ⁎ , 转置变换
T t 由矩阵
A t 表示. 既然
A t 的列即
A 的行, 以相同的推理我们看出
A 的行秩 (
A t 的列秩) 等于
T t 的秩. 根据定理22,
T 和
T t 有着相同的秩, 因此
A 的行秩等于
A 的列秩.
◻
现在我们知道如果A 是一个域F 的m × n 矩阵而T 是一个按照以上方式定义的从F n 到F m 的线性变换, 那么rank ⁡ ( T ) = row-rank ⁡ ( A ) = column-rank ⁡ ( A ) . 我们将简单地称这个数字为A 的秩.
例子25. 这个例子是一般性质的——与其说是例子, 不如说是讨论. 令V 是域F 上的一个n 维向量空间, 令T 是V 上的一个线性变换. 设𝔅 = { α 1 , … , α n } 是V 的一个有序基. T 在有序基𝔅 下的矩阵被定义为n × n 矩阵A , 即T ⁡ α j = ∑ i = 1 n A i , j ⁢ α i . 换言之, A i , j 是向量T ⁡ α j 在有序基𝔅 下的第i 个坐标. 如果{ f 1 , … , f n } 是𝔅 的对偶基的话, 这可以被简单地陈述为A i , j = f i ⁡ ( T ⁡ α j ) . 让我们看看若改变基会发生什么. 设𝔅 ′ = { α 1 ′ , … , α n ′ } 是V 的另一个有序基, 其对偶基是{ f 1 ′ , … , f n ′ } . 如果B 是T 在有序基𝔅 ′ 下的矩阵, 那么B i , j = f i ′ ⁡ ( T ⁡ α j ′ ) . 令U 是满足U ⁡ α j = α j ′ 的可逆线性算子, 那么U 的转置由U t ⁡ f i ′ = f i 给出. 读者很容易验证如果U 是可逆的, 那么U t 和( U t ) − 1 = ( U − 1 ) t 也是可逆的. 因此, f i ′ = ( U − 1 ) t ⁡ f i , i = 1 , … , n . 于是,B i , j = f i ′ ⁡ ( T ⁡ α j ′ ) = [ ( U − 1 ) t ⁡ f i ] ⁡ ( T ⁡ α j ′ ) = f i ⁡ ( U − 1 ⁡ T ⁡ α j ′ ) = f i ⁡ ( U − 1 ⁡ T ⁡ U ⁡ α j ) 那么这说明了什么呢? 嗯, f i ⁡ ( U − 1 ⁡ T ⁡ U ⁡ α j ) 是U − 1 ⁢ T ⁢ U 在有序基𝔅 下的矩阵的第i 行j 列元素. 上面的计算表明这个标量也是T 在有序基𝔅 ′ 下的第i 行j 列元素. 换句话说,[ T ] 𝔅 ′ = [ U − 1 ⁢ T ⁢ U ] 𝔅 = [ U − 1 ] 𝔅 ⁢ [ T ] 𝔅 ⁢ [ U ] 𝔅 = [ U ] 𝔅 − 1 ⁢ [ T ] 𝔅 ⁢ [ U ] 𝔅 而这恰好就是我们之前推导出来的基变换公式.
练习1. 令
F 是一个域, 令
f 是
F 2 上由
f ⁡ ( x 1 , x 2 ) = a ⁢ x 1 + b ⁢ x 2 定义的线性泛函. 对于以下的每个线性算子
T , 令
g = T t ⁡ f , 找出
g ⁡ ( x 1 , x 2 ) .
T ⁡ ( x 1 , x 2 ) = ( x 1 , 0 ) ;T ⁡ ( x 1 , x 2 ) = ( − x 2 , x 1 ) ;T ⁡ ( x 1 , x 2 ) = ( x 1 − x 2 , x 1 + x 2 ) .练习2. 令V 是实数域上的多项式函数的向量空间. 令a 和b 是固定的实数, 令f 是V 上由f ⁡ ( p ) = ∫ a b p ⁡ ( x ) d x 定义的线性泛函. 如果D 是V 上的微分算子, 那么D t ⁡ f 是什么呢?
练习3. 令A 是域F 上n × n 矩阵的向量空间, 令B 是一个固定的n × n 矩阵. 如果T 是V 上由T ⁡ ( A ) = A ⁢ B − B ⁢ A 定义的线性算子, f 是迹函数, 那么T t ⁡ f 是什么呢?
练习4. 令V 是域F 上的一个有限维向量空间, 令T 是V 上的一个线性算子. 令c 是一个标量, 设V 中存在非零的向量α 使得T ⁡ α = c ⁢ α . 证明V 上存在一个非零的线性泛函f 使得T t ⁡ f = c ⁢ f .
练习5. 令A 是ℝ 上的m × n 矩阵. 证明A = 0 当且仅当trace ⁡ ( A t ⁢ A ) = 0 .
练习6. 令n 是一个正整数, 令V 是实数域上次数不超过n 的多项式函数构成的向量空间, 即所有具有形式f ⁡ ( x ) = c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n 的函数构成的空间. 令D 是V 上的微分算子. 找出转置算子D t 的零空间的一个基.
练习7. 令V 是域F 上的一个有限维向量空间. 证明T ↦ T t 是一个从L ⁡ ( V , V ) 到L ⁡ ( V ⁎ , V ⁎ ) 的同构.
练习8. 令
V 是域
F 上的
n × n 矩阵构成的向量空间.
如果B 是一个固定的n × n 矩阵, 以f B ⁡ ( A ) = trace ⁡ ( B t ⁢ A ) 定义一个V 上的函数f B . 证明f B 是V 上的一个线性泛函. 证明每个V 上的线性泛函都具有以上形式, 即是某个B 下的f B . 证明B ↦ f B 是一个从V 到V ⁎ 的同构. 第4章 多项式 第4.1节 代数 本章的目的在于建立域上的多项式代数的一些基本性质. 如果我们先引入域上的线性代数的概念的话, 讨论会更加容易.
定义. 令
F 是一个域, 域
F 上的一个线性代数是一个
F 上的向量空间
V , 其带有一个额外的被称为向量的乘法的运算. 它将每对
V 中的向量
α 和
β 联系以一个
V 中的向量
α ⁢ β , 其被称为
α 和
β 的积, 满足
乘法是结合的,α ⁢ ( β ⁢ γ ) = ( α ⁢ β ) ⁢ γ ; 乘法对于加法是分配的,α ⁢ ( β + γ ) = α ⁢ β + α ⁢ γ 且 ( α + β ) ⁢ γ = α ⁢ γ + β ⁢ γ ; 对于每个F 中的标量c ,c ⁢ ( α ⁢ β ) = ( c ⁢ α ) ⁢ β = α ⁢ ( c ⁢ β ) . 如果
V 中存在元素
1 满足
1 ⁢ α = α ⁢ 1 = α 对于每个
V 中的
α 均成立, 那么我们就称
V 是域
F 上一个含幺元的线性代数, 并称
1 为
V 的幺元. 代数
V 被称为是交换的, 如果对于所有
V 中的
α 和
β 有
α ⁢ β = β ⁢ α .
例子1. 域F 上的n × n 矩阵的集合, 在通常的运算下, 是一个含幺元的线性代数. 特别地, 域本身就是一个含幺元的线性代数. 这个代数在n ≥ 2 时不交换, 域本身当然是交换的.
例子2. 一个向量空间上的所有线性算子的空间, 以复合为积, 是一个含幺元的线性代数. 它是交换的当且仅当空间是一维的. [译注: 零维其实也是.]
读者或许对于ℝ 3 中的点积和叉积已经有了一些经验. 如果确是如此的话, 那么他应该观察到这两种积和上面的线性代数的定义中所描述的向量乘法均不是一种类型的运算. 点积是一种"标量积", 也就是说, 它将一对向量联系以一个标量, 因此它当然不是我们现在所讨论的那种乘法. 叉积的确联系每对ℝ 3 中的向量以一个ℝ 3 中的向量, 然而它不是一种结合运算.
本节的剩余部分将致力于构造一种与之前的两个例子截然不同的代数. 令F 是一个域, S 是非负整数的集合. 根据第2章的例子3, 所有从S 到F 的函数构成了一个域F 上的向量空间. 我们将其记作F ∞ . 因此, F ∞ 中的向量是F 中的标量f i 的无穷序列f = ( f 0 , f 1 , f 2 , … ) . 如果g = ( g 0 , g 1 , g 2 , … ) , g i ∈ F 并且a 和b 是F 中的标量, 那么a ⁢ f + b ⁢ g 是由a ⁢ f + b ⁢ g = ( a ⁢ f 0 + b ⁢ g 0 , a ⁢ f 1 + b ⁢ g 1 , a ⁢ f 2 + b ⁢ g 2 , … ) 给出的无穷序列. 我们这样定义F ∞ 中的积, 对于F ∞ 中的向量f 和g , 向量f ⁢ g 由( f ⁢ g ) n = ∑ i = 0 n f i ⁢ g n − i , n = 0 , 1 , 2 , … 给出, 因而f ⁢ g = ( f 0 ⁢ g 0 , f 0 ⁢ g 1 + f 1 ⁢ g 0 , f 0 ⁢ g 2 + f 1 ⁢ g 1 + f 2 ⁢ g 0 , … ) 并且因为对于n = 0 , 1 , 2 , … 有( g ⁢ f ) n = ∑ i = 0 n g i ⁢ f n − i = ∑ i = 0 n f i ⁢ g n − i = ( f ⁢ g ) n 所以乘法是交换的 [译注: 这里用到了域的乘法的交换性质], 即f ⁢ g = g ⁢ f . 如果h 也属于F ∞ , 那么对于n = 0 , 1 , 2 , … 我们有[ ( f ⁢ g ) ⁢ h ] n = ∑ i = 0 n ( f ⁢ g ) i ⁢ h n − i = ∑ i = 0 n ( ∑ j = 0 i f j ⁢ g i − j ) ⁢ h n − i = ∑ i = 0 n ∑ j = 0 i f j ⁢ g i − j ⁢ h n − i = ∑ j = 0 n ∑ i = j n f j ⁢ g i − j ⁢ h n − i = ∑ j = 0 n ∑ i = 0 n − j f j ⁢ g i ⁢ h n − i − j = ∑ j = 0 n f j ⁢ ( ∑ i = 0 n − j g i ⁢ h n − j − i ) = ∑ j = 0 n f j ⁢ ( g ⁢ h ) n − j = [ f ⁢ ( g ⁢ h ) ] n [译注: 以上的计算不单纯是指标体操, 还蕴含了"按照两种方式数( i , j ) 格点"的想法.] 于是f ⁢ ( g ⁢ h ) = ( f ⁢ g ) ⁢ h . 我们将验证该乘法满足上述线性代数定义中的b和c的工作留给读者, 并且读者还应该发现向量1 = ( 1 , 0 , 0 , … ) 充当了F ∞ 的幺元. 因此, F ∞ 在上述定义的运算下, 构成了一个域F 上含幺元的交换线性代数.
向量( 0 , 1 , 0 , … , 0 , … ) 在接下来起到了突出的作用, 于是我们将一致地记其为x . 在这整整一章里, x 从不会被用来表示域F 的元素. x 自乘n 次的结果被记为x n , 并且我们置x 0 = 1 , 那么x 2 = ( 0 , 0 , 1 , 0 , … ) , x 3 = ( 0 , 0 , 0 , 1 , 0 , … ) 而一般地, 对于每个整数k ≥ 0 , ( x k ) k = 1 , 对于所有非负整数n ≠ k , 有( x k ) n = 0 . 本节我们以这样的观察结束, 由1 , x , x 2 , … 构成的集合是线性无关的且是无限的, 于是代数F ∞ 不是有限维的.
代数F ∞ 有时也被称为域F 上的形式幂级数代数. 元素f = ( f 0 , f 1 , f 2 , … ) 常被记为f = ∑ n = 0 ∞ f n ⁢ x n . 这个记号对于处理代数运算而言是十分便利的. 然而在使用时, 必须要记住这是全然形式上的. 代数中并不存在"无限的和", 幂级数记号并不意图传达任何有关收敛性的想法, 如果读者知道那是什么的话. 通过使用序列, 我们得以谨慎地定义了一个代数, 其行为与形式幂级数的加法和乘法一致, 但不会引起将其当作无穷和的困惑.
第4.2节 多项式代数 我们现在准备定义域F 上的多项式.
定义. 令F ⁡ [ x ] 是由1 , x , x 2 , … 张成的F ∞ 的子空间. F ⁡ [ x ] 的元素被称为域F 上的多项式.
既然F ⁡ [ x ] 由x 及其幂的所有线性组合构成, 那么F ∞ 中的非零向量f 是多项式当且仅当存在一个整数n ≥ 0 使得f n ≠ 0 并且对于所有整数k > n 有f k = 0 . 这个整数显然是唯一的, 其被称为f 的次数 (degree). 我们用deg ⁡ f 代表多项式f 的次数, 而0 多项式的次数是没有定义的. 如果f 是一个次数为n 的非零多项式, 那么f = f 0 ⁢ x 0 + f 1 ⁢ x 1 + f 2 ⁢ x 2 + ⋯ + f n ⁢ x n , f n ≠ 0 . 标量f 0 , f 1 , … , f n 有时也被称为f 的系数, 而且我们也可以说f 是一个系数在F 之中的多项式. 我们称具有形式c ⁢ x 0 的多项式为标量多项式, 并且经常将c ⁢ x 0 记作c . 一个次数为n 的非零多项式f , 如果f n = 1 , 那么就称其为首项系数为一 (monic) 的多项式.
读者应该注意多项式和我们之前已经讨论甚多的F 上的多项式函数不是同一种对象. 如果F 包含无限的元素, 那么F ⁡ [ x ] 和F 上的多项式函数的代数之间有一个自然的同构. 我们将在下一节讨论这个事情. 现在让我们来验证F ⁡ [ x ] 是一个代数.
定理1. 令
f 和
g 是域
F 上非零的多项式, 那么
f ⁢ g 是一个非零的多项式;deg ⁡ ( f ⁢ g ) = deg ⁡ f + deg ⁡ g ;如果f 和g 都是首项系数为一的多项式, 那么f ⁢ g 也是首项系数为一的多项式; f ⁢ g 是标量多项式当且仅当f 和g 都是标量多项式;如果f + g ≠ 0 , 那么deg ⁡ ( f + g ) ≤ max ⁡ ( deg ⁡ f , deg ⁡ g ) . 证明. 设
f 的次数为
m ,
g 的次数为
n . 如果
k 是一个非负整数, 那么
( f ⁢ g ) m + n + k = ∑ i = 0 m + n + k f i ⁢ g m + n + k − i . 为了使得
f i ⁢ g m + n + k − i ≠ 0 ,
i ≤ m 且
m + n + k − i ≤ n 是必要的. 因此
m + k ≤ i ≤ m 是必要的, 这推出了
k = 0 然后
i = m , 于是
( f ⁢ g ) m + n = f m ⁢ g n 且
( f ⁢ g ) m + n + k = 0 , k > 0 . 陈述i, ii, iii立即可由以上两个结果得到, 而iv是i和ii的推论. 我们将v的验证留给读者.
◻
推论1. 一个给定域F 上所有多项式的集合, 装备以上定义的线性组合和乘法运算后, 成为域F 上的一个含幺元的交换线性代数.
证明. 既然线性组合和乘法运算是对于
F ∞ 定义的而
F ⁡ [ x ] 是
F ∞ 的一个子空间, 那么只需证明两个多项式之积仍然是多项式就够了. 当其中一个因子是
0 时这是平凡的, 而剩下来的部分可从i得出.
◻
推论2. 设f , g , h 是域F 上的多项式满足f ≠ 0 且f ⁢ g = f ⁢ h , 那么g = h .
证明. 既然
f ⁢ g = f ⁢ h , 那么
f ⁢ ( g − h ) = 0 . 鉴于
f ≠ 0 , 从i立即可以得到
g − h = 0 .
◻
特定的额外事实可由定理1的证明简单推得, 我们将总结其中一些.
设f = ∑ i = 0 m f i ⁢ x i 和 g = ∑ j = 0 n g j ⁢ x j 那么从( f ⁢ g ) m + n + k = 0 , k > 0 中我们可以得到f ⁢ g = ∑ s = 0 m + n ( ∑ r = 0 s f r ⁢ g s − r ) ⁢ x s . 读者应当验证, 在f = c ⁢ x m , g = d ⁢ x n 的特殊情形下, 其中c , d 是F 中的标量, 上式可被规约为( c ⁢ x m ) ⁢ ( d ⁢ x n ) = c ⁢ d ⁢ x m + n . 据此, 以及F ⁡ [ x ] 的分配律, 我们知道两多项式相乘的积也可由∑ i , j f i ⁢ g j ⁢ x i + j 给出, 该求和布于所有满足0 ≤ i ≤ m 和0 ≤ j ≤ n 的整数序对i , j 之上.
定义. 令V 是一个域F 上的含幺元的线性代数. 我们用1 表示V 的幺元, 并对于V 的每个元素α 作出α 0 = 1 的约定. 那么, 对于每个域F 上的多项式f = ∑ i = 0 n f i ⁢ x i 和V 中的α , 我们联系以一个V 中的元素f ⁡ ( α ) , 由以下规则定义f ⁡ ( α ) = ∑ i = 0 n f i ⁢ α i
例子3. 令
ℂ 是复数域, 令
f = x 2 + 2 .
如果V = ℂ 而z ∈ ℂ , 那么f ⁡ ( z ) = z 2 + 2 . 特别地, f ⁡ ( 2 ) = 6 而f ⁡ ( 1 + i 1 − i ) = 1 . 如果V = ℂ 2 × 2 且B = [ 1 0 − 1 2 ] 那么f ⁡ ( B ) = 2 ⁢ [ 1 0 0 1 ] + [ 1 0 − 1 2 ] 2 = [ 3 0 − 3 6 ] . 如果V 是ℂ 3 上的所有线性算子构成的代数, T 是由T ⁡ ( c 1 , c 2 , c 3 ) = ( i ⁢ 2 ⁢ c 1 , c 2 , i ⁢ 2 ⁢ c 3 ) 给定的V 的元素, 那么f ⁡ ( T ) 是由f ⁡ ( T ) ⁡ ( c 1 , c 2 , c 3 ) = ( 0 , 3 ⁢ c 2 , 0 ) 定义的ℂ 3 上的线性算子. 如果V 是所有ℂ 上的多项式的代数, 并且g = x 4 + 3 ⁢ i , 那么f ⁡ ( g ) 也是一个V 中的多项式, 由f ⁡ ( g ) = − 7 + 6 ⁢ i ⁢ x 4 + x 8 给定. 机敏的读者可能会发现与这最后一个例子相关联的一个事实, 即如果
f 是任意的域上的一个多项式而
x 是多项式
( 0 , 1 , 0 , … ) , 那么
f = f ⁡ ( x ) , 不过我们建议他忘掉这个事实.
定理2. 令
F 是一个域,
V 是域
F 上的一个含幺元的线性代数. 设
f 和
g 是域
F 上的多项式,
α 是
V 的一个元素,
c 属于域
F , 那么
( c ⁢ f + g ) ⁡ ( α ) = c ⁢ f ⁡ ( α ) + g ⁡ ( α ) ;( f ⁢ g ) ⁡ ( α ) = f ⁡ ( α ) ⁢ g ⁡ ( α ) .证明. 因为i的结果很容易建立, 我们将只证明ii. 设
f = ∑ i = 0 m f i ⁢ x i 和 g = ∑ j = 0 n g j ⁢ x j 之前我们已经证明了
f ⁢ g = ∑ i , j f i ⁢ g j ⁢ x i + j 那么根据i,
( f ⁢ g ) ⁡ ( α ) = ∑ i , j f i ⁢ g j ⁢ α i + j = ( ∑ i = 0 m f i ⁢ α i ) ⁢ ( ∑ j = 0 n g j ⁢ α j ) = f ⁡ ( α ) ⁢ g ⁡ ( α ) ◻
练习1. 令
F 是复数域的子域, 令
A 是如下
F 上的
2 × 2 矩阵
A = [ 2 1 − 1 3 ] . 对于下列
F 上的多项式
f , 计算
f ⁡ ( A ) .
f = x 2 − x + 2 ;f = x 3 − 1 ;f = x 2 − 5 ⁢ x + 7 .练习2. 令T 是ℝ 3 上由T ⁡ ( x 1 , x 2 , x 3 ) = ( x 1 , x 3 , − 2 ⁢ x 2 − x 3 ) 定义的线性算子. 令f 是ℝ 上的多项式, 由f = − x 3 + 2 定义. 找出f ⁡ ( T ) .
练习3. 令A 是域F 上的一个n × n 对角矩阵, 即对于i ≠ j 有A i , j = 0 的矩阵. 令f 是F 上的多项式, 由f = ( x − A 1 , 1 ) ⁢ ⋯ ⁢ ( x − A n , n ) 定义. 矩阵f ⁡ ( A ) 是什么?
练习4. 如果f 和g 是域F 上线性无关的多项式, h 是域F 上一个非零的多项式, 证明f ⁢ h 和g ⁢ h 是线性无关的.
练习5. 如果F 是一个域, 证明F ∞ 的两个非零元素之积仍然是非零的.
练习6. 令S 是域F 上的某些非零多项式的集合. 如果S 中没有两个元素具有相同的次数, 证明S 在F ⁡ [ x ] 中是一个线性无关的集合.
练习7. 如果a 和b 是域F 的元素并且a ≠ 0 , 证明多项式1 , a ⁢ x + b , ( a ⁢ x + b ) 2 , ( a ⁢ x + b ) 3 , … 构成了F ⁡ [ x ] 的一个基.
练习8. 如果F 是一个域, h 是F 上一个满足deg ⁡ h ≥ 1 的多项式, 证明映射f ↦ f ⁡ ( h ) 是F ⁡ [ x ] 上的一个非奇异的线性算子. 证明这个算子是从F ⁡ [ x ] 到自身的同构当且仅当deg ⁡ h = 1 .
练习9. 令
F 是复数域的一个子域, 定义
F ⁡ [ x ] 上的变换
T , D 为
T ⁡ ( ∑ i = 0 n c i ⁢ x i ) = ∑ i = 0 n c i 1 + i ⁢ x i + 1 和
D ⁡ ( ∑ i = 0 n c i ⁢ x i ) = ∑ i = 1 n i ⁢ c i ⁢ x i − 1 . 证明T 是F ⁡ [ x ] 上的非奇异线性算子, 并表明T 不是可逆的. 证明D 是F ⁡ [ x ] 上满射的线性算子, 并找出其零空间. 证明D ⁢ T = I 但是T ⁢ D ≠ I . 证明对于所有F ⁡ [ x ] 中的f 和g 有T ⁡ [ ( T ⁡ f ) ⁡ g ] = ( T ⁡ f ) ⁡ ( T ⁡ g ) − T ⁡ [ f ⁡ ( T ⁡ g ) ] . 陈述并证明一条与d中为T 给出的类似的D 的规律. 设V 是F ⁡ [ x ] 的一个非零的子空间, 其满足对于每个f ∈ V , T ⁡ f ∈ V . 证明V 不是有限维的. 设V 是F ⁡ [ x ] 的一个有限维子空间. 证明存在整数m ≥ 0 使得对于每个f ∈ V 有D m ⁡ f = 0 . 第4.3节 Lagrange插值 整节我们将默认F 是一个固定的域并且t 0 , t 1 , … , t n 是F 的n + 1 个不同的元素. 令V 是F ⁡ [ x ] 的子空间, 其由所有次数小于等于n 的多项式构成 (并包括0 多项式). 令L i 是由L i ⁡ ( f ) = f ⁡ ( t i ) , 0 ≤ i ≤ n 定义的从V 到F 的函数. 根据定理2的i, 每个L i 都是V 上的线性泛函, 而我们想要证明的事实之一是由L 0 , L 1 , … , L n 构成的集合是V ⁎ 的一个基, V ⁎ 即V 的对偶空间.
当然为了达成这个目的, 实际上只需要说明 (参见第3章的定理15) { L 0 , L 1 , … , L n } 是某个V 的基{ P 0 , P 1 , … , P n } 的对偶就足够了. 最多只存在一个这样的基, 而且若存在的话则其由L j ⁡ ( P i ) = P i ⁡ ( t j ) = δ i , j 刻画. 多项式P i = ( x − t 0 ) ⁢ ⋯ ⁢ ( x − t i − 1 ) ⁢ ( x − t i + 1 ) ⁢ ⋯ ⁢ ( x − t n ) ( t i − t 0 ) ⁢ ⋯ ⁢ ( t i − t i − 1 ) ⁢ ( t i − t i + 1 ) ⁢ ⋯ ⁢ ( t i − t n ) = ∏ j ≠ i ( x − t j t i − t j ) 的次数均为n , 因而属于V . 根据定理2, 它们满足上述刻画.
如果f = ∑ i c i ⁢ P i , 那么对于每个j 有f ⁡ ( t j ) = ∑ i c i ⁢ P i ⁡ ( t j ) = c j . 既然0 多项式有着对于每个t ∈ F , 0 ⁡ ( t ) = 0 的性质, 于是多项式P 0 , P 1 , … , P n 是线性无关的. 鉴于多项式1 , x , … , x n 构成了V 的一个基, V 的维数是( n + 1 ) . 因此, 线性无关集合{ P 0 , P 1 , … , P n } 必然也是V 的一个基, 于是对于每个f ∈ V 有f = ∑ i = 0 n f ⁡ ( t i ) ⁢ P i . 上述表达式被称为Lagrange插值公式, 置f = x j 我们得到x j = ∑ i = 0 n ( t i ) j ⁢ P i . 现在根据第2章的定理7, 我们知道矩阵[ 1 t 0 t 0 2 ⋯ t 0 n 1 t 1 t 1 2 ⋯ t 1 n ⋮ ⋮ ⋮ ⋮ 1 t n t n 2 ⋯ t n n ] 是可逆的. 该矩阵被称为Vandermonde矩阵. 直接证明这样的矩阵是可逆的或许是一个有趣的练习, 其中t 0 , t 1 , … , t n 是F 的n + 1 个不同的元素.
如果f 是域F 上任意的多项式, 在我们当下的讨论中, 我们将用f ~ 表示将每个t ∈ F 映射到f ⁡ ( t ) 的从F 到F 的多项式函数. 根据定义 (参见第2章的例子4), 每个多项式函数都以这样的方式产生. 然而, 对于两个多项式f 和g , 即便f ≠ g , 也可能出现f ~ = g ~ 的情况. 幸运的是, 我们将看到这种令人不快的情况只会在F 是有限域的时候发生. 为了精确地刻画多项式与多项式函数之间的关系, 我们需要定义两个多项式函数的积. 如果f 和g 是域F 上的多项式, f ~ 和g ~ 的积是从F 到F 的函数f ~ ⁢ g ~ , 由( f ~ ⁢ g ~ ) ⁡ ( t ) = f ~ ⁡ ( t ) ⁢ g ~ ⁡ ( t ) , t ∈ F 给出. 根据定理2的ii, ( f ⁢ g ) ⁡ ( t ) = f ⁡ ( t ) ⁢ g ⁡ ( t ) , 因而对于每个t ∈ F 有( f ⁢ g ) ~ ⁡ ( t ) = f ~ ⁡ ( t ) ⁢ g ~ ⁡ ( t ) . 于是, f ~ ⁢ g ~ = ( f ⁢ g ) ~ 是一个多项式函数. 此时, 尽管是相当直接的, 我们将验证F 上的所有多项式函数构成的向量空间在上述定义的乘法下构成了一个域F 上的含幺元的交换线性代数的事情留给读者完成.
定义. 令
F 是一个域,
V 和
V ~ 是
F 上的线性代数. 称代数
V 和
V ~ 是同构的, 如果存在一个从
V 到
V ~ 的双射满足
( c ⁢ α + d ⁢ β ) ~ = c ⁢ α ~ + d ⁢ β ~ ( α ⁢ β ) ~ = α ~ ⁢ β ~ 对于所有
α , β ∈ V 和所有
c , d ∈ F 成立. 映射
α ↦ α ~ 被称为从
V 到
V ~ 的同构. 因此, 一个从
V 到
V ~ 的同构是一个"保持"乘积的向量空间的同构.
例子4. 令V 是域F 上的一个n 维向量空间. 根据第3章的定理13及其之后的评注, 每个V 的有序基𝔅 都确定了一个从V 上的线性算子的代数到域F 上的n × n 矩阵的代数的同构T ↦ [ T ] 𝔅 . 设U 是V 上一个固定的线性算子, 并给定多项式 [译注: 这个n 和n × n 里的n 是两个毫不相关的数字]f = ∑ i = 0 n c i ⁢ x i 其中系数c i ∈ F , 那么f ⁡ ( U ) = ∑ i = 0 n c i ⁢ U i 既然T ↦ [ T ] 𝔅 是一个线性映射, 于是[ f ⁡ ( U ) ] 𝔅 = ∑ i = 0 n c i ⁢ [ U i ] 𝔅 . 现在我们还知道[ T 1 ⁢ T 2 ] 𝔅 = [ T 1 ] 𝔅 ⁢ [ T 2 ] 𝔅 对于所有T 1 , T 2 ∈ L ⁡ ( V , V ) 成立, 于是[ U i ] 𝔅 = ( [ U ] 𝔅 ) i , 2 ≤ i ≤ n . 这个关系对于i = 0 , 1 也是成立的, 因而我们得到结果[ f ⁡ ( U ) ] 𝔅 = f ⁡ ( [ U ] 𝔅 ) . 用自然语言说, 如果U 是V 上的一个线性算子, 那么一个多项式应用于U 的结果的矩阵, 和该多项式应用于U 的矩阵的结果是相等的.
定理3. 如果F 是一个无限域, 那么映射f ↦ f ~ 是从域F 上的多项式代数到域F 上的多项式函数代数的同构.
证明. 根据定义, 这个映射是一个满射. 如果
f , g ∈ F ⁡ [ x ] , 对于所有的标量
c 和
d 显然有
( c ⁢ f + d ⁢ g ) ~ = c ⁢ f ~ + d ⁢ g ~ . 之前我们已经说明了
( f ⁢ g ) ~ = f ~ ⁢ g ~ , 所以我们需要做的仅仅是证明该映射是一个单射. 根据线性性质, 实际上证明
f ~ = 0 能够推出
f = 0 就足够了. 设
f 是一个次数小于等于
n 的多项式 [译注: 实际上还包括零多项式] 并且满足
f ~ = 0 . 令
t 0 , t 1 , … , t n 是
F 中
n + 1 个不同的元素. 既然
f ~ = 0 , 那么对于
i = 0 , 1 , … , n 有
f ⁡ ( t i ) = 0 , 根据Lagrange插值公式就立即得到
f = 0 .
◻
根据下一节的结果, 我们将得到该定理的一个完全不同的证明.
练习1. 使用Lagrange插值公式找出这样一个实系数的多项式f , 其次数小于等于3 , 并且满足f ⁡ ( − 1 ) = − 6 , f ⁡ ( 0 ) = 2 , f ⁡ ( 1 ) = − 2 , f ⁡ ( 2 ) = 6 .
练习2. 令α , β , γ , δ 是实数. 我们问何时能够找到一个域ℝ 上的次数不高于2 的多项式f 满足f ⁡ ( − 1 ) = α , f ⁡ ( 1 ) = β , f ⁡ ( 3 ) = γ , f ⁡ ( 0 ) = δ . 证明当且仅当3 ⁢ α + 6 ⁢ β − γ − 8 ⁢ δ = 0 的时候这是可能的.
练习3. 令
F 是实数域,
A = [ 2 0 0 0 0 2 0 0 0 0 3 0 0 0 0 1 ] , p = ( x − 2 ) ⁢ ( x − 3 ) ⁢ ( x − 1 ) . 证明p ⁡ ( A ) = 0 . 令P 1 , P 2 , P 3 是对于t 1 = 2 , t 2 = 3 , t 3 = 1 的Lagrange多项式, 计算E i = P i ⁡ ( A ) , i = 1 , 2 , 3 . 证明E 1 + E 2 + E 3 = I ; 如果i ≠ j , E i ⁢ E j = 0 ; E i 2 = E i . 证明A = 2 ⁢ E 1 + 3 ⁢ E 2 + E 3 . 练习4. 令p = ( x − 2 ) ⁢ ( x − 3 ) ⁢ ( x − 1 ) , 令T 是ℝ 4 上任意的满足p ⁡ ( T ) = 0 的线性算子. 令P 1 , P 2 , P 3 是练习3的Lagrange多项式. 令E i = P i ⁡ ( T ) , i = 1 , 2 , 3 . 证明E 1 + E 2 + E 3 = I ; 如果i ≠ j , E i ⁢ E j = 0 ; E i 2 = E i ; T = 2 ⁢ E 1 + 3 ⁢ E 2 + E 3 .
练习5. 令n 是一个正整数, F 是一个域. 设A 是域F 上的一个n × n 矩阵, P 是域F 上一个可逆的n × n 矩阵. 如果f 是域F 上任意的多项式, 证明f ⁡ ( P − 1 ⁢ A ⁢ P ) = P − 1 ⁢ f ⁡ ( A ) ⁢ P .
练习6. 令F 是一个域. 我们已经考虑了由"在t 处求值"得到的F ⁡ [ x ] 上的相当特殊的线性泛函:L ⁡ ( f ) = f ⁡ ( t ) . 这样的线性泛函不仅是线性的, 还具有L ⁡ ( f ⁢ g ) = L ⁡ ( f ) ⁢ L ⁡ ( g ) 的性质. 证明如果L 是F ⁡ [ x ] 上的线性泛函, 并且满足L ⁡ ( f ⁢ g ) = L ⁡ ( f ) ⁢ L ⁡ ( g ) 对于所有的域F 上的多项式f 和g 成立, 那么要么L = 0 , 要么存在t ∈ F 使得对于每个多项式f 有L ⁡ ( f ) = f ⁡ ( t ) .
第4.4节 多项式理想 本节我们关心主要依赖于域上的多项式代数的乘性结构的结果.
引理. 设f 和d 是域F 上的非零多项式并且满足deg ⁡ d ≤ deg ⁡ f , 那么存在g ∈ F ⁡ [ x ] 使得f − d ⁢ g = 0 或者 deg ⁡ ( f − d ⁢ g ) < deg ⁡ f .
证明. 设
f = a m ⁢ x m + ∑ i = 0 m − 1 a i ⁢ x i , a m ≠ 0 以及
d = b n ⁢ x n + ∑ i = 0 n − 1 b i ⁢ x i , b n ≠ 0 , 那么
m ≥ n , 并且
f − ( a m b n ) ⁢ x m − n ⁢ d = 0 或者 deg ⁡ [ f − ( a m b n ) ⁢ x m − n ⁢ d ] < deg ⁡ f . 因此, 我们可以取
g = ( a m b n ) ⁢ x m − n .
◻
使用该引理我们可以表明众所周知的实或复系数多项式的"长除"过程在任意的域上都是可能的.
定理4. 如果
f 和
d 是域
F 上的多项式并且
d ≠ 0 , 那么存在
q , r ∈ F ⁡ [ x ] 满足
f = d ⁢ q + r ;要么r = 0 要么deg ⁡ r < deg ⁡ d . 满足i和ii的多项式
q 和
r 是唯一的.
证明. 如果
f 是
0 或者
deg ⁡ f < deg ⁡ d , 那么取
q = 0 和
r = f 即可. 在
f ≠ 0 并且
deg ⁡ f ≥ deg ⁡ d 的情况下, 上述引理告诉我们存在多项式
g 使得
f − d ⁢ g = 0 或者
deg ⁡ ( f − d ⁢ g ) < deg ⁡ f . 如果
f − d ⁢ g ≠ 0 并且
deg ⁡ ( f − d ⁢ g ) ≥ deg ⁡ d , 那么我们可以选择一个多项式
h 使得
( f − d ⁢ g ) − d ⁢ h = 0 或者
deg ⁡ [ f − d ⁢ ( g + h ) ] < deg ⁡ ( f − d ⁢ g ) . 若有必要则继续施行这个过程, 最终我们可以得到多项式
q 和
r 满足
r = 0 或者
deg ⁡ r < deg ⁡ d , 并且
f = d ⁢ q + r . 现在设我们也有
f = d ⁢ q 1 + r 1 , 其中
r 1 = 0 或者
deg ⁡ r 1 < deg ⁡ d , 那么
d ⁢ q + r = d ⁢ q 1 + r 1 , 于是
d ⁢ ( q − q 1 ) = r 1 − r . 如果
q − q 1 ≠ 0 , 那么
d ⁢ ( q − q 1 ) ≠ 0 , 并有
deg ⁡ d + deg ⁡ ( q − q 1 ) = deg ⁡ ( r 1 − r ) . 但是鉴于
r 1 − r 的次数是小于
d 的次数的, 这是不可能的. 因而
q − q 1 = 0 , 随之亦有
r 1 − r = 0 .
◻
定义. 令d 是域F 上的一个非零多项式. 如果f ∈ F ⁡ [ x ] , 之前的定理告诉我们至多存在一个多项式q ∈ F ⁡ [ x ] 满足f = d ⁢ q . 如果这样的q 存在, 那么我们称d 整除f , 或者f 被d 整除, 或者f 是d 的倍数, 并称q 是f 和d 的商. 我们也记q = f / d .
推论1. 令f 是域F 上的一个多项式, 令c 是F 的一个元素, 那么f 被x − c 整除当且仅当f ⁡ ( c ) = 0 .
证明. 根据定理,
f = ( x − c ) ⁢ q + r , 其中
r 是一个标量多项式. 又根据定理2,
f ⁡ ( c ) = 0 ⁢ q ⁡ ( c ) + r ⁡ ( c ) = r ⁡ ( c ) . 于是,
r = 0 当且仅当
f ⁡ ( c ) = 0 .
◻
定义. 令F 是一个域, c ∈ F 被称为是多项式f ∈ F ⁡ [ x ] 的根或者零点, 如果f ⁡ ( c ) = 0 .
推论2. 域F 上的n 次多项式在F 中至多只有n 个根.
证明. 这个结果对于
0 次和
1 次多项式而言显然是真的. 我们假设其对于
n − 1 次的多项式而言是真的. 如果
a 是
n 次多项式
f 的一个根, 那么
f = ( x − a ) ⁢ q , 其中
q 的次数是
n − 1 . 既然
f ⁡ ( b ) = 0 当且仅当
a = b 或者
q ⁡ ( b ) = 0 , 根据归纳假设我们可以得到
f 至多只有
n 个根.
◻
读者应该观察到定理3的证明的主要步骤可由该推论立即得到. [译注: 原本的证明用的是Lagrange插值.]
多项式的形式导数在讨论多重根的时候是很有用的. 多项式f = c 0 + c 1 ⁢ x + ⋯ + c n ⁢ x n 的导数是多项式f ′ = c 1 + 2 ⁢ c 2 ⁢ x + ⋯ + n ⁢ c n ⁢ x n − 1 . 我们也使用记号D ⁡ f = f ′ . [译注: 实际上, 形式导数由f n ′ = ( n + 1 ) ⁢ f n + 1 刻画.] 微分是线性的, 也就是说, D 是F ⁡ [ x ] 上的一个线性算子. 我们也有高阶形式导数f ″ = D 2 ⁡ f , f ( 3 ) = D 3 ⁡ f , 等等.
定理5. Taylor公式. 令F 是一个特征为零的域, c 是F 的一个元素, n 是一个正整数. 如果f 是域F 上一个满足deg ⁡ f ≤ n 的多项式, 那么f = ∑ k = 0 n ( D k ⁡ f ) k ! ⁡ ( c ) ⁢ ( x − c ) k .
证明. Taylor公式是二项式定理和算子
D , D 2 , … , D n 的线性性质的推论. 二项式定理很容易通过归纳证明, 并断言
( a + b ) m = ∑ k = 0 m ( m k ) ⁢ a m − k ⁢ b k 其中
( m k ) = m ! k ! ⁢ ( m − k ) ! = m ⁢ ( m − 1 ) ⁢ ⋯ ⁢ ( m − k + 1 ) 1 ⋅ 2 ⋅ ⋯ ⋅ k 是我们熟悉的二项式系数, 其给出了从
m 个物品中一次取
k 个的组合数. 根据二项式定理,
x m = [ c + ( x − c ) ] m = ∑ k = 0 m ( m k ) ⁢ c m − k ⁢ ( x − c ) k = c m + m ⁢ c m − 1 ⁢ ( x − c ) + ⋯ + ( x − c ) m 而这就是在
f = x m 的情形下Taylor公式的陈述. 如果
f = ∑ m = 0 n a m ⁢ x m 那么
( D k ⁡ f ) ⁡ ( c ) = ∑ m = 0 n a m ⁢ ( D k ⁡ x m ) ⁡ ( c ) 因此
∑ k = 0 n ( D k ⁡ f ) ⁡ ( c ) k ! ⁢ ( x − c ) k = ∑ k = 0 n ∑ m = 0 n a m ⁢ ( D k ⁡ x m ) k ! ⁡ ( c ) ⁢ ( x − c ) k = ∑ m = 0 n a m ⁢ ( ∑ k = 0 n ( D k ⁡ x m ) k ! ⁡ ( c ) ⁢ ( x − c ) k ) = ∑ m = 0 n a m ⁢ x m = f ◻
读者应该注意到, 因为多项式1 , ( x − c ) , … , ( x − c ) n 是线性无关的 (参见4.2节的练习7), 所以Taylor公式为f 写成多项式( x − c ) k , 0 ≤ k ≤ n 唯一的线性组合提供了方法.
尽管我们不会给出任何细节, 但是在这个点上或许值得提及Taylor公式的正当解释使得其也适用于非零特征域上的多项式. 如果域F 的特征不为零, 那么在F 中我们可以有k ! = 0 , 那么这就使得( D k ⁡ f ) ⁡ ( c ) 除以k ! 毫无意义. 然而, 我们也可以赋予( D k ⁡ f ) ⁡ ( c ) 除以k ! 一种意义, 因为D k ⁡ f 的每个系数都是F 的一个元素乘上某个可以被k ! 整除的整数. [译注: 不过, 在这种观点下, D k ⁡ f 就是相当不同的对象了, 因为你不能仅从这个多项式对象本身还原出那些整数来, 还要考虑D k ⁡ f 的内涵.] 如果这些话使你感到困惑, 那么我们建议读者把自己的注意力限制于特征为零的域, 或者复数域的子域.
如果c 是非零多项式f 的一个根, 那么c 作为f 的根的重数是满足( x − c ) r 整除f 的最大正整数r .
一个根的重数显然小于等于f 的次数. 对于特征为零的域上的多项式而言, c 作为f 的根的重数与f 的高阶导数有关.
定理6. 令F 是一个特征为零的域, 令f 是域F 上的一个多项式并且满足deg ⁡ f ≤ n , 那么标量c 是f 的一个r 重根当且仅当( D k ⁡ f ) ⁡ ( c ) = 0 , 0 ≤ k ≤ r − 1 并且 ( D r ⁡ f ) ⁡ ( c ) ≠ 0 .
证明. 设
r 是
c 作为
f 的根的重数, 那么存在多项式
g 满足
f = ( x − c ) r ⁢ g 且
g ⁡ ( c ) ≠ 0 . 如果
g ⁡ ( c ) = 0 , 那么根据定理4的推论1,
f 就会被
( x − c ) r + 1 整除. 将Taylor公式应用于
g , 我们得到
f = ( x − c ) r ⁢ [ ∑ m = 0 n − r ( D m ⁡ g ) m ! ⁡ ( c ) ⁢ ( x − c ) m ] = ∑ m = 0 n − r ( D m ⁡ g ) m ! ⁡ ( c ) ⁢ ( x − c ) r + m 既然
f 写成幂
( x − c ) k , 0 ≤ k ≤ n 的线性组合的方式是唯一的, 于是
( D k ⁡ f ) ⁡ ( c ) k ! = { 0 , 如果 0 ≤ k ≤ r − 1 ( D k − r ⁡ g ) ⁡ ( c ) ( k − r ) ! , 如果 r ≤ k ≤ n 因此,
( D k ⁡ f ) ⁡ ( c ) = 0 , 0 ≤ k ≤ r − 1 并且
( D r ⁡ f ) ⁡ ( c ) = r ! ⋅ g ⁡ ( c ) ≠ 0 . 反过来说, 如果这些条件被满足了, 那么根据Taylor公式就能立即得出存在多项式
g 满足
f = ( x − c ) r ⁢ g 并且
g ⁡ ( c ) ≠ 0 . 现在设
r 不是满足
( x − c ) r 整除
f 的最大正整数, 那么存在多项式
h 满足
f = ( x − c ) r + 1 ⁢ h . 然而, 根据定理1的推论2, 这将推出
g = ( x − c ) ⁢ h , 于是
g ⁡ ( c ) = 0 , 一个矛盾.
◻
定义. 令F 是一个域. F ⁡ [ x ] 中的一个理想是F ⁡ [ x ] 的一个子空间M 满足对于每个f ∈ F ⁡ [ x ] 和g ∈ M 有f ⁢ g ∈ M .
例子5. 如果F 是一个域, 并且d 是F 上的一个多项式, 那么集合M = d ⁢ F ⁡ [ x ] 是一个理想, 其由所有d 乘上F ⁡ [ x ] 中任意的f 得到的倍数d ⁢ f 构成. 鉴于M 事实上包含d , M 是非空的. 如果f , g ∈ F ⁡ [ x ] 而c 是一个标量, 那么c ⁢ ( d ⁢ f ) − d ⁢ g = d ⁢ ( c ⁢ f − g ) 属于M , 于是M 是一个子空间. 最后, M 也包含( d ⁢ f ) ⁢ g = d ⁢ ( f ⁢ g ) . 理想M 被称为由d 生成的主理想.
例子6. 令d 1 , … , d n 是F 上有限多个多项式, 那么子空间d i ⁢ F ⁡ [ x ] 之和M 也是一个理想. 这是因为若设p ∈ M , 那么存在F ⁡ [ x ] 中的多项式f 1 , … , f n 满足p = d 1 ⁢ f 1 + ⋯ + d n ⁢ f n . 如果g 是域F 上任意的多项式, 那么p ⁢ g = d 1 ⁢ ( f 1 ⁢ g ) + ⋯ + d n ⁢ ( f n ⁢ g ) 于是p ⁢ g 也属于M , 因此M 是一个理想. 我们称M 为由多项式d 1 , … , d n 生成的理想.
例子7. 令F 是复数域的一个子域, 考虑理想M = ( x + 2 ) ⁢ F ⁡ [ x ] + ( x 2 + 8 ⁢ x + 16 ) ⁢ F ⁡ [ x ] . 我们断言M = F ⁡ [ x ] . 这是因为M 包含( x 2 + 8 ⁢ x + 16 ) − x ⁢ ( x + 2 ) = 6 ⁢ x + 16 因而M 也包含( 6 ⁢ x + 16 ) − 6 ⁢ ( x + 2 ) = 4 , 于是标量多项式1 ∈ M , 那么其倍数自然是整个F ⁡ [ x ] .
定理7. 如果F 是一个域, 并且M 是F ⁡ [ x ] 任意的非零理想, 那么存在唯一的首项系数为一的多项式d ∈ F ⁡ [ x ] 使得M 是由d 生成的主理想.
证明. 根据假设,
M 包含一个非零的多项式.
M 所有的非零多项式中, 存在多项式
d 具有最低的次数. [译注: 这依赖于自然数集的良序原理.] 我们不妨假设
d 的首项系数为一, 因为不然的话我们可以给
d 乘上一个标量使其变成首项系数为一的. 现在如果
f ∈ M , 定理4表明
f = d ⁢ q + r , 其中
r = 0 或者
deg ⁡ r < deg ⁡ d . 既然
d ∈ M , 也有
f − d ⁢ q = r ∈ M . 因为
d 是
M 中具有最低次数的元素, 所以我们不可能有
deg ⁡ r < deg ⁡ d , 于是
r = 0 , 因此
M = d ⁢ F ⁡ [ x ] . 如果
g 是另一个满足
M = g ⁢ F ⁡ [ x ] 的首项系数为一的多项式, 那么存在非零的多项式
p 和
q 满足
d = g ⁢ p 和
g = d ⁢ q , 因而
d = d ⁢ p ⁢ q , 然后
deg ⁡ d = deg ⁡ d + deg ⁡ p + deg ⁡ q . 于是,
deg ⁡ p = deg ⁡ q = 0 . 鉴于
d 和
g 的首项系数为一,
p = q = 1 , 即
d = g . [译注: 这段证明也表明多项式
g 是某个非零理想的生成元当且仅当其为唯一的首项系数为一的生成元
d 的非零标量倍数.]
◻
值得注意的是, 在刚才的证明中我们运用了一个更加一般且相当有用的事实的一种特殊情形, 这个事实即如果p 是某个理想M 中的非零多项式而f ∈ M 不被p 整除, 那么f = p ⁢ q + r , 其中"余项 (remainder)"r ∈ M , 它异于0 , 且次数比p 小. 我们已经在例子7中利用了这个事实来表明标量多项式1 是那里考虑的理想的首项系数为一的生成元. 从原则上说, 找出生成给定的非零理想的首项系数为一的多项式总是可能的. 这是因为人们通过有限步骤内的辗转相除最终可以得到理想中具有最低次数的多项式.
推论. 如果
p 1 , … , p n 是域
F 上的不全为零的多项式, 那么
F ⁡ [ x ] 中存在唯一的首项系数为一的多项式
d 满足
d 在由p 1 , … , p n 生成的理想之中;d 整除每个多项式p i ;任何满足a和b的多项式也必然满足
每个整除多项式p 1 , … , p n 的多项式也整除d . 证明. 令
d 是理想
p 1 ⁢ F ⁡ [ x ] + ⋯ + p n ⁢ F ⁡ [ x ] 的首项系数为一的生成元. 每个该理想的成员都被
d 整除, 因此每个多项式
p i 也被
d 整除. 现在设
f 是整除多项式
p 1 , … , p n 的多项式, 那么存在多项式
g 1 , … , g n 满足
p i = f ⁢ g i , 1 ≤ i ≤ n . 并且, 既然
d 在理想
p 1 ⁢ F ⁡ [ x ] + ⋯ + p n ⁢ F ⁡ [ x ] 之中, 那么存在多项式
q 1 , … , q n ∈ F ⁡ [ x ] 使得
d = p 1 ⁢ q 1 + ⋯ + p n ⁢ q n 于是
d = f ⁢ ( g 1 ⁢ q 1 + ⋯ + g n ⁢ q n ) . 我们已经表明了
d 是满足a, b, c的首项系数为一的多项式. 如果
d ′ 是满足a和b的多项式, 根据a和
d 的定义, 我们知道
d ′ 是
d 的标量倍数, 于是也满足c. [译注: 不太能理解这句话的推理过程和想法, 可能存在笔误.] 最终, 当
d ′ 是首项系数为一的多项式时, 我们有
d ′ = d .
[译注: 以上的证明似乎有些混乱. 实际上, 如果
d 是满足a和b的多项式, 那么它就是理想
p 1 ⁢ F ⁡ [ x ] + ⋯ + p n ⁢ F ⁡ [ x ] 的生成元. 在首项系数为一的情况下, 这个多项式至多只有一个. 很容易验证首项系数为一的生成元的确满足a和b. 另外, 条件a即可推出条件c, 不论首项系数是否为一.]
◻
定义. 如果p 1 , … , p n 是域F 上的不全为零的多项式, 那么理想p 1 ⁢ F ⁡ [ x ] + ⋯ + p n ⁢ F ⁡ [ x ] 唯一的首项系数为一的生成元被称为p 1 , … , p n 的最大公因子 (greatest common divisor, g.c.d.). 这个术语可由之前的推论澄清. [译注: 实际上, 更像是由条件b和c澄清, 但是条件c和条件a是等价的. 另外, 它也澄清了辗转相除法求最大公因子的原理.] 我们称多项式p 1 , … , p n 互素, 如果其最大公因子为1 , 或者等价地, 它们生成的理想是整个F ⁡ [ x ] .
例子8. 令
F 是复数域
ℂ , 那么 [译注: 本书对于最大公因子所用的记号是
g.c.d. , 但是我们将其改成现在更加通行的
gcd .]
gcd ⁡ ( x + 2 , x 2 + 8 ⁢ x + 16 ) = 1 (见例子7);gcd ⁡ ( ( x − 2 ) 2 ⁢ ( x + i ) , ( x − 2 ) ⁢ ( x 2 + 1 ) ) = ( x − 2 ) ⁢ ( x + i ) . 这是因为, 理想( x − 2 ) 2 ⁢ ( x + i ) ⁢ F ⁡ [ x ] + ( x − 2 ) ⁢ ( x 2 + 1 ) ⁢ F ⁡ [ x ] 包含( x − 2 ) 2 ⁢ ( x + i ) − ( x − 2 ) ⁢ ( x 2 + 1 ) = ( x − 2 ) ⁢ ( x + i ) ⁢ ( i − 2 ) 因而也包含( x − 2 ) ⁢ ( x + i ) , 其首项系数为一, 且整除( x − 2 ) 2 ⁢ ( x + i ) 和 ( x − 2 ) ⁢ ( x 2 + 1 ) . 例子9. 令F 是有理数域, 并且在F ⁡ [ x ] 中令M 是由( x − 1 ) ⁢ ( x + 2 ) 2 , ( x + 2 ) 2 ⁢ ( x − 3 ) , ( x − 3 ) 生成的理想, 那么M 包含1 2 ⁢ ( x + 2 ) 2 ⁢ [ ( x − 1 ) − ( x − 3 ) ] = ( x + 2 ) 2 并且既然( x + 2 ) 2 = ( x − 3 ) ⁢ ( x + 7 ) + 25 [译注: 原文是− 17 而不是+ 25 , 应该是笔误.] 那么M 包含标量多项式1 , 于是M = F ⁡ [ x ] 而多项式( x − 1 ) ⁢ ( x + 2 ) 2 , ( x + 2 ) 2 ⁢ ( x − 3 ) , ( x − 3 ) 是互素的.
练习1. 令
ℚ 是有理数域, 判断以下
ℚ ⁡ [ x ] 的子集是否是理想. 若是理想, 则找出其首项系数为一的生成元.
所有偶数次的f ; 所有次数大于等于5 的f ; 所有满足f ⁡ ( 0 ) = 0 的f ; 所有满足f ⁡ ( 2 ) = f ⁡ ( 4 ) = 0 的f ; 所有线性算子T 的像中的f , 其中T 由T ⁡ ( ∑ i = 0 n c i ⁢ x i ) = ∑ i = 0 n c i i + 1 ⁢ x i + 1 定义. 练习2. 找出以下每对多项式的最大公因子
2 ⁢ x 5 − x 3 − 3 ⁢ x 2 − 6 ⁢ x + 4 , x 4 + x 3 − x 2 − 2 ⁢ x − 2 ;3 ⁢ x 4 + 8 ⁢ x 2 − 3 , x 3 + 2 ⁢ x 2 + 3 ⁢ x + 6 ;x 4 − 2 ⁢ x 3 − 2 ⁢ x 2 − 2 ⁢ x − 3 , x 3 + 6 ⁢ x 2 + 7 ⁢ x + 1 .练习3. 令A 是域F 上的一个n × n 矩阵. 证明所有满足f ⁡ ( A ) = 0 的多项式f ∈ F ⁡ [ x ] 构成了一个理想.
练习4. 令F 是复数域的一个子域, 令A = [ 1 − 2 0 3 ] . 找出使得f ⁡ ( A ) = 0 的所有多项式f ∈ F ⁡ [ x ] 构成的理想的首项系数为一的生成元.
练习5. 令F 是一个域, 证明F ⁡ [ x ] 中任意数目的理想之交仍然是一个理想.
练习6. 令F 是一个域, 证明由f 1 , … , f n ∈ F ⁡ [ x ] 生成的理想是所有包含f 1 , … , f n 的理想之交.
练习7. 令K 是域F 的一个子域, 设多项式f , g ∈ K ⁡ [ x ] . 令M K 是K ⁡ [ x ] 中由f 和g 生成的理想, M F 是F ⁡ [ x ] 中由f 和g 生成的理想. 证明M K 和M F 有着相同的首项系数为一的生成元.
第4.5节 多项式的素因子分解 本节我们将要证明每个域F 上的多项式都可以写成"素"多项式之积. 这种分解为我们提供了寻找有限多个多项式的最大公因子的有效工具, 并且特别地, 提供了判断多项式是否互素的有效手段.
定义. 令F 是一个域. 一个多项式f ∈ F ⁡ [ x ] 被称为在F 上可约, 如果存在多项式g , h ∈ F ⁡ [ x ] , 它们的次数大于等于1 , 并且满足f = g ⁢ h . 在不存在的情况下, 我们称f 在F 上不可约. 域F 上不可约的非标量多项式被称为域F 上的素多项式 (prime polynomial over F ), 或者有时称其是F ⁡ [ x ] 中的一个prime.
例子10. 多项式x 2 + 1 在域ℂ 上是可约的, 因为x 2 + 1 = ( x + i ) ⁢ ( x − i ) 而多项式x + i 和x − i 属于ℂ ⁡ [ x ] . 另一方面, x 2 + 1 在域ℝ 上是不可约的, 因为如果x 2 + 1 = ( a ⁢ x + b ) ⁢ ( a ′ ⁢ x + b ′ ) 其中a , a ′ , b , b ′ ∈ ℝ , 那么a ⁢ a ′ = 1 , a ⁢ b ′ + b ⁢ a ′ = 0 , b ⁢ b ′ = 1 . 这些关系可以推出a 2 + b 2 = 0 , 这对于实数是不可能的, 除非a = b = 0 . [译注: 但是我们需要a ≠ 0 .]
定理8. 令p , f , g 是域F 上的多项式, 设p 是素多项式, 并且p 整除f ⁢ g , 那么要么p 整除f , 要么p 整除g .
证明. 不失一般性, 假定
p 是首项系数为一的素多项式. 那么,
p 是素的就是在说
p 仅有的首项系数为一的因子是
1 和
p . 令
d 是
f 和
p 的最大公因子, 那么要么
d = 1 , 要么
d = p , 既然
d 是整除
p 的首项系数为一的多项式. 如果
d = p , 那么
p 整除
f , 工作就结束了. 于是, 设
d = 1 , 即
f 和
p 是互素的. 我们将证明
p 整除
g . 既然
gcd ⁡ ( f , p ) = 1 , 存在多项式
f 0 和
p 0 满足
1 = f 0 ⁢ f + p 0 ⁢ p . 两边乘上
g , 我们得到
g = f 0 ⁢ f ⁢ g + p 0 ⁢ p ⁢ g = ( f ⁢ g ) ⁢ f 0 + p ⁢ ( p 0 ⁢ g ) 既然
p 整除
f ⁢ g , 它也整除
( f ⁢ g ) ⁢ f 0 , 并且
p 当然整除
p ⁢ ( p 0 ⁢ g ) , 因此
p 整除
g .
◻
推论. 如果p 是素多项式并且整除f 1 ⁢ ⋯ ⁢ f n , 那么p 至少整除多项式f 1 , … , f n 其中一个.
证明. 通过归纳进行证明. 当
n = 2 时, 该结果就是定理8. 设我们对于推论已经证明了
n = k 的情形, 并设
p 整除
( k + 1 ) 个多项式之积
f 1 ⁢ ⋯ ⁢ f k + 1 . 既然
p 整除
( f 1 ⁢ ⋯ ⁢ f k ) ⁢ f k + 1 , 要么
p 整除
f k + 1 , 要么
p 整除
f 1 ⁢ ⋯ ⁢ f k . 根据归纳假设, 如果
p 整除
f 1 ⁢ ⋯ ⁢ f k , 那么对于某个
j , 1 ≤ j ≤ k 有
p 整除
f j . 于是, 我们看到不论什么情况下必然都有对于某个
j , 1 ≤ j ≤ k + 1 ,
p 整除
f j .
◻
定理9. 如果F 是一个域, 那么F ⁡ [ x ] 中的非标量首项系数为一多项式, 在不计顺序的情况下, 有且仅有一种将其分解为F ⁡ [ x ] 中的首项系数为一的素因子之积的方式.
证明. 设
f 是域
F 上的一个非标量首项系数为一多项式. 因为次数为一的多项式是不可约的, 因此在
deg ⁡ f = 1 的情况下没有什么好证明的东西. 设
f 的次数
n > 1 . 根据归纳, 我们可以假定该定理对于所有次数小于
n 的非标量首项系数为一多项式均成立. 如果
f 是不可约的, 那么它就已经被分解为首项系数为一的素因子之积了. 若
f 可约, 则
f = g ⁢ h , 其中
g 和
h 是次数小于
n 的非标量首项系数为一多项式. 因此,
g 和
h 可以被分解为
F ⁡ [ x ] 中的首项系数为一的素因子之积, 于是
f 也可以. 现在设
f = p 1 ⁢ ⋯ ⁢ p m = q 1 ⁢ ⋯ ⁢ q n 其中
p 1 , … , p m 和
q 1 , … , q n 是
F ⁡ [ x ] 中的首项系数为一的素多项式. 那么,
p m 整除
q 1 ⁢ ⋯ ⁢ q n . 根据上述推论,
p m 必然整除某个
q i . 鉴于
q i 和
p m 都是首项系数为一的素多项式, 这意味着
q i = p m . 从中我们看出, 如果
m = 1 或者
n = 1 , 那么
m = n = 1 , 因为
deg ⁡ f = ∑ i = 1 m deg ⁡ p i = ∑ j = 1 n deg ⁡ q j . 在
m = n = 1 的情况下没有什么好证明的东西, 所以我们不妨设
m > 1 且
n > 1 . 通过重排
q 的下标, 我们可以假定
p m = q n , 并有
p 1 ⁢ ⋯ ⁢ p m − 1 ⁢ p m = q 1 ⁢ ⋯ ⁢ q n − 1 ⁢ p m . 根据定理1的推论2, 我们有
p 1 ⁢ ⋯ ⁢ p m − 1 = q 1 ⁢ ⋯ ⁢ q n − 1 . 因为多项式
p 1 ⁢ ⋯ ⁢ p m − 1 的次数小于
n , 可以应用归纳假设表明序列
q 1 , … , q n − 1 最多只是
p 1 , … , p m − 1 的重排. 这个事实和
p m = q n 一起告诉我们
f 作为首项系数为一的素因子之积的分解, 在不计因子的顺序的情况下是唯一的.
[译注: 以上证明有一个小的混乱, 就是作为多项式
f 的次数的
n 和作为多项式序列
q 1 , … , q n 的长度的
n 之间是毫无关系的.]
◻
在以上对于一个给定非标量首项系数为一的多项式f 的分解中, 某些首项系数为一的素因子是可以重复的. 如果p 1 , … , p r 是对于这个f 的分解中所有不同的素因子, 那么f = p 1 n 1 ⁢ p 2 n 2 ⁢ ⋯ ⁢ p r n r 幂次n i 是素因子p i 在分解中出现的次数. 这样的分解显然也是唯一的, 其被称为f 的主分解 (primary decomposition). 很容易验证每个f 的首项系数为一的因子都具有p 1 m 1 ⁢ p 2 m 2 ⁢ ⋯ ⁢ p r m r , 0 ≤ m i ≤ n i 的形式. 这告诉我们有限数目的非标量首项系数为一多项式f 1 , … , f s 的最大公因子可由联合所有那些同时出现在每个f 1 , … , f s 的分解中的首项系数为一的素因子获得, 而其幂次取相应的幂能够整除每个f i 的最大值. [译注: 这等价于取每个 f i 与之对应的素因子的幂次的最小值.] 若无素因子的(非平凡)幂次是每个f i 的因子, 那么这些多项式是互素的. [译注: 这等价于若没有素因子出现在每个f i 的分解中, 那么这些多项式是互素的.]
例子11. 设F 是一个域, 令a , b , c 是F 的不同元素, 那么多项式x − a , x − b , x − c 是F ⁡ [ x ] 中不同的首项系数为一的素多项式. 如果m , n , s 是正整数, 那么( x − c ) s 是多项式( x − b ) n ⁢ ( x − c ) s 和 ( x − a ) m ⁢ ( x − c ) s 的最大公因子, 尽管这三个多项式( x − b ) n ⁢ ( x − c ) s , ( x − a ) m ⁢ ( x − c ) s , ( x − a ) m ⁢ ( x − b ) n 是互素的.
定理10. 令f 是域F 上的一个非标量首项系数为一多项式, 并且令f = p 1 n 1 ⁢ ⋯ ⁢ p k n k 是f 的素因子分解. [译注: 按照上面的说法, 这里的prime factorization应该写成primary decomposition. 当然了, 有基本理解能力的读者应该明白primary decompostion不过就是prime factorization的一种形式而已.] 对于每个j , 1 ≤ j ≤ k , 令f j = f / p j n j = ∏ i ≠ j p i n i 那么f 1 , … , f k 是互素的. [译注: 这里需要定义多项式除法, 不过这是显然的.]
证明. 我们将这个(简单的)证明留给读者. 我们陈述这个定理很大程度上是因为我们想要在之后引用它. [译注: 第6章的定理12的证明引用了该定理.]
◻
证明. 鉴于证明的确十分简单, 译者在此拟一个证明. 考虑刻画最大公因子定义的定理7的推论, 若首项系数为一的多项式
d 满足条件b, 那么其仅可能为
1 . 但是, 既然这个刻画与非零理想存在且唯一的首项系数为一的生成元是等价的, 所以说
1 就是
f 1 , … , f k 的最大公因子, 即
f 1 , … , f k 互素.
◻
注意: 此黄色背景标注内容将被删去. 定理11. 令f 是一个域F 上的多项式, 其导数是f ′ , 那么f 是域F 上的不同的不可约多项式之积当且仅当f 和f ′ 互素.
证明. 设域
F 上对于
f 的素因子分解中某个(非标量)素多项式
p 是重复的 [译注: 原文之所以给非标量加上括号, 是因为素多项式按照定义本来就是非标量多项式], 那么
f = p 2 ⁢ h , 其中
h ∈ F ⁡ [ x ] , 于是
f ′ = p 2 ⁢ h ′ + 2 ⁢ p ⁢ p ′ ⁢ h 所以
p 也是
f ′ 的一个因子, 因此
f 和
f ′ 不是互素的.
现在设
f = p 1 ⁢ ⋯ ⁢ p k , 其中
p 1 , … , p k 是域
F 上不同的非标量不可约多项式. 令
f j = f / p j , 那么
f ′ = p 1 ′ ⁢ f 1 + p 2 ′ ⁢ f 2 + ⋯ + p k ′ ⁢ f k . 令
p 是一个整除
f 和
f ′ 的素多项式, 那么对于某个
i 有
p = p i . 既然若
j ≠ i , 则
p i 整除
f j , 并且
p i 也整除
f ′ = ∑ j = 1 k p j ′ ⁢ f j 我们看出来
p i 也必然整除
p i ′ ⁢ f i , 因而
p i 整除
f i 或
p i ′ . 但是,
p i 并不整除
f i , 鉴于
p 1 , … , p k 都是不同的, 于是
p i 整除
p i ′ . 这是不可能的, 因为
p i ′ 的次数比
p i 的次数少一. 我们总结一下, 就是没有素多项式能够同时整除
f 和
f ′ , 即
f 和
f ′ 是互素的.
◻
[译注: 定理11的陈述和证明都有些粗糙. 如果根据之前给出的定义稍加打磨一下, 定理11应该是"令f 是域F 上的首项系数为一的多项式, 那么f 的素因子分解中每个因子仅出现一次当且仅当f 和f ′ 互素". 其中1 的素因子分解应该是"空白", 因为"空白"的积定义为乘法的单位元 (也就是多项式1 ) 是很合理的. 至于证明, 许多地方应该加上"首项系数为一", 不然的话是不正确的. 另外, 这个证明中还用到了形式导数类似于导数的性质却没有另加证明, 尽管证明起来并不困难.]
定理11. 对于域F 上的一个首项系数为一的多项式f , 设其素因子分解为f = p 1 ⁢ ⋯ ⁢ p k , 那么p 1 , … , p k 互异当且仅当f 和f ′ 互素.
证明. 设
p 1 , … , p k 互异. 若
f 和
f ′ 不互素, 存在
i 使得
p i 整除
f 和
f ′ . 令
f j = f / p j , 那么
f ′ = p 1 ′ ⁢ f 1 + ⋯ + p k ′ ⁢ f k . 对于
j ≠ i , 我们知道
p i 整除
f j . 又因为
p i 整除
f ′ , 所以
p i 整除
p i ′ ⁢ f i , 这等价于
p i 整除
p i ′ 或
f i . 但是,
p i 不可能整除
p i ′ , 鉴于
p i ′ 的次数小于
p i 的次数. 而且,
p i 也不可能整除
f i , 鉴于
p 1 , … , p k 是互异的. 这就推导出了一个矛盾, 于是
f 和
f ′ 必然是互素的.
反过来, 设
f 和
f ′ 互素. 若
f 的素因子分解中出现重复的因子
p , 那么存在多项式
h 使得
f = p 2 ⁢ h , 于是
f ′ = p 2 ⁢ h ′ + 2 ⁢ p ⁢ p ′ ⁢ h = p ⁢ ( p ⁢ h ′ + 2 ⁢ p ′ ⁢ h ) . 因此,
p 也整除
f ′ , 但这与
f 和
f ′ 矛盾. 换言之,
p 1 , … , p k 互异.
证明的最后, 我们想要澄清一下
f = 1 的极端情况. 此时,
f 的素因子分解应该理解为"空积", 因而互异的条件得到满足. 鉴于
1 ′ = 0 ,
gcd ⁡ ( 1 , 0 ) = 1 ,
f 和
f ′ 也是互素的. 我们看到, 即便是
f = 1 , 定理也是成立的.
◻
定理. 给定域F , 对于任意的多项式f , g ∈ F ⁡ [ x ] , 其乘积的形式导数可以被表示为( f ⁢ g ) ′ = f ′ ⁢ g + f ⁢ g ′ .
证明. 显然, 此定理成立当且仅当对于每个自然数
n ∈ ℕ , 我们有
( f ⁢ g ) n ′ = ( f ′ ⁢ g + f ⁢ g ′ ) n . 对于左边, 我们可知
( f ⁢ g ) n ′ = ( n + 1 ) ⁢ ( f ⁢ g ) n + 1 = ( n + 1 ) ⁢ ∑ k = 0 n + 1 f k ⁢ g n + 1 − k 对于
( f ′ ⁢ g ) n , 我们可知
( f ′ ⁢ g ) n = ∑ k = 0 n f k ′ ⁢ g n − k = ∑ k = 0 n ( k + 1 ) ⁢ f k + 1 ⁢ g n − k = ∑ k = 1 n + 1 k ⁢ f k ⁢ g n + 1 − k = ∑ k = 0 n + 1 k ⁢ f k ⁢ g n + 1 − k 对于
( f ⁢ g ′ ) n , 我们可知
( f ⁢ g ′ ) n = ∑ k = 0 n f k ⁢ g n − k ′ = ∑ k = 0 n ( n + 1 − k ) ⁢ f k ⁢ g n + 1 − k = ( n + 1 ) ⁢ ∑ k = 0 n f k ⁢ g n + 1 − k + ∑ k = 0 n ( − k ) ⁢ f k ⁢ g n + 1 − k 因此, 我们得到
( f ′ ⁢ g + f ⁢ g ′ ) n = ( f ′ ⁢ g ) n + ( f ⁢ g ′ ) n = ∑ k = 0 n + 1 k ⁢ f k ⁢ g n + 1 − k + ( n + 1 ) ⁢ ∑ k = 0 n f k ⁢ g n + 1 − k + ∑ k = 0 n ( − k ) ⁢ f k ⁢ g n + 1 − k = ( n + 1 ) ⁢ ∑ k = 0 n f k ⁢ g n + 1 − k + ( n + 1 ) ⁢ f n + 1 ⁢ g 0 = ( n + 1 ) ⁢ ∑ k = 0 n + 1 f k ⁢ g n + 1 − k = ( f ⁢ g ) n ′ 证明也就结束了. 这个证明的优点在于其可以直接被推广至形式幂级数的情形而无需修改.
◻
推论. 给定域F , 对于任意的多项式f 1 , f 2 , … , f n ∈ F ⁡ [ x ] , 其乘积的形式导数可以被表示为( f 1 ⁢ f 2 ⁢ ⋯ ⁢ f n ) ′ = f 1 ′ ⁢ f 2 ⁢ ⋯ ⁢ f n + f 1 ⁢ f 2 ′ ⁢ ⋯ ⁢ f n + ⋯ + f 1 ⁢ ⋯ ⁢ f n − 1 ⁢ f n ′ .
定义. 域F 被称为代数封闭的 (algebraically closed), 如果每个域F 上的素多项式的次数都是1 .
称F 是代数封闭的意味着每个F 上的非标量不可约的首项系数为一多项式均具有( x − c ) 的形式. 我们已经观察到每个这样的多项式对于任意的F 都是不可约的. 据此, 代数闭域的一个等价定义是F ⁡ [ x ] 中的每个非标量多项式f 都可以被表达为f = c ⁢ ( x − c 1 ) n 1 ⁢ ⋯ ⁢ ( x − c k ) n k 的形式, 其中c 是一个标量, c 1 , … , c k 是F 的不同元素, n 1 , … , n k 是正整数. 另一种对于代数闭域的刻画是如果f 是域F 上的非标量多项式, 那么存在c ∈ F 使得f ⁡ ( c ) = 0 .
实数域ℝ 不是代数封闭的, 因为多项式( x 2 + 1 ) 在ℝ 上是不可约的且次数不为1 , 或是因为不存在实数c 满足c 2 + 1 = 0 . 所谓的代数基本定理陈述了复数域ℂ 是代数闭域的事实. 我们将不会证明这个定理, 尽管我们之后将在本书中稍微使用一下它. 省略这个定理的证明的一部分原因在于时间的限制, 一部分原因在于此证明依赖于实数系的一个"非代数"性质. 至于一种可能的证明, 感兴趣的读者可以阅读参考文献中Schreier和Sperner所写的书.
代数基本定理也使得实系数多项式的素因子分解的可能性明晰化. 如果f 是一个实系数多项式而c 是f 的一个复根, 那么其复共轭c ‾ 也是f 的一个根. 因此, 那些非实的复根必然以共轭对偶的形式出现, 而整个根的集合具有{ t 1 , … , t k , c 1 , c ‾ 1 , … , c r , c ‾ r } 的形式, 其中t 1 , … , t k 是实数而c 1 , … , c r 是非实的复数, 因此f 可以被分解为f = c ⁢ ( x − t 1 ) ⁢ ⋯ ⁢ ( x − t k ) ⁢ p 1 ⁢ ⋯ ⁢ p r 其中p i 是二次多项式p i = ( x − c i ) ⁢ ( x − c ‾ i ) . 这些多项式p i 具有实系数. 我们总结一下, 实数域上的每个非标量不可约多项式的次数都是1 或2 . ℝ 上的每个非标量多项式都是特定的线性因子 (从f 的实根中得到) 和特定的不可约二次多项式之积 [译注: 还要考虑一下最后再乘上一个系数].
练习1. 令p 是域F 上一个首项系数为一的多项式. 令f 和g 是域F 上互素的多项式. 证明p ⁢ f 和p ⁢ g 的最大公因子是p .
练习2. 默认代数基本定理成立, 证明以下事实. 如果f 和g 是复数域上的多项式, 那么gcd ⁡ ( f , g ) = 1 当且仅当f 和g 没有共同的根.
练习3. 令D 是ℂ ⁡ [ x ] 上的微分算子. 令f 是复数域上的首项系数为一多项式. 证明f = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) 其中c 1 , … , c k 是不同的复数, 当且仅当f 和D ⁡ f 互素. 换言之, f 没有重复的根当且仅当f 和D ⁡ f 没有相同的根. (默认代数基本定理成立.)
练习4. 证明以下Taylor公式的推广. 令f , g , h 是某个复数域的子域上的多项式, 并且deg ⁡ f ≤ n , 那么f ⁡ ( g ) = ∑ k = 0 n 1 k ! ⁢ f ( k ) ⁡ ( h ) ⁢ ( g − h ) k . (这里f ⁡ ( g ) 代表"应用f 于g ".)
对于剩余的练习, 我们需要如下定义. 如果f , g , p 是域F 上的多项式并且p ≠ 0 , 那么我们称模p 下f 和g 同余, 如果( f − g ) 被p 整除. 如果模p 下f 同余于g , 那么我们记f ≡ g ( mod ⁡ p ) .
练习5. 对于任意的非零多项式
p , 证明模
p 同余是一个等价关系.
自反: f ≡ f ( mod ⁡ p ) . 对称: 如果f ≡ g ( mod ⁡ p ) , 那么g ≡ f ( mod ⁡ p ) . 传递: 如果f ≡ g ( mod ⁡ p ) 并且g ≡ h ( mod ⁡ p ) , 那么f ≡ h ( mod ⁡ p ) . 练习6. 设
f ≡ g ( mod ⁡ p ) 且
f 1 ≡ g 1 ( mod ⁡ p ) .
证明f + f 1 ≡ g + g 1 ( mod ⁡ p ) . 证明f ⁢ f 1 ≡ g ⁢ g 1 ( mod ⁡ p ) . 练习7. 使用练习6证明以下结果. 如果f , g , h , p 是域F 上的多项式而p ≠ 0 , 若f ≡ g ( mod ⁡ p ) , 则h ⁡ ( f ) ≡ h ⁡ ( g ) ( mod ⁡ p ) . [译注: 原文是练习7, 应该是练习6. 或许其他地方这样的编号引用错误还有很多, 因为我没有一一检查.]
练习8. 如果p 是一个 [译注: 非标量] 不可约多项式而f ⁢ g ≡ 0 ( mod ⁡ p ) , 那么f ≡ 0 ( mod ⁡ p ) 或者g ≡ 0 ( mod ⁡ p ) . 给出反例说明在p 可约的情况下这是错误的.
第5章 行列式 第5.1节 交换环 本章我们将证明与方阵的行列式有关的基本事实. 我们不仅对于域上的矩阵这么做, 矩阵的元素还可能是更一般类型的"标量". 这种一般化有两个理由. 首先, 在下一章, 我们将会发现不得不处理元素是多项式的矩阵的行列式. 其次, 在我们呈现的对于行列式的处理中, 有一条公理是不发挥作用的, 也就是保证每个非零元素都拥有乘法逆元的那条公理. 出于这些原因, 建立含幺交换环上的矩阵的行列式理论是合适的.
定义. 一个环是一个集合
K , 带有两种运算
( x , y ) ↦ x + y 和
( x , y ) ↦ x ⁢ y 满足
K 在运算( x , y ) ↦ x + y 下是一个交换群;( x ⁢ y ) ⁢ z = x ⁢ ( y ⁢ z ) ;x ⁢ ( y + z ) = x ⁢ y + x ⁢ z ; ( y + z ) ⁢ x = y ⁢ x + z ⁢ x .如果
x ⁢ y = y ⁢ x 对于所有
K 中的
x 和
y 成立, 那么我们称环
K 是交换的. 如果
K 中存在一个元素
1 满足对于每个
x 有
1 ⁢ x = x ⁢ 1 = x , 那么
K 就被称为含幺环, 而
1 就被称为
K 的幺元.
这里我们感兴趣的是含幺交换环. 这样的环, 可以被简要地描述为一个集合K 带有两种运算, 满足第1章给出的域公理, 除了公理8和条件1 ≠ 0 . 因此, 域是含有非零幺元的交换环, 并且每个非零元都可逆. 整数集, 带有通常的运算, 就是一个含幺交换环, 但不是域. 另一个含幺交换环的例子是域上的多项式.
如果K 是一个含幺交换环, 我们定义K 上的m × n 矩阵是一个从整数序对( i , j ) , 1 ≤ i ≤ m , 1 ≤ j ≤ n 的集合到K 的函数. 像往常一样, 我们将这样的矩阵表示为m 行n 列的矩形阵列. K 上的矩阵的和与积定义恰如域上的矩阵( A + B ) i , j = A i , j + B i , j ( A ⁢ B ) i , j = ∑ k A i , k ⁢ B k , j 当A 和B 具有相同的行数和列数时, 和有定义. 当A 的列数等于B 的行数时, 积有定义. 这些运算的基本代数性质当然仍然成立, 例如A ⁢ ( B + C ) = A ⁢ B + A ⁢ C , A ⁢ ( B ⁢ C ) = ( A ⁢ B ) ⁢ C , 等等.
和域的情况一样, 我们将称K 的元素为标量. 接着, 我们可以像之前一样定义矩阵的行或列的线性组合. 粗略说来, 我们对于域上的矩阵所做的事情, 对于K 上的矩阵一样合法, 除了那些需要"除法"的结果.
第5.2节 行列式函数 令K 是一个含幺交换环. 我们希望为每个K 上的n × n 矩阵赋一个被称为行列式的标量. 将行列式定义为基于矩阵元素的公式是可能的, 接着人们可以从这个公式里推导出行列式的性质. 然而, 这样的公式是相当复杂的, 为了获得一些技术性优势, 我们将按以下方式处理. 我们将K n × n 上的"行列式函数"定义为一种具有如下特别性质的函数. 它对于矩阵的每一行都是线性的; 若矩阵具有两个相等的行, 那么其值为0 ; 对于恒等矩阵, 其值为1 . 我们将证明这样的函数存在, 并且唯一, 也就是恰有一个这样的函数. 随着我们证明唯一性, 就得到了一个行列式的显式公式, 以及许多有用的性质.
本节我们将致力于"行列式函数"的定义, 以及证明至少有一个这样的函数存在.
定义. 令K 是一个含幺交换环, 令n 是一个正整数, 令D 是一个函数, 其赋每个K 上的n × n 矩阵A 以一个K 中标量D ⁡ ( A ) . 我们称D 是n 线性的, 如果对于每个i , 1 ≤ i ≤ n , 在其他( n − 1 ) 行固定的情况下, D 对于第i 行是一个线性函数.
这个定义需要一些澄清. 如果D 是一个从K n × n 到K 的函数, 并且如果α 1 , … , α n 是矩阵A 的行, 那么我们也记D ⁡ ( A ) = D ⁡ ( α 1 , … , α n ) 即是说, 我们也将D 想成是A 的行的函数. D 是n 线性的陈述意味着D ⁡ ( α 1 , … , c ⁢ α i + α i ′ , … , α n ) = c ⁢ D ⁡ ( α 1 , … , α i , … , α n ) + D ⁡ ( α 1 , … , α i ′ , … , α n ) 如果我们固定除了第i 行之外的所有行并将D 视为第i 行的函数, 那么将D ⁡ ( A ) 写成D ⁡ ( α i ) 是更方便的. 因此, 我们可以将上式简写成D ⁡ ( c ⁢ α i + α i ′ ) = c ⁢ D ⁡ ( α i ) + D ⁡ ( α i ′ ) 只要意思足够清楚即可.
例子1. 令k 1 , … , k n 是正整数, 其中1 ≤ k i ≤ n , 并令a 是K 的一个元素. 对于每个K 上的n × n 矩阵A , 定义D ⁡ ( A ) = a ⁢ A ⁡ ( 1 , k 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , k n ) 那么函数D 就是n 线性的. 这是因为如果我们将D 视为第i 行的函数, 而其他行固定, 我们可以将其写作D ⁡ ( α i ) = A ⁡ ( i , k i ) ⁢ b 其中b 是一个K 的固定元素. 令α i ′ = ( A i , 1 ′ , … , A i , n ′ ) , 那么我们有D ⁡ ( c ⁢ α i + α i ′ ) = [ c ⁢ A ⁡ ( i , k i ) + A ′ ⁡ ( i , k i ) ] ⁢ b = c ⁢ D ⁡ ( α i ) + D ⁡ ( α i ′ ) 因此D 对于A 的每一行都是一个线性函数. 这种类型的n 线性函数的一个特别例子是D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 ⁢ ⋯ ⁢ A n , n 换言之, "对角线元素之积"是一个K n × n 上的n 线性函数.
例子2. 让我们找出所有K 上的2 × 2 矩阵上的2 线性函数. 令D 是这样一个函数. 如果我们用ε 1 , ε 2 代表2 × 2 的恒等矩阵的行, 那么我们有D ⁡ ( A ) = D ⁡ ( A 1 , 1 ⁢ ε 1 + A 1 , 2 ⁢ ε 2 , A 2 , 1 ⁢ ε 1 + A 2 , 2 ⁢ ε 2 ) 因为D 是2 线性的, 我们有D ⁡ ( A ) = A 1 , 1 ⁢ D ⁡ ( ε 1 , A 2 , 1 ⁢ ε 1 + A 2 , 2 ⁢ ε 2 ) + A 1 , 2 ⁢ D ⁡ ( ε 2 , A 2 , 1 ⁢ ε 1 + A 2 , 2 ⁢ ε 2 ) = A 1 , 1 ⁢ A 2 , 1 ⁢ D ⁡ ( ε 1 , ε 1 ) + A 1 , 1 ⁢ A 2 , 2 ⁢ D ⁡ ( ε 1 , ε 2 ) + A 1 , 2 ⁢ A 2 , 1 ⁢ D ⁡ ( ε 2 , ε 1 ) + A 1 , 2 ⁢ A 2 , 2 ⁢ D ⁡ ( ε 2 , ε 2 ) 因此, D 完全由四个标量D ⁡ ( ε 1 , ε 1 ) , D ⁡ ( ε 1 , ε 2 ) , D ⁡ ( ε 2 , ε 1 ) , D ⁡ ( ε 2 , ε 2 ) 决定. 读者应该很容易验证, 如果a , b , c , d 是K 中四个标量, 定义D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 1 ⁢ a + A 1 , 1 ⁢ A 2 , 2 ⁢ b + A 1 , 2 ⁢ A 2 , 1 ⁢ c + A 1 , 2 ⁢ A 2 , 2 ⁢ d 那么D 是一个K 上的2 × 2 矩阵上的2 线性函数, 并且D ⁡ ( ε 1 , ε 1 ) = a , D ⁡ ( ε 1 , ε 2 ) = b , D ⁡ ( ε 2 , ε 1 ) = c , D ⁡ ( ε 2 , ε 2 ) = d
引理. n 线性函数之线性组合亦是n 线性函数.
证明. 证明两个
n 线性函数的线性组合是
n 线性函数足矣. 令
D 和
E 是
n 线性函数. 如果
a 和
b 属于
K , 那么
a ⁢ D + b ⁢ E 当然由
( a ⁢ D + b ⁢ E ) ⁡ ( A ) = a ⁢ D ⁡ ( A ) + b ⁢ E ⁡ ( A ) 定义. 因此, 如果我们固定除了第
i 行之外的所有行
( a ⁢ D + b ⁢ E ) ⁡ ( c ⁢ α i + α i ′ ) = a ⁢ D ⁡ ( c ⁢ α i + α i ′ ) + b ⁢ E ⁡ ( c ⁢ α i + α i ′ ) = a ⁢ c ⁢ D ⁡ ( α i ) + a ⁢ D ⁡ ( α i ′ ) + b ⁢ c ⁢ E ⁡ ( α i ) + b ⁢ E ⁡ ( α i ′ ) = c ⁢ ( a ⁢ D + b ⁢ E ) ⁡ ( α i ) + ( a ⁢ D + b ⁢ E ) ⁡ ( α i ′ ) ◻
如果K 是一个域而V 是K 上的n × n 矩阵的集合, 那么以上引理是说, V 上的n 线性函数的集合是从V 到K 的所有函数的空间的子空间.
例子3. 令D 是K 上的2 × 2 矩阵上的函数, 由D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 − A 1 , 2 ⁢ A 2 , 1 定义. 现在D 是两个函数之和, 它们具有例子1所刻画的类型:D = D 1 + D 2 D 1 ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 D 2 ⁡ ( A ) = − A 1 , 2 ⁢ A 2 , 1 根据以上引理, D 是一个2 线性函数. 对于行列式有任何一点经验的读者都不会对此感到惊讶, 因为他会识别出来这就是2 × 2 矩阵的行列式的通常定义. 当然了, 我们刚才定义的函数D 不是一个普通的2 线性函数. 它拥有许多特别的性质. 让我们注意到其中一些. 首先, 如果I 是2 × 2 的恒等矩阵, 那么D ⁡ ( I ) = 1 , 即D ⁡ ( ε 1 , ε 2 ) = 1 . 其次, 如果A 的两行是相等的, 那么D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 − A 1 , 2 ⁢ A 2 , 1 = 0 最后, 如果A ′ 是由一个2 × 2 的矩阵A 交换其行得到的, 那么D ⁡ ( A ′ ) = − D ⁡ ( A ) , 因为D ⁡ ( A ′ ) = A 1 , 1 ′ ⁢ A 2 , 2 ′ − A 1 , 2 ′ ⁢ A 2 , 1 ′ = A 2 , 1 ⁢ A 1 , 2 − A 2 , 2 ⁢ A 1 , 1 = − D ⁡ ( A )
定义. 令
D 是一个
n 线性函数, 称
D 是交错的, 如果其下两个条件满足:
凡A 有两行相等, 则D ⁡ ( A ) = 0 . 如果A ′ 由A 交换两行获得, 那么D ⁡ ( A ′ ) = − D ⁡ ( A ) . 我们将在之后证明任何满足条件a的n 线性函数自动地满足条件b. 我们将两种条件放在交错n 线性函数的定义里主要是为了方便. 读者可能也会注意到如果D 满足b, 而A 是一个有着相等两行的矩阵, 那么D ⁡ ( A ) = − D ⁡ ( A ) . 这让人忍不住断言D 也满足条件a. 这在某些时候是对的, 例如K 是一个满足1 + 1 ≠ 0 的域, 但在一般情况下a不是b的推论.
定义. 令K 是一个含幺交换环, 令n 是一个正整数. 设D 是一个从K 上的n × n 矩阵到K 的函数. 我们称D 是一个行列式函数, 如果D 是n 线性的, 交错的, 并且D ⁡ ( I ) = 1 .
正如我们之前所说的, 我们最终要证明K 上的n × n 矩阵上恰存在一个行列式函数. 这对于K 上的1 × 1 矩阵A = [ a ] 而言是显然的. 由D ⁡ ( A ) = a 给定的函数D 是一个行列式函数, 并且很明显这就是1 × 1 的矩阵上唯一的行列式函数. 现在我们来处理n = 2 的情况. 我们已经在例子3中表明了D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 − A 1 , 2 ⁢ A 2 , 1 是一个行列式函数. 而且, 例子2中呈现的公式表明D 是2 × 2 矩阵上唯一的行列式函数. 这是因为, 我们已经证明了对于任何2 线性函数D 有D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 1 ⁢ D ⁡ ( ε 1 , ε 1 ) + A 1 , 1 ⁢ A 2 , 2 ⁢ D ⁡ ( ε 1 , ε 2 ) + A 1 , 2 ⁢ A 2 , 1 ⁢ D ⁡ ( ε 2 , ε 1 ) + A 1 , 2 ⁢ A 2 , 2 ⁢ D ⁡ ( ε 2 , ε 2 ) 如果D 是交错的, 那么D ⁡ ( ε 1 , ε 1 ) = D ⁡ ( ε 2 , ε 2 ) = 0 且D ⁡ ( ε 2 , ε 1 ) = − D ⁡ ( ε 1 , ε 2 ) = − D ⁡ ( I ) 如果D 还满足D ⁡ ( I ) = 1 , 那么D ⁡ ( A ) = A 1 , 1 ⁢ A 2 , 2 − A 1 , 2 ⁢ A 2 , 1
例子4. 令F 是一个域, 令D 是多项式环F ⁡ [ x ] 上的3 × 3 矩阵上的任意一个交错的3 线性函数. 令A = [ x 0 − x 2 0 1 0 1 0 x 3 ] 如果我们将3 × 3 的恒等矩阵的行表示为ε 1 , ε 2 , ε 3 , 那么D ⁡ ( A ) = D ⁡ ( x ⁢ ε 1 − x 2 ⁢ ε 3 , ε 2 , ε 1 + x 3 ⁢ ε 3 ) 既然D 对于每一行都是线性的,D ⁡ ( A ) = x ⁢ D ⁡ ( ε 1 , ε 2 , ε 1 + x 3 ⁢ ε 3 ) − x 2 ⁢ D ⁡ ( ε 3 , ε 2 , ε 1 + x 3 ⁢ ε 3 ) = x ⁢ D ⁡ ( ε 1 , ε 2 , ε 1 ) + x 4 ⁢ D ⁡ ( ε 1 , ε 2 , ε 3 ) − x 2 ⁢ D ⁡ ( ε 3 , ε 2 , ε 1 ) − x 5 ⁢ D ⁡ ( ε 3 , ε 2 , ε 3 ) 因为D 是交错的, 于是D ⁡ ( A ) = ( x 4 + x 2 ) ⁢ D ⁡ ( ε 1 , ε 2 , ε 3 )
引理. 令D 是一个2 线性函数, 并且对于K 上具有相同的行的2 × 2 矩阵A 有D ⁡ ( A ) = 0 , 那么D 是交错的.
证明. 我们必须证明的是, 如果
A 是一个
2 × 2 的矩阵而
A ′ 是由
A 交换两行得到的, 那么
D ⁡ ( A ′ ) = − D ⁡ ( A ) . 如果
A 的行是
α 和
β , 这意味着我们必须证明的是
D ⁡ ( β , α ) = − D ⁡ ( α , β ) . 既然
D 是
2 线性的,
D ⁡ ( α + β , α + β ) = D ⁡ ( α , α ) + D ⁡ ( α , β ) + D ⁡ ( β , α ) + D ⁡ ( β , β ) 根据我们的假设,
D ⁡ ( α + β , α + β ) = D ⁡ ( α , α ) = D ⁡ ( β , β ) = 0 , 于是
0 = D ⁡ ( α , β ) + D ⁡ ( β , α ) ◻
引理. 令D 是一个K 上的n × n 矩阵上的n 线性函数. 设D 满足凡A 两相邻行相等时即有D ⁡ ( A ) = 0 , 那么D 是交错的.
证明. 我们必须证明, 每当
A 的两行相等时,
D ⁡ ( A ) = 0 , 以及若
A ′ 是由
A 交换某两行得到的, 那么
D ⁡ ( A ′ ) = − D ⁡ ( A ) . 首先, 让我们设
A ′ 是由
A 交换两个相邻的行得到的. 读者应该能够看出来, 前一个引理的证明中使用的论证可以扩展到目前的情形, 并告诉我们
D ⁡ ( A ′ ) = − D ⁡ ( A ) .
现在令
B 由
A 交换第
i 行和第
j 行得到, 其中
i < j . 我们可以由
A 通过一系列交换相邻行的操作得到
B . 我们首先交换第
i 行和第
( i + 1 ) 行, 如此反复直至行的排列呈现
α 1 , … , α i − 1 , α i + 1 , … , α j , α i , α j + 1 , … , α n 的顺序. 这需要交换
k = j − i 次交换相邻的行. 现在我们用
( k − 1 ) 次交换相邻的行将
α j 移到第
i 行的位置. 因此, 我们通过
k + ( k − 1 ) = 2 ⁢ k − 1 次交换相邻行的操作由
A 获得了
B , 于是
D ⁡ ( B ) = ( − 1 ) 2 ⁢ k − 1 ⁢ D ⁡ ( A ) = − D ⁡ ( A ) 设
A 是任意拥有相等两行的
n × n 矩阵, 即有
α i = α j , 其中
i < j . 如果
j = i + 1 , 那么
A 有相等的邻行, 于是
D ⁡ ( A ) = 0 . 如果
j > i + 1 , 我们交换
α i + 1 和
α j , 其结果
B 拥有相等的邻行, 于是
D ⁡ ( B ) = 0 . 从另一方面说,
D ⁡ ( B ) = − D ⁡ ( A ) , 因此
D ⁡ ( A ) = 0 .
◻
定义. 如果n > 1 并且A 是一个K 上的n × n 矩阵, 我们令A ⁡ ( i | j ) 代表删去A 的第i 行和第j 列得到的( n − 1 ) × ( n − 1 ) 矩阵. 如果D 是一个( n − 1 ) 线性函数, 而A 是一个n × n 矩阵, 我们记D i , j ⁡ ( A ) = D ⁡ [ A ⁡ ( i | j ) ] .
定理1. 令n > 1 , 令D 是K 上的( n − 1 ) × ( n − 1 ) 矩阵上的一个交错的( n − 1 ) 线性函数. 对于每个j , 1 ≤ j ≤ n , 由E j ⁡ ( A ) = ∑ i = 1 n ( − 1 ) i + j ⁢ A i , j ⁢ D i , j ⁡ ( A ) 定义的函数E j 是n × n 矩阵A 上的一个交错的n 线性函数. 如果D 是一个行列式函数, 那么每个E j 也是行列式函数.
证明. 如果
A 是一个
n × n 矩阵, 那么
D i , j ⁡ ( A ) 独立于
A 的第
i 行. 既然
D 是
( n − 1 ) 线性的, 那么显然
D i , j 对于除了第
i 行之外的行都是线性的. 因此,
A i , j ⁢ D i , j ⁡ ( A ) 是
A 的一个
n 线性函数.
n 线性函数的线性组合仍是
n 线性的, 于是
E j 是
n 线性的. 为了证明
E j 是交错的, 只需证明凡
A 有相等的邻行则
E j ⁡ ( A ) = 0 就够了. 设
α k = α k + 1 , 如果
i ≠ k 且
i ≠ k + 1 , 那么矩阵
A ⁡ ( i | j ) 拥有相等的两行, 于是
D i , j ⁡ ( A ) = 0 , 因此
E j ⁡ ( A ) = ( − 1 ) k + j ⁢ A k , j ⁢ D k , j ⁡ ( A ) + ( − 1 ) k + 1 + j ⁢ A k + 1 , j ⁢ D k + 1 , j ⁡ ( A ) 既然
α k = α k + 1 , 那么
A k , j = A k + 1 , j 且 A ⁡ ( k | j ) = A ⁡ ( k + 1 | j ) 显然有
E j ⁡ ( A ) = 0 .
现在设
D 是一个行列式函数. 如果
I ( n ) 是
n × n 的恒等矩阵, 那么
I ( n ) ⁡ ( j | j ) 是
( n − 1 ) × ( n − 1 ) 的恒等矩阵
I ( n − 1 ) . 既然
I ( n ) i , j = δ i , j , 那么根据
E j 的定义有
E j ⁡ ( I ( n ) ) = D ⁡ ( I ( n − 1 ) ) 因为
D ⁡ ( I ( n − 1 ) ) = 1 , 所以
E j ⁡ ( I ( n ) ) = 1 , 即
E j 是一个行列式函数.
◻
推论. 令K 是一个含幺交换环而n 是一个正整数, 那么至少存在一个K n × n 上的行列式函数.
证明. 我们已经证明了
K 上的
1 × 1 矩阵上行列式函数的存在性, 甚至
2 × 2 的矩阵上也证明了. 定理1告诉我们如何从
( n − 1 ) × ( n − 1 ) 矩阵上的行列式函数构造出
n × n 矩阵上的行列式函数, 根据归纳可得推论.
◻
例子5. 如果
B 是
K 上的一个
2 × 2 矩阵, 我们令
| B | = B 1 , 1 ⁢ B 2 , 2 − B 1 , 2 ⁢ B 2 , 1 那么
| B | = D ⁡ ( B ) , 其中
D 是
2 × 2 矩阵上的行列式函数. 我们已经证明过
K 2 × 2 上这样的函数是唯一的了. 令
A = [ A 1 , 1 A 1 , 2 A 1 , 3 A 2 , 1 A 2 , 2 A 2 , 3 A 3 , 1 A 3 , 2 A 3 , 3 ] 是
K 上的一个
3 × 3 矩阵. 如果我们如定理1中对于
E j 的定义一样定义了
E 1 , E 2 , E 3 , 那么
E 1 ⁡ ( A ) = A 1 , 1 ⁢ | A 2 , 2 A 2 , 3 A 3 , 2 A 3 , 3 | − A 2 , 1 ⁢ | A 1 , 2 A 1 , 3 A 3 , 2 A 3 , 3 | + A 3 , 1 ⁢ | A 1 , 2 A 1 , 3 A 2 , 2 A 2 , 3 | E 2 ⁡ ( A ) = − A 1 , 2 ⁢ | A 2 , 1 A 2 , 3 A 3 , 1 A 3 , 3 | + A 2 , 2 ⁢ | A 1 , 1 A 1 , 3 A 3 , 1 A 3 , 3 | − A 3 , 2 ⁢ | A 1 , 1 A 1 , 3 A 2 , 1 A 2 , 3 | E 3 ⁡ ( A ) = A 1 , 3 ⁢ | A 2 , 1 A 2 , 2 A 3 , 1 A 3 , 2 | − A 2 , 3 ⁢ | A 1 , 1 A 1 , 2 A 3 , 1 A 3 , 2 | + A 3 , 3 ⁢ | A 1 , 1 A 1 , 2 A 2 , 1 A 2 , 2 | 从定理1可知
E 1 , E 2 , E 3 都是行列式函数. 实际上, 我们之后将证明
E 1 = E 2 = E 3 , 但即便在此简单情形之下这也并非显然. 然而, 这可以直接地通过展开以上每个表达式进行验证. 我们不做这种事情, 转而给出一些特定的例子.
令K = ℝ ⁡ [ x ] 并且A = [ x − 1 x 2 x 3 0 x − 2 1 0 0 x − 3 ] 那么E 1 ⁡ ( A ) = ( x − 1 ) ⁢ | x − 2 1 0 x − 3 | = ( x − 1 ) ⁢ ( x − 2 ) ⁢ ( x − 3 ) E 2 ⁡ ( A ) = − x 2 ⁢ | 0 1 0 x − 3 | + ( x − 2 ) ⁢ | x − 1 x 3 0 x − 3 | = ( x − 1 ) ⁢ ( x − 2 ) ⁢ ( x − 3 ) E 3 ⁡ ( A ) = x 3 ⁢ | 0 x − 2 0 0 | − | x − 1 x 2 0 0 | + ( x − 3 ) ⁢ | x − 1 x 2 0 x − 2 | = ( x − 1 ) ⁢ ( x − 2 ) ⁢ ( x − 3 ) 令K = ℝ 并且A = [ 0 1 0 0 0 1 1 0 0 ] 那么E 1 ⁡ ( A ) = | 1 0 0 1 | = 1 E 2 ⁡ ( A ) = − | 0 1 1 0 | = 1 E 3 ⁡ ( A ) = − | 0 1 1 0 | = 1 练习1. 下列每个表达式都定义了一个实数域上的
3 × 3 矩阵上的函数
D , 其中哪些
D 是
3 线性函数?
D ⁡ ( A ) = A 1 , 1 + A 2 , 2 + A 3 , 3 ;D ⁡ ( A ) = ( A 1 , 1 ) 2 + 3 ⁢ A 1 , 1 ⁢ A 2 , 2 ;D ⁡ ( A ) = A 1 , 1 ⁢ A 1 , 2 ⁢ A 3 , 3 ;D ⁡ ( A ) = A 1 , 3 ⁢ A 2 , 2 ⁢ A 3 , 2 + 5 ⁢ A 1 , 2 ⁢ A 2 , 2 ⁢ A 3 , 2 ;D ⁡ ( A ) = 0 ;D ⁡ ( A ) = 1 .练习2. 直接验证前文中的E 1 , E 2 , E 3 是等同的.
练习3. 令
K 是一个含幺交换环. 如果
A 是
K 上的一个
2 × 2 矩阵, 那么
A 的古典伴随
adj ⁡ A 由
adj ⁡ A = [ A 2 , 2 − A 1 , 2 − A 2 , 1 A 1 , 1 ] 定义. 如果
det 代表
K 上的
2 × 2 矩阵上唯一的行列式函数, 证明
( adj ⁡ A ) ⁢ A = A ⁢ ( adj ⁡ A ) = ( det ⁡ A ) ⁢ I ;det ⁡ ( adj ⁡ A ) = det ⁡ ( A ) ;adj ⁡ ( A t ) = ( adj ⁡ A ) t .(
A t 代表
A 的转置.)
练习4. 令A 是一个域F 上的2 × 2 矩阵. 证明A 可逆当且仅当det ⁡ ( A ) ≠ 0 . 当A 可逆时, 给出一个A − 1 的公式.
练习5. 令A 是一个域F 上的2 × 2 矩阵, 设A 2 = 0 . 证明对于每个标量c 有det ⁡ ( c ⁢ I − A ) = c 2 .
练习6. 令K 是一个复数域的子域, 并且n 是一个正整数. 令j 1 , … , j n 和k 1 , … , k n 是不超过n 的正整数. 对于一个K 上的n × n 的矩阵A 而言定义D ⁡ ( A ) = A ⁡ ( j 1 , k 1 ) ⁢ A ⁡ ( j 2 , k 2 ) ⁢ ⋯ ⁢ A ⁡ ( j n , k n ) 证明D 是n 线性的当且仅当整数j 1 , … , j n 是互异的.
练习7. 令K 是一个含幺交换环. 证明K 上的2 × 2 矩阵上的行列式函数对于列是2 线性的和交错的.
练习8. 令K 是一个含幺交换环. 通过规则D ⁡ ( A ) = A 1 , 1 ⁢ | A 2 , 2 A 2 , 3 A 3 , 2 A 3 , 3 | − A 1 , 2 ⁢ | A 2 , 1 A 2 , 3 A 3 , 1 A 3 , 3 | + A 1 , 3 ⁢ | A 2 , 1 A 2 , 2 A 3 , 1 A 3 , 2 | 定义了一个K 上的3 × 3 矩阵上的函数D . 证明D 对于列而言是交错的和3 线性的.
练习9. 令
K 是一个含幺交换环而
D 是
K 上的
n × n 矩阵上的交错的
n 线性函数, 证明
如果A 有一行为0 , 那么D ⁡ ( A ) = 0 ; 如果B 是由A 通过将一行的倍数加到另一行上去得到的, 那么D ⁡ ( B ) = D ⁡ ( A ) . 练习10. 令
F 是一个域,
A 是一个域
F 上的
2 × 3 矩阵.
( c 1 , c 2 , c 3 ) 是一个
F 3 中的向量, 由
c 1 = | A 1 , 2 A 1 , 3 A 2 , 2 A 2 , 3 | , c 2 = | A 1 , 3 A 1 , 1 A 2 , 3 A 2 , 1 | , c 3 = | A 1 , 1 A 1 , 2 A 2 , 1 A 2 , 2 | 定义. 证明
rank ⁡ ( A ) = 2 当且仅当( c 1 , c 2 , c 3 ) ≠ 0 ;如果A 的秩为2 , 那么( c 1 , c 2 , c 3 ) 是线性方程组A ⁢ X = 0 的解空间的一个基. 练习11. 令K 是一个含幺交换环而D 是K 上的2 × 2 矩阵上的一个交错的2 线性函数. 证明对于每个A 而言有D ⁡ ( A ) = ( det ⁡ A ) ⁢ D ⁡ ( I ) . 现在使用这个结果, 在不对于矩阵的元素进行计算的情况下, 证明det ⁡ ( A ⁢ B ) = ( det ⁡ A ) ⁢ ( det ⁡ B ) 对于K 上任意的2 × 2 矩阵A 和B 成立.
练习12. 令F 是一个域, D 是一个F 上的n × n 矩阵上的函数. 设D ⁡ ( A ⁢ B ) = D ⁡ ( A ) ⁢ D ⁡ ( B ) 对于所有A 和B 成立. 证明要么对于所有的A 有D ⁡ ( A ) = 0 , 要么D ⁡ ( I ) = 1 . 在后一种情况, 证明凡A 可逆即有D ⁡ ( A ) ≠ 0 .
练习13. 令
ℝ 是实数域, 令
D 是一个
ℝ 上的
2 × 2 矩阵上的函数, 满足
D ⁡ ( A ⁢ B ) = D ⁡ ( A ) ⁢ D ⁡ ( B ) 对于所有
A 和
B 成立, 并设
D ⁡ ( [ 0 1 1 0 ] ) ≠ D ⁡ ( [ 1 0 0 1 ] ) 证明以下命题.
D ⁡ ( 0 ) = 0 ;如果A 2 = 0 , 那么D ⁡ ( A ) = 0 ; 如果B 由A 交换两行 (或交换两列) 获得, 那么D ⁡ ( B ) = − D ⁡ ( A ) ; 如果A 有一行 (或一列) 为零, 那么D ⁡ ( A ) = 0 ; 若A 是奇异的, 那么D ⁡ ( A ) = 0 . 练习14. 令A 是域F 上的一个2 × 2 矩阵, 那么所有具有形式f ⁡ ( A ) 的矩阵, 其中f 是F 上的一个多项式, 构成了一个含幺交换环K . 如果B 是K 上的一个2 × 2 矩阵, 那么B 的行列式是F 上的一个2 × 2 矩阵. 设I 是F 上的2 × 2 的恒等矩阵, K 上的2 × 2 矩阵B 为B = [ A − A 1 , 1 ⁢ I − A 1 , 2 ⁢ I − A 2 , 1 ⁢ I A − A 2 , 2 ⁢ I ] 证明det ⁡ ( B ) = f ⁡ ( A ) , 其中f = x 2 − ( A 1 , 1 + A 2 , 2 ) ⁢ x + det ⁡ ( A ) , 并证明f ⁡ ( A ) = 0 .
第5.3节 置换和行列式的唯一性 本节我们将证明K 上的n × n 矩阵上的行列式函数的唯一性. 这个证明相当自然地将我们引向考虑置换及其一些基本性质.
设D 是K 上的n × n 矩阵上的一个交错的n 线性函数. 令A 是一个K 上的n × n 矩阵, 其行分别为α 1 , … , α n . 如果我们用ε 1 , ε 2 , … , ε n 表示K 上的n × n 恒等矩阵的行, 那么α i = ∑ j = 1 n A ⁡ ( i , j ) ⁢ ε j , 1 ≤ i ≤ n 因此D ⁡ ( A ) = D ⁡ ( ∑ j A ⁡ ( 1 , j ) ⁢ ε j , α 2 , … , α n ) = ∑ j A ⁡ ( 1 , j ) ⁢ D ⁡ ( ε j , α 2 , … , α n ) 如果我们现在替换α 2 以∑ k A ⁡ ( 2 , k ) ⁢ ε k , 那么我们看到D ⁡ ( ε j , α 2 , … , α n ) = ∑ k A ⁡ ( 2 , k ) ⁢ D ⁡ ( ε j , ε k , … , α n ) 因此D ⁡ ( A ) = ∑ j , k A ⁡ ( 1 , j ) ⁢ A ⁡ ( 2 , k ) ⁢ D ⁡ ( ε j , ε k , … , α n ) 对于D ⁡ ( ε j , ε k , … , α n ) 我们接着替换α 3 以∑ l A ⁡ ( 3 , l ) ⁢ ε l , 如此反复. 最终我们得到了一个D ⁡ ( A ) 的表达式, 其复杂但在理论上十分重要, 即D ⁡ ( A ) = ∑ k 1 , k 2 , … , k n A ⁡ ( 1 , k 1 ) ⁢ A ⁡ ( 2 , k 2 ) ⁢ ⋯ ⁢ A ⁡ ( n , k n ) ⁢ D ⁡ ( ε k 1 , ε k 2 , … , ε k n ) 此和布于所有不超过n 的正整数的有限序列( k 1 , k 2 , … , k n ) 之上. 这表明D 是一系列函数的有限之和, 它们具有例子1所刻画的类型. 应该注意到此式仅是D 为n 线性之推论, 而例子2是其一个特殊情形. 既然D 是交错的, 那么每当下标k i 之中有两个相等时, 有D ⁡ ( ε k 1 , ε k 2 , … , ε k n ) = 0 不超过n 的正整数的一个有限序列( k 1 , k 2 , … , k n ) , 若其没有两个相等的分量, 则被称为一个n 阶置换. 因此, 在这D 的复杂表达式之中, 我们只需要将( k 1 , k 2 , … , k n ) 算是n 阶置换的部分加起来即可.
既然一个有限的序列, 或者说n 元组, 是一个定义于前n 个正整数上的函数, 一个n 阶置换可以被定义为从集合{ 1 , 2 , … , n } 到自身的双射. 这样一个函数σ 对应于n 元组( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) , 因此实际上它不过就是一个以某种良定的方式排列1 , 2 , … , n 的规则.
如果D 是一个交错的n 线性函数, 而A 是K 上的一个n × n 矩阵, 那么D ⁡ ( A ) = ∑ σ A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) ⁢ D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) 此和布于所有n 阶置换σ 之上.
接着我们将证明D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = ± D ⁡ ( ε 1 , … , ε n ) 其中符号± 仅依赖于排列σ . 理由如下. 序列( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) 可由( 1 , 2 , … , n ) 通过有限次交换元素得到. 例如, 如果σ ⁡ 1 ≠ 1 , 那么我们可以交换1 和σ ⁡ 1 的位置, 获得( σ ⁡ 1 , … , 1 , … ) . 继行此法, 我们将在n 次或更少这样的交换之后抵达序列( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) . [译注: 实际上最多仅需( n − 1 ) 次这样的交换. 另外, 交换也可以被视为一种特殊的置换, 那么这是说任何置换都可以被表示为交换的复合.] 既然D 是交错的, 那么每当我们交换行ε i 和ε j 其值的符号就会改变. 因此, 如果我们通过m 次交换从( 1 , 2 , … , n ) 得到了( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) , 我们有D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = ( − 1 ) m ⁢ D ⁡ ( ε 1 , … , ε n ) 特别地, 如果D 是一个行列式函数,D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = ( − 1 ) m 其中m 仅依赖于σ 而不依赖于D . 因此, 所有的行列式函数为以ε σ ⁡ 1 , … , ε σ ⁡ n 为行的矩阵赋相同的值, 该值要么是1 要么是− 1 .
现在我们给出一个关于置换的基本事实. 如果σ 是一个n 阶置换, 读者可以通过一系列交换由( 1 , 2 , … , n ) 得到( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) , 而且这可以按照各种不同的方式进行. 尽管如此, 不论以何种方式进行, 交换的次数要么总是偶数, 要么总是奇数. 于是, 置换也就相应地被称为偶的或奇的. 我们以sgn ⁡ σ = { 1 , 如果 σ 是偶置换 − 1 , 如果 σ 是奇置换 定义置换的符号 (sign), 其中符号 (symbol) "1 "代表整数1 . [译注: 实际上, 我们需要定义整数和环/域的元素的乘法, 当然它只依赖于加法群的结构.]
我们将在之后表明置换的这个基本性质可从我们已经知道的关于行列式函数的东西推导出来. 让我们暂时假设这个性质成立, 那么整数m 在σ 是偶置换的情况下总是偶数, 在σ 是奇置换的情况下总是奇数. 那么, 对于任何一个交错的n 线性函数D 我们有D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = ( sgn ⁡ σ ) ⁢ D ⁡ ( ε 1 , … , ε n ) 那么根据我们已经得到的公式,D ⁡ ( A ) = [ ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) ] ⁢ D ⁡ ( I ) 当然I 代表n × n 的恒等矩阵.
从此结果之中我们可以看出来K 上的n × n 矩阵上恰存在唯一的行列式函数. 如果我们用det 代表这个函数, 那么它由det ⁡ ( A ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) 给出, 其中和布于所有n 阶置换之上. 我们可以将其形式化地总结如下.
定理2. 令K 是一个含幺交换环, 令n 是一个正整数. K 上的n × n 矩阵上恰存在唯一的行列式函数, 即由det ⁡ ( A ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) 给定的函数det . 如果D 是一个K n × n 上的交错的n 线性函数, 那么对于每个n × n 的矩阵A ,D ⁡ ( A ) = ( det ⁡ A ) ⁢ D ⁡ ( I )
这就是我们一直在寻求的定理, 不过证明中我们留下了一个gap. 这个gap就是证明对于一个给定的σ , 当我们从( 1 , 2 , … , n ) 经过交换得到( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) 时, 交换的次数要么总是偶数, 要么总是奇数. 这个基本的组合学事实当然可以不借助于行列式来证明. 然而, 我们乐意指出如何从n × n 矩阵上的行列式函数的存在性中得到这个事实.
令K 是整数环, 令D 是K 上的n × n 矩阵上的一个行列式函数. 令σ 是一个n 阶置换, 设我们通过m 次交换从( 1 , 2 , … , n ) 得到( σ ⁡ 1 , σ ⁡ 2 , … , σ ⁡ n ) . 之前我们已经知道的( − 1 ) m = D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) 也就是说, ( − 1 ) m 必须是D 在以ε σ ⁡ 1 , … , ε σ ⁡ n 为行的矩阵上的值. 如果D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = 1 那么m 必须是偶数. 如果D ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ n ) = − 1 那么m 必须是奇数. [译注: 若m 可能为奇可能为偶, 那么D 就不是良定的了.]
既然我们有了n × n 矩阵的行列式的显式公式, 并且这个公式牵扯到n 阶置换, 让我们对于置换的一些观察为本节作结. 首先, 我们注意到恰存在n ! = 1 ⋅ 2 ⋅ ⋯ ⋅ n 个n 阶置换. 这是因为, 如果σ 是一个置换, σ ⁡ 1 存在n 种可能的选择. 当作出这个选择之后, σ ⁡ 2 有( n − 1 ) 种选择, 然后σ ⁡ 3 有( n − 2 ) 种选择, 诸如此类. 因此, 存在n ⋅ ( n − 1 ) ⋅ ( n − 2 ) ⋅ ⋯ ⋅ 2 ⋅ 1 = n ! 种置换σ . 于是, det ⁡ ( A ) 的公式是n ! 个项的和, 每一项对应于一个n 阶置换. 每个项都是A 的n 个元素之积A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) 其中每个元素都来自于不同的每一行和不同的每一列, 并且根据σ 是偶置换还是奇置换, 前面带着符号"+ "或者"− ".
当置换被认为是从集合{ 1 , 2 , … , n } 到自身的双射时, 我们可以定义置换的积. σ 和τ 之积被简单地定义为复合函数σ ⁢ τ , 其由( σ ⁢ τ ) ⁡ ( i ) = σ ⁡ ( τ ⁡ ( i ) ) 定义. 如果ε 代表恒等置换, 即由ε ⁡ ( i ) = i 定义的置换, 那么对于每个置换σ 存在一个逆σ − 1 满足σ ⁢ σ − 1 = σ − 1 ⁢ σ = ε 我们可以这样总结我们的观察, 即是说所有n 阶置换构成的集合, 在函数复合之下, 是一个群. 这个群一般被称为n 阶对称群.
从置换的积的角度来看, 置换的符号的基本性质是sgn ⁡ ( σ ⁢ τ ) = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) 换句话说, σ ⁢ τ 是偶置换, 如果σ 和τ 都是偶置换或都是奇置换; σ ⁢ τ 是奇置换, 如果其中有一个是奇置换, 另一个是偶置换. 读者可以基于交换操作的相继从符号的定义中看出来这个结果. [译注: 如果σ 可以被表示为m 个交换的复合, 而τ 可以被表示为l 个交换的复合, 那么显然σ ⁢ τ 可以被表示为( m + l ) 个交换的复合, 由此看出这基本性质.] 如果我们指出如何从行列式的一个基本性质中得到sgn ⁡ ( σ ⁢ τ ) = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) , 那也是很有好处的.
令K 是整数环, 令σ 和τ 是n 阶置换. 令ε 1 , … , ε n 是K 上的n × n 恒等矩阵的行, 令A 是以ε τ ⁡ 1 , … , ε τ ⁡ n 为行的矩阵, 令B 是以ε σ ⁡ 1 , … , ε σ ⁡ n 为行的矩阵. A 的第i 行仅包含一个非零元素, 那就是在第τ ⁡ i 列的1 . 从这点很容易看出ε σ ⁢ τ ⁡ i 是积矩阵A ⁢ B 的第i 行, 那么现在有det ⁡ ( A ) = sgn ⁡ τ , det ⁡ ( B ) = sgn ⁡ σ , det ⁡ ( A ⁢ B ) = sgn ⁡ ( σ ⁢ τ ) 只要我们证明了以下定理, 就能立刻得出sgn ⁡ ( σ ⁢ τ ) = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) .
定理3. 令K 是一个含幺交换环, 令A 和B 是K 上的n × n 矩阵, 那么det ⁡ ( A ⁢ B ) = ( det ⁡ A ) ⁢ ( det ⁡ B )
证明. 令
B 是
K 上一个固定的
n × n 矩阵, 并且对于每个
n × n 矩阵
A , 定义
D ⁡ ( A ) = det ⁡ ( A ⁢ B ) . 如果我们用
α 1 , … , α n 代表矩阵
A 的行, 那么
D ⁡ ( α 1 , … , α n ) = det ⁡ ( α 1 ⁢ B , … , α n ⁢ B ) 这里
α j ⁢ B 代表一个
1 × n 矩阵, 其是
1 × n 矩阵
α j 和
n × n 矩阵
B 之积. 既然
( c ⁢ α i + α i ′ ) ⁢ B = c ⁢ α i ⁢ B + α i ′ ⁢ B 并且
det 是
n 线性的, 那么很容易看出
D 是
n 线性的. 如果
α i = α j , 那么
α i ⁢ B = α j ⁢ B , 鉴于
det 是交错的,
D ⁡ ( α 1 , … , α n ) = 0 因此,
D 是交错的, 现在
D 是一个交错的
n 线性函数. 根据定理2,
D ⁡ ( A ) = ( det ⁡ A ) ⁢ D ⁡ ( I ) 但是
D ⁡ ( I ) = det ⁡ ( I ⁢ B ) = det ⁡ ( B ) , 那么
det ⁡ ( A ⁢ B ) = D ⁡ ( A ) = ( det ⁡ A ) ⁢ ( det ⁡ B ) ◻
sgn ⁡ ( σ ⁢ τ ) = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) 仅是定理3的众多推论之一. 我们将在下一节考虑其中一些推论.
练习1. 如果K 是一个含幺交换环, 而K 上的矩阵A = [ 0 a b − a 0 c − b − c 0 ] 证明det ⁡ ( A ) = 0 .
练习2. 证明Vandermonde矩阵[ 1 a a 2 1 b b 2 1 c c 2 ] 的行列式为( b − a ) ⁢ ( c − a ) ⁢ ( c − b ) .
练习3. 显式列出所有的六个3 阶置换, 判断它们是奇是偶, 然后给出3 × 3 行列式的完整公式.
练习4. 令
σ 和
τ 是
4 阶置换, 其由
σ ⁡ 1 = 2 , σ ⁡ 2 = 3 , σ ⁡ 3 = 4 , σ ⁡ 4 = 1 和
τ ⁡ 1 = 3 , τ ⁡ 2 = 1 , τ ⁡ 3 = 2 , τ ⁡ 4 = 4 定义.
判断σ 和τ 奇偶性. 找出σ ⁢ τ 和τ ⁢ σ . 练习5. 如果A 是一个n × n 的可逆矩阵, 证明det ⁡ ( A ) ≠ 0 .
练习6. 如果A 是某个域上的2 × 2 矩阵, 证明det ⁡ ( I + A ) = 1 + det ⁡ ( A ) 当且仅当trace ⁡ ( A ) = 0 .
练习7. 一个n × n 的矩阵A 被称为三角的, 若每当i > j 即有A i , j = 0 , 或是每当i < j 即有A i , j = 0 . 证明三角矩阵的行列式是其对角线元素之积A 1 , 1 ⁢ A 2 , 2 ⁢ ⋯ ⁢ A n , n .
练习8. 令A 是复数域上的一个3 × 3 矩阵. 我们构造一个矩阵x ⁢ I − A , 其元素是多项式, 该矩阵第i 行j 列的元素是δ i , j ⁢ x − A i , j . 如果f = det ⁡ ( x ⁢ I − A ) , 证明f 是一个次数为3 的首项次数为一的多项式. 如果我们将多项式写成f = ( x − c 1 ) ⁢ ( x − c 2 ) ⁢ ( x − c 3 ) 其中c 1 , c 2 , c 3 是复数, 证明c 1 + c 2 + c 3 = trace ⁡ ( A ) 和 c 1 ⁢ c 2 ⁢ c 3 = det ⁡ ( A )
练习9. 令n 是一个正整数而F 是一个域, 如果σ 是一个n 阶置换, 证明函数T ⁡ ( x 1 , … , x n ) = ( x σ ⁡ 1 , … , x σ ⁡ n ) 是一个F n 上的可逆线性算子.
练习10. 令F 是一个域, n 是一个正整数, S 是域F 上的n × n 所有矩阵的集合. 令V 是一个从S 到F 的所有函数构成的向量空间, 令W 是S 上交错n 线性形式的集合. 证明W 是V 的一个子空间. W 的维数又是多少?
练习11. 令
T 是
F n 上的一个线性算子. 定义
D T ⁡ ( α 1 , … , α n ) = det ⁡ ( T ⁡ α 1 , … , T ⁡ α n ) 证明D T 是一个交错的n 线性函数. 如果c = det ⁡ ( T ⁡ ε 1 , … , T ⁡ ε n ) 证明对于任意的n 个向量α 1 , … , α n 我们有det ⁡ ( T ⁡ α 1 , … , T ⁡ α n ) = c ⁢ det ⁡ ( α 1 , … , α n ) 如果𝔅 是F n 任意的有序基, A 是T 在有序基𝔅 下的矩阵, 证明det ⁡ ( A ) = c . 你觉得标量c 的合理名字是什么? 练习12. 如果
σ 是一个
n 阶置换,
A 是一个以
α 1 , … , α n 为行向量的域
F 上的
n × n 矩阵, 令
σ ⁡ ( A ) 代表以
α σ ⁡ 1 , … , α σ ⁡ n 为行向量的
n × n 矩阵.
证明σ ⁡ ( A ⁢ B ) = σ ⁡ ( A ) ⁢ B 并且特别地, σ ⁡ ( A ) = σ ⁡ ( I ) ⁢ A . 如果T 是练习9中的线性算子, 证明T 在标准有序基下的矩阵是σ ⁡ ( I ) . σ − 1 ⁡ ( I ) 是σ ⁡ ( I ) 的逆矩阵吗?σ ⁡ ( A ) 相似于A 吗?练习13. 证明置换的符号函数在以下意义上是唯一的. 如果f 是一个函数, 其赋每个n 阶置换以一个整数, 并且f ⁡ ( σ ⁢ τ ) = f ⁡ ( σ ) ⁢ f ⁡ ( τ ) , 那么要么f 恒为0 , 要么f 是符号函数.
第5.4节 行列式的额外性质 本节我们将讲述n × n 矩阵上的行列式函数的一些有用性质. 或许首先应该注意到以下事实. 在我们对于det ⁡ ( A ) 的讨论中, A 的行扮演着具有特权的角色. 既然行和列本质上没有区别, 那么读者也会期望det ⁡ ( A ) 是A 的列的交错的n 线性函数. 诚然如此, 而为了证明它, 仅需要证明det ⁡ ( A t ) = det ⁡ ( A ) 就够了, 其中A t 代表A 的转置.
如果σ 是一个n 阶置换,A t ⁡ ( i , σ ⁡ i ) = A ⁡ ( σ ⁡ i , i ) 根据行列式的公式, 我们可以得到det ⁡ ( A t ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( σ ⁡ 1 , 1 ) ⁢ ⋯ ⁢ A ⁡ ( σ ⁡ n , n ) 当i = σ − 1 ⁡ j 时, A ⁡ ( σ ⁡ i , i ) = A ⁡ ( j , σ − 1 ⁡ j ) , 因此A ⁡ ( σ ⁡ 1 , 1 ) ⁢ ⋯ ⁢ A ⁡ ( σ ⁡ n , n ) = A ⁡ ( 1 , σ − 1 ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ − 1 ⁡ n ) 既然σ ⁢ σ − 1 是恒等置换, 那么( sgn ⁡ σ ) ⁢ ( sgn ⁡ σ − 1 ) = 1 或 sgn ⁡ ( σ − 1 ) = sgn ⁡ ( σ ) 而且, 当σ 遍历所有n 阶置换时, σ − 1 也遍历了所有的n 阶置换. 因此,det ⁡ ( A t ) = ∑ σ ( sgn ⁡ σ − 1 ) ⁢ A ⁡ ( 1 , σ − 1 ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ − 1 ⁡ n ) = det ⁡ ( A ) 证明完毕.
在特定场合, 读者需要计算特定的行列式. 当不得不进行计算时, 以下事实往往是很有用的. 如果B 是由A 通过将某一行的倍数加到另一行上去 (或者将某一列的倍数加到另一列上去) 得到的, 那么det ⁡ ( B ) = det ⁡ ( A ) 我们将证明关于行的陈述. 令B 是A 由加c ⁢ α j 到α i 上得到的, 其中i ≠ j . [译注: 原文是i < j , 疑有误.] 既然det 对于第i 行是线性的, 那么det ⁡ ( B ) = det ⁡ ( A ) + c ⁢ det ⁡ ( α 1 , … , α j , … , α j , … , α n ) = det ⁡ ( A ) [译注: 当然这也用到交错性.]
另一个有用的事实如下. 设我们拥有一个分块形式的n × n 矩阵[ A B 0 C ] 其中A 是一个r × r 的矩阵, 而C 是一个s × s 的矩阵, B 是一个r × s 矩阵, 0 是一个s × r 的零矩阵, 那么det ⁡ [ A B 0 C ] = ( det ⁡ A ) ⁢ ( det ⁡ C ) 为了证明这个, 我们定义D ⁡ ( A , B , C ) = det ⁡ [ A B 0 C ] 如果我们固定A 和B , 那么D 对于C 的行而言是一个交错的s 线性函数. 因此, 根据定理2,D ⁡ ( A , B , C ) = ( det ⁡ C ) ⁢ D ⁡ ( A , B , I ) 其中I 是s × s 的恒等矩阵. 通过给B 的行减去I 的行的倍数, 我们得到了D ⁡ ( A , B , I ) = D ⁡ ( A , 0 , I ) 现在D ⁡ ( A , 0 , I ) 显然对于A 的行是一个交错的r 线性函数, 因此D ⁡ ( A , 0 , I ) = ( det ⁡ A ) ⁢ D ⁡ ( I , 0 , I ) 但是D ⁡ ( I , 0 , I ) = 1 , 于是D ⁡ ( A , B , C ) = ( det ⁡ C ) ⁢ D ⁡ ( A , B , I ) = ( det ⁡ C ) ⁢ D ⁡ ( A , 0 , I ) = ( det ⁡ C ) ⁢ ( det ⁡ A ) 通过类似的论证, 或者通过转置, 可以得到det ⁡ [ A 0 B C ] = ( det ⁡ A ) ⁢ ( det ⁡ C )
例子6. 设K 是有理数域, 我们希望计算4 × 4 矩阵A = [ 1 − 1 2 3 2 2 0 2 4 1 − 1 − 1 1 2 3 0 ] 的行列式. 通过给第2 , 3 , 4 行减去第1 行的适当倍数, 我们就得到了[ 1 − 1 2 3 0 4 − 4 − 4 0 5 − 9 − 13 0 3 1 − 3 ] 我们知道其与A 有着相同的行列式. 如果我们给第3 行减去5 4 倍的第2 行, 给第4 行减去3 4 倍的第2 行, 就得到了B = [ 1 − 1 2 3 0 4 − 4 − 4 0 0 − 4 − 8 0 0 4 0 ] 又一次, 我们知道det ⁡ ( B ) = det ⁡ ( A ) . B 的分块形式告诉我们det ⁡ ( A ) = det ⁡ ( B ) = | 1 − 1 0 4 | ⁢ | − 4 − 8 4 0 | = 4 × 32 = 128
现在我们令n > 1 , 令A 是K 上的n × n 矩阵. 在定理1中, 我们呈现了如何从( n − 1 ) × ( n − 1 ) 矩阵上的行列式函数构造n × n 矩阵上的行列式函数. 既然现在我们已经证明了行列式的唯一性, 这告诉我们, 如果固定列数j , 那么det ⁡ ( A ) = ∑ i = 1 n ( − 1 ) i + j ⁢ A i , j ⁢ det ⁡ [ A ⁡ ( i | j ) ] 标量( − 1 ) i + j ⁢ det ⁡ [ A ⁡ ( i | j ) ] 通常被称为A 的i , j 代数余子式, 或者A 的第i 行j 列的代数余子式. [译注: "代数余子式"的英文是"cofactor".] 那么, 以上关于det ⁡ ( A ) 的公式被称为det ⁡ ( A ) 按第j 列的代数余子式展开 (有的时候也被称为按第j 列的余子式 (minor) 展开). 如果我们令C i , j = ( − 1 ) i + j ⁢ det ⁡ [ A ⁡ ( i | j ) ] 那么以上公式即对于每个j ,det ⁡ ( A ) = ∑ i = 1 n A i , j ⁢ C i , j 其中代数余子式C i , j 为( − 1 ) i + j 乘上一个( n − 1 ) × ( n − 1 ) 矩阵的行列式, 这个矩阵是由A 删去第i 行和第j 列得到的.
如果j ≠ k , 那么∑ i = 1 n A i , k ⁢ C i , j = 0 这是因为, 如果将A 的第j 列替换以第k 列, 并称结果为B , 那么B 有相等的两列, 于是det ⁡ ( B ) = 0 . 既然B ⁡ ( i | j ) = A ⁡ ( i | j ) , 我们有0 = det ⁡ ( B ) = ∑ i = 1 n ( − 1 ) i + j ⁢ B i , j ⁢ det ⁡ [ B ⁡ ( i | j ) ] = ∑ i = 1 n ( − 1 ) i + j ⁢ A i , k ⁢ det ⁡ [ A ⁡ ( i | j ) ] = ∑ i = 1 n A i , k ⁢ C i , j 代数余子式的这些性质可以被总结为∑ i = 1 n A i , k ⁢ C i , j = δ j , k ⁢ det ⁡ ( A )
n × n 矩阵adj ⁡ A , 其是A 的代数余子式的矩阵的转置, 被称为A 的古典伴随, 因此( adj ⁡ A ) i , j = C j , i = ( − 1 ) i + j ⁢ det ⁡ [ A ⁡ ( j | i ) ] 那么以上关于代数余子式的性质, 可以被转写成以下形式.( adj ⁡ A ) ⁢ A = ( det ⁡ A ) ⁢ I 我们也希望看到A ⁢ ( adj ⁡ A ) = ( det ⁡ A ) ⁢ I . 既然A t ⁡ ( i | j ) = [ A ⁡ ( j | i ) ] t , 我们有( − 1 ) i + j ⁢ det ⁡ [ A t ⁡ ( i | j ) ] = ( − 1 ) j + i ⁢ det ⁡ [ A ⁡ ( j | i ) ] 这简单说来就是A t 的i , j 代数余子式等于A 的j , i 代数余子式. 因此,adj ⁡ ( A t ) = ( adj ⁡ A ) t 应用( adj ⁡ A ) ⁢ A = ( det ⁡ A ) ⁢ I 于A t , 我们就得到( adj ⁡ A t ) ⁢ A t = ( det ⁡ A t ) ⁢ I = ( det ⁡ A ) ⁢ I 再进行转置A ⁢ [ adj ⁡ ( A t ) ] t = ( det ⁡ A ) ⁢ I 使用adj ⁡ ( A t ) = ( adj ⁡ A ) t , 我们得到了我们想要的A ⁢ ( adj ⁡ A ) = ( det ⁡ A ) ⁢ I
就像域上的矩阵, 一个K 上的n × n 矩阵被称为在K 上可逆, 如果存在K 上的n × n 矩阵A − 1 满足A ⁢ A − 1 = A − 1 ⁢ A = I . 若逆矩阵存在, 则它是唯一的, 因为第1章使用的相同论证表明当B ⁢ A = A ⁢ C = I 时我们有B = C . 上面关于古典伴随的公式告诉我们以下关于K 上矩阵的可逆性的事实. 如果det ⁡ ( A ) 在K 中具有乘法逆元, 那么A 是可逆的, 并且A − 1 = ( det ⁡ A ) − 1 ⁢ ( adj ⁡ A ) 是A 唯一的逆元. 反过来说, 很容易看出来如果A 在K 上可逆, 那么det ⁡ ( A ) 在K 中可逆, 因为如果A ⁢ B = I , 那么1 = det ⁡ ( I ) = det ⁡ ( A ⁢ B ) = ( det ⁡ A ) ⁢ ( det ⁡ B ) 我们已经证明的是以下定理.
定理4. 令A 是K 上的一个n × n 矩阵, 那么A 是K 上的可逆矩阵当且仅当det ⁡ ( A ) 在K 中可逆. 当A 可逆的时候, A 唯一的逆元是A − 1 = ( det ⁡ A ) − 1 ⁢ ( adj ⁡ A ) 特别地, 域上的n × n 矩阵可逆当且仅当其行列式异于零.
我们应该指出这个可逆性的行列式判则也证明了有左逆或右逆的n × n 矩阵可逆. 这个证明独立于我们在第1章中为域上的矩阵给出的. 我们还应该指出可逆性对于多项式环上的矩阵意味着什么. 如果K 是多项式环F ⁡ [ x ] , 那么K 中仅有的可逆元素是非零的标量多项式, 因为若f 和g 是多项式且有f ⁢ g = 1 , 那么deg ⁡ f + deg ⁡ g = 0 , 于是deg ⁡ f = deg ⁡ g = 0 , 即f 和g 都是非零的标量多项式. 因此, 一个多项式环F ⁡ [ x ] 上的n × n 矩阵在F ⁡ [ x ] 上可逆当且仅当其行列式是一个非零的标量多项式.
例子7. 令K = ℝ ⁡ [ x ] , 即实数域上的多项式环, 令A = [ x 2 + x x + 1 x − 1 1 ] , B = [ x 2 − 1 x + 2 x 2 − 2 ⁢ x + 3 x ] 接着, 根据简单的计算, det ⁡ ( A ) = x + 1 , det ⁡ ( B ) = − 6 . 因此, A 在K 上不可逆, 而B 在K 上可逆. 注意到adj ⁡ ( A ) = [ 1 − x − 1 − x + 1 x 2 + x ] , adj ⁡ ( B ) = [ x − x − 2 − x 2 + 2 ⁢ x − 3 x 2 − 1 ] 并且( adj ⁡ A ) ⁢ A = ( x + 1 ) ⁢ I , ( adj ⁡ B ) ⁢ B = − 6 ⁢ I . 当然,B − 1 = − 1 6 ⁢ [ x − x − 2 − x 2 + 2 ⁢ x − 3 x 2 − 1 ] [译注: 原文将x 2 − 1 写成了1 − x 2 , 应该是笔误.]
例子8. 令K 是整数环, 并且A = [ 1 2 3 4 ] 那么det ⁡ ( A ) = − 2 ,adj ⁡ ( A ) = [ 4 − 2 − 3 1 ] 因此, A 作为一个整数环上的矩阵是不可逆的. 然而, 我们也可以将A 当成有理数域上的矩阵, 那么A 就可逆了, 并且A = − 1 2 ⁢ [ 4 − 2 − 3 1 ] = [ − 2 1 3 2 − 1 2 ] [译注: 原文将− 1 2 写成了1 2 , 应该是笔误.]
与可逆矩阵有关, 我们想要提及一个更加初等的事实. 相似矩阵具有相同的行列式, 即若P 在K 上可逆, 并有B = P − 1 ⁢ A ⁢ P , 那么det ⁡ ( B ) = det ⁡ ( A ) . 这很显然, 因为det ⁡ ( P − 1 ⁢ A ⁢ P ) = ( det ⁡ P − 1 ) ⁢ ( det ⁡ A ) ⁢ ( det ⁡ P ) = det ⁡ ( A ) 这个简单的观察使得定义有限维向量空间上的线性算子的行列式是可能的. 如果T 是V 上的一个线性算子, 那么我们定义T 的行列式为任何在V 的某个有序基下表示T 的n × n 矩阵的行列式. 因为这样的矩阵都是相似的, 所以我们的定义是有意义的. 在此联系之下, 看看第5.3节的练习11.
现在我们想要讨论以下求解线性方程组的Cramer法则. 设A 是一个域F 上的n × n 矩阵, 我们想要求解线性方程组A ⁢ X = Y , 对于某个给定的n 元组( y 1 , … , y n ) . 若A ⁢ X = Y , 那么( adj ⁡ A ) ⁢ A ⁢ X = ( adj ⁡ A ) ⁢ Y 于是( det ⁡ A ) ⁢ X = ( adj ⁡ A ) ⁢ Y 因此( det ⁡ A ) ⁢ x j = ∑ i = 1 n ( adj ⁡ A ) j , i ⁢ y i = ∑ i = 1 n ( − 1 ) i + j ⁢ y i ⁢ det ⁡ [ A ⁡ ( i | j ) ] 最后一个表达式的值是由将A 的第j 列替换为Y 得到的n × n 矩阵的行列式. 如果det ⁡ ( A ) = 0 , 那么它什么也没有告诉我们. 然而, 若det ⁡ ( A ) ≠ 0 , 那么我们就得到了所谓的Cramer法则. 令A 是一个域F 上的n × n 矩阵满足det ⁡ ( A ) ≠ 0 , 如果y 1 , … , y n 是F 中任意的标量, 那么线性方程组A ⁢ X = Y 的唯一解X = A − 1 ⁢ Y 由x j = det ⁡ ( B j ) det ⁡ ( A ) , j = 1 , … , n 给出, 其中B j 是由将A 的第j 列替换为Y 得到的n × n 矩阵.
在本章的末尾, 我们想要作出一些评注, 以将行列式置于我们所认为的适当位置. 我们时常不得不计算一些特定的行列式, 而本节的很大一部分是在处理相关的技巧. 然而, 在本书之中, 行列式的主要地位是理论性的. 这不是要否认某些结果的漂亮, 例如Cramer法则. 但是对于求解线性方程组而言Cramer法则是一个并不有效的工具, 主要是因为它牵扯太多的计算. 因此, 读者应该关注Cramer法则说了什么, 而不是如何利用它进行计算. 的确, 在回顾整个章节的时候, 我们希望读者将更多的精力放在理解行列式函数是什么以及它具有怎样的行为上, 而不是计算特定矩阵的行列式. [译注: 的确这不是本章的末尾, 但是原文的确使用的是"chapter", 这大概是因为后文是之后补充的高级部分.]
练习1. 使用古典伴随公式计算下列3 × 3 实矩阵的逆.[ − 2 3 2 6 0 3 4 1 − 1 ] , [ cos ⁡ θ 0 − sin ⁡ θ 0 1 0 sin ⁡ θ 0 cos ⁡ θ ]
练习2. 使用Cramer法则计算下列每个有理数域上的线性方程组的解.
{ x + y + z = 11 2 ⁢ x − 6 ⁢ y − z = 0 3 ⁢ x + 4 ⁢ y + 2 ⁢ z = 0 { 3 ⁢ x − 2 ⁢ y = 7 3 ⁢ y − 2 ⁢ z = 6 3 ⁢ z − 2 ⁢ x = − 1 练习3. 一个域F 上的n × n 矩阵A 被称为斜对称的, 如果A t = − A . 如果A 是一个复数域上的n × n 的斜对称矩阵, 并且n 是奇数, 证明det ⁡ ( A ) = 0 .
练习4. 一个域F 上的n × n 矩阵A 被称为正交的, 如果A ⁢ A t = I . 如果A 是正交的, 证明det ⁡ ( A ) = ± 1 . 给出一个正交矩阵A 的例子, 其行列式det ⁡ ( A ) = − 1 .
练习5. 一个复数域上的n × n 矩阵被称为是酉的 (unitary), 如果A ⁢ A * = I (A * 代表A 的共轭转置). 如果A 是酉矩阵, 证明| det ⁡ ( A ) | = 1 .
练习6. 令
T 和
U 是有限维向量空间
V 上的线性算子, 证明
det ⁡ ( T ⁢ U ) = ( det ⁡ T ) ⁢ ( det ⁡ U ) ;T 可逆当且仅当det ⁡ ( T ) ≠ 0 .练习7. 令A 是一个含幺交换环K 上的n × n 矩阵, 设A 具有分块形式A = [ A 1 0 ⋯ 0 0 A 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ A k ] 其中A j 是一个r j × r j 矩阵. 证明det ⁡ ( A ) = ( det ⁡ A 1 ) ⁢ ( det ⁡ A 2 ) ⁢ ⋯ ⁢ ( det ⁡ A k )
练习8. 令V 是域F 上的n × n 矩阵构成的向量空间, 令B 是V 的一个固定元素. 令T B 是一个V 上的线性算子, 由T B ⁡ ( A ) = A ⁢ B − B ⁢ A 定义. 证明det ⁡ ( T B ) = 0 .
练习9. 令A 是域F 上的一个n × n 矩阵, 并且A ≠ 0 . 如果r 是一个1 和n 之间的正整数, 那么A 的r × r 子矩阵是由A 删去( n − r ) 行和( n − r ) 列得到的. A 的行列式秩是最大的正整数r , 满足存在A 的某个r × r 子矩阵其行列式不为零. 证明A 的行列式秩等于A 的行秩, 当然也等于A 的列秩.
练习10. 令A 是一个域F 上的n × n 矩阵. 证明至多存在n 个不同的标量c 满足det ⁡ ( c ⁢ I − A ) = 0 .
练习11. 令A 和B 是域F 上的n × n 矩阵. 证明如果A 可逆, 那么至多存在n 个不同的标量c 使得矩阵c ⁢ A + B 不可逆.
练习12. 如果
V 是域
F 上的
n × n 矩阵的向量空间,
B 是
F 上一个固定的
n × n 矩阵, 令
L B 和
R B 是
V 上的线性算子, 由
L B ⁡ ( A ) = B ⁢ A 和
R B ⁡ ( A ) = A ⁢ B 定义. 证明
det ⁡ ( L B ) = ( det ⁡ B ) n ;det ⁡ ( R B ) = ( det ⁡ B ) n .练习13. 令V 是复数域上所有的n × n 矩阵构成的向量空间, 令B 是ℂ 上一个固定的n × n 矩阵. 由M B ⁡ ( A ) = B ⁢ A ⁢ B * 定义一个V 上的线性算子M B , 其中B * = B t ‾ . 证明det ⁡ ( M B ) = | det ⁡ ( B ) | 2 ⁢ n 现在令H 是V 中所有的Hermite矩阵构成的集合, 称A 是Hermite的, 如果A = A * , 那么H 是实数域上的一个向量空间. 证明由T B ⁡ ( A ) = B ⁢ A ⁢ B * 定义的函数T B 实向量空间H 上的一个线性算子, 并证明det ⁡ ( T B ) = | det ⁡ ( B ) | 2 ⁢ n . (提示: 计算T B 的时候表明V 具有一个由Hermite矩阵构成的基, 然后证明det ⁡ ( T B ) = det ⁡ ( M B ) .)
练习14. 令A , B , C , D 是域F 上n × n 的可交换矩阵, 证明2 ⁢ n × 2 ⁢ n 矩阵[ A B C D ] 的行列式为det ⁡ ( A ⁢ D − B ⁢ C ) .
第5.5节 模 如果K 是一个含幺交换环 [译注: 本章的剩余部分, 凡提到含幺交换环, 均默认是非平凡的], 一个K 上的模是一种表现得类似于向量空间的代数系统, 其中K 扮演着类似于标量域的角色. 为了精确起见, 我们称V 是一个K 上的模 (或者一个K 模) 如果
V 上存在一个加法( α , β ) ↦ α + β , V 在其下是一个交换群;存在一个乘法( c , α ) ↦ c ⁢ α , 其中α 在V 之中, c 在K 之中, 满足( c 1 + c 2 ) ⁢ α = c 1 ⁢ α + c 2 ⁢ α c ⁢ ( α 1 + α 2 ) = c ⁢ α 1 + c ⁢ α 2 ( c 1 ⁢ c 2 ) ⁢ α = c 1 ⁢ ( c 2 ⁢ α ) 1 ⁢ α = α 对于我们而言, 最重要的K 模是n 元组的模K n . 矩阵模K m × n 也很重要. 如果V 是一个模, 我们可以讨论线性组合, 线性相关和线性无关, 就像在向量空间里一样. 我们必须小心不将依赖于非零标量的可逆性的向量空间的结果应用于V , 因为在域中可以施行的除法不一定在环K 中可以进行. 例如, 如果α 1 , … , α k 是线性相关的, 我们不能断言某个α i 可以被表示为其他元素的线性组合. 这使得在模中寻找基变得更加困难.
模V 的一个基是一个线性无关的子集, 其可以张成 (或者说生成) 这个模. 这与我们对于向量空间给出的定义是一样的. 一个基𝔅 的重要性质在于每个V 的元素都可以被唯一地表示为𝔅 的 (有限数目的) 元素的线性组合. 如果承认选择公理 (见附录) 的话, 那么可以证明每个向量空间都拥有一个基. 读者已经很清楚若是一个向量空间可由有限数目的向量张成, 那么它肯定拥有一个基, 但是对于模来说这并非如此. 因此, 对于拥有基的模和可由有限数目的元素张成的模, 我们需要特别的不同名字.
定义. K 模V 被称为一个自由模, 如果它拥有一个基. 如果V 拥有一个有限的基, 其包含n 个元素, 那么V 被称为具有n 个生成元的自由K 模.
定义. 模V 是有限生成的, 如果它包含一个能够张成V 的有限子集. 一个有限生成模的秩是使得某k 个元素能够张成V 的最小整数k .
我们需要强调一个模在没有有限的基的情况下仍然可能是有限生成的. 如果V 是一个具有n 个生成元的自由K 模, 那么V 同构于模K n . 如果{ β 1 , … , β n } 是V 的一个基, 那么存在一个同构, 将向量c 1 ⁢ β 1 + ⋯ + c n ⁢ β n 送至K n 中的n 元组( c 1 , … , c n ) . 我们并不能立即看出来这相同的模V 不能也是一个具有k 个生成元的自由模, 其中k ≠ n . 换句话说, V 的任意两个基都必然包含相同数目的元素并非显然的事实, 而其证明是行列式的一个有趣应用.
定理5. 令K 是一个含幺交换环, 如果V 是一个具有n 个生成元的自由K 模, 那么V 的秩是n .
证明. 我们要证明的是
V 不能由少于
n 个它的元素张成. 既然
V 同构于
K n , 我们必须证明, 如果
m < n , 那么模
K n 不能由
n 元组
α 1 , … , α m 张成. 令
A 是以
α 1 , … , α m 为行的矩阵. 假设标准基向量
ε 1 , … , ε n 都是
α 1 , … , α m 的线性组合, 那么存在矩阵
P ∈ K n × m 使得
P ⁢ A = I 其中
I 是
n × n 的恒等矩阵. 令
A ~ 是一个
n × n 的矩阵, 其由
A 往底部再填充
n − m 个零行得到. 令
P ~ 是任意的以
P 的列为前
m 列的
n × n 矩阵. 那么,
P ~ ⁢ A ~ = I . 因此,
det ⁡ ( A ~ ) ≠ 0 . 但是, 既然
m < n ,
A ~ 至少有一行全为零. 这个矛盾表明
α 1 , … , α m 不能张成
K n . [译注: 这里的证明用到了
0 ≠ 1 , 也就是说, 排除了平凡环的情况. 另请读者参考维基百科条目
invariant basis number .]
◻
有趣的是, 读者应该注意到定理5建立了(有限维)向量空间的维数的唯一性. 而且, 这个基于行列式函数的存在性的证明, 与我们第2章所给出的证明截然不同. 从定理5我们知道"秩为n 的自由模"和"具有n 个生成元的自由模"是一样的.
如果V 是K 上的一个模, 那么对偶模V ⁎ 由所有从V 到K 的线性函数f 构成. 如果V 是秩为n 的自由模, 那么V ⁎ 也是秩为n 的自由模. 这个事实的证明就和向量空间一样. 如果{ β 1 , … , β n } 是V 的一个有序基, 那么存在与之对应的V ⁎ 的对偶基{ f 1 , … , f n } . 函数f i 赋予每个α ∈ V 以其相对于{ β 1 , … , β n } 的第i 个坐标分量:α = f 1 ⁡ ( α ) ⁢ β 1 + ⋯ + f n ⁡ ( α ) ⁢ β n . 如果f 是V 上的一个线性函数, 那么f = f ⁡ ( β 1 ) ⁢ f 1 + ⋯ + f ⁡ ( β n ) ⁢ f n .
第5.6节 多线性函数 本节的目的在于将关于行列式的讨论置于我们所相信的正确视角之下. 我们将处理模上的交错多线性形式. 这些形式是我们之前呈现的行列式的自然泛化. 还没有阅读 (或者不希望阅读) 第5.5节对于模的简要总结的读者仍可从学习本节中获益良多, 只要一致地将"K 上秩为n 的自由模"读作"F 上维数为n 的向量空间"即可.
令K 是一个含幺交换环, V 是K 上的一个模. 如果r 是一个正整数, 那么从V r = V × V × ⋯ × V 到K 的函数L 被称为多线性的, 如果L ⁡ ( α 1 , … , α r ) 对于每个α i 在其他α j 的值固定的情况下是线性的函数. 也就是说, 对于每个i 有L ⁡ ( α 1 , … , c ⁢ α i + β i , … , α r ) = c ⁢ L ⁡ ( α 1 , … , α i , … , α r ) + L ⁡ ( α 1 , … , β i , … , α r ) . V r 上的多线性函数也被称为V 上的r 线性形式或者V 上的阶数为r 的多线性形式. 这样的函数有时也被称为V 上的r 张量. V r 上所有多线性形式的集合将被记成M r ⁡ ( V ) . 如果L , M ∈ M r ⁡ ( V ) , 那么其和L + M :( L + M ) ⁡ ( α 1 , … , α r ) = L ⁡ ( α 1 , … , α r ) + M ⁡ ( α 1 , … , α r ) 也是多线性的; 并且, 如果c ∈ K , 那么积c ⁢ L :( c ⁢ L ) ⁡ ( α 1 , … , α r ) = c ⁢ L ⁡ ( α 1 , … , α r ) 是多线性的. 因此, M r ⁡ ( V ) 是一个K 模——所有从V r 到K 的函数构成的模的一个子模.
如果r = 1 , 那么我们有M 1 ⁡ ( V ) = V ⁎ , 即由线性函数构成的V 的对偶模. 线性函数也可被用来构造更高阶的多线性形式. 如果f 1 , … , f r 是V 上的线性函数, 那么L ⁡ ( α 1 , … , α r ) = f 1 ⁡ ( α 1 ) ⁢ f 2 ⁡ ( α 2 ) ⁢ ⋯ ⁢ f r ⁡ ( α r ) 显然是V 上的一个r 线性形式.
例子9. 如果V 是一个模, 那么V 上的2 线性形式也常被称为V 上的双线性形式 (bilinear form). 令A 是一个元素来源于K 的n × n 矩阵, 那么L ⁡ ( X , Y ) = Y t ⁢ A ⁢ X 定义了模K n × 1 上的一个双线性形式L . 类似地,M ⁡ ( α , β ) = α ⁢ A ⁢ β t 定义了一个K n 上的双线性形式M . [译注: 你需要将K 1 × 1 和K 通过自然的同构视为等同的.]
例子10. 行列式函数将K 上的每个n × n 矩阵与元素det ⁡ ( A ) ∈ K 联系起来. 若det ⁡ ( A ) 被视为A 的行的函数:det ⁡ ( A ) = D ⁡ ( α 1 , … , α n ) 那么D 是K n 上的一个n 线性形式.
例子11. 很容易得到模K n 上的一般的r 线性形式的代数表达式. 如果向量α 1 , … , α r ∈ V 而A 是以α 1 , … , α r 为行的r × n 矩阵, 那么对于任意的函数L ∈ M r ⁡ ( K n ) 有L ⁡ ( α 1 , … , α r ) = L ⁡ ( ∑ j = 1 n A 1 , j ⁢ ε j , α 2 , … , α r ) = ∑ j = 1 n A 1 , j ⁢ L ⁡ ( ε j , α 2 , … , α r ) = ∑ j = 1 n A 1 , j ⁢ L ⁡ ( ε j , ∑ k = 1 n A 2 , k ⁢ ε k , α 3 , … , α r ) = ∑ j = 1 n ∑ k = 1 n A 1 , j ⁢ A 2 , k ⁢ L ⁡ ( ε j , ε k , α 3 , … , α r ) = ∑ j , k = 1 n A 1 , j ⁢ A 2 , k ⁢ L ⁡ ( ε j , ε k , α 3 , … , α r ) 如果我们将α 3 , … , α r 依次替换以其标准基向量下的线性组合, 并且记A i , j 为A ⁡ ( i , j ) , 那么我们得到了以下表达式:L ⁡ ( α 1 , … , α r ) = ∑ j 1 , … , j r = 1 n A ⁡ ( 1 , j 1 ) ⁢ ⋯ ⁢ A ⁡ ( r , j r ) ⁢ L ⁡ ( ε j 1 , … , ε j r ) . 此表达式中, 每个分量为从1 至n 的正整数的r 元组J = ( j 1 , … , j r ) 与一个项相对应. 这样的r 元组有n r 个. 因此, L 完全由该表达式以及赋给n r 个元素( ε j 1 , … , ε j r ) 的特定值:c J = L ⁡ ( ε j 1 , … , ε j r ) 决定. 也很容易看出以下事实, 如果我们为每个r 元组J 挑选一个元素c J ∈ K , 那么L ⁡ ( α 1 , … , α r ) = ∑ J A ⁡ ( 1 , j 1 ) ⁢ ⋯ ⁢ A ⁡ ( r , j r ) ⁢ c J 定义了一个K n 上的r 线性形式.
设L 是V r 上的一个多线性形式而M 是V s 上的一个多线性形式. 我们定义V r + s 上的函数L ⊗ M 为( L ⊗ M ) ⁡ ( α 1 , … , α r + s ) = L ⁡ ( α 1 , … , α r ) ⁢ M ⁡ ( α r + 1 , … , α r + s ) . 如果我们将V r + s 想成是V r × V s , 那么对于α ∈ V r 和β ∈ V s 有( L ⊗ M ) ⁡ ( α , β ) = L ⁡ ( α ) ⁢ M ⁡ ( β ) . 显然L ⊗ M 在V r + s 是多线性的, 其被称为L 和M 的张量积 (tensor product). 张量积不是可交换的. 实际上, 除非L = 0 或M = 0 , M ⊗ L ≠ L ⊗ M . 然而, 张量积的确与M r 和M s 中的模运算漂亮地联系在一起.
引理. 令
L , L 1 是
V 上的
r 线性形式,
M , M 1 是
V 上的
s 线性形式,
c 是
K 的一个元素.
( c ⁢ L + L 1 ) ⊗ M = c ⁢ ( L ⊗ M ) + L 1 ⊗ M ;L ⊗ ( c ⁢ M + M 1 ) = c ⁢ ( L ⊗ M ) + L ⊗ M 1 .证明. 留作练习.
◻
张量积的确是可结合的, 例如, 令L , M , N 分别是V 上的r , s , t 线性形式, 那么( L ⊗ M ) ⊗ N = L ⊗ ( M ⊗ N ) . 这从K 的乘法的结合律中可立即推出. 因此, 如果L 1 , … , L k 是V r 1 , … , V r k 上的多线性函数, 那么张量积L = L 1 ⊗ ⋯ ⊗ L k 无歧义地被定义为V r 上的一个多线性函数, 其中r = r 1 + ⋯ + r k . 之前我们已经提及了它的一种特殊情形, 即如果f 1 , … , f r 是V 上的线性函数, 那么张量积L = f 1 ⊗ ⋯ ⊗ f r 由L ⁡ ( α 1 , … , α r ) = f 1 ⁡ ( α 1 ) ⁢ ⋯ ⁢ f r ⁡ ( α r ) 给出.
定理6. 令K 是一个含幺交换环. 如果V 是一个秩为n 的自由K 模, 那么M r ⁡ ( V ) 是一个秩为n r 的自由K 模. 实际上, 如果{ f 1 , … , f n } 是对偶模V ⁎ 的一个基, 那么n r 个张量积f j 1 ⊗ ⋯ ⊗ f j r , 1 ≤ j 1 ≤ n , … , 1 ≤ j r ≤ n 构成了M r ⁡ ( V ) 的一个基.
证明. 令
{ f 1 , … , f n } 是
V ⁎ 的一个有序基, 其对偶于
V 的基
{ β 1 , … , β n } . 对于每个向量
α ∈ V , 我们有
α = f 1 ⁡ ( α ) ⁢ β 1 + ⋯ + f n ⁡ ( α ) ⁢ β n . 现在我们进行例子11所施行的计算. 如果
L 是
V 上的一个
r 线性形式而
α 1 , … , α r 是
V 的元素, 那么
L ⁡ ( α 1 , … , α r ) = ∑ j 1 , … , j r f j 1 ⁡ ( α 1 ) ⁢ ⋯ ⁢ f j r ⁡ ( α r ) ⁢ L ⁡ ( β j 1 , … , β j r ) . 换言之, 即
L = ∑ j 1 , … , j r L ⁡ ( β j 1 , … , β j r ) ⁢ f j 1 ⊗ ⋯ ⊗ f j r . 这表明由
r 元组
J = ( j 1 , … , j r ) 给出的
n r 个张量积
E J = f j 1 ⊗ ⋯ ⊗ f j r 可以张成模
M r ⁡ ( V ) . 我们也可看出这些
r 形式
E J 是线性无关的. 设对于每个
J 我们有一个元素
c J ∈ K , 然后我们构造多线性函数
L = ∑ J c J ⁢ E J . 注意到如果
I = ( i 1 , … , i r ) , 那么
E J ⁡ ( β i 1 , … , β i r ) = { 0 , I ≠ J 1 , I = J 因而我们看到
c I = L ⁡ ( β i 1 , … , β i r ) . 特别地, 如果
L = 0 , 那么对于每个
r 元组
I 都有
c I = 0 .
◻
定义. 令L 是K 模V 上的一个r 线性形式. 我们称L 是交错的, 如果每当α i = α j , i ≠ j 时有L ⁡ ( α 1 , … , α r ) = 0 .
如果L 是V r 上的一个交错多线性函数, 那么L ⁡ ( α 1 , … , α i , … , α j , … , α r ) = − L ⁡ ( α 1 , … , α j , … , α i , … , α r ) . 换言之, 交换r 元组( α 1 , … , α r ) 中两个(不同下标的)向量, 那么与之关联的L 的值会改变符号 (sign). 既然每个置换σ 都是交换之积, 我们看出L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ L ⁡ ( α 1 , … , α r ) .
我们用Λ r ⁡ ( V ) 表示V 上所有交错r 线性形式构成的集合. 显然Λ r ⁡ ( V ) 是M r ⁡ ( V ) 的一个子模.
例子12. 本章的早些时候, 我们证明了模K n 上恰存在一个交错n 线性形式D 满足性质D ⁡ ( ε 1 , … , ε n ) = 1 . 我们也在定理2中证明了如果形式L ∈ Λ n ⁡ ( K n ) , 那么L = L ⁡ ( ε 1 , … , ε n ) ⁢ D . 换言之, Λ n ⁡ ( K n ) 是一个秩为1 的自由K 模. 我们也建立了D 的显式公式. 基于我们现在所使用的记号, 其可以记成D = ∑ σ ( sgn ⁡ σ ) ⁢ f σ ⁡ 1 ⊗ ⋯ ⊗ f σ ⁡ n 其中f 1 , … , f n 是K n 上的标准坐标函数而其和布于集合{ 1 , … , n } 的所有n ! 个不同置换σ 之上. 如果我们将一个矩阵A 的行列式写成det ⁡ ( A ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( σ ⁡ 1 , 1 ) ⁢ ⋯ ⁢ A ⁡ ( σ ⁡ n , n ) 那么我们就得到了D 的一个不同的表达式:D ⁡ ( α 1 , … , α n ) = ∑ σ ( sgn ⁡ σ ) ⁢ f 1 ⁡ ( α σ ⁡ 1 ) ⁢ ⋯ ⁢ f n ⁡ ( α σ ⁡ n ) = ∑ σ ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ n ) 其中L = f 1 ⊗ ⋯ ⊗ f n .
存在一种一般性的方法将一个交错形式与一个多线性形式联系起来. 如果L 是模V 上的一个r 线性形式, σ 是{ 1 , … , r } 的一个置换, 那么通过定义L σ ⁡ ( α 1 , … , α r ) = L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) 我们就得到了另一个r 线性函数L σ . 若L 碰巧是交错的, 那么L σ = ( sgn ⁡ σ ) ⁢ L . 现在, 对于每个L ∈ M r ⁡ ( V ) , 我们通过π r ⁡ L = ∑ σ ( sgn ⁡ σ ) ⁢ L σ 定义一个函数π r ⁡ L ∈ M r ⁡ ( V ) , 即( π r ⁡ L ) ⁡ ( α 1 , … , α r ) = ∑ σ ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) .
引理. π r 是一个从M r ⁡ ( V ) 到Λ r ⁡ ( V ) 的线性变换. 如果L ∈ Λ r ⁡ ( V ) , 那么π r ⁡ L = r ! ⁢ L .
证明. 令
τ 是
{ 1 , … , r } 任意的置换, 那么
( π r ⁡ L ) ⁡ ( α τ ⁡ 1 , … , α τ ⁡ r ) = ∑ σ ( sgn ⁡ σ ) ⁢ L ⁡ ( α τ ⁡ σ ⁡ 1 , … , α τ ⁡ σ ⁡ r ) = ( sgn ⁡ τ ) ⁢ ∑ σ ( sgn ⁡ τ ⁢ σ ) ⁢ L ⁡ ( α τ ⁡ σ ⁡ 1 , … , α τ ⁡ σ ⁡ r ) 当
σ 遍历所有
{ 1 , … , r } 的置换时,
τ ⁢ σ 也是如此. 因此, 我们有
( π r ⁡ L ) ⁡ ( α τ ⁡ 1 , … , α τ ⁡ r ) = ( sgn ⁡ τ ) ⁢ ( π r ⁡ L ) ⁡ ( α 1 , … , α r ) . 于是,
π r ⁡ L 是一个交错形式. [译注: 这个论证是有问题的, 因为对于任意的
x ∈ K , 我们并不总是能够保证
2 ⁢ x = 0 可以推出
x = 0 , 这点本书之前也有提及.]
如果
L ∈ Λ r ⁡ ( V ) , 那么对于每个
σ 有
L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ L ⁡ ( α 1 , … , α r ) , 因而
π r ⁡ L = r ! ⁢ L .
◻
证明. 既然以上的论证存在问题, 我们补充一个没有问题的证明. 设对于某
i 和
j 满足
i ≠ j , 我们有
α i = α j . 考虑
{ 1 , … , r } 的所有置换构成的集合的一个子集
A = { σ | σ ⁡ i < σ ⁡ j } . 根据简单的组合推理, 我们知道
A 的元素个数为
n ! / 2 . 再考虑子集
B = { τ | τ ⁡ i > τ ⁡ j } , 我们知道
B 的元素个数也是
n ! / 2 , 并且
A 和
B 构成了一个划分. 现在我们给出一个对换
υ , 其由
υ ⁡ i = j , υ ⁡ j = i 定义, 那么函数
f ⁡ ( σ ) = σ ∘ υ 是一个从
A 到
B 的映射. 并且, 实际上它也可以被视为从
B 到
A 的一个映射, 而
f ∘ f = id . 那么, 我们知道
f : A → B 是一个双射, 以及
( π r ⁡ L ) ⁡ ( α 1 , … , α r ) = ∑ σ ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) = ∑ σ ∈ A ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) + ∑ τ ∈ B ( sgn ⁡ τ ) ⁢ L ⁡ ( α τ ⁡ 1 , … , α τ ⁡ r ) = ∑ σ ∈ A ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) + ∑ σ ∈ A [ sgn ⁡ f ⁡ ( σ ) ] ⁢ L ⁡ ( α f ⁡ ( σ ) ⁡ ( 1 ) , … , α f ⁡ ( σ ) ⁡ ( r ) ) = ∑ σ ∈ A ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) + ∑ σ ∈ A − ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) = 0 换句话说, 也就是
π r ⁡ L 是一个交错形式. 剩下的命题论证和原文一致.
◻
根据(按列的)公式, 我们知道行列式函数D ∈ Λ n ⁡ ( K n ) 是D = π n ⁡ ( f 1 ⊗ ⋯ ⊗ f n ) 其中f 1 , … , f n 是K n 上的标准坐标函数. 我们还有一个与上面的引理有关的重要评注要说. 如果K 是一个特征为零的域, 以至于r ! 在K 中是可逆的, 那么π 是一个从M r ⁡ ( V ) 到Λ r ⁡ ( V ) 的满射. 实际上, 在这种情况下从某种角度来说使用映射π 1 = ( 1 / r ! ) ⁢ π 而不是π 是更自然的, 因为π 1 是一个从M r ⁡ ( V ) 到Λ r ⁡ ( V ) 的投影, 即一个从M r ⁡ ( V ) 到Λ r ⁡ ( V ) 的线性映射满足π 1 ⁡ ( L ) = L 当且仅当L ∈ Λ r ⁡ ( V ) .
定理7. 令K 是一个含幺交换环, V 是一个秩为n 的自由K 模. 如果r > n , 那么Λ r ⁡ ( V ) = { 0 } . 如果1 ≤ r ≤ n , 那么Λ r ⁡ ( V ) 是一个秩为( n r ) 的自由K 模.
证明. 令
{ β 1 , … , β n } 是
V 的一个有序基, 其以
{ f 1 , … , f n } 为对偶基. 如果
L ∈ M r ⁡ ( V ) , 我们有
L = ∑ J L ⁡ ( β j 1 , … , β j r ) ⁢ f j 1 ⊗ ⋯ ⊗ f j r 其中和布于
1 到
n 之间的整数 [译注: 当然包括
1 和
n ] 的所有
r 元组
J = ( j 1 , … , j r ) 之上. 如果
L 是交错的, 那么每当下标
j i 中存在两个数字相同时, 就有
L ⁡ ( β j 1 , … , β j r ) = 0 . 如果
r > n , 那么每个
r 元组
J 中必有整数重复出现, 因此
r > n 时有
Λ r ⁡ ( V ) = { 0 } .
现在设
1 ≤ r ≤ n . 如果
L ∈ Λ r ⁡ ( V ) , 那么上面的和只需要布于满足
j 1 , … , j r 两两不同的
r 元组
J 之上, 因为其余的项均为
0 . 每个这样的
r 元组都是某个满足
j 1 < ⋯ < j r 的
r 元组
J = ( j 1 , … , j r ) 的置换, 后者这种特别类型的
r 元组被称为
{ 1 , … , n } 的一个
r -shuffle. 这样的shuffle的数目为
( n r ) = n ! r ! ⁢ ( n − r ) ! . 设我们固定一个
r -shuffle
J . 令
L J 是与shuffle
J 的所有置换相对应的项之和. 如果
σ 是
{ 1 , … , r } 的一个置换, 那么
L ⁡ ( β j σ ⁡ 1 , … , β j σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ L ⁡ ( β j 1 , … , β j r ) 因此
L J = ∑ σ L ⁡ ( β j σ ⁡ 1 , … , β j σ ⁡ r ) ⁢ f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r = L ⁡ ( β j 1 , … , β j r ) ⁢ D J 其中
D J = ∑ σ ( sgn ⁡ σ ) ⁢ f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r = π r ⁡ ( f j 1 ⊗ ⋯ ⊗ f j r ) 我们从中看出每个
D J 都是交错的, 而对于每个
L ∈ Λ r ⁡ ( V ) 有
L = ∑ shuffles J L ⁡ ( β j 1 , … , β j r ) ⁢ D J . 我们断言
( n r ) 个形式
D J 构成了
Λ r ⁡ ( V ) 的一个基, 而我们已经看到它们能够张成
Λ r ⁡ ( V ) . 很容易看出来它们也是线性无关的. 如果
I = ( i 1 , … , i r ) 和
J = ( j 1 , … , j r ) 是shuffle, 那么
D J ⁡ ( β i 1 , … , β i r ) = { 1 , I = J 0 , I ≠ J . 设对于每个shuffle
J 我们有一个标量
c J 与之对应, 并且定义
L = ∑ J c J ⁢ D J . 根据之前的式子, 我们得到
c I = L ⁡ ( β i 1 , … , β i r ) . 特别地, 如果
L = 0 , 那么对于每个shuffle
I , 我们有
c I = 0 .
◻
译者注记. 以上的证明中有一个不大不小的gap, 但至少不算平凡, 即D J = ∑ σ ( sgn ⁡ σ ) ⁢ f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r = π r ⁡ ( f j 1 ⊗ ⋯ ⊗ f j r ) 从第一行到第二行并不是直接的, 因为∑ σ ( sgn ⁡ σ ) ⁢ ( f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r ) ⁡ ( α 1 , … , α r ) = ∑ σ ( sgn ⁡ σ ) ⁢ f j σ ⁡ 1 ⁡ ( α 1 ) ⁢ ⋯ ⁢ f j σ ⁡ r ⁡ ( α r ) 而π r ⁡ ( f j 1 ⊗ ⋯ ⊗ f j r ) ⁡ ( α 1 , … , α r ) = ∑ σ ( sgn ⁡ σ ) ⁢ f j 1 ⁡ ( α σ ⁡ 1 ) ⁢ ⋯ ⁢ f j r ⁡ ( α σ ⁡ r ) 不过, 如何证明这右边两个式子相等的思路, 其实在第5.4节的开头就有, 那里证明了行列式不论按行展开还是按列展开都是一样的.
推论. 如果V 是一个秩为n 的自由K 模, 那么Λ n ⁡ ( V ) 是一个秩为1 的自由K 模. 如果T 是V 上的一个线性算子, 那么存在唯一的元素c ∈ K 使得L ⁡ ( T ⁡ α 1 , … , T ⁡ α n ) = c ⁢ L ⁡ ( α 1 , … , α n ) 对于每个V 上的交错n 线性形式L 成立.
证明. 如果
L ∈ Λ n ⁡ ( V ) , 那么显然
L T ⁡ ( α 1 , … , α n ) = L ⁡ ( T ⁡ α 1 , … , T ⁡ α n ) 定义了一个交错
n 线性形式
L T . 令
M 是秩
1 模
Λ n ⁡ ( V ) 的一个生成元. 每个
L ∈ Λ n ⁡ ( V ) 都可以被唯一的表达为
L = a ⁢ M , 其中
a ∈ K . 特别地, 对于某个特定的
c 有
M T = c ⁢ M . 对于
L = a ⁢ M , 我们有
L T = ( a ⁢ M ) T = a ⁢ M T = a ⁢ ( c ⁢ M ) = c ⁢ ( a ⁢ M ) = c ⁢ L ◻
当然, 这个推论中的元素c 被称为T 的行列式. 从式子D J = ∑ σ ( sgn ⁡ σ ) ⁢ f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r = π r ⁡ ( f j 1 ⊗ ⋯ ⊗ f j r ) 我们可以看出在r = n 的情形下 (此时仅存在一种shuffle J = ( 1 , … , n ) ) T 的行列式就是在有序基{ β 1 , … , β n } 下表示T 的矩阵的行列式. 让我们现在弄明白为什么. 这个表示矩阵的第i 行j 列的元素是 [译注: 原文下面这个式子恰好把i 和j 搞反了]A i , j = f i ⁡ ( T ⁡ β j ) 于是D J ⁡ ( T ⁡ β 1 , … , T ⁡ β n ) = ∑ σ ( sgn ⁡ σ ) ⁢ f 1 ⁡ ( T ⁡ β σ ⁡ 1 ) ⁢ ⋯ ⁢ f n ⁡ ( T ⁡ β σ ⁡ n ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( 1 , σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , σ ⁡ n ) = det ⁡ ( A ) 另一方面,D J ⁡ ( T ⁡ β 1 , … , T ⁡ β n ) = ( det ⁡ T ) ⁢ D J ⁡ ( β 1 , … , β n ) = det ⁡ ( T ) 这些评注的要义在于通过定理7及其推论, 我们获得了一个线性算子的行列式的定义而不需要预先的关于矩阵的行列式的知识. 矩阵的行列式可以基于算子的行列式定义而不是反过来.
关于这特别的交错r 线性形式D J , 其与V ⁎ 的一个基{ f 1 , … , f n } 相关, 我们还有一点想说的东西. 理解D J ⁡ ( α 1 , … , α r ) 是一个特定的r × r 矩阵的行列式是很重要的. 如果A i , j = f j ⁡ ( α i ) , 1 ≤ i ≤ r , 1 ≤ j ≤ n 即如果α i = A i , 1 ⁢ β 1 + ⋯ + A i , n ⁢ β n , 1 ≤ i ≤ r 而J 是r -shuffle ( j 1 , … , j r ) , 那么D J ⁡ ( α 1 , … , α r ) = ∑ σ ( sgn ⁡ σ ) ⁢ A ⁡ ( 1 , j σ ⁡ 1 ) ⁢ ⋯ ⁢ A ⁡ ( n , j σ ⁡ r ) = det ⁡ [ A ⁡ ( 1 , j 1 ) ⋯ A ⁡ ( 1 , j r ) ⋮ ⋮ A ⁡ ( r , j 1 ) ⋯ A ⁡ ( r , j r ) ] [译注: 这里第一行的D J 是按照∑ σ ( sgn ⁡ σ ) ⁢ f j σ ⁡ 1 ⊗ ⋯ ⊗ f j σ ⁡ r 展开的.] 因此, D J ⁡ ( α 1 , … , α r ) 是以α 1 , … , α r 的坐标n 元组为行的r × n 矩阵取第j 1 , … , j r 列得到的r × r 矩阵的行列式. 有时我们也用另一个记号D J ⁡ ( α 1 , … , α r ) = ∂ ⁡ ( α 1 , … , α r ) ∂ ⁡ ( β j 1 , … , β j r ) 来表示这个行列式. 在这个记号下, 定理7的证明表明每个交错的r 线性形式L 都可以相对于某个基{ β 1 , … , β n } 由式子L ⁡ ( α 1 , … , α r ) = ∑ j 1 < ⋯ < j r ∂ ⁡ ( α 1 , … , α r ) ∂ ⁡ ( β j 1 , … , β j r ) ⁢ L ⁡ ( β j 1 , … , β j r ) 表达.
第5.7节 Grassman环 许多行列式和交错多线性形式的性质最好基于一种形式 (form) 上的乘法运算进行描述, 这种乘法被称为外积 (exterior product). 如果L 和M 分别是模V 上的交错r 和s 线性形式, 我们有一个L 和M 的满足结合律的积, 即张量积L ⊗ M . 除非L = 0 或者M = 0 , 这不是一个交错形式. 然而, 我们有一种自然的方式将其投影于Λ r + s ⁡ ( V ) . 似乎L ⋅ M = π r + s ⁡ ( L ⊗ M ) 应该是交错形式的"自然"乘法, 但果真如此吗?
让我们举一个特定的例子. 设V 是模K n 而f 1 , … , f n 是K n 上的标准坐标函数. 如果i ≠ j , 那么f i ⋅ f j = π 2 ⁡ ( f i ⊗ f j ) 是之前给出的(行列式)函数 [译注: 注意一下那里要求J 是一个shuffle, 也就是i < j , 但是这里并不需要]D i , j = f i ⊗ f j − f j ⊗ f i . 现在设k 是一个不同于i 和j 的下标, 那么D i , j ⋅ f k = π 3 ⁡ [ ( f i ⊗ f j − f j ⊗ f i ) ⊗ f k ] = π 3 ⁡ ( f i ⊗ f j ⊗ f k ) − π 3 ⁡ ( f j ⊗ f i ⊗ f k ) 前一章的引理的证明表明对于任意的r 线性形式L 和{ 1 , … , r } 任意的置换σ , 我们有π r ⁡ ( L σ ) = ( sgn ⁡ σ ) ⁢ π r ⁡ ( L ) 因此, D i , j ⋅ f k = 2 ⁢ π 3 ⁡ ( f i ⊗ f j ⊗ f k ) . 根据类似的计算, f i ⋅ D j , k = 2 ⁢ π 3 ⁡ ( f i ⊗ f j ⊗ f k ) . 因此, 我们有( f i ⋅ f j ) ⋅ f k = f i ⋅ ( f j ⋅ f k ) 而所有这一切看起来前途都那么光明. 但是, 这里存在隐藏的陷阱. 尽管刚才我们所完成的计算看起来像是那么回事, 之前提出的这个乘法并不满足结合律. 实际上, 如果l 是一个不同于i , j , k 的下标, 那么我们可以算出D i , j ⋅ D k , l = 4 ⁢ π 4 ⁡ ( f i ⊗ f j ⊗ f k ⊗ f l ) 以及 [译注: 原文为6 , 应作12 ]( D i , j ⋅ f k ) ⋅ f l = 12 ⁢ π 4 ⁡ ( f i ⊗ f j ⊗ f k ⊗ f l ) 因此, 在一般情况下( f i ⋅ f j ) ⋅ ( f k ⋅ f l ) ≠ [ ( f i ⋅ f j ) ⋅ f k ] ⋅ f l 我们看到我们的第一次寻找乘法运算的尝试产生了一个非结合运算.
译者注记. 以上的论证里有一些gap. 首先, 前一章的引理证明的是( π r ⁡ L ) σ = ( sgn ⁡ σ ) ⁢ π r ⁡ ( L ) 而不是π r ⁡ ( L σ ) = ( sgn ⁡ σ ) ⁢ π r ⁡ ( L ) 不过这也是正确的, 而且论证方式也和前一章的引理类似, 只是的确需要证明一下:π r ⁡ ( L σ ) ⁡ ( α 1 , … , α r ) = ∑ τ ( sgn ⁡ τ ) ⁢ L σ ⁡ ( α τ ⁡ 1 , … , α τ ⁡ r ) = ∑ τ ( sgn ⁡ τ ) ⁢ L ⁡ ( α τ ⁡ σ ⁡ 1 , … , α τ ⁡ σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ ∑ τ ( sgn ⁡ τ ⁢ σ ) ⁢ L ⁡ ( α τ ⁡ σ ⁡ 1 , … , α τ ⁡ σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ π r ⁡ ( L ) ⁡ ( α 1 , … , α r ) 其实( π r ⁡ L ) σ ⁡ ( α 1 , … , α r ) 展开之后和π r ⁡ ( L σ ) ⁡ ( α 1 , … , α r ) 是类似的, 即( π r ⁡ L ) σ ⁡ ( α 1 , … , α r ) = ∑ τ ( sgn ⁡ τ ) ⁢ L ⁡ ( α σ ⁡ τ ⁡ 1 , … , α σ ⁡ τ ⁡ r ) 其次, 作者由此结果直接得出D i , j ⋅ f k = 2 ⁢ π 3 ⁡ ( f i ⊗ f j ⊗ f k ) 的过程并不是那么显然. 实际上, 我们想要证明一下以下结果:( sgn ⁡ σ ) ⁢ π r ⁡ ( f σ ⁡ 1 ⊗ ⋯ ⊗ f σ ⁡ r ) = π r ⁡ ( f 1 ⊗ ⋯ ⊗ f r ) 为了证明它, 我们先证明一个引理:f σ ⁡ 1 ⊗ ⋯ ⊗ f σ ⁡ r = ( f 1 ⊗ ⋯ ⊗ f r ) σ − 1 计算一下( f σ ⁡ 1 ⊗ ⋯ ⊗ f σ ⁡ r ) ⁡ ( α 1 , … , α r ) = f σ ⁡ 1 ⁡ ( α 1 ) ⁢ ⋯ ⁢ f σ ⁡ r ⁡ ( α r ) 然后我们发现f i 就应用于α σ − 1 ⁡ i , 鉴于f 1 , … , f r 在这个积中恰好都出现一次, 经过重新排序我们就得到了引理. 现在我们证明刚才陈述的结果:( sgn ⁡ σ ) ⁢ π r ⁡ ( f σ ⁡ 1 ⊗ ⋯ ⊗ f σ ⁡ r ) = ( sgn ⁡ σ ) ⁢ π r ⁡ [ ( f 1 ⊗ ⋯ ⊗ f r ) σ − 1 ] = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ σ − 1 ) ⁢ π r ⁡ ( f 1 ⊗ ⋯ ⊗ f r ) = π r ⁡ ( f 1 ⊗ ⋯ ⊗ f r )
如果读者发现直接验证表明非结合性的两个式子相当乏味, 那也不必感到惊讶. 这是该主题的典型特征, 并且同样典型的是, 存在一个一般性的事实可以极大地简化工作.
设L 是模V 上的一个r 线性形式而M 是模V 上的一个s 线性形式, 那么π r + s ⁡ ( ( π r ⁡ L ) ⊗ ( π s ⁡ M ) ) = π r + s ⁡ ( ∑ σ , τ ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) ⁢ ( L σ ⊗ M τ ) ) = ∑ σ , τ ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) ⁢ π r + s ⁡ ( L σ ⊗ M τ ) 其中σ 布于{ 1 , … , r } 的所有置换构成的对称群S r 之上而τ 布于S s 之上. 每对σ , τ 都定义了S r + s 的一个元素( σ , τ ) , 其中{ 1 , … , r + s } 的前r 个元素根据σ 进行置换, 而后s 个元素根据τ 进行置换. 显然我们有sgn ⁡ ( σ , τ ) = ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) 以及( L ⊗ M ) ( σ , τ ) = L σ ⊗ M τ 因此π r + s ⁡ ( ( π r ⁡ L ) ⊗ ( π s ⁡ M ) ) = ∑ σ , τ sgn ⁡ ( σ , τ ) ⁢ π r + s ⁡ [ ( L ⊗ M ) ( σ , τ ) ] . 既然我们已经观察到sgn ⁡ ( σ , τ ) ⁢ π r + s ⁡ [ ( L ⊗ M ) ( σ , τ ) ] = π r + s ⁡ ( L ⊗ M ) 于是, 我们就有π r + s ⁡ [ ( π r ⁡ L ) ⊗ ( π s ⁡ M ) ] = r ! ⁢ s ! ⁢ π r + s ⁡ ( L ⊗ M ) . 这个公式简化了大量的计算. 例如, 设我们有一个r -shuffle I = ( i 1 , … , i r ) 和一个s -shuffle J = ( j 1 , … , j s ) . 为了使事情比较简单, 我们额外假设i 1 < ⋯ < i r < j 1 < ⋯ < j s . 那么, 我们有与之关联的行列式函数D I = π r ⁡ ( E I ) , D J = π s ⁡ ( E J ) 其中E I = f i 1 ⊗ ⋯ ⊗ f i r 而E J = f j 1 ⊗ ⋯ ⊗ f j s . 使用我们已经得到的结果, 我们立即可以看出D I ⋅ D J = π r + s ⁡ [ π r ⁡ ( E I ) ⊗ π s ⁡ ( E J ) ] = r ! ⁢ s ! ⁢ π r + s ⁡ ( E I ⊗ E J ) 既然E I ⊗ E J = E I ∪ J [译注: 鉴于I 和J 是元素不重复的递增序列, 所以可以用集合来表示它们, 于是这个记号有其合理性], 我们得到D I ⋅ D J = r ! ⁢ s ! ⁢ D I ∪ J . 这暗示了乘法的结合性的缺失是由 [译注: 在一般情况下]D I ⋅ D J ≠ D I ∪ J 导致的. 毕竟, D I 和D J 的积应该是D I ∪ J . 为了修复这种情况, 我们应该定义一个新的积. 一个交错r 线性形式L 和一个交错s 线性形式M 的外积 (或者楔积) 是L ∧ M = 1 r ! ⁢ s ! ⁢ π r + s ⁡ ( L ⊗ M ) 那么, 对于K n 上的行列式函数, 我们有D I ∧ D J = D I ∪ J 或许若有公平可言, 那么我们必然已经找到了正确的交错多线性形式的乘法. 不幸的是, 这个定义在我们所考虑的最一般情况下是没有意义的, 因为在环K 中我们不一定能够除以r ! ⁢ s ! . 不过, 如果K 是一个特征为零的域, 那么就没有问题了, 并且我们能够迅速证明楔积是结合的.
定理8. 令K 是一个特征为零的域, V 是K 上的一个向量空间, 那么外积是V 上的交错多线性形式上的一个结合运算. 换言之, 如果L , M , N 分别是V 上阶数为r , s , t 的交错多线性形式, 那么( L ∧ M ) ∧ N = L ∧ ( M ∧ N ) .
证明. 根据楔积的定义, 我们知道对于任意的标量
c 和
d 有
c ⁢ d ⁢ ( L ∧ M ) = ( c ⁢ L ) ∧ ( d ⁢ M ) , 因此
r ! ⁢ s ! ⁢ t ! ⁢ [ ( L ∧ M ) ∧ N ] = [ r ! ⁢ s ! ⁢ ( L ∧ M ) ] ∧ ( t ! ⁢ N ) 既然
π t ⁡ ( N ) = t ! ⁢ N , 这就导致
r ! ⁢ s ! ⁢ t ! ⁢ [ ( L ∧ M ) ∧ N ] = π r + s ⁡ ( L ⊗ M ) ∧ π t ⁡ ( N ) = 1 ( r + s ) ! ⁢ 1 t ! ⁢ π r + s + t ⁡ [ π r + s ⁡ ( L ⊗ M ) ⊗ π t ⁡ ( N ) ] 根据之前的结果, 我们看出
r ! ⁢ s ! ⁢ t ! ⁢ [ ( L ∧ M ) ∧ N ] = π r + s + t ⁡ ( L ⊗ M ⊗ N ) 通过类似的计算我们得到
r ! ⁢ s ! ⁢ t ! ⁢ [ L ∧ ( M ∧ N ) ] = π r + s + t ⁡ ( L ⊗ M ⊗ N ) 因此就有
( L ∧ M ) ∧ N = L ∧ ( M ∧ N ) .
◻
现在我们回到一般情况上来, 其仅假定K 是一个含幺交换环. 第一个问题在于将楔积的定义换成能在一般情况下生效的等价版本. 如果L 和M 分别是阶数为r 和s 的交错多线性形式, 那么我们将构造一个阶数为r + s 的典范的 [译注: 可以理解成存在且唯一的] 交错多线性形式L ∧ M 满足r ! ⁢ s ! ⁢ ( L ∧ M ) = π r + s ⁡ ( L ⊗ M ) .
让我们回忆一下我们是如何定义π r + s ⁡ ( L ⊗ M ) 的. 对于{ 1 , … , r + s } 的每个置换σ , 我们联系以多线性函数( sgn ⁡ σ ) ⁢ ( L ⊗ M ) σ 其中( L ⊗ M ) σ ⁡ ( α 1 , … , α r + s ) = ( L ⊗ M ) ⁡ ( α σ ⁡ 1 , … , α σ ⁡ ( r + s ) ) 然后我们将布于所有置换σ 之上的这些函数加起来. 存在( r + s ) ! 个置换. 然而, 既然L 和M 都是交错的, 许多这样的函数都是相同的. 实际上, 至多存在( r + s ) ! r ! ⁢ s ! 个不同的这种函数. 让我们看看为什么. 令S r + s 是{ 1 , … , r + s } 的所有置换构成的集合, 即r + s 阶对称群. 如我们之前所做的, 我们区分出一个子集G 来, 其由所有这样的置换σ 构成, 满足σ ⁡ { 1 , … , r } ⊆ { 1 , … , r } 且σ ⁡ { r + 1 , … , r + s } ⊆ { r + 1 , … , r + s } . 换言之, σ ∈ G , 如果对于每个i 满足1 ≤ i ≤ r 有1 ≤ σ ⁡ i ≤ r . (然后就必然也满足对于每个j 满足r + 1 ≤ j ≤ r + s 有r + 1 ≤ σ ⁡ j ≤ r + s .) 现在G 是S r + s 的一个子群, 即若σ 和τ 是G 的元素, 那么σ ⁢ τ − 1 ∈ G . [译注: 当然G 还要是非空的, 不过这是明显的.] 显然G 有r ! ⁢ s ! 个元素.
我们定义一个映射ψ : S r + s → M r + s ⁡ ( V ) , σ ↦ ( sgn ⁡ σ ) ⁢ ( L ⊗ M ) σ 既然L 和M 是交错的, 那么对于每个γ ∈ G 有ψ ⁡ ( γ ) = L ⊗ M . 因此, 既然对于V 上任意的( r + s ) 线性形式N 有( N σ ) τ = N τ ⁢ σ , 那么ψ ⁡ ( τ ⁢ γ ) = ψ ⁡ ( τ ) , τ ∈ S r + s , γ ∈ G . 这是在说映射ψ 在子群G 的每个(左)陪集τ ⁢ G 上都是常函数. 如果τ 1 , τ 2 ∈ S r + s , 那么陪集τ 1 ⁢ G 和τ 2 ⁢ G 根据τ 2 − 1 ⁢ τ 1 在G 中还是不在G 中, 要么相等要么互不相交. 每个陪集都具有r ! ⁢ s ! 个元素, 因此存在( r + s ) ! r ! ⁢ s ! 个不同的陪集. 若用S r + s / G 代表由所有这些陪集构成的集合, 那么ψ 导出了S r + s / G 上的一个函数, 即根据我们已知的东西, 存在 [译注: 当然也是唯一的] 函数ψ ~ 满足对于每个τ ∈ S r + s 有ψ ⁡ ( τ ) = ψ ~ ⁡ ( τ ⁢ G ) . 如果H 是G 的一个左陪集, 那么对于每个τ ∈ H 有ψ ~ ⁡ ( H ) = ψ ⁡ ( τ ) .
译者注记. 以上有点小小的gap, 在声称ψ ⁡ ( τ ⁢ γ ) = ψ ⁡ ( τ ) 那里, 我们补充一下证明:ψ ⁡ ( τ ⁢ γ ) = sgn ⁡ ( τ ⁢ γ ) ⁢ ( L ⊗ M ) τ ⁢ γ = ( sgn ⁡ τ ) ⁢ ( sgn ⁡ γ ) ⁢ [ ( L ⊗ M ) γ ] τ = ( sgn ⁡ τ ) ⁢ ( sgn ⁡ γ ) ⁢ [ ( sgn ⁡ γ ) ⁢ ( L ⊗ M ) ] τ = ( sgn ⁡ τ ) ⁢ ( sgn ⁡ γ ) ⁢ ( sgn ⁡ γ ) ⁢ ( L ⊗ M ) τ = ( sgn ⁡ τ ) ⁢ ( L ⊗ M ) τ = ψ ⁡ ( τ ) 以上推导中我们用到了( L ⊗ M ) γ = ( sgn ⁡ γ ) ⁢ ( L ⊗ M ) , 这可由ψ ⁡ ( γ ) = L ⊗ M 两边左乘( sgn ⁡ γ ) 得到. 另外, 如果你看不懂上面这一段在说什么, 那么你应该找一本代数入门书籍看一看.
现在我们定义阶数分别为r 和s 的交错多线性形式L 和M 的外积为L ∧ M = ∑ H ψ ~ ⁡ ( H ) 其中H 遍历S r + s / G 的每个元素. 另一种陈述L ∧ M 的定义的方式如下. 令S 是S r + s 的一个子集, 其从每个G 的左陪集中恰选一个代表出来, 那么L ∧ M = ∑ σ ∈ S ( sgn ⁡ σ ) ⁢ ( L ⊗ M ) σ . 显然我们有r ! ⁢ s ! ⁢ ( L ∧ M ) = π r + s ⁡ ( L ⊗ M ) 于是这个新定义等价于之前我们所给出的在K 是特征为零的域的情况下的定义.
定理9. 令K 是一个含幺交换环, V 是K 上的一个模, 那么外积是V 上的交错多线性形式上的一个结合运算. 换言之, 如果L , M , N 分别是V 上阶数为r , s , t 的交错多线性形式, 那么( L ∧ M ) ∧ N = L ∧ ( M ∧ N ) .
证明. 尽管定理8的证明不能直接应用到这里来, 它的确暗示了该如何处理一般的情况. 令
G ⁡ ( r , s , t ) 是
S r + s + t 的一个子群, 其由所有这样的置换
σ 构成, 它们满足
σ ⁡ { 1 , … , r } ⊆ { 1 , … , r } 且
σ ⁡ { r + 1 , … , r + s } ⊆ { r + 1 , … , r + s } 且
σ ⁡ { r + s + 1 , … , r + s + t } ⊆ { r + s + 1 , … , r + s + t } . 那么, 对于一个给定的
G ⁡ ( r , s , t ) 的左陪集而言, 其每个元素
μ 给出的
( sgn ⁡ μ ) ⁢ ( L ⊗ M ⊗ N ) μ 均是相同的多线性函数. 从
G ⁡ ( r , s , t ) 的每个左陪集中选出一个代表
μ 来, 令
E 是这些代表所对应的项
( sgn ⁡ μ ) ⁢ ( L ⊗ M ⊗ N ) μ 之和, 那么
E 独立于代表元
μ 的选取方式, 并且
r ! ⁢ s ! ⁢ t ! ⁢ E = π r + s + t ⁡ ( L ⊗ M ⊗ N ) . 我们将证明
( L ∧ M ) ∧ N 和
L ∧ ( M ∧ N ) 均等于
E .
令
G ⁡ ( r + s , t ) 是
S r + s + t 的一个子群, 其定义方式与上面相同. 令
T 是任意的恰从
G ⁡ ( r + s , t ) 的每个左陪集中选取一个元素得到的集合, 那么根据楔积的定义, 我们有
( L ∧ M ) ∧ N = ∑ τ ∈ T ( sgn ⁡ τ ) ⁢ [ ( L ∧ M ) ⊗ N ] τ . 现在令
G ⁡ ( r , s ) 是如上定义的
S r + s 的一个子群. 令
S 是任意的恰从
G ⁡ ( r , s ) 的每个左陪集中选取一个元素得到的集合. 那么, 根据楔积的定义和我们已经知道的结果, 立即可以得出
( L ∧ M ) ∧ N = ∑ ( σ , τ ) ∈ S × T ( sgn ⁡ σ ) ⁢ ( sgn ⁡ τ ) ⁢ [ ( L ⊗ M ) σ ⊗ N ] τ . 如果我们将
S r + s 的每个元素
σ 视为
S r + s + t 的元素, 即
σ 在
{ 1 , … , r + s } 上与原来一致, 而在
{ r + s + 1 , … , r + s + t } 上是恒等函数, 那么我们或许可以将以上式子写成
( L ∧ M ) ∧ N = ∑ ( σ , τ ) ∈ S × T sgn ⁡ ( σ ⁢ τ ) ⁢ [ ( L ⊗ M ⊗ N ) σ ] τ 但是
[ ( L ⊗ M ⊗ N ) σ ] τ = ( L ⊗ M ⊗ N ) τ ⁢ σ 因此
( L ∧ M ) ∧ N = ∑ ( σ , τ ) ∈ S × T sgn ⁡ ( τ ⁢ σ ) ⁢ ( L ⊗ M ⊗ N ) τ ⁢ σ 现在设我们有
τ 1 ⁢ σ 1 = τ 2 ⁢ σ 2 ⁢ γ 其中
σ i ∈ S , τ i ∈ T , γ ∈ G ⁡ ( r , s , t ) , 那么
τ 2 − 1 ⁢ τ 1 = σ 2 ⁢ γ ⁢ σ 1 − 1 . 并且, 既然
σ 2 ⁢ γ ⁢ σ 1 − 1 ∈ G ⁡ ( r + s , t ) , 那么
τ 1 和
τ 2 落入了
G ⁡ ( r + s , t ) 的相同的左陪集中. 因此,
τ 1 = τ 2 [译注: 虽然
T 是任意的, 却也是固定的], 然后
σ 1 = σ 2 ⁢ γ . 但是, 这将推出
σ 1 和
σ 2 (被视为
S r + s 的元素) 落入了
G ⁡ ( r , s ) 的相同的左陪集中, 于是
σ 1 = σ 2 . [译注: 这句话里,
γ 被视为 (或者说限制为)
G ⁡ ( r , s ) 的元素.] 因此, 与
( r + s + t ) ! ( r + s ) ! ⁢ t ! ⁢ ( r + s ) ! r ! ⁢ s ! 个序对
( τ , σ ) ∈ T × S 相对应的积
τ ⁢ σ 都是不同的, 并且落入了
G ⁡ ( r , s , t ) 的不同的左陪集中. 既然
S r + s + t 中恰有
( r + s + t ) ! r ! ⁢ s ! ⁢ t ! 个
G ⁡ ( r , s , t ) 的左陪集, 那么
( L ∧ M ) ∧ N = E . 根据类似的论证, 也可说明
L ∧ ( M ∧ N ) = E .
◻
例子13. 外积与所谓的Laplace展开关系密切, 其可以用来计算行列式的值. 令K 是一个含幺交换环, n 是一个正整数. 设1 ≤ r < n , 并且令L 是K n 上的交错r 线性形式, 其由 [译注: 作者默认α i = ( A i , 1 , … , A i , n ) ]L ⁡ ( α 1 , … , α r ) = det ⁡ [ A 1 , 1 ⋯ A 1 , r ⋮ ⋮ A r , 1 ⋯ A r , r ] 定义. 如果s = n − r 并且M 是交错s 线性形式M ⁡ ( α 1 , … , α s ) = det ⁡ [ A 1 , r + 1 ⋯ A 1 , n ⋮ ⋮ A s , r + 1 ⋯ A s , n ] 那么L ∧ M = D , 即K n 上的行列式函数. 这可以从L ∧ M 是交错n 线性形式以及 (可以看出来)( L ∧ M ) ⁡ ( ε 1 , … , ε n ) = 1 立即得出. 如果我们现在以适当的方式描述L ∧ M , 那么我们就得到了K 上的n × n 矩阵的行列式的一种Laplace展开. 在置换群S n 中, 令G = G ⁡ ( r , s ) 是之前所定义的子群. 每个G 的左陪集中都恰包含一个这样的置换σ , 其满足σ ⁡ 1 < σ ⁡ 2 < ⋯ < σ ⁡ r 且σ ⁡ ( r + 1 ) < ⋯ < σ ⁡ n . 这个置换的符号由 [译注: 原文是[ r ⁢ ( r − 1 ) / 2 ] , 应作[ r ⁢ ( r + 1 ) / 2 ] , 下同]sgn ⁡ σ = ( − 1 ) σ ⁡ 1 + ⋯ + σ ⁡ r + [ r ⁢ ( r + 1 ) / 2 ] 给出, 而楔积L ∧ M 由( L ∧ M ) ⁡ ( α 1 , … , α n ) = ∑ σ ( sgn ⁡ σ ) ⁢ L ⁡ ( α σ ⁡ 1 , … , α σ ⁡ r ) ⁢ M ⁡ ( α σ ⁡ ( r + 1 ) , … , α σ ⁡ n ) 给出, 其和中的σ 是从G 的每个左陪集中挑选出的那个满足上述要求的置换, 因此( L ∧ M ) ⁡ ( α 1 , … , α n ) = ∑ j 1 < ⋯ < j r e J ⁢ L ⁡ ( α j 1 , … , α j r ) ⁢ M ⁡ ( α k 1 , … , α k s ) 其中 [译注: 实际上, k i 就是集合{ 1 , … , n } − { j 1 , … , j r } 中的元素从小到大排列的第i 个]e J = ( − 1 ) j 1 + ⋯ + j r + [ r ⁢ ( r + 1 ) / 2 ] , k i = σ ⁡ ( r + i ) . 换句话说,det ⁡ ( A ) = ∑ j 1 < ⋯ < j r e J ⁢ | A j 1 , 1 ⋯ A j 1 , r ⋮ ⋮ A j r , 1 ⋯ A j r , r | ⁢ | A k 1 , r + 1 ⋯ A k 1 , n ⋮ ⋮ A k s , 1 ⋯ A k s , n | 这只是一种Laplace展开. 其他的展开可由将集合{ 1 , … , r } 和{ r + 1 , … , n } 替换成两个互补的下标集合得到.
译者注记. 我们继续补充一些gap. 虽然看出( L ∧ M ) ⁡ ( ε 1 , … , ε n ) = 1 还算容易, 但也不是那么平凡. 对于σ ∈ G ⁡ ( r , s ) , 我们有( sgn ⁡ σ ) ⁢ ( L ⊗ M ) σ ⁡ ( ε 1 , … , ε n ) = ( L ⊗ M ) ⁡ ( ε 1 , … , ε n ) = L ⁡ ( ε 1 , … , ε r ) ⁢ M ⁡ ( ε r + 1 , … , ε n ) = det ⁡ ( I ) ⁢ det ⁡ ( I ) = 1 对于σ ∉ G ⁡ ( r , s ) , 存在i 满足1 ≤ i ≤ r 但是σ ⁡ i > r , 那么矩阵A = [ δ σ ⁡ 1 , 1 ⋯ δ σ ⁡ 1 , r ⋮ ⋮ δ σ ⁡ r , 1 ⋯ δ σ ⁡ r , r ] 的第i 行是零行, 于是det ⁡ ( A ) = 0 , 而( sgn ⁡ σ ) ⁢ ( L ⊗ M ) σ ⁡ ( ε 1 , … , ε n ) = ( sgn ⁡ σ ) ⁢ L ⁡ ( ε σ ⁡ 1 , … , ε σ ⁡ r ) ⁢ M ⁡ ( ε σ ⁡ ( r + 1 ) , … , ε σ ⁡ n ) = ( sgn ⁡ σ ) ⁢ det ⁡ ( A ) ⁢ M ⁡ ( ε σ ⁡ ( r + 1 ) , … , ε σ ⁡ n ) = 0 因此, 根据楔积的定义, ( L ∧ M ) ⁡ ( ε 1 , … , ε n ) 的和中只有一项为1 而其余项均为0 , 所以其值为1 . 另外, 作者没有说明置换的符号是怎样计算的. 实际上, 如果考虑更一般的Laplace展开, 也就是说考虑互补的集合{ j 1 , … , j r } 和{ k 1 , … , k s } , 其中j 1 < ⋯ < j r 且k 1 < ⋯ < k s , 那么我们就需要思考如何计算这样的置换σ 的符号, 其满足σ ⁡ j 1 < ⋯ < σ ⁡ j r 且σ ⁡ k 1 < ⋯ < σ ⁡ k s . 我们先将σ ⁡ j 1 通过反复交换插入到第1 个位置, 这需要j 1 − 1 次交换. 接着, 从小到大依次将σ ⁡ j i 插入到第i 个位置, 这分别需要j i − i 次交换. 然后, 我们将位于第r 个位置的σ ⁡ j r 插入到它本应该位于的第σ ⁡ j r 个位置, 这需要σ ⁡ j r − r 次交换. 从大到小, 我们依次将σ ⁡ j i 从第i 个位置插入到第σ ⁡ j i 个位置, 这分别需要σ ⁡ j i − i 次交换. 最终我们得到了恒等置换, 而所用的交换次数为∑ i = 1 r ( j i − i ) + ∑ i = 1 r ( σ ⁡ j i − i ) = ( j 1 + ⋯ + j r ) + ( σ ⁡ j 1 + ⋯ + σ ⁡ j r ) − r ⁢ ( r + 1 ) 鉴于r ⁢ ( r + 1 ) 是偶数, 那么置换σ 的符号为sgn ⁡ σ = ( − 1 ) ( j 1 + ⋯ + j r ) + ( σ ⁡ j 1 + ⋯ + σ ⁡ j r ) .
如果V 是一个K 模, 我们可以将各种形式模 (form module) Λ r ⁡ ( V ) 放在一起并使用外积定义一个环. 为了简单性, 我们只考虑秩为n 的自由K 模的情形. 那么, 在r > n 时模Λ r ⁡ ( V ) 是平凡的. 我们定义Λ ⁡ ( V ) = Λ 0 ⁡ ( V ) ⊕ Λ 1 ⁡ ( V ) ⊕ ⋯ ⊕ Λ n ⁡ ( V ) . 这是外直和, 某个之前我们还没讨论过的东西. Λ ⁡ ( V ) 的元素是( n + 1 ) 元组( L 0 , … , L n ) , 其中L r ∈ Λ r ⁡ ( V ) . 加法和乘上K 的元素按读者的预想定义. 顺带一提, Λ 0 ⁡ ( V ) = K . 如果我们将L ∈ Λ r ⁡ ( V ) 与( n + 1 ) 元组( 0 , … , 0 , L , 0 , … , 0 ) 等同起来, 其中自零计的第r 个分量是L , 那么Λ r ⁡ ( V ) 是Λ ⁡ ( V ) 的一个子模, 而直和分解Λ ⁡ ( V ) = Λ 0 ⁡ ( V ) ⊕ ⋯ ⊕ Λ n ⁡ ( V ) 在通常的意义下成立. [译注: 前一句话作者将多处Λ r ⁡ ( V ) 写成了Λ r ⁡ ( K ) .] 既然Λ r ⁡ ( V ) 是一个秩为( n r ) 的自由K 模, 那么我们看到Λ ⁡ ( V ) 是一个自由K 模并且rank ⁡ [ Λ ⁡ ( V ) ] = ∑ r = 0 n ( n r ) = 2 n . 外积定义了一个Λ ⁡ ( V ) 上的乘法: 使用形式 (form) 上的外积并将其线性地扩展至Λ ⁡ ( V ) 的情形. 它对于Λ ⁡ ( V ) 上的加法分配并给予了Λ ⁡ ( V ) 一个环的结构. 这个环是V ⁎ 上的Grassman环. 它不是一个交换环, 例如若L 和M 分别在Λ r ⁡ ( V ) 和Λ s ⁡ ( V ) 中, 那么 [译注: 这( − 1 ) r ⁢ s 是将前面和后面的参数互换得到的]L ∧ M = ( − 1 ) r ⁢ s ⁢ ( M ∧ L ) . 但是, Grassman环在许多数学领域里是重要的. [译注: 以上所提Grassman环, 现多称Grassman代数, 毕竟它还有个数乘运算.]
第6章 初等标准形式 第6.1节 引论 之前我们已经提过我们的主要目的在于研究有限维向量空间上的线性变换. 到目前为止, 我们已经见过了许多线性变换的特殊例子, 并且证明了一些关于一般线性变换的定理. 在有限维的情形我们利用有序基通过矩阵来表示这样的变换, 这种表示增添了我们对于其行为的直觉. 我们探索了向量空间L ⁡ ( V , W ) , 其由从一个向量空间到另一个的线性变换构成. 我们也探索了L ⁡ ( V , V ) , 其由从一个向量空间到自身的线性变换构成.
在接下来的两章中, 我们将主要关心线性算子. 我们的流程是选取一个有限维向量空间V 上的单独的一个线性算子T , 将它拆下来, 看看什么使其运转. 在这早期阶段, 将我们的目标以矩阵的语言表述是最为简单的: 给定线性算子T , 找出V 的一个有序基使得T 的矩阵呈现特别简单的形式.
现在对于我们心中所想作一个基本的刻画. 或许最简单的矩阵, 除了恒等矩阵之外, 就是对角矩阵了:D = [ c 1 0 0 ⋯ 0 0 c 2 0 ⋯ 0 0 0 c 3 ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ c n ] 令T 是一个n 维向量空间V 上的线性算子. 如果我们能够找到V 的一个有序基𝔅 = { α 1 , … , α n } 使得T 由上面的对角矩阵D 表示, 那么我们能够获得和T 有关的相当信息. 例如, 和T 有关的简单数字, 比如说T 和秩或者T 的行列式, 看一眼矩阵D 就能出来. 我们可以显式描述T 的像和零空间. 既然[ T ] 𝔅 = D 当且仅当T ⁡ α k = c k ⁢ α k , k = 1 , … , n 那么像就是由那些c k ≠ 0 的α k 张成的子空间, 零空间就是由剩下来的α k 张成的. 似乎可以这样说, 如果我们知道了一个基𝔅 和一个对角矩阵D 满足[ T ] 𝔅 = D , 那么我们就能轻易回答一切与T 有关的问题.
是否每个线性算子都可以在某个有序基下表示为对角矩阵呢? 如果不是的话, 那么什么样的算子T 下这样的基存在呢? 如果存在这样的基的话, 那么我们又该怎么找到它呢? 如果这样的基不存在的话, 那么可以表示T 的最简单的矩阵类型是什么样的呢? 这些是我们将在本章 (和下一章) 解决的问题. 随着我们理解到其中的困难, 一些问题的形式也会变得更加复杂.
第6.2节 特征值 前一节的评注为我们提供了尝试分析一般线性算子T 的起点. 之前的线索暗示着我们应该研究这样的向量, 其由T 送至自身的标量倍数.
定义. 令
V 是域
F 上的向量空间而
T 是
V 上的线性算子.
T 的一个特征值是一个
F 中的标量
c , 存在
V 中非零的向量
α 使得
T ⁡ α = c ⁢ α . 如果
c 是
T 的特征值, 那么
任何满足T ⁡ α = c ⁢ α 的向量α 都被称为T 在特征值c 下的特征向量. 所有满足T ⁡ α = c ⁢ α 的向量α 构成的集合被称为T 在特征值c 下的特征空间. 特征值 (characteristic value) 也被称为特征根 (characteristic root), 隐式根 (latent root), 特征值 (eigenvalue), 特征值 (proper value) 或者谱值 (spectral value). 本书我们将只使用"特征值 (characteristic value)"这个名字.
如果T 是任意的线性算子而c 是任意的标量, 所有满足T ⁡ α = c ⁢ α 的向量α 的集合是V 的子空间, 实际上它就是线性变换( T − c ⁢ I ) 的零空间. 我们称c 是T 的特征值, 如果该子空间异于零子空间, 即( T − c ⁢ I ) 不是单射的. 在V 是有限维的情况下, ( T − c ⁢ I ) 不是单射恰当其行列式等于零.
定理1. 令
T 是有限维向量空间
V 上的一个线性算子,
c 是一个标量, 那么以下是等价的.
c 是T 的特征值.算子( T − c ⁢ I ) 是奇异的 (不可逆的). det ⁡ ( T − c ⁢ I ) = 0 .行列式判则iii是非常重要的, 因为它告诉我们从哪里寻找T 的特征值. 既然det ⁡ ( T − c ⁢ I ) 是对于变量c 的n 次多项式, 那么我们所求的特征值就是该多项式的根. 让我们仔细解释这个想法.
如果𝔅 是V 的基并且A = [ T ] 𝔅 , 那么( T − c ⁢ I ) 可逆当且仅当矩阵( A − c ⁢ I ) 可逆. 据此, 我们有如下定义.
定义. 如果A 是域F 上的一个n × n 矩阵, 那么A 的一个在F 中的特征值是一个F 中标量c 满足矩阵( A − c ⁢ I ) 是奇异的 (不可逆的).
既然c 是A 的特征值当且仅当det ⁡ ( A − c ⁢ I ) = 0 或者等价地当且仅当det ⁡ ( c ⁢ I − A ) = 0 , 我们构造以多项式为元素的矩阵( x ⁢ I − A ) 并考虑多项式f = det ⁡ ( x ⁢ I − A ) . 显然A 在F 中的特征值不过就是F 中满足f ⁡ ( c ) = 0 的标量c . 出于这样的原因f 被称为A 的特征多项式. 注意到f 是一个次数恰为n 的首项系数为一的多项式是重要的. 这很容易从基于元素的矩阵的行列式公式中看出来.
引理. 相似矩阵拥有相同的特征多项式.
证明. 如果
B = P − 1 ⁢ A ⁢ P , 那么
det ⁡ ( x ⁢ I − B ) = det ⁡ ( x ⁢ I − P − 1 ⁢ A ⁢ P ) = det ⁡ ( P − 1 ⁢ ( x ⁢ I − A ) ⁢ P ) = det ⁡ P − 1 ⋅ det ⁡ ( x ⁢ I − A ) ⋅ det ⁡ P = det ⁡ ( x ⁢ I − A ) ◻
这条引理允许我们将算子T 的特征多项式定义为任意在某个V 的有序基下表示T 的n × n 矩阵的特征多项式. 正如矩阵一样, T 特征值就是T 的特征多项式的根. 特别地, 这表明T 不可能拥有多于n 个不同的特征值. 我们也应该指出T 可能没有任何特征值.
例子1. 令T 是ℝ 2 上的线性算子, 其在标准有序基下由矩阵A = [ 0 − 1 1 0 ] 表示. T (或者A ) 的特征多项式为det ⁡ ( x ⁢ I − A ) = | x 1 − 1 x | = x 2 + 1 . 既然这个多项式没有实根, 那么T 就没有特征值. 如果U 是ℂ 2 上的线性算子, 其在标准有序基下由A 表示, 那么U 就有两个特征值, i 和− i . 这里我们看到了微妙的一点. 在讨论一个矩阵A 的特征值时, 我们必须小心地规定所涉及的域. 上面的矩阵A 在ℝ 中没有特征值, 但在ℂ 中有两个特征值i 和− i .
例子2. 令A 是3 × 3 的(实)矩阵[ 3 1 − 1 2 2 − 1 2 2 0 ] . 那么A 的特征多项式为| x − 3 − 1 1 − 2 x − 2 1 − 2 − 2 x | = x 3 − 5 ⁢ x 2 + 3 ⁢ x − 4 = ( x − 1 ) ⁢ ( x − 2 ) 2 . 因此A 的特征值是1 和2 . 设T 是ℝ 3 上的线性算子, 其在标准基下由A 表示. 让我们找出T 在特征值1 和2 下的特征向量. 现在A − I = [ 2 1 − 1 2 1 − 1 2 2 − 1 ] 显然一眼就可以看出A − I 的秩等于2 (因此T − I 的零化度为1 ). 于是特征值1 下的特征向量的空间是一维的. 向量α 1 = ( 1 , 0 , 2 ) 可以张成T − I 的零空间. 因此T ⁡ α = α 当且仅当α 是α 1 的标量倍数. 现在考虑A − 2 ⁢ I = [ 1 1 − 1 2 0 − 1 2 2 − 2 ] 显然A − 2 ⁢ I 的秩也是2 , 于是在特征值2 下的特征向量的空间维数是1 . 显然T ⁡ α = 2 ⁢ α 当且仅当α 是α 2 = ( 1 , 1 , 2 ) 的标量倍数.
定义. 令T 是有限维向量空间V 上的一个线性算子. 我们称T 是可对角化的, 如果存在V 的一个基满足其中每个向量都是T 的特征向量.
为什么要叫这个名字应该是很显然的, 因为如果存在V 的一个有序基𝔅 = { α 1 , … , α n } 满足每个α i 都是T 的特征向量, 那么T 在有序基𝔅 下的矩阵是对角的. 如果T ⁡ α i = c i ⁢ α i , 那么[ T ] 𝔅 = [ c 1 0 ⋯ 0 0 c 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ c n ] 我们当然并不需要标量c 1 , … , c n 互异. 实际上, 它们可以是相同的标量 (当T 是恒等算子的标量倍数时).
我们也可以将T 可对角化定义为存在T 的一集特征向量可以张成V . 这与之前的定义只是表面上不同而已, 因为我们可以从任意能够张成V 的一集向量中挑选出一个基.
对于例子1和2我们故意挑选了在ℝ n 上不可对角化的线性算子T . 在例子1中, ℝ 2 上的这个线性算子之所以是不可逆的, 是因为它没有特征值. 在例子2中, 线性算子T 的确有特征值. 实际上, T 的特征多项式可以在实数域上被分解完全: f = ( x − 1 ) ⁢ ( x − 2 ) 2 . 然而, T 并非可对角化的. 在T 的两个特征值下每个特征空间都只是一维的, 因此我们并不能构造出一个全由T 的特征向量构成的ℝ 3 的基.
设T 是一个可对角化的线性算子. 令c 1 , … , c k 是T 互异的特征值. 那么存在一个有序基𝔅 满足其下T 由一个以标量c i 为对角元素的对角矩阵表示, 每个标量均重复特定的次数. 如果c i 重复了d i 次, 那么(我们可以重新排列有序基的向量顺序使得)该矩阵具有如下分块形式[ T ] 𝔅 = [ c 1 ⁢ I 1 0 ⋯ 0 0 c 2 ⁢ I 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ c k ⁢ I k ] 其中I j 是d j × d j 的恒等矩阵. 从中我们看出两件事. 首先, T 的特征多项式是(可能重复的)线性因子之积:f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k . 如果标量域F 是代数闭域, 例如复数域, 那么每个F 上的多项式都可以被这么分解 (见第4.5节). 然而, 如果F 不是代数闭域, 当我们说T 的特征多项式有这样一种分解时, 我们是在声明T 的一个特别性质. 第二件能看出来的事情是d i (c i 作为f 的重根次数) 等于与特征值c i 相关的特征空间的维数. 这是因为对角矩阵的零化度等于其主对角线上零的数目, 而矩阵[ T − c i ⁢ I ] 𝔅 在其主对角线上拥有d i 个零. 这个特征空间的维数与特征值作为f 的根的重数之间的关系最初看上去并不令人兴奋. 然而, 它为我们提供了一种更简单的判断给定算子是否可对角化的方法.
引理. 设T ⁡ α = c ⁢ α . 如果f 是任意的多项式, 那么f ⁡ ( T ) ⁡ α = f ⁡ ( c ) ⁢ α .
证明. 作为练习.
◻
引理. 令T 是有限维向量空间V 上的线性算子. 令c 1 , … , c k 是T 不同的特征值, 而W i 是特征值c i 下的特征空间. 如果W = W 1 + ⋯ + W k , 那么dim ⁡ W = dim ⁡ W 1 + ⋯ + dim ⁡ W k . 实际上, 如果𝔅 i 是W i 的一个有序基, 那么𝔅 = ( 𝔅 1 , … , 𝔅 k ) 是W 的一个有序基.
证明. 空间
W = W 1 + ⋯ + W k 是由
T 的所有特征向量张成的子空间. 当一个人构造子空间
W i 之和
W 时, 通常会预料
dim ⁡ W < dim ⁡ W 1 + ⋯ + dim ⁡ W k , 因为不同空间的向量之间也可能存在线性关系. 这条引理告诉我们不同特征值下的特征空间是独立的.
设(对于每个
i )我们有一个
W i 中的向量
β i , 并且假定
β 1 + ⋯ + β k = 0 . 我们将证明对于每个
i 有
β i = 0 . 令
f 是任意的多项式. 既然
T ⁡ β i = c i ⁢ β i , 那么之前的引理告诉我们
0 = f ⁡ ( T ) ⁡ 0 = f ⁡ ( T ) ⁡ β 1 + ⋯ + f ⁡ ( T ) ⁡ β k = f ⁡ ( c 1 ) ⁢ β 1 + ⋯ + f ⁡ ( c k ) ⁢ β k 选择多项式
f 1 , … , f k 使得
f i ⁡ ( c j ) = δ i , j = { 1 , i = j 0 , i ≠ j 那么
0 = f i ⁡ ( T ) ⁡ 0 = ∑ j = 1 k δ i , j ⁢ β j = β i 现在令
𝔅 i 是
W i 的一个有序基, 令
𝔅 是序列
𝔅 = ( 𝔅 1 , … , 𝔅 k ) , 那么
𝔅 能够张成子空间
W = W 1 + ⋯ + W k . 并且,
𝔅 也是线性无关的向量序列, 原因如下. 任何
𝔅 中向量之间的线性关系都具有
β 1 + ⋯ + β k = 0 的形式, 其中
β i 是
𝔅 i 中的向量的线性组合. 根据我们刚才得到的结果, 我们知道对于每个
i 有
β i = 0 . 既然每个
𝔅 i 都是线性无关的, 那么显然
𝔅 中的向量之间只存在平凡的线性关系.
◻
定理2. 令
T 是有限维向量空间
V 上的线性算子, 令
c 1 , … , c k 是
T 不同的特征值, 令
W i 是
( T − c i ⁢ I ) 的零空间, 以下条件是等价的.
T 是可对角化的.T 的特征多项式为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 并且dim ⁡ W i = d i , i = 1 , … , k .dim ⁡ W 1 + ⋯ + dim ⁡ W k = dim ⁡ V .证明. 我们已经观察到i可以推出ii. 如果特征多项式
f 是如ii所示的线性因子之积, 那么
d 1 + ⋯ + d k = dim ⁡ V , 因为
d i 之和就是特征多项式的次数, 而这个次数就是
dim ⁡ V . 于是, ii能够推出iii. 设iii成立. 根据引理, 我们必须有
V = W 1 + ⋯ + W k , 即
T 的特征向量能够张成
V .
◻
定理2的矩阵类比可以按照如下方式陈述. 令A 是一个元素来源于域F 的n × n 矩阵, 令c 1 , … , c k 是A 在F 中不同的特征值. 对于每个i , 令W i 是满足( A − c i ⁢ I ) ⁢ X = 0 的列矩阵X 的空间, 当然X 的元素应该来源于F , 令𝔅 i 是W i 的一个有序基. 我们将基( 𝔅 1 , … , 𝔅 k ) 连在一起以构成了一个矩阵P 的列的序列:P = [ P 1 , P 2 , … ] = ( 𝔅 1 , … , 𝔅 k ) . 矩阵A 在域F 上能够相似于一个对角矩阵当且仅当P 是一个方阵. 当P 是方阵的时候, P 可逆并且P − 1 ⁢ A ⁢ P 是对角矩阵.
例子3. 令T 是ℝ 3 上的线性算子, 其在标准基下由矩阵A = [ 5 − 6 − 6 − 1 4 2 3 − 6 − 4 ] 表示. 让我们指出读者计算特征多项式的一种可能方式, 使用行变换和列变换:| x − 5 6 6 1 x − 4 − 2 − 3 6 x + 4 | = | x − 5 0 6 1 x − 2 − 2 − 3 2 − x x + 4 | = ( x − 2 ) ⁢ | x − 5 0 6 1 1 − 2 − 3 − 1 x + 4 | = ( x − 2 ) ⁢ | x − 5 0 6 1 1 − 2 − 2 0 x + 2 | = ( x − 2 ) ⁢ | x − 5 6 − 2 x + 2 | = ( x − 2 ) ⁢ ( x 2 − 3 ⁢ x + 2 ) = ( x − 2 ) 2 ⁢ ( x − 1 ) 在这两个特征值下的特征空间的维数是多少呢? 我们有A − I = [ 4 − 6 − 6 − 1 3 2 3 − 6 − 5 ] , A − 2 ⁢ I = [ 3 − 6 − 6 − 1 2 2 3 − 6 − 6 ] 我们知道A − I 是奇异的, 并且显然有rank ⁡ ( A − I ) ≥ 2 . 因此, rank ⁡ ( A − I ) = 2 . 另外, 显然有rank ⁡ ( A − 2 ⁢ I ) = 1 . 令W 1 和W 2 分别是特征值1 和2 下的特征空间, 我们知道dim ⁡ W 1 = 1 和dim ⁡ W 2 = 2 . 根据定理2, T 是可对角化的. 很容易找出ℝ 3 的一个基满足其下T 由一个对角矩阵表示. ( T − I ) 的零空间由向量α 1 = ( 3 , − 1 , 3 ) 张成, 于是{ α 1 } 是W 1 的一个基. T − 2 ⁢ I 的零空间 (即空间W 2 ) 由满足x 1 = 2 ⁢ x 2 + 2 ⁢ x 3 的向量( x 1 , x 2 , x 3 ) 构成. 因此, W 2 的基的一个例子是α 2 = ( 2 , 1 , 0 ) , α 3 = ( 2 , 0 , 1 ) . 如果𝔅 = { α 1 , α 2 , α 3 } , 那么[ T ] 𝔅 是对角矩阵D = [ 1 0 0 0 2 0 0 0 2 ] . T 可对角化的事实意味着原本的矩阵A (在ℝ 上)相似于对角矩阵D . 使得我们能够将基𝔅 下的坐标转换为标准基下的坐标的矩阵P (当然)以α 1 , α 2 , α 3 的转置为列向量:P = [ 3 2 2 − 1 1 0 3 0 1 ] . 而且, A ⁢ P = P ⁢ D , 于是P − 1 ⁢ A ⁢ P = D .
练习1. 以下的每种情形, 令T 是ℝ 2 上的线性算子, 其在ℝ 2 的标准有序基下由矩阵A 表示. 并且, 令U 是ℂ 2 上的线性算子, 其在ℂ 2 的标准有序基下也由矩阵A 表示. 找出T 和U 的特征多项式, 找出T 和U 的特征值, 以及找出每个特征值所对应的特征空间的一个基.A = [ 1 0 0 0 ] , A = [ 2 3 − 1 1 ] , A = [ 1 1 1 1 ] .
练习2. 令V 是域F 上的一个n 维向量空间. V 上的恒等算子的特征多项式是什么? V 上的零算子的特征多项式是什么?
练习3. 令A 是域F 上的一个n × n 的三角矩阵. 证明A 的特征值就是其对角线的元素, 即标量A i , i .
练习4. 令T 是ℝ 3 上在标准有序基下由矩阵[ − 9 4 4 − 8 3 4 − 16 8 7 ] 表示的线性算子. 证明T 是可对角化的, 通过给出ℝ 3 的一个基, 其每个向量都是T 的特征向量.
练习5. 令A = [ 6 − 3 − 2 4 − 1 − 2 10 − 5 − 3 ] . 域ℝ 上A 是否相似于一个对角矩阵? 域ℂ 上A 是否相似于一个对角矩阵?
练习6. 令T 是ℝ 4 上在标准有序基下由矩阵[ 0 0 0 0 a 0 0 0 0 b 0 0 0 0 c 0 ] 表示的线性算子. a , b , c 在何种条件下使得T 是可对角化的?
练习7. 令T 是n 维向量空间V 上的一个线性算子. 如果T 具有n 个不同的特征值, 证明T 是可对角化的.
练习8. 令A 和B 是域F 上的n × n 矩阵, 证明如果( I − A ⁢ B ) 是可逆的, 那么( I − B ⁢ A ) 也是可逆的, 并且( I − B ⁢ A ) − 1 = I + B ⁢ ( I − A ⁢ B ) − 1 ⁢ A .
练习9. 使用练习8的结果证明, 如果A 和B 是域F 上的n × n 矩阵, 那么A ⁢ B 和B ⁢ A 在域F 中恰好拥有相同的特征值.
练习10. 设A 是一个2 × 2 的实对称矩阵, 证明A 在ℝ 上相似于一个对角矩阵.
练习11. 令N 是一个2 × 2 的复矩阵满足N 2 = 0 , 证明要么N = 0 , 要么N 在ℂ 上相似于[ 0 0 1 0 ] .
练习12. 使用练习11的结果证明, 如果A 是一个2 × 2 的复矩阵, 那么A 在ℂ 上相似于以下两种类型的矩阵中的一种:[ a 0 0 b ] , [ a 0 1 a ] .
练习13. 令V 是所有从ℝ 到ℝ 的连续函数构成的向量空间, 令T 是V 上由( T ⁡ f ) ⁡ ( x ) = ∫ 0 x f ⁡ ( t ) d t 定义的线性算子, 证明T 没有特征值.
练习14. 令A 是n × n 的对角矩阵, 它的特征多项式为( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 其中c 1 , … , c k 是不同的标量. 令V 是所有与A 交换的n × n 矩阵构成的向量空间, 证明V 的维数是d 1 2 + ⋯ + d k 2 .
练习15. 令V 是F n × n , 矩阵A ∈ V , T 是V 上"左乘A "的线性算子, A 和T 具有相同的特征值吗?
第6.3节 零化多项式 在尝试分析一个线性算子T 的时候, 知道能够零化T 的多项式类是很有用的. 更确切地说, 设T 是域F 上的向量空间V 上的线性算子. 如果p 是域F 上的多项式, 那么p ⁡ ( T ) 也是V 上的线性算子. 如果q 是另一个域F 上的多项式, 那么( p + q ) ⁡ ( T ) = p ⁡ ( T ) + q ⁡ ( T ) , ( p ⁢ q ) ⁡ ( T ) = p ⁡ ( T ) ⁢ q ⁡ ( T ) . 因此, 零化T 的多项式p (意即p ⁡ ( T ) = 0 ) 的集合是多项式代数F ⁡ [ x ] 的理想. 它可能是零理想, 也就是说T 可能不由任何非零多项式零化. 但是, 如果V 是有限维的, 这种情况是不可能发生的.
设T 是一个n 维空间V 上的线性算子. 看看T 的前( n 2 + 1 ) 次幂:I , T , T 2 , … , T n 2 . 这是L ⁡ ( V , V ) 中n 2 + 1 个算子的序列, L ⁡ ( V , V ) 即V 上的线性算子的空间. 空间L ⁡ ( V , V ) 是n 2 维的, 因此这n 2 + 1 个算子的序列必然是线性相关的, 也就是说存在不是全零的标量c i 满足c 0 ⁢ I + c 1 ⁢ T + ⋯ + c n 2 ⁢ T n 2 = 0 . 于是, 零化T 的多项式理想中有一个非零的多项式, 其次数小于等于n 2 .
根据第4章的定理7, 每个非零的多项式理想都可由某个首项系数为一的多项式生成. 因此, 存在一个与T 相关的首项系数为一的多项式p 满足以下性质: 如果f 是一个域F 上的多项式, 那么f ⁡ ( T ) = 0 当且仅当f = p ⁢ g , 其中g 是某个F 上的多项式.
定义. 令T 是一个域F 上的有限维向量空间V 上的线性算子. T 的极小多项式是零化T 的域F 上的多项式理想的(唯一的)首项系数为一的生成元.
"极小多项式"这个名字来源于这个多项式理想的生成元可由理想中次数最小的首项系数为一多项式刻画. 这意味着线性算子T 的极小多项式p 由以下三条性质唯一确定:
p 是标量域F 上的首项系数为一的多项式.p ⁡ ( T ) = 0 .没有能够零化T 的域F 上的多项式次数比p 低. 如果A 是域F 上的一个n × n 矩阵, 我们可以按照类似的方式定义A 的极小多项式, 即域F 上零化A 的多项式理想的那个唯一的首项系数为一的生成元. 如果T 在某个有序基下由矩阵A 表示, 那么T 和A 有着相同的极小多项式. 这是因为在这个基下f ⁡ ( T ) 由矩阵f ⁡ ( A ) 表示, 于是f ⁡ ( T ) = 0 当且仅当f ⁡ ( A ) = 0 .
上面关于算子和矩阵的评注也可说明相似矩阵拥有相同的极小多项式. 从定义看这个事实也是显然的, 因为对于每个多项式f 有f ⁡ ( P − 1 ⁢ A ⁢ P ) = P − 1 ⁢ f ⁡ ( A ) ⁢ P .
关于矩阵的极小多项式的另一个基本评注也是应该说的. 设A 是一个n × n 矩阵, 其元素来源于域F . 设F 1 是以F 为子域的一个域. (例如, A 的元素可能是有理数, 而F 1 是实数域. 或者, A 的元素是实数, 而F 1 是复数域.) 我们既可以将A 当成F 上的矩阵, 也可以将其当作F 1 上的矩阵. 从表面上来看, 似乎我们会得到A 的两个不同的极小多项式. 幸运的是, 这并不会发生, 我们必须明白为什么. 当A 被视为域F 上的n × n 矩阵时, 其极小多项式的定义是什么? 我们考虑能够零化A 的系数来源于F 的首项系数为一的多项式, 并挑选其中次数最小的那个. 如果f 是域F 上的一个首项系数为一的多项式:f = x k + ∑ j = 0 k − 1 a j ⁢ x j 那么f ⁡ ( A ) = 0 仅仅是说我们有了一个A 的幂之间的线性关系:A k + a k − 1 ⁢ A k − 1 + ⋯ + a 1 ⁢ A + a 0 ⁢ I = 0 . 极小多项式的次数是满足存在以上形式的I , A , … , A k 之间的线性关系的最小的正整数k . 而且, 根据极小多项式的唯一性, 对于k 而言有且仅有一种这样形式的关系, 即一旦最小的k 确定下来了, 存在唯一的F 中标量a 0 , … , a k − 1 能够使得以上形式的关系成立. 它们是极小多项式的系数.
现在(对于每个k )我们有一个"未知元"a 0 , … , a k − 1 的具n 2 个方程的线性方程组. [译注: 也就是考虑A 的n 2 个元素得到的线性方程组.] 既然A 的元素都在F 中, 那么该线性方程组的系数也都在F 中. 因此, 如果该方程组有F 1 中的a 0 , … , a k − 1 的解, 那么它就有F 中的a 0 , … , a k − 1 的解. (见第1.4节末.) 现在读者显然可以看出两个极小多项式应该是相同的. [译注: 而且, 这是因为此时解是唯一的.]
到目前为止, 关于n 维空间上的线性算子的极小多项式, 我们知道什么呢? 我们只知道它的次数不超过n 2 . 这实际上是一个相当糟糕的估计, 因为它的次数不可能超过n . 我们将简短地证明该算子由其特征多项式零化. 首先, 让我们观察到一个基本事实.
定理3. 令T 是n 维向量空间V 上的一个线性算子 (或者, 令A 是一个n × n 矩阵), 那么T (或者A ) 的特征多项式和极小多项式具有相同的根, 不计重数.
证明. 令
p 是
T 的极小多项式. 令
c 是一个标量. 我们想要证明的是
p ⁡ ( c ) = 0 当且仅当
c 是
T 的一个特征值.
首先, 设
p ⁡ ( c ) = 0 , 那么
p = ( x − c ) ⁢ q 其中
q 是一个多项式. 既然
deg ⁡ q < deg ⁡ p , 那么极小多项式
p 的定义告诉我们
q ⁡ ( T ) ≠ 0 . 选择一个向量
β 使得
q ⁡ ( T ) ⁡ β ≠ 0 . 令
α = q ⁡ ( T ) ⁡ β , 那么
0 = p ⁡ ( T ) ⁡ β = ( T − c ⁢ I ) ⁢ q ⁡ ( T ) ⁡ β = ( T − c ⁢ I ) ⁡ α 即
c 是
T 的一个特征值.
现在设
c 是
T 的一个特征值, 即存在
α ≠ 0 使得
T ⁡ α = c ⁢ α . 正如我们在之前的引理中所注意到的,
p ⁡ ( T ) ⁡ α = p ⁡ ( c ) ⁢ α . 既然
p ⁡ ( T ) = 0 而
α ≠ 0 , 我们有
p ⁡ ( c ) = 0 .
◻
令T 是一个可对角化线性算子而c 1 , … , c k 是其不同的特征值, 那么很容易看出来T 的极小多项式为p = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) . 如果α 是一个特征向量, 那么算子T − c 1 ⁢ I , … , T − c k ⁢ I 之一将α 送至0 , 因此对于每个特征向量α 有( T − c 1 ⁢ I ) ⁢ ⋯ ⁢ ( T − c k ⁢ I ) ⁡ α = 0 . 对于T 所变换的空间, 存在一个全由T 的特征向量构成的基, 于是p ⁡ ( T ) = ( T − c 1 ⁢ I ) ⁢ ⋯ ⁢ ( T − c k ⁢ I ) = 0 . 总结一下. 如果T 是一个可对角化的线性算子, 那么T 的极小多项式是不同的线性因子之积. 我们很快将看到, 这个性质刻画了可对角化算子.
例子4. 让我们试着寻找一下例子1, 2, 3里的线性算子的极小多项式. 我们将以相反的顺序讨论它们. 例子3中的线性算子被我们发现是可对角化的, 并且其特征多项式为f = ( x − 1 ) ⁢ ( x − 2 ) 2 . 根据前一段的论述, 我们知道T 的极小多项式为p = ( x − 1 ) ⁢ ( x − 2 ) . 读者可能会发现直接验证一下( A − I ) ⁢ ( A − 2 ⁢ I ) = 0 要更令人放心一点. 在例子2中, 算子T 的特征多项式也是( x − 1 ) ⁢ ( x − 2 ) 2 . 但是, 这个T 不是可对角化的, 所以我们并不能知道其极小多项式就是( x − 1 ) ⁢ ( x − 2 ) . 在这种情况下, 关于极小多项式我们又知道什么呢? 从定理3中我们得知其根是1 和2 , 但是重数未知. 因此, 我们在具有形式( x − 1 ) k ⁢ ( x − 2 ) l , k ≥ 1 , l ≥ 1 的多项式中寻找p . 先试试( x − 1 ) ⁢ ( x − 2 ) :( A − I ) ⁢ ( A − 2 ⁢ I ) = [ 2 1 − 1 2 1 − 1 2 2 − 1 ] ⁢ [ 1 1 − 1 2 0 − 1 2 2 − 2 ] = [ 2 0 − 1 2 0 − 1 4 0 − 2 ] 于是, 极小多项式的次数至少为3 . 于是, 接下来我们应该尝试( x − 1 ) 2 ⁢ ( x − 2 ) 或者( x − 1 ) ⁢ ( x − 2 ) 2 . 后者是特征多项式, 似乎是不那么随机的选择. 读者通过计算可以发现( A − I ) ⁢ ( A − 2 ⁢ I ) 2 = 0 , 因此T 的极小多项式就是其特征多项式. [译注: 虽然例子2中的T 是实向量空间上的线性算子, 以至于看起来极小多项式和特征多项式拥有相同的根的事实并不能保证极小多项式就是由那两个线性因子的幂构成. 但是, 我们也可以将其当作复数域上的线性算子, 根据前面的论证, 其极小多项式也是一样的, 而复数域是代数闭域.] 在例子1中我们讨论了ℝ 2 上的线性算子T , 其在标准基下由矩阵A = [ 0 − 1 1 0 ] 表示. 它的特征多项式为x 2 + 1 , 其没有实根. 为了确定极小多项式, 让我们忘了T 而专注于A . 如果将其视为复矩阵, 那么A 具有特征值i 和− i . 这两个根都必须出现在极小多项式的根里, 因而极小多项式被x 2 + 1 整除. 验证A 2 + I = 0 是平凡的, 于是极小多项式就是x 2 + 1 .
定理4. (Cayley-Hamilton). 令T 是有限维向量空间V 上的一个线性算子. 如果f 是T 的特征多项式, 那么f ⁡ ( T ) = 0 . 换言之, 极小多项式整除特征多项式.
证明. 之后我们将会给出另外两个独立于此证明的证明. 当前这个证明, 尽管比较短, 可能难以理解. 除了简洁性, 它还有一个优点, 就是提供了第5章建立的行列式理论的一个富于启发性且远非平凡的应用.
令
K 是一个含幺交换环, 其由所有以
T 为变元的多项式构成. 当然,
K 实际上是一个标量域上的含幺元的交换代数. 选择
V 的一个有序基
{ α 1 , … , α n } , 令
A 是在此给定基下表示
T 的矩阵, 那么
T ⁡ α i = ∑ j = 1 n A j , i ⁢ α j , 1 ≤ i ≤ n . 这些式子也可以被写成以下等价的形式
∑ j = 1 n ( δ i , j ⁢ T − A j , i ⁢ I ) ⁡ α j = 0 , 1 ≤ i ≤ n . 令
B ∈ K n × n 的元素为
B i , j = δ i , j ⁢ T − A j , i ⁢ I . 当
n = 2 时, 有
B = [ T − A 1 , 1 ⁢ I − A 2 , 1 ⁢ I − A 1 , 2 ⁢ I T − A 2 , 2 ⁢ I ] 并且 [译注: 在某种意义上, 这里存在一个"类型错误", 因为
det ⁡ ( B ) 是多项式而
f ⁡ ( T ) 是一个线性算子, 更正确的陈述是
det ⁡ ( B ) = f , 至于多项式变元是何种符号则无关紧要. 下面仍然有许多类型错误, 还请读者自行甄别.]
det ⁡ ( B ) = ( T − A 1 , 1 ⁢ I ) ⁢ ( T − A 2 , 2 ⁢ I ) − A 1 , 2 ⁢ A 2 , 1 ⁢ I = T 2 − ( A 1 , 1 + A 2 , 2 ) ⁢ T + ( A 1 , 1 ⁢ A 2 , 2 − A 1 , 2 ⁢ A 2 , 1 ) ⁢ I = f ⁡ ( T ) 其中
f 是特征多项式:
f = x 2 − ( trace ⁡ A ) ⁢ x + det ⁡ ( A ) . 对于
n > 2 的情形, 显然也有
det ⁡ ( B ) = f ⁡ ( T ) 这是因为
f 是矩阵
x ⁢ I − A 的行列式, 该矩阵的元素为多项式 [译注: 这里作者不小心将
A i , j 写成了
A j , i , 但是不影响论证的合法性, 因为转置并不影响矩阵的行列式的值]
( x ⁢ I − A ) i , j = δ i , j ⁢ x − A i , j . 我们想要证明
f ⁡ ( T ) = 0 . 为了证明
f ⁡ ( T ) 是零算子, 只需要证明其充要条件就够了, 即对于
k = 1 , … , n 有
( det ⁡ B ) ⁡ α k = 0 . 根据
B 的定义, 向量
α 1 , … , α n 满足等式
∑ j = 1 n B i , j ⁡ α j = 0 , 1 ≤ i ≤ n . 当
n = 2 时, 它或许暗示我们将其写成以下形式 [译注: 这完全是形式上的, 至于其内在的涵义, 则需要读者仔细考察, 下面的推理亦是如此]
[ T − A 1 , 1 ⁢ I − A 2 , 1 ⁢ I − A 1 , 2 ⁢ I T − A 2 , 2 ⁢ I ] ⁢ [ α 1 α 2 ] = [ 0 0 ] . 在此情形之下, 古典伴随
( adj ⁡ B ) 是矩阵
B ~ = [ T − A 2 , 2 ⁢ I A 2 , 1 ⁢ I A 1 , 2 ⁢ I T − A 1 , 1 ⁢ I ] 并且
B ~ ⁢ B = [ det ⁡ ( B ) 0 0 det ⁡ ( B ) ] . 因此, 我们有
( det ⁡ B ) ⁢ [ α 1 α 2 ] = ( B ~ ⁢ B ) ⁢ [ α 1 α 2 ] = B ~ ⁢ ( B ⁢ [ α 1 α 2 ] ) = [ 0 0 ] 一般情况下, 令
B ~ = ( adj ⁡ B ) , 那么对于每对
k 和
i , 根据
B 的定义可得 [译注: 这里的
B ~ k , i 只是附带的系数, 不被求和所绑定]
∑ j = 1 n B ~ k , i ⁢ B i , j ⁢ α j = 0 在
i 上求和, 我们有
0 = ∑ i = 1 n ∑ j = 1 n B ~ k , i ⁢ B i , j ⁢ α j = ∑ j = 1 n ( ∑ i = 1 n B ~ k , i ⁢ B i , j ) ⁡ α j 既然
B ~ ⁢ B = ( det ⁡ B ) ⁢ I , 于是
∑ i = 1 n B ~ k , i ⁢ B i , j = δ k , j ⁢ ( det ⁡ B ) 因此对于
k = 1 , … , n , 我们得到
0 = ∑ j = 1 n δ k , j ⁢ ( det ⁡ B ) ⁡ α j = ( det ⁡ B ) ⁡ α k ◻
证明. 以上证明的叙述有些混乱, 译者在此试图将其整理成更加清晰易读的形式. 设
{ α 1 , … , α n } 是
V 的一个有序基, 而
A 是
T 在此有序基下的矩阵表示. 令
B = x ⁢ I − A , 这是多项式环上的矩阵. 另外, 设
f 是
T 的特征多项式, 那么我们知道
det ⁡ ( B ) = f , 以及
B ⁢ ( adj ⁡ B ) = f ⁢ I . 根据
A 的定义, 我们知道
∑ i = 1 n B i , j ⁡ ( T ) ⁡ α i = 0 , 1 ≤ j ≤ n . 这里的
B i , j 是一个多项式, 而应用一个多项式于线性算子是第4章所定义的操作, 其结果仍然是一个线性算子. 接着, 我们可以推出对于
k = 1 , … , n 有
0 = ( adj ⁡ B ) j , k ⁡ ( T ) ⁡ ( ∑ i = 1 n B i , j ⁡ ( T ) ⁡ α i ) = ∑ i = 1 n ( adj ⁡ B ) j , k ⁡ ( T ) ⁡ B i , j ⁡ ( T ) ⁡ α i = ∑ i = 1 n [ ( adj ⁡ B ) j , k ⁢ B i , j ] ⁡ ( T ) ⁡ α i = ∑ i = 1 n [ B i , j ⁢ ( adj ⁡ B ) j , k ] ⁡ ( T ) ⁡ α i 在
j 上求和, 我们得到
0 = ∑ j = 1 n ∑ i = 1 n [ B i , j ⁢ ( adj ⁡ B ) j , k ] ⁡ ( T ) ⁡ α i = ∑ i = 1 n ∑ j = 1 n [ B i , j ⁢ ( adj ⁡ B ) j , k ] ⁡ ( T ) ⁡ α i = ∑ i = 1 n ( ∑ j = 1 n [ B i , j ⁢ ( adj ⁡ B ) j , k ] ⁡ ( T ) ) ⁡ α i = ∑ i = 1 n ( ∑ j = 1 n B i , j ⁢ ( adj ⁡ B ) j , k ) ⁡ ( T ) ⁡ α i = ∑ i = 1 n δ i , k ⁢ ( det ⁡ B ) ⁡ ( T ) ⁡ α i = ∑ i = 1 n δ i , k ⁢ f ⁡ ( T ) ⁡ α i 分别令
k = 1 , … , n , 可得
f ⁡ ( T ) ⁡ α k = 0 , 1 ≤ k ≤ n 既然
{ α 1 , … , α n } 是
V 的一个基, 而
f ⁡ ( T ) 在基的每个向量上都为零, 那么
f ⁡ ( T ) 本身肯定是一个零变换.
◻
译者注记. 以上我们补充的证明中的B 和原来的证明中的B 恰好是互为转置的关系. 读者可以看到, 这并不影响证明, 只是原本与矩阵乘法在形式上暗合的推理变成了转置了的顺序反转的版本而已. 作者的潜在想法实际上是这样的, 虽然原文只是在2 × 2 的情况下提了一下. 对于多项式上的矩阵, 我们可以定义一个应用矩阵于线性算子的entrywise操作, 其结果是一个以线性算子为元素的矩阵, 即将多项式上的矩阵的逐个元素应用于线性算子得到的矩阵. 这个操作可以保持矩阵乘法, 即如果A 和B 是多项式上的矩阵, 而T 是一个线性算子, 那么( A ⁢ B ) ⁡ ( T ) = A ⁡ ( T ) ⁢ B ⁡ ( T ) . 这里的A ⁡ ( T ) ⁢ B ⁡ ( T ) 纯粹是形式上的矩阵乘法, 其每个元素都是线性算子相乘再相加得到的. 虽然线性算子在一般情况下并不交换, 但在这里相乘的顺序的确没有那么重要, 因为我们知道对于多项式p 和q 有p ⁡ ( T ) ⁢ q ⁡ ( T ) = q ⁡ ( T ) ⁢ p ⁡ ( T ) . 除了应用多项式矩阵于线性算子和线性算子矩阵的乘法之外, 我们还需要定义应用线性算子的矩阵于向量的列矩阵的形式操作, 这点在形式上当然和矩阵乘法也是一样的, 只是乘法变成了函数应用而已. 关键的一点在于, 如果C 是这样一个向量的列矩阵, 那么A ⁡ ( T ) ⁢ [ B ⁡ ( T ) ⁢ C ] = [ A ⁡ ( T ) ⁢ B ⁡ ( T ) ] ⁢ C 这个形式上的"乘法结合律"的确也是成立的. 在定义了这些形式操作并知道这几条性质之后, 那么Cayley-Hamilton的证明的确没有什么魔法可言.
此时此刻Cayley-Hamilton定理对于我们有用主要是因为它缩小了我们寻找线性算子的极小多项式的搜索范围. 如果我们知道了在某个有序基下表示T 的矩阵A , 那么我们可以计算特征多项式f . 我们知道极小多项式p 整除f , 并且它们拥有相同的根. 不过, 除非次数很小, 没有方法可以精确计算多项式的根. 然而, 如果f 可以被分解为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k , c 1 , … , c k 各不相同 , d i ≥ 1 那么p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k , 1 ≤ r j ≤ d j . 这就是在一般情况下我们能够断言的全部事情了. 如果f 的确是这样的多项式并且其次数为n , 那么对于每个具有这种形式的多项式p , 我们可以找到一个n × n 的矩阵满足以f 为特征多项式而p 为极小多项式. 暂时我们还不会证明这个. 但是, 我们想强调的是, 具有这种形式的特征多项式告诉我们了极小多项式所具有的形式. 至于其他内容, 则无可奉告.
例子5. 令A 是4 × 4 的(有理数)矩阵A = [ 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 ] . A 的幂是容易计算的:A 2 = [ 2 0 2 0 0 2 0 2 2 0 2 0 0 2 0 2 ] , A 3 = [ 0 4 0 4 4 0 4 0 0 4 0 4 4 0 4 0 ] . 因此, A 3 = 4 ⁢ A , 即如果p = x 3 − 4 ⁢ x = x ⁢ ( x + 2 ) ⁢ ( x − 2 ) , 那么p ⁡ ( A ) = 0 . A 的极小多项式必然整除p . 这个极小多项式的次数显然不是1 , 因为次数为1 意味着A 是恒等矩阵的标量倍数. 因此, 极小多项式的候选者为: p , x ⁢ ( x + 2 ) , x ⁢ ( x − 2 ) , x 2 − 4 . 这三个二次的多项式也很容易排除, 因为一眼就能看出A 2 ≠ − 2 ⁢ A , A 2 ≠ 2 ⁢ A , A 2 ≠ 4 ⁢ I . 于是, p 即A 的极小多项式. 并且, 0 , 2 , − 2 是A 的特征值. 特征多项式里x , x − 2 , x + 2 这三个因子之一必然要重复两次. 显然, rank ⁡ ( A ) = 2 . 因此, 与特征值0 相关联的特征空间是2 维的. 根据定理2, 特征多项式显然是x 2 ⁢ ( x 2 − 4 ) , 并且A 在有理数域上相似于矩阵[ 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 − 2 ] .
练习1. 令V 是有限维向量空间. V 上的恒等算子的极小多项式是什么? V 上的零算子的极小多项式是什么?
练习2. 令a , b , c 是一个域F 的元素, A 是以下F 上的3 × 3 矩阵:A = [ 0 0 c 1 0 b 0 1 a ] . 证明A 的特征多项式为x 3 − a ⁢ x 2 − b ⁢ x − c , 并且这也是A 的极小多项式.
练习3. 令A 是4 × 4 的实矩阵A = [ 1 1 0 0 − 1 − 1 0 0 − 2 − 2 2 1 1 1 − 1 0 ] . 证明A 的特征多项式为x 2 ⁢ ( x − 1 ) 2 , 而这也是其极小多项式.
练习4. 练习3的矩阵A 在复数域上是可对角化矩阵吗?
练习5. 令V 是一个n 维向量空间而T 是V 上的一个线性算子. 设存在某个正整数k 使得T k = 0 , 证明T n = 0 .
练习6. 找出一个3 × 3 的矩阵, 其极小多项式是x 2 .
练习7. 令n 是一个正整数, V 是次数不超过n 的实多项式的向量空间, D 是V 上的微分算子. D 的极小多项式是什么?
练习8. 令P 是ℝ 2 上将每个向量平行于y 轴投影于x 轴的算子: P ⁡ ( x , y ) = ( x , 0 ) . 表明P 是线性的. P 的极小多项式是什么?
练习9. 令A 是一个n × n 的矩阵, 其特征多项式为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k . 证明c 1 ⁢ d 1 + ⋯ + c k ⁢ d k = trace ⁡ ( A ) .
练习10. 令V 是域F 上的n × n 矩阵的向量空间. 令A 是一个固定的n × n 矩阵. 令T 是V 上由T ⁡ ( B ) = A ⁢ B 定义的线性算子. 证明T 的极小多项式是A 的极小多项式.
练习11. 令A 和B 是域F 上的n × n 矩阵. 根据6.2节的练习9, 矩阵A ⁢ B 和B ⁢ A 拥有相同的特征值. 它们有着相同的特征多项式吗? 它们有着相同的极小多项式吗?
第6.4节 不变子空间 本节我们将引入一些在试图分析一个线性算子时有用的概念. 我们将运用这些想法来获得基于极小多项式的对于可对角化 (和可三角化) 算子的刻画.
定义. 令V 是一个向量空间而T 是V 上的一个线性算子. 如果W 是V 的一个子空间, 那么我们称W 在T 下不变, 如果对于每个向量α ∈ W 有向量T ⁡ α ∈ W , 即T ⁡ ( W ) ⊆ W .
例子6. 如果T 是V 上任意的线性算子, 那么V 和零子空间在T 下不变. T 的像和零空间也在T 下不变.
例子7. 令F 是一个域而D 是多项式空间F ⁡ [ x ] 上的微分算子. 令n 是正整数而W 是次数小于等于n 的多项式的子空间, 那么W 在D 下不变. 这只是另一种陈述D 是"次数降低"的算子的方式.
例子8. 这里给出例子6的一种非常有用的泛化. 令T 是V 上的一个线性算子, U 是任意的与T 交换的线性算子, 即T ⁢ U = U ⁢ T . 令W 是U 的像, 而N 是U 的零空间, 那么W 和N 都在T 下不变. 如果α 在U 的像中, 比如说α = U ⁡ β , 那么T ⁡ α = T ⁡ ( U ⁡ β ) = U ⁡ ( T ⁡ β ) , 于是T ⁡ α 也在U 的像中. 如果α ∈ N , 那么U ⁡ ( T ⁡ α ) = T ⁡ ( U ⁡ α ) = T ⁡ ( 0 ) = 0 , 因而T ⁡ α ∈ N .U = g ⁡ ( T ) 是一类与T 交换的算子, 其中g 是一个多项式. 例如, 我们可以有U = T − c ⁢ I , 其中c 是T 的一个特征值. 这个U 的零空间对于我们而言是熟悉的. 我们看到这个例子包含了显见的事实, 即与某个特征值c 相关联的T 的特征空间在T 下是不变的.
例子9. 令T 是ℝ 2 上的线性算子, 其在标准有序基下由矩阵A = [ 0 − 1 1 0 ] 表示, 那么在T 下不变的仅有ℝ 2 平凡的子空间. 若有其他的不变子空间, 那它必然是1 维的. 但是, 若W 是由某个非零向量α 张成的子空间, 那么W 在T 下不变的事实意味着α 是一个特征向量, 但是A 没有实特征值.
当子空间W 在算子T 下不变时, T 导出了空间W 上的一个线性算子T W , 其由T W ⁡ ( α ) = T ⁡ ( α ) , α ∈ W 定义. 不过, T W 和T 是相当不同的对象, 因为其定义域是W 而不是V .
若V 是有限维的, 那么W 在T 下的不变性有一个简单的矩阵解释, 或许我们现在就应该提到它. 设我们选取了V 的一个有序基𝔅 = { α 1 , … , α n } 使得𝔅 ′ = { α 1 , … , α r } 是W 的一个有序基 (r = dim ⁡ W ). 令A = [ T ] 𝔅 , 于是T ⁡ α j = ∑ i = 1 n A i , j ⁢ α i . 既然W 在T 下不变, 那么对于j ≤ r 有T ⁡ α j ∈ W , 这意味着T ⁡ α j = ∑ i = 1 r A i , j ⁢ α i , j ≤ r . 换言之, 对于j ≤ r 且i > r , A i , j = 0 .
若试图将A 写下来, 其具有分块形式A = [ B C 0 D ] 其中B 是一个r × r 矩阵, C 是一个r × ( n − r ) 矩阵, D 是一个( n − r ) × ( n − r ) 矩阵. 读者应该注意到, 根据定义, 矩阵B 恰是导出算子T W 在有序基𝔅 ′ 下的矩阵.
往往我们并不利用矩阵A 的分块形式展开关于T 和T W 的论证, 但是我们应该注意到这样的分块形式呈现了T 和T W 之间怎样的显然关系.
引理. 令W 是T 下不变的子空间. 限制算子T W 的特征多项式整除T 的特征多项式. T W 的极小多项式整除T 的极小多项式.
证明. 我们有
A = [ B C 0 D ] 其中
A = [ T ] 𝔅 而
B = [ T W ] 𝔅 ′ . 对于这样的分块形式, 我们知道
det ⁡ ( x ⁢ I − A ) = det ⁡ ( x ⁢ I − B ) ⁢ det ⁡ ( x ⁢ I − D ) . 此即证明了关于特征多项式的陈述. 注意到这里的三个
I 的大小是不同的.
矩阵
A 的
k 次幂具有分块形式
A k = [ B k C k 0 D k ] 其中
C k 是某个
r × ( n − r ) 的矩阵. 因此, 任何零化
A 的多项式也零化
B (还有
D ). 于是,
B 的极小多项式整除
A 的极小多项式.
◻
译者注记. 对于多项式f , f ⁡ ( A ) 具有形式f ⁡ ( A ) = [ f ⁡ ( B ) C f 0 f ⁡ ( D ) ] 其中C f 是某个r × ( n − r ) 的矩阵. 另外, 关于分块矩阵的运算性质, 原书几乎没有任何讨论, 或许读者应该参考其他线性代数教材.
例子10. 令T 是有限维向量空间V 上任意的线性算子. 令W 是T 的所有特征向量张成的子空间. 令c 1 , … , c k 是T 不同的特征值. 对于每个i , 令W i 是与特征值c i 相关的特征空间, 并令𝔅 i 是W i 的一个有序基. 定理2前的引理告诉我们𝔅 ′ = ( 𝔅 1 , … , 𝔅 k ) 是W 的一个有序基, 因而dim ⁡ W = dim ⁡ W 1 + ⋯ + dim ⁡ W k . 令𝔅 ′ = { α 1 , … , α r } , 其中最前面的一些向量构成了基𝔅 1 , 接下来的一些构成了基𝔅 2 , 诸如此类. 那么, 我们得到T ⁡ α i = t i ⁢ α i , i = 1 , … , r 其中( t 1 , … , t r ) = ( c 1 , c 1 , … , c 1 , … , c k , c k , … , c k ) 而c i 重复dim ⁡ W i 次. 现在W 在T 下不变, 因为对于每个α ∈ W , 我们有α = x 1 ⁢ α 1 + ⋯ + x r ⁢ α r , T ⁡ α = t 1 ⁢ x 1 ⁢ α 1 + ⋯ + t r ⁢ x r ⁢ α r . 选取任意其他的向量α r + 1 , … , α n ∈ V 使得𝔅 = { α 1 , … , α n } 是V 的一个基, 那么T 在𝔅 下的矩阵具有之前所呈现的那种分块形式, 并且限制算子T W 相对于基𝔅 ′ 的矩阵为B = [ t 1 0 ⋯ 0 0 t 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ t r ] . B (即T W ) 的特征多项式为g = ( x − c 1 ) e 1 ⁢ ⋯ ⁢ ( x − c k ) e k 其中e i = dim ⁡ W i . 而且, g 整除f , f 是T 的特征多项式. 因此, c i 作为f 的根的重数至少为dim ⁡ W i . 以上这些讨论应该能够使得定理2透明起来. 它仅仅是说T 是可对角化的当且仅当r = n , 当且仅当e 1 + ⋯ + e k = n . 在不可对角化的情形下, 它不是很有用, 因为我们不知道分块形式中的矩阵C 和D 是什么.
定义. 令W 是T 下不变的子空间, 而α 是V 中向量. 从α 到W 的T 导子 (T -conductor) 是集合S T ⁡ ( α ; W ) , 其由所有(标量域上)满足g ⁡ ( T ) ⁡ α ∈ W 的多项式g 构成.
既然算子T 在大多数讨论中都是固定的, 我们也常扔掉下标T 而就记作S ⁡ ( α ; W ) . 许多作者通常将这个多项式的集合称为"stuffer" (das einstopfende Ideal). "conductor"是更标准的术语, 想象一下, 一个不那么激进的算子g ⁡ ( T ) , 温和地将向量α 送往W . 在W = { 0 } 的特别情况下, 这个导子也被称为α 的T 零化子 (T -annihilator).
引理. 如果W 是T 下不变的子空间, 那么对于每个多项式f , W 在f ⁡ ( T ) 下不变. 因此, 对于每个α ∈ V , 导子S ⁡ ( α ; W ) 是多项式代数F ⁡ [ x ] 中的一个理想.
证明. 如果
β ∈ W , 那么
T ⁡ β ∈ W . 因此,
T ⁡ ( T ⁡ β ) = T 2 ⁡ β ∈ W . 根据归纳, 对于每个自然数
k 有
T k ⁡ β ∈ W . 取线性组合则能看出对于每个多项式
f ,
f ⁡ ( T ) ⁡ β ∈ W .
即便
W 是
V 的任意子集,
S ⁡ ( α ; W ) 的定义还是可以成立的. 如果
W 是
V 是子空间, 那么
S ⁡ ( α ; W ) 是
F ⁡ [ x ] 的子空间, 因为
( c ⁢ f + g ) ⁡ ( T ) = c ⁢ f ⁡ ( T ) + g ⁡ ( T ) . 如果
W 还在
T 下不变, 令多项式
g ∈ S ⁡ ( α ; W ) , 即
g ⁡ ( T ) ⁡ α ∈ W . 如果
f 是任意的多项式, 那么
f ⁡ ( T ) ⁡ [ g ⁡ ( T ) ⁡ α ] ∈ W . 既然
( f ⁢ g ) ⁡ ( T ) = f ⁡ ( T ) ⁢ g ⁡ ( T ) , 那么
f ⁢ g ∈ S ⁡ ( α ; W ) . 因此, 导子吸收了乘法.
◻
理想S ⁡ ( α ; W ) 唯一的首项系数为一的生成元也被称为从α 到W 的T 导子 (在W = { 0 } 的情况下也被称为T 零化子). 从α 到W 的T 导子是满足g ⁡ ( T ) ⁡ α ∈ W 的次数最低的首项系数为一的多项式g . 多项式f ∈ S ⁡ ( α ; W ) 当且仅当g 整除f . 注意到导子S ⁡ ( α ; W ) 总是包含T 的极小多项式. 因此, 每个T 导子都整除T 的极小多项式.
作为如何使用导子S ⁡ ( α ; W ) 的第一个例子, 我们将刻画可三角化算子. 线性算子T 被称为是可三角化的, 如果其在某个有序基下由三角矩阵表示.
引理. 令
V 是域
F 上的一个有限维向量空间. 令
T 是
V 上的线性算子, 其极小多项式为线性因子之积
p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k , c i ∈ F . 令
W 是
T 下不变的一个真子空间 (
W ≠ V ). 存在向量
α ∈ V 满足
α ∉ W ;( T − c ⁢ I ) ⁡ α ∈ W , 其中c 是线性算子T 的某个特征值.证明. a和b是在说从
α 到
W 的
T 导子是一个线性的多项式. 令
β ∈ V 是任意的不在
W 之中的向量. 令
g 是从
β 到
W 的
T 导子, 那么
g 整除
p , 其中
p 是
T 的极小多项式. 既然
β ∉ W , 多项式
g 不可能是常量多项式. 因此,
g = ( x − c 1 ) e 1 ⁢ ⋯ ⁢ ( x − c k ) e k 其中至少有一个
e i 是正的. 选择使得
e j > 0 的
j , 那么
( x − c j ) 整除
g :
g = ( x − c j ) ⁢ h . 根据
g 的定义, 向量
α = h ⁡ ( T ) ⁡ β ∉ W , 但是
( T − c j ⁢ I ) ⁡ α = ( T − c j ⁢ I ) ⁡ h ⁡ ( T ) ⁡ β = g ⁡ ( T ) ⁡ β ∈ W ◻
定理5. 令V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子, 那么T 是可三角化的当且仅当T 的极小多项式是域F 上的线性多项式之积.
证明. 设极小多项式被分解为
p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k . 重复应用上述引理, 我们将会抵达一个有序基
𝔅 = { α 1 , … , α n } , 而其下表示
T 的矩阵是上三角的:
[ T ] 𝔅 = [ a 1 , 1 a 1 , 2 a 1 , 3 ⋯ a 1 , n 0 a 2 , 2 a 2 , 3 ⋯ a 2 , n 0 0 a 3 , 3 ⋯ a 3 , n ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ a n , n ] . 这个式子仅仅是说
T ⁡ α j = a 1 , j ⁢ α 1 + ⋯ + a j , j ⁢ α j , 1 ≤ j ≤ n 即
T ⁡ α j 在由
α 1 , … , α j 张成的子空间之中. 为了找出
α 1 , … , α n , 我们从应用引理于
W = { 0 } 的情形开始, 这就得到了向量
α 1 . 接着, 应用引理于
W 1 , 此即
α 1 张成的空间, 我们就得到了
α 2 . 然后, 应用引理于
W 2 , 即由
α 1 和
α 2 张成的空间, 续行此法. 值得说明的是, 在
α 1 , … , α i 找到后, 上面这样的三角类型的关系对于
j = 1 , … , i 成立, 这保证了由
α 1 , … , α i 张成的子空间在
T 下是不变的.
如果
T 是可三角化的, 那么显然
T 的特征多项式具有形式
f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k , c i ∈ F . 看看上面的三角矩阵, 我们知道对角线元素
a 1 , 1 , … , a n , n 是其特征值, 其中
c i 重复
d i 次. 但是, 如果特征多项式
f 可以被这么分解, 那么极小多项式
p 当然也可以, 因为
p 整除
f .
◻
推论. 令F 是代数闭域, 例如复数域, 那么每个域F 上的n × n 矩阵都在F 上相似于一个三角矩阵.
定理6. 令V 是域F 上的有限维向量空间, T 是V 上的一个线性算子, 那么T 是可对角化的当且仅当T 的极小多项式具有形式p = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) 其中c 1 , … , c k 是F 的不同元素.
证明. 之前我们已经注意到, 如果
T 是可对角化的, 那么极小多项式是不同的线性因子之积 (见例子4前的讨论). 为了证明其逆, 令
W 是
T 的所有特征向量张成的子空间, 并设
W ≠ V . 根据定理5的证明所用到的引理, 存在向量
α ∉ W 和
T 的一个特征值
c j 满足
β = ( T − c j ⁢ I ) ⁡ α ∈ W . 既然
β ∈ W , 那么
β = β 1 + ⋯ + β k 其中
T ⁡ β i = c i ⁢ β i , 1 ≤ i ≤ k , 因而对于每个多项式
h 有
h ⁡ ( T ) ⁡ β = h ⁡ ( c 1 ) ⁢ β 1 + ⋯ + h ⁡ ( c k ) ⁢ β k ∈ W . 既然
p = ( x − c j ) ⁢ q , 其中
q 是某个多项式, 并且
q − q ⁡ ( c j ) = ( x − c j ) ⁢ h 我们有
q ⁡ ( T ) ⁡ α − q ⁡ ( c j ) ⁢ α = h ⁡ ( T ) ⁡ ( T − c j ⁢ I ) ⁡ α = h ⁡ ( T ) ⁡ β 但是
h ⁡ ( T ) ⁡ β ∈ W , 并且因为
0 = p ⁡ ( T ) ⁡ α = ( T − c j ⁢ I ) ⁡ q ⁡ ( T ) ⁡ α 向量
q ⁡ ( T ) ⁡ α ∈ W , 于是
q ⁡ ( c j ) ⁢ α ∈ W . 既然
α ∉ W , 我们有
q ⁡ ( c j ) = 0 , 但这与
p 的根互异矛盾 [译注: 显然, 此时需要计入重数].
◻
在第6.7节末, 我们将给出定理6的另一个证明. 定理6除了作为优雅的结果, 其在计算方面也是实用的. 设我们有一个线性算子T , 在某个有序基下由矩阵A 表示, 现在我们想要知道T 是否是可对角化的. 我们计算其特征多项式f , 如果我们可以将f 分解为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 那么我们有两种判断的方法. 第一种方法是看我们能否对于每个i 找到与特征值c i 相关的d i 个线性无关的特征向量. 另一种方法是检验( T − c 1 ⁢ I ) ⁢ ⋯ ⁢ ( T − c k ⁢ I ) 是否是零算子.
定理5提供了对于Cayley-Hamilton定理的一个不同的证明. 这个定理对于三角矩阵而言是容易证明, 而通过定理5, 对于任意代数闭域上的矩阵我们都可以得到此结果. 实际上, 任何域都是某个代数闭域的子域. 如果读者知道这个结果, 那么就得到了任意域上的矩阵的Cayley-Hamilton定理. 如果我们至少承认我们对于代数基本定理 (即复数域是代数闭域) 的讨论, 那么定理5提供了对于复矩阵的Cayley-Hamilton的一个证明, 此证明独立于我们之前所给出的.
练习1. 令
T 是
ℝ 2 上的线性算子, 其在标准有序基下的矩阵为
A = [ 1 − 1 2 2 ] . 证明T 的不变子空间仅可能是平凡的. 如果U 是ℂ 2 上的线性算子, 其在标准有序基下的矩阵和T 一样, 表明U 拥有一维的不变子空间. 练习2. 令W 是T 的一个不变子空间. 证明限制算子T W 的极小多项式整除T 的极小多项式, 但是不涉及矩阵的概念.
练习3. 令c 是T 的一个特征值, W 是与特征值c 相关的特征空间. 限制算子T W 是什么?
练习4. 令A = [ 0 1 0 2 − 2 2 2 − 3 2 ] . A 在实数域上相似于三角矩阵吗? 如果可以, 找出这样的一个三角矩阵.
练习5. 每个满足A 2 = A 的矩阵A 都是可对角化的.
练习6. 令T 是n 维向量空间V 上的一个可对角化算子, W 是在T 下不变的一个子空间. 证明限制算子T W 也是可对角化的.
练习7. 令T 是域ℂ 上的一个有限维向量空间上的一个线性算子. 证明T 是可对角化的当且仅当T 可由某个域ℂ 上根互异的多项式零化.
练习8. 令T 是V 上的一个线性算子. 如果V 的每个子空间都在T 下不变, 那么T 是恒等算子的标量倍数.
练习9. 令T 是区间[ 0 , 1 ] 上的连续函数空间上的不定积分算子( T ⁡ f ) ⁡ ( x ) = ∫ 0 x f ⁡ ( t ) d t . 多项式函数空间在T 下不变吗? 可微函数空间呢? x = 1 2 时为零的函数空间呢?
练习10. 令A 是一个3 × 3 的实矩阵. 证明如果A 在ℝ 上不相似于一个三角矩阵, 那么A 在ℂ 上相似于一个对角矩阵.
练习11. 对还是错? 若三角矩阵A 相似于一个对角矩阵, 那么A 已经是一个对角矩阵了.
练习12. 令T 是某个代数闭域F 上的一个有限维向量空间上的一个线性算子, f 是域F 上的一个多项式. 证明c 是f ⁡ ( T ) 的特征值当且仅当c = f ⁡ ( t ) , 其中t 是T 的一个特征值.
练习13. 令
V = F n × n ,
A ∈ V ,
V 上的线性算子
T 和
U 分别由
T ⁡ ( B ) = A ⁢ B , U ⁡ ( B ) = A ⁢ B − B ⁢ A 定义.
对还是错? 如果A (在F 上)可对角化, 那么T 是可对角化的. 对还是错? 如果A 是可对角化的, 那么U 是可对角化的. 第6.5节 同时三角化; 同时对角化 令V 是一个有限维向量空间, 𝔉 是V 上的一族线性算子. 我们可以问何时能够同时三角化或者对角化这些𝔉 中的线性算子, 即找到一个基𝔅 使得矩阵[ T ] 𝔅 , T ∈ 𝔉 都是三角矩阵 (或者对角矩阵). 在可对角化的情形, 𝔉 必然是可交换算子族, 即对于所有T , U ∈ 𝔉 , U ⁢ T = T ⁢ U . 当然, 每个𝔉 中的算子也必然是可对角化的. 为了同时三角化, 每个𝔉 中的算子必然是可三角化的, 但是𝔉 不必是一个可交换算子族. 然而, 可交换是同时三角化的充分条件 (如果每个T 都可以被单独三角化). 这些结果只需对于定理5和定理6的证明作小的修改即可得到.
子空间W 在算子族𝔉 下不变, 如果其在𝔉 中的每个算子下不变.
引理. 令
𝔉 是
V 上一个可三角化算子的交换族. 令
W 是一个
V 的真子空间, 其在
𝔉 下不变. 存在
V 中向量
α 满足
α ∉ W ;对于每个T ∈ 𝔉 , 向量T ⁡ α 在α 和W 张成的子空间之中. 证明. 不失一般性, 假定
𝔉 仅包含有限数目的算子, 这是出于以下观察. 令
{ T 1 , … , T r } 是
𝔉 的一个极大线性无关子集, 即
𝔉 张成的子空间的一个基. 如果
α 是使得b对于每个
T i 成立的向量, 那么b将对于
T 1 , … , T r 的每个线性组合成立.
根据定理5之前的引理 (这个引理是对于单一的算子而言的), 我们可以找到向量
β 1 ∉ W 和标量
c 1 满足
( T 1 − c 1 ⁢ I ) ⁡ β 1 ∈ W . 令
V 1 = { β ∈ V | ( T 1 − c 1 ⁢ I ) ⁡ β ∈ W } , 那么
V 1 是
V 的一个子空间且以
W 为真子空间. 更进一步,
V 1 在
𝔉 下不变, 以下是原因. 如果
T 与
T 1 交换, 那么
( T 1 − c 1 ⁢ I ) ⁡ ( T ⁡ β ) = T ⁡ ( T 1 − c 1 ⁢ I ) ⁡ β . 如果
β ∈ V 1 , 那么
( T 1 − c 1 ⁢ I ) ⁡ β ∈ V 1 . 既然
W 在
𝔉 下不变, 那么对于每个
β ∈ V 1 和每个
T ∈ 𝔉 , 我们有
T ⁡ ( T 1 − c 1 ⁢ I ) ⁡ β ∈ W , 即
T ⁡ β ∈ V 1 .
现在
W 是
V 1 的一个真子空间. 令
U 2 是由
T 2 限制于子空间
V 1 得到的线性算子.
U 2 的极小多项式整除
T 2 的极小多项式. 因此, 我们可以应用定理5之前的引理于
U 2 和不变子空间
W . 我们得到了一个向量
β 2 ∈ V 1 但是
β 2 ∉ W 和一个标量
c 2 满足
( T 2 − c 2 ⁢ I ) ⁡ β 2 ∈ W . [译注: 实际上先是
U 2 , 然后变为
T 2 .] 注意到
β 2 ∉ W ;( T 1 − c 1 ⁢ I ) ⁡ β 2 ∈ W ;( T 2 − c 2 ⁢ I ) ⁡ β 2 ∈ W .令
V 2 = { β ∈ V 1 | ( T 2 − c 2 ⁢ I ) ⁡ β ∈ W } , 那么
V 2 在
𝔉 下不变. 应用定理5之前的引理于
U 3 , 即限制
T 3 于
V 2 得到的算子. 不断重复施行这样的过程, 我们将抵达一个向量
α = β r ∉ W 满足
( T j − c j ⁢ I ) ⁡ α ∈ W , j = 1 , … , r .
◻
定理7. 令V 是域F 上的一个有限维向量空间. 令𝔉 是V 上的一个可三角化算子的交换族. 存在V 的一个有序基使得每个𝔉 中的算子在这个基下都由三角矩阵表示.
证明. 考虑到刚才我们证明的引理, 这个定理的证明和定理5是一样的, 如果读者将
T 替换为
𝔉 .
◻
推论. 令𝔉 是某个代数闭域F 上的一个n × n 矩阵的交换族, 存在域F 上的一个非奇异矩阵P 使得对于每个矩阵A ∈ 𝔉 , P − 1 ⁢ A ⁢ P 是上三角矩阵.
定理8. 令𝔉 是有限维向量空间V 上的一个可对角化算子的交换族, 存在V 的一个有序基使得每个𝔉 中的算子在这个基下都由对角矩阵表示.
证明. 我们可以修饰定理7之前的引理, 使其适应于可对角化的情形, 以此来证明定理8. 之前在证明定理6的时候, 我们就已经这么做了, 通过修饰定理5之前的引理以使其适应于可对角化的情形. 然而, 此时通过
V 的维数上的归纳进行证明是更加容易的.
如果
dim ⁡ V = 1 , 没有需要证明的东西. 假定定理对于维数小于
n 的向量空间成立, 令
V 是一个
n 维空间. 选择任意不是恒等算子标量倍数的算子
T ∈ 𝔉 . [译注: 若不然, 则
𝔉 中的算子在任意的基下均可同时对角化.] 令
c 1 , … , c k 是
T 不同的特征值, 并令
W i 是
c i 所对应的特征空间. [译注:
k ≥ 2 .] 固定一个下标
i , 那么
W i 在任意与
T 交换的算子下都是不变的. 令
𝔉 i 是限制
𝔉 中算子于(不变)子空间
W i 的线性算子族. 因为限制算子的极小多项式整除本来的算子的极小多项式, 所以每个
𝔉 i 中的算子也都是可对角化的. 既然
dim ⁡ W i < dim ⁡ V , 根据归纳假设,
𝔉 i 中的算子可以被同时对角化. [译注: 这个限制算子族当然也是交换的族.] 换言之,
W i 拥有一个基
𝔅 i , 其包含的向量同时为每个
𝔉 i 中的算子的特征向量.
既然
T 是可对角化的, 定理2之前的引理告诉我们
𝔅 = ( 𝔅 1 , … , 𝔅 k ) 是
V 的一个基. 这就是我们要找的基.
◻
练习1. 找到一个可逆的实矩阵
P 使得
P − 1 ⁢ A ⁢ P 和
P − 1 ⁢ B ⁢ P 都是对角矩阵, 其中
A 和
B 是实矩阵
A = [ 1 2 0 2 ] , B = [ 3 − 8 0 − 1 ] A = [ 1 1 1 1 ] , B = [ 1 a a 1 ] 练习2. 令𝔉 是一个3 × 3 复矩阵的交换族. 𝔉 至多可以包含多少线性无关的矩阵? n × n 的情形呢?
练习3. 令T 是n 维空间V 上的一个线性算子, 设T 具有n 个不同的特征值. 证明对于任意与T 交换的线性算子U , 存在多项式g 使得U = g ⁡ ( T ) .
练习4. 令A , B , C , D 是交换的n × n 复矩阵. 令E 是2 ⁢ n × 2 ⁢ n 矩阵E = [ A B C D ] . 证明det ⁡ ( E ) = det ⁡ ( A ⁢ D − B ⁢ C ) .
练习5. 令V = F n × n , A ∈ V , V 上的线性算子T A ⁡ ( B ) = A ⁢ B − B ⁢ A . 考虑线性算子族{ T A ∈ L ⁡ ( V , V ) | A 为对角矩阵 } , 证明其可以被同时对角化.
第6.6节 直和分解 当我们继续分析单一的线性算子, 我们将以稍微复杂一点的方式刻画我们的想法——基于子空间而不是矩阵. 本章之初, 我们这样描述我们的目的: 找到一个基使得线性算子的矩阵呈现特别简单的形式. 现在, 我们将我们的目的描述为: 将线性算子所在的空间分解为不变子空间的直和使得这些子空间上的限制算子是简单的.
定义. 令W 1 , … , W k 是向量空间V 的子空间. 我们称W 1 , … , W k 是线性无关的, 如果α 1 + ⋯ + α k = 0 , α i ∈ W i 可以推出每个α i = 0 .
对于k = 2 , W 1 和W 2 线性无关当且仅当W 1 ∩ W 2 = { 0 } . 如果k > 2 , W 1 , … , W k 线性无关不仅是说W 1 ∩ ⋯ ∩ W k = { 0 } , 实际上每个W j 与其他子空间W i 之交都仅是零子空间.
令W = W 1 + ⋯ + W k , 那么每个向量α ∈ W 均可被表示为和α = α 1 + ⋯ + α k , α i ∈ W i . 线性无关的重要性在于, 如果W 1 , … , W k 是线性无关的, 那么α 的这种表示是唯一的, 因为如果α = β 1 + ⋯ + β k , β i ∈ W i 那么0 = ( α 1 − β 1 ) + ⋯ + ( α k − β k ) , 于是α i − β i = 0 , i = 1 , … , k . 因此, 当W 1 , … , W k 线性无关时, 我们可以将W 中的向量当作k 元组( α 1 , … , α k ) , α i ∈ W i 操作, 就像我们操作ℝ k 的向量一样.
引理. 令
V 是有限维向量空间,
W 1 , … , W k 是
V 的子空间,
W = W 1 + ⋯ + W k , 那么以下条件等价.
W 1 , … , W k 线性无关.对于每个j , 2 ≤ j ≤ k , 我们有W j ∩ ( W 1 + ⋯ + W j − 1 ) = { 0 } . 如果𝔅 i 是W i 的一个有序基, 其中1 ≤ i ≤ k , 那么𝔅 = ( 𝔅 1 , … , 𝔅 k ) 是W 的一个有序基. 证明. 假定a成立, 令向量
α ∈ W j ∩ ( W 1 + ⋯ + W j − 1 ) , 那么存在向量
α 1 , … , α j − 1 , α i ∈ W i 满足
α = α 1 + ⋯ + α j − 1 . 鉴于
α 1 + ⋯ + α j − 1 + ( − α ) + 0 + ⋯ + 0 = 0 以及
W 1 , … , W k 是线性无关的, 必然有
α 1 = α 2 = ⋯ = α j − 1 = α = 0 .
现在我们证明b可以推出a. 假定b成立, 若a不成立, 存在不全为零的向量
α 1 , … , α k , α i ∈ W i 使得
0 = α 1 + ⋯ + α k . 令
j = max ⁡ { i ∈ ℕ | α i ≠ 0 } ,
j 是良定义的, 那么
0 = α 1 + ⋯ + α j , α j ≠ 0 于是
α j = − α 1 − ⋯ − α j − 1 是
W j ∩ ( W 1 + ⋯ + W j − 1 ) 中的一个非零向量, 这与条件b相矛盾.
现在我们已经知道a和b是等价的, 让我们看看为什么a等价于c. 假定a成立, 令
𝔅 i 是
W i 的一个基, 其中
1 ≤ i ≤ k , 并设
𝔅 = ( 𝔅 1 , … , 𝔅 k ) .
𝔅 中向量之间任意的线性关系都具有形式
β 1 + ⋯ + β k = 0 其中
β i 是
𝔅 i 的某个线性组合. 既然
W 1 , … , W k 是线性无关的, 每个
β i 都是
0 . 又因为每个
𝔅 i 都是线性无关的,
𝔅 中的向量之间的线性关系只可能是平凡的. [译注: 这段论证实际上是从定理2之前的引理以及该引理的证明那里照搬过来的.]
我们将由c推出a的证明留作练习 (练习2).
◻
若以上引理中任意的条件成立 (自然其他条件也成立), 那么我们称和W = W 1 + ⋯ + W k 是直的, 或者说W 是W 1 , … , W k 的直和, 记作W = W 1 ⊕ ⋯ ⊕ W k . 在其他文献中, 读者会发现这种和也被称为W 1 , … , W k 的独立和或者内直和.
例子11. 令V 是域F 上的一个有限维向量空间, { α 1 , … , α n } 是V 任意的基. 如果W i 是由α i 张成的一维子空间, 那么V = W 1 ⊕ ⋯ ⊕ W n .
例子12. 令n 是一个正整数, F 是复数域的一个子域, V 是F n × n , W 1 是所有对称矩阵构成的子空间, W 2 是所有斜对称矩阵构成的子空间, 那么V = W 1 ⊕ W 2 . 如果A ∈ V , 那么A 作为W 1 的向量和W 2 的向量之和的唯一表达为A = A 1 + A 2 , A 1 = 1 2 ⁢ ( A + A t ) , A 2 = 1 2 ⁢ ( A − A t ) .
例子13. 令T 是有限维向量空间V 上任意的线性算子, c 1 , … , c k 是其不同的特征值, W i 是c i 对应的特征空间, 那么W 1 , … , W k 是线性无关的, 见定理2之前的引理. 特别地, 如果T 是可对角化的, 那么V = W 1 ⊕ ⋯ ⊕ W k . [译注: 特征值当然有可能并不存在.]
定义. 如果V 是一个向量空间, V 的一个投影是V 上一个满足E 2 = E 的线性算子E .
设E 是一个投影, 令R 是E 的像, N 是E 的零空间.
向量β ∈ R 当且仅当E ⁡ β = β . 若存在α 使得β = E ⁡ α , 那么E ⁡ β = E 2 ⁡ α = E ⁡ α = β . 反过来, 如果β = E ⁡ β , 那么(当然有)β ∈ R . V = R ⊕ N .α 作为R 和N 的向量之和的唯一表达为α = E ⁡ α + ( α − E ⁡ α ) .根据1, 2, 3, 很容易看出以下事实. 如果
R 和
N 是
V 的子空间满足
V = R ⊕ N , 那么存在唯一的投影算子
E 以
R 为像且以
N 为零空间. 这个算子被称为沿着
N 到
R 上的投影.
任意的投影E 都可以被(平凡地)对角化. 如果{ α 1 , … , α r } 是R 的一个基, { α r + 1 , … , α n } 是N 的一个基, 那么基𝔅 = { α 1 , … , α n } 可以对角化E :[ E ] 𝔅 = [ I 0 0 0 ] 其中I 是r × r 的恒等矩阵. 这有助于解释某些和投影相关的术语. 读者应该看看平面ℝ 2 或者空间ℝ 3 里的各种例子以使得他们信服投影具有特定的几何意义.
投影可以用来刻画空间V 的直和分解. 设V = W 1 ⊕ ⋯ ⊕ W k . 对于每个j 我们可以定义一个V 上的算子E j . 令α ∈ V , 若α = α 1 + ⋯ + α k , α i ∈ W i , 定义E j ⁡ α = α j , 那么E j 是良定义的法则. 容易看出E j 是线性的, E j 的像是W j , 以及E j 2 = E j . E j 的零空间是子空间( W 1 + ⋯ + W j − 1 + W j + 1 + ⋯ + W k ) . 这是因为E j ⁡ α = 0 的意思即α j = 0 , 或者说α 是除了W j 之外的子空间W i 的向量的和. 基于投影E j , 对于每个α ∈ V , 我们有α = E 1 ⁡ α + ⋯ + E k ⁡ α . 这是在说I = E 1 + ⋯ + E k . 注意到如果i ≠ j , 那么E i ⁢ E j = 0 , 因为E j 的像W j 包含于E i 的零空间之中. 我们现在将我们的发现总结如下, 并证明其逆.
定理9. 如果
V = W 1 ⊕ ⋯ ⊕ W k , 那么存在
V 上的
k 个线性算子
E 1 , … , E k 满足
每个E i 都是投影, 即E i 2 = E i ; 若i ≠ j , 那么E i ⁢ E j = 0 ; I = E 1 + ⋯ + E k ;E i 的像是W i .反过来, 如果
E 1 , … , E k 是
V 上的
k 个线性算子并且满足条件i, ii, iii, 令
W i 是
E i 的像, 那么
V = W 1 ⊕ ⋯ ⊕ W k . [译注: 实际上, ii和iii可以推出i.]
证明. 我们仅需证明逆命题. 设
E 1 , … , E k 是
V 上满足前三个条件的线性算子, 令
W i 是
E i 的像, 那么定有
V = W 1 + ⋯ + W k 这是因为根据条件iii, 对于每个
α ∈ V 我们有
α = E 1 ⁡ α + ⋯ + E k ⁡ α 而
E i ⁡ α ∈ W i . 这个
α 的表达方式是唯一的, 因为若
α = α 1 + ⋯ + α k 而
α i ∈ W i , 即存在
β i 满足
α i = E i ⁡ β i , 那么根据i和ii我们有
E j ⁡ α = ∑ i = 1 k E j ⁡ α i = ∑ i = 1 k E j ⁡ E i ⁡ β i = E j 2 ⁡ β j = E j ⁡ β j = α j 这表明
V 是
W i 的直和.
◻
练习1. 令V 是一个有限维向量空间, W 1 是V 任意的子空间, 证明存在V 的子空间W 2 满足V = W 1 ⊕ W 2 .
练习2. 令V 是一个有限维向量空间, 而W 1 , … , W k 是满足V = W 1 + ⋯ + W k 且 dim ⁡ V = dim ⁡ W 1 + ⋯ + dim ⁡ W k 的子空间, 证明V = W 1 ⊕ ⋯ ⊕ W k .
练习3. 寻找这样一个投影E , 其将ℝ 2 沿着由( 1 , 2 ) 张成的子空间投影至由( 1 , − 1 ) 张成的子空间.
练习4. 如果E 1 和E 2 是投影至线性无关的子空间的算子, 那么E 1 + E 2 也是一个投影, 对还是错呢?
练习5. 如果E 是一个投影而f 是一个多项式, 那么f ⁡ ( E ) = a ⁢ I + b ⁢ E . 如何以f 的系数表示a 和b ?
练习6. 对还是错? 如果一个可对角化算子的特征值仅是0 和1 , 那么它是一个投影.
练习7. 证明如果E 是沿着N 到R 上的投影, 那么( I − E ) 是沿着R 到N 上的投影.
练习8. 令
E 1 , … , E k 是空间
V 上满足
E 1 + ⋯ + E k = I 的线性算子.
证明若i ≠ j 时有E i ⁢ E j = 0 , 那么对于每个i 有E i 2 = E i . 在k = 2 的情形下, 证明a的逆, 即若有E 1 + E 2 = I 且E 1 2 = E 1 , E 2 2 = E 2 , 那么E 1 ⁢ E 2 = 0 . 练习9. 令V 是一个实向量空间, E 是V 上的一个幂等线性算子, 即投影, 证明( I + E ) 是可逆的, 并找出( I + E ) − 1 是什么.
练习10. 令F 是复数域的一个子域 (或者一个特征为零的域), V 是F 上的一个有限维向量空间, E 1 , … , E k 是V 的投影并且满足E 1 + ⋯ + E k = I . 证明如果i ≠ j , 那么E i ⁢ E j = 0 . (提示: 使用迹函数并问问自己投影的迹是什么.)
练习11. 令V 是一个向量空间, W 1 , … , W k 是V 的子空间, V j = W 1 + ⋯ + W j − 1 + W j + 1 + ⋯ + W k . 设V = W 1 ⊕ ⋯ ⊕ W k , 证明对偶空间V ⁎ 拥有直和分解V ⁎ = V 1 0 ⊕ ⋯ ⊕ V k 0 .
第6.7节 不变直和 我们主要对于这样的直和分解V = W 1 ⊕ ⋯ ⊕ W k 感兴趣, 其每个子空间W i 都在某个给定的线性算子T 下不变. 给定这样一种对于V 的分解, T 通过限制导出了每个W i 上的线性算子T i . T 的作用方式如下. 如果α ∈ V , 那么我们有着唯一的分解α = α 1 + ⋯ + α k , α i ∈ W i 然后T ⁡ α = T 1 ⁡ α 1 + ⋯ + T k ⁡ α k . 我们将这种情况描述为T 是算子T 1 , … , T k 的直和. 必须要记得使用此术语时T i 不是V 上而是子空间W i 上的线性算子. V = W 1 ⊕ ⋯ ⊕ W k 的事实允许我们将每个α ∈ V 与唯一的一个k 元组( α 1 , … , α k ) 联系起来, 其中α i ∈ W i (通过α = α 1 + ⋯ + α k ), 再加上每个W i 都在T 下不变, 我们可以将T 在V 上的作用视为T i 于W i 上的各独立作用之和. 我们寻找不变直和分解的最终目的当然还是研究T , 分解中的每个T i 的性质都应该是比较简单的.
在观察例子之前, 让我们先来指出其矩阵形式的类比. 设我们为每个W i 挑选了一个有序基𝔅 i , 那么𝔅 = ( 𝔅 1 , … , 𝔅 k ) 是V 的一个有序基. 根据之前讨论单一不变子空间的矩阵类比的经验, 很容易看出来如果A = [ T ] 𝔅 且A i = [ T i ] 𝔅 i , 那么A 具有分块形式A = [ A 1 0 ⋯ 0 0 A 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ A k ] .
往往我们藉由与直和分解相关联的投影来刻画那些子空间 (定理9), 于是我们需要能够基于投影来重述不变直和.
定理10. 令T 是空间V 上的一个线性算子, 而W 1 , … , W k 和E 1 , … , E k 的情况和定理9一样, 那么每个W i 都在T 下不变的充要条件是T 与每个E i 交换, 即T ⁢ E i = E i ⁢ T , i = 1 , … , k .
证明. 设
T 与每个
E i 交换. 令
α ∈ W j , 那么
E j ⁡ α = α , 并有
T ⁡ α = T ⁡ ( E j ⁡ α ) = E j ⁡ ( T ⁡ α ) 这表明
T ⁡ α ∈ W j , 即
W j 在
T 下不变.
现在假定每个
W i 都在
T 下不变, 我们将证明
T ⁢ E j = E j ⁢ T . 令
α ∈ V , 那么
α = E 1 ⁡ α + ⋯ + E k ⁡ α , T ⁡ α = T ⁡ E 1 ⁡ α + ⋯ + T ⁡ E k ⁡ α . 因为
E i ⁡ α ∈ W i , 并且
W i 在
T 下不变, 于是
T ⁡ ( E i ⁡ α ) ∈ W i , 存在向量
β i 满足
T ⁡ ( E i ⁡ α ) = E i ⁡ β i , 那么
E j ⁡ T ⁡ E i ⁡ α = E j ⁡ E i ⁡ β i = { 0 , 如果 i ≠ j E j ⁡ β j , 如果 i = j 因此
E j ⁡ T ⁡ α = E j ⁡ T ⁡ E 1 ⁡ α + ⋯ + E j ⁡ T ⁡ E k ⁡ α = E j ⁡ β j = T ⁡ E j ⁡ α 这对于每个
α ∈ V 自然都是成立的, 所以
T ⁢ E j = E j ⁢ T . [译注: 以
β i 作为媒介实际上是不必要的, 在译者看来直接讨论更加清晰明了.]
◻
现在我们将以不变直和分解 (与T 交换的投影) 的语言刻画可对角化算子T . 这将有助于我们理解之后一些更加深刻的分解定理. 这种描述乍看上去可能比较复杂, 但是读者应该明白这是我们第一次得以瞥见一种非常有效的方法, 其可以将子空间, 基, 矩阵之类的相关问题规约为线性算子的代数计算. 在稍微熟悉之后, 这种推理方法的有效和优雅应该是显然的.
定理11. 令
T 是有限维向量空间
V 上的一个线性算子. 如果
T 是可对角化的并且
c 1 , … , c k 是其不同的特征值, 那么存在
V 上的线性算子
E 1 , … , E k 满足
T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k ;I = E 1 + ⋯ + E k ;若i ≠ j , 则E i ⁢ E j = 0 ; E i 2 = E i (即E i 是投影);E i 的像是与c i 相关联的特征空间.反过来, 如果存在
k 个不同的标量
c 1 , … , c k 和
k 个非零的线性算子
E 1 , … , E k 满足条件i, ii, iii, 那么
T 是可对角化的,
c 1 , … , c k 是
T 的不同的特征值, 并且条件iv和v也得到满足.
证明. 设
T 是可对角化的, 并以
c 1 , … , c k 为不同的特征值. 令
W i 是与
c i 相关联的特征空间. 正如我们之前所见,
V = W 1 ⊕ ⋯ ⊕ W k . 和定理9一样, 令
E 1 , … , E k 是与该分解对应的投影, 那么ii, iii, iv, v被满足是显然的. 为了验证i, 我们按照以下方式处理. 对于每个
α ∈ V , 我们有
α = E 1 ⁡ α + ⋯ + E k ⁡ α 于是
T ⁡ α = T ⁡ E 1 ⁡ α + ⋯ + T ⁡ E k ⁡ α = c 1 ⁢ E 1 ⁡ α + ⋯ + c k ⁢ E k ⁡ α 换言之,
T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k .
现在设我们给定了一个以不同的标量
c i 为特征值的线性算子
T 以及非零的线性算子
E i 满足i, ii, iii. 既然当
i ≠ j 时有
E i ⁢ E j = 0 , 那么我们给
I = E 1 + ⋯ + E k 两边同乘
E i 就立即得到了
E i 2 = E i . 对于
T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k 两边右乘
E i , 那么我们有
T ⁢ E i = c i ⁢ E i , 这表明了
E i 的像之中的向量也在
( T − c i ⁢ I ) 的零空间里. 因为我们已经假定
E i ≠ 0 , 所以
( T − c i ⁢ I ) 的零空间中至少存在一个非零向量, 即
c i 是
T 的一个特征值. 而且, 这些
c i 就是
T 的全部的特征值了. 这是因为如果
c 是任意的特征值, 那么
T − c ⁢ I = ( c 1 − c ) ⁢ E 1 + ⋯ + ( c k − c ) ⁢ E k 于是若
( T − c ⁢ I ) ⁡ α = 0 , 我们必有
( c i − c ) ⁢ E i ⁡ α = 0 . 如果
α 不是零向量, 那么存在某个
i 使得
E i ⁡ α ≠ 0 , 于是对于这个
i 我们有
c i − c = 0 .
当然
T 是可对角化的, 因为我们已经表明了每个
E i 的像中的向量都是
T 的特征向量, 而且
I = E 1 + ⋯ + E k 告诉我们这些特征向量可以张成
V . 剩下来我们需要说明的就只是
( T − c i ⁢ I ) 的零空间恰为
E i 的像. 但这是显然的, 因为如果
T ⁡ α = c i ⁢ α , 那么
∑ j = 1 k ( c j − c i ) ⁢ E j ⁡ α = 0 因此对于每个
j 有
( c j − c i ) ⁢ E j ⁡ α = 0 那么对于
j ≠ i 都有
E j ⁡ α = 0 既然
α = E 1 ⁡ α + ⋯ + E k ⁡ α 并且
j ≠ i 时有
E j ⁡ α = 0 , 我们有
α = E i ⁡ α , 即
α 在
E i 的像之中.
◻
定理9的一部分告诉我们, 对于一个可对角化算子T 而言, 标量c 1 , … , c k 和算子E 1 , … , E k 由条件i, ii, iii以及c i 不同和E i 非零的事实所唯一确定. 这种分解T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k 的一个令人愉快的特性在于如果g 是域F 上任意的多项式, 那么g ⁡ ( T ) = g ⁡ ( c 1 ) ⁢ E 1 + ⋯ + g ⁡ ( c k ) ⁢ E k . 我们将证明的细节留给读者. 为了看明白其是如何得以证明的, 读者只需对于每个正整数r 计算T r , 例如T 2 = ( ∑ i = 1 k c i ⁢ E i ) ⁢ ( ∑ j = 1 k c j ⁢ E j ) = ∑ i = 1 k ∑ j = 1 k c i ⁢ c j ⁢ E i ⁢ E j = ∑ i = 1 k c i 2 ⁢ E i 2 = ∑ i = 1 k c i 2 ⁢ E i 读者应该将这个结果与A 为对角矩阵时的g ⁡ ( A ) 进行比较, 因为g ⁡ ( A ) 就是以g ⁡ ( A 1 , 1 ) , … , g ⁡ ( A n , n ) 为对角元素的对角矩阵.
我们特别想要指出当人们应用与c 1 , … , c k 相对应的Lagrange多项式p j = ∏ i ≠ j ( x − c i ) ( c j − c i ) 时会发生什么. 我们有p j ⁡ ( c i ) = δ i , j , 这表明p j ⁡ ( T ) = ∑ i = 1 k δ i , j ⁢ E i = E j 因此投影E i 不仅与T 交换, 还是多项式应用于T 的结果.
这样应用多项式于T 的计算可以用来给出定理6的另一个证明, 定理6基于极小多项式刻画了可对角化的条件. 这个证明完全独立于我们先前所给出的.
如果T 是可对角化的, T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k , 那么对于每个多项式g 有g ⁡ ( T ) = g ⁡ ( c 1 ) ⁢ E 1 + ⋯ + g ⁡ ( c k ) ⁢ E k 因此g ⁡ ( T ) = 0 当且仅当对于每个i 有g ⁡ ( c i ) = 0 . 特别地, T 的极小多项式为p = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) .
现在设T 是以p = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) 为极小多项式的线性算子, 其中c 1 , … , c k 是标量域的不同元素. 我们构造Lagrange多项式p j = ∏ i ≠ j ( x − c i ) ( c j − c i ) . 回忆一下第4章, p j ⁡ ( c i ) = δ i , j 以及对于任意次数小于等于( k − 1 ) 的多项式, 我们有g = g ⁡ ( c 1 ) ⁢ p 1 + ⋯ + g ⁡ ( c k ) ⁢ p k . 取g 为标量多项式1 , 然后是多项式x , 我们得到1 = p 1 + ⋯ + p k , x = c 1 ⁢ p 1 + ⋯ + c k ⁢ p k . (聪明的读者可能会注意到应用Lagrange插值于x 可能并不合法, 因为k 可能是1 . 但是如果k = 1 , T 是恒等算子的一个标量倍数, 因而是可对角化的.) 现在令E j = p j ⁡ ( T ) , 根据Lagrange插值我们有I = E 1 + ⋯ + E k , T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k . 观察到如果i ≠ j , 那么p i ⁢ p j 被极小多项式p 整除, 因为每个c r 都是其根. 因此, 我们可以推出E i ⁢ E j = 0 , i ≠ j . 我们还需要注意到另一个事实, 即对于每个i 有E i ≠ 0 . 这是因为p 是T 的极小多项式, 而p i 的次数小于p 的次数, 所以不可能有p i ⁡ ( T ) = 0 . 现在应用定理11, 我们可以得出T 是可对角化的. [译注: 实际上, 即便没有E i ≠ 0 , 也足够断言T 是可对角化的. 这是因为E 1 , … , E k 显然可以被同时对角化, 而恰恰在这个同时对角化的基下, 鉴于T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k , 直接就可以看出T 的表示矩阵是对角矩阵. 之所以定理11需要额外的条件, 那是因为定理11作出了额外的断言.]
练习1. 令E 是一个V 的投影, T 是V 上的一个线性算子. 证明E 的像在T 下不变当且仅当E ⁢ T ⁢ E = T ⁢ E . 证明E 的像与零空间均在T 下不变当且仅当E ⁢ T = T ⁢ E .
练习2. 令
T 是
ℝ 2 上的线性算子, 其在标准有序基下的矩阵为
[ 2 1 0 2 ] . 令
W 1 是由
ε 1 = ( 1 , 0 ) 张成的
ℝ 2 的子空间.
证明W 1 在T 下不变. 证明不存在子空间W 2 满足其在T 下不变且与W 1 互补:ℝ 2 = W 1 ⊕ W 2 . 练习3. 令T 是有限维向量空间V 上的一个线性算子, R 是T 的像, N 是T 的零空间, 证明R 和N 线性无关当且仅当V = R ⊕ N .
练习4. 令
T 是有限维向量空间
V 上的一个线性算子, 设
V = W 1 ⊕ ⋯ ⊕ W k , 其中每个
W i 都在
T 下不变, 令
T i 是
W i 上导出的(限制)算子.
证明det ⁡ ( T ) = det ⁡ ( T 1 ) ⁢ ⋯ ⁢ det ⁡ ( T k ) . 证明T 的特征多项式是T 1 , … , T k 的特征多项式之积. 证明T 的极小多项式是T 1 , … , T k 的极小多项式的最小公倍式. (提示: 证明并使用与矩阵直和有关的相应事实.) 练习5. 令T 是第6.2节例子3中的线性算子, 使用Lagrange多项式将表示矩阵A 写成A = E 1 + 2 ⁢ E 2 , E 1 + E 2 = I , E 1 ⁢ E 2 = 0 的形式.
练习6. 令A 是第6.3节例子5中的矩阵, 找出矩阵E 1 , E 2 , E 3 使得A = c 1 ⁢ E 1 + c 2 ⁢ E 2 + c 3 ⁢ E 3 , E 1 + E 2 + E 3 = I , E i ⁢ E j = 0 , i ≠ j .
练习7. 在练习5和6中, 注意到(对于每个i )与特征值c i 相关联的特征空间由满足j ≠ i 的各个矩阵E j 的列向量张成, 这是巧合吗? [译注: 练习本身很有可能是错误的, 应该将其改为"由E i 的列向量张成".]
练习8. 令T 是V 上的一个线性算子, 其与每个V 的投影交换, 关于T 你能知道什么?
练习9. 令
V 是区间
[ − 1 , 1 ] 上的实值连续函数的向量空间,
W e 是由偶函数构成的子空间,
W o 是由奇函数构成的子空间.
证明V = W e ⊕ W o . 如果T 是不定积分算子( T ⁡ f ) ⁡ ( x ) = ∫ 0 x f ⁡ ( t ) d t W e 和W o 在T 下不变吗? 第6.8节 准素分解定理 我们一直在尽力研究有限维空间V 上的线性算子T , 通过将其分解为算子的直和, 这些算子在某种意义上是简单的. 在特定的情况下, 即T 的极小多项式在标量域F 上可以被分解为不同的首项系数为一的一次多项式之积时, 我们藉由特征值和特征向量的概念就可以完成分解. 那么对于一般情况下的T , 我们该怎么做呢? 如果我们想要通过特征值来研究T , 我们将面临两个问题. 第一个问题是T 可能压根没有特征值, 这或许应该归咎于标量域, 即它不是代数闭域. 第二个问题是即便特征多项式在F 上可以被完全分解为一次多项式之积, 仍然可能没有足够的特征向量以张成V , 这显然应该归咎于T . 我们用一个例子来刻画第二种情况. 现在给定F 3 (F 为任意的域) 上的线性算子T , 其在标准有序基下由A = [ 2 0 0 1 2 0 0 0 − 1 ] 表示. A 的特征多项式为( x − 2 ) 2 ⁢ ( x + 1 ) , 这也是A (或者T ) 的极小多项式. 因此, T 是不可对角化的. 读者可以看出来, 这种情况会发生是因为( T − 2 ⁢ I ) 的零空间仅是一维的. 另一方面, ( T + I ) 的零空间和( T − 2 ⁢ I ) 2 的零空间一起可以张成V , 前者是由ε 3 张成的子空间, 后者是由ε 1 和ε 2 张成的子空间.
这或多或少将会是我们处理第二个问题的一般方法. 如果 (记住这是一个假设) T 的极小多项式可以被分解为p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k 其中c 1 , … , c k 是F 的不同元素, 那么我们可以证明空间V 是( T − c i ⁢ I ) r i , i = 1 , … , k 的零空间的直和. 这关于极小多项式p 的假设等价于T 是可三角化的 (定理5). 然而, 这条知识并不会帮到我们.
我们实际将要证明的定理比起刚才所描述的要更加一般, 因为它考虑的是极小多项式的素因子分解, 不论素因子本身的次数是否为一. 读者或许会发现思考素因子均为一次的特殊情形是有用的, 甚至是思考定理6的基于投影概念的证明, 定理6是这个定理更加特殊的情形.
定理12. 准素分解定理 (Primary Decomposition Theorem). 令
T 是域
F 上的有限维向量空间
V 上的线性算子, 设
p 是
T 的极小多项式, 其分解为
p = p 1 r 1 ⁢ ⋯ ⁢ p k r k 其中
p i 是域
F 上互异的首项系数为一的素多项式而
r i 是正整数. [译注: 原文用的是irreducible而不是prime, 但是如果追究第4章的定义的细节的话, 素多项式是更加适合的, 因为素多项式被定义为非标量的不可约多项式, 虽然即便在第4章原文中作者已经开始混淆这两个概念.] 令
W i 是
p i r i ⁡ ( T ) , i = 1 , … , k 的零空间, 那么
V = W 1 ⊕ ⋯ ⊕ W k ;每个W i 都在T 下不变; 如果T i 是T 在W i 上由限制导出的算子, 那么T i 的极小多项式为p i r i . 证明. 证明的想法如下. 如果i的直和分解是可能的, 那么我们该如何得到与之相关的投影
E 1 , … , E k 呢? 投影
E i 在
W i 上是恒等算子, 在其他的
W j 上则是零算子. 我们将寻找一个多项式
h i 使得
h i ⁡ ( T ) 在
W i 上是恒等算子而在其他
W j 上均是零算子, 于是
h 1 ⁡ ( T ) + ⋯ + h k ⁡ ( T ) = I , 等等.
对于每个
i , 令
f i = p p i r i = ∏ j ≠ i p j r j . 既然
p 1 , … , p k 是不同的素多项式, 多项式
f 1 , … , f k 是互素的 (第4章的定理10). 因此, 存在多项式
g 1 , … , g k 满足
∑ i = 1 n f i ⁢ g i = 1 . 我们也注意到, 如果
i ≠ j , 那么
f i ⁢ f j 被多项式
p 整除, 因为
f i ⁢ f j 包含每个
p m r m 作为因子. 我们将说明多项式
h i = f i ⁢ g i 表现得如同证明的第一段所述的那样.
令
E i = h i ⁡ ( T ) = f i ⁡ ( T ) ⁢ g i ⁡ ( T ) . 既然
h 1 + ⋯ + h k = 1 且
p 整除
f i ⁢ f j , i ≠ j , 我们有
E 1 + ⋯ + E k = I , E i ⁢ E j = 0 , i ≠ j . 因此, 这些
E i 是与某个
V 的直和分解相对应的投影. 我们想要证明
E i 的像恰是子空间
W i . 显然
E i 的像的每个向量都在
W i 之中, 因为若
α 在
E i 的像中, 那么
α = E i ⁡ α , 于是
p i r i ⁡ ( T ) ⁡ α = p i r i ⁡ ( T ) ⁡ E i ⁡ α = p i r i ⁡ ( T ) ⁡ f i ⁡ ( T ) ⁢ g i ⁡ ( T ) ⁡ α = ( p ⁢ g i ) ⁡ ( T ) ⁡ α = 0 鉴于
p 是极小多项式. 反过来, 设
α 在
p i r i ⁡ ( T ) 的零空间之中. 如果
j ≠ i , 那么
f j ⁢ g j 被
p i r i 整除, 于是
( f j ⁢ g j ) ⁡ ( T ) ⁡ α = 0 , 即
E j ⁡ α = 0 , j ≠ i . 但是, 这立刻就可以推出
E i ⁡ α = α , 即
α 在
E i 的像之中. 这就完成了陈述i的证明.
子空间
W i 显然在
T 是不变的. [译注: 可以直接证明, 也可应用定理10.] 如果
T i 是由
T 限制于
W i 导出的算子, 那么显然有
p i r i ⁡ ( T i ) = 0 , 因为根据定义,
p i r i ⁡ ( T ) 在子空间
W i 上的值均为
0 . 这表明
T i 的极小多项式整除
p i r i . 反过来, 令
g 是
T i 的一个零化多项式, 即
g ⁡ ( T i ) = 0 , 那么
g ⁡ ( T ) ⁢ f i ⁡ ( T ) = 0 . [译注: 这里没有那么平凡, 对于
α ∈ W i 有
g ⁡ ( T ) ⁡ α = g ⁡ ( T i ) ⁡ α = 0 , 而对于
α ∈ W j , j ≠ i , 我们知道
p j r j 整除
f i , 所以
f i ⁡ ( T ) ⁡ α = 0 , 将这两者综合, 又因为
V 是
W i 的直和, 我们才得到
g ⁢ f i 是
T 的一个零化多项式.] 因此,
g ⁢ f i 被
T 的极小多项式
p 整除, 即
p i r i ⁢ f i 整除
g ⁢ f i . 很容易看出来
p i r i 整除
g . [译注: 这是因为
f i ≠ 0 .] 因此,
p i r i 也整除
T i 的极小多项式, 那么
T i 的极小多项式就是
p i r i .
◻
推论. 如果E 1 , … , E k 是与T 的准素分解相关的投影, 那么每个E i 都是应用某个多项式于T 的值. 因此, 如果线性算子U 与T 交换, 那么U 与每个E i 交换, 即每个子空间W i 都在U 下不变.
在定理12的证明的记号下, 让我们看看T 的极小多项式是一次多项式之积的特殊情形, 即每个p i 都具有形式p i = x − c i . 现在E i 的像是( T − c i ⁢ I ) r i 的零空间W i . 让我们置D = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k . 根据定理11, D 是一个可对角化算子, 我们将其称为T 的可对角化部分 . 让我们看看算子N = T − D . 因为T = T ⁢ E 1 + ⋯ + T ⁢ E k , D = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k 所以N = ( T − c 1 ⁢ I ) ⁢ E 1 + ⋯ + ( T − c k ⁢ I ) ⁢ E k 读者现在对于投影已经足够熟悉了, 可以看出N 2 = ( T − c 1 ⁢ I ) 2 ⁢ E 1 + ⋯ + ( T − c k ⁢ I ) 2 ⁢ E k 以及在一般情况下N r = ( T − c 1 ⁢ I ) r ⁢ E 1 + ⋯ + ( T − c k ⁢ I ) r ⁢ E k 当r 满足对于每个i 有r ≥ r i 时, 我们有N r = 0 , 因为算子( T − c i ⁢ I ) r 在E i 的像上为0 .
定义. 令N 是向量空间V 上的一个线性算子. 我们称N 是幂零算子, 如果存在某个正整数r 满足N r = 0 .
定理13. 令
T 是域
F 上的有限维向量空间
V 上的一个线性算子, 设
T 的极小多项式在
F 上被分解为线性多项式之积, 那么存在
V 上的一个可对角化算子
D 和一个幂零算子
N 满足
T = D + N ;D ⁢ N = N ⁢ D .可对角化算子
D 和幂零算子
N 由i和ii唯一确定, 并且它们都是某个多项式应用于
T 的结果.
证明. 我们刚才观察到我们可以将
T 写成
D + N , 其中
D 是可对角化的而
N 是幂零算子. 并且,
D 和
N 不仅是可交换的, 它们还是应用多项式于
T 的值. 现在设
T = D ′ + N ′ , 其中
D ′ 是可对角化的,
N ′ 是幂零的, 并且
D ′ ⁢ N ′ = N ′ ⁢ D ′ . 我们将证明
D = D ′ 和
N = N ′ .
既然
D ′ 和
N ′ 可以交换而
T = D ′ + N ′ , 我们可以看出
D ′ 和
N ′ 与
T 也是可以交换的. 因此,
D ′ 和
N ′ 与任意应用多项式于
T 的结果交换. 现在我们有
D + N = D ′ + N ′ 或者说
D − D ′ = N ′ − N 并且这四个算子是互相交换的. 既然
D 和
D ′ 都是可对角化的并且是可交换的, 它们可以被同时对角化, 于是
D − D ′ 是可对角化的. 既然
N 和
N ′ 都是幂零的并且是可交换的, 算子
( N ′ − N ) 也是幂零的. 这是因为, 使用
N 和
N ′ 可以交换的事实, 可以得到
( N ′ − N ) r = ∑ j = 0 r ( r j ) ⁢ ( N ′ ) r − j ⁢ ( − N ) j 于是当
r 足够大时这个
( N ′ − N ) r 的表达式中的每一项都是
0 . (实际上,
n 维空间上的幂零算子的
n 次幂必然为
0 . 如果我们以上取
r = 2 ⁢ n , 那肯定是足够大了. 当然接着可以知道
r = n 已经足够大了, 但是这不能直接从上面的表达式看出来.) 现在我们知道可对角化算子
D − D ′ 也是幂零算子. 这样一个算子显然是零算子, 以下是论证. 作为幂零算子, 其极小多项式显然具有
x r 的形式. [译注: 根据定义, 存在正整数
m 满足
N m = 0 , 鉴于极小多项式整除零化多项式
x m , 因而对于某个
r ≤ m 有极小多项式
p = x r .] 但是既然它也是可对角化的, 极小多项式不可能有重复的根. 因此
r = 1 , 或者说极小多项式就是
x , 即
D − D ′ = 0 . [译注: 在一般情况下, 极小多项式的次数大于等于一, 除非是零维向量空间上的算子, 但是本书除了第2章提及了这种可能性之外 (那里说仅包含零向量的平凡空间的维数要么不定义, 要么就定义为零), 其余地方提及有限维向量空间时都排除了零维的情况. 基本上所有结果包含零维的情况仍然成立, 只是许多证明需要打上补丁.] 于是, 我们可以看出
D = D ′ 和
N = N ′ .
◻
推论. 令V 是某个代数闭域 (例如复数域) 上的有限维向量空间, 那么V 上的每个线性算子T 都可以写成交换的可对角化算子D 和幂零算子N 之和. D 和N 是唯一确定的, 并且每个都是应用多项式于T 的结果.
从以上这些结果来看, 读者应该明白对于代数闭域上的向量空间上的线性算子的研究基本上可以归结为对于幂零算子的研究. 对于非代数闭域上的向量空间而言, 我们仍然需要寻找特征值和特征向量的某种替代物. 有趣的是, 这两个问题可以被同时处理, 而这就是我们在下一章所要做的事情.
为了给本节作结, 我们想要举一个例子, 它刻画了准素分解定理的某些想法. 之所以我们选择把它放在本节的最后, 是因为它处理微分方程, 并不是纯粹的线性代数.
例子14. 在准素分解定理中, 向量空间V 是有限维的是不必要的条件. 另外, 对于i和ii而言, p 是T 的极小多项式也是不必要的. 如果T 是任意向量空间上的线性算子, 如果存在一个首项系数为一的多项式p 满足p ⁡ ( T ) = 0 , 那么定理12的i和ii在我们之前给出的证明下对于T 也是成立的. [译注: 注意到定理9并不局限于有限维的情形.] 令n 是一个正整数, 令V 是满足微分方程d n ⁡ f d ⁡ t n + a n − 1 ⁢ d n − 1 ⁡ f d ⁡ t n − 1 + ⋯ + a 1 ⁢ d ⁡ f d ⁡ t + a 0 ⁢ f = 0 的所有实轴上的n 次连续可微函数f 构成的空间, 其中a 0 , … , a n − 1 是一些固定的常数. 如果用C n 表示n 次连续可微函数构成的空间, 那么作为这个微分方程的解空间的V 是C n 的子空间. 如果D 代表微分算子而p 是多项式p = x n + a n − 1 ⁢ x n − 1 + ⋯ + a 1 ⁢ x + a 0 那么V 是算子p ⁡ ( D ) 的零空间, 因为这个微分方程就是在说p ⁡ ( D ) ⁡ f = 0 . 因此, V 在D 下不变. 现在让我们将D 视为子空间V 上的一个线性算子, 那么p ⁡ ( D ) = 0 . 如果我们讨论的是复值可微函数, 那么C n 和V 是复向量空间而a 0 , … , a n − 1 可以是任意的复数. 现在我们将p 写成p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k 其中c 1 , … , c k 是不同的复数. 如果W j 是( D − c j ⁢ I ) r j 的零空间, 那么定理12告诉我们V = W 1 ⊕ ⋯ ⊕ W k . 换言之, 如果f 满足这个微分方程, 那么f 可以被唯一地表示为f = f 1 + ⋯ + f k 的形式, 其中f j 满足微分方程( D − c j ⁢ I ) r j ⁡ f j = 0 . 因此, 对于这个大的微分方程的解的研究可以被规约为对于具有形式( D − c ⁢ I ) r ⁡ f = 0 的小的微分方程的解空间的研究. 这种规约是藉由线性代数的一般方法实现的, 即准素分解定理. 为了刻画这个小的微分方程的解空间, 我们必须要了解一些关于微分方程的知识. 也就是说, 除了D 是线性算子的事实之外, 我们必须还要了解一些关于D 的其他性质. 然而, 实际上并不需要太多. 很容易对于r 进行归纳得到如果f ∈ C r , 那么( D − c ⁢ I ) r ⁡ f = e c ⁢ t ⁢ D r ⁡ ( e − c ⁢ t ⁢ f ) 也就是说,d ⁡ f d ⁡ t − c ⁢ f ⁡ ( t ) = e c ⁢ t ⁢ d d ⁡ t ⁡ ( e − c ⁢ t ⁢ f ) , 等等. 因此, ( D − c ⁢ I ) r ⁡ f = 0 当且仅当D r ⁡ ( e − c ⁢ t ⁢ f ) = 0 . 一个满足D r ⁡ ( g ) = 0 的函数g , 即d r ⁡ g / d ⁡ t r = 0 , 必然是一个次数小于等于( r − 1 ) 的多项式函数 [译注: 严格说来, 次数是定义在多项式而非多项式函数上的, 但是这里的意思应该是明了的, 即由次数小于等于( r − 1 ) 的多项式导出的函数, 并且在这种意义下次数对于这里的多项式函数是良定的]:g ⁡ ( t ) = b 0 + b 1 ⁢ t + ⋯ + b r − 1 ⁢ t r − 1 . 于是, ( D − c ⁢ I ) r ⁡ f = 0 当且仅当f 具有形式f ⁡ ( t ) = e c ⁢ t ⁢ ( b 0 + b 1 ⁢ t + ⋯ + b r − 1 ⁢ t r − 1 ) . 据此, "函数"e c ⁢ t , t ⁢ e c ⁢ t , … , t r − 1 ⁢ e c ⁢ t 可以张成这个小的微分方程的解空间. 鉴于1 , t , … , t r − 1 是线性无关的函数并且指数函数 (exponential function) 没有零点, 这r 个函数t j ⁢ e c ⁢ t , 0 ≤ j ≤ r − 1 构成了解空间的一个基. 回到本来的微分方程上去, 即p ⁡ ( D ) ⁡ f = 0 , p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k 我们可以看到t m ⁢ e c j ⁢ t , 0 ≤ m ≤ r j − 1 , 1 ≤ j ≤ k 构成了解空间的一个基. 特别地, 解空间是有限维的, 其维数等于多项式p 的次数.
译者注记. 以上的例子中的推理过程存在不甚严格的步骤, 即微分算子D 并非严格意义上的C n 上的线性算子, 因为n 次连续可微函数的导数并不一定仍然是n 次连续可微的. 因此, 鉴于p ⁡ ( D ) 和D 交换, 所以p ⁡ ( D ) 的零空间在D 下不变这样的推理也不能称得上令人满意. 当然, 如果将我们所考虑的函数类限制于无穷可微的C ∞ 的情形, 上述的推理倒是相当严密, 结果也没有改变.
练习1. 令T 是ℝ 3 上的一个线性算子, 其在标准有序基下由矩阵[ 6 − 3 − 2 4 − 1 − 2 10 − 5 − 3 ] 表示. 将T 的极小多项式p 表示为p = p 1 ⁢ p 2 的形式, 其中p 1 和p 2 是实数域上首项系数为一的素多项式. 令W i 是p i ⁡ ( T ) 的零空间, 找出W 1 和W 2 各自的一个基𝔅 i . 如果T i 是T 在W i 上由限制导出的算子, 求出T i 在基𝔅 i 下的矩阵.
练习2. 令T 是ℝ 3 上的一个线性算子, 其在标准有序基下由矩阵[ 3 1 − 1 2 2 − 1 2 2 0 ] 表示. 证明ℝ 3 上存在可对角化算子D 和幂零算子N 满足T = D + N 且D ⁢ N = N ⁢ D . 找出D 和N 在标准基下的矩阵. (只需要对于这个特殊情形重复定理12的证明就够了.)
练习3. 如果V 是域F 上所有次数小于等于n 的多项式构成的向量空间, 证明V 上的微分算子是幂零的.
练习4. 令
T 是有限维向量空间
V 上的一个线性算子, 其特征多项式为
f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 而极小多项式为
p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k . 令
W i 是
( T − c i ⁢ I ) r i 的零空间.
证明W i 是集合{ α ∈ V | 存在正整数 m 满足 ( T − c i ⁢ I ) m ⁡ α = 0 } (m 可以依赖于α ). 证明W i 的维数是d i . (提示: 如果T i 是T 于W i 上通过限制导出的算子, 那么T i − c i ⁢ I 是幂零的; 因而T i − c i ⁢ I 的特征多项式必然是x e i , 其中e i 是W i 的维数 (证明?); 于是T i 的特征多项式为( x − c i ) e i ; 现在使用T 的特征多项式是T i 的特征多项式之积的事实来说明e i = d i .) 练习5. 令V 是复数域上的一个有限维向量空间. 令T 是V 上的一个线性算子, D 是T 的可对角化部分. 证明如果g 是复数域上任意的多项式, 那么g ⁡ ( T ) 的可对角化部分是g ⁡ ( D ) .
练习6. 令V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子且rank ⁡ ( T ) = 1 . 证明T 要么是可对角化的, 要么是幂零的, 但不可兼任.
练习7. 令V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子. 设T 与V 上的每个可对角化算子交换, 证明T 是恒等算子的标量倍数.
练习8. 令V 是域F 上的n × n 矩阵的空间, A 是域F 上一个固定的n × n 矩阵. 我们定义V 上的线性算子T A ⁡ ( B ) = A ⁢ B − B ⁢ A . 证明如果A 是一个幂零矩阵, 那么T A 是一个幂零算子. [译注: 参照幂零算子的定义, 可以定义幂零矩阵.]
练习9. 给出这样的一个例子, 两个4 × 4 的幂零矩阵具有相同的极小多项式 (它们的特征多项式必然也是相同的), 但是并不相似.
练习10. 令T 是有限维向量空间V 上的一个线性算子, p = p 1 r 1 ⁢ ⋯ ⁢ p k r k 是T 的极小多项式, V = W 1 ⊕ ⋯ ⊕ W k 是T 的准素分解, 即W i 是p i r i ⁡ ( T ) 的零空间, W 是V 任意的在T 下不变的子空间, 证明W = ( W ∩ W 1 ) ⊕ ( W ∩ W 2 ) ⊕ ⋯ ⊕ ( W ∩ W k ) .
练习11. 以下对于定理13的证明有何问题? 设T 的极小多项式是线性因子之积. 那么, 根据定理5, T 是可三角化的. 令𝔅 是一个使得A = [ T ] 𝔅 为上三角矩阵的有序基. 令D 是以A 1 , 1 , ⋯ , A n , n 为对角线元素的对角矩阵, 那么A = D + N , 其中N 是一个严格上三角矩阵. 显然N 是幂零的. [译注: 严格上三角矩阵指的是对角线元素均为零的上三角矩阵.]
练习12. 如果你已经思考过了练习11, 在你观察到定理7告诉你的关于T 的可对角化部分和幂零部分的东西之后, 再次思考这个练习.
练习13. 令T 是V 上的一个线性算子, 它的极小多项式具有p n 的形式, 其中p 在标量域上是不可约的. 证明存在α ∈ V 使得α 的T 零化子为p n .
练习14. 使用准素分解定理和练习13的结果证明以下结论. 如果T 是有限维向量空间V 上任意的线性算子, 那么存在α ∈ V 使得α 的T 零化子等于T 的极小多项式.
练习15. 如果N 是n 维向量空间V 上的一个幂零线性算子, 那么N 的特征多项式为x n .
第7章 有理形式和Jordan形式 第7.1节 循环子空间和零化子 又一次, V 是域F 上的一个有限维向量空间, 而T 是V 上一个固定的 (但也是任意的) 线性算子. 如果α 是V 的任意一个向量, 那么存在一个最小的包含α 且在T 下不变的V 的子空间. 这个子空间可以被定义为所有包含α 的T 不变子空间之交. 然而, 现在对我们来说按照以下方式看待它是更有优势的. 如果W 是任意的包含α 且在T 下不变的V 的子空间, 那么W 也必然包含向量T ⁡ α . 因此, W 还必然包含T ⁡ ( T ⁡ α ) = T 2 ⁡ α , T ⁡ ( T 2 ⁡ α ) = T 3 ⁡ α , 等等. 换言之, 对于每个域F 上的多项式g , 必然有g ⁡ ( T ) ⁡ α ∈ W . 集合{ g ⁡ ( T ) ⁡ α | g ∈ F ⁡ [ x ] } 显然在T 下不变, 因而是包含α 的最小T 不变子空间.
定义. 若α ∈ V , 由α 生成的T 循环子空间 是Z ⁡ ( α ; T ) = { g ⁡ ( T ) ⁡ α | g ∈ F ⁡ [ x ] } . 如果Z ⁡ ( α ; T ) = V , 那么α 被称为T 的一个循环向量 .
另一种描述子空间Z ⁡ ( α ; T ) 的方式为Z ⁡ ( α ; T ) 是由向量T k ⁡ α , k ≥ 0 张成的子空间, 因而α 是T 的循环向量当且仅当这些向量可以张成V . 我们提醒读者, 一般的线性算子T 可能没有循环向量.
例子1. 对于任意的T , 由零向量生成的T 循环子空间是零子空间. 空间Z ⁡ ( α ; T ) 是一维的当且仅当α 是T 的特征向量. [译注: 尽管在上一章定义特征向量时没有排除零向量, 但是从现在开始本书所称特征向量均不包括零向量, 这也与其他文本保持一致.] 对于恒等算子而言, 每个非零向量都生成了一维的循环子空间. 因此, 若dim ⁡ V > 1 , 恒等算子没有循环向量. 一个具有循环向量的线性算子的例子是F 2 上在标准有序基下由矩阵[ 0 0 1 0 ] 表示的线性算子T . 这里的一个循环向量是ε 1 , 因为若β = ( a , b ) , 以g = a + b ⁢ x 我们有β = g ⁡ ( T ) ⁡ ε 1 . 对于相同的算子T , 由ε 2 生成的循环子空间是一维的, 因为ε 2 是T 的特征向量.
对于任意的T 和α , 我们所感兴趣的是向量T j ⁡ α 之间的线性关系c 0 ⁢ α + c 1 ⁢ T ⁡ α + ⋯ + c k ⁢ T k ⁡ α = 0 即我们所感兴趣的是具有性质g ⁡ ( T ) ⁡ α = 0 的多项式g = c 0 + c 1 ⁢ x + ⋯ + c k ⁢ x k . 集合{ g ∈ F ⁡ [ x ] | g ⁡ ( T ) ⁡ α = 0 } 显然是F ⁡ [ x ] 中的一个理想. 并且, 它也是一个非零理想, 因为它包含T 的极小多项式.
定义. 如果α ∈ V , α 的T 零化子是F ⁡ [ x ] 中的理想M ⁡ ( α ; T ) = { g ∈ F ⁡ [ x ] | g ⁡ ( T ) ⁡ α = 0 } , 其唯一的首项系数为一的生成元p α 也被称为α 的T 零化子. [译注: 这个定义在第6.4节{不变子空间}已经给出过了.]
正如我们所指出的, T 零化子p α 整除算子T 的极小多项式. 读者也应该注意到除非α 是零向量, deg ⁡ p α > 0 .
定理1. 令
α 是
V 中的非零向量,
p α 是
α 的
T 零化子.
p α 的次数等于循环子空间Z ⁡ ( α ; T ) 的维数.如果p α 的次数为k , 那么向量α , T ⁡ α , T 2 ⁡ α , … , T k − 1 ⁡ α 构成了Z ⁡ ( α ; T ) 的一个基. 如果U 是由T 于Z ⁡ ( α ; T ) 上的限制导出的线性算子, 那么U 的极小多项式为p α . 证明. 令
g 是域
F 上任意的多项式, 作带余除法
g = p α ⁢ q + r 其中
r = 0 或
deg ⁡ r < deg ⁡ p α = k . 鉴于
p α ⁢ q ∈ M ⁡ ( α ; T ) , 于是
g ⁡ ( T ) ⁡ α = r ⁡ ( T ) ⁡ α . 既然
r = 0 或
deg ⁡ r < k , 向量
r ⁡ ( T ) ⁡ α 是向量
α , T ⁡ α , … , T k − 1 ⁡ α 的线性组合. 换言之, 这
k 个向量可以张成
Z ⁡ ( α ; T ) . 它们当然也是线性无关的, 因为若这些向量之间存在非平凡的线性关系, 那么其可以导出一个非零的多项式
g 满足
g ⁡ ( T ) ⁡ α = 0 且
deg ⁡ g < deg ⁡ p α , 但这是不可能的. 现在我们已经证明了i和ii.
令
U 是
T 于
Z ⁡ ( α ; T ) 的限制. 如果
g ∈ F ⁡ [ x ] , 那么
p α ⁡ ( U ) ⁡ g ⁡ ( T ) ⁡ α = p α ⁡ ( T ) ⁡ g ⁡ ( T ) ⁡ α = g ⁡ ( T ) ⁡ p α ⁡ ( T ) ⁡ α = g ⁡ ( T ) ⁡ 0 = 0 因此, 算子
p α ⁡ ( U ) 将每个
Z ⁡ ( α ; T ) 的向量都送至
0 , 即
Z ⁡ ( α ; T ) 上的零算子. 并且, 如果
h 是一个次数小于
k 的多项式, 那么我们不可能有
h ⁡ ( U ) = 0 , 不然的话
h ⁡ ( U ) ⁡ α = h ⁡ ( T ) ⁡ α = 0 , 但这与
p α 的定义矛盾. [译注: 此即若
h 零化
U , 则
p α 整除
h . 换句话说, 就是
p α 的确生成了零化
U 的理想.] 这表明
p α 是
U 的极小多项式.
◻
该定理的一个特别推论如下: 如果α 碰巧是T 的一个循环向量, 那么T 的极小多项式的次数必然等于空间V 的维数. 因此, Cayley-Hamilton定理告诉我们T 的极小多项式就是T 的特征多项式. 之后我们将证明对于任意的T , 存在向量α ∈ V 使得其T 零化子是T 的极小多项式. 然后, 这可以推出T 具有循环向量当且仅当T 的极小多项式和特征多项式是相同的. 但是, 还需要一些工作我们才能抵达这一步.
我们的计划是利用具有循环向量的算子研究一般的T . 因此, 让我们检视k 维空间W 上的一个具有循环向量α 的算子U . 根据定理1, 向量α , … , U k − 1 ⁡ α 构成了空间W 的一个基, 并且α 的零化子p α 是U 的极小多项式 (因而也是U 的特征多项式). 如果我们令α i = U i − 1 ⁡ α , i = 1 , … , k , 那么U 于有序基𝔅 = { α 1 , … , α k } 上的作用为U ⁡ α i = α i + 1 , i = 1 , … , k − 1 U ⁡ α k = − c 0 ⁢ α 1 − c 1 ⁢ α 2 − ⋯ − c k − 1 ⁢ α k 其中p α = c 0 + c 1 ⁢ x + ⋯ + c k − 1 ⁢ x k − 1 + x k . U ⁡ α k 的表达式是由p α ⁡ ( U ) ⁡ α = 0 的事实推得的, 即U k ⁡ α + c k − 1 ⁢ U k − 1 ⁡ α + ⋯ + c 1 ⁢ U ⁡ α + c 0 ⁢ α = 0 . 这表明U 在有序基𝔅 下的矩阵为[ 0 0 0 ⋯ 0 − c 0 1 0 0 ⋯ 0 − c 1 0 1 0 ⋯ 0 − c 2 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ 1 − c k − 1 ] . 这个矩阵被称为首项系数为一的多项式p α 的同伴矩阵 (companion matrix). [译注: 读者应该将同伴矩阵的概念视为多项式上的一个映射.]
定理2. 如果U 是有限维向量空间W 上的一个线性算子, 那么U 拥有循环向量当且仅当存在W 的一个有序基使得U 在其下以U 的极小多项式的同伴矩阵表示.
证明. 我们刚才已经观察到若
U 拥有循环向量, 那么的确存在这样一个基. 反过来说, 如果我们有
W 的一个有序基
{ α 1 , … , α k } 使得
U 在其下由
U 的极小多项式的同伴矩阵表示, 那么显然
α 1 是
U 的一个循环向量.
◻
推论. 如果A 是一个首项系数为一的多项式p 的同伴矩阵, 那么p 既是A 的极小多项式, 也是A 的特征多项式.
证明. 一种方法是令
U 为
F k 上在标准有序基下由
A 表示的线性算子, 然后应用定理1和Cayley-Hamilton定理. 另一种方法是使用定理1看出
p 是
A 的极小多项式, 并通过直接的计算验证
p 是
A 的特征多项式.
◻
以下是本节最后的注记. 如果T 是空间V 上任意的线性算子, α 是V 中任意的向量, 那么T 于循环子空间Z ⁡ ( α ; T ) 上的限制算子U 具有一个循环向量, 即α . 因此, Z ⁡ ( α ; T ) 拥有一个有序基, U 在其下以p α 的同伴矩阵表示, p α 即α 的T 零化子. [译注: 当然, p α 也是U 的极小多项式.]
练习1. 令T 是F 2 上的一个线性算子. 证明对于向量α , 若α 非零且α 不是T 的特征向量, 那么α 是T 的一个循环向量. 据此, 证明要么T 拥有循环向量, 要么T 是恒等算子的标量倍数.
练习2. 令T 是ℝ 3 上的线性算子, 其在标准有序基下由矩阵[ 2 0 0 0 2 0 0 0 − 1 ] 表示. 证明T 没有循环向量. 由向量( 1 , − 1 , 3 ) 生成的T 循环子空间是什么?
练习3. 令T 是ℂ 3 上的线性算子, 其在标准有序基下由矩阵[ 1 i 0 − 1 2 − i 0 1 1 ] 表示. 找出向量( 1 , 0 , 0 ) 的T 零化子. 找出( 1 , 0 , i ) 的T 零化子.
练习4. 证明如果T 2 拥有循环向量, 那么T 拥有循环向量. 反过来正确吗?
练习5. 令V 是域F 上的一个n 维向量空间, N 是V 上的一个幂零线性算子. 设N n − 1 ≠ 0 , 令α ∈ V 是满足N n − 1 ⁡ α ≠ 0 的一个向量. 证明α 是N 的一个循环向量. N 在有序基{ α , N ⁡ α , … , N n − 1 ⁡ α } 的矩阵是什么?
练习6. 给出以下事实的一个直接证明. 如果A 是首项系数为一的多项式p 的同伴矩阵, 那么p 是A 的特征多项式.
练习7. 令
V 是一个
n 维向量空间,
T 是
V 上的一个线性算子. 设
T 是可对角化的.
如果T 拥有循环向量, 证明T 拥有n 个不同的特征值. 如果T 拥有n 个不同的特征值, 并且{ α 1 , … , α k } 是由T 的特征向量构成的一个基, 证明α = α 1 + ⋯ + α k 是T 的一个循环向量. 练习8. 令T 是有限维向量空间V 上的一个线性算子. 设T 拥有循环向量. 证明如果U 是任意与T 交换的线性算子, 那么U 是应用某个多项式于T 的结果.
第7.2节 循环分解和有理形式 本节的主要目的在于证明如果T 是有限维向量空间V 上任意的线性算子, 那么存在向量α 1 , … , α r ∈ V 满足V = Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) . 换言之, 我们希望证明V 是一个T 循环子空间的直和. 这将表明T 是有限数目的线性算子的直和, 其中每个都拥有循环向量. 其效用在于将关于一般线性算子的诸多问题规约为关于拥有循环向量的算子的类似问题. 我们将证明的定理3是线性代数中最为深刻的结果之一, 并且拥有许多有趣的推论.
循环分解定理与以下问题紧密关联. 对于什么样的T 不变子空间W 而言, 存在另一个T 不变子空间W ′ 满足V = W ⊕ W ′ . 如果W 是有限维向量空间V 的任意一个子空间, 那么存在一个子空间W ′ 满足V = W ⊕ W ′ . 通常来说存在许多这样的子空间W ′ , 其中每个都被称为与W ′ 互补 . 我们问的是何时一个T 不变子空间拥有一个与之互补的T 不变子空间.
让我们设V = W ⊕ W ′ , 其中W 和W ′ 都在T 下不变, 然后看看我们可以发现什么关于子空间W 的性质. 每个向量β ∈ V 都具有β = γ + γ ′ 的形式, 其中γ ∈ W 而γ ′ ∈ W ′ . 如果f 是标量域上任意的多项式, 那么f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ γ + f ⁡ ( T ) ⁡ γ ′ . 既然W 和W ′ 都是T 不变的, 向量f ⁡ ( T ) ⁡ γ ∈ W 且f ⁡ ( T ) ⁡ γ ′ ∈ W ′ . 因此, f ⁡ ( T ) ⁡ β ∈ W 当且仅当f ⁡ ( T ) ⁡ γ ′ = 0 . 我们所感兴趣的正是这看似单纯的事实, 即如果f ⁡ ( T ) ⁡ β ∈ W , 那么f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ γ .
定义. 令
T 是向量空间
V 上的线性算子,
W 是
V 的一个子空间. 我们称
W 是
T 可容许的 (
T -admissible), 如果
W 在T 下不变;若f ⁡ ( T ) ⁡ β ∈ W , 则存在向量γ ∈ W 满足f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ γ . [译注: admissible暂无通行翻译, 译者将其定为"可容许的".]
刚才我们已经表明了, 如果W 是不变的且有一个互补的不变子空间, 那么W 是可容许的. 定理3的一个推论是其逆, 于是可容许性刻画了那些拥有互补不变子空间的不变子空间.
让我们指出在获得分解V = Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) 的尝试里可容许性质的概念是如何牵涉其中的. 我们抵达这样一种分解的基本方法是归纳地挑选向量α 1 , … , α r . 设根据某种过程我们已经挑选了向量α 1 , … , α j , 并且子空间W j = Z ⁡ ( α 1 ; T ) + ⋯ + Z ⁡ ( α j ; T ) 是真子空间. 我们想要找到一个非零向量α j + 1 满足W j ∩ Z ⁡ ( α j + 1 ; T ) = { 0 } 因为这样的话子空间W j + 1 = W j ⊕ Z ⁡ ( α j + 1 ; T ) 就离穷尽V 更进至少一维. 但是, 这样的α j + 1 何以存在呢? 如果α 1 , … , α j 的挑选使得W j 是一个T 可容许子空间, 那么很容易看出来我们可以找到一个合适的α j + 1 . 这是使得我们对于定理3的证明成立之所在, 即便这并非我们组织论证的方式.
令W 是一个T 不变的真子空间. 让我们试着寻找一个非零的向量α 满足W ∩ Z ⁡ ( α ; T ) = { 0 } . 我们可以选择某个向量β ∉ W , 考虑T 导子S ⁡ ( β ; W ) , 其由所有满足g ⁡ ( T ) ⁡ β ∈ W 的多项式g 构成. 回忆一下, 生成理想S ⁡ ( β ; W ) 的唯一的首项系数为一的多项式f = s ⁡ ( β ; W ) 也被称为从β 到W 的T 导子. 向量f ⁡ ( T ) ⁡ β 在W 之中. 现在, 如果W 是T 可容许的, 那么存在γ ∈ W 满足f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ γ . 令α = β − γ , g 是任意的多项式. 既然( β − α ) ∈ W , g ⁡ ( T ) ⁡ β ∈ W 当且仅当g ⁡ ( T ) ⁡ α ∈ W . 换言之, S ⁡ ( α ; W ) = S ⁡ ( β ; W ) . 因此, 多项式f 也是从α 到W 的T 导子. 但是f ⁡ ( T ) ⁡ α = 0 , 这告诉我们g ⁡ ( T ) ⁡ α ∈ W 当且仅当g ⁡ ( T ) ⁡ α = 0 , 即子空间Z ⁡ ( α ; T ) 和W 是线性无关的, 并且f 是α 的T 零化子.
定理3. 循环分解定理. 令
T 是有限维向量空间
V 上的一个线性算子,
W 0 是一个
T 可容许的
V 的真子空间, 存在非零向量
α 1 , … , α r ∈ V 满足
V = W 0 ⊕ Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) ;p k 整除p k − 1 , 其中k = 2 , … , r 而p i 是α i 的T 零化子.而且, 整数
r 和零化子
p 1 , … , p r 由i, ii以及
α i ≠ 0 的事实唯一确定.
证明. 证明相当冗长, 故我们将其分为四个步骤. 似乎初读证明时取
W 0 = { 0 } 会比较容易, 尽管这并不会带来任何实质性的简化. 贯穿整个证明, 我们都将
f ⁡ ( T ) ⁡ β 缩略为
f ⁡ β .
第1步. 存在非零向量β 1 , … , β r ∈ V 满足
V = W 0 + Z ⁡ ( β 1 ; T ) + ⋯ + Z ⁡ ( β r ; T ) ;如果1 ≤ k ≤ r 并且W k = W 0 + Z ⁡ ( β 1 ; T ) + ⋯ + Z ⁡ ( β k ; T ) 那么导子p k = s ⁡ ( β k ; W k − 1 ) 在所有到子空间W k − 1 的T 导子中拥有最大的次数, 即对于每个k 有deg ⁡ p k = max α ∈ V ⁡ deg ⁡ s ⁡ ( α ; W k − 1 ) . 这一步只依赖于
W 0 是不变子空间的事实. 如果
W 是一个
T 不变的真子空间, 那么
0 < max α ∈ V ⁡ deg ⁡ s ⁡ ( α ; W ) ≤ dim ⁡ V 我们可以选择一个向量
β 使得
deg ⁡ s ⁡ ( β ; W ) 取得最大值, 然后子空间
W + Z ⁡ ( β ; T ) 是
T 不变的且维数大于
dim ⁡ W . [译注: Cayley-Hamilton定理告诉我们特征多项式是一个零化多项式, 于是
s ⁡ ( α ; W ) 整除特征多项式, 因而有
deg ⁡ s ⁡ ( α ; W ) ≤ dim ⁡ V , 那么我们可以明白最大值是良定的且
max α ∈ V ⁡ deg ⁡ s ⁡ ( α ; W ) ≤ dim ⁡ V . 考虑到
W 是真子空间, 若
α ∉ W , 那么
deg ⁡ s ⁡ ( α ; W ) > 0 , 由此可知
max α ∈ V ⁡ deg ⁡ s ⁡ ( α ; W ) > 0 . 文中
β 的选择必然满足
β ∉ W , 因为否则的话
T 导子的次数为零. 那么, 子空间
W + Z ⁡ ( β ; T ) 的维数的确严格大于
W 的维数. 当然, 其在
T 下不变是显然的.] 应用此过程于
W = W 0 可以得到
β 1 . 若
W 1 = W 0 + Z ⁡ ( β 1 ; T ) 仍然是真子空间, 那么就再次应用该过程于
W 1 以得到
β 2 . 将过程继续施行下去, 鉴于
dim ⁡ W k > dim ⁡ W k − 1 , 我们必然可以在不超过
dim ⁡ V 步的情况下抵达
W r = V .
第2步. 令β 1 , … , β r 是满足第1步的条件a和b的非零向量. 固定k , 其中1 ≤ k ≤ r . 令β 是V 中任意的向量, f = s ⁡ ( β ; W k − 1 ) . 如果f ⁡ β = β 0 + ∑ i = 1 k − 1 g i ⁡ β i , β i ∈ W i 那么f 整除每个多项式g i 并且存在γ 0 ∈ W 0 满足β 0 = f ⁡ γ 0 . [译注: β i ∈ W i 只是约束了β 0 ∈ W 0 , 其余则是已知的.] 如果k = 1 , 此即陈述W 0 是T 可容许的这个条件. 为了在k > 1 的情形下证明断言, 应用带余除法:g i = f ⁢ h i + r i , r i = 0 或者 deg ⁡ r i < deg ⁡ f . 我们想要证明的是对于每个i 有r i = 0 . 令γ = β − ∑ i = 1 k − 1 h i ⁡ β i 既然γ − β ∈ W k − 1 , 我们有s ⁡ ( γ ; W k − 1 ) = s ⁡ ( β ; W k − 1 ) = f 而且f ⁡ γ = β 0 + ∑ i = 1 k − 1 r i ⁡ β i . 设某个r i 异于0 , 我们可以推导出矛盾来. 令j = max ⁡ { i ∈ { 1 , … , k − 1 } | r i ≠ 0 } , 那么f ⁡ γ = β 0 + ∑ i = 1 j r i ⁡ β i , r j ≠ 0 且 deg ⁡ r j < deg ⁡ f . 令p = s ⁡ ( γ ; W j − 1 ) , 既然W j − 1 ⊆ W k − 1 , 导子f = s ⁡ ( γ ; W k − 1 ) 必然整除p :存在多项式 g , p = f ⁢ g . 应用g ⁡ ( T ) 于前式两边, 可以得到:p ⁡ γ = g ⁢ f ⁡ γ = g ⁢ r j ⁡ β j + g ⁡ β 0 + ∑ i = 1 j − 1 g ⁢ r i ⁡ β i . 根据p 的定义, p ⁡ γ ∈ W j − 1 , 而且上式最右边两项之和也在W j − 1 之中, 所以g ⁢ r j ⁡ β j ∈ W j − 1 . 现在我们使用第1步的条件b:deg ⁡ ( g ⁢ r j ) ≥ deg ⁡ s ⁡ ( β j ; W j − 1 ) = deg ⁡ p j ≥ deg ⁡ s ⁡ ( γ ; W j − 1 ) = deg ⁡ p = deg ⁡ ( f ⁢ g ) 因此, deg ⁡ r j ≥ deg ⁡ f , 但这与j 的选择相矛盾. 现在我们知道f 整除每个g i , 于是β 0 = f ⁡ γ . 既然W 是T 可容许的, 存在γ 0 ∈ W 0 使得β 0 = f ⁡ γ 0 . 顺带值得一提的是, 第2步是断言W 1 , W 2 , … , W r 具有T 可容许性的一种增强形式.
第3步. 存在非零向量α 1 , … , α r ∈ V 满足定理3的条件i和ii. 我们自第1步的向量β 1 , … , β r 始. 固定k , 其中1 ≤ k ≤ r . 我们将第2步应用于β = β k , 那么T 导子f = p k , 于是可以得到p k ⁡ β k = p k ⁢ γ 0 + ∑ i = 1 k − 1 p k ⁢ h i ⁡ β i 其中γ 0 ∈ W 0 而h 1 , … , h k − 1 是多项式. 令α k = β k − γ 0 − ∑ i = 1 k − 1 h i ⁡ β i 鉴于β k − α k ∈ W k − 1 , 我们知道s ⁡ ( α k ; W k − 1 ) = s ⁡ ( β k ; W k − 1 ) = p k 既然p k ⁡ α k = 0 , 可以得到W k − 1 ∩ Z ⁡ ( α k ; T ) = { 0 } . 因为每个α k 都满足以上两式, 所以W k = W 0 ⊕ Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α k ; T ) 并且p k 是α k 的T 零化子. [译注: 读者需要注意到因为β k − α k ∈ W k − 1 , 所以W k − 1 + Z ⁡ ( α k ; T ) = W k − 1 + Z ⁡ ( β k ; T ) .] 换言之, 向量α 1 , … , α r 和向量β 1 , … , β r 定义了相同的子空间序列W 1 , W 2 , … 并且T 导子p k = s ⁡ ( α k ; W k − 1 ) 自然也满足最大性质, 即第1步的条件b. 其还具有额外的性质, 就是子空间W 0 , Z ⁡ ( α 1 ; T ) , Z ⁡ ( α 2 ; T ) , … 是线性无关的. 由此很容易验证定理3的条件ii. 既然对于每个i 都有p i ⁡ α i = 0 , 我们有着平凡的关系p k ⁡ α k = 0 + p 1 ⁡ α 1 + ⋯ + p k − 1 ⁡ α k − 1 现在应用第2步, 将β 1 , … , β k 替换为α 1 , … , α k 而β = α k , 那么可以得到结论: p k 整除每个p i , 其中i < k .
第4步. 数字r 和多项式p 1 , … , p k 在定理3的条件下是唯一的. 设除了向量α 1 , … , α r 之外非零向量γ 1 , … , γ s 也满足定理3的条件, 也就是说V = W 0 ⊕ Z ⁡ ( γ 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( γ s ; T ) 并且g k 整除g k − 1 , 其中k = 2 , … , s 而g i 是γ i 的T 零化子. 我们要证明的是r = s 以及对于每个i 有p i = g i . 很容易看出来p 1 = g 1 . 多项式g 1 实际上由前述条件可以被确定为从V 到W 0 的T 导子. S ⁡ ( V ; W 0 ) 被定义为集合{ f ∈ F ⁡ [ x ] | 对于每个 β ∈ V , f ⁡ β ∈ W 0 } , 其中F 是标量域; 换言之, 多项式f ∈ S ⁡ ( V ; W 0 ) 当且仅当f ⁡ ( T ) 的像是W 0 的子集. 那么, S ⁡ ( V ; W 0 ) 是多项式代数中的一个非零理想, 而多项式g 1 是该理想的首项系数为一的生成元. 以下是我们的理由. 每个β ∈ V 都具有形式β = β 0 + f 1 ⁡ γ 1 + ⋯ + f s ⁡ γ s 于是g 1 ⁡ β = g 1 ⁡ β 0 + ∑ i = 1 s g 1 ⁢ f i ⁡ γ i 因为每个g i 都整除g 1 , 所以对于每个i 有g 1 ⁡ γ i = 0 , 那么g 1 ⁡ β = g 1 ⁡ β 0 ∈ W 0 , 于是g 1 ∈ S ⁡ ( V ; W 0 ) . 既然g 1 是将γ 1 送至W 0 的次数最低的首项系数为一多项式, 那么g 1 当然也是理想S ⁡ ( V ; W 0 ) 中次数最低的首项系数为一多项式. 根据同样的论证, p 1 也应该是这个理想的首项系数为一的生成元, 所以p 1 = g 1 . 如果f 是一个多项式, W 是V 的一个子空间, 那么缩写f ⁡ W 将表示集合{ f ⁡ α | α ∈ W } . 我们将以下三个事实的验证留作练习.
f ⁡ Z ⁡ ( α ; T ) = Z ⁡ ( f ⁡ α ; T ) .如果V = V 1 ⊕ ⋯ ⊕ V k , 其中每个V i 都在T 下不变, 那么f ⁡ V = f ⁡ V 1 ⊕ ⋯ ⊕ f ⁡ V k . 如果α 和γ 有着相同的T 零化子, 那么f ⁡ α 和f ⁡ γ 也有着相同的T 零化子, 因而有dim ⁡ Z ⁡ ( f ⁡ α ; T ) = dim ⁡ Z ⁡ ( f ⁡ γ ; T ) . 现在我们通过归纳来论证
r = s 以及对于
i = 2 , … , r 有
p i = g i . 论证的手法在于以恰当的方式数维数. 我们将给出
r ≥ 2 的情况下有
p 2 = g 2 的证明, 由此怎样进行归纳则是清晰的. 设
r ≥ 2 , 那么
dim ⁡ W 0 + dim ⁡ Z ⁡ ( α 1 ; T ) < dim ⁡ V 既然我们已经知道了
p 1 = g 1 , 那么
Z ⁡ ( α 1 ; T ) 和
Z ⁡ ( γ 1 ; T ) 有着相同的维数. 因此, 也有
dim ⁡ W 0 + dim ⁡ Z ⁡ ( γ 1 ; T ) < dim ⁡ V 这说明
s ≥ 2 . 现在问是否有
p 2 = g 2 是有意义的了. 从两个对于
V 的分解中, 我们可以得到两种对于
p 2 ⁡ V 的分解方式:
p 2 ⁡ V = p 2 ⁡ W 0 ⊕ Z ⁡ ( p 2 ⁡ α 1 ; T ) p 2 ⁡ V = p 2 ⁡ W 0 ⊕ Z ⁡ ( p 2 ⁡ γ 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( p 2 ⁡ γ s ; T ) 这里用到了事实1和2, 以及对于
i ≥ 2 有
p 2 ⁡ α i = 0 . 既然我们已经知道了
p 1 = g 1 , 事实3告诉我们
Z ⁡ ( p 2 ⁡ α 1 ; T ) 和
Z ⁡ ( p 2 ⁡ γ 1 ; T ) 有着相同的维数. 显然, 我们可以得到
dim ⁡ Z ⁡ ( p 2 ⁡ γ i ; T ) = 0 , i ≥ 2 . 于是,
p 2 ⁡ γ 2 = 0 , 那么
g 2 整除
p 2 . 同样的论证可以反过来以得到
p 2 整除
g 2 . 因此,
p 2 = g 2 .
◻
推论. 如果T 是有限维向量空间上的一个线性算子, 那么每个T 可容许子空间都具有T 下不变的补子空间.
证明. 令
W 0 是
V 的一个可容许子空间. 若
W 0 = V , 那么我们所寻求的补就是
{ 0 } . 若
W 0 是真子空间, 那么就应用定理3, 令
W 0 ′ = Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) 于是
W 0 ′ 在
T 下不变且
V = W 0 ⊕ W 0 ′ .
◻
推论. 令
T 是有限维向量空间
V 上的一个线性算子.
存在向量α ∈ V 满足α 的T 零化子是T 的极小多项式. T 有循环向量当且仅当T 的极小多项式和特征多项式相等.证明. 如果
V = { 0 } , 那么结果平凡地成立. 如果
V ≠ { 0 } , 令
V = Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) 而
α 1 , … , α r 的
T 零化子
p 1 , … , p r 满足
p k + 1 整除
p k , 其中
k = 1 , … , r − 1 . 正如我们在定理3的证明中所注意到的那样, 很容易看出
p 1 是
T 的极小多项式, 即从
V 到
{ 0 } 的
T 导子. 我们已然证明了a.
我们在第7.1节中看到, 如果
T 拥有循环向量, 那么
T 的极小多项式和特征多项式恰好是相等的. 为了证明b, 还需要证明的是其逆. 应用定理a, 选择一个满足要求的
α . 如果极小多项式的次数等于
dim ⁡ V , 那么
Z ⁡ ( α ; T ) 的维数为
dim ⁡ V , 即
V = Z ⁡ ( α ; T ) .
◻
定理4. 一般Cayley-Hamilton定理. 令
T 是有限维向量空间
V 上的一个线性算子,
p 和
f 分别为
T 的极小多项式和特征多项式.
p 整除f ;p 和f 拥有相同的素因子, 在不计重数的情况下;如果p = f 1 r 1 ⁢ ⋯ ⁢ f k r k 是p 的素因子分解, 那么f = f 1 d 1 ⁢ ⋯ ⁢ f k d k 其中d i 是f i r i ⁡ ( T ) 的零化度除以f i 的次数. 证明. 我们就不考虑平凡情形
V = { 0 } 了. 为了证明i和ii, 考虑由定理3得到的
V 的一个循环分解. 正如我们在定理3的第2个推论的证明中所注意到的,
p 1 = p . 令
U i 是
T 于
Z ⁡ ( α i ; T ) 的限制, 那么
U i 当然有循环向量, 于是
p i 既是
U i 的极小多项式, 也是其特征多项式. 因此, 特征多项式
f 是乘积
f = p 1 ⁢ ⋯ ⁢ p r . 这从
T 在适当的基下呈现的分块形式矩阵看是显然的. 此时
p 1 整除
f 是自明的, 这就证明了i. 显然任何
p 的素因子也是
f 的素因子. 反过来,
f = p 1 ⁢ ⋯ ⁢ p r 的素因子必须整除其中一个
p i , 于是又整除
p = p 1 .
令
p = f 1 r 1 ⁢ ⋯ ⁢ f k r k 是
p 的素因子分解. 准素分解定理 (第6章的定理12) 告诉我们, 如果
V i 是
f i r i ⁡ ( T ) 的零空间, 那么
V = V 1 ⊕ ⋯ ⊕ V k 并且
f i r i 是算子
T i 的极小多项式, 其中
T i 是
T 于(不变)子空间
V i 上的限制. 将当前定理的i和ii应用于
T i , 既然其是素因子
f i 之幂, 那么
T i 的特征多项式必然具有
f i d i 的形式, 其中
d i ≥ r i . 显然, 我们得到了
d i = dim ⁡ V i deg ⁡ f i 而且根据定义有
dim ⁡ V i = nullity ⁡ ( f i r i ⁡ ( T ) ) , 于是
d i = nullity ⁡ ( f i r i ⁡ ( T ) ) deg ⁡ f i . 既然
T 是算子
T 1 , … , T k 的直和, 那么特征多项式
f 是乘积
f = f 1 d 1 ⁢ ⋯ ⁢ f k d k . ◻
推论. 如果T 是n 维向量空间上的一个幂零线性算子, 那么T 的特征多项式为x n .
现在让我们检视循环分解定理的矩阵类比. 如果我们拥有线性算子T 和定理3的直和分解, 令𝔅 i 是Z ⁡ ( α i ; T ) 的"循环有序基"{ α i , T ⁡ α i , … , T k i − 1 ⁡ α i } . 这里k i 表示Z ⁡ ( α i ; T ) 的维数, 或者说零化子p i 的次数. 在有序基𝔅 i 下, 导出算子T i 的矩阵是多项式p i 的同伴矩阵. 因此, 若𝔅 是将𝔅 1 , … , 𝔅 r 按照顺序合并得到的V 的有序基, 那么T 在𝔅 下的矩阵为A = [ A 1 0 ⋯ 0 0 A 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ A r ] 其中A i 是p i 的同伴矩阵, 大小为k i × k i . 一个n × n 的矩阵A , 如果其为非标量首项系数为一多项式p 1 , … , p r 的同伴矩阵的直和且对于i = 1 , … , r − 1 有p i + 1 整除p i , 那么我们称A 具有有理形式 . 循环分解定理告诉我们了以下结果.
定理5. 令F 是一个域, B 是域F 上的一个n × n 矩阵, 那么B 在域F 上相似于唯一的有理形式矩阵.
证明. 令
T 是
F n 上在标准有序基下由
B 表示的线性算子. 正如我们刚才所观察到的那样, 存在
F n 的某个有序基使得其下的
T 由有理形式
A 表示. 那么,
B 相似于这个矩阵
A . 设
B 在
F 上相似于另一个有理形式
C . 这就意味着存在
F n 的某个基使得其下的
T 由
C 表示. 如果
C 是非标量首项系数为一多项式
g 1 , … , g s 的同伴矩阵的直和, 其中对于
i = 1 , … , s − 1 有
g i + 1 整除
g i [译注: 以上是在复述定义], 那么我们有非零向量
β 1 , … , β s ∈ V 以
g 1 , … , g s 为
T 零化子满足
V = Z ⁡ ( β 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( β s ; T ) . 但是, 根据循环分解定理的唯一性陈述, 多项式
g i 和定义了矩阵
A 的多项式
p i 应该是完全等同的, 于是
C = A .
◻
多项式p 1 , … , p r 被称为矩阵B 的不变因子 . 在第7.4节, 我们将描述一个计算给定矩阵的不变因子的算法. 可根据施行于矩阵的元素上的有限次有理操作计算得出这些多项式的事实赋予了有理形式其名.
例子2. 设V 是域F 上的一个二维向量空间, T 是V 上的一个线性算子. T 的循环子空间分解的可能性是相当受限的. 这是因为如果T 的极小多项式的次数为2 , 那么它等于T 的特征多项式, 于是T 拥有循环向量. 因此, 存在V 的某个有序基使得T 由其特征多项式的同伴矩阵表示. 另一方面, 如果T 的极小多项式的次数为1 , 那么T 是恒等算子的标量倍数. 若T = c ⁢ I , 那么对于任意的两个线性无关的向量α 1 和α 2 , 我们有V = Z ⁡ ( α 1 ; T ) ⊕ Z ⁡ ( α 2 ; T ) , p 1 = p 2 = x − c . 对于矩阵而言, 这样的分析是说每个域F 上的2 × 2 矩阵都在F 上恰相似于以下两种类型的矩阵中的一种:[ c 0 0 c ] , [ 0 − c 0 1 − c 1 ] .
例子3. 令T 是ℝ 3 上由矩阵A = [ 5 − 6 − 6 − 1 4 2 3 − 6 − 4 ] 表示的线性算子. 我们之前已经计算过了, T 的特征多项式为f = ( x − 1 ) ⁢ ( x − 2 ) 2 , 极小多项式为p = ( x − 1 ) ⁢ ( x − 2 ) . 因此, 我们知道在T 的循环分解中, 第一个向量α 1 的T 零化子为p . 既然我们是在三维空间中讨论, 那么只能再有一个向量α 2 . 其必然生成的是一维的循环子空间, 即其必是T 的一个特征向量. 其T 零化子p 2 必然是( x − 2 ) , 因为p ⁢ p 2 = f . 注意到这立即告诉我们A 相似于矩阵B = [ 0 − 2 0 1 3 0 0 0 2 ] 即T 在某个有序基下由B 表示. 我们该如何寻找合适的向量α 1 和α 2 呢? 嗯, 我们知道任意能够生成二维T 循环子空间的向量都是合适的α 1 , 所以先让我们试试ε 1 . 我们有T ⁡ ε 1 = ( 5 , − 1 , 3 ) 其并非ε 1 的标量倍数, 因此Z ⁡ ( ε 1 ; T ) 的维数是2 . 这个空间由所有具有形式a ⁢ ε 1 + b ⁢ ( T ⁡ ε 1 ) = a ⁢ ( 1 , 0 , 0 ) + b ⁢ ( 5 , − 1 , 3 ) = ( a + 5 ⁢ b , − b , 3 ⁢ b ) 的向量构成, 或者说由所有满足x 3 = − 3 ⁢ x 2 的向量( x 1 , x 2 , x 3 ) 构成. 现在我们想要寻找的是一个满足T ⁡ α 2 = 2 ⁢ α 2 且Z ⁡ ( α 2 ; T ) ∩ Z ⁡ ( ε 1 ; T ) = { 0 } 的向量α 2 . 既然α 2 是T 的特征向量, 那么空间Z ⁡ ( α 2 ; T ) 必然是由α 2 张成的一维子空间, 于是我们的要求其实是α 2 ∉ Z ⁡ ( ε 1 ; T ) . 如果α = ( x 1 , x 2 , x 3 ) , 那么很容易通过计算得知T ⁡ α = 2 ⁢ α 当且仅当x 1 = 2 ⁢ x 2 + 2 ⁢ x 3 . 因此, α 2 = ( 2 , 1 , 0 ) 是满足我们要求的一个向量. 读者应该直接验证有序基{ ( 1 , 0 , 0 ) , ( 5 , − 1 , 3 ) , ( 2 , 1 , 0 ) } 下T 的矩阵即是上面的B .
例子4. 设T 是V 上的一个可对角化算子. 将T 的循环分解与对角化T 的基联系起来是有趣的. 令c 1 , … , c k 是T 不同的特征值, V i 是与特征值c i 关联的特征空间, 那么V = V 1 ⊕ ⋯ ⊕ V k 并且如果d i = dim ⁡ V i , 那么f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 是T 的特征多项式. 如果α ∈ V , 那么很容易将循环子空间Z ⁡ ( α ; T ) 和子空间V 1 , … , V k 联系起来. 首先我们知道存在唯一的向量β 1 , … , β k 使得α = β 1 + ⋯ + β k 其中β i ∈ V i . 既然T ⁡ β i = c i ⁢ β i , 那么对于每个多项式f , 我们有f ⁡ ( T ) ⁡ α = f ⁡ ( c 1 ) ⁢ β 1 + ⋯ + f ⁡ ( c k ) ⁢ β k . 给定任意的标量t 1 , … , t k , 存在多项式f 满足f ⁡ ( c i ) = t i , 1 ≤ i ≤ k . 因此, Z ⁡ ( α ; T ) 就是由向量β 1 , … , β k 张成的子空间. α 的零化子是什么呢? 根据前面的讨论, f ⁡ ( T ) ⁡ α = 0 当且仅当f ⁡ ( c i ) ⁢ β i = 0 , 1 ≤ i ≤ k . 换言之, 只需要对于那些使得β i ≠ 0 的i 有f ⁡ ( c i ) = 0 即可推出f ⁡ ( T ) ⁡ α = 0 . 据此, α 的零化子是积∏ β i ≠ 0 ( x − c i ) . 现在, 令𝔅 i = { β 1 i , … , β d i i } 是V i 的一个有序基, 令r = max 1 ≤ i ≤ k ⁡ d i . 我们通过α j = ∑ d i ≥ j β j i , 1 ≤ j ≤ r 定义向量α 1 , … , α r . 循环子空间Z ⁡ ( α j ; T ) 是由向量β j i 张成的子空间, 其中i 遍历所有满足d i ≥ j 的那些指标. α j 的T 零化子是p j = ∏ d i ≥ j ( x − c i ) . 我们有V = Z ⁡ ( α 1 ; T ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; T ) 因为每个β j i 属于且仅属于子空间Z ⁡ ( α 1 ; T ) , … , Z ⁡ ( α r ; T ) 其中的一个并且𝔅 = ( 𝔅 1 , … , 𝔅 k ) 是V 的一个基. [译注: 直和的论证稍显意味不明, 但是事实本身是容易看出的.] 根据p j 的公式, 也很容易看出p i + 1 整除p i , i = 1 , … , r − 1 . [译注: 由此看出这的确是定理3中的循环分解.]
练习1. 令T 是F 2 上在标准有序基下由矩阵[ 0 0 1 0 ] 表示的线性算子. 令α 1 = ( 0 , 1 ) . 证明F 2 ≠ Z ⁡ ( α 1 ; T ) 且不存在非零向量α 2 ∈ F 2 满足Z ⁡ ( α 2 ; T ) ∩ Z ⁡ ( α 1 ; T ) = { 0 } .
练习2. 令
T 是有限维向量空间
V 上的一个线性算子,
R 是
T 的像.
证明R 拥有一个与之互补的T 不变子空间当且仅当R 与T 的零空间N 线性无关. 如果R 和N 线性无关, 证明N 是唯一的与R 互补的T 不变子空间. 练习3. 令T 是ℝ 3 上在标准有序基下由矩阵[ 2 0 0 1 2 0 0 0 3 ] 表示的线性算子. 令W 是T − 2 ⁢ I 的零空间. 证明W 没有与之互补的T 不变子空间. (提示: 令β = ε 1 , 观察到( T − 2 ⁢ I ) ⁡ β ∈ W , 证明不存在α ∈ W 使得( T − 2 ⁢ I ) ⁡ β = ( T − 2 ⁢ I ) ⁡ α .) [译注: W 存在T 不变的补子空间当且仅当W 是T 可容许的.]
练习4. 令
T 是
F 4 上的线性算子, 其在标准有序基下由矩阵
[ c 0 0 0 1 c 0 0 0 1 c 0 0 0 1 c ] 表示. 令
W 是
T − c ⁢ I 的零空间.
证明W 是由ε 4 张成的子空间. 找出理想S ⁡ ( ε 4 ; T ) , S ⁡ ( ε 3 ; T ) , S ⁡ ( ε 2 ; T ) , S ⁡ ( ε 1 ; T ) 的首项系数为一的生成元. 练习5. 令T 是域F 上的向量空间V 上的一个线性算子. 如果f 是域F 上的一个多项式而α ∈ V , 令f ⁡ α = f ⁡ ( T ) ⁡ α . 如果V 1 , … , V k 是T 不变子空间而V = V 1 ⊕ ⋯ ⊕ V k , 证明f ⁡ V = f ⁡ V 1 ⊕ ⋯ ⊕ f ⁡ V k . [译注: 这个是定理3的证明中留给读者补充证明的引理.]
练习6. 令T 是域F 上的向量空间V 上的一个线性算子. 如果向量α , β ∈ V 有着相同的T 零化子, 证明对于任意的多项式f , f ⁡ α 和f ⁡ β 也有着相同的T 零化子. [译注: 这个亦是定理3的证明中留给读者补充证明的引理.]
练习7. 找出以下每个实矩阵的极小多项式和有理形式.[ 0 − 1 − 1 1 0 0 − 1 0 0 ] , [ c 0 − 1 0 c 1 − 1 1 c ] , [ cos ⁡ θ sin ⁡ θ − sin ⁡ θ cos ⁡ θ ]
练习8. 令T 是ℝ 3 上的线性算子, 其在标准有序基下由矩阵[ 3 − 4 − 4 − 1 3 2 2 − 4 − 3 ] 表示. 找出满足定理3条件的非零向量α 1 , … , α r .
练习9. 令A 是实矩阵A = [ 1 3 3 3 1 3 − 3 − 3 − 5 ] . 找出一个3 × 3 的可逆实矩阵P 使得P − 1 ⁢ A ⁢ P 是有理形式.
练习10. 令F 是复数域的一个子域, T 是F 4 上的线性算子, 其在标准有序基下由矩阵[ 2 0 0 0 1 2 0 0 0 a 2 0 0 0 b 2 ] 表示. 找出T 的特征多项式. 考虑a = b = 1 ; a = b = 0 ; a = 0 , b = 1 的情形. 在这三种情形下, 找出T 的极小多项式以及满足定理3条件的非零向量α 1 , … , α r .
练习11. 证明如果A 和B 是域F 上的3 × 3 矩阵, 那么A 和B 在域F 上相似的充要条件是它们拥有相同的特征多项式和极小多项式. 给出一个例子表明对于4 × 4 的矩阵而言这是不对的.
练习12. 令F 是复数域的一个子域, A 和B 是域F 上的n × n 矩阵. 证明如果A 和B 在复数域上相似, 那么它们也在F 上相似. (提示: 证明A 的有理形式不论A 被视为F 还是ℂ 上的矩阵都是一样的, B 当然也是如此.)
练习13. 令A 是一个n × n 复矩阵, 证明如果A 的每个特征值都是实数, 那么A 相似于一个实矩阵.
练习14. 令T 是有限维向量空间V 上的一个线性算子, 证明存在满足以下性质的向量α ∈ V . 如果f 是一个多项式而f ⁡ ( T ) ⁡ α = 0 , 那么f ⁡ ( T ) = 0 . (这样的向量α 被称为T 的多项式代数的一个分离向量 .) 当T 拥有循环向量时, 给出循环向量也是分离向量的直接证明.
练习15. 令F 是复数域的一个子域, A 是F 上的一个n × n 矩阵, p 是A 的极小多项式. 如果我们将A 视为ℂ 上的矩阵, 那么A 在ℂ 上也拥有一个极小多项式f . 使用关于线性方程组的定理证明p = f . 另外, 你能看出这也可由循环分解定理推得吗?
练习16. 令A 是一个满足A 2 + I = 0 的n × n 实矩阵, 证明n 是偶数, 并且如果n = 2 ⁢ k , 那么A 在实数域上相似于以下分块形式的矩阵[ 0 − I I 0 ] 其中I 是k × k 的恒等矩阵.
练习17. 令
T 是有限维向量空间
V 上的一个线性算子, 设
T 的极小多项式是素多项式之幂;T 的极小多项式等于特征多项式.证明不存在非平凡的
T 不变子空间拥有
T 不变的补子空间.
练习18. 如果T 是可对角化线性算子, 那么每个T 不变子空间都有与之互补的T 不变子空间.
练习19. 令T 是有限维向量空间V 上的一个线性算子, 证明T 拥有循环向量当且仅当每个与T 交换的线性算子U 都是应用某个多项式于T 的结果.
练习20. 令V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子. 我们问何时V 中的每个非零向量都是T 的一个循环向量, 证明其成立的充要条件为T 的特征多项式在F 上不可约.
练习21. 令A 是一个n × n 实矩阵, T 是ℝ n 上在标准有序基下由A 表示的线性算子, U 是ℂ n 上在标准有序基下由A 表示的线性算子. 使用练习20的结果证明以下结论: 若T 仅有平凡的不变子空间, 那么U 是可对角化的.
第7.3节 Jordan形式 设N 是有限维向量空间V 上的一个幂零算子. 让我们检视由定理3获得的N 的循环分解. 我们有一个正整数r 和r 个非零向量α 1 , … , α r ∈ V 满足V = Z ⁡ ( α 1 ; N ) ⊕ ⋯ ⊕ Z ⁡ ( α r ; N ) 并且若p 1 , … , p r 分别是α 1 , … , α r 的N 零化子, 那么对于i = 1 , … , r − 1 有p i + 1 整除p i . 既然N 是幂零算子, 那么其极小多项式为x k , 其中k ≤ n . [译注: 这里的n 是隐式的V 的维数.] 因此, 每个p i 都具有x k i 的形式, 而整除的条件可以被表达为k 1 ≥ k 2 ≥ ⋯ ≥ k r . 当然了, k 1 = k 并且k r ≥ 1 . x k i 的同伴矩阵是k i × k i 的矩阵A i = [ 0 0 ⋯ 0 0 1 0 ⋯ 0 0 0 1 ⋯ 0 0 ⋮ ⋮ ⋮ ⋮ 0 0 ⋯ 1 0 ] . 因此, 定理3为我们提供了V 的一个有序基使得其下的矩阵是A i 这样的初等幂零矩阵之直和, 而且随着i 的增大, A i 的大小是在减小的. 从中读者可以看出, 与一个n × n 的幂零矩阵相关联着的, 是一个正整数r 和r 个正整数k 1 , … , k r 满足k 1 + ⋯ + k r = n 且k i ≥ k i + 1 . 这些正整数确定了矩阵的有理形式, 即在相似意义下确定了矩阵是什么. [译注: 相似矩阵有着相同的有理形式, 这从循环分解的唯一性来看是显然的.]
还有一点是我们想要对于上述的幂零算子N 指出的. 正整数r 恰是N 的零化度. 实际上, r 个向量N k i − 1 ⁡ α i 构成了N 的零空间的一个基. 这是因为, 令α 是N 的零空间中的一个向量, 我们可以将α 写成α = f 1 ⁡ α 1 + ⋯ + f r ⁡ α r 的形式, 其中f i 是多项式, 并且不妨设对于每个i 有f i = 0 或者deg ⁡ f i < k i . 既然N ⁡ α = 0 , 那么对于每个i 可知0 = N ⁡ ( f i ⁡ α i ) = N ⁡ f i ⁡ ( N ) ⁡ α i = ( x ⁢ f i ) ⁡ α i 因此, x ⁢ f i 被x k i 整除. 但是, 因为f i = 0 或者deg ⁡ f i < k i , 这意味着f i = c i ⁢ x k i − 1 其中c i 是某个标量, 那么我们就有α = c 1 ⁢ ( x k 1 − 1 ⁡ α 1 ) + ⋯ + c r ⁢ ( x k r − 1 ⁡ α r ) 其表明这r 个向量的确是N 的零空间的一个基. [译注: 这些向量之所以线性无关, 是因为它们是使得幂零算子呈现有理形式的基的一部分.] 读者也应该注意到这个事实从矩阵的角度来看是相当清晰的.
现在我们想要将我们关于幂零算子或者幂零矩阵的发现和第6章的准素分解定理结合起来. 情况如下: 设T 是V 的一个线性算子并且T 的特征多项式在标量域F 上可以被分解为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 其中c 1 , … , c k 是F 的不同元素而d i ≥ 1 , 那么T 的极小多项式为p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k 其中1 ≤ r i ≤ d i . 若W i 是( T − c i ⁢ I ) r i 的零空间, 那么准素分解定理告诉我们V = W 1 ⊕ ⋯ ⊕ W k 并且由T 于W i 上的限制导出的算子T i 的极小多项式为( x − c i ) r i . 令N i = T i − c i ⁢ I , 那么N i 是幂零的并且其极小多项式为x r i . 在W i 上, T 就表现为N i 加上标量c i 倍的恒等算子. 设我们挑选了W i 的一个有序基使得N i 呈现有理形式, 那么T i 在此有序基下的矩阵应该是形式为[ c 0 ⋯ 0 0 1 c ⋯ 0 0 ⋮ ⋮ ⋮ ⋮ c 0 0 ⋯ 1 c ] 的矩阵的直和, 并且每个c = c i . 更进一步, 这些矩阵的大小自左向右递减. 我们将以上这种形式的矩阵称为与特征值c 相关联的基本Jordan矩阵. 现在如果我们将每个W i 的基放在一起, 那么我们就得到了V 的一个有序基. 让我们来刻画T 在这个有序基下的矩阵A .
矩阵A 是矩阵A 1 , … , A k 的直和A = [ A 1 0 ⋯ 0 0 A 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ A k ] 每个A i 都具有形式A i = [ J 1 ( i ) 0 ⋯ 0 0 J 2 ( i ) ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ J n i ( i ) ] 其中每个J j ( i ) 都是与特征值c i 相关联的基本Jordan矩阵. 而且, 在每个A i 内部, 矩阵J j ( i ) 的大小随着j 的增加而递减. 一个满足本段之前所述条件的n × n 矩阵A (对于不同的标量c 1 , … , c k ) 被称为是具有Jordan形式 .
刚才我们已经指出, 若线性算子T 的特征多项式可在标量域上被完全分解, 那么存在V 的一个有序基使得T 由某个Jordan形式表示. 现在我们想要说明的是, 这个矩阵在某种意义下是唯一的, 实际上最多仅取决于将T 的特征值c i 写下来的顺序. 换句话说, 如果两个Jordan形式是相似的, 那么它们仅可能是在标量c i 的顺序上有所不同.
我们可以从以下论证中看出唯一性. 设存在V 的某个有序基使得T 由前述的Jordan矩阵A 表示. 如果A i 是一个d i × d i 的矩阵, 那么d i 显然是c i 作为A (或者说T ) 的特征多项式的根的重数. 换言之, T 的特征多项式为f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k . 这表明c 1 , … , c k 和d 1 , … , d k 除开顺序应该是唯一的. A 为矩阵A i 之直和的事实为我们提供了一个T 不变的直和分解V = W 1 ⊕ ⋯ ⊕ W k . 我们注意到W i 必然是( T − c i ⁢ I ) n 的零空间, 其中n = dim ⁡ V . 这是因为, A i − c i ⁢ I 显然是幂零的, 而对于j ≠ i , A j − c i ⁢ I 又显然是非奇异的. 于是, 我们看到子空间W i 是唯一的. 如果T i 是由T 于W i 上的限制导出的算子, 那么矩阵A i 作为( T i − c i ⁢ I ) 的有理形式加上c i 倍的d i × d i 恒等矩阵是唯一的. [译注: 原文似乎忘掉还需要为幂零算子的有理形式加上c i 倍的恒等矩阵才是A i . 另外, A i 的唯一性依赖于有理形式的唯一性, 虽然实际上其间还有一点点差距, 但因为并不困难, 就留给读者思考了.]
现在我们希望更深入地观察算子T 及其在某个有序基下的Jordan矩阵A , 以下所列出的是我们的发现:
A 的每个元素, 若是不在主对角线上或者紧挨着主对角线的下方, 必然是0 . A 的对角线上的元素是T 的k 种不同的特征值c 1 , … , c k . 并且, c i 重复d i 次, 而d i 是c i 作为特征多项式的根的重数, 即d i = dim ⁡ W i .对于每个i , 矩阵A i 是n i 个与特征值c i 有关的基本Jordan矩阵J j ( i ) 的直和. 数字n i 恰为与特征值c i 相关联的特征空间的维数. 这是因为, n i 是( T i − c i ⁢ I ) 的有理形式的基本幂零块的数目, 因而等于( T − c i ⁢ I ) 的零空间的维数. [译注: W i 是( T − c i ⁢ I ) r i 的零空间, 其中r i 是一个正整数, 于是其显然包含( T − c i ⁢ I ) 的零空间.] 特别地, 我们注意到T 是可对角化的当且仅当对于每个i , n i = d i . [译注: n i 是所谓的几何重数, d i 是所谓的代数重数.] 对于每个i , 矩阵A i 的第一个块J 1 ( i ) 是一个r i × r i 的矩阵, 其中r i 是c i 作为T 的极小多项式的根的重数. 这可由幂零算子( T i − c i ⁢ I ) 的极小多项式为x r i 的事实推得. 当然, 和之前一样, 我们也有直接的矩阵形式的结果. 如果B 是域F 上的一个n × n 矩阵并且B 的特征多项式可在域F 上被分解完全, 那么B 在域F 相似于一个n × n 的Jordan矩阵A , 而A 在可以重排其特征值顺序的意义下是唯一的, 我们将A 称为B 的Jordan形式.
若F 是代数闭域, 那么上述评注则可应用于所有F 上的有限维向量空间上的线性算子. 因此, 例如, 每个复数域上的n × n 矩阵都相似于一个基本上唯一的Jordan形式. [译注: "基本上"的意思即不计特征值的顺序.]
例子5. 设T 是ℂ 2 上的一个线性算子, 那么T 的特征多项式要么具有( x − c 1 ) ⁢ ( x − c 2 ) 的形式, 其中c 1 和c 2 是不同的复数, 要么具有( x − c ) 2 的形式. 在前一种情况下, T 必然是可对角化的且在某个有序基下由[ c 1 0 0 c 2 ] 表示. 在后一种情况下, T 的极小多项式可能是( x − c ) , 那么T = c ⁢ I , 或者是( x − c ) 2 , 那么在此情况下T 在某个有序基下可由矩阵[ c 0 1 c ] 表示. 因此, 复数域上的每个2 × 2 矩阵, 要么相似于一个对角矩阵, 要么相似于以上这种形式的矩阵, 二者不可兼得.
例子6. 令A 是3 × 3 的复矩阵A = [ 2 0 0 a 2 0 b c − 1 ] A 的特征多项式显然是( x − 2 ) 2 ⁢ ( x + 1 ) . 若这也是A 的极小多项式, 那么A 相似于[ 2 0 0 1 2 0 0 0 − 1 ] 或者极小多项式为( x − 2 ) ⁢ ( x + 1 ) , 那么A 相似于[ 2 0 0 0 2 0 0 0 − 1 ] 既然( A − 2 ⁢ I ) ⁢ ( A + I ) = [ 0 0 0 3 ⁢ a 0 0 a ⁢ c 0 0 ] 因而A 相似于对角矩阵当且仅当a = 0 .
例子7. 令A = [ 2 0 0 0 1 2 0 0 0 0 2 0 0 0 a 2 ] A 的特征多项式为( x − 2 ) 4 . 既然A 是两个2 × 2 矩阵的直和, A 的极小多项式显然是( x − 2 ) 2 . 现在如果a = 0 或者a = 1 , 那么矩阵A 是Jordan形式. 注意到对于a = 0 和a = 1 , 我们得到的两个矩阵有着相同的特征多项式和极小多项式, 但是它们并不相似. 这是因为, a = 0 时矩阵( A − 2 ⁢ I ) 的解空间的维数是3 , 而a = 1 时解空间的维数则是2 . [译注: 相似矩阵的解空间可以被视为对于同一个线性算子的零空间的具体刻画, 不论怎样它们的维数至少应该是相同的.]
例子8. 常系数齐次线性微分方程 (第6章的例子14) 提供了对于Jordan形式的一种很好的刻画. 令a 0 , … , a n − 1 是复数而V 是定义在实轴的某个固定区间上满足微分方程d n ⁡ f d ⁡ x n + a n − 1 ⁢ d n − 1 ⁡ f d ⁡ x n − 1 + ⋯ + a 1 ⁢ d ⁡ f d ⁡ x + a 0 ⁢ f = 0 的所有n 次可微函数f 构成的空间. 令D 是微分算子, 那么V 在D 下不变, 因为V 是p ⁡ ( D ) 的零空间, 其中p = x n + ⋯ + a 1 ⁢ x + a 0 . 那么V 上的微分算子的Jordan形式是什么样的呢? 令c 1 , … , c k 是p 不同的复根, 那么p = ( x − c 1 ) r 1 ⁢ ⋯ ⁢ ( x − c k ) r k 令V i 是( D − c i ⁢ I ) r i 的零空间, 即微分方程( D − c i ⁢ I ) r i ⁡ f = 0 的解集, 那么根据第6章例子14的观察, 准素分解定理告诉我们V = V 1 ⊕ ⋯ ⊕ V k . 令N i 是D − c i ⁢ I 于V i 上的限制算子, 那么(V 上的)算子D 的Jordan形式由分别位于空间V 1 , … , V k 上的幂零算子N 1 , … , N k 的有理形式决定. 所以说, 我们必须要知道的是(在各种各样的c 下)空间V c 上的算子N = D − c ⁢ I 的有理形式, 其中V c 是微分方程( D − c ⁢ I ) r ⁡ f = 0 的解集. [译注: 这里的r 实际上是某个任意的正整数, 并且根据第6章的微分方程的例子, V c 的维数就是r . 当然, N 在V c 上是幂零算子的事实是显然的.] N 在有理形式下有多少基本幂零块呢? 这个数字是N 的零化度, 即与特征值c 相关联的特征空间的维数. [译注: 这里说的特征值指的是V c 上的微分算子D 的特征值, 而且其特征值就是唯一的, 即c , 这可以从之前的观察中看出来.] 然而, 此维数必然是1 , 因为任意满足微分方程D ⁡ f = c ⁢ f 的函数都是指数函数h ⁡ ( x ) = e c ⁢ x 的某个标量倍数. 因此, (空间V c 上的)算子N 具有循环向量, 其一个比较好的选择是g = x r − 1 ⁢ h :g ⁡ ( x ) = x r − 1 ⁢ e c ⁢ x . 那么这就给出N ⁡ g = ( r − 1 ) ⁢ x r − 2 ⁢ h ⋮ ⋮ N r − 1 ⁡ g = ( r − 1 ) ! ⁢ h [译注: 这里的符号运用稍微值得解释一下. 在x r − 1 ⁢ h 中, x 代表将每个值映射至自身的函数, x r − 1 表示这个函数的r − 1 次幂, 但是这里的乘法是定义在函数上的, 即( f ⁢ g ) ⁡ ( x ) = f ⁡ ( x ) ⁢ g ⁡ ( x ) , 那当然x r − 1 ⁢ h 也应该这么解释. 对于其余类似的表达式, 我们还应该注意到诸如( r − 1 ) 这样的常数被解释为常值函数.] 现在我们知道D (在空间V )上的Jordan形式是k 个基本Jordan矩阵的直和, 其中每个都对应于一个根c i , 且大小为r i × r i .
练习1. 令N 1 和N 2 是域F 上的3 × 3 幂零矩阵, 证明N 1 和N 2 相似当且仅当它们拥有相同的极小多项式.
练习2. 使用练习1和Jordan形式的结果证明以下事实: 如果域F 上的n × n 矩阵A 和B 有着相同的特征多项式f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 和相同的极小多项式, 并且没有d i 大于3 , 那么A 和B 是相似的.
练习3. 如果A 是一个5 × 5 的复矩阵, 其特征多项式为f = ( x − 2 ) 3 ⁢ ( x + 7 ) 2 而极小多项式为p = ( x − 2 ) 2 ⁢ ( x + 7 ) 那么A 的Jordan形式是什么呢?
练习4. 6 × 6 的复矩阵, 若其特征多项式为( x + 2 ) 4 ⁢ ( x − 1 ) 2 , 那么其Jordan形式有多少种可能呢?
练习5. 次数小于等于3 的多项式构成的向量空间 [译注: 当然包括不能定义次数的零多项式] 上的微分算子, 其在"自然"有序基下由矩阵[ 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ] 表示. 这个矩阵的Jordan形式是什么? (F 是复数域的一个子域.)
练习6. 令A 是复矩阵[ 2 0 0 0 0 0 1 2 0 0 0 0 − 1 0 2 0 0 0 0 1 0 2 0 0 1 1 1 1 2 0 0 0 0 0 1 − 1 ] 找出A 的Jordan形式.
练习7. 如果域F 上的n × n 矩阵A 以f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 为特征多项式, 请问A 的迹是多少?
练习8. 按照相似对于满足A 3 = I 的3 × 3 复矩阵A 进行分类.
练习9. 按照相似对于满足A n = I 的n × n 复矩阵A 进行分类.
练习10. 令n 是大于1 的整数, N 是域F 上一个满足N n = 0 但是N n − 1 ≠ 0 的n × n 矩阵, 证明N 没有平方根, 即不存在n × n 的矩阵A 使得A 2 = N .
练习11. 令N 1 和N 2 是域F 上的6 × 6 幂零矩阵, 设其拥有相同的极小多项式和相同的零化度, 证明N 1 和N 2 是相似的. 说明为何这对于7 × 7 的情况并不成立.
练习12. 使用练习11和Jordan形式的结果证明以下事实: 令A 和B 是域F 有着相同特征多项式f = ( x − c 1 ) d 1 ⁢ ⋯ ⁢ ( x − c k ) d k 和相同极小多项式的n × n 矩阵, 并且设对于每个i , ( A − c i ⁢ I ) 和( B − c i ⁢ I ) 的解空间有着相同的维数, 如果没有d i 大于6 , 那么A 和B 是相似的.
练习13. 如果N 是一个k × k 的基本幂零矩阵, 即N k = 0 但是N k − 1 ≠ 0 , 证明N t 相似于N . 现在使用Jordan形式来证明每个复矩阵都相似于其转置.
练习14. 以下证明有何错误? 如果A 是一个n × n 的复矩阵满足A t = − A , 那么A = 0 . (证明: 令J 是A 的Jordan形式, 因为A t = − A , 所以J t = − J . 但是, 鉴于J 是下三角矩阵, J t = − J 可以推出J 的每个元素都是0 . 既然J = 0 而A 相似于J , 那么A = 0 .) (给出非零矩阵A 满足A t = − A 的例子.)
练习15. 如果N 是ℂ 上的一个3 × 3 的幂零矩阵, 证明A = I + 1 2 ⁢ N − 1 8 ⁢ N 2 满足A 2 = I + N , 即A 是I + N 的一个平方根. 使用( 1 + t ) 1 / 2 的二项级数展开以得到类似的I + N 的平方根公式, 其中N 是ℂ 上任意的n × n 的幂零矩阵.
练习16. 使用练习15的结果证明如果c 是一个非零复数而N 是一个幂零的复矩阵, 那么( c ⁢ I + N ) 拥有平方根. 现在使用Jordan形式来证明每个非奇异的n × n 复矩阵都拥有平方根.
第7.4节 不变因子的计算 设A 是域F 上的一个n × n 矩阵, 我们希望找到一种能够计算确定了A 的有理形式的不变因子p 1 , … , p r 的方法. 让我们从简单的情况着手, 即A 是首项系数为一多项式p = x n + c n − 1 ⁢ x n − 1 + ⋯ + c 1 ⁢ x + c 0 的同伴矩阵. 在第7.1节我们已经看到p 既是A 的极小多项式也是A 的特征多项式, 但是现在我们希望直接给出计算以表明p 是A 的特征多项式. 在此情况下, 特征矩阵为x ⁢ I − A = [ x 0 0 ⋯ 0 c 0 − 1 x 0 ⋯ 0 c 1 0 − 1 x ⋯ 0 c 2 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ x c n − 2 0 0 0 ⋯ − 1 x + c n − 1 ] . 将第n 行乘上x 加到第( n − 1 ) 行上去, 这将移除第( n − 1 ) 行( n − 1 ) 列的x , 但是不会改变其行列式的值. 接着, 将新的第( n − 1 ) 行乘上x 加到第( n − 2 ) 行上去. 如此反复直至所有主对角线上的x 都被移除. 这个过程的最终结果是矩阵[ 0 0 0 ⋯ 0 x n + ⋯ + c 1 ⁢ x + c 0 − 1 0 0 ⋯ 0 x n − 1 + ⋯ + c 2 ⁢ x + c 1 0 − 1 0 ⋯ 0 x n − 2 + ⋯ + c 3 ⁢ x + c 2 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ 0 x 2 + c n − 1 ⁢ x + c n − 2 0 0 0 ⋯ − 1 x + c n − 1 ] 其与x ⁢ I − A 有着相同的行列式, 而右上角是p . 通过列变换我们可以清理一下最后一列:[ 0 0 0 ⋯ 0 p − 1 0 0 ⋯ 0 0 0 − 1 0 ⋯ 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ 0 0 0 0 0 ⋯ − 1 0 ] 将前( n − 1 ) 列每个都乘上− 1 , 然后通过( n − 1 ) 次相邻的对换将当前的最后一列移到第一列的位置. 因其(对于行列式而言)总的效果就是2 ⁢ n − 2 次的符号反转, 所以行列式仍然不变. 我们得到了矩阵[ p 0 0 ⋯ 0 0 1 0 ⋯ 0 0 0 1 ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 0 0 ⋯ 1 ] 此时p = det ⁡ ( x ⁢ I − A ) 这个事实是显然的.
现在我们将要表明, 对于任意的n × n 矩阵A , 存在一系列行和列变换将x ⁢ I − A 转换为上面这种形式的矩阵, 即A 的不变因子沿着主对角线依次出现. 先让我们完全明了我们将要(对于行和列)施行的操作.
我们关心的是F ⁡ [ x ] m × n , 即由所有以域F 上的多项式为元素的m × n 矩阵构成的集合. 如果M 是这样的一个矩阵, 那么M 上的一个初等行变换 是以下三种操作中的一种:
给M 的一行乘上F 中的一个非零标量; 将M 的第r 行替换为第r 行加上f 倍的第s 行, 其中f 是域F 上任意的多项式并且r ≠ s ; 交换M 的两行. 一个初等行变换的逆仍然是相同类型的初等行变换. [译注: 其实所谓类型不是良定的, 但是不要紧, 因为压根不会利用这个事实.] 注意到在1中, 我们要求的是非零标量而不是非零多项式, 因为非标量的多项式并非可逆, 若是如此则会导致不能作出初等行变换可逆的断言. 一个
m × m 的
初等矩阵 , 即一个
F ⁡ [ x ] m × m 中的初等矩阵, 是可由
m × m 的恒等矩阵通过单独一个初等行变换得到的矩阵. 显然对于
M 施行一个初等行变换可以等效为给
M 左乘一个相应的
m × m 的初等矩阵; 实际上, 如果
e 是这样的一个初等行变换, 那么
e ⁡ ( M ) = e ⁡ ( I ) ⁢ M . 令M , N ∈ F ⁡ [ x ] m × n , 我们称M 行等价于N , 如果N 可由M 经过有限的一系列初等行变换得到:M = M 0 → M 1 → ⋯ → M k = N . 显然N 行等价于M 当且仅当M 行等价于N , 所以我们可以使用术语"M 和N 是行等价的". 如果N 行等价于M , 那么N = P ⁢ M 其中m × m 的矩阵P 是初等矩阵之积:P = E 1 ⁢ ⋯ ⁢ E k . 特别地, P 是一个可逆矩阵, 其逆为P − 1 = E k − 1 ⁢ ⋯ ⁢ E 1 − 1 . 当然, E j 的逆来源于初等行变换的逆. [译注: 多项式上的矩阵乘法也满足结合律, 所以逆矩阵自然是唯一的.]
刚才的这些内容就和域上的矩阵是一样的, 其平行于第1章的那些基本结果. 因此, 其所暗示的接下来的问题应该是如何引入多项式矩阵的行简化阶梯形式. 这里我们遇到了新的障碍. 之前我们是怎么对于矩阵进行行规约的呢? 第一步是选出第1 行的首非零元, 然后将第1 行的每个元素都除以那个元素. 对于元素为多项式的矩阵, 我们必然不能在一般情况下完成这个操作. 在接下来的定理中我们可以看到, 特定情形下我们可以绕开这个困难. 然而, 对于F ⁡ [ x ] m × n 而言, 并不存在适用于所有情况的行简化形式. 若是我们也引入列变换, 并研究兼用行列变换得到的等价关系, 那么对于每个矩阵我们可以得到一种相当有用的标准形式. 以下是我们的基本工具.
引理. 令M ∈ F ⁡ [ x ] m × n , 设其第一列不全为零, 并令p 是M 的第一列各元素的最大公因子, 那么M 行等价于一个矩阵N , 其中N 的第一列为[ p 0 ⋮ 0 ] .
证明. 我们将要证明的东西比我们刚才所陈述的要强一点. 实际上, 我们表明了存在一个找到
N 的算法, 即一个可供机器执行以在有限步骤内计算
N 的描述. 首先, 我们需要一些记号.
令
M ∈ F ⁡ [ x ] m × n 具有非零的首列
M 1 = [ f 1 ⋮ f m ] 定义
l ⁡ ( M 1 ) = min f i ≠ 0 ⁡ deg ⁡ f i p ⁡ ( M 1 ) = gcd ⁡ ( f 1 , … , f m ) 令
j 是某个满足
deg ⁡ f j = l ⁡ ( M 1 ) 的下标. 为了明确起见, 令
j 是满足要求的下标中最小的那个, 即
j = min ⁡ { i ∈ { 1 , … , m } | deg ⁡ f i = l ⁡ ( M 1 ) } . 我们尝试用
f j 去除每个
f i :
f i = f j ⁢ g i + r i , r i = 0 或者 deg ⁡ r i < deg ⁡ f j . 对于每个异于
j 的
i , 将
M 的第
i 行替换为第
i 行减去
g i 乘上第
j 行. 将第
j 行乘上首项系数的倒数以将
f j 化为首项系数为一的多项式, 然后交换第
j 行和第
1 行. 通过所有这些操作, 我们得到了一个矩阵
M ′ , 其第一列为
M 1 ′ = [ f ‾ j r 2 ⋮ r j − 1 r 1 r j + 1 ⋮ r m ] . 我们已经给出了一个良定义的过程以将每个
M 转化为一个具有以下这些性质的
M ′ :
M ′ 行等价于M ;p ⁡ ( M 1 ′ ) = p ⁡ ( M 1 ) ;要么l ⁡ ( M 1 ′ ) < l ⁡ ( M 1 ) , 要么M 1 ′ = [ p ⁡ ( M 1 ) 0 ⋮ 0 ] . 性质b和c是容易验证的. [译注: 为了验证性质b, 读者最好回顾一下第4章, 那里将
f 1 , … , f m 的
gcd 定义为由这些多项式生成的理想的首项系数为一的生成元. 并且, 第4章给出了
gcd 的一个等价定义, 其更符合我们的直觉, 即若首项系数为一的多项式
d 满足其整除
f 1 , … , f m 且每个整除
f 1 , … , f m 的多项式都整除
d , 那么
d 是
f 1 , … , f m 的
gcd . 或许, 利用等价定义说明性质b是更简单的, 但其实两种定义都差不多.] 实际上, 性质c只是在重述, 要么存在某个
i 使得
r i ≠ 0 而
deg ⁡ r i < deg ⁡ f j , 要么对于每个
i 都有
r i = 0 , 于是
f ‾ j 成为
f 1 , … , f m 的最大公因子.
现在要证明引理就相当简单了. 我们从矩阵
M 开始, 应用上述过程以得到
M ′ . 性质c告诉我们要么矩阵
M ′ 就是引理所需要的
N , 要么
l ⁡ ( M 1 ′ ) < l ⁡ ( M 1 ) . 对于后一种情况, 我们再次应用该过程于
M ′ 以得到矩阵
M ( 2 ) = ( M ′ ) ′ . 要是
M ( 2 ) 也不合适, 我们就构造
M ( 3 ) = ( M ( 2 ) ) ′ , 如此进行下去. 证明的要义在于严格的不等式
l ⁡ ( M 1 ) > l ⁡ ( M 1 ′ ) > l ⁡ ( M 1 ( 2 ) ) > ⋯ 不可能无限延伸下去. 至多只需要
l ⁡ ( M 1 ) 次过程迭代, 我们必定能够抵达具有我们所寻求性质的矩阵
M ( k ) . [译注: 这里其实存在一个无关紧要的细节问题, 就是迭代次数的上界严格说来是
l ⁡ ( M 1 ) + 1 , 原因如下. 首先, 除非一开始矩阵的第一列就是符合条件的, 否则都需要进行至少一次迭代. 其次, 迭代终止的条件为
l 应用于矩阵第一列的值不变. 也就是说, 尽管前面的迭代步骤都会导致
l 应用于矩阵第一列的值严格减小, 但是最后一步时总是不变的.]
◻
定理6. 令
P ∈ F ⁡ [ x ] m × m , 以下条件是等价的:
P 是可逆的;P 的行列式是非零的标量多项式;P 行等价于m × m 的恒等矩阵;P 是初等矩阵之积.证明. 由i推出ii是显然的, 这是因为行列式函数是乘性的, 而
F ⁡ [ x ] 中的可逆元素仅是非零的标量多项式. 实际上, 第5章我们已经通过古典伴随说明了i和ii是等价的. 这里我们的论证提供了由ii推出i的一个不同证明. 我们将坐一圈旋转木马 (merry-go-round)
i → ii ↑ ↓ iv ← iii 其实并不显然的命题只有从ii推出iii而已.
假定ii成立, 我们考虑
P 的第一列. 其包含特定的多项式
p 1 , … , p m 而我们知道必然有
gcd ⁡ ( p 1 , … , p m ) = 1 因为每个
p 1 , … , p m 的公因子都必然整除
det ⁡ ( P ) , 其为非零的标量多项式. 应用前述引理于
P , 我们可以得到一个矩阵
Q = [ 1 a 2 ⋯ a m 0 ⋮ B 0 ] 其行等价于
P . 鉴于一次初等行变换至多只会改变矩阵的行列式以一个非零的标量因子,
det ⁡ ( Q ) 也是一个非零的标量多项式. 显然,
( m − 1 ) × ( m − 1 ) 的矩阵
B 和
Q 有着相同的行列式. 因此, 我们可以继续将前述引理应用于
B . 若是重复此步骤
m 次, 就可以得到一个上三角矩阵
R = [ 1 a 2 ⋯ a m 0 1 ⋯ b m ⋮ ⋮ ⋮ 0 0 ⋯ 1 ] 其行等价于
P . 并且,
R 又显然等价于
m × m 的恒等矩阵.
◻
推论. 令M , N ∈ F ⁡ [ x ] m × n , 那么N 行等价于M 当且仅当N = P ⁢ M 其中P ∈ F ⁡ [ x ] m × m 是一个可逆矩阵.
现在我们以类比于初等行变换和行等价的方式来定义初等列变换 和列等价 . 我们并不需要新的初等矩阵的概念, 因为施行一次初等列变换于恒等矩阵得到的矩阵类和施行一次初等行变换得到的是一样的.
定义. 矩阵N 等价 于矩阵M , 如果我们可以通过一系列变换从M 得到N :M = M 0 → M 1 → ⋯ → M k = N 其中每一步都是一次初等行变换或者初等列变换.
定理7. 令M , N ∈ F ⁡ [ x ] m × n , N 等价于M 当且仅当N = P ⁢ M ⁢ Q 其中P ∈ F ⁡ [ x ] m × m 和Q ∈ F ⁡ [ x ] n × n 都是可逆矩阵.
定理8. 令A ∈ F n × n , p 1 , … , p r 是A 的不变因子, 那么矩阵x ⁢ I − A 等价于一个n × n 的对角矩阵, 其对角线上的元素依次为p 1 , … , p r , 1 , 1 , … , 1 .
证明. 存在可逆矩阵
P ∈ F n × n 使得
P − 1 ⁢ A ⁢ P 成为有理形式, 即具有分块形式
P − 1 ⁢ A ⁢ P = [ A 1 0 ⋯ 0 0 A 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ A r ] 其中
A i 是多项式
p i 的同伴矩阵. 根据定理7, 矩阵
P − 1 ⁢ ( x ⁢ I − A ) ⁢ P = x ⁢ I − P − 1 ⁢ A ⁢ P 等价于
x ⁢ I − A . 现在我们有
x ⁢ I − P − 1 ⁢ A ⁢ P = [ x ⁢ I − A 1 0 ⋯ 0 0 x ⁢ I − A 2 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ x ⁢ I − A r ] 其中的各个
I 是具有适当大小的恒等矩阵. 根据本节开头的讨论, 我们表明了
x ⁢ I − A i 等价于矩阵
[ p i 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋮ 0 0 ⋯ 1 ] . 将以上得到的结果组合一下, 显然
x ⁢ I − A 等价于这样的对角矩阵, 其主对角线上具有多项式
p i 和
( n − r ) 个
1 . 通过交换行和列, 可以将对角线元素按照我们想要的顺序排列, 即:
p 1 , … , p r , 1 , … , 1 .
◻
定理8的证明并未给出计算不变因子p 1 , … , p r 的有效方法, 因为其依赖于循环分解定理. 现在我们将给出一个规约行列式矩阵为对角形式的显式算法. 定理8的证明暗示了我们也可以将主对角线上的相继元素安排成前一个整除后一个的样子. [译注: 也就是说, 反转整个主对角线上的元素的顺序.]
定义. 令
N ∈ F ⁡ [ x ] m × n , 我们称
N 具有(Smith)
规范形式 , 如果
N 的每个偏离主对角线的元素都是0 ;N 的主对角线上的元素依次是f 1 , … , f l , 其满足f k 整除f k + 1 , 1 ≤ k ≤ l − 1 .在以上定义中, 数字
l = min ⁡ ( m , n ) , 而主对角线元素是
f k = N k , k , k = 1 , … , l .
定理9. 令M ∈ F ⁡ [ x ] m × n , 那么M 等价于一个具有规范形式的矩阵N .
证明. 鉴于原文的证明存在一些基本问题, 又很难通过直接打上补丁修复完善, 因此译者自行编制了一个证明, 其已经尽量在精神上与原文保持一致.
如果
M = 0 , 那么
M 本身就具有规范形式, 无需证明. 如果
M ≠ 0 , 我们想要(通过初等行变换和初等列变换)将其化为与之等价的形式
M ′ = [ f 1 0 ⋯ 0 0 ⋮ R 0 ] 其中首项系数为一的多项式
f 1 整除矩阵
R 的每个元素. 若我们的确能够施行此项操作, 实际上证明就结束了. 这是因为我们可以再次将该过程应用于
R 以得到多项式
f 2 , 并且我们知道
f 1 整除
f 2 . 不断迭代下去, 我们最终将抵达所需的规范形式.
令
l ⁡ ( M ) = min M i , j ≠ 0 ⁡ deg ⁡ M i , j . 为了简单起见, 我们将以归纳法叙述证明. 如果
l ⁡ ( M ) = 0 , 这是显然的, 因为此时
M 具有某个标量元素, 只需将其化为
1 然后移动到左上角, 最后消去第一列和第一行的其他元素即可. 对于
l ⁡ ( M ) > 0 , 我们令
k = l ⁡ ( M ) , 并作归纳假设: 对于任意的矩阵
N ∈ F ⁡ [ x ] m × n , 如果
l ⁡ ( N ) < k , 那么我们可以运用初等行变换和初等列变换将其化为我们想要的形式. 现在我们找出矩阵
M 中一个具有最低次数的元素, 然后将其移动到左上角来. 我们可以通过初等行变换将第一列除第一行以外的元素化为其除以第一行元素的余式. 若余式不均为零, 那么整个矩阵的元素的最低次数就减小了, 运用归纳假设即可. 否则的话, 我们将注意力放到第一行上来. 如法炮制, 我们可以通过初等列变换将第一行除了第一列以外的元素化为其除以第一列元素的余式. 若存在不为零的余式, 则又可使用归纳假设. 如果上面两个手段失效了, 此时第一行和第一列除左上角元素外均已化为零. 那么, 左上角的元素是否整除右下角的
( m − 1 ) × ( n − 1 ) 分块矩阵的每个元素呢? 如果是, 那么就结束了. 否则的话, 即存在某个元素不能被左上角整除, 我们将包含该元素的列加到第一列上去. 明显地, 我们再次将第一列除了第一行之外的元素化为其除以第一行元素的余式. 此时可以肯定某个余式不为零, 即我们创造了利用归纳假设的条件. 至此证明全然结束了.
最后我们还想顺便说一句, 尽管这个以归纳法进行的证明似乎是声明性的, 但是实际上其已足够指导我们施行一个
过程算法 来将矩阵化为我们所需要的形式, 或者说其可以导出一个这样的过程. 或许, 这是因为归纳和递归天然就是类似的.
◻
我们想要表明与一个矩阵M 相关联的规范形式是唯一的. 我们已经见过的两件事实提供了定理9中的多项式f 1 , … , f l 何以被M 唯一确定的线索. 首先, 初等行变换和初等列变换至多改变一个方阵的行列式以非零的标量因子. 其次, 初等行变换和初等列变换不会改变矩阵的元素的最大公因子. [译注: 实际上, 这两个事实之间的关系是递进的, 而后者才是真正的线索. 以下我们将证明, 确定了矩阵的Smith规范形式的不变因子 (即规范形式的主对角线上的元素) 可由所谓的行列式因子决定.]
定义. 令M ∈ F ⁡ [ x ] m × n , 如果1 ≤ k ≤ min ⁡ ( m , n ) , 我们将δ k ⁡ ( M ) 定义为M 的所有k × k 子矩阵的行列式的最大公因子. [译注: 在许多中文教材中, k × k 的子矩阵的行列式常被称为k 阶子式, 而δ k ⁡ ( M ) 常被称为M 的k 阶行列式因子. 值得注意的是, 某一阶的子式可能全部为零, 此时的行列式因子要么设为未定义的, 要么就定义为零.]
回忆一下, M 的一个k × k 子矩阵是将M 的某m − k 行和某n − k 列删去得到的东西. 换言之, 我们挑选了两个特定的k 元组I = ( i 1 , … , i k ) , 1 ≤ i 1 < ⋯ < i k ≤ m J = ( j 1 , … , j k ) , 1 ≤ j 1 < ⋯ < j k ≤ n 然后由M 的这些行和列构造了矩阵. 我们感兴趣的是行列式D I , J ⁡ ( M ) = det ⁡ [ M i 1 , j 1 ⋯ M i 1 , j k ⋮ ⋮ M i k , j 1 ⋯ M i k , j k ] . 多项式δ k ⁡ ( M ) 是诸多项式D I , J ⁡ ( M ) 的最大公因子, 其中I 和J 遍历所有可能的前述k 元组.
定理10. 如果M , N ∈ F ⁡ [ x ] m × n 是等价的矩阵, 那么δ k ⁡ ( M ) = δ k ⁡ ( N ) , 1 ≤ k ≤ min ⁡ ( m , n ) .
证明. 实际上证明单次初等行变换
e 不会改变
δ k 就够了, 而又因为
e 是可逆的, 所以我们只需要证明: 对于每个
k 而言, 如果多项式
f 整除所有
D I , J ⁡ ( M ) , 那么
f 整除所有
D I , J ⁡ ( e ⁡ ( M ) ) , 其中
I , J 是一切可能的前述
k 元组.
既然我们在考虑行变换, 令
α 1 , … , α m 是
M 的行, 并且我们采用记号
D J ⁡ ( α i 1 , … , α i k ) = D I , J ⁡ ( M ) . [译注: 严格说来, 这个定义方式稍有问题, 但是记号的含义还算是明确, 即以这些行构造矩阵, 取
J 指定的列来构造子矩阵, 最后计算其行列式.] 给定
I 和
J ,
D I , J ⁡ ( M ) 和
D I , J ⁡ ( e ⁡ ( M ) ) 之间有什么关系呢? 考虑变换
e 的三种类型:
给第r 行乘上一个非零标量c ; 将第r 行替换为第r 行加上g 倍的第s 行, 其中r ≠ s ; 交换第r 行和第s 行, 其中r ≠ s . 暂时忘掉类型c的操作, 让我们专注于类型a和b, 其仅改变第
r 行. 如果
r 不在下标
i 1 , … , i k 之中, 那么显然
D I , J ⁡ ( e ⁡ ( M ) ) = D I , J ⁡ ( M ) . 如果
r 在下标
i 1 , … , i k 之中, 那么对于这两种类型的操作我们有
D I , J ⁡ ( e ⁡ ( M ) ) = D J ⁡ ( α i 1 , … , c ⁢ α r , … , α i k ) = c ⁢ D J ⁡ ( α i 1 , … , α r , … , α i k ) = c ⁢ D I , J ⁡ ( M ) D I , J ⁡ ( e ⁡ ( M ) ) = D J ⁡ ( α i 1 , … , α r + g ⁢ α s , … , α i k ) = D I , J ⁡ ( M ) + g ⁢ D J ⁡ ( α i 1 , … , α s , … , α i k ) 对于类型a的操作, 显然任意整除
D I , J ⁡ ( M ) 的多项式
f 也整除
D I , J ⁡ ( e ⁡ ( M ) ) . 对于类型c的操作的情况, 注意到
如果存在j 使得s = i j , 那么D J ⁡ ( α i 1 , … , α s , … , α i k ) = 0 ; 否则的话, 即对于所有j 都是s ≠ i j , 那么D J ⁡ ( α i 1 , … , α s , … , α i k ) = ± D I ′ , J ⁡ ( M ) . 这个
I ′ 是将
k 元组
( i 1 , … , s , … , i k ) 按照升序重新排列得到的. 应该很明了的是, 如果
f 整除每个
D I , J ⁡ ( M ) , 那么
f 整除每个
D I , J ⁡ ( e ⁡ ( M ) ) . [译注: 这里的
I , J 就不是给定的两个
k 元组了, 而是所有可能的情况.]
对于类型c操作的情况, 大致上也可遵循相同的论证手段, 或者说实际上其可以被实现为类型a和b操作的组合.
◻
推论. 每个矩阵M ∈ F ⁡ [ x ] m × n 都恰等价于一个具有规范形式的N . 出现在N 的主对角线上的多项式f 1 , … , f l 为f k = δ k ⁡ ( M ) δ k − 1 ⁡ ( M ) , 1 ≤ k ≤ min ⁡ ( m , n ) 其中为了方便起见, 我们定义δ 0 ⁡ ( M ) = 1 .
证明. 如果规范形式
N 以
f 1 , … , f l 为对角线元素, 那么很容易看出来
δ k ⁡ ( N ) = f 1 ⁢ f 2 ⁢ ⋯ ⁢ f k . ◻
当然了, 我们将推论中的矩阵N 称为M 的规范形式 . 多项式f 1 , … , f l 常被称为M 的不变因子 .
设A ∈ F n × n 而令p 1 , … , p r 是A 的不变因子. 现在我们可以看出矩阵x ⁢ I − A 的规范形式的对角线元素依次是1 , 1 , … , 1 , p r , … , p 1 . 前面的推论告诉我们如何基于x ⁢ I − A 的子矩阵 [译注: 其实就是各阶行列式因子] 来表达p 1 , … , p r . 数字n − r 是max ⁡ { k ∈ { 1 , … , n } | δ k ⁡ ( x ⁢ I − A ) = 1 } . A 的极小多项式p 1 是A 的特征多项式除以x ⁢ I − A 的所有( n − 1 ) × ( n − 1 ) 的子矩阵的最大公因子 [译注: 也就是( n − 1 ) 阶行列式因子], 诸如此类.
练习1. 对还是错? 每个F ⁡ [ x ] m × n 中的矩阵都行等价于一个上三角矩阵.
练习2. 令T 是有限维向量空间上的一个线性算子, A 是T 在某个有序基下的矩阵, 那么T 拥有循环向量当且仅当( x ⁢ I − A ) 的各( n − 1 ) × ( n − 1 ) 子矩阵的行列式互素.
练习3. 令A ∈ F n × n , 设f 1 , … , f n 是x ⁢ I − A 的规范形式的对角线元素. 对于什么样的矩阵A 有f 1 ≠ 1 呢?
练习4. 构造一个以x 2 ⁢ ( x − 1 ) 2 为极小多项式且以x 3 ⁢ ( x − 1 ) 4 为特征多项式的线性算子T . 描述T 下对于向量空间的准素分解, 并找出投影至这些不变子空间的算子. 找到一个基使得T 的表示矩阵呈现Jordan形式. 最后, 显式给出定理3中的循环分解 (其将向量空间分解为T 循环子空间的直和), 并求出不变因子.
练习5. 令
T 是
ℝ 8 上的线性算子, 其在标准有序基下由矩阵
A = [ 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 − 1 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 1 1 1 1 1 0 1 0 − 1 − 1 − 1 − 1 0 1 − 1 0 0 0 0 0 0 0 0 ] 表示.
找出特征多项式和不变因子. 找出ℝ 8 在T 下的准素分解以及相应的那些投影. 对于准素分解的每个直和分量, 找出如定理3那样的循环分解. 找出A 的Jordan形式. 如定理3那样, 将ℝ 8 分解为T 循环子空间的直和. (提示: 一种做法是使用b的结果并对于例子4中所讨论的想法进行适当泛化.) 第7.5节 总结; 半单算子 在前一章和本章中, 我们一直在处理有限维向量空间V 上的单独一个线性算子T . 既定的流程在于将T 分解为比较简单的线性算子的直和, 这是为了获得T 是如何在空间V 上进行"操作"的详细信息. 让我们简要回顾一下现在我们所立之地.
最初我们使用特征值和特征向量来研究T . 我们引入了可对角化算子的概念, 其可以基于特征值和特征向量被完全刻画. 接着, 我们观察到T 可能连一个特征向量都没有. 即便是标量域为代数闭域的情形, 此时每个线性算子都至少拥有一个特征向量, 我们注意到这些T 的特征向量也未必能够张成整个空间.
于是, 我们证明了循环分解定理, 将任意的线性算子表达为拥有循环向量的算子的直和, 这无需对于标量域进行任何假定. 如果U 是拥有循环向量的一个线性算子, 那么存在一个基{ α 1 , … , α n } 满足U ⁡ α j = α j + 1 , j = 1 , … , n − 1 U ⁡ α n = − c 0 ⁢ α 1 − c 1 ⁢ α 2 − ⋯ − c n − 1 ⁢ α n U 在这个基上的作用为将每个α j 偏移为下一个向量α j + 1 , 除了U ⁡ α n 是基中这些向量的某个线性组合. 既然一般的线性算子T 都是有限数目的这样的线性算子U 的直和, 我们可以得到对于T 的作用的一种显式而又相当简单的描述.
接下来我们将循环分解定理应用于幂零算子. 在标量域为代数闭域的情形下, 我们将其与准素分解定理相结合, 可以得到所谓的Jordan形式. Jordan形式给出了空间V 的一个基{ α 1 , … , α n } , 其使得对于每个j , 要么T ⁡ α j 是α j 的标量倍数, 要么T ⁡ α j = c ⁢ α j + α j + 1 . 这样的一个基当然以一种显式而又简单的方式刻画了T 的作用.
有理形式 (或者Jordan形式) 的重要性在于其存在性, 而非其在特定情形下可以被计算出来. 当然了, 如果给定一个线性算子并可计算其循环形式 [译注: 也就是有理形式] 或者Jordan形式, 那就是应该要做的事情. 这是因为, 若是我们拥有如此形式, 则可一口气报出大量关于T 的信息. 标准形式的计算之中会出现两种不同类型的困难. 一种困难当然是计算可能会过于冗长. 另一种困难在于即便拥有必要的时间和耐心, 可能也没有任何方法能够施行意图的计算. 比如说, 第二种类型的困难出现于尝试计算一个复矩阵的Jordan形式时. 鉴于分解特征多项式并无良定的方法, 因而读者可能在问题的外围就卡住了. 不过, 我们的确在第7.4节表明了存在一个找出给定n × n 矩阵的有理形式的算法. 然而, 这样的计算通常都是极其繁琐的. [译注: 当然, 就译者所处的时代而言, 读者完全可以使用计算机来施行这种计算.]
在以上我们对于本章和前一章的总结中, 我们尚未提及一个我们已经证明了的定理. 这个定理是说, 如果T 是某个代数闭域上的向量空间上的线性算子, 那么其可以被唯一地分解为相互交换的一个可对角化算子和一个幂零算子之和. 这个结果是由准素分解定理和关于可对角化算子的特定信息推得的. 它不像循环分解定理或者Jordan形式的存在性那样深刻, 但是它的确在特定的数学部分里有着重要的用途. 为了给本章作结, 我们将证明了一个类似的定理, 但不假定标量域为代数闭域. 我们先来定义一种算子, 其将扮演着与可对角化算子类似的角色.
定义. 令V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子. 我们称T 是半单 (semi-simple) 的, 如果每个T 不变的子空间都拥有一个与之互补的T 不变的子空间.
我们要证明的是, 只需要对于域F 作出一些限制, 那么每个线性算子T 都可以被唯一地表示为T = S + N 的形式, 其中S 是半单的, N 是幂零的, 而且S ⁢ N = N ⁢ S . 首先, 我们将要通过极小多项式来刻画半单算子, 而这种刻画将表明, 当F 是代数闭域时, 一个线性算子是半单的当且仅当其是可对角化的.
引理. 令T 是有限维向量空间V 上的一个线性算子, 令V = W 1 ⊕ ⋯ ⊕ W k 是T 的准素分解. 换言之, 如果p 是T 的极小多项式而p = p 1 r 1 ⁢ ⋯ ⁢ p k r k 是p 的素因子分解, 那么W j 是p j r j ⁡ ( T ) 的零空间. 令W 是V 的任意在T 下不变的子空间, 那么W = ( W ∩ W 1 ) ⊕ ⋯ ⊕ ( W ∩ W k ) .
证明. 为了证明这个引理, 我们需要回忆一下第6.8节中我们对于准素分解定理的证明的一个推论. 如果
E 1 , … , E k 是与分解
V = W 1 ⊕ ⋯ ⊕ W k 对应的投影, 那么每个
E j 都是应用某个多项式于
T 的结果. 也就是说, 存在多项式
h 1 , … , h k 使得
E j = h j ⁡ ( T ) .
现在令
W 是在
T 下不变的一个子空间. 如果
α ∈ W , 那么
α = α 1 + ⋯ + α k , 其中
α j ∈ W j . 既然
α j = E j ⁡ ( α ) = h j ⁡ ( T ) ⁡ α 并且
W 在
T 下不变, 每个
α j 也在
W 之中. 因此, 每个
α ∈ W 都具有
α = α 1 + ⋯ + α k 的形式, 其中
α j ∈ W ∩ W j . 这个表达方式当然是唯一的, 鉴于
V = W 1 ⊕ ⋯ ⊕ W k . 也就是说, 我们得到了
W = ( W ∩ W 1 ) ⊕ ⋯ ⊕ ( W ∩ W k ) . ◻
引理. 令T 是有限维向量空间V 上的一个线性算子, 设T 的极小多项式在标量域F 上不可约, 那么T 是半单的.
证明. 令
W 是
V 的一个在
T 下不变的子空间, 我们必须要证明
W 拥有一个与之互补的
T 不变子空间. 根据定理3的一个推论, 实际上证明{如果多项式
f 和向量
β ∈ V 满足
f ⁡ ( T ) ⁡ β ∈ W , 那么存在
α ∈ W 使得
f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ α }就足够了. 于是, 设
β ∈ V 和多项式
f 满足
f ⁡ ( T ) ⁡ β ∈ W . 若
f ⁡ ( T ) ⁡ β = 0 , 令
α = 0 , 那么
α ∈ W 并且
f ⁡ ( T ) ⁡ β = f ⁡ ( T ) ⁡ α . 若
f ⁡ ( T ) ⁡ β ≠ 0 , 那么
f 不被
T 的极小多项式
p 整除. 既然
p 是素多项式, 那么
f 和
p 是互素的. 也就是说, 存在多项式
g 和
h 使得
f ⁢ g + p ⁢ h = 1 . 因为
p ⁡ ( T ) = 0 , 我们就有
f ⁡ ( T ) ⁢ g ⁡ ( T ) = I , 而这又能推出
β 必然在子空间
W 之中, 鉴于
β = g ⁡ ( T ) ⁢ f ⁡ ( T ) ⁡ β = g ⁡ ( T ) ⁡ ( f ⁡ ( T ) ⁡ β ) 其中
f ⁡ ( T ) ⁡ β ∈ W 而
W 在
T 下不变. 取
α = β 即可.
◻
定理11. 令T 是有限维向量空间V 上的一个线性算子, 那么T 为半单算子的充要条件是T 的极小多项式p 具有p = p 1 ⁢ ⋯ ⁢ p k 的形式, 其中p 1 , … , p k 是互异的标量域F 上的不可约多项式. [译注: 虽然没有显式说明, 但是p 1 , … , p k 当然默认是非标量且首项系数为一的了.]
证明. 设
T 是半单算子, 我们将证明在对于极小多项式
p 的素因子分解中, 没有不可约多项式会重复出现. 假设其否定成立, 那么存在某个非标量的首项系数为一多项式
g 满足
g 2 整除
p . 令
W 是算子
g ⁡ ( T ) 的零空间, 那么
W 在
T 下不变. 现在对于某个多项式
h 有
p = g 2 ⁢ h , 既然
g 并非标量多项式, 那么算子
g ⁡ ( T ) ⁢ h ⁡ ( T ) 并非零算子. 于是, 存在
β ∈ V 使得
g ⁡ ( T ) ⁢ h ⁡ ( T ) ⁡ β ≠ 0 , 即
( g ⁢ h ) ⁡ β ≠ 0 . 虽然
( g ⁢ h ) ⁡ β ∈ W , 鉴于
g ⁡ ( g ⁢ h ⁡ β ) = g 2 ⁢ h ⁡ β = p ⁡ β = 0 , 但是并无
α ∈ W 能够使得
g ⁢ h ⁡ β = g ⁢ h ⁡ α . 这是因为, 如果
α ∈ W , 那么
( g ⁢ h ) ⁡ α = ( h ⁢ g ) ⁡ α = h ⁡ ( g ⁡ α ) = h ⁡ ( 0 ) = 0 . 也就是说,
W 没有与之互补的
T 不变子空间, 这与
T 是半单算子的假设矛盾.
现在设
p 的素因子分解为
p = p 1 ⁢ ⋯ ⁢ p k , 其中
p 1 , … , p k 是互异的不可约(非标量)首项系数为一的多项式. [译注: 作者似乎终于回想起来第4章里不可约多项式和素多项式是两个不同的概念.] 令
W 是
V 的一个在
T 下不变的子空间, 我们将证明
W 拥有一个与之互补的
T 不变的子空间. 令
V = W 1 ⊕ ⋯ ⊕ W k 是
T 的准素分解, 即令
W j 是
p j ⁡ ( T ) 的零空间. 令
T j 是
T 于
W j 上由限制导出的算子, 于是
T j 的极小多项式为素多项式
p j . 现在
W ∩ W j 是
W j 的一个在
T j 下 (或者说在
T 下) 不变的子空间. 根据前面的第二条引理, 存在
W j 的一个在
T j 下不变的子空间
V j 使得
W j = ( W ∩ W j ) ⊕ V j . 当然, 既然
V j 在
T j 下不变, 其肯定也在
T 下不变. 那么, 我们有
V = W 1 ⊕ ⋯ ⊕ W k = ( W ∩ W 1 ) ⊕ V 1 ⊕ ⋯ ⊕ ( W ∩ W k ) ⊕ V k = [ ( W ∩ W 1 ) ⊕ ⋯ ⊕ ( W ∩ W k ) ] ⊕ V 1 ⊕ ⋯ ⊕ V k 根据之前的第一条引理, 我们知道
W = ( W ∩ W 1 ) ⊕ ⋯ ⊕ ( W ∩ W k ) . 于是, 若令
W ′ = V 1 ⊕ ⋯ ⊕ V k , 那么
V = W ⊕ W ′ 且
W ′ 在
T 下不变.
◻
推论. 如果T 是某个代数闭域上的有限维向量空间上的线性算子, 那么T 是半单的当且仅当T 是可对角化的.
证明. 如果标量域
F 是代数闭域, 那么
F 上的首项系数为一的素多项式都具有
x − c 的形式. 在这种情况下,
T 是半单算子当且仅当
T 的极小多项式为
p = ( x − c 1 ) ⁢ ⋯ ⁢ ( x − c k ) , 其中
c 1 , … , c k 是
F 的不同元素, 而这恰恰就是我们在第6章建立的刻画
T 为可对角化算子的准则.
◻
我们应该指出, T 是半单算子当且仅当存在某个多项式f , 其是不同的素多项式之积, 使得f ⁡ ( T ) = 0 . 这仅是与极小多项式为不同的素多项式之积的条件在表面上有所区别. [译注: 这里说的不同, 更准确地说, 实际上是互素, 因为我们不计标量缩放的差异.]
现在我们将注意力转移到将线性算子表示为交换的半单算子与幂零算子之和的问题上来. 在这里, 我们要限制标量域为复数域的一个子域. 机敏的读者可能会看出来要义在于域F 应该是一个特征为零的域. 也就是说, 对于每个正整数n , F 中的和1 + ⋯ + 1 (n 个1 相加) 不应该为0 . 对于域F 上的多项式f , 我们用f ( k ) 代表f 的k 阶形式导数. 换一种记号的话, 就是f ( k ) = D k ⁡ f , 其中D 是多项式空间上的形式微分算子. 如果g 是另一个域F 的多项式, 那么我们用f ⁡ ( g ) 代表应用f 于g 的结果, 即由应用多项式f 于线性代数F ⁡ [ x ] 中的元素g 得到的多项式. [译注: 应用域F 上的多项式于域F 上的含幺元的线性代数的元素的操作在第4章中被定义, 当然这里的域不需要什么额外的限制.]
引理. Taylor公式. 令F 是一个特征为零的域, g 和h 是域F 上的多项式. 如果f 也是域F 上的多项式并且deg ⁡ f ≤ n , 那么f ⁡ ( g ) = ∑ k = 0 n 1 k ! ⁢ f ( k ) ⁡ ( h ) ⁢ ( g − h ) k . [译注: 这个实际上是第4章最后一节的某个练习.]
证明. 我们要证明的是一般化了的Taylor公式. 若令
h = c 而
g = x , 我们则可得到原本的公式, 即
f = f ⁡ ( x ) = f ⁡ ( c ) + f ( 1 ) ⁡ ( c ) ⁢ ( x − c ) + f ( 2 ) ⁡ ( c ) 2 ! ⁢ ( x − c ) 2 + ⋯ + f ( n ) ⁡ ( c ) n ! ⁢ ( x − c ) n . 对于这一般公式的证明实际上只是二项式定理
( a + b ) k = a k + k ⁢ a k − 1 ⁢ b + k ⁢ ( k − 1 ) 2 ! ⁢ a k − 2 ⁢ b 2 + ⋯ + b k 的一个应用. 读者应该看出来, 既然替换和微分是线性过程, 那么只需要对于
f = x k 的情况证明公式成立就足够了, 因为
f = ∑ k = 0 n c k ⁢ x k 的一般情形可再由线性组合推得. 若
f = x k , 其中
k ≤ n , 那么Taylor公式是在说
g k = h k + k ⁢ h k − 1 ⁢ ( g − h ) + k ⁢ ( k − 1 ) 2 ! ⁢ h k − 2 ⁢ ( g − h ) 2 + ⋯ + ( g − h ) k 这不过就是
g k = [ h + ( g − h ) ] k 的二项式展开而已. [译注: 对于
j > k ,
f ( j ) = 0 .]
◻
引理. 令
F 是复数域的一个子域,
f 是域
F 上的一个首项系数为一的多项式,
f ′ 是
f 的形式导数, 那么以下陈述是等价的:
f 的素因子分解中各项互异;f 和f ′ 互素;若将f 视为域ℂ 上的多项式, f 没有重复的根. 证明. 陈述a和b的等价性实际上就是第4章的定理11 (而且那里的域可以是任意的), 所以不再赘述. 为了看出陈述c与a和b的等价性, 我们只需观察到以下事实. 对于域
F 上的多项式
f 和
g , 它们作为域
F 上的多项式而互素等价于其作为域
ℂ 上的多项式而互素. 我们将这个的证明留作练习. 取
g = f ′ , 注意到在
f 被视为
ℂ 上的多项式时, c就是a, 因而b和c是等价的.
◻
现在我们可以证明一个定理, 其使得半单算子和可对角化算子之间的关系更加明晰.
定理12. 令F 是复数域的一个子域, V 是域F 上的一个有限维向量空间, T 是V 上的一个线性算子, A 是T 在某个有序基下的表示矩阵, 那么T 是半单算子当且仅当A 在复数域上相似于一个对角矩阵.
证明. 令
p 是
T 的极小多项式. 根据定理11,
T 为半单算子当且仅当
p 在域
F 上的素因子分解
p = p 1 ⁢ ⋯ ⁢ p k 中
p 1 , … , p k 互异. 根据前述引理,
T 是半单算子当且仅当
p 在复数域上没有重复的根.
当然,
p 也是矩阵
A 的极小多项式. [译注: 读者或许可以回忆一下, 极小多项式并不会因为域的扩张而改变.] 我们知道
A 在复数域上相似于一个对角矩阵当且仅当极小多项式没有重复的复根. 这就证明了定理12.
◻
定理13. 令
F 是复数域的一个子域,
V 是域
F 上的一个有限维向量空间,
T 是
V 上的一个线性算子, 那么存在
V 上的半单算子
S 和幂零算子
N 使得
T = S + N ;S ⁢ N = N ⁢ S .而且, 半单算子
S 和幂零算子
N 可由i和ii唯一确定, 它们都是应用某个多项式于
T 得到的结果.
证明. 令
p 1 r 1 ⁢ ⋯ ⁢ p k r k 是
T 的极小多项式的素因子分解,
f = p 1 ⁢ ⋯ ⁢ p k ,
r = max ⁡ ( r 1 , … , r k ) , 那么
f 是互异的首项系数为一的素多项式之积, 且
f r 被
T 的极小多项式整除, 于是
f r ⁡ ( T ) = 0 . 我们将要构造一个多项式序列
g 0 , g 1 , g 2 , … 使得对于每个自然数
n = 0 , 1 , 2 , … , 有
f ⁡ ( x − ∑ j = 0 n g j ⁢ f j ) 被
f n + 1 整除. 我们取
g 0 = 0 , 那么
f ⁡ ( x − g 0 ⁢ f 0 ) = f ⁡ ( x ) = f 被
f 整除. 设我们已经选定了
g 0 , … , g n − 1 , 令
h = x − ∑ j = 0 n − 1 g j ⁢ f j 根据假设,
f ⁡ ( h ) 被
f n 整除. 我们想要找出一个
g n 使得
f ⁡ ( h − g n ⁢ f n ) 被
f n + 1 整除. 我们应用一般Taylor公式, 然后可以得到
f ⁡ ( h − g n ⁢ f n ) = ∑ k = 0 deg ⁡ f 1 k ! ⁢ f ( k ) ⁡ ( h ) ⁢ ( − g n ⁢ f n ) k = f ⁡ ( h ) − g n ⁢ f n ⁢ f ′ ⁡ ( h ) + f n + 1 ⁢ b 其中
b 是某个多项式. [译注: 如果注意一下细节的话, 这里
deg ⁡ f ≥ 1 且
n ≥ 1 .] 根据假设, 存在多项式
q 满足
f ⁡ ( h ) = q ⁢ f n . 因此, 为了使得
f ⁡ ( h − g n ⁢ f n ) 被
f n + 1 整除, 只需要选择令
[ q − g n ⁢ f ′ ⁡ ( h ) ] 被
f 整除的
g n 就可以了, 这的确是可以做到的. 鉴于
p 1 , … , p k 互异, 所以
f 和
f ′ 互素. 也就是说, 存在多项式
a 和
e 满足
a ⁢ f + e ⁢ f ′ = 1 . 将其应用于
h , 我们就得到
a ⁡ ( h ) ⁢ f ⁡ ( h ) + e ⁡ ( h ) ⁢ f ′ ⁡ ( h ) = 1 . 令
g n = q ⁢ [ e ⁡ ( h ) ] , 那么
q − g n ⁢ f ′ ⁡ ( h ) = q − q ⁢ [ e ⁡ ( h ) ] ⁢ f ′ ⁡ ( h ) = q ⁢ [ a ⁡ ( h ) ] ⁢ f ⁡ ( h ) = q 2 ⁢ [ a ⁡ ( h ) ] ⁢ f n 即
[ q − g n ⁢ f ′ ⁡ ( h ) ] 被
f 整除. [译注: 这里的方括号仅是为了明示运算的顺序, 而非应用多项式之意.]
现在我们已经有了一个序列
g 0 , g 1 , … 使得
f n + 1 整除
f ⁡ ( x − ∑ j = 0 n g j ⁢ f j ) 并且
g 0 = 0 . 让我们取
n = r − 1 , 既然
f r ⁡ ( T ) = 0 , 我们有
f ⁡ ( T − ∑ j = 0 r − 1 g j ⁡ ( T ) ⁢ f j ⁡ ( T ) ) = 0 . [译注: 这里用到了
[ f ⁡ ( g ) ] ⁡ ( T ) = f ⁡ ( g ⁡ ( T ) ) 的事实.] 令
N = ∑ j = 1 r − 1 g j ⁡ ( T ) ⁢ f j ⁡ ( T ) = ∑ j = 0 r − 1 g j ⁡ ( T ) ⁢ f j ⁡ ( T ) 既然
∑ j = 1 n g j ⁢ f j 被
f 整除, 我们看出来
N r = 0 , 即
N 是一个幂零算子. 令
S = T − N , 那么
f ⁡ ( S ) = f ⁡ ( T − N ) = 0 . 鉴于
f 是不同的首项系数为一的素多项式之积, 那么
S 的极小多项式的素因子分解中也不可能出现重复的因子, 所以
S 是半单的.
现在我们有
T = S + N , 其中
S 是一个半单算子,
N 是一个幂零算子, 并且它们都是应用某个多项式于
T 的结果, 因而是交换的. 为了证明唯一性的陈述, 让我们从标量域
F 转移到复数域
ℂ 上来考虑问题. 令
𝔅 是空间
V 的某个有序基, 那么我们有
[ T ] 𝔅 = [ S ] 𝔅 + [ N ] 𝔅 其中
[ S ] 𝔅 在复数域上是可对角化的, 而
[ N ] 𝔅 是一个幂零矩阵, 并且它们还是交换的. 根据第6章中我们已经证明了的结果, 这样的两个矩阵是唯一确定的.
◻
定理. 对于域
F 上的
n × n 矩阵
A , 若
A 的极小多项式可以在域
F 上被分解为一次因子之积, 那么存在可对角化矩阵
D ∈ F n × n 和幂零矩阵
N ∈ F n × n 满足
A = D + N ;D ⁢ N = N ⁢ D .其中可对角化矩阵
D 和幂零矩阵
N 由条件i和ii唯一确定, 并且它们都是应用某个多项式于
A 得到的结果.
练习1. 对于标量域为复数域的一个子域的有限维向量空间V , 如果N 是V 上的一个幂零线性算子, 那么对于任意的多项式f , f ⁡ ( N ) 的半单部分是恒等算子的一个标量倍数.
练习2. 令F 是复数域的一个子域, V 是F 上的一个有限维向量空间, T 是V 上的一个半单线性算子. 如果f 是域F 上任意的一个多项式, 那么f ⁡ ( T ) 也是半单的.
练习3. 设标量域为复数域的一个子域, 对于向量空间上的一个线性算子T , 证明T 是半单算子当且仅当对于任意的多项式f , f ⁡ ( T ) 是幂零算子可以推出f ⁡ ( T ) = 0 .
第8章 内积空间 第8.1节 内积 整章我们只考虑实或复向量空间, 即实数域或复数域上的向量空间. 我们的主要目的在于研究可以讨论向量长度和夹角的向量空间. 我们将研究一类特定的标量值函数, 其定义于向量的序对之上, 被称为内积. 内积的一个例子是ℝ 3 中的标量积或者说点积. ℝ 3 中的向量α = ( x 1 , x 2 , x 3 ) 和 β = ( y 1 , y 2 , y 3 ) 的标量积是实数〈 α | β 〉 = x 1 ⁢ y 1 + x 2 ⁢ y 2 + x 3 ⁢ y 3 . 从几何上说, 这个点积是α 的长度, β 的长度, 以及α 和β 的夹角的余弦之积. 因此, 藉由代数地定义的标量积来定义ℝ 3 中的长度和夹角这样的几何概念完全是可能的.
向量空间上的内积是性质与ℝ 3 中的点积类似的函数, 而基于这样的内积我们又可以定义长度和角度. 我们关于角度的一般概念的注记将仅限于向量的垂直性 (或者说正交性). 第一节我们将定义何谓内积, 考虑一些实际的例子, 并建立内积的一些基本性质. 之后, 我们将回到讨论长度和正交性的任务上来.
定义. 令
F 是实数域或复数域,
V 是域
F 上的一个向量空间.
V 上的一个内积是一个函数
V × V → F , ( α , β ) ↦ 〈 α | β 〉 满足对于任意的
α , β , γ ∈ V 和任意的标量
c ∈ F 有
〈 α + β | γ 〉 = 〈 α | γ 〉 + 〈 β | γ 〉 ;〈 c ⁢ α | β 〉 = c ⁢ 〈 α | β 〉 ;〈 β | α 〉 = 〈 α | β 〉 ‾ , 一横代表复共轭;如果α ≠ 0 , 那么〈 α | α 〉 > 0 . 读者应该注意到条件a, b, c可以推出条件e:〈 α | c ⁢ β + γ 〉 = c ‾ ⁢ 〈 α | β 〉 + 〈 α | γ 〉 . 另一点值得说明的是, 当F 是实数域ℝ 时, 条件c和e中的复共轭是多余的. 然而, 在复数域的情况下, 为了条件的一致性, 复共轭则是必要的. 若是没有这些复共轭, 我们就会得到以下矛盾:〈 α | α 〉 > 0 且 〈 i ⁢ α | i ⁢ α 〉 = − 1 ⁢ 〈 α | α 〉 > 0 .
在本章的剩余部分里, F 要么代表实数域, 要么代表复数域.
例子1. F n 上存在一个内积, 我们称之为标准内积 . 对于向量α = ( x 1 , … , x n ) 和β = ( y 1 , … , y n ) , 其标准内积被定义为〈 α | β 〉 = ∑ j = 1 n x j ⁢ y ‾ j . 当F = ℝ 时, 这也可以记成〈 α | β 〉 = ∑ j = 1 n x j ⁢ y j . 在实数域的情形下, 标准内积常被称为点积或者标量积, 并记为α ⋅ β .
例子2. 对于ℝ 2 中的向量α = ( x 1 , x 2 ) 和β = ( y 1 , y 2 ) , 令〈 α | β 〉 = x 1 ⁢ y 1 − x 2 ⁢ y 1 − x 1 ⁢ y 2 + 4 ⁢ x 2 ⁢ y 2 . 既然〈 α | α 〉 = ( x 1 − x 2 ) 2 + 3 ⁢ x 2 2 , 可直接推得α ≠ 0 时有〈 α | α 〉 > 0 . 内积定义中的条件a, b, c则是容易验证的.
例子3. 令V 是F n × n , 那么V 以自然的方式同构于F n 2 , 因而由例子1可知〈 A | B 〉 = ∑ j = 1 n ∑ k = 1 n A j , k ⁢ B ‾ j , k 定义了V 上的一个内积. 而且, 如果我们引入共轭转置 矩阵B ⁎ , 其由B k , j ⁎ = B ‾ j , k 定义, 那么我们可以基于迹函数来表达内积:〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) = tr ⁡ ( B ⁎ ⁢ A ) . 这是因为tr ⁡ ( A ⁢ B ⁎ ) = ∑ j = 1 n ( A ⁢ B ⁎ ) j , j = ∑ j = 1 n ∑ k = 1 n A j , k ⁢ B k , j ⁎ = ∑ j = 1 n ∑ k = 1 n A j , k ⁢ B ‾ j , k
例子4. 令Q ∈ F n × n 是一个可逆矩阵, 对于X , Y ∈ F n × 1 , 置〈 X | Y 〉 = Y ⁎ ⁢ Q ⁎ ⁢ Q ⁢ X . 注意到我们这里将右边的1 × 1 矩阵与其唯一的元素等同起来了. 当Q 为恒等矩阵时, 这个内积本质上和例子1是相同的, 我们将其称为F n × 1 上的标准内积 . 读者应该注意到术语"标准内积"在两种特定的上下文中使用. 对于一般的域F 上的有限维向量空间, 并不存在显然可称之为标准的内积.
例子5. 令V 是所有类型为[ 0 , 1 ] → ℂ 的连续函数构成的向量空间, 那么〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t 是V 上的一个内积. 可能读者更熟悉单位区间上的实值连续函数构成的向量空间, 此时g ⁡ ( t ) 上的复共轭是可以省略的.
例子6. 这实际上是一类例子. 读者可以通过以下方法根据已有的内积构造出新的内积来. 令
V 和
W 是域
F 上的向量空间, 设
〈 | 〉 是
W 上的一个内积. 如果
T 是一个从
V 到
W 的非奇异线性变换, 那么
p T ⁡ ( α , β ) = 〈 T ⁡ α | T ⁡ β 〉 定义了
V 上的一个内积
p T . 例子4中的内积可以被视为这个的一种特殊情形, 以下同样也是特殊情形.
令V 是一个有限维向量空间, 令𝔅 = { α 1 , … , α n } 是V 的一个有序基. 令ε 1 , … , ε n 是F n 的标准有序基, 令T 是由T ⁡ α j = ε j , j = 1 , … , n 定义的从V 到F n 的线性变换. 换言之, 令T 是由𝔅 确定的从V 到F n 的"自然"同构. 如果我们取F n 上的标准内积, 那么p T ⁡ ( ∑ j = 1 n x j ⁢ α j , ∑ k = 1 n y k ⁢ α k ) = ∑ j = 1 n x j ⁢ y ‾ j . 因此, 对于V 的任意的有序基, 都存在一个具有性质〈 α j | α k 〉 = δ j , k 的内积. 实际上, 很容易表明恰存在一个这样的内积. 之后我们将证明V 上的每个内积都可根据某个有序基𝔅 按照以上方式确定. 让我们再次检视例子5, 令V 是单位区间上的所有连续函数构成的空间, 取W = V . 令T 是"乘上t "的线性算子, 即( T ⁡ f ) ⁡ ( t ) = t ⁢ f ⁡ ( t ) , 0 ≤ t ≤ 1 . 容易验证T 是线性的. 而且, T 也是非奇异的. 这是因为, 设T ⁡ f = 0 , 那么对于0 ≤ t ≤ 1 有t ⁢ f ⁡ ( t ) = 0 , 因而t > 0 时f ⁡ ( t ) = 0 . 鉴于f 是连续的, 我们也有f ⁡ ( 0 ) = 0 , 于是f = 0 . 现在使用例子5的内积, 我们可以构造V 上的一个新的内积p T ⁡ ( f , g ) = ∫ 0 1 ( T ⁡ f ) ⁡ ( t ) ⁢ ( T ⁡ g ) ⁡ ( t ) ‾ d t = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ ⁢ t 2 d t 我们现在开始检视内积的一些一般性质. 设V 是一个带有内积的复向量空间, 那么对于α , β ∈ V , 我们有〈 α | β 〉 = Re ⁡ 〈 α | β 〉 + i ⁢ Im ⁡ 〈 α | β 〉 其中Re ⁡ 〈 α | β 〉 和Im ⁡ 〈 α | β 〉 分别是复数〈 α | β 〉 的实部和虚部. 如果z 是一个复数, 那么Im ⁡ z = Re ⁡ ( − i ⁢ z ) , 这可以推出Im ⁡ 〈 α | β 〉 = Re ⁡ [ − i ⁢ 〈 α | β 〉 ] = Re ⁡ 〈 α | i ⁢ β 〉 . 因此, 按照〈 α | β 〉 = Re ⁡ 〈 α | β 〉 + i ⁢ Re ⁡ 〈 α | i ⁢ β 〉 内积完全可由其"实部"确定.
偶尔知道实或复向量空间上的内积可由另一种函数确定是很有用的, 这种函数即所谓的二次形式. 为了定义二次形式, 我们首先以‖ α ‖ 代表〈 α | α 〉 的正平方根; ‖ α ‖ 被称为α 相对于内积的范数 . 通过考察ℝ 1 , ℂ , ℝ 2 , ℝ 3 上由标准内积导出的范数, 读者应该说服自己将α 的范数想成是α 的长度是很贴切的. 由内积决定的二次形式 是函数α ↦ ‖ α ‖ 2 . 根据内积的性质, 我们可以推出, 对于任意的向量α 和β 有‖ α ± β ‖ 2 = ‖ α ‖ 2 ± 2 ⁢ Re ⁡ 〈 α | β 〉 + ‖ β ‖ 2 . 因此, 在实数域的情形下, 我们有〈 α | β 〉 = 1 4 ⁢ ‖ α + β ‖ 2 − 1 4 ⁢ ‖ α − β ‖ 2 . 在复数域的情形下, 我们得到的是更复杂的表达式〈 α | β 〉 = 1 4 ⁢ ‖ α + β ‖ 2 − 1 4 ⁢ ‖ α − β ‖ 2 + i 4 ⁢ ‖ α + i ⁢ β ‖ 2 − i 4 ⁢ ‖ α − i ⁢ β ‖ 2 . 这两个公式都被称为极化恒等式 , 我们也应该注意到在复数域的情形下其也可以写成以下形式:〈 α | β 〉 = 1 4 ⁢ ∑ n = 1 4 i n ⁢ ‖ α + i n ⁢ β ‖ 2 .
刚才我们所得到的性质对于任意的实或复向量空间上的内积均成立, 不论其维数如何. 现在我们转向V 是有限维向量空间的情形. 正如读者可能会猜到的, 有限维向量空间上的内积总是可以基于一个有序基由矩阵刻画.
设V 是有限维的, 令𝔅 = { α 1 , … , α n } 是V 的一个有序基, 并且给定V 上的一个特定的内积. 我们将表明, 这个内积完全由以下的这些值G j , k = 〈 α k | α j 〉 决定. 如果α = ∑ k = 1 n x k ⁢ α k 且β = ∑ j = 1 n y j ⁢ α j , 那么〈 α | β 〉 = 〈 ∑ k = 1 n x k ⁢ α k | β 〉 = ∑ k = 1 n x k ⁢ 〈 α k | β 〉 = ∑ k = 1 n x k ⁢ ∑ j = 1 n y ‾ j ⁢ 〈 α k | α j 〉 = ∑ j = 1 n ∑ k = 1 n y ‾ j ⁢ G j , k ⁢ x k = Y ⁎ ⁢ G ⁢ X 其中X 和Y 分别是α 和β 在有序基𝔅 下的坐标矩阵, 而G 是以G j , k = 〈 α k | α j 〉 为元素的矩阵. 我们称G 为内积在有序基𝔅 下的矩阵 . 根据定义, G 是一个Hermite矩阵, 即G = G ⁎ . 然而, G 是一种相当特殊的Hermite矩阵, 因为其必须满足附加的条件X ⁎ ⁢ G ⁢ X > 0 , X ≠ 0 . 特别地, G 必须是可逆的. 否则的话, 存在一个X ≠ 0 使得G ⁢ X = 0 , 那么对于这样的X 就不能满足以上要求了. 更显式地说, 以上的条件即对于任意不全为零的标量x 1 , … , x n 有∑ j = 1 n ∑ k = 1 n x ‾ j ⁢ G j , k ⁢ x k > 0 . 从中我们立即可以看出G 的每个对角线元素都必然是正数. [译注: 提及正数, 一定是实数.] 然而, 这个施加于对角线元素上的条件并不足以保证X ⁎ ⁢ G ⁢ X > 0 , X ≠ 0 , 之后我们将给出使其成立的充分条件. [译注: 这个施加于Hermite矩阵上的条件一般被称为"正定"条件.]
以上这样的过程是可逆的, 即若任意的Hermite矩阵G ∈ F n × n 满足X ⁎ ⁢ G ⁢ X > 0 , X ≠ 0 , 那么G 是V 上的一个内积在有序基𝔅 下的矩阵. 这个内积是由公式〈 α | β 〉 = Y ⁎ ⁢ G ⁢ X 给定的, 其中X 和Y 分别是α 和β 在有序基𝔅 下的坐标矩阵.
练习1. 令
V 是一个向量空间而
〈 | 〉 是
V 上的一个内积.
证明对于任意的β ∈ V 有〈 0 | β 〉 = 0 . 证明若对于任意的β ∈ V 有〈 α | β 〉 = 0 , 那么α = 0 . 练习2. 令V 是域F 上的一个向量空间. 证明V 上的两个内积之和仍然是V 上的一个内积. 两个内积之差是内积吗? 证明一个内积的正倍数仍然是一个内积.
练习3. 显式描述ℝ 1 和ℂ 1 上的所有内积.
练习4. 验证F n 上的标准内积的确是一个内积.
练习5. 令
〈 | 〉 是
ℝ 2 上的标准内积.
令α = ( 1 , 2 ) , β = ( − 1 , 1 ) , 如果向量γ 满足〈 α | γ 〉 = − 1 且〈 β | γ 〉 = 3 , 求出γ . 证明对于任意的α ∈ ℝ 2 , 我们有α = 〈 α | ε 1 〉 ⁢ ε 1 + 〈 α | ε 2 〉 ⁢ ε 2 . 练习6. 令〈 | 〉 是ℝ 2 上的标准内积, 而T ⁡ ( x 1 , x 2 ) = ( − x 2 , x 1 ) 是ℝ 2 上的线性算子. 现在T 是"逆时针旋转90度"的变换, 并且对于所有的α ∈ ℝ 2 , 都有〈 α | T ⁡ α 〉 = 0 . 找出所有这样的ℝ 2 上的内积[ | ] , 其对于每个向量α 有[ α | T ⁡ α ] = 0 .
练习7. 令〈 | 〉 是ℂ 2 上的标准内积, 证明不存在非零的ℂ 2 上的线性算子T 使得对于每个α ∈ ℂ 2 有〈 α | T ⁡ α 〉 = 0 . 推广这个结果.
练习8. 令A ∈ ℝ 2 × 2 , 定义映射f A : ℝ 2 × 1 × ℝ 2 × 1 → ℝ 为f A ⁡ ( X , Y ) = Y t ⁢ A ⁢ X . 证明f A 是ℝ 2 × 1 上的一个内积当且仅当A = A t , A 1 , 1 > 0 , A 2 , 2 > 0 , det ⁡ ( A ) > 0 .
练习9. 令V 是一个带有的内积的实或复向量空间, 证明由内积确定的范数满足平行四边形定律 ‖ α + β ‖ 2 + ‖ α − β ‖ 2 = 2 ⁢ ‖ α ‖ 2 + 2 ⁢ ‖ β ‖ 2 .
练习10. 找出例子2中的内积在ℝ 2 的标准有序基下的矩阵.
练习11. 证明公式〈 ∑ j = 0 l a j ⁢ x j | ∑ k = 0 m b k ⁢ x k 〉 = ∑ j = 0 l ∑ k = 0 m a j ⁢ b k j + k + 1 定义了ℝ ⁡ [ x ] 上的一个内积. 令W 是次数小于等于n 的多项式构成的子空间. 限制以上内积于W , 找出其相对于有序基{ 1 , x , x 2 , … , x n } 的矩阵. (提示: 为了表明这个公式的确定义了一个内积, 观察到〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) d t 然后处理这个积分表达式.)
练习12. 令V 是一个有限维向量空间, 𝔅 = { α 1 , … , α n } 是V 的一个有序基, 〈 | 〉 是V 上的一个内积. 如果c 1 , … , c n 是任意的n 个标量, 那么恰存在一个向量α ∈ V 使得〈 α | α j 〉 = c j , j = 1 , … , n .
练习13. 令
V 是一个复向量空间. 一个函数
J : V → V 被称为一个
共轭 (conjugation) , 如果
J ⁡ ( α + β ) = J ⁡ ( α ) + J ⁡ ( β ) , J ⁡ ( c ⁢ α ) = c ‾ ⁢ J ⁡ ( α ) , J ⁡ ( J ⁡ ( α ) ) = α , 其中
c 是任意的标量而
α , β ∈ V . 如果
J 是一个共轭, 证明:
W = { α ∈ V | J ⁡ α = α } 相对于V 中所定义的运算可以被视为域ℝ 上的一个向量空间.对于每个α ∈ V , 存在唯一的向量β , γ ∈ W 使得α = β + i ⁢ γ . 练习14. 令
V 是一个复向量空间,
W 是一个满足以下性质的
V 的子集:
相对于V 中所定义的运算, W 可以被视为一个实向量空间. 对于每个α ∈ V , 存在唯一的向量β , γ ∈ W 满足α = β + i ⁢ γ . 证明
J ⁡ α = β − i ⁢ γ 定义了
V 上的一个共轭, 其满足
J ⁡ α = α 当且仅当
α ∈ W . 另外, 证明
J 是
V 上唯一带有此性质的共轭.
练习15. 找出ℂ 1 和ℂ 2 上的所有共轭.
练习16. 令W 是复向量空间V 的一个有限维实子空间. 证明W 满足练习14的条件b当且仅当W 的每个基也是V 的一个基.
练习17. 令
V 是一个复向量空间,
J 是
V 上的一个共轭,
W = { α ∈ V | J ⁡ α = α } 是
V 的一个实子空间,
f 是
W 上的一个内积, 证明:
存在唯一的V 上的内积g 使得对于任意的α , β ∈ W 有g ⁡ ( α , β ) = f ⁡ ( α , β ) . 对于所有的α , β ∈ V , g ⁡ ( J ⁡ α , J ⁡ β ) = g ⁡ ( β , α ) . 以上的部分a是在说
ℝ 1 和
ℂ 1 (或者
ℝ n 和
ℂ n ) 上的标准内积之间的什么关系?
第8.2节 内积空间 既然现在我们已经对于内积有所了解, 那么我们将注意力转移到向量空间与其上的某个特定内积结合产生的代数结构上来. 具体来说, 我们将建立由内积赋予向量空间的"长度"和"正交性"的概念的基本性质.
定义. 一个内积空间 是一个其上带有特定内积的实或复向量空间.
一个有限维的实内积空间常被称为一个Euclid空间 . 一个复内积空间经常被称为一个酉空间 .
定理1. 如果
V 是一个内积空间, 那么对于任意的向量
α , β ∈ V 和标量
c , 我们有
‖ c ⁢ α ‖ = | c | ⁢ ‖ α ‖ ;对于α ≠ 0 , ‖ α ‖ > 0 ; | 〈 α | β 〉 | ≤ ‖ α ‖ ⁢ ‖ β ‖ ;‖ α + β ‖ ≤ ‖ α ‖ + ‖ β ‖ .证明. 陈述i和ii几乎可由定义直接推出. iii中的不等式在
α = 0 时是显然成立的. 若
α ≠ 0 , 置
γ = β − 〈 β | α 〉 ‖ α ‖ 2 ⁢ α 那么
〈 γ | α 〉 = 0 , 然后
0 ≤ ‖ γ ‖ 2 = 〈 β − 〈 β | α 〉 ‖ α ‖ 2 ⁢ α | β − 〈 β | α 〉 ‖ α ‖ 2 ⁢ α 〉 = 〈 β | β 〉 − 〈 β | α 〉 ⁢ 〈 α | β 〉 ‖ α ‖ 2 = 〈 β | β 〉 − | 〈 α | β 〉 | 2 ‖ α ‖ 2 因此,
| 〈 α | β 〉 | 2 ≤ ‖ α ‖ 2 ⁢ ‖ β ‖ 2 , 再开根即可. 现在使用iii, 我们可以推出
‖ α + β ‖ 2 = ‖ α ‖ 2 + 2 ⁢ Re ⁡ 〈 α | β 〉 + ‖ β ‖ 2 ≤ ‖ α ‖ 2 + 2 ⁢ | 〈 α | β 〉 | + ‖ β ‖ 2 ≤ ‖ α ‖ 2 + 2 ⁢ ‖ α ‖ ⁢ ‖ β ‖ + ‖ β ‖ 2 = ( ‖ α ‖ + ‖ β ‖ ) 2 于是,
‖ α + β ‖ ≤ ‖ α ‖ + ‖ β ‖ .
◻
iii被称为Cauchy-Schwarz不等式 , 其有着各种各样的应用. 根据刚才我们的证明, 如果α ≠ 0 , 那么除非β = 〈 β | α 〉 ‖ α ‖ 2 ⁢ α 该不等式严格成立. 也就是说, Cauchy-Schwarz不等式取等号当且仅当α 和β 线性相关.
例子7. 如果我们将Cauchy-Schwarz不等式应用于例子1, 2, 3, 5中给出的内积, 那么我们就会得到以下结果:
| ∑ k = 1 n x k ⁢ y ‾ k | ≤ ( ∑ k = 1 n | x k | 2 ) 1 2 ⁢ ( ∑ k = 1 n | y k | 2 ) 1 2 | x 1 ⁢ y 1 − x 2 ⁢ y 1 − x 1 ⁢ y 2 + 4 ⁢ x 2 ⁢ y 2 | ≤ ( ( x 1 − x 2 ) 2 + 3 ⁢ x 2 2 ) 1 / 2 ⁢ ( ( y 1 − y 2 ) 2 + 3 ⁢ y 2 2 ) 1 / 2 | tr ⁡ ( A ⁢ B ⁎ ) | ≤ ( tr ⁡ ( A ⁢ A ⁎ ) ) 1 / 2 ⁢ ( tr ⁡ ( B ⁢ B ⁎ ) ) 1 / 2 | ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t | ≤ ( ∫ 0 1 | f ⁡ ( t ) | 2 d t ) 1 2 ⁢ ( ∫ 0 1 | g ⁡ ( t ) | 2 d t ) 1 2 定义. 令α 和β 是内积空间V 中的向量, 那么α 正交 于β , 如果〈 α | β 〉 = 0 . 既然这能推出β 正交于α , 我们常就简单说α 和β 是正交的. 对于V 的一个子集S , 我们称S 是一个正交集合 , 若其中不同向量之间均是正交的. 如果对于正交集合S 的每个向量α 有‖ α ‖ = 1 , 那么我们就称S 是一个规范正交集合 .
零向量正交于V 中的每个向量, 而且是唯一具有此性质的向量. 另外, 读者应该将规范正交集合想成是由长度为1 且相互垂直的向量构成的集合.
例子8. ℝ n 的标准基相对于其上的标准内积是一个规范正交集合, ℂ n 也是如此.
例子9. ℝ 2 中的向量( x , y ) 相对于标准内积与( − y , x ) 正交, 因为〈 ( x , y ) | ( − y , x ) 〉 = − x ⁢ y + y ⁢ x = 0 . 然而, 如果ℝ 2 装备的是例子2中的内积, 那么( x , y ) 和( − y , x ) 正交当且仅当y = − 3 ± 13 2 ⁢ x .
例子10. 令V 是ℂ n × n , E p , q 是仅第p 行q 列为1 其余均为0 的矩阵, 那么所有这样的矩阵E p , q 构成的集合相对于例子3中给出的内积是规范正交的, 因为〈 E p , q | E r , s 〉 = tr ⁡ ( E p , q ⁢ E s , r ) = δ q , s ⁢ tr ⁡ ( E p , r ) = δ q , s ⁢ δ p , r .
例子11. 令V 是区间[ 0 , 1 ] 上的连续复值 (或者实值) 函数构成的向量空间, 并定义其上的内积为〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t . 设f n ⁡ ( x ) = 2 ⁢ cos ⁡ 2 ⁢ π ⁢ n ⁢ x 且g n ⁡ ( x ) = 2 ⁢ sin ⁡ 2 ⁢ π ⁢ n ⁢ x , 那么{ 1 , f 1 , g 1 , f 2 , g 2 , … } 构成了一个无穷的规范正交集合. 在复情形下, 我们也可以构造以下线性组合1 2 ⁢ ( f n ± i ⁢ g n ) , n = 1 , 2 , … 以这种方式, 我们构造了一个新的规范正交集合S , 其由所有具有形式h n ⁡ ( x ) = e 2 ⁢ π ⁢ i ⁢ n ⁢ x , n = ± 1 , ± 2 , … 的函数构成. 将常函数1 加入S 得到的集合S ′ 也是规范正交的. 我们假定读者熟悉以上内容所牵涉的积分计算.
以上例子给出的规范正交集合均是线性无关的, 现在我们将表明诚然如此.
定理2. 由非零向量构成的正交集合是线性无关的.
证明. 令
S 是某给定内积空间中由非零向量构成的有限或无限的正交集合, 设
α 1 , α 2 , … , α m 是
S 中的不同向量, 并且
β = c 1 ⁢ α 1 + c 2 ⁢ α 2 + ⋯ + c m ⁢ α m 那么
〈 β | α k 〉 = 〈 ∑ j = 1 m c j ⁢ α j | α k 〉 = ∑ j = 1 m c j ⁢ 〈 α j | α k 〉 = c k ⁢ 〈 α k | α k 〉 既然
〈 α k | α k 〉 ≠ 0 , 这可以推出
c k = 〈 β | α k 〉 ‖ α k ‖ 2 , 1 ≤ k ≤ m . 因此, 当
β = 0 时, 每个
c k = 0 , 即
S 是线性无关的集合.
◻
推论. 如果一个向量β 是由非零向量α 1 , … , α m 构成的一个正交序列的线性组合, 那么β 必然是以下特定的线性组合β = ∑ k = 1 m 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k .
以上的推论是定理的证明的直接结果. 另外, 还有一个应该提及的显然推论. 如果{ α 1 , … , α m } 是某个有限维内积空间V 中由非零向量构成的正交集合, 那么m ≤ dim ⁡ V . 这是在说V 中相互正交的方向的数目不可能超过V 的由代数定义的维数. V 中相互正交的方向的最大数目可以被理解为V 的几何维数, 并且我们刚才看到其不会大于代数维数. 这两种维数相等的事实是以下结果的一个特定推论.
定理3. 令V 是一个内积空间, 而β 1 , … , β n 是V 中线性无关的向量, 那么我们可以构造V 中相互正交的向量α 1 , … , α n 使得对于每个k = 1 , 2 , … , n , 集合{ α 1 , … , α k } 是由β 1 , … , β k 张成的子空间的一个基.
证明. 向量
α 1 , … , α n 可由一种被称为
Gram-Schmidt正交化过程 的构造方式得到. 首先, 令
α 1 = β 1 , 而其他向量则按以下方法由归纳给定: 设已经挑选了
α 1 , … , α m 使得对于每个
k 有
{ α 1 , … , α k } , 1 ≤ k ≤ m 是由
β 1 , … , β k 张成的
V 的子空间的一个正交基, 其中
1 ≤ m < n . 为了构造下一个向量
α m + 1 , 令
α m + 1 = β m + 1 − ∑ k = 1 m 〈 β m + 1 | α k 〉 ‖ α k ‖ 2 ⁢ α k 那么
α m + 1 ≠ 0 , 因为否则的话
β m + 1 就是
α 1 , … , α m 的线性组合了, 也就是
β 1 , … , β m 的线性组合. 而且, 如果
1 ≤ j ≤ m , 那么
〈 α m + 1 | α j 〉 = 〈 β m + 1 | α j 〉 − ∑ k = 1 m 〈 β m + 1 | α k 〉 ‖ α k ‖ 2 ⁢ 〈 α k | α j 〉 = 〈 β m + 1 | α j 〉 − 〈 β m + 1 | α j 〉 = 0 因此,
{ α 1 , … , α m + 1 } 是由
m + 1 个非零向量构成的正交集合, 并且它们都在由
β 1 , … , β m + 1 张成的子空间之中. 根据定理2, 其的确是该子空间的一个基. 换言之, 向量
α 1 , … , α n 可按以上公式一个接着一个地构造出来. 特别地, 当
n = 4 时, 我们有
α 1 = β 1 α 2 = β 2 − 〈 β 2 | α 1 〉 ‖ α 1 ‖ 2 ⁢ α 1 α 3 = β 3 − 〈 β 3 | α 1 〉 ‖ α 1 ‖ 2 ⁢ α 1 − 〈 β 3 | α 2 〉 ‖ α 2 ‖ 2 ⁢ α 2 α 4 = β 4 − 〈 β 4 | α 1 〉 ‖ α 1 ‖ 2 ⁢ α 1 − 〈 β 4 | α 2 〉 ‖ α 2 ‖ 2 ⁢ α 2 − 〈 β 4 | α 3 〉 ‖ α 3 ‖ 2 ⁢ α 3 ◻
推论. 每个有限维内积空间都拥有一个规范正交基.
证明. 令
V 是一个有限维内积空间, 而
{ β 1 , … , β n } 是
V 的一个基. 应用Gram-Schmidt过程, 我们可以构造一个正交基
{ α 1 , … , α n } . 那么, 为了获得一个规范正交基, 我们仅需将每个向量
α k 替换以
α k / ‖ α k ‖ 就够了.
◻
规范正交基相较于其他任意的基的一个主要优势在于牵涉坐标的计算会更加简单. 为了澄清这个断言, 设V 是一个有限维内积空间. 那么, 根据上一节的讨论, 我们可以构造这个内积相对于V 的某个有序基𝔅 = { α 1 , … , α n } 的矩阵G , 其由G j , k = 〈 α k | α j 〉 定义, 然后便可基于坐标来计算内积. 若𝔅 是一个规范正交基, 那么G 就是恒等矩阵, 而对于任意的标量x j 和y k , 我们有〈 ∑ j = 1 n x j ⁢ α j | ∑ k = 1 n y k ⁢ α k 〉 = ∑ j = 1 n x j ⁢ y ‾ j 因此, 基于规范正交基, V 中的内积看起来就像是F n 中的标准内积.
尽管实际计算上的用途有限, 但有趣的是, Gram-Schmidt过程也可以用来判定是否线性相关. 设β 1 , … , β n 是V 中线性相关的向量, 排除β 1 = 0 的平凡情况. [译注: 其实不排除也可以, 只是对于极端情况需要一些说明.] 令m 是使得β 1 , … , β m 能够线性无关的最大整数, 那么1 ≤ m < n . 若α 1 , … , α m 是施行正交化过程于β 1 , … , β m 得到的向量, 那么α m + 1 = β m + 1 − ∑ k = 1 m 〈 β m + 1 | α k 〉 ‖ α k ‖ 2 ⁢ α k 必然为0 . 这是因为, α m + 1 在由α 1 , … , α m 张成的子空间之中并且正交于这些向量, 因而根据定理2的推论可知α m + 1 = 0 . 也就是说, β m + 1 是α 1 , … , α m 的线性组合, 即β 1 , … , β m 的线性组合, 那么β 1 , … , β m + 1 是线性相关的.
例子12. 对于装备有标准内积的ℝ 3 , 考虑向量β 1 = ( 3 , 0 , 4 ) , β 2 = ( − 1 , 0 , 7 ) , β 3 = ( 2 , 9 , 11 ) 施行Gram-Schmidt过程于β 1 , β 2 , β 3 , 我们就得到了以下向量.α 1 = ( 3 , 0 , 4 ) α 2 = ( − 1 , 0 , 7 ) − 〈 ( − 1 , 0 , 7 ) | ( 3 , 0 , 4 ) 〉 25 ⁢ ( 3 , 0 , 4 ) = ( − 1 , 0 , 7 ) − ( 3 , 0 , 4 ) = ( − 4 , 0 , 3 ) α 3 = ( 2 , 9 , 11 ) − 〈 ( 2 , 9 , 11 ) | ( 3 , 0 , 4 ) 〉 25 ⁢ ( 3 , 0 , 4 ) − 〈 ( 2 , 9 , 11 ) | ( − 4 , 0 , 3 ) 〉 25 ⁢ ( − 4 , 0 , 3 ) = ( 2 , 9 , 11 ) − 2 ⁢ ( 3 , 0 , 4 ) − ( − 4 , 0 , 3 ) = ( 0 , 9 , 0 ) 这些向量显然是非零的且相互正交, 因而{ α 1 , α 2 , α 3 } 是ℝ 3 的一个正交基. 为了将ℝ 3 中任意的向量( x 1 , x 2 , x 3 ) 表达为α 1 , α 2 , α 3 的线性组合, 我们无需求解任何线性方程组, 运用定理2的推论即可. 因此, 我们就有( x 1 , x 2 , x 3 ) = 3 ⁢ x 1 + 4 ⁢ x 3 25 ⁢ α 1 + − 4 ⁢ x 1 + 3 ⁢ x 3 25 ⁢ α 2 + x 2 9 ⁢ α 3 . 例如, ( 1 , 2 , 3 ) 可以被表示为线性组合( 1 , 2 , 3 ) = 3 5 ⁢ ( 3 , 0 , 4 ) + 1 5 ⁢ ( − 4 , 0 , 3 ) + 2 9 ⁢ ( 0 , 9 , 0 ) . 实际上, 我们可以换个角度陈述以上的结果: 对偶于基{ α 1 , α 2 , α 3 } 的( ℝ 3 ) ⁎ 的基{ f 1 , f 2 , f 3 } 可由以下公式所显式定义f 1 ⁡ ( x 1 , x 2 , x 3 ) = 3 ⁢ x 1 + 4 ⁢ x 3 25 f 2 ⁡ ( x 1 , x 2 , x 3 ) = − 4 ⁢ x 1 + 3 ⁢ x 3 25 f 3 ⁡ ( x 1 , x 2 , x 3 ) = x 2 9 当然, 这些公式可以写成以下更为一般的形式f j ⁡ ( x 1 , x 2 , x 3 ) = 〈 ( x 1 , x 2 , x 3 ) | α j 〉 ‖ α j ‖ 2 . 最后一点, 注意到从α 1 , α 2 , α 3 中我们可以得到规范正交基1 5 ⁢ ( 3 , 0 , 4 ) , 1 5 ⁢ ( − 4 , 0 , 3 ) , ( 0 , 1 , 0 ) .
例子13. 令A = [ a b c d ] 是一个复矩阵, 置β 1 = ( a , b ) 和β 2 = ( c , d ) , 并设β 1 ≠ 0 . 如果我们使用ℂ 2 上的标准内积对于β 1 , β 2 施行正交化过程, 就会得到以下向量:α 1 = ( a , b ) α 2 = ( c , d ) − 〈 ( c , d ) | ( a , b ) 〉 | a | 2 + | b | 2 ⁢ ( a , b ) = ( c , d ) − c ⁢ a ‾ + d ⁢ b ‾ | a | 2 + | b | 2 ⁢ ( a , b ) = ( c ⁢ b ‾ ⁢ b − d ⁢ b ‾ ⁢ a | a | 2 + | b | 2 , d ⁢ a ‾ ⁢ a − c ⁢ a ‾ ⁢ b | a | 2 + | b | 2 ) = det ⁡ A | a | 2 + | b | 2 ⁢ ( − b ‾ , a ‾ ) 之前的一般理论告诉我们α 2 ≠ 0 当且仅当β 1 , β 2 线性无关. 另一方面, α 2 的公式告诉我们α 2 ≠ 0 当且仅当det ⁡ A ≠ 0 .
从本质上说, Gram-Schmidt过程就是不断重复应用一种被称为正交投影的基本几何操作. 并且, 从这一角度理解正交化过程最为恰当. 在解决近似问题时, 正交投影也会自然出现.
设W 是内积空间V 的一个子空间, 令β 是V 中的任意一个向量. 我们的问题在于找出W 中对于β 的最佳的可能近似. 这意味着在向量α 属于W 的限制下寻找使得‖ β − α ‖ 尽可能小的向量α . 让我们用更加精确的语言来陈述这件事情.
以W 中的向量对于β 进行的最佳近似 是这样一个向量α ∈ W , 其满足对于每个向量γ ∈ W , 我们都有‖ β − α ‖ ≤ ‖ β − γ ‖ .
通过检视这个问题在ℝ 2 或者ℝ 3 中的情况, 读者从直觉上可以感受到以W 的向量对于β 的最佳近似应该是使得β − α 垂直 (或者说正交) 于W 的向量α . 而且, 这样的α 应该恰只有一个. 这些直觉性的想法对于有限维子空间是正确的, 而仅对于部分而不是全部的无限维子空间成立. 鉴于精确的情况太过复杂而难以在这里处理, 我们将只证明以下的结果.
定理4. 令
W 是内积空间
V 的一个子空间, 并设
β 是
V 中的一个向量.
向量α ∈ W 是以W 中的向量对于β 进行的最佳近似当且仅当β − α 正交于W 中的每个向量. 如果以W 的向量对于β 进行的最佳近似存在, 那么其是唯一的. 如果W 是有限维的并且{ α 1 , … , α n } 是W 的任意的正交基, 那么向量α = ∑ k = 1 n 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k 是以W 的向量对于β 的(唯一的)最佳近似. 证明. 首先, 注意到如果
γ 是
V 中的任意向量, 那么
β − γ = ( β − α ) + ( α − γ ) , 而且
‖ β − γ ‖ 2 = ‖ β − α ‖ 2 + 2 ⁢ Re ⁡ 〈 β − α | α − γ 〉 + ‖ α − γ ‖ 2 . 现在设
β − α 正交于
W 中的每个向量, 如果
γ ∈ W 且
γ ≠ α , 那么既然
α − γ ∈ W , 我们可以推出
‖ β − γ ‖ 2 = ‖ β − α ‖ 2 + ‖ α − γ ‖ 2 > ‖ β − α ‖ 2 反过来, 设对于每个
γ ∈ W 有
‖ β − γ ‖ ≥ ‖ β − α ‖ , 那么根据上面的第一个等式, 这可以推出
2 ⁢ Re ⁡ 〈 β − α | α − γ 〉 + ‖ α − γ ‖ 2 ≥ 0 对于每个
γ ∈ W 成立. 鉴于
{ α − γ | γ ∈ W } = W , 实际上其等价于
2 ⁢ Re ⁡ 〈 β − α | τ 〉 + ‖ τ ‖ 2 ≥ 0 对于每个
τ ∈ W 成立. 对于非零的
τ ∈ W , 我们可以构造向量
φ = − 〈 β − α | τ 〉 ‖ τ ‖ 2 ⁢ τ ∈ W 代入即得
2 ⁢ Re ⁡ 〈 β − α | φ 〉 + ‖ φ ‖ 2 = 2 ⁢ Re ⁡ 〈 β − α | − 〈 β − α | τ 〉 ‖ τ ‖ 2 ⁢ τ 〉 + ‖ − 〈 β − α | τ 〉 ‖ τ ‖ 2 ⁢ τ ‖ 2 = − 2 ⁢ | 〈 β − α | τ 〉 | 2 ‖ τ ‖ 2 + | 〈 β − α | τ 〉 | 2 ‖ τ ‖ 2 = − | 〈 β − α | τ 〉 | 2 ‖ τ ‖ 2 ≥ 0 于是,
〈 β − α | τ 〉 = 0 . 换言之,
β − α 正交于
W 中的每个向量. 到目前为止, 我们完成了对于i的证明. 不过, 根据上面的讨论, 若存在
W 中的向量满足最佳近似的条件, 那么显然至多只有一个这样的向量. 也就是说, ii的确成立.
现在设
W 是
V 的一个有限维子空间, 那么我们知道, 根据定理3,
W 的确拥有正交基. 令
{ α 1 , … , α n } 是
W 的任意的正交基, 按照iii的方式定义
α . 然后, 根据定理3的证明中的计算, 我们知道
β − α 正交于每个
α k . 换言之,
β − α 正交于
W 中的每个向量. 根据已经证明了的i, 我们可以断言
α 是以
W 中的向量对于
β 的最佳近似.
◻
定义. 令V 是一个内积空间, S 是V 的一个子集, 那么S 的正交补 被定义为S ⊥ = { β ∈ V | 对于每个 α ∈ S , 〈 β | α 〉 = 0 } .
V 的正交补是零子空间. 反过来, { 0 } ⊥ = V . 如果S 是V 的任意子集, 那么其正交补S ⊥ 总是V 的子空间. 这是因为, 首先S ⊥ 是非空的, 鉴于其总是包含0 ; 其次, 每当α , β ∈ S ⊥ 而c 是任意的标量, 对于每个γ ∈ S , 我们有〈 c ⁢ α + β | γ 〉 = c ⁢ 〈 α | γ 〉 + 〈 β | γ 〉 = c ⁢ 0 + 0 = 0 因而c ⁢ α + β ∈ S ⊥ . 在定理4中, 最佳近似α 的特征性质在于其是W 中唯一使得β − α ∈ W ⊥ 的向量.
定义. 每当定理4中的向量α 存在, 其被称为β 在W 上的正交投影 . 如果V 中的每个向量都在W 上具有正交投影, 那么赋V 的向量以其在W 上的正交投影的确是一个映射, 这被称为V 在W 上的正交投影 .
根据定理4, 内积空间在有限维子空间上的正交投影总是存在的. 但是, 定理4也能推出以下结果.
推论. 令V 是一个内积空间, W 是其一个有限维子空间, E 是V 在W 上的正交投影, 那么映射β ↦ β − E ⁡ β 是V 在W ⊥ 上的正交投影.
证明. 对于任意的向量
β ∈ V , 根据
E 的定义和定理4, 我们知道
β − E ⁡ β ∈ W ⊥ . 然后, 既然
β − ( β − E ⁡ β ) = E ⁡ β ∈ W 而又根据
W ⊥ 的定义,
W 中的向量总是正交于
W ⊥ 的每个向量, 于是
β − ( β − E ⁡ β ) 也正交于
W ⊥ 的每个向量. 换言之,
β ↦ β − E ⁡ β 是
V 在
W ⊥ 上的正交投影.
◻
例子14. 给定装备有标准内积的ℝ 3 , 那么( − 10 , 2 , 8 ) 在由( 3 , 12 , − 1 ) 张成的子空间W 上的正交投影为α = 〈 ( − 10 , 2 , 8 ) | ( 3 , 12 , − 1 ) 〉 ‖ ( 3 , 12 , − 1 ) ‖ 2 ⁢ ( 3 , 12 , − 1 ) = − 14 154 ⁢ ( 3 , 12 , − 1 ) ℝ 3 在W 上的正交投影E 为( x 1 , x 2 , x 3 ) ↦ 3 ⁢ x 1 + 12 ⁢ x 2 − x 3 154 ⁢ ( 3 , 12 , − 1 ) . E 的秩显然为1 , 因而E 的零化度为2 . 另一方面,E ⁡ ( x 1 , x 2 , x 3 ) = ( 0 , 0 , 0 ) 当且仅当3 ⁢ x 1 + 12 ⁢ x 2 − x 3 = 0 , 而这等价于( x 1 , x 2 , x 3 ) ∈ W ⊥ . 因此, W ⊥ 是E 的零空间, 而dim ⁡ W ⊥ = 2 . 通过计算( x 1 , x 2 , x 3 ) − 3 ⁢ x 1 + 12 ⁢ x 2 − x 3 154 ⁢ ( 3 , 12 , − 1 ) 我们知道ℝ 3 在W ⊥ 上的正交投影I − E 为( x 1 , x 2 , x 3 ) ↦ 1 154 ⁢ ( 145 ⁢ x 1 − 36 ⁢ x 2 + 3 ⁢ x 3 , − 36 ⁢ x 1 + 10 ⁢ x 2 + 12 ⁢ x 3 , 3 ⁢ x 1 + 12 ⁢ x 2 + 153 ⁢ x 3 )
例子14中的观察将以如下形式得到泛化.
定理5. 令W 是内积空间V 的一个有限维子空间, 设E 是V 在W 上的正交投影, 那么E 是V 上的一个幂等线性算子. 而且, W 是E 的像, W ⊥ 是E 的零空间, 于是V = W ⊕ W ⊥ .
证明. 对于每个
β ∈ V , 既然
E ⁡ β ∈ W , 那么
E ⁡ ( E ⁡ β ) = E ⁡ β 是显然的. 换言之,
E 2 = E , 即
E 是幂等的. 现在我们需要证明
E 是线性的. 对于
α , β ∈ V , 我们知道
α − E ⁡ α , β − E ⁡ β ∈ W ⊥ . 设
c 是任意的标量, 那么
c ⁢ ( α − E ⁡ α ) + ( β − E ⁡ β ) = ( c ⁢ α + β ) − ( c ⁢ E ⁡ α + E ⁡ β ) ∈ W ⊥ 其中
c ⁢ E ⁡ α + E ⁡ β ∈ W . 换言之, 即
E ⁡ ( c ⁢ α + β ) = c ⁢ E ⁡ α + E ⁡ β , 由此
E 是线性算子.
只需稍微检视一下正交投影的定义, 便可知
E 的像是
W . 另外, 根据定理4的推论,
I − E 是
V 在
W ⊥ 上的正交投影. 而且,
I − E 的像是
W ⊥ . 现在让我们回忆一下第6章的定理9及其之前的讨论, 就知道
E 的零空间是
W ⊥ , 于是
V = W ⊕ W ⊥ .
◻
推论. 在定理5的条件下, I − E 是V 在W ⊥ 上的正交投影. 而且, I − E 是V 上的幂等线性算子, 其以W ⊥ 为像而W 为零空间.
现在我们可以按照如下方式几何地陈述Gram-Schmidt过程了. 给定内积空间V 和线性无关的向量β 1 , … , β n , 令P k , k > 1 是V 在由β 1 , … , β k − 1 张成的子空间的正交补上的正交投影, 并设P 1 = I , 那么应用正交化过程于β 1 , … , β n 得到的向量α 1 , … , α n 可由α k = P k ⁡ β k , 1 ≤ k ≤ n 定义.
定理5也可以推出所谓的Bessel不等式 .
推论. 令{ α 1 , … , α n } 是内积空间V 中由非零向量构成的正交集合, 如果β ∈ V , 那么∑ k = 1 n | 〈 β | α k 〉 | 2 ‖ α k ‖ 2 ≤ ‖ β ‖ 2 . 并且, 此不等式取得等号当且仅当β = ∑ k = 1 n 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k .
证明. 设
W 是由
α 1 , … , α n 张成的子空间, 那么
γ = ∑ k = 1 n 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k ∈ W 是以
W 中的向量对于
β 的最佳近似. 并且, 若令
δ = β − γ , 则
δ ∈ W ⊥ , 因而
〈 γ | δ 〉 = 0 , 故
‖ β ‖ 2 = ‖ γ ‖ 2 + ‖ δ ‖ 2 = 〈 ∑ k = 1 n 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k | ∑ k = 1 n 〈 β | α k 〉 ‖ α k ‖ 2 ⁢ α k 〉 + ‖ δ ‖ 2 = ( ∑ k = 1 n | 〈 β | α k 〉 | 2 ‖ α k ‖ 2 ) + ‖ δ ‖ 2 ≥ ∑ k = 1 n | 〈 β | α k 〉 | 2 ‖ α k ‖ 2 显然, 此不等式取得等号当且仅当
‖ δ ‖ 2 = 0 , 即
β = γ . 证明就结束了.
◻
在{ α 1 , … , α n } 为规范正交集的特殊情况下, Bessel不等式就变成了∑ k = 1 n | 〈 β | α k 〉 | 2 ≤ ‖ β ‖ 2 . 当然, 若{ α 1 , … , α n } 是V 的一个规范正交基, 那么Bessel不等式总是取等号, 而此时β 在有序基{ α 1 , … , α n } 下的坐标的第k 个分量为〈 β | α k 〉 .
例子15. 若我们将上述推论应用于例子11中所描述的规范正交集合, 就会发现
∑ k = − n n | ∫ 0 1 f ⁡ ( t ) ⁢ e − 2 ⁢ π ⁢ i ⁢ k ⁢ t d t | 2 ≤ ∫ 0 1 | f ⁡ ( t ) | 2 d t ∫ 0 1 | ∑ k = − n n c k ⁢ e 2 ⁢ π ⁢ i ⁢ k ⁢ t | 2 d t = ∑ k = − n n | c k | 2 ∫ 0 1 ( 2 ⁢ cos ⁡ 2 ⁢ π ⁢ t + 2 ⁢ sin ⁡ 4 ⁢ π ⁢ t ) 2 d t = 1 + 1 = 2 练习1. 考虑装备了标准内积的ℝ 4 , 令子空间W = { γ ∈ ℝ 4 | 〈 γ | α 〉 = 0 且 〈 γ | β 〉 = 0 } 其中α = ( 1 , 0 , − 1 , 1 ) 而β = ( 2 , 3 , − 1 , 2 ) , 找出W 的一个基.
练习2. 应用Gram-Schmidt过程于向量β 1 = ( 1 , 0 , 1 ) , β 2 = ( 1 , 0 , − 1 ) , β 3 = ( 0 , 3 , 4 ) 以得到装备有标准内积的ℝ 3 的一个规范正交基.
练习3. 考虑装备有标准内积的ℂ 3 , 找出由β 1 = ( 1 , 0 , i ) 和β 2 = ( 2 , 1 , 1 + i ) 张成的子空间的一个规范正交基.
练习4. 令
V 是一个内积空间, 两个向量
α 和
β 之间的
距离 由
d ⁡ ( α , β ) = ‖ α − β ‖ 定义, 证明
d ⁡ ( α , β ) ≥ 0 ;d ⁡ ( α , β ) = 0 当且仅当α = β ;d ⁡ ( α , β ) = d ⁡ ( β , α ) ;d ⁡ ( α , β ) ≤ d ⁡ ( α , γ ) + d ⁡ ( γ , β ) .练习5. 令V 是一个内积空间而α , β ∈ V , 那么α = β 当且仅当对于每个γ ∈ V 有〈 α | γ 〉 = 〈 β | γ 〉 .
练习6. 给定装备有标准内积的
ℝ 2 , 令
W 是由
( 3 , 4 ) 张成的子空间,
E 是
ℝ 2 在
W 上的正交投影, 找出
E ⁡ ( x 1 , x 2 ) 的公式;标准有序基下E 的矩阵; W ⊥ ;使得E 由矩阵[ 1 0 0 0 ] 表示的一个规范正交基. 练习7. 令V 是一个内积空间, 其向量空间为ℝ 2 , 而其内积的二次形式由‖ ( x 1 , x 2 ) ‖ 2 = ( x 1 − x 2 ) 2 + 3 ⁢ x 2 2 定义. 令E 是V 在由( 3 , 4 ) 张成的子空间W 上的正交投影, 现在回答练习6的四个问题.
练习8. 找出ℝ 2 上的一个内积使得〈 ε 1 | ε 2 〉 = 2 .
练习9. 令
V 是
ℝ ⁡ [ x ] 的次数至多为
3 的多项式构成的子空间, 其上装备的内积为
〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) d t . 找出由所有标量多项式构成的子空间的正交补. 应用Gram-Schmidt过程于基{ 1 , x , x 2 , x 3 } . 练习10. 令V 是向量空间ℂ n × n , 设其上的内积为〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) , 找出由所有对角矩阵构成的子空间的正交补.
练习11. 令V 是一个有限维内积空间, { α 1 , … , α n } 是V 的一个规范正交基, 证明对于任意的α , β ∈ V , 我们都有〈 α | β 〉 = ∑ k = 1 n 〈 α | α k 〉 ⁢ 〈 β | α k 〉 ‾ .
练习12. 令W 是内积空间V 的一个有限维子空间, E 是V 在W 上的正交投影, 证明对于所有α , β ∈ V , 〈 E ⁡ α | β 〉 = 〈 α | E ⁡ β 〉 .
练习13. 令S 是内积空间V 的一个子集. 证明( S ⊥ ) ⊥ 包含由S 张成的子空间. 当V 是有限维的时候, 证明( S ⊥ ) ⊥ 就是由S 张成的子空间.
练习14. 令V 是一个有限维内积空间而𝔅 = { α 1 , … , α n } 是V 的一个规范正交基. 令T 是V 上的一个线性算子而A 是在有序基𝔅 下的矩阵. 证明A i , j = 〈 T ⁡ α j | α i 〉 .
练习15. 设
V = W 1 ⊕ W 2 而
f 1 和
f 2 分别是
W 1 和
W 2 上的内积. 证明存在唯一的
V 上的内积
f 使得
W 2 = W 1 ⊥ ;对于α , β ∈ W k , k = 1 , 2 , 有f ⁡ ( α , β ) = f k ⁡ ( α , β ) . 练习16. 令V 是一个内积空间而W 是V 的一个有限维子空间, 一般存在许多以W 为像的投影. 其中一种当然是W 上的正交投影, 它具有对于每个α ∈ V , ‖ E ⁡ α ‖ ≤ ‖ α ‖ 的性质. 证明如果E 是一个以W 为像的投影且对于每个α ∈ V 有‖ E ⁡ α ‖ ≤ ‖ α ‖ , 那么E 是W 上的正交投影. [译注: 这个不等式和Bessel不等式差不多.]
练习17. 令V 是一个实内积空间, 其由区间[ − 1 , 1 ] 上的所有连续实值函数构成, 而内积为〈 f | g 〉 = ∫ − 1 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) d t . 令W 是所有奇函数构成子空间, 找出W 的正交补.
第8.3节 线性泛函和伴随 本节的第一部分处理内积空间上的线性泛函以及其与内积的关系. 基本的结果在于有限维内积空间上任意的线性泛函f 就是"固定一个向量的内积", 即对于某个固定的β ∈ V , f 具有f ⁡ ( α ) = 〈 α | β 〉 的形式. 我们使用这个结果证明了V 上的线性算子T 的"伴随"的存在性, 其是一个对于每个α , β ∈ V 有〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 的线性算子T ⁎ . 通过规范正交基的使用, 线性算子上的伴随操作 (从T 到T ⁎ ) 就相当于构造一个矩阵的共轭转置. 我们稍微探索了一下伴随操作和复数的共轭之间的类似之处.
令V 是任意的内积空间, β ∈ V 是一个固定的向量, 我们定义从V 到标量域的函数f β 为f β ⁡ ( α ) = 〈 α | β 〉 . 函数f β 是V 上的一个线性泛函, 这是因为根据内积的定义, 〈 α | β 〉 作为α 的函数是线性的. 如果V 是有限维的, 那么V 上的每个线性泛函都可由某个β 以这种方式产生.
定理6. 令V 是一个有限维内积空间, 而f 是V 上的一个线性泛函, 那么存在唯一的向量β ∈ V 使得对于每个α ∈ V 有f ⁡ ( α ) = 〈 α | β 〉 .
证明. 令
{ α 1 , α 2 , … , α n } 是
V 的一个规范正交基, 置
β = ∑ j = 1 n f ⁡ ( α j ) ‾ ⁢ α j 令
f β 是由
f β ⁡ ( α ) = 〈 α | β 〉 定义的线性泛函, 那么
f β ⁡ ( α k ) = 〈 α k | ∑ j = 1 n f ⁡ ( α j ) ‾ ⁢ α j 〉 = f ⁡ ( α k ) . 既然这对于每个基向量
α k 成立, 于是
f = f β . 现在设
γ ∈ V 满足
f γ = f , 那么
f γ ⁡ ( γ − β ) − f β ⁡ ( γ − β ) = 〈 γ − β | γ 〉 − 〈 γ − β | β 〉 = 〈 γ − β | γ − β 〉 = 0 换言之,
γ − β = 0 , 即
γ = β . 因此, 恰存在一个向量
β 按照以上陈述的方式确定了线性泛函
f .
◻
这个证明可以使用基下的线性泛函的表示的语言稍微重述一下. 如果我们选定了V 的一个规范正交基{ α 1 , … , α n } , 那么α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n 和β = y 1 ⁢ α 1 + ⋯ + y n ⁢ α n 的内积为〈 α | β 〉 = x 1 ⁢ y ‾ 1 + ⋯ + x n ⁢ y ‾ n . 如果f 是V 上任意的线性泛函, 那么f 具有f ⁡ ( α ) = c 1 ⁢ x 1 + ⋯ + c n ⁢ x n 的形式, 其中c 1 , … , c n 是由基确定的一些固定标量. 当然, c j = f ⁡ ( α j ) . 如果我们希望找到一个向量β ∈ V 使得对于每个α 有〈 α | β 〉 = f ⁡ ( α ) , 那么显然β 的坐标分量y j 必须满足y ‾ j = c j , 或者说y j = f ⁡ ( α j ) ‾ . 据此, 可知β = f ⁡ ( α 1 ) ‾ ⁢ α 1 + ⋯ + f ⁡ ( α n ) ‾ ⁢ α n 就是我们所要的向量.
现在应该作出一些更加深刻的评注. 刚才我们所给出的对于定理6的证明相当简短, 然而它却没能强调一个基本的几何事实, 即β 位于f 的零空间的正交补之中. 令W 是f 的零空间, 那么V = W ⊕ W ⊥ , 并且f 完全由其在W ⊥ 上的值所确定. 实际上, 如果P 是V 在W ⊥ 上的正交投影, 那么f ⁡ ( α ) = f ⁡ ( P ⁡ α ) 对于每个α ∈ V 成立. 设f ≠ 0 , 那么f 的秩为1 而dim ⁡ W ⊥ = 1 . 如果γ 是W ⊥ 中任意的非零向量, 那么P ⁡ α = 〈 α | γ 〉 ‖ γ ‖ 2 ⁢ γ 对于所有α ∈ V 成立, 因此f ⁡ ( α ) = f ⁡ ( P ⁡ α ) = f ⁡ ( 〈 α | γ 〉 ‖ γ ‖ 2 ⁢ γ ) = 〈 α | γ 〉 ⁢ f ⁡ ( γ ) ‖ γ ‖ 2 = 〈 α | f ⁡ ( γ ) ‾ ‖ γ ‖ 2 ⁢ γ 〉 换言之, β = [ f ⁡ ( γ ) ‾ / ‖ γ ‖ 2 ] ⁢ γ .
例子16. 我们应该给出一个例子以表明定理6若缺少V 是有限维空间的条件则并不成立. 令V 是复数域上的多项式的向量空间, 而内积为〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t . 这个内积也可以被代数地定义. 如果f = ∑ j = 0 l a j ⁢ x j 而g = ∑ k = 0 m b k ⁢ x k , 那么〈 f | g 〉 = ∑ j = 0 l ∑ k = 0 m a j ⁢ b ‾ k j + k + 1 . 令z 是一个固定的复数, L 是"在z 处求值"的线性泛函:L ⁡ ( f ) = f ⁡ ( z ) . 存在一个多项式g 使得对于每个f 有〈 f | g 〉 = L ⁡ ( f ) 吗? 答案是否定的, 以下是我们的推理. 设存在多项式g 满足f ⁡ ( z ) = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t 对于每个多项式f 成立. 令h = x − z , 那么对于任意的f 我们有( h ⁢ f ) ⁡ ( z ) = 0 , 于是0 = ∫ 0 1 h ⁡ ( t ) ⁢ f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t 特别地, 这个等式在f = h ‾ ⁢ g 时也成立, 以至于∫ 0 1 h ⁡ ( t ) ⁢ ( h ‾ ⁢ g ) ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t = ∫ 0 1 | h ⁡ ( t ) | 2 ⁢ | g ⁡ ( t ) | 2 d t = ∫ 0 1 | ( h ⁢ g ) ⁡ ( t ) | 2 d t = 〈 h ⁢ g | h ⁢ g 〉 = 0 这可以推出h ⁢ g = 0 . 鉴于h ≠ 0 , 必然有g = 0 . 可是, L 并非零线性泛函, 即这样的g 不存在.
读者可以稍微推广一下这个例子. 设我们选定了标量c 1 , … , c n 和不同的复数z 1 , … , z n , 令L ⁡ ( f ) = c 1 ⁢ f ⁡ ( z 1 ) + ⋯ + c n ⁢ f ⁡ ( z n ) 那么L 是V 上的一个线性泛函, 但是除非c 1 = c 2 = ⋯ = c n = 0 , 并不存在多项式g 使得L ⁡ ( f ) = 〈 f | g 〉 . 读者只需重复上述的论证以h = ( x − z 1 ) ⁢ ⋯ ⁢ ( x − z n ) .
现在我们将注意力转到线性算子的伴随的概念上来.
定理7. 对于有限维内积空间V 上任意的线性算子T , 存在唯一的V 上的线性算子T ⁎ 使得对于每个α , β ∈ V 有〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 .
证明. 令
β 是
V 中任意的一个向量, 那么
α ↦ 〈 T ⁡ α | β 〉 是
V 上的一个线性泛函. 根据定理6, 存在唯一的
β ′ ∈ V 使得对于每个
α ∈ V 有
〈 T ⁡ α | β 〉 = 〈 α | β ′ 〉 . 令
T ⁎ 是映射
β ↦ β ′ , 我们知道
〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 对于所有
α , β ∈ V 成立, 那么剩下来的工作就是要验证
T ⁎ 的确是一个线性算子. 令
β , γ ∈ V 而
c 是一个标量, 对于任意的
α , 我们有
〈 α | T ⁎ ⁡ ( c ⁢ β + γ ) 〉 = 〈 T ⁡ α | c ⁢ β + γ 〉 = c ‾ ⁢ 〈 T ⁡ α | β 〉 + 〈 T ⁡ α | γ 〉 = c ‾ ⁢ 〈 α | T ⁎ ⁡ β 〉 + 〈 α | T ⁎ ⁡ γ 〉 = 〈 α | c ⁢ T ⁎ ⁡ β + T ⁎ ⁡ γ 〉 因此,
T ⁎ ⁡ ( c ⁢ β + γ ) = c ⁢ T ⁎ ⁡ β + T ⁎ ⁡ γ , 即
T ⁎ 是线性的.
T ⁎ 的唯一性是显然的. 对于任意的向量
β ∈ V , 向量
T ⁎ ⁡ β 由以下条件所唯一刻画:
对于每个 α ∈ V , 〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 . ◻
定理8. 令V 是一个有限维内积空间而𝔅 = { α 1 , … , α n } 是V 的一个(有序)规范正交基, 令T 是V 上的一个线性算子而A 是在有序基𝔅 下的矩阵, 那么A k , j = 〈 T ⁡ α j | α k 〉 .
证明. 既然
𝔅 是一个规范正交基, 我们有
α = ∑ k = 1 n 〈 α | α k 〉 ⁢ α k . 鉴于矩阵
A 由
T ⁡ α j = ∑ k = 1 n A k , j ⁢ α k 定义, 而
T ⁡ α j = ∑ k = 1 n 〈 T ⁡ α j | α k 〉 ⁢ α k 我们有
A k , j = 〈 T ⁡ α j | α k 〉 .
◻
推论. 令V 是一个有限维内积空间而T 是V 上的一个线性算子, 那么在V 的任意的规范正交基下, T ⁎ 的矩阵是T 的矩阵的共轭转置.
证明. 令
𝔅 = { α 1 , … , α n } 是
V 的一个规范正交基, 设
A = [ T ] 𝔅 而
B = [ T ⁎ ] 𝔅 . 根据定理6, 我们有
A k , j = 〈 T ⁡ α j | α k 〉 和 B k , j = 〈 T ⁎ ⁡ α j | α k 〉 . 根据
T ⁎ 的定义, 可以推出
B k , j = 〈 T ⁎ ⁡ α j | α k 〉 = 〈 α k | T ⁎ ⁡ α j 〉 ‾ = 〈 T ⁡ α k | α j 〉 ‾ = A ‾ j , k ◻
例子17. 令V 是一个有限维内积空间, E 是V 在其一个子空间W 上的正交投影, 那么对于任意的α , β ∈ V , 我们可以推出〈 E ⁡ α | β 〉 = 〈 E ⁡ α | E ⁡ β + ( I − E ) ⁡ β 〉 = 〈 E ⁡ α | E ⁡ β 〉 = 〈 E ⁡ α + ( I − E ) ⁡ α | E ⁡ β 〉 = 〈 α | E ⁡ β 〉 根据算子E ⁎ 的唯一性, 我们知道E ⁎ = E . 现在考虑例子14所描述的投影, 那么A = 1 154 ⁢ [ 9 36 − 3 36 144 − 12 − 3 − 12 1 ] 是E 在标准规范正交基下的矩阵. 根据之前的推论, 应该有A ⁎ = A , 的确如此. 另一方面, 设α 1 = ( 154 , 0 , 0 ) α 2 = ( 145 , − 36 , 3 ) α 3 = ( − 36 , 10 , 12 ) 那么{ α 1 , α 2 , α 3 } 是一个基, 并且E ⁡ α 1 = ( 9 , 36 , − 3 ) E ⁡ α 2 = ( 0 , 0 , 0 ) E ⁡ α 3 = ( 0 , 0 , 0 ) 既然( 9 , 36 , − 3 ) = ( 154 , 0 , 0 ) − ( 145 , − 36 , 3 ) , E 在基{ α 1 , α 2 , α 3 } 下的矩阵为B = [ 1 0 0 − 1 0 0 0 0 0 ] . 在这种情况下, B ⁎ ≠ B , 而且B ⁎ 也不是E ⁎ 在基{ α 1 , α 2 , α 3 } 下的矩阵. 应用以上推论, 我们可以得出{ α 1 , α 2 , α 3 } 不是规范正交基. 当然, 这不论如何都是很显然的.
定义. 令T 是内积空间V 上的一个线性算子, 那么我们称T 在V 上具有一个伴随 , 如果存在V 上的一个线性算子T ⁎ 使得〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 对于所有α , β ∈ V 成立.
根据定理7, 有限维内积空间V 上的每个线性算子T 都在V 上具有伴随. 在无限维的情形下, 并不总是如此. 但是, 不论如何, 至多只有一个这样的算子T ⁎ . 当它存在时, 我们将其称为T 的伴随 .
关于有限维的情形, 有两点评注值得一说.
T 的伴随不仅依赖于T , 也依赖于内积的定义.正如例子17所显示的那样, 对于任意而非规范正交的有序基𝔅 , [ T ] 𝔅 和[ T ⁎ ] 𝔅 之间的关系要比以上推论所描述的更加复杂. 例子18. 令V 是ℂ n × 1 而内积为〈 X | Y 〉 = Y ⁎ ⁢ X . 如果A ∈ ℂ n × n , 那么线性算子X ↦ A ⁢ X 的伴随是线性算子X ↦ A ⁎ ⁢ X , 因为〈 A ⁢ X | Y 〉 = Y ⁎ ⁢ A ⁢ X = ( A ⁎ ⁢ Y ) ⁎ ⁢ X = 〈 X | A ⁎ ⁢ Y 〉 . 读者应该发现这是前述推论的一个特殊情形.
例子19. 这个例子类似于例子18. 令V 是ℂ n × n 而内积为〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) . 令M ∈ ℂ n × n , 那么左乘M 的伴随是左乘M ⁎ . 当然, 左乘M 指的是线性算子L M ⁡ ( A ) = M ⁢ A .〈 L M ⁡ ( A ) | B 〉 = tr ⁡ ( M ⁢ A ⁢ B ⁎ ) = tr ⁡ ( A ⁢ B ⁎ ⁢ M ) = tr ⁡ ( A ⁢ ( M ⁎ ⁢ B ) ⁎ ) = 〈 A | L M ⁎ ⁡ ( B ) 〉 因此, ( L M ) ⁎ = L M ⁎ . 以上计算中, 我们用到了迹函数的一个特有性质: tr ⁡ ( A ⁢ B ) = tr ⁡ ( B ⁢ A ) .
例子20. 令V 是复数域上的多项式的向量空间, 而其上的内积为〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t . 考虑线性算子"乘以f ", 即M f ⁡ ( g ) = f ⁢ g , 那么这个算子具有一个伴随, 即乘以f ‾ , 这是因为〈 M f ⁡ ( g ) | h 〉 = 〈 f ⁢ g | h 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ⁢ h ⁡ ( t ) ‾ d t = ∫ 0 1 g ⁡ ( t ) ⁢ [ f ⁡ ( t ) ‾ ⁢ h ⁡ ( t ) ] ‾ d t = ∫ 0 1 g ⁡ ( t ) ⁢ ( f ‾ ⁢ h ) ⁡ ( t ) ‾ d t = 〈 g | f ‾ ⁢ h 〉 = 〈 g | M f ‾ ⁡ ( h ) 〉 于是( M f ) ⁎ = M f ‾ .
例子21. 在例子20里, 我们看到某些无限维向量空间上的线性算子的确也有伴随. 正如之前所说, 这种线性算子并不总是具有伴随. 令V 是例子20中的内积空间, 而D 是ℂ ⁡ [ x ] 上的形式微分算子, 那么分部积分表明〈 D ⁡ f | g 〉 = f ⁡ ( 1 ) ⁢ g ‾ ⁡ ( 1 ) − f ⁡ ( 0 ) ⁢ g ‾ ⁡ ( 0 ) − 〈 f | D ⁡ g 〉 . 让我们固定g , 并检视何时存在一个多项式D ⁎ ⁡ g 使得对于所有的f 都有〈 D ⁡ f | g 〉 = 〈 f | D ⁎ ⁡ g 〉 . 如果这样的一个D ⁎ ⁡ g 存在的话, 我们有〈 f | D ⁎ ⁡ g 〉 = f ⁡ ( 1 ) ⁢ g ‾ ⁡ ( 1 ) − f ⁡ ( 0 ) ⁢ g ‾ ⁡ ( 0 ) − 〈 f | D ⁡ g 〉 或者〈 f | D ⁎ ⁡ g + D ⁡ g 〉 = f ⁡ ( 1 ) ⁢ g ‾ ⁡ ( 1 ) − f ⁡ ( 0 ) ⁢ g ‾ ⁡ ( 0 ) . 在g 固定的情况下, L ⁡ ( f ) = f ⁡ ( 1 ) ⁢ g ‾ ⁡ ( 1 ) − f ⁡ ( 0 ) ⁢ g ‾ ⁡ ( 0 ) 就成为例子16中所考虑的那种类型的线性泛函. 除非L = 0 , 其就不可能具有L ⁡ ( f ) = 〈 f | h 〉 的形式. 如果D ⁎ ⁡ g 存在, 那么令h = D ⁎ ⁡ g + D ⁡ g , 我们就有L ⁡ ( f ) = 〈 f | h 〉 , 于是g ⁡ ( 0 ) = g ⁡ ( 1 ) = 0 . 也就是说, 适合的D ⁎ ⁡ g 的存在可以推出g ⁡ ( 0 ) = g ⁡ ( 1 ) = 0 . 反过来, 若g ⁡ ( 0 ) = g ⁡ ( 1 ) = 0 , 多项式D ⁎ ⁡ g = − D ⁡ g 满足对于所有的f , 〈 D ⁡ f | g 〉 = 〈 f | D ⁎ ⁡ g 〉 . 如果我们选择了任意的g 使得g ⁡ ( 0 ) ≠ 0 或g ⁡ ( 1 ) ≠ 0 , 那么就不可能定义合适的D ⁎ ⁡ g . 我们总结一下, 即D 没有伴随.
我们希望这些例子能够加深读者对于线性算子的伴随的理解. 我们看到, 从T 到T ⁎ 的伴随操作表现得有些类似于复数上的共轭. 以下的定理强调了这种类比.
定理9. 令
V 是一个有限维内积空间,
T 和
U 是
V 上的线性算子,
c 是任意的标量, 那么
( T + U ) ⁎ = T ⁎ + U ⁎ ;( c ⁢ T ) ⁎ = c ‾ ⁢ T ⁎ ;( T ⁢ U ) ⁎ = U ⁎ ⁢ T ⁎ ;( T ⁎ ) ⁎ = T .证明. 为了证明i, 令
α , β ∈ V , 那么
〈 ( T + U ) ⁡ α | β 〉 = 〈 T ⁡ α + U ⁡ α | β 〉 = 〈 T ⁡ α | β 〉 + 〈 U ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 + 〈 α | U ⁎ ⁡ β 〉 = 〈 α | T ⁎ ⁡ β + U ⁎ ⁡ β 〉 = 〈 α | ( T ⁎ + U ⁎ ) ⁡ β 〉 根据伴随的唯一性, 我们得到了
( T + U ) ⁎ = T ⁎ + U ⁎ . 我们将ii的证明留给读者. 我们从以下关系
〈 T ⁡ U ⁡ α | β 〉 = 〈 U ⁡ α | T ⁎ ⁡ β 〉 = 〈 α | U ⁎ ⁡ T ⁎ ⁡ β 〉 和
〈 T ⁎ ⁡ α | β 〉 = 〈 β | T ⁎ ⁡ α 〉 ‾ = 〈 T ⁡ β | α 〉 ‾ = 〈 α | T ⁡ β 〉 可以得到iii和iv.
◻
定理9经常被重述为伴随是一个周期为2 的共轭线性的反同构. 我们上面提及的伴随与复共轭的类似之处当然是复共轭具有z 1 + z 2 ‾ = z 1 ‾ + z 2 ‾ , z 1 ⁢ z 2 ‾ = z 1 ‾ ⁢ z 2 ‾ , z ‾ ‾ = z 的性质. 对于乘积的伴随, 读者必须小心顺序是相反的: ( T ⁢ U ) ⁎ = U ⁎ ⁢ T ⁎ . 当我们继续研究内积空间上的线性算子时, 我们将提及以上类比的一些扩展. 现在, 我们就要沿着之前的路线提及一点. 一个复数z 是实数当且仅当z = z ‾ . 读者可能会设想满足T = T ⁎ 的线性算子T 在某种意义上表现得与实数类似, 实际上的确如此. 例如, 若T 是有限维复 内积空间上的一个线性算子, 那么T = U 1 + i ⁢ U 2 其中U 1 = U 1 ⁎ 而U 2 = U 2 ⁎ . 因此, T 也拥有某种"实部"和"虚部". 这样的算子U 1 和U 2 是唯一的, 由U 1 = 1 2 ⁢ ( T + T ⁎ ) 和 U 2 = 1 2 ⁢ i ⁢ ( T − T ⁎ ) 给定.
满足T = T ⁎ 的线性算子T 被称为是自伴的 , 或者Hermite的 . 若𝔅 是V 的一个规范正交基, 那么[ T ⁎ ] 𝔅 = [ T ] 𝔅 ⁎ . 于是, T 是自伴算子当且仅当其在每个规范正交基下的矩阵表示都是自伴的. 自伴算子是重要的, 不仅在于其提供了一般线性算子在某种意义下的实部和虚部, 还出于以下原因:
自伴算子具有许多特殊的性质. 例如, 对于这样的一种线性算子, 存在一个由其特征向量构成的规范正交基. 许多实践中出现的线性算子都是自伴的. 之后我们将考虑自伴算子的特殊性质.
练习1. 令V 是带有标准内积的向量空间ℂ 2 , T 是由T ⁡ ε 1 = ( 1 , − 2 ) 和T ⁡ ε 2 = ( i , − 1 ) 定义的线性算子. 如果α = ( x 1 , x 2 ) , 找出T ⁎ ⁡ α .
练习2. 令T 是ℂ 2 上的线性算子, 由T ⁡ ε 1 = ( 1 + i , 2 ) 和T ⁡ ε 2 = ( i , i ) 定义. 使用标准内积, 找出T ⁎ 在标准有序基下的矩阵. T 与T ⁎ 交换吗?
练习3. 令V 是带有标准内积的ℂ 3 , T 是V 上的线性算子, 其在标准有序基下的矩阵由A j , k = i j + k 定义, 其中i 是虚数单位. 找出T ⁎ 的零空间的一个基.
练习4. 令V 是一个有限维内积空间, T 是V 上的一个线性算子, 证明T ⁎ 的像是T 的零空间的正交补.
练习5. 令V 是一个有限维内积空间, T 是V 上的一个线性算子. 如果T 是可逆的, 证明T ⁎ 也是可逆的, 并且( T ⁎ ) − 1 = ( T − 1 ) ⁎ .
练习6. 令V 是一个内积空间, 而β 和γ 是V 中固定的向量. 证明T ⁡ α = 〈 α | β 〉 ⁢ γ 定义了V 上的一个线性算子. 证明T 具有伴随, 并显式描述T ⁎ . 现在设V 是带有标准内积的ℂ n , β = ( y 1 , … , y n ) 而γ = ( x 1 , … , x n ) . T 在标准有序基下的矩阵的第j 行k 列的元素是什么? 这个矩阵的秩是多少?
练习7. 证明两个自伴算子之积是自伴的当且仅当这两个算子交换.
练习8. 令V 是ℝ 上次数小于等于3 的多项式构成的向量空间, 而内积为〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) d t . 如果t 是一个实数, 找出多项式g t ∈ V 使得对于每个f ∈ V 都有〈 f | g t 〉 = f ⁡ ( t ) .
练习9. 令V 是练习8的内积空间, D 是V 上的形式微分算子, 找出D ⁎ .
练习10. 令V 是ℂ n × n , 其上的内积为〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) . 令P ∈ V 是一个固定的可逆矩阵, 而T P ⁡ ( A ) = P − 1 ⁢ A ⁢ P 是V 上的线性算子. 找出T P 的伴随.
练习11. 令V 是一个有限维内积空间, E 是V 上的一个幂等线性算子, 证明E 是自伴的当且仅当E ⁢ E ⁎ = E ⁎ ⁢ E .
练习12. 令V 是一个有限维复 内积空间, T 是V 上的一个线性算子, 证明T 是自伴的当且仅当对于每个α ∈ V , 〈 T ⁡ α | α 〉 是实数.
第8.4节 酉算子 在本节中, 我们将考虑两个内积空间之间的同构的概念. 如果V 和W 是向量空间, 那么从V 到W 的同构是一个从V 到W 的双射的线性变换, 即"保持"向量空间运算的从V 到W 的一一对应. 既然内积空间不仅包含包含向量空间, 还具有一个给定的内积, 那么当V 和W 是内积空间时, 我们要求从V 到W 的内积不仅保持线性运算, 还应该保持内积. 内积空间上的自同构被称为"酉算子". 我们将考虑酉算子的各种例子并建立其基本性质.
定义. 令V 和W 是相同的域上的内积空间, T 是从V 到W 的线性变换, 那么我们称T 保持内积 , 如果对于每个α , β ∈ V 都有〈 T ⁡ α | T ⁡ β 〉 = 〈 α | β 〉 . 从V 到W 的同构 是保持内积的从V 到W 的向量空间的同构.
如果T 保持内积, 那么‖ T ⁡ α ‖ = ‖ α ‖ , 于是T 必然是非奇异的. 因此, 从V 到W 的同构也可以被定义为保持内积的从V 到W 的满射的线性变换. 若T 是从V 到W 的同构, 那么T − 1 是从W 到V 的同构. 当这样的一个T 存在时, 我们就称V 和W 是同构的 . 当然, 内积空间之间的同构是一个等价关系.
定理10. 令
V 和
W 是相同的域上的
n 维内积空间, 如果
T 是从
V 到
W 的线性变换, 那么以下条件是等价的.
T 保持内积.T 是一个(内积空间的)同构.T 将V 的每个规范正交基映射为W 的规范正交基.T 将V 的某个规范正交基映射为W 的规范正交基.证明. 由i推出ii: 如果
T 保持内积, 那么对于每个
α ∈ V ,
‖ T ⁡ α ‖ = ‖ α ‖ . 因此,
T 是非奇异的. 既然
dim ⁡ V = dim ⁡ W , 我们知道
T 是一个向量空间的同构.
由ii推出iii: 设
T 是一个同构. 令
{ α 1 , … , α n } 是
V 的一个规范正交基. 既然
T 是一个向量空间的同构, 那么
{ T ⁡ α 1 , … , T ⁡ α n } 是
W 的一个基. 鉴于
T 也保持内积,
〈 T ⁡ α j | T ⁡ α k 〉 = 〈 α j | α k 〉 = δ j , k .
由iii推出iv: 不言自明.
由iv推出i: 令
{ α 1 , … , α n } 是
V 的一个规范正交基, 其使得
{ T ⁡ α 1 , … , T ⁡ α n } 是
W 的一个规范正交基, 那么
〈 T ⁡ α j | T ⁡ α k 〉 = δ j , k = 〈 α j | α k 〉 . 对于
V 中任意的向量
α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n 和
β = y 1 ⁢ α 1 + ⋯ + y n ⁢ α n , 我们有
〈 α | β 〉 = ∑ j = 1 n x j ⁢ y ‾ j 〈 T ⁡ α | T ⁡ β 〉 = 〈 ∑ j = 1 n x j ⁢ T ⁡ α j | ∑ k = 1 n y k ⁢ T ⁡ α k 〉 = ∑ j = 1 n ∑ k = 1 n x j ⁢ y ‾ k ⁢ 〈 T ⁡ α j | T ⁡ α k 〉 = ∑ j = 1 n x j ⁢ y ‾ j 于是,
T 保持内积.
◻
推论. 令V 和W 是相同的域上的有限维内积空间, 那么V 和W 同构当且仅当它们具有相等的维数.
证明. 如果
{ α 1 , … , α n } 是
V 的一个规范正交基而
{ β 1 , … , β n } 是
W 的一个规范正交基, 令
T 是由
T ⁡ α j = β j 定义的从
V 到
W 的线性变换, 那么
T 是从
V 到
W 的同构.
◻
例子22. 如果V 是一个n 维内积空间, 那么每个有序规范正交基𝔅 = { α 1 , … , α n } 都确定了一个从V 到带有标准内积的F n 的同构, 这个同构即T ⁡ ( x 1 ⁢ α 1 + ⋯ + x n ⁢ α n ) = ( x 1 , … , x n ) . 还有一个由𝔅 确定的从V 到带有标准内积的F n × 1 的同构, 其仅与前述例子在表面上有所不同, 此即α ↦ [ α ] 𝔅 也就是将α 送至其在有序基𝔅 下的坐标矩阵的变换. 对于任意的有序基𝔅 而言, 这都是一个向量空间的同构. 然而, 这是两个内积空间之间的同构当且仅当𝔅 是一个规范正交基.
例子23. 现在我们给出一个不那么浮浅的例子. 令W 是ℝ 上的所有3 × 3 的斜对称矩阵A (即A t = − A ) 构成的向量空间. 我们装备W 以内积〈 A | B 〉 = 1 2 ⁢ tr ⁡ ( A ⁢ B t ) , 这里的1 2 只是为了方便而插入的. 令V 是带有标准内积的ℝ 3 . 令T 是从V 到W 的线性变换, 由T ⁡ ( x 1 , x 2 , x 3 ) = [ 0 − x 3 x 2 x 3 0 − x 1 − x 2 x 1 0 ] . 定义, 那么T 是一个满射. 置A = [ 0 − x 3 x 2 x 3 0 − x 1 − x 2 x 1 0 ] , B = [ 0 − y 3 y 2 y 3 0 − y 1 − y 2 y 1 0 ] 我们有tr ⁡ ( A ⁢ B t ) = x 3 ⁢ y 3 + x 2 ⁢ y 2 + x 3 ⁢ y 3 + x 2 ⁢ y 2 + x 1 ⁢ y 1 = 2 ⁢ ( x 1 ⁢ y 1 + x 2 ⁢ y 2 + x 3 ⁢ y 3 ) 因此, 〈 α | β 〉 = 〈 T ⁡ α | T ⁡ β 〉 而T 是一个内积空间之间的同构. 注意到T 将标准基ε 1 , ε 2 , ε 3 送至规范正交基[ 0 0 0 0 0 − 1 0 1 0 ] , [ 0 0 1 0 0 0 − 1 0 0 ] , [ 0 − 1 0 1 0 0 0 0 0 ] .
例子24. 基于规范正交基描述同构实际上并不总是最方便. 例如, 设G = P ⁎ ⁢ P , 其中P 是一个n × n 的可逆复矩阵. 令V 是向量空间ℂ n × 1 , 带有内积[ X | Y ] = Y ⁎ ⁢ G ⁢ X . 令W 是相同的向量空间, 但是带有标准内积〈 X | Y 〉 = Y ⁎ ⁢ X . 我们知道V 和W 是同构的内积空间. 似乎刻画一个V 和W 之间的同构的最简单方式如下: 令从V 到W 的线性变换T ⁡ ( X ) = P ⁢ X , 那么〈 T ⁡ X | T ⁡ Y 〉 = 〈 P ⁢ X | P ⁢ Y 〉 = ( P ⁢ Y ) ⁎ ⁢ ( P ⁢ X ) = Y ⁎ ⁢ P ⁎ ⁢ P ⁢ X = Y ⁎ ⁢ G ⁢ X = [ X | Y ] 因而T 是一个同构.
例子25. 令V 是单位区间上的实值连续函数的空间, 带有内积[ f | g ] = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ⁢ t 2 d t . 令W 是相同的向量空间, 带有内积〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) d t . 令T 是从V 到W 的线性变换, 由( T ⁡ f ) ⁡ ( t ) = t ⁢ f ⁡ ( t ) 给定, 那么〈 T ⁡ f | T ⁡ g 〉 = [ f | g ] , 于是T 保持内积. 然而, T 并非从V 到W 的同构, 因为T 不是满射. 当然, 这会发生仅是因为作为基础的向量空间不是有限维的.
定理11. 令V 和W 是相同的域上的内积空间, T 是从V 到W 的线性变换, 那么T 保持内积当且仅当对于每个α ∈ V , ‖ T ⁡ α ‖ = ‖ α ‖ .
证明. 如果
T 保持内积, 那么当然
T "保持范数". 设对于每个
α ∈ V 有
‖ T ⁡ α ‖ = ‖ α ‖ , 那么
‖ T ⁡ α ‖ 2 = ‖ α ‖ 2 . 现在根据实或复选择相应的极化恒等式, 再加上
T 具有线性性质的事实, 很容易得到对于每个
α , β ∈ V , 我们有
〈 α | β 〉 = 〈 T ⁡ α | T ⁡ β 〉 .
◻
定义. 一个内积空间上的一个酉算子 是一个从此空间到自身的同构.
两个酉算子之积仍然是酉算子, 因为如果U 1 和U 2 是酉算子, 那么U 2 ⁢ U 1 是可逆的, 并且对于每个α 有‖ U 2 ⁡ U 1 ⁡ α ‖ 2 = ‖ U 1 ⁡ α ‖ 2 = ‖ α ‖ 2 . [译注: 作者这里提及可逆时, 指的是作为映射的可逆, 或者是作为线性变换的可逆, 但肯定不是作为内积空间同态的可逆, 因为那样的话就不需要说明了.] 当然, 酉算子的逆也是酉算子, 鉴于‖ U ⁡ α ‖ = ‖ α ‖ 可以推出‖ U − 1 ⁡ β ‖ = ‖ β ‖ , 其中β = U ⁡ α . [译注: 这个逆当然说的是作为映射的逆.] 既然恒等算子显然是一个酉算子, 我们看到一个内积空间上的所有酉算子构成的集合在复合运算下是一个群.
如果V 是一个有限维内积空间而T 是V 上的一个线性算子, 那么定理10告诉我们U 是酉算子当且仅当对于每个α , β ∈ V , 〈 U ⁡ α | U ⁡ β 〉 = 〈 α | β 〉 ; 或者, 当且仅当对于某个 (或者每个) 规范正交基{ α 1 , … , α n } , { U ⁡ α 1 , … , U ⁡ α n } 也是规范正交基.
定理12. 令U 是内积空间V 上的一个线性算子, 那么U 是酉算子当且仅当U 的伴随U ⁎ 存在并且U ⁢ U ⁎ = U ⁎ ⁢ U = I .
证明. 设
U 是酉算子, 那么
U 是可逆的, 并且
〈 U ⁡ α | β 〉 = 〈 U ⁡ α | U ⁡ U − 1 ⁡ β 〉 = 〈 α | U − 1 ⁡ β 〉 对于任意的
α , β ∈ V 成立, 因而
U − 1 是
U 的伴随.
反过来, 设
U ⁎ 存在并且
U ⁢ U ⁎ = U ⁎ ⁢ U = I , 那么
U 是可逆的, 而
U − 1 = U ⁎ . 于是, 剩下来我们要做的事情就只是证明
U 保持内积. 对于任意的
α , β ∈ V , 我们有
〈 U ⁡ α | U ⁡ β 〉 = 〈 α | U ⁎ ⁡ U ⁡ β 〉 = 〈 α | I ⁡ β 〉 = 〈 α | β 〉 ◻
例子26. 考虑带有标准内积的ℂ n × 1 , 令A 是域ℂ 上的一个n × n 矩阵, U 是由U ⁡ ( X ) = A ⁢ X 定义的线性算子, 那么对于每个X , Y ∈ ℂ n × 1 有〈 U ⁡ X | U ⁡ Y 〉 = 〈 A ⁢ X | A ⁢ Y 〉 = Y ⁎ ⁢ A ⁎ ⁢ A ⁢ X 因此, U 是酉算子当且仅当A ⁎ ⁢ A = I .
定义. 一个n × n 的复矩阵被称为酉矩阵 , 如果A ⁎ ⁢ A = I . [译注: 这里提及了复矩阵, 也就包括了实矩阵的情况, 鉴于实数域是复数域的子域.]
定理13. 令V 是一个有限维内积空间而U 是V 上的一个线性算子, 那么U 是酉算子当且仅当U 在某个 (或者每个) 有序规范正交基下的表示是酉矩阵.
证明. 在当前阶段, 这不太算是一个定理, 我们陈述该定理主要是为了强调一下. 如果
𝔅 = { α 1 , … , α n } 是
V 的一个有序规范正交基, 而
A 是
U 相对于
𝔅 的矩阵, 那么
A ⁎ ⁢ A = I 当且仅当
U ⁎ ⁢ U = I . 现在这个结果可由定理12直接推出.
◻
令A 是一个n × n 的复矩阵, 那么陈述A 为酉矩阵即意味着( A ⁎ ⁢ A ) j , k = δ j , k 或者∑ r = 1 n A ‾ r , j ⁢ A r , k = δ j , k . 换言之, A 的列相对于标准内积〈 X | Y 〉 = Y ⁎ ⁢ X 构成了一个规范正交集合. 既然A ⁎ ⁢ A = I 当且仅当A ⁢ A ⁎ = I , 我们看到U 是酉矩阵恰当A 的行在带有标准内积的ℂ n 中构成了一个规范正交集合. [译注: 在本书中, 作者将ℂ 1 × n 和ℂ n 视为完全相同的.] 因此, 使用标准内积, A 是酉矩阵当且仅当A 的行和列都构成了规范正交集合. 这里读者看到了展现矩阵的单边逆也是双边逆这个定理的威力的一例. 按照以上方式应用该定理于实矩阵, 我们得到了以下结果: 设我们有一个实方阵, 其每一行的元素的平方和为1 而不同的行是正交的, 那么每一列的元素的平方和也为1 , 并且不同的列是正交的. [译注: 相对于标准内积而言. 当然, 这本质上只是对于实数域上的方阵重复了一下刚才的结果.] 若是读者对于3 × 3 的情形写下证明而不诉诸于任何矩阵的知识, 那么他应该会对于矩阵的单边逆可以推出双边逆印象深刻.
定义. 一个实或复的n × n 矩阵A 被称为是正交矩阵 , 如果A t ⁢ A = I .
一个实正交矩阵是酉矩阵; 并且, 一个酉矩阵是正交矩阵当且仅当其每个元素都是实数.
例子27. 我们给出一些酉矩阵和正交矩阵的例子.
1 × 1 的矩阵[ c ] 是正交矩阵当且仅当c = ± 1 , 是酉矩阵当且仅当c ⁢ c ‾ = 1 . 后一个条件即| c | = 1 , 或者c = e i ⁢ θ , 其中θ 是实数.令A = [ a b c d ] 那么A 是正交矩阵当且仅当A t = A − 1 = 1 a ⁢ d − b ⁢ c ⁢ [ d − b − c a ] . 显然, 任何正交矩阵的行列式都是± 1 . 因此, A 是正交矩阵当且仅当A = [ a b − b a ] 或者A = [ a b b − a ] 其中a 2 + b 2 = 1 . 这两种情形由det ⁡ ( A ) 的值区分. 三角函数之间的关系表明A θ = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] 是正交矩阵. 如果θ 是一个实数, 那么A θ 即平面上逆时针旋转θ 的线性变换U θ 在ℝ 2 的标准有序基下的矩阵. 此时, 鉴于A θ 是一个实正交矩阵, 因而A θ 是一个酉矩阵, 那么U θ 是一个酉算子, 即保持点积. 令A = [ a b c d ] 那么A 是酉矩阵当且仅当[ a ‾ c ‾ b ‾ d ‾ ] = 1 a ⁢ d − b ⁢ c ⁢ [ d − b − c a ] . 酉矩阵的行列式具有绝对值1 , 因而是一个具有e i ⁢ θ 形式的复数, 其中θ 是实数. 于是, A 是酉矩阵当且仅当A = [ a b − e i ⁢ θ ⁢ b ‾ e i ⁢ θ ⁢ a ‾ ] = [ 1 0 0 e i ⁢ θ ] ⁢ [ a b − b ‾ a ‾ ] 其中θ 是一个实数而a 和b 是满足| a | 2 + | b | 2 = 1 的复数. 正如我们之前所注意到的, 一个内积空间上的酉算子构成了一个群. 根据这个观察以及定理13, 我们可以推出由所有n × n 的酉矩阵构成的集合U ⁡ ( n ) 也是一个群. 因此, 酉矩阵的逆和两个酉矩阵之积都是酉矩阵. 当然, 直接看出来也是很简单的. 一个n × n 的复矩阵A 是酉矩阵当且仅当A − 1 = A ⁎ . 因此, 如果A 是酉矩阵, 我们有( A − 1 ) − 1 = A = ( A ⁎ ) − 1 = ( A − 1 ) ⁎ . 如果A 和B 是n × n 的酉矩阵, 那么( A ⁢ B ) − 1 = B − 1 ⁢ A − 1 = B ⁎ ⁢ A ⁎ = ( A ⁢ B ) ⁎ . [译注: 似乎直接按照酉矩阵的定义进行证明反而更简单.]
ℂ n 中的Gram-Schmidt过程对于牵涉群U ⁡ ( n ) 的矩阵具有一个有趣的推论.
定理14. 对于每个n × n 的可逆复矩阵B , 存在唯一的主对角线元素皆为正数的下三角矩阵M 使得M ⁢ B 是酉矩阵.
证明. B 的行
β 1 , … , β n 构成了
ℂ n 的一个基. 应用Gram-Schmidt过程于
β 1 , … , β n , 我们得到了
ℂ n 的一个正交基
α 1 , … , α n , 其中
α k = β k − ∑ j = 1 k − 1 〈 β k | α j 〉 ‖ α j ‖ 2 ⁢ α j . 因此, 对于每个
k , 存在唯一的标量
C k , j 使得
α k = β k − ∑ j = 1 k − 1 C k , j ⁢ β j . 令
U 是以
α 1 ‖ α 1 ‖ , … , α n ‖ α n ‖ 为行的酉矩阵, 而
M 是由
M k , j = { − C k , j ‖ α k ‖ , 如果 j < k 1 ‖ α k ‖ , 如果 j = k 0 , 如果 j > k 定义的矩阵. 那么,
M 是下三角矩阵 (意即主对角线的上面的元素均为
0 ),
M 的主对角线上的元素均大于
0 , 并且
α k ‖ α k ‖ = ∑ j = 1 n M k , j ⁢ β j , 1 ≤ k ≤ n . 此即是说
U = M ⁢ B . 为了证明
M 的唯一性, 令
T + ⁡ ( n ) 代表所有主对角线元素均为正数的下三角矩阵构成的集合. 设
M 1 , M 2 ∈ T + ⁡ ( n ) 满足
M 1 ⁢ B , M 2 ⁢ B ∈ U ⁡ ( n ) , 那么因为
U ⁡ ( n ) 是一个群, 我们有
( M 1 ⁢ B ) ⁢ ( M 2 ⁢ B ) − 1 = M 1 ⁢ M 2 − 1 ∈ U ⁡ ( n ) . 另一方面, 虽然并不全然明显, 但是
T + ⁡ ( n ) 在矩阵乘法下也是一个群. 一种看出这点的方法是考虑列矩阵的空间上的线性变换
M ↦ M ⁢ X , M ∈ T + ⁡ ( n ) 的几何性质. 因此,
M 2 − 1 , M 1 ⁢ M 2 − 1 , ( M 1 ⁢ M 2 − 1 ) − 1 ∈ T + ⁡ ( n ) . 但是, 既然
M 1 ⁢ M 2 − 1 ∈ U ⁡ ( n ) , 我们知道
( M 1 ⁢ M 2 − 1 ) − 1 = ( M 1 ⁢ M 2 − 1 ) ⁎ . 鉴于任何下三角矩阵的转置或者共轭转置都是上三角矩阵, 所以
M 1 ⁢ M 2 − 1 既是上三角矩阵又是下三角矩阵. 换言之, 就是对角矩阵. 一个对角矩阵是酉矩阵当且仅当其每个对角线元素均具有绝对值
1 ; 若是对角线元素都为正数, 那么它们只能全等于
1 . 因此,
M 1 ⁢ M 2 − 1 = I , 即
M 1 = M 2 .
◻
令GL ⁡ ( n ) 代表所有n × n 的可逆复矩阵构成的集合, 那么GL ⁡ ( n ) 在矩阵乘法下也是一个群. 这个群被称为一般线性群 . 定理14等价于以下结果.
推论. 对于每个B ∈ GL ⁡ ( n ) , 存在唯一的N ∈ T + ⁡ ( n ) 和U ∈ U ⁡ ( n ) 使得B = N ⁢ U .
证明. 根据定理14, 存在唯一的矩阵
M ∈ T + ⁡ ( n ) 使得
M ⁢ B ∈ U ⁡ ( n ) . 令
U = M ⁢ B 而
N = M − 1 , 那么
N ∈ T + ⁡ ( n ) 而
B = N ⁢ U . 另一方面, 若
N ∈ T + ⁡ ( n ) 和
U ∈ U ⁡ ( n ) 满足
B = N ⁢ U , 那么
N − 1 ⁢ B ∈ U ⁡ ( n ) , 其中
N − 1 即是由定理14刻画的唯一的矩阵
M . 而且,
U 必然为
N − 1 ⁢ B .
◻
例子28. 令x 1 和x 2 是满足x 1 2 + x 2 2 = 1 的实数, 并且x 1 ≠ 0 . 令B = [ x 1 x 2 0 0 1 0 0 0 1 ] . 应用Gram-Schmidt过程于B 的行, 我们会得到向量α 1 = ( x 1 , x 2 , 0 ) α 2 = ( 0 , 1 , 0 ) − x 2 ⁢ ( x 1 , x 2 , 0 ) = x 1 ⁢ ( − x 2 , x 1 , 0 ) α 3 = ( 0 , 0 , 1 ) 令U 是以α 1 , ( α 2 / x 1 ) , α 3 为行的矩阵, 那么U 是酉矩阵, 并且U = [ x 1 x 2 0 − x 2 x 1 0 0 0 1 ] = [ 1 0 0 − x 2 x 1 1 x 1 0 0 0 1 ] ⁢ [ x 1 x 2 0 0 1 0 0 0 1 ] . 现在左乘M = [ 1 0 0 − x 2 x 1 1 x 1 0 0 0 1 ] 的逆, 我们得到[ x 1 x 2 0 0 1 0 0 0 1 ] = [ 1 0 0 x 2 x 1 0 0 0 1 ] ⁢ [ x 1 x 2 0 − x 2 x 1 0 0 0 1 ] .
现在让我们来简要考虑一下内积空间的坐标变换. 设V 是一个有限维内积空间, 𝔅 = { α 1 , … , α n } 和𝔅 ′ = { α 1 ′ , … , α n ′ } 是V 的两个规范正交 基, 那么存在唯一的(必然可逆的)n × n 矩阵P 使得[ α ] 𝔅 ′ = P − 1 ⁢ [ α ] 𝔅 对于每个α ∈ V 成立. 如果U 是由U ⁡ α j = α j ′ 定义的唯一的V 上的线性算子, 那么P 是U 在有序基𝔅 下的矩阵:α k ′ = ∑ j = 1 n P j , k ⁢ α j . 既然𝔅 和𝔅 ′ 都是规范正交基, 那么U 是一个酉算子而P 是一个酉矩阵. 如果T 是V 上的一个线性算子, 那么[ T ] 𝔅 ′ = P − 1 ⁢ [ T ] 𝔅 ⁢ P = P ⁎ ⁢ [ T ] 𝔅 ⁢ P .
定义. 令A 和B 是n × n 的复矩阵. 我们称B 酉等价于 A , 如果存在一个n × n 的酉矩阵P 使得B = P − 1 ⁢ A ⁢ P . 我们称B 正交等价于 A , 如果存在一个n × n 的正交矩阵使得B = P − 1 ⁢ A ⁢ P .
根据这个定义, 我们可以重新表述以上的观察如下: 如果𝔅 和𝔅 ′ 是V 的两个规范正交基, 那么[ T ] 𝔅 ′ 酉等价于[ T ] 𝔅 . 在V 是实内积空间的情形下, 这些矩阵是正交等价的, 通过一个实正交矩阵.
练习1. 找出一个不是正交矩阵的酉矩阵, 以及一个不是酉矩阵的正交矩阵.
练习2. 令V 是ℂ n × n , 带有通常内积〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) . 对于每个M ∈ A , 令T M ⁡ ( A ) = M ⁢ A 是V 上的线性算子. 证明T M 是一个酉算子当且仅当M 是一个酉矩阵.
练习3. 令
V 是被当作
实 向量空间的复数域.
表明〈 α | β 〉 = Re ⁡ ( α ⁢ β ‾ ) 定义了一个V 上的内积. 找出一个从V 到带有标准内积的ℝ 2 的(内积空间的)同构. 对于每个γ ∈ V , 令M γ ⁡ ( α ) = γ ⁢ α 是V 上的线性算子, 证明( M γ ) ⁎ = M γ ‾ . 对于什么样的复数γ , M γ 是自伴算子? 对于什么样的复数γ , M γ 是酉算子? 对于什么样的复数γ , M γ 是正定算子? [译注: 正定算子的定义见第9.3节.] det ⁡ ( M γ ) 是多少?找出M γ 在基{ 1 , i } 下的矩阵. 如果T 是V 上的一个线性算子, 找出存在γ ∈ ℂ 使得T = M γ 的充要条件. 找出一个V 上的酉算子U , 但是不存在γ ∈ ℂ 使得U = M γ . 练习4. 令
V 是带有标准内积的
ℝ 2 . 如果
U 是
V 上的一个酉算子, 证明
U 在标准有序基下的矩阵是
[ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] 或者 [ cos ⁡ θ sin ⁡ θ sin ⁡ θ − cos ⁡ θ ] 其中
0 ≤ θ < 2 ⁢ π . 令
U θ 是在标准有序基下以
[ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] 为矩阵表示的线性算子, 即
U θ 是逆时针旋转
θ 的变换. 现在读者应该说服自己,
V 上的每个酉矩阵, 要么是一个旋转, 要么是一个关于
ε 1 轴的反射接着一个旋转. [译注: 对于后一种变换, 另外一种描述方法是关于角度为
θ / 2 的轴的反射.]
U θ ⁢ U ϕ 是什么?表明U θ ⁎ = U − θ . 令ϕ 是一个固定的实数, 𝔅 = { α 1 , α 2 } 是由{ ε 1 , ε 2 } 经过逆时针旋转ϕ 得到的规范正交基, 即α j = U ϕ ⁡ ε j . 如果θ 是另一个实数, 那么U θ 在有序基𝔅 下的矩阵是什么? 练习5. 令V 是带有标准内积的ℝ 3 . 令W 是由α = ( 1 , 1 , 1 ) 和β = ( 1 , 1 , − 2 ) 张成的平面. 令U 是按照以下方式几何地定义的线性算子: U 是关于过原点正交于W 的直线旋转θ 的变换. 实际上存在两种这样的旋转, 选择一个即可. 找出U 在标准有序基下的矩阵. (这里给出一种可行的方法. 找到W 的一个规范正交基α 1 和α 2 . 令α 3 是正交于W 且范数为1 的向量. 找出U 在基{ α 1 , α 2 , α 3 } 的矩阵. 施行一次基变换.)
练习6. 令
V 是有限维的内积空间,
W 是
V 的一个子空间, 那么
V = W ⊕ W ⊥ , 即每个
α ∈ V 都可以唯一地被表示为
α = β + γ 的形式, 其中
β ∈ W 而
γ ∈ W ⊥ . 我们定义线性算子
U ⁡ α = β − γ .
证明U 既是自伴算子又是酉算子. 如果V 是带有标准内积的ℝ 3 而W 是由( 1 , 0 , 1 ) 张成的子空间, 找出U 在标准有序基下的矩阵. 练习7. 令
V 是一个复内积空间而
T 是
V 上的一个自伴线性算子, 证明
‖ α + i ⁢ T ⁡ α ‖ = ‖ α − i ⁢ T ⁡ α ‖ .α + i ⁢ T ⁡ α = β + i ⁢ T ⁡ β 当且仅当α = β .I + i ⁢ T 是非奇异的.I − i ⁢ T 是非奇异的.现在设V 是有限维的, 证明U = ( I − i ⁢ T ) ⁢ ( I + i ⁢ T ) − 1 是一个酉算子. U 被称为T 的Cayley变换 . 在某种意义上说, 令f ⁡ ( x ) = ( 1 − i ⁢ x ) / ( 1 + i ⁢ x ) , 那么U = f ⁡ ( T ) . 练习8. 如果θ 是一个实数, 证明[ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] 和 [ e i ⁢ θ 0 0 e − i ⁢ θ ] 是酉等价的.
练习9. 令V 是一个有限维内积空间而T 是V 上的一个正定算子. 令p T ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 是V 上的内积. 令U 是V 上的一个线性算子而U ⁎ 是其相对于〈 | 〉 的伴随. 证明U 是相对于内积p T 的酉算子当且仅当T = U ⁎ ⁢ T ⁢ U .
练习10. 令
V 是一个有限维内积空间, 对于每个
α , β ∈ V , 定义
V 上的线性算子
T α , β ⁡ ( γ ) = 〈 γ | β 〉 ⁢ α , 证明以下命题.
T α , β ⁎ = T β , α .trace ⁡ ( T α , β ) = 〈 α | β 〉 .T α , β ⁢ T γ , δ = T α , 〈 β | γ 〉 ⁢ δ .在何种条件下T α , β 是自伴算子? 练习11. 令V 是域F 上的一个n 维内积空间, L ⁡ ( V , V ) 是V 上的所有线性算子构成的空间, 证明L ⁡ ( V , V ) 上存在唯一的一个内积使得对于任意的α , β ∈ V , ‖ T α , β ‖ = ‖ α ‖ 2 ⁢ ‖ β ‖ 2 , 其中T α , β 是练习10中那样定义的线性算子. 找到一个带有此内积的L ⁡ ( V , V ) 和带有内积〈 A | B 〉 = tr ⁡ ( A ⁢ B ⁎ ) 的空间F n × n 之间的同构.
练习12. 令V 是一个有限维内积空间. 在练习6中, 我们展示了如何构造一个V 上既自伴又酉的算子. 现在证明对于每个V 上的自伴酉算子, 都存在一个子空间W 使得这个算子可由练习6中所描述的方法构造出来.
练习13. 令
V 和
W 是有限维内积空间,
U 是从
V 到
W 的同构, 证明
映射T ↦ U ⁢ T ⁢ U − 1 是从向量空间L ⁡ ( V , V ) 到向量空间L ⁡ ( W , W ) 的同构. 对于每个T ∈ L ⁡ ( V , V ) , trace ⁡ ( U ⁢ T ⁢ U − 1 ) = trace ⁡ ( T ) . U ⁢ T α , β ⁢ U − 1 = T U ⁡ α , U ⁡ β , 其中T α , β 于练习10中被定义.( U ⁢ T ⁢ U − 1 ) ⁎ = U ⁢ T ⁎ ⁢ U − 1 .如果我们装备L ⁡ ( V , V ) 以内积〈 T 1 | T 2 〉 = trace ⁡ ( T 1 ⁢ T 2 ⁎ ) , 并以类似的方式定义L ⁡ ( W , W ) 上的内积, 那么T ↦ U ⁢ T ⁢ U − 1 是一个内积空间的同构. 练习14. 如果
V 是一个内积空间, 那么
刚体运动 是满足对于每个
α , β ∈ V 有
‖ T ⁡ α − T ⁡ β ‖ = ‖ α − β ‖ 的映射
T : V → V , 其中
T 不必是线性变换. 酉算子是刚体运动的一个例子. 另外一个例子是平移一个固定的向量
γ :
T γ ⁡ ( α ) = α + γ . 令V 是带有标准内积的ℝ 2 , 设T 是V 的一个刚体运动, 并且T ⁡ ( 0 ) = 0 , 证明T 是线性的, 而且是一个酉算子. 使用a的结果证明每个ℝ 2 的刚体运动都是由一个平移接着一个酉算子复合而成的. 现在证明ℝ 2 的刚体运动要么是一个平移接着一个旋转, 要么是一个平移接着一个反射接着一个旋转. 练习15. ℝ 4 (带有标准内积) 上的酉算子不过就是保持二次形式
‖ ( x , y , z , t ) ‖ 2 = x 2 + y 2 + z 2 + t 2 的线性算子, 即对于每个
α ∈ ℝ 4 满足
‖ U ⁡ α ‖ 2 = ‖ α ‖ 2 的线性算子
U . 在相对论的特定部分中, 寻找保持形式
‖ ( x , y , z , t ) ‖ L 2 = t 2 − x 2 − y 2 − z 2 的线性算子
T 是令人感兴趣的.
‖ ‖ L 2 并不来源于内积, 而是某种被称为"Lorentz度量"的东西 (我们不会深入讨论这个). 出于这种原因,
ℝ 4 上的线性变换
T , 若满足对于每个
α ∈ ℝ 4 都有
‖ T ⁡ α ‖ L 2 = ‖ α ‖ L 2 , 则被称为
Lorentz变换 .
说明由U ⁡ ( x , y , z , t ) = [ t + x y + i ⁢ z y − i ⁢ z t − x ] 定义的函数U 是从ℝ 4 到由所有2 × 2 的自伴复矩阵构成的实向量空间H 的同构. 说明‖ α ‖ L 2 = det ⁡ ( U ⁡ α ) . 设T 是H 上的一个(实)线性算子, 说明L = U − 1 ⁢ T ⁢ U 是ℝ 4 上的线性算子. 令M 是任意的2 × 2 复矩阵, 说明T M ⁡ ( A ) = M ⁎ ⁢ A ⁢ M 定义了一个H 上的线性算子. (一定要检查T M 的确将H 映入H .) 如果M ∈ ℂ 2 × 2 满足| det ⁡ ( M ) | = 1 , 说明L M = U − 1 ⁢ T M ⁢ U 是ℝ 4 上的一个Lorentz变换. 找到一个这样的Lorentz变换L , 不存在M ∈ ℂ 2 × 2 使得L = L M . 第8.5节 正规算子 本节的主要目标在于解决以下问题. 如果T 是有限维内积空间V 上的一个线性算子, 在何种条件下V 拥有一个由T 的特征向量构成的规范正交基? 换言之, 何时存在V 的一个规范正交基𝔅 使得T 在𝔅 下的表示是一个对角矩阵.
我们先来推导一些T 上的必要条件, 之后我们将逐步证明这些条件也是充分的. 设𝔅 = { α 1 , … , α n } 是V 的一个规范正交基, 并且满足性质T ⁡ α j = c j ⁢ α j , j = 1 , … , n . 这不过就是在说T 在有序基𝔅 下的表示是以c 1 , … , c n 为对角线元素的对角矩阵. 伴随算子T ⁎ 在相同的有序基下的表示是该矩阵的共轭转置, 即以c ‾ 1 , … , c ‾ n 为对角线元素的对角矩阵. 如果V 是一个实内积空间, 标量c 1 , … , c n 都是实数, 因而必然有T = T ⁎ . 换言之, 对于有限维实 内积空间V 和其上的线性算子T , 若存在一个全由T 的特征向量构成的规范正交基, 那么T 必然是自伴算子. 如果V 是复内积空间, 那么标量c 1 , … , c n 不必是实数, T 也就不必是自伴的了. 但是, 我们应该注意到T 必然满足T ⁢ T ⁎ = T ⁎ ⁢ T . 这是因为, 任意的两个对角矩阵都是交换的, 而T 和T ⁎ 同时在有序基𝔅 下由对角矩阵表示. [译注: 读者可以回忆一下第6.5节的内容, 交换是同时对角化的充要条件.] 有趣的是, 在复情形下, 交换的条件实际上足以推出全由特征向量构成的规范正交基的存在性.
定义. 令V 是一个有限维内积空间而T 是V 上的一个线性算子, 我们称T 为正规算子 , 如果其与它的伴随交换, 即T ⁢ T ⁎ = T ⁎ ⁢ T .
任意的自伴算子都是正规算子, 任意的酉算子也是正规算子. 正规算子的任意标量倍数都是正规的; 然而, 正规算子之和与积并不一定是正规的. 尽管并非必要, 我们将从考虑自伴算子开始我们对于正规算子的研究.
定理15. 如果V 是一个内积空间而T 是V 上的一个自伴算子, 那么T 的特征值均为实数, 且不同的特征值所对应的特征向量之间是正交的.
证明. 设
c 是
T 的一个特征值, 那么存在
α ≠ 0 使得
T ⁡ α = c ⁢ α , 于是
c ⁢ 〈 α | α 〉 = 〈 c ⁢ α | α 〉 = 〈 T ⁡ α | α 〉 = 〈 α | T ⁡ α 〉 = 〈 α | c ⁢ α 〉 = c ‾ ⁢ 〈 α | α 〉 鉴于
〈 α | α 〉 ≠ 0 , 我们必然有
c = c ‾ . 现在设我们也有
β ≠ 0 满足
T ⁡ β = d ⁢ β , 那么
c ⁢ 〈 α | β 〉 = 〈 T ⁡ α | β 〉 = 〈 α | T ⁡ β 〉 = 〈 α | d ⁢ β 〉 = d ‾ ⁢ 〈 α | β 〉 = d ⁢ 〈 α | β 〉 如果
c ≠ d , 那么
〈 α | β 〉 = 0 .
◻
应该指出的是, 定理15并没有断言特征值或者说特征向量一定存在.
定理16. 在有限维内积空间上 (除开仅包含零向量的平凡空间), 每个自伴算子都拥有一个特征向量.
证明. 令
V 是一个
n 维内积空间, 其中
n > 0 , 而
T 是
V 上的一个自伴算子. 挑选
V 的一个规范正交基
𝔅 而令
A = [ T ] 𝔅 , 既然
T = T ⁎ , 我们有
A = A ⁎ . 现在令
W 是带有标准内积的
ℂ n × 1 , 那么
U ⁡ ( X ) = A ⁢ X 定义了一个
W 上的自伴算子. 对于特征多项式
det ⁡ ( x ⁢ I − A ) , 我们知道其在域
ℂ 上至少拥有一个根
c . 鉴于
U 是自伴算子, 根据定理15,
c 是实数. 换言之, 存在
c ∈ ℝ 使得
A − c ⁢ I 是奇异的. 若
V 是复内积空间, 那么证明算是结束了, 因为
T − c ⁢ I 是奇异的. 而对于实内积空间
V , 我们最好回忆一下第1章关于线性方程组的观察. 也就是说, 如果以
A − c ⁢ I 为系数矩阵的齐次线性方程组在复数域上有非平凡解, 那么其在实数域上也应该有非平凡解, 即
A − c ⁢ I 在实数域上当然也是奇异的. 因此,
T − c ⁢ I 是奇异的, 存在非零的向量
α ∈ V 使得
T ⁡ α = c ⁢ α .
◻
关于这个证明, 我们应该作出数条评注.
在复情形下, 即便A 不是Hermite矩阵 (或者说自伴矩阵), 也不影响A 具有特征值和特征向量. 但是, 在实情形下, 自伴的条件就显得非常重要了, 因为它可以告诉我们A 的特征多项式在域ℂ 上的根均为实数. Hermite矩阵的特征多项式的系数一定是实数, 即便矩阵的各个元素可能不都是实数. 对于A 是有限维空间的假设是必要的, 无限维内积空间上的自伴算子可能没有特征值. 例子29. 令V 是单位区间上的连续复值 (或者实值) 函数构成的向量空间, 带有内积〈 f | g 〉 = ∫ 0 1 f ⁡ ( t ) ⁢ g ⁡ ( t ) ‾ d t . "乘上t "的算子( T ⁡ f ) ⁡ ( t ) = t ⁢ f ⁡ ( t ) 是自伴的. 让我们设T ⁡ f = c ⁢ f , 那么( t − c ) ⁢ f ⁡ ( t ) = 0 , 0 ≤ t ≤ 1 于是, t ≠ c 时f ⁡ ( t ) = 0 . 鉴于f 是连续的, f = 0 , 因而T 没有特征值.
定理17. 令V 是一个有限维内积空间, T 是V 上任意的线性算子. 设W 是一个T 不变子空间, 那么W 的正交补在T ⁎ 下不变.
证明. 设
β ∈ W ⊥ , 对于每个
α ∈ W , 因为
W 在
T 下不变, 所以
T ⁡ α ∈ W , 那么
〈 α | T ⁎ ⁡ β 〉 = 〈 T ⁡ α | β 〉 = 0 . 换言之,
T ⁎ ⁡ β ∈ W ⊥ , 即
W ⊥ 在
T ⁎ 下不变.
◻
定理18. 令V 是一个有限维内积空间, T 是V 上的一个自伴算子, 那么存在一个全由T 的特征向量构成的V 的规范正交基.
证明. 不妨设
dim ⁡ V > 0 . 根据定理16,
T 拥有一个特征向量
α . 令
α 1 = α / ‖ α ‖ , 那么
α 1 也是
T 的一个特征向量, 并且
‖ α 1 ‖ = 1 . 如果
dim ⁡ V = 1 , 证明就结束了. 不然的话, 我们对于
V 的维数施行归纳. 设定理对于维数小于
dim ⁡ V 的内积空间成立. 令
W 是由
α 1 张成的一维子空间. 既然
α 1 是
T 的特征向量, 那么
W 在
T 下不变. 根据定理17, 正交补
W ⊥ 在
T ⁎ = T 下不变. 现在
W ⊥ 在继承自
V 的内积下成为了一个
dim ⁡ V − 1 维的内积空间. 令
U 是
T 在
W ⊥ 上由限制导出的算子, 那么
U 是自伴的. 根据归纳假设,
W ⊥ 拥有一个以
U 的特征向量构成的规范正交基
{ α 2 , … , α n } . 当然,
U 的特征向量自然也是
T 的特征向量. 因此, 我们可以断言
{ α 1 , … , α n } 即是我们所要的
V 的基.
◻
推论. 令A 是一个n × n 的Hermite矩阵 (自伴矩阵), 那么存在一个酉矩阵P 使得P − 1 ⁢ A ⁢ P 是对角矩阵. (或者说, A 酉等价于一个对角矩阵.) 若A 是一个实对称矩阵, 那么存在一个实正交矩阵P 使得P − 1 ⁢ A ⁢ P 成为对角矩阵.
证明. 令
V 是带有标准内积的
ℂ n × 1 , 而
T 是在标准有序基下由
A 表示的线性算子. 既然
A = A ⁎ , 我们有
T = T ⁎ . 令
𝔅 = { α 1 , … , α n } 是一个全由
T 的特征向量构成的
V 的规范正交基, 我们设
T ⁡ α j = c j ⁢ α j , j = 1 , … , n . 如果
D = [ T ] 𝔅 , 那么
D 是以
c 1 , … , c n 为对角线元素的对角矩阵. 考虑由
U ⁡ ε j = α j 定义的线性算子
U , 令
P 是
U 在标准有序基下的表示. 那么,
P 是一个酉矩阵, 并且
D = P − 1 ⁢ A ⁢ P .
对于推论的后半部分, 实际上取
V 为带有标准内积的
ℝ n × 1 然后重复前述论证即可. 在此情形下,
P 仍然是一个酉矩阵, 只是其元素都是实数, 因而也是一个正交矩阵.
◻
将定理18与本节开头的评注相结合, 我们就得到了以下结果: 如果V 是一个有限维实 内积空间, 而T 是V 上的一个线性算子, 那么V 拥有一个全由T 的特征向量构成的规范正交基当且仅当T 是自伴算子. 等价地, 如果A 是一个n × n 的实矩阵, 那么存在实正交矩阵P 使得P t ⁢ A ⁢ P 为对角矩阵当且仅当A = A t . 对于复对称矩阵我们没有这样的结果. 换言之, 对于复矩阵而言, 条件A = A t 和A = A ⁎ 有着显著的不同之处.
解决了自伴的情况, 我们现在回到对于正规算子的一般性研究上来. 我们将在复 情形下对于正规算子证明定理18的类似物. 之所以我们要限制于复情形, 一个原因在于实内积空间上的正规算子可能压根就没有任何特征向量. 例如, ℝ 2 中的旋转, 除开旋转0 度和180 度这两种特殊情况.
定理19. 令V 是一个有限维内积空间, T 是V 上的一个正规算子. 设非零向量α ∈ V , 那么α 是T 在特征值c 下所对应的特征向量当且仅当α 是T ⁎ 在特征值c ‾ 下所对应的特征向量.
证明. 设
U 是
V 上任意的正规算子, 根据
U ⁢ U ⁎ = U ⁎ ⁢ U , 我们可以推出
〈 U ⁡ α | U ⁡ α 〉 = 〈 α | U ⁎ ⁡ U ⁡ α 〉 = 〈 α | U ⁡ U ⁎ ⁡ α 〉 = 〈 U ⁎ ⁡ α | U ⁎ ⁡ α 〉 换言之,
‖ U ⁡ α ‖ = ‖ U ⁎ ⁡ α ‖ . 如果
c 是任意的标量, 那么
( T − c ⁢ I ) ⁎ = T ⁎ − c ‾ ⁢ I . 我们很容易验证
T − c ⁢ I 的确是一个正规算子, 于是
‖ ( T − c ⁢ I ) ⁡ α ‖ = ‖ ( T ⁎ − c ‾ ⁢ I ) ⁡ α ‖ 因而
( T − c ⁢ I ) ⁡ α = 0 当且仅当
( T ⁎ − c ‾ ⁢ I ) ⁡ α = 0 , 证明就结束了.
◻
定义. 一个n × n 的复矩阵被称为正规矩阵 , 如果A ⁢ A ⁎ = A ⁎ ⁢ A .
理解正规矩阵或者正规算子究竟具有什么意义并不容易. 然而, 为了建立一点对于这个概念的感觉, 或许读者知道{一个三角矩阵是一个正规矩阵当且仅当其是一个对角矩阵}是有用的.
定理20. 令V 是一个有限维内积空间, T 是V 上的一个线性算子, 𝔅 是V 的一个规范正交基. 设T 在𝔅 下的矩阵A 是上三角的, 那么T 是一个正规算子当且仅当A 是一个对角矩阵.
证明. 既然
𝔅 是规范正交基, 那么
A ⁎ 是
T ⁎ 在
𝔅 下的矩阵. 若
A 是对角矩阵, 那么显然
A ⁢ A ⁎ = A ⁎ ⁢ A , 这可以推出
T ⁢ T ⁎ = T ⁎ ⁢ T . 反过来, 设
T 是正规算子而
𝔅 = { α 1 , … , α n } . 既然
A 是上三角矩阵, 那么
T ⁡ α 1 = A 1 , 1 ⁢ α 1 . 根据定理19,
T ⁎ ⁡ α 1 = A ‾ 1 , 1 ⁢ α 1 . 另一方面, 我们有
T ⁎ ⁡ α 1 = ∑ j = 1 n ( A ⁎ ) j , 1 ⁢ α j = ∑ j = 1 n A ‾ 1 , j ⁢ α j 因此, 对于每个
j > 1 ,
A 1 , j = 0 . 特别地,
A 1 , 2 = 0 . 鉴于
A 是上三角矩阵, 可以推出
T ⁡ α 2 = A 2 , 2 ⁢ α 2 因而
T ⁎ ⁡ α 2 = A ‾ 2 , 2 ⁢ α 2 , 于是对于
j > 2 ,
A 2 , j = 0 . 按照这种手段继续下去, 我们最终可以证明
A 的确是一个对角矩阵.
◻
定理21. 令V 是一个有限维的复内积空间, T 是V 上的一个线性算子, 那么存在规范正交基使得T 在其下的矩阵为上三角的.
证明. 设
n = dim ⁡ V . 当
n = 1 时, 这个定理显然成立. 我们对于
n 施行归纳, 假设结果对于
n − 1 维的复内积空间上的线性算子成立. 既然
V 是一个有限维复内积空间, 那么对于伴随
T ⁎ 而言, 存在标量
c 和单位向量
α ∈ V 使得
T ⁎ ⁡ α = c ⁢ α . 令
W 是由
α 张成的子空间的正交补, 根据定理17,
W 在
T 下不变. 设
S 是
T 由限制于
W 上导出的算子. 既然
W 是
n − 1 维的, 归纳假设告诉我们存在
W 的一个规范正交基
{ α 1 , … , α n − 1 } 使得
S 在其下的矩阵是上三角的. 令
α n = α , 那么
{ α 1 , … , α n } 是
V 的一个规范正交基, 并且
T 在其下的表示是一个上三角矩阵.
◻
这个定理推出了以下的矩阵版本.
推论. 对于每个n × n 的复矩阵A , 存在一个酉矩阵U 使得U − 1 ⁢ A ⁢ U 是上三角矩阵.
现在将定理20和定理21相结合, 我们就立即得到了定理18对于正规算子而言的类似物.
定理22. 令V 是一个有限维复内积空间, T 是V 上的一个正规算子, 那么存在一个全由T 的特征向量构成的V 的规范正交基.
当然, 这个定理也有一个矩阵解释.
推论. 对于每个n × n 的(复)正规矩阵A , 存在一个酉矩阵P 使得P ⁎ ⁢ A ⁢ P 是对角矩阵.
练习1. 对于以下每个实对称矩阵A , 找出一个实正交矩阵P 使得P t ⁢ A ⁢ P 成为对角矩阵.[ 1 1 1 1 ] , [ 1 2 2 1 ] , [ cos ⁡ θ sin ⁡ θ sin ⁡ θ − cos ⁡ θ ]
练习2. 复对称矩阵是自伴的吗? 是正规的吗?
练习3. 对于A = [ 1 2 3 2 3 4 3 4 5 ] 存在实正交矩阵P 使得P t ⁢ A ⁢ P = D 是一个对角矩阵. 找出一个这样的对角矩阵D .
练习4. 令V 是带有标准内积的ℂ 2 , T 是V 上在标准有序基下由矩阵A = [ 1 i i 1 ] 表示的线性算子. 证明T 是正规算子, 并找到V 的一个全由T 的特征向量构成的规范正交基.
练习5. 给出一个2 × 2 的矩阵A 的例子, A 2 是正规的, 但是A 不是正规的.
练习6. 令
T 是有限维复内积空间上的一个正规算子, 证明
如果T 的每个特征值都是实数, 那么T 是一个自伴算子. 如果T 的每个特征值都是正数, 那么T 是一个正定算子. 如果T 的每个特征值的绝对值均为1 , 那么T 是一个酉算子. 练习7. 令T 是有限维内积空间V 上的一个线性算子, 设T 既是正定算子又是酉算子, 证明T = I .
练习8. 证明有限维复内积空间上的线性算子T 是正规的当且仅当存在交换的自伴算子T 1 和T 2 使得T = T 1 + i ⁢ T 2 .
练习9. 证明实对称矩阵具有实对称立方根, 即若A 为实对称矩阵, 则存在实对称的B 满足B 3 = A .
练习10. 证明每个正定矩阵都是某个正定矩阵的平方.
练习11. 设T 是有限维复内积空间上的一个线性算子, 若T 既是正规算子也是幂零算子, 那么T = 0 .
练习12. 如果T 是有限维内积空间上的一个正规算子, 证明T 的不同特征值所对应的特征向量之间是正交的.
练习13. 令T 是有限维复内积空间上的一个正规算子, 证明存在复数域上的多项式f 使得T ⁎ = f ⁡ ( T ) . (表示T 以对角矩阵, 看看f 必须是什么.)
练习14. 如果有限维复内积空间上的两个正规算子交换, 证明它们的积也是正规算子.
第9章 内积空间上的算子 第9.1节 引论 我们将第8章所处理的大部分议题视为基础的, 即每个人都应该知道的材料. 本章是面向更加优秀的学生以及那些迫不及待想要扩展自己关于内积空间上的算子的知识的读者的. 这里呈现的材料更加复杂, 一般牵涉更多的技术, 除了主轴定理, 其基本上就是重述定理18关于自伴算子的酉/正交对角化的结果, 以及第9.2节中关于形式的其他结果. 我们要求读者更加成熟, 就像第5章和第7章的后半部分那样. 论证和证明以更加凝缩的风格编写, 并且几乎没有多少用以润滑的例子. 然而, 我们已经预见到了这种困难, 所以为读者提供了大量的练习.
起初的三节致力于关于内积空间上的形式以及形式与线性算子之间的关系的结果. 接下来的一节处理谱论, 即第8章牵涉自伴算子和正规算子的对角化的定理18和22的推论. 最后一节里, 我们研究实内积空间上的正规算子, 由此我们检视了第6章的准素分解定理之于正规算子的意蕴.
第9.2节 内积空间上的形式 如果T 是域F 上的有限维内积空间V 上的一个线性算子, 那么由f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 定义的函数f : V × V → F 可以被视为T 的一种替代物. 诸多关于T 的问题都等价于关于f 的问题. 实际上, 很容易看出来f 可以确定T . 这是因为, 如果𝔅 = { α 1 , … , α n } 是V 的一个规范正交基, 那么T 在𝔅 下的矩阵A 由A j , k = f ⁡ ( α k , α j ) 给出. 从更加抽象的角度理解为什么f 可以确定T 是重要的. f 的重要性质在以下定义中得以描述.
定义. 一个域
F (
F 是实数域或复数域) 上的向量空间
V 上的
(半双线性)形式 是一个函数
f : V × V → F 满足对于任意的
α , β , γ ∈ V 和任意的标量
c 有
f ⁡ ( c ⁢ α + β , γ ) = c ⁢ f ⁡ ( α , γ ) + f ⁡ ( β , γ ) ;f ⁡ ( α , c ⁢ β + γ ) = c ‾ ⁢ f ⁡ ( α , β ) + f ⁡ ( α , γ ) .因此, 半双线性形式f 使得f ⁡ ( α , β ) 在固定的β 下是α 的线性函数, 而在固定的α 下是β 的共轭线性函数. 在实情形下, f ⁡ ( α , β ) 对于每个参数都是线性的. 换言之, f 是一个双线性形式 . 在复情形下, 除非f = 0 , 否则半双线性形式f 不会是双线性形式. 在本章的剩余部分里, 除非确有必要, 否则形容词"半双线性"一律省略.
如果f 和g 是V 上的形式而c 是任意的标量, 那么很容易验证c ⁢ f + g 也是一个形式. 换言之, 任意的形式的线性组合仍然是一个形式. 因此, V 上的所有形式构成的集合是向量空间F V × V 的一个子空间, 其中F 是向量空间V 的标量域.
定理1. 令V 是一个有限维内积空间, f 是V 上的一个形式, 那么存在唯一的V 上的线性算子T 满足对于任意的α , β ∈ V 都有f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 . 并且, 由此定义的映射f ↦ T 是从形式的空间到L ⁡ ( V , V ) 的一个同构.
证明. 固定一个向量
β ∈ V , 那么
α ↦ f ⁡ ( α , β ) 是
V 上的一个线性泛函. 根据第8章的定理6, 存在唯一的向量
β ′ ∈ V 使得对于每个
α , 我们有
f ⁡ ( α , β ) = 〈 α | β ′ 〉 . 定义函数
U : V → V , β ↦ β ′ , 那么
f ⁡ ( α , c ⁢ β + γ ) = 〈 α | U ⁡ ( c ⁢ β + γ ) 〉 = c ‾ ⁢ f ⁡ ( α , β ) + f ⁡ ( α , γ ) = c ‾ ⁢ 〈 α | U ⁡ β 〉 + 〈 α | U ⁡ γ 〉 = 〈 α | c ⁢ U ⁡ β + U ⁡ γ 〉 对于任意的
α , β , γ ∈ V 和任意的标量
c 成立. 因此,
U 是
V 上的一个线性算子. 令
T = U ⁎ , 则有对于所有的
α , β ∈ V ,
f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 . 如果我们也有线性算子
T ′ 使得
f ⁡ ( α , β ) = 〈 T ′ ⁡ α | β 〉 , 那么
〈 T ⁡ α − T ′ ⁡ α | β 〉 = 0 . 于是, 对于每个
α ∈ V ,
T ⁡ α = T ′ ⁡ α . 换言之, 对于每个形式
f , 存在唯一的线性算子
T f 使得对于每个
α , β ∈ V , 我们有
f ⁡ ( α , β ) = 〈 T f ⁡ α | β 〉 . 如果
f 和
g 是形式而
c 是标量, 那么
( c ⁢ f + g ) ⁡ ( α , β ) = 〈 T c ⁢ f + g ⁡ α | β 〉 = c ⁢ f ⁡ ( α , β ) + g ⁡ ( α , β ) = c ⁢ 〈 T f ⁡ α | β 〉 + 〈 T g ⁡ α | β 〉 = 〈 ( c ⁢ T f + T g ) ⁡ α | β 〉 对于任意的
α , β ∈ V 成立, 因而
T c ⁢ f + g = c ⁢ T f + T g . 换言之,
f ↦ T f 是一个线性映射. 对于每个
f ∈ L ⁡ ( V , V ) , 等式
f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 定义了一个形式
f 使得
T f = T . 并且, 如果
T f = 0 , 那么
f = 0 . 因此,
f ↦ T f 的确是一个同构.
◻
推论. 等式〈 f | g 〉 = tr ⁡ ( T f ⁢ T g ⁎ ) 定义了形式的空间上的一个内积, 并且对于每个V 的规范正交基{ α 1 , … , α n } , 我们有〈 f | g 〉 = ∑ j = 1 n ∑ k = 1 n f ⁡ ( α k , α j ) ⁢ g ⁡ ( α k , α j ) ‾ .
证明. 根据第8章的例子3, 很容易推出
( T , U ) ↦ tr ⁡ ( T ⁢ U ⁎ ) 是
L ⁡ ( V , V ) 上的一个内积. 既然
f ↦ T f 是一个同构, 第8章的例子6表明
〈 f | g 〉 = tr ⁡ ( T f ⁢ T g ⁎ ) 也是一个内积. [译注: 实际上, 前一个内积也是通过第8章的例子6得到的.] 现在设
A 和
B 分别是
T f 和
T g 在规范正交基
𝔅 = { α 1 , … , α n } 下的矩阵, 那么
A j , k = 〈 T f ⁡ α k | α j 〉 = f ⁡ ( α k , α j ) 而
B j , k = 〈 T g ⁡ α k | α j 〉 = g ⁡ ( α k , α j ) . 这可以推出
〈 f | g 〉 = tr ⁡ ( T f ⁢ T g ⁎ ) = tr ⁡ ( A ⁢ B ⁎ ) = ∑ j = 1 n ∑ k = 1 n A j , k ⁢ B ‾ j , k = ∑ j = 1 n ∑ k = 1 n f ⁡ ( α k , α j ) ⁢ g ⁡ ( α k , α j ) ‾ ◻
定义. 如果f 是V 上的一个形式而𝔅 = { α 1 , … , α n } 是V 的一个有序基, 那么由A j , k = f ⁡ ( α k , α j ) 定义的矩阵A 被称为f 在有序基𝔅 下的矩阵 .
当𝔅 是一个规范正交基时, f 在𝔅 下的矩阵也是线性变换T f 在𝔅 下的矩阵, 但是在一般情况下并非如此.
如果A 是f 在有序基𝔅 = { α 1 , … , α n } 下的矩阵, 那么f ⁡ ( ∑ s = 1 n x s ⁢ α s , ∑ r = 1 n y r ⁢ α r ) = ∑ r = 1 n ∑ s = 1 n y ‾ r ⁢ A r , s ⁢ x s 对于任意的标量x s 和y r 成立. 换言之, 矩阵A 具有f ⁡ ( α , β ) = Y ⁎ ⁢ A ⁢ X 的性质, 其中X 和Y 分别是α 和β 在有序基𝔅 下的坐标矩阵.
f 在另外一个基α j ′ = ∑ i = 1 n P i , j ⁢ α i , 1 ≤ j ≤ n 下的矩阵由式子A ′ = P ⁎ ⁢ A ⁢ P 给出, 这是因为A j , k ′ = f ⁡ ( α k ′ , α j ′ ) = f ⁡ ( ∑ s = 1 n P s , k ⁢ α s , ∑ r = 1 n P r , j ⁢ α r ) = ∑ r = 1 n ∑ s = 1 n P ‾ r , j ⁢ A r , s ⁢ P s , k = ( P ⁎ ⁢ A ⁢ P ) j , k 既然对于酉矩阵而言, 我们有P ⁎ = P − 1 , 因而与酉等价相关的结果也可应用于对形式的研究.
定理2. 令f 是有限维复内积空间V 上的一个形式, 那么存在V 的一个规范正交基使得其下的f 的矩阵是上三角的.
证明. 令
T 是
V 上的线性算子, 其满足对于任意的
α , β ∈ V 有
f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 . 根据第8章的定理21, 存在
V 的一个规范正交基
𝔅 = { α 1 , … , α n } 使得
T 在其下的矩阵是上三角的. 根据之前的观察, 我们知道此时
f 的矩阵和
T 的矩阵是相同的. 换言之,
f 在规范正交基
𝔅 下的矩阵是上三角的.
◻
定义. 实或复向量空间V 上的形式f 被称为Hermite的 , 如果对于每个α , β ∈ V 有f ⁡ ( α , β ) = f ⁡ ( β , α ) ‾ .
如果T 是有限维内积空间V 上的线性算子, 而f 是由f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 定义的形式, 那么f ⁡ ( β , α ) ‾ = 〈 α | T ⁡ β 〉 = 〈 T ⁎ ⁡ α | β 〉 换言之, f 是Hermite的当且仅当T 是自伴的.
当f 是一个Hermite形式, 那么对于每个向量α , f ⁡ ( α , α ) 是实数. 在复向量空间上, 这个性质就刻画了Hermite形式.
定理3. 令V 是一个复向量空间而f 是V 上的一个形式, 如果对于每个向量α ∈ V 有f ⁡ ( α , α ) 为实数, 那么f 是一个Hermite形式.
证明. 令
α 和
β 是
V 中的向量, 我们必须证明
f ⁡ ( α , β ) = f ⁡ ( β , α ) ‾ . 现在我们有
f ⁡ ( α + β , α + β ) = f ⁡ ( α , α ) + f ⁡ ( α , β ) + f ⁡ ( β , α ) + f ⁡ ( β , β ) . 既然
f ⁡ ( α + β , α + β ) ,
f ⁡ ( α , α ) ,
f ⁡ ( β , β ) 都是实数,
f ⁡ ( α , β ) + f ⁡ ( β , α ) 也应该是实数. 对于
α + i ⁢ β 施行相同的论证, 我们又可以得到
− i ⁢ f ⁡ ( α , β ) + i ⁢ f ⁡ ( β , α ) 是实数. 我们知道实数的共轭等于其本身, 于是
f ⁡ ( α , β ) + f ⁡ ( β , α ) = f ⁡ ( α , β ) ‾ + f ⁡ ( β , α ) ‾ − i ⁢ f ⁡ ( α , β ) + i ⁢ f ⁡ ( β , α ) = i ⁢ f ⁡ ( α , β ) ‾ − i ⁢ f ⁡ ( β , α ) ‾ 给第二个等式乘上
i , 然后再加上第一个等式, 我们就得到
2 ⁢ f ⁡ ( α , β ) = 2 ⁢ f ⁡ ( β , α ) ‾ 即
f ⁡ ( α , β ) = f ⁡ ( β , α ) ‾ . ◻
推论. 令T 是有限维复内积空间V 上的一个线性算子, 那么T 是自伴算子当且仅当对于每个α ∈ V , 〈 T ⁡ α | α 〉 是实数.
定理4. 主轴定理. 对于有限维内积空间V 上的每个Hermite形式f , 存在V 的一个规范正交基使得f 在其下由一个实对角矩阵表示.
证明. 根据定理1, 存在唯一的线性算子
T 使得
f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 . 根据之前的观察, 既然
f 是Hermite形式, 那么
T 是自伴算子. 根据第8章的定理18, 我们知道存在
V 的一个规范正交基
𝔅 使得
T 由对角矩阵表示. 当然, 根据第8章的定理15, 这个对角矩阵的元素均为实数. 我们知道,
f 在规范正交基
𝔅 下的矩阵即
T 在
𝔅 下的表示, 所以
f 在
𝔅 下也由实对角矩阵表示.
◻
推论. 对于有限维内积空间V 上的Hermite形式f , 存在一个规范正交基𝔅 使得对于每个α , β ∈ V , 若( x 1 , … , x n ) 和( y 1 , … , y n ) 分别是α 和β 在𝔅 下的坐标, 那么f ⁡ ( α , β ) = ∑ j = 1 n c j ⁢ x j ⁢ y ‾ j 其中c 1 , … , c n 是固定的实数.
练习1. 请问下列函数
f : ℂ 2 × ℂ 2 → ℂ 中哪些是
ℂ 2 上的(半双线性)形式, 其中我们设
α = ( x 1 , x 2 ) ,
β = ( y 1 , y 2 ) ?
f ⁡ ( α , β ) = 1 .f ⁡ ( α , β ) = ( x 1 − y ‾ 1 ) 2 + x 2 ⁢ y ‾ 2 .f ⁡ ( α , β ) = ( x 1 + y ‾ 1 ) 2 − ( x 1 − y ‾ 1 ) 2 .f ⁡ ( α , β ) = x 1 ⁢ y ‾ 2 − x ‾ 2 ⁢ y 1 .练习2. 令f ⁡ ( ( x 1 , x 2 ) , ( y 1 , y 2 ) ) = x 1 ⁢ y 1 + x 2 ⁢ y 2 是ℝ 2 上的形式, 找出f 在以下的每个基下的矩阵:{ ( 1 , 0 ) , ( 0 , 1 ) } , { ( 1 , − 1 ) , ( 1 , 1 ) } , { ( 1 , 2 ) , ( 3 , 4 ) } .
练习3. 令A = [ 1 i − i 2 ] 而g ⁡ ( X , Y ) = Y ⁎ ⁢ A ⁢ X 是ℂ 2 × 1 上的形式, 那么g 是一个内积吗?
练习4. 令V 是一个复向量空间而f 是V 上的一个对称的(半双线性)形式, 即f ⁡ ( α , β ) = f ⁡ ( β , α ) , 那么f 是什么呢?
练习5. 令f ⁡ ( ( x 1 , x 2 ) , ( y 1 , y 2 ) ) = x 1 ⁢ y 1 + 4 ⁢ x 2 ⁢ y 2 + 2 ⁢ x 1 ⁢ y 2 + 2 ⁢ x 2 ⁢ y 1 是ℝ 2 上的形式, 找到一个有序基使得f 由一个对角矩阵表示.
练习6. 称形式f 为(左)非退化的, 如果对于每个向量β 有f ⁡ ( α , β ) = 0 可以推出α = 0 . 令f 是有限维内积空间V 上的一个形式, 证明f 是非退化的当且仅当其对应的线性算子T f (定理1) 是非奇异的.
练习7. 令f 是有限维向量空间V 上的一个形式. 参考练习6给出的左非退化的概念, 定义右非退化, 并证明f 是左非退化的当且仅当f 是右非退化的.
练习8. 令f 是有限维向量空间V 上的一个非退化形式 (练习6和7), L 是V 上的一个线性泛函, 证明存在唯一的β ∈ V 使得对于每个α ∈ V 有L ⁡ ( α ) = f ⁡ ( α , β ) .
练习9. 令f 是有限维向量空间V 上的一个非退化形式, 证明每个线性算子S 都有一个"相对于f 的伴随", 即一个线性算子S ′ 满足对于每个α , β ∈ V 有f ⁡ ( S ⁡ α , β ) = f ⁡ ( α , S ′ ⁡ β ) .
第9.3节 正定形式 本节我们将讨论非负(半双线性)形式以及其与向量空间上的给定内积之间的关系.
定义. 给定实或复向量空间V , 其上的形式f 被称为非负的 , 如果f 是Hermite的并且对于每个α ∈ V 有f ⁡ ( α , α ) ≥ 0 ; 其上的形式f 被称为正定的 , 如果f 是Hermite的并且对于每个非零向量α ∈ V 有f ⁡ ( α , α ) > 0 .
V 上的正定形式实际上就是V 上的内积. 非负形式几乎就是内积了, 除了某些非零向量可能"正交"于自身.
令f 是有限维向量空间V 上的一个形式, 𝔅 = { α 1 , … , α n } 是V 的一个有序基, A 是f 在基𝔅 下的矩阵, 即A j , k = f ⁡ ( α k , α j ) . 如果α = x 1 ⁢ α 1 + ⋯ + x n ⁢ α n , 那么f ⁡ ( α , α ) = f ⁡ ( ∑ j = 1 n x j ⁢ α j , ∑ k = 1 n x k ⁢ α k ) = ∑ j = 1 n ∑ k = 1 n x j ⁢ x ‾ k ⁢ f ⁡ ( α j , α k ) = ∑ j = 1 n ∑ k = 1 n x ‾ k ⁢ A k , j ⁢ x j 于是, 我们看出来f 是非负形式当且仅当A = A ⁎ [译注: 这是f 为Hermite形式的充要条件] 且∑ j = 1 n ∑ k = 1 n x ‾ k ⁢ A k , j ⁢ x j ≥ 0 对于任意的标量 x 1 , … , x n 成立. 为了使得f 成为正定形式, 以上的不等式必须对于每个( x 1 , … , x n ) ≠ 0 严格成立. 刚才我们推导出的条件说明f 是V 上的一个正定形式当且仅当函数g ⁡ ( X , Y ) = Y ⁎ ⁢ A ⁢ X 是列矩阵空间F n × 1 上的正定形式, 其中F 是向量空间V 的标量域.
定理5. 令F 是实数域或者复数域, A 是域F 上的一个n × n 矩阵, 那么由g ⁡ ( X , Y ) = Y ⁎ ⁢ A ⁢ X 定义的函数g 是F n × 1 上的正定形式当且仅当存在一个可逆矩阵P ∈ F n × n 满足A = P ⁎ ⁢ P .
证明. 对于任意的
n × n 矩阵
A , 函数
g 都是列矩阵空间上的(半双线性)形式. 我们想要证明的是,
g 为正定的当且仅当
A = P ⁎ ⁢ P . 首先, 设
A = P ⁎ ⁢ P , 那么
g 是Hermite的, 并且
g ⁡ ( X , X ) = X ⁎ ⁢ P ⁎ ⁢ P ⁢ X = ( P ⁢ X ) ⁎ ⁢ P ⁢ X ≥ 0 若
P 是可逆的, 那么
X ≠ 0 时
P ⁢ X ≠ 0 , 于是
( P ⁢ X ) ⁎ ⁢ P ⁢ X > 0 .
现在, 设
g 是列矩阵空间上的正定形式, 那么
g 就是一个内积, 因而存在列矩阵
Q 1 , … , Q n 使得
δ j , k = g ⁡ ( Q j , Q k ) = Q k ⁎ ⁢ A ⁢ Q j 但是, 这不过就是在说, 如果
Q 是以
Q 1 , … , Q n 为列的矩阵, 那么
Q ⁎ ⁢ A ⁢ Q = I . 既然
{ Q 1 , … , Q n } 相对于内积
g 是一个规范正交基, 所以
Q 是可逆的. 令
P = Q − 1 , 我们就得到
A = P ⁎ ⁢ P .
◻
在实践中, 验证一个给定的矩阵A 满足我们到目前为止给出的正定判则并非易事. 定理5的一个推论是, 若g 为正定形式, 那么det ⁡ ( A ) > 0 , 因为det ⁡ ( A ) = det ⁡ ( P ⁎ ⁢ P ) = ( det ⁡ P ⁎ ) ⁢ ( det ⁡ P ) = | det ⁡ ( P ) | 2 . 然而, det ⁡ ( A ) > 0 并不足以保证g 是正定形式. 不过, 存在与A 相关联的n 个行列式具有此性质: 如果A = A ⁎ 且这些行列式均为正数, 那么g 是一个正定形式.
定义. 令A 是域F 上的一个n × n 矩阵, 那么A 的顺序主子式 (principal minor) 是由Δ k ⁡ ( A ) = det ⁡ [ A 1 , 1 ⋯ A 1 , k ⋮ ⋮ A k , 1 ⋯ A k , k ] , 1 ≤ k ≤ n 定义的n 个标量Δ 1 ⁡ ( A ) , … , Δ n ⁡ ( A ) .
引理. 令
A 是域
F 上的一个
n × n 的可逆矩阵, 那么以下陈述是等价的.
存在一个主对角线元素全为1 的上三角矩阵P 使得B = A ⁢ P 是下三角矩阵. A 的顺序主子式均异于0 .证明. 令
P 是任意的
n × n 矩阵, 置
B = A ⁢ P , 那么
B j , k = ∑ r = 1 n A j , r ⁢ P r , k . 如果
P 是一个主对角线均为
1 的上三角矩阵, 那么
∑ r = 1 k − 1 A j , r ⁢ P r , k = B j , k − A j , k . 既然
B 为下三角矩阵等价于
j < k 时有
B j , k = 0 , 因而
B 为下三角矩阵当且仅当
∑ r = 1 k − 1 A j , r ⁢ P r , k = − A j , k , j < k . 我们可以将以上式子看成是关于
P r , k 的线性方程组, 那么陈述a就等价于该方程组有解.
实际上, 我们最好将这个大的线性方程组按照
k 拆分. 对于每个
k = 2 , … , n , 我们有一个关于未知元
P 1 , k , … , P k − 1 , k 的具
k − 1 个方程的线性方程组, 其系数矩阵为
[ A 1 , 1 ⋯ A 1 , k − 1 ⋮ ⋮ A k − 1 , 1 ⋯ A k − 1 , k − 1 ] 这个矩阵的行列式即顺序主子式
Δ k − 1 ⁡ ( A ) . 若陈述b成立, 那么这些线性方程组都有唯一解. 也就是说, 大的线性方程组也有唯一解. 于是, 陈述a成立, 并且矩阵
P 实际上是唯一的. 因此, 陈述b可以推出陈述a.
现在设a成立, 那么
Δ k ⁡ ( B ) = Δ k ⁡ ( A ⁢ P ) = Δ k ⁡ ( A ) ⁢ Δ k ⁡ ( P ) = Δ k ⁡ ( A ) = B 1 , 1 ⁢ ⋯ ⁢ B k , k 其中
Δ k ⁡ ( A ⁢ P ) = Δ k ⁡ ( A ) ⁢ Δ k ⁡ ( P ) 利用了
P 是上三角矩阵的事实. 既然
A 和
P 均可逆, 那么
B 也可逆. 鉴于下三角矩阵
B 可逆等价于
B k , k ≠ 0 , k = 1 , … , n , 于是
Δ k ⁡ ( A ) ≠ 0 , k = 1 , … , n . ◻
定理6. 令f 是有限维向量空间V 上的一个形式, A 是f 在V 的某个有序基𝔅 下的矩阵, 那么f 是正定形式当且仅当A = A ⁎ 并且A 的顺序主子式均为正数.
证明. 让我们先来证明这个定理有趣的一半. 设
A = A ⁎ , 并且
Δ k ⁡ ( A ) > 0 , 1 ≤ k ≤ n . 根据引理, 存在(唯一的)主对角线均为
1 的上三角矩阵
P 使得
B = A ⁢ P 是下三角矩阵. 矩阵
P ⁎ 当然是一个下三角矩阵, 于是
P ⁎ ⁢ B = P ⁎ ⁢ A ⁢ P 也是下三角的. 既然
A 是自伴的, 那么
D = P ⁎ ⁢ A ⁢ P 也是自伴的. 显然, 自伴的下三角矩阵必然是一个对角矩阵. 按照前面引理的证明里的类似手法, 我们可以推出
Δ k ⁡ ( D ) = Δ k ⁡ ( P ⁎ ⁢ B ) = Δ k ⁡ ( P ⁎ ) ⁢ Δ k ⁡ ( B ) = Δ k ⁡ ( B ) = Δ k ⁡ ( A ) 鉴于
D 是一个对角矩阵, 其顺序主子式为
Δ k ⁡ ( D ) = D 1 , 1 ⁢ ⋯ ⁢ D k , k . 因为
A 的顺序主子式均为正数, 所以
D 的顺序主子式也均为正数, 那么我们可以推出
D k , k > 0 , 1 ≤ k ≤ n . 如果
A 是形式
f 在有序基
𝔅 = { α 1 , … , α n } 下的矩阵, 那么
D = P ⁎ ⁢ A ⁢ P 是形式
f 在有序基
{ α 1 ′ , … , α n ′ } 下的矩阵, 其中
α j ′ = ∑ i = 1 n P i , j ⁢ α i . 既然
D 是主对角线元素均为正数的对角矩阵, 那么显然有
X ⁎ ⁢ D ⁢ X > 0 , X ≠ 0 . 这就说明
f 是一个正定形式.
现在反过来设
f 是正定形式. 我们知道
A = A ⁎ , 但是该怎么说明
Δ k ⁡ ( A ) > 0 , 1 ≤ k ≤ n 呢? 令
V k 是由
α 1 , … , α k 张成的子空间, 而
f k 是
f 在
V k × V k 上的限制, 那么显然
f k 是
V k 上的正定形式, 且
f k 在有序基
{ α 1 , … , α k } 下的表示为
A k = [ A 1 , 1 ⋯ A 1 , k ⋮ ⋮ A k , 1 ⋯ A k , k ] . 作为定理5的推论, 我们注意到每个正定形式
f k 的矩阵表示
A k 的行列式都应该是正数, 即
A 的每个顺序主子式
Δ k ⁡ ( A ) 均为正数.
◻
这里有一些我们应该作出的评注, 以完成我们对于正定形式和正定矩阵之间的关系的讨论. 什么刻画了表示正定形式的矩阵? 如果f 是有限维复向量空间上的一个形式, A 是f 在某个有序基下的矩阵, 那么f 是正定的当且仅当A = A ⁎ 且X ⁎ ⁢ A ⁢ X > 0 , X ≠ 0 . 根据定理3, A = A ⁎ 的条件是多余的, 因为X ⁎ ⁢ A ⁢ X > 0 , X ≠ 0 可以推出A = A ⁎ . 另一方面, 如果f 是有限维实向量空间上的形式而A 是f 在某个有序基下的矩阵, 那么f 是正定的当且仅当A = A t 且X t ⁢ A ⁢ X > 0 , X ≠ 0 . 我们想要强调的是, 实情形下X t ⁢ A ⁢ X > 0 , X ≠ 0 无法推出A = A t . 然而, 值得注意的是, 如果实矩阵A 满足A = A t 和X t ⁢ A ⁢ X > 0 , X ≠ 0 , 那么即便对于每个复的列矩阵X , 我们也有X ⁎ ⁢ A ⁢ X > 0 , X ≠ 0 . 这是因为, 若X = Y + i ⁢ Z , 其中Y , Z ∈ ℝ n × 1 , 那么( Y + i ⁢ Z ) ⁎ ⁢ A ⁢ ( Y + i ⁢ Z ) = ( Y t − i ⁢ Z t ) ⁢ A ⁢ ( Y + i ⁢ Z ) = Y t ⁢ A ⁢ Y + Z t ⁢ A ⁢ Z + i ⁢ ( Y t ⁢ A ⁢ Z − Z t ⁢ A ⁢ Y ) 而在A = A t 的情况下, 有Y t ⁢ A ⁢ Z = Z t ⁢ A ⁢ Y .
如果A 是一个n × n 的复矩阵并且满足X ⁎ ⁢ A ⁢ X > 0 , X ≠ 0 那么我们就称A 是一个正定矩阵 . 我们已经知道, 有限维复向量空间上的形式是正定的当且仅当其在某个有序基下的矩阵是正定矩阵. (这里的"某个"也可以被替换为"每个".) 但是, 刚才的评注告诉我们, 即便是在实情形下, 我们还是可以断言形式正定的充要条件为其在某个有序基下的矩阵正定. 当然, 我们这里将实矩阵也视为复矩阵. 不过, 读者需要注意的是, 即便是实矩阵, 其正定的条件亦是相对于每个非零的复列矩阵而言的.
现在设V 是一个有限维内积空间而f 是V 上的一个非负形式, 那么存在唯一的V 上的一个自伴算子T 满足f ⁡ ( α , β ) = 〈 T ⁡ α | β 〉 并且T 还具有〈 T ⁡ α | α 〉 ≥ 0 的额外性质.
定义. 设V 是一个有限维内积空间. V 上的一个线性算子T 是非负的 , 如果T = T ⁎ 且对于每个α ∈ V 有〈 T ⁡ α | α 〉 ≥ 0 . V 上的一个线性算子T 是正定的 , 如果T = T ⁎ 且对于每个α ≠ 0 有〈 T ⁡ α | α 〉 > 0 .
如果V 是一个有限维的(实或复)向量空间而〈 | 〉 是V 上的一个内积, 那么V 上有个与之相关联的正定算子类. 通过定理1所描述的映射, V 上所有正定形式构成的集合与所有正定算子构成的集合之间存在一个双射. 我们将以本节的练习来强调正定算子, 正定形式, 正定矩阵之间的关系. 以下的总结或许是有用的.
如果A 是一个复数域上的n × n 矩阵, 那么以下陈述是等价的.
A 是正定矩阵, 即对于不全为零的复数x 1 , … , x n , 我们有∑ j = 1 n ∑ k = 1 n x ‾ k ⁢ A k , j ⁢ x j > 0 .〈 X | Y 〉 = Y ⁎ ⁢ A ⁢ X 是n × 1 的复矩阵空间上的一个内积.相对于n × 1 的复矩阵空间上的标准内积〈 X | Y 〉 = Y ⁎ ⁢ X , 线性算子X ↦ A ⁢ X 是正定的. 存在某个可逆的P ∈ ℂ n × n 满足A = P ⁎ ⁢ P . A = A ⁎ 且A 的顺序主子式均为正数.若
A 的每个元素均为实数, 那么以上这些又等价于
A = A t 且对于不全为零的实数x 1 , … , x n , 我们有∑ j = 1 n ∑ k = 1 n x k ⁢ A k , j ⁢ x j > 0 .〈 X | Y 〉 = Y t ⁢ A ⁢ X 是n × 1 的实矩阵空间上的一个内积.相对于n × 1 的实矩阵空间上的标准内积〈 X | Y 〉 = Y t ⁢ X , 线性算子X ↦ A ⁢ X 是正定的. 存在某个可逆的P ∈ ℝ n × n 满足A = P t ⁢ P . 练习1. 令V 是带有标准内积的ℂ 2 , 对于什么样的向量α ∈ V , 存在一个正定算子T 使得α = T ⁡ ε 1 呢?
练习2. 令V 是带有标准内积的ℝ 2 , 如果θ 是一个实数, 令T θ 是逆时针旋转θ 的线性算子, 即T θ ⁡ ( x 1 , x 2 ) = ( x 1 ⁢ cos ⁡ θ − x 2 ⁢ sin ⁡ θ , x 1 ⁢ sin ⁡ θ + x 2 ⁢ cos ⁡ θ ) θ 为何值时T θ 是正定算子呢?
练习3. 令V 是ℂ n × 1 , 而其上的内积为〈 X | Y 〉 = Y ⁎ ⁢ G ⁢ X , 这里的G ∈ ℂ n × n 要使得该公式的确定义了一个内积. 令A 是一个n × n 的矩阵而线性算子T ⁡ ( X ) = A ⁢ X . 找出T ⁎ . 如果Y 是V 的一个固定元素, 找出确定了线性泛函X ↦ Y ⁎ ⁢ X 的元素Z ∈ V . 换言之, 对于每个X ∈ V 有Y ⁎ ⁢ X = 〈 X | Z 〉 .
练习4. 令V 是一个有限维内积空间. 如果T 和U 是V 上的正定算子, 证明( T + U ) 也是正定算子. 给出一个例子表明T ⁢ U 不必是正定的.
练习5. 令
A = [ 1 1 2 1 2 1 3 ] . 证明A 是正定的. 令V 是ℝ 2 × 1 , 而其上的内积为〈 X | Y 〉 = Y t ⁢ A ⁢ X . 现在定义X 1 = [ 1 0 ] , X 2 = [ 0 1 ] 请应用Gram-Schmidt过程以找出V 的一个规范正交基. 找出一个2 × 2 的可逆实矩阵P 使得A = P t ⁢ P . 练习6. 以下哪些矩阵是正定的?[ 1 2 3 4 ] , [ 1 1 + i 1 − i 3 ] , [ 1 − 1 1 2 − 1 1 3 − 1 1 ] , [ 1 1 2 1 3 1 2 1 3 1 4 1 3 1 4 1 5 ]
练习7. 给出一个n × n 矩阵的例子, 其所有顺序主子式均为正数, 但是并非正定矩阵.
练习8. 〈 ( x 1 , x 2 ) | ( y 1 , y 2 ) 〉 = x 1 ⁢ y ‾ 1 + 2 ⁢ x 2 ⁢ y ‾ 1 + 2 ⁢ x 1 ⁢ y ‾ 2 + x 2 ⁢ y ‾ 2 定义了ℂ 2 上的一个内积吗?
练习9. 证明正定矩阵的每个主对角线元素均为正数.
练习10. 令
V 是一个有限维内积空间. 如果
T 和
U 是
V 上的线性算子, 当
U − T 为正定算子时我们记
T < U . 证明以下断言:
T < U 和U < T 不能同时成立.如果T < U 且U < S , 那么T < S . 如果T < U 且0 < S , S ⁢ T < S ⁢ U 不必成立. 练习11. 令
V 是一个有限维内积空间而
E 是
V 在其某个子空间上的正交投影.
证明对于任意的正数c , 算子c ⁢ I + E 是正定的. 以E 表达满足T 2 = I + E 自伴线性算子T . 练习12. 设n 是一个正整数而A = [ 1 1 2 1 3 ⋯ 1 n 1 2 1 3 1 4 ⋯ 1 n + 1 ⋮ ⋮ ⋮ ⋮ 1 n 1 n + 1 1 n + 2 ⋯ 1 2 ⁢ n − 1 ] . 证明A 是正定的.
练习13. 令A 是一个自伴的n × n 矩阵, 证明存在正数c 使得矩阵c ⁢ I + A 是正定的.
练习14. 证明两个正定线性算子之积是正定的当且仅当它们交换.
练习15. 令S 和T 是正定算子, 证明S ⁢ T 的每个特征值都是正数.
第9.4节 更多关于形式的结果 本节包含两个结果, 其给出了关于(半双线性)形式的更加详细的信息.
定理7. 设V 是一个实或复向量空间, W 是V 的一个有限维子空间并且{ α 1 , … , α r } 是其一个有序基. 令f 是V 上的一个形式而M 是由M j , k = f ⁡ ( α k , α j ) 定义的r × r 矩阵. 如果W ′ = { β ∈ V | 对于任意的 α ∈ W , f ⁡ ( α , β ) = 0 } 那么W ′ 是V 的一个子空间, 并且W ∩ W ′ = { 0 } 当且仅当M 可逆. 当的确如此时, V = W ⊕ W ′ .
证明. 如果
β , γ ∈ W ′ 而
c 是一个标量, 那么对于每个
α ∈ W , 我们可以推出
f ⁡ ( α , c ⁢ β + γ ) = c ‾ ⁢ f ⁡ ( α , β ) + f ⁡ ( α , γ ) = 0 . 因此,
W ′ 的确是
V 的一个子空间.
现在设
α = ∑ k = 1 r x k ⁢ α k 和 β = ∑ j = 1 r y j ⁢ α j 那么
f ⁡ ( α , β ) = ∑ k = 1 r ∑ j = 1 r y ‾ j ⁢ M j , k ⁢ x k = ∑ k = 1 r ( ∑ j = 1 r y ‾ j ⁢ M j , k ) ⁢ x k 由此可知
β ∈ W ′ 当且仅当方程组
∑ j = 1 r y ‾ j ⁢ M j , k = 0 , 1 ≤ k ≤ r 成立, 因而
W ∩ W ′ ≠ { 0 } 当且仅当齐次线性方程组
∑ j = 1 r M ‾ j , k ⁢ y j = 0 , 1 ≤ k ≤ r 具有非平凡解. 换言之,
W ∩ W ′ = { 0 } 等价于
M ⁎ 可逆, 但
M ⁎ 可逆当且仅当
M 可逆.
设
M 可逆并令
A = ( M ⁎ ) − 1 = ( M − 1 ) ⁎ 我们定义
V 上的函数
g j 为
g j ⁡ ( β ) = ∑ k = 1 r A j , k ⁢ f ⁡ ( α k , β ) ‾ 那么
g j ⁡ ( c ⁢ β + γ ) = ∑ k = 1 r A j , k ⁢ f ⁡ ( α k , c ⁢ β + γ ) ‾ = c ⁢ ∑ k = 1 r A j , k ⁢ f ⁡ ( α k , β ) ‾ + ∑ k = 1 r A j , k ⁢ f ⁡ ( α k , γ ) ‾ = c ⁢ g j ⁡ ( β ) + g j ⁡ ( γ ) 也就是说, 每个
g j 的确都是
V 上的线性泛函. 因此, 我们可以定义
V 上的一个线性算子
E 为
E ⁡ β = ∑ j = 1 r g j ⁡ ( β ) ⁢ α j 既然
g j ⁡ ( α n ) = ∑ k = 1 r A j , k ⁢ f ⁡ ( α k , α n ) ‾ = ∑ k = 1 r A j , k ⁢ M k , n ⁎ = ( A ⁢ M ⁎ ) j , n = δ j , n 我们可以推出
E ⁡ ( α n ) = α n , 1 ≤ n ≤ r 换言之, 对于每个
α ∈ W ,
E ⁡ α = α . 现在我们知道
E 的像是
W 并且
E 2 = E , 即
E 是从
V 到
W 上的投影. 若
β 是
V 中任意的一个向量, 那么
f ⁡ ( α n , E ⁡ β ) = f ⁡ ( α n , ∑ j = 1 r g j ⁡ ( β ) ⁢ α j ) = ∑ j = 1 r g j ⁡ ( β ) ‾ ⁢ f ⁡ ( α n , α j ) = ∑ j = 1 r ( ∑ k = 1 r A ‾ j , k ⁢ f ⁡ ( α k , β ) ) ⁢ f ⁡ ( α n , α j ) 既然
A ⁎ = M − 1 , 我们可以推出
f ⁡ ( α n , E ⁡ β ) = ∑ k = 1 r ( ∑ j = 1 r A k , j ⁎ ⁢ f ⁡ ( α n , α j ) ) ⁢ f ⁡ ( α k , β ) = ∑ k = 1 r ( ∑ j = 1 r M k , j − 1 ⁢ M j , n ) ⁢ f ⁡ ( α k , β ) = ∑ k = 1 r δ k , n ⁢ f ⁡ ( α k , β ) = f ⁡ ( α n , β ) 换言之, 对于每个
α ∈ W , 我们有
f ⁡ ( α , β ) = f ⁡ ( α , E ⁡ β ) , 于是
f ⁡ ( α , β − E ⁡ β ) = 0 对于所有
α ∈ W 和
β ∈ V 成立. 那么,
( I − E ) ⁡ β ∈ W ′ , 根据等式
β = E ⁡ β + ( I − E ) ⁡ β 我们可以断言
V = W + W ′ . 当然, 依照前面的论证, 这个和是一个直和, 即
V = W ⊕ W ′ . 证明的最后, 还有一点值得提及的是,
I − E 实际上是从
V 到
W ′ 的投影. 若
β ∈ W ′ , 那么
E ⁡ β = 0 , 因此
( I − E ) ⁡ β = β , 即
W ′ 是
I − E 的像. 另外, 根据第6章的推理,
I − E 的确是一个幂等线性算子.
◻
证明中构造的投影E 可由以下性质刻画: E ⁡ β = α 当且仅当α ∈ W 且β − α ∈ W ′ . 因此, E 独立于其构造过程中用到的W 的基. 因此, 我们可以称E 是由直和分解V = W ⊕ W ′ 确定的从V 到W 上的投影. 注意到E 是一个正交投影当且仅当W ′ = W ⊥ .
定理8. 设V 是一个有限维的实或复向量空间, f 是V 上的一个形式而A 是f 在V 的某个有序基{ α 1 , … , α n } 下的矩阵. 如果A 的顺序主子式均异于零, 那么存在唯一的主对角线元素全为1 的上三角矩阵P 使得P ⁎ ⁢ A ⁢ P 是一个上三角矩阵.
证明. 既然
Δ k ⁡ ( A ⁎ ) = Δ k ⁡ ( A ) ‾ ,
A ⁎ 的顺序主子式也都异于零. 因此, 根据定理6的引理, 存在一个主对角线元素全为
1 的上三角矩阵
P 满足
A ⁎ ⁢ P 是一个下三角矩阵. 于是,
P ⁎ ⁢ A = ( A ⁎ ⁢ P ) ⁎ 是一个上三角矩阵. 既然两个上三角矩阵之积仍然是上三角矩阵,
P ⁎ ⁢ A ⁢ P 是一个上三角矩阵. 这表明了
P 的存在性, 但没有说明
P 的唯一性. 然而, 其实有一个更加几何的论证方法可以同时说明
P 的存在性和唯一性.
令
W k 是由
α 1 , … , α k 张成的子空间, 而
W k ′ = { β ∈ V | 对于任意的 α ∈ W k , f ⁡ ( α , β ) = 0 } 既然
Δ k ⁡ ( A ) ≠ 0 , 那么由
M i , j = f ⁡ ( α j , α i ) = A i , j 定义的
k × k 矩阵
M 是可逆的. 根据定理7, 我们有
V = W k ⊕ W k ′ . 令
E k 是由这个直和分解决定的从
V 到
W k 上的投影, 并置
E 0 = 0 , 设
β k = α k − E k − 1 ⁡ α k , 1 ≤ k ≤ n 那么
β 1 = α 1 , 而
k > 1 时有
E k − 1 ⁡ α k ∈ W k − 1 . 于是, 对于
k > 1 , 存在唯一的标量
P j , k 使得
E k − 1 ⁡ α k = − ∑ j = 1 k − 1 P j , k ⁢ α j . 再置
P k , k = 1 以及
j > k 时
P j , k = 0 , 我们就得到了一个
n × n 的上三角矩阵
P , 其主对角线元素均为
1 , 并且对于
k = 1 , … , n , 我们有
β k = ∑ j = 1 k P j , k ⁢ α j . 设
1 ≤ i 且
i < k , 那么
β i ∈ W i 而
W i ⊆ W k − 1 . 既然
β k ∈ W k − 1 ′ , 可以推出
f ⁡ ( β i , β k ) = 0 . 令
B 是
f 在有序基
{ β 1 , … , β n } 下的矩阵表示, 那么
B k , i = f ⁡ ( β i , β k ) . 于是,
k > i 时
B k , i = 0 , 因而
B 是一个上三角矩阵. 另一方面, 根据关于形式的基变换的讨论, 我们有
B = P ⁎ ⁢ A ⁢ P . 反过来, 设
P 是一个满足我们要求的矩阵, 即
P 是一个主对角线元素均为
1 的上三角矩阵使得
P ⁎ ⁢ A ⁢ P 也是上三角的, 置
β k = ∑ j = 1 n P j , k ⁢ α j = ∑ j = 1 k P j , k ⁢ α j , 1 ≤ k ≤ n 那么
{ β 1 , … , β k } 显然是
W k 的一个基. 对于
k > 1 ,
{ β 1 , … , β k − 1 } 是
W k − 1 的一个基, 而且当
i < k 时有
f ⁡ ( β i , β k ) = 0 [译注: 这是因为
f ⁡ ( β i , β k ) = ( P ⁎ ⁢ A ⁢ P ) k , i 且
P ⁎ ⁢ A ⁢ P 是一个上三角矩阵], 由此我们可以看出
β k ∈ W k − 1 ′ . 定义
β k 的公式告诉我们
α k = − ( ∑ j = 1 k − 1 P j , k ⁢ α j ) + β k . 既然
− ( ∑ j = 1 k − 1 P j , k ⁢ α j ) ∈ W k − 1 而
β k ∈ W k − 1 ′ 又鉴于
V = W k − 1 ⊕ W k − 1 ′ 故
E k − 1 ⁡ α k = − ( ∑ j = 1 k − 1 P j , k ⁢ α j ) 这实际上就完全确定了
P 1 , k , … , P k − 1 , k 的可能性, 进而完全确定了矩阵
P . 当然, 我们可以很容易看出这个
P 正是我们之前说明存在性时所构造出来的矩阵.
◻
第9.5节 谱论 本节我们探求牵涉自伴算子和正规算子的对角化的第8章的定理18和22的推论.
定理9. 谱定理. 令T 是有限维复内积空间V 上的一个正规算子, 或者是有限维实内积空间V 上的一个自伴算子, 设c 1 , … , c k 是T 的不同的特征值, 令W j 是特征值c j 所对应的特征空间, E j 是V 在W j 上的正交投影, 那么不同的W i 和W j 相互正交, V 是W 1 , … , W k 的直和, 并且T = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k .
证明. 令
α ∈ W j ,
β ∈ W i , 并设
i ≠ j , 那么
c j ⁢ 〈 α | β 〉 = 〈 T ⁡ α | β 〉 = 〈 α | T ⁎ ⁡ β 〉 = 〈 α | c ‾ i ⁢ β 〉 = c i ⁢ 〈 α | β 〉 鉴于
c i ≠ c j , 可以推出
〈 α | β 〉 = 0 , 即不同的
W i 和
W j 是相互正交的.
根据
V 拥有全由
T 的特征向量构成的规范正交基这一事实 (见第8章的定理18和22), 立即可以得到
V = W 1 ⊕ ⋯ ⊕ W k . 因此,
E 1 + ⋯ + E k = I 并且
T = T ⁢ I = T ⁢ ( E 1 + ⋯ + E k ) = T ⁢ E 1 + ⋯ + T ⁢ E k = c 1 ⁢ E 1 + ⋯ + c k ⁢ E k ◻
这个定理中出现的分解, 我们将其称为T 的谱分解 (spectral resolution) . 某些物理应用导致了有限维向量空间上的线性算子的谱 (spectrum) 被定义为线性算子的特征值的集合, 而这是我们使用谱分解这一术语的部分缘由. 另外, 注意到正交投影E 1 , … , E k 由T 唯一确定也是重要的; 实际上, 它们是应用多项式于T 得到的结果. [译注: 也请读者参考第6章的定理11.]
推论. 如果e j = ∏ i ≠ j ( x − c i c j − c i ) 那么E j = e j ⁡ ( T ) , 1 ≤ j ≤ k .
证明. 译者就不翻译这里的证明了, 因为它实际上只是第6章的定理11的证明之后的讨论的重复.
◻
因为E 1 , … , E k 由T 唯一确定并且I = E 1 + ⋯ + E k 投影族{ E 1 , … , E k } 被称为由T 定义的单位分解 (resolution of the identity defined by T ) .
关于谱定理的证明我们有需要作出的评注. 我们运用关于自伴算子和正规算子对角化的第8章的定理18和22推导出了这个定理. 实际上还有一个更加代数的证明方法, 其需要先证明正规算子的极小多项式是不同的素因子之积. 然后, 我们以类似于证明准素分解定理 (第6章的定理12) 的方式进行处理. 下一节我们将会给出这种证明.
在各种应用中, 有时知道我们能否计算关于算子或者矩阵的特定函数 (例如平方根) 是必要的, 而这对于可对角化的正规算子而言是简单的.
定义. 令T 是有限维内积空间上的一个可对角化正规算子, 并且T = ∑ j = 1 k c j ⁢ E j 是其谱分解. 如果函数f 的定义域包括T 的谱而取值于标量域, 那么我们定义线性算子f ⁡ ( T ) 为f ⁡ ( T ) = ∑ j = 1 k f ⁡ ( c j ) ⁢ E j .
定理10. 令T 是有限维内积空间V 上的一个谱为S 的可对角化正规算子, 设f 是一个定义域包含S 而值取于标量域的函数, 那么f ⁡ ( T ) 是一个谱为f ⁡ ( S ) 的可对角化正规算子. 如果V ′ 也是一个有限维内积空间而U 是一个从V 到V ′ 的酉映射, 并且T ′ = U ⁢ T ⁢ U − 1 , 那么S 也是T ′ 的谱而f ⁡ ( T ′ ) = U ⁢ f ⁡ ( T ) ⁢ U − 1 .
证明. f ⁡ ( T ) 的正规性可以根据定义和
f ⁡ ( T ) ⁎ = ∑ j = 1 k f ⁡ ( c j ) ‾ ⁢ E j 这一事实通过简单的计算推得. 而且, 显然对于每个
α ∈ E j ⁡ ( V ) , 我们有
f ⁡ ( T ) ⁡ α = f ⁡ ( c j ) ⁢ α . 因此, 集合
f ⁡ ( S ) 是
f ⁡ ( T ) 的谱的子集. 反过来, 设
α ≠ 0 并且
f ⁡ ( T ) ⁡ α = b ⁢ α 那么根据
α = ∑ j = 1 k E j ⁡ α 由此可以推出
f ⁡ ( T ) ⁡ α = ∑ j = 1 k f ⁡ ( T ) ⁡ E j ⁡ α = ∑ j = 1 k f ⁡ ( c j ) ⁢ E j ⁡ α = ∑ j = 1 k b ⁢ E j ⁡ α 因而
‖ ∑ j = 1 k ( f ⁡ ( c j ) − b ) ⁢ E j ⁡ α ‖ = ∑ j = 1 k | f ⁡ ( c j ) − b | 2 ⁢ ‖ E j ⁡ α ‖ 2 = 0 所以, 我们可以断言
f ⁡ ( c j ) = b 或者
E j ⁡ α = 0 . 根据假设,
α ≠ 0 , 故存在一个下标
i 使得
E i ⁡ α ≠ 0 . 然后我们就可以推出
f ⁡ ( c i ) = b , 也就是说
f ⁡ ( S ) 的确是
f ⁡ ( T ) 的谱. 实际上, 设
f ⁡ ( S ) = { b 1 , … , b r } 其中当
m ≠ n 时
b m ≠ b n , 也就是互异, 令
X m = { i ∈ ℕ | 1 ≤ i ≤ k 且 f ⁡ ( c i ) = b m } , 置
P m = ∑ i ∈ X m E i 那么
P m 是从
V 到
f ⁡ ( T ) 与特征值
b m 相关联的特征空间的正交投影, 而且
f ⁡ ( T ) = ∑ m = 1 r b m ⁢ P m 是
f ⁡ ( T ) 的谱分解.
现在设
U 是从
V 到
V ′ 的酉变换, 并且
T ′ = U ⁢ T ⁢ U − 1 , 那么等式
T ⁡ α = c ⁢ α 成立当且仅当
T ′ ⁡ U ⁡ α = c ⁢ U ⁡ α 因此
S 是
T ′ 的谱, 并且
U 将
T 的每个特征空间映射成相对应的
T ′ 的特征空间. 实际上, 根据定义, 我们可以看出
T ′ = ∑ j = 1 k c j ⁢ E j ′ , E j ′ = U ⁢ E j ⁢ U − 1 是
T ′ 的谱分解. 因此, 我们又可以推出
f ⁡ ( T ′ ) = ∑ j = 1 k f ⁡ ( c j ) ⁢ E j ′ = ∑ j = 1 k f ⁡ ( c j ) ⁢ U ⁢ E j ⁢ U − 1 = U ⁢ ( ∑ j = 1 k f ⁡ ( c j ) ⁢ E j ) ⁢ U − 1 = U ⁢ f ⁡ ( T ) ⁢ U − 1 ◻
在思考前述的讨论时, 我们一定要记得正规算子T 的谱是集合S = { c 1 , … , c k } 而且这些c j 是互异的. 当T 在某个由特征向量构成的基下由一个对角矩阵表示时, 每个c j 都需要重复相对应的特征空间的维数次. 这是我们在以下结果中改换记号的原因.
推论. 在定理10的假设下, 设T 在某个有序基𝔅 = { α 1 , … , α n } 下由对角矩阵D 表示, 并且D 的对角线为d 1 , … , d n , 那么在有序基𝔅 下, f ⁡ ( T ) 由对角矩阵f ⁡ ( D ) 表示, 其对角线为f ⁡ ( d 1 ) , … , f ⁡ ( d n ) . 如果𝔅 ′ = { α 1 ′ , … , α n ′ } 是任意的有序基并且P 是从𝔅 到𝔅 ′ 的基变换矩阵, 即α j ′ = ∑ i = 1 n P i , j ⁢ α i 那么P − 1 ⁢ f ⁡ ( D ) ⁢ P 是f ⁡ ( T ) 在基𝔅 ′ 下的矩阵.
证明. 对于每个下标
i , 存在唯一的
j (
1 ≤ j ≤ k ) 使得
α i ∈ E j ⁡ ( V ) 且
d i = c i . 因此, 对于每个
i ,
f ⁡ ( T ) ⁡ α i = f ⁡ ( d i ) ⁢ α i , 并且
f ⁡ ( T ) ⁡ α j ′ = ∑ i = 1 n P i , j ⁢ f ⁡ ( T ) ⁡ α i = ∑ i = 1 n d i ⁢ P i , j ⁢ α i = ∑ i = 1 n ( D ⁢ P ) i , j ⁢ α i = ∑ i = 1 n ( D ⁢ P ) i , j ⁢ ( ∑ k = 1 n P k , i − 1 ⁢ α k ′ ) = ∑ k = 1 n ∑ i = 1 n P k , i − 1 ⁢ ( D ⁢ P ) i , j ⁢ α k ′ = ∑ k = 1 n ( P − 1 ⁢ D ⁢ P ) k , j ⁢ α k ′ ◻
由这个结果我们可以构造正规矩阵的特定函数, 以下是论证. 设A 是一个正规矩阵, 那么存在一个可逆的矩阵P (实际上是一个酉矩阵P ) 使得P ⁢ A ⁢ P − 1 是一个对角矩阵, 设其为D 而对角线元素分别为d 1 , … , d n . 令f 是一个可以应用到d 1 , … , d n 上的复值函数, 令f ⁡ ( D ) 是以f ⁡ ( d 1 ) , … , f ⁡ ( d n ) 为对角线元素的对角矩阵, 那么P − 1 ⁢ f ⁡ ( D ) ⁢ P 独立于D , 在以下意义上只是A 的一个函数. 如果Q 是另一个可逆矩阵并且D ′ = Q ⁢ A ⁢ Q − 1 是一个对角矩阵, 那么f 可以被应用到D ′ 的对角线元素上且P − 1 ⁢ f ⁡ ( D ) ⁢ P = Q − 1 ⁢ f ⁡ ( D ′ ) ⁢ Q .
定义. 在以上条件下, f ⁡ ( A ) 被定义为P − 1 ⁢ f ⁡ ( D ) ⁢ P .
矩阵f ⁡ ( A ) 也可以用一种不同的方式刻画.
第9.6节 正规算子的更深刻性质 第10章 双线性形式 第10.1节 双线性形式 本章中, 我们处理有限维向量空间上的双线性形式. 读者可能会发现其与
第10.2节 对称双线性形式 第10.3节 斜对称双线性形式 第10.4节 保持双线性形式的群 附录 这个附录逻辑上分为两个部分. 第一部分由前三节构成, 包含了整本书 (实际上是整个数学) 会出现的特定基础概念. 对于本书而言其更像引论而非附录. 第二部分则诚然作为本书的实际附录出现.
第1节包含了对于集合以及交集和并集的讨论.
第A.1节 集合 第A.2节 函数 一个函数包含以下资料:
一个集合X , 被称为函数的定义域; 一个集合Y , 被称为函数的陪域 (codomain); 一个规则 (或者说对应关系) f , 其将X 的每个元素x 联系以Y 的单独一个元素f ⁡ ( x ) . 如果
( X , Y , f ) 是一个函数, 我们也称
f 是一个从
X 到
Y 的函数. 这稍微有些混乱了, 因为
f 本身不是函数, 而是函数的规则. [译注: 实际上,
X 和
Y 可以被视为附着在规则
f 上的元数据. 另外, 规则在现代数学中通常被解释/实现为序对的集合, 这是外延性的观念.] 然而, 对于函数和规则使用相同的符号为我们提供了更加容易的讨论函数的方式. 因此, 当我们说
f 是从
X 到
Y 的函数, 或者
X 是
f 的定义域,
Y 是
f 的陪域时, 这意味着
( X , Y , f ) 是一个如之前所定义的那样的函数. 许多词汇经常用于代替函数, 例如变换, 算子, 映射. 它们在特定的上下文中使用以暗示函数所扮演的角色.
如果f 是一个从X 到Y 的函数, 那么f 的值域 (或者说像) 是由所有X 中x 的f ⁡ ( x ) 构成的集合. 换言之, f 的值域由Y 中所有满足存在X 中的x 使得y = f ⁡ ( x ) 的元素y 构成. 如果f 的值域是整个Y , 那么我们称f 是从X 到Y 的满射, 或者就说f 是一个满射. f 的值域经常被记为f ⁡ ( X ) . [译注: 这里术语稍有修改, 以符合数学界的潮流.]
例子2. 令X 是实数集, Y = X , 那么由f ⁡ ( x ) = x 2 定义的从X 到Y 的函数f 的值域是非负实数构成的集合, 所以f 不是满射. 第A.3节 等价关系 第A.4节 商空间 令V 是域F 上的一个向量空间, W 是V 的子空间. 一般来说, 存在许多与W 互补的子空间W ′ , 即满足V = W ⊕ W ′ 的子空间. 如果V 上定义了一个内积, 而且W 是有限维的, 在某种意义上存在可以称得上是自然的W 的补子空间, 即W 的正交补. 但是, 如果V 没有附加于其向量空间结构之上的其他结构, 那么我们并不能挑选出一个自然的补子空间. 然而, 我们可以从V 和W 中构造出向量空间V / W , 所谓的V 和W 的商, 其可以扮演W 的自然的补的角色. 这个商空间并非V 的子空间, 但是其仅由V 和W 定义, 并且同构于任何与W 互补的子空间W ′ .
令W 是V 的一个子空间, 如果α 和β 是V 中任意的向量, 那么我们称α 模W 与β 同余, 若向量( α − β ) 在W 之中. 如果α 模W 与β 同余, 我们将其记为α ≡ β ( mod ⁡ W ) . 现在模W 的同余关系是V 上的一个等价关系.
α ≡ α ( mod ⁡ W ) , 因为α − α = 0 在W 之中.如果α ≡ β ( mod ⁡ W ) , 那么β ≡ α ( mod ⁡ W ) , 因为向量( α − β ) 在W 中当且仅当向量( β − α ) 在W 中. 如果α ≡ β ( mod ⁡ W ) 且β ≡ γ ( mod ⁡ W ) , 那么α ≡ γ ( mod ⁡ W ) , 因为若( α − β ) 和( β − γ ) 都在W 中, 则有α − γ = ( α − β ) + ( β − γ ) 在W 之中. 这个等价关系的等价类被称为W 的陪集. 一个向量α 的等价类 (陪集) 是什么样的呢? 其由所有V 中所有满足( β − α ) 属于W 的向量β 构成. 换言之, 其由所有具有形式β = α + γ 的向量β 构成, 其中γ 在W 中. 出于此缘由, α 的陪集记作α + W . 在某种意义上, 将α 相对于W 的陪集想成是将子空间W 平移向量α 得到的集合是合理的. 为了描绘出这些陪集, 读者或许可以想象一下以下的特殊情形. 令V 是空间ℝ 2 , W 是V 的一个一维子空间. 如果我们将V 画成是Euclid平面, 那么W 就是穿过原点的一条直线. 如果α = ( x 1 , x 2 ) 是V 中的一个向量, 那么陪集α + W 是经过点( x 1 , x 2 ) 且与W 平行的直线.
所有W 的陪集构成的集合被记为V / W . 我们现在定义V / W 上的向量加法与标量乘法如下:( α + W ) + ( β + W ) = ( α + β ) + W c ⁢ ( α + W ) = ( c ⁢ α ) + W 换言之, α 的陪集加上β 的陪集是( α + β ) 的陪集, 标量c 和α 的陪集的乘积是向量c ⁢ α 的陪集. 既然V 中许多不同的向量都可能拥有相同的相对于W 的陪集, 那么我们必须验证向量加法和标量乘法只依赖于其所牵涉的陪集. 也就是说, 我们必须证明以下事实:
如果α ≡ α ′ ( mod ⁡ W ) 且β ≡ β ′ ( mod ⁡ W ) , 那么α + β ≡ α ′ + β ′ ( mod ⁡ W ) . 如果α ≡ α ′ ( mod ⁡ W ) , 那么c ⁢ α ≡ c ⁢ α ′ ( mod ⁡ W ) . 这些事实是容易验证的. a. 如果
α − α ′ 属于
W 且
β − β ′ 属于
W , 那么因为
( α + β ) − ( α ′ + β ′ ) = ( α − α ′ ) + ( β − β ′ ) , 我们看到
α + β 模
W 与
α ′ + β ′ 同余. b. 如果
α − α ′ 属于
W 且
c 是任意的标量, 那么
c ⁢ α − c ⁢ α ′ = c ⁢ ( α − α ′ ) 也属于
W .
现在很容易验证V / W 在上述向量加法和标量乘法下是一个域F 上的向量空间. 读者必须直接验证向量空间的每条公理. 向量加法和标量乘法的每条性质都是从相应的V 中的运算性质推得的. 还有要说的一件事情是, V / W 的零向量是V 的零向量的陪集. 换言之, W 是V / W 的零向量.
向量空间V / W 被称为V 和W 的商 (在这种情况下偶尔也有人使用"差"). 存在一个自然的从V 到V / W 的满射的线性变换Q , 其由Q ⁡ ( α ) = α + W 定义. 根据刚才定义的V / W 上的运算, 变换Q 的线性性质是显然的. 注意到Q 的零空间恰是子空间W . 我们称Q 是从V 到V / W 的商变换 (或者商映射).
现在我们可以陈述商空间V / W 和W 的补子空间之间的关系了.
定理. 令W 是向量空间V 的一个子空间, Q 是从V 到V / W 的商变换. 设W ′ 是V 的一个子空间, 那么V = W ⊕ W ′ 当且仅当Q 于W ′ 的限制是从W ′ 到V / W 的同构.
第A.5节 线性代数中的等价关系 第A.6节 选择公理