自动微分的简单本质

第1章引论

第2章什么是导数?

既然自动微分 (AD) 和计算导数有关, 让我们以考虑什么是导数开始. 如果你所接受的入门性微积分课程和我差不多的话, 那么你会学到一个函数 $f :: ℝ \to ℝ$ 在一个点 $x$ 处 (要求其在 $f$ 的定义域之中) 的导数 $f^{'} (x)$ 是一个数字, 定义如下: $\begin{array}{lcr} f^{'} (x) = lim_{ε \to 0} \frac{f (x + ε) - f (x)}{ε} & (1) \end{array}$ 也就是说, $f^{'} (x)$ 告诉了我们 $f$ 在 $x$ 处对于输入变化的缩放有多快.

这个定义对于类型 $ℝ \to ℝ$ 之外的函数有多适用呢? 复数情形 ( $ℂ \to ℂ$ ) 表现良好, 其中除法也有定义. 扩展至 $ℝ \to ℝ^{n}$ 的情形也能成立, 如果我们以通常的方式解释一个( $ℝ^{n}$ 中的)向量除以一个标量. 然而, 如果我们扩展至 $ℝ^{m} \to ℝ^{n}$ 的情形, 或者甚至只是 $ℝ^{m} \to ℝ$ , 这个定义就不再适用了, 因为其依赖于除以一个向量 $ε :: ℝ^{m}$ .

这种非标量定义域上的微分的困难通常以相对于 $ℝ^{m}$ 的 $m$ 个标量分量的偏导数的概念解决, 经常记作 $\partial f / \partial x_{j}$ , 其中 $j \in {1, \dots, m}$ . 当 $ℝ^{n}$ 也是一个非标量时, 即 $n > 1$ , 那么我们就有了一个矩阵 $J$ (Jacobi矩阵), 其中 $J_{i, j} = \partial f_{i} / \partial x_{j}$ 而每个 $f_{i}$ 是函数 $f$ 的第 $i$ 投影, 其由取 $f$ 的结果的第 $i$ 个分量得到. {译注: 然而, 即便 $n = 1$ , 我们得到的也是一个矩阵, 只不过是 $1 \times m$ 的矩阵而已.}

到目前为止, 我们已经看到了一个函数的导数可以是一个数字 ( $ℝ \to ℝ$ ), 一个向量 ( $ℝ \to ℝ^{n}$ ), 一个矩阵( $ℝ^{m} \to ℝ^{n}$ ). 而且, 每种情形都有与之相伴的链式规则, 其说明了该如何对于函数的复合进行微分. 标量链式规则牵涉将两个标量导数相乘, 而向量链式规则牵涉将两个矩阵 $A$ 和 $B$ (Jacobi矩阵) 相乘, 其定义如下: ${(A \cdot B)}_{i, j} = \sum_{k = 1}^{m} A_{i, k} \cdot B_{k, j}$ 既然我们可以将标量视为向量的特殊情形, 那么标量乘法也可以是为矩阵乘法的特殊情形, 或许我们已经抵达了所需的一般性. 然而, 当我们将注意力转向高阶导数的时候, 即导数的导数, 情况就变得复杂起来了, 我们需要更高维度的表示, 以及相应的更加复杂的链式规则.

自动微分的简单本质

第1章引论

第2章什么是导数?

第3章微分的规则

第3.1节顺序复合

第3.2节并行复合

第3.3节线性函数

第4章将碎片拼在一起

第4.1节范畴

第4.2节幺半范畴

第4.3节笛卡尔范畴

第4.4节余笛卡尔范畴

自动微分的简单本质

第1章 引论

第2章 什么是导数?

第3章 微分的规则

第3.1节 顺序复合

第3.2节 并行复合

第3.3节 线性函数

第4章 将碎片拼在一起

第4.1节 范畴

第4.2节 幺半范畴

第4.3节 笛卡尔范畴

第4.4节 余笛卡尔范畴

第1章引论

第2章什么是导数?

第3章微分的规则

第3.1节顺序复合

第3.2节并行复合

第3.3节线性函数

第4章将碎片拼在一起

第4.1节范畴

第4.2节幺半范畴

第4.3节笛卡尔范畴

第4.4节余笛卡尔范畴