实用逻辑和自动推理手册

前言

本书是关于可以执行自动推理的计算机程序的. 我对推理的理解相当狭义: 重点在于形式演绎推理, 而非诸如扑克博弈或医学诊断之类的问题. 另一方面, 我对自动的理解则相当宽泛, 包括人与机器协同推理的交互式方案, 并且我始终关注演绎推理在现实世界问题中的应用. 事实上, 除了其本身固有的魅力之外, 这一学科因其工业应用而日益重要.

本书旨在作为该领域以及逻辑推理本身的入门导引. 读者无需具备数理逻辑的先修知识, 但不可避免地, 拥有一定的数学背景和计算机编程经验 (尤其是函数式语言, 如 OCaml, F#, Standard ML, Haskell或LISP) 将大有裨益. 与该领域众多专题性著作不同, 本书力求提供一个广泛而均衡的综合性导论, 并具有两个显著特点.

纯逻辑与自动定理证明以紧密交织的方式加以阐述. 逻辑学的成果在发展过程中始终着眼于其在自动定理证明中的作用, 并尽可能以显式计算的方式加以展开.
自动定理证明方法的阐述均参照实际的具体实现, 读者若能方便地使用计算机, 即可亲自进行实验. 所有代码均采用高层次函数式语言OCaml编写.

尽管这种编排方式有待商榷, 但我是在审慎考虑并广泛尝试了各种替代方案之后才采用的. 更详细的自我辩护将在后文给出, 但大多数读者可能希望直接跳到正文部分, 从第 xvi 页的如何阅读本书开始.

意识形态面向

本节将更详细地阐述本书背后的写作理念, 并尝试为之辩护. 我还将描述本书的关注重点以及未涵盖的主要主题. 要充分理解讨论中提出的某些观点, 需要具备相关学科知识. 读者可以选择跳过或略读此部分内容.

我的首要目标是对自动定理证明领域的众多核心成果进行广泛而均衡的讨论. 此外, 主要对纯数理逻辑感兴趣的读者应当发现, 本书涵盖了数理逻辑主流基础教材中的大部分传统成果: 紧致性, Löwenheim-Skolem定理, 证明系统的完备性, 插值, Gödel定理, 等等. 但我始终力求以具体的, 显式的和算法化的方式来呈现这些结果, 即使这并非自动证明器代码的直接需要, 其通常都会涉及可以实际进行实验和使用的真实代码, 至少在原则上如此. 例如:

第5.13节中插值定理的证明包含了一个构造插值公式的算法, 该算法利用了先前的定理证明代码;
第5.5节通过显式地交替运行证明与反驳代码来演示基于有限模型性质的可判定性, 而非笼统地援引定理7.13.

我希望许多读者能和我一样欣赏这种具体的, 亲身实践的风格. 形式逻辑通常需要对繁琐的句法细节给予相当程度的关注. 这对初学者而言可能颇为痛苦, 因此教师和作者往往不得不在两种令人不快的选择之间权衡: (i) 以令人煎熬的详尽程度将一切和盘托出, 或 (ii) 大量含糊其辞以掩盖粗疏的解释. 尽管教师有充分的理由对方式(i)望而却步, 但我的教学经验表明, 许多学生仍然不满于从未被告知事情全貌的感觉. 通过在计算机上实现这些内容, 我认为我们可以两全其美: 细节以精确的形式呈现, 但我们大体上可以让计算机去应对那些令人不快的后果.

诚然, 过去150年来数学变得更加抽象化, 更倾向集合论, 而远离了构造性方法. 这在当代模型论中尤为明显, 一些处于学科历史根基的传统主题正被逐渐淡化. 但逆流而行的并非只有我一人, 因为计算机的兴起正在帮助恢复显式算法方法在数学多个领域中的地位. 这在代数几何及相关领域中尤为显著 (Cox, Little和O'Shea 1992; Schenk 2003), 其中计算机代数, 特别是Gröbner基 (见第5.11节), 已经产生了相当大的影响. 但类似的思想也正在其他领域被探索, 甚至包括范畴论 (Rydeheard和Burstall 1988), 后者通常被视为抽象非构造性数学的精髓. 关于算法化视角在一般数学中的价值, 我无法比Knuth (1974) 的这段话说得更好:

有三年时间, 我在加州理工学院为数学专业的二年级学生讲授抽象代数课程, 其中最困难的主题总是矩阵的Jordan标准型. 到第三年, 我尝试了一种新方法, 从算法的角度来审视这一课题, 一切突然变得清晰明了. 同样的事情也发生在关于由生成元和关系定义的有限群的讨论中, 以及另一门课程中的二次型约化理论上. 通过以算法的方式呈现这些主题, 数学定理的目的和意义变得一目了然.
后来, 在撰写一本关于计算机算术的书 [Knuth (1969)] 时, 我发现初等数论中几乎每一个定理都以自然的, 有充分动机的方式出现在使计算机进行高速数值计算的问题中. 因此我认为, 传统的数论课程完全可以改用这种视角, 为已然优美的理论增添一层实用的动机.

就逻辑而言, 这种方法似乎尤为自然. 从最早期开始, 逻辑学的发展就受到将推理归结为计算这一愿望的驱动: logos一词, 即logic的词根, 不仅意味着逻辑思维, 还意味着计算或算账. 更近一些, 正是逻辑中的可判定性问题促使Turing等人精确定义了可计算函数的概念, 并建立了界定算法方法范围的抽象模型. 逻辑与计算之间的这种关系可以追溯到中世纪之前, 并一直延续至今. 例如, 计算机系统设计与验证中的问题正在激发更多的逻辑学研究, 而逻辑原理在程序设计语言的设计中也发挥着日益重要的作用. 因此, 逻辑推理不仅可以被视为现代计算机时代的众多受益者之一, 更可以被视为其最重要的思想源泉.

本书的另一个可能令某些读者感到意外的特点, 是其系统性的模型论取向; 相比之下, 许多其他教材如Goubault-Larrecq和Mackie (1997) 将证明论置于核心地位. 我在较晚的章节 (第6章) 才引入传统的证明系统, 而且几乎不提及, 更不利用自然演绎或相继式演算证明的结构性质. 尽管这些主题引人入胜, 但我认为经典逻辑的所有传统计算机证明方法完全可以在不借助它们的情况下很好地呈现. 事实上, 用于自动定理证明的特殊反驳完备演算 (二元归结, 超归结, 等等) 同样提供了关于证明范式 (canonical form) 的强有力的结果. 在某些情况下, 这些结果甚至比Gentzen式证明论的结果更便于推导理论性成果 (Matiyasevich 1975), 正如我们在第5.10节中仿照Lifschitz (1980) 对零点定理 (Nullstellensatz) 的证明所示. 无论如何, 对于自动推理而言, 特定证明系统的细节远不如对相应搜索空间的探查方式那样重要. 例如, 请注意tableau方法和逆方法之间的巨大差异, 尽管二者都可以被理解为对无切相继式证明的搜索.

我希望为所描述的所有方法提供完整的, 经过仔细解释的代码. (根据我的经验, 人们很容易低估从一个看似简明的算法到具体实现之间的难度.) 为了呈现几乎与通常用于描述算法的伪代码一样可读的真实可执行代码, 使用一种非常高层次的语言似乎是必要的, 这样就可以忽略数据表示和内存分配等具体问题. 为此我选择了函数式编程语言Objective CAML (OCaml). OCaml是Edinburgh ML的后裔, 后者是一种专门为编写定理证明器而设计的编程语言, 已有多个主要系统用它编写.

使用OCaml (而非诸如C或Java) 的一个缺点是许多读者对它并不熟悉. 然而, 我只使用了一个简单的子集, 在附录2中有简要说明; 代码风格是纯函数式的, 没有赋值或顺序执行 (除了产生诊断输出). 在少数情况下 (例如在二元决策图的代码中传递状态), 命令式代码可能更为简洁, 但坚持使用尽可能简单的子集似乎是值得的. 纯函数式编程对于我所希望鼓励的那种探索式修改尤为方便, 因为人们不必担心一个计算对其他计算产生意外的副作用.

最后, 我以来源于McCarthy (1963) 的一段引文作为结尾, 它精妙地概括了本书所蕴含的理念, 暗示了逻辑作为一门真正应用科学的潜在新角色.

我们有理由期望, 计算与数理逻辑之间的关系在下一个世纪将像上一个世纪分析学与物理学之间的关系那样富有成果.

本书没有涵盖的内容

尽管我力求涵盖广泛的主题, 但有所取舍是必要的, 以防止本书变得庞大到难以驾驭. 我聚焦于经典单类 (one-sorted) 一阶逻辑中的理论, 因为在这一连贯的框架下, 自动推理的许多核心方法都可以得到展示. 因此, 我不无遗憾地将一些重要领域排除在深入讨论之外, 包括模型检查, 归纳定理证明, 多类 (many-sorted) 逻辑, 模态逻辑, 描述逻辑, 直觉主义逻辑, lambda演算, 高阶逻辑和类型论. 然而, 我相信本书将为读者深入研究上述任何领域做好充分的准备, 其中许多领域恰恰最适合通过与经典一阶逻辑的对比来加以理解.

另一个指导原则是, 只有在我认为自己能够以较为初等的水平来呈现某一主题, 而无需过多技术细节或艰深理论的情况下, 才会将其纳入. 这意味着我忽略了例如有序paramodulation, 圆柱代数分解以及Gödel第二不完备性定理等内容. 但在这些情况下, 我尽量提供了充足的参考文献, 以便有兴趣的读者能够自行深入探究.

致谢

本书经过多年以随性的方式逐步演变为目前的形态. 在此期间, 我先后在剑桥大学计算机实验室, Åbo Akademi大学/TUCS以及Intel公司工作, 并曾短期访问其他机构; 我最要感谢的是Tania和Yestin, 感谢他们陪伴我辗转各地, 并容忍我在这个项目上投入的过多时间. 要在此公正地描述多年来结识的朋友和同事们对我思想的塑造程度, 是不可能的. 但我要特别感谢Mike Gordon, 是他最初给了我进入这一迷人领域的机会.

我撰写本书的部分原因在于, 据我所知, 尚无现有教材能够涵盖我所希望覆盖的逻辑学与自动推理领域的广泛主题. 因此, 本书的总体风格和方法是我自己的, 任何现有教材都无需为其不良影响承担责任. 但在纯逻辑方面, 我主要遵循了Kreisel和Krivine (1971) 对基本元定理的阐述方式. 他们优雅的发展路径恰好契合我的目的, 纯粹以模型论为基础, 并使用自动定理证明的常用工具, 如Skolem化和(所谓的)Herbrand定理. 例如, 第5.13节中那个极具算法美感的插值定理证明, 本质上就是他们的成果.

尽管我从事自动推理研究已近 20 年, 但我仍时常在文献中发现先前不曾注意到的旧成果, 或通过与同事的私人交流而得知它们. 在这方面, 我感谢Grigori Mints向我指出了Lifschitz利用归结证明对零点定理的证明 (第5.10节), 感谢Loïc Pottier告知我Hörmander的实数量词消去算法 (第5.9节), 也感谢Lars Hörmander本人回答了我关于这一过程起源的问题.

我非常幸运地拥有众多朋友和同事, 他们评阅了本书的草稿, 给予了令人振奋的鼓励, 采用并改进了相关代码, 甚至据此进行教学. 他们的影响往往使我的思路更加清晰, 有时还使我免于严重的错误, 但不消说, 他们无需为文中任何残留的缺陷负责. 在此衷心感谢Rob Arthan, Jeremy Avigad, Clark Barrett, Robert Bauer, Bruno Buchberger, Amine Chaieb, Michael Champigny, Ed Clarke, Byron Cook, Nancy Day, Torkel Franzén (令人惋惜的是, 他未能看到本书的最终完成), Dan Friedman, Mike Gordon, Alexey Gotsman, Jim Grundy, Tom Hales, Tony Hoare, Peter Homeier, Joe Hurd, Robert Jones, Shuvendu Lahiri, Arthur van Leeuwen, Sean McLaughlin, Wojtek Moczydlowski, Magnus Myreen, Tobias Nipkow, Michael Norrish, John O'Leary, Cagdas Ozgenc, Heath Putnam, Tom Ridge, Konrad Slind, Jørgen Villadsen, Norbert Voelker, Ed Westbrook, Freek Wiedijk, Carl Witty, Burkhart Wolff, 以及无疑还有许多其他通信者, 他们的贡献随着时间的流逝而被我疏忽地遗忘了, 感谢他们无价的帮助.

即使在网络时代, 能够使用优质的图书馆仍然至关重要. 我要感谢剑桥大学图书馆, 计算机实验室和DPMMS图书馆, Åbo Akademi的数学和计算机科学图书馆, 以及近年来波特兰州立大学图书馆和Intel图书馆的工作人员, 他们经常帮助我查找晦涩的参考文献. 我还要感谢无与伦比的Powell's书店 (www.powells.com), 它已被证明是经典逻辑学和计算机科学文献的宝库.

最后, 我要感谢Frances Nex极其细致入微的文字编辑工作, 以及剑桥大学出版社的Catherine Appleton, Charlotte Broom, Clare Dennison和David Tranah, 他们不顾我的一再拖延, 将本书引领至出版, 并提供了宝贵的建议, 出版社匿名审稿人的有益评论也为此提供了有力的支持.

如何阅读本书

本书的设计是按顺序从头到尾阅读的. 然而, 在学习了第1章以及第2章和第3章各自的大部分内容之后, 读者便可根据自己的兴趣选读其他部分. 为此, 我尽量将一些重要的交叉引用明确标出, 并尽可能避免使用过于繁复或非标准的记号.

每章末尾都附有若干练习题. 这些练习几乎从不是常规性的, 有些还非常困难. 这反映了我的信念: 解决一个真正具有挑战性的问题, 比费力做完大量琐碎的操练题更为有趣, 也更富有教益. 如果大多数题目看起来太难, 读者不必灰心. 它们全部是可选的, 也就是说, 不做任何练习也可以理解正文的内容.

本书所使用的数学

数学在本书中扮演着双重角色: 主题本身以数学方式处理, 同时自动推理也被应用于数学中的一些问题. 但在大多数情况下, 所需的数学知识并不十分高深: 基础代数, 集合与函数, 归纳法, 以及也许最根本的, 对证明这一概念的理解. 在少数地方会用到更高深的分析和代数知识, 不过我已尽量在行文中加以解释. 附录1是相关数学背景的摘要, 读者可在需要时查阅, 或者甚至在一开始就浏览一遍.

本书中的软件

本书的一个重要组成部分是配套软件, 其中包含用OCaml编程语言编写的各种定理证明技术的简单实现. 尽管不详细研究代码一般也能理解本书, 但解释往往围绕代码展开, 代码被用作替代冗长而形式化的语法过程描述的手段. (例如, 第6.4-6.8节中一阶逻辑的完备性证明, 以及第7.6节中Robinson算术的 $Σ_{1}$ -完备性证明, 本质上都是关于某些特定OCaml函数总能正确运行的详细非形式论证.) 因此, 如果至少没有对代码如何工作的一个粗略印象, 你可能会觉得本书某些部分相当吃力.

由于我预计许多读者几乎没有或完全没有编程经验, 至少在OCaml这样的函数式语言方面是如此, 我在附录2中概述了一些关键概念. 我并不自欺欺人地以为阅读这份简短的附录就能将一个新手变成熟练的函数式程序员, 但我希望它至少能提供一些方向指引, 其中也包含了读者在需要时可以进一步查阅的参考文献. 事实上, 整本书都可以被视为函数式编程的一个大型案例研究, 展示了许多重要的概念, 如结构化数据类型, 递归, 高阶函数, 延续和抽象数据类型.

我希望许多读者不仅会阅读代码, 还会实际运行它, 将其应用于新的问题, 甚至尝试修改或扩展它. 但要做到这些, 你需要一个OCaml解释器 (再次参见附录2). 定理证明代码本身几乎全部以分散的方式列在正文中. 由于读者实际手动输入代码大概收益甚微, 所有代码均可从本书的网站 (www.cambridge.org/9780521899574) 下载, 然后只需几次按键即可加载到OCaml解释器中, 或者一次一个片段地复制粘贴.

将来, 我希望在同一网址提供代码的更新, 也许还有其他语言的移植版本. 关于如何运行代码的更多细节可以在那里找到, 从而可以一边跟随书中的解释一边并行地试验代码, 但我在这里只提几个重要的要点. 最简单的方式大概是加载与本书相关的全部代码, 例如在包含代码的目录 (文件夹) 中启动OCaml解释器ocaml, 然后输入:

#use "init.ml";;

默认环境被设置为自动将法式≪引用≫中的内容解析为一阶公式. 若要使用第1章中的某些代码, 你需要将其改为解析算术表达式:

let default_parser = make_parser parse_expression;;

若要使用第2章中关于命题逻辑的代码, 则需要将其改为解析命题公式:

let default_parser = parse_prop_formula;;

除此之外, 你基本上可以随意选取你感兴趣的任何部分的代码来使用. 在极少数情况下, 作为讲解流程的一部分, 某个函数会先给出一个基础版本, 随后再替换为同名的更完善或更高效的版本. 在这种情况下, 默认环境始终会提供最新的版本; 如果你希望严格跟随讲解的顺序, 可能需要从源文件中复制粘贴较早的版本.

这些代码主要是为教学目的而编写的, 我始终将清晰性和/或简洁性置于效率之上. 尽管如此, 它们有时在实际应用中也可能确实有用. 无论如何, 在使用之前, 请仔细阅读网站上列出的(极少的)法律限制条款. 另外请注意, Stålmarck算法 (第2.10节) 受专利保护, 因此stal.ml文件中的代码不应用于商业用途.

第1章引论

本章我们引入了逻辑推理和机械化它的想法, 简要触及了重要的历史性发展. 我们通过讨论逻辑学中的一些最为基础的想法以及刻画符号方法是如何在计算机上实现的来为后续内容奠定基础.

第1.1节什么是逻辑推理?

存在许多理由相信某个东西为真. 它或许似乎是显而易见的, 或许至少第一眼看上去是令人信服的, 可能我们的父母之前告诉过我们, 也可能是其与相关科学实现的结果达成了惊人的一致性. 尽管往往是可靠的, 但是这些判断的方法也并非万无一失, 其也曾被用于说服人们地球是平的, 圣诞老人是存在的, 原子不可被进一步划分为更小的粒子.

逻辑推理相较于其他推理的不同之处在于其会避免任何未经澄清的假设, 并将自身限制于不会出错且超越理性置辩的推理. 为了避免作出任何无法保证的假设, 逻辑推理不能依赖于要被推理的对象或者概念的任何特殊性质. 这意味着逻辑推理必须从所有这样的特殊特征之中抽象出来, 并在应用于其他领域时同等有效 (valid). 论证之所以被接受为逻辑性的(论证), 在于其与某种一般形式的相合, 而非因为其所处理的特定内容. 例如, 将以下的传统例子:

所有人都是要死的
Socrates是一个人
因此Socrates是要死的

与下列从数学之中抽出的推理进行比较:

所有正整数都是四个整数的平方之和
 $15$ 是一个正整数
因此 $15$ 是四个整数的平方之和

这两个论证都是正确的, 并且具有共同的模式:

所有的 $X$ 都是 $Y$ 
 $a$ 是 $X$ 
因此 $a$ 是 $Y$

这个推理模式是逻辑有效的, 因为其有效性并不依赖于内容: 正整数和要死的的含义是无关紧要的. 我们可以将 $X$ , $Y$ , $a$ 替换为任何我们喜欢的东西, 只要尊重语法范畴即可, 而语句仍然保持有效. 与之相对的是, 考虑以下推理:

所有的雅典人都是希腊人
Socrates是一个雅典人
因此Socrates是要死的

尽管这个结论是全然正确的, 但是这个论证并非逻辑有效的, 因为其依赖于所牵涉的项的内容. 其他的具有同样的似是而非形式的论证当然也可能是假的, 例如

所有的雅典人都是希腊人
Socrates是一个雅典人
因此Socrates没有胡须

然而, 第一个论证可以转变为一个逻辑有效的论证, 通过将隐式的假设所有的希腊人都是要死的显式化. 现在这个论证是以下一般的逻辑有效的形式的一个实例:

所有的 $G$ 都是 $M$ 
所有的 $A$ 都是 $G$ 
 $s$ 是 $A$ 
因此 $s$ 是 $M$

第一眼看上去, 这种对于推理的法医鉴识式分析似乎并不令人印象非常深刻. 逻辑有效的推理从未告诉过我们任何关于世界的本质上新颖的东西——正如Wittgenstein (1922) 所言, 当我知道天气要么下雨要么不下雨时, 我对于天气一无所知. 换言之, 如果我们的确从推理的链条之中学到了关于世界的什么新东西, 那么它必然包含并非纯粹逻辑的步骤. Schilpp (1944) 中引用Russell所言:

Hegel从纯粹逻辑之中推导出了世界的全部本质, 包括小行星的不存在性, 其之所以能够做到这点, 只是因为他逻辑无能.

{原注: 为了对于Hegel公平一些, 我必须要说词汇逻辑直到相当的最近都常以更为宽泛的含义使用, 而我们所考虑的逻辑在那时应该被称为演绎逻辑, 用以和归纳逻辑进行区分, 后者从观察到的数据之中得出结论, 如在物质科学 (physical sciences) 里的那样.}

但是逻辑分析可以清晰地揭示关于真实世界的事实之间的必要关系, 直接地表明何处掺入了或许不能保证的假设. 例如, 根据如果刚刚下过雨, 那么地面是潮湿的可以逻辑推出如果地面并非超市, 那么刚刚就不可能下过雨. 这是被称为逆否的一般原理的一个实例: 从如果 $P$ 那么 $Q$ 可以推出如果非 $Q$ 那么非 $P$ . 然而, 从如果 $P$ 那么 $Q$ 到如果 $Q$ 那么 $P$ 一般并非有效, 在这种情况下就是我们发现我们不能推出如果地面是潮湿的, 那么刚刚下过雨, 因为也可能是由于爆裂的水管或者灌溉设施什么的才导致了潮湿.

或许正如Locke (1689) 所言, 这样的例子可能是琐碎的, 不过这种初等的逻辑谬误我们也经常会遇到. 更为重要的是, 数学之中的演绎远非琐碎所能概括, 而是一直使人类历史之中的一些伟大智者深深着迷, 经常也使得他们感到挫败. 从简单而不可辩驳的假设出发, 经过漫长而复杂的逻辑演绎链条, 可以通往复杂且违反直觉的定理, 正如Hobbes所发现的 (Aubrey 1898):

在一位绅士的私人书房里, Euclid的原本摊开着, 翻到的是第1卷第47命题 [Pythagoras定理]. 他读了这个命题. 天哪, 他说道 (他时不时会用一句有力的誓语来加强语气), 这不可能! 于是他读了该命题的证明, 证明将他引回到某个前置命题; 他读了那个命题. 那个命题又将他引回到另一个命题, 他也读了. 如此层层回溯 [et sic deinceps], 最终他被严格地说服了那个真理. 这使他爱上了几何学.

的确, Euclid的开创性作品几何原本建立了一种特定的推理风格, 其经完善之后构成了如今数学的脊骨. 这种风格在于先断言少量公理——这些公理被认为具有数学内容——然后运用纯粹的逻辑推理从中推导出结论. Euclid本人并未完全实现逻辑与非逻辑的彻底分离, 但他的工作最终由Hilbert (1899) 和Tarski (1959) 加以完善, 他们使得一些假设显式化, 例如Pasch公理.

{原注: 可以说, 这种方法在Socrates的论辩术中已有预兆, Plato对此有所记述. 苏格拉底会引导他那些不幸的对话者, 从他们自己的观点出发, 经过一连串看似不可避免的推论, 从而赢得辩论. 当荒谬的结论被推导出来时, 最初的立场便站不住脚了. 要使这种方法具有其令人叹服的力量, 每一步推理都必须毫无疑义, 且不能暗中引入任何隐含的假设.}

第1.2节 Calculemus!

推理就是算账 (reckoning). 在本书的卷首语中我们引用了Hobbes关于逻辑推理和数值计算之间的相似性的阐述. 尽管Hobbes应该因为使得这个想法更为广为人知而受到嘉奖, 这个想法本身即便在1651年也不是全新的. 的确由Plato和Aristotle所使用以代表推理或者逻辑思维的希腊词汇logos在其他上下文中也可能表示计算或者算账. 当古希腊哲学家的作品在中世纪的欧洲广为人知的时候, logos一般被翻译为ratio, 这是代表算账的拉丁词汇 (因而有了英语词汇rational, ratiocination, 等等). 即便在如今的英语里, 我们有时也能听到I reckon that ..., 这里的reckon指的是某种推理而并非字面意义上的要去计算.

然而, 推理和算账之间的联系在Gottfried Wilhelm von Leibniz (1646–1716) 的作品之前几乎只是一种暗示性的口号. Leibniz相信一个根据计算进行推理的系统必须包含两个基本组件:

一种通用语言 (characteristica universalis), 由此可以表达任意的东西;
一种推理演算 (calculus ratiocinator), 用于判定以characteristica表达的断言的真假.

Leibniz梦想着有朝一日不能达成一致意见的双方不会陷入徒劳的争辩, 而是将他们的不一致转换为characteristica, 然后彼此言称calculemus (让我们计算吧). 他甚至可能设想过让机器来完成这些计算. 那时候, 各种机械计算装置已被设计和建造出来, Leibniz本人也在1671年设计了一台能够进行乘法运算的机器, 并说道:

杰出之人不应像奴隶一样, 将大量时间耗费在计算的苦役上, 如果使用机器的话, 这些工作完全可以放心地交给任何人去做.

因此, Leibniz预见了使自动推理成为可能的基本要素: 一种精确表达思想的语言, 在该语言中操纵思想的计算规则, 以及这种计算的机械化. 莱布尼茨在实现这些构想方面的具体成就是有限的, 且直到近年来才为人所知. 但尽管他的工作对技术发展的直接影响有限, 他的梦想在今天仍然引起共鸣.

第1.3节符号化

Leibniz将注意力放在建立合适的语言这一基本的首要步骤上是正确的. 然而, 他太过雄心壮志以至于想要表达人类思维的所有方面. 最终的进步来自于扩展已经在数学中所使用的符号记号的应用范围. 例如, 如今我们会说 $x^{2} \leq y + z$ 而非 $x$ 乘上自身小于等于 $y$ 与 $z$ 之和. 随着时间推移, 越来越多的数学开始以形式符号记号表达, 取代了自然语言渲染. 对此我们可以找到几个坚实的理由.

首先, 一套精心选择的符号形式通常更加简短, 减少了无关信息的干扰, 有助于更简洁更直观地表达思想 (至少对于内行人而言是如此). 例如, 莱布尼茨本人发明的微分记号 $d y / d x$ , 巧妙地传达了小差分之比的思想, 并使得像链式法则 $d y / d x = d y / d u \cdot d u / d x$ 这样的定理, 凭借与普通代数的类比, 看起来就显得合情合理.

其次, 使用更加规范化的表达形式可以避免日常语言中的一些歧义, 从而更精确地传达含义. 对词语确切含义的疑虑在许多领域都很常见, 尤其是在法律领域. 数学也无法免于类似的根本分歧, 即对一个定理究竟在说什么, 或其成立条件究竟是什么的争论, 而且对这些问题的共识会随时间而改变 (Lakatos 1976; Lakatos 1980).

最后, 也许也是最重要的一点, 一套精心选择的符号记法能够使数学推理本身变得更加容易. 一个简单但极为出色的例子是数的位值 (positional)表示法, 其中一个数由一串数字符号表示, 每个符号隐含地乘以基数 (base)的某个幂次. 在十进制中, 基数为 $10$ , 我们将数码序列 $179$ 理解为: $179 = 1 \times 10^{2} + 7 \times 10^{1} + 9 \times 10^{0} .$

第1.4节 Boole的逻辑代数

词汇algebra来源于阿拉伯语的al-jabr, 最早在九世纪由Mohammed al-Khwarizmi (约780-850) 使用, 而他的名字正是算法 (algorithm)一词的词源. al-jabr一词的字面意思是重新结合, 但花拉子密用它来特指他通过合并 (重新结合) 同类项来解方程的方法, 例如从 $x + 4 = 6 - x$ 变换到 $2 x = 6 - 4$ , 进而得到解 $x = 1$ . 在此后的几个世纪里, 历经欧洲文艺复兴时期, 代数的含义本质上一直是用于解方程的运算规则.

在十九世纪, 传统意义上的代数达到了它的极限. 此前的核心关注点之一是求解越来越高次的方程, 但Niels Henrik Abel (1802-1829) 在1824年证明, 对于五次及五次以上的多项式方程, 不存在利用此前对低次方程有效的根式表达式来求解的一般方法. 然而与此同时, 代数的范围也在扩展并走向一般化. 传统上, 变量代表的是实数, 通常是有待确定的未知数. 但很快, 将所有常规的代数运算规则应用于虚量 $i$ 并假定其具有形式性质 $i^{2} = - 1$ , 成为了标准做法. 尽管这一做法在很长一段时间内缺乏严格的证明, 但它确实行之有效.

代数方法甚至被应用于通常意义上并非数的对象, 如矩阵和Hamilton的四元数, 即使代价是放弃通常的乘法交换律 $x y = y x$ . 人们逐渐认识到, 符号的潜在解释可以被忽略, 只要一劳永逸地确立了所使用的运算规则在该解释下都是有效的. George Boole (1815-1864) 对这一状况做了颇具远见的描述:

凡熟悉符号代数理论现状者皆知, 分析过程的有效性并不取决于所使用符号的解释, 而仅仅取决于它们的组合法则. 凡不影响所假定关系之真实性的解释体系, 都同样可以被接受; 事实上, 同一过程在一种解释方案下可以代表一个关于数的性质的问题的解, 在另一种解释方案下可以代表一个几何问题的解, 在第三种解释方案下则可以代表一个动力学或光学问题的解. (Boole 1847)

Boole进而指出, 尽管如此, 由于历史或文化的偶然因素, 当时所有的代数所涉及的对象在某种意义上都是量化的 (quantitative). 转而他引入了一种代数, 其对象要被解释为真或假的真值, 而其中的变量则表示命题. 使用命题这个词汇, 我们指的是一个断言, 其作出了对于事实的声明, 因而可以有意义地被认为要么为真要么为假. {译注: 这里说的断言, 和类型论里的判断, 在技术意义上不同, 作者只是生活化地使用这个名词.} 例如, $1 < 2$ , 所有人都是要死的, 月球由奶酪构成, 存在无限多个素数 $p$ 使得 $p + 2$ 也是素数都是命题的例子. 根据我们现有的知识水平, 前两个命题为真, 第三个为假, 第四个的真值则是未知的 (此即所谓的孪生素数猜想, 数学界的著名开放问题).

{原注: 实际上Boole给出了两种不同但有关联的解释: 一种是类的代数, 另一种是命题的代数; 我们将会专注于后者.} {译注: 这里说的类, 应该指的是某个固定集合的子集.}

我们熟悉对数施加各种算术运算, 如一元的负 (minus) (取相反数) 以及二元的乘 (乘法) 和加 (加法). 以完全类似的方式, 我们可以使用所谓的逻辑联结词来组合真值, 例如一元的非 (逻辑否定或补) 以及二元的与 (合取) 和或 (析取). 而且, 在书写表达式时, 我们可以用字母来代表任意命题, 正如代数中用字母代表数一样. Boole在对于他的系统的精确表述中, 以及对于许多逻辑常量和联结词使用熟悉的代数符号时, 强调了其与普通算术之间的联系:

$0$ 假

$1$ 真

$p q$ $p$ 且 $q$

$p + q$ $p$ 或 $q$

在这种解释之下, 许多令人熟悉的代数定律仍然成立. 例如, $p$ 且 $q$ 总是和 $q$ 且 $p$ 具有相同的真值, 所以我们可以认为交换律 $p q = q p$ 成立. 类似地, 既然 $0$ 是假, 那么 $0$ 且 $p$ 不论 $p$ 是什么总是为假, 即 $0 p = 0$ . 但是, 命题的布尔代数满足额外的定律, 其没有算术的对应物, 特别是 $p^{2} = p$ , 其中 $p^{2}$ 是 $p p$ 的缩写.

在日常英语里, 词汇或是有歧义的. 复合命题 $p$ 或 $q$ 可以解释为可兼的或 ( $p$ 或 $q$ 或两者都成立), 也可以解释为不可兼的 ( $p$ 或 $q$ 但是不能两者都成立). 日常使用里经常隐含了两种情况是互斥的 (例如我会明天做或者后天做). Boole原本的系统限制了这种代数, 以使得 $p + q$ 只有在 $p q = 0$ 时才有意义, 就像在普通代数里 $x / y$ 只有在 $y \neq 0$ 时才有意义. 然而, 遵循Boole的继任者William Stanley Jevons (1835–1882), 习惯上我们允许不加限制的或, 并以可兼的方式解释它. 我们总是会按照如今标准的含义理解或, $p$ 或 $q$ 的意思是 $p$ 或 $q$ 或两者都成立.

译者注记. 个人认为这一小节的叙述有点将命题和命题的真值混为一谈了, 但是这算是传统实践.

第1.4.1小节机械化

甚至在Boole之前, 用于逻辑推演的机器就已经被开发出来了, 其中最著名的是由Charles Stanhope (第三代Stanhope伯爵, 1753–1816) 发明的Stanhope演示器. 受此启发, Jevons (1870) 随后设计并建造了他的逻辑机器, 这是一种类似钢琴的装置, 能够在Boole的类代数中执行某些运算. 然而, 由于机械工程的局限性以及逻辑学本身发展的缓慢, 推理的机械化真正开始蓬勃发展是在稍晚的时期, 即现代计算机时代的开端. 我们将在本书后续章节中结合技术发展进一步介绍这段历史. Jevons的原始机器现陈列于Oxford科学史博物馆.

第1.4.2小节逻辑形式

在1.1节中, 我们谈到了论证具有相同的形式, 但并未对此给出精确的定义. 事实上, 对于用英语或其他自然语言表达的论证而言, 要做到这一点是很困难的, 因为自然语言往往无法清楚地呈现句子的逻辑结构: 表面上的相似性可能掩盖根本性的结构差异, 反之亦然. 例如, 英语中的is既可以表示具有...的性质 ( $4$ is even), 也可以表示和...相同 ( $2 + 2$ is $4$ ). 这个例子以及类似的情况常常引发哲学上的混淆.

一旦我们拥有了逻辑概念的精确符号体系 (如Boole的逻辑代数), 我们就可以简单地说: 两个论证具有相同的形式, 如果它们都是相同的形式表达式的实例, 实例化是通过一致地将变量替换为其他命题得到的. 并且我们可以利用形式语言对逻辑上有效的论证给出数学上精确的定义. 这并不意味着逻辑形式和纯逻辑论证的定义在哲学上是一个无足轻重的问题; 恰恰相反. 但我们满足于不去解决这个问题, 而是通过采纳一个精确的数学定义来巧妙地绕过它, 正如Hertz (1894) 回避了力学中力的含义这一问题一样. 在积累了足够的具体经验之后, 我们将简要探讨 (第7.8节) 我们对逻辑论证的界定如何与一些传统的哲学区分相对应.

第1.5节句法和语义

逻辑学的一个独特之处在于它严格区分符号表达式与其所代表的对象. 这一点值得特别强调, 因为在日常数学中, 我们常常不自觉地从符号直接过渡到符号所指称的数学对象. 例如, 当我们读写 $12$ 时, 我们将其视为一个数, 即集合 $ℕ$ 的一个元素, 而非用来表示该数的两个数码符号的序列. 然而, 当我们想要精确地进行形式化操作时, 无论是逐位相加十进制数, 还是运用代数法则重排符号表达式, 我们都需要维持这种区分. 毕竟, 当推导出诸如 $x + y = y + x$ 这样的等式时, 整个的要义在于两边所指称的数学对象是相同的; 如果我们只考虑潜在意义 (underlying meaning), 那么我们就不能直接讨论这样的形式操作.

因此, 通常我们关注的是: (i) 某个特定的合法形式表达式集合, 以及 (ii) 它们对应的意义. 这两者被严格区分开来, 但通过一种解释联系在一起, 解释将表达式映射至它们的意义: $[表达式] \overset{解释}{\to} [意义]$

形式化表达式与其意义之间的区分在语言学中同样重要, 我们将借用该学科的一些术语. 语言学有两个传统的子领域: 句法学, 关注句子的语法构成; 语义学, 关注句子的意义. 类似地, 在逻辑学中, 我们通常将那些如同代数运算般脱离意义而独立考察的方法称为句法的, 而将意义起重要作用的方法称为语义的. 句法和语义这两个词在语言学中还有更具体的含义, 这些含义同样被逻辑学所采纳.

一种语言的句法是一套语法规则体系, 规定了如何生成或识别合乎语法的短语和句子. 例如, 我们会认为I went to the shop是合乎语法的英语, 而I shop to the went则不是, 因为名词和动词的位置被交换了. 在逻辑系统中同样如此, 我们通常也会有规则告诉我们如何生成或识别合式表达式, 例如允许 $x + 1$ 但不允许 $+ 1 \times$ .
一个特定单词, 符号, 记号或短语的语义就是它的意义. 更广泛地说, 一种语言的语义是一种系统性地为该语言中所有 (合乎语法的) 表达式赋予意义的方式. 用语言学术语来说, 选择一种解释恰好就等同于为该语言给出一套语义.

第1.5.1小节对象语言和元语言

我们将要描述执行逻辑推理的形式规则, 然而又要用...逻辑来对这些规则进行推理, 这可能会令人困惑! 在这方面, 将我们所谈论的(形式)逻辑与我们用来对其进行推理的(日常直觉)逻辑之间的区别牢记在心是有益的. 为了强调这一对比, 我们有时会使用以下语言学术语. 元语言是用来谈论另一种不同的对象语言的语言, 类似地, 元逻辑是用来对于对象逻辑进行推理的. 因此, 我们通常将关于形式逻辑和自动推理系统所推导出的定理称为元定理, 而不仅仅是定理. 这样做不(只)是为了听起来更宏大, 而是为了强调它们与在那些形式系统内部表达的定理之间的区别. 同样, 应用于形式化数学证明的元逻辑推理通常被称为元数学 (参见第7.1节). 顺便提一下, 我们所选用的编程语言OCaml源自Edinburgh ML, 后者是专门为编写定理证明程序而设计的 (Gordon, Milner和Wadsworth 1979), 其名称代表元语言 (Meta Language). 这种对象-元的区分 (Tarski 1936; Carnap 1937) 并不局限于逻辑语言. 例如, 在一堂用英语讲授的俄语课上, 我们可以将俄语视为对象语言, 而将英语视为元语言.

第1.5.2小节抽象和具体句法

句法的细节并无根本性的重要意义. 数学有时是打印的, 有时是手写的, 人们做出各种本质上任意的选择, 这些选择并不改变符号组合使用的结构方式. 在计算机上实现逻辑的机械化时, 为简便起见, 我们将限制自己只使用标准的ASCII字符集, 其中包括无重音的拉丁字母, 数字以及一些常见的标点符号和空格. 对于许多逻辑学家使用的花体字母和特殊符号, 我们将用其他字母或单词来替代, 例如用forall代替 $\forall$ . 不过, 在理论讨论中我们仍将继续使用通常的符号. 这种不断的转换对于此前未见过或未理解这些符号的读者而言甚至可能是有帮助的.

无论符号表达式是如何读写的, 以一种更能反映其结构的形式来操作它们会更加方便. 考虑普通代数中的表达式 $x + y \times z - w$ . 这种线性形式掩盖了有意义的结构. 要理解哪些运算符作用于哪些子表达式, 甚至要弄清什么构成一个子表达式, 我们需要了解优先级和结合性的规则, 例如 $\times$ 比 $+$ 绑定更紧. 举例来说, 尽管在线性形式中它们看起来很相似, $y \times z$ 是一个子表达式, 而 $x + y$ 却不是. 即使我们通过完全加括号将结构显式化, 写成 $(x + (y \times z)) - w$ , 对表达式进行基本的有用操作, 如查找子表达式或对变量的特定值求值, 也会变得难以精确描述; 人们需要在公式中来回移动以匹配括号.

树结构则好得多: 正如家谱树能清晰地展示家族成员之间的关系, 表达式的树形表示能够显示其结构, 并使大多数重要的操作变得直截了当. 如同在家谱学中一样, 习惯上将树画成在印刷页面上向下生长的形式, 因此同一个表达式可以表示如下:

通常我们将人们使用的(主要是线性的)格式称为具体句法, 而将用于操作的结构性(通常是树状的)形式称为抽象句法. 像上面这样的树通常被称为抽象句法树 (AST), 它们作为形式语言的内部表示被广泛应用于各种符号处理程序中, 包括将高级编程语言翻译为机器指令的编译器.

尽管树形结构使表达式的结构更加清晰, 大多数人还是不愿意用树来思考或交流, 而更倾向于使用结构性较弱的具体句法. 因此, 在我们的定理证明程序中, 我们需要将输入从具体句法转换为抽象句法, 并将输出从抽象句法转换回具体句法. 这两项任务, 在计算机科学家那里分别被称为句法分析和美观打印, 如今已被很好地理解并且相当常规. 编写解析器和美观打印器的少量额外开销, 可以通过树形结构在内部操作上带来的更大便利得到充分回报. 存在一些对于诸如波兰记号, 逆波兰记号 (RPN), 以及LISP的S-表达式这样的具体句法系统的狂热倡导者, 其中我们的表达式按照这些记号分别会记作

- + x × y z w

x y z × + w -

(- (+ x (× y z)) w)

但是我们会使用更为传统的记号, 有着像

+

这样的中缀运算符, 以及优先级和括号规则.

第1.6节符号计算和OCaml

现代计算的早期人们普遍相信计算机基本上是用来进行数值计算的设备 (Ceruzzi 1983). 其输入和输出设备确实也在某种程度上偏向于这一方向: 当Samuels在1948年于IBM写下第一个跳棋程序时, 他不得不将输出编码为一个数字, 因为这就是唯一可以打印的内容了. 然而, 远在Turing从理论上构造通用机器 (参见第7.5节) 之前, 人们就已经认识到计算机的潜在应用范围要广泛得多. 例如, Ada Lovelace在1842年就观察到 (Huskey和Huskey 1980):

许多不熟悉数学研究的人想象, 因为[Babbage的分析]引擎的任务是以数字符号给出其结果, 所以其过程的性质必然是算术的和数值的, 而非代数的和解析的. 这是一个错误. 该引擎能够对其数值量进行排列和组合, 恰如它们是字母或任何其他一般性符号一样; 事实上, 如果做了相应的安排, 它完全可以以代数符号形式输出其结果.

如今已有许多执行符号计算的程序, 其中包括各种相当成功的计算机代数系统 (CAS). 定理证明程序与计算机代数系统有着很强的家族相似性, 甚至在它们能够解决的某些问题上存在重叠 (例如参见第5.11节).

从事符号计算的人的关注点影响了他们偏好的编程语言. 许多系统程序员青睐C, 数值分析人员偏好FORTRAN, 诸如此类, 而符号计算程序员通常更喜欢更高级的语言, 这些语言使典型的符号操作更加便捷, 将程序员从内存表示等显式细节中解放出来. 我们选择使用Objective CAML (OCaml)作为本书编程示例的载体. 我们的代码没有使用OCaml中任何较为特殊的特性, 应当很容易移植到相关的函数式语言, 如F#, Standard ML或Haskell.

我们坚持使用显式的OCaml代码, 对于没有计算机编程经验的读者, 或者只了解C或Java等命令式低级语言的读者来说, 可能会感到不安. 然而, 我们希望借助附录2以及本章末尾推荐的一些标准教材的额外学习, 有决心的读者能够掌握足够的OCaml知识来跟上讨论并动手实践代码. 作为OCaml中符号计算的一个温和入门, 我们现在将在普通代数这一许多读者所熟悉的领域中实现一些简单的操作.

第一个任务是定义一个数据类型以表示代数表达式的抽象句法. 我们允许表达式由诸如0, 1, 33这样的数值常量以及诸如x和y这样的命名变量通过加法 (+) 和乘法 (*) 运算构筑而成. 以下是相应的递归数据类型声明:

type expression =
   Var of string
 | Const of int
 | Add of expression * expression
 | Mul of expression * expression;;

也就是说, 一个表达式要么是由一个字符串标识的变量, 要么是由其整数值标识的常量, 要么是一个加法或乘法运算符作用于两个子表达式. (*表示一个类型构造器的定义域是一个笛卡尔积, 因此它可以接受两个表达式作为参数. 这与所定义的乘法运算毫无关系!) 我们可以使用这个类型定义所引入的句法构造器来创建任何特定表达式的符号表示, 例如 $2 \times x + y$ :

# Add(Mul(Const 2,Var "x"),Var "y");;
- : expression = Add (Mul (Const 2, Var "x"), Var "y")

符号计算的一个简单但具有代表性的例子是应用指定的变换规则, 如 $0 + x ⟶ x$ 和 $3 + 5 ⟶ 8$ , 来化简一个表达式. 每条规则在OCaml中通过一个起始模式和一个终止模式来表达, 例如Add(Const(0),x) -> x对应变换 $0 + x ⟶ x$ . (特殊模式_可以匹配任何内容, 因此最后一行确保了当没有其他模式匹配时, expr将被原样返回.) 当函数被调用时, OCaml会按顺序遍历这些规则, 并应用第一条起始模式与输入表达式expr匹配的规则, 将像x这样的变量替换为相应的子表达式.

let simplify1 expr =
  match expr with
    Add(Const(m),Const(n)) -> Const(m + n)
  | Mul(Const(m),Const(n)) -> Const(m * n)
  | Add(Const(0),x) -> x
  | Add(x,Const(0)) -> x
  | Mul(Const(0),x) -> Const(0)
  | Mul(x,Const(0)) -> Const(0)
  | Mul(Const(1),x) -> x
  | Mul(x,Const(1)) -> x
  | _ -> expr;;

然而, 仅化简一次并不一定足够; 我们更希望反复化简, 直到无法再取得进展为止. 为此, 让我们以自底向上的方式对表达式树进行遍历来应用上述函数, 这将以级联的方式进行化简. 按照传统的OCaml递归风格, 我们首先尽可能地化简所有直接子表达式, 然后对结果应用simplify1:

let rec simplify expr =
  match expr with
    Add(e1,e2) -> simplify1(Add(simplify e1,simplify e2))
  | Mul(e1,e2) -> simplify1(Mul(simplify e1,simplify e2))
  | _ -> simplify1 expr;;

与简单的自底向上遍历相比, 一种更精细的方法是将自顶向下和自底向上的化简混合使用. 例如, 如果 $E$ 非常大, 那么将 $0 \times E$ 直接化简为 $0$ 而不检查 $E$ 的内容似乎更为高效. 然而, 这需要谨慎实现, 以确保所有可化简的子项都被化简, 同时避免无限循环的危险. 不管怎样, 以下是我们的化简函数作用于表达式 $(0 \times x + 1) \times 3 + 12$ 的效果:

# let e = Add(Mul(Add(Mul(Const(0),Var "x"),Const(1)),Const(3)),
              Const(12));;
val e : expression =
  Add (Mul (Add (Mul (Const 0, Var "x"), Const 1), Const 3), Const 12)
# simplify e;;
- : expression = Const 15

走到这一步, 使用标准的OCaml函数式编程技术是很直接的: 用递归数据类型表示树结构, 通过模式匹配和递归来定义函数. 我们希望此前未使用过类似语言的读者能够开始理解为什么OCaml对符号计算具有吸引力. 当然, 那些钟爱其他编程语言的读者完全可以将我们的代码翻译成他们所喜欢的语言.

按照计划, 我们将实现一个句法分析器和美观打印器, 用于在抽象句法树和具体字符串 (如x + 0) 之间进行转换, 并将它们设置为由OCaml自动调用, 以完成表达式的输入和输出. 我们的具体句法以普通代数记号为蓝本, 但在两个方面我们将参照计算机语言而非传统数学的做法. 我们允许任意长的词作为变量, 而数学家传统上大多使用带上标和下标的单个字母; 鉴于ASCII字符集的有限性, 这一点尤为重要. 此外, 我们要求乘法必须用一个显式的中缀符号来书写 (x * y), 而不是简单的并置 (x y), 因为后者我们稍后将用于函数应用. 在日常数学中, 我们通常依赖诸如变量名和背景知识之类的非正式线索来一眼看出 $f (x + 1)$ 表示函数应用而 $y (x + 1)$ 表示乘法, 但这种依赖上下文的解析实现起来要复杂一些.

第1.7节句法分析 (parsing)

将具体句法转换为抽象句法是一个已被充分理解的课题, 因为它对编程语言的编译器, 解释器和翻译器具有核心重要性. 现在的惯例是将这一转换分为两个独立的阶段:

词法分析 (扫描) 将输入的字符序列分解为词元 (token) (粗略地说, 就是词);
句法分析将词元的线性序列转换为抽象句法树.

例如, 词法分析可能会将输入v10 + v11拆分为三个词元v10, +和v11, 将相邻的alphanumeric字符合并成词, 并丢弃这些记号之间任意数量的空格 (甚至可能包括换行符). 这样, 句法分析只需处理词元序列, 而可以忽略更底层的细节.

第1.7.1小节词法分析

第1.7.2小节句法分析

第1.8节美观打印 (prettyprinting)

第1.9节深入阅读

我们在此仅列出一般性的参考文献, 以及那些后续章节中不会深入讨论的主题的相关文献. 更具体和更技术性的参考文献将在后续各章末尾给出.

Davis (2000) 和Devlin (1997) 是关于逻辑及其机械化发展的综合性著作, 同时也涉及计算机科学和语言学中的相关课题. 关于逻辑的入门教材有很多, 如Hodges (1977), Mates (1972) 和Tarski (1941). 有两本逻辑著作与本书一样附带了计算机程序, 分别是Keisler (1996) 以及Barwise和Etchemendy (1991). 此外还有若干著作仔细探讨了逻辑推理在数学中的作用, 例如Garnier和Taylor (1996).

Bochénski (1961), Dumitriu (1977) 以及Kneale和Kneale (1962) 是关于逻辑史的详尽而严谨的学术著作. Kneebone (1963) 是一部数理逻辑综述, 其中也包含大量历史资料, 而Marciszewski和Murawski (1995) 则与本书一样强调机械化这一主题. 关于Jevons的逻辑钢琴以及其他早期推理机器的生动介绍 (可以追溯至十三世纪西班牙神秘主义者Ramon Lull的工作), 参见Gardner (1958). MacKenzie (2001) 是关于自动定理证明发展及其应用的历史概述.

有许多哲学逻辑导论著作更深入地讨论了诸如逻辑后承 (logical consequence) 的概念等议题, 例如Engel (1991), Grayling (1990) 和Haack (1978). 具有哲学倾向的读者或许会有兴趣审视Mill (1865) 和Mauthner (1901) 关于逻辑后承不过是一种心理偶然现象的主张, 以及Frege (1879) 和Husserl (1900) 针锋相对的论战式回应.

关于OCaml和函数式编程的更多参考文献, 请参见附录2. 我们所描述的基本句法分析技术几乎在每一本编译技术著作中都有详细阐述. 由Aho, Sethi和Ullman (1986) 所著的龙书长期以来被视为经典, 不过对于主要兴趣不在句法分析方面的读者来说, 其关于句法分析的论述可能过于详尽. 对哪些句法分析任务是可判定的, 哪些是不可判定的进行详细的理论分析, 自然引向可计算性理论. Davis, Sigal和Weyuker (1994) 不仅全面地涵盖了这方面的内容, 而且本身也是一本逻辑教材. 关于美观打印的更多内容, 参见Oppen (1980b) 和Hughes (1995).

与本书风格相同的, 面向实现的定理证明讨论, 还见于Huet (1986), Newborn (2001) 和Paulson (1992), 而Gordon (1988) 也以类似风格描述了定理证明器在程序验证环境中的应用. 其他关于自动定理证明的综合性教材包括Chang和Lee (1973), Duffy (1991) 和Fitting (1990), 此外还有一些更专门的著作将在后文中提及.

第1.10节练习

第2章命题逻辑

我们将会仔细研究命题逻辑, 在OCaml之中定义其形式句法, 连带着句法分析和打印支持. 我们将会讨论一些关键性的命题算法, 并证明紧致性定理, 还会指明命题定理证明的丰富应用.

第2.1节命题逻辑的句法

命题逻辑是第1.4节所呈现的Boole的命题代数的一种现代版本. {原注: 诚然如此, 命题逻辑有时被称为Boole代数. 但是, 这容易令人感到困惑, 因为数学家将一切满足特定公理的代数结构都称为Boole代数, 大致上这些公理是通常的代数律连带着 $x^{2} = x$ (Halmos 1963).} {译注: 这说的是Boole环, 可以被定义为含幺元的幂等环.} 其牵涉被称为公式的表达式, 而公式的意图是表示命题, 即可以被认为是真或者假的断言. {原注: 当查阅文献时, 读者或许会发现用的是术语合式公式 (缩写为wff) 而非仅仅公式. 这是为了强调在具体句法之中, 我们仅仅关心具有句法合法形式的字符串, 而非任意的符号的(字符)串.} 这些公式可以由常量true和false以及一些基本的原子命题 (或者说原子) 通过各种逻辑联结词 (not, and, or, 等等) 构筑而成. 原子命题类似于通常代数之中的变量, 有时我们将其称为命题变量或者Boole变量. 正如词汇原子所暗示的, 我们并不会分析其内在结构; 当我们在下一章中处理一阶逻辑时则要进行考虑.

第2.1.1小节 OCaml中的表示

我们使用一个OCaml数据类型来表示命题公式, 这可以类比于第1.6节里的表达式类型. 我们允许常量命题False和True以及原子命题Atom p, 并且可以由它们通过使用幺元运算符Not以及二元联结词And, Or, Imp (implies), Iff (if and only if) 构筑公式. 我们将对于这些联结词的确切含义的讨论推后, 先来处理立即有用的部分.

原子命题的潜在集合很大程度上是任意的, 尽管对于某些目的而言其应该是无限的, 以避免限制我们所能考虑的公式的复杂度. 在抽象处理之中原始命题往往就是用数字索引的. 我们令原子命题的潜在类型'a为公式类型的定义的一个参数, 由此许多基本函数可以不管该类型为何而一样工作. 当我们考虑扩展至一阶逻辑时, 这种乍看上去空洞的泛化有助于避免重复工作. 出于相同的理由, 我们包含了两个额外的公式类型构造子Forall和Exists. 这些在本章中大致上会被忽略, 不过其作用将会在之后变得清晰.

type ('a)formula = False
                 | True
                 | Atom of 'a
                 | Not of ('a)formula
                 | And of ('a)formula * ('a)formula
                 | Or of ('a)formula * ('a)formula
                 | Imp of ('a)formula * ('a)formula
                 | Iff of ('a)formula * ('a)formula
                 | Forall of string * ('a)formula
                 | Exists of string * ('a)formula;;

第2.1.2小节具体句法

正如我们之前所见, Boole对于逻辑联结词使用了传统的代数符号, 例如 $+$ . 这使得许多逻辑事实看起来令人迷惑地熟悉, 例如 $p (q + r) = p q + p r$

但是有些逻辑事实看起来就相当奇怪了, 例如若是将第一个公式中的and和or系统地交换, 则可以得到以下事实: $p + q r = (p + q) (p + r)$ {译注: 注意这里遵循惯例, 乘法先于加法进行计算.}

以逻辑的伪装这是在说如果 $p$ 成立或者 $q$ 和 $r$ 都成立, 那么 $p$ 或 $q$ 成立, 且 $p$ 或 $r$ 成立, 反之亦然. 稍加思考则可令读者确信的确如此; 回忆一下 $p$ 或 $q$ 是可兼的, 即包含同时成立的情况.

为了避免困惑或者是由通常代数产生误导性的类比, 我们将会对于联结词使用如今业已标准化了的特殊符号. 下表的每一行我们给出了每种构造的英语读法, 之后跟着的是我们在讨论中所采用的标准符号化, 然后是我们在程序中所支持的ASCII近似化, 相应的抽象句法构造, 以及其他一些可能会用到的符号化. (最后一列如果只是阅读本书则可以忽略, 但是在参考其他文献时则会很有用.)

英语符号 ASCII OCaml 其他符号

false $⊥$ false False $0, F$

true $⊤$ true True $1, T$

not $p$ $\neg p$ ~p Not p $\overline{p}, - p, \sim p$

$p$ and $q$ $p \land q$ p /\ q And(p,q) $p q, p & q, p \cdot q$

$p$ or $q$ $p \lor q$ p \/ q Or(p,q) $p + q, p | q$

$p$ implies $q$ $p \Rightarrow q$ p ==> q Imp(p,q) $p \to q, p \supset q$

$p$ iff $q$ $p \Leftrightarrow q$ p <=> q Iff(p,q) $p \leftrightarrow q, p \equiv q, p \sim q$

符号 $\lor$ 来源于拉丁词汇vel的首字母, 其意为可兼或. $⊤$ 的形状类似于true的首字母, 而 $⊥$ 和 $\land$ 不过是 $⊤$ 和 $\lor$ 的镜像, 体现了一种对偶原则, 这将在第2.4节中加以解释. 否定的符号与算术取负的符号足够相似, 因此容易记忆. 有些读者可能在非形式化的数学中见过推出和当且仅当的符号.

和普通代数一样, 我们需要建立联结词的优先级规则, 并且若有必要可以通过括号来覆写规则. 我们所采用的(颇为标准的)优先级顺序已经在上表中指明, 其中 $\neg$ 是最高的, $\Leftrightarrow$ 是最低的. 例如, $p \Rightarrow q \land \neg r \lor s$ 意思是 $p \Rightarrow ((q \land (\neg r)) \lor s)$ . 或许赋予 $\land$ 和 $\lor$ 相等的优先级更为合适, 但是只有少数作者这么做 (Dijkstra和Scholten 1990), 我们还是从众赋予 $\land$ 更高的优先级.

我们所有的二元联结词都以向右结合的方式进行句法分析, 于是 $p \land q \land r$ 的意思是 $p \land (q \land r)$ , 诸如此类. 在非形式化的实践里, 形式如 $p \Rightarrow q \Rightarrow r$ 这样的迭代推出经常用作 $p \Rightarrow q$ 且 $q \Rightarrow r$ 的缩写, 就像 $x \leq y \leq z$ 是 $x \leq y$ 且 $y \leq z$ 的缩写. 但是对于我们而言, $p \Rightarrow q \Rightarrow r$ 指的是 $p \Rightarrow (q \Rightarrow r)$ , 不是一个意思.

在非形式化的讨论里, 我们不会使得Atom构造子显式化, 但是会使用诸如 $p, q, r$ 这样的名字代表一般的公式, 而 $x, y, z$ 代表一般的原子. 例如, 当我们讨论 $x \Leftrightarrow p$ 时, 我们往往指的是具有形式Iff(Atom(x),p)的公式.

{译注: 实际情况是, 这个记号约定基本上废的, $p, q, r$ 除了用于公式的元变量, 也一般用作原子命题的名字, 虽然一般不用作原子命题的元变量. 问题在于, 这足够引起混淆了, 例如 $p \Rightarrow q$ 到底指的是一个具体的公式, 还是一个公式的形式/模式, 只能通过上下文判断.}

第2.1.3小节通用句法分析和打印

我们为公式建立了自动化的句法分析和打印支持, 正如我们在第1.7–1.8节中对普通代数表达式所做的那样. 由于具体细节对当前目的而言并不重要, 代码的详细描述推迟到附录3中给出. 不过我们确实想要强调的是, 既然公式的类型是以原子命题的类型为参数的, 那么句法分析和打印函数也同样是参数化的. 函数parse_formula的类型为:

# parse_formula;;
- : (string list -> string list -> 'a formula * string list) *
    (string list -> string list -> 'a formula * string list) ->
    string list -> string list -> 'a formula * string list
= <fun>

第2.1.4小节原始命题

尽管许多函数将会是通用的 (generic), 但是如果我们固定在一个确定的原始命题类型上, 对于某些操作进行实验会更加简单. 据此我们定义了以下的原始命题类型, 其由名字索引 (即字符串):

type prop = P of string;;

我们定义以下函数来获取一个命题的名字:

let pname(P s) = s;;

现在我们只需提供一个原子命题的解析器, 这相当直截了当. 出于附录3中解释的原因, 我们需要检查第一个输入字符是否不是左括号, 除此之外, 我们只需将输入流中的第一个标记作为原始命题的名称即可:

let parse_propvar vs inp =
  match inp with
    p::oinp when p <> "(" -> Atom(P(p)),oinp
  | _ -> failwith "parse_propvar";;

现在我们将其提供给通用的公式解析器, 其中对于目前未使用的中缀原子解析器传入一个总是失败的函数, 对于非命题变量的上下文则传入一个空列表:

第2.1.5小节句法操作

如果我们能有对应于公式构造子的句法操作作为正常的OCaml函数可用是很方便的:

let mk_and p q = And(p,q) and mk_or p q = Or(p,q)
and mk_imp p q = Imp(p,q) and mk_iff p q = Iff(p,q)
and mk_forall x p = Forall(x,p) and mk_exists x p = Exists(x,p);;

对偶地, 往往能够解构公式而不需要显式的模式匹配也是方便的. 以下这个函数解构了一个等价 (或者说biimplication, 或者说biconditional), 即将具有形式 $p \Leftrightarrow q$ 的公式转换为序对 $(p, q)$ :

let dest_iff fm =
  match fm with Iff(p,q) -> (p,q) | _ -> failwith "dest_iff";;

类似地, 以下函数将一个合取公式 $p \land q$ 分解为两个合取分量(conjunct) $p$ 和 $q$ :

let dest_and fm =
  match fm with And(p,q) -> (p,q) | _ -> failwith "dest_and";;

而以下函数将一个合取递归地分解为一个合取分量的列表:

let rec conjuncts fm =
  match fm with And(p,q) -> conjuncts p @ conjuncts q | _ -> [fm];;

下列类似的函数将一个析取公式 $p \lor q$ 分解为析取分量(disjunct) $p$ 和 $q$ , 一个是在顶层, 一个则是递归的:

let dest_or fm =
  match fm with Or(p,q) -> (p,q) | _ -> failwith "dest_or";;

let rec disjuncts fm =
  match fm with Or(p,q) -> disjuncts p @ disjuncts q | _ -> [fm];;

以下是推出式的一个顶层解构子:

let dest_imp fm =
  match fm with Imp(p,q) -> (p,q) | _ -> failwith "dest_imp";;

一个推出式 $p \Rightarrow q$ 里的公式 $p$ 和 $q$ 分别被称为其前件和后件, 而我们也应该定义相应的函数:

let antecedent fm = fst(dest_imp fm);;
let consequent fm = snd(dest_imp fm);;

我们经常需要通过对公式进行递归来定义函数, 正如我们在第1.6节中对化简所做的那样. 有两种递归模式似乎足够常见, 因此有必要定义通用函数. 下面这个函数将一个函数应用于公式中的所有原子, 但保持其余结构不变. 例如, 它可以用来将某个特定的原子命题系统地替换为另一个公式:

let rec onatoms f fm =
  match fm with
    Atom a -> f a
  | Not(p) -> Not(onatoms f p)
  | And(p,q) -> And(onatoms f p,onatoms f q)
  | Or(p,q) -> Or(onatoms f p,onatoms f q)
  | Imp(p,q) -> Imp(onatoms f p,onatoms f q)
  | Iff(p,q) -> Iff(onatoms f p,onatoms f q)
  | Forall(x,p) -> Forall(x,onatoms f p)
  | Exists(x,p) -> Exists(x,onatoms f p)
  | _ -> fm;;

下面这个函数是列表迭代器itlist之于公式的类比, 它将一个二元函数迭代地作用于公式中的所有原子:

let rec overatoms f fm b =
  match fm with
    Atom(a) -> f a b
  | Not(p) -> overatoms f p b
  | And(p,q) | Or(p,q) | Imp(p,q) | Iff(p,q) ->
        overatoms f p (overatoms f q b)
  | Forall(x,p) | Exists(x,p) -> overatoms f p b
  | _ -> b;;

一个特别常见的应用是收集与原子相关联的某种属性的集合; 最简单的情形就是返回所有原子的集合. 我们可以通过将一个函数 $f$ 连同一个append操作迭代地作用于所有原子来实现这一点, 最后将结果转换为集合以去除重复项. (我们也可以在过程中使用union来逐步去除重复项, 但当涉及的集合较大时, 当前的实现方式可能更为高效.)

let atom_union f fm = setify (overatoms (fun h t -> f(h)@t) fm []);;

我们很快将会看到对于如何使用这些非常一般的函数的刻画.

第2.2节命题逻辑的语义

既然命题公式意在表示可能为真或者为假的断言, 一个公式的最终含义只是两个真值true和false中的一个. 然而, 正如像 $x + y + 1$ 这样的一个代数表达式当我们知道变量 $x$ 和 $y$ 所代表的东西之后只有一个确切的含义, 一个命题公式的含义依赖于被分配给其原子公式的真值. 这种分配在一个赋值(valuation)之中进行编码, 赋值是一个从原子的集合到真值的集合 ${false, true}$ 的函数. 给定一个公式 $p$ 和一个赋值 $v$ , 然后我们可以根据下列递归定义的函数求得总体的真值:

let rec eval fm v =
  match fm with
    False -> false
  | True -> true
  | Atom(x) -> v(x)
  | Not(p) -> not(eval p v)
  | And(p,q) -> (eval p v) & (eval q v)
  | Or(p,q) -> (eval p v) or (eval q v)
  | Imp(p,q) -> not(eval p v) or (eval q v)
  | Iff(p,q) -> (eval p v) = (eval q v);;

这是我们对于命题逻辑的数学定义, 意在作为对于我们的直觉的自然形式化. {原注: 我们也可以选择将部分求值了的eval p, 即一个从赋值到值的函数, 视为公式p的语义, 而非将赋值当作额外的参数. 这主要只是一种术语问题.} (implication的语义并不显然, 之后我们将详细讨论.) 每个逻辑联结词都由OCaml的内置类型bool上的一个相应的运算子所解释. 为了完全明确这些运算子的含义, 我们可以枚举所有可能的输入组合并观察相应的输出, 例如对于&运算子:

# false & false;;
- : bool = false
# false & true;;
- : bool = false
# true & false;;
- : bool = false
# true & true;;
- : bool = true

我们可以将这些信息排列在一张真值表中, 展示如何由一个公式的立即子公式的真值来确定该公式被赋予的真值: $\begin{matrix} p & q & p \land q & p \lor q & p \Rightarrow q & p \Leftrightarrow q \\ false & false & false & false & true & true \\ false & true & false & true & true & false \\ true & false & false & true & false & false \\ true & true & true & true & true & true \end{matrix}$ 当然了, 出于完整性的考量, 我们也应该包括幺元否定的真值表: $\begin{matrix} p & \neg p \\ false & true \\ true & false \end{matrix}$

让我们尝试在一个赋值下对公式 $p \land q \Rightarrow q \land r$ 求值, 其中 $p, q, r$ 分别被设为true, false和true. (我们不必费心去定义那些未出现在公式中的原子的值, OCaml会发出我们还没有完成的警告.)

# eval <<p /\ q ==> q /\ r>>
       (function P"p" -> true | P"q" -> false | P"r" -> true);;
...
- : bool = true

然而在另一个赋值下, 该公式可以求值为false; 读者可能会发现手动验证这些结果是有益的练习:

eval <<p /\ q ==> q /\ r>>
     (function P"p" -> true | P"q" -> true | P"r" -> false);;

第2.2.1小节机械化了的真值表

我们期望对于一个公式的求值独立于赋值如何给没有出现在公式之中的原子分配真值. 让我们通过定义一个提取公式之中所出现的原子命题的集合的函数来使得我们的表述精确化. 以抽象的数学术语来说, 我们将通过公式上的递归定义 $atoms$ 如下: $\begin{array}{rcl} atoms (⊥) & = & \emptyset \\ atoms (⊤) & = & \emptyset \\ atoms (x) & = & {x} \\ atoms (\neg p) & = & atoms (p) \\ atoms (p \land q) & = & atoms (p) \cup atoms (q) \\ atoms (p \lor q) & = & atoms (p) \cup atoms (q) \\ atoms (p \Rightarrow q) & = & atoms (p) \cup atoms (q) \\ atoms (p \Leftrightarrow q) & = & atoms (p) \cup atoms (q) \end{array}$

作为公式上的结构归纳证明的一个简单例子 (见附录1和2), 我们将会证明 $atoms (p)$ 总是有限的, 因而我们可以基于ML的列表来解释它而并没有曲解其含义. (当然了, 我们需要记住一般情况下列表相等性和集合相等性并不相同.) {译注: 我的理解大概就是这里可以使用列表表示集合, 仅此而已.}

定理2.1. 对于任意的命题公式

p

, 集合

atoms (p)

是有限的.

证明. 对公式的结构进行归纳证明.
若

p

是

⊥

或

⊤

, 则

atoms (p)

是空集; 若

p

是一个原子命题, 则

atoms (p)

是一个单元素集. 在所有这些情况下, 它们都是有限的.
若

p

的形式为

\neg q

, 则由归纳假设,

atoms (q)

是有限的, 且根据定义,

atoms (\neg q) = atoms (q)

.
若

p

的形式为

q \land r

q \lor r

q \Rightarrow r

或

q \Leftrightarrow r

, 则

atoms (p) = atoms (q) \cup atoms (r)

. 由归纳假设,

atoms (q)

和

atoms (r)

都是有限的, 而两个有限集的并集仍然是有限的.

◻

类似地, 我们可以形式化地澄清以上所提及的直觉上显然的事实.

定理2.2. 对于任意的命题公式

p

, 如果两个赋值

v

和

v^{'}

在集合

atoms (p)

上相合, 即对于每个

x \in atoms (p)

都有

v (x) = v^{'} (x)

, 那么

eval p v = eval p v^{'}

证明. 对

p

的结构进行归纳证明.
如果

p

是

⊥

或者

⊤

, 那么其真值解释是独立于赋值的.
如果

p

是一个原子

x

, 那么

atoms (x) = {x}

, 而根据题设我们有

v (x) = v^{'} (x)

. 因此,

eval p v = v (x) = v^{'} (x) = eval p v^{'}

.
如果

p

具有形式

q \land r

q \lor r

q \Rightarrow r

或

q \Leftrightarrow r

, 那么

atoms (p) = atoms (q) \cup atoms (r)

. 既然赋值在两个集合之并上是相合的, 那么其在

atoms (q)

和

atoms (r)

上更是相合的了. 因此, 我们可以应用归纳假设以得出

eval q v = eval q v^{'}

和

eval r v = eval r v^{'}

. 既然

p

的赋值是这些子赋值的函数, 那么

eval p v = eval p v^{'}

◻

以上 $atoms$ 的定义可以被直接翻译为一个OCaml函数, 例如对于 $\cup$ 使用union而对于 ${x}$ 使用[x]. 然而, 我们更倾向于基于既有的迭代子atom_union:

let atoms fm = atom_union (fun a -> [a]) fm;;

例如:

# atoms <<p /\ q \/ s ==> ~p \/ (r <=> s)>>;;
- : prop list = [P "p"; P "q"; P "r"; P "s"]

鉴于对于一个命题公式 $p$ 的解释只依赖于赋值在有限集合 $atoms (p)$ (设其有 $n$ 个元素) 上的动作, 并且对于每个原子命题只有两种选择可作, 于是最终的真值完全由对于这些原子的总共 $2^{n}$ 种选择所确定. 因此, 我们可以自然地将真值表形式的枚举从基本运算推广至任意的公式. 为了在OCaml中实现这个, 我们从定义一个函数开始, 其会测试一个函数subfn是否会在原子ats的所有可能赋值上返回true, 对于其他所有原子则使用既有的赋值v. 所有赋值的空间是通过相继修饰v以设定每个原子p为true和false与递归调用探索的:

let rec onallvaluations subfn v ats =
  match ats with
    [] -> subfn v
  | p::ps -> let v' t q = if q = p then t else v(q) in
             onallvaluations subfn (v' false) ps &
             onallvaluations subfn (v' true) ps;;

我们可以将其应用于一个函数, 这个函数绘制真值表的一行, 然后返回true. (这个返回值是重要的, 因为&只有在其第一个参数是true的情况下才会对于第二个参数进行求值.) 这可以用来绘制一个公式的整个真值表:

let print_truthtable fm =
  let ats = atoms fm in
  let width = itlist (max ** String.length ** pname) ats 5 + 1 in
  let fixw s = s^String.make(width - String.length s) ' ' in
  let truthstring p = fixw (if p then "true" else "false") in
  let mk_row v =
     let lis = map (fun x -> truthstring(v x)) ats
     and ans = truthstring(eval fm v) in
     print_string(itlist (^) lis ("| "^ans)); print_newline(); true in
  let separator = String.make (width * length ats + 9) '-' in
  print_string(itlist (fun s t -> fixw(pname s) ^ t) ats "| formula");
  print_newline(); print_string separator; print_newline();
  let _ = onallvaluations mk_row (fun x -> false) ats in
  print_string separator; print_newline();;

{译注: 老实说我不喜欢这种代码写法, 其将求值和副作用混在了一起. 我宁愿单独再写一个类似的函数专门处理副作用.}

请注意, 我们以宽度为width的列进行打印, 列宽足以容纳所有原子的名字以及true和false, 外加一个末尾空格. 这样, 表格中的所有项就能整齐地对齐. 例如:

# print_truthtable <<p /\ q ==> q /\ r>>;;
p     q     r     | formula
---------------------------
false false false | true
false false true  | true
false true  false | true
false true  true  | true
true  false false | true
true  false true  | true
true  true  false | false
true  true  true  | true
---------------------------
- : unit = ()

第2.2.2小节形式语言和自然语言

命题逻辑为我们提供了一种形式化的方式, 来表达英语或其他自然语言中某些复杂的命题. 练习将英语中的复合命题形式化 (即翻译为形式逻辑) 是很有益的. 正如在两种自然语言之间进行翻译一样, 我们不能总是期望逐词对应. 但只要对非形式命题的结构有一定的了解, 通常就可以进行相当直接的形式化.

在命题逻辑中, 除了上面给出的优先级规则之外, 我们还可以使用标准的数学括号技术将命题组合在一起, 例如区分 $p \land (q \lor r)$ 和 $(p \land q) \lor r$ . 括号在英语和大多数其他语言中的用法截然不同 (用来插入像这样的旁注). 在英语中表示优先级是一件更加临时且笨拙的事情, 通常通过插入额外的标点符号和噪音词来给短语加括号, 从而消除歧义. 例如, 我们可以将上述两个例子分别表述为 $p$ , and also either $q$ or $r$ 和either both $p$ and $q$ , or else $r$ . 对于复杂的命题, 这种方式会变得非常繁琐, 而这实际上也是需要形式语言的部分原因.

一般来说, 像and, or和not这样的结构可以相当直接地从英语翻译为相应的逻辑联结词. 联结词not在英语中也可以隐含在前缀如dis-和un-中, 因此我们可以将You are either honest and kind, or dishonest, or unkind翻译为 $H \land K \lor \neg H \lor \neg K$ . 然而, 有时英语短语暗示着超越纯粹真值函数之外的细微含义. 例如, and常常表示因果关系 (he dropped the plate and it broke) 或时间顺序 (she climbed into bed and turned out the light). but一词可以说与and有着相同的真值函数解释, 但它表达的是各组成命题之间以一种出人意料或令人遗憾的方式相连. 同样, unless可以合理地翻译为or, 但由此导致的 $p$ unless $q$ 与 $q$ unless $p$ 之间的对称似乎令人意外.

更成问题的是推出式或条件式 $p \Rightarrow q$ 与其预期的英语表述 $p$ implies $q$ 或if $p$ then $q$ 之间的关系. 在这一点上表面上的不协调困扰着许多形式逻辑的初学者, 并且至少使一个人永远放弃了这门学科 (Waugh 1991). 事实上, 关于推出式的意义的争论可以追溯到两千多年前的墨伽拉-斯多噶学派逻辑学家 (Bochénski 1961). 据Sextus Empiricus记载, 公元前二世纪亚历山大图书馆的馆长Callimachus曾说连屋顶上的乌鸦都在争论哪些条件句是真的.

首先, 让我们明确一点: 如果我们对 $p \Rightarrow q$ 采用任何真值函数语义, 即根据 $p$ 和 $q$ 的真值来定义 $p \Rightarrow q$ 的真值, 那么我们所选择的语义是唯一合理的. 按照直觉理解, 推出最基本的原则是: 如果 $p$ 和 $p \Rightarrow q$ 都为真, 那么 $q$ 也为真; 因此, 如果 $p$ 为真而 $q$ 为假, 则 $p \Rightarrow q$ 必须为假. 此外, $p \land q \Rightarrow p$ 总是为真这一点也是合理的, 而只有我们所选择的语义才能在 $p$ 和 $q$ 取任意真值的情况下使之为真.

第2.3节有效性, 可满足性, 重言

我们称一个赋值 $v$ 满足一个公式 $p$ , 如果 $eval p v$ 为真. 一个公式被称为是:

重言或者逻辑有效的, 如果其被所有公式满足, 或者等价地说, 如果其真值表的每一行的值都为真;
可满足的, 如果其被某个赋值满足, 即其真值表至少有一行的值为真;
不可满足的或者说矛盾, 如果没有赋值可以满足它, 即其真值表的每一行的值都为假.

注意到一个重言也是可满足的, 另外正如名字所暗示的, 一个公式是不可满足的恰当其不是可满足的. 而且, 在任何赋值中, $eval (\neg p) v$ 为假当且仅当 $eval p v$ 为真. 因此, $p$ 是一个重言当且仅当 $\neg p$ 是不可满足的.

最简单的重言是 $⊤$ ; 一个稍微有趣点的重言例子是 $p \land q \Rightarrow p \lor q$ (如果 $p$ 和 $q$ 都为真, 那么 $p$ 和 $q$ 至少有一个为真), 而一个许多人第一眼看上去会比较惊讶的例子是Peirce律 $((p \Rightarrow q) \Rightarrow p) \Rightarrow p$ :

# print_truthtable <<((p ==> q) ==> p) ==> p>>;;
p     q     | formula
---------------------
false false | true
false true  | true
true  false | true
true  true  | true
---------------------

对于我们首先在OCaml中生成其真值表的公式 $p \land q \Rightarrow q \land r$ , 它是可满足的, 因为其真值表的最后一列有true, 但它不是重言, 因为其也有false. 最简单的矛盾是 $⊥$ , 另一个简单的矛盾是 $p \land \neg p$ ( $p$ 既为真又为假):

# print_truthtable <<p /\ ~p>>;;
p     | formula
---------------
false | false
true  | false
---------------

从直觉上来说, 重言总是为真, 可满足公式有时(但可能并不总是)为真, 矛盾总是为假. 的确如此, 重言意在形式化地捕获引论章节以非技术性方式所讨论的逻辑真性 (logical truth) 的概念, 到目前为止的话我们是在命题逻辑中定义了重言. 重言恰可以类比于诸如 $x^{2} - y^{2} = (x + y) (x - y)$ 这样的代数等式, 其构成变量的值不论为何都是一般为真的 (universally true). 可满足公式可以类比于至少有解的等式, 但不必总是有效, 例如 $x^{2} + 2 = 3 x$ . {译注: 英语里等式和方程都是equation就是了.} 矛盾可以类比于无解的等式, 例如 $0 \cdot x = 1$ . {译注: 这里当然都是在实数域上讨论方程.}

将(不)可满足性的想法从公式推广至公式的集合是有用的: 公式的集合 $Γ$ 被称为是可满足的, 如果存在一个赋值 $v$ 能够同时满足集合里的所有公式. 注意到同时: ${p \land \neg q, \neg p \land q}$ 是不可满足的, 即便其每个公式都是可满足的. 当所关心的集合有限时, 设 $Γ = {p_{1}, \dots, p_{n}}$ , $Γ$ 的可满足性等价于单一公式 $p_{1} \land \dots \land p_{n}$ 的可满足性, 读者可从定义看出来. 然而, 在我们之后的工作里, 考虑无限的公式集合的可满足性也是必要的, 其就无法直接归约为单一公式的可满足性了. 我们也会使用记号 $Γ ⊨ q$ 来表达对于所有使得每个 $p \in Γ$ 都为真的赋值, 该赋值也使得 $q$ 为真. 注意到在有限的 $Γ = {p_{1}, \dots, p_{n}}$ 这种情况下, $Γ ⊨ q$ 等价于断言 $p_{1} \land \dots \land p_{n} \Rightarrow q$ 是一个重言. 在 $Γ = \emptyset$ 的情况下, $\emptyset ⊨ q$ 一般记为 $⊨ q$ , 意即 $q$ 是一个重言. {译注: $Γ ⊨ q$ 一般读作 $Γ$ 语义蕴涵 $q$ .}

第2.3.1小节重言和可满足性检查

虽然我们可以通过检查真值表来确定公式的状态, 但让计算机完成所有工作会更简单. 以下函数通过检查公式是否在所有赋值下均求值为true来测试该公式是否为重言式.

let tautology fm =
  onallvaluations (eval fm) (fun s -> false) (atoms fm);;

注意到一旦任意的求值碰到false, 那么根据onallvaluations的编写方式, 其会立即返回, 而不是坚持对于所有可能的赋值进行求值. {译注: 说立即返回其实稍有不准确之处, 因为鉴于它是(非尾)递归的, 所以返回时还需要走过之前途径了的and. 这一点其实可以优化, 但就onallvaluations这个函数而言没有必要优化.}

# tautology <<p \/ ~p>>;;
- : bool = true
# tautology <<p \/ q ==> p>>;;
- : bool = false
# tautology <<p \/ q ==> q \/ (p <=> q)>>;;
- : bool = false
# tautology <<(p \/ q) /\ ~(p /\ q) ==> (~p <=> q)>>;;
- : bool = true

使用之前注意到的其间关系, 我们可以基于重言定义可满足性和不可满足性:

let unsatisfiable fm = tautology(Not fm);;

let satisfiable fm = not(unsatisfiable fm);;

第2.3.2小节替换

和代数恒等式一样, 我们期望能够将一个重言中的原子命题一致地替换为其他公式, 然后仍然得到一个重言. 我们可以将这种用公式去替换原子的函数定义如下, 其中subfn是一个有限部分函数 (见附录2):

let psubst subfn = onatoms (fun p -> tryapplyd subfn p (Atom p));;

例如, 使用替换函数 $p |\Rightarrow p \land q$ , 其将 $p$ 映射为 $p \land q$ , 但在其他情况下则是未定义的, 我们得到:

# psubst (P"p" |=> <<p /\ q>>) <<p /\ q /\ p /\ q>>;;
- : prop formula = <<(p /\ q) /\ q /\ (p /\ q) /\ q>>

{译注: 原文

|\Rightarrow

这个符号竖线和箭头是连在一起的, 类似于

\mapsto

, 但是因为HTML entity里面没有这个符号, 我只能退而求其次使用这种记法了.}

我们将会证明重言中的替换将会产生重言, 这是通过一个更为一般的结果完成的, 这个更为一般的结果可以利用公式上的结构归纳直接证明:

定理2.3. 对于任意的原子命题

x

与任意的公式

p

和

q

, 以及任意的赋值

v

, 我们有

eval (psubst (x |\Rightarrow q) p) v = eval p ((x \mapsto eval q v) v) .

{原注: 记号 $(x \mapsto a) v$ 表示这样一个函数 $v^{'}$ , 其映射 $v^{'} (x) = a$ 而对于 $y \neq x$ 则映射 $v^{'} (y) = v (y)$ ; 记号 $x |\Rightarrow a$ 则表示这样的函数, 其将 $x$ 映射为 $a$ , 对于其他参数则是未定义的. (见附录1) 在我们的OCaml实现里对于有限部分函数使用对应的运算符|->和|=>; 见附录2.}

证明. 根据

p

的结构上的归纳. 如果

p

是

⊥

或

⊤

, 那么赋值并不发挥作用, 于是等式显然成立. 如果

p

是一个原子

y

, 那么我们需要区分两种情况. 如果

y = x

, 那么使用替换和求值的定义, 我们发现:

\begin{array}{rcl} eval (psubst (x |\Rightarrow q) x) v & = & eval q v \\ = & eval x ((x \mapsto eval q v) v) \end{array}

从另一方面而言, 如果

y \neq x

, 那么:

\begin{array}{rcl} eval (psubst (x |\Rightarrow q) y) v & = & eval y v \\ = & eval y ((x \mapsto eval q v) v) \end{array}

对于其他种类的公式, 求值和替换都遵循着公式的结构, 故结果很容易根据归纳假设推出. 例如, 如果

p

具有形式

\neg r

, 那么根据定义并使用

r

的归纳假设可知:

\begin{array}{rcl} eval (psubst (x |\Rightarrow q) (\neg r)) v & = & eval (\neg (psubst (x |\Rightarrow q) r)) v \\ = & not (eval (psubst (x |\Rightarrow q) r) v) \\ = & not (eval r ((x \mapsto eval q v) v)) \\ = & eval (\neg r) ((x \mapsto eval q v) v) \end{array}

二元联结词的情况都遵循着相同的本质模式, 只不过有两个不同的公式

r

和

s

, 而非只有

r

◻

推论2.4. 如果

p

是一个重言,

x

是任意的原子(命题),

q

是任意的公式, 那么

psubst (x |\Rightarrow q) p

也是一个重言.

证明. 根据之前的定理, 对于任意的赋值

v

, 我们有:

eval (psubst (x |\Rightarrow q) p) v = eval p ((x \mapsto eval q v) v)

但是既然

p

是一个重言, 那么其对于任何赋值都会求值为真, 包括出现在这个等式右边的赋值. 因此,

eval (psubst (x |\Rightarrow q) p) v = true

. 既然

v

是任意的, 这意味着该公式也是重言.

◻

请注意, 这一结果仅适用于对原子进行替换, 而非对任意命题进行替换. 例如, $p \land q \Rightarrow q \land p$ 是一个重言, 但是如果我们将 $p \land q$ 替换为 $p \lor q$ , 就不复如此了. 这与普通代数中的情况完全一样, 而我们的替换函数是一个从原子名字出发的函数, 这一点有助于强制施加这样的限制. 不过, 主要结果可以很容易地推广到同时对多个原子进行替换的情形. 这些替换总是可以通过逐个重复执行单个替换来完成, 但可能需要引入额外的替换来更换变量, 以避免后续替换对先前替换产生虚伪的影响. 例如, 我们期望能够在 $x \land y$ 中同时将 $y$ 替换为 $x$ 和 $x$ 替换为 $y$ , 从而得到 $y \land x$ . 然而, 如果我们按顺序依次执行这些替换, 就会得到: $\begin{array}{cl} psubst (x |\Rightarrow y) (psubst (y |\Rightarrow x) (x \land y)) \\ = & psubst (x |\Rightarrow y) (x \land x) \\ = & y \land y \end{array}$

然而, 通过使用替换对于变量进行适切的重命名, 这样的问题总是可以避免的. 例如: $\begin{array}{cl} psubst (z |\Rightarrow y) (psubst (y |\Rightarrow x) (psubst (x |\Rightarrow z) (x \land y))) \\ = & psubst (z |\Rightarrow y) (psubst (y |\Rightarrow x) (z \land y)) \\ = & psubst (z |\Rightarrow y) (z \land x) \\ = & y \land x \end{array}$

通过列举一些常见的重言式来培养对命题逻辑的直觉是很有帮助的. 其中一些简单而直观, 例如排中律 $p \lor \neg p$ , 它表明每个命题非真即假. 一个更令人意外的重言式——这无疑是因为 $\Rightarrow$ 与直觉上的推出概念之间存在较大出入——为:

# tautology <<(p ==> q) \/ (q ==> p)>>;;
- : bool = true

如果 $p \Rightarrow q$ 是一个重言 {译注: 这里的 $p$ 和 $q$ 是一般公式的元变量}, 即任何满足 $p$ 的赋值也都满足 $q$ , 那么我们称 $q$ 是 $p$ 的一个逻辑推论. 如果 $p \Leftrightarrow q$ 是一个重言, 即一个赋值满足 $p$ 当且仅当其满足 $q$ , 那么我们称 $p$ 和 $q$ 是逻辑等价的. {译注: 这里引入的逻辑推论和逻辑等价都是语义而非句法概念.} 许多重要的重言都具有后者的形式, 并且如果 $p$ 是一个重言, 那么平凡地 $p \Leftrightarrow ⊤$ 也是一个重言, 读者很容易确认这一事实. 在代数里, 给定一个合法的等式如 $2 x = x + x$ , 那么我们可以在任意的其他表达式里将 $2 x$ 替换为 $x + x$ 而不改变其值. 类似地, 如果一个赋值满足 $p \Leftrightarrow q$ , 那么我们可以在另一个公式 $r$ 里将 $p$ 替换为 $q$ 或者反过来而不改变这个赋值是否满足 $r$ , 即便 $p$ 或 $q$ 并非原子. {译注: 不改变 $r$ 在这个赋值下的解释结果.} 既然我们还没有形式化地定义非原子的替换, 我们可以想象通过使用模式项的某个原子 $x$ 来将替换位置确定下来.

定理2.5. 对于任意的赋值

v

和公式

p

与

q

满足

eval p v = eval q v

, 对于任意的原子

x

和公式

r

, 我们有

eval (psubst (x |\Rightarrow p) r) v = eval (psubst (x |\Rightarrow q) r) v .

证明. 根据定理2.3, 我们有

eval (psubst (x |\Rightarrow p) r) v = eval r ((x \mapsto eval p v) v)

和

eval (psubst (x |\Rightarrow q) r) v = eval r ((x \mapsto eval q v) v)

但是既然根据题设有

eval p v = eval q v

, 这些当然都是相等的.

◻

推论2.6. 如果

p

和

q

是逻辑等价的, 那么

eval (psubst (x |\Rightarrow p) r) v = eval (psubst (x |\Rightarrow q) r) v .

特别地,

psubst (x |\Rightarrow p) r

是一个重言当且仅当

psubst (x |\Rightarrow q) r

是一个重言.

证明. 既然

p

和

q

是逻辑等价的, 我们有

eval p v = eval q v

对于任意的赋值

v

成立, 而这个结果可由之前的定理直接推出.

◻

第2.3.3小节一些重要的重言

闲话少说, 下面列出一些重言式. 其中许多如果用Boole本人的符号重写, 就对应于普通代数的定律, 例如 $p \land ⊥ \Leftrightarrow ⊥$ 对应于 $p \cdot 0 = 0$ .

\begin{array}{rcl} \neg ⊤ & \Leftrightarrow & ⊥ \\ \neg ⊥ & \Leftrightarrow & ⊤ \\ \neg \neg p & \Leftrightarrow & p \\ p \land ⊥ & \Leftrightarrow & ⊥ \\ p \land ⊤ & \Leftrightarrow & p \\ p \land p & \Leftrightarrow & p \\ p \land \neg p & \Leftrightarrow & ⊥ \\ p \land q & \Leftrightarrow & q \land p \\ p \land (q \land r) & \Leftrightarrow & (p \land q) \land r \\ p \lor ⊥ & \Leftrightarrow & p \\ p \lor ⊤ & \Leftrightarrow & ⊤ \\ p \lor p & \Leftrightarrow & p \\ p \lor \neg p & \Leftrightarrow & ⊤ \\ p \lor q & \Leftrightarrow & q \lor p \\ p \lor (q \lor r) & \Leftrightarrow & (p \lor q) \lor r \\ p \land (q \lor r) & \Leftrightarrow & (p \land q) \lor (p \land r) \\ p \lor (q \land r) & \Leftrightarrow & (p \lor q) \land (p \lor r) \\ ⊥ \Rightarrow p & \Leftrightarrow & ⊤ \\ p \Rightarrow ⊤ & \Leftrightarrow & ⊤ \\ p \Rightarrow ⊥ & \Leftrightarrow & \neg p \\ p \Rightarrow p & \Leftrightarrow & ⊤ \\ p \Rightarrow q & \Leftrightarrow & \neg q \Rightarrow \neg p \\ p \Rightarrow q & \Leftrightarrow & (p \Leftrightarrow p \land q) \\ p \Rightarrow q & \Leftrightarrow & (q \Leftrightarrow p \lor q) \\ (p \Leftrightarrow q) & \Leftrightarrow & (q \Leftrightarrow p) \\ (p \Leftrightarrow (q \Leftrightarrow r)) & \Leftrightarrow & ((p \Leftrightarrow q) \Leftrightarrow r) \end{array}

以上最后几个重言式或许尤其令人惊讶, 因为我们在日常数学中并不习惯等式中嵌套等式的情形. 实际上, 它们表明 $\Leftrightarrow$ 是一个对称且具有结合律的运算符 (类似于算术中的 $+$ ), 即迭代等价 (iterated equivalences) 的顺序和结合方式在逻辑上没有任何差别. Dijkstra和Scholten (1990) 给出了一些涉及等价的其他重言式, 这些重言式可以在OCaml中加以验证; 他们将其中第二个重言式称为黄金法则.

# tautology <<p \/ (q <=> r) <=> (p \/ q <=> p \/ r)>>;;
- : bool = true
# tautology <<p /\ q <=> ((p <=> q) <=> p \/ q)>>;;
- : bool = true

我们的重言式列表里还有一个对应于逆否原理的重言, 即 $p \Rightarrow q$ 和其逆否式 $\neg q \Rightarrow \neg p$ 的等价, 或者 $p \Rightarrow \neg q$ 和 $q \Rightarrow \neg p$ 的等价. (例如, those who mind don't matter和those who matter don't mind是逻辑等价的.) 与之形成对比的是, 我们可以确认 $p \Rightarrow q$ 和 $q \Rightarrow p$ 并非等价, 这是常见谬误:

# tautology <<(p ==> q) <=> (~q ==> ~p)>>;;
- : bool = true
# tautology <<(p ==> ~q) <=> (q ==> ~p)>>;;
- : bool = true
# tautology <<(p ==> q) <=> (q ==> p)>>;;
- : bool = false

第2.4节 De Morgan律, 充足性, 对偶性

以下重要的重言被称为De Morgan律, 其是以Augustus De Morgan的名字命名的, 他和Boole几乎是同时代的人物, 对于逻辑领域作出了重要贡献. $\neg (p \lor q) \Leftrightarrow \neg p \land \neg q$ $\neg (p \land q) \Leftrightarrow \neg p \lor \neg q$

第一个重言的一个日常例子是I can not speak either Finnish or Swedish和I can not speak Finnish and I can not speak Swedish意思相同. 第二个重言的一个例子是I am not a wife and mother和either I am not a wife or I am not a mother (or both)是相同的. De Morgan律的变体, 同样也很容易看出来是重言, 为: $p \lor q \Leftrightarrow \neg (\neg p \land \neg q)$ $p \land q \Leftrightarrow \neg (\neg p \lor \neg q)$

这些重言之所以是有趣的, 是因为它们展示了对于联结词 $\land$ 和 $\lor$ , 如何用其中一个表达另外一个. 根据之前关于替换的定理, 这意味着比如说我们可以重写任意公式为一个与之逻辑等价但并不包含 $\lor$ 的公式, 只需系统地将具有形式 $q \lor r$ 的子公式替换为 $\neg (\neg q \land \neg r)$ . 关于用某些逻辑联结词表达其他逻辑联结词, 还有许多其他选项. 例如, 使用下列等价, 对于任意的公式我们都可以找出一个与之等价的仅仅使用原子公式, $\land$ , $\neg$ 的公式. 以术语来说, ${\land, \neg}$ 是联结词的一个充足集合(adequate set). $\begin{array}{rcl} ⊥ & \Leftrightarrow & p \land \neg p \\ ⊤ & \Leftrightarrow & \neg (p \land \neg p) \\ p \lor q & \Leftrightarrow & \neg (\neg p \land \neg q) \\ p \Rightarrow q & \Leftrightarrow & \neg (p \land \neg q) \\ (p \Leftrightarrow q) & \Leftrightarrow & \neg (p \land \neg q) \land \neg (\neg p \land q) \end{array}$ {译注: 所谓的逻辑常量 $⊥$ 和 $⊤$ 是零元联结词.}

类似地, 下列经OCaml验证的等价表明 ${\Rightarrow, ⊥}$ 也是充足的:

forall tautology
 [<<true <=> false ==> false>>;
  <<~p <=> p ==> false>>;
  <<p /\ q <=> (p ==> q ==> false) ==> false>>;
  <<p \/ q <=> (p ==> false) ==> q>>;
  <<(p <=> q) <=> ((p ==> q) ==> (q ==> p) ==> false) ==> false>>];;
- : bool = true

单独一个联结词是否足以表达所有其他联结词? 对于我们已经引入的联结词而言, 答案是否定的. 我们至少需要一个二元联结词, 否则我们永远无法引入涉及多个变量 (从而依赖于多个变量的赋值) 的公式. 而且事实上, 即使是整个集合 ${⊤, \land, \lor, \Rightarrow, \Leftrightarrow}$ , 如果没有 $\neg$ 或 $⊥$ , 也不构成一个充足集, 因此更不用说其中任何单个二元联结词了. 要看出这一点, 注意所有这些二元联结词在两个参数均为真时都给出结果真. (换言之, 它们各自真值表的最后一行, 最终列都是真.) 因此, 由这些组件构建的任何公式, 在将所有原子都映射为真的赋值下, 必定求值为真, 所以否定是不可表达的.

然而, 对于二元真值函数而言, 存在 $2^{2^{2}} = 16$ 种真值表, 而常规的二元联结词只覆盖了其中四种情况. (真值表有 $2^{2} = 4$ 行, 每一行可以在两种真值里选择一个.) 或许某个以其他 $12$ 种函数之一为其真值表的联结词可以是充足的? 正如以上所论证的, 任意单独的充足联结词都必须以假作为其真值表最后一行的值, 不然的话否定无法表达. 根据类似的论证, 我们也可以看出来真值表第一行的值必然为真. 那么, 留给我们的选择自由就只剩中间两行的情况了, 总计有四种可能性. 其中有两种可能是平凡的, 因为它们只是对于其中一个参数进行否定, 故无法用来构建求值依赖于多于一个单一原子的值的表达式. 不过, 其他两种情况单独都是充足的: 一种是not and运算 $p NAND q = \neg (p \land q)$ , 另一种是not or运算 $p NOR q = \neg (p \lor q)$ . 这两个的真值表如下: $\begin{matrix} p & q & p NAND q & p NOR q \\ false & false & true & true \\ false & true & true & false \\ true & false & true & false \\ true & true & false & false \end{matrix}$

例如, 我们可以通过 $\neg p = p NAND p$ 来表达否定, 然后得到 $p \land q = \neg (p NAND q)$ , 不过我们已经知道 ${\land, \neg}$ 是充足的了; $NOR$ 以类似的方式成立. 实际上, 一旦我们有了一个联结词的充足集合, 那么我们也可以找出各种公式, 其语义分别对应于其他 $12$ 种真值函数. 当我们于第2.6节讨论析取范式时, 这会变得清晰起来.

联结词 $NAND$ 和 $NOR$ 的单独充足性对于电子设计师而言是众所周知的: 对应的门是数字电路的基本构建块 (见第2.7节). 在纯粹逻辑学家之间, 这两个联结词其中之一会被习惯上记为 $p | q$ , 而 $|$ 会被称为Sheffer竖线 (Sheffer 1913).

{原注: 如今人们通常将竖线解释为 $NAND$ , 但Sheffer最初用他的竖线表示的是 $NOR$ , 并且Nicod (1917) 将其用于命题逻辑的一个精简表述中. 这一思想早在30年前就已为Peirce所熟知. Schönfinkel (1924) 将其扩展为一种量词竖线, 其中 $ϕ (x) |_{x} ψ (x)$ 意为 $\neg \exists x . ϕ (x) \land ψ (x)$ , 这进而引发了人们对将同样的精简方法应用于更一般的数学表达式的兴趣, 并由此推动了他对组合子的发展.}

第2.4.1小节对偶性

在第1.4节里我们注意到我们需要在或的可兼和不可兼解读之间作出选择. 无疑and和inclusive or之间的令人满意的对称是选择可兼解读的一个强烈动机. 设我们现在有一个公式, 只牵涉联结词 $⊥, ⊤, \land, \lor$ . {译注: 漏了一个联结词, 即 $\neg$ .} 当我们言称其对偶(dual)时, 我们指的是系统交换 $\land$ 和 $\lor$ 以及 $⊤$ 和 $⊥$ 所得到的结果, 因而有以下定义:

let rec dual fm =
  match fm with
    False -> True
  | True -> False
  | Atom(p) -> fm
  | Not(p) -> Not(dual p)
  | And(p,q) -> Or(dual p,dual q)
  | Or(p,q) -> And(dual p,dual q)
  | _ -> failwith "Formula involves connectives ==> or <=>";;

例如:

# dual <<p \/ ~p>>;;
- : prop formula = <<p /\ ~p>>

稍加思索即可发现 $dual (dual p) = p$ . 对偶的关键语义性质如下:

定理2.7. 对于任意的赋值

v

eval (dual p) v = not (eval p (not \circ v))

证明. 这个结果可以由公式上的形式结构归纳证明 (见练习2.5), 但是或许基于De Morgan律使用更为直接的推理来得比较简单. 令

p^{⁎}

是对于公式

p

的所有原子取否定, 并且将

⊥

替换为

\neg ⊤

, 将

⊤

替换为

\neg ⊥

所得到的结果. 然后, 我们有

eval p (not \circ v) = eval p^{⁎} v

. {译注: 这一结果若想严格说明, 还是用结构归纳比较好.} 现在使用De Morgan律, 我们可以不断将

p^{⁎}

中新引入的否定从原子那里拉出来, 从而给出一个逻辑等价的形式:

\begin{array}{rcl} \neg p \land \neg q & \Leftrightarrow & \neg (p \lor q) \\ \neg p \lor \neg q & \Leftrightarrow & \neg (p \land q) \end{array}

通过这种做法, 我们交换了

\land

和

\lor

, 并且使得新引入的否定符号浮上来了, 最后我们在顶层恰有一个额外的否定符号, 这就是

\neg (dual p)

, 由此得出定理.

◻

推论2.8. 如果

p

和

q

是逻辑等价的, 那么

dual p

和

dual q

也是逻辑等价的. 如果

p

是一个重言, 那么

\neg (dual p)

也是一个重言.

证明.

eval (dual p) v = not (eval p (not \circ v)) = not (eval q (not \circ v)) = eval (dual q) v

. 如果

p

是一个重言, 那么

p

和

⊤

是逻辑等价的. 因此,

dual p

和

dual ⊤ = ⊥

也是逻辑等价的, 由此得出结果.

◻

例如, 既然 $p \land (q \lor r)$ 和 $(p \land q) \lor (p \land r)$ 是等价的, 那么 $p \lor (q \land r)$ 和 $(p \lor q) \land (p \lor r)$ 也是等价的. 既然 $p \lor \neg p$ 是一个重言, 那么 $\neg (p \land \neg p)$ 也是一个重言.

第2.5节化简和否定范式

在普通代数中, 将表达式系统地变换为等价的标准形式或范式是很常见的做法. 其中一种方法涉及展开与消去, 例如从 $(x + y) (y - x) + y + x^{2}$ 得到范式 $y^{2} + y$ . 通过将表达式化为范式, 我们有时可以看出表面上不同的表达式实际上是等价的. 此外, 如果范式选取得当, 它还能提供有价值的信息. 例如, 观察 $y^{2} + y$ 我们可以看出 $x$ 的值是无关紧要的, 而从初始形式来看这一点完全不明显. 在逻辑中, 公式的范式具有极其重要的地位, 并且正如在代数中一样, 范式往往能够提供重要的信息.

在开始正式构建规范形式之前, 最好先对于公式进行常规的化简以消除(不必要的)命题常量 $⊥$ 和 $⊤$ , 这完全可以类比于第1.6节的代数例子. 每当 $⊥$ 和 $⊤$ 以组合形式出现, 总是存在一个重言澄清其与某种更为简单的公式之间的等价性, 例如 $⊥ \land p \Leftrightarrow ⊥$ , $⊥ \lor p \Leftrightarrow p$ , $p \Rightarrow ⊥ \Leftrightarrow \neg p$ . 此外, 我们也会消除双重否定 $\neg \neg p$ . {译注: 这里的 $p$ 你将其理解为对象语言里的变量 (即原子(命题), 但不是代表原子的元变量), 或者元语言里代表命题公式的元变量, 其实都说得通. 不过这里作者应该更倾向于元变量的理解吧.} 以下这段代码只是通过模式匹配逐情形考虑每种可能:

let psimplify1 fm =
  match fm with
    Not False -> True
  | Not True -> False
  | Not(Not p) -> p
  | And(p,False) | And(False,p) -> False
  | And(p,True) | And(True,p) -> p
  | Or(p,False) | Or(False,p) -> p
  | Or(p,True) | Or(True,p) -> True
  | Imp(False,p) | Imp(p,True) -> True
  | Imp(True,p) -> p
  | Imp(p,False) -> Not p
  | Iff(p,True) | Iff(True,p) -> p
  | Iff(p,False) | Iff(False,p) -> Not p
  | _ -> fm;;

{原注: 注意到对于

p \Rightarrow ⊥

p \Leftrightarrow ⊥

⊥ \Leftrightarrow p

导致

\neg p

的子句都被置于了相应的组的最下方, 这是为了使得例如

⊥ \Rightarrow ⊥

被化简为

⊤

, 而不是

\neg ⊥

, 后者在同一层次仍需进一步化简.} {译注: 不过, 作者在这里仍然出现了疏漏,

⊥ \Leftrightarrow ⊥

根据这个定义会被化简为

\neg ⊥

, 而不是

⊤

然后我们以递归的自底而上方式应用化简:

let rec psimplify fm =
  match fm with
    Not p -> psimplify1 (Not(psimplify p))
  | And(p,q) -> psimplify1 (And(psimplify p,psimplify q))
  | Or(p,q) -> psimplify1 (Or(psimplify p,psimplify q))
  | Imp(p,q) -> psimplify1 (Imp(psimplify p,psimplify q))
  | Iff(p,q) -> psimplify1 (Iff(psimplify p,psimplify q))
  | _ -> fm;;

{译注: 在勘误里, 对于psimplify1的补救措施是添加对于

⊥ \Leftrightarrow ⊥

的特殊处理, 然而我觉得这仍然不那么令人满意. 比如说, 对于公式

(p \Rightarrow ⊥) \Rightarrow ⊥

和

(p \Leftrightarrow ⊥) \Leftrightarrow ⊥

(其中

p

是字面上的原子命题, 而不是代表公式的元变量), 目前的过程psimplify会将其都化简为

\neg \neg p

, 然而我们知道这个结果又可以化简为

p

. 个人认为更好的解决之道是让返回

\neg p

(这里则是元变量) 的子句应该考虑psimplify1里面对于

\neg

部分的化简方式, 而这又迫使我们最好重新组织代码, 对于每种联结词都编写一个函数, 如此复用比较方便, 我编写了下列Scheme函数以说明我的想法:

(define (psimplify exp)
  (define (Not exp)
    (match exp
      (,b (guard (boolean? b)) (not b))
      ((not ,e1) e1)
      (,else `(not ,exp))))
  (define (And e1 e2)
    (cond ((eq? e1 #f) #f)
          ((eq? e2 #f) #f)
          ((eq? e1 #t) e2)
          ((eq? e2 #t) e1)
          (else `(and ,e1 ,e2))))
  (define (Or e1 e2)
    (cond ((eq? e1 #t) #t)
          ((eq? e2 #t) #t)
          ((eq? e1 #f) e2)
          ((eq? e2 #f) e1)
          (else `(or ,e1 ,e2))))
  (define (Imp e1 e2)
    (cond ((eq? e1 #f) #t)
          ((eq? e2 #t) #t)
          ((eq? e1 #t) e2)
          ((eq? e2 #f) (Not e1))
          (else `(=> ,e1 ,e2))))
  (define (Iff e1 e2)
    (cond ((eq? e1 #t) e2)
          ((eq? e2 #t) e1)
          ((eq? e1 #f) (Not e2))
          ((eq? e2 #f) (Not e1))
          (else `(<=> ,e1 ,e2))))
  (define (simp exp)
    (match exp
      ((not ,e1) (Not (simp e1)))
      ((and ,e1 ,e2) (And (simp e1) (simp e2)))
      ((or ,e1 ,e2) (Or (simp e1) (simp e2)))
      ((=> ,e1 ,e2) (Imp (simp e1) (simp e2)))
      ((<=> ,e1 ,e2) (Iff (simp e1) (simp e2)))
      (,else exp)))
  (simp exp))

例如:

# psimplify <<(true ==> (x <=> false)) ==> ~(y \/ false /\ z)>>;;
- : prop formula = <<~x ==> ~y>>

如果我们先应用这个化简函数, 就几乎可以忽略命题常量, 这会使事情更加方便. 然而, 我们需要记住两个平凡的例外情况: 虽然在化简后的公式中 $⊥$ 和 $⊤$ 不能以组合的形式出现, 但整个公式本身可能就是其中之一, 例如:

# psimplify <<((x ==> y) ==> true) \/ ~false>>;;
- : prop formula = <<true>>

{译注: 通过简单的结构归纳可以证明, 经过psimplify化简得到的公式, 除非本身就是

⊥

或者

⊤

, 否则就不可能含有这两个逻辑常量.}

一个文字(literal)要么是一个原子公式, 要么是原子公式的否定. 我们称一个文字是否定性的(negative), 如果其具有形式 $\neg p$ , 否则就将其称为肯定性的(positive). 这可由以下OCaml函数进行测试, 注意这两个函数都只应该应用于文字:

let negative = function (Not p) -> true | _ -> false;;

let positive lit = not(negative lit);;

当我们之后言及否定一个文字 $l$ 时, 记作 $- l$ , 我们指的是当文字为肯定性时应用否定, 而当其为否定性时移除否定 (而非要双重否定, 因为这样的话它就并非文字了). 两个文字被称为互补的, 如果一个是另一个的否定:

let negate = function (Not p) -> p | p -> Not p;;

一个公式被称为具有否定范式 (NNF), 如果其只由文字通过使用二元联结词 $\land$ 和 $\lor$ 构造而成, 或者其为退化情形 $⊥$ 和 $⊤$ 之一. 换言之, 其并不牵涉二元联结词 $\Rightarrow$ 和 $\Leftrightarrow$ , 而且 $\neg$ 只能应用于原子公式. NNF公式的例子包括 $⊥$ , $p$ , $p \land q$ , $p \lor (q \land (\neg r) \lor s)$ , 而非NNF公式的例子包括 $p \Rightarrow p$ (牵涉其他二元联结词), 也包括 $\neg \neg p$ 和 $p \land \neg (q \lor r)$ (牵涉非原子公式的否定).

我们可以将任意的公式转换为逻辑等价的NNF公式. 和上一节一样, 我们可以基于其他联结词消去 $\Rightarrow$ 和 $\Leftrightarrow$ , 然后我们可以不断应用De Morgan律和双重否定律: $\begin{array}{rcl} \neg (p \land q) & \Leftrightarrow & \neg p \lor \neg q \\ \neg (p \lor q) & \Leftrightarrow & \neg p \land \neg q \\ \neg \neg p & \Leftrightarrow & p \end{array}$ 将否定下推至原子公式, 这恰好是定理2.7的证明里所考虑的变换的反向. (当前的变换可以类比于如下普通代数里的过程: 先将减法替换为其定义 $x - y = x + - y$ , 然后使用 $- (x + y) = - x + - y$ , $- (x y) = (- x) y$ 和 $- (- x) = x$ 系统地将负号 (negation) 下推.) 这在OCaml里编程是相当直接的, 而且实际上在我们递归地将否定下推时可以一并消去 $\Rightarrow$ 和 $\Leftrightarrow$ , 无需单独步骤 (phase).

let rec nnf fm =
  match fm with
    And(p,q) -> And(nnf p,nnf q)
  | Or(p,q) -> Or(nnf p,nnf q)
  | Imp(p,q) -> Or(nnf(Not p),nnf q)
  | Iff(p,q) -> Or(And(nnf p,nnf q),And(nnf(Not p),nnf(Not q)))
  | Not(Not p) -> nnf p
  | Not(And(p,q)) -> Or(nnf(Not p),nnf(Not q))
  | Not(Or(p,q)) -> And(nnf(Not p),nnf(Not q))
  | Not(Imp(p,q)) -> And(nnf p,nnf(Not q))
  | Not(Iff(p,q)) -> Or(And(nnf p,nnf(Not q)),And(nnf(Not p),nnf q))
  | _ -> fm;;

这段代码对于 $\Rightarrow$ 和 $\Leftrightarrow$ 的消去, 不论肯定还是否定, 是由以下重言所澄清的: $\begin{array}{rcl} p \Rightarrow q & \Leftrightarrow & \neg p \lor q \\ \neg (p \Rightarrow q) & \Leftrightarrow & p \land \neg q \\ (p \Leftrightarrow q) & \Leftrightarrow & p \land q \lor \neg p \land \neg q \\ \neg (p \Leftrightarrow q) & \Leftrightarrow & p \land \neg q \lor \neg p \land q \end{array}$ 尽管出于某些目的我们可能更倾向于其他变式, 例如 $\begin{array}{rcl} (p \Leftrightarrow q) & \Leftrightarrow & (p \lor \neg q) \land (\neg p \lor q) \\ \neg (p \Leftrightarrow q) & \Leftrightarrow & (p \lor q) \land (\neg p \lor \neg q) \end{array}$

为了完结, 我们重新定义nnf以包含一个初始的化简, 然后再调用刚才的定义. (这不是递归定义, 而是使用之前的定义对于nnf进行重定义, 因为这里没有rec关键词.)

let nnf fm = nnf(psimplify fm);;

NNF公式(可能)要比本来的公式显著更大. 诚然如此, 因为每次一个公式 $p \Leftrightarrow q$ 扩展的时候, 公式 $p$ 和 $q$ 都会得到复制, 最坏情况下具有 $n$ 个联结词的公式可以扩展为具有超过 $2^{n}$ 个联结词的NNF——见之后的练习2.6. 这种指数膨胀似乎在保持逻辑等价时很难避免, 但是我们至少可以避免进行指数量的计算, 通过以更高效的方式重写nnf函数 (练习2.7). 如果目标只是将否定下推到原子层次, 我们也可以保留 $\Leftrightarrow$ 以避免潜在的指数膨胀, 使用诸如 $\neg (p \Leftrightarrow q) \Leftrightarrow (\neg p \Leftrightarrow q)$ 这样的重言:

let rec nenf fm =
  match fm with
    Not(Not p) -> nenf p
  | Not(And(p,q)) -> Or(nenf(Not p),nenf(Not q))
  | Not(Or(p,q)) -> And(nenf(Not p),nenf(Not q))
  | Not(Imp(p,q)) -> And(nenf p,nenf(Not q))
  | Not(Iff(p,q)) -> Iff(nenf p,nenf(Not q))
  | And(p,q) -> And(nenf p,nenf q)
  | Or(p,q) -> Or(nenf p,nenf q)
  | Imp(p,q) -> Or(nenf(Not p),nenf q)
  | Iff(p,q) -> Iff(nenf p,nenf q)
  | _ -> fm;;

化简也还是要加进去的:

let nenf fm = nenf(psimplify fm);;

{译注: 实际上对于

\Leftrightarrow

的否定使用的重言是

\neg (p \Leftrightarrow q) \Leftrightarrow (p \Leftrightarrow \neg q)

这个函数当然有着自身的用途. 不过, NNF的诱人之处在于我们可以区分原子公式的肯定性和否定性出现. 联结词 $\land$ 和 $\lor$ 和联结词 $\neg$ , $\Rightarrow$ , $\Leftrightarrow$ 的不同之处在于其是单调的, 意即其真值函数 $f$ 具有性质 $p \leq p^{'} \land q \leq q^{'} \Rightarrow f (p, q) \leq f (p^{'}, q^{'})$ , 其中 $\leq$ 是 $\Rightarrow$ 的真值函数. {译注: 换言之, 是满足 $false \leq true$ 的偏序.} 换种说法, 也就是以下的公式都是重言:

# tautology <<(p ==> p') /\ (q ==> q') ==> (p /\ q ==> p' /\ q')>>;;
- : bool = true
# tautology <<(p ==> p') /\ (q ==> q') ==> (p \/ q ==> p' \/ q')>>;;
- : bool = true

这导致了, 如果一个原子 $x$ 在某个NNF公式 $p$ 中只以肯定形式出现, 那么我们可以推出对于整个公式而言的一个相应的单调性质: $(x \Rightarrow x^{'}) \Rightarrow (p \Rightarrow psubst (x |\Rightarrow x^{'}) p)$ 而如果该原子只以否定形式出现, 那么我们有一个反单调性, 因为 $(p \Rightarrow p^{'}) \Rightarrow (\neg p^{'} \Rightarrow \neg p)$ 是一个重言: $(x \Rightarrow x^{'}) \Rightarrow (psubst (x |\Rightarrow x^{'}) p \Rightarrow p)$

第2.6节析取范式和合取范式

一个公式被称为是具有析取范式 (DNF), 当其具有以下形式: $D_{1} \lor D_{2} \lor \dots \lor D_{n}$ 而每个析取分量 $D_{i}$ 都具有形式: $l_{i, 1} \land l_{i, 2} \land \dots \land l_{i, m_{i}}$ 并且每个 $l_{i, j}$ 都是一个文字. 因此, DNF公式也具有NNF形式, 只是添加了其为合取的析取这一额外限制, 不能使得 $\land$ 和 $\lor$ 任意交错. {译注: DNF应该也和NNF一样具有 $⊥$ 和 $⊤$ 两种退化情形.} 这全然类似于代数里全然展开的积之和表达式, 例如 $x^{3} + x^{2} y + x y + z$ .

对偶地, 一个公式被称为是具有合取范式 (CNF), 当其具有形式: $C_{1} \land C_{2} \land \dots \land C_{n}$ 而每个合取分量 $C_{i}$ 都具有形式: $l_{i, 1} \lor l_{i, 2} \lor \dots \lor l_{i, m_{i}}$ 并且每个 $l_{i, j}$ 都是一个文字. 因此, CNF公式也具有NNF形式, 只是添加了其为析取的合取这一额外限制. 这类似于普通代数里全然分解了的和之积形式, 例如 $(x + 1) (y + 2) (z + 3)$ . 在普通代数里, 我们总是可以将表达式展开为积之和, 但一般并不总是能分解为和之积 (例如考虑 $x^{2} + y^{2} - 1$ ). 这种非对称性并不存在于逻辑中, 这我们可以从 $\land$ 和 $\lor$ 的对偶性中料想得到. 首先我们将会展示如何将一个公式变换为一个等价的DNF, 然后这个变换很容易调整为产生一个等价的CNF.

第2.6.1小节通过真值表得到DNF

如果一个公式牵涉原子 ${p_{1}, \dots, p_{n}}$ , 那么其真值表的每一行都确定了对于 ${p_{1}, \dots, p_{n}}$ 的一个特定真值指派方式, 由此又确定了一类赋值, 其对于该原子集合有着相同的指派 (我们并不关心这些赋值对于其他原子的指派是什么). 现在给定任意的赋值 $v$ , 考虑公式: $l_{1} \land \dots \land l_{n}$ 其中 $l_{i} = {\begin{matrix} p_{i} & , 如果 v (p_{i}) = true \\ \neg p_{i} & , 如果 v (p_{i}) = false \end{matrix}$

根据构造, 一个赋值 $w$ 满足 $l_{1} \land \dots \land l_{n}$ 当且仅当 $w$ 和 $v$ 在 $p_{1}, \dots, p_{n}$ 上的值是相合的. 现在原本公式的真值表里那些最后一列为 $true$ 的行恰好确定了满足该公式的所有类. {译注: 这个类可以理解为等价类, 划分方式就是 $p_{1}, \dots, p_{n}$ 上的指派.} 据此, 对于 $k$ 个真行的每一个, 我们都可以挑选一个相对应的赋值 $v_{i}$ (为了确定起见, 可以令除了 ${p_{1}, \dots, p_{n}}$ 之外的所有变量都映射为 $false$ ), 然后构造上述公式: $D_{i} = l_{i, 1} \land \dots \land l_{i, n} .$

既然析取 $D_{1} \lor \dots \lor D_{k}$ 和原本的公式恰好由相同的那些赋值满足, 那么因而其是逻辑等价的; 而且, 根据构造的方式, 其又必然具有DNF形式.

为了在OCaml中实现这个过程, 我们从函数list_conj和list_disj开始, 其分别将一个公式列表 $[p_{1}; \dots; p_{n}]$ 映射为迭代的合取 $p_{1} \land \dots \land p_{n}$ 和迭代的析取 $p_{1} \lor \dots \lor p_{n}$ . 在列表为空的特殊情形下, 我们分别返回 $⊤$ 和 $⊥$ . 这些选择避免了之后的一些特殊情形区分, 并且也是自然的, 如果我们将这些公式想成是所有的 $p_{1}, \dots, p_{n}$ 都为真 (如果没有任何 $p_{i}$ , 那就是空虚为真) 和某个 $p_{1}, \dots, p_{n}$ 为真 (如果没有任何 $p_{i}$ , 那就必然为假).

let list_conj l = if l = [] then True else end_itlist mk_and l;;

let list_disj l = if l = [] then False else end_itlist mk_or l;;

接下来我们有一个函数mk_lits, 其对于一个公式列表pvs, 制作一个由这些公式或其否定构成的合取, 否定与否是按照每个公式是否由赋值 $v$ 满足所决定的.

let mk_lits pvs v =
  list_conj (map (fun p -> if eval p v then p else Not p) pvs);;

现在我们定义allsatvaluations, 其和allvaluations结构很像, 但是作用在于将满足subfn的赋值收集为一个列表:

let rec allsatvaluations subfn v pvs =
  match pvs with
    [] -> if subfn v then [v] else []
  | p::ps -> let v' t q = if q = p then t else v(q) in
             allsatvaluations subfn (v' false) ps @
             allsatvaluations subfn (v' true) ps;;

使用这个函数, 我们可以挑选出满足公式的赋值列表, 然后对于它用make_lits进行map, 然后将结果收集为一个迭代析取. 注意到在公式没有变量或者不可满足的情况下, 这个过程会适切地返回 $⊥$ 或者 $⊤$ .

let dnf fm =
  let pvs = atoms fm in
  let satvals = allsatvaluations (eval fm) (fun s -> false) pvs in
  list_disj (map (mk_lits (map (fun p -> Atom p) pvs)) satvals);;

{译注: 这些函数里的pvs的含义并不完全相同, 有的是原子名字的列表, 有的是原子公式的列表. 不过, 我感到这里的mk_lits有小小的低效之处. 其实它也可以设计为接受原子名字的列表, 这样的话就不需要使用eval而可以直接应用赋值本身了. eval的工作其实也是要拆掉外面的Atom然后喂给赋值. 以下是我在Scheme中重新实现的版本:

(define ((make-lits x*) v)
  (make-conj
   (map (lambda (x)
          (if (v x) x `(not ,x)))
        x*)))
(define (allsat f v a*)
  (if (null? a*)
      (if (f v) (list v) '())
      (let ((a (car a*))
            (a* (cdr a*)))
        (define ((v^ b) x)
          (if (eq? x a) b (v x)))
        (append (allsat f (v^ #f) a*)
                (allsat f (v^ #t) a*)))))
(define (dnf exp)
  (let* ((a* (atoms exp))
         (v* (allsat (curry ev exp)
                     (lambda (x) #f)
                     a*)))
    (make-disj
     (map (make-lits a*) v*))))

例如:

# let fm = <<(p \/ q /\ r) /\ (~p \/ ~r)>>;;
val fm : prop formula = <<(p \/ q /\ r) /\ (~p \/ ~r)>>
# dnf fm;;
- : prop formula = <<~p /\ q /\ r \/ p /\ ~q /\ ~r \/ p /\ q /\ ~r>>

不出所料, 这个结果的析取分量自然地对应于真值表里产生 $true$ 的三行, 由此确定了三类赋值:

# print_truthtable fm;;
p     q     r     | formula
---------------------------
false false false | false
false false true  | false
false true  false | false
false true  true  | true
true  false false | true
true  false true  | false
true  true  false | true
true  true  true  | false
---------------------------

这种方法无需初始化简或者预规范化, 并且强调了DNF和真值表之间的关系. 我们现在可以确认第2.4节中提出的论断: 给定任意一个 $n$ 元真值函数, 我们可以将其视为一个包含 $n$ 个原子命题和 $2^{n}$ 行的真值表, 并直接构造一个公式 (以析取范式的形式), 使得该真值函数就是它的解释. 另一方面, 当 $n$ (即原公式中原子命题的数量) 较大时, 需要考虑所有 $2^{n}$ 个赋值这一点是相当不理想的. 例如, 下面这个公式本身已经是一个简洁的析取范式, 却会被膨胀成一个复杂得多的变体:

# dnf <<p /\ q /\ r /\ s /\ t /\ u \/ u /\ v>>;;
...

第2.6.2小节通过变换得到DNF

一种创建等价DNF形式的替代方法是将其与普通代数进行类比. 在普通代数中, 为了得到完全展开的形式, 我们可以反复应用分配律 $x (y + z) = x y + x z$ 和 $(x + y) z = x z + y z$ . 类似地, 从NNF形式的命题公式开始, 我们可以通过基于以下重言将其反复重言以得到DNF形式: $\begin{array}{rcl} p \land (q \lor r) & \Leftrightarrow & p \land q \lor p \land r \\ (p \lor q) \land r & \Leftrightarrow & p \land r \lor q \land r \end{array}$

为了将其编码为一个有效的OCaml函数而不过多次遍历公式树, 我们需要一些小心. 我们从一个反复应用分配律的函数开始, 假定其直接子公式已经具有DNF形式:

let rec distrib fm =
  match fm with
    And(p,(Or(q,r))) -> Or(distrib(And(p,q)),distrib(And(p,r)))
  | And(Or(p,q),r) -> Or(distrib(And(p,r)),distrib(And(q,r)))
  | _ -> fm;;

现在, 当输入公式为一个合取或析取时, 我们首先递归地将其直接子公式转换为DNF, 然后若有必要则使用之前的函数进行分配 (distribute):

let rec rawdnf fm =
  match fm with
    And(p,q) -> distrib(And(rawdnf p,rawdnf q))
  | Or(p,q) -> Or(rawdnf p,rawdnf q)
  | _ -> fm;;

{译注: 证明rawdnf和distrib的正确性需要稍微细致一些的分析, 鉴于这本书对于NNF和DNF(以及CNF)的定义和其他材料比起来也稍微细一些, 以下是我在Scheme中编写程序时写下的关于句法的注释:

;<literal> ::= <var> | (not <var>)
;<nnf> ::= <bool> | <nnf0>
;<nnf0> ::= <literal>
;        |  (and <nnf0> <nnf0>)
;        |  (or <nnf0> <nnf0>)
;<dnf> ::= <bool> | <dnf0>
;<dnf0> ::= <conj> | (or <dnf0> <dnf0>)
;<conj> ::= <literal> | (and <conj> <conj>)

当然了, 证明的手段终归还是结构归纳.}

例如:

# rawdnf <<(p \/ q /\ r) /\ (~p \/ ~r)>>;;
- : prop formula =
<<(p /\ ~p \/ (q /\ r) /\ ~p) \/ p /\ ~r \/ (q /\ r) /\ ~r>>

虽然这已然是DNF, 但是仍然很难阅读, 因为迭代合取和析取混合结合在了一起. 而且, 一些析取分量完全是冗余的: $p \land \neg p$ 和 $(q \land r) \land \neg r$ 都与 $⊥$ 逻辑等价, 故可以省略而不破坏逻辑等价性.

第2.6.3小节基于集合的表示

为了使结合问题不再显得那么令人困扰, 以及使得通过列表操作进行化简更为容易, 将DNF表示为文字集合的集合是比较方便的, 例如使用 ${{p, q}, {\neg p, r}}$ 表示 $p \land q \lor \neg p \land r$ . 既然DNF的逻辑结构总是合取的析取, 并且析取与合取(的语义)都是结合的, 交换的, 幂等的, 在这种翻译里没有什么本质性的东西会丢失, 而且也容易映射回实际的公式. 现在我们可以按如下方式写下DNF函数, 使用OCaml列表表示集合, 但是要注意在构造时避免重复:

let distrib s1 s2 = setify(allpairs union s1 s2);;

let rec purednf fm =
  match fm with
    And(p,q) -> distrib (purednf p) (purednf q)
  | Or(p,q) -> union (purednf p) (purednf q)
  | _ -> [[fm]];;

{译注: 注意到在这种表示下, 单独的True和False会分别变成[[True]]和[[False]]. 虽然这可能是作者意料之中的事情, 但我觉得还是有必要说一下. (后面有单独判断, 那没事了.) 另外, 我不太清楚这里的setify能否在列表元素顺序不同的情况下有效清理冗余列表. (看了一眼源代码, union和setify都会对于列表进行排序, 并且似乎用于比较的函数Pervasives.compare对于列表会进行字典序比较, 那么其实就没有问题了.) 虽然即便完全不清理, 得到的结果也是合理的. 但是有一点我们可以证明, 就是作为DNF的每个析取分量的合取里面不会有重复文字.}

本质的结构是相同的; 这次的distrib只是取两个集合的集合, 然后返回所有从中可能取出的集合序对之并. 如果我们将其应用于相同的例子, 会得到相同的结果, modulo新的表示:

# purednf <<(p \/ q /\ r) /\ (~p \/ ~r)>>;;
- : prop formula list list =
[[<<p>>; <<~p>>]; [<<p>>; <<~r>>]; [<<q>>; <<r>>; <<~p>>];
 [<<q>>; <<r>>; <<~r>>]]

但是, 得益于列表表示, 现在化简所得公式变得相当容易. 首先我们定义一个函数trivial, 用于检查同一列表中是否存在形如 $p$ 和 $\neg p$ 这样的互补文字. 我们通过将文字划分为肯定文字和否定文字两组来实现这一点, 然后检查肯定文字的集合与否定文字取反后的集合之间是否存在公共元素:

let trivial lits =
  let pos,neg = partition positive lits in
  intersect pos (image negate neg) <> [];;

现在我们可以通过过滤只留下无矛盾的析取分量, 例如

# filter (non trivial) (purednf <<(p \/ q /\ r) /\ (~p \/ ~r)>>);;
- : prop formula list list = [[<<p>>; <<~r>>]; [<<q>>; <<r>>; <<~p>>]]

这已经给出了更小的DNF. 另一种在许多场合下值得应用的优化是基于subsumption的. 注意到如果 ${l_{1}^{'}, \dots, l_{m}^{'}} \subseteq {l_{1}, \dots, l_{n}}$ , 那么每个满足 $D = l_{1} \land \dots \land l_{n}$ 的赋值也满足 $D^{'} = l_{1}^{'} \land \dots \land l_{m}^{'}$ . 因此, 析取 $D \lor D^{'}$ 逻辑等价于 $D^{'}$ . 这种情况下, 我们称 $D^{'}$ subsumes $D$ , 或者 $D$ is subsumed by $D^{'}$ . 以下是我们总体的函数, 其接受一个已经是NNF形式的公式, 产生一个与之等价的DNF公式, 使用集合的集合表示, 它首先会得到未经化简的DNF, 然后过滤掉矛盾和subsumed的析取分量:

let simpdnf fm =
  if fm = False then [] else if fm = True then [[]] else
  let djs = filter (non trivial) (purednf(nnf fm)) in
  filter (fun d -> not(exists (fun d' -> psubset d' d) djs)) djs;;

{译注: 这里的psubset是一个判断是否为真子集的谓词. 个人认为还有一种可能效率更高的写法, 那就是按照列表长度对于析取分量从大到小进行排序, 然后判断析取分量是否冗余就只需要看它之后的项即可:

(define (simpdnf exp)
  (cond ((eq? exp #f) '())
        ((eq? exp #t) '(()))
        (else
         (let rec ((rest (sort (filter (compose not trivial?)
                                       (purednf (nnf exp)))
                               > #:key length)))
           (cond ((null? rest) '())
                 ((memf (lambda (d)
                          (subset? d (car rest)))
                        (cdr rest))
                  (rec (cdr rest)))
                 (else (cons (car rest)
                             (rec (cdr rest)))))))))

注意我们对 $⊥$ 和 $⊤$ 进行了特殊处理, 分别返回空列表和包含一个空合取式的单元素列表. 此外, 在主代码中, 剔除矛盾析取项也可能产生空列表. 如果所有析取分量确实都是矛盾的, 那么该公式在逻辑上必然等价于 $⊥$ , 这与我们之前定义的list_disj函数对空列表的解释是一致的. 要将所有内容转换回公式, 我们只需执行:

let dnf fm = list_disj(map list_conj (simpdnf fm));;

我们可以检验, 尽管我们的构造相当复杂, 但是的确返回了逻辑等价的公式:

# let fm = <<(p \/ q /\ r) /\ (~p \/ ~r)>>;;
val fm : prop formula = <<(p \/ q /\ r) /\ (~p \/ ~r)>>
# dnf fm;;
- : prop formula = <<p /\ ~r \/ q /\ r /\ ~p>>
# tautology(Iff(fm,dnf fm));;
- : bool = true

注意到一个DNF公式是可满足的, 当且仅当其中某个析取分量是可满足的, 这直接由析取的语义可知. 而每个析取分量本身是文字的合取, 它是可满足的当且仅当其中不包含两个互补文字 (并且当不包含时, 我们可以像使用真值表求DNF时那样找到一个满足的赋值). {译注: 实际上, 肯定文字对应的原子取真, 否定文字对应的原子取假就够了.} 因此, 将一个公式转换为等价的DNF之后, 我们就能快速高效地判断它是否可满足. (事实上, 我们最新的DNF函数已经剔除了所有矛盾的析取分量, 所以一个公式是可满足的当且仅当简化后的DNF中仍然包含至少一个析取分量.) {译注: 换言之, 最终的dnf产生的结果不为 $⊥$ 就说明一定是可满足的.} 然而, 这种方法并不一定优于真值表方法, 因为等价的DNF可能是指数级大的.

第2.6.4小节 CNF

对于CNF而言, 我们将会使用和之前一样使用基于列表的表示, 只不过现在隐式的解释为析取的合取而已. 注意到根据De Morgan律, 我们有: 如果 $\neg p \Leftrightarrow ⋁_{i = 1}^{m} ⋀_{j = 1}^{n} p_{i, j}$ 那么 $p \Leftrightarrow ⋀_{i = 1}^{m} ⋁_{j = 1}^{n} - p_{i, j}$ {译注: 这里的 $n$ 是常量, 然而实际上根据上下文来看, 其应该是变量才对, 所以把 $n$ 改成 $n_{i}$ 更为合理.}

因此, 以列表表示, 我们可以按照以下方式产生等价的CNF公式: 首先对于初始公式进行否定 (并将其置于NNF形式), 然后产生其DNF形式, 最后再对于所有的文字进行否定:

let purecnf fm = image (image negate) (purednf(nnf(Not fm)));;

基于形式列表操作, 消除CNF的冗余和subsumed的合取分量的代码是相同的, 尽管解释是不同的. 例如, 现在平凡的合取分量表示包含某个文字和其否定的析取, 故等价于 $⊤$ ; 既然 $⊤ \land C \Leftrightarrow C$ , 将其排除于最终的合取之外也是同等合理的. 只有两个退化情形需要以不同的方式处理:

let simpcnf fm =
  if fm = False then [[]] else if fm = True then [] else
  let cjs = filter (non trivial) (purecnf fm) in
  filter (fun c -> not(exists (fun c' -> psubset c' c) cjs)) cjs;;

现在我们只需映射回作为公式的正确解释:

let cnf fm = list_conj(map list_disj (simpcnf fm));;

例如:

# let fm = <<(p \/ q /\ r) /\ (~p \/ ~r)>>;;
val fm : prop formula = <<(p \/ q /\ r) /\ (~p \/ ~r)>>
# cnf fm;;
- : prop formula = <<(p \/ q) /\ (p \/ r) /\ (~p \/ ~r)>>
# tautology(Iff(fm,cnf fm));;
- : bool = true

正如我们可以快速检测一个DNF公式的可满足性一样, 我们也可以快速检测一个CNF公式的有效性. {译注: 这里有效和重言同义.} 事实上, 一个合取式 $C_{1} \land \dots \land C_{n}$ 是有效的, 当且仅当每个 $C_{i}$ 都是有效的. 而由于每个 $C_{i}$ 是文字的析取, 它是有效的当且仅当它包含某个文字与其否定的析取; 否则, 我们可以构造一个不满足它的赋值. 再一次, 使用我们的简化CNF, 事情会更加简单: 一个公式是有效的, 当且仅当其简化CNF恰好是 $⊤$ . 同样, 这未必是一个好的实用算法, 因为转换为CNF的过程中可能产生指数级的膨胀.

第2.6.5小节原书的微妙bug

鉴于我是事后才发现这些bug的, 所以我感觉单开一小节也不为过. 事实上, 我之前的一些注记和注记里的程序也有错误.

这些错误归根结底是因为忘了考虑nnf的输出也可能是True或者False, 由此引发了意料之外的问题. 鉴于垃圾进, 垃圾出原则, 在这里进行事后分析恐怕只是浪费时间, 不如直接重写.

(define (subsume exp)
  (let rec ((rest (sort (filter (compose not trivial?) exp)
                        > #:key length)))
    (cond ((null? rest) '())
          ((memf (lambda (d)
                   (subset? d (car rest)))
                 (cdr rest))
           (rec (cdr rest)))
          (else (cons (car rest)
                      (rec (cdr rest)))))))
(define (purednf0 exp)
  (define (distrib s1 s2)
    (setlize (allpairs U s1 s2)))
  (define (dnf exp)
    (match exp
      ((and ,e1 ,e2)
       (distrib (dnf e1) (dnf e2)))
      ((or ,e1 ,e2)
       (U (dnf e1) (dnf e2)))
      (,else `((,exp)))))
  (cond ((eq? exp #f) '())
        ((eq? exp #t) '(()))
        (else (dnf exp))))
(define purednf
  (compose purednf0 nnf))
(define (simpdnf exp)
  (subsume (purednf exp)))
(define (dnf exp)
  (make-disj
   (map make-conj (simpdnf exp))))
(define (purecnf exp)
  (map (curry map negate)
       (purednf `(not ,exp))))
(define (simpcnf exp)
  (subsume (purecnf exp)))
(define (cnf exp)
  (make-conj
   (map make-disj (simpcnf exp))))

因为译者更熟悉Scheme, 所以这里的代码也是用Scheme写成的. 不过, 我也说明一下应该改什么. purednf应该接受任意的公式输入, 在内部调用nnf, 并且处理两个逻辑常量的特别情况. 这么做的一个很大的好处就是现在purednf和purecnf是完全对称的过程了, 它们都接受任意的公式, 分别产生DNF和CNF, 但是都是以列表之列表的形式. simpdnf和simpcnf现在都无需再处理特别情形, 实际上只是消除具有互补文字的冗余, 并根据subsumption规则进行化简. 这在DNF和CNF情况下都是完全一样的, 所以我们将这个简化过程抽象为subsume, 由此我们可以看到高度的对称之美.

测试一下:

> (define peirce '(=> (=> (=> p q) p) p))
> (simpdnf peirce)
'(((not p)) (p))
> (dnf peirce)
'(or (not p) p)
> (simpcnf peirce)
'()
> (cnf peirce)
#t
> (define e0 '(<=> p (<=> q r)))
> (simpdnf e0)
'((p q r) (p (not q) (not r)) ((not p) q (not r)) ((not p) (not q) r))
> (simpcnf e0)
'(((not p) (not q) r) ((not p) q (not r)) (p (not q) (not r)) (p q r))
> (tautology? `(<=> ,e0 ,(dnf e0)))
#t
> (tautology? `(<=> ,e0 ,(cnf e0)))
#t

第2.7节命题逻辑的应用

我们已经完成了命题逻辑的基础学习, 确定了后续将要使用的主要概念, 并将各种操作机械化, 包括重言式的识别. 从某种角度来看, 我们的工作已经完成了. 但对于许多更复杂的公式而言, 这些识别重言式的方法并不实用, 在后续章节中我们将介绍更高效的算法. 要测试这些算法, 甚至要证明其必要性, 如果没有一批非平凡的命题公式作为储备, 是相当困难的. 虽然在Pelletier (1986) 等文献集中有各种现成的命题问题可供使用, 但我们将开发一些方法, 从简洁的描述出发生成整类有趣的命题问题.

第2.7.1小节 Ramsey定理

我们首先考虑Ramsey的组合定理的一些特殊情形 (Ramsey 1930; Graham, Rothschild和Spencer 1980). 一个简单的Ramsey型结果是: 在任何一个六人聚会中, 必然存在三个人彼此都认识, 或者三个人彼此都不认识. 习惯上我们基于图 (graph) 思考这样的问题, 即一个顶点 (vertex) 集 $V$ 连带着由边 (edge) 所连接的特定点对, 而边是从一个集合 $E$ 中取出的. 一种对于六人聚会结果的泛化 (尽管仍然远没有Ramsey定理一般) 是:

{原注: 请参见第5.5节, 了解Ramsey在引入其定理时正在解决的逻辑问题. 另一个其与逻辑的联系是, 第一个自然的独立于一阶Peano算术的命题 (Paris和Harrington 1991) 本质上是一个Ramsey型结果的数值编码.}

定理2.9. 对于每个

s, t \in ℕ

, 存在某个

n \in ℕ

使得任意具有

n

个顶点的图要么有一个大小为

s

的完全连通子图, 要么有一个大小为

t

的完全不连通子图 (可兼的或). 而且, 如果Ramsey数

R (s, t)

代表对于给定的

s

和

t

而言的最小的这样的

n

, 那么我们有:

R (s, t) \leq R (s - 1, t) + R (s, t - 1) .

证明. 对于

s + t

施行完全归纳. 我们可以根据归纳假设假定结果对于任意的

s^{'}

和

t^{'}

满足

s^{'} + t^{'} < s + t

成立, 然后我们需要证明

s

和

t

的情形.
考虑具有大小

n = R (s - 1, t) + R (s, t - 1)

的任意图. 取一个任意的顶点

v

. 要么存在至少

R (s - 1, t)

个顶点与

v

相连, 要么存在至少

R (s, t - 1)

个顶点不与

v

相连, 否则的话图的总大小至多只有

(R (s - 1, t) - 1) + (R (s, t - 1) - 1) + 1 = n - 1

, 这违背了假设. 我们假设前一种情形成立, 后一种情形的论证是对称的.
考虑基于与

v

相连的顶点集的子图, 其大小至少为

R (s - 1, t)

. 根据归纳假设, 要么其有一个大小为

s - 1

的完全连通子图, 要么其有一个大小为

t

的完全不连通子图. 如果是前者, 包括

v

的话就能给出主图的一个大小为

s

的完全连通子图, 那么我们就结束了. 如果是后者, 那么我们已经有了一个大小为

t

的完全不连通子图, 这正是我们所要的. 于是, 任何大小为

n

的图要么有一个大小为

s

的完全连通子图, 要么有一个大小为

t

的完全不连通子图. 换言之,

R (s, t) \leq n

◻

{译注: 这个定理的陈述及其论证比看上去要复杂. 并且, 它的陈述还有一个小错, 即 $s = 1$ 且 $t = 1$ 时这个不等式并不成立. 不过除了这个特殊情形之外, 它的确对于任意的 $s \geq 1$ 和 $t \geq 1$ 成立. 所以说, 论证里其实也存在一个小错, 就是在这个特殊情形下我们没法从那个图里取出一个顶点, 因为此时压根就没有顶点. 不过, 在 $s = 1$ 且 $t \geq 2$ , 或者 $s \geq 2$ 且 $t = 1$ 的边缘情形, 原文对于相连不相连的中间结果虽然正确, 但是论证相当于牵涉了负数目, 所以不太具有意义. 原文这个对于不等式的论证的适用范围是 $s \geq 2$ 且 $t \geq 2$ 的情形. 为了清晰起见, 实际上最好把它拆成两个定理. 一个说明Ramsey数是良定的, 另一个说明不等式成立. 不过, 不等式的证明本质上不需要归纳法, 所以说原文证明里的根据归纳假设的确令人困惑.}

对于任意特定的正整数 $s, t, n$ , 我们可以表述一个命题公式, 其为重言恰当 $R (s, t) \leq n$ . 我们用整数 $1$ 到 $n$ 为顶点编号, 计算所有的 $s$ 个元素和 $t$ 个元素的子集, 然后对于这些集合, 计算所有的 $2$ 元素子集. {译注: $2$ 元素子集代表的是边.} 我们想要表达这样的事实, 即对于所有的 $s$ 个元素子集, 有一个的每对元素都是连通的, 或者对于所有的 $t$ 个元素子集, 有一个的每对元素都是不连通的. 以下的局部定义e[m;n]产生一个原子公式p_m_n, 我们将其想成是 $m$ 和 $n$ 是连通的, 或者说 $m$ 和 $n$ 互相认识, 诸如此类:

let ramsey s t n =
  let vertices = 1 -- n in
  let yesgrps = map (allsets 2) (allsets s vertices)
  and nogrps = map (allsets 2) (allsets t vertices) in
  let e[m;n] = Atom(P("p_"^(string_of_int m)^"_"^(string_of_int n))) in
  Or(list_disj (map (list_conj ** map e) yesgrps),
     list_disj (map (list_conj ** map (fun p -> Not(e p))) nogrps));;

{译注: 实际上这个函数的参数s, t, n都可以是自然数, 此时生成的命题公式仍然具有意义.}
例如:

# ramsey 3 3 4;;
- : prop formula =
<<(p_1_2 /\ p_1_3 /\ p_2_3 \/
   p_1_2 /\ p_1_4 /\ p_2_4 \/
   p_1_3 /\ p_1_4 /\ p_3_4 \/ p_2_3 /\ p_2_4 /\ p_3_4) \/
  ~p_1_2 /\ ~p_1_3 /\ ~p_2_3 \/
  ~p_1_2 /\ ~p_1_4 /\ ~p_2_4 \/
  ~p_1_3 /\ ~p_1_4 /\ ~p_3_4 \/ ~p_2_3 /\ ~p_2_4 /\ ~p_3_4>>

我们可以确认数字 $6$ 是开始的聚会例子里最好的结果, 即 $R (3, 3) = 6$ :

# tautology(ramsey 3 3 5);;
- : bool = false
# tautology(ramsey 3 3 6);;
- : bool = true

然而, 后一个例子已经需要相当长的时间, 而即使稍大一些的输入参数, 也会产生远超我们目前所述方法在合理时间内所能解决的命题问题. 事实上, 已知的精确Ramsey数非常少, 截至撰写本书时, 即便是 $R (5, 5)$ 也只知道其值介于 $43$ 到 $49$ 之间.

{译注: 以下是Scheme版本的实现:

(define ((allsets n) s)
  (define (a n s l)
    (cond ((= n 0) '(()))
          ((< l n) '())
          ((= l n) (list s))
          (else
           (append (map (curry cons (car s))
                        (a (- n 1) (cdr s) (- l 1)))
                   (a n (cdr s) (- l 1))))))
  (a n s (length s)))
(define (ramsey s t n)
  (define v* (range n))
  (define (sub x)
    (map (allsets 2)
         ((allsets x) v*)))
  (define yes* (sub s))
  (define no* (sub t))
  (define (e p)
    (string->symbol
     (apply format "p_~s_~s" p)))
  (make-disj
   (append (map (lambda (p*)
                  (make-conj (map e p*)))
                yes*)
           (map (lambda (p*)
                  (make-conj (map (lambda (p)
                                    `(not ,(e p)))
                                  p*)))
                no*))))

一个例子:

> (simpdnf (ramsey 3 3 4))
'((p_0_1 p_0_2 p_1_2)
  (p_0_1 p_0_3 p_1_3)
  (p_0_2 p_0_3 p_2_3)
  (p_1_2 p_1_3 p_2_3)
  ((not p_0_1) (not p_0_2) (not p_1_2))
  ((not p_0_1) (not p_0_3) (not p_1_3))
  ((not p_0_2) (not p_0_3) (not p_2_3))
  ((not p_1_2) (not p_1_3) (not p_2_3)))

第2.7.2小节数字电路

数字计算机使用只能占据有限数量电压等级之一的电信号来运行. (相比之下, 在模拟计算机中, 电压等级可以连续变化.) 几乎所有现代计算机都是二进制的, 即只使用两个等级, 按惯例称为 $0$ (低)和 $1$ (高). 在任何特定时刻, 我们可以将二进制数字计算机中的每根内部或外部导线视为具有一个布尔值—— $0$ 对应假, $1$ 对应真——并将每个电路元件视为一个布尔函数, 对其输入导线上的值进行运算, 从而在输出导线上产生一个值. (当然, 采用这种观点时, 我们忽略了许多重要的物理层面, 但我们在这里只关注逻辑结构.)

数字电路的关键构建块, 即逻辑门, 基本上对应于通常的逻辑联结词. 例如, 一个AND门是对应于联结词and ( $\land$ ) 的电路元素: 其有两个输入和一个输出, 并且输出导线是高电平的 (为真), 恰当两个输入都是高电平的. 类似地, 一个NOT门, 或者说反相器, 有一个输入导线和一个输出导线, 并且当输入为低时输出为高, 输入为高时输出为低, 因而对应于not联结词. 因此, 数字电路和公式之间存在着紧密的对应, 其可以大致总结如下: $\begin{array}{l} 数字设计 & 命题逻辑 \\ 电路 & 公式 \\ 逻辑门 & 命题联结词 \\ 输入导线 & 原子 \\ 内部导线 & 子表达式 \\ 电平 & 真值 \end{array}$

例如, 以下逻辑电路对应于命题公式 $\neg s \land x \lor s \land y$ . 一个具有此行为的复合电路元件被称为一个选择器(multiplexer), 因为其输出要么是输入 $x$ , 要么是输入 $y$ , 取决于 $s$ 是低电平还是高电平.

一个显著的区别是, 在电路中我们只需将导线一分为二就能复制输入 $s$ , 而在表达式中则需要将 $s$ 书写两次. 对于较大的子表达式, 这一差异会更加明显: 在公式中我们可能需要将其书写多次, 而在电路中只需从相应的电路元件引出多条导线即可. 在第2.8节中, 我们将为公式发展出一种类似的技术.

第2.7.3小节加法

鉴于计算机采用两电平电路结构, 数字在计算机中的主要表示方式自然是二进制位置表示法, 而非十进制或其他方案. 一个二进制数位, 即一个比特, 可以用单根导线上的值来表示. 具有 $n$ 个二进制数位的较大数字可以用 $n$ 个比特的有序序列来表示, 并以 $n$ 根导线组成的阵列 (array) 来实现. (对于特定大小的阵列有专门的名称, 例如字节或octet表示八个比特的序列.) 我们在学校学到的多位算术的常规算法可以直接改写为二进制形式; 事实上, 它们往往会变得更加简单.

假设我们想要将两个二进制数相加, 每个数由一组 $n$ 个比特表示. 这意味着每个数的范围是从 $0$ 到 $2^{n} - 1$ , 于是和的范围是从 $0$ 到 $2^{n + 1} - 2$ , 可能需要 $n + 1$ 个比特来存储. 我们只需像十进制一样从右到左逐位相加. 当某一位的和 $\geq 2$ 时, 我们将其减去 $2$ , 并向下一个比特位产生一个值为 $1$ 的进位. 下面是一个例子, 对应于十进制的 $179 + 101 = 280$ :

       1  0  1  1  0  0  1  1
 +     0  1  1  0  0  1  0  1
------------------------------
 =  1  0  0  0  1  1  0  0  0

为了将 $n$ 位数的加法实现为电路或命题公式, 最简单的方法是利用算法的规律性, 通过将一个 $1$ 位加法器复制 $n$ 次来构建加法器, 并在每对相邻元件之间传播进位. 第一个任务是构建一个 $1$ 位加法器, 这并不太难. 我们可以将两个数字相加所产生的和位 ( $s$ ) 与进位 ( $c$ ) 视为两个独立的布尔函数, 其真值表如下所示, 其中我们使用 $0$ 和 $1$ 而非 $false$ 和 $true$ 来强调其与算术的联系: $\begin{matrix} x & y & c & s \\ 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 1 \\ 1 & 0 & 0 & 1 \\ 1 & 1 & 1 & 0 \end{matrix}$

进位的真值表可能看起来很熟悉: 它就是and运算 $x \land y$ . 至于和位, 它是or运算的不可兼版本, 可以表示为 $\neg (x \Leftrightarrow y)$ 或者 $x \Leftrightarrow \neg y$ , 缩写为XOR. 我们可以在OCaml中实现与这些运算对应的函数, 如下所示:

let halfsum x y = Iff(x,Not y);;

let halfcarry x y = And(x,y);;

现在我们可以将半加器的输入导线和输出导线之间的关系断言如下:

let ha x y s c = And(Iff(s,halfsum x y),Iff(c,halfcarry x y));;

之所以使用半, 是因为强调这只是我们所需要的一部分. 除了最右的数位, 其他情况我们需要将三个比特加起来, 而不只是两个, 因为还有传入的进位. 一个全加器将三个比特相加, 因为答案 $\leq 3$ , 所以仍然可以只是将结果返回为一个和位和一个进位. 其真值表如下: $\begin{matrix} x & y & z & c & s \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 1 \\ 0 & 1 & 0 & 0 & 1 \\ 0 & 1 & 1 & 1 & 0 \\ 1 & 0 & 0 & 0 & 1 \\ 1 & 0 & 1 & 1 & 0 \\ 1 & 1 & 0 & 1 & 0 \\ 1 & 1 & 1 & 1 & 1 \end{matrix}$ 并且一种作为门的可能实现如下:

let carry x y z = Or(And(x,y),And(Or(x,y),z));;

let sum x y z = halfsum (halfsum x y) z;;

let fa x y z s c = And(Iff(s,sum x y z),Iff(c,carry x y z));;

现在将多个全加器组合成一个 $n$ 位加法器是很容易的事情了, 并且其在最低端允许一个进位传入, 而在最高端传出第 $n + 1$ 位. {译注: 最后半句有点令我迷惑, 不过有无这个进位输入都需要 $n + 1$ 个位来输出.} 相应的OCaml函数期望用户提供函数x, y, out, c, 这些函数接受一个索引, 生成一个合适的新(原子)变量. x和y所返回的变量用于诸输入位, out返回的则用于输出位, 而c返回的诸变量是在内部用作进位的, 其中c(0)是进位入, 而c(n)是进位出. {译注: 从概念上来说, 除了两端之外, 这些用于进位的变量既是输入又是输出.}

let conjoin f l = list_conj (map f l);;

let ripplecarry x y c out n =
  conjoin (fun i -> fa (x i) (y i) (c i) (out i) (c(i + 1)))
          (0 -- (n - 1));;

例如, 以下是使用带索引的风格化名称作为输入, 生成一个 $3$ 位加法器:

let mk_index x i = Atom(P(x^"_"^(string_of_int i)))
and mk_index2 x i j =
  Atom(P(x^"_"^(string_of_int i)^"_"^(string_of_int j)));;
val mk_index : string -> int -> prop formula = <fun>
val mk_index2 : string -> int -> int -> prop formula = <fun>
# let [x; y; out; c] = map mk_index ["X"; "Y"; "OUT"; "C"];;
...

我们得到:

# ripplecarry x y c out 2;;
- : prop formula =
<<((OUT_0 <=> (X_0 <=> ~Y_0) <=> ~C_0) /\
   (C_1 <=> X_0 /\ Y_0 \/ (X_0 \/ Y_0) /\ C_0)) /\
  (OUT_1 <=> (X_1 <=> ~Y_1) <=> ~C_1) /\
  (C_2 <=> X_1 /\ Y_1 \/ (X_1 \/ Y_1) /\ C_1)>>

如果我们对最低端的进位输入不感兴趣, 可以修改结构, 在该位的位置仅使用半加器. 一个更简单但粗糙的替代方案是, 直接输入False (即 $0$ ) 并化简所得公式:

let ripplecarry0 x y c out n =
  psimplify
   (ripplecarry x y (fun i -> if i = 0 then False else c i) out n);;

之所以使用术语波纹进位 (ripple-carry)加法器, 是因为进位从右向左依次流过各个全加器. 在实际电路中, 门的输入发生变化到输出相应变化之间存在传播延迟. 在极端情况下 (例如 $11111...11 + 1$ ), 最终输出位只有在进位经过 $n$ 个阶段传播之后才能得到, 大约需要 $2 n$ 个门延迟. 当 $n$ 相当大时, 比如 $64$ , 这种延迟可能是无法接受的, 因此需要采用不同的设计. 例如, 在进位选择加法器中, $n$ 位输入被分成若干个 $k$ 位的块, 对应的 $k$ 位块被加法运算两次, 一次假设进位输入为 $0$ , 一次假设进位输入为 $1$ . 然后可以通过多路复用 (multiplexing) 来决定正确答案, 以来自前一阶段的实际进位输入作为选择信号. 这样, 进位只需在 $n / k$ 个块中传播, 每个块仅有少量门延迟. 为了实现这样的加法器, 我们需要另一个元件来补充ripplecarry0, 这次强制进位输入为 $1$ :

let ripplecarry1 x y c out n =
  psimplify
   (ripplecarry x y (fun i -> if i = 0 then True else c i) out n);;

当我们使用多路复用器 (选择器) 进行进位传播时, 将在两种方案之间进行选择:

let mux sel in0 in1 = Or(And(Not sel,in0),And(sel,in1));;

现在可以递归地实现整体函数, 使用一个辅助函数对于位阵列中的索引进行偏移:

let offset n x i = x(n + i);;

假设我们处理的是整体 $n$ 位中的第 $0, \dots, k - 1$ 位. 我们分别在假定进位是 $0$ 和 $1$ 的情况下将 $k$ 位相加, 这分别给出了输出c0, s0和c1, s1. 最终的和位与进位出位是由一个多路复用器选择的, 而选择子为c(0). 剩余的 $n - k$ 个比特位可以通过递归处理, 但是所有的比特向量需要都需要偏移 $k$ 位, 因为我们每次都是从 $0$ 开始. 额外需要注意的点在于 $n$ 可能不是 $k$ 的精确倍数, 所以说实际上我们每次使用的都是 $k^{'}$ , 它要么是 $k$ , 要么是比特位总数 $n$ , 不论如何选择较小的那个:

let rec carryselect x y c0 c1 s0 s1 c s n k =
  let k' = min n k in
  let fm =
    And(And(ripplecarry0 x y c0 s0 k',ripplecarry1 x y c1 s1 k'),
        And(Iff(c k',mux (c 0) (c0 k') (c1 k')),
            conjoin (fun i -> Iff(s i,mux (c 0) (s0 i) (s1 i)))
                    (0 -- (k' - 1)))) in
  if k' < k then fm else
  And(fm,carryselect
            (offset k x) (offset k y) (offset k c0) (offset k c1)
            (offset k s0) (offset k s1) (offset k c) (offset k s)
            (n - k) k);;

{译注: 个人感觉这里的条件测试应该改成(= (- n k^) 0), 当然这是Scheme写法, 不过读者应该可以理解.}

{译注: 关于为什么原文稍有冗余的版本也正确, 我实际上思考了一段时间, 但是没有抓住头绪. 后来我发现我忽略了一个关键的事实, 也就是每个块里面进位输入为假所对应的进位输出, 一定是小于等于进位输入为真所对应的进位输出的. 这是一种单调性.}

电路设计中的一个问题是验证某些效率优化没有对所计算的函数造成任何逻辑改变. 因此, 如果从波纹进位加法器转变为进位选择加法器的优化是正确的, 那么以下内容应当始终生成重言式. 它表明, 如果相同的输入向量x和y由两种不同的方法相加 (使用不同的内部变量), 则每种方法中所有的和位输出与进位输出应当相同.

let mk_adder_test n k =
  let [x; y; c; s; c0; s0; c1; s1; c2; s2] = map mk_index
      ["x"; "y"; "c"; "s"; "c0"; "s0"; "c1"; "s1"; "c2"; "s2"] in
  Imp(And(And(carryselect x y c0 c1 s0 s1 c s n k,Not(c 0)),
          ripplecarry0 x y c2 s2 n),
      And(Iff(c n,c2 n),
          conjoin (fun i -> Iff(s i,s2 i)) (0 -- (n - 1))));;

{译注: 我并没有完全理解这个程序, 不过从直觉上来说, 它的确应该有一个可以改进的地方. ripplecarry0只是默认了进位输入是 $0$ , 而对于进位选择加法器, 生成的命题公式则是断言了进位输入是 $0$ . 所以说, 原本的程序在n为零时不是重言. 一种改进方式是为波纹进位加法器添加关于进位输入的约束, 当然此时我们只需要使用ripplecarry.}

这是一个实用的重言生成器. 它也展示了计算机设计里的实际问题是如何由命题方法所解决的.

第2.7.4小节乘法

既然我们可以将 $n$ 位数字相加, 那么我们就可以使用反复加法将数字相乘. 又一次, 这里可以应用传统算法. 考虑将两个 $4$ 位数字 $A$ 和 $B$ 相乘. 我们将会使用记号 $A_{i}$ 和 $B_{i}$ 代表 $A$ 和 $B$ 的第 $i$ 位, 其中最低重要位 (LSB) 自零开始数, 于是第 $i$ 位相当于隐式乘以了 $2^{i}$ . 正和我们手工进行十进制算术时一样, 我们可以将数字布局如下, 其中乘积项 $A_{i} B_{j}$ 若具有相等的 $i + j$ 则被安排在同一列, 然后将它们全都加起来:

之后对于 $A_{i} B_{j}$ 我们将会记 $X_{i, j}$ ; 每个这样的乘积项都可以通过单个AND门由输入位得到.

第2.7.5小节素性和因数分解

第2.7.6小节命题逻辑的力量

本节仅仅初步展示了某些问题如何可以归约为SAT, 即命题公式的可满足性检验. Cook (1971) 的著名工作表明, 包括SAT本身在内的一大类组合问题, 在精确意义上彼此具有完全相同的难度. (粗略地说, 求解其中任何一个问题的算法都可以产生求解其他任何一个问题的算法, 运行时间至多增加一个多项式因子.) 这类NP完全问题如今已知包含许多看起来非常困难且具有重大实际意义的问题 (Garey和Johnson 1979).

我们的tautology或satisfiable函数在最坏情况下可能需要关于输入公式规模的指数级时间, 因为它们可能需要在其 $n$ 个原子命题的全部 $2^{n}$ 个赋值上对公式求值. 我们后续将要开发的算法在实践中要高效得多, 但其最坏情况复杂度同样是指数级的. 若能找到SAT或任何其他NP完全问题的多项式时间算法, 就能由此得到所有NP完全问题的多项式时间算法. 由于迄今为止尚未找到这样的算法, 人们普遍相信这是不可能的, 但在撰写本书时这一点尚未被证明. 这就是著名的P=NP问题, 它或许是离散数学和计算机科学中最突出的开放性问题. Baker, Gill和Solovay (1975) 给出了一些理由, 说明为何许多看似可行的攻克该问题的方法不太可能奏效.

尽管如此, 许多其他问题可归约为SAT这一事实也具有积极的意义. 人们已经在SAT算法及其高效实现上投入了大量精力. 实践中常常发现, 将问题仔细归约为SAT, 然后使用这些工具之一来求解, 其效果优于除最精良的专用算法之外的所有方法.

第2.8节定义性CNF

我们已经观察到, 对CNF公式进行重言式检查是容易的, 对DNF公式进行可满足性检验同样如此 (第2.6节). 遗憾的是, 将公式转换为这两种范式中任一种的逻辑等价形式这一简单操作, 都可能导致公式规模呈指数级膨胀. 这并非我们特定实现的缺陷, 而是原则上不可避免的 (Reckhow 1976).

然而, 如果我们要求一种比逻辑等价更弱的性质, 就可以做得好得多. 我们将会展示如何将任意的公式 $p$ 转换为某个CNF公式 $p^{'}$ , 其使得 $p^{'}$ 最差也只会是 $p$ 的数倍大, 并且 $p$ 和 $p^{'}$ 是等可满足的(equisatisfiable), 即 $p^{'}$ 是可满足的当且仅当 $p$ 是可满足的, 即便一般它们并不逻辑等价. 我们可以对偶化这个过程以给出一个DNF公式, 其和原本的公式是等有效的(equivallid), 即其是一个重言当且仅当原本的公式是一个重言. 这两种过程都不能直接产生平凡的重言或者可满足性测试, 因为CNF和DNF恰好颠倒了. 不过, 它们至少为更高级的算法提供了一个有用的简化起点.

其基本思想最初由Tseitin (1968) 提出, 后来又以多种方式加以改进 (Wilson 1990), 核心是引入新的原子命题作为子公式的缩略或者说定义, 因此得名定义性CNF. 理解这一方法的最佳途径大概是考察一个简单的典型例子. 假设我们想将以下公式转换为CNF: $(p \lor (q \land \neg r)) \land s .$

我们引入一个新的原子 $p_{1}$ 来对于 $q \land \neg r$ 进行缩略, 这个原子没有在公式的其他地方用过. 然后我们将缩略了的公式与 $p_{1}$ 的定义结合在一起: $\begin{array}{l} (p_{1} \Leftrightarrow q \land \neg r) \land \\ (p \lor p_{1}) \land s \end{array}$

接着我们继续施行相同种类的步骤, 引入另一个原子 $p_{2}$ 作为对于 $p \lor p_{1}$ 的缩略: $\begin{array}{l} (p_{1} \Leftrightarrow q \land \neg r) \land \\ (p_{2} \Leftrightarrow p \lor p_{1}) \land \\ p_{2} \land s \end{array}$ 然后引入 $p_{3}$ 作为对于 $p_{2} \land s$ 的缩略: $\begin{array}{l} (p_{1} \Leftrightarrow q \land \neg r) \land \\ (p_{2} \Leftrightarrow p \lor p_{1}) \land \\ (p_{3} \Leftrightarrow p_{2} \land s) \land \\ p_{3} \end{array}$ 最后, 我们使用传统方法将每个合取分量转换为CNF形式: $\begin{array}{l} (\neg p_{1} \lor q) \land (\neg p_{1} \lor \neg r) \land (p_{1} \lor \neg q \lor r) \land \\ (\neg p_{2} \lor p \lor p_{1}) \land (p_{2} \lor \neg p) \land (p_{2} \lor \neg p_{1}) \land \\ (\neg p_{3} \lor p_{2}) \land (\neg p_{3} \lor s) \land (p_{3} \lor \neg p_{2} \lor \neg s) \land \\ p_{3} \end{array}$

我们可以看出来作为结果的公式只能比原本的公式在规模上大上一个较小的常量因子. 引入的定义性合取分量的数目是由原本公式里的联结词数目所划定上界的. 并且, 最终将每个合取分量变为CNF的展开只会导致较小的膨胀, 因为这些分量的形式都比较简单. 即便是最坏的情况下, 也就是 $p \Leftrightarrow (q \Leftrightarrow r)$ , 其等价的CNF形式里也只有 $11$ 个二元联结词:

# cnf <<p <=> (q <=> r)>>;;
- : prop formula =
<<(p \/ q \/ r) /\
  (p \/ ~q \/ ~r) /\ (q \/ ~p \/ ~r) /\ (r \/ ~p \/ ~q)>>

由此我们关于公式大小的声明得到了澄清. 对于等可满足性, 我们只需表明每一定义性步骤都是保持可满足性的, 因为总体上这个变换是一系列这样的步骤之后跟着一个逻辑等价的变换.

定理2.10. 如果

x

没有出现在

q

里, 那么公式

psubst (x |\Rightarrow q) p

和

(x \Leftrightarrow q) \land p

是等可满足的.

证明. 如果

psubst (x |\Rightarrow q) p

是可满足的, 比如说由一个赋值

v

所满足, 那么根据定理2.3, 经过修饰的赋值

v^{'} = (x \mapsto eval q v) v

能够满足

p

. 这个赋值也能够满足

x \Leftrightarrow q

, 因为根据构造, 我们有

v^{'} (x) = eval q v

, 并且鉴于

x

没有出现在

q

之中, 这个值又和

eval q v^{'}

相同 (定理2.2). 因此,

v^{'}

满足

(x \Leftrightarrow q) \land p

, 于是该公式也是可满足的.
反过来, 设某个赋值

v

满足

(x \Leftrightarrow q) \land p

. 因为其满足第一个合取分量, 故有

v (x) = eval q v

, 因而

(x \mapsto eval q v) v

就是

v

. 根据定理2.3, 赋值

v

满足

psubst (x |\Rightarrow q) p

◻

这个证明的第二部分实际上说明了从右到左的推出 $(x \Leftrightarrow q) \land p \Rightarrow psubst (x |\Rightarrow q) p$ 是一个重言. {译注: 并且, 无需 $x$ 不能出现在 $q$ 中的条件.} 然而, 相反方向的推出是不行的, 所以我们没有逻辑等价. 这是因为, 若某个赋值 $v$ 满足 $psubst (x |\Rightarrow q) p$ , 鉴于 $x$ 没有出现在 $q$ 中, 所以 $v^{'} = (x \mapsto not (v (x))) v$ 也能够满足 $psubst (x |\Rightarrow q) p$ . 但是, $v$ 和 $v^{'}$ 之中必然有不能满足 $x \Leftrightarrow q$ 的赋值.

第2.8.1小节定义性CNF的实现

对于新的命题变量, 我们将使用具有形式p_n的风格化名称. 下面的函数返回这样一个原子, 同时返回递增后的索引以备下次使用. {译注: 对于Scheme和许多其他Lisp方言而言, 我们有gensym这种便利设施可用, 无需费心于freshness问题. 不过, gensym的语义可能相当微妙, 使用起来需要小心谨慎, 并且可能不具备可移植性. 就译者使用的Racket而言, 它会产生所谓的uninterned符号, 所以冲突的确是得以避免的, 但是它并不能保证这些产生的符号在字面上就能和其他符号区别开来, 所以说简单复制REPL输出再喂给其他过程作为输入在特定情况下可能造成问题, 不过这种有问题的现象在实际使用时应该罕有发生. 当然了, 若考虑到实际阅读和演示的需求, 原文的做法比起使用gensym是更正确的更好的.}

let mkprop n = Atom(P("p_"^(string_of_num n))),n +/ Int 1;;

为简单起见, 假设初始公式已经通过nenf进行了预简化, 使得否定仅作用于原子, 并且推出式已被消除. 主递归函数maincnf接受一个三元组作为输入, 其由一个要被转换的公式, 一个给出了已经作出的定义的有限部分函数, 以及当前变量索引计数器的值构成. 这个函数会返回一个类似的三元组, 由被转换了的公式, 增长了的定义, 以及跨越了已在定义中使用过了的变量的新计数器构成. 其做的一切就是将顶层的二元联结词分解为类型构造器和其直接子公式, 然后将其作为参数op和(p,q)传递给另一个一般函数defstep, 这个函数进行了主要的工作. {译注: 这里说的类型构造器不是严格意义上的.} (两个函数maincnf和defstep是互递归的, 因而我们将其作为一个整体输入: 注意到以下的代码没有双分号.)

let rec maincnf (fm,defs,n as trip) =
  match fm with
    And(p,q) -> defstep mk_and (p,q) trip
  | Or(p,q) -> defstep mk_or (p,q) trip
  | Iff(p,q) -> defstep mk_iff (p,q) trip
  | _ -> trip

在defstep内部, 对于maincnf的递归调用将左子公式p进行转换, 返回被转换了的公式fm1, 增长了的定义列表defs1, 以及计数器n1. 右子公式q连带着新的定义列表和计数器用在了另一个递归调用里, 给出了一个被转换的公式fm2以及进一步修饰了的定义defs2和计数器n2. 然后, 我们通过应用传入的构造器op来构造合适的复合公式fm'. 接着, 我们检查是否已经有定义对应于该公式. 若是如此, 则返回定义变量. 否则的话, 我们创建一个新的变量并插入一个新的定义, 之后返回该变量作为简化了的公式, 当然调用mkprop所得到的新计数器也要返回.

and defstep op (p,q) (fm,defs,n) =
  let fm1,defs1,n1 = maincnf (p,defs,n) in
  let fm2,defs2,n2 = maincnf (q,defs1,n1) in
  let fm' = op fm1 fm2 in
  try (fst(apply defs2 fm'),defs2,n2) with Failure _ ->
  let v,n3 = mkprop n2 in (v,(fm'|->(v,Iff(v,fm'))) defs2,n3);;

{译注: 这个优化的正确性实际上并非完全显然, 而是需要证明. 这里我们需要用到定理2.5. 首先我们要把这Tseitin变换的中间步骤的整个表达式 (包括定义) 的当前焦点部分挖去, 换上新鲜变量

y

, 然后我们设这个模板是

r

, 优化所使用的定义里的变量和公式分别为

x

和

q

, 那么前后两个表达式分别为

psubst (y |\Rightarrow q) r 和 psubst (y |\Rightarrow x) r

如果赋值

v

满足其中任何一个公式, 那么因为定义是合取分量之一, 所以

eval x v = eval q v

. 由此可知, 根据定理2.5, 我们有

eval (psubst (y |\Rightarrow q) r) v = eval (psubst (y |\Rightarrow x) r) v

换言之, 若

v

满足其中一个表达式, 那么必然

v

也满足另一个表达式. 也就是说, 优化前后的两个表达式是逻辑等价的, 这比等可满足还要强.}

我们需要保证我们新引入的原子没有出现在初始公式里. {译注: 更准确地说, 对于这里的情况, 以及后面可能出现的情况, 新要引入的原子一般要保证和初始公式里的每个原子以及已经引入的新原子都不同. 许多过程的正确性都依赖于这一点. 就这里的情况而言, freshness是为了保证新原子能够唯一地标识Tseitin变换的中间步骤的位置, 这里说的中间步骤是包括所有已经引入的定义的.} 这种繁琐的工作在后续还会多次出现, 因此我们现在实现一个更通用的解决方案. max_varindex函数返回参数n和可能的m中更大的那个, 如果字符串参数s是pfx后面跟着对应于数字m的字符串的话:

let max_varindex pfx =
  let m = String.length pfx in
  fun s n ->
    let l = String.length s in
    if l <= m or String.sub s 0 m <> pfx then n else
    let s' = String.sub s m (l - m) in
    if forall numeric (explode s') then max_num n (num_of_string s')
    else n;;

{译注: 原文对于max_varindex的描述真是非常绕, 实际上就是看看字符串s是不是恰好为pfx后面跟着数码的形式. 如果是, 那就试图得到这些数码所表示的数字, 然后比大小. 如果不是这样的形式, 就不用比较了, 直接返回n即可.}

现在我们可以实现整体的函数了. 首先对公式进行化简并将否定下推, 得到fm'. 然后, 我们使用这个公式以选择合适的起始变量索引, 具体做法是看看既有的形式为p_n的所有变量, 然后给其中最大的 $n$ 加上一. 然后我们调用主函数, 这里我们将其保留为参数fn以允许未来的修改, 而主函数的参数是从没有定义和之前选取的变量索引开始的. 然后我们以集合之集合表示返回作为结果的CNF:

let mk_defcnf fn fm =
  let fm' = nenf fm in
  let n = Int 1 +/ overatoms (max_varindex "p_" ** pname) fm' (Int 0) in
  let (fm'',defs,_) = fn (fm',undefined,n) in
  let deflist = map (snd ** snd) (graph defs) in
  unions(simpcnf fm'' :: map simpcnf deflist);;

我们的第一个定义性CNF函数知识将其应用于maincnf, 然后将结果转换回公式的形式:

let defcnf fm = list_conj(map list_disj(mk_defcnf maincnf fm));;

在示例公式上进行测试, 得到了预期的结果, 与上面手工推导得到的结果一致, 只是合取分量的顺序以及每个合取分量内文字的顺序有所不同.

# defcnf <<(p \/ (q /\ ~r)) /\ s>>;;
- : prop formula =
<<(p \/ p_1 \/ ~p_2) /\
  (p_1 \/ r \/ ~q) /\
  (p_2 \/ ~p) /\
  (p_2 \/ ~p_1) /\
  (p_2 \/ ~p_3) /\
  p_3 /\
  (p_3 \/ ~p_2 \/ ~s) /\ (q \/ ~p_1) /\ (s \/ ~p_3) /\ (~p_1 \/ ~r)>>

与其将每个定义单独转换为CNF, 我们本可以先形成最终的合取式, 然后调用一次旧的CNF函数. 这样编程会稍微简单一些, 并且能消除更多被subsumed的合取分量, 例如这个例子里的 $p_{3} \lor \neg p_{2} \lor \neg s$ is subsumed by $p_{3}$ . 然而, 对于非常大的公式, subsumption测试会变得极其缓慢, 因为(在我们的简单实现里)其对于大小为 $n$ 的公式大约要执行 $n^{2}$ 次运算. {译注: 我感觉可能没有那么糟糕, 因为作者会进行预排序. 对于排序好了的集合, subsumption测试是线性的. 不过, 排序总是反复进行, 然而我期望作者的实现里对于已经排序好的列表进行排序应该不太耗费代价. 不过, 鉴于作者的实现里每个公式都要对于所有公式进行一次subsumption测试, 我感觉这种计算量不会很小.}

{译注: 以下是个人以Scheme实现的Tseitin变换, 其大致相当于原文maincnf和nenf功能复合, 不过没有实现原文的小优化 (为了简单和可读性起见):

(define (fresh-var)
  (gensym 'p_))
(define (tseitin exp)
  (define (tseitin exp d*)
    (match exp
      ((,op ,e1 ,e2)
       (let*-values (((l1 d*) (tseitin e1 d*))
                     ((l2 d*) (tseitin e2 d*)))
         (let ((x (fresh-var))
               (e `(,op ,l1 ,l2)))
           (values x (cons `(<=> ,x ,e) d*)))))
      (,else (values exp d*))))
  (tseitin (nenf exp) '()))

这里的变量名l1和l2暗示了内部的tseitin所返回的第一个值是文字.}

第2.8.2小节优化

我们可以通过避免一些明显冗余的定义来优化该过程. 首先, 当处理初始公式里的迭代合取时, 我们可以只是将合取分量分别置于CNF形式, 然后将它们连接起来. {原注: 注意到这里最初要调用的nenf带来了收益, 因为它可以暴露原本隐藏在嵌套否定之下的CNF结构, 例如 $\neg (p \lor q \land r)$ 在这变换之后就已然变成了CNF形式.} 并且, 如果合取分量本身又是析取, 那么我们可以忽略析取分量是文字的情况, 只对于其他子公式引入定义.

编码相当简单: 首先我们向下历经任意多层嵌套的合取, 然后再向下历经任意多层嵌套的析取, 在我们开始定义性工作之前. 然而, 我们仍然需要将公式的不同部分的定义性变换链接起来, 于是我们维持了和之前相同的具有三个参数的整体结构. 函数subcnf和defstep的结构大致相同, 除了它只是处理链接记录事务 (linkage housekeeping) 而不引入新的定义, 并且其还有要被递归调用的函数作为额外的参数sfn:

let subcnf sfn op (p,q) (fm,defs,n) =
  let fm1,defs1,n1 = sfn(p,defs,n) in
  let fm2,defs2,n2 = sfn(q,defs1,n1) in (op fm1 fm2,defs2,n2);;

首先这用来定义第一个函数, 其递归地向下历经析取, 然后对于析取分量执行定义性变换 {译注: 根据前文可知, 定义性变换对于文字不会引入新的定义}:

let rec orcnf (fm,defs,n as trip) =
  match fm with
    Or(p,q) -> subcnf orcnf mk_or (p,q) trip
  | _ -> maincnf trip;;

当然我们还需要一个函数, 其向下历经合取, 然后对于合取分量调用orcnf:

let rec andcnf (fm,defs,n as trip) =
  match fm with
    And(p,q) -> subcnf andcnf mk_and (p,q) trip
  | _ -> orcnf trip;;

现在整体的函数是相同的, 除了andcnf被用作代替maincnf. 我们将实际从集合之集合表示重构公式单独分离为一个函数, 因为之后拦截中间结果是有用的. {译注: 意即之后会用到中间结果, 也就是集合之集合表示.}

let defcnfs fm = mk_defcnf andcnf fm;;

let defcnf fm = list_conj (map list_disj (defcnfs fm));;

这对于之前我们的运行示例的确给出了远为简单的结果:

# defcnf <<(p \/ (q /\ ~r)) /\ s>>;;
- : prop formula =
<<(p \/ p_1) /\ (p_1 \/ r \/ ~q) /\ (q \/ ~p_1) /\ s /\ (~p_1 \/ ~r)>>

如果再仔细一些, 可以设计出一种定义性CNF过程, 使其输出的大小始终至少不逊于朴素算法 (Boy de la Tour 1990). 不过, 我们现在得到的函数defcnf已经相当不错, 完全能够满足我们的需要. 关于一种可能的优化, 参见练习2.11.

{译注: 以下是我在Scheme中实现的优化了的定义性CNF过程:

(define (tseitin exp)
  (define (lookup e d*)
    (match d*
      (((<=> ,x ,p) . ,d*)
       (if (equal? e p)
           x
           (lookup e d*)))
      (,else #f)))
  (define (Exp step op e1 e2 d*)
    (let*-values (((e1 d*) (step e1 d*))
                  ((e2 d*) (step e2 d*)))
      (values `(,op ,e1 ,e2) d*)))
  (define (CNF exp d*)
    (match exp
      ((and ,e1 ,e2) (Exp CNF 'and e1 e2 d*))
      (,else (Conjunct exp d*))))
  (define (Conjunct exp d*)
    (match exp
      ((or ,e1 ,e2) (Exp Conjunct 'or e1 e2 d*))
      (,else (Literal exp d*))))
  (define (Literal exp d*)
    (match exp
      ((,op ,e1 ,e2)
       (let-values (((e d*) (Exp Literal op e1 e2 d*)))
         (define x (lookup e d*))
         (if x
             (values x d*)
             (let ((x (fresh-var)))
               (values x (cons `(<=> ,x ,e) d*))))))
      (,else (values exp d*))))
  (CNF (nenf exp) '()))

这里的变量命名遵循我个人的编程习惯. CNF代表返回的表达式具有CNF形式, Conjunct代表返回的表达式具有CNF的合取分量形式, 而其本身应该是文字的析取. Literal代表返回的表达式是一个文字. 上述陈述存在一个漏洞, 实际上逻辑常量需要谨慎单独对待. 不过, 就这里的情形而言, 逻辑常量不会造成任何问题, 所以我也没有特意处理. 但是读者必须记住, 这是例外情况, 必须总是关心.}

第2.8.3小节 3-CNF

注意到在之前未经优化的定义性CNF转换之后, 作为结果的公式具有3-CNF形式, 也就是说每个合取分量至多拥有三个文字. 读者可以通过确认以下事实来验证这一点: 对于每个联结词 $\otimes$ 而言, 定义 $p \Leftrightarrow q \otimes r$ 在CNF转换下得到结果里每个合取分量至多只能拥有三个文字. {译注: 记号 $p \Leftrightarrow q \otimes r$ 里, $p$ 是原子的元变量, $q$ 和 $r$ 是文字的元变量, $\otimes$ 只能是 $\land$ , $\lor$ , $\Leftrightarrow$ 里面选一个.} 然而, 最后的优化破坏了这一性质, 因为它选择保留了已然是CNF的结构. 如果3-CNF被认为是重要的, 可以在仍然分别处理各个合取分量的同时恢复这一性质. 一种粗糙但够用的方法是简单地省略中间函数orcnf {译注: 这种方法相当于令每个合取分量只有一个文字}:

let rec andcnf3 (fm,defs,n as trip) =
  match fm with
    And(p,q) -> subcnf andcnf3 mk_and (p,q) trip
  | _ -> maincnf trip;;

let defcnf3 fm = list_conj (map list_disj(mk_defcnf andcnf3 fm));;

{译注: 这里的代码作者搞错了, 可能是之前的版本, 我已根据官网代码进行修正.}

本节的结果表明, 我们可以将SAT问题——即测试任意公式的可满足性——归约为测试一个仅大数倍的CNF公式的可满足性. 事实上, 根据上述内容, 我们只需要能够测试3-SAT, 即3-CNF公式的可满足性. 正因如此, 许多实用算法假设输入为CNF, 而理论结果也往往只考虑CNF或3-CNF公式.

第2.9节 Davis-Putnam过程

Davis-Putnam过程是一种用于判定具有合取范式的命题公式的可满足性的方法. 实际上有两种显著不同的算法都被常称为Davis-Putnam, 但我们将分别讨论它们, 并尽量在术语上加以区分. Davis和Putnam (1960) 提出的原始算法将简称为Davis-Putnam (DP), 而由Davis, Logemann和Loveland (1962) 发展出的后来更为流行的变体将被称为Davis-Putnam-Loveland-Logemann (DPLL). 按照历史顺序, 我们首先考虑DP.

我们发现集合的集合表示法在将公式转换为CNF时非常有用, 我们也将在DP和DPLL过程中使用这种表示法. CNF公式的隐式集合的集合表示通常被称为子句形式, 每个合取分量被称为一个子句. 前面的辅助函数simpcnf已经将公式置于子句形式, 而defcnfs做了类似的事情, 只不过使用的是定义性CNF. 我们将直接使用后者, 避免从集合的集合表示重新构造公式的最后一步. 在我们的讨论中, 我们书写子句的时候仍会包括隐式的逻辑联结词, 但应理解我们实际上执行的是集合操作.

退化情形应该铭记在心: 包含空子句的列表对应于公式 $⊥$ , 而子句的空列表则对应于 $⊤$ ; 这种解释在后文中经常使用. DP过程通过一系列其他的过程相继对于子句形式的公式进行变换, 保持子句形式以及其与原本公式的等可满足性. 这个过程在子句形式包含空子句 (这种情况下原本的公式必然是不可满足的) 或者子句形式本身为空 (这种情况下原本的公式必然是可满足的) 时会终止. 以下是DP过程所使用的三种基本的可满足性保持变换:

(I) 1-文字规则,
(II) 肯定否定规则,
(III) 消除原子公式的规则.

规则I和II总是使公式变得更简单, 减少文字的总数. 因此它们总是被尽可能多地应用, 而第三条规则——它可能大幅增加公式的大小——只在前两条规则都不适用时才使用. 然而, 从逻辑的角度来看, 我们可以将I视为III的特殊情形, 因此我们将复用III保持可满足性的论证来证明I也具有同样的性质.

第2.9.1小节 1-文字规则

这条规则适用于某个子句是单元子句(unit clause)的情形, 也就是说, 该子句只是一个单独的文字, 而非超过一个文字的析取. 如果 $p$ 是这样一个单元子句, 那么我们可以通过以下方法得到一个新的公式:

移除其他子句里的所有 $- p$ 实例,
移除所有包含 $p$ 的子句, 包含该单元子句本身.

之后我们将会证明这种变换保持可满足性. 1-文字规则本身也被称为单元传播, 因为它将 $p$ 为真的信息传播至其他子句里. 为了以列表之列表的表示实现这一过程, 我们寻找一个单元子句, 即长度为一的列表, 然后令u是其中单独的文字, 而u'是其否定. 然后, 我们首先移除所有包含u的子句, 然后从剩余的子句里移除u'.

let one_literal_rule clauses =
  let u = hd (find (fun cl -> length cl = 1) clauses) in
  let u' = negate u in
  let clauses1 = filter (fun cl -> not (mem u cl)) clauses in
  image (fun cl -> subtract cl [u']) clauses1;;

如果不存在单元子句, find的应用会抛出异常. 这使得我们可以很方便地反复应用one_literal_rule来消除多个单元子句, 直到失败表明已经没有更多的单元子句为止. 注意, 即使初始公式中只有一个单元子句, 规则的应用也可能通过删除其他文字而产生新的单元子句.

第2.9.2小节肯定否定规则

这个规则有时也被称为纯文字规则, 其利用了某些文字仅肯定出现或者仅否定出现的事实, 然后我们可以删除所有包含这种文字的子句, 同时仍能保持可满足性. 对于实现而言, 我们从将所有文字收集在一起开始, 然后将其划分为肯定 (pos) 和否定 (neg'). 从这些值我们得到pure, 其包含了所有只肯定出现或者只否定出现的文字, 然后据此我们消除所有含有其中任意文字的子句. 如果没有纯文字了, 我们会选择失败, 这样更适合整体的过程.

let affirmative_negative_rule clauses =
  let neg',pos = partition negative (unions clauses) in
  let neg = image negate neg' in
  let pos_only = subtract pos neg and neg_only = subtract neg pos in
  let pure = union pos_only (image negate neg_only) in
  if pure = [] then failwith "affirmative_negative_rule" else
  filter (fun cl -> intersect cl pure = []) clauses;;

如果任意某个赋值可以满足原本的子句集合, 那么其也必然满足新的集合, 因为新的集合是本来的集合的子集. 反过来, 如果某个赋值 $v$ 满足新的集合, 那么我们对于所有仅肯定文字 $p$ 置 $v^{'} (p) = true$ , 对于所有仅否定文字 $\neg n$ 置 $v^{'} (n) = false$ , 对于其他所有原子则置 $v^{'} (a) = v (a)$ . 根据构造方式, 其会满足被删除的子句, 并且既然 $v^{'}$ 不会改变 $v$ 对于所有出现在新集合的子句里的原子的指派, 其当然也满足这些没有被删除的子句, 故 $v^{'}$ 能够满足原本的子句集合.

第2.9.3小节消除原子公式的规则

这条规则是唯一一条可能使公式规模增大的规则, 而且在最坏情况下, 这种增大可能是相当可观的. 然而, 它能够彻底消除某个特定原子, 而不需要对包含该原子的子句施加任何特殊要求. 该规则以一个文字 $p$ 为参数, 要求 $p$ 在至少一个子句中肯定出现, 并且在至少一个子句中否定出现. (如果纯文字规则已经被应用过, 那么剩余的任何文字都满足这一性质. 事实上, 如果我们还过滤掉了平凡的, 即重言的子句, 那么没有任何文字会在同一个子句中既肯定出现又否定出现, 但我们在陈述和证明下一个定理时不会依赖这一点.)

定理2.11. 给定一个文字

p

, 将子句集合

S

划分为三类: 仅以正面方式包含

p

, 仅以反面方式包含

p

, 以及两者都不为真的:

S = {p \lor C_{i} | 1 \leq i \leq m} \cup {- p \lor D_{j} | 1 \leq j \leq n} \cup S_{0}

其中

C_{i}

和

D_{j}

中没有任何一个应该包含文字

p

或其否定, 并且如果

p

或者

- p

出现在

S_{0}

的任意子句里, 那么两者都应该出现. 然后,

S

是可满足的当且仅当

S^{'}

是可满足的, 其中:

S^{'} = {C_{i} \lor D_{j} | 1 \leq i \leq m, 1 \leq j \leq n} \cup S_{0} .

{译注: 仅以正面方式包含

p

, 换成更容易理解的方式, 其实就是包含

p

但不包含

- p

. 仅以反面方式包含

p

, 其实就是包含

- p

但不包含

p

证明. 不失一般性, 我们可以假定

p

为肯定文字, 即一个原子公式, 否则的话相同的论证也可以适用于

- p

.
如果一个赋值

v

满足

S

, 那么存在两种可能性. 如果

v (p) = false

, 既然每个

p \lor C_{i}

都得到满足而

p

没有被满足, 那么每个

C_{i}

都得到了满足, 那么每个

C_{i} \lor D_{j}

就更被满足了. 如果

v (p) = true

, 既然每个

- p \lor D_{j}

都得到满足而

- p

没有被满足, 那么每个

D_{j}

都得到了满足, 因而

C_{i} \lor D_{j}

亦是如此.

S_{0}

里的公式已经在原本的

S

里了, 所以说仍然被

v

所满足.
反过来, 设一个赋值

v

满足

S^{'}

. 我们声明,

v

要么满足所有的

C_{i}

, 要么满足所有的

D_{j}

. 诚然如此, 若该赋值没有满足某个特定的

C_{k}

, 那么然而赋值能够对于

1 \leq j \leq n

满足所有的

C_{k} \lor D_{j}

这一事实立即表明了这个赋值满足所有的

D_{j}

; 类似地, 如果该赋值不能满足某个

D_{l}

, 那么其必然满足所有的

C_{i}

. 现在, 若

v

满足所有的

C_{i}

, 那么我们置

v^{'} (p) = false

而对于其他所有原子置

v^{'} (a) = v (a)

. 所有的

p \lor C_{i}

都被

v^{'}

满足, 因为所有的

C_{i}

都被

v^{'}

满足. 所有的

- p \lor D_{j}

也都被

v^{'}

满足, 因为

- p

被

v^{'}

满足. 既然

S_{0}

的公式要么不牵涉

p

, 要么就是重言, 所以它们仍然被

v^{'}

所满足. 另一情形全然是对称的: 如果

v

满足所有的

D_{j}

, 那么置

v^{'} (p) = true

, 推理是类似的. {译注: 原文是

v (p) = true

, 可能是一个笔误.}

◻

规则III也常被称为归结(resolution)规则, 我们将会在第3章里对其进行详细研究. 相应地, 子句 $C_{i} \lor D_{j}$ 被称为是子句 $p \lor C_{i}$ 和 $- p \lor D_{j}$ 的一个resolvent, 并且我们说它是由归结得到的, 或者更准确地说是 $p$ 上的归结. 在实现里, 我们也在最后把平凡 (或者说重言) 的子句过滤掉:

let resolve_on p clauses =
  let p' = negate p and pos,notpos = partition (mem p) clauses in
  let neg,other = partition (mem p') notpos in
  let pos' = image (filter (fun l -> l <> p)) pos
  and neg' = image (filter (fun l -> l <> p')) neg in
  let res0 = allpairs union pos' neg' in
  union other (filter (non trivial) res0);;

{译注: 这里的输入实际上已经默认了, 或者说要求, 所有的平凡子句已被去除. 否则的话, 使用(mem p)进行筛选并不正确. 另外, 最后的过滤是因为归结可能产生新的平凡子句, 所以说从维护这一性质的角度考虑, 过滤不是可选的而是必要的.}

从理论上说, 我们可以将1-文字规则应用于单元子句 $p$ 视为先利用subsumption化简, 然后再施行 $p$ 上的归结. 这就推出了之前我们说要证明的东西:

推论2.12. 1-文字规则保持可满足性.

证明. 如果原本的集合

S

包含单元子句

{p}

, 那么根据subsumption规则, 集合

S

里所有其他牵涉

p

的子句都可以被移除而不改变可满足性, 设这个操作给出了

S^{'}

. {译注: subsumption实际上保持逻辑等价性.} 现在根据上述定理, 由

p

上的归结所得到的新集合是等可满足的, 而这个操作相当于移除了这个单元子句本身, 以及

- p

的所有实例.

◻

{译注: 如果严格遵循定义, 那么这里存在一个微妙的问题. $S^{'}$ 中可能并不含有 $- p$ 这个文字, 此时并不匹配归结规则的条件. 不过, 我认为原文对于归结适用条件的表述还有其他作者未预料到的问题, 即其应该是 $p$ 至少在一个子句里以单独正面形式出现, 又至少在一个子句里以单独反面形式出现. 不然的话, 一个关于 $p$ 的平凡子句也能满足条件, 但这恐怕是作者想要排除的情况. 回到正题, 对于慵懒的读者, 他可以认为没有 $- p$ 相当于 $p$ 是纯文字, 所以可以运用肯定否定规则. (当然, 这和一次性想要消除所有纯文字的代码并不一致, 不过显然也完全是正确的.) 对于积极的读者, 他可能会想要思考若 $C_{i}$ 和 $D_{j}$ 有一方不存在会发生什么. 藉由肯定否定规则, 我们可以先去除平凡子句, 然后去除纯文字, 然后再把平凡子句加回来. 不过, 这看起来总是有点搞笑. 读者也可以稍微细致地考察关于归结规则的证明, 然后会发现其实它也适用于有一方缺席的情形. 甚至, 恐怕两方都缺席也是对的. 我不知道作者是不是已然预料到了这一情况, 毕竟定理本身的表述里没有对于 $p$ 进行限制.}

在实践中, 我们只会在应用1-文字规则和肯定否定规则之后应用归结规则. 在这种情况下, 我们可以假定任何还在的文字既有正面出现又有反面出现, 并且我们面临着要挑哪一个文字进行归结的选择. 给定一个文字 $l$ , 我们可以预测由 $l$ 上的归结所导致的子句数目变化:

let resolution_blowup cls l =
  let m = length(filter (mem l) cls)
  and n = length(filter (mem (negate l)) cls) in
  m * n - m - n;;

{译注: 其实肯定否定规则 (纯文字规则) 可以视为依次对于每个纯文字进行归结. 注意, 我这里说的其实并不符合归结的定义, 但是可以从形式上理解.}

我们将会挑选最小化这个膨胀的文字. (尽管这看起来很有说服力, 但实际上是过分简单化了的; 远为复杂的启发式是可能的, 并且或许也是更好的.)

let resolution_rule clauses =
  let pvs = filter positive (unions clauses) in
  let p = minimize (resolution_blowup clauses) pvs in
  resolve_on p clauses;;

第2.9.4小节 DP过程

DP主过程是递归定义的. 如果子句集合为空 (返回true, 因为该集合是平凡可满足的), 或者子句集合包含了一个空子句 (返回false, 因为不可满足性), 那么这个过程就会终止. 否则的话, 它会依次试图不断应用规则I, II, III, 然后在新的子句集合上递归地继续. 这个递归过程必然会终止, 因为每条规则要么会降低不同原子的数目 (在III的情形下, 我们假定了平凡子句总是会事先去除), 要么保持原子数目不变但降低了子句的总大小. {译注: 关于规则III, 在之前的译注里我们已有所讨论. 另外, 这里的论述并不正确. 实际上, 每条规则在适用时都必然能够减少不同原子的数目. 这才是递归终止的根本保证.}

let rec dp clauses =
  if clauses = [] then true else if mem [] clauses then false else
  try dp (one_literal_rule clauses) with Failure _ ->
  try dp (affirmative_negative_rule clauses) with Failure _ ->
  dp(resolution_rule clauses);;

{译注: 这个过程经过我的思考, 发现并不像看上去那么简单. 我们需要厘清这三条规则之中哪一个可以为哪一个创造条件, 而实际上最终我发现厘清的过程异常地微妙. 单文字规则可以为肯定否定规则创造条件, 肯定否定规则是应用归结规则的前提. (不过, 即便没有肯定否定规则, 归结规则在形式上仍然正确. 如果将其应用于某个纯文字, 实质上相当于消除了含有该纯文字的子句.) 归结规则因为要消除新生成的平凡子句, 所以可以为肯定否定规则创造条件. 但是, 最微妙的情况是其实归结规则可能为单文字规则创造条件. 乍看上去, 似乎归结规则生成的子句的大小都大于等于二, 但是实际上因为可能出现重复文字, 所以说单文字子句也是可能因为归结而出现的. 另一个同等微妙的情况是, 肯定否定规则应用之后, 肯定否定规则仍然可能适用, 例如

{{p, \neg r}, {p, r}, {q, r}, {\neg q, r}}

在第一轮应用后会得到

{{q, r}, {\neg q, r}}

然而, 即便我们之前说过在纯文字上进行归结在形式上和肯定否定规则是等效的, 就归结规则的这里的实际实现而言, 迭代应用肯定否定规则直至不能再应用却仍然是必要的. 这是因为归结规则假定了其输入公式里所有原子必有作为肯定和否定文字出现的版本. 这是可以证明的性质, 而且它还依赖于输入公式里起码至少要有一个原子, 但实际上可以证明此时公式至少有两个不同的原子. 唯一稍显冗余的只是应用肯定否定规则之后, 单文字规则是不可能适用的. 或许最后我还想强调一下, 这部分内容非常微妙, 我实际上反复修改了无数遍 (大于等于五遍), 因为每次都发现我的陈述存在想当然的漏洞.}

代码可以用作进行可满足性和重言检查:

let dpsat fm = dp(defcnfs fm);;

let dptaut fm = not(dpsat(Not fm));;

令人振奋的是, dptaut证明公式prime 11要比tautology函数快得多:

# tautology(prime 11);;
- : bool = true
# dptaut(prime 11);;
- : bool = true

{译注: 以下是Scheme版本的DP过程:

(define (dp clauses)
  (cond ((null? clauses) #t)
        ((member '() clauses) #f)
        (else
         (let ((new (one-literal-rule clauses)))
           (if new (dp new)
               (let ((new (affirmative-negative-rule clauses)))
                 (if new (dp new)
                     (dp (resolution-rule clauses)))))))))

这和原文的OCaml版本基本一致, 除了失败是通过返回#f而不是抛出异常进行通知的. 本来我设想了一些优化, 最后还是发现原文的写法最好! 这是因为, 最终我发现这些优化绝大多数都存在漏洞. 原文的代码风格相当偏向于正确性的易于证明, 不仅是这里, 其他地方也是如此.}

第2.9.5小节 DPLL过程

对于更具挑战性的问题, DP过程中生成的子句数量和规模可能会急剧增长, 并可能在得出结论之前耗尽可用内存. 在DP算法开发时期的早期计算机上, 这一问题尤为突出, 这促使Davis, Logemann和Loveland (1962) 用一种分裂规则来取代归结规则III. 如果规则I和规则II均不适用, 则选取某个文字 $p$ , 那么一个子句集合 $Δ$ 的可满足性可以被归约为 $Δ \cup {- p}$ 和 $Δ \cup {p}$ 的可满足性, 这可以分别测试. 注意到这保持可满足性: $Δ$ 是可满足的当且仅当 $Δ \cup {- p}$ 和 $Δ \cup {p}$ 中至少有一个是可满足的, 因为任何赋值必然满足 $p$ 和 $- p$ 其中之一. {译注: 注意到这句话里的 $p$ 和 $- p$ 所表示的其实是单元子句而非文字. 似乎本书只有一处用了 ${p}$ 记号来表示单元子句, 其他时候都是使用 $p$ 记号.} 新加的单元子句可以立即被1-文字规则利用起来以简化子句集合. 因为这一步约简了(不同)原子的数目, 所以说过程的终止性仍然能得到保证.

一种对于分裂文字的合理选择方式似乎是挑选最频繁出现的文字 (不论以肯定方式还是以否定方式), 这样的话之后的单元传播过程可以产生最大程度的化简. {原注: 实际上精确地说, 分裂变量的最优选择比解决可满足性问题本身还要困难 (Liberatore 2000).} 据此想法, 我们可以定义一个类似于DP过程的resolution_blowup的函数:

let posneg_count cls l =
  let m = length(filter (mem l) cls)
  and n = length(filter (mem (negate l)) cls) in
  m + n;;

现在的算法基本上和之前是如出一辙的, 只不过归结规则被换成了分裂规则 (case-split):

let rec dpll clauses =
  if clauses = [] then true else if mem [] clauses then false else
  try dpll(one_literal_rule clauses) with Failure _ ->
  try dpll(affirmative_negative_rule clauses) with Failure _ ->
  let pvs = filter positive (unions clauses) in
  let p = maximize (posneg_count clauses) pvs in
  dpll (insert [p] clauses) or dpll (insert [negate p] clauses);;

又一次, 代码可以用作进行可满足性和重言检查:

let dpllsat fm = dpll(defcnfs fm);;

let dplltaut fm = not(dpllsat(Not fm));;

并且此时对于相同的例子而言, DPLL过程比DP过程甚至更好:

# dplltaut(prime 11);;
- : bool = true

{译注: 以下是Scheme版本的DPLL过程:

(define (dpll clauses)
  (cond ((null? clauses) #t)
        ((member '() clauses) #f)
        (else
         (let ((new (one-literal-rule clauses)))
           (if new (dpll new)
               (let ((new (affirmative-negative-rule clauses)))
                 (if new (dpll new)
                     (splitting-rule clauses))))))))
(define (splitting-rule clauses)
  (define p*
    (filter positive? (apply U* clauses)))
  (define p
    (maximize (posneg-count clauses) p*))
  (or (dpll (cons (list p) clauses))
      (dpll (cons (list (negate p)) clauses))))

第2.9.6小节迭代DPLL

对于规模非常大的问题, 我们已经呈现了的简单递归形式的DPLL过程可能需要不切实际大小的内存, 这是由于分裂嵌套时中间状态的存储. 大多数现代实现转而采用尾递归 (迭代) 的控制结构, 使用显式的踪迹(trail)来保存关于递归分裂的信息. 我们将这个踪迹就实现为序对的列表, 每个序对的第一个成员是我们正在假定的文字, 第二个则是一个标志 (flag), 其指明了这个文字到底是仅作为情形分裂的一半而假设的 (Guessed), 还是说它是由之前假设的文字根据单元传播而推出的 (Deduced). 踪迹以逆序存储, 也就是说列表的头部是最近才假设或者推出的文字. 并且, 标志取自以下这个枚举类型:

type trailmix = Guessed | Deduced;;

一般来说, 我们在探索情形分裂时不再修改输入问题中的子句, 而是保留原始公式, 仅在踪迹中记录我们进一步的 (通常是临时的) 假设. 踪迹中的所有文字都被视为在当前探索阶段成立. 为了找到可用于情形分裂的潜在原子公式, 我们使用以下方法来标识问题中那些在踪迹中未有(正或负)指派的原子公式, 无论该文字是猜测得来的还是推导得来的:

let unassigned =
  let litabs p = match p with Not q -> q | _ -> p in
  fun cls trail -> subtract (unions(image (image litabs) cls))
                            (image (litabs ** fst) trail);;

为了执行单元传播, 能够内部修改问题子句cls是方便的, 并且为了更为高效的查找, 我们也会将踪迹trail处理为一个有限部分函数fn. 这都是在下列子函数里实现的, 其执行单元传播, 直至没有进展可以作出:

let rec unit_subpropagate (cls,fn,trail) =
  let cls' = map (filter ((not) ** defined fn ** negate)) cls in
  let uu = function [c] when not(defined fn c) -> [c] | _ -> failwith "" in
  let newunits = unions(mapfilter uu cls') in
  if newunits = [] then (cls',fn,trail) else
  let trail' = itlist (fun p t -> (p,Deduced)::t) newunits trail
  and fn' = itlist (fun u -> (u |-> ())) newunits fn in
  unit_subpropagate (cls',fn',trail');;

{译注: 原文还说了或者遇到了空子句, 不过代码并没有检查这一点, 也不需要检查这一点.}

然后这用在了整体的函数里, 既返回修改了的子句, 又返回踪迹, 尽管前者只是为了方便而使用的, 并不会在主循环中进行保留:

let unit_propagate (cls,trail) =
  let fn = itlist (fun (x,_) -> (x |-> ())) trail undefined in
  let cls',fn',trail' = unit_subpropagate (cls,fn,trail) in cls',trail';;

当我们遇到一个矛盾或者说冲突时, 我们需要进行回溯以最近分裂的另一分支. 这就是决策文字(decision literal) (标记以Guessed的文字) 和踪迹里的其他文字有所区别的地方了: 我们从踪迹里移除诸项, 直至遇到最近的决策文字, 或者什么也不剩的情况.

let rec backtrack trail =
  match trail with
    (p,Deduced)::tt -> backtrack tt
  | _ -> trail;;

现在我们要用这种迭代改良重述经典的DPLL算法. dpli的参数是原本问题的子句cls, 其在递归调用的过程中保持不变, 还有一个参数是当前的trail. 首先我们执行穷竭性的单元传播以获得新的子句集合cls'和新的踪迹trail'. (我们没有考虑肯定否定规则, 尽管可以毫不费力地将其加入.) 如果我们推导出了空子句, 那么就回溯至最近的决策文字. 如果没有剩下来的决策文字, 我们就结束了: 该公式不可满足. 否则的话, 我们选取最近的决策文字, 将其否定置于踪迹中, 标记以Deduced以指出其是由之前在踪迹里假定的文字所推出的. {译注: 实际上的意思就是不用回溯了.} (从操作角度而言, 这意味着在下一次冲突时不会再次对其取反而陷入循环.) 如果没有冲突, 那么就和递归版本一样, 我们选取一个未指派的文字p, 启动情形分裂, 而若不存在未指派的文字, 那么该公式就是可满足的了.

let rec dpli cls trail =
  let cls',trail' = unit_propagate (cls,trail) in
  if mem [] cls' then
    match backtrack trail with
      (p,Guessed)::tt -> dpli cls ((negate p,Deduced)::tt)
    | _ -> false
  else
      match unassigned cls trail' with
        [] -> true
      | ps -> let p = maximize (posneg_count cls') ps in
              dpli cls ((p,Guessed)::trail');;

与往常一样, 我们可以将其转化为对任意公式的可满足性检验和重言式检验:

let dplisat fm = dpli (defcnfs fm) [];;

let dplitaut fm = not(dplisat(Not fm));;

它的运行效果与递归实现一样好, 尽管通常会慢一些, 原因在于我们朴素的数据结构不支持高效的查找和单元传播. 但当我们考虑进一步的优化时, 迭代结构的优势便真正得以体现.

第2.9.7小节回跳和学习

对于一个不可满足的子句集合, 在递归情形分裂足够多次之后, 我们总是能得到空子句, 其表明了某种特定的文字指派组合是不一致的.

第2.10节 Stålmarck方法

第2.11节二元决策图

第2.12节紧致性

我们现在建立命题逻辑的一个关键理论性质, 这一性质在下一章中将被重要地使用, 它涉及一个无穷公式集的可满足性. 回顾一下, 一个命题公式的集合 $Γ$ 被称为是可满足的, 如果存在一个赋值能同时满足其中所有的公式. 紧致性定理陈述如下:

{原注: 这个名称源于与点集拓扑学的联系 (Engelking 1989; Kelley 1975). 赋予所有赋值的集合 $𝔹^{ℕ}$ 基于离散拓扑的积拓扑, 其中 $𝔹 = {false, true}$ . (这有时被称为Cantor空间.) 对于任意公式 $p$ , 满足它的赋值集合 $V_{p}$ 在这个拓扑中是闭的 (实际上也是开的), 因为每个公式只涉及有限多个命题变量. 由于 $𝔹$ 是紧致的, 根据Tychonoff定理, $𝔹^{ℕ}$ 也是紧致的. 根据假设, 来源于集族 ${V_{p} | p \in Γ}$ 的所有有限交都是非空的, 因此由紧致性的定义, 它们全部的交也是非空的, 这正是所需要的. 假定选择公理成立, 若将 $ℕ$ 替换为任意原子集合, Tychonoff定理仍然成立, 从而给出了紧致性定理在一般情形下的证明.}

定理2.13. 对于任意的命题公式集合

Γ

, 如果其每个有限子集

Δ \subseteq Γ

都是可满足的, 那么

Γ

本身也是可满足的.

证明.

◻

推论2.14. 如果一个任意的命题公式集合

Γ

是不可满足的, 那么存在某个有限子集

Δ \subseteq Γ

是不可满足的.

证明. 假设每个有限子集

Δ \subseteq Γ

都是可满足的. 根据紧致性定理,

Γ

是可满足的, 这与题设矛盾.

◻

推论2.15.

证明.

◻

第2.12.1小节无限图的着色

第2.13节深入阅读

关于Boolean代数的一般理论, 包括对Boole原始系统的命题, 集合论及其他解释, 可参见例如Abian (1976), Davey和Priestley (1990) 以及Halmos (1963). 许多逻辑教科书中都有关于Boolean代数的讨论, 如Bell和Slomson (1969), 其中一些我们稍后会因其他技术主题而加以推荐. 最后, Halmos和Givant (1998) 以现代方式处理逻辑, 但采用了更为明确的代数风格.

命题逻辑在许多标准逻辑教材中都有涉及, 例如Church (1956), van Dalen (1994), Enderton (1972), Goodstein (1971), Hilbert和Ackermann (1950), Hodges (1977), Johnstone (1987), Kreisel和Krivine (1971), Mates (1972), Quine (1950) 以及Tarski (1941); 其中许多也证明了紧致性定理. 大多数关于自动定理证明的书籍也讨论了命题逻辑和经典判定方法, 如Davis–Putnam方法, 不过往往在命题逻辑上着墨不多, 便转向一阶逻辑 (即我们下一章的内容). Davis, Sigal和Weyuker (1994) 将理论逻辑与自动定理证明相结合, 同时也是一本关于可计算性与复杂性的教科书. 更侧重于自动定理证明的有Bibel (1987), Chang和Lee (1973), Duffy (1991), Fitting (1990), Loveland (1978), Newborn (2001) 以及Wos, Overbeek, Lusk和Boyle (1992).

回跳和学习最早在DPLL中被应用于SAT求解器GRASP (Marques-Silva和Sakallah 1996) 和rel_sat (Bayardo和Schrag 1997). 一些较新的基于DPLL的系统, 按大致的开发时间顺序排列, 有SATO (Zhang 1997), Chaff (Moskewicz, Madigan, Zhao, Zhang和Malik 2001), BerkMin (Goldberg和Novikov 2002) 以及MiniSat (Eén和Sörensson 2003). 描述这些系统的论文是了解基本DPLL算法各版本及巧妙实现技巧的宝贵信息来源. Nieuwenhuis, Oliveras和Tinelli (2006) 以及Krstić和Goel (2007) 通过非确定性的抽象规则序列来描述迭代DPLL, 使得具体实现可以被视为部署这些规则的方式. Kroening和Strichman (2008) 也讨论了工业级SAT求解器的架构, 并讨论了命题逻辑的诸多扩展及其在应用中的使用. 其中一些主题将在本书后面讨论, 但有些则不会, 特别是量化Boolean公式 (QBF), 其中公式可以对原子进行量化. (这与下一章描述的一阶逻辑不同, 一阶逻辑中的量化是针对论域中的元素, 而非命题.)

我们讨论过的一些主题在通用教科书中尚未被广泛涵盖, 读者必须查阅更专业的专著或研究论文. Stålmarck算法尤其如此, 不过Sheeran和Stålmarck (2000) 对该理论及其成功的实际应用进行了综述. 递归学习的思想 (Kunz和Pradhan 1994) 与Stålmarck方法有重要的共通之处.

Bryant (1992) 的综述文章和Kropf (1999) 的教科书讨论了BDD及其在形式化硬件验证自动方法中的作用. 最引人注目的是, 当McMillan等人 (Coudert, Berthet和Madre 1989; Burch, Clarke, McMillan, Dill和Hwang 1992; Pixley 1990) 将BDD表示与时序逻辑模型检查 (Clarke和Emerson 1981; Queille和Sifakis 1982) 相结合时, 后者经历了一场小型革命. 关于模型检查的详细介绍, 可参见Clarke, Grumberg和Peled (1999), 以及一些关于计算机科学中的逻辑的书籍, 如Huth和Ryan (1999).

第2.14节练习

第3章一阶逻辑

我们现在从命题逻辑移至更为丰富的一阶逻辑, 其中命题可以牵涉全称或者存在量化的非命题变量. 我们将会展现一阶逻辑之中的证明是如何可以藉由Herbrand定理被朴素地机械化的. 接着我们将会引入诸多改进, 特别是合一 (unification), 其可以使得自动化证明更加高效.

第3.1节一阶逻辑及其实现

命题逻辑只允许我们从原始命题构建公式, 原始命题本身可以独立地为真或者为假. 然而, 这太过受限, 很难捕获命题的真假依赖于非命题变量的值这种情况的推理模式. 例如, 一个典型的关于数字的命题是 $m < n$ , 而其真值依赖于 $m$ 和 $n$ 的值. 如果我们只是为每个这样的命题引入一个不同的命题变量, 那么我们就失去了根据其所含变量将不同实例相互关联的能力, 例如断言 $\neg (m < n \land n < m)$ . {译注: 也就是说, 例如这里的 $m$ 和 $n$ 是在两个命题之间共享的, 由此建立联系.} 一阶(谓词)逻辑以两种方式扩展了命题逻辑以适应这种需求:

原子命题可以使用函数和谓词由非命题变量和常量构建而成;
非命题变量可以被量词所绑定.

我们对于公式 (从直觉上来说意在为真为假) 和项 (意在指称进行推理的论域中的对象) 进行句法上的区分. 项是由(对象指称)变量通过函数构建的. {译注: 更准确地说, 应该是函数符号.} 在讨论中, 我们使用记号 $f (s, t, u)$ 代表由子项 $s, t, u$ 使用函数 $f$ 构建的项, 或者有时使用中缀记号 $s + t$ 而非 $+ (s, t)$ , 如果中缀记号更自然或者令人熟悉. 所有这些符号都只应该理解为对于项的潜在抽象句法的呈现, 这里的项要么是一个变量, 要么是一个函数应用于任意数目的其他参数项:

type term = Var of string
          | Fn of string * term list;;

函数可以拥有任意数目的参数, 而这个数目被称为是函数的元数(arity) (from a pun on the words unary, binary, ternary, quaternary, etc.). 特别地, 我们可以将诸如 $1$ 或者 $π$ 这样的常量归为零元函数, 即具有零个参数的函数. 绝大多数数学表达式都可以相当直接地形式化为项, 例如 $\sqrt{1 - \cos^{2} (x + y)}$ 可以翻译为:

Fn("sqrt",[Fn("-",[Fn("1",[]);
                   Fn("power",[Fn("cos",[Fn("+",[Var "x"; Var "y"])]);
                               Fn("2",[])])])]);;

命题逻辑的所有逻辑联结词都可以延续到一阶逻辑之中. 然而, 现在每个原子命题都被分析为了一个命名的谓词或者说关系应用于任意有限数目的项. 又一次, 对于谓词 $P$ 应用于参数 $s$ 和 $t$ 我们记 $P (s, t)$ , 但是有时也使用中缀记号 $s < t$ 而非 $< (s, t)$ , 如果这看起来更为自然. 我们创建一个新的类型fol, 其表示一阶原子命题, 由此对于一阶公式我们有了自然的fol formula类型:

type fol = R of string * term list;;

例如,

x + y < z

可以形式化为以下的原子公式:

Atom(R("<",[Fn("+",[Var "x"; Var "y"]); Var "z"]))

一个谓词可以只有零个参数, 这对应于简单命题变量的情况. 我们将具有一个参数的函数和谓词称为单元的(unary或monadic), 具有两个参数的称为二元的(binary或dyadic), 而具有 $n$ 个参数的称为 $n$ 元的.

在特定上下文中, 我们会考虑受限语言中的项和/或类型. 形式化地说, 我们将签名定义为一对集合, 其中一个集合是函数的列表, 另一个集合是谓词的列表, 函数和谓词都是由名字和元数构成的序对, 而签名所对应的语言是所有只使用签名里的函数和谓词构建而成的项和公式的集合 (不过变量可以是任意的). 例如, 我们在第7章所使用的算术语言具有以下签名: $({("0", 0), ("S", 1), ("+", 2), ("*", 2)}, {("=", 2), ("<", 2), ("<=", 2)}) .$ 于是诸如 $x + S (0)$ 这样的项和诸如 $S (S (0)) < x + y$ 这样的公式都在该语言之中, 但是 $1 + x$ 和 $P (0 x)$ 不在. 对于语言和签名的确切形式化定义是不重要的 (这些随着材料的不同而发生变化, 也有的作者会将语言和签名视为等同的), 只要受限语言中的项和公式的概念清晰明确即可.

第3.1.1小节量词

现在我们来到另一和命题逻辑相较而言的主要改变: 量词的引入.

公式 $\forall x . p$ , 或者以OCaml表述是Forall(x,p), 其中 $x$ 是一个变量而 $p$ 是任意的公式, 从直觉上来说意思是对于 $x$ 的所有值, $p$ 为真. 出于这种理由, $\forall$ 被称为全称量词, 这个符号是由all的首字母颠倒得来的. {译注: 原文是Forall("x",p), 但是个人认为我的修改版本更为合理, 因为这里的 $x$ 是变量的元变量, 而不是一个具体的变量.}
与之可以类比的公式 $\exists x . p$ , 或者以OCaml表述是Exists(x,p), 从直觉上来说意思是存在一个 $x$ 使得 $p$ 为真, 即 $p$ 对于 $x$ 的某个值为真. 出于这种理由, $\exists$ 被称为存在量词, 这个符号是由exists的首字母颠倒得来的.

在公式 $\forall x . P [x]$ 和 $\exists x . P [x]$ 里, 子公式 $P [x]$ 被称为是相应量词的作用域(scope). (在非形式化的讨论里, 我们经常用 $P [x]$ 这样的表达式代表某个可能牵涉 $x$ 的任意公式). 这样的量词被称为是绑定(bind)了其作用域内的 $x$ 的实例, 而这些变量被称为是绑定的(bound). 不在某个量词的作用域内的变量实例被称为是自由的(free). 注意到相同的变量在同一公式里既自由出现又绑定出现, 例如 $R (x, a) \land \forall x . R (y, x)$ , 其中变量有一次自由出现, 还有一次绑定出现.

从直觉上来说, 一个绑定变量只是一个回指对应绑定操作的占位符, 而非通常意义下的独立变量. 绑定变量可以与英语里的代词进行类比, 代词回指在句子开头建立的某个特定名词: Although the money was missing, John denied that he stole it. 绑定在数学记号里相当常见, 例如 $\sum_{n = 1}^{\infty} 1 / n^{2}$ 中的变量 $n$ , $\int_{- \infty}^{\infty} e^{- x^{2}} d x$ 中的变量 $x$ , 以及 ${k^{2} | k \in ℕ}$ 中的变量 $k$ . 它们也出现在编程语言里, 例如对于OCaml而言, 定义

let f(x) = 2 * x

里的x, 以及表达式

let a = 2 in a * a * a

里的a. 和逻辑学一样, 数学里的变量有时也在同一表达式里既自由出现又绑定出现, 例如在

\int_{0}^{x} 2 x d x

里, 变量既有自由出现 (作为积分的上极限), 又有绑定出现 (在积分的体里). 类似地,

x

真的在

d (x^{2}) / d x

中既有自由出现又有绑定出现, 尽管常规记号模糊了这一事实. 我们可以将其分析为

x \mapsto x^{2}

(其中

x

是绑定的) 的导函数在点

x

处求值 (这里的

x

是一个自由变量). {译注: 然后, 根据惯例,

2 x

又被理解为

x \mapsto 2 x

在我们的具体句法里, 量词的作用域尽可能向右延伸, 例如 $\forall x . P (x) \Rightarrow Q (x)$ 代表 $\forall x . (P (x) \Rightarrow Q (x))$ 而非 $(\forall x . P (x)) \Rightarrow Q (x)$ . (许多文献, 特别是较老的文献, 使用相反的约定, 使得量词绑定得比联结词更为紧密. 在查阅文献时读者应该记住这一点.) 如果我们将全称量词或者存在量词相继应用于数个变量, 那么我们通常只会写下一个量词符号, 例如 $\forall x, y, z . x + (y + z) = (x + y) + z$ 而非 $\forall x . \forall y . \forall z . x + (y + z) = (x + y) + z$ . 而且, 有时断言恰存在一个 $x$ 满足 $p$ 为真也是有用的. 我们将此记为 $\exists! x . P [x]$ , 然后将其理解为 $\exists x . P [x] \land \forall y . P [y] \Rightarrow y = x$ .

从直觉上来说, 同种量词 (全为全称或者全为存在) 的序列的排序不太重要: 对于 $x$ , 对于 $y$ , ...和对于 $y$ , 对于 $x$ , ...意思应该是相同的. 当我们之后精确定义逻辑等价时, 读者应该能够确认这一直觉. 然而, 当不同种类的量词嵌套时, 或者导出量词 $\exists!$ 牵涉其中时 (见练习3.1), 顺序往往就非常重要了. 例如, 如果我们将 $loves (x, y)$ 想成是 $x$ loves $y$ , 公式 $\forall x . \exists y . loves (x, y)$ 断言了每个人都喜欢某个人, 而公式 $\exists y . \forall x . loves (x, y)$ 断言了某个人被所有人喜欢. 举一个更为数学的例子, 考虑函数 $f : ℝ \to ℝ$ 的连续和一致连续的 $ε$ - $δ$ 定义. 连续性断言了给定 $ε > 0$ , 对于每个 $x$ , 存在一个 $δ > 0$ 使得每当 $| x^{'} - x | < δ$ 时, 我们也有 $| f (x^{'}) - f (x) | < ε$ {译注: 原文的epsilon使用不太一致, 一会儿 $ε$ , 一会儿 $ϵ$ }: $\forall ε . ε > 0 \Rightarrow \forall x . \exists δ . δ > 0 \land \forall x^{'} . | x^{'} - x | < δ \Rightarrow | f (x^{'}) - f (x) | < ε .$

另一方面, 一致连续断言了给定 $ε > 0$ , 存在一个 $δ > 0$ 独立于 $x$ 使得对于任意的 $x$ 和 $x^{'}$ , 每当 $| x^{'} - x | < δ$ 时, 我们也有 $| f (x^{'}) - f (x) | < ε$ : $\forall ε . ε > 0 \Rightarrow \exists δ . δ > 0 \land \forall x . \forall x^{'} . | x^{'} - x | < δ \Rightarrow | f (x^{'}) - f (x) | < ε .$

请注意量词的顺序变化如何从根本上改变了其所断言的性质. (例如, $f (x) = x^{2}$ 在实轴上是连续的, 但并非一致连续的.) 一致连续性的概念在分析的算术化 (arithmetization) 过程中很晚才被明确提出, 而若干早期的证明表面上只需要连续性, 实际上却需要一致连续性. 或许使用形式语言本可以更早地澄清许多概念上的困难.

{原注: 即便使用形式语言, 要理解 $\forall$ 和 $\exists$ 量词反复交替出现的含义往往仍然很困难. 正如我们将在第7章中看到的, 量词交替的次数是衡量一个公式数学复杂性的一个重要指标. 甚至有人提出, 复数和拓扑空间等整套数学概念与结构, 主要只是一种隐藏更多量词交替的手段, 从而使它们更容易为我们的直觉所理解.}

名字一阶逻辑的由来在于量词只能应用于指称对象的变量, 而不能是函数或者谓词. 允许对于函数和谓词进行量化的逻辑 (例如 $\exists f . \forall x . P [x, f (x)]$ ) 被称为是二阶的或是高阶的. 但是, 我们自限于一阶量词: 接下来定义的句法分析器会将这样的字符串里的第一个 $f$ 当作通常的对象变量, 而第二个 $f$ 会被当成一个幺元函数, 它们只是恰好同名.

第3.2节句法分析和打印

第3.3节一阶逻辑的语义

与命题公式一样, 一阶公式的意义是递归定义的, 并且依赖于赋予其各组成部分的基本意义. 在命题逻辑中, 唯一的组成部分是命题变量, 但在一阶逻辑中, 变量, 函数符号和谓词符号都需要被解释. 通常的做法是将这些关注点分开处理, 相对于一个解释和一个赋值来定义项或公式的含义, 其中解释刻画函数符号和谓词符号的解释, 赋值刻画变量的意义. 从数学上讲, 一个解释 $M$ 由三个部分组成.

一个非空集合 $D$ , 其被称为解释的论域. 意图在于所有的项都取值于 $D$ .
一个映射, 将每个 $n$ 元函数符号 $f$ 映射为一个函数 $f_{M} : D^{n} \to D$ .
一个映射, 将每个 $n$ 元谓词符号 $P$ 映射为一个布尔函数 $P_{M} : D^{n} \to {false, true}$ . 等价地, 我们可以将这种解释想成是一个子集 $P_{M} \subseteq D^{n}$ .

我们基于一个特定的解释 $M$ 和赋值 $v$ 来定义一个项的值, 只需注意变量是如何被 $v$ 所解释的以及函数符号是如何被 $M$ 所解释的: $\begin{array}{rcl} termval M v x & = & v (x) \\ termval M v f (t_{1}, \dots, t_{n}) & = & f_{M} (termval M v t_{1}, \dots, termval M v t_{n}) \end{array}$

一个公式是否在某个特定的解释 $M$ 和赋值 $v$ 下成立 (也就是具有真值 $true$ ), 可以类似地递归定义 (Tarski 1936), 并且大部分都遵循着命题逻辑所建立的模式. 主要附加的复杂度是刻画量词的意义. 我们意在使得 $\forall x . P [x]$ 在一个特定解释 $M$ 和赋值 $v$ 下成立恰当其体 $P [x]$ 对于变量 $x$ 的任何解释都为真, 换言之, 不论我们怎样修改赋值 $v$ 在 $x$ 上的值.

\begin{array}{rcl} holds M v ⊥ & = & false \\ holds M v ⊤ & = & true \\ holds M v R (t_{1}, \dots, t_{n}) & = & R_{M} (termval M v t_{1}, \dots, termval M v t_{n}) \\ holds M v (\neg p) & = & not (holds M v p) \\ holds M v (p \land q) & = & and (holds M v p, holds M v q) \\ holds M v (p \lor q) & = & or (holds M v p, holds M v q) \\ holds M v (p \Rightarrow q) & = & or (not (holds M v p), holds M v q) \\ holds M v (p \Leftrightarrow q) & = & (holds M v p = holds M v q) \\ holds M v (\forall x . p) & = & 对于所有的 a \in D, holds M ((x \mapsto a) v) p \\ holds M v (\exists x . p) & = & 存在某个 a \in D, holds M ((x \mapsto a) v) p \end{array}

解释里的论域 $D$ 是约定非空的, 但只要非空即可, 其可以具有任意有限或者无限的基数 (例如, 集合 ${0, 1}$ 或者实数集 $ℝ$ ), 并且函数和谓词可由任意的(可能不可计算的)数学函数所解释. 对于无限的 $D$ , 我们无法直接在OCaml中实现 $holds$ 函数, 因为解释一个量词牵涉在 $D$ 的所有元素上运行测试. 不过, 我们将会实现一个只对于有限论域成立的弱化版本.

一个解释是由一个论域, 函数解释, 谓词解释的三元组表示的. (为了使得解释有意义, 论域 $D$ 应该是非空的, 并且每个 $n$ 元函数符号 $f$ 应该被解释为一个将 $D$ 的元素的 $n$ 元组映射至 $D$ 的一个函数 $f_{M}$ . 以下的OCaml函数只是假定参数m在这种解读下是有意义的.) 赋值被表示为一个有限部分函数 (见附录2). 然后, 项的语义可以遵循我们之前所给出的抽象描述进行递归定义:

let rec termval (domain,func,pred as m) v tm =
  match tm with
    Var(x) -> apply v x
  | Fn(f,args) -> func f (map (termval m v) args);;

而公式的语义如下:

let rec holds (domain,func,pred as m) v fm =
  match fm with
    False -> false
  | True -> true
  | Atom(R(r,args)) -> pred r (map (termval m v) args)
  | Not(p) -> not(holds m v p)
  | And(p,q) -> (holds m v p) & (holds m v q)
  | Or(p,q) -> (holds m v p) or (holds m v q)
  | Imp(p,q) -> not(holds m v p) or (holds m v q)
  | Iff(p,q) -> (holds m v p = holds m v q)
  | Forall(x,p) -> forall (fun a -> holds m ((x |-> a) v) p) domain
  | Exists(x,p) -> exists (fun a -> holds m ((x |-> a) v) p) domain;;

为了澄清概念, 让我们尝试一些解释公式的例子, 这些公式牵涉零元函数符号 $0$ , $1$ , 二元函数符号 $+$ 和 $\cdot$ , 以及二元谓词符号 $=$ . {译注: 从某种意义上来说, 以下的程序暗示了名字和元数是要打包在一起出现的, 同名但不同元数的函数符号或谓词符号被视为(截然)不同的. 这点之后在原文中也有显式强调.} 我们考虑一种Boole本人式解释, 其中 $+$ 被解读为不可兼的或:

let bool_interp =
  let func f args =
    match (f,args) with
      ("0",[]) -> false
    | ("1",[]) -> true
    | ("+",[x;y]) -> not(x = y)
    | ("*",[x;y]) -> x & y
    | _ -> failwith "uninterpreted function"
  and pred p args =
    match (p,args) with
      ("=",[x;y]) -> x = y
    | _ -> failwith "uninterpreted predicate" in
  ([false; true],func,pred);;

另一种解释是对于某个任意的正整数 $n$ 的模 $n$ 算术:

let mod_interp n =
  let func f args =
    match (f,args) with
      ("0",[]) -> 0
    | ("1",[]) -> 1 mod n
    | ("+",[x;y]) -> (x + y) mod n
    | ("*",[x;y]) -> (x * y) mod n
    | _ -> failwith "uninterpreted function"
  and pred p args =
    match (p,args) with
      ("=",[x;y]) -> x = y
    | _ -> failwith "uninterpreted predicate" in
  (0--(n-1),func,pred);;

如果所有的变量都由量词所绑定, 那么赋值就对于一个公式是否成立不产生任何影响. (很快我们将会以更精确的方式陈述和证明这个结果.) 在这样的情形下, 我们可以就使用undefined进行实验. 例如, $\forall x . x = 0 \lor x = 1$ 在解释bool_interp和mod_interp 2下均成立, 但在mod_interp 3下不成立:

# holds bool_interp undefined <<forall x. (x = 0) \/ (x = 1)>>;;
- : bool = true
# holds (mod_interp 2) undefined <<forall x. (x = 0) \/ (x = 1)>>;;
- : bool = true
# holds (mod_interp 3) undefined <<forall x. (x = 0) \/ (x = 1)>>;;
- : bool = false

考虑以下断言, 即论域里的每个非零对象均有一个乘法逆元.

# let fm = <<forall x. ~(x = 0) ==> exists y. x * y = 1>>;;

对于了解一些数论的读者应该可以预料到, 这在mod_interp n中成立恰当n是一个素数, 或者是平凡情形为 $1$ :

# filter (fun n -> holds (mod_interp n) undefined fm) (1--45);;
- : int list = [1; 2; 3; 5; 7; 11; 13; 17; 19; 23; 29; 31; 37; 41; 43]

读者可以确认, 这个公式在bool_interp下也是成立的. (实际上, 即便基于不同的论域, mod_interp 2和bool_interp是同构的, 即本质上相同, 这是会在第4.2节有所解释的概念.

以下是个人Scheme版本的实现:

(define (forall? pred lst)
  (cond ((null? lst) #t)
        ((pred (car lst))
         (forall? pred (cdr lst)))
        (else #f)))
(define (exists? pred lst)
  (cond ((null? lst) #f)
        ((pred (car lst)) #t)
        (else
         (exists? pred (cdr lst)))))
;<term> ::= <var> | (<func> <term>*)
;<predicate> ::= (<pred> <term>*)
;<exp> ::= <bool>
;       |  <predicate>
;       |  (not <exp>)
;       |  (and <exp> <exp>)
;       |  (or <exp> <exp>)
;       |  (=> <exp> <exp>)
;       |  (<=> <exp> <exp>)
;       |  (forall <var> <exp>)
;       |  (exists <var> <exp>)
(struct interp (domain func pred))
(define ((termval m v) term)
  (match term
    (,x (guard (symbol? x)) (v x))
    ((,func . ,term*)
     (apply (funcval m func)
            (map (termval m v) term*)))))
(define (funcval m f)
  ((interp-func m) f))
(define (predval m p)
  ((interp-pred m) p))
(define (extend v x a)
  (lambda (y)
    (if (eq? y x)
        a
        (v y))))
(define (holds? m v exp)
  (match exp
    (,b (guard (boolean? b)) b)
    ((not ,e) (not (holds? m v e)))
    ((and ,e1 ,e2) (and (holds? m v e1)
                        (holds? m v e2)))
    ((or ,e1 ,e2) (or (holds? m v e1)
                      (holds? m v e2)))
    ((=> ,e1 ,e2) (or (not (holds? m v e1))
                      (holds? m v e2)))
    ((<=> ,e1 ,e2) (eq? (holds? m v e1)
                        (holds? m v e2)))
    ((forall ,x ,e)
     (forall? (lambda (a)
                (holds? m (extend v x a) e))
              (interp-domain m)))
    ((exists ,x ,e)
     (exists? (lambda (a)
                (holds? m (extend v x a) e))
              (interp-domain m)))
    ((,pred . ,term*)
     (apply (predval m pred)
            (map (termval m v) term*)))))

模逆的例子的确十分有趣.

(define (mod-interp n)
  (interp (range n)
          (lambda (f)
            (case f
              ((zero) (lambda () 0))
              ((one) (lambda () (modulo 1 n)))
              ((+) (lambda (a b)
                     (modulo (+ a b) n)))
              ((*) (lambda (a b)
                     (modulo (* a b) n)))
              (else (error 'mod-interp "unknown func symbol ~s" f))))
          (lambda (p)
            (case p
              ((=) (lambda (a b) (= a b)))
              (else (error 'mod-interp "unknown pred symbol ~s" p))))))
(define undefined
  (lambda (x)
    (error 'undefined "unknown variable ~s" x)))
(define modulo_inverse_existence
  '(forall x (=> (not (= x (zero)))
                 (exists y (= (* x y) (one))))))

> (filter (lambda (n)
            (holds? (mod-interp n) undefined
                    modulo_inverse_existence))
          (range 1 46))
'(1 2 3 5 7 11 13 17 19 23 29 31 37 41 43)

第3.3.1小节自由变量的集合

对于一个项 $t$ 所牵涉的所有变量的集合我们记 $FVT (t)$ , 例如 $FVT (f (x + y, y + z)) = {x, y, z}$ , 其可以在OCaml中递归实现如下:

let rec fvt tm =
  match tm with
    Var x -> [x]
  | Fn(f,args) -> unions (map fvt args);;

一个项 $t$ 被称为是ground的, 如果其不含有变量, 即 $FVT (t) = \emptyset$ . 正如我们所期望的, 一个项的语义只依赖于赋值在实际出现在项里的变量上的动作, 所以说作为特殊情形, ground项的语义和赋值无关.

定理3.1. 如果赋值

v

和

v^{'}

在某个项里的所有变量上都相合, 即对于所有的

x \in FVT (t)

, 我们都有

v (x) = v^{'} (x)

, 那么

termval M v t = termval M v^{'} t

证明. 根据

t

的结构上的归纳. 如果

t

只是一个变量

x

, 那么

FVT (t) = {x}

, 于是根据题设有

termval M v x = v (x) = v^{'} (x) = termval M v^{'} x

.
若

t

具有形式

f (t_{1}, \dots, t_{n})

, 那么根据题设,

v

和

v^{'}

在集合

FVT (f (t_{1}, \dots, t_{n}))

上相合, 因而其也在每个

FVT (t_{i})

上相合. 根据归纳假设, 对于每个

t_{i}

有

termval M v t_{i} = termval M v^{'} t_{i}

, 据此可以推得

termval M v f (t_{1}, \dots, t_{n}) = termval M v^{'} f (t_{1}, \dots, t_{n})

◻

下列函数返回出现在一个公式里的所有变量的集合.

let rec var fm =
   match fm with
    False | True -> []
  | Atom(R(p,args)) -> unions (map fvt args)
  | Not(p) -> var p
  | And(p,q) | Or(p,q) | Imp(p,q) | Iff(p,q) -> union (var p) (var q)
  | Forall(x,p) | Exists(x,p) -> insert x (var p);;

和项一样, 一个公式 $p$ 被称为是ground的, 如果其不包含变量, 即 $var (p) = \emptyset$ . 然而, 我们通常对于公式的自由变量集合 $FV (p)$ 更有兴趣, 忽略那些只会绑定出现的变量. 在这种情况下, 当我们经过一个量词时, 我们需要从其体的自由变量集合里去除量化了的变量而不是加上它:

let rec fv fm =
  match fm with
    False | True -> []
  | Atom(R(p,args)) -> unions (map fvt args)
  | Not(p) -> fv p
  | And(p,q) | Or(p,q) | Imp(p,q) | Iff(p,q) -> union (fv p) (fv q)
  | Forall(x,p) | Exists(x,p) -> subtract (fv p) [x];;

诚然如此, 在将以上定理从项推广至公式的过程里, 自由变量集合的概念是重要的:

定理3.2. 如果两个赋值

v

和

v^{'}

在一个公式

p

的所有自由变量上都相合, 即对于所有的

x \in FV (p)

我们都有

v (x) = v^{'} (x)

, 那么

holds M v p = holds M v^{'} p

证明. 根据

p

的结构上的归纳. 若

p

为

⊥

或

⊤

, 那么该定理平凡为真. 如果

p

具有形式

R (t_{1}, \dots, t_{n})

, 那么既然

v

和

v^{'}

在

FV (R (t_{1}, \dots, t_{n}))

上相合, 因而其也在每个

FVT (t_{i})

上相合. 定理3.1表明, 对于每个

t_{i}

, 我们有

termval M v t_{i} = termval M v^{'} t_{i}

, 故

holds M v R (t_{1}, \dots, t_{n}) = holds M v^{'} R (t_{1}, \dots, t_{n})

.
如果

p

具有形式

\neg q

, 那么既然根据定义有

FV (p) = FV (q)

, 归纳假设给出了

holds M v p = not (holds M v q) = not (holds M v^{'} q) = holds M v^{'} p

. 类似地, 如果

p

具有形式

q \land r

, 那么既然

FV (q \land r) = FV (q) \cup FV (r)

, 归纳假设保证了

holds M v q = holds M v^{'} q

和

holds M v r = holds M v^{'} r

, 于是

holds M v (q \land r) = holds M v^{'} (q \land r)

. 对于其他二元联结词情形的论证几乎都是一样的.
如果

p

具有形式

\forall x . q

, 那么根据题设, 我们有对于每个

y \in FV (p)

v (y) = v^{'} (y)

. 既然

FV (\forall x . q) = FV (q) - {x}

, 这意味着对于每个

y \in FV (q)

, 除了

y = x

的情况, 都有

v (y) = v^{'} (y)

. 但是, 这就保证了对于论域

M

里的任意元素

a

, 对于所有的

y \in FV (q)

, 我们都有

((x \mapsto a) v) (y) = ((x \mapsto a) v^{'}) (y)

. 因此, 根据归纳假设, 对于所有这样的

a

, 我们有

holds M ((x \mapsto a) v) q = holds M ((x \mapsto a) v^{'}) q

. 根据定义, 这意味着

holds M v p = holds M v^{'} p

. 对于存在量词情形的论证也是类似的.

◻

一个公式 $p$ 被称为是一个句子(sentence), 如果其没有自由变量, 即 $FV (p) = \emptyset$ . 一个ground公式也是一个句子, 但是一个句子可以含有变量, 只要其所有的实例都有绑定即可, 例如 $\forall x . \exists y . P (x, y)$ .

推论3.3. 如果

p

是一个句子, 那么对于任意的解释

M

和任意的赋值

v

和

v^{'}

, 我们都有

holds M v p = holds M v^{'} p

. {译注: 当然, 这种解释需要合理才行.}

证明. 如果

FV (p) = \emptyset

, 那么不论赋值怎样, 它们都在

FV (p)

上是相合的.

◻

第3.3.2小节有效性和可满足性

类比于命题逻辑, 一个一阶公式被称为是逻辑有效的, 如果其在所有解释和所有赋值下都成立. 并且, 如果 $p \Leftrightarrow q$ 是逻辑有效的, 那么我们称 $p$ 和 $q$ 是逻辑等价的. 有效公式是命题重言的一阶类比, 并且对于一阶情形我们有时也使用重言这个词汇. 的确如此, 每个命题重言都可以给出 (give rise to) 相应的有效一阶公式 (见之后的推论3.13). 一个牵涉量词的有效公式是 $(\forall x . P [x]) \Rightarrow P [a]$ , 其断言了如果 $P$ 对于所有的 $x$ 均为真, 那么其也对于任何特定的常量 $a$ 为真. 另外, 这个量词的存在和作用域都是关键的; $P [x] \Rightarrow P [a]$ 和 $\forall x . P [x] \Rightarrow P [a]$ 都不是有效的. {译注: 这里说的不是有效的, 指的是不总是有效的, 但是不排除存在有效的情况. 这些记号都是元记号, $x$ 是代表变量的元变量, $a$ 是代表常量 (零元函数应用) 的元变量, $P$ 是公式模式, 可以理解为根据一个项参数构造公式的方法.} 例如, 后者在某些解释下成立但是在其他解释下又不成立:

# holds (mod_interp 3) undefined <<(forall x. x = 0) ==> 1 = 0>>;;
- : bool = true
# holds (mod_interp 3) undefined <<forall x. x = 0 ==> 1 = 0>>;;
- : bool = false

{译注: 这里对于例子的描述和实际给出的例子是不一致的, 实际上给出的例子说的是在某个固定的解释下,

(\forall x . P [x]) \Rightarrow P [a]

的某个具体实例成立, 但是

\forall x . P [x] \Rightarrow P [a]

按照相同方式进行实例化得到的公式却不成立.}

一个相当令人意外的逻辑有效公式或许是 $\exists x . \forall y . P (x) \Rightarrow P (y)$ . {译注: 这个公式应该理解为字面上的而不是元的.} 从直觉上来说, 要么 $P$ 对于一切都为真, 此时后件 $P (y)$ 总是为真, 要么存在某个 $x$ 使得前件 $P (x)$ 为假. 不论是哪种情况, 这整个推出式都是为真的. (这经常被称为酒鬼悖论, 因为其可以想成是断言某人 $x$ 的存在性, 其满足如果 $x$ 喝酒了, 那么所有人都喝酒了.)

我们称一个解释 $M$ 满足一个一阶公式 $p$ , 或者说 $p$ 在解释 $M$ 下成立, 如果对于所有的赋值 $v$ , 我们都有 $holds M v p = true$ . 类似地, 我们称 $M$ 满足一个公式的集合 $S$ , 或者说 $S$ 在 $M$ 下成立, 如果 $M$ 满足集合里的每个公式. 我们称一个一阶公式或者一个一阶公式集合是可满足的, 如果存在某个能够满足它的解释. 注意到在可满足性定义里解释和赋值的非对称性: 存在某个解释 $M$ 使得对于所有的赋值 $v$ 我们都有 $holds M v p$ ; 这看起来有点令人惊讶, 但是却使得之后的材料从技术上更为简单. 在任何情况下, 当我们考虑句子时, 这种不对称就消失了, 因为赋值不会造成任何影响. 很容易看出来, 一个句子 $p$ 是有效的当且仅当 $\neg p$ 是不可满足的, 这和命题逻辑是一样的. 然而, 对于具有自由变量的公式而言, 这不再正确. 例如, $P (x) \lor \neg P (y)$ 不是有效的, 然而否定形式 $\neg P (x) \land P (y)$ 仍是不可满足的, 因为其要被所有赋值满足, 包括那些给 $x$ 和 $y$ 指派了相同对象的赋值.

满足了一个公式集合 $Γ$ 的一个解释被称为是 $Γ$ 的一个模型. 记号 $Γ ⊨ p$ 的意思是 $p$ 在 $Γ$ 的所有模型里均成立, 并且我们通常将 $\emptyset ⊨ p$ 记为 $⊨ p$ . 特别地, $Γ$ 是不可满足的当且仅当 $Γ ⊨ ⊥$ (既然 $⊥$ 永远不能成立, 必然不存在 $Γ$ 的模型). 然而, 和命题逻辑不同的是, 即便当 $Γ = {p_{1}, \dots, p_{n}}$ 有限时, 也不必满足 ${p_{1}, \dots, p_{n}} ⊨ p$ 等价于 $⊨ p_{1} \land \dots \land p_{n} \Rightarrow p$ . 原因在于赋值上的量化在不同的位置发生. 例如, ${P (x)} ⊨ P (y)$ 为真, 但是 $⊨ P (x) \Rightarrow P (y)$ 不为真. 然而, 如果每个 $p_{i}$ 都是一个句子 (也就是没有自由变量), 那么这两个会是等价的. {译注: 对于非句子的情况, 右边可以推出左边, 但是左边无法推出右边.} 我们偶尔会使用记号 $Γ ⊨_{M} p$ 来表达, 如果特定的 $M$ 是 $Γ$ 的模型, 那么 $p$ 也在该模型中成立. {译注: 原文没有对于单个公式定义模型, 但实际上这里的确可以说 $M$ 是 $p$ 的模型.} 于是, $⊨_{M} p$ 的意思就是 $M$ 满足 $p$ .

{译注: 前一段的讨论默认了 $p_{1}, \dots, p_{n}, p$ 都是具有某个特定签名的语言里的公式, 并且解释应该与签名相匹配. 换言之, 恰好应该提供对于签名所描述的函数符号和谓词符号的解释, 并且元数也要与签名相符.} {再次译注: 实际上根据后文来看, 作者的倾向不是假定特定隐式签名, 而是解释需要解释一切函数符号和谓词符号.}

正如我们已经指出的, 我们不可能直接基于语义来实现有效性或可满足性的检验. 我们完全无法评估一个公式在具有无限论域的解释下是否成立. 虽然我们可以检验它在某个有限解释下是否成立, 但我们无法检验它在所有这样的解释下是否成立, 因为有限解释有无穷多个. 请注意这与命题逻辑的对比: 在命题逻辑中, 命题变量的取值范围是一个有限的( $2$ -元素的)集合, 因此可以穷举遍历, 而且也不存在单独的解释这一概念. {译注: 并且, 一个命题公式的不同原子数目是有限的, 而命题公式的真值只依赖于其所牵涉的原子上的真值.}

然而, 这并不意味着先验地排除了以更巧妙的方式检验一阶有效性的一切希望. 实际上, 我们将以一种更间接的方式来解决有效性检验问题: 首先将一阶公式转化为一组命题公式, 使得这组命题公式可满足当且仅当原本的公式可满足. 因此, 我们将首先考虑如何对公式进行变换, 使量词移到最外层, 然后再将其彻底消去. 不过, 在着手这项工作之前, 我们需要精确地处理一些相当乏味的句法问题.

第3.4节句法操作

我们经常想要取一个一阶公式, 然后对于其所有的自由变量进行全称量化, 例如从 $\exists y . x < y + z$ 到 $\forall x . \exists y . x < y + z$ . {译注: 这里只是演示了对于部分自由变量进行全称量化而非全部, 全称闭包指的是对于所有的自由变量进行全称量化. 从语义角度来看, 全称量化的次序的确不重要.} 注意到这种泛化或者说全称闭包是有效的当且仅当原本的公式是有效的, 因为不论哪种情况我们都要求在对于那个变量指派任意的论域元素时, 核心公式成立. (更为形式化地说, 使用定理3.2以表明{对于所有的赋值 $v$ 和 $a \in D$ , 我们有 $holds M ((x \mapsto a) v) p$ }当且仅当{对于所有的赋值 $v$ , 我们有 $holds M v p$ }.) {译注: 原文括号里的补充实际上是更强一些的, 它说明了解释 $M$ 满足新的公式当且仅当 $M$ 满足原本的公式. 并且, 可以看到实际上 $x$ 不一定要是 $FV (p)$ 的元素, 任意的变量都具有这种性质. 不过, 后文指出了如果 $x \notin FV (p)$ , 那么 $\forall x . p$ 和 $p$ 甚至是逻辑等价的. 逻辑等价性和这里所说的性质的区别在于, 逻辑等价需要逐模型逐赋值的真值相等, 但是这里只是逐模型的可满足性相同, 所以逻辑等价是更强的性质.} 不过, 与句子打交道更为方便; 例如, 如果所有牵涉的公式都是句子, 那么 ${p_{1}, \dots, p_{n}} ⊨ q$ 当且仅当 $⊨ p_{1} \land \dots \land p_{n} \Rightarrow q$ , 并且 $p$ 的有效性和 $\neg p$ 的不可满足性是相同的, 这两个和命题逻辑的情况保持一致. 以下是一个对于全称泛化的OCaml实现:

let generalize fm = itlist mk_forall (fv fm) fm;;

{译注: generalize将任意的一阶公式转化为一个句子, 但是保持有效性不变. 更细致地说, 相对于每个特定模型的可满足性不变.}

第3.4.1小节项中的替换

我们需要定义的另一关键操作是将项或者公式里的变量替换为项, 例如将 $x < 2 \Rightarrow x \leq y$ 中的 $x$ 替换为 $1$ 可以得到 $1 < 2 \Rightarrow 1 \leq y$ . 我们将会把意图的变量指派或者说实例化描述为一个从变量到项的有限部分函数, 对于我们不想改变的变量, 这个函数可以是未定义的或者将x映射为Var(x). 给定这样一种指派sfn, 项上的替换可以递归定义如下:

let rec tsubst sfn tm =
  match tm with
    Var x -> tryapplyd sfn x tm
  | Fn(f,args) -> Fn(f,map (tsubst sfn) args);;

对于这个概念, 我们可以观察到一些重要的性质. 首先, 被替换后的项中的变量是可以预料的:

引理3.4. 对于任意的项

t

和实例化

i

, 被替换后的项中的自由变量恰好是用于替换

t

中的自由变量的那些项里的自由变量, 即

FVT (tsubst i t) = ⋃_{y \in FVT (t)} FVT (i (y)) .

{译注: 这里的

i

是从变量到项的(完全)函数, 但是我们可以将有限部分函数嵌入到完全函数里. 或许这里作者的想法就是嵌入, 所以说

i

并非所有可能的完全函数. 然而, 实际上像tsubst和之前的termval和holds这样用到有限部分函数的过程可以自然地推广至完全函数的版本. 并且, 这些论证也没有用到有限部分函数的特殊性. 所以说, 论证也不是错的, 并且在某种意义上证明了一个稍强的版本. 不过, 值得注意一下的是, 数学记号里

\mapsto

这个操作可以应用于完全函数, 但是OCaml代码里|->只会应用于所谓的有限部分函数.}

证明. 根据项的结构上的归纳. 如果

t

是一个变量

z

, 那么

FVT (tsubst i t) = FVT (i (z)) = ⋃_{y \in {z}} FVT (i (y)) .

既然

FVT (z) = {z}

, 于是推出了想要的结果.
若

t

具有形式

f (t_{1}, \dots, t_{n})

, 那么根据归纳假设, 对于每个

k = 1, \dots, n

, 我们有:

FVT (tsubst i t_{k}) = ⋃_{y \in FVT (t_{k})} FVT (i (y)) .

由此可以推出:

\begin{array}{cl} FVT (tsubst i f (t_{1}, \dots, t_{n})) \\ = & FVT (f (tsubst i t_{1}, \dots, tsubst i t_{n})) \\ = & ⋃_{k = 1}^{n} FVT (tsubst i t_{k}) \\ = & ⋃_{k = 1}^{n} ⋃_{y \in FVT (t_{k})} FVT (i (y)) \\ = & ⋃_{y \in ⋃_{k = 1}^{n} FVT (t_{k})} FVT (i (y)) \\ = & ⋃_{y \in FVT (f (t_{1}, \dots, t_{n}))} FVT (i (y)) \end{array}

◻

以下结果给出了关于替换后的项的解释的一个简单性质. 经过反思不难发现, 它相当符合预期. {译注: 第2章有一个非常类似的定理, 只不过那里是对于单独一个变量进行替换, 而这里是同时对于所有变量进行替换. 并且, 第2章和第3章的变量在层次上也并不相同, 第2章的变量差不多就是原子公式本身, 而第2章的替换是从变量到(命题)公式的映射; 第3章的变量只是项的一种, 原子公式的一部分, 而第3章的替换是从变量到项的映射.}

引理3.5. 对于任意的项

t

和实例化

i

, 在任意的解释

M

和赋值

v

下, 替换后的项的值和原本的项在修饰了的赋值

(termval M v) \circ i

下所得到的值是相同的, 即

termval M v (tsubst i t) = termval M ((termval M v) \circ i) t .

{译注: 原文说的是原本的公式, 这只是一个笔误.}

证明. 如果

t

是一个变量

x

, 那么

\begin{array}{cl} termval M v (tsubst i x) \\ = & termval M v i (x) \\ = & ((termval M v) \circ i) (x) \\ = & termval M ((termval M v) \circ i) x \end{array}

这正是预期的结果. 若

t

具有形式

f (t_{1}, \dots, t_{n})

, 那么根据归纳假设, 对于每个

k = 1, \dots, n

, 我们有:

termval M v (tsubst i t_{k}) = termval M ((termval M v) \circ i) t_{k}

于是:

\begin{array}{cl} termval M v (tsubst i f (t_{1}, \dots, t_{n})) \\ = & termval M v f (tsubst i t_{1}, \dots, tsubst i t_{n}) \\ = & f_{M} (termval M v (tsubst i t_{1}), \dots, termval M v (tsubst i t_{n})) \\ = & f_{M} (termval M ((termval M v) \circ i) t_{1}, \dots, termval M ((termval M v) \circ i) t_{n}) \\ = & termval M ((termval M v) \circ i) f (t_{1}, \dots, t_{n}) \end{array}

◻

第3.4.2小节公式中的替换

乍看之下, 我们似乎可以通过类似的结构递归来定义公式中的替换操作. 然而, 绑定变量的存在使问题变得复杂许多.

我们已经观察到, 绑定变量只是占位符, 用于指示绑定变量与其绑定实例之间的对应关系, 因此不应对它们进行替换. 例如, 对于 $x$ 进行替换不应对公式 $\forall x . x = x$ 产生任何影响, 因为其中每个 $x$ 都被量词所绑定. 此外, 即使避免对绑定变量本身进行替换, 我们仍然面临一个风险: 替换进去的项的自由变量可能被外部的变量绑定操作所捕获. 例如, 如果我们直接将公式 $\exists x . x + 1 = y$ 中的 $y$ 替换为 $x$ , 那么得到的公式 $\exists x . x + 1 = x$ 并不是我们所想要的, 因为替换进去了的变量 $x$ 被绑定了. 我们想要做的事情是alpha变换, 即对于绑定变量进行重命名, 例如这里将 $x$ 重命名为 $z$ . 然后我们可以安全地进行替换以得到 $\exists z . z + 1 = x$ , 这既按照要求替换了自由变量, 又维护了正确的绑定对应. 为了实现这一点, 我们首先编写一个函数, 通过不断向变量名添加撇号字符来发明一个变量名的变体, 直到它与给定的需要避免的变量列表中的所有变量都不同为止; 这将在必要时用于重命名绑定变量:

let rec variant x vars =
  if mem x vars then variant (x^"'") vars else x;;

例如:

# variant "x" ["y"; "z"];;
- : string = "x"
# variant "x" ["x"; "y"];;
- : string = "x'"
# variant "x" ["x"; "x'"];;
- : string = "x''"

现在, 替换的定义从一系列直接的结构递归开始. 然而, 量化公式 $\forall x . p$ 和 $\exists x . p$ 这两种微妙情形由一个互递归的函数substq处理:

let rec subst subfn fm =
  match fm with
    False -> False
  | True -> True
  | Atom(R(p,args)) -> Atom(R(p,map (tsubst subfn) args))
  | Not(p) -> Not(subst subfn p)
  | And(p,q) -> And(subst subfn p,subst subfn q)
  | Or(p,q) -> Or(subst subfn p,subst subfn q)
  | Imp(p,q) -> Imp(subst subfn p,subst subfn q)
  | Iff(p,q) -> Iff(subst subfn p,subst subfn q)
  | Forall(x,p) -> substq subfn mk_forall x p
  | Exists(x,p) -> substq subfn mk_exists x p

这个substq函数会检查如果绑定变量 $x$ 没有重命名的话是否会出现变量捕获. 它进行检测的方法是, 判断是否会出现 $FV (p)$ 中的 $y \neq x$ 使得应用替换于 $y$ 产生一个具有 $x$ 的自由出现的项. {译注: 当然了, 项压根没有绑定结构, 所以只要出现即可.} 如果的确出现的变量捕获, 那么我们会挑选一个新的绑定变量 $x^{'}$ , 其不会与对于 $p$ 进行替换产生的结果发生(变量)冲突; 否则的话, 直接置 $x^{'} = x$ . 整体的结果是应用带有额外映射 $x \mapsto x^{'}$ 的替换于体 $p$ 得到的. 注意到在不需要换名的情况下, 其会阻止对于 $x$ 进行(非平凡的)替换, 这正是预期的行为.

and substq subfn quant x p =
  let x' = if exists (fun y -> mem x (fvt(tryapplyd subfn y (Var y))))
                     (subtract (fv p) [x])
           then variant x (fv(subst (undefine x subfn) p)) else x in
  quant x' (subst ((x |-> Var x') subfn) p);;

例如:

# subst ("y" |=> Var "x") <<forall x. x = y>>;;
- : fol formula = <<forall x'. x' = x>>
# subst ("y" |=> Var "x") <<forall x x'. x = y ==> x = x'>>;;
- : fol formula = <<forall x' x''. x' = x ==> x' = x''>>

我们希望这种重命名的微妙至少看上去还算合理. 不过, 若要最终澄清我们的定义, 实际上我们需要表明subst满足与相对于tsubst而言的引理3.4和引理3.5类似的性质, 尽管建立这些性质要远为困难.

引理3.6. 对于任意的公式

p

和实例化

i

, 替换后的项中的自由变量恰好是那些用于替换

p

的自由变量的项中自由出现的变量, 即

FV (subst i p) = ⋃_{y \in FV (p)} FVT (i (y)) .

证明.

◻

定理3.7. 对于任意的公式

p

, 实例化

i

, 解释

M

以及赋值

v

, 我们有

holds M v (subst i p) = holds M ((termval M v) \circ i) p .

证明.

◻

一个直接的推论如下, 如果我们将自由变量想成是隐式全称量化的, 那么这个结果的确不足为奇:

推论3.8. 如果一个公式是有效的, 那么其任何替换实例也是有效的.

证明. 令

p

是一个逻辑有效的公式. 对于任意的实例化

i

, 我们有

holds M v (subst i p) = holds M ((termval M v) \circ i) p = true .

这是因为, 既然对于任意的赋值

v

都有

holds M v p = true

, 那么

(termval M v) \circ i

作为赋值也不会例外. {译注: 一个微妙之处在于

v

是依赖于

M

的. 另外, 所有这些牵涉的对象都依赖于一个隐式的签名.} {再次译注: 我读到后面才意识到, 作者在一般情况下应该都是假定解释/模型提供了一切函数符号和谓词符号的解释, 并非总是假定存在一个隐式的签名. 不过, 基本上所有结果也都可以在假定隐式签名的情况下成立, 只不过有的或许牵涉签名的扩张等修改, 所以说作者选择了这种解释一切的做法, 因为会比较方便, 无需特殊说明.}

◻

替换的定义及其关键性质的证明相当乏味无聊. 一种替代方案是将自由变量和绑定变量分为不同的句法范畴, 从而使捕获不可能发生. 一种特别流行的方案由de Bruijn (1972) 提出, 它使用数值索引来表示绑定变量的嵌套深度. 然而, 这种方法本身也有一些缺点.

第3.5节前束范式

一个一阶公式被称为是具有前束范式(prenex normal form, PNF), 如果其所有的量词都出现在外部, 而体 (或者说matrix) 里只用到了命题联结词. 例如, $\forall x . \exists y . \forall z . P (x) \land P (y) \Rightarrow P (z)$ 具有PNF形式, 而 $(\exists x . P (x)) \Rightarrow \exists y . P (y) \land \forall z . P (z)$ 则不具有PNF形式, 因为量化了的子公式使用了命题联结词进行组合. 本节我们将会展示如何将任意的一阶公式转换为一个与之逻辑等价的PNF形式.

当我们在命题逻辑中实现析取范式时 (第2.6节), 我们考虑了两种方法, 一种基于真值表, 另一种则是不断应用重言性变换, 例如 $p \land (q \lor r) ⟶ (p \land q) \lor (p \land r)$ . 在一阶逻辑里, 我们没有和真值表手段类似的方法, 但是我们仍然可以通过反复将子公式转换为与之逻辑等价的形式, 从而将量词逐渐外拉, 最终将一个公式转换为前束范式. 鉴于并无方便的手段能够将量词从逻辑等价式中拉出来, 所以我们最好提前消去它们, 就像前一章里的命题否定范式. 实际上, 如果我们遵循与早前DNF变换类似的模式, 会使问题得到简化:

将False, True, 空虚量化等东西化简消除;
消去推出式和等价式, 将否定下推;
将量词外拉.

化简阶段的处理方式和之前消去命题公式里的False和True时大致相同. 但是, 我们也会消除空虚量词, 也就是量化变量没有在体中自由出现的情况.

定理3.9. 如果

x \notin FV (p)

, 那么

\forall x . p

逻辑等价于

p

证明. 公式

\forall x . p

在模型

M

和赋值

v

下成立当且仅当对于

M

的论域里的每个

a

p

在

M

和赋值

(x \mapsto a) v

下成立. 然而, 既然

x

并没有在

p

中自由出现, 这种情况成立恰当

p

在

M

和

v

下成立, 鉴于论域是非空的.

◻

类似地, 如果 $x \notin FV (p)$ , 那么 $\exists x . p$ 逻辑等价于 $p$ . 因此, 我们可以看到下列化简函数总是返回一个逻辑等价的公式:

let simplify1 fm =
  match fm with
    Forall(x,p) -> if mem x (fv p) then fm else p
  | Exists(x,p) -> if mem x (fv p) then fm else p
  | _ -> psimplify1 fm;;

然后我们可以将其深入地反复应用:

let rec simplify fm =
  match fm with
    Not p -> simplify1 (Not(simplify p))
  | And(p,q) -> simplify1 (And(simplify p,simplify q))
  | Or(p,q) -> simplify1 (Or(simplify p,simplify q))
  | Imp(p,q) -> simplify1 (Imp(simplify p,simplify q))
  | Iff(p,q) -> simplify1 (Iff(simplify p,simplify q))
  | Forall(x,p) -> simplify1(Forall(x,simplify p))
  | Exists(x,p) -> simplify1(Exists(x,simplify p))
  | _ -> fm;;

例如:

# simplify <<true ==> (p <=> (p <=> false))>>;;
- : fol formula = <<p <=> ~p>>
# simplify <<exists x y z. P(x) ==> Q(z) ==> false>>;;
- : fol formula = <<exists x z. P(x) ==> ~Q(z)>>
# simplify <<(forall x y. P(x) \/ (P(y) /\ false)) ==> exists z. Q>>;;
- : fol formula = <<(forall x. P(x)) ==> Q>>

{译注: 这个过程simplify的输出有一个很好的性质, 就是逻辑常量只能单独存在. 实际上, 这也是我们对于第2章的对应过程的要求.}

接着, 我们通过消去推出式和等价式并将否定下推以将公式转换为NNF形式. 回忆一下De Morgan律, 其可以反复使用以获得逻辑等价的公式 {译注: 对于以下这些符号 $p_{1}, p_{2}, \dots, p_{n}$ , 我们应该将其理解为代表(一阶)公式的元变量, 而不应该像前一章那样将其理解为对象语言里的原子变量. 当然了, 硬要说的话, 将它们理解为零元谓词也不是不行, 但是没有必要采用这种别扭的角度}: $\begin{array}{rcl} \neg (p_{1} \land p_{2} \land \dots \land p_{n}) & \Leftrightarrow & \neg p_{1} \lor \neg p_{2} \lor \dots \lor \neg p_{n} \\ \neg (p_{1} \lor p_{2} \lor \dots \lor p_{n}) & \Leftrightarrow & \neg p_{1} \land \neg p_{2} \land \dots \land \neg p_{n} \end{array}$

根据类比, 我们有以下对于量词而言的无穷De Morgan律. 这里的逻辑等价性应该相当清晰; 例如, 如果不是对于所有的 $x$ 都有 $P (x)$ 成立的情形, 那么必然存在某个 $x$ 使得 $P (x)$ 不成立, 反之亦然: $\begin{array}{rcl} \neg (\forall x . p) & \Leftrightarrow & \exists x . \neg p \\ \neg (\exists x . p) & \Leftrightarrow & \forall x . \neg p \end{array}$

这些澄清了将否定下推经过量词的额外变换, 以补充已在命题情形所使用了的变换, 由此我们定义:

let rec nnf fm =
  match fm with
    And(p,q) -> And(nnf p,nnf q)
  | Or(p,q) -> Or(nnf p,nnf q)
  | Imp(p,q) -> Or(nnf(Not p),nnf q)
  | Iff(p,q) -> Or(And(nnf p,nnf q),And(nnf(Not p),nnf(Not q)))
  | Not(Not p) -> nnf p
  | Not(And(p,q)) -> Or(nnf(Not p),nnf(Not q))
  | Not(Or(p,q)) -> And(nnf(Not p),nnf(Not q))
  | Not(Imp(p,q)) -> And(nnf p,nnf(Not q))
  | Not(Iff(p,q)) -> Or(And(nnf p,nnf(Not q)),And(nnf(Not p),nnf q))
  | Forall(x,p) -> Forall(x,nnf p)
  | Exists(x,p) -> Exists(x,nnf p)
  | Not(Forall(x,p)) -> Exists(x,nnf(Not p))
  | Not(Exists(x,p)) -> Forall(x,nnf(Not p))
  | _ -> fm;;

例如:

# nnf <<(forall x. P(x))
        ==> ((exists y. Q(y)) <=> exists z. P(z) /\ Q(z))>>;;
- : fol formula =
<<(exists x. ~P(x)) \/
  (exists y. Q(y)) /\ (exists z. P(z) /\ Q(z)) \/
  (forall y. ~Q(y)) /\ (forall z. ~P(z) \/ ~Q(z))>>

现在我们来到前束范式真正独特的部分, 即将量词拉出来. 到目前为止, 我们已经进行了化简和NNF变换, 任何不在外部的量词必然是由 $\land$ 或 $\lor$ 所连接的, 因为否定已经下推至原子公式, 而其他命题联结词已经被消除了. 因此, 症结在于将诸如 $p \land \exists x . q$ 这样的公式中的联结词上拉. 又一次, 根据DNF的分配规则: $p \land (q_{1} \lor \dots \lor q_{n}) \Leftrightarrow p \land q_{1} \lor \dots \lor p \land q_{n}$ 我们可以作出无限情形的类比, 似乎以下公式(模式)应该是逻辑有效的: $p \land (\exists x . q) \Leftrightarrow \exists x . p \land q .$

这几乎是正确的, 但是若 $x$ 自由出现于 $p$ , 我们需要当心变量捕获. 例如, 以下公式不是逻辑有效的: $P (x) \land (\exists x . Q (x)) \Leftrightarrow \exists x . P (x) \land Q (x) .$

如有必要, 我们总是可以通过对于绑定变量换名来避免这样的问题, 即将 $x$ 重命名为某个 $y$ , 而 $y$ 在 $p$ 或 $q$ 中都没有自由出现: $p \land (\exists x . q) \Leftrightarrow \exists y . p \land (subst (x |\Rightarrow y) q) .$

这种等价可以使用前一节的定理进行严格澄清. 根据定义, 在模型 $M$ (其论域为 $D$ ) 和赋值 $v$ 下, 公式 $p \land (\exists x . q)$ 成立, 如果 $holds M v p$ 且存在某个 $a \in D$ 使得 $holds M ((x \mapsto a) v) q$ . 公式 $\exists y . p \land (subst (x |\Rightarrow y) q)$ 成立, 如果存在一个 $a \in D$ 使得 $holds M ((y \mapsto a) v) p$ 且 $holds M ((y \mapsto a) v) (subst (x |\Rightarrow y) q)$ . 然而, 既然根据构造, $y$ 没在 $p$ 中自由出现, 定理3.2表明 $holds M ((y \mapsto a) v) p$ 等价于 $holds M v p$ . 至于 $holds M ((y \mapsto a) v) (subst (x |\Rightarrow y) q)$ , 根据定理3.7, 其等价于 $holds M ((termval M ((y \mapsto a) v)) \circ (subst (x |\Rightarrow y))) q$ , 因而又等价于 $holds M ((x \mapsto a) v) q$ , 这正是我们所要的. {译注: 这最后的两个等价于只要进行细致分析并不难理解. 不过, 我还是要指明这里的符号和语义滥用, 而归根结底这又应该算是程序和数学之间的gap. 在之前的数学论述和证明里, 我们把 $subst$ 的第一个参数, 即所谓的实例化 $i$ , 都是当作一个从变量到项的完全函数. 但是在代码里, $subst$ 的第一个参数是在OCaml里实现的所谓有限部分函数. 这之间的语义差异, 是通过未定义变量会被映射至等同于自身的项这一操作而抹平的. 但是, 从本质上来说, $subst$ 的代码定义的确也能用在完全函数上, 这里没有任何微妙之处. 此处证明的有趣之处在于, 数学论述里定理3.7需要在 $subst$ 的第一个参数是完全函数时才能应用, 但是这里的 $(x |\Rightarrow y)$ 显然不是一个完全函数. 那么, 作者其实是通过等式 $subst (x |\Rightarrow y) q = subst (subst (x |\Rightarrow y)) q$ 把替换延拓成了一个完全函数. 而且细心的读者会发现, $subst$ 之前在数学论述里只会接受完全函数, 但这里打破了约定. 另外, $(subst (x |\Rightarrow y))$ 其实还用上了currying, 并且本来可以接受任意的项, 但这里作为替换只会接受变量. 另外还可以说一点无聊的, 原文要求 $y$ 既不在 $p$ 又不在 $q$ 中自由出现, 但是最宽松的要求其实是 $y$ 不在 $p \land (\exists x . q)$ 中自由出现. 当然了, 原文也说了如有必要, 那么说明 $x$ 已经在 $p$ 中自由出现, 所以 $y$ 的确不会是 $x$ . (读者还可以看出经过了前面的化简之后, 到了这里 $x$ 必然要在 $q$ 中自由出现, 不会落空.)} 全然类似的论证允许我们将全称或存在量词经过合取或析取拉出来. 如果读者对于其中任何逻辑等价保有疑问, 那么的确它们可以按照类似的方法进行澄清: $\begin{array}{rcl} (\forall x . p) \land q & \Leftrightarrow & \forall y . (subst (x |\Rightarrow y) p) \land q \\ p \land (\forall x . q) & \Leftrightarrow & \forall y . p \land (subst (x |\Rightarrow y) q) \\ (\forall x . p) \lor q & \Leftrightarrow & \forall y . (subst (x |\Rightarrow y) p) \lor q \\ p \lor (\forall x . q) & \Leftrightarrow & \forall y . p \lor (subst (x |\Rightarrow y) q) \\ (\exists x . p) \land q & \Leftrightarrow & \exists y . (subst (x |\Rightarrow y) p) \land q \\ p \land (\exists x . q) & \Leftrightarrow & \exists y . p \land (subst (x |\Rightarrow y) q) \\ (\exists x . p) \lor q & \Leftrightarrow & \exists y . (subst (x |\Rightarrow y) p) \lor q \\ p \lor (\exists x . q) & \Leftrightarrow & \exists y . p \lor (subst (x |\Rightarrow y) q) \end{array}$

{再次译注: 非常不妙的是, 前一段中的译注有问题. 不过, 容我自我辩白一下, 其实原文也有问题, 所以我受到了误导. 译注里我说的等式 $subst (x |\Rightarrow y) q = subst (subst (x |\Rightarrow y)) q$ 实际上是错误的. $subst$ 的第一个参数是所谓的实例化, 其应该是从变量到项的映射, 但是curry化了的 $(subst (x |\Rightarrow y))$ 是一个从公式到公式的映射. 其实, 正确的等式应该是 $subst (x |\Rightarrow y) q = subst (tsubst (x |\Rightarrow y)) q$ 所以原文相应的地方应该将 $subst$ 改成 $tsubst$ . 不过, 从更为形式化的角度来看, 这仍然并不正确. 更准确地说, 实例化是从变量名到项的映射, 但是变量名并不是项, 给变量名加上 $Var$ 之后才变成项. 因此, 更为正确的等式其实是 $subst (x |\Rightarrow y) q = subst ((tsubst (x |\Rightarrow y)) \circ Var) q$ 然后, 原文的 $holds M ((termval M ((y \mapsto a) v)) \circ (subst (x |\Rightarrow y))) q$ 实际上应该是 $holds M ((termval M ((y \mapsto a) v)) \circ (tsubst (x |\Rightarrow y)) \circ Var) q$ 之后有一处译注我也犯了同样的错误.}

在立即子公式都为量化公式的特殊情形下, 我们有时可以运用逻辑等价产生具有更少量词的结果, 其中的 $z$ 要求不在原本的公式里自由出现即可. $\begin{array}{rcl} (\forall x . p) \land (\forall y . q) & \Leftrightarrow & \forall z . (subst (x |\Rightarrow z) p) \land (subst (y |\Rightarrow z) q) \\ (\exists x . p) \lor (\exists y . q) & \Leftrightarrow & \exists z . (subst (x |\Rightarrow z) p) \lor (subst (y |\Rightarrow z) q) \end{array}$ {译注: 个人喜欢将其理解为两个量化变量相同时的逻辑等价的衍生结果.}

然而, 以下并不逻辑有效 {译注: 这里不是双重否定, 只是正常否定一次}: $\begin{array}{rcl} (\forall x . p) \lor (\forall y . q) & ⇎ & \forall z . (subst (x |\Rightarrow z) p) \lor (subst (y |\Rightarrow z) q) \\ (\exists x . p) \land (\exists y . q) & ⇎ & \exists z . (subst (x |\Rightarrow z) p) \land (subst (y |\Rightarrow z) q) \end{array}$

例如, 对于上面第一条, 如果这有这种等价的话, 那么 $(\forall n . Even (n)) \lor (\forall n . Odd (n))$ 应该逻辑等价于 $\forall n . Even (n) \lor Odd (n)$ . 可是在基于整数的奇偶性的显然解释下, 前者为假而后者为真. 类似地, 如果第二条正确, 那么 $(\exists n . Even (n)) \land (\exists n . Odd (n))$ 应该逻辑等价于 $\exists n . Even (n) \land Odd (n)$ , 然而在同样的显然解释下, 前者为真而后者为假.

现在为了将所有出现于合取或者析取的立即子公式里的量词拉出来, 我们在OCaml中实现了以下变换:

let rec pullquants fm =
  match fm with
    And(Forall(x,p),Forall(y,q)) ->
                          pullq(true,true) fm mk_forall mk_and x y p q
  | Or(Exists(x,p),Exists(y,q)) ->
                          pullq(true,true) fm mk_exists mk_or x y p q
  | And(Forall(x,p),q) -> pullq(true,false) fm mk_forall mk_and x x p q
  | And(p,Forall(y,q)) -> pullq(false,true) fm mk_forall mk_and y y p q
  | Or(Forall(x,p),q) ->  pullq(true,false) fm mk_forall mk_or x x p q
  | Or(p,Forall(y,q)) ->  pullq(false,true) fm mk_forall mk_or y y p q
  | And(Exists(x,p),q) -> pullq(true,false) fm mk_exists mk_and x x p q
  | And(p,Exists(y,q)) -> pullq(false,true) fm mk_exists mk_and y y p q
  | Or(Exists(x,p),q) ->  pullq(true,false) fm mk_exists mk_or x x p q
  | Or(p,Exists(y,q)) ->  pullq(false,true) fm mk_exists mk_or y y p q
  | _ -> fm

其中为了经济性, 各种各样类似的子情形都由一个互递归函数pullq处理, 其会调用主函数pullquants以在体上进一步拉出更多的量词:

and pullq(l,r) fm quant op x y p q =
  let z = variant x (fv fm) in
  let p' = if l then subst (x |=> Var z) p else p
  and q' = if r then subst (y |=> Var z) q else q in
  quant z (pullquants(op p' q'));;

整体的前束函数将量化公式的量词留下, 对于合取与析取则递归地将其立即子公式前束化, 然后再应用pullquants:

let rec prenex fm =
  match fm with
    Forall(x,p) -> Forall(x,prenex p)
  | Exists(x,p) -> Exists(x,prenex p)
  | And(p,q) -> pullquants(And(prenex p,prenex q))
  | Or(p,q) -> pullquants(Or(prenex p,prenex q))
  | _ -> fm;;

将其与NNF与化简阶段组合, 我们就得到:

let pnf fm = prenex(nnf(simplify fm));;

例如:

# pnf <<(forall x. P(x) \/ R(y))
        ==> exists y z. Q(y) \/ ~(exists z. P(z) /\ Q(z))>>;;
- : fol formula =
<<exists x. forall z. ~P(x) /\ ~R(y) \/ Q(x) \/ ~P(z) \/ ~Q(z)>>

第3.6节 Skolem化

前束范式将量词和命题部分 (或称matrix) 分离开来, 但是量词前缀仍然可能包含任意复杂度的全称和存在量词嵌套. 我们可以更进一步, 消去存在量词而只保留全称量词, 这用到了一种叫做Skolem化的技术, 其以Thoraf Skolem (1928) 的名字而命名. 注意到以下陈述一般被认为是数学等价的:

对于所有的 $x \in D$ , 存在一个 $y \in D$ 使得 $P [x, y]$ ;
存在一个 $f : D \to D$ 使得对于所有的 $x \in D$ , $P [x, f (x)]$ .

其中一个方向是相当简单的: 如果(2)成立, 那么取 $y = f (x)$ , 我们可以看到(1)也成立. 另一方向比较微妙: 即便对于每个 $x$ 都存在至少一个 $y$ 使得 $P [x, y]$ , 然而也可能存在许多这样的元素, 于是为了得到一个函数 $f$ , 对于每个 $x$ 我们需要自限于一个特定的 $y$ . 一般而言, 对于逐 $x$ 得 $y$ 的这样一种选择总是存在的断言 (即便我们无法写下挑选的方法), 即是著名的选择公理 (Axiom of Choice, AC) (Moore 1982; Jech 1973). 为了与通常的数学实践保持一致, 我们简单地选择假定该公理成立, 尽管这只是一种方便的做法, 而且如有必要则可以避免.

{原注: 选择公理在论域 $D$ 良序时是毫无疑义的, 而可数是其一种特殊情形, 这是因为我们可以将 $f (x)$ 定义为满足 $P [x, y]$ 的最小的 $y$ . 由向下Löwenheim–Skolem定理3.49可知, 对于我们的可数语言, 本质上可以将注意力限制在可数模型上. 尽管我们对该结论的证明使用了Skolem化方法, 但Henkin (1949) 提出了一种更为精巧的方法来避免这一点, 该方法代之以在可数个阶段中不断向语言添加新常量. Enderton (1972) 等若干教材以此方式证明了完备性定理.}

即便接受了(1)和(2)的等价, 后者也并不对应于某个一阶公式的语义. 如果我们允许对于函数符号进行存在量化, 以一种从直觉上来说看起来较为合理的方式对于语义的概念进行扩展, 那么这种等价意味着以下公式(模式)应该是逻辑有效的: $(\forall x . \exists y . P [x, y]) \Leftrightarrow (\exists f . \forall x . P [x, f (x)])$ 更为一般地: $(\forall x_{1}, \dots, x_{n} . \exists y . P [x_{1}, \dots, x_{n}, y]) \Leftrightarrow (\exists f . \forall x_{1}, \dots, x_{n} . P [x_{1}, \dots, x_{n}, f (x_{1}, \dots, x_{n})])$

在一个合适的二阶逻辑系统之中, 这些的确是逻辑等价, 并且我们可以使用它们对于前束公式的量词前缀进行变换以使得所有的存在量词都出现在所有的全称量词之前, 例如 $\begin{array}{cl} (\forall x . \exists y . \forall u . \exists v . P [u, v, x, y]) \\ \Leftrightarrow & (\exists f . \forall x, u . \exists v . P [u, v, x, f (x)]) \\ \Leftrightarrow & (\exists f, g . \forall x, u . P [u, g (x, u), x, f (x)]) \end{array}$

我们注意到, 不论是变换等价还是最终的结果, 都无法以一阶公式表达, 所以我们不能确切遵循这个过程. 但是, 我们可以大致取得相同的效果, 如果我们能够接受作为结果的公式和原本的公式不是逻辑等价, 而仅仅是等可满足 (第2.8节). 要义在于函数上的存在量化已然在可满足性断言中隐式存在了: 一个公式是可满足的, 如果存在某个论域和对于函数与谓词符号的解释能够满足它. 因此, 进行Skolem化的这一行为得到了澄清, Skolem化指的是进行同样的变换, 但是不对于函数进行显式量化, 例如我们将公式 $\forall x . \exists y . \forall u . \exists v . P [u, v, x, y]$ 转换为 $\forall x, u . P [u, g (x, u), x, f (x)]$ 其中的 $f$ 和 $g$ 是不在原本公式里的不同函数符号. {译注: 其实无需强调不同, 因为这里的 $f$ 和 $g$ 不是元函数符号, 而是具体的函数符号.} 另外, 既然对于自由变量的全称量化在可满足性的定义里是隐式存在的, 我们还可以继续将其变换为 $P [u, g (x, u), x, f (x)] .$

虽然这些公式中没有任何两个是逻辑等价的, 但它们都是等可满足的. 因此, 如果我们想判断第一个公式是否可满足, 只需考虑最后一个公式即可, 因为它完全不含显式量词. 我们将在下一节中看到, 此类无量词公式的可满足性问题可以借助命题逻辑中的技术加以解决. 但在此之前, 让我们对主要的 Skolem 化变换给出更为细致严格的说明, 并在此过程中定义实际实现中所用到的若干辅助概念.

有必要引入称为Skolem函数的新函数符号 (在零元情形下称为Skolem常量), 且这些符号不得出现在原公式中. 因此, 首先我们需要定义一个过程, 用于获取一个项和一个公式中已经存在的函数, 从而避免与之产生命名冲突. 这一实现是直接的, 值得注意的是, 我们以名称和元数的序对来标识函数, 因为同名但元数不同的函数被视为不同的函数.

let rec funcs tm =
  match tm with
    Var x -> []
  | Fn(f,args) -> itlist (union ** funcs) args [f,length args];;

let functions fm =
  atom_union (fun (R(p,a)) -> itlist (union ** funcs) a []) fm;;

正如 $holds M v p$ 只依赖于对于 $x \in FV (p)$ 而言的取值 $v (x)$ (定理3.2), 其也只依赖于实际出现于 $p$ 中的那些函数符号在 $M$ 下的解释. (定理3.2的证明可以经过调整移用; 而且, 事情在某种意义上变得更简单了, 因为变量绑定不发挥作用.) 自现在起, 当我们言称 $p$ 并不牵涉 $n$ 元函数符号 $f$ 时, 从形式化的角度来看我们指的是 $(f, n) \notin functions p$ .

定理3.10. 如果

p

是一个并不牵涉

n

元函数符号

f

的公式, 并且

FV (\exists y . p) = {x_{1}, \dots, x_{n}}

(其中

x_{i}

互异, 但是顺序无关紧要), 那么对于任意的解释

M

, 存在另一个解释

M^{'}

, 其和

M

只有对于

f

的解释(可能)不同, 使得在所有赋值

v

下:

holds M v (\exists y . p) = holds M^{'} v (subst (y |\Rightarrow f (x_{1}, \dots, x_{n})) p)

并且我们也有

holds M v (\exists y . p) = holds M^{'} v (\exists y . p)

因为

p

并不牵涉

f

{译注: 这里的函数符号 $f$ 是和其元数 $n$ 绑定在一起的, 不只是名字.}

证明. 我们将

M^{'}

定义为按照以下方式将对于

f

的解释修改为了

f_{M^{'}}

的

M

. 对于

a_{1}, \dots, a_{n} \in D

, 如果存在某个

b \in D

使得

holds M (x_{1} |\Rightarrow a_{1}, \dots, x_{n} |\Rightarrow a_{n}, y |\Rightarrow b) p

那么

f_{M^{'}} (a_{1}, \dots, a_{n})

就是某个这样的

b

, 否则的话就选取任意一个

b \in D

. 这个定义的要义在于对于一个任意的赋值

v

, 断言

holds M^{'} ((y \mapsto f_{M^{'}} (v (x_{1}), \dots, v (x_{n}))) v) p

和

存在某个 b \in D, holds M ((y \mapsto b) v) p

是等价的, 这是因为如果的确存在这样一个

b

, 那么

f_{M^{'}}

就会挑选一个这样的元素. {译注: 这里还用到了

n

元函数符号

f

没有在

p

中出现.} 使用定理3.7和这个等价, 我们可以推出

\begin{array}{cl} holds M^{'} v (subst (y |\Rightarrow f (x_{1}, \dots, x_{n})) p) \\ = & holds M^{'} ((termval M^{'} v) \circ (subst (y |\Rightarrow f (x_{1}, \dots, x_{n})))) p \\ = & holds M^{'} ((y \mapsto termval M^{'} v f (x_{1}, \dots, x_{n})) v) p \\ = & holds M^{'} ((y \mapsto f_{M^{'}} (v (x_{1}), \dots, v (x_{n}))) v) p \\ = & 存在某个 b \in D, holds M ((y \mapsto b) v) p \\ = & holds M v (\exists y . p) \end{array}

{译注: 原文这里本来用的不是

(subst (y |\Rightarrow f (x_{1}, \dots, x_{n})))

而是

(y |\Rightarrow f (x_{1}, \dots, x_{n}))

, 为了与前文保持一致, 我认为还是修改了的版本比较好.} 这正是我们所要的.

◻

{再次译注: 根据之前的修正, 实际上 $holds M^{'} ((termval M^{'} v) \circ (subst (y |\Rightarrow f (x_{1}, \dots, x_{n})))) p$ 应该是 $holds M^{'} ((termval M^{'} v) \circ (tsubst (y |\Rightarrow f (x_{1}, \dots, x_{n}))) \circ Var) p$ 非常抱歉.}

因为这个等价对于所有的赋值成立, 所以当子公式被替换时, 等价可以沿着公式的结构向上传播, 这是由于在 $termval$ 和 $holds$ 的递归定义里只有赋值改变了. {译注: 这句话十分令人难以理解, 但是个人认为它表达的不过就是相对于某个特定解释/模型而言, 如果两个公式逐赋值的真值相等, 那么这个性质可以在任意的句法构造操作下保持. 实际上, 这或许应该算是逻辑有效性在句法操作下保持的变体.} 因此, 上述定理建立了以下结果: 如果我们取某个任意的解释 $M$ 和一个具有子公式 $\exists y . q$ 的公式 $p$ , 那么只要 $f$ 没有在整个公式 $p$ 里出现, 那么我们就能够以 $f$ 对于这个子公式进行Skolem化, 然后得到一个新的公式 $p^{'}$ , 还有一个新的模型 $M^{'}$ , 其和 $M$ 只在对于 $f$ 的解释上有所不同, 其使得对于所有的赋值 $v$ : $holds M v p = holds M^{'} v p^{'} .$ {译注: 读者应该还记得, 这里所说的函数符号 $f$ , 是要考虑具体元数的, 细节在之前的定理里已经详细表述过了.}

这种操作可以反复进行, 替换所有的存在量化子公式, 每个阶段选取某个还未出现在到目前为止的整个公式里的函数(符号). 从初始公式 $p$ 和某个解释 $M$ 开始, 我们得到了一系列公式 $p_{1}, \dots, p_{m}$ 和解释 $M_{1}, \dots, M_{m}$ , 其使得每个 $M_{k + 1}$ 仅是修改了 $M_{k}$ 对于一个新的Skolem函数得到的, 并且 $holds M_{k} v p_{k} = holds M_{k + 1} v p_{k + 1} .$ 根据归纳, 对于所有的解释 $M$ 和所有的赋值 $v$ , 我们有: $holds M v p = holds M_{m} v p_{m}$ 其中 $p_{m}$ 不含有存在量词. 因此, 如果原本的公式 $p$ 是可满足的, 例如由某个模型 $M$ 满足, 那么Skolem化了的公式 $p_{m}$ 则由 $M_{m}$ 满足.

这并不依赖于任何种类的预先规范形式变换; 我们可以自由地应用Skolem化于任意的存在量化子公式, 并且如果原本的公式是可满足的, 那么Skolem化的结果也是可满足的. {译注: 这里说的就是指对于子公式进行Skolem化之后得到的整个公式.} 反过来, 一个存在公式的Skolem化形式可以推出原本的公式 {译注: 这里的存在公式即公式本身就是存在量化, 并且我们就是对于整个公式而非子公式进行Skolem化}, 所以只要所有的Skolem化子公式以肯定方式出现 (以第2.5节之意), 那么整个Skolem化了的公式就能逻辑推出原本的公式, 因而它们是等可满足的. {译注: 这里说的推出和逻辑推出, 比如说 $p$ 推出 $q$ , 大概指的是 $p \Rightarrow q$ 是逻辑有效的, 展开来说就是对于任意的解释 $M$ 和任意的赋值 $v$ , 如果 $holds M v p$ (为真), 那么 $holds M v q$ (为真).} 在没有这个条件的情况下, 我们不能期望等可满足性质成立; 例如, 如果我们对于不可满足公式 $(\exists y . P (y)) \land \neg (\exists x . P (x))$ 的第二个存在子公式进行Skolem化, 那么我们就得到了可满足的 $(\exists y . P (y)) \land \neg P (c)$ . {译注: 这里的 $c$ 是零元函数, 或者说常量, 但绝对不是变量. 在句法上它的确和一般变量没什么区别, 我觉得这算是一个记号约定失误, 因为的确 $c ()$ 是更一致和更好的选择.}

{译注: 上一段对于occur positively语焉不详, 实际上的确需要小心谨慎. 不过, 鉴于后文在进行Skolem化之前会将公式变为NNF形式, 所以说我们可以仅讨论为什么在NNF形式下局部Skolem化是保持可满足性的. 实际上, 我们只需要证明以下几点就够了.

如果 $p \Rightarrow q$ 是逻辑有效的, 那么 $p \land r \Rightarrow q \land r$ 和 $r \land p \Rightarrow r \land q$ 都是逻辑有效的;
如果 $p \Rightarrow q$ 是逻辑有效的, 那么 $p \lor r \Rightarrow q \lor r$ 和 $r \lor p \Rightarrow r \lor q$ 都是逻辑有效的;
如果 $p \Rightarrow q$ 是逻辑有效的, 那么对于任意的变量 $x$ , $(\forall x . p) \Rightarrow (\forall x . q)$ 和 $(\exists x . p) \Rightarrow (\exists x . q)$ 都是逻辑有效的.

不过, 这三点都足够显然, 所以留给读者也没问题. 否定在NNF形式中只会应用于原子公式, 所以无需讨论.}

因此, 先将公式转换为NNF形式是相当合理的, 由此我们可以识别肯定和否定子公式, 然后可以直接Skolem化掉所有的存在量词, 此时它们都总是肯定出现. 我们可以进一步先将公式置于PNF形式, 不过往往先应用Skolem化更好, 因为PNF变换可能会将更多的自由变量引入存在量词的作用域之中, 使得Skolem函数需要更多参数. 例如, $\forall x, z . x = z \lor \exists y . x \cdot y = 1$ 可以被直接Skolem化为 $\forall x, z . x = z \lor x \cdot f (x) = 1$ , 而如果我们先将其化为前束范式 $\forall x, z . \exists y . x = z \lor x \cdot y = 1$ , 那么继而Skolem化会给出 $\forall x, z . \exists y . x = z \lor x \cdot f (x, z) = 1$ . 出于相同的理由, 似乎先对于外层量词进行Skolem化更为明智, 因为这同样也会减少自由变量的数目, 例如 $\exists x, y . x \cdot y = 1 ⟶ \exists y . c \cdot y = 1 ⟶ c \cdot d = 1$ 而非 $\exists x, y . x \cdot y = 1 ⟶ \exists x . x \cdot f (x) = 1 ⟶ c \cdot f (c) = 1 .$

那么, 对于整体的Skolem化函数, 我们直接对于公式进行递归下降, Skolem化任何遇到的存在公式, 然后继续处理子公式. 我们维护一个既已存在于公式中的函数符号列表fns, 于是我们可以避免使用它们作为Skolem函数. (我们甚至保守地避免了使用同名不同元数的函数, 这在逻辑上并无必要, 但有时可以避免阅读结果时产生误解. 另一方向的优化可以是对于等同的Skolem公式复用相同的Skolem函数; 一些对于Skolem化主要定理的思考表明这是可行的.)

let rec skolem fm fns =
  match fm with
    Exists(y,p) ->
        let xs = fv(fm) in
        let f = variant (if xs = [] then "c_"^y else "f_"^y) fns in
        let fx = Fn(f,map (fun x -> Var x) xs) in
        skolem (subst (y |=> fx) p) (f::fns)
  | Forall(x,p) -> let p',fns' = skolem p fns in Forall(x,p'),fns'
  | And(p,q) -> skolem2 (fun (p,q) -> And(p,q)) (p,q) fns
  | Or(p,q) -> skolem2 (fun (p,q) -> Or(p,q)) (p,q) fns
  | _ -> fm,fns

在处理二元联结词时, 用以避免重名的函数符号集需要在处理另一个公式之前先更新第一个公式所引入的Skolem函数, 由此我们定义了辅助函数skolem2:

and skolem2 cons (p,q) fns =
  let p',fns' = skolem p fns in
  let q',fns'' = skolem q fns' in
  cons(p',q'),fns'';;

skolem函数意在于NNF变换之后应用, 因而对于否定式, 推出式, 等价式, 以及原子公式保持不变. {译注: 其实还有可能是 $⊥$ 和 $⊤$ , 不过实际上除了这两个逻辑常量之外, 我们只会遇到原子公式和对于原子公式的否定, 其他情况都被NNF变换消除了.} 对于总体上的Skolem化函数, 我们先化简, 然后将其转换为NNF形式, 接着应用skolem以一个合适的初始避免重名函数符号集:

let askolemize fm =
  fst(skolem (nnf(simplify fm)) (map fst (functions fm)));;

{译注: 鉴于函数符号有同名不同元数的情况, 所以个人感觉这里应该使用image而非map. 另外, NNF变换并不改变公式所具有的函数符号.}

往往我们想要将结果转化为PNF形式并省略全称量词, 这可以给出一个没有显式量词的等可满足公式. 最后一步需要一个新的函数, 尽管相当简单:

let rec specialize fm =
  match fm with
    Forall(x,p) -> specialize p
  | _ -> fm;;

然后我们可以将这些碎片拼在一起:

let skolemize fm = specialize(pnf(askolemize fm));;

{译注: 个人之见, 使用prenex就完全足够了, 无需使用pnf, 因为askolemize能够保持NNF的结构.} 例如:

# skolemize <<exists y. x < y ==> forall u. exists v. x * u < y * v>>;;
- : fol formula = <<~x < f_y(x) \/ x * u < f_y(x) * f_v(u,x)>>
# skolemize
 <<forall x. P(x)
             ==> (exists y z. Q(y) \/ ~(exists z. P(z) /\ Q(z)))>>;;
- : fol formula = <<~P(x) \/ Q(c_y) \/ ~P(z) \/ ~Q(z)>>

尽管在实践中我们通常对于Skolem化掉一个公式或者一集公式里的所有存在量词感兴趣, 但是需要指出的是我们不是非得这么做. 如果我们对于一个公式 $p$ 进行Skolem化得到了 $p^{⁎}$ , 不仅是这两个公式为等可满足的, 而且只要新引入的那些Skolem函数没有出现在另一个公式 $q$ 中, 那么 $p \land q$ 和 $p^{⁎} \land q$ 也是等可满足的, 只需将相同的推理应用于 $p \land q$ 并保留 $q$ 中的存在量词. {译注: 这里所说的Skolem化的含义和之前有所不同, 实际上应该相当于应用askolemize或者skolemize函数. 这是因为, 如果只是朴素地对于 $p$ 应用局部Skolem化, 前文已经告诉我们可满足性无法保持. 不过, 读者不能忽略细节问题, 应该意识到skolemize在此处之所以适用, 需要分成两步论证, 第一步和askolemize完全相同, 第二步则用到了对于任意公式 $p$ 和任意变量 $x$ , $p$ 和 $\forall x . p$ 逐模型的可满足性相同.} 这进一步推出对于句子 $p$ 和 $q$ , 我们有 $⊨ p \Rightarrow q$ 当且仅当 $⊨ p^{⁎} \Rightarrow q$ , 只要 $q$ 并不牵涉任何的Skolem函数, 这是因为 $⊨ p \Rightarrow q$ 当且仅当 $p \land \neg q$ 是不可满足的. {译注: 这里的Skolem化的含义或许应该说又和前文不同了, 要义在于 $p^{⁎}$ 也必须要是一个句子, 即没有自由变量. simplify和nnf实际上都可以保持自由变量集不变, askolemize也可以, 因为原始的对于存在量化公式进行的Skolem化的确也保持自由变量集不变. 所以说, askolemize能够胜任这里言称的Skolem化. 接着, 我们分析pnf函数, 然后会发现因为量词上拉的过程总是伴随着精心的避免捕获的重命名, 所以说pnf也能够保持自由变量集不变. 问题出在最后的specialize上, 简单去除有可能导致自由变量增加, 在这里则实际上是一定增加. 换言之, skolemize不能胜任, 但是如果只是askolemize后面跟着pnf则是可以的.} 我们通过言称Skolem化是保守的以表达这一事实: 如果 $q$ 由一个Skolem化了的公式推出, 那么其必然也可由未Skolem化的公式推出, 只要 $q$ 并不牵涉任何Skolem函数.

以一个不同的方向, 我们可以直接论证推出以下定理, 尽管直接证明也不困难:

定理3.11. 一个公式

p

是有效的当且仅当

p^{'}

是有效的, 其中

p^{'}

是将

p

中的所有自由变量替换为没有出现在

p

中的不同常量. {译注: 常量即零元函数.}

证明. 对于所有的自由变量进行泛化, 然后作否定, 接着应用Skolem化于那些外部的量化变量.

◻

{译注: 补充一下细节, 设 $x_{1}, \dots, x_{n}$ 是 $p$ 的所有不同的自由变量, 那么 $p$ 是有效的当且仅当 $\forall x_{1}, \dots, x_{n} . p$ 是有效的, 当且仅当 $\neg (\forall x_{1}, \dots, x_{n} . p) = \exists x_{1}, \dots, x_{n} . \neg p$ 是不可满足的, 当且仅当 $\neg p^{'}$ 是不可满足的, 当且仅当 $p^{'}$ 是有效的.}

Skolem函数似乎看上去只是纯粹的形式逻辑人工制品, 但运用函数而非量词嵌套来表示依赖关系实际上在数学中相当常见, 即便有时是无意识的, 而且只是半形式化的. 例如, Burkill和Burkill (1970) 等分析学教材在处理具有形式 $\forall ε . ε > 0 \Rightarrow \exists δ . \dots$ 的典型 $ε$ - $δ$ 逻辑断言时, 有时会将其写成对于所有的 $ε > 0$ , 存在一个 $δ (ε) > 0$ 使得..., 这以记号 $δ (ε)$ 强调了 $δ$ (可能)依赖于 $ε$ . 本节开头的讨论表明, 这样的函数式记号可以按照字面来理解, 通过将 $δ$ 视为一个Skolem函数, 其是由对于 $\forall ε . \exists δ . P [ε, δ]$ 进行Skolem化而得到 $\exists δ . \forall ε . P [ε, δ (ε)]$ 的过程中产生的. {译注: 准确来说, 这不是Skolem化, 而是Skolem化的想法起源.} 实际上, Skolem函数所能表达的依赖关系比一阶量词更为精细, 这促使人们去研究更一般的分支量词 (Hintikka 1996).

第3.7节 canonical模型

一个无量词公式可以视为命题逻辑公式. 现在我们有的不是prop作为命题变量的原始集合, 而是关系应用于项, 这对应于我们的OCaml类型fol, 但是这不会造成本质性的区别, 因为理论结果几乎不依赖于潜在集合的性质. 特别是一个给定的一阶公式只能牵涉有限多个变量, 函数和谓词, 故原子命题的集合是可数的, 因而我们对于命题紧致性 (定理2.13) 的证明也能够施行. {译注: 个人感觉这句话的因果关系有点奇怪. 就我个人而言, 如果变量集合, 函数符号集合, 谓词符号集合都是可数的, 那么原子命题的集合显然是可数的.} 我们将会使用命题性求值 $eval$ 的微小变体, 其中为了方便, 一个命题性赋值d将原子公式自身映射至真值. 函数 $pholds$ 确定了一个公式是否在命题逻辑的意义下对于这种赋值概念成立. (如若该函数应用于一个包含量词的公式, 则会失败.)

let pholds d fm = eval fm (fun p -> d(Atom p));;

{译注: 本书通过精致的设计安排使得第2章命题逻辑的

eval

也能用在第3章的一阶情形, 不过

pholds

和

eval

的差异几乎完全只是技术性的, 即它会把

eval

脱去的Atom又加回来, 仅此而已.}

这个修饰了的赋值概念纯粹只是形式上的调整, 这是为了避免Atom映射反复出现在我们的定理之中, 不过与Atom的复合定义了其与命题赋值的原本概念之间的一个自然双射, 所以一个无量词公式p在命题逻辑的意义下是有效的当且仅当对于所有的赋值d都有pholds d p, p是可满足的当且仅当对于某个赋值d有pholds d p. {译注: 这里也就是说, 在某种意义上忽略谓词的细致结构, 只是为每种谓词指派一个真值.} 现在我们也要证明一个无量词公式在一阶逻辑的意义下是有效的当且仅当其在命题逻辑的意义下是有效的, 这是通过设置一阶解释和赋值与相应的命题赋值之间的对应关系完成的. 其中一个方向相当直接. 每个解释 $M$ 和赋值 $v$ 以自然的方式定义了一个与之对应的原子公式的命题赋值, 即 $holds M v$ . 那么, 我们有:

定理3.12. 如果

p

是一个无量词一阶公式, 那么对于所有的解释

M

的赋值

v

, 我们有

pholds (holds M v) p = holds M v p .

证明. 直接对于

p

的结构应用结构归纳, 因为对于无量词一阶公式而言,

holds

和

pholds

具有相同的递归模式, 而对于原子公式而言, 结果根据定义即成立.

◻

推论3.13. 如果一个无量词一阶公式是一个重言, 那么其也是一阶有效的.

证明. 在任意的解释

M

和赋值

v

下, 我们在之前的定理中已经表明了

holds M v p = pholds (holds M v) p .

然而, 如果

p

是一个命题重言, 右边就只会是

true

而已.

◻

现在我们转向相反的方向: 给定一个原子公式上的命题性赋值 $d$ , 构造解释 $M$ 和赋值 $v$ 使得 $holds M v p = pholds d p .$ 又一次, 我们仅需保证其对于原子公式为真, 因为在对于定理3.12的证明中, 我们注意到 $holds$ 和 $pholds$ 对于无量词公式的递归(模式)恰好相同. 所有的(一阶)原子公式都具有形式 $R (t_{1}, \dots, t_{n})$ , 而根据定义, 我们有 $holds M v R (t_{1}, \dots, t_{n}) = R_{M} (termval M v t_{1}, \dots, termval M v t_{n}) .$

我们想要调制一种解释 $M$ 和赋值 $v$ 使得这与 $pholds d R (t_{1}, \dots, t_{n})$ 是相等的. 实际上只要构造函数的解释以及赋值使得不同的项元组 $(t_{1}, \dots, t_{n})$ 映射至不同的论域元素的元组 $(termval M v t_{1}, \dots, termval M v t_{n})$ 就够了, 这是因为然后我们就可以按照要求选择对于谓词符号的解释以匹配命题赋值 $d$ . (如果 $d (R (s_{1}, \dots, s_{n})) \neq d (R (t_{1}, \dots, t_{n}))$ 而这两个项元组有着相同的解释的话, 选择是不可能的.)

{译注: 将不同的项元组映射至不同的论域元素元组这一条件等价于 $(termval M v)$ 是一个单射. 这相当显然, 如果不同的项元组能够映射至不同的论域元素元组, 那么它也能推出不同的单元组要映射至不同的单元组, 这和 $(termval M v)$ 为单射是等价的. 现在论证另一个方向, 若 $(termval M v)$ 是一个单射, 那么如果 $(t_{1}, \dots, t_{n}) \neq (s_{1}, \dots, s_{n})$ , 这相当于至少存在一个 $i$ 使得 $t_{i} \neq s_{i}$ , 那么也就有 $termval M v t_{i} \neq termval M v s_{i}$ , 由此映射至的论域元组不同是显然的事实.}

这种条件可以用各种各样的方法达成, 但是或许最直接的方式在于将模型的论域取为项集合本身的某个子集. 公式 $p$ 的一个canonical解释是这样的, 其论域是项集合的某个子集, 并且出现于 $p$ 中的每个 $n$ 元函数(符号) $f$ 都以自然的方式解释为一个句法构造子, 即 $f_{M} (t_{1}, \dots, t_{n}) = f (t_{1}, \dots, t_{n})$ , 或者基于我们的OCaml实现严格来说是 $Fn (f, [t_{1}; \dots; t_{n}])$ . 既然对于函数符号的解释需要将 $D^{n}$ 映射至 $D$ , 我们要求论域在出现于 $p$ 中的函数符号的(句法)应用下封闭, 即若 $t_{1}, \dots, t_{n} \in D$ , 那么 $f (t_{1}, \dots, t_{n}) \in D$ . 作为特殊情形, 对于 $p$ 中的每个常量 (零元函数) 都有 $c \in D$ . 一种可能性是将 $D$ 取为所有项之集合. 现在给定一个命题性赋值 $d$ , 我们可以构造一个相应的canonical解释 $M_{d}$ , 根据强制要求我们将函数符号解释为: $f_{M_{d}} (t_{1}, \dots, t_{n}) = f (t_{1}, \dots, t_{n})$ 并且谓词要按照以下方式解释: $R_{M_{d}} (t_{1}, \dots, t_{n}) = d (R (t_{1}, \dots, t_{n})) .$

现在我们有了所要的对应, 至少对于恒等赋值 $Var$ 而言, 其将一个变量映射至自身. 这给出了以下毫不令人意外的性质, 即 $termval M_{d} Var$ 是恒等映射:

引理3.14. 对于所有的项

t

termval M_{d} Var t = t

证明. 对于

t

的结构施行归纳. 如果

t

是一个变量

Var (x)

, 那么

termval M_{d} Var (Var (x)) = Var (x)

, 这是根据定义得到的. {译注: 或许有点tricky, 虽然

Var (x)

可由

Var

应用于

x

得到, 但是这里的

Var (x)

读者最好理解为某种意义上的字面结构.} 不然的话, 若

t

具有形式

f (t_{1}, \dots, t_{n})

, 根据归纳假设, 对于每个

k = 1, \dots, n

, 我们有

termval M_{d} Var t_{k} = t_{k}

, 于是

\begin{array}{cl} termval M_{d} Var f (t_{1}, \dots, t_{n}) \\ = & f_{M_{d}} (termval M_{d} Var t_{1}, \dots, termval M_{d} Var t_{n}) \\ = & f_{M_{d}} (t_{1}, \dots, t_{n}) \\ = & f (t_{1}, \dots, t_{n}) \\ = & t \end{array}

这正是我们所要的.

◻

定理3.15. 如果

d

是一个对于原子公式的赋值, 那么对于任意的无量词公式

p

, 我们有:

holds M_{d} Var p = pholds d p .

证明. 对于

p

的结构施行归纳. 对于原子公式而言:

\begin{array}{cl} holds M_{d} Var R (t_{1}, \dots, t_{n}) \\ = & R_{M_{d}} (termval M_{d} Var t_{1}, \dots, termval M_{d} Var t_{n}) \\ = & R_{M_{d}} (t_{1}, \dots, t_{n}) \\ = & d (R (t_{1}, \dots, t_{n})) \\ = & pholds d R (t_{1}, \dots, t_{n}) \end{array}

其他情形都是直截了当的, 因为对于无量词公式而言,

holds

和

pholds

有着相同的递归模式.

◻

这允许我们证明一阶有效性和命题有效性是一样的.

推论3.16. 一个无量词一阶公式是一个命题重言当且仅当其是一阶有效的.

证明. 自左向右的方向已经在推论3.13中得到了证明. 反过来, 设

p

是一阶有效的, 那么对于任意的命题性赋值

d

, 我们根据上述定理有

pholds d p = holds M_{d} Var p

. 然而, 既然

p

是一阶有效的, 其在所有解释和赋值下皆成立, 故等式右侧为

true

◻

推论. 这个推论是译者插入的, 不属于原文的一部分. 两个无量词一阶公式是命题逻辑等价的当且仅当其是一阶逻辑等价的.

这是一个有趣的结果, 但是就我们的总体计划而言, 我们对于可满足性的类似结果更为感兴趣, 因为Skolem化 (使用我们的方法可以抵达一个无量词公式) 是可满足性保持的但并非有效性保持的. 对于ground公式而言, 一切都很简单:

推论3.17. 一个ground公式是命题有效的当且仅当是一阶有效的, 是命题可满足的当且仅当是一阶可满足的. {译注: 根据定义, ground公式必然是无量词公式.}

证明. 第一部分是推论3.16的一种特殊情形. 第二部分则是根据以下事实推出的: 对于ground公式

p

而言,

p

的命题有效性和

\neg p

的命题不可满足性是相同的,

p

的一阶有效性和

\neg p

的一阶不可满足性是相同的.

◻

{译注: 原文的证明叙述实际上有点绕, 我将其改写为了更为易读的形式. 不过, 这和最终结果仍然有差距, 第二部分的证明实际上是这样的. 对于ground公式 $p$ 而言, $\neg p$ 的命题有效性等价于 $\neg \neg p$ 的命题不可满足性, 等价于 $p$ 的命题不可满足性; $\neg p$ 的一阶有效性等价于 $\neg \neg p$ 的一阶不可满足性, 等价于 $p$ 的一阶不可满足性, 这是由于ground公式没有自由变量. 既然我们已经知道 $\neg p$ 的命题有效性和一阶有效性是等价的, 那么 $p$ 的命题不可满足性和一阶不可满足性也是等价的. 又因为实际上命题不可满足性是对于命题可满足性的否定, 一阶不可满足性是对于一阶可满足性的否定, 所以说 $p$ 的命题可满足性和一阶可满足性是等价的. 另外多说一句, 之所以这里要求的是ground公式, 是因为没有自由变量的无量词公式这一条件恰好就和ground公式是等价的.}

由此我们澄清了以下事实: 对于ground公式, 我们可以自由地在命题和一阶有效性之间切换, 也可以自由地在命题和一阶可满足性之间切换. 那么对于一般情况下的无量词公式而言呢? 又一次, 其中一个方向是直截了当的:

推论3.18. 如果一个无量词一阶公式是一阶可满足的, 那么其也是命题可满足的.

证明. 如果

p

不是命题可满足的, 那么

\neg p

是命题有效的, 根据推论3.16, 其也是一阶有效的, 于是

p

不可能是一阶可满足的.

◻

{译注: 我感觉这个证明有点绕, 实际上可以直接证明. 若无量词一阶公式 $p$ 是一阶可满足的, 那么存在解释 $M$ 使得对于任意的(一阶)赋值 $v$ 都有 $holds M v p$ . 我们选取其中一个赋值 $v_{0}$ , 注意论域的非空性保证了赋值的存在性. 根据本节开头的定理3.12, 命题性赋值 $(holds M v_{0})$ 可使得公式 $p$ 在命题逻辑意义下得到满足.}

然而, 一点反思表明反向的关系没有那么简单. 例如, $P (x) \land \neg P (y)$ 作为一个命题公式是可满足的, 这是因为原子公式 $P (x)$ 和 $P (y)$ 是不同的, 故可以分别解释为 $true$ 和 $false$ . 然而, 其作为一阶公式是不可满足的, 因为其模型需要使得该公式在所有赋值下成立, 一个特殊情形是指派 $x$ 和 $y$ 以相同的论域值. {译注: 那么, 这种情况下无论如何都不可能成立.}

我们的处理方式是首先对于定理3.15进行泛化. 注意到canonical模型下的赋值是从变量名到项的映射, 于是其可以视为实例化.

引理3.19. 如果

M

是任意的canonical解释而

v

是任意的赋值, 那么对于任意的项

t

, 我们有

termval M v t = tsubst v t .

证明.

termval M

和

tsubst

的定义在任意的canonical模型下都是相同的, 因为每个

f_{M}

不过就是作为句法构造子的

f

◻

{译注: 其实严格来说, 它们并不全然相同. $termval$ 要求的赋值是完全函数, 而 $tsubst$ 要求的实例化可以是部分函数. 不过, 既然这里的 $v$ 是完全函数, 所以说此时它们的确没有什么区别.}

我们首先注意到一个简单的推论, 尽管直接证明也相当容易.

推论3.20. 如果

i

和

j

是两个实例化而

t

是任意的项, 那么

tsubst i (tsubst j t) = tsubst ((tsubst i) \circ j) t .

证明. 选取一个任意的canonical解释

M

(例如将所有的关系都解释为恒假). 根据引理3.19, 这个声明等价于

termval M i (tsubst j t) = termval M ((termval M i) \circ j) t

其恰好就是引理3.5.

◻

不过, 我们的主要结果如下.

定理3.21. 如果

p

是一个无量词公式,

d

是一个原子公式的命题性赋值,

M

是某个对于

p

而言的canonical解释, 并且该解释满足

R_{M} (t_{1}, \dots, t_{n}) = d (R (t_{1}, \dots, t_{n}))

, 那么对于任意的赋值

v

, 我们有:

holds M v p = pholds d (subst v p) .

证明. 对于

p

的结构施行归纳. 对于原子公式:

\begin{array}{cl} holds M v R (t_{1}, \dots, t_{n}) \\ = & R_{M} (termval M v t_{1}, \dots, termval M v t_{n}) \\ = & R_{M} (tsubst v t_{1}, \dots, tsubst v t_{n}) \\ = & d (R (tsubst v t_{1}, \dots, tsubst v t_{n})) \\ = & d (subst v R (t_{1}, \dots, t_{n})) \\ = & pholds d (subst v R (t_{1}, \dots, t_{n})) \end{array}

而对于其他种类的公式,

holds

和

pholds

的递归模式和之前一样是契合的.

◻

出于实用目的, 使得canonical模型的论域尽可能小比较方便. 一个特定的一阶语言的Herbrand宇宙或者说Herbrand论域是该语言的所有ground项之集合, 即所有可由语言的常量和函数符号在不使用变量的情况下所能构造出来的所有项, 除非这个语言没有常量, 那么我们会添加一个常量 $c$ 以使得Herbrand宇宙非空. 在接下来的部分里通常我们所感兴趣的会是一个单独公式 $p$ 的语言, 而我们会说 $p$ 的Herbrand宇宙, 意即 $p$ 的语言的Herbrand宇宙. {译注: 这里所说的 $p$ 的语言, 大概指的是由 $p$ 牵涉的函数符号和谓词符号确定的签名所对应的语言.} 我们可以取得一个公式的所有函数符号之集合, 将其分为零元和非零元符号两类, 并在没有零元符号时作出如前所述的添加常量的调整, 整个函数如下:

let herbfuns fm =
  let cns,fns = partition (fun (_,ar) -> ar = 0) (functions fm) in
  if cns = [] then ["c",0],fns else cns,fns;;

{译注: 首先, 这里原文把公式误写作了项. 另外, 这里的代码似乎有错, ["c",0]实际上应该是[("c",0)].}

注意到 $p$ 的Herbrand宇宙为无穷集合恰当 $p$ 牵涉非零元函数(符号); 例如, 以单独的一个常量 $c$ 和一个幺元函数符号 $f$ 而言, 其Herbrand宇宙为 ${c, f (c), f (f (c)), f (f (f (c))), \dots}$ . 一个Herbrand解释是一个canonical解释, 其论域是对于某个适切语言而言的Herbrand宇宙 (通常是出现于一个或多个公式中的符号所确定的语言), 而公式集合的一个Herbrand模型则是该公式集合的模型且模型本身是一个Herbrand解释. 如果实例化 $i$ 的像都落入Herbrand宇宙, 那么我们将会称 $subst i p$ 为 $p$ 的一个ground实例.

{译注: 或许时机算是有些晚了, 但我想在这个地方写一点关于canonical解释的注记. canonical是对于解释的论域和函数符号的解释的限制, 但对于谓词符号的解释没有要求. 就函数符号的解释而言, 它可能是对于所有函数符号的解释有所限制, 也可能是对于部分所需的函数符号解释进行限制. 而论域其实比较随意, 限制其实就是能够满足函数符号解释的需要, 其实也就是某种封闭性. 另外, 有的时候我们的解释是相对于不确定的语言而言的, 有的时候则是相对于一个特定的语言签名而言的. 原文没有特别显式强调这一点, 因为一般来说所有的定理在这两种情况下都成立. 而对于Herbrand解释而言, 它的确要相对于一个特定签名, 也就是由出现了的函数符号和谓词符号确定的签名, 这样处理比较自然妥帖, 无需乱打补丁.}

定理3.22. 一个Herbrand解释

H

满足一个无量词公式

p

当且仅当其满足由所有ground实例

subst i p

构成的集合.

证明. 如果

H

满足

p

, 那么其也满足所有的ground实例, 这是因为根据定理3.7, 我们有

holds H v (subst i p) = holds H ((termval H v) \circ i) p = true .

反过来, 设

H

满足所有的ground实例. 任意的赋值

v

都是以ground项集为陪域的映射, 于是利用引理3.19我们可以得到

(termval H v) \circ v = (tsubst v) \circ v = v

. 但是然后根据定理3.7, 我们有

holds H v p = holds H ((termval H v) \circ v) p = holds H v (subst v p) = true .

{译注: 原文这里最后一行的公式存在笔误, 将

subst

误写为了

tsubst

◻

诚然如此, 不过同样种类的结果不仅对于特定Herbrand模型下的满足性成立, 也对于作为整体的可满足性成立.

定理3.23. 一个无量词公式

p

是一阶可满足的当且仅当由其所有ground实例构成的集合是命题可满足的.

证明. 如果

p

是(一阶)可满足的, 那么其在某个模型

M

下对于所有的赋值均成立. 令

i

是任意的ground实例化, 即从变量(名)到Herbrand宇宙的映射. {译注: Herbrand宇宙也可以理解为所有ground项之集合, 所以它才叫做ground实例化.} 使用定理3.7和定理3.12, 我们可以推出, 对于任意的赋值

v

, 都有:

\begin{array}{cl} pholds (holds M v) (subst i p) \\ = & holds M v (subst i p) \\ = & holds M ((termval M v) \circ i) p \\ = & true \end{array}

于是命题性赋值

holds M v

可以同时满足

p

的所有ground实例. {译注:

v

的存在性依赖于论域非空.}
反过来, 如果某个命题性赋值

d

满足所有的ground实例, 定义一个Herbrand解释

H

满足

R_{H} (t_{1}, \dots, t_{n}) = d (R (t_{1}, \dots, t_{n}))

. 根据定理3.21, 对于任意的赋值/ground实例化

i

, 我们都有

holds H i p = pholds d (subst i p) = true

于是

H

满足

p

◻

这个重要结果通常被称为Herbrand定理, 尽管这实际上是一种误称. 根据本质上相同的证明, 我们也可以推出以下重要的等价, 这是藉由命题步骤绕路完成的.

定理3.24. 一个无量词公式有一个模型 (即是可满足的) 当且仅当其有一个Herbrand模型.

证明. 自右向左是立即的, 因为一个Herbrand模型当然也是一个模型. 对于另外一个方向, 我们可以复用定理3.23的证明, 通过注意到其中构造出来的模型的确是一个Herbrand模型. 也就是说, 如果

p

有一个模型, 那么其所有ground实例之集合是命题可满足的, 因而其有一个Herbrand模型.

◻

请注意这一推理仅涵盖了无量词公式或者全称性公式的情况. {译注: 这里原文所谓的universal formula应该指的是仅含有全称量词的一阶公式, 这和前一节提及的existential formula是不一样的, 那指的是以存在量词开头的一阶公式, 仅此而已.} 举个例子, $P (c) \land \exists x . \neg P (x)$ 是可满足的 (例如, 置论域为自然数集, $P$ 为是偶数, $c$ 为零), 但是其没有Herbrand模型, 因为其Herbrand宇宙仅是 ${c}$ , 而这个公式不可能有单元素模型. 出于相同的理由,

第3.8节机械化Herbrand定理

在诸多工作之后, 我们成功地将一阶可满足性归约为了命题可满足性. 然而, 我们的胜利却因以下事实而蒙上了阴影: 我们需要测试由所有ground实例构成的集合的命题可满足性, 而这些实例的数目通常是无穷的. 然而, 命题逻辑的紧致性定理2.13拯救了我们.

定理3.25. 一个无量词公式是一阶可满足的当且仅当其所有的有限ground实例集合都是(命题)可满足的.

证明. 这可由Herbrand定理3.23和命题逻辑的紧致性 (定理2.13) 立即推出.

◻

推论3.26. 一个无量词公式

p

是一阶不可满足的当且仅当存在某个有限的ground实例集合是(命题)不可满足的.

证明. 前一条定理的逆否.

◻

这产生了一种过程, 我们可以利用它来验证一个公式 $p$ 是不可满足的. 我们可以直接枚举越来越大的ground实例集合, 然后测试它们的命题可满足性. 只要每个ground实例最终都可以出现于枚举之中, 我们就可以保证若 $p$ 是不可满足的, 那么我们终将抵达一个有限的命题不可满足集合. 如果 $p$ 实际上是可满足的, 那么这个过程永远也不会终止, 所以这只是一个半判定过程. 但是, 我们会在第7.6节看到, 这已经是我们在一般情况下所能期望的最好结果了.

1950年代后半期, 或许是受到Robinson (1957) 在1957年康奈尔大学的Summer Institute for Symbolic Logic上某个建议的启发, 出现了若干按照这一思路实现的定理证明系统, 其中最早的系统之一应归功于Gilmore (1960). {译注: 原文将会议误作为1954年举行的了.} Gilmore枚举越来越大的ground实例集合, 每个阶段都会检查矛盾性, 方法是将其置于析取范式, 然后检查每个析取分量是否具有互补文字. {译注: 如果每个析取分量都有互补文字, 那么说明该析取范式是不可满足的, 即矛盾.} 让我们遵循这一方法以理解其实际运行的效果.

我们需要设置一种合适的ground实例枚举方法, 或者更准确地说, 其实是枚举ground项的 $m$ 元组, 而 $m$ 是公式中的自由变量的数目. 如果我们想要保证每个不可满足公式最终都会被证明是不可满足的, 那么枚举必然要最终能够囊括每个可能的ground实例. {译注: 这句话我感觉和进路不太一致, 实际上或许应该是若要保证存在有限不可满足集合则一定能被发现的话, 并且我们要注意不可满足集合的超集也是不可满足的.} 一种合理的方法是先生成所有不牵涉函数的 $m$ 元组 (即仅是常量项的组合), 然后接着生成所有仅共牵涉一个函数的 $m$ 元组, 之后则是两个, 三个, 依此类推. {译注: 这里说的常量是零元函数, 函数则是元数大于等于一的函数.} 每个元组最终都会出现, 而更简单的可能性会优先进行尝试. 我们可以通过两个互递归的函数来设置枚举, 它们都会取常量项集cntms和函数(连带着元数)集funcs为参数.

函数groundterms枚举了所有牵涉n个函数的ground项. 如果n = 0, 那么返回的就是常量项. 否则的话, 所有可能的函数都会被尝试, 并且既然我们需要为m元函数的每个参数位置填上总共牵涉n - 1个函数的诸项 (考虑到已经用了一个函数), 那么我们可以递归地调用groundtuples:

let rec groundterms cntms funcs n =
  if n = 0 then cntms else
  itlist (fun (f,m) l -> map (fun args -> Fn(f,args))
                             (groundtuples cntms funcs (n - 1) m) @ l)
          funcs []

而这互递归函数groundtuples会生成所有的总计牵涉n个函数的ground项m元组. {译注: 这是针对于下面的代码而言的.} 对于所有到n为止的k, 它会尝试占据第一个元组位置以牵涉k个函数的ground项的所有可能方式, 并随之递归地生成余下的牵涉n - k个函数的所有m - 1元组.

and groundtuples cntms funcs n m =
  if m = 0 then if n = 0 then [[]] else [] else
  itlist (fun k l -> allpairs (fun h t -> h::t)
                       (groundterms cntms funcs k)
                       (groundtuples cntms funcs (n - k) (m - 1)) @ l)
         (0 -- n) [];;

Gilmore的方法可以被认为是Herbrand过程族的一员, 该族在某种意义上会测试越来越大的ground实例的合取, 直到检出不可满足的. 我们可以对于可满足性测试完成的方式 (tfn) 和增扩ground实例 (复数) 以新实例的修饰函数 (mfn) 进行一般化, 不论其以何种形式存储. 这种一般化不仅是为了节约代码, 也是为了强调关键的想法是独立于特定的可满足性测试的, 其过程会通过以下循环展开:

let rec herbloop mfn tfn fl0 cntms funcs fvs n fl tried tuples =
  print_string(string_of_int(length tried)^" ground instances tried; "^
               string_of_int(length fl)^" items in list");
  print_newline();
  match tuples with
    [] -> let newtups = groundtuples cntms funcs n (length fvs) in
          herbloop mfn tfn fl0 cntms funcs fvs (n + 1) fl tried newtups
  | tup::tups ->
          let fl' = mfn fl0 (subst(fpf fvs tup)) fl in
          if not(tfn fl') then tup::tried else
          herbloop mfn tfn fl0 cntms funcs fvs n fl' (tup::tried) tups;;

许多参数在循环的过程中是保持不变的: 修饰函数和测试函数, 以某种转换后的列表形式存在的初始公式 (fl0) {译注: 原则上并不绝对如此}, 常量项ctms和函数funcs, 以及公式的自由变量fvs. 其他的参数还有n, 其代表了接下来要生成的枚举的层级, fl, 到目前为止的ground实例集合 {译注: 实际上是这个集合之合取的某种表示}, tried, 已经尝试了的实例, 以及tuples, 当前层级的剩余ground实例. 当tuples为空时, 我们就直接生成下一层级, 并为n加上一. 在其他情况下, 我们会使用修饰函数以另外的实例更新fl. 如果这个东西是不可满足的, 那么我们就返回已经尝试了的实例集合. 否则的话, 继续就可以了. 在Gilmore过程这一特定情形下, fl0和fl都维护以DNF形式, 而修饰函数应用实例化于起始公式fl0并通过分配律来将两个DNF进行组合:

let gilmore_loop =
  let mfn djs0 ifn djs =
    filter (non trivial) (distrib (image (image ifn) djs0) djs) in
  herbloop mfn (fun djs -> djs <> []);;

我们通常对于证明有效性而非不可满足性更感兴趣. 对此我们首先对于初始公式进行泛化, 否定和Skolem化, 然后设置合适的自由变量集, 函数以及常量(项). 接着我们开启主循环, 然后在终止时报告尝试了多少个ground实例:

let gilmore fm =
  let sfm = skolemize(Not(generalize fm)) in
  let fvs = fv sfm and consts,funcs = herbfuns sfm in
  let cntms = image (fun (c,_) -> Fn(c,[])) consts in
  length(gilmore_loop (simpdnf sfm) cntms funcs fvs 0 [[]] [] []);;

{译注: 对于这些程序的细节, 我们作如下说明. 若sfm没有自由变量或者没有元数大于等于一的函数符号, 那么实际上第 $0$ 层级就将ground实例的所有可能全部枚举完毕了. 即便如此, 如果fm不是有效的, 那么herbloop也不会检测到不可满足性, 所以仍然会继续运行下去, 只是枚举不出来新的ground实例而已. 如果fm是有效的, 那么如前所述, 终止性可以得到保证, 即便是ground实例的可能性有限的情况下. 综上所述, gilmore能够终止当且仅当fm是一个一阶有效公式.}

让我们在一些例子上尝试我们新的一阶证明器. 我们会从很小的公式开始:

# gilmore <<exists x. forall y. P(x) ==> P(y)>>;;
...
1 ground instances tried; 1 items in list
- : int = 2

到目前为止, 一切都好. 这应该是一个简单的问题. 然而, 为了澄清内部的工作情况, 有必要追踪这个例子的整个运行过程. 首先这个公式先否定后Skolem化得到的结果是:

# let sfm = skolemize(Not <<exists x. forall y. P(x) ==> P(y)>>);;
val sfm : fol formula = <<P(x) /\ ~P(f_y(x))>>

读者可以通过运行gilmore内部的其他步骤来确认常量项集合仅由一个发明出来的常量c构成, 并且函数也仅有一个幺元Skolem函数f_y. 第一个被生成的ground实例为

P(c) /\ ~P(f_y(c))

既然这仍然是命题可满足的, 第二个实例也会被生成:

P(f_y(c)) /\ ~P(f_y(f_y(c)))

由于这两个实例的合取是命题不可满足的 (该合取同时包含P(f_y(c))及其否定), 过程终止, 并指明使用了两个ground实例, 且该公式如所声称的那样是有效的. 读者不妨以类似的方式逐步推演后续的更多例子, 这将大有裨益. 在本章中, 我们将大量取材于Pelletier (1986) 给出的一组套题, 以期对不同方法的优劣有所了解. 其中一些例子可由当前程序轻松解决:

# let p24 = gilmore
   <<~(exists x. U(x) /\ Q(x)) /\
     (forall x. P(x) ==> Q(x) \/ R(x)) /\
     ~(exists x. P(x) ==> (exists x. Q(x))) /\
     (forall x. Q(x) /\ R(x) ==> U(x))
     ==> (exists x. P(x) /\ R(x))>>;;
0 ground instances tried; 1 items in list
0 ground instances tried; 1 items in list
val p24 : int = 1

有的则需要更多一点时间, 并且也要尝试数个ground实例, 例如:

# let p45 = gilmore
 <<(forall x. P(x) /\ (forall y. G(y) /\ H(x,y) ==> J(x,y))
              ==> (forall y. G(y) /\ H(x,y) ==> R(y))) /\
   ~(exists y. L(y) /\ R(y)) /\
   (exists x. P(x) /\ (forall y. H(x,y) ==> L(y)) /\
                      (forall y. G(y) /\ H(x,y) ==> J(x,y)))
   ==> (exists x. P(x) /\ ~(exists y. G(y) /\ H(x,y)))>>;;
4 ground instances tried; 2511 items in list
val p45 : int = 5

{译注: 这段交互疑似漏了省略号.}

还有一些问题似乎相当棘手, 运行时间很长, 最终导致机器内存耗尽, 因为所生成的析取分量的数量实在过于庞大.

let p20 = gilmore
 <<(forall x y. exists z. forall w. P(x) /\ Q(y) ==> R(z) /\ U(w))
   ==> (exists x y. P(x) /\ Q(y)) ==> (exists z. R(z))>>;;

总而言之, 尽管Gilmore过程是一阶定理证明的一个有前景的开端, 但仍有很大的改进空间. 由于其主要局限似乎在于DNF中析取分量数目的爆炸性增长, 一个自然的思路是保持同样的枚举过程, 但用一种更高效的命题算法来检查目前所生成的ground实例之合取的命题可满足性.

事实上, 正是为了这个目的, Davis和Putnam (1960) 才开发了他们用于命题可满足性测试的过程 (见2.9节). 在这种背景下, 子句形式有一个特别的优势 {译注: 这里所说的子句形式特指以集合之集合 (或者说列表之列表) 形式存在的合取范式}, 即不存在与析取分量的乘性爆炸相对应的现象. 我们只需把(经否定和Skolem化的)公式化为子句形式, 比如说有 $k$ 个合取分量, 而每生成一个新的ground实例, 就只是往累积的子句堆里再添加 $k$ 个子句. 但与此相对的是, 当然, 这需要运行一个真正的可满足性测试算法, 而在Gilmore过程中, 这只不过是寻找互补文字的事情. 略带些时代错置地, 我们将使用DPLL过程而非DP过程, 因为我们之前的实验表明它通常更优, 而且它在空间表现上确实更好. Davis-Putnam程序的结构与Gilmore程序非常类似. 这一次所存储的公式全都是CNF形式而非DNF形式, 并且每当我们纳入一个新实例时, 就用dpll来检查不可满足性:

let dp_mfn cjs0 ifn cjs = union (image (image ifn) cjs0) cjs;;

let dp_loop = herbloop dp_mfn dpll;;

外层包装没有变化, 只是公式被化为CNF形式而非DNF形式:

let davisputnam fm =
  let sfm = skolemize(Not(generalize fm)) in
  let fvs = fv sfm and consts,funcs = herbfuns sfm in
  let cntms = image (fun (c,_) -> Fn(c,[])) consts in
  length(dp_loop (simpcnf sfm) cntms funcs fvs 0 [] [] []);;

{译注: 译者认为dp_mfn是成问题的, 因为cjs0不存在平凡子句不能保证ground实例化之后的结果不存在平凡子句. 因此, 去除平凡子句仍然是有必要的.}

对于大多数情况, 这段代码的效果要好得多. 例如, 先前颇成问题的p20现在被迅速解决了, 仅使用了 $19$ 个ground实例:

# let p20 = davisputnam
   <<(forall x y. exists z. forall w. P(x) /\ Q(y) ==> R(z) /\ U(w))
     ==> (exists x y. P(x) /\ Q(y)) ==> (exists z. R(z))>>;;
0 ground instances tried; 0 items in list
...
18 ground instances tried; 37 items in list
val p20 : int = 19

尽管Davis-Putnam过程避免了那种灾难性的内存使用爆炸 (这正是Gilmore过程的祸根), 但它仍然常常生成数量极其庞大的ground实例, 并且在每个命题步骤上都变得相当缓慢. 通常, 这些实例中的大多数对最终的反驳并无贡献, 一个小得多的集合就已足够. 总体运行时间 (以及最终的可行性) 取决于在枚举过程中一个足够的集合多快会出现, 而这是相当难以预测的. 假设我们定义一个函数, 它遍历可能需要的实例列表 (dunno), 仅当其余实例是可满足的时, 才把这些实例放到所需实例的列表need上:

let rec dp_refine cjs0 fvs dunno need =
  match dunno with
    [] -> need
  | cl::dknow ->
      let mfn = dp_mfn cjs0 ** subst ** fpf fvs in
      let need' =
       if dpll(itlist mfn (need @ dknow) []) then cl::need else need in
      dp_refine cjs0 fvs dknow need';;

{译注: 我不怎么理解dp_refine这一过程的细节, 只知道它是在成功之后减少在某种意义上并不必要已尝试实例, 这些实例是以用于实例化的元组的形式存在的.}

{再次译注: 我稍微想明白了一些dp_refine所做的事情了, 它可以计算一个极小不可满足子集. 也就是说, 这个集合本身是不可满足的, 但是如果去掉任何一个元素, 那么它就会是可满足的了. 证明思路如下, 首先总体的不可满足性的保持是比较容易理解的, 通过直接的循环不变量即可证明. 其次, 如果去掉其中任何一个元素, 根据这个过程的写法, 我们知道剩余元素构成的集合的某个超集会是可满足的, 而可满足集合的任何子集都是可满足的.}

我们可以在主循环成功之后使用这个精化过程:

let dp_refine_loop cjs0 cntms funcs fvs n cjs tried tuples =
  let tups = dp_loop cjs0 cntms funcs fvs n cjs tried tuples in
  dp_refine cjs0 fvs tups [];;

读者可以验证, 在Davis-Putnam过程中用dp_refine_loop替换dp_loop, 会大幅减少最终实例的数量, 例如在p36的情况下从 $40$ 个减少到仅 $3$ 个, 在p29的情况下从 $181$ 个减少到 $5$ 个. 然而, 虽然像这样削减数量在我们想把这组ground实例用于某些用途时可能是有益的 (正如我们将在5.13节中所做的那样), 但它并不能帮助提高该过程本身的效率, 因为它在每次迭代时仍然需要检查迄今为止的整个实例集合. 正如 Davis (1983) 事后承认的那样:

...有效地消除了truth-functional可满足性这一障碍, 却只是揭示出了更深层次的问题, 即在Herbrand宇宙中进行无结构搜索时所固有的组合爆炸...

定理证明领域的下一个重大进步, 是一种更智能的实例选择方法, 即挑选出较小的相关实例的集合, 而不是盲目地尝试所有的可能性.

第3.8.1小节 Herbrand过程的Scheme/Racket之实现

以下是译者在Scheme/Racket实现的本节的所谓Herbrand过程, 在诸多细节上和原文并不相同.

(define (herbfuns exp)
  (let-values (((c* f*)
                (partition
                 (lambda (p)
                   (= (cadr p) 0))
                 (functions exp))))
    (if (null? c*)
        (values (list (list 'c 0)) f*)
        (values c* f*))))
(define (groundterms ct* f* n)
  (if (= n 0)
      ct*
      (append-map
       (lambda (p)
         (define f (car p))
         (define m (cadr p))
         (map (curry cons f)
              (groundtuples ct* f* (- n 1) m)))
       f*)))
(define (groundtuples ct* f* n m)
  (if (= m 0)
      (if (= n 0) '(()) '())
      (append-map
       (lambda (k)
         (allpairs
          cons
          (groundterms ct* f* k)
          (groundtuples ct* f* (- n k) (- m 1))))
       (range (+ n 1)))))
(define ((herbloop modify test pre post init)
         exp #:refine? [refine? #f])
  (define exp0 (pre exp))
  (define v* (fv exp0))
  (define-values (c* f*)
    (herbfuns exp0))
  (define ct*
    (map (lambda (p) (list (car p))) c*))
  (define template (post exp0))
  ;refine computes a minimal unsatisfiable subset.
  (define (refine tried*)
    (let iter ((need '()) (dunno tried*))
      (if (null? dunno)
          need
          (let ((current (car dunno))
                (dunno (cdr dunno)))
            (if (test (fold-right
                       (lambda (tuple representation)
                         (modify template
                                 (curry subst (fpf v* tuple))
                                 representation))
                       init (append need dunno)))
                (iter (cons current need) dunno)
                (iter need dunno))))))
  (let loop ((current init) (n 0) (tried* '()) (tuple* '()))
    (if (null? tuple*)
        (loop current (+ n 1) tried*
              (groundtuples ct* f* n (length v*)))
        (let* ((tuple (car tuple*))
               (tuple* (cdr tuple*))
               (tried* (cons tuple tried*)))
          (define new
            (modify template
                    (curry subst (fpf v* tuple))
                    current))
          ;This assumes that it takes a list representation.
          (printf "~s ground instances tried; ~s items in list\n"
                  (length tried*) (length new))
          (if (not (test new))
              (if refine? (refine tried*) tried*)
              (loop new n tried* tuple*))))))
(define (SNG exp)
  (skolemize (Not (generalize exp))))
(define (gilmore_modify template instantiate current)
  (remove-trivial
   (distrib (image (curry image instantiate) template)
            current)))
(define gilmore
  (compose length
           (herbloop gilmore_modify (non null?)
                     SNG simpdnf '(()))))
;The original OCaml version does not have remove-trivial here,
;but I think it is necessary!
;Note that subsume has included remove-trivial.
(define (dp_modify template instantiate current)
  (U (subsume
      (map (curry image instantiate) template))
     current))
(define davis-putnam
  (compose length (herbloop dp_modify dpll SNG simpcnf '())))

除了消除了许多冗余的重复, dp_modify和原文也并不相同.

第3.9节合一

gilmore和davisputnam过程基本遵循了相同的模式. 命题逻辑的判定方法 (分别是析取范式方法和Davis-Putnam方法) 被用来和ground实例的系统枚举一起使用. 一个更为精巧的想法最早由Prawitz, Prawitz和Voghera (1960) 采用, 即直接对未实例化的公式执行命题运算, 或者至少只对它们进行恰到好处的智能实例化, 以便在命题推理上取得进展. Prawitz的工作被J. A. Robinson (1965b) 加以扩展, 他给出了一个有效的句法过程, 称为合一 (unification), 用于判定应当采取何种适当的实例化, 从而使项正确地匹配起来. 例如, 假设我们在Davis–Putnam方法中有如下未实例化的子句: $P (x, f (y)) \lor Q (x, y), \neg P (g (u), v) .$

与其盲目枚举, 我们可以选择两个子句中的变量的实例化以使得 $P (x, f (y))$ 和 $\neg P (g (u), v)$ 成为互补的, 例如置 $x = g (u)$ 而 $v = f (y)$ . 在实例化之后, 我们有了以下子句: $P (g (u), f (y)) \lor Q (g (u), y), \neg P (g (u), f (y)) .$ 于是我们能够使用归结规则来推导出一个新的子句: $Q (g (u), y) .$ 相比之下, 在基于枚举的方法中, 我们必须一直等到那些允许执行同一种归结步骤的实例被生成出来为止, 而到那个时候, 我们可能早已被其它 (往往是无关的) 实例所淹没.

定义3.27. 给定一个项的序对之集合

S = {(s_{1}, t_{1}), \dots, (s_{n}, t_{n})}

集合

S

的一个unifier是一个实例化

σ

使得

tsubst σ s_{i} = tsubst σ t_{i}

对于每个

i = 1, \dots, n

成立. 在单独一对项的情况下, 我们往往言称

s

和

t

的unifier, 其指的是

{(s, t)}

的unifier.

对于一个项的序对之集合进行合一可以类比于对于方程组进行求解, 例如普通代数里的 $2 x + y = 3$ 和 $x - y = 6$ , 并且我们会在以下讨论中强调这种对应. 就像方程组可能是无解的, 合一问题也可能是无解的. 首先, 不存在 $f (x)$ 和 $g (y)$ 的unifier, 其中 $f$ 和 $g$ 是不同的函数符号, 因为不论以何项替换 $x$ 和 $y$ , 实例化之后的项在顶层所具有的仍然是不同的函数. 更加微妙的情况是, $x$ 和 $f (x)$ 也没有unifier, 或者更一般地, $x$ 和任意牵涉 $x$ 为真子项的项也没有unifier, 因为不论对于 $x$ 采取何种实例化, 一个项永远都会是另一个项的真子项, 由此不会是相等的. 这和在普通代数里试图求解 $x = x + 1$ 形成了恰到好处的类比. 这种循环性的一个更为复杂的例子是 ${(x, f (y)), (y, g (x))}$ 的合一问题, 其可以类比于求解方程组 $x = y + 1$ 和 $y = x + 2$ .

另一方面, 如果一个合一问题具有一个解, 那么其总是具有无限多个解, 因为若 $σ$ 是 $s_{i}$ 和 $t_{i}$ 的一个unifier, 那么对于任意的实例化 $τ$ , 使用推论3.20: $\begin{array}{cl} tsubst ((tsubst τ) \circ σ) s_{i} \\ = & tsubst τ (tsubst σ s_{i}) \\ = & tsubst τ (tsubst σ t_{i}) \\ = & tsubst ((tsubst τ) \circ σ) t_{i} \end{array}$

例如, 与其通过置 $x = g (u)$ 和 $v = f (y)$ 来对于 $P (x, f (y))$ 和 $P (g (u), v)$ 进行合一, 我们本也可以使用其他变量或者是任意程度复杂的项, 例如 $x = g (f (g (y)))$ , $u = f (g (y))$ 和 $v = f (y)$ . 不过, 实际上我们总是可以找到一个最为一般的unifier, 其保持实例化项尽可能简单.

我们称一个实例化 $σ$ 比另一个实例化 $τ$ 更为一般, 记作 $σ \leq τ$ , 如果存在某个实例化 $δ$ 使得 $tsubst τ = (tsubst δ) \circ (tsubst σ) .$

我们称 $σ$ 是 $S$ 的一个最为一般的unifier (MGU), 如果 (i) 它是 $S$ 的一个unifier且 (ii) 对于 $S$ 的每个unifier $τ$ , 我们都有 $σ \leq τ$ . 最一般unifier未必是唯一的. 例如, 集合 ${(x, y)}$ 有两个不同的MGU, 一个maps $x |\Rightarrow y$ , 另一个maps $y |\Rightarrow x$ . {译注: 这里的maps是动词, 例如maps $x |\Rightarrow y$ 应该理解为描述了将变量 $x$ 映射为 $y$ 而将其他变量都映射为自身的实例化.} 然而, 我们可以轻松地证明一个给定集合 $S$ 的两个MGU, 其不同之处相当于一个对于变量的置换. (假定我们限制了unifier只能是影响有限数目变量的实例化.) {译注: 即我们仅考虑这样的实例化 $σ$ , 集合 ${x | σ (x) \neq x}$ 是有限的.}

第3.9.1小节一个合一算法

现在让我们考虑解决合一问题或者判定其无解的通用方法. 我们的主函数unify是递归的, 其有两个参数: env, 其是一个从变量到项的有限部分函数, 以及eqs, 其是一个要进行合一的项-项序对列表. 合一函数本质上是在应用一些变换于eqs, 并将得到的变量-项映射融入env. 这个env并非最终的合一映射本身, 因为其会将变量映射到包含自身被指派的变量的项, 例如 $x \mapsto y$ 和 $y \mapsto z$ 而非直接 $x \mapsto z$ . 但是, 我们会要求env没有环路(cycle). 我们记 $x ⟶ y$ 以指明env中存在指派 $x \mapsto t$ 满足 $y \in FVT (t)$ . 使用环路一词, 我们指的是一个导回起点的非空有限序列: $x_{0} ⟶ x_{1} ⟶ \dots ⟶ x_{p} ⟶ x_{0} .$ {译注: 换言之, $env$ 存在环路当且仅当存在变量 $x$ 满足 $x ⟶^{+} x$ .}

我们的主合一算法只会融入使得env能够保持无环路性质的新条目 $x \mapsto t$ . 实际上, 确保以下条件就足够了:

env中不存在既有指派 $x \mapsto s$ ;
不存在变量 $y \in FVT (t)$ 满足 $y ⟶^{⁎} x$ , 此即一个由零或多个 $⟶$ 步骤构成的从 $y$ 到 $x$ 的序列; 特别地, $x \notin FVT (t)$ .

为了看出若env是无环路的且这些性质成立, 那么 $(x \mapsto t) env$ 也是无环路的, 注意到如果对于新的关系 $⟶^{'}$ 而言真的存在一个环路: $z ⟶^{'} x_{1} ⟶^{'} \dots ⟶^{'} x_{p} ⟶^{'} z$ 那么必然存在具有以下形式之一的环路: $z ⟶ x_{1} ⟶ x ⟶^{'} y ⟶ \dots ⟶ x_{p} ⟶ z$ 其中 $y \in FVT (t)$ . 这是因为必然要留下给新的指派 $x \mapsto t$ 发挥的余地, 鉴于 $env$ 本来是无环路的, 而且如果存在多于一个 $x$ 的实例, 我们总是能将第一个实例和最后一个实例之间的中间步骤全部砍掉. {译注: 更准确地说, 其实不是 $x$ 的实例, 而是 $x ⟶^{'} y$ 的实例, 其中 $y$ 可以是 $FVT (t)$ 的任意元素. 即便 $x$ 在这环路里出现了多于一次, 但是形如 $x ⟶^{'} y$ 的步骤也可能只出现了一次, 原因在于 $x$ 可以恰好出现在开头和结尾.} 然而, 具有上述形式的环路也会给出以下环路, 这与假设(2)相矛盾: $y ⟶ \dots ⟶ x_{p} ⟶ z ⟶ x_{1} ⟶ x .$ {译注: 这就像将项链从不同位置剪开一样.} {译注: 我更喜欢这样表述: 对于无环路的 $env$ 而言, 如果 $env$ 中不存在对于 $x$ 的指派, 那么 $(x \mapsto t) env$ 具有环路当且仅当存在 $y \in FVT (t)$ 使得 $y ⟶^{⁎} x$ .}

以下函数会在上述条件(2)对于新的指派 $x \mapsto t$ 成立时返回假. 如果条件(2)不成立, 那么它会失败, 除了在 $t = x$ 的情形下其会返回真, 这指明该指派是平凡的.

let rec istriv env x t =
  match t with
    Var y -> y = x or defined env y & istriv env x (apply env y)
  | Fn(f,args) -> exists (istriv env x) args & failwith "cyclic";;

{译注: 这段程序虽然只有四行, 但却异常微妙和难以理解. 因此, 我们需要证明其正确性. 首先, 我们需要明确前条件: $env$ 没有环路, $env$ 中没有对于 $x$ 的指派. 然后, 我们需要明确要证明的结论:

istriv env x t能够在有限时间内停止, 不论是返回一个值还是抛出异常, 并且istriv env x t返回false当且仅当对于每个 $y \in FVT (t)$ , 都有 $\neg (y ⟶^{⁎} x)$ ; istriv env x t返回true当且仅当 $walk (env, t) = x$ ; istriv env x t抛出异常当且仅当存在 $y \in FVT (t)$ 满足 $y ⟶^{⁎} x$ , 另外 $walk (env, t) \neq x$ . 其中, $walk$ 是我们的辅助函数, 其定义如下: $walk (env, t) = {\begin{matrix} walk (env, apply (env, y)) & , 如果 t = y 且 y 在 env 中存在指派 \\ y & , 如果 t = y 且 y 在 env 中没有指派 \\ f (t_{1}, \dots, t_{n}) & , 如果 t = f (t_{1}, \dots, t_{n}) \end{matrix}$

我们注意到

walk (env, t) = x

蕴涵了存在

y \in FVT (t)

满足

y ⟶^{⁎} x

. 因此, 这三种条件显然是互斥的, 并且它们的析取等价于

⊤

. 现在我们开始证明, 使用良基归纳. 如果

t = y

, 那么

$y = x$ , 此时返回true, 并且我们知道其满足条件 $walk (env, t) = x$ ;
$y \neq x$ , 且 $y$ 在 $env$ 中没有指派, 此时返回false, 并且我们知道不存在 $y \in FVT (t)$ 使得 $y ⟶^{⁎} x$ ;
y≠x, 且y在env中存在指派, 此时有三种可能性:
1. 返回true, 说明 $walk (env, apply (env, y)) = x$ , 于是 $walk (env, t) = x$ ;
2. 返回false, 说明对于每个 $z \in FVT (apply (env, y))$ , 都有 $\neg (z ⟶^{⁎} x)$ , 若 $y ⟶^{⁎} x$ , 此时肯定不可能是 $0$ 阶情形, 于是起始的步骤会是 $y ⟶ z$ , 由此推出 $z ⟶^{⁎} x$ , 然而这与 $\neg (z ⟶^{⁎} x)$ 矛盾了, 于是 $\neg (y ⟶^{⁎} x)$ ;
3. 抛出异常, 说明存在 $z \in FVT (apply (env, y))$ 满足 $z ⟶^{⁎} x$ , 而且 $walk (env, apply (env, y)) \neq x,$ 于是 $y ⟶ z$ , 由此可知 $y ⟶^{⁎} x$ 而 $walk (env, t) \neq x$ .

如果

t = f (t_{1}, \dots, t_{n})

, 那么

返回false, 说明对于每个 $t_{i}$ 都有对于每个 $y \in FVT (t_{i})$ 都有 $\neg (y ⟶^{⁎} x)$ , 故对于每个 $y \in FVT (f (t_{1}, \dots, t_{n}))$ 都有 $\neg (y ⟶^{⁎} x)$ ;
抛出异常, 此时有两种可能性. 但是, 不论对于哪种可能性, 都存在 $y \in FVT (f (t_{1}, \dots, t_{n}))$ 使得 $y ⟶^{⁎} x$ , 另外因为 $t$ 不是变量, 所以也显然有 $walk (env, t) \neq x$ .

证明完毕.}

这有效地计算了 $⟶$ 的自反传递闭包, 尽管其本也可以用远为高效的方式完成. 然而, 这个简单的递归算法通常足够快速了, 并且一定会终止, 恰因既有环境 $env$ 是无环的.

现在我们来到合一的主函数. 它只是对于序对列表eqs进行变换, 将头部转换为 $(x, t)$ 的形式. 如果在 $env$ 中已有定义 $x \mapsto s$ , 那么序对会被扩展为 $(s, t)$ , 继续递归处理. 否则的话, 我们知道条件(1)成立, 于是 $x \mapsto t$ 可以成为融入 $env$ 的候选. 如果存在良性的环路, 那么istriv env x t为真而 $env$ 保持不变. 任何其他种类的环路都会导致失败, 失败会传播出去. 否则的话, 条件(2)成立, $x \mapsto t$ 融入 $env$ 之中以供下一次递归调用.

let rec unify env eqs =
  match eqs with
    [] -> env
  | (Fn(f,fargs),Fn(g,gargs))::oth ->
        if f = g & length fargs = length gargs
        then unify env (zip fargs gargs @ oth)
        else failwith "impossible unification"
  | (Var x,t)::oth | (t,Var x)::oth ->
        if defined env x then unify env ((apply env x,t)::oth)
        else unify (if istriv env x t then env else (x|->t) env) oth;;

{译注: 这个版本和原书稍有不同, 来源于官方代码库.}

让我们将 $env$ 中的指派 $x_{i} \mapsto t_{i}$ 和eqs中的序对 $(s_{j}, s_{j}^{'})$ 合起来视为一个序对的集合 $S = {\dots, (x_{i}, t_{i}), \dots, (s_{j}, s_{j}^{'}), \dots} .$ unify是尾递归的, 而关键的观察在于相继的递归调用过程之中, 参数 $env$ 和eqs满足两个性质:

有限部分函数 $env$ 是无环的;
将 $env$ 和eqs结合起来的集合 $S$ 和原本的问题恰好有着相同的unifier集合.

第一个声称之所以成立的原因如下: 新的指派 $x \mapsto t$ 只在环境中不存在既有指派 $x \mapsto s$ 的情况下才会考虑加入到环境之中, 这确保了条件(1)满足, 并且在istriv env x t返回false时才会真的加入到环境之中, 这确保了条件(2)满足. {译注: 原文将istriv env x t误作为了defined env x.} 为了验证另一声称, 我们考虑可能会导致递归调用的分支情形. 第二个分支情形只会在eqs的头部具有形式 $(f (s_{1}, \dots, s_{n}), f (t_{1}, \dots, t_{n}))$ 时才会触发递归调用, 而声称之所以成立, 是因为 ${(f (s_{1}, \dots, s_{n}), f (t_{1}, \dots, t_{n}))} \cup E$ 和 ${(s_{1}, t_{1}), \dots, (s_{n}, t_{n})} \cup E$ 恰好有着相同的unifier (复数). 原因在于任意的实例化能够对于 $f (s_{1}, \dots, s_{n})$ 和 $f (t_{1}, \dots, t_{n})$ 进行合一当且仅当其能够对于每个对应的序对 $s_{i}$ 和 $t_{i}$ 进行合一. 当头部的序对为 $(x, t)$ 并且已然存在一个指派 $x \mapsto s$ 时, 我们递归调用的方式在于将 $(x, t)$ 换成 $(s, t)$ . 这仍然保持我们声称的性质, 因为 ${(x, t), (x, s)} \cup E$ 和 ${(s, t), (x, s)} \cup E$ 恰好有着相同的unifier (复数). 最后一个分支情形只是反转了头部序对的顺序, 而这个顺序对于unifier而言是无关紧要的. {译注: 原本的代码有第四个分支情形, 但是现在被整合到第三个分支情形里去了.} 因此, 声称得到了验证.

任何失败都会指出其中一个中间问题是不可解的, 要么是其牵涉了不兼容的顶层函数, 例如序对 $(f (s), g (t))$ , 要么是其牵涉了循环, 其中unifier要对于 $(x, t)$ 进行合一而 $x \in FVT (t)$ 且 $x \neq t$ .

第3.9.2小节使用合一

第3.10节 tableau

第3.11节归结

第3.12节 subsumption和replacement

第3.13节对于归结的改进

第3.14节 Horn子句和Prolog

第3.15节模型消去

第3.16节更多的一阶元定理

第3.17节深入阅读

这里的基本理论结果可在大多数入门逻辑教材中找到, 例如Enderton (1972), Mendelson (1987), Boolos和Jeffrey (1989), Goodstein (1971), Kreisel和Krivine (1971) 以及Andrews (1986), 而在模型论的高级教材中则有更深入的发展, 如Bell和Slomson (1969), Chang和Keisler (1992), Hodges (1993b), Marcja和Toffalori (2003) 以及Poizat (2000). Davis, Sigal和Weyuker (1994) 以更侧重机械化的视角涵盖了这些内容. 提供数理逻辑发展之更多历史与哲学背景的书籍包括Bochénski (1961), Dumitriu (1977) 以及Kneale和Kneale (1962), 而Kneebone (1963) 则将哲学与技术性结果融为一体. Van Heijenoort (1967) 是该领域经典论文的选集, 其中包括Löwenheim, Skolem, Gödel和Herbrand的奠基性工作, 这些工作构成了本章大多数方法的基础. 关于Skolem化和归约为子句范式的详细研究, 着重探讨与自动证明相关的效率问题, 可参见Nonnengart和Weidenbach (2001).

一阶逻辑有若干推广形式, 我们不作深入探讨. 最为彻底的推广是高阶逻辑 (HOL), 其中允许对函数和谓词进行量化; 在上述教材中, Andrews (1986) 是唯一对高阶逻辑有详尽论述的, 但Boolos和Jeffrey (1989) 以及Enderton (1972) 也有所提及. 一种较为适度的推广允许量词具有分支辖域 (branching scope), 这可视为高阶逻辑的一种受限形式. Hintikka (1996) 认为, 在某种意义上这种独立友好逻辑 (independence friendly logic) 比普通一阶逻辑更为基本, 但IF逻辑或HOL的有效性问题甚至不再是半可判定的 (semidecidable).

第3.18节练习

第4章相等性

到目前为止, 相等性只是被处理为一个普通的二元谓词, 其可以被任意地解释. 然而, 相等性的地位是如此中心性的, 以至于我们往往只想要考虑使得相等意味着相等的解释. 之前的逻辑理论和编程的证明过程可以通过轻松的修改以支持新的情况, 但是也存在着更为有效和特化的方式用于处理相等性.

第4.1节相等性公理

在逻辑的诸多应用之中, 特别是对于数学推理的应用, 相等性扮演着一个中心的角色. 我们对此已有所意识, 所以支持了常规的中缀记号 $s = t$ 而不是使用 $= (s, t)$ . 而且, 我们还可以定义各种趁手的句法操作用于测试一个公式是否是一个等式, 以及创建和分解等式, 例如

let is_eq = function (Atom(R("=",_))) -> true | _ -> false;;

let mk_eq s t = Atom(R("=",[s;t]));;

let dest_eq fm =
  match fm with
    Atom(R("=",[s;t])) -> s,t
  | _ -> failwith "dest_eq: not an equation";;

let lhs eq = fst(dest_eq eq) and rhs eq = snd(dest_eq eq);;

但是, 从逻辑上讲, 相等性至此仅被当作了一个任意的二元谓词进行处理; 我们在对于逻辑有效性问题进行判定时所考虑的解释, 也包括那些对于 $=$ 的解释与真正的相等关系大相径庭的情况. 鉴于相等性所具有的中心地位, 研究将模型的类限制于相等意味着相等的情形是非常自然的, 因为这正是我们在考虑诸如抽象代数之类的领域时心中通常会想到的东西. 我们称一个解释 (或者特定句子集合的模型) 是规范的(normal), 如果相等性谓词 $=$ 被解释为其论域上的相等.

任何规范解释都必须满足断言相等是一个等价关系的公式, 即其是自反, 对称, 传递的: $\begin{array}{l} \forall x . x = x \\ \forall x, y . x = y \Leftrightarrow y = x \\ \forall x, y, z . x = y \land y = z \Rightarrow x = z \end{array}$ 并且其还需要满足断言congruence的公式, 对于所考虑的语言的每个 $n$ 元函数(符号) $f$ 而言: $\forall x_{1}, \dots, x_{n}, y_{1}, \dots, y_{n} . x_{1} = y_{1} \land \dots \land x_{n} = y_{n} \Rightarrow f (x_{1}, \dots, x_{n}) = f (y_{1}, \dots, y_{n})$ 对于每个 $n$ 元谓词(符号) $R$ 也是类似的: $\forall x_{1}, \dots, x_{n}, y_{1}, \dots, y_{n} . x_{1} = y_{1} \land \dots \land x_{n} = y_{n} \Rightarrow R (x_{1}, \dots, x_{n}) \Rightarrow R (y_{1}, \dots, y_{n})$

对于一个给定的一阶公式集合 $Δ$ , 我们记 $eqaxioms (Δ)$ ( $Δ$ 的相等性公理) 以表示等价关系公式连带着之于出现在 $Δ$ 里的所有函数符号 $f$ 和谓词符号 $R$ 的congruence公式.

我们观察到任意的规范解释都满足 $eqaxioms (Δ)$ , 但是满足 $eqaxioms (Δ)$ 的解释未必是规范的. 例如, 考虑仅具有两个二元函数符号 $+$ 和 $\cdot$ 以及两个常量 $0$ 和 $1$ 的语言. 如果我们将所有这些符号以 $ℤ$ 中的通常方式进行解释, 但是却把相等性解释为关系 $x \equiv y (\mod 2)$ , 那么相等性公理仍然都得到满足, 即便这种解释不是规范的. 实际上, 并不存在公式集合能够限制其模型为规范的. 这是因为, 对于任意的规范模型, 我们总能创造一个非规范模型, 通过挑选论域里的某个 $a$ , 然后给论域添加任意多个额外元素 $b_{i} \in B$ , 并将所有的 $b_{i}$ 以和 $a$ 相同的方式进行解释. 尽管如此, 我们仍然有以下的关键结果.

定理4.1. 任意的一阶公式集合

Δ

拥有一个规范模型当且仅当集合

Δ \cup eqaxioms (Δ)

拥有一个模型.

证明. 其中一个方向是简单的: 如果

M

是

Δ

的一个规范模型, 那么显然

eqaxioms (Δ)

在其中成立; 因此, 对于

Δ

的任意规范模型,

Δ \cup eqaxioms (Δ)

也在其中成立.
反过来, 设

Δ \cup eqaxioms (Δ)

拥有一个模型

M

. 在

M

的论域

D

上通过置

a \sim b

恰当

=_{M} (a, b)

来定义一个关系

\sim

, 即这个关系是基于解释

=_{M}

的相等. 因为等价公理在

M

下成立, 所以这是一个等价关系. 于是, 我们可以将

D

划分为等价类, 其中每个

a \in D

属于等价类:

[a] = {b \in D | b \sim a}

并且

[a] = [b]

当且仅当

a \sim b

. 我们将会使用等价类的集合

D^{'} = {[a] | a \in D}

作为新模型

M^{'}

的论域, 并且按照如下方式解释每个

n

元函数符号

f

f_{M^{'}} ([a_{1}], \dots, [a_{n}]) = [f_{M} (a_{1}, \dots, a_{n})] .

注意到这个是良定义的, 即独立于每个等价类的特定代表元, 因为如果对于

i = 1, \dots, n

有

a_{i}^{'} \sim a_{i}

, 我们也有

f_{M} (a_{1}^{'}, \dots, a_{n}^{'}) \sim f_{M} (a_{1}, \dots, a_{n})

, 这恰是由于函数congruence公理在

M

下成立. 类似地, 我们以

R_{M^{'}} ([a_{1}], \dots, [a_{n}]) = R_{M} (a_{1}, \dots, a_{n})

来解释每个

n

元谓词符号

R

. 当然, 这也是独立于等价类代表元的特定选择的, 因为谓词congruence公理在

M

下成立.
特别地, 我们有

=_{M^{'}} ([a], [b])

恰当

a \sim b

, 于是恰当

[a] = [b]

. 因此,

M^{'}

是一个规范解释. 为了看出来为什么它满足

Δ

中的所有公式, 我们本质上需要表明我们可以将等价类构成运算提升至公式的语义层面. 首先, 注意到:

termval M^{'} δ^{'} t = [termval M δ t]

其中对于每个变量

x

有

δ^{'} (x) = [δ (x)]

. 为了证明这一点, 只需要施行

t

上的结构归纳. 如果

t

是变量

x

, 那么我们有

\begin{array}{cl} termval M^{'} δ^{'} x \\ = & δ^{'} (x) \\ = & [δ (x)] \\ = & [termval M δ x] \end{array}

而若

t = f (s_{1}, \dots, s_{n})

, 那么使用归纳假设和

f_{M^{'}}

的定义, 我们得到:

\begin{array}{cl} termval M^{'} δ^{'} f (s_{1}, \dots, s_{n}) \\ = & f_{M^{'}} (termval M^{'} δ^{'} s_{1}, \dots, termval M^{'} δ^{'} s_{n}) \\ = & f_{M^{'}} ([termval M δ s_{1}], \dots, [termval M δ s_{n}]) \\ = & [f_{M} (termval M δ s_{1}, \dots, termval M δ s_{n})] \\ = & [termval M δ f (s_{1}, \dots, s_{n})] \end{array}

现在我们声称对于任意的公式

p

, 我们都有

holds M^{'} δ^{'} p = holds M δ p

. 又一次, 证明是通过结构归纳进行的. 若

p

为

⊥

或

⊤

, 证明是平凡的. 而若

p

是一个原子公式, 这个结果根据

R_{M^{'}}

的定义而成立. 命题运算显然保持这个性质, 剩下量化了的公式作为有趣的情形. 注意到:

\begin{array}{cl} holds M^{'} δ^{'} (\forall x . p) \\ = & 对于所有的 A \in D^{'}, holds M^{'} ((x \mapsto A) δ^{'}) p \\ = & 对于所有的 a \in D, holds M^{'} ((x \mapsto [a]) δ^{'}) p \\ = & 对于所有的 a \in D, holds M^{'} {((x \mapsto a) δ)}^{'} p \\ = & 对于所有的 a \in D, holds M ((x \mapsto a) δ) p \\ = & holds M δ (\forall x . p) \end{array}

{译注: 本书之所以不在这里直接使用数学符号

\forall

而是使用文字对于所有的 (for all), 可能是因为想要避免因为

\forall

在这里具有多重用途 (一个句法, 一个语义) 而引起混淆. 不过, 似乎直接使用符号是更多逻辑学书籍的选择.} 论证对于存在量词也是类似的. 因此, 既然每个

p \in Δ

在

M

下对于所有的赋值

δ

成立, 那么它也在

M^{'}

下对于所有的赋值

ϵ

成立, 因为

ϵ

必然对于某个

M

中的赋值

δ

具有形式

δ^{'}

(只需令

δ (x)

为

ϵ (x)

的任何一个成员).

◻

{译注: 这个论证其实有一个问题, 就是 $eqaxioms (Δ)$ 实际上只会限制对于出现在 $Δ$ 里的函数符号和谓词符号以及相等符号 $=$ 的解释. 因此, 论证里的商构造只能对于这些符号进行. 当然了, 因为 $Δ$ 里压根没有出现这些符号, 所以随便什么解释都是成立的. 但是, 我们必须要注意, 原文的结构归纳所论证的东西并不是对于任意的项和任意的公式成立的, 项只能包含 $Δ$ 既有的函数符号, 公式只能包含 $Δ$ 既有的谓词符号以及相等符号. 另外, 我觉得原文其实有一个细节稍微值得向读者说明一下, 就是 $eqaxioms (Δ)$ 在其中存在二元谓词 $=$ 时要不要包括对于 $=$ 的congruence公式. 实际上, 不论选择包括还是不包括都可以, 因为表达等价性的公式蕴涵 $=$ 的congruence公式.}

在我们的实际应用里, 我们只会关心单个公式. 定义 $eqaxiom (p)$ 为相等性公理 $eqaxioms ({p})$ 里的所有公式的合取 (这些公式的数目必然是有限的), 那么:

推论4.2. 任意的公式

p

可被一个规范模型所满足当且仅当

p \land eqaxiom (p)

是可满足的.

证明. 根据合取的语义的定义, 一个解释满足

p \land eqaxiom (p)

当且仅当其满足

p

和

eqaxioms ({p})

◻

{译注: 一个解释满足集合 ${p_{1}, \dots, p_{n}}$ 当且仅当其满足 $p_{1} \land \dots \land p_{n}$ .}

我们有以下对于有效性的对偶结果.

推论4.3. 一个公式

p

在所有的规范模型中成立当且仅当

eqaxiom (p) \Rightarrow p

在所有模型中成立.

证明. 因为

p

在某个模型下成立当且仅当其全称闭包在该模型下成立, 我们可以不失一般性地假定

p

为封闭公式. 因此,

p

在所有规范模型下成立当且仅当

\neg p

没有规范模型, 于是当且仅当

\neg p \land eqaxiom (\neg p)

没有模型. {译注: 原文将某个iff错写成了if.} 但是, 既然

eqaxiom (\neg p) = eqaxiom (p)

, 那么

\neg p \land eqaxiom (\neg p)

逻辑等价于

\neg (p \lor \neg eqaxiom (p))

, 而这又逻辑等价于

\neg (eqaxiom (p) \Rightarrow p)

. 这个公式 (句子) 是不可满足的当且仅当

eqaxiom (p) \Rightarrow p

是有效的.

◻

{译注: 个人对于这里的不失一般性不太满意, 所以想要补全这里的细节. 设 $closure (p)$ 是 $p$ 的全称闭包. 我们已经知道, $p$ 在所有的规范模型中成立当且仅当 $closure (p)$ 在所有的规范模型中成立, 当且仅当 $eqaxiom (closure (p)) \Rightarrow closure (p)$ 在所有模型中成立. 于是, 如果我们能够说明 $eqaxiom (closure (p)) \Rightarrow closure (p)$ 在所有模型中成立当且仅当 $eqaxiom (p) \Rightarrow p$ 在所有模型中成立, 就结束了. 当然了, 我们还应该注意到 $eqaxiom (closure (p)) = eqaxiom (p)$ . 不过, 我们可以证明稍强一些的结论, 即对于所有可能的解释 $M$ , $M$ 满足 $eqaxiom (closure (p)) \Rightarrow closure (p)$ 当且仅当 $M$ 满足 $eqaxiom (p) \Rightarrow p$ . 我们知道这两个推出式的前件实际上是相同的, 并且它们都是封闭公式, 即句子. 若 $eqaxiom (p)$ 不被 $M$ 满足, 那么对于任意的赋值 $v$ , $holds M v eqaxiom (p)$ 都为假, 于是 $M$ 同时满足这两个推出式. 如果 $eqaxiom (p)$ 被 $M$ 满足, 那么对于任意的赋值 $v$ 都有 $holds M v (eqaxiom (closure (p)) \Rightarrow closure (p)) = holds M v closure (p)$ 并且 $holds M v (eqaxiom (p) \Rightarrow p) = holds M v p$ 也就是说, 这两个推出式是否同时被 $M$ 所满足或不满足的问题可以归约为 $closure (p)$ 和 $p$ 是否被 $M$ 满足的问题. 然而, 我们知道既然 $closure (p)$ 是 $p$ 的全称闭包, 那么其相对于每个特定模型的可满足性必然是相同的. 综上所述, 这两个推出式相对于每个模型的可满足性都相同, 我们也就补全了gap.}

在以上的抽象处理之中, 相等性公理包括了对于相等符号本身的谓词congruence性质: $\forall x_{1}, x_{2}, y_{1}, y_{2} . x_{1} = y_{1} \land x_{2} = y_{2} \Rightarrow x_{1} = x_{2} \Rightarrow y_{1} = y_{2} .$ {译注: 严格说来, 这需要公式集里有 $=$ 的出现.}

不过我们可以接受省略这一条公式, 因为其是等价性公理的逻辑推论. {译注: 或者说等价性公理语义蕴涵这一条公式.} 甚至我们可以更加经济一些, 只使用两条公理刻画等价性, 分别是自反性公式和传递性公式的一个变种, 即 $\forall x, y, z . x = y \land x = z \Rightarrow y = z$ . (对称性可以通过实例化该公理以使得 $x$ 和 $z$ 相同, 然后再使用自反性得到.)

第4.1.1小节 OCaml实现

在Skolem化里, 我们使用了functions来寻找一个项中的所有函数符号; 类似地, 以下函数找出所有出现的谓词(符号), 仍然以名称和元数的序对形式:

let rec predicates fm = atom_union (fun (R(p,a)) -> [p,length a]) fm;;

我们通过产生合适数目的参数 $x_{1}, \dots, x_{n}$ 和 $y_{1}, \dots, y_{n}$ 并构造公式 $\forall x_{1}, \dots, x_{n}, y_{1}, \dots, y_{n} . x_{1} = y_{1} \land \dots \land x_{n} = y_{n} \Rightarrow f (x_{1}, \dots, x_{n}) = f (y_{1}, \dots, y_{n})$ 来对于每个函数符号制造一个congruence公理. {译注: 原文的公式存在一个笔误, 漏了一个合取符号.}

我们会返回一个列表, 其通常具有一个元素, 但在零元函数 (即单独的常量) 的情形下会为空:

let function_congruence (f,n) =
  if n = 0 then [] else
  let argnames_x = map (fun n -> "x"^(string_of_int n)) (1 -- n)
  and argnames_y = map (fun n -> "y"^(string_of_int n)) (1 -- n) in
  let args_x = map (fun x -> Var x) argnames_x
  and args_y = map (fun x -> Var x) argnames_y in
  let ant = end_itlist mk_and (map2 mk_eq args_x args_y)
  and con = mk_eq (Fn(f,args_x)) (Fn(f,args_y)) in
  [itlist mk_forall (argnames_x @ argnames_y) (Imp(ant,con))];;

例如:

# function_congruence ("f",3);;
- : fol formula list =
[<<forall x1 x2 x3 y1 y2 y3.
     x1 = y1 /\ x2 = y2 /\ x3 = y3 ==> f(x1,x2,x3) = f(y1,y2,y3)>>]
# function_congruence ("+",2);;
- : fol formula list =
[<<forall x1 x2 y1 y2. x1 = y1 /\ x2 = y2 ==> x1 + x2 = y1 + y2>>]

针对谓词而言的类似函数几乎是相同的, 只不过在后件里我们用的是公式的推出而非项的相等:

let predicate_congruence (p,n) =
  if n = 0 then [] else
  let argnames_x = map (fun n -> "x"^(string_of_int n)) (1 -- n)
  and argnames_y = map (fun n -> "y"^(string_of_int n)) (1 -- n) in
  let args_x = map (fun x -> Var x) argnames_x
  and args_y = map (fun x -> Var x) argnames_y in
  let ant = end_itlist mk_and (map2 mk_eq args_x args_y)
  and con = Imp(Atom(R(p,args_x)),Atom(R(p,args_y))) in
  [itlist mk_forall (argnames_x @ argnames_y) (Imp(ant,con))];;

正如之前所计划的, 我们使用以下等价性质变体:

let equivalence_axioms =
  [<<forall x. x = x>>; <<forall x y z. x = y /\ x = z ==> y = z>>];;

现在我们定义一个函数, 其对于输入公式 $p$ 返回 $eqaxiom (p) \Rightarrow p$ . 如果 $p$ 压根不牵涉相等符号, 那么就保留 $p$ 本来的样子, 因为其规范和非规范模型之间没有区别. {译注: 规范模型本质上只是对于相等符号的解释的约束. 不含有相等符号的 $p$ 若在所有的规范解释下成立, 那么对于任意的解释, 我们可以修改其对于相等符号的解释, 然后就知道 $p$ 在这个修改版本下成立. 可是, 因为 $p$ 不含有相等符号, 所以成立与否和相等符号的解释无关, 由此也就知道了 $p$ 在所有解释下都成立.}

let equalitize fm =
  let allpreds = predicates fm in
  if not (mem ("=",2) allpreds) then fm else
  let preds = subtract allpreds ["=",2] and funcs = functions fm in
  let axioms = itlist (union ** function_congruence) funcs
                      (itlist (union ** predicate_congruence) preds
                              equivalence_axioms) in
  Imp(end_itlist mk_and axioms,fm);;

推论4.3的影响在于我们可以通过在常规一阶逻辑里测试 $equalitize (p)$ 的有效性来测试 $p$ 在具有相等概念的一阶逻辑里的有效性. 因此, 我们可以将 $equalitize$ 应用为既存证明过程的预处理步骤.

第4.2节范畴性和初等等价

第4.3节等式逻辑和完备性

第4.4节 congruence闭包

第4.5节重写

第4.6节终止排序

第4.7节 Knuth-Bendix补全

第4.8节等式消去

第4.9节 paramodulation

第4.10节深入阅读

专注于等式逻辑的模型论分支也被称为泛代数 (universal algebra), 相关教材有Cohn (1965) 以及Burris和Sankappanavar (1981) 等. 上一章所引用的几乎所有模型论书籍中也都涉及这里所描述的理论内容. Corcoran (1980) 对范畴性 (categoricity) 概念提供了更多信息, 包括历史背景等方面. 关于 $κ$ -范畴性还有两个难度更高的定理: 其一是Morley定理, 断言一个在某个不可数基数上范畴的理论在所有不可数基数上均范畴; 其二是Ryll-Nardzewski定理, 给出了 $ℵ_{0}$ -范畴理论一个简洁的代数刻画. 这两个定理均可在Hodges (1993b) 中找到.

关于基于重写技术的纯等式推理, 请参阅Baader和Nipkow (1998) 的专著, 以及Huet和Oppen (1980), Klop (1992) 和Plaisted (1993) 的综述文章. Dershowitz关于化简序 (simplification order) 是停机的这一结论, 通常由Kruskal定理的(一个简单情形)推导得出 (Kruskal 1960; Nash-Williams 1963); Baader和Nipkow (1998) 中有易于理解的阐述. 在实现LPO时我们未考虑效率问题, 但Löchner (2006) 对此作了细致的分析.

判定带等式逻辑中全称公式有效性的方法在验证领域有重要应用 (Burch和Dill 1994). 这推动了对合同闭包 (congruence closure) 之外的各种替代算法的探索. 关于基于Ackermann规约方法的进一步改进, 可参见Goel, Sajid, Zhou, Aziz和Singhal (1998), Velev和Bryant (1999) 以及Lahiri, Bryant, Goel和Talupur (2004).

已提到的一些自动定理证明教材中讨论了超模归结 (paramodulation), 包括Chang和Lee (1973) 以及Loveland (1978). 此外, Argonne小组的Wos, Overbeek, Lusk和Boyle (1992) 等著作涵盖了利用超模归结求解非平凡问题的方法. Bachmair和Ganzinger (1994) 是一篇关于超模归结及相关思想的综述, Degtyarev和Voronkov (2001) 则综述了如tableau等自顶向下自由变量演算中的等式推理.

TPTP问题库 (Sutcliffe和Suttner 1998) 包含大量等式问题, 并提供工具以便不直接处理等式的证明器添加等式公理. 自动推理在等式逻辑这一大领域中有若干最令人印象深刻的应用. 最著名的例子是Robbins猜想——该猜想曾令包括Tarski在内的众多杰出数学家的证明尝试均告失败——最终由McCune (1997)使用EQP证明器自动求解. 这只是自动推理程序回答开放性问题的一个特别广为人知的案例. 更多案例可见于McCune和Padmanabhan (1996) 以及Wos和Pieper (2003) 的专著, 以及互联网上的相关资源.

第4.11节练习

第5章可判定问题

我们已经考虑了各种用于验证一阶公式的逻辑有效性的算法 (例如tableau, 归结, 等等), 如果该公式的确是有效的. 但是, 这些算法不能在一般情况下告诉我们何时一阶公式不是有效的. 我们将会在第7章看到, 并不存在这样的系统性过程. 然而, 存在过程对于特定种类的公式行之有效, 或者对于特定种类的模型下的有效性行之有效, 而我们会在本章讨论其中一些比较重要的情形. 往往这些问题自然地推广了数学和泛代数中的常见判定问题, 例如方程求解或word问题.

第5.1节判定问题

一阶逻辑存在三类自然且紧密关联的我们或许想要某种算法解决方案的问题. 通过对于公式进行否定, 我们可以根据taste选择是基于有效性还是不可满足性来呈现这些问题.

确认一个逻辑有效 (或者不可满足) 公式的确是有效的 (相应地, 不可满足的), 但是决不对于非有效 (或者可满足) 公式进行确认.
确认一个逻辑非有效 (或者可满足) 公式的确是非有效的 (相应地, 可满足的), 但是决不对于有效 (或者不可满足) 公式进行确认.
测试一个公式是有效的还是非有效的 (或者可满足的还是不可满足的).

显然(3)包裹了(1)和(2). 反过来, (1)和(2)的解可以一并使用以解决(3): 只需并行运行有效性和非有效性 (或者可满足性和不可满足性) 的验证过程. 到目前为止, 我们已经显式呈现了(1)的解, 例如tableau或归结. 但是, 这些方法并不能解决(3). 给定一个可满足公式, 这些算法尽管并不会错误地声称可满足公式是不可满足的, 但是也并不总是会终止. 例如, 以下证明非有效公式的尝试不过只是保持着徒劳的搜索:

# tab <<forall x. p(x)>>;;
# meson <<forall x. p(x)>>;;

如果转而尝试resolution, 我们的确会得到以失败作结的终止. 但是,

第5.2节 AE片段

我们已经机械化了的所有一阶逻辑证明过程最终都是由Herbrand定理所澄清的: 公式的Skolem化无量词形式是不可满足的当且仅当存在某个ground实例 (复数) 的有限合取是命题不可满足的. 一般而言, 可能的ground实例的集合是无限的, 而使用合一来指导我们的搜索并不能改变这一基础事实. 然而, 在Skolem化形式并不包含除了零元函数 (即常量) 之外的函数这种特殊情形下, ground实例的数目是有限的. 例如, 回忆一下Łoś公式:

let los =
 <<(forall x y z. P(x,y) /\ P(y,z) ==> P(x,z)) /\
   (forall x y z. Q(x,y) /\ Q(y,z) ==> Q(x,z)) /\
   (forall x y. P(x,y) ==> P(y,x)) /\
   (forall x y. P(x,y) \/ Q(x,y))
   ==> (forall x y. P(x,y)) \/ (forall x y. Q(x,y))>>;;

如果我们对于其否定进行Skolem化以作为反驳的前奏, 那么结果包含四个常量符号和三个变量, 但是不含有非零元函数:

# skolemize(Not los);;
- : fol formula =
<<(((~P(x,y) \/ ~P(y,z)) \/ P(x,z)) /\
   ((~Q(x,y) \/ ~Q(y,z)) \/ Q(x,z)) /\
   (~P(x,y) \/ P(y,x)) /\ (P(x,y) \/ Q(x,y))) /\
  ~P(c_x,c_y) /\ ~Q(c_x',c_y')>>

这三个自由变量每个都只能由四个常量(项)之一替换, 于是总共只有 $4^{3} = 64$ 个ground实例. 因此, Skolem化了的形式的不可满足性等价于这 $64$ 个ground实例之合取的命题不可满足性. 我们之前的过程davisputnam可以相当快速地证明, 仅需尝试这些可能性中的 $45$ 个:

# davisputnam los;;
0 ground instances tried; 0 items in list
...
44 ground instances tried; 109 items in list
- : int = 45

然而, 现在我们知道我们本也可以联合 (conjoin) 所有的ground实例, 然后一劳永逸地测试命题可满足性. 这种一般性方法可以实现如下:

let aedecide fm =
  let sfm = skolemize(Not fm) in
  let fvs = fv sfm
  and cnsts,funcs = partition (fun (_,ar) -> ar = 0) (functions sfm) in
  if funcs <> [] then failwith "Not decidable" else
  let consts = if cnsts = [] then ["c",0] else cnsts in
  let cntms = map (fun (c,_) -> Fn(c,[])) consts in
  let alltuples = groundtuples cntms [] 0 (length fvs) in
  let cjs = simpcnf sfm in
  let grounds = map
   (fun tup -> image (image (subst (fpf fvs tup))) cjs) alltuples in
  not(dpll(unions grounds));;

{译注: 首先, 个人感觉为了和前文保持一致, skolemize(Not fm)应该改成skolemize(Not(generalize fm)), 不然的话fm必须限定为没有自由变量的公式, 或者说句子. 其次, 可能是因为统筹原因, 这里一些代码的功能其实就是herbfuns, 没有必要重复再写一遍. 还有, 最好在dpll之前把平凡子句去除, 尽管并不会出错.}

就我们的实现而言, 对于Łoś公式上的测试来说, aedecide碰巧比davisputnam快得多. 但是, 我们对此并不真的感兴趣, 也不会对于中间可能性的相对表现感兴趣, 例如每十个ground实例取一个进行测试 (这在Davis和Putnam的原始论文中有所考虑). 实际上, 要义在于通过对于ground实例数目设置上界, aedecide总是能够给出yes/no的回答; 如果原本的公式不是有效的, 那么它也会告诉我们, 而不是无限进行下去. {译注: 设置上界的实际含义是限定Herbrand宇宙为有限集合的情形.}

对于许多一般性的定理证明过程而言, 我们也可以相当简单地在这样的情形下保持终止. 例如, 我们可以修改我们的Davis-Putnam过程的内部循环, 以使得公式在有效时返回 $true$ (而非ground实例的数目), 而若ground实例之集合穷竭时则返回 $false$ . 即便是一些基于合一的过程, 对于输入公式的否定的Skolem化版本, 如果其中没有函数符号, 也能够保证终止. {译注: 指的是没有元数大于等于一的函数符号.} 或是出于巧合或者根据设计, 终止性对于其他一些重要子集中的公式也能够保证 (Fermueller, Leitsch, Tammet和Zamov 1993; de Nivelle 1995).

我们该如何根据原始问题预料到Skolem化形式只有零元函数符号呢? 出于简单性的考量, 设要被测试可满足性的公式已经处于NNF形式. 首先, 原始公式必须不能含有非零元函数符号, 这是因为Skolem化不会去除任何的函数符号. 其次, 我们必须不能有具有形式 $\exists y . P [x, y]$ 的子公式, 其中该存在量化的作用域里有自由或者全称量化的变量 $x$ . {译注: 这里的自由其实指的是全局的自由, 这里的全称量化指的是在该存在量化的作用域外被全称量化, 但不管怎么说 $x$ 相当于这个子公式而言是自由出现的. 那么, 本来也就只有三种情形, 全局自由, 在外层被全称绑定, 在外层被存在绑定, 这里只是排除了在外层被存在绑定的情况.} 这是因为, 其会导致引入的Skolem函数(至少)以 $x$ 作为一个参数. 对于一个句子而言, 一种简单保证该现象不会发生的充分条件是在任何抵达子公式的路径中, 存在量词都出现在全称量词之前: $\exists x_{1} . \dots \exists x_{n} . \dots \forall y_{1} . \dots \forall y_{m} .$

这种性质很难精确陈述, 因为量词和命题联结词相互嵌套的方式可以相当复杂. {译注: 个人认为编写程序来判断是否具有这种形式似乎并不复杂?} 如果我们将公式置于前束范式, 那么描述能够变得更为容易, 因为我们可以言称一个公式在这要求的子集里当且仅当其具有形式: $\exists x_{1}, \dots, x_{n} . \forall y_{1}, \dots, y_{m} . P [x_{1}, \dots, x_{n}, y_{1}, \dots, y_{m}]$ 其中 $n$ 和 $m$ 都可以为零. {译注: 当然, 这个公式应该是封闭的.} 既然所有的 $\exists$ 都出现在 $\forall$ 之前, 这样的公式被称为是处于EA子集之中. 然而, 这里我们讨论的是可满足性问题, 其是应用于我们想要证明的公式的否定. 我们需要我们用于测试有效性的原始公式具有以下形式: $\forall x_{1}, \dots, x_{n} . \exists y_{1}, \dots, y_{m} . P [x_{1}, \dots, x_{n}, y_{1}, \dots, y_{m}]$ 也就是说, 处于AE子集或者直接说AE. 之前的评注指出AE公式的有效性是可判定的, 或者说等价地, EA公式的可满足性是可判定的. {译注: 从技术性的角度来说, 这里的EA公式得是封闭的, 但AE公式可以不是封闭的, 因为全称闭包保持有效性. 当然, 我们首先应该记住这些公式都不应该含有元数大于等于一的函数符号.}

尽管前束范式的系统运用可以简化公式的分类,

第5.3节 Miniscoping and the monadic fragment

第5.4节三段论

第5.5节有限模型性质

第5.6节量词消去

第5.7节 Presburger算术

第5.8节复数

第5.9节实数

第5.10节环, 理想和word问题

第5.11节 Gröbner基

第5.12节几何定理证明

第5.13节将判定过程进行组合

第5.14节深入阅读

许多逻辑学教材讨论了判定问题. 关于判定问题在逻辑有效性方面可判定与不可判定的情形, 可参见Börger, Grädel和Gurevich (2001), Ackermann (1954) 以及Dreben和Goldfarb (1979), 此外Hilbert和Ackermann (1950) 对此也有简要论述. 需要注意的是, 判定问题通常从可满足性而非有效性的对偶角度加以处理, 因此在将此类文献与本文的讨论相对照时, 需要在量词前缀中互换 $\forall$ 与 $\exists$ 的角色. Rabin (1991) 对可判定理论进行了综述, 其中一些我们已在本章中加以讨论.

三段论在诸多逻辑史著作中有详尽讨论, 如Bocheński (1961), Dumitriu (1977), Kneale和Kneale (1962) 以及Kneebone (1963).

文献中还有若干其他数学理论的量词消去结果. 两个较为困难的例子是Abel群理论 (Szmielew 1955) 与Boole代数理论 (Tarski 1949). Kreisel和Krivine (1971) 有一章专门讨论量词消去, 内容涵盖可分Boole代数理论 (以及作为特例的原子Boole代数). 其他标准模型论教材, 如Chang和Keisler (1992), Hodges (1993b) 以及Marcja和Toffalori (2003), 也讨论了量词消去及模型完备性, $o$ -极小性等相关概念; 模型完备性的一种表述 (A. Robinson 1963; MacIntyre 1991) 为: 对于理论 $T$ , 每个公式都 $T$ -等价于一个纯全称公式 (或者等价地, 纯存在公式). Ershov, Lavrov, Taimanov和Taitslin (1965) 在文末对量词消去方法成功应用的各类理论进行了综述. Soloray (私人通信) 也向本书作者介绍了一种适用于各类实与复向量空间的量词消去过程.

Presburger算术及若干相关理论的处理可见于Enderton (1972), 而Smoryński (1980) 则对Presburger与Skolem的不同量词消去程序作了详细阐述. 该书包含大量相关主题的内容, 其中包括对相应乘法理论的讨论. Smoryński (1981) 给出了Presburger算术量词消去的一个精彩应用. Yap (2000) 进一步深入探讨了相关可判定性问题, 并包含许多其他相关材料. Presburger算术的其他处理方法还包括Omega测试 (Pugh 1992) 与Williams (1976) 的方法. Weispfenning (1999) 给出了一种适用于实数与整数混合线性算术的量词消去过程.

第5.15节练习

第6章交互式定理证明

我们迄今为止的努力一直致力于让计算机完全自动地证明定理. 然而, 在任何相对现实的计算能力限制下, 全自动方法所能覆盖的范围仅限于当代数学中非常小的一部分. 在这里, 我们提出一种替代方案: 一个交互式证明助手, 它可以帮助精确地陈述和形式化证明, 同时还能自动处理一些繁琐的细节. 此外, 为了确保其可靠性, 我们基于一个非常简单的逻辑内核来设计该证明助手.

第6.1节面向人类的方法

我们已经投入了大量精力来让计算机完全自动地证明命题. 我们所实现的方法相当强大, 在某些类型的证明上甚至比 (大多数) 人做得更好. 然而, 许多数学领域中那些极其复杂的逻辑推理链, 几乎不可能被我们所介绍的这类系统化算法在合理的时间内发现. 在实践中, 人类数学家通过直觉、对具体实例的实验、与相关结果的类比或外推、对问题背景的大胆推广 (例如在数论中使用复分析方法) 以及纯粹的运气来找到这些推理链——参见Lakatos (1976), Polya (1954) 和Schoenfeld (1985), 他们分别从不同角度尝试对数学发现的过程进行方法论分析. 可以说, 几乎没有人类数学家会用我们所开发的那些方法来从事定理证明.

面对系统化算法方法的局限性, 一种自然的反应是尝试设计能以更接近人类风格进行推理的计算机程序. 甚至在我们迄今讨论的那些方法被正式发展之前, 一些研究者就凭直觉认为系统化方法不会有多大实际用处, 并着手探索更面向人类的方法. 例如, Newell和Simon (1956) 设计了一个程序, 能够证明数学原理 (参见第6.4节) 中许多简单的逻辑定理. 大约同一时期, Gelerntner (1959) 设计了一个证明器, 能够利用人类风格的图形来引导或限制证明过程, 从而证明Euclid几何中的事实. 然而, 事实证明他们的基本思路, 尤其是他们对系统化方法的悲观态度, 并未完全得到验证. 例如, 从Wu开始的几何定理证明的系统化方法 (参见第5.12节) 已经取得了显著成效, 无疑超越了Gelerntner或其他使用面向人类方法的研究者所取得的任何成果. 正如Wang (1960) 在展示他那个用于一阶逻辑AE片段 (第5.2节) 的简洁系统化程序时所评论的——该程序的效果远远超过了Newell和Simon的程序:

作者 [...] 仍然不禁感到, 这一对比揭示了他们方法中的一个根本性缺陷. 杀鸡不必用牛刀. 然而总体印象却是, Newell-Shore-Simon连用牛刀杀鸡都没能成功.

不过, 公平地说, 那些追求面向人类方法的研究者, 其首要目标往往并非制造一个高效的定理证明器, 尽管那可能是个令人心动的附带成果. 他们的目标更多是通过形式化重构来理解人类的思维过程. 从追求这一目标的角度看, 表现平庸可能恰恰意味着成功而非失败, 因为人类本来就不太擅长解决逻辑谜题!

在20世纪50年代对定理证明的系统化和面向人类两种方法进行了最初的探索之后, 前者几乎完全胜出. 只有少数研究者继续追求面向人类的方法, 其中最著名的是Bledsoe, 例如他尝试将人类在证明分析学中关于极限的定理时常用的方法形式化 (Bledsoe 1984). Bledsoe的学生Boyer与Moore一起开发了卓越的NQTHM证明器 (Boyer和Moore 1979), 它往往能够对所提出的定理进行自动推广, 并用归纳法证明推广后的定理. NQTHM的成功, 以及将其方法纳入一个简洁概念框架的巨大困难, 促使Bundy (1991) 在一个基于证明规划的一般推理科学框架中重新构建了它的方法.

面对面向人类方法在计算机化后的有限成功, 一种更为强硬的反应是指出, 在某些情况下, 即使对人类而言, 系统化方法也更为优越. 例如, Knuth和Bendix (1970) 认为完备化 (第4.7节) 是对数学家处理等式公理时所进行的实验的一种有益的系统化. 对计算领域中拟人化倾向的反感 (Dijkstra 1982b) 或许在某些圈子里推动了一种趋势, 即让人类的证明变得更加系统化和句法驱动——简而言之, 更加机器化 (Dijkstra和Scholten 1990). 而Wos则将他在应用自动推理方面取得的巨大成功归因于他充分发挥了计算机的优势, 而非试图让它模仿人类思维:

简单来说, 人的推理方式与本书所介绍的这类程序的推理方式之间存在大量差异. 这些差异或许在一定程度上解释了为什么OTTER能够成功回答那些数十年悬而未决的问题, 也解释了为什么使用它所产出的证明远比此前已知的更加优雅. (即使我知道需要做什么, 我也不会把OTTER重新设计成像数学家, 逻辑学家或任何其他人那样工作, 而这并非出于对人类推理能力的不尊重.) (Wos和Pieper 1999)

第6.2节交互式证明器和证明检查器

经验表明, 无论是系统化算法方法还是启发式的面向人类方法, 都无法自动证明范围广泛的高难度数学定理. 而且, 没有迹象表明这些方法的渐进改进加上技术进步能够改变这一事实. 有些人甚至可能会认为, 将人类自身都无法发展出来的证明自动化, 本身就不是一件值得追求的事情.

[...] 我将数学证明视为我的理解的反映, 而理解是我们无法委托给他人或机器的东西. (Dijkstra 1976b)

一个更为谦逊的目标是创建一个能够验证人类所发现的证明, 或者在人类指导下提供有限辅助的系统. 计算机至少应当充当一个谦恭的文书助手, 检查证明的正确性, 防范人类常犯的错误, 如隐含假设和遗漏的特殊情况. 理想情况下, 计算机可以通过自动化证明中的某些部分来实质性地辅助这一过程; 毕竟, 证明中往往包含一些只是常规验证或适合自动化处理的部分, 例如代数恒等式. 这种让机器与人类协作, 从证明草稿出发来完成定理证明的想法, 早在Wang (1960) 那里就已经被设想过了, 他在自动定理证明方面的工作仅仅是为这样一个系统奠定基础:

作者最初的目标是以数学教科书为纲要——例如Landau的数系, Hardy-Wright的数论, Hardy的微积分, Veblen-Young的射影几何, 以及Bourbaki的各卷——让机器将所有证明形式化 (即填补其中的空白).

第6.2.1小节早期证明助手

早期的计算机只支持批处理工作方式, 周转时间很长. 但到了20世纪60年代, 一种更具交互性的工作方式开始普及. 得益于此, 加上人们或许感觉到全自动系统的能力开始趋于平稳, 对证明助手这一理念的兴趣日益增长. 第一个有效的实现是SAM (半自动数学) 系列证明器:

半自动数学是一种定理证明方法, 它试图将自动逻辑程序与常规证明过程相结合, 使得到的过程既高效又能接受人类以控制和引导形式进行的干预. 由于它使数学家成为建立定理过程中的一个不可或缺的因素, 这一方法有别于通常的定理证明尝试——在那些尝试中, 计算机独自寻求建立证明. (Guard, Oglesby, Bennett和Settle 1969)

1966年, 该系列系统中的第五个, 即SAM V, 被用来构造了格论中一个此前未被证明的猜想的证明 (Bumcrot 1965). 这无疑是半自动方法的一次成功, 因为计算机自动证明了一个现在被称为SAM引理的结果, 而数学家则认识到它可以轻松地推导出Bumcrot猜想的证明.

在SAM项目之后不久, 另外两个重要的证明检验系统问世: AUTOMATH (de Bruijn 1970; de Bruijn 1980; Nederpelt, Geuvers和Vrijer 1994) 和Mizar (Trybulec 1978; Trybulec和Blair 1985). 这两个系统都以不同的方式产生了深远的影响, 并且都被用来检验过非平凡的数学内容. 尽管我们也将这些系统称为交互式的, 但我们只是松散地使用这个术语, 作为自动的反义词. AUTOMATH和Mizar实际上都是围绕批处理使用方式设计的. 然而, 它们所处理的文件由一个证明或证明草稿组成, 系统检验其正确性, 而非一个需要自动证明的命题.

第6.2.2小节 LCF

许多成功的证明检查器, 包括Mizar在内, 自动化能力相对较弱, 要求用户以相当详细的方式描述证明, 只留给机器很小的空白去填补. 例如, Mizar的自动化能力相当有限, 仅限于在精确逻辑意义上显然的步骤 (Davis 1981; Rudnicki 1987). 在一定程度上, 这种弱势是一种有意的设计选择. 如果证明草稿中的空白过大, 那么对于没有机器辅助的人类读者来说, 这个草稿就很难理解——而既然现在的重点是帮助人类数学家, 而非展示自动化的高超技艺, 那这似乎是一个不可取的特性. 这一限制还大大缩小了填补证明空白或判断该空白中隐含的推理是否非显然所需的搜索范围, 从而使证明检验过程可以变得相当高效. 由于Mizar是为批处理使用而设计的, 即在一次交互中检验可能很长的证明文本, 这一点尤为重要.

然而, Mizar对显然推理的定义往往与人类对什么是显然的定义不一致, 而且这种偏差似乎是不可避免的. 一个特别的困难在于, 人们认为显然的东西可能包含关于正在被形式化的数学分支的领域特定知识. 例如, 代数恒等式通常是显然或常规的, 但将它们分解为Mizar能接受为显然的步骤却可能十分繁琐. 更重要的是, 一旦某个结果被形式化之后, 可能被视为显然的新事实似乎没有尽头 (Zammit 1999b). 例如, 人们可能已经证明了在某个抽象数学分支中出现的某个二元运算符 $\otimes$ 满足结合律和交换律. 从那时起, 比如说 $w \otimes (x \otimes (y \otimes z)) = (x \otimes z) \otimes (w \otimes y)$ 这样的等式可能就被视为显然的, 人们不会在一个更有趣的证明中为此多费笔墨. 然而, 从结合律和交换律出发对此进行纯逻辑推导需要这些律的多个实例, 因此它在Mizar的意义上并非显然.

一个证明检查器的最初设计者几乎不可能预见到它未来的所有应用, 以及那些可能因此而被视为显然的新事实. 这表明理想的证明检验器应该是可编程的, 即普通用户应当能够根据需要扩展其内置的自动化功能. 只要定理证明器的基本机制是简明的且有良好的文档说明, 并且源代码是公开的, 用户就没有理由不能对其进行扩展或修改——我们希望许多读者会对本书中讨论的代码做类似的事情. 然而, 如果我们想要限制用户只进行逻辑上可靠的扩展, 困难就出现了, 因为不可靠性会使机器检验据说更容易出错的人类证明这一整个理念都变得可疑. 即使是我们在本书中实现的那些独立的自动定理证明程序, 往往也比它们表面看上去更加微妙, 如果发现它们偶尔包含导致不正确性的bug, 我们也不会感到意外. 将大量特殊的证明方法集成到一个强大的交互式系统中而不损害可靠性, 这一任务的难度要大得多.

对这一困难的一个有影响力的解决方案是在Robin Milner领导的Edinburgh LCF项目中引入的 (Gordon, Milner和Wadsworth 1979). 最初的Edinburgh LCF系统旨在支持基于可计算函数逻辑 (Scott 1993) 的PPλ逻辑中的证明——LCF这个名称由此而来. 但正如Gordon (1982) 所强调的, 其核心思想同样适用于支持传统数学的更正统的逻辑, 随后许多LCF风格的证明检查器都是基于相同的原则设计的 (Gordon 2000). LCF方法的基础是两个关键思想, 其中一个保证了灵活的可编程性, 另一个则确保了逻辑可靠性.

该系统在一种交互式编程语言中实现, 用户通过该编程语言的顶层循环进行交互. 因此, 用户拥有一种通用编程语言的全部能力来实现新的证明过程.
系统区分了一个特殊的已证定理类型 (比如说thm), 使得任何thm类型的东西必须是通过构造被证明的, 而非仅仅被断言的. 这通过将thm设为一个抽象类型来强制实现, 其唯一的构造器对应于经过批准的推理方法.

最初的LCF项目引入了一种全新的编程语言, 名为ML (元语言), 专门为实现LCF风格的证明器而设计——我们自己的实现语言Objective CAML就是它的直接后裔. 我们将在OCaml中使用LCF方法实现一个一阶逻辑的证明器, 但首先我们需要确定一组合适的经过批准的推理规则.

第6.3节一阶逻辑的证明系统

像一阶逻辑这样的形式语言旨在成为非形式数学记号的精确版本. 给定这样一种语言, 一个形式证明系统应当将数学证明中允许的步骤形式化和系统化. (这些正是Leibniz所梦想的characteristica和calculus.) 抽象地说, 我们可以将证明系统简单地视为一种可证明性关系, 通过一组我们视为允许的证明步骤的规则归纳定义. 我们始终用 $Γ ⊢ p$ 来表示 $p$ 可从假设 $Γ$ 证明, 当我们想要明确指出特定的证明系统时, 偶尔会在turnstile符号 $⊢$ 上附加下标.

对于纯粹的等式推理, 一个自然的证明系统是由Birkhoff规则定义的系统 (参见第4.3节). 这些规则很好地形式化了人们通常使用等式进行推理的方式, 尽管用它们来证明定理可能需要极大的技巧, 但每条规则本身都相当简单. 此外, 这些规则是完备的 {译注: 且是可靠的 (sound)}: $Δ ⊢ s = t$ ( $s = t$ 可从 $Δ$ 证明) 当且仅当 $Δ ⊨ s = t$ ( $s = t$ 是 $Δ$ 的逻辑推论). 我们自然希望一般一阶逻辑的证明系统也具备所有这些性质.

第一个适用于一阶逻辑的证明系统是由Frege (1879) 发展出来的. 虽然这项工作现在被视为现代逻辑演化中的关键, 但在Frege生前却未受到多少重视, 类似的思想由Peano, Peirce和Russell等人部分独立地发展起来. Frege的证明系统实际上远远超出了一阶逻辑的范围, 并被用来支持他的逻辑主义论题, 即所有数学都可以归约为逻辑. 在研究Frege的工作时, Russell意识到他自己的许多哲学分析早已被Frege对算术的形式化发展所预见, 而且往往以更精练的形式呈现 (Frege 1893). 但Russell注意到Frege的工作有一个严重的缺陷: 该逻辑系统是不一致的, 实际上可以通过利用一个现在通常被称为Russell悖论的逻辑二律背反来证明任何事实, 无论真假 (参见第7.1节). 尽管Peano对形式系统的表述有限, 但独立发现了Russell悖论的Zermelo (1908) 声称Peano的方法同样受到该悖论的影响.

实际上是Hilbert和Ackermann (1950) 在其简短教科书1928年的原版中分离出了一阶逻辑, 提出了一套精确的形式规则体系, 并提出了这些规则的完备性问题. 可以说, 完备性隐含在Skolem (1922) 的一篇更早的论文中, 但它首先由Gödel (1930) 明确地证明了. 此后, 许多不同类型的一阶逻辑形式证明系统被引入并被证明是完备的. 我们可以大致将其区分为三类:

Hilbert或Frege系统 (Frege 1879; Hilbert和Ackermann 1950),
自然演绎 (Gentzen 1935; Prawitz 1965),
相继式演算 (Gentzen 1935).

第6.4节一阶逻辑的LCF实现

和Frege一样, Russell对建立一种逻辑主义论题感兴趣, 即所有数学原则上都可以被还原为纯粹逻辑. 为此, 他在Principia Mathematica (Whitehead与Russell, 1910) 中通过显式的形式证明推导出了一批初等数学定理. 这是一项极其艰辛的工作, Russell (1968) 曾评论说他的智力从未从这种重压中完全恢复过来. 然而, 借助计算机辅助, 形式证明的冗长与繁琐不再需要成为如此严重的障碍. 我们的首要任务是使基本推理规则尽可能简单, 这样我们才能真正对逻辑基础及其计算机实现充满信心. 如果这以更冗长的形式证明为代价, 我们也并不感到沮丧, 因为大多数底层证明的生成将被额外的编程层所隐藏.

通常, 一阶证明系统至少有一条涉及替换的规则或者说公理模式, 例如允许我们从一个全称性定理 $⊢ \forall x . P [x]$ 过渡到其任意的替换实例 $⊢ P [t]$ 的规则. 但正如我们在第3.4节中所见, 代入的正确实现并非完全平凡. 我们将通过建立更简单的规则来避免将任何此类复杂代码内置到我们的逻辑核心中, 由此替换是可推导的 (Tarski, 1965; Monk, 1976). 我们有两条本真 (proper)规则, 其取用定理而产生新的定理. 其一是modus ponens: $\frac{⊢ p \Rightarrow q ⊢ p}{⊢ q}$ 另一规则则是泛化, 其允许我们在任意的变量上对于一个定理进行全称量化: $\frac{⊢ p}{⊢ \forall x . p}$

每条公理实际上是一条公理的模式(schema),

第6.5节命题导出规则

第6.6节通过推理证明重言

第6.7节一阶导出规则

第6.8节通过推理进行一阶证明

第6.9节交互式证明风格

第6.10节深入阅读

交互式定理证明, 乃至面向人类的证明, 在教科书中几乎没有得到任何涉及. 究其原因, 主要在于这些内容不易以某套标准定理与方法的形式加以阐述; 或许在一定程度上, 它们也被认为缺乏足够的学术吸引力. 不过, Reeves和Clarke (1990) 所著的Logic for Computer Science教材中包含了对交互式定理证明的讨论, Paulson (1991) 关于SML程序设计的书中也给出了一个较为详尽的示例. MacKenzie (2001) 记述了交互式定理证明的历史及其应用, 而Wiedijk (2006) 则是对若干主要交互式定理证明器的综述, 展示了各系统中对 $\sqrt{2}$ 无理性的证明.

然而, 关于特定交互式系统的书籍为数不少, 其中许多属于LCF家族. Gordon, Milner和Wadsworth (1979) 所著的第一本关于Edinburgh LCF的书描述了其最初的创新思想, Paulson (1987) 则介绍了Cambridge LCF——一个组织结构经过大幅优化的版本. Constable (1986), Gordon和Melham (1993) 以及Paulson (1994) 分别描述了源自LCF的证明器 Nuprl, HOL与Isabelle. Boyer和Moore (1979) 讨论了NQTHM, 即Boyer-Moore证明器——尽管其自动化程度很高, 但就通常的使用方式而言, 仍可视为一个交互式系统. ACL2是一个基于类似原理的更现代的系统 (Kaufmann, Manolios和Moore 2000).

形式演绎演算的研究是当代逻辑学的重要组成部分. 许多逻辑学教材 (Enderton 1972; Mendelson 1987) 对Hilbert系统进行了介绍并证明了其完备性, 而另一些教材如van Dalen (1994) 则采用自然演绎. 证明论是对证明系统本身的研究; Troelstra和Schwichtenberg (1996), Prawitz (1965) 以及Girard, Lafont和Taylor (1989) 分别以各具风格的方式对该领域作了入门介绍. Girard (1987) 是对若干进阶主题的导引, 而Goubault-Larrecq和Mackie (1997) 则从更具证明论风格的角度探讨了自动定理证明.

Gordon, Milner和Wadsworth (1979) 的原始LCF文献在策略 (tactics) 方面仍值得一读. 其他人则从各种方向对策略加以推广; 例如, Sokołowski (1983) 对策略进行了扩展, 使其能够维护一个可实例化的元变量列表, 这些元变量可在证明过程中逐步实例化. 这使得存在项的实例化可以在证明的不同阶段更自由地进行. Isabelle (Paulson 1994) 通过一种更直接的基于定理的实现方式支持类似机制, 同时也支持具有无限数量可能后继目标状态的非确定性策略. Boulton (1992) 将延迟推理的思想推广至整个LCF风格证明器. 在LCF风格系统中实现Mizar风格声明式证明的工作由Harrison (1996a), Syme (1997), Wenzel (1999), Zammit (1999a), Wiedijk (2001) 和Corbineau (2008) 分别描述, 而Harrison (1996c) 则是对声明式证明与过程式证明的更详细比较.

关于LCF风格证明器效率的更详细分析, 参见Boulton (1993) 和Harrison (1995). 后者还包含对定理证明中的反射及逻辑与计算机科学相关领域的更详细阐释, 尽管其对该领域工作的综述现已过时. 许多有用的高层派生规则已以LCF风格写就. 例如, 算术判定过程的LCF实现至少可追溯至Boulton (1993), 而Hörmander实数算法的近期LCF风格实现则由Mahboubi和Pottier (2002) 以及McLaughlin和Harrison (2005) 分别描述. 用于构造归纳或递归定义的复杂LCF风格派生规则由Melham (1991) 和Slind (1996) 描述. Chaieb (2008) 描述了若干判定过程的实现, 涵盖LCF风格与反射两种方式.

一次性验证代码与逐步检验特定结果 (在程序运行时逐步进行, 或从日志乃至程序生成的更紧凑的证书中检验) 这两种方案可以推广至定理证明之外的更广泛领域. Blum (1993) 指出, 在许多情形下, 检验结果可能比验证代码更为实际和有效——Mehlhorn et al. (1996) 是将结果检验融入计算几何库的一个具体示例. Harrison和Théry (1998) 描述了对计算机代数系统答案的检验, 而 Hurd (1999) 则描述了通过LCF推理检验一阶证明器所生成证明的方法.

目前, 交互式定理证明主要有两大应用领域: (i) 形式化纯数学, 以及 (ii) 验证计算机程序, 硬件, 协议等的正确性. 数学形式化工作或出于纯粹的学术兴趣 (Shankar 1994; Fleuriot 2001), 或为验证应用提供支撑 (Harrison 1998; Hurd 2001), 或因为对某个非形式证明存在真实的疑问或质疑 (Gonthier 2005). 目前规模最大的形式化数学语料库是Mizar Mathematical Library, 而Wiedijk (2006) 对该领域其他近期进展给出了简明扼要的综述. Flyspeck 项目 (Hales 2006) 旨在给出Kepler球堆积猜想的完整形式化证明, 或许是迄今为止最具雄心的形式化项目, 撰写本文时该项目正取得良好进展. 至于验证方面, 在有限篇幅内难以概括交互式定理证明的众多令人印象深刻的应用. 粗略举例而言, 仅在浮点算术这一特定领域, 对真实工业硬件, 软件或微代码所做的验证工作便不乏其数, 包括Moore, Lynch和Kaufmann (1998), Russinoff (1998), O'Leary, Zhao, Gerth和Seger (1999), Harrison (2000), Kaivola和Aagaard (2000), Kaivola和Kohatsu (2001) 以及Slobodová (2007), 而这份列表尚不完整.

第6.11节练习

第7章限制

本书大部分内容讨论的是正面结果: 某些逻辑问题原则上可以自动化处理. 本章则考察自动化的局限性, 说明通常意义下的算法对某些逻辑问题并不存在. 我们将特别证明, 纯一阶逻辑是不可判定的, 并且带有加法和乘法的自然数理论在精确意义下远非可判定. 在通往这些结论的过程中, 我们将证明Gödel著名的第一不完备性定理.

第7.1节 Hilbert纲领

将推理机械化的想法早在计算机出现之前便令人们深深着迷. 关于机械化的范围与局限的具体问题在二十世纪初得到了系统性研究, 这在很大程度上源于Hilbert将数学置于坚实基础之上这一纲领的影响. 为充分理解以下结果在文化层面的深远意义, 有必要审视当时围绕数学基础问题所涌现的思想激荡, 正是这种激荡使这些问题在那个时代显得如此重要.

在历史上的不同时期, 数学家们曾多次对本学科公认基础中所出现的明显问题深感忧虑. 例如, 毕达哥拉斯学派试图仅以有理数为基础构建数学, 因而对 $\sqrt{2}$ 必为无理数这一发现深感不安. 此后, Newton和Leibniz的微积分中对无穷小量看似自相矛盾的处理方式令许多人困惑不解 (Berkeley 1734), 复数的使用以及非Euclid几何的发现同样引发了类似的疑虑. 再往后, 当无穷集合理论开始被独立探究并得到推广——这主要归功于Cantor——新一轮的基础性忧虑随之出现.

许多数学家虽然接受潜无穷的概念 (例如每个自然数都有后继), 却仍然认为数学必须植根于具体的计算. 例如, Kronecker乐于处理代数数, 即形如 $\sqrt{2} + \sqrt{3}$ 这样的数——它们是整系数多项式方程的根 (在此例中为 $x^{4} - 10 x^{2} + 1$ )——但他拒绝承认超越 (非代数) 数, 因为这类数似乎无法以有限表示进行显式计算. 据说, 他曾评价Lindemann (1882) 关于 $π$ 为超越数的证明颇为有趣, 只是 $π$ 并不存在. 持此观点的数学家倾向于拒斥大部分Cantor式的理论体系, 以及非构造性的存在性证明: Gordan在评价Hilbert借助如今所称的Hilbert基定理对不变量理论中一个关键问题的解决时, 曾发出这样的感叹——这不是数学, 这是神学!. 为理解在此语境下构造性与非构造性的含义, 请考虑以下内容.

定理7.1. 存在代数无理数

x

和

y

使得

x^{y}

是有理数.

证明.

◻

第7.2节关于真性的不可定义性的Tarski定理

第7.3节公理系统的不完备性

第7.4节 Gödel不完备性定理

第7.5节可定义性和可判定性

第7.6节 Church定理

第7.7节更多的限制性结果

第7.8节回顾: 逻辑的本质

第7.9节深入阅读

关于数学基础和Hilbert纲领哲学背景的书籍有很多, 例如Kneebone (1963) 和Wilder (1965). Van Stigt (1990) 是关于Brouwer生平与工作的著述, 其中包括对其直觉主义哲学的阐释, 而Edwards (1989) 则分析了Kronecker的哲学观点. 关于直觉主义逻辑与构造性数学的更多内容, 可参见Mints (2000), Troelstra和van Dalen (1988) 以及Beeson (1984). Kreisel (1958a) 讨论了Hilbert纲领, Journal of Symbolic Logic第53卷 (1988) 中的多篇论文在现代语境下对该纲领进行了探讨. 此外还有几部收录数学基础论文的文集, 例如Benacerraf和Putnam (1983) 以及Hintikka (1969), 以及以技术性内容为主的Van Heijenoort (1967).

许多逻辑学教材, 如Enderton (1972) 和Mendelson (1987), 都讨论了Gödel不完备性定理. Smullyan (1992) 的专著对本书的叙述方式影响颇深, 例如以Tarski定理作为起点. Gödel定理的声名早已超越形式逻辑的范畴. 将Gödel的结果纳入某种更宏观的思想或文化潮流之中, 这种诱惑似乎难以抗拒. Franzén (2005) 不仅是对Gödel定理的综合概述, 更是对各种误解的系统性澄清. 关于反射原则与理论的超限递进, 可参见Feferman (1991), 而Franzén (2002) 则以理论递进为核心视角, 对整个不完备性现象进行了深入探讨.

英语	符号	ASCII	OCaml	其他符号
false	$⊥$	`false`	`False`	$0, F$
true	$⊤$	`true`	`True`	$1, T$
not $p$	$\neg p$	`~p`	`Not p`	$\overline{p}, - p, \sim p$
$p$ and $q$	$p \land q$	`p /\ q`	`And(p,q)`	$p q, p & q, p \cdot q$
$p$ or $q$	$p \lor q$	`p \/ q`	`Or(p,q)`	$p + q, p \| q$
$p$ implies $q$	$p \Rightarrow q$	`p ==> q`	`Imp(p,q)`	$p \to q, p \supset q$
$p$ iff $q$	$p \Leftrightarrow q$	`p <=> q`	`Iff(p,q)`	$p \leftrightarrow q, p \equiv q, p \sim q$

实用逻辑和自动推理手册

前言

意识形态面向

本书没有涵盖的内容

致谢

如何阅读本书

本书所使用的数学

本书中的软件

第1章 引论

第1.1节 什么是逻辑推理?

第1.2节 Calculemus!

第1.3节 符号化

第1.4节 Boole的逻辑代数

第1.4.1小节 机械化

第1.4.2小节 逻辑形式

第1.5节 句法和语义

第1.5.1小节 对象语言和元语言

第1.5.2小节 抽象和具体句法

第1.6节 符号计算和OCaml

第1.7节 句法分析 (parsing)

第1.7.1小节 词法分析

第1.7.2小节 句法分析

第1.8节 美观打印 (prettyprinting)

第1.9节 深入阅读

第1.10节 练习

第2章 命题逻辑

第2.1节 命题逻辑的句法

第2.1.1小节 OCaml中的表示

第2.1.2小节 具体句法

第2.1.3小节 通用句法分析和打印

第2.1.4小节 原始命题

第2.1.5小节 句法操作

第2.2节 命题逻辑的语义

第2.2.1小节 机械化了的真值表

第2.2.2小节 形式语言和自然语言

第2.3节 有效性, 可满足性, 重言

第2.3.1小节 重言和可满足性检查

第2.3.2小节 替换

第2.3.3小节 一些重要的重言

第2.4节 De Morgan律, 充足性, 对偶性

第2.4.1小节 对偶性

第2.5节 化简和否定范式

第2.6节 析取范式和合取范式

第2.6.1小节 通过真值表得到DNF

第2.6.2小节 通过变换得到DNF

第2.6.3小节 基于集合的表示

第2.6.4小节 CNF

第2.6.5小节 原书的微妙bug

第2.7节 命题逻辑的应用

第2.7.1小节 Ramsey定理

第2.7.2小节 数字电路

第2.7.3小节 加法

第2.7.4小节 乘法

第2.7.5小节 素性和因数分解

第2.7.6小节 命题逻辑的力量

第2.8节 定义性CNF

第2.8.1小节 定义性CNF的实现

第2.8.2小节 优化

第2.8.3小节 3-CNF

第2.9节 Davis-Putnam过程

第2.9.1小节 1-文字规则

第2.9.2小节 肯定否定规则

第2.9.3小节 消除原子公式的规则

第2.9.4小节 DP过程

第2.9.5小节 DPLL过程

第2.9.6小节 迭代DPLL

第2.9.7小节 回跳和学习

第2.10节 Stålmarck方法

第2.11节 二元决策图

第2.12节 紧致性

第2.12.1小节 无限图的着色

第2.13节 深入阅读

第2.14节 练习

第3章 一阶逻辑

第3.1节 一阶逻辑及其实现

第3.1.1小节 量词

第3.2节 句法分析和打印

第3.3节 一阶逻辑的语义

第3.3.1小节 自由变量的集合

第3.3.2小节 有效性和可满足性

第1章引论

第1.1节什么是逻辑推理?

第1.3节符号化

第1.4.1小节机械化

第1.4.2小节逻辑形式

第1.5节句法和语义

第1.5.1小节对象语言和元语言

第1.5.2小节抽象和具体句法

第1.6节符号计算和OCaml

第1.7节句法分析 (parsing)

第1.7.1小节词法分析

第1.7.2小节句法分析

第1.8节美观打印 (prettyprinting)

第1.9节深入阅读

第1.10节练习

第2章命题逻辑

第2.1节命题逻辑的句法

第2.1.2小节具体句法

第2.1.3小节通用句法分析和打印

第2.1.4小节原始命题

第2.1.5小节句法操作

第2.2节命题逻辑的语义

第2.2.1小节机械化了的真值表

第2.2.2小节形式语言和自然语言

第2.3节有效性, 可满足性, 重言

第2.3.1小节重言和可满足性检查

第2.3.2小节替换

第2.3.3小节一些重要的重言

第2.4.1小节对偶性

第2.5节化简和否定范式

第2.6节析取范式和合取范式

第2.6.1小节通过真值表得到DNF

第2.6.2小节通过变换得到DNF

第2.6.3小节基于集合的表示

第2.6.5小节原书的微妙bug

第2.7节命题逻辑的应用

第2.7.2小节数字电路

第2.7.3小节加法

第2.7.4小节乘法

第2.7.5小节素性和因数分解

第2.7.6小节命题逻辑的力量

第2.8节定义性CNF

第2.8.1小节定义性CNF的实现

第2.8.2小节优化

第2.9.2小节肯定否定规则

第2.9.3小节消除原子公式的规则

第2.9.6小节迭代DPLL

第2.9.7小节回跳和学习

第2.11节二元决策图

第2.12节紧致性

第2.12.1小节无限图的着色

第2.13节深入阅读

第2.14节练习

第3章一阶逻辑

第3.1节一阶逻辑及其实现

第3.1.1小节量词

第3.2节句法分析和打印

第3.3节一阶逻辑的语义

第3.3.1小节自由变量的集合

第3.3.2小节有效性和可满足性

第3.4节句法操作

第3.4.1小节项中的替换

第3.4.2小节公式中的替换

第3.5节前束范式

第3.8节机械化Herbrand定理

第3.9节合一

第3.9.1小节一个合一算法

第3.9.2小节使用合一

第3.11节归结

第3.13节对于归结的改进

第3.15节模型消去

第3.16节更多的一阶元定理

第3.17节深入阅读

第3.18节练习

第4章相等性

第4.1节相等性公理

第4.2节范畴性和初等等价

第4.3节等式逻辑和完备性

第4.5节重写

第4.6节终止排序