闲谈几何

最近一段时间几篇文章写的都是科普话题,先后说过科学,数学,生命等等。本来觉得会应者聊聊无几,没想到还挺受欢迎。于是就鼓起勇气,再写一篇几何。说实话,这个话题写起来有点心虚,因为很多东西,作者本人也没学透,权当抛砖引玉吧。

最近AI火爆,也带火了计算机视觉这个方向。几个专业会议CVPR,ICCV都空前火爆,参会人数连创新高。而且以前只有本专业学者才关注,现在竟也有公众媒体追捧。拜深度学习的研究热潮所赐, 现在的会上大半工作和深度学习相关。而回到十几年前,确不是这样。当年的计算机视觉研究是百花齐放的, 各种问题和方法都有人触及,并没有什么一桶姜山的东西。然而百花园中还有牡丹称王, 其中最正宗的计算机视觉问题, 是立体视觉相关。

众所周知, 人有两只眼睛,能感知到三维世界。计算机视觉也想做同样的事情, 就是从二维的图像集合中得到三维信息。这个图像集合可以是几个相机同时, 也可以一个相机在不同位置获取,如果是静态场景,两者其实没有区别。要从二维图像中恢复三维场景,其中的关键就是要搞清楚背后的几何关系。 当年计算机视觉中也有个鄙视链, 懂几何的鄙视不懂几何的。代表性言论是:没有几何能叫什么计算机视觉,那只是图像处理。

如此偏见,建议一笑置之。不过要学习计算机视觉,搞懂几何还是很有帮助的。计算机视觉期望通过图像来恢复三维世界,而图像是三维世界通过相机成像的结果。因此这个恢复过程包括建立相机本身的模型,得到相机的位置(特定情况下不需要),以及得到真实场景中物体的三维描述信息。其中的核心是三维实体相对位置和映射关系,这也正是几何研究的主要内容。

数学史料上的普遍观点, 几何的出现最早是用来丈量土地的, 特别是在古埃及, 尼罗河泛滥之后,肥沃的土地露出水面,如何分割,怎么计算面积大小就变成了问题,这样的事情, 每年泛滥都得做一次。古埃及人的学问被地中海文明继承。 其中几何的部分经过进一步研究和发展,最后被欧几里得总结为几何原本,这是古代文明最灿烂的成就之一。

著名的古希腊数学家欧几里得,据说出生在雅典,后人对他的生平所知甚少,实际上他主要的工作都是在属于埃及托勒密王朝的亚历山大城做出的。因为地中海一带的所有文明成就都叫希腊文明,所以欧几里得也是希腊文明的杰出代表。几何原本可以被称作是现代数学和科学的基础,或者是史上最成功的科学教科书,因为其中给出通过公理化方法建立知识体系的思维方式。欧几里得总结出通过一些公认的基础事实或者定义,通过形式逻辑得到定理的一整套方法,并据此建立一个基于逻辑体系的几何学。这可能是中国古代实用主义思想体系所缺少的部分。几何原本直到十七世纪初才有徐光启翻译介绍到中国,随后几百年也没激起什么浪花。但在西方,影响了一大批知名学者,比如牛顿。

很多人都知道几何原理中提出了五大公设, 列举如下:

  1. 两点之间存在唯一线段
  2. 任何直线段两端可以无限的延伸
  3. 过一点和任意半径可以有一个圆
  4. 所有的直角都相等
  5. 如果平面上两条直线为另外一条直接所截, 使得第三条线其中一边的两个同旁内角和小于两个直角,则前两条线无限延伸后比在一点相交。

以上几条粗看起来只是一些定义。但其中其实隐含着一些更深层次的东西。第一假设说的是点,线这两个基本几何元素。 第2,第3假设除了定义直线和圆以外,还隐含着空间是无限的, 而且是连续稠密没有任何空隙的。第4条看上去挺奇怪,  直角相等需要特别强调吗? 这正是需要审慎思维的地方, 其实第4条说的是空间的均匀和一致性, 一个几何性质不管在空间中移动到哪里都是不变的。以上四条从抽象层面定义了一个无限范围,处处连续,处处均匀不变的空间。这和我们直观看起来的周边世界是一致的。

欧几里得第五公设是最奇怪的一条,首先从定义上就比其他四条复杂的多, 其次看起来也和其他公设没有什么直接关联。 第五公设主要是定义了一种成为平行的关系,所以也叫平行公设。 又了平行, 我们才可以有平行四边形,矩形和正方形的概念。由平行公设还可以推出欧式几何中的一些基本定理, 比如三角形内角和是180度(欧几里得喜欢说两个直角),还有勾股定理(毕达哥拉斯定理)也需要通过平行公设来证明。

虽然平行公设如此基础, 但是数学家们都对它不满意, 不管是它的表述方式还是和其它公设的关系。于是历来就有人想通过逻辑手段来探讨第五公设是否有更完美的形式。其中的先驱之一是意大利数学萨凯里(1667-1733)。萨凯里试图通过反证法来证明平行公理,他首先假设平行公理不成立, 按照反证法,于是就应当推出一些矛盾之处,这样就证明了平行公理成立。 萨凯里试图通过假设三角形内角和小于两个直角来推导出矛盾,而事实上,他不仅没有推导出任何逻辑矛盾,反而发现了一些有趣,奇怪且难以置信的结论。但是思维惯性让他放弃了深入思考自己的发现, 而是简单总结为或许可能平行公理是成立的。

萨凯里之后,德国数学家兰伯特(1728-1777)也曾长期研究第五公设,他给出了如果平行公设不成立下三角形的面积公式, 甚至猜测可能存在虚半径球面的概念。这些相关的研究工做,在数学的集大成者高斯那里得到了总结,历史上公认高斯提出了非欧几何。但是高斯在世的时候并没有公布他的发现, 直到30年后,通过假设第五公理不成立推出的非欧几何中的双曲几何才有后来人独立发现,其中之一是俄国人罗巴切夫斯基,双曲几何又叫罗氏几何。由此可见想挑战传统的思维惯性是多么的困难。

有关非欧几何的发现还有很多动人的故事,相关的文章太多了, 这里就不再重复了。因为我们日常生活的空间或者说直觉体验到的是欧式空间, 所以通常也需要借助欧式空间来理解非欧空间, 比如表现双曲几何的著名艺术作品:埃舍尔的园极限, 就是双曲几何在欧式空间的投影。

非欧几何之后几何学的进一步发展是黎曼几何。 黎曼提出通过提出对几何实体的进一步抽象所谓黎曼曲面上的微观结构黎曼度量来进一步拓展了几何学理论。 在黎曼几何提出之后,欧式几何和非欧几何都变成了特例。 在黎曼几何微分流形概念上建立起来的张量分析方法,是后来广义相对论的基础。 黎曼几何在提出时只侧重于微观结构,进一步拓展到宏观要借助拓扑的概念。拓扑也是在几何上的再次抽象。  微分流形和拓扑的结合是当代物理的数学基础。 笔者也是一知半解,就不再多说了。

从以上几何的发展路径来看, 通过逐次抽象,建立更普遍的概念表示, 几何理论一次次拓展自己的边界。 数学本身更是如此。 从特殊到一般, 从实体到抽象,再到抽象的抽象, 建立更高级的概念层次,研究之上的抽象概念的结构和关系,可以得到更为普适和一般的结论。

回到一开始提到的计算机视觉。 我们不单单要理解三维空间的实体结构和之间的关系,这是古典几何研究侧重的”静态“内容。 更重要的是要研究从实体到图像的投影变换。相机在空间可以处于不同的位置和角度, 这通常是位置的,从相机得到的只有经过变换后的图像。因此研究不同变换下保持不变的那些东西是计算机视觉背后理论应当侧重的内容。而这正好符合几何学的现代定义。1827年,只有23岁的德国数学家克莱因在一个名字叫”爱尔兰根”的小城发表演讲,这篇演讲被后人称为“爱尔兰根纲领(Erlanger Programme)”。其中指出:几何学是研究空间曲线在变换群下不变性质的一门学科。

从不变性的角度来看, 传统的欧式几何对应刚体的运动, 其中形状的角和距离都是不变量。 欧式几何的进一步拓展是仿射几何,欧式几何中的不变量,在仿射几何除了平行性不变,角和距离都是可变的。 在仿射几何里, 正方形可以变换成平行四边形,圆可以变成椭圆,而任何三角形都是等价的。在仿射几何基础上,如果平行性也变化了,就拓展成了射影几何。射影几何下 平行四边形可以变成梯形, 所有的圆锥曲线都是等价的。

这样的拓展粗看上去失去了很多东西, 比如垂直性在仿射几何下就没有意义了, 所谓的三角形面积公式也不成立, 在射影几何里更是丧失了平行性。所有的直线都相交了。然而抽象的强大之处正是在这里, 因为存在着等价性, 可以研究特例来得到更一般的关系。 比如在仿射变换下圆和椭圆等价,根据等价关系可以很容易从圆面积公式得到椭圆面积公式。 此时任何三角形都是等价的, 因此挑出特例,比如直角三角形,在其上发现的某种性质只要不受仿射变换影响, 对所有的三角形都是成立的。 这实际上简化了问题的复杂性。

在计算机视觉中, 理想相机的变换在射影几何中是等价类,虽然无法保持形状的不变,图像里的直线对应空间中的直线, 通过研究图像之间的对应关系,就可以建立射影几何结构。而找到图像中的无穷远直线, 就可以恢复空间的平行结构,这样就升级到了仿射几何。 在无穷远直线上找到虚圆环点, 还可以进一步恢复欧式几何结构。 理解了背后几何结构的关系, 就可以方便设计面向实际应用更为稳定可靠的算法。

几何作为数学中的基础和非常重要的分支,贯穿从古代数学到最现代数学前沿的全部数学历史。又因为与直觉思维相关,具备强大的引导思维的能力,本文只是浅尝即止。从欧几里得到中西方的数学历史比较中可以得出结论, 只关注实用性算法早晚会原地踏步,卓越的研究工作应当关注揭示更深层次的结构,通过建立新的概念表示方法来持续拓展边界,这是可能得到突破贡献的主要路径。