视觉计算-理论还是实践?

这两天, 朋友圈里朱松莼教授的一篇雄文”正本清源:初探计算机视觉的三个源头,兼谈人工智能”刷了一遍屏. 据了解为写此文朱老师酝酿了好久, 因为计算机视觉和人工智能长期积累之后终于做出了work的东西, 需要技术产业升级续命的金融资本主义如同苍蝇见了血,疯狂的扑了上来.学术圈也难免浮躁, 处在这个时代的CV学生们幸也不幸.幸运的是因为人才争夺战,以前无人问津难找工作的AI博士们,现在一毕业就能拿到难以想象的高薪.不幸的是过于功利的时代,本该打好基础的学生阶段大家都忙于不求甚解玩数据调参快速发文章,如果将来做研究难免后劲不足.

借一句师妹的评论: 朱老师一出场自带千军万马. 当头棒喝也许能帮到今后想从事科研的CV学生. 朱老师的文章里提到了CV创始人David Marr(本文按中文起名习惯译作马大卫)的视觉计算理论. 勾起了当年回忆.  因此这里也借机写一篇小文谈谈马大卫先生的生平和工作.

我不久之前写过一篇文章回顾了一下自己曾经做过研究工作.  这里要再次感谢一下朱老师对我研究思路给予的指导. 2000年夏天朱老师在MSR china 访问, 当时开班指点了一下我们这些迷茫中的研究众生. 印象深刻的是, 朱老师上课一开场就说你们以前学的东西全是错的! 并同时指出正确的路径是什么.  十几年过去了, 朱老师仍然用强大的气场镇压宵小, 要挑双手大拇指来赞!

回到马大卫先生, 网上能找到的生平介绍比较简单, 马大卫先生在二战的尾巴,1945年1月出生于英国伦敦, 应当算是十分幸运的一代人. 其后有baby boom的一代婴儿潮小弟托势, 非常容易做出成绩(类比中国生于80年代出生高峰之前的一代人较易成功).

马大卫先生的学生阶段是奔腾咆哮的五十年代. 社会发展欣欣向荣. 他中学毕业于拉格比(Rugby School)学校, 是英国历史最悠久的私立贵族学校之一. 其后进入剑桥三一学院学习数学. 他高中和大学毕业时都拿到了额外的荣誉奖励. 妥妥的精英学霸. 本科毕业后又对心理学产生了兴致, 跟随英国著名神经生理学者Giles Brindley 学习. Giles在视网膜和颜色视觉的生理机制上有突出贡献. 本人同时是个音乐学家, 还以某方面的出格行为而著称(感兴趣的请自行搜索).

经过本科硕士数学,博士研究生阶段心理学,和神经生理学的训练, 马大卫先生于1972年获得博士学位, 他的博士论文就是有关小脑和视觉神经生理机制的研究. 毕业后, 马大卫先生来到了MIT. MIT是人工智能研究的发源地, 当时是人工智能领域的创始人Marvin Minsky在主导工作, 有一众AI大牛.

在马大卫的遗作视觉计算这本书的序言里提到: 他到MIT是应Minsky 和 Seymour Papert的邀请. 来到MIT之后,因为DARPA和NSF给了非常慷慨的资助, 并且有Whitman Richards和Richard Held(当时主管vision基金的人)特别关照, 可以”便宜行事”, 加上一众出色的合作者, 以及本人跨领域的背景和天分, 才做出来了开创性的工作.  以上列出的这些条件应该是搞出了不起研究的必要条件. 如果再有合适的时机加成,比如有大量的实验结果, 而理论解释青黄不接时. 就可以突破.

然而幸与不幸, 天妒英才, 仅5年之后, 1977年底马大卫就被检查出了白血病, 当时是毫无办法治疗的绝症. 在用尽各种当时的医疗手段都无法治疗之后, 人生的最后一年, 马大卫写了视觉计算这本书. 严格的说, 这本书在他去世时(1980年11月17号)还没有写完. 部分内容是他的合作者和学生补充整理完成的, 首版出版于1982年.

我手头的中文译本是科学院生物物理所姚国正, 刘磊,汪云九三位翻译的, 出版于1988年. 姚先生的也因为癌症于2010年11月去世了. 他是受过中国传统文学训练的一代学人,文字功底很好, 为了翻译这本书, 也倾注了很大的心血. 他当时主办了针对这本书的讲习班, 每一章都自己或者请人来讲, 反复讨论, 务求做到充分理解. 翻译全书几个学者大概用了三年时间.  因此中译本的质量也很高.

马大卫先生在书里提过这本书是为阅读乐趣写的. 他说的乐趣也许是思考的乐趣, 因为这本书实在是不容易读. 尤其对初学者, 常常会有每个字都认得, 连起来不知道在说什么的感觉. 但是经过思考后, 尤其是体悟到其中隐含的深刻思想之后, 确实会有很大的乐趣. 每每在学界有了新的事实发现之后, 重读这本书又会感受到以前未曾体悟的认识. 朱老师说他每年都会重读一遍都有新发现. 此言非虚.

马大卫在书的导论里总结, 从哲学意义上, 全书写的是视觉的表象(representation)理论, 也就是如何从外部世界投射得到内部表示的计算框架.  因此这个计算框架是个自底向上的单向流水线. 目前应用领域里涉及到的视觉任务, 比如物体定位, 跟踪,识别, 三维重建等等都大概可以归纳在这个计算框架下.  对现在的这类研究工作仍然有指导意义.

另一方面, 当年就有人认识到, 人的视觉形成机制, 并不仅仅是一个被动接收的表示过程. 人与环境是互动的, 其中包含的不单单是自底向上的计算, 还有意识的参与, 自顶向下的指导和主动选择.  视觉里有一个门派, 主动视觉就是专门做这个的. 我们当年也基于人的眼球运动的生理现象, 做了有关注意力的主动视觉计算的研究, 并归纳其为选择性注意力形成机制的视觉. 受困于当年的计算平台, 大家只能在初级视觉里打转, 理论并没有多少应用价值.   而目前机器人大热, 在相关的视觉应用中, 这一类工作应大有用武之地.

除此之外, 在2010年视觉计算这本书出了再版,  马大卫当年的合作者,目前仍是MIT教授的Tomaso Poggio 在新版中的视觉计算框架下补充了一个学习层.  并认为学习是视觉计算高层表示中非常重要的成分. 这样就更好的呼应了最近几年所谓机器学习的研究热潮.

就研究的方法论而言, 先实践, 还是先理论,各有一派人坚持, 互相之间争执不休, 也不大可能吵出结果. 而按照中国人的传统智慧和后来西方哲学家总结的辩证法, 事物的发展总是在互相矛盾的事物之间摇摆并且最后螺旋上升的.  马大卫先生三十年前就给出了视觉计算的理论框架. 但受困于当年的计算能力, 并没有获得多少实践上的成功. 而最近的深度神经网络在实践中取得了大大的成功, 却又缺乏理论的指导. 按照事物发展的规律, 在考虑去创业挣钱发财之外, 学者们如果能静下心来认真思考DNN背后的道理, 是否能有再一次理论突破的机会?