2016年就要过去了, 我们终将怀念她

虽然已经是年底了,又起了这样一个标题, 这一篇并不是年终总结, 毕竟2016还有大半个月。 这一篇主要想聊聊政治,经济大局, 也就是所谓宏大叙事。按照定义,宏大叙事是一种无所不包,连贯统一的东西。 其中内含了人类历史是符合因果律, 有始有终的理想构架的思想。 其内容是从现在出发,描绘未来,一直到人类历史的终局。正因如此, 宏大叙事现在是个贬义词, 因为过去曾有过的试图描绘终局的宏大叙事都被变幻多端的现实击的粉碎, 不管是共产主义还是福山的民主历史终结论。因此我们不谈终局, 就说一点小小的预期。

我们小时候学的政治课, 其实给大家提供了很多思想武器, 其中内容大多是人类思想的精粹。 但是以小孩子的理解能力, 弄懂其中的真实涵义实在是勉为其难。 因此政治课对大部分人都是儿时最讨厌的一门课。可无论如何, 就算你小时候能逃课, 也逃不掉考试, 这些东西都得背过。 一个人经历过历史就会在自己身上落下抹不掉的烙印。 所以讨论政治经济的宏大叙事, 脑子里自动出现一句话: 经济基础决定上层建筑(政治), 上层建筑对经济发展有反作用力。 这里就先从经济说起。

2016年的经济总体是一团乱麻, 从世界角度上讲, 全球经济复苏迟迟未来, 美国人靠玩弄数字又混过一年; 日本人继续借债, 透支未来;  欧洲更是一片内乱, 上半年先有英国脱欧,下半年各国都在讨论怎么对付刚刚放进来的新移民。主要发达国家如此, 做为资源提供方的资源国家和人力资源国家和其余失败国家当然也好不到哪里去。 中国经济因为体量已经大到自成体系了, 所以日子虽然也不好过, 相比之下,已经算全球最好的之一了。 这一年政府一直在去产能,谈经济转型。 上半年房地产小高潮, 下半年大宗商品小行情, 是死灰复燃,还是下一波大跃进? 以下分别简述。

先说房地产, 中国的房地产经常被当做替罪羊。 媒体动不动就嚷嚷房地产绑架中国经济, 其实他们是狗屁不通。 人的基本需求, 衣,食,住,行, 衣和食都是可以再生的。 行的一半,各种车船和飞机也是可以再生的。 行的另一半:路, 和住的房子都是不可再生的, 因为其中依托的土地是不可再生的。 被称之为能够自动升值的资产。我们祖先的传统智慧也说:只有土地才是真正的财富。 所以各国经济必然依托于房地产, 房地产也一定要大力发展, 需要批判的只是不能过渡泡沫, 长成癌症挤占其他资源。

房地产上半年抬头,被打压下去了, 目前是回落低潮期。 明年会怎样? 知乎上君临团队最近有一片文章:“前瞻2017,中国经济绝地反攻” 其中有个说法很有意思。 看看中国的人口, 从1987年出生人口高峰(2800万),到1999年人口出生低谷(1100万),  新生人口一直在减少, 特别是1991年(2000万)比1990年(2600万)足足少了有600万, 可以称得上是断崖式下跌。 而10年之后, 正是90年代出生人口毕业找工作, 开始买房结婚提供主力消费的年代。 这种人口断崖式下跌导致了整体消费能力的各种不景气。 到了2017年, 1991年的出生人口26岁,中国人买房的平均年龄是27岁,所以房地产商还要继续苦一年, 2017年是最苦的一年。 文章的思路是对的, 但是数字预期有点勉强, 2017年也许是最苦的一年, 但是2018年可能更苦, 因为毕竟出生人口还在下跌啊, 也许要到2019年,20220年, 00后上场, 房地产才有新的春风。

房地产决定了资产基础价格。 第二个是路, 前面说过路因为土地属性也是一种独占资源。 现在中国的高铁成网, 高速公路已经修的差不多的, 下一波大修特修的是城市轨道交通。 按照各个城市的规划, 很快全世界轨道交通里程最长的城市里, 基本就是中国的城市了。外加东京,纽约,巴黎,伦敦,一个主要发达国家一个大都市。 主要的投资资产增长模式,也许要围绕轨道交通来做。

资产谈完, 说说工业和产业升级。 工业4.0是目前最热的概念, 但实际上是个伪概念, 中国先玩工业3.0也就是工业自动化吧(YH.Xu 语录),路漫漫!  工业自动化需要AI,是本专业创业的用武之地。 而所谓产业升级, 抛开工业自动化这一块, 实际上是从实体产业, 升级成虚拟产业。文化类产品, 还有虚拟现实, 都是用来供人民丰富精神生活的。 大有想象空间。 这里也不展开了。

经济最后要说的是金融。 金融是经济的皇冠。 可惜我对金融是狗屁不通。大概知道金融是最带全球化属性的, 资本家不想翻墙。 所以搞金融的最不喜欢墙, 哪怕现实中墙是确实存在的。希望金融资本家们能多学一点点政治, 不要动不动就讲自由, 自由是金钱的自由, 我们都懂。你们其实也早就懂。要自我节制, 这样对大家都有好处。 中国的金融总体还很落后, 很弱小, 其实大家对墙也是又爱又恨。既然弱小就可以大发展, 要好自为之。

最后总结一下, 08年泡泡吹破了导致金融危机之后, 各种经济危机其实一直没过去。 要过去, 按传统的做法必须打仗, 消灭过剩产能。 但是现在因为核威慑, 不能打全球大战了, 怎么消灭过剩产能还不太清楚。所以危机就这么一直拖着。 有人吓唬大家说马上就要二次危机。不用怕!其实一直在危机, 虱子多了不痒。那么怎么消灭过剩产能? 除了中国这样愿意自我牺牲的, 还要有更多人牺牲。 希望某些地区的人民会起来砸工厂, 砸机器。 这样避免了打仗, 善之善哉也。 真虚伪, 我呸!

经济说完,就可以说政治了。既然经济基调已定, 没有看到什么出路, 大家就得继续比烂, 看谁先烂。 各国人民比拼耐力, 耐力不好的先乱, 牺牲小我, 拯救大家。 2017年是关键一年, 美国,英国新的大统领上台, 欧洲主要国家领导人都要换一轮了。 我们拭目以待。 2017年中国要召开19大,又将是继往开来的一届胜利的大会。体制优越性在此关头显得如此亮眼。 不禁让人竖起大拇指夸赞一下。

再说说美国大统领上台导致的地缘政治变化。 因为美国大统领不按常理出牌,学习元首那一套, 日,韩,台湾变数, 中国周边不会太平。但是元首那一套也没什么新鲜新,无非是试探加疯狂。 台湾早已没有那么重要,只要在疯狂的开始以疯狂回击,应该也不会热战。 看上去更大影响的是美俄可能联手。中美俄三方, 俄罗斯的倒向还挺关键。 不过我们国运昌盛, 局座早已一切尽在掌握中。

写到这里,觉得日子过得真快, 又是五年。庸庸碌碌, 无所作为。饱食而终日游,泛若不系之舟。 还是得修身齐家, 格物致知, 自勉!

(全文完)

 

 

有关AI的一点随想

今天的文章没有主题, 想到什么写什么

这两天业余时间翻完了一本讲古典音乐的书, 叫”乐之本事”. 强烈建议古典音乐爱好者阅读, 如果对古典音乐有兴趣也可以翻翻, 原书作者说他是写给爱好者的入门书, 其实他高看了爱好者的基础知识水平. 也许是想说的东西太多, 用了很多专业名词, 说起用户体验, 对初学者并不那么友好(职业病犯了).  但是读过总比没看好, 帮着做个广告.

其实原书中说的最多的还是审美, 不光是音乐, 所有的艺术, 甚至人生的意义. 归根结底是美学. 所谓艺术的科学是美学, 科学的科学是哲学. 其实美学和哲学是相辅相成的, 二者合一, 就是道.

谈及美学, 绕不开的就是李泽厚先生的美学三书, 这本来是三本书, 美的历程, 华夏美学, 美学四讲.  三本书各种版本不知出了多少, 也有就叫美学三书的合计版本. 美学也罢, 哲学也罢, 琢磨起来都费劲, 因此这类书一般都小众. 能出这么多版本, 已经是超出想象的影响力了. 也就是所谓绕不开的理由.

但是个人看法, 美学三书终归只是入门读物级别的东西, 要想深入体会, 还是得到西方的经典著作里去找. 中国人的传统美学, 李泽厚先生讲了很多很多, 但是不透, 最后还是得看金刚经,道德经和易经. 玄之又玄, 众妙之门, 太高, 一般人可能也够不着. 阳春白雪,应者寥寥. 高手寂寞, 又想布道,  真的是很矛盾啊.

李泽厚先生在建国后和朱光潜, 蔡仪,有一场著名的美学论战, 本来美学可以有很多种, 但是最后无产阶级革命美学总要胜出, 所以这个嘴仗要打. 打起仗来情绪激动, 就会超水平发挥, 为了争取围观群众支持, 也会说的比较直白. 强烈建议好奇的群众翻出史料去围观一下.

说了一大通, 没有半句AI,  不是关于AI的随想么? 所谓随想, 就是这样的啊.

其实本文是想说, 因为美学和哲学最高, 可以说是人类最上等的知识和成就. 要想做出类人AI, 不能只在工程里打转, 一定要搞懂美学和哲学.

继续跑题. 乐之本事这本书里谈到对音乐的审美, 因为音乐本身是个序列, 不像画或者图像一样能让人一开始就人掌控全局. 音乐一开场你并不知道接下来会听到什么, 在听的过程中, 一般人的的工作记忆容量也有限, 听到后面, 前面的也许就忘了, 没有一个全局的上下文可以依托. 因此音乐的主题都要反复重复,  从信息论的角度看,有大量的冗余信息. 即使这样, 仍然表现力有限, 存在信息量不够的大问题, 所以古典音乐发展到后期, 主流越来越依重唱, 贝多芬的第九交响曲, 最后是大合唱, 而我们耳熟能详的音乐, 大多都来自歌剧.  因为结合文字, 信息量才能更多.

创作, 可以认为是作者和读/听/观者之间一个传达信息的过程. 作品就是要传达信息的媒介和载体. 音乐又是一个非常特殊的例子, 完整的传递信息, 需要作曲的人和演奏的人合作来提供, 通常是各占一半, 作曲的人需要把自己的丰富感受压缩在乐谱上. 演奏的人虽然自由些, 但是仍然受限于手中乐器的表现力 (钢琴因为表现力最强, 被成为乐器之王) . 所以就算作曲者和演奏者都尽力了, 仍然不能提供完整的信息, 还有很大一部分需要脑补. 这就是为什么欣赏古典音乐需要一个学习的过程. 当然, 不学也能欣赏到一部分, 有人天生就敏感, 能自通乐理, 但是大部分人需要训练.

音乐/美术/文学这些东西, 归根结底都是大脑的安慰剂. 大脑天生喜欢探寻模式, 通过观察模式, 结合自身的记忆, 如果能总结出所谓规律, 大脑就会兴奋.   寻找规律的极致是就是所谓借此体悟到人生的道理.  从信息量角度上讲, 音乐,美术, 文学依次扩大. 但是从悟道的角度上讲, 听到音乐有所触动,最有可能悟, 美术次之, 读完一本小说悟道的最少. 因为压缩后的信息才是最精华的部分.

那么人生的道理又是什么的,  能让大脑愉悦的是两类东西, 一类是以多巴胺为代表的兴奋剂. 正向刺激, 高潮体验. 一类是以内啡肽为代表的安慰剂. 在经历过痛苦不适后的反向刺激, 对应的是舒适.  两类典型的毒品, 冰毒是正向刺激, 兴奋狂躁, 极端的会去吃人咬人. 海洛因和鸦片是反向刺激, 舒坦,昏昏欲睡. 两者都会上瘾, 前者比后者更可怕. 辣椒和跑步的上瘾是后面一种. 换个控制论的角度, 一个是正反馈, 一个是负反馈.

从系统论的角度, 管理一个系统的终极奥义, 是用负反馈约束正反馈, 没有适当的正反馈, 就是死水一滩. 没有负反馈约束, 系统不够稳定, 早晚就爆掉了.  那些管理公司的真正高手都懂这个道理. 大脑也是这么管理的. 所有的复杂系统,都是这么管理的, 才能生机勃勃, 又存在秩序.

BTW, 说AI说的太少? 我全文都在说AI. 就喜欢故弄玄虚

暂时就想到这么多,  谢谢观赏.

GPU,FPGA,还是ASIC? 浅谈深度学习计算的硬件选型

今天是Intel主导的边缘计算联盟成立的日子. 边缘计算这个中文名字有歧义, 往往让人产生靠边站,边缘人等不好的联想.其实边缘计算的含义就是在端上的计算, 为了与以服务方式提供的计算有所区别. 端上计算的概念喊了很久, 因为所谓物联网的起起落落, 也经历过波折. 目前物联网概念再次回暖,AI又 火的不能再火, 两者结合则让人越加兴奋. 因此相关公司要召开一次胜利的大会. 这里借势谈谈个人对深度学习计算硬件平台的理解, 企图从应用领域出发,梳理相关硬件选型和可能的机会. 学识所限, 错漏在所难免. 请批判性阅读, 如有不同意见, 欢迎留言讨论.

谈及硬件平台, 先看看市场上有什么. 目前在深度学习相关硬件平台上, Nvidia一马当前, 美其名曰AI时代的发动机. N家最先看好深度学习的应用机会, 并且在硬件特别是开发环境生态上全力投入. GPU硬件计算成为各家深度学习平台的必备品, 而大家似乎忘了AMD曾经在显卡比拼时代一直对标N家的GPU. 这是因为从开发环境上对比, CUDNN对OPENCL是秒杀.  N家的用心投入也得到了充分回报, 这体现在了不断飙涨的股价上. 可以说在深度学习模型训练上, N家的GPU平台是不二选择.

除了模型的训练, 更多的实际应用是用训练好的网络来做识别, 也就是inference. Nvidia在做inference上也有了充分的布局, 其推出的P4/P40系列和相应的面向INT8计算的支持, 又领先了一步, 在服务类应用上是新的标杆.  同时在端的应用上, 特别是安防相关的视觉计算领域, Nvidia 的TK1 又歪打正着. TK1本来是面向MID也就是pad设备推出的平台, 但是在平台竞争上被人殴打出局. 碰巧当时深度学习已经开始在视觉识别领域显出王者风范, 各家都使用Nvidia的计算库, 忽然发现因为nvidia的支持, 相关的计算很容易就可以迁移到TK1平台上, Tk1又适合部分端上比如智能相机的应用场景. 因此迅速占领了相关领域的应用市场. TK1和随后的TX1也成为类似应用的硬件选型参照物.

总结一下, 做深度学习的训练, GPU无敌, 做深度学习的Inference, N家在服务端有P4/P40, 在端上有TK1/TX1, 要想推出新平台, 要踏过参照物才能走下去. 那还有机会吗? 有的! 一旦结合具体应用, 就有数不清的机会, 市场还是非常大的.

以端上的应用来举例, 目前在市场上除了TK1之外, 唯一得到实际应用的就是Movidius. Movidius的芯片的特色是高度集成(片上集成了DRAM), 和低功耗(1W左右). 因此在特别强调体积和功耗的场合, 成为了唯一选择. 当然手机芯片在类似应用上也应有发挥空间, 奈何或许因为市场太小,手机厂家看不上, 手机芯片都没有面向计算的轻量级系统支持. 没有RTOS, 甚至没有嵌入式linux, 只能跑个andorid, 从内存占用, 启动时间等方方面面都不能忍受. 问题就是机会, 期望有良心企业有志于此类开发.

之前提到, 既然通用市场已经是GPU的地盘, 其它硬件存在的机会要看应用. AI相关或者深度学习相关从大的应用领域方面是三个方向, 语音,自然语言, 图像或者说视觉. 以下分领域再简单谈谈.

先说语音,  要坦白承认, 个人对语音应用并无深刻理解. 只是从基本概念上, 当年做动态贝叶斯网络时明白, 有向图的统计推断效率秒杀无向图. 所以语音相关的识别网络重在设计优化出特定的有向图结构. 同时考虑到语音的数据量传输在当前网络条件下不是问题, 所以语音的应用当以服务为主. 也就大致是GPU的市场.  考虑到网络仍然有延迟和连接等等种种问题,  在一些应用领域, 特别是所谓物联网, 也存在端上的机会, 而语音识别任务明确, 到目前为止相关技术和性能已经可以说比较成熟了, 算法一旦稳定下来,加上应用场景有量的支持,就可以考虑做芯片。 因此语音应用可能是最早做出面向深度学习应用ASIC的方向. 我们拭目以待.

再说自然语言理解和语义. 自然语言相关的领域应用是百度,搜狗等做搜索引擎公司理应探索的方向. 因此要做这个方向绕不开和这些搜索公司的竞争. 从应用特点上讲, 因为数据量极小, 因此基本不存在端上的机会, 应用应围绕服务展开. 而自然语言相关的深度学习应用特点是网络小,品种多, 百度为此开发了自己的深度学习库.  与这个领域应用相似的一个场景是服务器端的存储SSD, 因为要理解数据才能深度优化性能, 需要结合算法定制, 服务器端的存储SSD是FPGA应用的天下.  也许服务器端自然语言理解应用也存在FPGA的空间.

最后谈谈图像视觉,  大脑皮层里视觉相关的占一多半, 因此这一块是最复杂的. 从基本的应用场景出发, 大致可以分为感知类应用, 和交互类的应用, 感知类的应用, 又可分为被动感知, 比如监控, 辅助驾驶, 主动类的感知,  比如追踪, 机器人等等. 因为应用复杂,结合具体场景, GPU也好, FPGA也好, ASIC也好, 都存在机会. 举个例子, 交互类的应用强调实时性, 一定需要做在端上,  如果对功耗,体积没有要求, 需要GPU, 如果对功耗,体积有强烈要求, 可能要做AISC. 诸如此类, 可以单写一篇文章再谈.

写到这里, 基本可以收尾了. 在此特别想说的是, 深度学习相关应用领域相关的从业人员软件和算法出身的多, 很多人对硬件开发的周期不了解, 忽视了其复杂程度, 一言不合就要做芯片, 逻辑上很难成立.  一个硬件芯片的开发周期, 如果从零起步至少3年, 同时被忽视的还有面向应用不光需要芯片,还需要做出开发工具链toolchain, 这个可能比做芯片更难, 在有经验的人员操持下, toolchain以及相关的开发生态成熟可能又需要1-2年, 这样就是4-5的周期, 以深度学习领域的变化速度, 要看清4-5年后发生的事情而提前布局, 难之有难. 再加上各路大企业入局竞争. 小公司险中求胜可能是九死一生的荆棘之路. 这样就畏缩不做了吗?

知难而上, 与诸君共勉!

视觉计算-理论还是实践?

这两天, 朋友圈里朱松莼教授的一篇雄文”正本清源:初探计算机视觉的三个源头,兼谈人工智能”刷了一遍屏. 据了解为写此文朱老师酝酿了好久, 因为计算机视觉和人工智能长期积累之后终于做出了work的东西, 需要技术产业升级续命的金融资本主义如同苍蝇见了血,疯狂的扑了上来.学术圈也难免浮躁, 处在这个时代的CV学生们幸也不幸.幸运的是因为人才争夺战,以前无人问津难找工作的AI博士们,现在一毕业就能拿到难以想象的高薪.不幸的是过于功利的时代,本该打好基础的学生阶段大家都忙于不求甚解玩数据调参快速发文章,如果将来做研究难免后劲不足.

借一句师妹的评论: 朱老师一出场自带千军万马. 当头棒喝也许能帮到今后想从事科研的CV学生. 朱老师的文章里提到了CV创始人David Marr(本文按中文起名习惯译作马大卫)的视觉计算理论. 勾起了当年回忆.  因此这里也借机写一篇小文谈谈马大卫先生的生平和工作.

我不久之前写过一篇文章回顾了一下自己曾经做过研究工作.  这里要再次感谢一下朱老师对我研究思路给予的指导. 2000年夏天朱老师在MSR china 访问, 当时开班指点了一下我们这些迷茫中的研究众生. 印象深刻的是, 朱老师上课一开场就说你们以前学的东西全是错的! 并同时指出正确的路径是什么.  十几年过去了, 朱老师仍然用强大的气场镇压宵小, 要挑双手大拇指来赞!

回到马大卫先生, 网上能找到的生平介绍比较简单, 马大卫先生在二战的尾巴,1945年1月出生于英国伦敦, 应当算是十分幸运的一代人. 其后有baby boom的一代婴儿潮小弟托势, 非常容易做出成绩(类比中国生于80年代出生高峰之前的一代人较易成功).

马大卫先生的学生阶段是奔腾咆哮的五十年代. 社会发展欣欣向荣. 他中学毕业于拉格比(Rugby School)学校, 是英国历史最悠久的私立贵族学校之一. 其后进入剑桥三一学院学习数学. 他高中和大学毕业时都拿到了额外的荣誉奖励. 妥妥的精英学霸. 本科毕业后又对心理学产生了兴致, 跟随英国著名神经生理学者Giles Brindley 学习. Giles在视网膜和颜色视觉的生理机制上有突出贡献. 本人同时是个音乐学家, 还以某方面的出格行为而著称(感兴趣的请自行搜索).

经过本科硕士数学,博士研究生阶段心理学,和神经生理学的训练, 马大卫先生于1972年获得博士学位, 他的博士论文就是有关小脑和视觉神经生理机制的研究. 毕业后, 马大卫先生来到了MIT. MIT是人工智能研究的发源地, 当时是人工智能领域的创始人Marvin Minsky在主导工作, 有一众AI大牛.

在马大卫的遗作视觉计算这本书的序言里提到: 他到MIT是应Minsky 和 Seymour Papert的邀请. 来到MIT之后,因为DARPA和NSF给了非常慷慨的资助, 并且有Whitman Richards和Richard Held(当时主管vision基金的人)特别关照, 可以”便宜行事”, 加上一众出色的合作者, 以及本人跨领域的背景和天分, 才做出来了开创性的工作.  以上列出的这些条件应该是搞出了不起研究的必要条件. 如果再有合适的时机加成,比如有大量的实验结果, 而理论解释青黄不接时. 就可以突破.

然而幸与不幸, 天妒英才, 仅5年之后, 1977年底马大卫就被检查出了白血病, 当时是毫无办法治疗的绝症. 在用尽各种当时的医疗手段都无法治疗之后, 人生的最后一年, 马大卫写了视觉计算这本书. 严格的说, 这本书在他去世时(1980年11月17号)还没有写完. 部分内容是他的合作者和学生补充整理完成的, 首版出版于1982年.

我手头的中文译本是科学院生物物理所姚国正, 刘磊,汪云九三位翻译的, 出版于1988年. 姚先生的也因为癌症于2010年11月去世了. 他是受过中国传统文学训练的一代学人,文字功底很好, 为了翻译这本书, 也倾注了很大的心血. 他当时主办了针对这本书的讲习班, 每一章都自己或者请人来讲, 反复讨论, 务求做到充分理解. 翻译全书几个学者大概用了三年时间.  因此中译本的质量也很高.

马大卫先生在书里提过这本书是为阅读乐趣写的. 他说的乐趣也许是思考的乐趣, 因为这本书实在是不容易读. 尤其对初学者, 常常会有每个字都认得, 连起来不知道在说什么的感觉. 但是经过思考后, 尤其是体悟到其中隐含的深刻思想之后, 确实会有很大的乐趣. 每每在学界有了新的事实发现之后, 重读这本书又会感受到以前未曾体悟的认识. 朱老师说他每年都会重读一遍都有新发现. 此言非虚.

马大卫在书的导论里总结, 从哲学意义上, 全书写的是视觉的表象(representation)理论, 也就是如何从外部世界投射得到内部表示的计算框架.  因此这个计算框架是个自底向上的单向流水线. 目前应用领域里涉及到的视觉任务, 比如物体定位, 跟踪,识别, 三维重建等等都大概可以归纳在这个计算框架下.  对现在的这类研究工作仍然有指导意义.

另一方面, 当年就有人认识到, 人的视觉形成机制, 并不仅仅是一个被动接收的表示过程. 人与环境是互动的, 其中包含的不单单是自底向上的计算, 还有意识的参与, 自顶向下的指导和主动选择.  视觉里有一个门派, 主动视觉就是专门做这个的. 我们当年也基于人的眼球运动的生理现象, 做了有关注意力的主动视觉计算的研究, 并归纳其为选择性注意力形成机制的视觉. 受困于当年的计算平台, 大家只能在初级视觉里打转, 理论并没有多少应用价值.   而目前机器人大热, 在相关的视觉应用中, 这一类工作应大有用武之地.

除此之外, 在2010年视觉计算这本书出了再版,  马大卫当年的合作者,目前仍是MIT教授的Tomaso Poggio 在新版中的视觉计算框架下补充了一个学习层.  并认为学习是视觉计算高层表示中非常重要的成分. 这样就更好的呼应了最近几年所谓机器学习的研究热潮.

就研究的方法论而言, 先实践, 还是先理论,各有一派人坚持, 互相之间争执不休, 也不大可能吵出结果. 而按照中国人的传统智慧和后来西方哲学家总结的辩证法, 事物的发展总是在互相矛盾的事物之间摇摆并且最后螺旋上升的.  马大卫先生三十年前就给出了视觉计算的理论框架. 但受困于当年的计算能力, 并没有获得多少实践上的成功. 而最近的深度神经网络在实践中取得了大大的成功, 却又缺乏理论的指导. 按照事物发展的规律, 在考虑去创业挣钱发财之外, 学者们如果能静下心来认真思考DNN背后的道理, 是否能有再一次理论突破的机会?

 

智胜先师-人类能做出强AI吗?

看过我之前写的文章的读者应当知道, 我本人对于做出强AI是非常乐观的. 同时我也认为这并不是一件好事.  我的观点一直是在做出强AI引发系统内部剧烈冲突之前(AI和人的战争),必须先行拓展系统边界(宇航), 这些是由耗散结构的系统演化规律决定的, 不能以人的意志为转移. 不久前我也写过一篇文章, 大脑是如何工作的, 兼谈如何做出类人智能” 着重谈了谈思路.  整篇文章里最弱的地方是对记忆的解释. 当时想的也不是太清楚. 最近看了看有关知识表示相关的最新进展, 对睡眠的一些研究, 还有Jian提到的on intelligience, 觉得有必要再写一篇, 整理一下思路.

开宗名义, 飞机和鸟都会飞只是利用了同样的空气动力原理, 具体工作方式完全不同. 类比AI和人脑也一样.

前面一篇文章已经说过,目前最火热的深度神经网络是解决外界环境到内部表示的映射问题, 而且是头痛医头, 脚痛医脚, 只能是解决单一问题的工具, 一个子系统,最多是本我, 离强AI差很远, 而做出强AI的关键是通过知识表示把各个子系统连接起来, 其中的核心是记忆的机制. 有了记忆, 就有了自我. 下一步是解决多个AI之间的关系, 竞争合作, 是超我.

我的个人观点, 第一步, 学习各种映射,建立听觉,视觉, 五感运动等相关的子系统,这一步最难.这些功能大部分都是基因里自带的, 自然演化了数十亿年, 要靠人工赶上数十亿年的自然选择,当然难! 到了记忆自我意识,这些大脑皮层的功能, 大约只演化了数百万年, 学起来就容易很多. 而看似高级的一些东西, 比如艺术,文化,政治大约只有几千不到一万年的演化历史, 学起来就非常容易, 只要让有自我意识的AI自己玩,很短的时间就能玩出来. 而且AI玩出的东西无法预期, 也许是人不能理解的. 整个过程会越来越快, 并不那么遥远. 最近有报道说霍金,比尔盖茨反对AI的发展, 不知道霍金,比尔具体是怎么想, 但是我认为他们的担心是有道理的.

on intelligience 这本书主要就在谈记忆, 书中的观点, 大脑皮层的高级功能其实是通用的, 同样一块大脑皮层,既可以用来做视觉, 也可以用来做听觉. 这启发了大家思考是不是可以用一些比较简单的连接机制就能模拟. 书的作者为此建立了研究机构尝试了很多年, 受成书年代的时代局限, 书中建议的是一个7层的网络, 计算能力约束了想象力, 他们也不能做出什么东西, 然而相关想法是个很好的启示.

那么什么是记忆, 核心有两条,一是如何表示概念(系统的内部状态)以及概念的连接(知识,或者说是记忆), 一是如何有效学习获取知识(记忆).

对于知识表示方式, 长期以来一直有两派争执, 知识到底是确定性的还是不确定性. 不喜欢随机的人认为知识是确定性的, 而为了解决现实中大部分概念都没有清晰边界的问题, 他们搞出模糊逻辑等一套东西. 另外一派则认为自然的本质是随机的, 因此知识是对概率分布的表示, 推理只是对分布做采样. 这样往往会得到各种不确定的结果. 如果是在研究怎么做出工具, 当然确定性的东西大家更喜欢. 如果讨论模仿人, 那么引入随机性就是必然的.

最近搞知识表示的人终于扔掉了RDF, 三元组, 他们发现把实体和关系嵌入到一个子空间, 整体不光更有效率,而且效果也好. 这样终于往正确的方向迈出了一大步, 这两年在基础子空间表示方法上各种更新改进层出不穷, 效果也越来越好, 但是他们还是在搞确定的, 没有引入随机性. 需要再往前走一步.

至于知识如何学习, 简单的说, 任何模型在贝叶斯的框架下都可以学习, 关键是学习算法的效率是不是够高, 是不是能用当前的计算设备支持.  为此类比人的学习方式就很有意思, 人要学一个技能, 需要反复练习, 从一开始的主观意识, 练习再练习, 反复重复,最后变成潜意识, 就算学会了.

那么什么是潜意识?  人类学习经过总结最有效的方式就是刻意学习, 一万小时定律, 刻意学习其实就是在边界条件上学习, 要求太高学不会, 简单重复没意思, 比当前已经学会的稍难一点刚刚好, 会深度学习调参的人看到这里应当会心一笑. 你们别笑, 潜意识是结构学习, 主观学习是调参, 练习成为潜意识是学结构, 正确的结构一形成, 运算的效率就很高,  不再需要主观意识(监督指导信号)的干预, 技能就习得了.

另外一个跟学习过程紧密关联的事情是睡觉. 人为什么需要睡觉, 有各种解释, 也有各种相关研究. 最近的研究表明, 所有的高级生物都要睡觉, 甚至无脊椎动物也需要短时间睡觉. 有一种说法是说器官需要休息. 这个虽然正确但是没抓住重点, 需要休息的不是器官是脑. 脑为什么需要休息, 因为神经网络需要训练. 成批训练. 这不是空穴来风, 如果一个人长期睡不好, 典型症状就是记忆力下降, 学习能力下降, 各种东西看过就忘, 用的时候也想不起来. 同意上述说法就很容易解释这个现象, 因为没有训练好,所以没学会啊!

以上讨论记忆,知识表示和学习, 都是形而上的猜测, 也并不能推导出具体的算法或者计算模型. 但是我仍然觉得没有不可解决的障碍, 不同意作者观点的欢迎留言讨论.

从具体做事情的角度出发. 最最关键的还是效率, 包括计算的效率, 存储的效率, 计算和存储之间的通道效率. 尤其是存储, 做深度神经网络硬件实现的人已经意识到了, 把存储单元嵌入到计算单元中去, 整体的计算效率会更高.  现在的GPU甚至一些专门的神经网络硬件实现, 计算起来的瓶颈都在内存, DDR内存的带宽影响整个数据流的效率.

设计计算硬件需要考虑的核心问题是结合硬件实现和成本约束确定计算和存储单元的粒度以及架构方式. 目前存储仍然是分层结构的, 廉价大容量访问速度就慢, 访问速度越快,容量越小,成本越高. 这一是对计算很大的制约, 二是增加了架构设计的复杂程度.  因此除了摩尔定律以外, 新形态存储方式的进步, 将影响或者制约AI的进展,  直至所谓强AI, 奇点到来的时间.

回到本文的标题, 智胜先师来源于二十年前台湾一款游戏的名字, 游戏用这个名字也许是取了智胜和至圣的谐音. 先师孔圣人也被游戏当作封面. 这个游戏就是个做智力题的游戏, 没什么趣味. 但是标题含义深远, 人类学生都是可以胜过老师的, 一代更比一代强, 将来AI超过人类也是很自然会发生的啊!

 

 

做研究的奥义:象外行一样思考,象专家一样实践

最近跟同学朋友聚会,大家聊起近况,自己往往要感叹一句:“不做research已经很多年”。说话时颇似电影里一句常见台词:不混江湖已经很多年。这话说的五味杂陈,人入江湖, 还能走的干净么?从思考的角度,到做事的方式,只要混过江湖的人,都是一望便知。今天这篇小文就说说自己经验的总结。其中大部分不是自己的, 是从一本武林秘籍“象外行一样思考,象专家一样实践–科研成功之道” 里面学来的。 其实我看到这本书的时候, 自己就已经不太做研究了。 倚天屠龙记里的创立乾坤大挪移心法的高人,其实自己的内功不够, 只练到了第6层, 第7层心法是全凭想象写出来的。我也大抵如此,并没有最高级的内功, 只凭想象写文章。 读者君要学张无忌, 看到不顺的地方,自行跳过。也许是作者想错了,硬要练习就会走火入魔。

文章写多了, 往往就有了套路。 人不论做任何事, 都大概有三层境界。第一层是技的境界, 是做事情的具体技巧, 第二层是术的境界, 已经不再强调具体的技能,上升到了方法论的层次。第三层是道的境界, 术到一定深度需要道的配合,有了道才能突破障碍,无限展开。

举个例子, 比如小说里的武功, 一开是要学各种招式, 低级的有各大门派的入门拳法,剑法,后面循序渐进,有各种进阶招式,最后顶级的有少林七十二绝技之类。这都是武技。金庸后来写了一些高级货,比如独孤九剑,无招胜有招,很多人不理解,认为这是老头子故弄玄虚。而一些小说里最经典的场景, 光明顶上张无忌学会了乾坤大挪移,破遍各家武技。那怕招式不如人,都可以现学,然后招招后发先至。少林寺里鸠摩智和虚竹对攻,靠小无相功的运使,两个人玩遍了少林七十二绝技。这些其实说的都是术。有了术,只学武技的人都被通吃。再往一层是道, 到这个境界的人太少,基本上都不露脸。金书里现世可能武功最高的两个人:少林扫地僧说武功要用佛法化解,东方不败吹自己学会了天人化生,万物滋长的妙谛。这一正一邪都是道。有了道,葵花宝典就能压制独孤九剑。后来令狐冲对付学习同样武功的林平之,岳不群没有这么难,是因为大家以术对术,这些人层次不够,没有道的境界。

写了大一大堆虚无缥缈的武功,回来说research。 其实意思是相通的, 要是说技巧, 怎么做research, 至少要写一本书,或者可能要很多本书。

而道的境界是没法说的, 道可道,非常道。不能正面说,可以从反面说, 道德经里说的都是:什么不是道。道这种东西, 全靠自己悟,  而通常情况下,从术到道的进阶,要有生死体验。

第二层次的东西,也就是术,或者直白说是方法论是可以说的。术的篇幅都不太长, 比如乾坤大挪移写在一张羊皮上,小昭用手指头上的血就能让张无忌看一遍。要是一本书,以小昭的体格,恐怕血流干了也看不完。要学会术,需要技的配合, 没有技,光谈术会走火入魔。还是要先做几年research,从技巧开始学习, 切记切记。

做research的术, 或者说是金出武雄先生做research的术, 大致是这样的:

1.首先是心态, 做research不能太严肃, 要有趣。绪方先生说所谓有趣是指:精神上的放松,同时内心要认真对待。 这是辩证法, 一下子可能学不会,需要大家慢慢练习。心态放松以后, 让思维去奔跑,去飞翔,才可以有很多天马行空的想法。想法一开始可以很幼稚, 不要让现有的知识把自己框住。最好喝茶聊天跟各种不同的人多讨论,多思维碰撞,这些都是技。只举个例子,后面就不再说了。

2.要集中精力,深入思考,让自己成为问题本身。决定研究什么问题是做research最关键的事情。 发现问题需要创造力。很多人说创造力来自于灵光一现。有各种科学发现顿悟的故事。这是成功学的套路,只告诉你最容易模仿的。 顿悟固然重要,但是只说顿悟是故意的。 因为顿悟之前需要的长期思考很难。思考要集中精力, 跟自己过不去, 这是非常累和辛苦的一件事。 金出先生说他自己读研究生的时候,经常一周每天只睡2-3个小时, 还有连续74个小时只想一件事情的经历。 一般人想问题,3,5分钟就开始走神了。经过长期思考后,顿悟的时刻可以很快乐,据某些研究说是人能体验到的最快乐的事情, 这是大自然给做研究的人的奖赏。

3.创造力的基础是记忆,记忆需要在实践中反复练习。说一个人聪明, 会下意识的觉得他记性好。这是因为所谓创造构思是从记忆重组而来的。记性好是这一切的基础。 记忆是需要培养也可以培养的。 别再抱怨小时候的背书了,真的有用。 需要注意的是不能填鸭一样死记硬背,要在理解的基础上背。内容经过思考理解之后才能变成知识。知识需要反复应用和练习, 别再抱怨小时候做那么多题。

4.多和人交流,但别管别人怎么看。 又是辩证法, 做研究找问题需要思维的碰撞,因此需要多和别人交流。交流不仅限于专家同行,最好跨界。而找到问题之后,就要一条路走到黑了, 对自己的想法要够坚持, 不能轻易动摇。 问题不是那么容易解的,要不然也轮不到你了,各种挫折,错误会纷纷而来,这时的心情就象一句歌词:甚至让人开始怀疑人生。一定要挺住,才有柳暗花明。

写了4条,感觉就已经写完了,写来写去,说的基本都是怎么找问题。金出先生说做研究,找到一个好问题, 大约占6成功夫,剩下的就是努力用心解问题。金出先生的书名,“象外行一样思考,象专家一样实践” 主要说的是这个找问题的过程。

除了做研究本身,在现代社会,好东西也要宣传。 要把自己的研究写成好文章,要能出去给别人讲。这些金出先生的书里都有写,强烈推荐买一本回去仔细阅读!

翻开手头这本书的扉页,还有Harry送书给我的题字,是06年11月,到现在整整10年。金出先生是Harry的老师, Harry是我的老师。不知道我会不会去当老师。 做research的薪火相传,一代一代总是会让世界变得更好,人类生活的更幸福。那我们呢?

世界真乱!领导很忙!我想静静!

帝都最近是一趟开往南极的列车,每过一天都要冻死几只企鹅。 万幸我家搭了个自采暖的小站,让它可以临时停泊。 比起天下纷纷扰扰,各种大事件层出不穷,冻不冻死只是青萍之末吧。自从白左们搞了所谓政治正确,又几十年,世界终于要毁在女人手里了。各位女权看了别生气, 我就想吐个槽。

当前世界是有史以来女性领导人最多的时候.欧洲两个老牌强国英国,德国都是半边天当家。 美国大统领也几乎要落定在女人手里。 中国周边,女人当过家或者有很大影响力的还有, 韩国, 缅甸,泰国… 。要挑她们的毛病,默大妈打开欧洲边界,放进百万难民,恐怕是欧洲盛衰的历史转折点和标志性事件。 最近的新闻热点基本上是围绕的美,韩两家的女主转的, 各种八卦,狗血层出不穷。 这个世界是怎么了?

也许跟中国文化喜欢坐而论道相关, 在中文互联网兴起的过程中,时不时会出现一些观点犀利,引领潮流的论坛型网站。 从早期的四通利方,榕树下,新语丝到中期的泡网,西祠,再到后来的水木,天涯,各领一时风骚。海外也有华人必看6Park,文学城等等。特别是08-10年左右有个西西河可谓精华汇总。 西西河有些比较奇怪的制度, 比如认证需要拉票,砸花送宝之类的,有一定门槛,像是一个熟人社会。 我就因为这个门槛所以只看不发言。而大牛好扎堆,西西河当年可谓群星闪耀。 有人写历史,有人懂政治,有人分析经济。 比如陈经的大作:官办经济就是在自由派话语权下最早跳出来反对,又能描述中国现状的好文章。 抱朴仙人写的九段线和南海问题因为去年的南海热点被翻出来又热了一遍。他的另一篇建国后三次财税改革的文章是理解中国政经现象的一把钥匙。 还有万里风中虎的远华系列各种八卦描述了政商如何勾结。更有忙总这样曾经的体制内人士言传身教,帮助大家立三观。可以说, 我理解政经现象的全部思路都来自于西西河。

金庸的鹿鼎记里面取笑满清当权者没有文化, 说他们就懂戏文里的三国,凭借这一点儿大部分都是编造的计谋故事取得了天下。 明朝的大儒们通读二十史和诸子百家,碰到戏文三国, 竟然是人有狼牙棒,我有天灵盖的下场,让人不胜唏嘘。 我这西西河学来的半吊子, 看到那些侃侃而谈的政经大家,也有几分,庙堂之上何置于此的感慨。

那么当前政经乱象该如何理解呢。 六月份我刚开始提笔写字的时候,新闻热点是宝万之争和英国脱欧, 当时在一篇短文里总结了两条大势:

  1. 民主政治民粹化
  2. 金融整合产业资本。

一条说的政治,一条说的经济。怎么理解?本文先说政治。 政治的核心是利益分配问题。

当前时代的热点是AI, 有人说AI是自农业革命, 工业革命, 信息技术革命后的第四次产业革命。 每一次产业革命都会大大的促进生产力, 物质会更丰富。 我D总结, 中国社会主义初级阶段的主要矛盾是有限生产能力和人民群众物质需要的矛盾。所以要大力发展经济。 那么生产力发展了,物质丰富了,矛盾就能自动解决吗? 恰恰相反, 回顾历史,每一次产业革命的时候, 生产力大发展,都是社会矛盾最激化的时候。

为什么? 因为有了物质, 还要解决分配问题。 而分配是一场博弈! 掌握先进生产力和资本的人,永远是少数。 当生产力革命时, 会大大加强这少数人的博弈能力。 他们将占有更多的资源。 被动接受生产力革命的大部分民众会更加困苦。 有个研究曾经给出了一个数字2%, 也就是每次技术革命的受益人口在全人口中所占的比例大致是2%。剩下98%都是利益受损者。

当前的纷纷乱象就来源于此。 信息革命大大加强了世界的连接,缩短了空间距离, 地理不再是管理的障碍。通讯手段的进步让信息传递的效率更高,这在增加了组织的规模的同时,推动了全球化, 出现了很多巨无霸型的公司。 所谓世界是平的。 一个组织的工作人员可以同时分布在世界各地,资本期望着在全球无障碍的流动, 哪里最有利益就去那里。 于是中国的工人凭借低收入自然就能抢夺美国工人的饭碗。

民主政治的有效运转是建立在基本利益相同,也就是橄榄型社会,一亿总中流的基础上的。  基本利益不能一致,民主就会运转不良,变成撕逼大战。所谓的民主失败国家包括台湾的种种乱象,都是来自于此。美利坚也在往这条大路上狂奔。

美国的犹太精英们推动全球化, 抛弃了美国的中产阶级。在全世界挣钱, 又有各种手段避税。 为了保证自己的政治利益, 他们大搞喂奶主义, 靠福利制度笼络底层民众的选票。女克就是他们的代言人。民主党在美国的政治光谱上属于左派。 左派为了要钱来笼络底层票仓,与传统属于右派力量的大资本苟合, 现实就是这么反讽。

O8大搞福利已经8年了,实质上已经造成了美国财政的破产。 O8的8年, 美国的国债增加了一倍, 目前是gdp的119%。 2015年光利息就要支出4943亿美元(比2008年翻了一倍), 占财政支出的12%,而美国的国防预算不过5千3百多亿。 美国的政府财政已经有60%用于社会福利。因为税收的减少,福利支出的增加,投入在教育,科研,基础设施上的预算被不断消减。 这是对未来的透支。 O8同时还在全球开战,消耗美国的实力。 他留下的这个烂摊子本来就极其不好收拾。

出来混早晚是要还的, 要解决当年奢靡导致的问题, 就得过一段苦日子。这样必将惹恼吃福利的民众。人民不高兴, 乱象就纷纷而生, 最可怕的是他们会依托宗教对抗。 因此要上台的领导人需要有足够的威望,极敏感的政治嗅觉,强大的内心,和丰富的政治经验来把控民意。只有这样才能对抗民众的反弹。以上素质要求很少在一个女性身上看到, 女性喜欢各方平衡。因此才有本文开始的吐槽。 川普这个死胖子有这个能力吗?存疑。

技术革命抛弃的底层民众,如果无人安抚, 对现世的绝望,会让他们自然而然寄托于各种宣扬来世和天堂的宗教。 而一个宗教如果有活着的教主, 就是邪教。 因为活人的私欲不可阻挡。他们对自身地位的不满,对获取更多利益和名望的渴望会导致社会的冲突和混乱。

那些能自创一派的人物更加危险, 他们在草根社会磨练出来的本事,恰恰符合前面提到的卓越领导人该有的能力。对他们来说,不成则死,这是生死之间的考验。 这不是养尊处优的上层社会精英可以比拟的。 所以精英社会需要给这样的人物留一扇门,之前文章里提到的武则天就是个例子。 武则天来自底层, 一个女人单挑了一群高富帅, 掌控大唐40年。 但她毕竟和关陇贵族们相爱想杀,建设多过破坏,这是正面的例子。 而更多的史实是进阶之门关闭,出现各种在下面胡搞的张角,洪秀全之流的坑爹货。

当今世界会如何,不知道。 但是世界之大,应当能放得下一张书桌。 推背图在神棍之后,结尾说:

茫茫天数此中求
世道兴衰不自由
万万千千说不尽
不如推背去归休

我们可以去做个泰式按摩,做个足浴。 物质毕竟丰富, 可以比古人享受更多!

 

 

 

 

 

 

 

双手交互的前世今生,以及对未来交互的展望

这两天朋友圈的一篇文章在刷屏, 题目叫微软发布了一款设计师神器。 该神器除了酷炫吊炸天的设计(其实长的好像lenovo3年前的某个获奖机器啊),更吸引人是附带了一个创新硬件和围绕这个硬件设计的新形态交互方式: 双手配合。 听说设计师看到了都大丈夫。

一看这种交互方式,就想到了一个人:用户体验和交互设计界的大牛Bill Buxton。大家都熟悉苹果重新定义智能手机的故事。苹果用电容屏多点触摸革新了交互方式, 把黑莓诺基亚等一票在键盘机时代不可撼动的名厂送入了地狱。而多点触摸最早的概念提出和原型就是Bill Buxton等一干人在多伦多大学二十几年前做的工作。一方面要赞Bill Buxton先生的远见卓识,另一方面也可以看出一个真正创新的交互方式从原型到成熟的技术要多久。而且需要乔布斯这样的天才人物在背后强力推动。 Bill Buxton先生在双手协作方面也做了二十多年的工作。 微软刚刚推出的产品, 肯定是延续了他的思想。 本文在此讲一讲双手协作这种交互方式的来龙去脉,并借这个话题简单讨论一下未来交互的走向。 有关双手交互的主要内容都来自于Bill Buxton先生的个人网站http://billbuxton.com/。 该网址强烈建议人机交互和设计相关的从业人员收藏。

Bill Buxton先生或者说大师有多牛,可以找时间单独写一篇文章。简单的说, 作为人机交互和设计界的元老之一, 他做了很多开创性的工作。 之前提到的改变世界的多点触摸就是其中之一。 Bill Buxton 同时对双手交互感兴趣。 人是长着两只手的, 我们平时做事, 都是用两只手在配合。 从历史角度来看, 键盘命令行时代是两只手操作, 到图形界面鼠标时代, 忽然只用一只手来点点点了。 什么?你用一只手敲键盘,一直手握鼠标打游戏,这位同学请你出去!总之两只手配合起来才有高效率。 那么在触摸界面两只手应当怎么用才能效率更高呢? 什么?你用一只手握手机,另外一只手点击。 这位同学也请你出去!

天下没有完美的事情, 就交互设计来说, 需要针对一个特定场景来把握各方面因素的平衡。比如要追求交互效率的最大化,通常就需要一个比较大的交互空间, 这样是以不能移动为代价的。 Bill Butxon谈到的双手交互就是针对效率的提升来设计的, 我们看到的是大屏, 专注等属性。

对效率的追求还可能会让交互变的很复杂, 对普通人来说就成了门槛。而学会这种交互本身就是一种工作技能, 可以用来挣钱。 比如设计师会在找工作的简历里面列出会用photoshop,flash等等。Bill Buxton曾经在自己的讲座里谈到过是design for fun(大众) 还是design for work(efficiency,小众)的问题。 微软的这个新品放出的视频太少, 还不能看出有没有追求效率的极致? 是不是可以作为一个设计师的创新生产工具?当然曲高和寡, design for work的市场要小很多, 就算卖的很贵, 也不能挣大钱。

回到双手交互,重复一下观点, 双手并不一定比单手好,各有适用场合。 双手交互主要是为了提升效率。做一个工作, 想要提升什么, 先要能够测量什么。 这是一般道理。否则就没办法掌握方向,科学研究会变成瞎猫撞到死耗子。 而面向当前的图形界面, 学界评估效率的方式是fitts law 和steering law, 有时间可以去看看翟树民博士的文章,这里就不展开了。 对于双手操作, 问题比较复杂, 不能简单的沿用fitts law, 因为fitts law是只针对鼠标这样点击设备只有一个点的。 双手的时候起码有两个点。

为了分清楚效率问题, 需要进一步把具体操作分成离散类型的和连续类型的。 离散是指敲键盘这样的动作, 都是一下一下的, 而连续是指鼠标光标的定位或者手指的滑动。 两个手都离散最典型的就是敲键盘。 刚才出去的同学请回来, 一手键盘,一手鼠标, 就是离散加连续, 一手一个鼠标或者双手在屏幕上抓来抓去就是连续加连续。 各有不同。 再进一步追究, 双手配合还有是不是同时在动作的问题, 敲键盘虽然看上去是两个手都在用,但实际上一个时刻只有一个输入, 打游戏就不一样, 两手会同时动作。 哎呀呀, 搞那么多,分那么细干嘛。 做研究就是这样, 一点都不酷, 好枯燥。。。

只有分的够细,把握每一个细节,各种差别之处都搞清楚才能给效率一个清晰的指标。 因为还有数学公式, 具体内容这里就略过了。只谈谈设计思路吧, 如果让你设计一个双手的交互操作, 你会怎么做?请停下来思考片刻。

当然,设计不能凭空想象,需要观察。 那么人平时干活的时候, 双手是怎么配合的? 一个例子是写字。 很多人以为自己写字是一个手的事, 实际上不是。 通常写字是两个手在同时动作, 一个手写字, 另外一个手在移动本子, 这样写的那个手可以一直保持比较顺畅的姿态。 如果把本子的移动去掉, 光靠一只手写出来的东西长的象这样:

writescript

图中左边写的字,如果拿掉本子的移动,就会变成右边那样。写字代表了一大类双手操作的配合方式, 一只手用来做辅助, 另外一只手输入。adobe曾经有一个硬件,adobe尺子, 就是这种思路。可以被称为right to left hand reference。

adobe-pen-ruler-600x316

从另外一个角度看, 一个手的动作大, 一个手的动作细微, 所以也可以称为Macro -micro 配合。

在上述方式下, 双手的配合是各自任务不同, 但还是有一些动作,两只手的角色并无显著差异的, 比如这样:

writescript2

其实敲键盘,弹钢琴两个手的动作也都差不多。 具体到设计, 既可以区分两个手的任务, 又可以两个手不区分。 双手配合。 比如一手抓住一个虚拟物体, 另外一个手来改变属性,做缩放,改变颜色之类的操作。 还可以让一手指定某个操作, 定义另外一手的动作的属性。 比如按住画折线的图标, 你画出来的就是直线段。 等等等等。

Bill Buxton先生研究了很多笔和touch配合的操作。比如这样的, 用手选一个虚拟工具可以沿边画线把照片裁开

pen1

比如可以用一只手touch,选择另外一只手写字的笔迹。

pen2

笔的输入只是一个点,一个二维的坐标。微软这次搞了个图章和touch配合。 可输入的包括图章的位置和朝向。 多了一个朝向作为连续输入的维度, 可以更炫酷。 最终是不是能大幅提升效率, 要考设计师的功力, 也就是设计师对目标任务和交互本身的理解,还待稍后观察。

一个面向效率提升的设计, 其价值上限是支持任务本身的价值。微软的office是面向大众的, 而设计师是个小众群体。  面向设计师也终究是个小众产品,做到极致都不会有太多受众和影响。何况还有曲高和寡的道理。 一时新鲜过后,终会归于平静。

双手操作是面向效率工作提升的一种,只能适用于非移动的场合。在手机和各类移动设备作为趋势和方向不可阻挡的时代,虽然效率工作或者说pc 有其自留地,在一定期限内不会消失(因为摩尔定律还在起作用,当手机的计算也过剩了的时候, 还是会被手机芯+pc壳子取代), 但也不会再增长。

每一次交互的变化,都会引入新的软硬件平台, 创造新的机会。 旧时代的恐龙公司会死, 引领创新的公司会活。 这一代驱动创新的公司, 很可能会成为下一代交互革命中的恐龙。

因为pc的革命, DEC之流早已消失。 在移动互联时代, 当年的弄潮儿,现在的pc巨头们都正在痛苦。 微软的恐惧也在于pc的消亡,长期来看,windows将不再是通杀的利器和竞争优势。 然而潮流趋势不可逆行。

手机作为移动平台, 也有消亡的时候, 下一代的平台是AI+AR。AA时代, 交互会是能够理解人意图的真正自然交互, 而语音界面和个人智能助手是第一站。

从时代变迁中生存的唯一特例是IBM, 只有会革自己的命,才能活下去。IBM已经冲到了AI的最前线。 移动互联时代的弄潮儿 Facebook, Google都在拼了命的做AI, 微软,Intel 自然也不甘落后。 那么未来是谁的? 也许是中国人的:-P.

 

 

 

 

 

 

 

如何写出一篇好文章.

周末朋友聚会, 大家聊天问起我最近为什么忽然开了公号? 回答是因为调整了作息习惯, 每天早上起来到上班工作之前, 有1到2个小时时间, 本来是计划用这段时间来读书, 几次后就发现也许是年龄大了, 如果只看不写, 看完不久就忘光. 于是决定做做读书笔记, 顺手写几句. 写了几句之后发现这段时间其实刚刚够写一篇不长不短的文章, 一边可以整理自己的思路, 一边可以帮助记忆. 写下来的东西一开始放在博客上, 同时在朋友圈发个链接. 但是从微信访问博客有各种各样的问题. 有朋友就建议为什么不自己弄个公号? 就有了这个公号. 公号到现在开了两个多月, 大约写了有不到二十篇文章. 虽然我不是一个勤勉的作者,  但也找到了些许写字的感觉. 今天就来说说怎么写字: 如何写出一篇文章?或者更奢望一点, 写出一篇好文章?

因为一直从事研究类相关的工作, 长期受到的训练就是要做一件事, 先问为什么? 那么要写文章, 就要先问为什么要写文章? 目的是什么?

先追根溯源. 文章是文字, 文字来源于对语言的记录, 是语言的存储方式. 语言是人和人沟通的工具, 有了语言, 才可以表达思想. 特别是抽象的东西, 所谓人类简史里构成人类社会的基石: 各种共同想象物, 都得凭借语言, 也只能凭借语言才可以表达.  因此语言就是思想的载体.

然而语言是活的, 如果没有文字记录, 只能口口相传, 那么内容会一直在变, 只有变成了文字, 才能锁定其中包含的思想. 所以文字是语言的尸体, 也是思想的长期载体, 更是通向永恒的唯一路径.

中国古代传说仓颉造字. 仓颉是个重瞳, 也就是有一只眼镜有两个瞳孔, 两只眼睛四个瞳孔. 史书上记载中国古代这样的人一共只有九个, 舜、仓颉、项羽、重耳、高洋、吕光、鱼俱罗、关羽、还有李煜。每个人都有其独到之处. 仓颉的独到之处就是他四只眼睛都用来观察,每天都在研究各种山川脉络,鱼虫鸟兽, 通过研究这些纹路和虫兽的脚印就发明了汉字, 并用它来取代结绳记事这种简单的记录方式.  传说仓颉造字成功之时, 白天下了一场粮食雨, 这是上天对他的祝贺, 到了夜晚鬼神嚎哭, 因为从此人进入神圣领域, 鬼神再也不得安宁. 这就是文字的力量.

回到文章, 文章是用来传达自己的精神世界的. 可以传达的内容多种多样, 可以是对某种现实的描述, 可以是观点, 也可以是感情.  但如果事实,观点,和感情这三者都没有, 文字就空洞无力. 写文章的人也许还可以自娱自乐,别人一定不爱看.

所以要写出文章, 首先要有内容. 而内容来源于对现实的观察. 一个好的作者必须观察敏锐, 需要在生活中有所体悟, 才会有想要表达的东西.

其次要掌握写作的技巧, 写作也是一门通过学习获得的技能. 需要有老师教, 需要长期的训练.  刻意学习, 一万小时定理, 同样适用.  刻意学习的关键是要因材施教, 每个人的习惯思维方式不同, 都需要通过练习形成自己的技能. 我自己写文章的习惯总结一下大概有以下几点:

  1. 写文章要一气呵成.  写东西之前要注重积累,想好了再写, 如果没想清楚, 宁可不写. 写东西不要打草稿, 不要改来改去. 这样出来的文章才有连贯性, 也就能自带气场.
  2. 写文章要开门见山,  上来就几句话讲清楚观点, 让别人知道你要说什么, 然后在展开, 不能卖驴三页不见驴字.
  3. 写文章要力求简洁. 能用一句话说清楚的事情, 不要写两句. 写完要回头读一读看, 是不是文字啰嗦了, 能不能有更简单的表达方式.
  4. 写文章要有层次.  要层层推进, 先讲简单的再讲复杂的, 可以让人渐入佳境.  文章展开后还要再慢慢收拢. 帮助读者整理思绪.  结尾处可以点题呼应.

以上几点如果都注意到了, 就能写出一篇有简单明了,有说服力的文章. 再重复一遍, 要做到随手就能写出能读的文字, 没有捷径, 只能多多练习.

这样的文章, 也许有气势, 有力量, 但是还不能说是一篇好文章. 好文章是人们喜欢传诵和称赞的那种.  更好的甚至能流传千古.  其中的区别在于感情, 在于审美.

对同样的一件事, 可以有不同的表达方式. 文字作为语言的载体, 自带语言的韵律. 好的文章, 适合大声朗读. 承传启合, 有节奏, 有乐感. 这种文章的极致是诗词, 诗词都是可以唱的.

要把文章提升到这个层次, 还是要靠大量的积累, 要学习文字语言的知识, 要熟读记诵古文诗词的名篇, 要掌握丰富的词汇. 看到美女不要只会说漂亮. 更不要搞歪门邪道耍小聪明, 弄一些蓝瘦,香菇之类的东西. 过于流行化的东西都浅薄, 几个礼拜人就忘了. 文字写成这样会速朽.  最后也是最关键的, 要和文字谈一场恋爱,要有感情.

文章的最高的层次是流传千古, 可以通向永恒. 这样的文字要载道. 有道在其中. 虽然大千世界, 道有万千, 各有不同, 但共同之处是要藏虚, 要留白, 要空. 要留出空间让读者能结合自身的体悟而有所触动. 这是一种审美, 也是一种修炼. 通常只能靠天赋.

文章的结尾说一个很多人小时候都知道的故事, 李白来到黄鹤楼, 看到眼前的景色本来想做诗, 却很不幸看到了崔颢的名作:登黄鹤楼:

昔人已乘黄鹤去,此地空余黄鹤楼。
黄鹤一去不复返,白云千载空悠悠。
晴川历历汉阳树,芳草萋萋鹦鹉洲。
日暮乡关何处是?烟波江上使人愁。

李白佩服的不得了,只好说: 眼前有景道不得,崔颢题诗在上头. 就遗憾的走了. 这个故事可能是后人的附会. 但李白确实在自己的诗里面多次模仿了这一篇, 其中最有名的是登金陵凤凰台:

凤凰台上凤凰游,凤去台空江自流。
吴宫花草埋幽径,晋代衣冠成古丘。
三山半落青天外,二水中分白鹭洲。
总为浮云能蔽日,长安不见使人愁。

几乎是个山寨版. 不知写这诗的时候李白怎么想, 是想拿复刻版来致敬?

古人有评论认为唐朝七律 登黄鹤楼 为第一.  你同意吗?

 

茶与咖啡文化篇之茶道

coffee

这是我开始动笔以来写的最不痛快的一篇文章。 快餐时代大众已经没有耐心看太长的文字。 而文化这个话题又实在太深太难, 如何在短短一两千字的小文写出些许味道实在是很为难的事情。 最后决定还是写成冈仓天心名著茶之书的读书笔记,这本书是一百年前冈仓用英文写的,用来向西方推介日本的文化。所以相对来说,通俗易懂,当然也比较浅。 我对茶文化的理解并没有超过他,那就跟随他的脚步吧。 因为篇幅的约束和个人的爱好做了取舍, 所以强烈推荐有时间的人还是读读原书,并不长。

分段仿照原书的章节


中译本的书开篇有日本名教授藤田一美给中国读者作序介绍背景。 开宗名义, 日本文化源于中国, 在十六世纪后, 日本通过贸易接触到西方, 除汉学以外, 又开始学西学。 日本文化从来就是谁强学谁, 并没有大国的抱负和负担。 十九世纪美国炮舰打开日本,当时日本启蒙思想的代表人物西周说, 余深感非学西学,今后不足以立身行路。 中文里很多现代词汇是从日本转来的, 其中一些最基础的, 比如哲学, 主客观,归纳,演绎,义务,权利,还有艺术,美术等都是西周首先使用的。 日本被打败,所以西周,津田真道为代表的第一代人是推崇完全西化的 。 到了第二代,也就是本书作者岗仓天心这一代, 日本打赢了甲午战争,日俄战争, 建立了初步的自信。 福泽谕吉等人仍然坚持全盘西化, 岗仓天心则看到了西方的问题,开始推崇汉学为本,西学为用。于是用英文写了这一本书, 向西方介绍东方文化。这本书写于日俄战争刚刚打赢后的1906年。中国对西方文化的态度,又何其类似? 以下是正文。

第一章 人情的碗
岗仓以茶碗作为切入点,总揽了一下茶文化。茶一开始出现, 是药材, 后来就称为饮料。从唐朝开始,称为了高雅的享乐,随后因为禅宗的影像,变成了审美的宗教, 日本的茶道,源于唐,成于宋。茶道本身, 是源于对人生不完美的崇拜,就象明知人生难以成就时,仍然希望有所为的温和企图。

茶影响了日本人生活的方方面膜, 日本人会说一个人没茶气, 意思是他对生活中亦庄亦谐的趣味非常愚钝。茶的精神,不同于西方对酒神的无止境献祭,而是孔子惬意的宁静,老子犀利淋漓,以及佛飘渺的风韵。只有感到自己伟大处渺小的人,才能看到渺小之处的伟大。一只碗中见宇宙。

茶传到西方是十六世纪, 推动者是荷兰的东印度公司, 到十七世纪, 开始在西方上流社会流行,十八世纪最盛时, 英国的咖啡馆里实际上主要喝茶。塞缪尔.约翰逊说自己是一个顽固的饮茶者。而少数理解茶道的查尔斯兰姆说,我所知道的最大快乐, 就是暗中行善,并偶然发现它是善行。隐藏且可以发现,不敢表白的暗示,正是日本茶道的核心审美。

作者同时抱怨,西方在日本沉迷于温文尔雅的艺术时,把日本当作野蛮的民族。 而当日本在满洲战场大屠杀时并打赢了俄国时,就变成了文明的国度。何等的讽刺!

第二章 茶的源流
茶作为艺术作品,有高下之分,但是并不是只有唯一正确的方式。不同流派,沿革于历史的流变。 此时岗村说了一句名言:当你没有伟大的内心可以隐藏时,才会过多的在小事情上展示自己。
中国的茶在公元四,五世纪就有文字记录, 但当时的做法非常原始,茶叶先蒸再碾碎,做成团子,和米,姜,盐,橘皮,香料,牛奶一起煮。 这种原始的状态,在现在的牧业地区,仍有保留。
提升茶境界的第一人是唐朝写茶经的陆羽。陆羽生于儒释道开始贯通融合的年代, 他给喝茶制定了仪式, 期望从中体悟宇宙的秩序。茶经各章,分别讨论了茶树的本性,采茶的工具,选茶的方法,各种茶具(论述了二十四种),制茶的方法(包括水的选取,著名的 泉为上),以及一些茶人的历史,著名茶园和茶的变种。 中国的瓷器来源于对玉的模仿,不同的追求,与饮茶的方式紧密相关, 陆羽推崇青瓷,因为可以增添茶水的颜色,而白瓷会让茶水变粉,看上去很无味。这是因为他泡的是团茶。
宋朝开始,抹茶流行,茶叶被磨成细粉,放在热水里搅打, 茶汤里也没有了盐。宋人不再过度追求结果,开始重视过程。饮茶不光是一种消遣,而是自我实现的方式。抹茶适合装在深蓝或者黑色的厚茶碗里。 日本最有名的茶器,国宝 曜变稻叶天目盏 就是一只宋代的黑茶碗
明朝崇尚自然, 茶叶不再被各种研磨, 保持原样直接放在水里。 这样的茶汤适合白瓷。 因为泡制的过程越来约简单, 茶具就变的越来越复杂, 作为泡茶用具的紫砂壶就单成为一种文化。
岗仓文中直说因蒙古入侵,唐宋的文化中断,被日本学了去,中国人眼里, 茶也不再是道, 变成了一种玩物,茶叶越来越香。然而这种令人惊异的花香, 正是不肯体悟自然,却玩弄自然的结果, 毫无唐宋时期仪式的浪漫。 对此, 我并不认同。

第三章 道和禅
众所周知, 日本的茶道和禅有密切关系。 岗仓说,茶道来源于禅宗和尚献茶给客人的风俗。甚至在道家的故事里, 老子出关时,从关尹手里接过的最后一样东西,就是一杯茶。
岗仓在这里用了全书最长的篇幅, 试图让西方人理解什么是道, 什么是禅。 因为用英语写书的缘故, 他先强调翻译是不准确的,最理想也是只能看到锦缎的反面,所有纵横的丝线都清楚, 却没有色彩和匠心的微妙之处。但是仍然可以说, 因为古代的圣贤只说道的反面,因为无法正面说出道的真理,这样虽然开始说话的时候显的很傻,但是说完之后, 听众都变聪明了, 所以老子说:下士闻道,大小之,弗笑,不足以为道! 你笑了没有?
岗仓认为,相对于儒的秩序, 道和禅都是自由主义, 两种不同来源于中国的两条大河, 长江和黄河。 儒代表北方的正统, 道和禅是南方的浪漫。儒教的精神理想是完美的古代, 而道教的世界是永远在变, 是荒谬的, 既然如此荒谬, 无需严肃对待。

道的思想深深植于中国国民内心之中。成为节制而又文雅的力量。 温如玉这三个字,就是其集中体现。生活虽然如此苦难, 中国人并不凭借西方死后的天堂作为精神安慰。 我们可以和列子一起御风, 那时我们就是风。 我们可以和河伯一样生活在半空之中。道的审美,在于虚,虚藏万物。一个人只有把自己放空,其它的东西才能自由出入。道的思想在艺术的体现,也要有虚,要留给观众空间,让他能体悟,与作品成为一体。如果在生活中掌握了这种虚的艺术, 你就是道教里的真人。
禅宗应对生活又是另外一种态度,禅的自悟来源于成佛六法之一的冥想,佛陀晚年尤其强调这种方法,并将法门传给迦叶,自此二十八代后传给了达摩。达摩一苇渡江,从此禅宗在华夏开枝散叶。有文字记载的禅宗最早的著作是六祖坛经,二代传至百丈大师,首创禅寺和相关戒律。中国的禅宗和道教一样是相对主义, 禅宗大师对禅的定义, 是在南天见到北极星之术。真理只有通过领悟于真理相反的一方才能实现。因为语言无法传达这种高妙的思想,甚至对于先验体悟,语言反倒是一种障碍,因此禅宗的流传并不见太多经文,而是各种小故事,丹霞和尚冬天烧佛取暖就是一例,旁观者吓坏了,说你亵渎佛祖,丹霞和尚说, 我要从灰烬中提取舍利。旁观者愤怒的说, 你从佛像的灰烬中能找到什么舍利? 于是丹霞和尚回答,既然没有舍利,它就不是佛, 所以我并没有亵渎佛, 并转身回去继续烤火。
禅把尘世和灵魂看的同等重要,物并无大小之分,一粒沙中见宇宙。因此寻求解脱的人应在生活中找到灵光的反射,禅寺的组织也是如此,出了主持,所有人都会分担禅寺的日常劳作,而分给刚入门的工作应当是最轻松,越是有声望和资历的僧人,做的工作应当越低端和枯燥。这是修行的一部分。日常削萝卜皮时的言谈中,也许是悟道的契机。 (请告诉我, 那个禅寺现在是这样)

宋代有个三人尝醋的故事, 可以作为总结。 佛陀,孔子,老子站在生活的象征– 一坛醋面前。每个人用手指蘸醋后放在嘴里品尝, 孔子注重事实,说醋是酸的, 佛陀说, 醋是苦的, 老子说, 醋是甜的。

尾声
岗仓的原书, 一共七章, 还有四章,分别说的是 茶室, 艺术鉴赏,花, 茶道大师。 我觉的作为一篇网文, 现在写到的篇幅已经过长了, 有兴趣的可以去看原书。就不在摘录了。 最后一章茶道大师, 说了茶人利休的一生,利休是日本茶道的创立者和宗师,他最爱的一句话是, 世人只道花开好,却不见雪压峦发春草。日本人崇尚和美一起生活,并死的美丽。 在利休身上得到了集中体现,得力于丰臣秀吉的友谊和赞赏,利休名满日本,然而成也萧何,败也萧何。利休也死于和丰臣秀吉的冲突, 有人告他要毒杀太阁, 特许可以自杀, 于是利休举行了临终茶的仪式,喝完后打碎茶碗,并留诗一首
人生七十
力围希咄
吾这宝剑
祖佛共杀
岗仓全书的结尾就是这首诗,他说利休含笑步入了永恒的世界。 我觉得他并未体悟利休的心境。 利休心境应当是弘一法师的临终遗言, 悲欣交集!
岗仓说的是日本人对茶的理解, 他们确实截取了唐宋文化, 并将之提升为茶道, 岗仓不屑的明清在生活中体悟的自然, 并没有他说的那么不堪。 道法自然, 日本人其实是走偏了。 明朝另开一路, 中国文化有了新高度, 我们又有了世间唯一活的圣人王阳明。

日本人的路走在前面, 中国人随后,各种反复,都有类似。 他们已经走到头了,而现代中国, 摸着石头过河了几十年, 又会到那里去呢?